2015-09-07 3 views
3

Я делаю веб-соскабливание с помощью beautifulsoup. Веб-страница имеет следующий источник:Много белых пробелов

<td>\n<a href="http://aaa.com">Charles</a>\r\n       (hello)\r\n       </td>, 
<td>\n<a href="http://bbb.com">Diane</a>\r\n       (hi)\r\n       </td>, 
<td>\n<a href="http://ccc.com">Kevin</a>\r\n       (how are you doing)\r\n       </td> 

Я использую следующие коды для печати двух значений. Они отлично работают.

for item in soup.find_all("td"): 
    print item.find('a').text 
    print item.find('a').next_sibling 

Проблема в том, что я сохраняю выходы в CSV-файле, второй столбец не имеет значения. Похоже, что есть много пробелов. Любое предложение? Заранее спасибо.

ответ

3

Найти все next text siblings, присоединиться к ним и полоса:

"".join(item.find('a').find_next_siblings(text=True)).strip() 
+0

Works! Спасибо за решение! – kevin

Смежные вопросы