Я пытаюсь очистить http://emojipedia.org/emoji/, но я не уверен, что это самый эффективный способ сделать это. То, что я хотел бы очистить, находится внутри таблицы class = "emoji_list". Я хотел бы сохранить материал внутри каждого «td» в отдельных столбцах. Вывод будет иметь следующую, где каждую строку представляет смайлик:Очистить класс таблицы в Python
Col1_Link Col2_emoji Col3_Comment Col4_UTF
"/emoji/%F0%9F%98%80/" Grinning Face U+1F600
Я написал следующий код до сих пор, но я не уверен, что это лучший способ сделать это.
import requests
from bs4 import BeautifulSoup
import urllib
import re
url = "http://emojipedia.org/emoji/"
html = urllib.urlopen(url)
soup = BeautifulSoup(html)
soup.findAll('tr', limit=2)
Большое спасибо за вашу помощь.
Большое спасибо! «Table = soup.select_one (« table.emoji-list »)« не работает для меня, но я использовал «table = soup.find (« table », {'class': 'emoji-list'}) " – morfara
@morfara, интересно, вы использовали запросы, чтобы получить источник? –
Я новичок в соскабливании, и я должен признать, что это настолько запутывает, какие библиотеки лучше всего использовать. Знаете ли вы какие-либо хорошие ресурсы, которые объясняют, почему запросы лучше по urllib? P.s. 1 Да, я использовал его, но он дает мне «TypeError: объект« NoneType »не может быть вызван» P.s. 2 Для td1.text я получаю «u» \ U0001f600 Grinning Face »в качестве вывода. Есть ли простой способ сохранить только английский язык и удалить юникод? Еще раз спасибо! – morfara