Я пытаюсь извлечь текст с этого сайта: searchgurbani. На этом веб-сайте написано несколько старых текстов, переведенных на английский и панджаби (индийский язык). Он делает очень хороший параллельный корпус. Я успешно извлек все английские переводы в отдельный текстовый файл. Но когда я иду в Пенджаби, Он ничего не возвращает.Почему BeautifulSoup не извлекает весь HTML-код с веб-страницы?
Это снимок экрана Проверьте элемент: (Выделенный текст является переведен Панджаби)
В Скриншот 1, выделенный текст, который принадлежит класса = lang_16 не перечисленные в объекте супа красивый, который должен содержать весь HTML. Вот код Python:
outputFilePunjabi = open("1.txt","w",newline="",encoding="utf-16")
r=urlopen("")
beautiful = BeautifulSoup(r.read().decode('utf-8'),"html5lib")
#beautiful = BeautifulSoup(r.read().decode('utf-8'),"lxml")
punjabi_text = beautiful.find_all(class_="lang_16")
for i in punjabi_text:
outputFilePunjabi.write(i.get_text())
outputFilePunjabi.write('\n')
Если я запускаю тот же код с class_ = lang_4 это делает работу.
Пожалуйста, сделайте следующее, чтобы увидеть lang_16 в инспектировать элемент:
Пожалуйста сделайте следующее на этой веб-странице: Перейти к предпочтениям -> Tick «перевод Шри Гуру Грант Сахиб дзи (С. М.Сингхом) - Punjabi "в разделе Дополнительные переводы, доступные на Guru Granth Shahib: -> прокрутить вниз - отправить изменения -> открыть страницу
Пожалуйста, направляйте меня, где я иду не так.
(питон версия = 3,5)
PS: У меня очень небольшой опыт в веб-слом.
Интересных, я на самом деле не вижу элемент с 'класса =" lang_16 "на странице. Вы уверены, что ссылка верна? .. – alecxe
Просьба сделать следующее на этой веб-странице: Перейти к настройкам -> Tick "перевод Шри Гуру Грантх Сахиб джи (С. Манмоханом Сингхом) - Пенджаби" в разделе Дополнительные переводы, доступные на Гуру Granth Shahib: -> прокрутить вниз - отправить изменения -> повторно открыть страницу | Вы должны увидеть это @alecxe – ssokhey
Прежде всего, «Inspect» не показывает оригинальный HTML, но какие бы результаты ни возникали после его различных модификаций. Используйте «Просмотр источника», чтобы увидеть фактический источник, который вы можете найти в своем скрипте. Затем посмотрите, есть ли какая-либо разница.Во всяком случае, я не вижу содержимое с экрана в любом из этих представлений. – zvone