crawler4j не распознает все ссылки на странице

В основном я столкнулся с проблемой, когда crawler4j не распознает все ссылки на странице.crawler4j не распознает все ссылки на странице

скажем, например, есть 5 ссылок, существующих на странице, из них только 3 распознается и, следовательно, извлекается. Остальные 2 даже не распознаются.

Каков ожидаемый выход? Что ты видишь вместо этого? Все ссылки на странице должны быть признаны так, чтобы они могли быть получены

Какую версию продукта вы используете? crawler4j 4.1

Просим представить дополнительную информацию ниже. Единственное отличие, которое я нашел в ссылках, которые не распознаны, заключается в том, что эти ссылки имеют угловую скобку.

ex.

<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a>

источник

2015-05-11 Amar Vyawhare

Да, это похоже на ошибку в парсера crawler4j.

Он находит тег, затем он ищет закрывающий кронштейн - вот точка отказа, которую я предполагаю.

Пожалуйста, отправьте вопрос на новом сайте crawler4j - на GitHub: https://github.com/yasserg/crawler4j/issues

Благодарности

источник

2015-08-24 14:08:30 Chaiavi

crawler4j не распознает все ссылки на странице

ответ

Смежные вопросы