2015-05-11 3 views
1

В основном я столкнулся с проблемой, когда crawler4j не распознает все ссылки на странице.crawler4j не распознает все ссылки на странице

скажем, например, есть 5 ссылок, существующих на странице, из них только 3 распознается и, следовательно, извлекается. Остальные 2 даже не распознаются.

Каков ожидаемый выход? Что ты видишь вместо этого? Все ссылки на странице должны быть признаны так, чтобы они могли быть получены

Какую версию продукта вы используете? crawler4j 4.1

Просим представить дополнительную информацию ниже. Единственное отличие, которое я нашел в ссылках, которые не распознаны, заключается в том, что эти ссылки имеют угловую скобку.

ex.

<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a> 

ответ

0

Да, это похоже на ошибку в парсера crawler4j.

Он находит тег, затем он ищет закрывающий кронштейн - вот точка отказа, которую я предполагаю.

Пожалуйста, отправьте вопрос на новом сайте crawler4j - на GitHub: https://github.com/yasserg/crawler4j/issues

Благодарности

Смежные вопросы