В основном я столкнулся с проблемой, когда crawler4j не распознает все ссылки на странице.crawler4j не распознает все ссылки на странице
скажем, например, есть 5 ссылок, существующих на странице, из них только 3 распознается и, следовательно, извлекается. Остальные 2 даже не распознаются.
Каков ожидаемый выход? Что ты видишь вместо этого? Все ссылки на странице должны быть признаны так, чтобы они могли быть получены
Какую версию продукта вы используете? crawler4j 4.1
Просим представить дополнительную информацию ниже. Единственное отличие, которое я нашел в ссылках, которые не распознаны, заключается в том, что эти ссылки имеют угловую скобку.
ex.
<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a>