Да, HtmlAgeilityPack - хороший инструмент для анализа HTML, но этого явно недостаточно.
Есть 3 элемента в ползания:
1) Обход себя, т.е. зацикливание через веб-сайты: Это может быть сделано путем отправки запросов на случайный IP-адрес, но это не работает хорошо, так как многие сайты используют общий IP адрес HTTP с заголовком хоста, поэтому использование IP не ударяет по нему. С другой стороны, существует слишком много IP-адресов, которые не используются или не размещаются на веб-сервере, поэтому это никуда не денется.
Предлагаю вам отправить запрос в google (искать слова из словаря) и просканировать полученные результаты.
2) Оказание контента: Многие веб-сайты генерируют HTML-контент в JavaScript при загрузке формы, поэтому, если вы отправляете простой запрос, он не сможет захватить контент, поскольку пользователь сможет увидеть его , Вам нужно отобразить страницу в браузере, и это можно сделать с помощью Webkit.net, который является инструментом с открытым исходным кодом, хотя он все еще находится в бета-версии.
3) Понимание и разбор HTML: Использование HTML-пакета, а также множество примеров в Интернете. Это можно использовать и для обхода сайта.
Единственное плохое в том, что он делает свою работу так хорошо, что Фор не может ничего научиться от ее использования. :-) –
@Steven - но он не должен его использовать, только изучите его :) – KevinDTimm
@Kevin: О, но искушение! –