Я хочу сделать программу, которая принимает в качестве пользователя ввод адреса веб-сайта. Затем программа переходит на этот сайт, загружает его, а затем анализирует информацию внутри. Он выводит новый html-файл, используя информацию с веб-сайта.Разбор веб-сайта
В частности, что эта программа будет делать, это взять определенные ссылки с сайта и поместить ссылки в выходной файл html, и он отбросит все остальное.
Сейчас я просто хочу сделать это для сайтов, для которых не требуется вход в систему, но позже я хочу, чтобы он работал на сайтах, где вам нужно войти в систему, поэтому он должен будет иметь дело с файлами cookie ,
Я также хочу, чтобы в дальнейшем программа могла исследовать определенные ссылки и загружать информацию с этих сайтов.
Каковы лучшие языки программирования или инструменты для этого?
Самый простой язык для выполнения задачи - это тот, который вы знаете лучше всего! Какие языки/инструменты вы уже знаете? –
Как примечание, возможно, вы захотите рассмотреть возможность прямого ввода источника HTML. Это облегчает пользователям ввод веб-сайтов, для которых требуются учетные данные. Кроме того, если пользователь не предоставит вам свои учетные данные, вы не сможете войти в систему от их имени. – Cameron
В настоящее время я использую C++, но имею некоторый опыт работы с Python, Perl и другими материалами. Я собираюсь войти с моим собственным именем пользователя и паролем. – neuromancer