2010-04-06 1 views
1

Я хочу сделать программу, которая принимает в качестве пользователя ввод адреса веб-сайта. Затем программа переходит на этот сайт, загружает его, а затем анализирует информацию внутри. Он выводит новый html-файл, используя информацию с веб-сайта.Разбор веб-сайта

В частности, что эта программа будет делать, это взять определенные ссылки с сайта и поместить ссылки в выходной файл html, и он отбросит все остальное.

Сейчас я просто хочу сделать это для сайтов, для которых не требуется вход в систему, но позже я хочу, чтобы он работал на сайтах, где вам нужно войти в систему, поэтому он должен будет иметь дело с файлами cookie ,

Я также хочу, чтобы в дальнейшем программа могла исследовать определенные ссылки и загружать информацию с этих сайтов.

Каковы лучшие языки программирования или инструменты для этого?

+2

Самый простой язык для выполнения задачи - это тот, который вы знаете лучше всего! Какие языки/инструменты вы уже знаете? –

+0

Как примечание, возможно, вы захотите рассмотреть возможность прямого ввода источника HTML. Это облегчает пользователям ввод веб-сайтов, для которых требуются учетные данные. Кроме того, если пользователь не предоставит вам свои учетные данные, вы не сможете войти в систему от их имени. – Cameron

+0

В настоящее время я использую C++, но имею некоторый опыт работы с Python, Perl и другими материалами. Я собираюсь войти с моим собственным именем пользователя и паролем. – neuromancer

ответ

3

Beautiful Soup (Python) настоятельно рекомендуется, хотя у меня нет опыта с ним лично.

1

Python.

Довольно легко написать простой искатель с использованием стандартных библиотек python, но вы также сможете найти существующие библиотеки искателей python, доступные в Интернете.

Смежные вопросы