2011-01-22 4 views
0

Я строю поисковую систему и хорошо ее тестирую, ей нужно больше статей. Лучшим источником для них является Википедия.Как извлечь и импортировать страницы Википедии?

Я искал несколько дампов, но некоторые из них являются XML (у меня возникают проблемы с импортом), некоторые из них не содержат контент.

Итак, как получить дамп, желательно в форме MySQL. Это должен быть неанглийский язык.

Любая идея?

+0

Вы можете привести небольшой пример для формата контента? – Eray

+0

Если бы у вас были свалки sql из википедии, у вас был бы клон википедии, вам понадобится программное обеспечение вики, чтобы получить все, что начинает выглядеть как статьи. Доступны apis, и я настоятельно рекомендую импортировать либо из api, либо из одного из множества доступных вариантов структурированных данных. – mirzu

+0

Err ... вы уверены, что у вас есть ресурсы для размещения копии Википедии? И даже если вы это сделаете, как вы планируете обновлять его? – thkala

ответ

3

Here - это страница, поясняющая, как импортировать Википедию в Solr.

Here - это пошаговое объяснение загрузки дампа Википедии в Mysql для запуска локального клона.

+0

Спасибо, миллиард. – flakerimi

+1

+1 для конструктивного ответа. OP просто нужны некоторые тестовые данные, совершенно правильная вещь, чтобы сделать –

+0

Как это происходит, я был там, сделал это и знаю, что это не так просто без рецепта. – bmargulies

Смежные вопросы