Я строю поисковую систему и хорошо ее тестирую, ей нужно больше статей. Лучшим источником для них является Википедия.Как извлечь и импортировать страницы Википедии?
Я искал несколько дампов, но некоторые из них являются XML (у меня возникают проблемы с импортом), некоторые из них не содержат контент.
Итак, как получить дамп, желательно в форме MySQL. Это должен быть неанглийский язык.
Любая идея?
Вы можете привести небольшой пример для формата контента? – Eray
Если бы у вас были свалки sql из википедии, у вас был бы клон википедии, вам понадобится программное обеспечение вики, чтобы получить все, что начинает выглядеть как статьи. Доступны apis, и я настоятельно рекомендую импортировать либо из api, либо из одного из множества доступных вариантов структурированных данных. – mirzu
Err ... вы уверены, что у вас есть ресурсы для размещения копии Википедии? И даже если вы это сделаете, как вы планируете обновлять его? – thkala