2016-11-27 6 views
-4

Как получить все названия статей в Википедии в одном месте без дополнительных символов и pageids. Просто название статьи. Что-то вроде этого:Как получить все статьи в Википедии?

image

При загрузке википедии дамп, я получаю this

Может быть, я знаю, что движение, которое могло бы получить мне все страницы, но я хотел бы получить все страницы в один дубль.

+2

Что вы сделали сейчас? Я не буду обсуждать ваш вопрос, но многие люди здесь, если вы не спросите его правильно. –

+1

Я предлагаю вам прочитать это: http://stackoverflow.com/help/how-to-ask –

+0

Я читал это, но я не видел, чего хотел. – user6779864

ответ

3

Вы найдете его на https://dumps.wikimedia.org

последняя Список названий страниц в основном пространстве для английской Википедии, как дамп базы данных here (69 MB).

Если вы предпочтете хотите через API вы используете query и list=allpages но только даст вам максимум 500 (5k для ботов) в то время, так что вам придется сделать больше, чем 10 000 API вызовов для английской Википедии.

Пример:https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&aplimit=max

+0

Мне просто нужны заголовки статей. Вы хотите, чтобы я показал вам, чего я хочу? – user6779864

+2

Из дампа базы данных вам просто нужно выбрать столбец с заголовками, и у вас будет простой список. – Ainali

+0

@Ainali вы бы мне показали картинку? – user6779864