2010-04-16 3 views

ответ

14

Отъезд this page here on Wikipedia - есть возможность просто загрузить архив с названиями статей. Вот actual path to the download page:

  • All Titles (сжат GZIP) - 32+ Мб на момент публикации.

Edit:

Вы можете заметить, не знающий английское название, фигурирующее в списке (и некоторые сквернословие - посоветуйте), содержащиеся в enwiki-latest-all-titles-in-ns0.gz. Это связано с тем, что по умолчанию большинство людей создают контент на главной английской вики (код языка en). Если вы будете исследовать другие языковые свалки, вы увидите, что существуют разные наборы статей.

Чтение на the main download page, есть ссылки на возможность использования Википедического API для выполнения некоторых типов запросов в Википедии, но я не уверен, что это решит вашу проблему (таксономия страниц, похоже, не обеспечивает простой способ отличить «английский» контент от «контента на английской вики»).

+0

Это только статьи на английском языке - используйте первую ссылку, если хотите, чтобы вы могли найти заголовки статей (и тезисы/содержание) для других языков. –

+0

Большое спасибо @AJ – Boolean

+0

Я заметил, что названия фактически содержат другие языки. Есть ли способ получить только названия на английском языке? – Boolean

0

Я не знаю ни одного центрального списка статей, но если вам просто нужно большое количество из них, а не полный список (учитывая, что любой полный список всегда будет устаревшим), вы можете вероятно, что-то связать с wget, чтобы рекурсивно следовать ссылкам в википедии с главной страницы и хранить URL-адреса, которые вы получаете.

+0

Если вы действительно хотели воспользоваться этим типом подхода, вы можете перечислить такие индексы, как [алфавитный список] (http://en.wikipedia.org/wiki/Wikipedia:Quick_index) –

+1

Помните, однако, что Википедия конкретно спрашивает если вы * должны * принять этот тип подхода (который не должен быть действительно необходим), вы ограничиваете скорость доступа к страницам, чтобы избежать перегрузки своих серверов. –