2015-09-26 2 views
0

У меня есть программа для чтения текста, которую я люблю использовать, потому что она помогает в моей дислексии. Я хочу, чтобы это прочитало страницы Википедии для меня. Я могу использовать читаемость для очистки страницы несколько, но у нее все еще есть все цитаты, подобные этому [1], в тексте и между разделами, он говорит «редактировать» и «цитата нужна» много. Он также говорит такие вещи, как «Основная статья: пример», и он по-прежнему содержит подписи к изображениям.Извлечение чистого текста из Википедии

Я действительно не хочу загружать весь дамп и разбирать его, поскольку это кажется слишком большим. Мне бы очень хотелось, чтобы вы могли видеть страницы в режиме чтения, где они похожи, как в книге для чтения. Я знаю немного Python, поэтому мне было бы хорошо писать скребок, который мог бы взять URL-адрес, загрузить данные и затем проанализировать его. Однако я не уверен, как начать работу.

Программа TTS Я прочитал вещи, которые скопированы из буфера обмена, поэтому, если вход был URL-адресом, а программа скопировала текст в буфер обмена, который был бы потрясающим.

Куда я начну с такого рода вещей? Не могли бы вы описать шаги, которые мне нужно будет сделать? Есть ли там пакеты, которые уже могут это сделать?

- Edit

Это то, что я до сих пор, она работает хорошо (извините за то, как ужасно мой код)

import wikipedia 
article=wikipedia.page("USA") 
content = article.content.encode('utf8') 
content1 = content.replace("=","") 
content2 = content1.replace("edit","") 
content2 = content1.replace("/","") 
import string 
content3 = filter(lambda x: x in string.printable, content2) 
print content3 

import pyperclip 
pyperclip.copy(content3) 
+2

* «Я не хочу, чтобы загрузить весь дамп и разобрать его» * ​​и * "Я был бы хорошо с написанием скребок, который может взять на себя URL, загрузить данные, а затем разобрать его "* являются заявлениями о противоречиях –

+1

Возможно, вы захотите изучить [API Википедии] (https://www.mediawiki.org/wiki/API:Main_page) и использовать простой текстовый вариант одного из доступных форматов вывода. [Пример песочницы] (https://en.wikipedia.org/wiki/Special:ApiSandbox#action=query&prop=extracts&format=json&explaintext=&exsectionformat=plain&titles=Albert%20Einstein) (нажмите «Сделать запрос» на этой странице) –

ответ

Смежные вопросы