2013-03-02 2 views
-2

У меня есть ссылка на wiki @http://wiki.company.com/company/w/index.php?title=test&action=edit, данные которой выглядят ниже в HTML ... Есть ли способ получить блок, в котором есть тест Combo? Любые встроенные модули python, оцените входыЧтение данных по ссылке

INPUT:- 

=== find === 

data1 

==== <font color="#008000">test Combo</font> ==== 

{| border="1" cellspacing="1" cellpadding="1" 
|- 
test 
|} 

==== next bloock === 

data3 

OUTPUT:- 
{| border="1" cellspacing="1" cellpadding="1" 
|- 
test 
|} 
+0

Вы хотите изучить регулярные выражения. –

+0

dont gun me down..i просто нужно вводить алгоритм..i будет обновляться на основе входных данных – user1934146

+0

Если вы хотите получить доступ к исходной разметке wiki для страницы и используете MediaWiki, попробуйте изменить часть 'action = edit' на 'действие = raw'. Это может быть лучшей отправной точкой, чем сгенерированный HTML. –

ответ

0

Сначала вам нужен способ загрузить файл. Стандартным модулем python для этого является urllib2.

Затем вам нужен способ обработки файла HTML. Два хороших модуля python, подходящих для задачи, - Beautiful Soup и lxml.

Смежные вопросы