2013-07-19 3 views
1

Из следующего текстового файла, как необходимый набор символов может быть извлечен из каждой строки в список в python? Обязательные символы: «ONLY REQUIRED1.JPG», «ТОЛЬКО REQUIRED2.JPG», «ТОЛЬКО REQUIRED3.JPG». Таким образом, результат должен быть:извлечь конкретные тексты в python

result = ['ONLY REQUIRED1.JPG', 'ONLY REQUIRED2.JPG', 'ONLY REQUIRED3.JPG'] 


x'<xxx "-//xxx//xxxx//xx">\n<ggg>\n <kkk>\n <title>asdf asdf/xx/aaa.xxx/bbb.bb.cc</asdf>\n </head>\n <body>\n<pre>\ndhh\n</pre>\n<pre><img src="/icons/blank.gif" alt="Icon "> <a href="?C=N;O=D">Name</a>         alt="[DIR]"> <a href="/asdf/kkkk.xxx/">Parent Directory</a>              \n<img src="/lllll/ttt.gif" alt="[IMG]"> \n <a href="ONLY_REQUIRED1.JPG">ertwe</a> \n href="ONLY_REQUIRED2.JPG">x'<xxx "-//xxx//xxxx//xx">\n<ggg>\n <kkk>\n <title>asdf asdf/xx/aaa.xxx/bbb.bb.cc</asdf>\n </head>\n <body>\n<pre>\ndhh\n</pre>\n<pre><img src="/icons/blank.gif" alt="Icon "> <a href="?C=N;O=D">Name</a> \n href="ONLY_REQUIRED3.JPG">ertwe</a> 
+3

're.findall ('ONLY_REQUIRED \ d.JPG', my_text)'? –

+0

Это так сложно понять новым пользователям. Пожалуйста, разделите код на две части. Во-первых, позвольте мне показать, как извлекать только те строки, которые содержат «.JPG». Затем, позвольте мне показать, как извлечь необходимые тексты в список. –

+0

@JoranBeasley, что означает my_text? –

ответ

0

Я хотел бы сделать это как так

import re 
my_text = open("some.html").read() 
my_list = re.findall("ONLY_REQUIRED\d.JPG",my_text) 
print my_list 

это использует регулярные выражения. он ищет все, что начинается с «ONLY_REQUIRED», за которым следует число, а затем заканчивается на «.JPG»

+0

@ Joran Beasley спасибо, ваш ответ хорош для ответа, который я задал. однако, как я могу искать все те, которые заканчиваются на «.JPG», когда имена меняются, а не «ONLY_REQUIRED»? –

+0

Я задал новый вопрос для этой новой цели –

Смежные вопросы