У меня есть различные документы HTML, которые я пытаюсь извлечь из ссылок: (1) другие html-документы, (2) файлы изображений, такие как .jpg, .png и .bmp. Мне нужно регулярное выражение, чтобы сделать это, и я не могу понять это.Мне нужно регулярное выражение для извлечения изображений и HTML-документов
Каждый из HTML страниц будет иметь код, подобный следующему:
IMG стиль = "MARGIN-BOTTOM: 20px; MARGIN-LEFT: 20px" ALIGN = правильный SRC = "изображений/sample001. JPG ">
IMG стиль =" MARGIN-BOTTOM: 25px; MARGIN-LEFT: 25px "выравнивать = правый SRC = "изображений/sample002.png">
IMG стиль =" MARGIN-BOTTOM: 20px; MARGIN-LEFT: 20px "align = right src =" images/sample003.bmp ">
HREF = "JavaScript: parent.POPUP ({URL: 'testDoc001.htm', тип: 'общий', ширина: 600, высота: 645})">
HREF = "JavaScript: parent.POPUP ({URL: 'testDoc002.html', тип: 'общий', ширина: 700, высота: 712}) ">
в качестве примера, регулярное выражение будет работать на указанной выше HTML и производят в результате массив:
изображения/sample001.jpg
изображения/sample002.png
изображения/sample003.bmp
testDoc001.htm
testDoc002.html
Может кто-нибудь помочь мне? Спасибо.
Хотя я согласен, что регулярное выражение и HTML [редко идут вместе] (http://stackoverflow.com/a/1732454/89391), я думаю, что что-то вроде выделения ссылок с регулярными выражениями в порядке. – miku
@miku: Мой опыт в том, что вы можете заставить его работать для небольшого подмножества вещей, с которыми вы его проверяете. И затем появляется какая-то новая конструкция и разрывает ее. Я обнаружил, что использование парсера HTML позволяет мне быстрее работать с кодом, результат более надежный и более способный справляться с изменяющимися условиями. Но ваш пробег может отличаться. –