Мне нужно извлечь этот текст:RegEx необходима помощь с извлечением HTML теги
Line 1 text.
Line 2 text. Line 2 some more text.
Line 3 text,
Line 4 text
из этого HTML:
...
<tr><td class="td_my_custom_text">Line 1 text.
<br>Line 2 text. Line 2 some more text.
<br>Line 3 text,
<br>Line 4 text
<br></td></tr><tr><td> </td></tr>
...
Используя этот RegEx: <td\ class="td_my_custom_text">[\s\S]*?</td>
мне удалось получить что-то близкое, но не близко достаточно. <td class="td_my_custom_text">
, <br>
и </td>
все еще внутри, и я застрял.
- Что нужно изменить в моем регулярном выражении, чтобы избавиться от них?
- Есть ли какой-нибудь инструмент Windows для автоматизации этого задания и копирования только извлеченных данных в новые файлы? У меня есть 5000+ файлов, подобных этому, и я думаю о создании небольшой программы с использованием парсера regex или html, но я хотел бы знать, есть ли лучший подход в первую очередь.
[О, нет!] (Http://stackoverflow.com/q/1732348/335858) – dasblinkenlight