У меня есть много файлов HTML со старого веб-сайта, из которого я пытаюсь извлечь текст.Как совместить текст между тегами длиной более 50 символов
Я хотел бы извлечь весь текст между HTML-тегами <p>text</p>
, длина которого превышает 50 символов. Я хочу, чтобы он возвращал текст без тегов.
Это то, что у меня есть до сих пор.
<[^>]+>([^<]{50,})<[^>]+>
Только проблема заключается в том, что он возвращает текст javascript, img и другие теги.
Я использую Notepad ++ для запуска всех файлов.
http://stackoverflow.com/a/1732454/59087 –
Можете ли вы опубликовать несколько тестовых примеров с их результатами? – Appleshell
Мне попался только текст между тэгами. Я пробовал это <\s*p[^>] *> ([^ <] {50,}) <\ s * \/\ s * p \ s *> и, похоже, работает. – JBully