У меня есть содержание HTML, как это:регулярное выражение: игнорировать HTML-теги
<p>The bedding was hardly <strong>able to cover</strong> it and seemed ready to slide off any moment.</p>
Вот полная версия HTML. http://collabedit.com/gkuc2
мне нужно искать строку hardly able to cover
(просто пример), я хочу, чтобы игнорировать любые HTML-теги внутри строки, я ищу. Потому что в файле HTML есть теги HTML внутри строки, и простой поиск не найдет его.
Прецедент есть: У меня есть две версии файла:
- HTML-файл с текстом и тегами
- Тот же файл, но только с необработанным текстом (удалены любые теги и дополнительные пробелы)
Подстрока, которую я хочу найти (игла), из текстовой версии (которая не содержит никакого HTML-тега), и я хочу найти ее позицию в HTML-версии (файл, который имеет теги).
Какое регулярное выражение будет работать?
Где ваш 'Complete' HTML – Tushar
простой: вы не используете регулярные выражения. regexes + html = плохая идея. используйте парсер DOM или разделите ВСЕ теги, а затем регулярное выражение на открытый текст. –
Как сказал @MarcB, обычно это не то место, где вы бы использовали RegEx. если вы ищете простую находку, вы можете попробовать поставить '(. *)' между каждым словом, которое вы ищете. это может работать только на 40%, хотя: «вряд ли (. *) возможно (. *) до (. *) cover' –