2013-05-04 4 views
0

У меня есть много файлов HTML со старого веб-сайта, из которого я пытаюсь извлечь текст.Как совместить текст между тегами длиной более 50 символов

Я хотел бы извлечь весь текст между HTML-тегами <p>text</p>, длина которого превышает 50 символов. Я хочу, чтобы он возвращал текст без тегов.

Это то, что у меня есть до сих пор.

<[^>]+>([^<]{50,})<[^>]+> 

Только проблема заключается в том, что он возвращает текст javascript, img и другие теги.

Я использую Notepad ++ для запуска всех файлов.

+3

http://stackoverflow.com/a/1732454/59087 –

+0

Можете ли вы опубликовать несколько тестовых примеров с их результатами? – Appleshell

+0

Мне попался только текст между тэгами. Я пробовал это <\s*p[^>] *> ([^ <] {50,}) <\ s * \/\ s * p \ s *> и, похоже, работает. – JBully

ответ

0

Использование DOM.

В PHP есть, например, textContent.

В jQuery это так же просто, как позвонить text(). Например,

var content = ''; 
$('*').each(function() { 
    if ($(this).text().length > 50) { 
     content += $(this).text() + "\n"; 
    } 
} 

Приведенный выше код будет производить дубликаты, но это должно дать вам представление о том, как действовать.

В любом случае, пожалуйста, всегда указывайте, когда вы спрашиваете о .

Смежные вопросы