Я только начал изучать Рубин. Очень классный язык, ему это очень нравится.Hpricot, Получить весь текст из документа
Я использую очень удобный HTML-парсер Hpricot.
Что я ищу, это захватить весь текст со страницы, исключая HTML-теги.
Пример:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>Data Protection Checks</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<div>
This is what I want to grab.
</div>
<p>
I also want to grab this text
</p>
</body>
</html>
я в основном хотят, чтобы захватить только текст, так что я в конечном итоге со строкой, как так:.
«Это то, что я хочу, чтобы захватить я тоже хочу захватить этот текст "
Какой был бы лучший способ сделать это?
Приветствие
Eef
@Eef, вам, возможно, придется удалить код яваскрипта перед сбором текста массива '(док/"скрипт"), каждый из {| JS |. js.inner_html = ''} '. – Andrei