2010-04-27 3 views
1

В Internet Explorer есть возможность сохранить веб-страницу в виде текстового файла со всеми удаленными тегами. Мне нужен способ пакетной обработки этого материала для проекта на работе. Или есть какие-то утилиты или библиотеки командной строки, которые могут сделать для меня то же самое? COM-interop с IE (не мой первый выбор!)? Он не должен форматироваться точно так же, как IE, просто дайте мне простой текст.Преобразование HTML в текст

+2

Каких языков? – SLaks

+0

Java или python. – JSS

ответ

1

Существует много программ, которые это делают. Некоторые из них называются html2text. Там this one (который недоступен изначально для Windows, но компилируется под Cygwin) и another, что для Win32.

0

Я когда-то видел сценарий, который использовал lynx для рендеринга HTML в обычный текст для автоматической генерации простой текстовой почты из HTML. Но не мой первый выбор.

0

Вы можете сделать это в C# с помощью HTML Agility Pack:

var doc = new HtmlWeb.Load(url); 
File.WriteAllText(path, doc.DocumentElement.InnerText); 
Смежные вопросы