Я знаю, что это было задано раньше, но я не могу найти хороший ответ для node.jsКак преобразовать HTML-страницу в обычный текст в node.js?
Мне нужна серверная часть для извлечения обычного текста (без тегов, скрипта и т. Д.) С HTML-страницы, которая извлекается.
Я знаю, как сделать это на стороне клиента с помощью jQuery (получить содержимое .text() тега body), но не знаю, как это сделать на стороне сервера.
Я пробовал https://npmjs.org/package/html-to-text, но это не обрабатывает скрипты.
var htmlToText = require('html-to-text');
var request = require('request');
request.get(url, function (error, result) {
var text = htmlToText.fromString(result.body, {
wordwrap: 130
});
});
Я пробовал phantom.js, но не могу найти способ получить простой текст.
Как удалить скрипты? '$ .find (" script "). delete()' генерирует ошибку отсутствия такого метода. 'jsdom.env ({ url: url, scripts: [" http://code.jquery.com/jquery .js "], done: function (errors, window) { var $ = window. $; $ .find (" script "). delete();' – metalaureate
try '$ ('script'). delete () ' – hgoebl
" TypeError: Object [object Object] не имеет метода 'delete' ". Я задам этот вопрос как отдельный вопрос SO. – metalaureate