Как я могу сообщить "sanitize-html", чтобы фактически удалить теги html (сохранить только содержимое внутри)? в настоящее время, если, например, я установил его для хранения разделов div, на выходе он также пишет <div>some content</div>
- я хочу только внутри ... ('some content')node.js sanitize html, а также удалять теги
, чтобы сделать его коротким - я не хочу теги, атрибуты и т. д. - только содержание этих элементов.
var Crawler = require("js-crawler");
var download = require("url-download");
var sanitizeHtml = require('sanitize-html');
var util = require('util');
var fs = require('fs');
new Crawler().configure({depth: 1})
.crawl("http://www.cnn.com", function onSuccess(page) {
var clean = sanitizeHtml(page.body,{
allowedTags: [ 'p', 'em', 'strong','div' ],
});
console.log(clean);
fs.writeFile('sanitized.txt', clean, function (err) {
if (err) throw err;
console.log('It\'s saved! in same location.');
});
console.log(util.inspect(clean, {showHidden: false, depth: null}));
var str = JSON.stringify(clean.toString());
console.log(str);
/*download(page.url, './download')
.on('close', function() {
console.log('One file has been downloaded.');
});*/
});
спасибо, оцените! – user1025852
Спасибо. Вот ссылка для справки в будущем: https://github.com/punkave/sanitize-html – Wtower