2016-10-06 3 views
1

В настоящее время я очищаю веб-сайт с кодировкой ISO-8859-1, используя Scraperjs. Моя проблема заключается в том, что символы, такие как æ, ø, å и é, неправильно кодируются (они отображаются/сохраняются как знак вопроса).Неправильная кодировка при очистке с помощью Scraperjs

Любые идеи?

Scraperjs: https://github.com/ruipgil/scraperjs

ответ

0

нашел решение сам. Вам нужно указать кодировку в двоичном формате, чтобы читать символы, как показано. См. Код ниже:

 scraperjs.StaticScraper.create() 
     .request({ url:"http://vg.no", encoding: "binary"}) 
     .scrape(function($) { 
      return $("p").map(function() { 
       return $(this); 
      }); 
     }) 
     .then(function(domElements)......... 
0
const scraperjs = require('scraperjs'); 
const urlToScrape = 'http://www.somesite.com'; 
const selectorToScrape = "div#someId"; 
scraperjs.StaticScraper.create({ 
    url: urlToScrape, 
    encoding: "binary" 
}).scrape(function ($) { 
    return $(selectorToScrape).map(function() { 
     return $(this).text(); 
    }).get(); 
}).then(function (result) { 
console.log(result); 
}); 
Смежные вопросы