2014-09-22 5 views
1

Я использую электронную таблицу google, чтобы извлечь несколько описаний книг с html-страницы.Xpath акценты в источнике

A1 содержит номер ISBN, а в другой ячейке у меня есть =importXML("http://www.ibs.it/code/"&A1& "/scheda/libro.html","(//span[@class='tcorpotesto'])[1]").

Это работает, но что-то не так с акцентами. Например, на http://www.ibs.it/code/9788823503298/hornby-nick/febbre-90ordm.html одним из слов является «Перчик», но скребковый текст в ячейке - «Окунь»?

Как это исправить? Это та же проблема со всеми акцентированными персонажами.

+1

XPath сам кодирует-агностик - или, скорее, он ожидает, что он будет запущен против данных, содержащих строки, состоящие из символов, а не байтов, уже декодированных из их формы на диске. Короче говоря, это менее общий вопрос XPath и многое другое, требующее некоторого погружения в детали реализации. –

ответ

0

В документе на http://www.ibs.it/code/9788823503298/hornby-nick/febbre-90ordm.html используется кодировка ISO-8859-1.

Google использует UTF-8.

Похоже, что их реализация importXML() не выполняет трансляцию набора символов, сохраняя эти символы правильно. Вы можете предоставить свой собственный прокси/веб-сервис, который выполняет трансляцию inline, или зарегистрировать билет, запрашивающий исправление от восходящего потока.

Смежные вопросы