я пытаюсь получить элементы из веб-страницы в Google с помощью таблицы:Как решить ошибку при разборе HTML
function pegarAsCoisas() {
var html = UrlFetchApp.fetch("http://www.saosilvestre.com.br").getContentText();
var elements = XmlService.parse(html);
}
Однако я продолжаю адресности ошибку:
Error on line 2: Attribute name "itemscope" associated with an element type "html" must be followed by the ' = ' character. (line 4, file "")
Как Я решаю это? Я хочу получить текст H1 с этого сайта, но для других сайтов мне придется выбирать другие элементы.
Я знаю, что метод XmlService.parse(html)
работает на других сайтах, таких как Википедия. Как вы можете видеть here.
Я использовал regex.exec(), но ваш метод способ проще ... Однако, будучи в состоянии разобрать HTML будет make может значительно облегчить жизнь, поскольку я мог бы выбирать по ID, классу и т. д. на более сложных страницах. И вы можете анализировать HTML с помощью XmlService.parse (html); Некоторые веб-страницы, такие как wikipedia, прекрасно работают ... – user3347814
Я думаю, что для использования методов DOM вам нужно передать HTML обратно в интерфейс; что можно сделать. Но опять же, я не думаю, что вам нужно разобрать его. Если вы знаете способ выбора идентификатора, класса и т. Д. В боковом коде сервера .gs', дайте мне знать, как это сделать. –
Рабочий март 2017 года! 'indexOf' разрешает [второй параметр] (https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/String/indexOf) для настройки начальной точки поиска. Подробнее о [Class Logger из Google Apps Script] (https://developers.google.com/apps-script/reference/base/logger). – joelhaus