Я только что начал очищать базовый текст с веб-страниц, и в настоящее время я использую библиотеку HTMLAgilityPack C#. У меня был некоторый успех с боксами с rivals.yahoo.com (спорт - это моя вещь, так почему бы не царапать что-то интересное?), Но я застрял на страницах резюме игры НХЛ. Я думаю, что это интересная проблема, поэтому я бы разместил ее здесь.Устранение неисправностей .HTM File
страница Я проверяю это: http://www.nhl.com/scores/htmlreports/20102011/GS020079.HTM
На первый взгляд, кажется, что основной текст, без AJAX или вещи испортить основной скребка. Затем я понимаю, что не могу щелкнуть правой кнопкой мыши из-за некоторого javascript, поэтому я обхожу это. Я правая кнопка мыши в Firefox и получить XPath домашней команды, используя XPather и я получаю:
/html/body/table[@id='MainTable']/tbody/tr[1]/td/table[@id='StdHeader']/tbody/tr/td/table/tbody/tr/td[3]/table[@id='Home']/tbody/tr[3]/td
При попытке захватить этот узел/внутренний текст, htmlagilitypack не найти. Кто-нибудь видит что-то странное в исходном коде страницы, которое может остановить меня?
Я новичок в этом и все еще изучаю, как люди могут остановить меня от выскабливания, любые советы или трюки с радостью оценены!
p.s. Я соблюдаю все правила сайта относительно ботов и т. Д., Но я заметил это странное поведение и видел это как вызов.
хорошо, спасибо за отзыв о XPather, придется использовать. –
может кто-нибудь еще зайти на эту страницу и попытаться получить xpath для домашней команды (columbus в верхнем правом углу) и вставить ее здесь, чтобы я мог сравнивать? – Saab