2010-10-19 3 views
0

Я ищу предложения по наилучшему способу анализа следующего календаря ... http://www.ucd.ie/events/calendar. Я не могу обнаружить какую-либо известную структуру, используемую, и не могу найти ее в формате RSS/XML/JSON.Анализ HTML/Javascript в базе данных MySQL

Единственный возможный способ разобрать следующее, что я вижу, чтобы разобрать необработанный HTML, который далек от идеала, тем более, что многие из тегов repeditive .. типичное событие выглядит так ..

<tr> 
      <td class="odd"> 
       <a href="http://www.ucd.ie/events/calendar?dt=d.en.66031&amp;f=week&amp;d=19/10/2010&amp;sd=Wednesday, 06 October 2010 - Wednesday, 01 December 2010&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null">Exchange Information Talk</a> 
       <p class="description">Information for students on spending a period of study abroad on exchange as part of their UCD degree</p> 
      </td> 
      <td class="odd">UCD International</td> 
      <td class="odd">A105 Newman Building</td> 
     </tr> 

Как вы видите, синтаксический анализ многих из них с HTML-страницы не будет забавным. В основном мне интересно, есть ли у кого-нибудь какие-либо предложения относительно того, как я буду это делать? или, возможно, более умный способ делать что-то? Я бы очень признателен за любую помощь, поскольку я застрял, и не может найти никаких альтернатив.

Спасибо.

+0

Это был дан ответ [много раз] (http://stackoverflow.com/search?q=html+dom+parsing). Не зная ваших конкретных технологий, я не могу сделать более конкретные рекомендации. –

ответ

1

Если сайт не предоставляет другую услугу, то этот HTML-код, застрявший в его синтаксическом анализе, но запросы XPATH могут сделать вашу жизнь намного приятнее, чем просто сопоставление строк.

0

Вы можете попробовать его с помощью XPath, чтобы получить ссылку вы сделать

//td[@class='odd']/a/@href 

, но это пошло перерыв каждый раз, когда они меняют HMTL Ouput

+0

нет способа создать что-то, что автоматически будет работать для каждого случая? выход будет меняться ежедневно. – Aidanc

+0

Нет, вот почему веб-службы созданы, спросите ваш университет. И под «html ouput» я имею в виду только форму тега html, а не контент, поэтому я серьезно сомневаюсь, что они будут часто меняться (но они могут). –

Смежные вопросы