Я ищу предложения по наилучшему способу анализа следующего календаря ... http://www.ucd.ie/events/calendar. Я не могу обнаружить какую-либо известную структуру, используемую, и не могу найти ее в формате RSS/XML/JSON.Анализ HTML/Javascript в базе данных MySQL
Единственный возможный способ разобрать следующее, что я вижу, чтобы разобрать необработанный HTML, который далек от идеала, тем более, что многие из тегов repeditive .. типичное событие выглядит так ..
<tr>
<td class="odd">
<a href="http://www.ucd.ie/events/calendar?dt=d.en.66031&f=week&d=19/10/2010&sd=Wednesday, 06 October 2010 - Wednesday, 01 December 2010&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null&c=null">Exchange Information Talk</a>
<p class="description">Information for students on spending a period of study abroad on exchange as part of their UCD degree</p>
</td>
<td class="odd">UCD International</td>
<td class="odd">A105 Newman Building</td>
</tr>
Как вы видите, синтаксический анализ многих из них с HTML-страницы не будет забавным. В основном мне интересно, есть ли у кого-нибудь какие-либо предложения относительно того, как я буду это делать? или, возможно, более умный способ делать что-то? Я бы очень признателен за любую помощь, поскольку я застрял, и не может найти никаких альтернатив.
Спасибо.
Это был дан ответ [много раз] (http://stackoverflow.com/search?q=html+dom+parsing). Не зная ваших конкретных технологий, я не могу сделать более конкретные рекомендации. –