Я в следующей ситуации. Я пытаюсь преобразовать беспорядочный scraped html-код в красивую и аккуратную структуру xml.Скребок грязного веб-сайта html с PHP
Неполный HTML код Царапины сайта:
<p><span class='one'>week number</span></p>
<p><span class='two'>day of the week</span></p>
<table class='spreadsheet'>
table data
</table>
<p><span class='two'>another day of the week</span></p>
<table class='spreadsheet'>
table data
</table>
<p><span class='one'>another week number</span></p>
ETC
Теперь я хочу, чтобы создать следующую структуру XML с PHP:
<week number='week number'>
<day name='day of the week'>
<data id='table data'>table data</data>
</day>
<day name='another day of the week'>
<data id='table data'>table data</data>
</day>
</week>
<week number='another week number'>
ETC
</week>
пытался простой метод HTML DOM, но не знаю, как получить следующего брата и проверить, что это новый день недели, новые данные таблицы или новая неделя и т. д.
Я, конечно, также открыт для других решений.
Спасибо.
Приветствия, Dandoen
Возможный дубликат [Скрап-содержимое веб-страницы] (http://stackoverflow.com/questions/584826/scrape-web-page-contents) –