2012-10-31 5 views
1

Я хочу разобрать XML Wikipedia дамп и извлечь все различные виды таблиц из него (а не только infoboxes)Извлечение таблиц из Википедии XML дамп

Я использую wikixmlj разобрать свалку, но проблема разборе различные типы таблиц в дампе Википедии (таблицы сплит-ячеек, таблицы объединенных ячеек, таблицы с цветовыми кодами).

Мне удалось разобрать статьи XML, пока не найду элементы, помеченные как таблицы, но у меня нет стандарта для анализа таблиц в объектах, и кажется, что существует множество типов таблиц со многими аранжировками.

есть ли какой-либо документированный стандарт о типах таблиц, чтобы я мог покрыть это в объектах среды выполнения, которые я собираюсь создать, или есть ли способ обойти это?

Примечание:

вот некоторые примеры, которые помогут вам знать, что я имею в виду:

http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States См Эндрю Джексон ряд (некоторые строки объединяются и разделить)

http://en.wikipedia.org/wiki/List_of_pharaohs

http://en.wikipedia.org/wiki/Open_Handset_Alliance

http://en.wikipedia.org/wiki/Comparison_of_web_server_software иногда заголовок на верхней и нижней

+1

Таблицы написаны разными людьми для разных целей, поэтому вы не можете ожидать там большей согласованности. – svick

+0

Я думал, что люди, производящие дамп xml, каким-то образом помещают их в ряд определенных типов таблиц. – SKandeel

+1

XML-дампы содержат ровно тот же текст, что и исходная страница, вот и вся свалка. И люди, производящие их, не собираются идти на миллионы страниц, чтобы делать то, что вы ожидали. – svick

ответ

0

хорошо, если вы заинтересованы в таблицах себя только, что вам нужно сделать следующее

1-скачать википедии дамп (все свалка)

2-Извлечение таблицы из дампа в отдельный файл или набор файлов: использовать регулярное выражение \{\|[\s|\S]+?\n\|-?\}

3-используйте библиотеку gwtwiki построить модель отвала, а затем преобразовать файл таблицы только в HTML:

-add this class и this class проекту

-Добавить необходимые библиотеки в gwtwiki и других


Теперь у вас есть html-файлы, которые содержат таблицы, которые появлялись на всем дампе википедии, а таблицы находятся в формате html, поэтому легко манипулировать (обратите внимание, что если вы хотите манипулировать любым файлом с помощью кода, чтобы записать его в файл Unicode , из-за кодирования некоторых из cha racters таблиц)

Смежные вопросы