2015-09-10 1 views
1

Я собираюсь разбирать файл Викисловаря на многих языках (английском, японском и т. Д.). Отсюда (Parse Wiktionary XML data dump into MySQL database using PHP) Я вижу основную структуру. Но мой вопрос в том, что означают эти элементы?Кто-нибудь знает о структуре XML-файла Wiktionary?

Например, я думаю, что название под элементом страницы - это слово в словаре. Но где его перевод на другие языки? Где его синонимы?

ответ

0

«... перевод на другие языки? Где его синонимы?»

Для вас есть три плохие новости.

  1. Вся эта информация (переводы, синонимы) представляет собой простой текст из Викисловаря.

  2. Различные викторины имеют разную структуру словарной статьи. Например, сравните структуру изделия в English Wiktioinary и в Russian Wiktionary.

  3. Структура статьи Викисловаря не представлена ​​в XML-файле, это просто простой текст, см. Пункт 1. Таким образом, вам нужно разобрать этот текст, чтобы извлечь синонимы или перевод.

Вы можете прочитать мою статью о преобразовании (парсинг) текстов статей Викисловаря в машиночитаемые базы данных: http://arxiv.org/abs/1011.1368

+0

Ниццы! Надеюсь, поможет! Теперь я просто читаю каждую строку в Python и извлекаю информацию. Но кажется, что исключения существуют повсюду, и трудно использовать правило для их извлечения. Хм ... – Shudong

Смежные вопросы