2013-05-14 2 views
2

Я искал, но не нашел то, что я хочу, что:Какой был бы лучший подход к извлечению одной языковой формы wiktionary?

лучшие и наиболее эффективные, чтобы извлечь все итальянские слова, этимологию и часть речи ... в том числе множественного числа слов (Амико, amichi) из Викисловаря , Я хотел бы поместить его в CSV (возможно, слишком большой) или MySQL db как чистый текст (а не blobs).

Я хочу, чтобы запись для каждого итальянского слова была обязательной.

mwdumper продолжает сбой.

любой совет был бы рад!

ответ

2

Я создал небольшую программу Java, которая извлекает часть речи (глагол, нудирование, прилагательное, adn и так далее) из дампа XML en.wiktionary, here, он использует TSV, но может быть легко адаптирован.

+0

Jackopo, я пытался скомпилировать и получил эту ошибку: POSfromDump.java: 20: ошибка: класс GeneraDatabasePOS является публичным, должен быть объявлен в файле с именем GeneraDatabasePOS.java GeneraDatabasePOS общественного класса { (жаль, что я никогда не компилируется java before) – esponapule

+0

Вы должны сохранить его в файле, называемом классом, то есть GeneraDatabasePOS.java. Вам также придется изменить строки кода, содержащие пути к файлам. – Jacopofar

+0

Также вы должны поместить его в папку под названием «generazione» и запустить его с помощью java generazione.GeneraDatabasePOS. – Jacopofar

Смежные вопросы