2015-07-02 2 views
2

Я пытаюсь загрузить некоторые файлы CSV в OrientDB. Они были извлечены из базы данных MySQL, содержащей данные Unified Medical Language System (NIH UMLS). Два файла содержат вершины:OrientDB ETL с CSV, без заголовков и нескольких полей объединения

"C0484850" "A18164418" "Troponin T.cardiac [Mass/volume] in Venous blood" "Y" "Clinical Attribute" 
"C0484850" "A18241423" "Troponin T.cardiac:MCnc:Pt:BldV:Qn" "Y" "Clinical Attribute" 
"C0484850" "A18861342" "Troponin T.cardiac:Mass Concentration:Point in time:Blood venous:Quantitative" "Y" "Clinical Attribute" 
"C0484851" "A18280127" "Troponin T.cardiac [Mass/volume] in Serum or Plasma" "Y" "Clinical Attribute" 
"C0484851" "A18357585" "Troponin T.cardiac:MCnc:Pt:Ser/Plas:Qn" "Y" "Clinical Attribute" 
"C0484851" "A18816754" "Troponin T.cardiac:Mass Concentration:Point in time:Serum/Plasma:Quantitative" "Y" "Clinical Attribute" 

и отношения:

"C0484850" "A18164418" "has_common_name" "C0484850" "A18241423" 
"C0484850" "A18241423" "class_of" "C0201682" "A18205079" 
"C0484850" "A18241423" "component_of" "C3538889" "A18284809" 
"C0484850" "A18241423" "property_of" "C0560150" "A18367132" 
"C0484850" "A18241423" "scale_of" "C1442116" "A18405933" 
"C0484850" "A18241423" "system_of" "C1442207" "A18136032" 
"C0484850" "A18241423" "time_aspect_of" "C1442880" "A18406936" 
"C0484850" "A18241423" "fragments_for_synonyms_of" "C2603360" "A18401194" 

Я найти документацию OrientDB for extractors и for CSV скорее недоставало.

  1. Для экстрактора «строк» ​​есть только один пример без полной документации. У меня нет заголовков строк, поэтому как использовать экстрактор «строк», чтобы называть поля в вершинах (cui, aui, description, pref, syn)? Я предполагаю, что есть синтаксис, например id: row 2, но я не могу его найти.
  2. Края соединяются с использованием двух и пяти полей вершин, которые не обозначены. Кроме того, свойство edge не указано.

Для глупых причин я не могу напрямую извлекать данные из MySQL, но если есть примеры, отличные от официального сайта, мне было бы интересно их увидеть.

ответ

1

использовать CSV экстрактор (см http://orientdb.com/docs/2.2.x/Extractor.html) набора «columnsOnFirstLine» ложные набора «столбцов», чтобы быть явным списком столбцов в порядке, они существуют в файле CSV

Смежные вопросы