2012-05-05 6 views
-1

Я пытаюсь преобразовать xml-файл из загрузок лекарств. Всякий раз, когда я пытаюсь импортировать его в excel 2007, он говорит, что он не импортируется. Возможно, это из-за размера. Может ли кто-нибудь предложить, если есть какой-либо другой способ, я могу открыть этот файл, чтобы сохранить его как tab-delim? Его первый файл (All Drugs, включая информацию о мишенях, транспортерах, носителях и ферментах) здесь, http://www.drugbank.ca/downloads в формате xmlxml файл не удалось импортировать

+0

Если вы знакомы с программированием и XSLT, это может быть использовано для преобразования XML в файл с разделителями табуляции. – erikxiv

+0

@ Lumos Lumos. Я не знаю, если вас проинформируют, если в ответ будут внесены поправки. Этот комментарий должен убедиться, что вы знаете. –

ответ

2

Это полная переписка моего первоначального ответа.

Для моего первоначального ответа я провел ограниченный анализ drugbank.xml. Я немного хеджировал, но заявил, что структура слишком сложна для преобразования в любой стандартный файл с разделителями табуляции. Таким образом, я имел в виду, что файл с разделителями табуляции, который может быть обработан любой стандартной программой. Я поддерживаю это утверждение, но возможно создать нестандартный файл с разделителями, который может быть полезен.

В таблице ниже показана структура drugbank.xml.

Столбцы - это индекс, уровень, имя, родительский и повторы. Для элементов наркотиков и партнеров, Repeats - это фактическое количество повторов. Для остальных элементов это максимальное количество повторений в случае его родителя.

Inx Lvl Name------------------------------------ Pnt Repeats 
    1 1 drugs         0  1 
    2 2  drug         1 6711 
    3 3  drugbank-id       2  1 
    4 3  name         2  1 
    5 3  description       2  1 
    6 3  cas-number       2  1 
    7 3  general-references     2  1 
    8 3  synthesis-reference     2  1 
    9 3  indication       2  1 
10 3  pharmacology       2  1 
11 3  mechanism-of-action     2  1 
12 3  toxicity        2  1 
13 3  biotransformation     2  1 
14 3  absorption       2  1 
15 3  half-life       2  1 
16 3  protein-binding      2  1 
17 3  route-of-elimination     2  1 
18 3  volume-of-distribution    2  1 
19 3  clearance       2  1 
20 3  secondary-accession-numbers   2  1 
21 4   secondary-accession-number  20  5 
22 3  groups        2  1 
23 4   group        22  3 
24 3  taxonomy        2  1 
25 4   kingdom       24  1 
26 4   substructures      24  1 
27 5   substructure     26  35 
28 3  synonyms        2  1 
29 4   synonym       28  82 
30 3  salts        2  1 
31 4   salt        30  17 
32 3  brands        2  1 
33 4   brand        32  230 
34 3  mixtures        2  1 
35 4   mixture       34  340 
36 5   name       35  1 
37 5   ingredients      35  1 
38 3  packagers       2  1 
39 4   packager       38  173 
40 5   name       39  1 
41 5   url        39  1 
42 3  manufacturers      2  1 
43 4   manufacturer      42  91 
44 3  prices        2  1 
45 4   price        44  172 
46 5   description      45  1 
47 5   cost       45  1 
48 5   unit       45  1 
49 3  categories       2  1 
50 4   category       49  11 
51 3  affected-organisms     2  1 
52 4   affected-organism     51  3 
53 3  dosages        2  1 
54 4   dosage       53  22 
55 5   form       54  1 
56 5   route       54  1 
57 5   strength      54  1 
58 3  atc-codes       2  1 
59 4   atc-code       58  36 
60 3  ahfs-codes       2  1 
61 4   ahfs-code       60  11 
62 3  patents        2  1 
63 4   patent       62  5 
64 5   number       63  1 
65 5   country       63  1 
66 5   approved      63  1 
67 5   expires       63  1 
68 3  food-interactions     2  1 
69 4   food-interaction     68  6 
70 3  drug-interactions     2  1 
71 4   drug-interaction     70  246 
72 5   drug       71  1 
73 5   name       71  1 
74 5   description      71  1 
75 3  protein-sequences     2  1 
76 4   protein-sequence     75  10 
77 5   header       76  1 
78 5   chain       76  1 
79 3  calculated-properties    2  1 
80 4   property       79  18 
81 5   kind       80  1 
82 5   value       80  1 
83 5   source       80  1 
84 3  experimental-properties    2  1 
85 4   property       84  4 
86 5   kind       85  1 
87 5   value       85  1 
88 5   source       85  1 
89 3  external-identifiers     2  1 
90 4   external-identifier    89  13 
91 5   resource      90  1 
92 5   identifier      90  1 
93 3  external-links      2  1 
94 4   external-link      93  4 
95 5   resource      94  1 
96 5   url        94  1 
97 3  targets        2  1 
98 4   target       97  144 
99 5   actions       98  1 
100 6    action      99  2 
101 5   references      98  1 
102 5   known-action     98  1 
103 3  enzymes        2  1 
104 4   enzyme       103  19 
105 5   actions      104  1 
106 6    action      105  3 
107 5   references      104  1 
108 3  transporters       2  1 
109 4   transporter      108  24 
110 5   actions      109  1 
111 6    action      110  3 
112 5   references      109  1 
113 3  carriers        2  1 
114 4   carrier       113  6 
115 5   actions      114  1 
116 6    action      115  1 
117 5   references      114  1 
118 2  partners        1  1 
119 3  partner       118 4227 
120 4   name        119  1 
121 4   general-function     119  1 
122 4   specific-function    119  1 
123 4   gene-name      119  1 
124 4   locus       119  1 
125 4   reaction       119  1 
126 4   signals       119  1 
127 4   cellular-location    119  1 
128 4   transmembrane-regions   119  1 
129 4   theoretical-pi     119  1 
130 4   molecular-weight     119  1 
131 4   chromosome      119  1 
132 4   species       119  1 
133 5   category      132  1 
134 5   name       132  1 
135 5   uniprot-name     132  1 
136 5   uniprot-taxon-id    132  1 
137 4   essentiality      119  1 
138 4   references      119  1 
139 4   external-identifiers    119  1 
140 5   external-identifier   139  9 
141 6    resource      140  1 
142 6    identifier     140  1 
143 4   synonyms       119  1 
144 5   synonym      143  38 
145 4   protein-sequence     119  1 
146 5   header       145  1 
147 5   chain       145  1 
148 4   gene-sequence     119  1 
149 5   header       148  1 
150 5   chain       148  1 
151 4   pfams       119  1 
152 5   pfam       151  15 
153 6    identifier     152  1 
154 6    name       152  1 
155 4   go-classifiers     119  1 
156 5   go-classifier     155  49 
157 6    category      156  1 
158 6    description     156  1 

У меня есть утилита, которую я разработал для клиента, который не смог обработать огромные XML-документы, которые они отправляли. Я выделил выбранную информацию в файл с разделителями. Хотя эти XML-документы были огромными, структура была простой, без повторения внутри элемента уровня 2. Я задавался вопросом, могу ли я улучшить утилиту для приема повторений и вывода данных в файл с разделителями, хотя и нестандартный файл с разделителями. Теперь я знаю, что могу, хотя я не уверен, насколько полезен файл с разделителями.

Мой выход имеет 97 столбцов, по одному на элемент листа. Есть шесть строк заголовков, по одному на уровень. которые перечисляют элемент листа и его родительские элементы. Когда элемент повторяется, значение помещается в следующую доступную строку. Я надеюсь, что несколько столбцов из строк для первых трех файлов с наркотиками. Обратите внимание, что столбец 61 был усечен для этого дисплея.

|Column 1 |Column 2 |Column 18     |Column 25 |Column 56     |Column 60 |Column 61      |Column 62 | 
|drugs  |drugs  |drugs      |drugs  |drugs      |drugs  |drugs       |drugs  | 
|drug  |drug  |drug      |drug  |drug      |drug  |drug       |drug  | 
|drugbank-id|name  |secondary-accession-numbers|mixtures |external-identifiers  |targets |targets      |targets  | 
|   |   |secondary-accession-number |mixture |external-identifier   |target |target      |target  | 
|   |   |       |name  |resource     |actions |references     |known-action| 
|   |   |       |   |       |action |        |   | 
|DB00001 |Lepirudin |BIOD00024     |   |Drugs Product Database (DPD)|inhibitor |# Turpie AG: Anticoagulants in|yes   | 
|   |   |BTD00024     |   |National Drug Code Directory|   |        |   | 
|   |   |       |   |PharmGKB     |   |        |   | 
|   |   |       |   |UniProtKB     |   |        |   | 
|DB00002 |Cetuximab |BIOD00071     |   |National Drug Code Directory|antagonist|# Hosokawa N, Yamamoto S, Ueha|yes   | 
|   |   |BTD00071     |   |GenBank      |   |# Snyder LC, Astsaturov I, Wei|unknown  | 
|   |   |       |   |PharmGKB     |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Negri DR, Tosi E, Valota O, |unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|   |   |       |   |       |   |# Overington JP, Al-Lazikani B|unknown  | 
|DB00003 |Dornase Alfa|BIOD00001     |Cauterex |Drugs Product Database (DPD)|   |# Cramer GW, Bosso JA: The rol|yes   | 
|   |   |BTD00001     |Clorfibrase|GenBank      |   |        |   | 
|   |   |       |Elase  |PharmGKB     |   |        |   | 
|   |   |       |Fibrabene |UniProtKB     |   |        |   | 
|   |   |       |Fibrase SA |       |   |        |   | 
|   |   |       |Fibrolan |       |   |        |   | 
|   |   |       |Parkelase |       |   |        |   | 
|   |   |       |Ridasa  |       |   |        |   | 
|   |   |       |   |       |   |        |   | 

Результирующий файл имеет 135,713 строк и имеет длину 52,171,387 байт. Будет ли это, или некоторые простые вариации, полезными?

Смежные вопросы