Я пытаюсь преобразовать xml-файл из загрузок лекарств. Всякий раз, когда я пытаюсь импортировать его в excel 2007, он говорит, что он не импортируется. Возможно, это из-за размера. Может ли кто-нибудь предложить, если есть какой-либо другой способ, я могу открыть этот файл, чтобы сохранить его как tab-delim? Его первый файл (All Drugs, включая информацию о мишенях, транспортерах, носителях и ферментах) здесь, http://www.drugbank.ca/downloads в формате xmlxml файл не удалось импортировать
ответ
Это полная переписка моего первоначального ответа.
Для моего первоначального ответа я провел ограниченный анализ drugbank.xml. Я немного хеджировал, но заявил, что структура слишком сложна для преобразования в любой стандартный файл с разделителями табуляции. Таким образом, я имел в виду, что файл с разделителями табуляции, который может быть обработан любой стандартной программой. Я поддерживаю это утверждение, но возможно создать нестандартный файл с разделителями, который может быть полезен.
В таблице ниже показана структура drugbank.xml.
Столбцы - это индекс, уровень, имя, родительский и повторы. Для элементов наркотиков и партнеров, Repeats - это фактическое количество повторов. Для остальных элементов это максимальное количество повторений в случае его родителя.
Inx Lvl Name------------------------------------ Pnt Repeats
1 1 drugs 0 1
2 2 drug 1 6711
3 3 drugbank-id 2 1
4 3 name 2 1
5 3 description 2 1
6 3 cas-number 2 1
7 3 general-references 2 1
8 3 synthesis-reference 2 1
9 3 indication 2 1
10 3 pharmacology 2 1
11 3 mechanism-of-action 2 1
12 3 toxicity 2 1
13 3 biotransformation 2 1
14 3 absorption 2 1
15 3 half-life 2 1
16 3 protein-binding 2 1
17 3 route-of-elimination 2 1
18 3 volume-of-distribution 2 1
19 3 clearance 2 1
20 3 secondary-accession-numbers 2 1
21 4 secondary-accession-number 20 5
22 3 groups 2 1
23 4 group 22 3
24 3 taxonomy 2 1
25 4 kingdom 24 1
26 4 substructures 24 1
27 5 substructure 26 35
28 3 synonyms 2 1
29 4 synonym 28 82
30 3 salts 2 1
31 4 salt 30 17
32 3 brands 2 1
33 4 brand 32 230
34 3 mixtures 2 1
35 4 mixture 34 340
36 5 name 35 1
37 5 ingredients 35 1
38 3 packagers 2 1
39 4 packager 38 173
40 5 name 39 1
41 5 url 39 1
42 3 manufacturers 2 1
43 4 manufacturer 42 91
44 3 prices 2 1
45 4 price 44 172
46 5 description 45 1
47 5 cost 45 1
48 5 unit 45 1
49 3 categories 2 1
50 4 category 49 11
51 3 affected-organisms 2 1
52 4 affected-organism 51 3
53 3 dosages 2 1
54 4 dosage 53 22
55 5 form 54 1
56 5 route 54 1
57 5 strength 54 1
58 3 atc-codes 2 1
59 4 atc-code 58 36
60 3 ahfs-codes 2 1
61 4 ahfs-code 60 11
62 3 patents 2 1
63 4 patent 62 5
64 5 number 63 1
65 5 country 63 1
66 5 approved 63 1
67 5 expires 63 1
68 3 food-interactions 2 1
69 4 food-interaction 68 6
70 3 drug-interactions 2 1
71 4 drug-interaction 70 246
72 5 drug 71 1
73 5 name 71 1
74 5 description 71 1
75 3 protein-sequences 2 1
76 4 protein-sequence 75 10
77 5 header 76 1
78 5 chain 76 1
79 3 calculated-properties 2 1
80 4 property 79 18
81 5 kind 80 1
82 5 value 80 1
83 5 source 80 1
84 3 experimental-properties 2 1
85 4 property 84 4
86 5 kind 85 1
87 5 value 85 1
88 5 source 85 1
89 3 external-identifiers 2 1
90 4 external-identifier 89 13
91 5 resource 90 1
92 5 identifier 90 1
93 3 external-links 2 1
94 4 external-link 93 4
95 5 resource 94 1
96 5 url 94 1
97 3 targets 2 1
98 4 target 97 144
99 5 actions 98 1
100 6 action 99 2
101 5 references 98 1
102 5 known-action 98 1
103 3 enzymes 2 1
104 4 enzyme 103 19
105 5 actions 104 1
106 6 action 105 3
107 5 references 104 1
108 3 transporters 2 1
109 4 transporter 108 24
110 5 actions 109 1
111 6 action 110 3
112 5 references 109 1
113 3 carriers 2 1
114 4 carrier 113 6
115 5 actions 114 1
116 6 action 115 1
117 5 references 114 1
118 2 partners 1 1
119 3 partner 118 4227
120 4 name 119 1
121 4 general-function 119 1
122 4 specific-function 119 1
123 4 gene-name 119 1
124 4 locus 119 1
125 4 reaction 119 1
126 4 signals 119 1
127 4 cellular-location 119 1
128 4 transmembrane-regions 119 1
129 4 theoretical-pi 119 1
130 4 molecular-weight 119 1
131 4 chromosome 119 1
132 4 species 119 1
133 5 category 132 1
134 5 name 132 1
135 5 uniprot-name 132 1
136 5 uniprot-taxon-id 132 1
137 4 essentiality 119 1
138 4 references 119 1
139 4 external-identifiers 119 1
140 5 external-identifier 139 9
141 6 resource 140 1
142 6 identifier 140 1
143 4 synonyms 119 1
144 5 synonym 143 38
145 4 protein-sequence 119 1
146 5 header 145 1
147 5 chain 145 1
148 4 gene-sequence 119 1
149 5 header 148 1
150 5 chain 148 1
151 4 pfams 119 1
152 5 pfam 151 15
153 6 identifier 152 1
154 6 name 152 1
155 4 go-classifiers 119 1
156 5 go-classifier 155 49
157 6 category 156 1
158 6 description 156 1
У меня есть утилита, которую я разработал для клиента, который не смог обработать огромные XML-документы, которые они отправляли. Я выделил выбранную информацию в файл с разделителями. Хотя эти XML-документы были огромными, структура была простой, без повторения внутри элемента уровня 2. Я задавался вопросом, могу ли я улучшить утилиту для приема повторений и вывода данных в файл с разделителями, хотя и нестандартный файл с разделителями. Теперь я знаю, что могу, хотя я не уверен, насколько полезен файл с разделителями.
Мой выход имеет 97 столбцов, по одному на элемент листа. Есть шесть строк заголовков, по одному на уровень. которые перечисляют элемент листа и его родительские элементы. Когда элемент повторяется, значение помещается в следующую доступную строку. Я надеюсь, что несколько столбцов из строк для первых трех файлов с наркотиками. Обратите внимание, что столбец 61 был усечен для этого дисплея.
|Column 1 |Column 2 |Column 18 |Column 25 |Column 56 |Column 60 |Column 61 |Column 62 |
|drugs |drugs |drugs |drugs |drugs |drugs |drugs |drugs |
|drug |drug |drug |drug |drug |drug |drug |drug |
|drugbank-id|name |secondary-accession-numbers|mixtures |external-identifiers |targets |targets |targets |
| | |secondary-accession-number |mixture |external-identifier |target |target |target |
| | | |name |resource |actions |references |known-action|
| | | | | |action | | |
|DB00001 |Lepirudin |BIOD00024 | |Drugs Product Database (DPD)|inhibitor |# Turpie AG: Anticoagulants in|yes |
| | |BTD00024 | |National Drug Code Directory| | | |
| | | | |PharmGKB | | | |
| | | | |UniProtKB | | | |
|DB00002 |Cetuximab |BIOD00071 | |National Drug Code Directory|antagonist|# Hosokawa N, Yamamoto S, Ueha|yes |
| | |BTD00071 | |GenBank | |# Snyder LC, Astsaturov I, Wei|unknown |
| | | | |PharmGKB | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Negri DR, Tosi E, Valota O, |unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
|DB00003 |Dornase Alfa|BIOD00001 |Cauterex |Drugs Product Database (DPD)| |# Cramer GW, Bosso JA: The rol|yes |
| | |BTD00001 |Clorfibrase|GenBank | | | |
| | | |Elase |PharmGKB | | | |
| | | |Fibrabene |UniProtKB | | | |
| | | |Fibrase SA | | | | |
| | | |Fibrolan | | | | |
| | | |Parkelase | | | | |
| | | |Ridasa | | | | |
| | | | | | | | |
Результирующий файл имеет 135,713 строк и имеет длину 52,171,387 байт. Будет ли это, или некоторые простые вариации, полезными?
- 1. Не удалось импортировать файл nltk.etree.elementtree
- 2. Не удалось импортировать файл org.eclipse.datatools.connectivity.IConnectionProfile
- 3. Не удалось импортировать FBSDKWebDialog в файл
- 4. Не удалось импортировать файл xlsx в Codeigniter
- 5. Не удалось импортировать файл в ваш .emacs
- 6. Не удалось импортировать внешний файл Javascript
- 7. Не удалось импортировать статический файл android.support.test.espresso.contrib.DrawerMatchers.isOpen;
- 8. Не удалось импортировать файл io.netty.handler.codec.http с LittleProxy
- 9. Не удалось импортировать файл mysql в phpmyadmin
- 10. Mac, не удалось импортировать файл p12
- 11. не удалось импортировать файл css в js
- 12. не удалось импортировать файл csv в mysql
- 13. Не удалось прочитать XML-файл
- 14. Невозможно импортировать медиа-Wordpress - Не удалось импортировать медиа-файл «xxx»
- 15. Не удалось импортировать InAppBillingService
- 16. не удалось импортировать MySql.Data.MySqlClient
- 17. импортировать XML-файл через AJAX
- 18. импортировать XML и проверять файл
- 19. JFactory не удалось импортировать
- 20. ant не удалось импортировать R.java
- 21. импортировать XML-файл и SlowCheetah
- 22. не удалось импортировать фасоль весной
- 23. не удалось импортировать файл python в другой файл
- 24. Не удалось импортировать «$ (VSToolsPath) \ ...»
- 25. Не удалось импортировать пакет
- 26. Не удалось импортировать Xamarin.ObjcBinding.CSharp.targets
- 27. Не удалось импортировать SQL
- 28. Не удалось импортировать matplotlib
- 29. Не удалось импортировать модели
- 30. Не удалось импортировать anano
Если вы знакомы с программированием и XSLT, это может быть использовано для преобразования XML в файл с разделителями табуляции. – erikxiv
@ Lumos Lumos. Я не знаю, если вас проинформируют, если в ответ будут внесены поправки. Этот комментарий должен убедиться, что вы знаете. –