2016-04-15 2 views
-6

Мне была назначена задача получить информацию из файлов, которые были обработаны из данных массовой масс-спектрофотометрии (file.mzML). Эти файлы имеют только «.data» как расширение, и когда я их открываю, я не могу распознать язык, и поэтому я не могу загрузить их в R и работать с ними.На каком языке написан этот файл?

Файлы с расширением .data содержатся в этой папке:

ftp://ftp.pride.ebi.ac.uk/pride/data/archive/2015/11/PXD000299/ 

Может кто-нибудь взглянуть на любой из files.data и сказать мне язык в (например, F010439)?

спасибо!

EDIT: эти есть некоторые фрагменты

Линия 1 до 10

MIME-Version: 1.0 (Generated by Mascot version 1.0) 
Content-Type: multipart/mixed; boundary=gc0p4Jq0M2Yt08jU534c0p 

--gc0p4Jq0M2Yt08jU534c0p 
Content-Type: application/x-Mascot; name="parameters" 

LICENSE=Licensed to: INRA Tours, P-F Proteomique Analytique & Fonction.,Nouzilly (0085-0000003524/1), (2 processors). 
MP= 
NM= 
COM= 

Линия 120 до 130

NeutralLoss3_master=63.998285 
--gc0p4Jq0M2Yt08jU534c0p 
Content-Type: application/x-Mascot; name="unimod" 

<?xml version="1.0" encoding="UTF-8" ?> 
<umod:unimod xmlns:umod="http://www.unimod.org/xmlns/schema/unimod_2" majorVersion="2" minorVersion="0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.unimod.org/xmlns/schema/unimod_2 unimod_2.xsd"> 
    <umod:elements> 
    <umod:elem avge_mass="1.00794" full_name="Hydrogen" mono_mass="1.007825035" title="H"/> 
    <umod:elem avge_mass="2.014101779" full_name="Deuterium" mono_mass="2.014101779" title="2H"/> 
    <umod:elem avge_mass="6.941" full_name="Lithium" mono_mass="7.016003" title="Li"/> 
    <umod:elem avge_mass="12.0107" full_name="Carbon" mono_mass="12" title="C"/> 
+0

Файл может быть написан любым языком. Вы не можете указать текстовый файл, написанный программой Java, из одного написанного с использованием чего-либо еще. Строки ASCII и Unicode - это ваше решение. – duffymo

+0

Trick question: Являются ли эти файлы двоичными? (Ответ: все файлы двоичные. Клиент извлекает информацию из них с использованием своего конкретного объектива.) – duffymo

ответ

1

Похоже, что файл является MIME-закодирован «из нескольких частей "файл, содержащий (по крайней мере) два файла компонентов.

Вы можете декодировать многочастную часть с помощью MIME-декодера.

Первый компонент файла выглядит как простое «имя = значение» свойств файла

Второй файл компонент XML.


Я не знаю, если это уместно, но поиск Mascot file format дал мне эту ссылку на страницу:

Кроме того, были некоторые интересные хиты, когда я что искали: parser "x-mascot" и parser mascot. Если вы можете найти существующий синтаксический анализатор, тогда вы сможете сэкономить усилия по внедрению.

+1

Это также может быть интересно: http://www.matrixscience.com/msparser.html – corinna

Смежные вопросы