2015-07-28 14 views
0

Это немного странный вопрос, нести меня: я наткнулся на некоторые данные в машиночитаемом формате в исходном коде HTML-страницы (внутри комментария над открытием <html>), но у меня есть никогда не видел данных, которые выглядели как этот формат.Есть ли установленный стандарт для этого формата данных?

Может ли кто-нибудь идентифицировать этот формат данных? Кто-нибудь знает, существует ли установленный/документированный стандарт для передачи/хранения данных, подобных этому? (я надеюсь, что если это стандартный формат данных, я могу найти уже существующие библиотеки для разбора его и избавиться от переосмысления колеса)

Вот необработанные данные (я пропустил некоторые данные, чтобы их сохранить пост краткое):

<!-- 
Fin :: 0 
ErrorMsg :: 
MoreErrors :: 
MFErrorArray :: ARRAY[2 * 120] 
[1] 
    [0:ErrorCode]{ } 
    [1:ArrayIndex]{ } 
MFErrorArray2 :: ARRAY[3 * 60] 
[1] 
    [0:ErrorCode2]{ } 
    [1:Substitution]{ } 
    [2:ArrayIndex2]{ } 
NotUsed :: 
AllControlNumber :: 
Datu :: 
Pgm :: BXS2BL40 
VlNumbHous :: 
NmStrt :: 
NmBoro :: 
VlBin :: 
VlNumbZip :: 
VlTaxBlock :: 
VlTaxLot :: 
VlCensTract :: 
VlHlthArea :: 
HseLo :: 
HseHi :: 
GlJobType :: 
GlPageN :: 0001 
GlRecCountN :: 0000000517 
FoilIndicator :: 
GlMax :: 
DebugMsg :: 
VlLicnType :: B 
NmLicnType :: ELECTRICAL FIRM 
VlLicn :: ARRAY[13 * 70] 
[1] 
    [0:NmLicn]{} 
    [1:VlNumbLIcn]{B001572} 
    [2:StLicn]{INACTIVE} 
    [3:DtLicnExp]{12312050} 
    [4:NmBusn1]{A &amp; A ELEC. CONTRACTING} 
    [5:NmBusn2]{} 
    [6:NbIsn]{0000023530} 
    [7:FirmIsn]{} 
    [8:FirmLicenseNumber]{} 
    [9:JobCount]{0000000000} 
    [10:LLicenseClass]{} 
    [11:LLicenseClassType]{} 
    [12:GreenFlag]{N} 
[2] 
    [0:NmLicn]{} 
    [1:VlNumbLIcn]{B002944} 
    [2:StLicn]{ACTIVE} 
    [3:DtLicnExp]{12312050} 
    [4:NmBusn1]{A &amp; A ELEC&#039;L CONTR&#039;G CORP} 
    [5:NmBusn2]{} 
    [6:NbIsn]{0000024858} 
    [7:FirmIsn]{} 
    [8:FirmLicenseNumber]{} 
    [9:JobCount]{0000000000} 
    [10:LLicenseClass]{} 
    [11:LLicenseClassType]{} 
    [12:GreenFlag]{N} 
[3] 
    [0:NmLicn]{} 
    [1:VlNumbLIcn]{B000014} 
    [2:StLicn]{INACTIVE} 
    [3:DtLicnExp]{12312050} 
    [4:NmBusn1]{A &amp; A ELECTRIC INC.} 
    [5:NmBusn2]{} 
    [6:NbIsn]{0000021979} 
    [7:FirmIsn]{} 
    [8:FirmLicenseNumber]{} 
    [9:JobCount]{0000000000} 
    [10:LLicenseClass]{} 
    [11:LLicenseClassType]{} 
    [12:GreenFlag]{N} 
*** I've removed entries 4 through 67 in this array for sake of brevity *** 
[68] 
    [0:NmLicn]{} 
    [1:VlNumbLIcn]{B003051} 
    [2:StLicn]{ACTIVE} 
    [3:DtLicnExp]{12312050} 
    [4:NmBusn1]{A.L. ELECTRICAL CORP.} 
    [5:NmBusn2]{} 
    [6:NbIsn]{0000024954} 
    [7:FirmIsn]{} 
    [8:FirmLicenseNumber]{} 
    [9:JobCount]{0000000000} 
    [10:LLicenseClass]{} 
    [11:LLicenseClassType]{} 
    [12:GreenFlag]{N} 
[69] 
    [0:NmLicn]{} 
    [1:VlNumbLIcn]{B002419} 
    [2:StLicn]{ACTIVE} 
    [3:DtLicnExp]{12312050} 
    [4:NmBusn1]{A.M. ELECTRIC CORP. OF NY} 
    [5:NmBusn2]{} 
    [6:NbIsn]{0000024375} 
    [7:FirmIsn]{} 
    [8:FirmLicenseNumber]{} 
    [9:JobCount]{0000000000} 
    [10:LLicenseClass]{} 
    [11:LLicenseClassType]{} 
    [12:GreenFlag]{N} 
[70] 
    [0:NmLicn]{} 
    [1:VlNumbLIcn]{B003863} 
    [2:StLicn]{ACTIVE} 
    [3:DtLicnExp]{12312050} 
    [4:NmBusn1]{A.M.A HOLDINGS INC.D/B/A} 
    [5:NmBusn2]{} 
    [6:NbIsn]{0000028205} 
    [7:FirmIsn]{} 
    [8:FirmLicenseNumber]{} 
    [9:JobCount]{0000000000} 
    [10:LLicenseClass]{} 
    [11:LLicenseClassType]{} 
    [12:GreenFlag]{N} 

--> 
+0

Я не думаю, что это стандартный формат. В зависимости от того, откуда вы это взяли, он выглядит как собственный способ хранения/документирования/комментирования данных. К сожалению, похоже, что вам придется изобретать колесо, если это ваш источник данных. –

+0

Я так понял; просто подумал, что мне нечего терять, увидев, что кто-то еще когда-либо сталкивался с подобной номенклатурой объектов. –

+0

Да, это определенно их собственный способ комментировать данные, которые позже отображаются в HTML. –

ответ

0

Эти данные отрывок, кажется, содержит информацию о драйверах, транспортных средств, лицензирование и т.д.

Я лично не видел данные отформатированы именно так раньше, но если вы пришли через него на коммерческом веб-сайте это, вероятно, либо высокоспециализированный стандарт данных для этой отрасли, либо какое-то специальное решение, компании вместо лучшего стандарта. Возможно, если бы вы могли поделиться ссылкой на сайт, мы могли бы углубить его дальше, в контексте.

Это выглядит довольно просто, но почему бы не просто написать алгоритм синтаксического анализа?

+0

Я нашел это через [NYC Dept of Buildings Business Search] (http://a810-bisweb.nyc.gov/bisweb/LicenseTypeServlet?vlfirst=N); здесь [конкретный поиск, который я сделал] (http://a810-bisweb.nyc.gov/bisweb/ResultsByNameServlet?bizname=a&licensetype=B&go2=+GO+&requestid=0). Я решил, что мне, вероятно, придется написать свой собственный синтаксический анализ, но это было просто странно для меня, и мне было интересно, видел ли кто-нибудь еще его. Обычно вы ожидаете только XML или JSON, но это совсем другое. Я уверен, что имена переменных произвольны, но, возможно, общая нотация не является. –

Смежные вопросы