Извлечение заголовков из файла WARC.gz

Я много искал сайт, но не мог найти то, что мне нужно. У меня есть файл web.warc.gz с данными в нем, и мне нужно извлечь заголовки WARC. Я установил Tomcat и Вайбак (1,6), пытаясь получить, что с ./warc-header сценарием, который обеспечивается Вайбаком, но я получаю сообщение об ошибке для формата я использую:Извлечение заголовков из файла WARC.gz

Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz \r\n\ 
~/Desktop/output.csv type \r\n 
     USAGE: tgtWarc fieldsSrc id 
     tgtWarc is the path to the target WARC.gz 
      fieldsSrc is the path to the text of the record 
    make sure each line is terminated by \r\n 
    and that the file ends with a blank, \r\n terminiated line 
id is the XXX in: 
    Content-Description: Made from XXX by org.archive.wayback.util.WARCHeader 
    of the header record... header...

Или другое тип ошибки:

Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz 
    ~/Desktop/output.csv Content-Type 
    java.io.IOException: End-Of-Stream before \r\n\r\n End-Of-ANVLRecord: 

at org.archive.util.anvl.ANVLRecord.load(ANVLRecord.java:163) 
at org.archive.wayback.util.WARCHeader.writeHeaderRecord(WARCHeader.java:43) 
at org.archive.wayback.util.WARCHeader.main(WARCHeader.java:75)

Я совершенно уверен, что это формат, я пишу в командной строке, но я до сих пор не могу получить это право. Пожалуйста помоги?

источник

2014-02-21 spashuev

Вы можете получить его, используя приведенный ниже код GitHub проекта:

https://github.com/Smerity/cc-warc-examples/blob/master/src/org/commoncrawl/examples/S3ReaderTest.java

источник

2015-04-02 11:23:31

Извлечение заголовков из файла WARC.gz

ответ

Смежные вопросы