Как просканировать .pdf ссылки с помощью Apache Nutch

У меня есть сайт для сканирования, который включает некоторые ссылки на pdf-файлы. Я хочу, чтобы nutch обходила эту ссылку и выгружала их как .pdf-файлы. Я использую Apache Nutch1.6 и я Тринга это в Java, какКак просканировать .pdf ссылки с помощью Apache Nutch

ToolRunner.run(NutchConfiguration.create(), new Crawl(), 
           tokenize(crawlArg)); 
SegmentReader.main(tokenize(dumpArg));

может кто-нибудь помочь мне в этом

источник

2013-07-03 sudheer

-1

Вы можете написать свой собственный собственный плагин для Pdf MimeType
или есть встроенный апач-ТИК анализатор, который может извлечь текст из PDF ..

источник

2013-10-10 06:41:22 olzhas

Если вы хотите Nutch сканировать и индексировать документы в формате PDF, вы должны включить документ ползет и плагин Тика:

Документ ползет

1.1 Редактировать регулярки-urlfilter.txt и удалите вхождение "PDF"

# skip image and other suffixes we can't yet parse 
# for a more extensive coverage use the urlfilter-suffix plugin 
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

1,2 Edit суффикс-urlfilter.txt и удалите вхождение "PDF"

1.3 Редактирование Nutch-site.xml, добавить "разобрать-TIKA" и "разбор-HTML" в разделе plugin.includes

<property> 
    <name>plugin.includes</name> 
    <value>protocol-http|urlfilter-regex|parse-(html|tika|text)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)</value> 
    <description>Regular expression naming plugin directory names to 
    include. Any plugin not matching this expression is excluded. 
    In any case you need at least include the nutch-extensionpoints plugin. By 
    default Nutch includes crawling just HTML and plain text via HTTP, 
    and basic indexing and search plugins. In order to use HTTPS please enable 
    protocol-httpclient, but be aware of possible intermittent problems with the 
    underlying commons-httpclient library. 
    </description> 
</property>

Если то, что вы повторно ally want - загрузить все pdf-файлы со страницы, вы можете использовать что-то вроде Teleport in Windows или Wget in * nix.

источник

2013-10-12 15:06:07 nimeshjm

Как просканировать .pdf ссылки с помощью Apache Nutch

ответ

Смежные вопросы