2016-08-29 1 views
-1

Я новичок в Apache Nutch, поэтому я провожу много времени, чтобы найти его. Мне нужно получить привязки родительских страниц каждого URL-адреса в Apache Nutch. Я читал о LinkDatum, LinkDB и Inlink, которые сохраняют данные по каждому URL-адресу, но я не знаю точно, как использовать эти классы для добавления плагина для нового ScoringFilter. Любая помощь будет оценена по достоинству.Как получить anchorText каждого URL-адреса в apache nutch для написания нового плагина scoringFilter?

ответ

2

Вы получите текст привязки исходящих сообщений. outlink.getToUrl() дает URL-адрес строки, а outlink.getAnchor() предоставит якорный текст.

Смежные вопросы