Я новичок в Apache Nutch, поэтому я провожу много времени, чтобы найти его. Мне нужно получить привязки родительских страниц каждого URL-адреса в Apache Nutch. Я читал о LinkDatum, LinkDB и Inlink, которые сохраняют данные по каждому URL-адресу, но я не знаю точно, как использовать эти классы для добавления плагина для нового ScoringFilter. Любая помощь будет оценена по достоинству.Как получить anchorText каждого URL-адреса в apache nutch для написания нового плагина scoringFilter?
-1
A
ответ
2
Вы получите текст привязки исходящих сообщений. outlink.getToUrl()
дает URL-адрес строки, а outlink.getAnchor()
предоставит якорный текст.
Смежные вопросы
- 1. Написание плагина (индексирование) для Nutch
- 2. Получить IP-адрес из плагина Nutch
- 3. Как получить веб-страницу в apache nutch?
- 4. Apache Nutch один документ для каждого элемента в RSS-канале
- 5. Любая альтернатива для Apache Nutch?
- 6. Apache Nutch с Lucene
- 7. Как зарегистрировать выполнение плагина nutch
- 8. Запуск apache Nutch 2.2.1
- 9. Учебники для написания плагина для приложения nodejs?
- 10. Apache nutch 1.9 database
- 11. Как использовать Apache Spark с Apache Nutch
- 12. написания нового Jquery Plugin
- 13. Анализ синтаксического анализа PDF с помощью Apache Nutch - экстрактор плагина
- 14. Настройка заголовка файла cookie в Apache Nutch
- 15. Apache NUTCH, соответствующее обход
- 16. Trigger Apache Nutch Crawl Programatically
- 17. Apache Nutch-2.2.1 установка
- 18. Apache Nutch шаги объяснения
- 19. Apache Nutch on Windows
- 20. Как получить webgraph в Apache Nutch 2.x
- 21. Apache Nutch - NoSuchMethodError
- 22. Apache Nutch не найдено
- 23. web crawling using apache Nutch
- 24. Как запустить apache nutch в распределенном режиме
- 25. Apache Nutch 2.1 - Как получить полный исходный код
- 26. Создание нового плагина для webservice
- 27. Синтаксис для указания регулярного выражения для index.replace.regexp плагина Nutch?
- 28. Совместимость Apache nutch с ubuntu
- 29. Apache Nutch - Проблемы с путями
- 30. apache nutch generate only fetchlist