делает apache-nutch поддержку файлов Sitemap? или как я могу реализовать его сам? как я могу использовать поле приоритета, следует ли его умножать на увеличение поля?nutch и sitemap.xml
ответ
Не знаю, о чем я знаю. В зависимости от поведения, которое вы ожидаете от их множественных реализаций, можете ли вы быть более конкретным? Например: + вы можете сделать так, чтобы новые файлы Sitemap были «введены» с высокой оценкой, поэтому они будут просканированы раньше. Для этого просто добавьте команду ввода перед запуском нового цикла crawl/fetch/index + вы можете создать плагин подсчета очков, который увеличит URL-адрес, найденный в файлах Sitemap ... Но вы не можете определять периоды повторного поиска на уровне URL , как указывает карта сайта. У Nutch есть встроенная функция, которая чаще повторяется URL-адрес, который изменяется скорее наоборот. Однако вы можете решить увеличить количество URL-адресов с частыми частотами обновления, так что они будут сканироваться ранее ...
Я думаю, что они поддерживают его сейчас. Я нашел его по этой ссылке
- 1. Unicorn, Nginx и сервировки sitemap.xml
- 2. htaccess и Google sitemap.xml файлы
- 3. Automatic sitemap.xml
- 4. Размер sitemap.xml
- 5. Nutch, Gora и MongoDB
- 6. Интеграция Nutch и Solr
- 7. Интеграция Nutch и Elasticsearch
- 8. Apache Nutch Crawl Dynamic Products
- 9. Nutch Неизвестный фильтр и Нормализация
- 10. Nutch и ползание миллионов сайтов
- 11. Интеграция Apache Nutch и Solr
- 12. Solr 5.0 и Nutch 1.10
- 13. Nutch 2.3 и HBase 1.0.0
- 14. Apache Nutch 2.3 и MySQL
- 15. Nutch v Solr v Nutch + Solr
- 16. Google sitemap.xml два приложения
- 17. sitemap.xml в Angular SPA
- 18. sitemap.xml только для ботов
- 19. SEO sitemap.xml динамическое содержание
- 20. Создание sitemap.xml в гобелене
- 21. Validate sitemap.xml локально
- 22. здание sitemap.xml в clojure?
- 23. MvcSiteMapProvider - не генерирует sitemap.xml
- 24. Динамическое создание sitemap.xml
- 25. Как сгенерировать sitemap.xml и отправить поисковым системам
- 26. Magento, Split sitemap.xml и cron job
- 27. htaccess исключить sitemap.xml и robots.txt из https
- 28. URL Rewriting sitemap.xml с Joomla и Xmap
- 29. Многоязычный файл sitemap.xml
- 30. Использование XPATH для sitemap.xml