nutch crawler сканирует let's
как Let’s
y ??? есть ли какие-либо настройки для изменения этой кодировки.nutch crawling is crawling 'as â €
0
A
ответ
1
’
- это кодировка UTF-8 одной закрывающей цитаты (а не апострофа), и вы интерпретируете ее как Windows-1252. Вам нужно использовать правильную кодировку (UTF-8). This link может помочь.
1
Я не использовал Nutch себя, но this page выглядит это отношение:
Чтобы включить прохождение UTF-8 символов, редактировать $ TOMCAT/CONF/server.xml. Найдите < Connector> тег для веб (искать «8080») и вставьте эту параметризацию: URIEncoding = «UTF-8», как описано в Tomcat 5 FAQ по http://tomcat.apache.org/faq/connectors.html#utf8
Смежные вопросы
- 1. Nutch Crawling Результат как JSON
- 2. web crawling using apache Nutch
- 3. Scraw crawling crawling дополнительные данные
- 4. Nutch Crawling не работает для определенного URL
- 5. Nutch Crawling Path - Просмотр хмеля в solr
- 6. Crawling Version Control System
- 7. Crawling amazon.com
- 8. Perl web crawling framework
- 9. Crawling itunes.apple.com
- 10. Проблемы crawling wordreference
- 11. Web Crawling using import.io
- 12. Python Crawling Siblings
- 13. Nutch crawling with seeds urls находятся в диапазоне
- 14. Yandex AJAX crawling
- 15. Python multithreading web crawling
- 16. Crawling news articles
- 17. scrapy speed up crawling
- 18. Angularjs: Crawling ajax site
- 19. Crawling hashbangs без ajax
- 20. BeautifulSoup crawling cookies
- 21. Crawling GitHub с JGit
- 22. Scrapy CrawlSpider Not Crawling
- 23. Python Crawling - запросы быстрее
- 24. Scrapy CSV crawling
- 25. Crawling not working windows2008
- 26. Scipping crawling issue
- 27. Crawling By Next Page Link
- 28. Python - Scrapy crawling myrecipes.com issue
- 29. KeyError на странице BeautifulSoup crawling
- 30. robots.txt block bots crawling subdirectory
я не думаю, что из-за кот потому что моя подсказка cmd также показывает то же самое ... – ragaa
@ragaa: Как вы используете командную строку? –
Я проверил с обоими терминалами (в ubuntu) и с tomcat – ragaa