nutch crawling is crawling 'as â €

nutch crawler сканирует let's как Letâ€™s y ??? есть ли какие-либо настройки для изменения этой кодировки.nutch crawling is crawling 'as â €

источник

2011-02-01 ragaa

â€™ - это кодировка UTF-8 одной закрывающей цитаты (а не апострофа), и вы интерпретируете ее как Windows-1252. Вам нужно использовать правильную кодировку (UTF-8). This link может помочь.

источник

2011-02-01 16:52:31

Я не использовал Nutch себя, но this page выглядит это отношение:

Чтобы включить прохождение UTF-8 символов, редактировать $ TOMCAT/CONF/server.xml. Найдите < Connector> тег для веб (искать «8080») и вставьте эту параметризацию: URIEncoding = «UTF-8», как описано в Tomcat 5 FAQ по http://tomcat.apache.org/faq/connectors.html#utf8

источник

2011-02-01 16:53:11

я не думаю, что из-за кот потому что моя подсказка cmd также показывает то же самое ... – ragaa

@ragaa: Как вы используете командную строку? –

Я проверил с обоими терминалами (в ubuntu) и с tomcat – ragaa

nutch crawling is crawling 'as â €

ответ

Смежные вопросы