Если вы используете бинарный исполняемый файл Nutch, запустите команду -readseg после сканирования. Это даст вам огромный файл, который содержит все необработанные html и другую информацию в нем. После этого вы можете проанализировать и сохранить необходимые данные в базе данных.
Если вы хотите запустить Nutch в Eclipse, вы должны добавить код в класс Fetcher.
pstatus = output(fit.url, fit.datum, content, status, CrawlDatum.STATUS_FETCH_SUCCESS);
updateStatus(content.getContent().length);
Напишите простой код и напишите код базы данных после этих строк в классе Fetcher. Вы можете получить сырье HTML по:
content.getContent();
Это возвращает представление байтового массива в файл HTML, преобразовать его в строку и сохранить его в базу данных. Вам может потребоваться кодировка символов: Nutch with UTF-8 для настройки Nutch. Однако проблема, как правило, связана с кодировкой Eclipse. Чтобы преодолеть это, взять подстроку содержание, которое включает в себя «кодировок» значение и:
String yourContent = new String(content.getContent, encodingYouFound);
«кодирование» здесь является String, так что это будет достаточно, чтобы извлечь его из «содержания». Если вы не можете, некоторые сайты могут не иметь атрибута charset, используйте общую кодировку, такую как UTF-8.
Хм, я пробую то же самое, но я думаю, что здесь нет четкого и простого решения. Я просто пытаюсь вызвать искатель nutch для обхода одного домена сразу, и он должен просто сохранить эти данные в базе данных drupal. Индексирование должно выполняться путем solr thru drupal. Это теория, но теперь практика делает меня сумасшедшим. Так вот кто-то, кто хочет поделиться своим вкладом с другими, получит возможность понять рабочий процесс? –