2013-07-23 2 views
1

Я хотел бы запрограммировать веб-искатель Java, который использует Apache Tika для загрузки текстового контента веб-страницы, но я новичок в использовании проектов Apache, и я не нашел окончательного источника, который разъясняет, как интегрировать Tika в программы, точно , Из того, что я собрал из Интернета, я построил Tika с Maven в командной строке, но я не уверен, куда идти отсюда, чтобы использовать классы Tika (?), Такие как Parser и т. Д. В моих программах Java. Я использую Eclipse, если это имеет значение - я также установил плагин Maven для Eclipse, но я не совсем уверен, что с ним делать ... Нужна ли мне строка «импорт ...»? Пожалуйста, извините мои «новички» вопросы, но пошаговое руководство по подготовке Tika, которое будет использоваться, будет оценено по достоинству.Начало работы с Apache Tika?

ответ

5

Прежде всего, вы должны прочитать через Apache Tika getting started guide, в котором рассказывается, как получить Tika, включенную в ваш проект. (Предполагается, что у вас есть некоторые базовые знания о включении сторонних баннеров в ваш собственный проект, если нет, вам нужно будет прочитать некоторые уроки по этому вопросу)

Самый простой способ начать работу с Tika в вашем проекте - via the Tika Facade class. Это обеспечивает один класс, который вы можете использовать для обнаружения, синтаксического анализа в текстовую строку и синтаксический анализ xhtml через читателя, все из разных источников. Там есть все основы.

Для более продвинутого использования вы захотите ознакомиться с информацией, приведенной на Parser API page и Content Detection page. Вы также можете следить за Tika Examples on parsing with the AutoDetectParser, который должен делать то, что вы, скорее всего, захотите, иначе browse the annotated list of Tika examples with explanations, чтобы получить представление о том, как начать!