1

Я о индексировать твиты ближайших от Apache Nifi до Elasticsearch, как POST и хочу сделать следующее:Elasticsearch: Индексация твито - отображение, шаблон или ETL

  1. Сделать create_at поля даты. Должен ли я использовать шаблон отображения или индекса для этого?

  2. сделать некоторые поля не проанализированными. Как хэштеги, URL-адреса и т. Д.

  3. Хотите сохранить не весь твит, а некоторые важные поля. Как и текст, не все данные пользователя, а некоторые поля, хэштеги, URL-адреса от объектов (в почтовых URL-адресах). Не нужно указывать источник. И т. Д. Что следует использовать в этом случае? шаблон? Предварительно обрабатывать твиты с некоторым процессом ETL, чтобы извлекать нужные мне данные и индексировать их в ES?

Я немного смущен. Полюбуйтесь посоветовать.

Заранее спасибо.

+0

В пункте 2, я не уверен, что вы подразумеваете под «каналом»? Вы имели в виду анализ? – Val

+0

В сообществе NiFi есть несколько человек, которые заинтересованы в интеграции с поиском Elastic. Там были разговоры о импортере объема, чтобы получить данные от NiFi до ES и механизм запроса для получения данных от ES до NiFi. Если вы заинтересованы в сотрудничестве или имеете какие-либо вопросы, дайте нам знать [email protected] Спасибо –

+0

Привет, Джо, В # 2 Я хочу, чтобы некоторые поля не анализировались. Было бы неплохо иметь процессор ES. Танк для электронной почты. –

ответ

1

Я думаю, что в вашем NiFi у вас есть что-то вроде GetTwitter и PostHTTP. NiFi уже является своего рода ETL, поэтому вам, вероятно, не нужен другой. Однако, поскольку вы не хотите индексировать весь JSOn, выходящий из Twitter, вам явно нужен другой процесс NiFi между ними, чтобы выбрать то, что вы хотите, и превратить необработанный JSON в еще более легкий. Here - пример того, как это сделать для Solr, но я не уверен, что такой же процессор существует для Elasticsearch.

This article о потоковой передаче данных Twitter в Elasticsearch с использованием Logstash показывает возможный шаблон индекса, который вы могли бы использовать, чтобы сформировать свой собственный (например, добавить поле данных create_at, если хотите).

Путь к вам, так как вы не хотите индексировать все, явно придумать собственное сопоставление, которое затем можно использовать в шаблоне индекса. Используя шаблоны индексов, вы сможете создавать ежедневные/еженедельные/ежемесячные индексы твиттера, как вы сочтете нужным.

+0

Спасибо. А попробует это. –

Смежные вопросы