Я хочу знать эффективные алгоритмы/структуры данных, чтобы идентифицировать приведенную ниже информацию в потоковых данных.Структура данных/Алгоритм для потоковой передачи данных и определения тем
Учитывайте данные в режиме реального времени, такие как твиттер. В основном меня интересуют следующие запросы, а не хранение фактических данных.
Мне нужны мои запросы для запуска по фактическим данным, но не из любых дубликатов.
Поскольку мне не интересно хранить полные данные, мне будет сложно идентифицировать дубликаты сообщений. Тем не менее, я могу хэшировать все сообщения и проверять их. Но я хотел бы также найти близлежащие должности. Как я могу это достичь.
Идентифицируйте верхние k тем, обсуждаемых пользователями.
Я хочу определить, какие темы обсуждаются пользователями. Я не хочу слова верхней частоты, как показано в twitter. Вместо этого я хочу дать несколько наименований наиболее часто встречающихся слов.
Я хотел бы, чтобы моя система была в режиме реального времени. Я имею в виду, моя система должна иметь возможность обрабатывать любое количество трафика.
Я могу думать о приближении к карте, но я не уверен, как справляться с проблемами синхронизации. Например, дубликаты сообщений могут достигать разных узлов, и оба они могут хранить их в индексе.
В типичном источнике новостей будут удалены любые слова остановки в данных. В моей системе я хотел бы обновить список стоп-слов, указав самые распространенные слова по широкому кругу тем.
Что будет эффективным алгоритмом/структурой данных для достижения этой цели.
Я хотел бы сохранить темы в течение определенного периода времени, чтобы получить интересные шаблоны в данных. Скажем, в пятницу вечером все хотят пойти в кино. что будет эффективным способом хранения этих данных.
Я собираюсь хранить его в распределенной файловой системе, но в течение определенного периода времени эти индексы становятся настолько большими, что I/O станет моим основным узким местом.
Рассмотрите многоязычные данные из твитов по всему миру. Как я могу определить похожие темы, обсуждаемые в географической области?
У нас есть 2 проблемы. Одним из них является идентификация используемого языка. Его можно определить на основе персонализации. Но эта информация может повлиять на конфиденциальность пользователей. Другая идея может быть запущена через алгоритм обучения. Какой метод лучше всего подходит для этого. Другая проблема - это поиск слова в словаре и связывание его с общим промежуточным языком, например, английским. Как позаботиться о смысловом смысле слова, как одно и то же слово, используемое в разных конкурсах.
Определять границы слов
Одна возможность состоит в том, чтобы использовать какой-то алгоритм обучения. Но каков наилучший подход. Это как-то похоже на смысловое значение смысла слова, потому что вы сможете определить границы слов на основе фактического предложения.
Я собираюсь разработать прототип и оценить систему, а не конкретную реализацию. Я думаю, что его невозможно отменить данные твиттера в реальном времени. Я думаю, что этот подход может быть протестирован на некоторых данных, свободно доступных в Интернете. Любые идеи, где я могу получить эти данные.
Ваш отзыв приветствуется.
Спасибо за ваше время.
- Bala
'Интересный предмет (ы), Паршивый вопрос (ы) ...'Может быть, это заслужило бы разделение на несколько вопросов; Кроме того, предоставляя более конкретную информацию в вопросах, вы могли бы показать потенциальным респондентам, что вы действительно заботитесь о проблемах и о том, что вы действительно задумались о них. – mjv
На самом деле мне не известно о форматировании на этом сайте. Теперь я отформатировал его правильно. Я хочу дать пользователю полное представление о системе, не разделяя вопросы. Благодарю. – Boolean