2011-12-14 10 views
0

Если бы вы собирали социальные данные из службы данных, например twitter.com, какова была бы ваша стратегия данных?Что такое хорошая стратегия сбора социальных данных?

Вот что я мог придумать (я мог ошибаться).

Рассмотрите Twitter.com и полный доступ к пожаротушению, о чем мы говорим?

  1. 200+ миллионов твитов в день - в среднем на 2314tweets в секунду = 5.6Mb/с.
  2. Текущая запись TPS (твиты в секунду): 7000. Каждый твит составляет около 2,5 КБ = 7000 * 2,5 КБ = 17 МБ/с.

Что мне нужно прочитать и сохранить эти данные (скажем временно)?

  • Высокоскоростной интернет. Не менее 30 МБ/с. Получают ли центры обработки данных доступ к этим типам интернет-скоростей? Один выделенный аппарат с прямым подключением?
  • Надежность: Что делать, если эта машина опускается? :-(- Может быть, мне понадобится установка нескольких компьютеров, но поток твиттера не может быть разделен в реальном времени через разные соединения?
  • Масштабируемость: Twitter TPS может стрелять в ближайшем будущем? ? трубы в ближайшем будущем
  • Быстрее жесткие диски: WD/Seagate серверного класса 7200RPM с кэшем 64 Мбайт может сделать до 128 Мб/с надежности: Что произойдет, если этот жесткий диск выйдет из строя куча дисков должна делать? Но какой config? RAID?
  • Масштабируемость: Для временного хранения это должно работать но если мне нужно архивировать 200 миллионов твитов, мне, вероятно, понадобится более масштабируемое решение. Hadoop HDFS - хорошая идея?
  • Безопасность: Корпорация хотела бы, чтобы эта машина сидела вне DMZ? Таким образом, сохранение данных временно (скажем, 5 минут) на этом компьютере класса сервера, а затем потянув его в HDFS, было бы хорошей идеей?

Сообщите мне свои мысли, ребята. Если вы считаете, что полный трюк firehose - довольно нереалистичный сценарий, допустим, что я ищу фильтрованный фид, который соответствует кучу ключевых слов (но я не могу пропустить ни одного из твитов). Как бы вы занимались архитектурой такой системы?

+1

отлично, попросить закрыть, но нет причин! c'mon - что на самом деле не так с этим вопросом? – Jay

+1

Есть небольшой шанс, что некоторые могут найти его слишком общим ... просто мыслью. – home

+1

Этот вопрос слишком широк. Вы задаете здесь несколько вопросов, и полный ответ, вероятно, будет небольшой диссертацией. –

ответ

3

Вы можете прочитать this article о архитектуре DataSift. Они делают именно это

+0

Мне очень понравились ваши ответы в Hadoop (для этого нужны более качественные плакаты).Продолжайте хорошую работу . –

+0

отлично - это дает мне хорошую идею (не специфику), но масштаб вещей. Большое вам спасибо за это - я все время искал блог gnip, не потрудился заглянуть в блог datasift. – Jay

Смежные вопросы