Что такое хорошая стратегия сбора социальных данных?

Если бы вы собирали социальные данные из службы данных, например twitter.com, какова была бы ваша стратегия данных?Что такое хорошая стратегия сбора социальных данных?

Вот что я мог придумать (я мог ошибаться).

Рассмотрите Twitter.com и полный доступ к пожаротушению, о чем мы говорим?

200+ миллионов твитов в день - в среднем на 2314tweets в секунду = 5.6Mb/с.
Текущая запись TPS (твиты в секунду): 7000. Каждый твит составляет около 2,5 КБ = 7000 * 2,5 КБ = 17 МБ/с.

Что мне нужно прочитать и сохранить эти данные (скажем временно)?

Высокоскоростной интернет. Не менее 30 МБ/с. Получают ли центры обработки данных доступ к этим типам интернет-скоростей? Один выделенный аппарат с прямым подключением?
Надежность: Что делать, если эта машина опускается? :-(- Может быть, мне понадобится установка нескольких компьютеров, но поток твиттера не может быть разделен в реальном времени через разные соединения?
Масштабируемость: Twitter TPS может стрелять в ближайшем будущем? ? трубы в ближайшем будущем
Быстрее жесткие диски: WD/Seagate серверного класса 7200RPM с кэшем 64 Мбайт может сделать до 128 Мб/с надежности: Что произойдет, если этот жесткий диск выйдет из строя куча дисков должна делать? Но какой config? RAID?
Масштабируемость: Для временного хранения это должно работать но если мне нужно архивировать 200 миллионов твитов, мне, вероятно, понадобится более масштабируемое решение. Hadoop HDFS - хорошая идея?
Безопасность: Корпорация хотела бы, чтобы эта машина сидела вне DMZ? Таким образом, сохранение данных временно (скажем, 5 минут) на этом компьютере класса сервера, а затем потянув его в HDFS, было бы хорошей идеей?

Сообщите мне свои мысли, ребята. Если вы считаете, что полный трюк firehose - довольно нереалистичный сценарий, допустим, что я ищу фильтрованный фид, который соответствует кучу ключевых слов (но я не могу пропустить ни одного из твитов). Как бы вы занимались архитектурой такой системы?

источник

2011-12-14 Jay

отлично, попросить закрыть, но нет причин! c'mon - что на самом деле не так с этим вопросом? – Jay

Есть небольшой шанс, что некоторые могут найти его слишком общим ... просто мыслью. – home

Этот вопрос слишком широк. Вы задаете здесь несколько вопросов, и полный ответ, вероятно, будет небольшой диссертацией. –

Вы можете прочитать this article о архитектуре DataSift. Они делают именно это

источник

2011-12-14 21:11:00

Мне очень понравились ваши ответы в Hadoop (для этого нужны более качественные плакаты).Продолжайте хорошую работу . –

отлично - это дает мне хорошую идею (не специфику), но масштаб вещей. Большое вам спасибо за это - я все время искал блог gnip, не потрудился заглянуть в блог datasift. – Jay

Что такое хорошая стратегия сбора социальных данных?

ответ

Смежные вопросы