Если бы вы собирали социальные данные из службы данных, например twitter.com, какова была бы ваша стратегия данных?Что такое хорошая стратегия сбора социальных данных?
Вот что я мог придумать (я мог ошибаться).
Рассмотрите Twitter.com и полный доступ к пожаротушению, о чем мы говорим?
- 200+ миллионов твитов в день - в среднем на 2314tweets в секунду = 5.6Mb/с.
- Текущая запись TPS (твиты в секунду): 7000. Каждый твит составляет около 2,5 КБ = 7000 * 2,5 КБ = 17 МБ/с.
Что мне нужно прочитать и сохранить эти данные (скажем временно)?
- Высокоскоростной интернет. Не менее 30 МБ/с. Получают ли центры обработки данных доступ к этим типам интернет-скоростей? Один выделенный аппарат с прямым подключением?
- Надежность: Что делать, если эта машина опускается? :-(- Может быть, мне понадобится установка нескольких компьютеров, но поток твиттера не может быть разделен в реальном времени через разные соединения?
- Масштабируемость: Twitter TPS может стрелять в ближайшем будущем? ? трубы в ближайшем будущем
- Быстрее жесткие диски: WD/Seagate серверного класса 7200RPM с кэшем 64 Мбайт может сделать до 128 Мб/с надежности: Что произойдет, если этот жесткий диск выйдет из строя куча дисков должна делать? Но какой config? RAID?
- Масштабируемость: Для временного хранения это должно работать но если мне нужно архивировать 200 миллионов твитов, мне, вероятно, понадобится более масштабируемое решение. Hadoop HDFS - хорошая идея?
- Безопасность: Корпорация хотела бы, чтобы эта машина сидела вне DMZ? Таким образом, сохранение данных временно (скажем, 5 минут) на этом компьютере класса сервера, а затем потянув его в HDFS, было бы хорошей идеей?
Сообщите мне свои мысли, ребята. Если вы считаете, что полный трюк firehose - довольно нереалистичный сценарий, допустим, что я ищу фильтрованный фид, который соответствует кучу ключевых слов (но я не могу пропустить ни одного из твитов). Как бы вы занимались архитектурой такой системы?
отлично, попросить закрыть, но нет причин! c'mon - что на самом деле не так с этим вопросом? – Jay
Есть небольшой шанс, что некоторые могут найти его слишком общим ... просто мыслью. – home
Этот вопрос слишком широк. Вы задаете здесь несколько вопросов, и полный ответ, вероятно, будет небольшой диссертацией. –