Сколько данных мне нужно, чтобы использовать Presto? На веб-сайте указано, что он может запрашивать размеры данных от гигабайт до петабайт. Я понимаю, как он используется для запроса очень больших наборов данных, но кто-нибудь использует его для сотен гигабайт?Сколько данных мне нужно, чтобы использовать Presto?
ответ
В настоящее время Presto является наиболее полезным, если у вас уже есть существующая установка Hive. Если вы используете Hive, вам обязательно нужно попробовать Presto. Если все ваши данные вписываются в реляционную базу данных, такую как PostgreSQL или MySQL, на одну машину, и вы довольны производительностью, продолжайте использовать это.
Однако Presto должен быть намного быстрее, чем любая из этих баз данных на одной машине для аналитических запросов, поскольку он выполняет запрос параллельно. Ни одна из этих баз данных не распараллеливает выполнение отдельных запросов. В настоящий момент использование Presto требует настройки HDFS и Hive (даже на одной машине), поэтому при запуске будет больше работать, чем если у вас уже есть существующая установка Hive.
Или вы можете взглянуть на Impala - который был доступен в виде готового к производству программного обеспечения в течение шести месяцев. Как и Presto, Impala - это распределенный механизм запросов SQL для данных в HDFS, который обходит MapReduce. В отличие от Presto, есть коммерческий поставщик, предоставляющий поддержку (Cloudera).
Тем не менее, комментарии Дэвида о размере данных по-прежнему применяются. Используйте правильный инструмент для работы.
Presto работает в Facebook с января и имеет более 1000 активных пользователей ежедневно, каждый из которых содержит более 30 000 запросов ежедневно. Это, безусловно, боевое программное обеспечение. (Я работаю над Presto на Facebook) –
Я не вижу смысла говорить о соглашающемся продукте X, когда вопрос касается продукта Y. –
Итак ... мы должны позволить всем забрать продукт X, а затем выяснить, как использовать дело для этого позже? Я всегда думал, что это было наоборот («У меня есть большие данные, которые мне нужно запросить», а не «Я хочу использовать Presto, сколько мне нужно данных?») –
- 1. Сколько экземпляров мне нужно?
- 2. Сколько AVD мне нужно?
- 3. Сколько времени мне нужно, чтобы узнать LabVIEW
- 4. Сколько данных мне нужно для системы рекомендаций?
- 5. Сколько мероприятий мне нужно?
- 6. Сколько пользователей поддерживает Presto DB?
- 7. Сколько инсталляций macports мне нужно
- 8. Сколько SQL-запросов мне нужно?
- 9. Сколько потоков мне действительно нужно?
- 10. Сколько файлов .snk мне нужно?
- 11. Сколько начальных узлов Cassandra мне нужно запустить?
- 12. Что мне нужно сделать, чтобы использовать Guice?
- 13. Сколько математики мне нужно, чтобы стать продуктивным в Haskell?
- 14. Сколько мне нужно знать, чтобы сделать 2D-движок игры?
- 15. Сколько Ruby мне нужно покрыть, чтобы начать изучение Sinatra
- 16. Сколько хендлеров мне нужно при многопоточности
- 17. Сколько шейдерных программ мне действительно нужно?
- 18. Сколько ключей API мне нужно использовать в предложении Android?
- 19. Сколько типов сертификатов подписи кода мне нужно?
- 20. Сколько математики мне нужно знать для проектов интеллектуального анализа данных
- 21. Rails & Heroku: Сколько мне нужно рабочих/диносов
- 22. DDD: Сколько мне нужно заполнить корни?
- 23. Реляционная база данных в Rails: сколько ссылок мне нужно?
- 24. Как узнать, сколько места мне нужно для базы данных mysql
- 25. Сколько места мне нужно для SVN?
- 26. Сколько синапсов на узел мне нужно?
- 27. Сколько раз мне нужно установить унисон?
- 28. Сколько индексов мне нужно с MongoDB
- 29. Сколько супервизоров мне нужно для приложения Erlang?
- 30. Как рассчитать, сколько страниц памяти мне нужно?
Hi David, Можете ли вы также рассказать о различиях между импалой и престо? Когда выбирать престо и когда выбирать импала? Я видел в каком-то блоге, что facebook сделал некоторое исследование на impala перед началом presto. Спасибо – Sourabh