2013-11-06 6 views
5

Сколько данных мне нужно, чтобы использовать Presto? На веб-сайте указано, что он может запрашивать размеры данных от гигабайт до петабайт. Я понимаю, как он используется для запроса очень больших наборов данных, но кто-нибудь использует его для сотен гигабайт?Сколько данных мне нужно, чтобы использовать Presto?

ответ

6

В настоящее время Presto является наиболее полезным, если у вас уже есть существующая установка Hive. Если вы используете Hive, вам обязательно нужно попробовать Presto. Если все ваши данные вписываются в реляционную базу данных, такую ​​как PostgreSQL или MySQL, на одну машину, и вы довольны производительностью, продолжайте использовать это.

Однако Presto должен быть намного быстрее, чем любая из этих баз данных на одной машине для аналитических запросов, поскольку он выполняет запрос параллельно. Ни одна из этих баз данных не распараллеливает выполнение отдельных запросов. В настоящий момент использование Presto требует настройки HDFS и Hive (даже на одной машине), поэтому при запуске будет больше работать, чем если у вас уже есть существующая установка Hive.

+0

Hi David, Можете ли вы также рассказать о различиях между импалой и престо? Когда выбирать престо и когда выбирать импала? Я видел в каком-то блоге, что facebook сделал некоторое исследование на impala перед началом presto. Спасибо – Sourabh

0

Или вы можете взглянуть на Impala - который был доступен в виде готового к производству программного обеспечения в течение шести месяцев. Как и Presto, Impala - это распределенный механизм запросов SQL для данных в HDFS, который обходит MapReduce. В отличие от Presto, есть коммерческий поставщик, предоставляющий поддержку (Cloudera).

Тем не менее, комментарии Дэвида о размере данных по-прежнему применяются. Используйте правильный инструмент для работы.

+4

Presto работает в Facebook с января и имеет более 1000 активных пользователей ежедневно, каждый из которых содержит более 30 000 запросов ежедневно. Это, безусловно, боевое программное обеспечение. (Я работаю над Presto на Facebook) –

+0

Я не вижу смысла говорить о соглашающемся продукте X, когда вопрос касается продукта Y. –

+0

Итак ... мы должны позволить всем забрать продукт X, а затем выяснить, как использовать дело для этого позже? Я всегда думал, что это было наоборот («У меня есть большие данные, которые мне нужно запросить», а не «Я хочу использовать Presto, сколько мне нужно данных?») –

Смежные вопросы