В этом документе приводится введение в миграцию данных из Amazon Redshift в ClickHouse.
Введение
ClickHouse vs Redshift
- Redshift компилирует код для каждого плана выполнения запроса, что создает значительные накладные расходы при первом выполнении запроса. Эти издержки могут быть оправданы, если шаблоны запросов предсказуемы, а скомпилированные планы выполнения можно хранить в кэше запросов. Однако это создает сложности для интерактивных приложений с меняющимися запросами. Даже когда Redshift может использовать этот кэш компиляции кода, ClickHouse быстрее в большинстве случаев. См. “ClickBench”.
- Redshift ограничивает параллелизм до 50 для всех очередей, что, хотя и достаточно для BI, делает его неподходящим для приложений с высокой степенью параллелизма.
| Advantage | Description |
|---|---|
| Более низкие задержки запросов | ClickHouse обеспечивает более низкие задержки запросов, в том числе при разнообразных шаблонах запросов, высоком параллелизме и потоковой вставке данных. Даже если запрос не попадает в кэш, что неизбежно в интерактивной аналитике для конечных пользователей, ClickHouse все равно обрабатывает его быстро. |
| Более высокие лимиты параллельных запросов | ClickHouse допускает значительно большее число параллельных запросов, что критически важно для приложений реального времени. В ClickHouse — как в самоуправляемых, так и в облачных развертываниях — можно масштабировать выделенные вычислительные ресурсы, чтобы обеспечить параллелизм, необходимый вашему приложению для каждого сервиса. Уровень допустимого параллелизма запросов в ClickHouse настраивается, а в ClickHouse Cloud по умолчанию используется значение 1000. |
| Более эффективное сжатие данных | ClickHouse обеспечивает более эффективное сжатие данных, что позволяет сократить общий объем хранилища (а значит, и стоимость) либо хранить больше данных при той же стоимости и получать больше инсайтов в реальном времени. См. ниже раздел “ClickHouse vs Redshift Storage Efficiency”. |