Ключевые возможности
- Встраиваемый SQL OLAP-движок - Работает на базе ClickHouse, без необходимости устанавливать сервер ClickHouse
- Поддержка множества форматов данных - Поддерживаются ввод и вывод в форматах Parquet, CSV, JSON, Arrow, ORC и ещё 70+ форматах
- Минимальное копирование данных - От C++ до Python с помощью python memoryview
- Глубокая интеграция с экосистемой Python - Нативная поддержка Pandas, Arrow, DB API 2.0; легко встраивается в существующие workflows data science
- Нулевые зависимости - Не требуется установка внешних баз данных
- API DataStore - API, совместимый с Pandas, с SQL-оптимизацией и поддержкой более 630 методов
DataStore: API, совместимый с pandas
Миграция в одну строку
Основные показатели производительности
| Операция | pandas | DataStore | Ускорение |
|---|---|---|---|
| GroupBy count | 347ms | 17ms | 19.93x |
| Сложный конвейер | 2,047ms | 380ms | 5.39x |
| Фильтрация+сортировка+head | 1,537ms | 350ms | 4.40x |
Возможности DataStore
- 630+ методов API — 209 методов pandas DataFrame, 185+ методов аксессоров
- Отложенное вычисление — операции компилируются в оптимизированный SQL
- SQL pushdown — фильтры и агрегации выполняются в источнике данных
- Универсальные источники данных — чтение из файлов, S3, баз данных и озёр данных
Какие языки поддерживает chDB?
С чего начать?
- Если вы используете Go, Rust, NodeJS, Bun или C and C++, ознакомьтесь с соответствующими страницами для этих языков.
- Если вы используете Python, см. руководство для разработчиков по началу работы или курс chDB по запросу.
Для пользователей pandas
- Краткое руководство по DataStore - Установка и миграция в одну строку
- Миграция с pandas - Пошаговое руководство по миграции
- Pandas Cookbook - Типовые приёмы
- Ключевые различия - Важные отличия от pandas
- Руководство по производительности - Советы по оптимизации
Справочник по API DataStore
- Фабричные методы - Создание из файлов, баз данных и облачного хранилища
- Построение запросов - Операции в стиле SQL
- Совместимость с Pandas - 209 совместимых методов
- Аксессоры - .str, .dt, .arr, .json, .url, .ip, .geo
- Конфигурация - движок, логирование, данные профилирования
- Отладка - explain(), данные профилирования, логирование
Руководства по SQL API
- Справочник по API Python - Полная документация по SQL API
- JupySQL
- Запросы к Pandas
- Запросы к Apache Arrow
- Запросы к данным в S3
- Запросы к файлам Parquet
- Запросы к удалённому ClickHouse
- Использование базы данных clickhouse-local
Вводное видео
Бенчмарки производительности
- ClickBench встраиваемых движков — сравнение производительности SQL API
- DataFrame Benchmark - Сравнение движков DataFrame
- DataStore против Pandas - До 20 раз быстрее Pandas при выполнении типовых операций
О chDB
- Прочитайте полную историю создания проекта chDB в блоге
- Узнайте о chDB и сценариях его использования в блоге
- Пройдите курс по chDB в записи
- Познакомьтесь с chDB в браузере с помощью примеров codapi
- Больше примеров смотрите здесь: (https://github.com/chdb-io/chdb/tree/main/examples)