Ключевые возможности
- Совместимость с pandas: 209 методов pandas DataFrame, 56 методов
.str, 42+ методов.dt - Оптимизация SQL: Операции автоматически преобразуются в оптимизированные SQL-запросы
- Отложенное вычисление: Операции откладываются до тех пор, пока не понадобятся результаты
- 630+ методов API: Широкий набор методов API для работы с данными
- Расширения ClickHouse: Дополнительные аксессоры (
.arr,.json,.url,.ip,.geo), недоступные в pandas
Архитектура
- Цепочка отложенных операций: операции фиксируются, а не выполняются сразу
- Интеллектуальный выбор движка: QueryPlanner направляет каждый сегмент в наиболее подходящий движок (chDB для SQL, Pandas для сложных операций)
- Промежуточное кэширование: результаты кэшируются на каждом шаге для быстрой итеративной работы
Миграция из Pandas в одну строку
Сравнение производительности
| Операция | Pandas | DataStore | Ускорение |
|---|---|---|---|
| Подсчёт с GroupBy | 347ms | 17ms | 19.93x |
| Сложный конвейер | 2,047ms | 380ms | 5.39x |
| Filter+Sort+Head | 1,537ms | 350ms | 4.40x |
| Агрегация с GroupBy | 406ms | 141ms | 2.88x |
Когда использовать DataStore
- Вы работаете с большими наборами данных (миллионы строк)
- Вы выполняете агрегации и операции groupby
- Вы запрашиваете данные из файлов, баз данных или облачных хранилищ
- Вы строите сложные конвейеры обработки данных
- Вам нужен API pandas с более высокой производительностью
- Вы предпочитаете писать SQL напрямую
- Вам нужен точный контроль над выполнением запроса
- Вы работаете с возможностями ClickHouse, недоступными в API pandas
Сравнение возможностей
| Возможность | Pandas | Polars | DuckDB | DataStore |
|---|---|---|---|---|
| Совместимость с API Pandas | - | Частичная | Нет | Полная |
| Отложенное вычисление | Нет | Да | Да | Да |
| Поддержка SQL-запросов | Нет | Да | Да | Да |
| Функции ClickHouse | Нет | Нет | Нет | Да |
| Аксессоры String/DateTime | Да | Да | Нет | Да + дополнительные возможности |
| Array/JSON/URL/IP/Geo | Нет | Частично | Нет | Да |
| Прямые запросы к файлам | Нет | Да | Да | Да |
| Поддержка облачных хранилищ | Нет | Ограниченная | Да | Да |
Статистика API
| Категория | Количество | Покрытие |
|---|---|---|
| Методы DataFrame | 209 | 100% от pandas |
| Аксессор Series.str | 56 | 100% от pandas |
| Аксессор Series.dt | 42+ | 100%+ (включая дополнительные возможности ClickHouse) |
| Аксессор Series.arr | 37 | Только в ClickHouse |
| Аксессор Series.json | 13 | Только в ClickHouse |
| Аксессор Series.url | 15 | Только в ClickHouse |
| Аксессор Series.ip | 9 | Только в ClickHouse |
| Аксессор Series.geo | 14 | Только в ClickHouse |
| Всего методов API | 630+ | - |
Начало работы
- Краткое руководство - Установка и базовое использование
- Миграция с Pandas - Пошаговое руководство по миграции
Справочник по API
- Фабричные методы - Создание DataStore из различных источников
- Построение запросов - Операции с запросами в стиле SQL
- Совместимость с pandas - Все 209 методов, совместимых с pandas
- Аксессоры - Аксессоры String, DateTime, Array, JSON, URL, IP, Geo
- Агрегация - Агрегатные и оконные функции
- Операции ввода-вывода - Чтение и запись данных
Продвинутые темы
- Модель выполнения - Отложенное вычисление и кэширование
- Справочник классов - Полный справочник по API
Конфигурация и отладка
- Конфигурация - Все параметры конфигурации
- Режим производительности - Режим с приоритетом SQL для максимальной пропускной способности
- Отладка - Explain, данные профилирования и журналирование
Руководства для пользователей Pandas
- Кулинарная книга Pandas - Типовые приёмы
- Ключевые различия - Важные отличия от Pandas
- Руководство по производительности - Советы по оптимизации
- SQL для пользователей Pandas - Понимание SQL, лежащего в основе операций Pandas
Краткий пример
Следующие шаги
- Впервые работаете с DataStore? Начните с краткого руководства
- Переходите с pandas? Прочитайте руководство по переходу
- Хотите узнать больше? Изучите справочник по API