Características principales
- Motor SQL OLAP en el mismo proceso - Basado en ClickHouse, sin necesidad de instalar ClickHouse server
- Múltiples formatos de datos - Compatibilidad de entrada y salida con Parquet, CSV, JSON, Arrow, ORC y más de 70 formatos
- Copia de datos minimizada - De C++ a Python con python memoryview
- Amplia integración con el ecosistema de Python - Compatibilidad nativa con Pandas, Arrow y DB API 2.0; se integra perfectamente en los flujos de trabajo de ciencia de datos existentes
- Sin dependencias - No requiere instalaciones externas de bases de datos
- API de DataStore - API compatible con Pandas con optimización SQL y más de 630 métodos
DataStore: API compatible con pandas
Migración de una sola línea
Aspectos destacados del rendimiento
| Operación | pandas | DataStore | Aceleración |
|---|---|---|---|
| Recuento de GroupBy | 347ms | 17ms | 19.93x |
| Pipeline complejo | 2,047ms | 380ms | 5.39x |
| Filter+Sort+Head | 1,537ms | 350ms | 4.40x |
Características de DataStore
- Más de 630 métodos de API - 209 métodos de DataFrame de pandas y más de 185 métodos de accessor
- Evaluación diferida - Las operaciones se compilan en SQL optimizado
- Pushdown de SQL - Los filtros y las agregaciones se ejecutan en la fuente de datos
- Fuentes de datos universales - Permite leer desde archivos, S3, bases de datos y lagos de datos
¿Qué lenguajes admite chDB?
¿Cómo empiezo?
- Si usas Go, Rust, NodeJS, Bun o C y C++, consulta la página correspondiente a tu lenguaje.
- Si usas Python, consulta la guía de introducción para desarrolladores o el curso a demanda de chDB.
Para usuarios de pandas
- Inicio rápido de DataStore - Instalación y migración de una sola línea
- Migración desde pandas - Guía de migración paso a paso
- Recetario de pandas - Patrones comunes
- Diferencias clave - Diferencias importantes frente a pandas
- Guía de rendimiento - Consejos de optimización
Referencia de la API de DataStore
- Métodos de fábrica - Crear a partir de archivos, bases de datos y almacenamiento en la nube
- Construcción de consultas - Operaciones de estilo SQL
- Compatibilidad con pandas - 209 métodos compatibles
- Accesores - .str, .dt, .arr, .json, .url, .ip, .geo
- Configuración - Motor, logging, perfilado
- Depuración - explain(), perfilado, logging
Guías de la API SQL
- Referencia de la API de Python - Documentación completa de la API SQL
- JupySQL
- Consultar con Pandas
- Consultar Apache Arrow
- Consultar datos en S3
- Consultar archivos Parquet
- Consultar un ClickHouse remoto
- Usar la base de datos clickhouse-local
Un video introductorio
Benchmarks de rendimiento
- ClickBench de motores embebidos - Comparación de rendimiento de la API de SQL
- DataFrame Benchmark - Comparación de motores DataFrame
- DataStore frente a Pandas - Hasta 20 veces más rápido que Pandas en operaciones habituales
Sobre chDB
- Lee la historia completa sobre el nacimiento del proyecto chDB en el blog
- Lee sobre chDB y sus casos de uso en el blog
- Haz el curso on-demand de chDB
- Descubre chDB en tu navegador con ejemplos de codapi
- Consulta más ejemplos en (https://github.com/chdb-io/chdb/tree/main/examples)