Inicio rápido de DataStore - ClickHouse Documentation

Empiece a usar DataStore en cuestión de minutos. Esta guía cubre la instalación, la migración desde pandas y los patrones de uso básicos.

Instalación

Instala chDB con pip:

pip install "chdb>=4.0"

Para las dependencias opcionales:

# Para compatibilidad con pandas DataFrame
pip install "chdb[pandas]>=4.0"

# Para compatibilidad con PyArrow
pip install "chdb[arrow]>=4.0"

# Todas las dependencias opcionales
pip install "chdb[all]>=4.0"

Verifica la instalación

import chdb
print(chdb.__version__)  # Debería imprimir 4.x.x o superior

from chdb import datastore as pd
print("DataStore ready!")

Migración en una sola línea desde Pandas

La forma más sencilla de empezar a usar DataStore es cambiar la instrucción de importación:

# Antes (pandas)
import pandas as pd

# Después (DataStore)
from chdb import datastore as pd

¡Eso es todo! Su código actual de pandas ahora usará DataStore y aprovechará la optimización de SQL.

Ejemplo de migración

from pathlib import Path
Path("employees.csv").write_text("""\
name,age,city,salary,department,dept_id,status,email
Alice,28,NYC,75000,Engineering,1,active,alice@company.com
Bob,35,LA,85000,Engineering,1,active,bob@company.com
Charlie,52,NYC,95000,Product,2,active,charlie@company.com
Diana,32,SF,70000,Design,3,active,diana@company.com
Eve,23,LA,48000,Product,2,inactive,eve@company.com
""")

# Código pandas original
import pandas as pd

df = pd.read_csv("employees.csv")
result = (df[df['salary'] > 50000]
          .groupby('department')['salary']
          .agg(['mean', 'count'])
          .sort_values('mean', ascending=False))
print(result)

# Versión DataStore - ¡solo cambia la importación!
from chdb import datastore as pd

df = pd.read_csv("employees.csv")
result = (df[df['salary'] > 50000]
          .groupby('department')['salary']
          .agg(['mean', 'count'])
          .sort_values('mean', ascending=False))
print(result)  # ¡Mismo resultado, ejecución más rápida!

Uso básico

Crear un DataStore

from chdb import datastore as pd

# Desde un diccionario
ds = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['NYC', 'LA', 'NYC']
})

# Desde un pandas DataFrame
import pandas
pdf = pandas.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
ds = pd.DataFrame(pdf)

# Desde un archivo CSV
ds = pd.read_csv("data.csv")

# Desde un archivo Parquet (recomendado para conjuntos de datos grandes)
ds = pd.read_parquet("data.parquet")

Filtrado de datos

from chdb import datastore as pd

ds = pd.read_csv("employees.csv")

# Condición única
senior = ds[ds['age'] > 30]

# Múltiples condiciones (AND)
senior_nyc = ds[(ds['age'] > 30) & (ds['city'] == 'NYC')]

# Múltiples condiciones (OR)
young_or_senior = ds[(ds['age'] < 25) | (ds['age'] > 50)]

# Usando el método filter (estilo SQL)
result = ds.filter(ds['salary'] > 50000)

Selección de columnas

# Estilo Pandas
subset = ds[['name', 'age']]

# Estilo SQL
subset = ds.select('name', 'age')

Ordenación

# Estilo Pandas
sorted_ds = ds.sort_values('salary', ascending=False)

# Estilo SQL
sorted_ds = ds.sort('salary', ascending=False)

Agrupación y agregación

from pathlib import Path
Path("sales.csv").write_text("""\
region,product,category,amount,quantity,price,date,order_id
East,Widget,Electronics,5200,10,120,2024-01-15,1001
West,Gadget,Electronics,800,5,160,2024-02-20,1002
East,Gizmo,Home,6500,3,100,2024-03-10,1003
North,Widget,Electronics,4500,6,150,2024-06-18,1004
West,Gadget,Electronics,2000,8,250,2024-09-14,1005
""")

from chdb import datastore as pd

ds = pd.read_csv("sales.csv")

# Agrupar por una sola columna
by_region = ds.groupby('region')['amount'].sum()

# Agrupar por múltiples columnas
by_region_product = ds.groupby(['region', 'product']).agg({
    'amount': ['sum', 'mean'],
    'quantity': 'sum'
})

# Múltiples agregaciones
summary = ds.groupby('category').agg({
    'price': ['min', 'max', 'mean'],
    'quantity': 'sum'
})

Combinación de DataStores

from pathlib import Path
Path("departments.csv").write_text("""\
dept_id,department_name
1,Engineering
2,Product
3,Design
""")

from chdb import datastore as pd

employees = pd.read_csv("employees.csv")
departments = pd.read_csv("departments.csv")

# Inner join
result = employees.join(departments, on='dept_id', how='inner')

# Left join
result = employees.join(departments, on='dept_id', how='left')

# Usando merge (estilo pandas)
result = pd.merge(employees, departments, on='dept_id')

Obtener resultados

DataStore utiliza evaluación diferida: las operaciones no se ejecutan hasta que necesitas los resultados.

Desencadenar la ejecución

# Disparadores automáticos
print(ds)           # Mostrar resultados
len(ds)             # Obtener el número de filas
ds.columns          # Acceder a propiedades
list(ds)            # Convertir a lista

# Conversión explícita
df = ds.to_df()     # Convertir a pandas DataFrame
df = ds.to_pandas() # Equivalente a to_df()

Ver el SQL generado

Query

# Ver qué SQL ejecutará DataStore
query = ds.filter(ds['age'] > 25).groupby('city').agg({'salary': 'mean'})
print(query.to_sql())

Response

SELECT city, AVG(salary) AS mean
FROM file('data.csv', 'CSVWithNames')
WHERE age > 25
GROUP BY city

Trabajar con distintas fuentes de datos

Archivos locales

from chdb import datastore as pd

# CSV
ds = pd.read_csv("data.csv")

# Parquet (mejor rendimiento)
ds = pd.read_parquet("data.parquet")

# JSON
ds = pd.read_json("data.json")

Almacenamiento en la nube

from chdb.datastore import DataStore

# S3 (anónimo)
ds = DataStore.uri("s3://bucket/data.parquet?nosign=true")

# S3 (con credenciales)
ds = DataStore.from_s3(
    "s3://bucket/data.parquet",
    access_key_id="KEY",
    secret_access_key="SECRET"
)

# HTTP/HTTPS
ds = DataStore.uri("https://example.com/data.csv")

Bases de datos

from chdb.datastore import DataStore

# MySQL
ds = DataStore.from_mysql(
    host="localhost",
    database="mydb",
    table="users",
    user="root",
    password="pass"
)

# PostgreSQL
ds = DataStore.from_postgresql(
    host="localhost",
    database="mydb",
    table="users",
    user="postgres",
    password="pass"
)

# Usando URI
ds = DataStore.uri("mysql://user:pass@localhost:3306/mydb/users")

Operaciones con cadena y DateTime

Operaciones con cadenas

# Todos los métodos .str de pandas funcionan
ds['name_upper'] = ds['name'].str.upper()
ds['name_len'] = ds['name'].str.len()
ds['has_a'] = ds['name'].str.contains('a')

Operaciones de DateTime

# Todos los métodos .dt de pandas funcionan
ds['year'] = ds['date'].dt.year
ds['month'] = ds['date'].dt.month
ds['day_of_week'] = ds['date'].dt.dayofweek

Extensiones de ClickHouse

# Análisis de URL (¡no disponible en pandas!)
ds['domain'] = ds['url'].url.domain()

# Extracción de JSON
ds['user_name'] = ds['json_data'].json.get_string('name')

# Operaciones con direcciones IP
ds['is_ipv4'] = ds['ip_addr'].ip.is_ipv4_string()

Buenas prácticas

1. Usar Parquet para archivos grandes

# CSV - más lento, lee el archivo completo
ds = pd.read_csv("large_data.csv")

# Parquet - más rápido, formato columnar, lee solo las columnas necesarias
ds = pd.read_parquet("large_data.parquet")

2. Filtrar desde el principio

# Bien - filtrar primero, luego agregar
result = (ds
    .filter(ds['date'] >= '2024-01-01')
    .groupby('category')['amount'].sum()
)

# Menos óptimo - agregar primero
result = ds.groupby('category')['amount'].sum()

3. Selecciona solo las columnas necesarias

# Bueno - seleccionar columnas específicas
result = ds.select('name', 'age', 'city').filter(ds['age'] > 25)

# Menos óptimo - trabajar con todas las columnas
result = ds.filter(ds['age'] > 25)

4. Usa SQL para operaciones complejas

# Para consultas complejas, usar SQL directamente
ds = DataStore()
result = ds.sql("""
    SELECT category, 
           SUM(amount) as total,
           COUNT(*) as count,
           AVG(amount) as avg
    FROM file('sales.csv', 'CSVWithNames')
    WHERE date >= '2024-01-01'
    GROUP BY category
    HAVING total > 10000
    ORDER BY total DESC
    LIMIT 10
""")

Siguientes pasos

Conozca todos los métodos de fábrica para crear un DataStore
Explore Construcción de consultas para operaciones al estilo SQL
Consulte Accessors para cadenas, fechas y horas, entre otros
Lea la Performance Guide para obtener consejos de optimización

​Instalación

​Verifica la instalación

​Migración en una sola línea desde Pandas

​Ejemplo de migración

​Uso básico

​Crear un DataStore

​Filtrado de datos

​Selección de columnas

​Ordenación

​Agrupación y agregación

​Combinación de DataStores

​Obtener resultados

​Desencadenar la ejecución

​Ver el SQL generado

​Trabajar con distintas fuentes de datos

​Archivos locales

​Almacenamiento en la nube

​Bases de datos

​Operaciones con cadena y DateTime

​Operaciones con cadenas

​Operaciones de DateTime

​Extensiones de ClickHouse

​Buenas prácticas

​1. Usar Parquet para archivos grandes

​2. Filtrar desde el principio

​3. Selecciona solo las columnas necesarias

​4. Usa SQL para operaciones complejas

​Siguientes pasos