Data warehousing - ClickHouse Documentation

El almacén de datos moderno ya no vincula estrechamente el almacenamiento y el cómputo. En su lugar, capas diferenciadas pero interconectadas para el almacenamiento, la gobernanza y el procesamiento de consultas le brindan la flexibilidad de elegir las herramientas adecuadas para sus flujos de trabajo. Al añadir formatos de tabla abiertos y un motor de consultas de alto rendimiento como ClickHouse al almacenamiento de objetos en la nube, obtiene capacidades propias de una base de datos —transacciones ACID, validación de esquemas y consultas analíticas rápidas— sin sacrificar el carácter abierto de su lago de datos. Esta combinación aúna rendimiento con un almacenamiento interoperable y rentable para dar soporte tanto a sus análisis tradicionales como a sus cargas de trabajo modernas de IA/ML.

Lo que proporciona esta arquitectura

Al combinar almacenamiento de objetos abierto y formatos de tabla con ClickHouse como motor de consultas, obtienes:

Beneficio	Descripción
Actualizaciones coherentes de tablas	Los commits atómicos del estado de la tabla hacen que las escrituras concurrentes no produzcan datos corruptos ni parciales. Esto resuelve uno de los mayores problemas de los lagos de datos sin procesar.
Gestión de esquemas	La validación obligatoria y el seguimiento de la evolución del esquema evitan el problema del “pantano de datos”, en el que los datos se vuelven inutilizables debido a inconsistencias en el esquema.
Rendimiento de las consultas	La indexación, las estadísticas y las optimizaciones de la disposición de los datos, como la omisión de datos y la agrupación, permiten que las consultas SQL se ejecuten a velocidades comparables a las de un almacén de datos dedicado. En combinación con el motor columnar de ClickHouse, esto sigue siendo cierto incluso con datos almacenados en almacenamiento de objetos.
Gobernanza	Los catálogos y los formatos de tabla proporcionan un control de acceso granular y auditoría a nivel de fila y columna, lo que soluciona las limitaciones de seguridad de los lagos de datos básicos.
Separación de almacenamiento y cómputo	El almacenamiento y el cómputo escalan de forma independiente sobre almacenamiento de objetos estándar, que es considerablemente más barato que el almacenamiento propietario de los almacenes de datos. Aunque esta separación es estándar en los almacenes de datos modernos en la nube, los formatos abiertos te permiten elegir qué motor de cómputo escala con tus datos.

Cómo ClickHouse potencia tu almacén de datos

Los datos fluyen desde plataformas de streaming y almacenes de datos existentes, a través del almacenamiento de objetos, hasta ClickHouse, donde se transforman, optimizan y se ponen al servicio de tus herramientas de BI/IA.

Arquitectura híbrida: lo mejor de ambos mundos

Además de consultar tu lago de datos, puedes ingestar en el almacenamiento nativo MergeTree de ClickHouse los datos críticos para el rendimiento para casos de uso que exigen una latencia ultrabaja: dashboards en tiempo real, analítica operativa o aplicaciones interactivas. Esto te proporciona una estrategia de datos por niveles. Los datos activos, a los que se accede con frecuencia, residen en el almacenamiento optimizado de ClickHouse para ofrecer respuestas a consultas en menos de un segundo, mientras que el historial completo de datos permanece en el lago y sigue siendo consultable. También puedes usar las vistas materializadas de ClickHouse para transformar y agregar continuamente los datos del lago en tablas optimizadas, conectando automáticamente ambos niveles. Tú eliges dónde residen los datos en función de los requisitos de rendimiento, no de las limitaciones técnicas.

ClickHouse AcademyRealiza el curso gratuito Data Warehousing with ClickHouse para obtener más información.

​Lo que proporciona esta arquitectura

​Cómo ClickHouse potencia tu almacén de datos

​Arquitectura híbrida: lo mejor de ambos mundos

Lo que proporciona esta arquitectura

Cómo ClickHouse potencia tu almacén de datos

Arquitectura híbrida: lo mejor de ambos mundos