La ingesta de datos desde MongoDB a ClickHouse Cloud mediante ClickPipes está en beta pública.
En la consola y la documentación de ClickHouse Cloud, “tabla” y “colección” se usan indistintamente para MongoDB.
Requisitos previos
Crea tu ClickPipe
- En la consola de ClickHouse Cloud, ve a tu servicio de ClickHouse Cloud.
- Selecciona el botón
Data Sourcesen el menú lateral izquierdo y haz clic en “Set up a ClickPipe”.
- Selecciona la tarjeta
MongoDB CDC.
Agrega la conexión a tu base de datos MongoDB de origen
- Completa los datos de conexión de tu base de datos MongoDB de origen que configuraste en el paso de requisitos previos.
Antes de empezar a agregar los datos de conexión, asegúrate de haber permitido las direcciones IP de ClickPipes en las reglas de tu firewall. En la siguiente página puedes encontrar una lista de direcciones IP de ClickPipes.
Para obtener más información, consulta las guías de configuración de MongoDB de origen enlazadas al inicio de esta página.
(Opcional) Configurar la tunelización SSH
- Active el interruptor “Usar tunelización SSH”.
- Complete los detalles de la conexión SSH.
-
Para usar autenticación basada en claves, haga clic en “Revocar y generar par de claves” para generar un nuevo par de claves y copie la clave pública generada en su servidor SSH, en
~/.ssh/authorized_keys. - Haga clic en “Verificar conexión” para verificar la conexión.
Asegúrese de permitir las dirección IP de ClickPipes en las reglas de su firewall para el host bastión SSH, de modo que ClickPipes pueda establecer el túnel SSH.
Siguiente.
Configurar ajustes avanzados
- Intervalo de sincronización: Es el intervalo con el que ClickPipes consultará la base de datos de origen para detectar cambios. Esto influye en el servicio de ClickHouse de destino; para los usuarios con restricciones de costos, recomendamos mantenerlo en un valor más alto (por encima de
3600). - Tamaño del lote de extracción: El número de filas que se recuperarán en un solo lote. Este ajuste es orientativo y puede que no se respete en todos los casos.
- Número de tablas de la instantánea en paralelo: Es el número de tablas que se recuperarán en paralelo durante la instantánea inicial. Resulta útil cuando tiene un gran número de tablas y desea controlar cuántas se recuperan en paralelo.
Configura las tablas
- Aquí puedes seleccionar la base de datos de destino para tu ClickPipe. Puedes seleccionar una base de datos existente o crear una nueva.
- Puedes seleccionar las tablas que quieres replicar desde la base de datos MongoDB de origen. Al seleccionar las tablas, también puedes optar por cambiarles el nombre en la base de datos de destino de ClickHouse.
Revisa los permisos e inicia el ClickPipe
- Selecciona el rol “Acceso completo” en el menú desplegable de permisos y haz clic en “Completar configuración”.
¿Qué sigue?
Consideraciones
- Requerimos MongoDB versión 5.1.0 o superior.
- Usamos la API nativa de Change Streams de MongoDB para CDC, que se basa en el oplog de MongoDB para capturar cambios en tiempo real.
- Los documentos de MongoDB se replican en ClickHouse como JSON type de forma predeterminada. Esto permite una gestión flexible del schema y hace posible usar el amplio conjunto de operadores JSON de ClickHouse para realizar consultas y análisis. Puedes obtener más información sobre cómo consultar datos JSON aquí.
- La configuración de PrivateLink de autoservicio no está disponible actualmente. Si usas AWS y necesitas PrivateLink, ponte en contacto con db-integrations-support@clickhouse.com o crea un ticket de soporte; trabajaremos contigo para habilitarlo.