Ingestão de dados do Postgres para ClickHouse (usando CDC)

Você pode usar o ClickPipes para fazer a ingestão de dados do seu banco de dados Postgres de origem no ClickHouse Cloud. O banco de dados Postgres de origem pode ser hospedado no local ou na nuvem, incluindo Amazon RDS, Google Cloud SQL, Azure Database for Postgres, Supabase e outros. Os ClickPipes do Postgres podem ser implantados e gerenciados manualmente usando a UI do ClickPipes, bem como programaticamente usando OpenAPI e Terraform.

Pré-requisitos

Para começar, primeiro você precisa garantir que seu banco de dados Postgres esteja configurado corretamente. Dependendo da sua instância Postgres de origem, você pode seguir qualquer um dos guias a seguir:

Amazon RDS Postgres
Amazon Aurora Postgres
Supabase Postgres
Google Cloud SQL Postgres
Azure Flexible Server for Postgres
Neon Postgres
Crunchy Bridge Postgres
Origem genérica do Postgres, se você estiver usando qualquer outro provedor de Postgres ou uma instância self-hosted.
TimescaleDB, se você estiver usando a extensão TimescaleDB em um serviço gerenciado ou em uma instância self-hosted.

Proxies de Postgres, como PgBouncer, RDS Proxy e Supabase Pooler, não são compatíveis com replicação baseada em CDC. Certifique-se de NÃO usá-los na configuração do ClickPipes e, em vez disso, informe os detalhes de conexão do banco de dados Postgres em si.

Depois que seu banco de dados Postgres de origem estiver configurado, você poderá continuar criando seu ClickPipe.

Criando seu ClickPipe

Certifique-se de estar conectado à sua conta do ClickHouse Cloud. Se ainda não tiver uma conta, você pode se cadastrar aqui.

No console do ClickHouse Cloud, navegue até seu serviço do ClickHouse Cloud.

Selecione o botão Data Sources no menu à esquerda e clique em “Set up a ClickPipe”

Selecione o bloco Postgres CDC

Adicionando a conexão com seu banco de dados Postgres de origem

Preencha os detalhes da conexão com o seu banco de dados Postgres de origem, configurado na etapa de pré-requisitos.

Antes de começar a adicionar os detalhes da conexão, certifique-se de adicionar os endereços IP do ClickPipes à lista de permissões das regras do seu firewall. Você pode encontrar a lista de endereços IP do ClickPipes aqui. Para mais informações, consulte os guias de configuração do Postgres de origem vinculados no topo desta página.

(Opcional) Configurar o AWS Private Link

Você pode usar o AWS Private Link para se conectar ao seu banco de dados Postgres de origem se ele estiver hospedado na AWS. Isso é útil se você quiser manter a transferência de dados privada. Você pode seguir o guia de configuração para configurar a conexão.

(Opcional) Configuração do tunelamento SSH

Você pode especificar os detalhes do tunelamento SSH se o banco de dados Postgres de origem não estiver acessível publicamente.

Ative a opção “Usar tunelamento SSH”.
Preencha os detalhes da conexão SSH.
Para usar autenticação baseada em chave, clique em “Revogar e gerar par de chaves” para gerar um novo par de chaves e copie a chave pública gerada para o servidor SSH em ~/.ssh/authorized_keys.
Clique em “Verificar conexão” para verificar a conexão.

Certifique-se de adicionar os endereços IP do ClickPipes à lista de permissões do firewall do host bastion SSH para que o ClickPipes possa estabelecer o túnel SSH.

Depois de preencher os detalhes da conexão, clique em “Próximo”.

Configurando as definições de replicação

Certifique-se de selecionar o slot de replicação na lista suspensa que você criou na etapa de pré-requisitos.

Configurações avançadas

Você pode configurar as Configurações avançadas, se necessário. Veja abaixo uma breve descrição de cada configuração:

Intervalo de sincronização: Este é o intervalo em que o ClickPipes consultará o banco de dados de origem em busca de alterações. Isso tem impacto no serviço ClickHouse de destino; para usuários mais sensíveis a custos, recomendamos manter esse valor mais alto (acima de 3600).
Threads em paralelo para a carga inicial: Este é o número de workers em paralelo que serão usados para buscar o snapshot inicial. Isso é útil quando você tem um grande número de tabelas e quer controlar o número de workers em paralelo usados para buscar o snapshot inicial. Essa configuração é aplicada por tabela.
Tamanho do lote de extração: O número de linhas a buscar em um único lote. Esta é uma configuração de melhor esforço e pode não ser respeitada em todos os casos.
Número de linhas por partição no snapshot: Este é o número de linhas que serão buscadas em cada partição durante o snapshot inicial. Isso é útil quando você tem um grande número de linhas em suas tabelas e quer controlar o número de linhas buscadas em cada partição.
Número de tabelas em paralelo no snapshot: Este é o número de tabelas que serão buscadas em paralelo durante o snapshot inicial. Isso é útil quando você tem um grande número de tabelas e quer controlar o número de tabelas buscadas em paralelo.

Configurando as tabelas

Aqui, você pode selecionar o banco de dados de destino do seu ClickPipe. Você pode selecionar um banco de dados existente ou criar um novo.
Você pode selecionar as tabelas que deseja replicar do banco de dados Postgres de origem. Ao selecionar as tabelas, também é possível renomeá-las no banco de dados ClickHouse de destino, bem como excluir colunas específicas.

Se você estiver definindo no ClickHouse uma chave de ordenação diferente da chave primária do Postgres, não se esqueça de ler todas as considerações sobre isso

Revise as permissões e inicie o ClickPipe

Selecione a função “Full access” no menu suspenso de permissões e clique em “Concluir configuração”.

O que vem a seguir?

Depois de configurar seu ClickPipe para replicar dados do PostgreSQL para o ClickHouse Cloud, você pode se concentrar em como consultar e modelar seus dados para obter o melhor desempenho. Consulte o guia de migração para avaliar qual estratégia melhor atende aos seus requisitos, bem como as páginas Estratégias de desduplicação (usando CDC) e Chaves de ordenação para conhecer as melhores práticas para workloads de CDC. Para dúvidas comuns sobre CDC do PostgreSQL e solução de problemas, consulte a página de perguntas frequentes do Postgres.

​Pré-requisitos

​Criando seu ClickPipe

​Adicionando a conexão com seu banco de dados Postgres de origem

​(Opcional) Configurar o AWS Private Link

​(Opcional) Configuração do tunelamento SSH

​Configurando as definições de replicação

​Configurações avançadas

​Configurando as tabelas

​Revise as permissões e inicie o ClickPipe

​O que vem a seguir?

Pré-requisitos

Criando seu ClickPipe

Adicionando a conexão com seu banco de dados Postgres de origem

(Opcional) Configurar o AWS Private Link

(Opcional) Configuração do tunelamento SSH

Configurando as definições de replicação

Configurações avançadas

Configurando as tabelas

Revise as permissões e inicie o ClickPipe

O que vem a seguir?