| Avaliações de clientes da Amazon | Mais de 150 milhões de avaliações de clientes sobre produtos da Amazon |
| Benchmark de Big Data do AMPLab | Um conjunto de dados de benchmark usado para comparar o desempenho de soluções de armazenamento de dados. |
| Analisando dados do Stack Overflow com ClickHouse | Analisando dados do Stack Overflow com ClickHouse |
| Análise web anonimizada | Conjunto de dados composto por duas tabelas com dados anonimizados de análise web, com hits e visits |
| Benchmark da Brown University | Um novo benchmark analítico para dados de log gerados por máquina |
| dados abertos da COVID-19 | O COVID-19 Open-Data é um grande banco de dados de código aberto com dados epidemiológicos da COVID-19 e fatores relacionados, como demografia, economia e respostas governamentais |
| dataset dbpedia | Dataset com 1 milhão de artigos da Wikipedia e seus embeddings vetoriais |
| dados de sensores ambientais | Mais de 20 bilhões de registros da Sensor.Community, uma rede global de sensores mantida por colaboradores que cria Open Environmental Data. |
| Locais do Foursquare | Conjunto de dados com mais de 100 milhões de registros que contém informações sobre locais em um mapa, como lojas, restaurantes, parques, playgrounds e monumentos. |
| Dados geográficos usando o conjunto de dados de torres de celular | Saiba como carregar dados do OpenCelliD no ClickHouse, conectar o Apache Superset ao ClickHouse e criar um dashboard com base nesses dados |
| Dataset de eventos do GitHub | Dataset que reúne todos os eventos do GitHub de 2011 a 6 de dezembro de 2020, com um total de 3,1 bilhões de registros. |
| Hacker News dataset | Conjunto de dados com 28 milhões de linhas de dados do Hacker News. |
| Conjunto de dados de busca vetorial do Hacker News | Conjunto de dados com mais de 28 milhões de postagens do Hacker News & seus embeddings vetoriais |
| Conjunto de dados LAION 5B | Conjunto de dados com 100 milhões de vetores do LAION 5B |
| Conjunto de dados Laion-400M | Conjunto de dados com 400 milhões de imagens com legendas em inglês |
| Conjunto de dados “What’s on the Menu?” da New York Public Library | Conjunto de dados com 1,3 milhão de registros históricos dos cardápios de hotéis, restaurantes e cafés, incluindo os pratos e seus preços. |
| Dados de táxis de Nova York | Dados sobre bilhões de viagens de táxi e veículos de transporte por aplicativo (Uber, Lyft etc.) com origem na cidade de Nova York desde 2009 |
| NOAA Global Historical Climatology Network | 2,5 bilhões de linhas de dados climáticos dos últimos 120 anos |
| Dados de denúncias da NYPD | Faça a ingestão e consulte dados no formato Tab Separated Value em 5 etapas |
| OnTime | Conjunto de dados com o desempenho de pontualidade dos voos de companhias aéreas |
| Star Schema Benchmark (SSB, 2009) | O conjunto de dados e as consultas do Star Schema Benchmark (SSB) |
| Conjuntos de dados históricos do clima de Taiwan | 131 milhões de linhas de dados de observação meteorológica dos últimos 128 anos |
| Logs de cliques de um terabyte da Criteo | Um terabyte de logs de cliques da Criteo |
| O conjunto de dados de preços de imóveis no Reino Unido | Saiba como usar projeções para melhorar o desempenho das consultas executadas com frequência com o conjunto de dados de imóveis do Reino Unido, que contém dados sobre os preços pagos por imóveis na Inglaterra e no País de Gales |
| TPC-DS (2012) | O conjunto de dados e as consultas do benchmark TPC-DS. |
| TPC-H (1999) | O conjunto de dados e as consultas do benchmark TPC-H. |
| WikiStat | Explore o conjunto de dados WikiStat, que contém 0,5 trilhão de registros. |
| Escrevendo consultas no ClickHouse com dados do GitHub | Conjunto de dados que contém todos os commits e as alterações do repositório do ClickHouse |
| Conjunto de dados de dislikes do YouTube | Uma coleção de dislikes de vídeos do YouTube. |