topK

Introduzido em: v1.1.0 Retorna um array com os valores aproximadamente mais frequentes na coluna especificada. O array resultante é ordenado em ordem decrescente da frequência aproximada dos valores (não pelos próprios valores). Implementa o algoritmo Filtered Space-Saving para analisar o TopK, com base no algoritmo reduce-and-combine de Parallel Space Saving. Esta função não fornece um resultado garantido. Em determinadas situações, podem ocorrer erros, e ela pode retornar valores frequentes que não são os mais frequentes. Veja também

Sintaxe

topK(N)(column)
topK(N, load_factor)(column)
topK(N, load_factor, 'counts')(column)

Parâmetros

N — O número de elementos a serem retornados. Valor padrão: 10. Valor máximo de N = 65536. UInt64
load_factor — Opcional. Define quantas células são reservadas para os valores. Se uniq(column) > N * load_factor, o resultado da função topK será aproximado. Valor padrão: 3. UInt64
counts — Opcional. Define se o resultado deve conter uma contagem aproximada e um valor de erro. Bool

Argumentos

column — O nome da coluna para a qual serão encontrados os valores mais frequentes. String

Valor retornado Retorna um array com os valores aproximadamente mais frequentes, ordenados em ordem decrescente de frequência aproximada. Array Exemplos Exemplo de uso

Query

SELECT topK(3)(AirlineID) AS res
FROM ontime;

Response

┌─res─────────────────┐
│ [19393,19790,19805] │
└─────────────────────┘

Veja também

​topK

topK