approx_top_sum

Добавленный в: v1.1.0 Возвращает массив приблизительно наиболее часто встречающихся значений и их количества в указанном столбце. Полученный массив сортируется по убыванию приблизительной частоты значений (а не самих значений). Кроме того, учитывается вес значения. Эта функция не гарантирует точный результат. В некоторых случаях возможны ошибки, и функция может возвращать часто встречающиеся значения, которые не являются наиболее частыми. См. также

Синтаксис

approx_top_sum(N[, reserved])(column, weight)

Параметры

N — Количество возвращаемых элементов. Необязательный параметр. Значение по умолчанию: 10. UInt64
reserved — Необязательный параметр. Определяет, сколько ячеек зарезервировано для значений. Если uniq(column) > reserved, результат функции topK будет приблизительным. Значение по умолчанию: N * 3. Максимальное значение N = 65536. UInt64

Аргументы

column — Имя столбца, для которого нужно найти наиболее часто встречающиеся значения. String
weight — Вес. При вычислении частоты каждое значение учитывается weight раз. UInt64

Возвращаемое значение Возвращает массив приблизительно наиболее частых значений и количества их вхождений, отсортированный по убыванию приблизительной частоты. Array Примеры Пример использования

Query

SELECT approx_top_sum(2)(k, w)
FROM VALUES('k Char, w UInt64', ('y', 1), ('y', 1), ('x', 5), ('y', 1), ('z', 10));

Response

┌─approx_top_sum(2)(k, w)─┐
│ [('z',10,0),('x',5,0)]  │
└─────────────────────────┘

См. также

​approx_top_sum

approx_top_sum