approx_top_sum

導入バージョン: v1.1.0 指定したカラムにおいて、おおよそ最も頻出する値とその出現回数の配列を返します。結果の配列は、値そのものではなく、値のおおよその出現頻度の高い順にソートされます。また、値の重みも考慮されます。この関数は、結果を保証するものではありません。状況によってはエラーが発生したり、最頻値ではない頻出値を返したりすることがあります。 関連項目

構文

approx_top_sum(N[, reserved])(column, weight)

パラメータ

N — 返す要素数。省略可能。デフォルト値: 10。UInt64
reserved — 省略可能。値のために予約するセル数を指定します。uniq(column) > reserved の場合、topK 関数の結果は近似値になります。デフォルト値: N * 3。N の最大値は 65536 です。UInt64

引数

column — 最も頻出する値を見つける対象のカラム名。String
weight — 重み。頻度計算では、各値は weight 回出現したものとして集計されます。UInt64

戻り値 近似頻度の高い順にソートされた、概ね最も頻出する値とその出現回数の配列を返します。Array 例 使用例

Query

SELECT approx_top_sum(2)(k, w)
FROM VALUES('k Char, w UInt64', ('y', 1), ('y', 1), ('x', 5), ('y', 1), ('z', 10));

Response

┌─approx_top_sum(2)(k, w)─┐
│ [('z',10,0),('x',5,0)]  │
└─────────────────────────┘

関連項目

​approx_top_sum

approx_top_sum