メインコンテンツへスキップ

approx_top_sum

導入バージョン: v1.1.0 指定したカラムにおいて、おおよそ最も頻出する値とその出現回数の配列を返します。 結果の配列は、値そのものではなく、値のおおよその出現頻度の高い順にソートされます。 また、値の重みも考慮されます。 この関数は、結果を保証するものではありません。 状況によってはエラーが発生したり、最頻値ではない頻出値を返したりすることがあります。 関連項目 構文
approx_top_sum(N[, reserved])(column, weight)
パラメータ
  • N — 返す要素数。省略可能。デフォルト値: 10。UInt64
  • reserved — 省略可能。値のために予約するセル数を指定します。uniq(column) > reserved の場合、topK 関数の結果は近似値になります。デフォルト値: N * 3N の最大値は 65536 です。UInt64
引数
  • column — 最も頻出する値を見つける対象のカラム名。String
  • weight — 重み。頻度計算では、各値は weight 回出現したものとして集計されます。UInt64
戻り値 近似頻度の高い順にソートされた、概ね最も頻出する値とその出現回数の配列を返します。Array 使用例
Query
SELECT approx_top_sum(2)(k, w)
FROM VALUES('k Char, w UInt64', ('y', 1), ('y', 1), ('x', 5), ('y', 1), ('z', 10));
Response
┌─approx_top_sum(2)(k, w)─┐
│ [('z',10,0),('x',5,0)]  │
└─────────────────────────┘
関連項目
最終更新日 2026年6月10日