메인 콘텐츠로 건너뛰기
ClickHouse는 모든 표준 SQL 집계 함수(sum, avg, min, max, count)를 지원하며, 이 외에도 다양한 집계 함수를 제공합니다.
페이지설명
aggThrow이 함수는 예외 안전성 테스트에 사용할 수 있습니다. 지정된 확률로 생성 시 예외를 발생시킵니다.
analysisOfVariance일원 분산 분석(ANOVA test)을 위한 통계 검정을 제공합니다. 정규 분포를 따르는 여러 그룹의 관측값을 대상으로 모든 그룹의 평균이 같은지 여부를 판별하는 검정입니다.
any컬럼에서 처음 발견된 값을 선택합니다.
anyHeavyheavy hitters 알고리즘을 사용해 자주 나타나는 값을 선택합니다. 각 쿼리 실행 스레드에서 절반을 초과해 나타나는 값이 있으면 해당 값을 반환합니다. 일반적으로 결과는 비결정적입니다.
anyLast컬럼에서 마지막으로 발견된 값을 선택합니다.
approx_top_k지정된 컬럼에서 대략적으로 가장 자주 나타나는 값과 해당 개수를 담은 배열을 반환합니다.
approx_top_sum지정된 컬럼에서 대략적으로 가장 자주 나타나는 값과 해당 개수를 담은 배열을 반환합니다.
argAndMax최대 val 값에 대한 argval 값을 계산합니다. 최대값인 동일한 val을 가진 행이 여러 개 있는 경우, 연관된 argval 중 어떤 값이 반환될지는 결정되지 않습니다.
argAndMin최소 val 값에 대한 argval 값을 계산합니다. 최소값인 동일한 val을 가진 행이 여러 개 있는 경우, 연관된 argval 중 어떤 값이 반환될지는 결정되지 않습니다.
argMax최대 val 값에 대한 arg 값을 계산합니다.
argMin최소 val 값에 대한 arg 값을 계산합니다. 최대값인 동일한 val을 가진 행이 여러 개 있는 경우, 연관된 arg 중 어떤 값이 반환될지는 결정되지 않습니다.
avg산술 평균을 계산합니다.
avgWeighted가중 산술 평균을 계산합니다.
boundingRatio값 그룹 전체에서 가장 왼쪽 점과 가장 오른쪽 점 사이의 기울기를 계산하는 집계 함수입니다.
categoricalInformationValue각 범주에 대해 (P(tag = 1) - P(tag = 0))(log(P(tag = 1)) - log(P(tag = 0))) 값을 계산합니다.
contingencycontingency 함수는 테이블의 두 컬럼 간 연관성을 측정하는 값인 분할계수를 계산합니다. 계산 방식은 cramersV 함수와 유사하지만 제곱근의 분모가 다릅니다.
corr피어슨 상관계수를 계산합니다.
corrMatrixN개 변수에 대한 상관행렬을 계산합니다.
corrStable피어슨 상관계수를 계산하지만 수치적으로 안정적인 알고리즘을 사용합니다.
count행 수 또는 NULL이 아닌 값의 개수를 셉니다.
covarPop모집단 공분산을 계산합니다.
covarPopMatrixN개 변수에 대한 모집단 공분산 행렬을 반환합니다.
covarPopStable모집단 공분산 값을 계산합니다.
covarSampΣ((x - x̅)(y - y̅)) / (n - 1) 값을 계산합니다.
covarSampMatrixN개 변수에 대한 표본 공분산 행렬을 반환합니다.
covarSampStablecovarSamp와 비슷하지만 더 느리게 동작하는 대신 계산 오차가 더 작습니다.
cramersVcramersV 함수의 결과는 0(변수 간 연관성이 없음을 의미)부터 1까지의 범위를 가지며, 각 값이 다른 값에 의해 완전히 결정될 때만 1에 도달할 수 있습니다. 이는 두 변수 간 연관성을 가능한 최대 변동 대비 백분율로 나타낸 것으로 볼 수 있습니다.
cramersVBiasCorrectedCramer’s V를 계산하지만 편향 보정을 사용합니다.
deltaSum연속된 행 사이의 산술 차이를 합산합니다.
deltaSumTimestamp연속된 행 사이의 차이를 더합니다. 차이가 음수이면 무시합니다.
distinctDynamicTypesDynamic 컬럼에 저장된 고유한 데이터 타입 목록을 계산합니다.
distinctJSONPathsJSON 컬럼에 저장된 고유한 경로 목록을 계산합니다.
distinctJSONPathsAndTypesJSON에 저장된 고유한 경로와 해당 타입의 목록을 계산합니다.
entropy값 컬럼의 Shannon 엔트로피를 계산합니다.
estimateCompressionRatio지정된 컬럼을 실제로 압축하지 않고 압축률을 추정합니다.
exponentialMovingAverage지정된 시간에 대한 값의 지수 이동 평균을 계산합니다.
exponentialTimeDecayedAvg시점 t에서 시계열 값의 지수적으로 평활된 가중 이동 평균을 반환합니다.
exponentialTimeDecayedCount시점 인덱스 t에서 시계열의 누적 지수 감쇠값을 반환합니다.
exponentialTimeDecayedMax시점 인덱스 t에서 계산된 지수적으로 평활된 이동 평균과 t-1에서의 값 중 최댓값을 반환합니다.
exponentialTimeDecayedSum시점 인덱스 t에서 시계열의 지수적으로 평활된 이동 평균값 합계를 반환합니다.
first_valueany의 별칭이지만, 때때로 NULL 값을 처리해야 하는 윈도우 함수와의 호환성을 위해 도입되었습니다(기본적으로 모든 ClickHouse 집계 함수는 NULL 값을 무시합니다).
flameGraph스택트레이스 목록을 사용해 플레임 그래프를 생성하는 집계 함수입니다.
groupArray인수 값의 배열을 생성합니다. 값은 배열에 임의의(결정되지 않은) 순서로 추가될 수 있습니다.
groupArrayArray배열들을 해당 배열들로 이루어진 더 큰 배열로 집계합니다.
groupArrayInsertAt배열의 지정된 위치에 값을 삽입합니다.
groupArrayIntersect지정된 배열들의 교집합을 반환합니다(주어진 모든 배열에 공통으로 존재하는 모든 항목을 반환합니다).
groupArrayLast마지막 인수 값들의 배열을 생성합니다.
groupArrayMovingAvg입력 값의 이동 평균을 계산합니다.
groupArrayMovingSum입력 값의 이동 합계를 계산합니다.
groupArraySample샘플 인수 값의 배열을 생성합니다. 결과 배열의 크기는 max_size개 요소로 제한됩니다. 인수 값은 무작위로 선택되어 배열에 추가됩니다.
groupArraySorted오름차순으로 정렬된 처음 N개 항목이 포함된 배열을 반환합니다.
groupBitAnd일련의 숫자에 비트 단위 AND를 적용합니다.
groupBitmap부호 없는 정수 컬럼에 대해 비트맵 집계를 수행하고, UInt64 타입의 카디널리티를 반환합니다. 접미사 -State를 추가하면 비트맵 객체를 반환합니다.
groupBitmapAnd비트맵 컬럼에 대해 AND를 계산하고, UInt64 타입의 카디널리티를 반환합니다. 접미사 -State를 추가하면 비트맵 객체를 반환합니다.
groupBitmapOr비트맵 컬럼에 대해 OR를 계산하고, UInt64 타입의 카디널리티를 반환합니다. 접미사 -State를 추가하면 비트맵 객체를 반환합니다. 이는 groupBitmapMerge와 동일합니다.
groupBitmapXor비트맵 컬럼에 대해 XOR를 계산하고 UInt64 타입의 카디널리티를 반환합니다. 접미사 -State와 함께 사용하면 비트맵 객체를 반환합니다.
groupBitOr일련의 숫자에 비트 단위 OR를 적용합니다.
groupBitXor일련의 숫자에 비트 단위 XOR를 적용합니다.
groupConcat문자열 그룹에서 연결된 문자열을 계산합니다. 필요에 따라 구분자를 사용할 수 있으며, 최대 요소 수로 제한할 수도 있습니다.
groupUniqArray서로 다른 인수 값으로 배열을 생성합니다.
intervalLengthSum모든 구간의 합집합 총길이(수치 축상의 선분)를 계산합니다.
kolmogorovSmirnovTest두 모집단의 샘플에 Kolmogorov-Smirnov 검정을 적용합니다.
kurtPop수열의 첨도를 계산합니다.
kurtSamp수열의 표본 첨도를 계산합니다.
largestTriangleThreeBuckets입력 데이터에 Largest-Triangle-Three-Buckets 알고리즘을 적용합니다.
last_valueanyLast와 비슷하게 마지막으로 나타난 값을 선택하지만 NULL도 허용할 수 있습니다.
mannWhitneyUTest두 모집단의 샘플에 Mann-Whitney 순위 검정을 적용합니다.
max값 그룹 전체에서 최댓값을 계산하는 집계 함수입니다.
maxIntersections인터벌 그룹이 서로 교차하는 최대 횟수를 계산하는 집계 함수입니다(모든 인터벌이 최소 한 번 이상 교차하는 경우).
maxIntersectionsPositionmaxIntersections 함수가 발생하는 위치를 계산하는 집계 함수입니다.
maxMapkey 배열에 지정된 키에 따라 value 배열에서 최댓값을 계산합니다.
meanZTest두 모집단의 샘플에 평균 z-검정을 적용합니다.
medianmedian* 함수는 해당 quantile* 함수의 별칭입니다. 숫자 데이터 샘플의 중앙값을 계산합니다.
min값 그룹 전체에서 최솟값을 계산하는 집계 함수입니다.
minMapkey 배열에 지정된 키에 따라 value 배열에서 최솟값을 계산합니다.
quantile숫자 데이터 수열의 근사 분위수를 계산합니다.
quantileBFloat16bfloat16 숫자로 구성된 샘플의 근사 분위수를 계산합니다.
quantileDD상대 오차가 보장되는 샘플의 근사 분위수를 계산합니다.
quantileDeterministic숫자 데이터 수열의 근사 분위수를 계산합니다.
quantileExact FunctionsquantileExact, quantileExactLow, quantileExactHigh, quantileExactExclusive, quantileExactInclusive 함수
quantileExactExclusive숫자 데이터 수열의 분위수를 정확하게 계산합니다.
quantileExactHighquantileExact와 비슷하게 숫자 데이터 수열의 정확한 분위수를 계산합니다.
quantileExactInclusive숫자 데이터 수열의 분위수를 정확하게 계산합니다.
quantileExactLowquantileExact와 비슷하게 숫자 데이터 수열의 정확한 분위수를 계산합니다.
quantileExactWeighted각 요소의 가중치를 고려하여 숫자 데이터 수열의 분위수를 정확하게 계산합니다.
quantileExactWeightedInterpolated각 요소의 가중치를 고려해 선형 보간으로 숫자 데이터 수열의 분위수를 계산합니다.
quantileGKGreenwald-Khanna 알고리즘을 사용해 숫자 데이터 수열의 분위수를 계산합니다.
quantileInterpolatedWeighted각 요소의 가중치를 고려해 선형 보간으로 숫자 데이터 수열의 분위수를 계산합니다.
quantilePrometheusHistogram선형 보간을 사용해 히스토그램의 분위수를 계산합니다.
quantiles Functionsquantiles, quantilesExactExclusive, quantilesExactInclusive, quantilesGK
quantilesExactExclusive숫자 데이터 시퀀스의 분위수를 정확하게 계산합니다.
quantilesExactInclusive숫자 데이터 시퀀스의 분위수를 정확하게 계산합니다.
quantilesGKquantilesGK는 quantileGK와 비슷하게 동작하지만, 서로 다른 수준의 분위수를 동시에 계산할 수 있으며 배열을 반환합니다.
quantilesTimingWeighted지정된 정밀도로 각 시퀀스 구성원의 가중치에 따라 숫자 데이터 시퀀스의 분위수를 계산합니다.
quantileTDigestt-digest 알고리즘을 사용해 숫자 데이터 시퀀스의 근사 분위수를 계산합니다.
quantileTDigestWeightedt-digest 알고리즘을 사용해 숫자 데이터 시퀀스의 근사 분위수를 계산합니다.
quantileTiming지정된 정밀도로 숫자 데이터 시퀀스의 분위수를 계산합니다.
quantileTimingWeighted지정된 정밀도로 각 시퀀스 구성원의 가중치에 따라 숫자 데이터 시퀀스의 분위수를 계산합니다.
rankCorr순위 상관 계수를 계산합니다.
simpleLinearRegression단순(1차원) 선형 회귀를 수행합니다.
singleValueOrNull집계 함수 singleValueOrNullx = ALL (SELECT ...)와 같은 서브쿼리 연산자를 구현하는 데 사용됩니다. 데이터에 고유한 non-NULL 값이 하나만 있는지 확인합니다.
skewPop시퀀스의 왜도를 계산합니다.
skewSamp시퀀스의 표본 왜도를 계산합니다.
sparkbar이 함수는 구간 [min_x, max_x]에서 값 x와 해당 값의 반복 빈도 y에 대한 빈도 히스토그램을 그립니다.
stddevPop결과는 varPop의 제곱근과 같습니다.
stddevPopStable결과는 varPop의 제곱근과 같습니다. stddevPop과 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다.
stddevSamp결과는 varSamp의 제곱근과 같습니다.
stddevSampStable결과는 varSamp의 제곱근과 같습니다. stddevSamp와 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다.
stochasticLinearRegression이 함수는 확률적 선형 회귀를 구현합니다. 학습률, L2 정규화 계수, 미니배치 크기에 대한 사용자 지정 매개변수를 지원하며, 가중치 업데이트를 위한 몇 가지 메서드(Adam, 단순 SGD, Momentum, Nesterov)를 제공합니다.
stochasticLogisticRegression이 함수는 확률적 로지스틱 회귀를 구현합니다. 이진 분류 문제에 사용할 수 있으며, stochasticLinearRegression과 동일한 사용자 지정 매개변수를 지원하고 같은 방식으로 동작합니다.
studentTTest두 모집단의 표본에 Student t-test를 적용합니다.
studentTTestOneSample단일 표본과 알려진 모집단 평균에 one-sample Student t-test를 적용합니다.
sum합계를 계산합니다. 숫자에서만 동작합니다.
sumCount숫자의 합계를 계산하는 동시에 행 수를 셉니다. 이 함수는 ClickHouse 쿼리 최적화기에서 사용됩니다. 쿼리에 여러 sum, count 또는 avg 함수가 있으면 계산을 재사용하기 위해 이를 단일 sumCount 함수로 대체할 수 있습니다. 이 함수를 명시적으로 사용할 일은 거의 없습니다.
sumKahanKahan 보정 합산 알고리즘을 사용해 숫자의 합계를 계산합니다.
sumMapkey 배열에 지정된 키에 따라 하나 이상의 value 배열을 합산합니다. 배열로 이루어진 Tuple을 반환하며, 정렬된 순서의 키와 해당 키에 대해 오버플로우 없이 합산된 값이 뒤따릅니다.
sumMapWithOverflowkey 배열에 지정된 키에 따라 value 배열을 합산합니다. 두 개의 배열로 이루어진 Tuple을 반환하며, 정렬된 순서의 키와 해당 키에 대해 합산된 값으로 구성됩니다. sumMap 함수와 다른 점은 오버플로우를 허용해 합산한다는 것입니다.
sumWithOverflow입력 매개변수와 동일한 데이터 타입을 결과에 사용해 숫자의 합계를 계산합니다. 합계가 이 데이터 타입의 최댓값을 초과하면 오버플로우를 허용해 계산합니다.
theilsUtheilsU 함수는 테이블의 두 컬럼 간 연관성을 측정하는 값인 Theils’ U 불확실성 계수를 계산합니다.
timeSeriesChangesToGrid지정된 그리드에서 시계열 데이터의 시간 경과에 따른 PromQL 유사 changes를 계산하는 집계 함수입니다.
timeSeriesDeltaToGrid지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 delta를 계산하는 집계 함수입니다.
timeSeriesDerivToGrid지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 derivative를 계산하는 집계 함수입니다.
timeSeriesGroupArraytimestamp 기준으로 시계열을 오름차순 정렬합니다.
timeSeriesInstantDeltaToGrid지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 idelta를 계산하는 집계 함수입니다.
timeSeriesInstantRateToGrid지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 irate를 계산하는 집계 함수입니다.
timeSeriesLastTwoSamplesPromQL과 유사한 irate 및 idelta 계산을 위해 시계열 데이터를 리샘플링하는 집계 함수입니다.
timeSeriesPredictLinearToGrid지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 선형 예측을 계산하는 집계 함수입니다.
timeSeriesRateToGrid지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 rate를 계산하는 집계 함수입니다.
timeSeriesResampleToGridWithStaleness시계열 데이터를 지정된 그리드로 리샘플링하는 집계 함수입니다.
timeSeriesResetsToGrid지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 resets를 계산하는 집계 함수입니다.
topK지정된 컬럼에서 대략적으로 가장 자주 나타나는 값들의 배열을 반환합니다. 결과 배열은 값 자체가 아니라 값의 대략적인 빈도를 기준으로 내림차순 정렬됩니다.
topKWeighted지정된 컬럼에서 대략적으로 가장 자주 나타나는 값들의 배열을 반환합니다. 결과 배열은 값 자체가 아니라 값의 대략적인 빈도를 기준으로 내림차순 정렬됩니다. 또한 값의 가중치도 반영됩니다.
uniq인수의 서로 다른 값 개수를 근사적으로 계산합니다.
uniqCombined인수의 서로 다른 값 개수를 근사적으로 계산합니다.
uniqCombined64인수의 서로 다른 값 개수를 근사적으로 계산합니다. uniqCombined와 동일하지만, String 데이터 타입에만 적용하는 대신 모든 데이터 타입에 64비트 hash를 사용합니다.
uniqExact인수의 서로 다른 값 개수를 정확하게 계산합니다.
uniqHLL12HyperLogLog 알고리즘을 사용해 인수의 서로 다른 값 개수를 근사적으로 계산합니다.
uniqThetaTheta Sketch Framework를 사용해 인수의 서로 다른 값 개수를 근사적으로 계산합니다.
varPop모집단 분산을 계산합니다.
varPopStable모집단 분산을 반환합니다. varPop와 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다. 더 느리지만 계산 오차는 더 작습니다.
varSamp데이터 집합의 표본 분산을 계산합니다.
varSampStable데이터 집합의 표본 분산을 계산합니다. varSamp와 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다. 더 느리지만 계산 오차는 더 작습니다.
welchTTest두 모집단에서 추출한 표본에 Welch’s t-test를 적용합니다.
마지막 수정일 2026년 6월 10일