집계 함수 - ClickHouse Documentation

ClickHouse는 모든 표준 SQL 집계 함수(sum, avg, min, max, count)를 지원하며, 이 외에도 다양한 집계 함수를 제공합니다.

페이지	설명
aggThrow	이 함수는 예외 안전성 테스트에 사용할 수 있습니다. 지정된 확률로 생성 시 예외를 발생시킵니다.
analysisOfVariance	일원 분산 분석(ANOVA test)을 위한 통계 검정을 제공합니다. 정규 분포를 따르는 여러 그룹의 관측값을 대상으로 모든 그룹의 평균이 같은지 여부를 판별하는 검정입니다.
any	컬럼에서 처음 발견된 값을 선택합니다.
anyHeavy	heavy hitters 알고리즘을 사용해 자주 나타나는 값을 선택합니다. 각 쿼리 실행 스레드에서 절반을 초과해 나타나는 값이 있으면 해당 값을 반환합니다. 일반적으로 결과는 비결정적입니다.
anyLast	컬럼에서 마지막으로 발견된 값을 선택합니다.
approx_top_k	지정된 컬럼에서 대략적으로 가장 자주 나타나는 값과 해당 개수를 담은 배열을 반환합니다.
approx_top_sum	지정된 컬럼에서 대략적으로 가장 자주 나타나는 값과 해당 개수를 담은 배열을 반환합니다.
argAndMax	최대 `val` 값에 대한 `arg` 및 `val` 값을 계산합니다. 최대값인 동일한 `val`을 가진 행이 여러 개 있는 경우, 연관된 `arg` 및 `val` 중 어떤 값이 반환될지는 결정되지 않습니다.
argAndMin	최소 `val` 값에 대한 `arg` 및 `val` 값을 계산합니다. 최소값인 동일한 `val`을 가진 행이 여러 개 있는 경우, 연관된 `arg` 및 `val` 중 어떤 값이 반환될지는 결정되지 않습니다.
argMax	최대 `val` 값에 대한 `arg` 값을 계산합니다.
argMin	최소 `val` 값에 대한 `arg` 값을 계산합니다. 최대값인 동일한 `val`을 가진 행이 여러 개 있는 경우, 연관된 `arg` 중 어떤 값이 반환될지는 결정되지 않습니다.
avg	산술 평균을 계산합니다.
avgWeighted	가중 산술 평균을 계산합니다.
boundingRatio	값 그룹 전체에서 가장 왼쪽 점과 가장 오른쪽 점 사이의 기울기를 계산하는 집계 함수입니다.
categoricalInformationValue	각 범주에 대해 `(P(tag = 1) - P(tag = 0))(log(P(tag = 1)) - log(P(tag = 0)))` 값을 계산합니다.
contingency	`contingency` 함수는 테이블의 두 컬럼 간 연관성을 측정하는 값인 분할계수를 계산합니다. 계산 방식은 `cramersV` 함수와 유사하지만 제곱근의 분모가 다릅니다.
corr	피어슨 상관계수를 계산합니다.
corrMatrix	N개 변수에 대한 상관행렬을 계산합니다.
corrStable	피어슨 상관계수를 계산하지만 수치적으로 안정적인 알고리즘을 사용합니다.
count	행 수 또는 NULL이 아닌 값의 개수를 셉니다.
covarPop	모집단 공분산을 계산합니다.
covarPopMatrix	N개 변수에 대한 모집단 공분산 행렬을 반환합니다.
covarPopStable	모집단 공분산 값을 계산합니다.
covarSamp	`Σ((x - x̅)(y - y̅)) / (n - 1)` 값을 계산합니다.
covarSampMatrix	N개 변수에 대한 표본 공분산 행렬을 반환합니다.
covarSampStable	covarSamp와 비슷하지만 더 느리게 동작하는 대신 계산 오차가 더 작습니다.
cramersV	`cramersV` 함수의 결과는 0(변수 간 연관성이 없음을 의미)부터 1까지의 범위를 가지며, 각 값이 다른 값에 의해 완전히 결정될 때만 1에 도달할 수 있습니다. 이는 두 변수 간 연관성을 가능한 최대 변동 대비 백분율로 나타낸 것으로 볼 수 있습니다.
cramersVBiasCorrected	Cramer’s V를 계산하지만 편향 보정을 사용합니다.
deltaSum	연속된 행 사이의 산술 차이를 합산합니다.
deltaSumTimestamp	연속된 행 사이의 차이를 더합니다. 차이가 음수이면 무시합니다.
distinctDynamicTypes	Dynamic 컬럼에 저장된 고유한 데이터 타입 목록을 계산합니다.
distinctJSONPaths	JSON 컬럼에 저장된 고유한 경로 목록을 계산합니다.
distinctJSONPathsAndTypes	JSON에 저장된 고유한 경로와 해당 타입의 목록을 계산합니다.
entropy	값 컬럼의 Shannon 엔트로피를 계산합니다.
estimateCompressionRatio	지정된 컬럼을 실제로 압축하지 않고 압축률을 추정합니다.
exponentialMovingAverage	지정된 시간에 대한 값의 지수 이동 평균을 계산합니다.
exponentialTimeDecayedAvg	시점 `t`에서 시계열 값의 지수적으로 평활된 가중 이동 평균을 반환합니다.
exponentialTimeDecayedCount	시점 인덱스 `t`에서 시계열의 누적 지수 감쇠값을 반환합니다.
exponentialTimeDecayedMax	시점 인덱스 `t`에서 계산된 지수적으로 평활된 이동 평균과 `t-1`에서의 값 중 최댓값을 반환합니다.
exponentialTimeDecayedSum	시점 인덱스 `t`에서 시계열의 지수적으로 평활된 이동 평균값 합계를 반환합니다.
first_value	`any`의 별칭이지만, 때때로 `NULL` 값을 처리해야 하는 윈도우 함수와의 호환성을 위해 도입되었습니다(기본적으로 모든 ClickHouse 집계 함수는 NULL 값을 무시합니다).
flameGraph	스택트레이스 목록을 사용해 플레임 그래프를 생성하는 집계 함수입니다.
groupArray	인수 값의 배열을 생성합니다. 값은 배열에 임의의(결정되지 않은) 순서로 추가될 수 있습니다.
groupArrayArray	배열들을 해당 배열들로 이루어진 더 큰 배열로 집계합니다.
groupArrayInsertAt	배열의 지정된 위치에 값을 삽입합니다.
groupArrayIntersect	지정된 배열들의 교집합을 반환합니다(주어진 모든 배열에 공통으로 존재하는 모든 항목을 반환합니다).
groupArrayLast	마지막 인수 값들의 배열을 생성합니다.
groupArrayMovingAvg	입력 값의 이동 평균을 계산합니다.
groupArrayMovingSum	입력 값의 이동 합계를 계산합니다.
groupArraySample	샘플 인수 값의 배열을 생성합니다. 결과 배열의 크기는 `max_size`개 요소로 제한됩니다. 인수 값은 무작위로 선택되어 배열에 추가됩니다.
groupArraySorted	오름차순으로 정렬된 처음 N개 항목이 포함된 배열을 반환합니다.
groupBitAnd	일련의 숫자에 비트 단위 `AND`를 적용합니다.
groupBitmap	부호 없는 정수 컬럼에 대해 비트맵 집계를 수행하고, UInt64 타입의 카디널리티를 반환합니다. 접미사 -State를 추가하면 비트맵 객체를 반환합니다.
groupBitmapAnd	비트맵 컬럼에 대해 AND를 계산하고, UInt64 타입의 카디널리티를 반환합니다. 접미사 -State를 추가하면 비트맵 객체를 반환합니다.
groupBitmapOr	비트맵 컬럼에 대해 OR를 계산하고, UInt64 타입의 카디널리티를 반환합니다. 접미사 -State를 추가하면 비트맵 객체를 반환합니다. 이는 `groupBitmapMerge`와 동일합니다.
groupBitmapXor	비트맵 컬럼에 대해 XOR를 계산하고 UInt64 타입의 카디널리티를 반환합니다. 접미사 -State와 함께 사용하면 비트맵 객체를 반환합니다.
groupBitOr	일련의 숫자에 비트 단위 `OR`를 적용합니다.
groupBitXor	일련의 숫자에 비트 단위 `XOR`를 적용합니다.
groupConcat	문자열 그룹에서 연결된 문자열을 계산합니다. 필요에 따라 구분자를 사용할 수 있으며, 최대 요소 수로 제한할 수도 있습니다.
groupUniqArray	서로 다른 인수 값으로 배열을 생성합니다.
intervalLengthSum	모든 구간의 합집합 총길이(수치 축상의 선분)를 계산합니다.
kolmogorovSmirnovTest	두 모집단의 샘플에 Kolmogorov-Smirnov 검정을 적용합니다.
kurtPop	수열의 첨도를 계산합니다.
kurtSamp	수열의 표본 첨도를 계산합니다.
largestTriangleThreeBuckets	입력 데이터에 Largest-Triangle-Three-Buckets 알고리즘을 적용합니다.
last_value	`anyLast`와 비슷하게 마지막으로 나타난 값을 선택하지만 NULL도 허용할 수 있습니다.
mannWhitneyUTest	두 모집단의 샘플에 Mann-Whitney 순위 검정을 적용합니다.
max	값 그룹 전체에서 최댓값을 계산하는 집계 함수입니다.
maxIntersections	인터벌 그룹이 서로 교차하는 최대 횟수를 계산하는 집계 함수입니다(모든 인터벌이 최소 한 번 이상 교차하는 경우).
maxIntersectionsPosition	maxIntersections 함수가 발생하는 위치를 계산하는 집계 함수입니다.
maxMap	`key` 배열에 지정된 키에 따라 `value` 배열에서 최댓값을 계산합니다.
meanZTest	두 모집단의 샘플에 평균 z-검정을 적용합니다.
median	`median` 함수는 해당 `quantile` 함수의 별칭입니다. 숫자 데이터 샘플의 중앙값을 계산합니다.
min	값 그룹 전체에서 최솟값을 계산하는 집계 함수입니다.
minMap	`key` 배열에 지정된 키에 따라 `value` 배열에서 최솟값을 계산합니다.
quantile	숫자 데이터 수열의 근사 분위수를 계산합니다.
quantileBFloat16	bfloat16 숫자로 구성된 샘플의 근사 분위수를 계산합니다.
quantileDD	상대 오차가 보장되는 샘플의 근사 분위수를 계산합니다.
quantileDeterministic	숫자 데이터 수열의 근사 분위수를 계산합니다.
quantileExact Functions	quantileExact, quantileExactLow, quantileExactHigh, quantileExactExclusive, quantileExactInclusive 함수
quantileExactExclusive	숫자 데이터 수열의 분위수를 정확하게 계산합니다.
quantileExactHigh	quantileExact와 비슷하게 숫자 데이터 수열의 정확한 분위수를 계산합니다.
quantileExactInclusive	숫자 데이터 수열의 분위수를 정확하게 계산합니다.
quantileExactLow	quantileExact와 비슷하게 숫자 데이터 수열의 정확한 분위수를 계산합니다.
quantileExactWeighted	각 요소의 가중치를 고려하여 숫자 데이터 수열의 분위수를 정확하게 계산합니다.
quantileExactWeightedInterpolated	각 요소의 가중치를 고려해 선형 보간으로 숫자 데이터 수열의 분위수를 계산합니다.
quantileGK	Greenwald-Khanna 알고리즘을 사용해 숫자 데이터 수열의 분위수를 계산합니다.
quantileInterpolatedWeighted	각 요소의 가중치를 고려해 선형 보간으로 숫자 데이터 수열의 분위수를 계산합니다.
quantilePrometheusHistogram	선형 보간을 사용해 히스토그램의 분위수를 계산합니다.
quantiles Functions	quantiles, quantilesExactExclusive, quantilesExactInclusive, quantilesGK
quantilesExactExclusive	숫자 데이터 시퀀스의 분위수를 정확하게 계산합니다.
quantilesExactInclusive	숫자 데이터 시퀀스의 분위수를 정확하게 계산합니다.
quantilesGK	quantilesGK는 quantileGK와 비슷하게 동작하지만, 서로 다른 수준의 분위수를 동시에 계산할 수 있으며 배열을 반환합니다.
quantilesTimingWeighted	지정된 정밀도로 각 시퀀스 구성원의 가중치에 따라 숫자 데이터 시퀀스의 분위수를 계산합니다.
quantileTDigest	t-digest 알고리즘을 사용해 숫자 데이터 시퀀스의 근사 분위수를 계산합니다.
quantileTDigestWeighted	t-digest 알고리즘을 사용해 숫자 데이터 시퀀스의 근사 분위수를 계산합니다.
quantileTiming	지정된 정밀도로 숫자 데이터 시퀀스의 분위수를 계산합니다.
quantileTimingWeighted	지정된 정밀도로 각 시퀀스 구성원의 가중치에 따라 숫자 데이터 시퀀스의 분위수를 계산합니다.
rankCorr	순위 상관 계수를 계산합니다.
simpleLinearRegression	단순(1차원) 선형 회귀를 수행합니다.
singleValueOrNull	집계 함수 `singleValueOrNull`은 `x = ALL (SELECT ...)`와 같은 서브쿼리 연산자를 구현하는 데 사용됩니다. 데이터에 고유한 non-NULL 값이 하나만 있는지 확인합니다.
skewPop	시퀀스의 왜도를 계산합니다.
skewSamp	시퀀스의 표본 왜도를 계산합니다.
sparkbar	이 함수는 구간 `[min_x, max_x]`에서 값 `x`와 해당 값의 반복 빈도 `y`에 대한 빈도 히스토그램을 그립니다.
stddevPop	결과는 varPop의 제곱근과 같습니다.
stddevPopStable	결과는 varPop의 제곱근과 같습니다. stddevPop과 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다.
stddevSamp	결과는 varSamp의 제곱근과 같습니다.
stddevSampStable	결과는 varSamp의 제곱근과 같습니다. stddevSamp와 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다.
stochasticLinearRegression	이 함수는 확률적 선형 회귀를 구현합니다. 학습률, L2 정규화 계수, 미니배치 크기에 대한 사용자 지정 매개변수를 지원하며, 가중치 업데이트를 위한 몇 가지 메서드(Adam, 단순 SGD, Momentum, Nesterov)를 제공합니다.
stochasticLogisticRegression	이 함수는 확률적 로지스틱 회귀를 구현합니다. 이진 분류 문제에 사용할 수 있으며, stochasticLinearRegression과 동일한 사용자 지정 매개변수를 지원하고 같은 방식으로 동작합니다.
studentTTest	두 모집단의 표본에 Student t-test를 적용합니다.
studentTTestOneSample	단일 표본과 알려진 모집단 평균에 one-sample Student t-test를 적용합니다.
sum	합계를 계산합니다. 숫자에서만 동작합니다.
sumCount	숫자의 합계를 계산하는 동시에 행 수를 셉니다. 이 함수는 ClickHouse 쿼리 최적화기에서 사용됩니다. 쿼리에 여러 `sum`, `count` 또는 `avg` 함수가 있으면 계산을 재사용하기 위해 이를 단일 `sumCount` 함수로 대체할 수 있습니다. 이 함수를 명시적으로 사용할 일은 거의 없습니다.
sumKahan	Kahan 보정 합산 알고리즘을 사용해 숫자의 합계를 계산합니다.
sumMap	`key` 배열에 지정된 키에 따라 하나 이상의 `value` 배열을 합산합니다. 배열로 이루어진 Tuple을 반환하며, 정렬된 순서의 키와 해당 키에 대해 오버플로우 없이 합산된 값이 뒤따릅니다.
sumMapWithOverflow	`key` 배열에 지정된 키에 따라 `value` 배열을 합산합니다. 두 개의 배열로 이루어진 Tuple을 반환하며, 정렬된 순서의 키와 해당 키에 대해 합산된 값으로 구성됩니다. sumMap 함수와 다른 점은 오버플로우를 허용해 합산한다는 것입니다.
sumWithOverflow	입력 매개변수와 동일한 데이터 타입을 결과에 사용해 숫자의 합계를 계산합니다. 합계가 이 데이터 타입의 최댓값을 초과하면 오버플로우를 허용해 계산합니다.
theilsU	`theilsU` 함수는 테이블의 두 컬럼 간 연관성을 측정하는 값인 Theils’ U 불확실성 계수를 계산합니다.
timeSeriesChangesToGrid	지정된 그리드에서 시계열 데이터의 시간 경과에 따른 PromQL 유사 changes를 계산하는 집계 함수입니다.
timeSeriesDeltaToGrid	지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 delta를 계산하는 집계 함수입니다.
timeSeriesDerivToGrid	지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 derivative를 계산하는 집계 함수입니다.
timeSeriesGroupArray	timestamp 기준으로 시계열을 오름차순 정렬합니다.
timeSeriesInstantDeltaToGrid	지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 idelta를 계산하는 집계 함수입니다.
timeSeriesInstantRateToGrid	지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 irate를 계산하는 집계 함수입니다.
timeSeriesLastTwoSamples	PromQL과 유사한 irate 및 idelta 계산을 위해 시계열 데이터를 리샘플링하는 집계 함수입니다.
timeSeriesPredictLinearToGrid	지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 선형 예측을 계산하는 집계 함수입니다.
timeSeriesRateToGrid	지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 rate를 계산하는 집계 함수입니다.
timeSeriesResampleToGridWithStaleness	시계열 데이터를 지정된 그리드로 리샘플링하는 집계 함수입니다.
timeSeriesResetsToGrid	지정된 그리드에서 시계열 데이터에 대해 PromQL과 유사한 resets를 계산하는 집계 함수입니다.
topK	지정된 컬럼에서 대략적으로 가장 자주 나타나는 값들의 배열을 반환합니다. 결과 배열은 값 자체가 아니라 값의 대략적인 빈도를 기준으로 내림차순 정렬됩니다.
topKWeighted	지정된 컬럼에서 대략적으로 가장 자주 나타나는 값들의 배열을 반환합니다. 결과 배열은 값 자체가 아니라 값의 대략적인 빈도를 기준으로 내림차순 정렬됩니다. 또한 값의 가중치도 반영됩니다.
uniq	인수의 서로 다른 값 개수를 근사적으로 계산합니다.
uniqCombined	인수의 서로 다른 값 개수를 근사적으로 계산합니다.
uniqCombined64	인수의 서로 다른 값 개수를 근사적으로 계산합니다. uniqCombined와 동일하지만, String 데이터 타입에만 적용하는 대신 모든 데이터 타입에 64비트 hash를 사용합니다.
uniqExact	인수의 서로 다른 값 개수를 정확하게 계산합니다.
uniqHLL12	HyperLogLog 알고리즘을 사용해 인수의 서로 다른 값 개수를 근사적으로 계산합니다.
uniqTheta	Theta Sketch Framework를 사용해 인수의 서로 다른 값 개수를 근사적으로 계산합니다.
varPop	모집단 분산을 계산합니다.
varPopStable	모집단 분산을 반환합니다. varPop와 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다. 더 느리지만 계산 오차는 더 작습니다.
varSamp	데이터 집합의 표본 분산을 계산합니다.
varSampStable	데이터 집합의 표본 분산을 계산합니다. `varSamp`와 달리 이 함수는 수치적으로 안정적인 알고리즘을 사용합니다. 더 느리지만 계산 오차는 더 작습니다.
welchTTest	두 모집단에서 추출한 표본에 Welch’s t-test를 적용합니다.