quantileGK
분위수를 계산합니다.
Greenwald-Khanna 알고리즘은 데이터 스트림의 분위수를 매우 효율적으로 계산하는 데 사용되는 알고리즘입니다.
이 알고리즘은 2001년에 Michael Greenwald와 Sanjeev Khanna가 처음 소개했습니다.
대규모 데이터 스트림에서 정확한 분위수를 실시간으로 계산해야 하는 데이터베이스 및 빅데이터 시스템에서 널리 사용됩니다.
이 알고리즘은 매우 효율적이며, 각 항목마다 O(log n)의 공간과 O(log log n)의 시간만 사용합니다(n은 입력 크기).
또한 정확도도 높아, 높은 확률로 근사 분위수 값을 제공합니다.
quantileGK는 사용자가 근사 분위수 결과의 정확도를 제어할 수 있다는 점에서 ClickHouse의 다른 분위수 함수와 다릅니다.
구문
medianGK
매개변수
accuracy— 분위수의 정확도입니다. 상수 양의 정수입니다. 정확도 값이 클수록 오류는 줄어듭니다. 예를 들어accuracy인수를 100으로 설정하면 계산된 분위수의 오류는 높은 확률로 1%를 넘지 않습니다. 계산된 분위수의 정확도와 알고리즘의 계산 복잡도 사이에는 상충 관계가 있습니다. 정확도 값이 클수록 분위수를 정확하게 계산하기 위해 더 많은 메모리와 컴퓨트 리소스가 필요합니다. 반면accuracy인수 값이 작을수록 정확도는 다소 낮아지지만, 더 빠르고 메모리 효율적으로 계산할 수 있습니다.UInt*level— 선택 사항입니다. 분위수 수준입니다. 0부터 1까지의 상수 부동소수점 수입니다. 기본값은 0.5입니다.level=0.5이면 함수는 중앙값을 계산합니다.Float*
expr— 컬럼 값에 대한 표현식으로, 결과는 숫자 데이터 타입, Date 또는 DateTime이어야 합니다.(U)Int*또는Float*또는Decimal*또는Date또는DateTime
Float64 또는 Date 또는 DateTime
예시
정확도 수준별 분위수 계산
Query
Response
Query
Response