Pular para o conteúdo principal

categoricalInformationValue

Introduzido em: v20.1.0 Calcula o valor de informação (IV) para atributos categóricos em relação a uma variável-alvo binária. Para cada categoria, a função calcula: (P(tag = 1) - P(tag = 0)) × (log(P(tag = 1)) - log(P(tag = 0))) onde:
  • P(tag = 1) é a probabilidade de que a variável-alvo seja igual a 1 para a categoria fornecida
  • P(tag = 0) é a probabilidade de que a variável-alvo seja igual a 0 para a categoria fornecida
O Valor de Informação é uma estatística usada para medir a força da relação entre um atributo categórico e uma variável-alvo binária em modelagem preditiva. Valores absolutos mais altos indicam maior poder preditivo. O resultado indica o quanto cada atributo discreto (categórico) [category1, category2, ...] contribui para um modelo de aprendizado que prevê o valor de tag. Sintaxe
categoricalInformationValue(category1[, category2, ...,]tag)
Argumentos
  • category1, category2, ... — Um ou mais atributos categóricos para analisar. Cada categoria deve conter valores discretos. UInt8
  • tag — Variável-alvo binária para previsão. Deve conter os valores 0 e 1. UInt8
Valor retornado Retorna um array de valores Float64 que representam o valor informativo de cada combinação única de categorias. Cada valor indica a força preditiva dessa combinação de categorias para a variável-alvo. Array(Float64) Exemplos Uso básico: análise de grupos etários em relação ao uso de dispositivos móveis
Query
-- Usando o dataset metrica.hits (disponível em https://sql.clickhouse.com/) para analisar a relação entre idade e uso mobile
SELECT categoricalInformationValue(Age < 15, IsMobile)
FROM metrica.hits;
Response
[0.0014814694805292418]
Múltiplas variáveis categóricas com dados demográficos do usuário
Query
SELECT categoricalInformationValue(
    Sex,                 -- 0=masculino, 1=feminino
    toUInt8(Age < 25),   -- 0=25+, 1=menor de 25
    toUInt8(IsMobile)    -- 0=desktop, 1=mobile
) AS iv_values
FROM metrica.hits
WHERE Sex IN (0, 1);
Response
[0.00018965785460692887,0.004973668839403392]
Última modificação em 10 de junho de 2026