Saltar al contenido principal

categoricalInformationValue

Introducido en: v20.1.0 Calcula el valor de la información (IV) para variables categóricas en relación con una variable objetivo binaria. Para cada categoría, la función calcula: (P(tag = 1) - P(tag = 0)) × (log(P(tag = 1)) - log(P(tag = 0))) donde:
  • P(tag = 1) es la probabilidad de que el objetivo sea igual a 1 para la categoría dada
  • P(tag = 0) es la probabilidad de que el objetivo sea igual a 0 para la categoría dada
El valor de la información es una estadística que se utiliza para medir la intensidad de la relación entre una variable categórica y una variable objetivo binaria en el modelado predictivo. Valores absolutos más altos indican una mayor capacidad predictiva. El resultado indica cuánto contribuye cada variable discreta (categórica) [category1, category2, ...] a un modelo de aprendizaje que predice el valor de tag. Sintaxis
categoricalInformationValue(category1[, category2, ...,]tag)
Argumentos
  • category1, category2, ... — Una o más características categóricas para analizar. Cada categoría debe contener valores discretos. UInt8
  • tag — Variable objetivo binaria para la predicción. Debe contener los valores 0 y 1. UInt8
Valor devuelto Devuelve un Array de valores Float64 que representa el valor de información de cada combinación única de categorías. Cada valor indica la capacidad predictiva de esa combinación de categorías para la variable objetivo. Array(Float64) Ejemplos Uso básico para analizar grupos de edad frente al uso de dispositivos móviles
Query
-- Usando el dataset metrica.hits (disponible en https://sql.clickhouse.com/) para analizar la relación edad-móvil
SELECT categoricalInformationValue(Age < 15, IsMobile)
FROM metrica.hits;
Response
[0.0014814694805292418]
Múltiples variables categóricas con datos demográficos de los usuarios
Query
SELECT categoricalInformationValue(
    Sex,                 -- 0=masculino, 1=femenino
    toUInt8(Age < 25),   -- 0=25+, 1=menor de 25
    toUInt8(IsMobile)    -- 0=escritorio, 1=móvil
) AS iv_values
FROM metrica.hits
WHERE Sex IN (0, 1);
Response
[0.00018965785460692887,0.004973668839403392]
Última modificación el 10 de junio de 2026