Saltar al contenido principal

detectCharset

Introducido en: v22.2.0 Detecta el juego de caracteres de una cadena de entrada codificada en un formato distinto de UTF-8.
Esta función es experimental y puede cambiar de forma impredecible y no retrocompatible en versiones futuras. Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
detectCharset(s)
Argumentos
  • s — Texto que se va a analizar. String
Valor devuelto Devuelve una cadena que contiene el código del conjunto de caracteres detectado String Ejemplos Uso básico
Query
SELECT detectCharset('Ich bleibe für ein paar Tage.')
Response
WINDOWS-1252

detectLanguage

Introducido en: v22.2.0 Detecta el idioma de la cadena de entrada codificada en UTF8. La función utiliza la biblioteca CLD2 para la detección y devuelve el código de idioma ISO de dos letras. Cuanto más larga sea la entrada, más precisa será la detección del idioma.
Esta función es experimental y puede cambiar de maneras impredecibles y no retrocompatibles en versiones futuras. Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
detectLanguage(s)
Argumentos
  • text_to_be_analyzed — El texto que se va a analizar. String
Valor devuelto Devuelve el código ISO de 2 letras del idioma detectado. Otros resultados posibles: un = desconocido, no se puede detectar ningún idioma; other = el idioma detectado no tiene un código de 2 letras. String Ejemplos Texto multilingüe
Query
SELECT detectLanguage('Je pense que je ne parviendrai jamais à parler français comme un natif. Where there\'s a will, there\'s a way.')
Response
fr

detectLanguageMixed

Introducido en: v22.2.0 Similar a la función detectLanguage, pero detectLanguageMixed devuelve un Map de códigos de idioma de 2 letras asociados al porcentaje de cada idioma en el texto.
Esta función es experimental y puede cambiar de forma impredecible y no retrocompatible en versiones futuras. Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
detectLanguageMixed(s)
Argumentos
  • s — El texto que se va a analizar String
Valor devuelto Devuelve un mapa cuyas claves son códigos ISO de 2 letras y cuyos valores indican el porcentaje del texto detectado para ese idioma Map(String, Float32) Ejemplos Idiomas mezclados
Query
SELECT detectLanguageMixed('二兎を追う者は一兎をも得ず二兎を追う者は一兎をも得ず A vaincre sans peril, on triomphe sans gloire.')
Response
{'ja':0.62,'fr':0.36}

detectLanguageUnknown

Introducido en: v22.2.0 Similar a la función detectLanguage, excepto que la función detectLanguageUnknown funciona con cadenas codificadas en formatos distintos de UTF-8. Prefiera esta versión cuando el juego de caracteres sea UTF-16 o UTF-32.
Esta función es experimental y puede cambiar en el futuro de formas impredecibles e incompatibles con versiones anteriores. Establezca allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
detectLanguageUnknown('s')
Argumentos
  • s — El texto que se va a analizar. String
Valor devuelto Devuelve el código ISO de 2 letras del idioma detectado. Otros resultados posibles: un = desconocido, no se puede detectar ningún idioma; other = el idioma detectado no tiene un código de 2 letras. String Ejemplos Uso básico
Query
SELECT detectLanguageUnknown('Ich bleibe für ein paar Tage.')
Response
de

detectTonality

Introducido en: v22.2.0 Determina la tonalidad emocional de los datos de texto proporcionados.
LimitaciónActualmente, esta función es limitada, ya que utiliza el diccionario emocional integrado y solo funciona con el idioma ruso.
Esta función es experimental y puede cambiar de maneras impredecibles y no retrocompatibles en versiones futuras. Establezca allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
detectTonality(s)
Argumentos
  • s — El texto que se va a analizar. String
Valor devuelto Devuelve el valor medio del sentimiento de las palabras del texto Float32 Ejemplos Análisis de sentimiento del ruso
Query
SELECT
    detectTonality('Шарик - хороший пёс'),
    detectTonality('Шарик - пёс'),
    detectTonality('Шарик - плохой пёс')
Response
0.44445, 0, -0.3

lemmatize

Introducido en: v21.9.0 Realiza la lematización de una palabra dada. Esta función requiere diccionarios para funcionar, que pueden obtenerse de github. Para obtener más información sobre cómo cargar un diccionario desde un archivo local, consulte la página “Definición de diccionarios”.
Esta función es experimental y puede cambiar de forma impredecible y no compatible con versiones anteriores en futuras versiones. Establezca allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
lemmatize(lang, word)
Argumentos
  • lang — Idioma al que se aplicarán las reglas. String
  • word — Palabra en minúsculas que debe lematizarse. String
Valor devuelto Devuelve la forma lematizada de la palabra String Ejemplos Lematización en inglés
Query
SELECT lemmatize('en', 'wolves')
Response
wolf

stem

Introducido en: v21.9.0 Aplica stemming a una palabra o a un Array de palabras mediante los algoritmos Snowball. Cada cadena de entrada debe ser una única palabra en minúsculas; las cadenas que contienen espacios en blanco provocan una excepción. Si se pasan caracteres en mayúsculas, los resultados no están definidos. Devuelve String para entradas escalares (incluido FixedString) y Array(String) para entradas de Array. Se admiten variantes Nullable y LowCardinality de String y FixedString. Sintaxis
stem(word, language)
Argumentos Valor devuelto La forma con stemming de la palabra (String), o un array de palabras con stemming (Array(String)). String o Array(String) Ejemplos Aplicación de stemming a una única palabra
Query
SELECT stem('blessing', 'en') AS res
Response
bless
Aplicar stemming a un array de palabras
Query
SELECT stem(['blessing', 'disguise'], 'en') AS res
Response
['bless','disguis']
Stemming de un FixedString
Query
SELECT stem(toFixedString('blessing', 10), 'en') AS res
Response
bless
Aplicación de stemming a una palabra Nullable
Query
SELECT stem(toNullable('blessing'), 'en') AS res
Response
bless

synonyms

Introducido en: v21.9.0 Encuentra sinónimos de una palabra determinada. Hay dos tipos de extensiones de sinónimos:
  • plain
  • wordnet
Con el tipo de extensión plain, debes proporcionar la ruta a un archivo de texto simple, donde cada línea corresponde a un determinado conjunto de sinónimos. Las palabras de esta línea deben estar separadas por espacios o tabuladores. Con el tipo de extensión wordnet, debes proporcionar la ruta a un directorio que contenga el tesauro de WordNet. El tesauro debe contener un índice de sentidos de WordNet.
Esta función es experimental y puede cambiar en el futuro de formas impredecibles que no sean retrocompatibles. Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
synonyms(ext_name, word)
Argumentos
  • ext_name — Nombre de la extensión en la que se realizará la búsqueda. String
  • word — Palabra que se buscará en la extensión. String
Valor devuelto Devuelve un array de sinónimos para la palabra indicada. Array(String) Ejemplos Buscar sinónimos
Query
SELECT synonyms('list', 'important')
Response
['important','big','critical','crucial']
Última modificación el 10 de junio de 2026