Introducido en: v22.2.0
Detecta el juego de caracteres de una cadena de entrada codificada en un formato distinto de UTF-8.
Esta función es experimental y puede cambiar de forma impredecible y no retrocompatible en versiones futuras.
Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
Argumentos
s — Texto que se va a analizar. String
Valor devuelto
Devuelve una cadena que contiene el código del conjunto de caracteres detectado String
Ejemplos
Uso básico
SELECT detectCharset('Ich bleibe für ein paar Tage.')
Introducido en: v22.2.0
Detecta el idioma de la cadena de entrada codificada en UTF8.
La función utiliza la biblioteca CLD2 para la detección y devuelve el código de idioma ISO de dos letras.
Cuanto más larga sea la entrada, más precisa será la detección del idioma.
Esta función es experimental y puede cambiar de maneras impredecibles y no retrocompatibles en versiones futuras.
Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
Argumentos
text_to_be_analyzed — El texto que se va a analizar. String
Valor devuelto
Devuelve el código ISO de 2 letras del idioma detectado. Otros resultados posibles: un = desconocido, no se puede detectar ningún idioma; other = el idioma detectado no tiene un código de 2 letras. String
Ejemplos
Texto multilingüe
SELECT detectLanguage('Je pense que je ne parviendrai jamais à parler français comme un natif. Where there\'s a will, there\'s a way.')
Introducido en: v22.2.0
Similar a la función detectLanguage, pero detectLanguageMixed devuelve un Map de códigos de idioma de 2 letras asociados al porcentaje de cada idioma en el texto.
Esta función es experimental y puede cambiar de forma impredecible y no retrocompatible en versiones futuras.
Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
Argumentos
s — El texto que se va a analizar String
Valor devuelto
Devuelve un mapa cuyas claves son códigos ISO de 2 letras y cuyos valores indican el porcentaje del texto detectado para ese idioma Map(String, Float32)
Ejemplos
Idiomas mezclados
SELECT detectLanguageMixed('二兎を追う者は一兎をも得ず二兎を追う者は一兎をも得ず A vaincre sans peril, on triomphe sans gloire.')
Introducido en: v22.2.0
Similar a la función detectLanguage, excepto que la función detectLanguageUnknown funciona con cadenas codificadas en formatos distintos de UTF-8.
Prefiera esta versión cuando el juego de caracteres sea UTF-16 o UTF-32.
Esta función es experimental y puede cambiar en el futuro de formas impredecibles e incompatibles con versiones anteriores.
Establezca allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
detectLanguageUnknown('s')
Argumentos
s — El texto que se va a analizar. String
Valor devuelto
Devuelve el código ISO de 2 letras del idioma detectado. Otros resultados posibles: un = desconocido, no se puede detectar ningún idioma; other = el idioma detectado no tiene un código de 2 letras. String
Ejemplos
Uso básico
SELECT detectLanguageUnknown('Ich bleibe für ein paar Tage.')
Introducido en: v22.2.0
Determina la tonalidad emocional de los datos de texto proporcionados.
LimitaciónActualmente, esta función es limitada, ya que utiliza el diccionario emocional integrado y solo funciona con el idioma ruso.
Esta función es experimental y puede cambiar de maneras impredecibles y no retrocompatibles en versiones futuras.
Establezca allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
Argumentos
s — El texto que se va a analizar. String
Valor devuelto
Devuelve el valor medio del sentimiento de las palabras del texto Float32
Ejemplos
Análisis de sentimiento del ruso
SELECT
detectTonality('Шарик - хороший пёс'),
detectTonality('Шарик - пёс'),
detectTonality('Шарик - плохой пёс')
Introducido en: v21.9.0
Realiza la lematización de una palabra dada.
Esta función requiere diccionarios para funcionar, que pueden obtenerse de github.
Para obtener más información sobre cómo cargar un diccionario desde un archivo local, consulte la página “Definición de diccionarios”.
Esta función es experimental y puede cambiar de forma impredecible y no compatible con versiones anteriores en futuras versiones.
Establezca allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
Argumentos
lang — Idioma al que se aplicarán las reglas. String
word — Palabra en minúsculas que debe lematizarse. String
Valor devuelto
Devuelve la forma lematizada de la palabra String
Ejemplos
Lematización en inglés
SELECT lemmatize('en', 'wolves')
Introducido en: v21.9.0
Aplica stemming a una palabra o a un Array de palabras mediante los algoritmos Snowball.
Cada cadena de entrada debe ser una única palabra en minúsculas; las cadenas que contienen espacios en blanco provocan una excepción.
Si se pasan caracteres en mayúsculas, los resultados no están definidos.
Devuelve String para entradas escalares (incluido FixedString) y Array(String) para entradas de Array.
Se admiten variantes Nullable y LowCardinality de String y FixedString.
Sintaxis
Argumentos
Valor devuelto
La forma con stemming de la palabra (String), o un array de palabras con stemming (Array(String)). String o Array(String)
Ejemplos
Aplicación de stemming a una única palabra
SELECT stem('blessing', 'en') AS res
Aplicar stemming a un array de palabras
SELECT stem(['blessing', 'disguise'], 'en') AS res
Stemming de un FixedString
SELECT stem(toFixedString('blessing', 10), 'en') AS res
Aplicación de stemming a una palabra Nullable
SELECT stem(toNullable('blessing'), 'en') AS res
Introducido en: v21.9.0
Encuentra sinónimos de una palabra determinada.
Hay dos tipos de extensiones de sinónimos:
Con el tipo de extensión plain, debes proporcionar la ruta a un archivo de texto simple, donde cada línea corresponde a un determinado conjunto de sinónimos.
Las palabras de esta línea deben estar separadas por espacios o tabuladores.
Con el tipo de extensión wordnet, debes proporcionar la ruta a un directorio que contenga el tesauro de WordNet.
El tesauro debe contener un índice de sentidos de WordNet.
Esta función es experimental y puede cambiar en el futuro de formas impredecibles que no sean retrocompatibles.
Establece allow_experimental_nlp_functions = 1 para habilitarla.
Sintaxis
Argumentos
ext_name — Nombre de la extensión en la que se realizará la búsqueda. String
word — Palabra que se buscará en la extensión. String
Valor devuelto
Devuelve un array de sinónimos para la palabra indicada. Array(String)
Ejemplos
Buscar sinónimos
SELECT synonyms('list', 'important')
['important','big','critical','crucial']