Pular para o conteúdo principal

detectCharset

Introduzido em: v22.2.0 Detecta o conjunto de caracteres de uma string de entrada codificada em um formato diferente de UTF-8.
Esta função é experimental e poderá mudar de maneiras imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros. Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
detectCharset(s)
Argumentos
  • s — O texto a ser analisado. String
Valor retornado Retorna uma string com o código do conjunto de caracteres detectado String Exemplos Uso básico
Query
SELECT detectCharset('Ich bleibe für ein paar Tage.')
Response
WINDOWS-1252

detectLanguage

Introduzido em: v22.2.0 Detecta o idioma da string de entrada codificada em UTF-8. A função usa a biblioteca CLD2 para fazer a detecção e retorna o código de idioma ISO de 2 letras. Quanto maior a entrada, mais precisa será a detecção do idioma.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros. Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
detectLanguage(s)
Argumentos
  • text_to_be_analyzed — O texto a ser analisado. String
Valor retornado Retorna o código ISO de 2 letras do idioma detectado. Outros resultados possíveis: un = desconhecido, não foi possível detectar nenhum idioma; other = o idioma detectado não tem um código de 2 letras. String Exemplos Texto multilíngue
Query
SELECT detectLanguage('Je pense que je ne parviendrai jamais à parler français comme un natif. Where there\'s a will, there\'s a way.')
Response
fr

detectLanguageMixed

Introduzida em: v22.2.0 Semelhante à função detectLanguage, detectLanguageMixed retorna um Map de códigos de idioma de 2 letras mapeados para a porcentagem de determinado idioma no texto.
Esta função é experimental e pode mudar de formas imprevisíveis e retroincompatíveis em lançamentos futuros. Defina allow_experimental_nlp_functions = 1 para ativá-la.
Sintaxe
detectLanguageMixed(s)
Argumentos
  • s — O texto a ser analisado String
Valor retornado Retorna um map cujas chaves são códigos ISO de 2 letras, e os valores correspondentes representam a porcentagem do texto identificada para cada idioma Map(String, Float32) Exemplos Idiomas mistos
Query
SELECT detectLanguageMixed('二兎を追う者は一兎をも得ず二兎を追う者は一兎をも得ず A vaincre sans peril, on triomphe sans gloire.')
Response
{'ja':0.62,'fr':0.36}

detectLanguageUnknown

Introduzido em: v22.2.0 Semelhante à função detectLanguage, exceto que a função detectLanguageUnknown funciona com strings codificadas em formatos que não são UTF-8. Prefira esta versão quando o conjunto de caracteres for UTF-16 ou UTF-32.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros. Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
detectLanguageUnknown('s')
Argumentos
  • s — O texto a ser analisado. String
Valor retornado Retorna o código ISO de 2 letras do idioma detectado. Outros resultados possíveis: un = desconhecido, não foi possível detectar nenhum idioma, other = o idioma detectado não tem código de 2 letras. String Exemplos Uso básico
Query
SELECT detectLanguageUnknown('Ich bleibe für ein paar Tage.')
Response
de

detectTonality

Introduzido em: v22.2.0 Determina o sentimento do texto fornecido.
LimitaçãoEsta função é limitada em sua forma atual, pois usa o dicionário emocional embutido e funciona apenas para o idioma russo.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros. Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
detectTonality(s)
Argumentos
  • s — O texto a ser analisado. String
Valor retornado Retorna o valor médio de sentimento das palavras do texto Float32 Exemplos Análise de sentimento em russo
Query
SELECT
    detectTonality('Шарик - хороший пёс'),
    detectTonality('Шарик - пёс'),
    detectTonality('Шарик - плохой пёс')
Response
0.44445, 0, -0.3

lemmatize

Introduzido em: v21.9.0 Realiza a lematização de uma palavra fornecida. Esta função precisa de dicionários para funcionar, que podem ser obtidos no GitHub. Para mais detalhes sobre como carregar um dicionário de um arquivo local, consulte a página “Definindo Dicionários”.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros. Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
lemmatize(lang, word)
Argumentos
  • lang — Idioma cujas regras serão aplicadas. String
  • word — Palavra em letras minúsculas a ser lematizada. String
Valor retornado Retorna a forma lematizada da palavra String Exemplos Lematização em inglês
Query
SELECT lemmatize('en', 'wolves')
Response
wolf

stem

Introduzido em: v21.9.0 Realiza stemming em uma palavra ou em um array de palavras usando os algoritmos Snowball. Cada string de entrada deve ser uma única palavra em minúsculas — strings que contenham espaços em branco causam uma exceção. O uso de caracteres maiúsculos produz resultados indefinidos. Retorna String para entradas escalares (incluindo FixedString) e Array(String) para entradas em array. Há suporte para as variantes Nullable e LowCardinality de String e FixedString. Sintaxe
stem(word, language)
Argumentos Valor retornado A forma reduzida ao radical da palavra (String) ou um array de palavras reduzidas ao radical (Array(String)). String ou Array(String) Exemplos Reduzindo uma única palavra ao radical
Query
SELECT stem('blessing', 'en') AS res
Response
bless
Stemming de um array de palavras
Query
SELECT stem(['blessing', 'disguise'], 'en') AS res
Response
['bless','disguis']
Stemming de FixedString
Query
SELECT stem(toFixedString('blessing', 10), 'en') AS res
Response
bless
Aplicando stemming a uma palavra Nullable
Query
SELECT stem(toNullable('blessing'), 'en') AS res
Response
bless

synonyms

Introduzido na versão: v21.9.0 Encontra sinônimos de uma determinada palavra. Há dois tipos de extensões de sinônimos:
  • plain
  • wordnet
Com o tipo de extensão plain, você precisa fornecer o caminho para um arquivo de texto simples, em que cada linha corresponde a um determinado conjunto de sinônimos. As palavras nessa linha devem ser separadas por espaços ou tabulações. Com o tipo de extensão wordnet, você precisa fornecer o caminho para um diretório que contenha o tesauro WordNet. O tesauro deve conter um índice de sentidos do WordNet.
Esta função é experimental e pode mudar de forma imprevisível, com alterações incompatíveis com versões anteriores, em lançamentos futuros. Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
synonyms(ext_name, word)
Argumentos
  • ext_name — Nome da extensão em que a busca será realizada. String
  • word — Palavra que será pesquisada na extensão. String
Valor retornado Retorna um array de sinônimos para a palavra especificada. Array(String) Exemplos Encontrar sinônimos
Query
SELECT synonyms('list', 'important')
Response
['important','big','critical','crucial']
Última modificação em 10 de junho de 2026