Introduzido em: v22.2.0
Detecta o conjunto de caracteres de uma string de entrada codificada em um formato diferente de UTF-8.
Esta função é experimental e poderá mudar de maneiras imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros.
Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
Argumentos
s — O texto a ser analisado. String
Valor retornado
Retorna uma string com o código do conjunto de caracteres detectado String
Exemplos
Uso básico
SELECT detectCharset('Ich bleibe für ein paar Tage.')
Introduzido em: v22.2.0
Detecta o idioma da string de entrada codificada em UTF-8.
A função usa a biblioteca CLD2 para fazer a detecção e retorna o código de idioma ISO de 2 letras.
Quanto maior a entrada, mais precisa será a detecção do idioma.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros.
Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
Argumentos
text_to_be_analyzed — O texto a ser analisado. String
Valor retornado
Retorna o código ISO de 2 letras do idioma detectado. Outros resultados possíveis: un = desconhecido, não foi possível detectar nenhum idioma; other = o idioma detectado não tem um código de 2 letras. String
Exemplos
Texto multilíngue
SELECT detectLanguage('Je pense que je ne parviendrai jamais à parler français comme un natif. Where there\'s a will, there\'s a way.')
Introduzida em: v22.2.0
Semelhante à função detectLanguage, detectLanguageMixed retorna um Map de códigos de idioma de 2 letras mapeados para a porcentagem de determinado idioma no texto.
Esta função é experimental e pode mudar de formas imprevisíveis e retroincompatíveis em lançamentos futuros.
Defina allow_experimental_nlp_functions = 1 para ativá-la.
Sintaxe
Argumentos
s — O texto a ser analisado String
Valor retornado
Retorna um map cujas chaves são códigos ISO de 2 letras, e os valores correspondentes representam a porcentagem do texto identificada para cada idioma Map(String, Float32)
Exemplos
Idiomas mistos
SELECT detectLanguageMixed('二兎を追う者は一兎をも得ず二兎を追う者は一兎をも得ず A vaincre sans peril, on triomphe sans gloire.')
Introduzido em: v22.2.0
Semelhante à função detectLanguage, exceto que a função detectLanguageUnknown funciona com strings codificadas em formatos que não são UTF-8.
Prefira esta versão quando o conjunto de caracteres for UTF-16 ou UTF-32.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros.
Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
detectLanguageUnknown('s')
Argumentos
s — O texto a ser analisado. String
Valor retornado
Retorna o código ISO de 2 letras do idioma detectado. Outros resultados possíveis: un = desconhecido, não foi possível detectar nenhum idioma, other = o idioma detectado não tem código de 2 letras. String
Exemplos
Uso básico
SELECT detectLanguageUnknown('Ich bleibe für ein paar Tage.')
Introduzido em: v22.2.0
Determina o sentimento do texto fornecido.
LimitaçãoEsta função é limitada em sua forma atual, pois usa o dicionário emocional embutido e funciona apenas para o idioma russo.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros.
Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
Argumentos
s — O texto a ser analisado. String
Valor retornado
Retorna o valor médio de sentimento das palavras do texto Float32
Exemplos
Análise de sentimento em russo
SELECT
detectTonality('Шарик - хороший пёс'),
detectTonality('Шарик - пёс'),
detectTonality('Шарик - плохой пёс')
Introduzido em: v21.9.0
Realiza a lematização de uma palavra fornecida.
Esta função precisa de dicionários para funcionar, que podem ser obtidos no GitHub.
Para mais detalhes sobre como carregar um dicionário de um arquivo local, consulte a página “Definindo Dicionários”.
Esta função é experimental e pode mudar de formas imprevisíveis e incompatíveis com versões anteriores em lançamentos futuros.
Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
Argumentos
lang — Idioma cujas regras serão aplicadas. String
word — Palavra em letras minúsculas a ser lematizada. String
Valor retornado
Retorna a forma lematizada da palavra String
Exemplos
Lematização em inglês
SELECT lemmatize('en', 'wolves')
Introduzido em: v21.9.0
Realiza stemming em uma palavra ou em um array de palavras usando os algoritmos Snowball.
Cada string de entrada deve ser uma única palavra em minúsculas — strings que contenham espaços em branco causam uma exceção.
O uso de caracteres maiúsculos produz resultados indefinidos.
Retorna String para entradas escalares (incluindo FixedString) e Array(String) para entradas em array.
Há suporte para as variantes Nullable e LowCardinality de String e FixedString.
Sintaxe
Argumentos
Valor retornado
A forma reduzida ao radical da palavra (String) ou um array de palavras reduzidas ao radical (Array(String)). String ou Array(String)
Exemplos
Reduzindo uma única palavra ao radical
SELECT stem('blessing', 'en') AS res
Stemming de um array de palavras
SELECT stem(['blessing', 'disguise'], 'en') AS res
Stemming de FixedString
SELECT stem(toFixedString('blessing', 10), 'en') AS res
Aplicando stemming a uma palavra Nullable
SELECT stem(toNullable('blessing'), 'en') AS res
Introduzido na versão: v21.9.0
Encontra sinônimos de uma determinada palavra.
Há dois tipos de extensões de sinônimos:
Com o tipo de extensão plain, você precisa fornecer o caminho para um arquivo de texto simples, em que cada linha corresponde a um determinado conjunto de sinônimos.
As palavras nessa linha devem ser separadas por espaços ou tabulações.
Com o tipo de extensão wordnet, você precisa fornecer o caminho para um diretório que contenha o tesauro WordNet.
O tesauro deve conter um índice de sentidos do WordNet.
Esta função é experimental e pode mudar de forma imprevisível, com alterações incompatíveis com versões anteriores, em lançamentos futuros.
Defina allow_experimental_nlp_functions = 1 para habilitá-la.
Sintaxe
Argumentos
ext_name — Nome da extensão em que a busca será realizada. String
word — Palavra que será pesquisada na extensão. String
Valor retornado
Retorna um array de sinônimos para a palavra especificada. Array(String)
Exemplos
Encontrar sinônimos
SELECT synonyms('list', 'important')
['important','big','critical','crucial']