API de deteção de idioma - Guia de escrita

Índice

Smodin anuncia o lançamento da sua nova API de deteção de idiomas que suporta 176 idiomas

Uma vez que era necessário um detetor de línguas para melhorar as nossas aplicações, decidimos encontrar uma solução.

No início, pensámos que seria fácil, uma vez que o Google faz com que pareça tão fácil, mas, como descobrimos, não foi uma tarefa fácil, pelo contrário, a deteção de línguas sempre foi uma tarefa difícil.

Na procura da melhor opção para prever um idioma a partir de um texto que não exigisse um modelo de aprendizagem automática de grandes dimensões, descobrimos que a melhor solução era um modelo de identificação de idiomas pré-treinado que ocupasse menos de 1 MB de memória e fosse capaz de classificar milhares de documentos por segundo.

Após muitos ajustes e melhorias, desenvolvemos uma ferramenta que pode fornecer com confiança boas taxas de precisão para cada língua.

Proporcionando classificações de precisão realmente boas, e não só isso, mas também a uma velocidade rápida e fiável. Aqui está uma lista de precisão por país.

99% de exatidão em idiomas*: Francês (fr), Inglês (en), Alemão (de), Português (pt), Turco (tr), Neerlandês (nl), Italiano (it), Espanhol (es), Húngaro (hu), Esperanto (eo), Polaco (pl), finlandês (fi), russo (ru), macedónio (mk), ucraniano (uk), lituano (lt), vietnamita (vi), grego (el), marata (mr), árabe (ar), hebraico (he), hindi (hi), uigur (ug), japonês (ja), georgiano (ka), bengali (bn), urdu (ur), tailandês (th), chinês (zh), arménio (hy), malaiala (ml), coreano (ko), khmer (km), birmanês (my), tâmil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibetano padrão (bo), divehi (dv), cingalês (si), amárico (am).

90% de exatidão nas línguas*: Dinamarquês (da), Romeno (ro), Sueco (sv), Latim (la), Búlgaro (bg), Checo (cs), Tagalo (tl), Indonésio (id), Tártaro (tt), Islandês (is), bielorrusso (be), basco (eu), bretão (br), cazaque (kk), letão (lv), estónio (et), irlandês (ga), chuvash (cv), bashkir (ba), osseta (os), tajique (tg).

*As informações são apresentadas por ordem de maior número de dados de teste. Os dados eram frases com 30-250 caracteres de comprimento. Os testes foram efectuados apenas nas 100 línguas mais populares. Os testes mostraram uma precisão de quase 99% para a maioria das frases com 300 caracteres ou mais.

Embora não seja possível obter resultados perfeitos, a melhor precisão (99%+ para muitas línguas, mesmo as menos conhecidas) é observada com 300 caracteres ou mais. Independentemente do tamanho do texto, quanto mais longo, melhor.

Como refere a Wiki: a identificação da língua ou adivinhação da língua é o problema de determinar em que língua natural se encontra um determinado conteúdo. As abordagens computacionais a este problema consideram-no como um caso especial de categorização de texto, resolvido com vários métodos estatísticos.

Os serviços de deteção linguística podem ser utilizados de várias formas, por exemplo, para identificar a língua dos textos comerciais, como o chat e o correio eletrónico.
O serviço pode identificar o idioma do texto e as partes do texto em que o idioma foi alterado, até ao nível da palavra.
Utilizando serviços de deteção de linguagem, o Surveillance Insights pode destacar e anotar a linguagem utilizada no texto e ajudar a identificar actividades potencialmente suspeitas.

Os textos comerciais, como o correio eletrónico ou o chat, podem estar em diferentes línguas. Uma parte fundamental do pipeline de processamento de linguagem natural é determinar qual a língua principal para que cada texto possa ser processado através de passos específicos para cada língua.
Em alguns casos, as pessoas podem alterar a língua utilizada nas conversas para evitar a monitorização ou ocultar actividades ilegais. Determinar o ponto em que o idioma da conversa é alterado é muito útil para determinar se ocorreu uma atividade suspeita.

Se pretender utilizar a nossa API, pode obter mais informações sobre a mesma e o respetivo preço clicando AQUI

Para além de fornecer um serviço API, decidimos também lançá-lo como código aberto.
Este é o nosso primeiro lançamento de código aberto! Detetor de linguagem de código aberto, disponível AQUI