API de détection des langues - Guide d'écriture

Table des matières

Smodin annonce la sortie de sa nouvelle API de détection des langues, qui prend en charge 176 langues

Comme un détecteur de langue était nécessaire pour améliorer nos applications, nous avons décidé de trouver une solution.

Au début, nous pensions que ce serait facile puisque Google le fait paraître si facile, mais nous avons découvert que ce n'était pas une tâche facile, au contraire, la détection de la langue a toujours été une tâche difficile.

En cherchant la meilleure option pour prédire une langue à partir d'un texte sans avoir besoin d'un grand modèle d'apprentissage automatique, nous avons découvert que la meilleure solution était un modèle d'identification de langue pré-entraîné qui prend moins de 1 Mo de mémoire tout en étant capable de classer des milliers de documents par seconde.

Après de nombreux ajustements et améliorations, nous avons mis au point un outil capable de fournir en toute confiance de bons taux de précision pour chaque langue.

Il fournit de très bons taux de précision, et ce, à une vitesse rapide et fiable. Voici une liste des taux de précision par pays.

99% de langues exactes* : Français (fr), Anglais (en), Allemand (de), Portugais (pt), Turc (tr), Néerlandais (nl), Italien (it), Espagnol (es), Hongrois (hu), Espéranto (eo), Polonais (pl), finnois (fi), russe (ru), macédonien (mk), ukrainien (uk), lituanien (lt), vietnamien (vi), grec (el), marathi (mr), arabe (ar), hébreu (he), hindi (hi), Ouïghour (ug), Japonais (ja), Géorgien (ka), Bengali (bn), Urdu (ur), Thaï (th), Chinois (zh), Arménien (hy), Malayalam (ml), Coréen (ko), Khmer (km), birman (my), tamoul (ta), kannada (kn), télougou (te), panjabi (pa), lao (lo), gujarati (gu), tibétain standard (bo), divehi (dv), cinghalais (si), amharique (am).

90% de langues exactes* : Danois (da), Roumain (ro), Suédois (sv), Latin (la), Bulgare (bg), Tchèque (cs), Tagalog (tl), Indonésien (id), Tatar (tt), Islandais (is), biélorusse (be), basque (eu), breton (br), kazakh (kk), letton (lv), estonien (et), irlandais (ga), tchouvache (cv), bachkir (ba), ossète (os), tadjik (tg).

*Les informations sont présentées dans l'ordre des données de test les plus nombreuses. Les données étaient des phrases de 30 à 250 caractères. Les tests n'ont porté que sur les 100 langues les plus populaires. Les tests ont montré une précision proche de 99 % pour la majorité des phrases de 300 caractères ou plus.

Bien qu'il ne soit pas possible d'obtenir des résultats parfaits, la meilleure précision (99%+ pour de nombreuses langues, même les moins connues) est obtenue à partir de 300 caractères. Quelle que soit la longueur du texte, plus il est long, mieux c'est.

Comme le mentionne Wiki : l'identification de la langue ou la devinette de la langue est le problème de la détermination de la langue naturelle d'un contenu donné. Les approches informatiques de ce problème le considèrent comme un cas particulier de catégorisation de texte, résolu à l'aide de diverses méthodes statistiques.

Les services de détection de la langue peuvent être utilisés de différentes manières, par exemple pour identifier la langue des textes professionnels, tels que le chat et le courrier électronique.
Le service peut identifier la langue du texte et les parties du texte où la langue a changé, jusqu'au niveau du mot.
Grâce aux services de détection du langage, Surveillance Insights peut mettre en évidence et annoter le langage utilisé dans les textes et aider à identifier les activités potentiellement suspectes.

Les textes commerciaux tels que les courriels ou les discussions en ligne peuvent être rédigés dans différentes langues. Une partie essentielle du pipeline de traitement du langage naturel consiste à déterminer quelle est la langue principale afin que chaque texte puisse être traité par le biais d'étapes spécifiques à la langue.
Dans certains cas, les gens peuvent changer la langue utilisée dans les chats pour éviter d'être surveillés ou pour dissimuler des activités illégales. Déterminer le moment où la langue du chat est changée est très utile pour déterminer si une activité suspecte a eu lieu.

si vous souhaitez utiliser notre API, vous pouvez obtenir plus d'informations sur celle-ci et ses tarifs en cliquant ICI

En plus de fournir un service d'API, nous avons également décidé de le publier en tant que source ouverte.
Il s'agit de notre première version open source ! Détecteur de langue open source, disponible ICI