Smodin anuncia el llançament de la seva nova API de detecció d'idiomes que admet 176 idiomes

Com que es necessitava un detector d'idiomes per millorar les nostres aplicacions, hem decidit trobar una solució.

Al principi, pensàvem que seria fàcil, ja que google ho fa semblar tan fàcil, però com vam descobrir, no era una tasca fàcil, al contrari, la detecció d'idiomes sempre ha estat una tasca difícil.

En la recerca de la millor opció per predir un idioma a partir de text que no requeria un gran model d'aprenentatge automàtic, vam descobrir que la millor solució era un model d'identificació d'idiomes pre-entrenat que ocupa menys d'1 MB de memòria alhora que era capaç de classificar milers de documents per segon.

Després de molts retocs i millores, hem desenvolupat una eina que pot proporcionar amb confiança bones taxes de precisió per a cada idioma.

Proporciona valoracions de precisió molt bones, i no només això, sinó també a una velocitat ràpida i fiable. Aquí teniu una llista de precisió per país.

Idiomes 99% precisos*: francès (fr), anglès (en), alemany (de), portuguès (pt), turc (tr), holandès (nl), italià (it), espanyol (es), hongarès (hu) , esperanto (eo), polonès (pl), finès (fi), rus (ru), macedoni (mk), ucraïnès (regne Unit), lituà (lt), vietnamita (vi), grec (el), marathi (mr) , àrab (ar), hebreu (he), hindi (hola), Uigur (ug), japonès (ja), georgià (ka), bengalí (bn), urdú (ur), tailandès (th), xinès (zh), armeni (hy), malayalam (ml), coreà (ko), Khmer (km), birmà (my), tàmil (ta), kannada (kn), telugu (te), panjabi (pa), laotiano (lo), gujarati (gu), tibetà estàndard (bo), divehi (dv) , cingalès (si), amàric (am).

90% d'idiomes precisos*: danès (da), romanès (ro), suec (sv), llatí (la), búlgar (bg), txec (cs), tagalog (tl), indonesi (id), tàrtar (tt) , islandès (és), bielorús (be), basc (eu), bretó (br), kazakh (kk), letó (lv), estonià (et), irlandès (ga), txuvaix (cv), bashkir (ba) , osseti (os), tajik (tg).

*La informació es presenta per ordre de la majoria de les dades de la prova. Les dades eren frases d'entre 30 i 250 caràcters de longitud. Les proves només es van fer als 100 idiomes més populars. Les proves van mostrar una precisió propera al 99% per a la majoria de les frases de 300 caràcters o més.

Tot i que no podeu obtenir resultats perfectes, la millor precisió (99% + per a molts idiomes, fins i tot els menys coneguts) es veu amb 300 caràcters o més. Independentment de la longitud del text, com més llarg millor.

Com esmenta Wiki: la identificació del llenguatge o endevinar el llenguatge és el problema de determinar en quin llenguatge natural es troba el contingut donat. Els enfocaments computacionals d'aquest problema el veuen com un cas especial de categorització de textos, resolt amb diversos mètodes estadístics.

Els serveis de detecció d'idiomes es poden utilitzar de diverses maneres, per exemple, es podrien utilitzar per identificar l'idioma dels textos empresarials, com ara el xat i el correu electrònic.
El servei pot identificar l'idioma del text i les parts del text on l'idioma ha canviat, fins al nivell de paraula.
Amb els serveis de detecció d'idiomes, Surveillance Insights pot destacar i anotar l'idioma utilitzat al text i ajudar a identificar activitats potencialment sospitoses.

Els textos empresarials, com ara el correu electrònic o el xat, poden estar en diferents idiomes. Una part clau del processament del llenguatge natural és determinar quina llengua és la llengua principal perquè cada text es pugui processar mitjançant passos específics de l'idioma relacionats.
En alguns casos, la gent pot canviar l'idioma que s'utilitza als xats per evitar controlar o amagar activitats il·legals. Determinar el punt en què es canvia l'idioma del xat és molt útil per determinar si s'ha produït una activitat sospitosa.

si voleu utilitzar la nostra API, podeu obtenir més informació sobre ella i els seus preus fent clic AQUÍ

A més de proporcionar un servei API, també hem decidit llançar-lo com a codi obert.
Aquesta és la nostra primera versió de codi obert! Detector d'idiomes de codi obert, disponible AQUÍ