API de detectare a limbii - Ghid de scriere

Tabla de conținut

Smodin anunță lansarea noului său API de detectare a limbilor care acceptă 176 de limbi

Deoarece era nevoie de un detector de limbă pentru a ne îmbunătăți aplicațiile, am decis să găsim o soluție.

La început, am crezut că va fi ușor, deoarece Google face să pară atât de ușor, dar după cum am aflat, nu a fost o sarcină ușoară, dimpotrivă, detectarea limbii a fost întotdeauna o sarcină dificilă.

În căutarea celei mai bune opțiuni pentru prezicerea unei limbi din text, care să nu necesite un model mare de învățare automată, am descoperit că cea mai bună soluție era un model de identificare a limbii pre-format, care necesită mai puțin de 1MB de memorie, fiind în același timp capabil să clasifice mii de documente pe secundă.

După multe ajustări și îmbunătățiri, am dezvoltat un instrument care poate oferi cu încredere rate de acuratețe bune pentru fiecare limbă.

Oferind ratinguri de acuratețe foarte bune, și nu numai atât, ci și la o viteză rapidă și fiabilă. Iată o listă de acuratețe pe țară.

Limbi cu o acuratețe de 99%*: Franceză (fr), engleză (en), germană (de), portugheză (pt), turcă (tr), olandeză (nl), italiană (it), spaniolă (es), maghiară (hu), esperanto (eo), poloneză (pl), finlandeză (fi), rusă (ru), macedoneană (mk), ucraineană (uk), lituaniană (lt), vietnameză (vi), greacă (el), marathi (mr), arabă (ar), ebraică (he), hindi (hi), uigură (ug), japoneză (ja), georgiană (ka), bengali (bn), urdu (ur), thailandeză (th), chineză (zh), armeană (hy), malayalam (ml), coreeană (ko), khmeră (km), birmaneză (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibetană standard (bo), divehi (dv), sinhala (si), amharică (am).

Limbi cu o acuratețe de 90%*: Daneză (da), Română (ro), Suedeză (sv), Latină (la), Bulgară (bg), Cehă (cs), Tagalog (tl), Indoneziană (id), Tătară (tt), Islandeză (is), bielorusă (be), bască (eu), bretonă (br), kazahă (kk), letonă (lv), estonă (et), irlandeză (ga), ciuvașă (cv), bașkir (ba), osetică (os), tadjică (tg).

*Informațiile sunt prezentate în ordinea celor mai multe date de test. Datele au fost propoziții cu o lungime de 30-250 de caractere. Testele au fost efectuate numai pe cele mai populare 100 de limbi. Testele au arătat o precizie de aproape 99% pentru majoritatea propozițiilor cu o lungime de 300 de caractere sau mai mult.

Deși nu puteți obține rezultate perfecte, cea mai bună acuratețe (99%+ pentru multe limbi, chiar și pentru cele mai puțin cunoscute) este observată la 300 de caractere sau mai mult. Indiferent de lungimea textului, cu cât este mai lung, cu atât este mai bine.

După cum menționează Wiki: identificarea limbii sau ghicirea limbii este problema de a determina în ce limbă naturală se află un conținut dat. Abordările computaționale ale acestei probleme o văd ca pe un caz special de categorizare a textului, rezolvat prin diverse metode statistice.

Serviciile de detectare a limbii pot fi utilizate în diverse moduri; de exemplu, acestea pot fi utilizate pentru a identifica limba textelor de afaceri, cum ar fi chat-ul și e-mail-ul.
Serviciul poate identifica limba textului și părțile din text în care limba s-a schimbat, până la nivel de cuvânt.
Folosind serviciile de detectare a limbajului, Surveillance Insights poate evidenția și adnota limbajul folosit în text și poate ajuta la identificarea activităților potențial suspecte.

Textele de afaceri, cum ar fi e-mailurile sau chat-urile, pot fi în limbi diferite. O parte esențială a procesului de procesare a limbajului natural este determinarea limbii principale, astfel încât fiecare text să poată fi procesat prin etapele aferente specifice limbii.
În unele cazuri, oamenii pot schimba limba utilizată în chat pentru a evita monitorizarea sau pentru a ascunde activități ilegale. Determinarea momentului în care limba de chat este schimbată este foarte utilă pentru a stabili dacă a avut loc o activitate suspectă.

dacă doriți să utilizați API-ul nostru, puteți obține mai multe informații despre acesta și despre prețul său făcând clic AICI

Pe lângă furnizarea unui serviciu API, am decis, de asemenea, să îl lansăm ca open-source.
Aceasta este prima noastră versiune open source! Detectorul de limbă open source, disponibil AICI