Smodin annuncia il rilascio della nuova API per il rilevamento delle lingue che supporta 176 lingue
Poiché era necessario un rilevatore di lingue per migliorare le nostre applicazioni, abbiamo deciso di trovare una soluzione.
All'inizio pensavamo che sarebbe stato facile, visto che google lo fa sembrare così semplice, ma come abbiamo scoperto, non è stato un compito facile, anzi, il rilevamento della lingua è sempre stato un compito difficile.
Nella ricerca della migliore opzione per la previsione di una lingua da un testo che non richiedesse un modello di apprendimento automatico di grandi dimensioni, abbiamo scoperto che la soluzione migliore era un modello di identificazione linguistica pre-addestrato che richiede meno di 1 MB di memoria e che è in grado di classificare migliaia di documenti al secondo.
Dopo molte modifiche e miglioramenti, abbiamo sviluppato uno strumento in grado di fornire con sicurezza buoni tassi di accuratezza per ogni lingua.
Fornisce valutazioni di accuratezza davvero buone, e non solo, ma anche una velocità veloce e affidabile. Ecco un elenco di accuratezza per paese.
99% di accuratezza delle lingue*: Francese (fr), inglese (en), tedesco (de), portoghese (pt), turco (tr), olandese (nl), italiano (it), spagnolo (es), ungherese (hu), esperanto (eo), polacco (pl), finlandese (fi), russo (ru), macedone (mk), ucraino (uk), lituano (lt), vietnamita (vi), greco (el), marathi (mr), arabo (ar), ebraico (he), hindi (hi), Uiguro (ug), giapponese (ja), georgiano (ka), bengalese (bn), urdu (ur), thai (th), cinese (zh), armeno (hy), malayalam (ml), coreano (ko), khmer (km), Birmano (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo), Gujarati (gu), Tibetano standard (bo), Divehi (dv), Sinhala (si), Amarico (am).
Lingue accurate al 90%*: Danese (da), rumeno (ro), svedese (sv), latino (la), bulgaro (bg), ceco (cs), tagalog (tl), indonesiano (id), tataro (tt), islandese (is), Bielorusso (be), Basco (eu), Bretone (br), Kazako (kk), Lettone (lv), Estone (et), Irlandese (ga), Chuvash (cv), Bashkir (ba), Osseto (os), Tagiko (tg).
*Le informazioni sono presentate in ordine di maggior numero di dati. I dati erano frasi di 30-250 caratteri. I test sono stati eseguiti solo sulle 100 lingue più diffuse. I test hanno mostrato un'accuratezza vicina al 99% per la maggior parte delle frasi di lunghezza pari o superiore a 300 caratteri.
Anche se non è possibile ottenere risultati perfetti, la migliore precisione (99%+ per molte lingue, anche quelle meno conosciute) si ottiene a partire da 300 caratteri. Indipendentemente dalla lunghezza del testo, più lungo è, meglio è.
Come riporta Wiki: l'identificazione della lingua o language guessing è il problema di determinare in quale lingua naturale si trova un dato contenuto. Gli approcci computazionali a questo problema lo considerano un caso speciale di categorizzazione del testo, risolto con vari metodi statistici.
I servizi di rilevamento della lingua possono essere utilizzati in vari modi, ad esempio per identificare la lingua dei testi aziendali, come le chat e le e-mail.
Il servizio può identificare la lingua del testo e le parti del testo in cui la lingua è cambiata, fino al livello delle parole.
Utilizzando i servizi di rilevamento del linguaggio, Surveillance Insights può evidenziare e annotare il linguaggio utilizzato nel testo e contribuire a identificare attività potenzialmente sospette.
I testi aziendali, come le e-mail o le chat, possono essere in diverse lingue. Una parte fondamentale della pipeline di elaborazione del linguaggio naturale consiste nel determinare quale sia la lingua principale, in modo che ogni testo possa essere elaborato attraverso le relative fasi specifiche della lingua.
In alcuni casi, le persone possono cambiare la lingua utilizzata nelle chat per evitare il monitoraggio o nascondere attività illegali. Determinare il momento in cui la lingua della chat viene cambiata è molto utile per determinare se si è verificata un'attività sospetta.
Se desiderate utilizzare la nostra API, potete ottenere maggiori informazioni su di essa e sui prezzi cliccando QUI.
Oltre a fornire un servizio API, abbiamo deciso di rilasciarlo come open-source.
Questo è il nostro primo rilascio open source! Rilevatore linguistico open source, disponibile QUI