سمودين تعلن عن إصدار واجهة برمجة التطبيقات الجديدة لاكتشاف اللغات التي تدعم 176 لغة
بما أن هناك حاجة إلى كاشف لغوي لتحسين تطبيقاتنا، فقد قررنا إيجاد حل.
في البداية، اعتقدنا أن الأمر سيكون سهلاً لأن جوجل يجعل الأمر يبدو سهلاً للغاية، ولكن كما اكتشفنا لم تكن المهمة سهلة، بل على العكس، لطالما كان اكتشاف اللغة مهمة صعبة.
في البحث عن أفضل خيار للتنبؤ بلغة ما من النص الذي لا يتطلب نموذجًا كبيرًا للتعلم الآلي، وجدنا أن أفضل حل هو نموذج تحديد اللغة المدرب مسبقًا والذي يستهلك أقل من 1 ميغابايت من الذاكرة مع القدرة على تصنيف آلاف المستندات في الثانية.
بعد إجراء العديد من التعديلات والتحسينات، قمنا بتطوير أداة يمكنها بثقة توفير معدلات دقة جيدة لكل لغة.
توفير تقييمات دقة جيدة حقاً، وليس ذلك فحسب، بل أيضاً بسرعة عالية وموثوقة. فيما يلي قائمة بالدقة لكل بلد.
لغات دقيقة بنسبة 99%*: الفرنسية (fr)، والإنجليزية (en)، والألمانية (de)، والبرتغالية (pt)، والتركية (tr)، والهولندية (nl)، والإيطالية (it)، والإسبانية (es)، والهنغارية (hu)، والإسبرانتو (eo)، والبولندية (pl), الفنلندية (fi)، الروسية (ru)، المقدونية (mk)، الأوكرانية (uk)، الليتوانية (lt)، الفيتنامية (vi)، اليونانية (el)، الماراثية (mr)، العربية (ar)، العبرية (he)، الهندية (hi), الأويغورية (ug)، اليابانية (ja)، الجورجية (ka)، البنغالية (bn)، الأردية (ur)، التايلاندية (th)، الصينية (zh)، الأرمينية (hy)، المالايالامية (ml)، الكورية (ko)، الخميرية (km) البورمية (my)، التاميلية (ta)، الكانادا (kn)، التيلجو (te)، البنجابية (pa)، اللاوية (lo)، الغوجاراتية (gu)، التبتية القياسية (bo)، الديفيهي (dv)، السنهالية (si)، الأمهرية (am).
90% لغات دقيقة*: الدانماركية (da)، الرومانية (ro)، السويدية (sv)، اللاتينية (la)، البلغارية (bg)، التشيكية (cs)، التاغالوغية (tl)، الإندونيسية (id)، التتارية (tt)، الآيسلندية (is), البيلاروسية (be)، الباسكية (eu)، البريتونية (br)، الكازاخستانية (kk)، اللاتفية (lv)، الإستونية (et)، الأيرلندية (ga)، التشوفاشية (cv)، البشكيرية (ba)، الأوسيتية (os)، الطاجيكية (tg).
*المعلومات معروضة بترتيب معظم بيانات الاختبار. كانت البيانات عبارة عن جمل يتراوح طولها بين 30 و250 حرفًا. تم إجراء الاختبار على أكثر 100 لغة شائعة فقط. أظهر الاختبار دقة تقارب 99% لغالبية الجمل التي يبلغ طولها 300 حرف أو أكثر.
على الرغم من أنه لا يمكنك الحصول على نتائج مثالية، إلا أن أفضل دقة (99%+ للعديد من اللغات، حتى الأقل شهرة) تظهر عند 300 حرف أو أكثر. بغض النظر عن طول النص، كلما كان النص أطول كان ذلك أفضل.
كما يذكر موقع ويكي: تحديد اللغة أو تخمين اللغة هو مشكلة تحديد اللغة الطبيعية التي ينتمي إليها محتوى معين. وتعتبر المقاربات الحاسوبية لهذه المشكلة حالة خاصة من حالات تصنيف النصوص، ويتم حلها بأساليب إحصائية مختلفة.
يمكن استخدام خدمات الكشف عن اللغة بطرق مختلفة، على سبيل المثال، يمكن استخدامها لتحديد لغة نصوص الأعمال، مثل الدردشة والبريد الإلكتروني.
يمكن للخدمة تحديد لغة النص وأجزاء النص التي تغيرت فيها اللغة، وصولاً إلى مستوى الكلمة.
باستخدام خدمات الكشف عن اللغة، يمكن لخدمة Surveillance Insights تسليط الضوء على اللغة المستخدمة في النص والتعليق عليها والمساعدة في تحديد الأنشطة المشبوهة المحتملة.
يمكن أن تكون نصوص الأعمال مثل البريد الإلكتروني أو الدردشة بلغات مختلفة. يتمثل أحد الأجزاء الرئيسية في خط أنابيب معالجة اللغة الطبيعية في تحديد اللغة الأساسية بحيث يمكن معالجة كل نص من خلال خطوات خاصة باللغة ذات الصلة.
في بعض الحالات، قد يغير الأشخاص اللغة المستخدمة في الدردشات لتجنب المراقبة أو إخفاء الأنشطة غير القانونية. يعد تحديد النقطة التي يتم عندها تبديل لغة الدردشة مفيدًا جدًا لتحديد ما إذا كان هناك نشاط مشبوه قد حدث.
إذا كنت ترغب في استخدام واجهة برمجة التطبيقات (API) الخاصة بنا، يمكنك الحصول على مزيد من المعلومات عنها وعن أسعارها بالضغط هنا
إلى جانب توفير خدمة واجهة برمجة التطبيقات، قررنا أيضًا إصدارها كإصدار مفتوح المصدر.
هذا أول إصدار مفتوح المصدر لنا! كاشف اللغة مفتوح المصدر، متاح هنا