أصبح من الممكن الآن التعرف على كلمة من اللهجة التونسية مثل كلمة asselama وترجمتها بسهولة وبشكل صحيح على Google بالإنجليزية أو بلغات أخرى.
وبحسب ما نقله وكالة تونس افريقيا للأنباء، فان من أبرز أهداف مشروع "مجموعة البيانات" المسمى "Tunizi" والذي طورته الشركة التونسية الناشئة "iCompass" المتخصصة في الذكاء الاصطناعي ، وبشكل خاص في مجال معالجة اللغة الطبيعية ( TLN).باعتماد قاعدة بيانات تضم 9000 جملة مكتوبة باللهجة التونسية وتجمع أول مجموعة كبيرة من بيانات تحليل المشاعر المستخدمة على الشبكات الاجتماعية.
ويهدف المشروع الى إنشاء قواعد بيانات مشروحة وتطوير وتقديم مجموعات بيانات من أي لهجة غير مفهومة وممثلة تمثيلاً ناقصًا لأغراض استخدامها في تطبيقات البرمجة اللغوية العصبية المستقبلية مثل الترجمة الآلية ووكلاء المحادثة (Chatbot) أو التعرف على الصوت.
وقامت شركة "iCompass" بشكل ملموس بجمع البيانات من التعليقات على شبكة Youtube
وتضمنت مقاطع الفيديو المختارة الرياضة التونسية والسياسة والكوميديا والبرامج التلفزيونية والمسلسلات التلفزيونية والفنون ومقاطع الفيديو الموسيقية بحيث تكون مجموعة البيانات تمثيلية وتحتوي على أنواع مختلفة من الأعمار ، التدريب والكتابة وما إلى ذلك.
وبحسب ما صرح به أحمد نويصر ، المؤسس والرئيس التنفيذي لشركة iCompass ، فان "المبدأ العام يهدف الى تقديم المزيد من البيانات المشروحة للنظام البيئي التونسي والمغاربي والأفريقي ، والتي تسمى" مجموعات البيانات ".
وتعمل الشركة التونسية الناشئة على تطوير "Tunizi" لجعلها مجموعة بيانات واضحة ومفهومة وإتاحتها للباحثين والجامعات وهياكل التحليل الأخرى من خلال أنظمة الكمبيوتر.
وات