بالتعاون مع أكثر من عشر جهات رسمية: إطلاق مؤشر "بلسم" لتقييم النماذج اللغوية الضخمة العربية (LLM)

بالتعاون مع أكثر من عشر جهات رسمية: إطلاق مؤشر "بلسم" لتقييم النماذج اللغوية الضخمة العربية (LLM)

في خطوة هامة نحو تطوير الذكاء الاصطناعي واللغة العربية، تم الإعلان عن إطلاق مؤشر بلسم، وهو مجموعة بيانات اختبار متخصصة تهدف إلى تقييم أداء النماذج اللغوية الضخمة العربية. يهدف المؤشر إلى توفير إطار معياري لاختبار قدرات هذه النماذج في فهم وتوليد اللغة العربية على نحو أكثر دقة وجودة.

التعاون بين أكثر من 10 جهات

المؤشر هو نتاج تعاون بين أكثر من 10 جهات أكاديمية وحكومية من داخل المملكة العربية السعودية، مما يعزز الجهود المشتركة لدفع عجلة الابتكار في تقنيات الذكاء الاصطناعي والتعلم الآلي، وخاصة تلك المتعلقة باللغة العربية.

المهام اللغوية المغطاة

يغطي مؤشر بلسم 67 مهمة لغوية عبر أكثر من 50,000 سؤال، مما يجعله أداة قوية لتقييم النماذج اللغوية في مجموعة متنوعة من المهام. فيما يلي 10 من المهام اللغوية التي يتم تقييمها ضمن المؤشر:

  1. التصحيح النحوي (Grammar Correction): تهدف إلى قياس قدرة النموذج على اكتشاف وتصحيح الأخطاء النحوية في النصوص.
  2. الإجابة على الأسئلة (Question Answering): تختبر قدرة النماذج على الإجابة بشكل صحيح على الأسئلة بناءً على نص معين.
  3. استخراج المعلومات (Information Extraction): تختبر قدرة النموذج على استخراج معلومات معينة من النصوص، مثل الأسماء أو التواريخ أو الأماكن.
  4. توليد النصوص (Text Generation): تختبر قدرة النماذج على توليد نصوص جديدة بناءً على مدخلات معينة.
  5. الترجمة الآلية (Machine Translation): تقييم دقة النماذج في ترجمة النصوص من وإلى اللغة العربية.
  6. التعرف على الكيانات المسماة (Named Entity Recognition): تختبر قدرة النماذج على التعرف على الكيانات المسماة مثل الأشخاص أو المنظمات أو المواقع.
  7. تحليل المشاعر (Sentiment Analysis): تختبر هذه المهمة قدرة النموذج على تحديد نبرة النصوص سواء كانت إيجابية أو سلبية أو محايدة.
  8. ملء الفراغ (Fill in the Blank): تختبر هذه المهمة قدرة النموذج على إكمال النصوص بناءً على سياق الجملة.
  9. التلخيص (Summarization): تختبر قدرة النماذج على تلخيص نصوص طويلة إلى نقاط أساسية دون فقدان المعنى.
  10. التعرف على الموضوع (Topic Identification): تختبر قدرة النماذج على التعرف على الموضوعات الرئيسية في النصوص المختلفة.

أهمية مؤشر بلسم

يمثل مؤشر بلسم خطوة كبيرة نحو تحسين جودة النماذج اللغوية الضخمة العربية، حيث يوفر قاعدة بيانات اختبارية موحدة وقابلة للقياس لمطوري الذكاء الاصطناعي. سيساعد هذا المؤشر في تحديد نقاط القوة والضعف في النماذج الحالية، مما يدفع بالتالي لتطوير تقنيات أكثر دقة وكفاءة لخدمة المستخدمين الناطقين باللغة العربية.

للمزيد من التفاصيل، يمكن زيارة الموقع الرسمي لمؤشر بلسم.

صفحة أحد المطورين لبلسم: https://www.linkedin.com/in/qunaieer/

Fares Al-Qunaieer - Communications, Space & Technology Commission (CST) | LinkedIn
• More than 19 years of experience in Artificial Intelligence (Machine Learning and… · Experience: Communications, Space & Technology Commission (CST) · Education: University of Waterloo · Location: Riyadh · 500+ connections on LinkedIn. View Fares Al-Qunaieer’s profile on LinkedIn, a professional community of 1 billion members.
Balsam Benchmark | مؤشر بلسم








Read more

Breaking Free: Why Freelancers and Startups Should Avoid Vendor Lock-In and Embrace Open-Source Solutions - 200+ Libre Apps

Breaking Free: Why Freelancers and Startups Should Avoid Vendor Lock-In and Embrace Open-Source Solutions - 200+ Libre Apps

Freelancers, startups, as many professionals find themselves tethered to commercial apps and services. This reliance often leads to a phenomenon known as vendor lock-in, where users become dependent on a particular vendor's tools, making it challenging to switch to alternatives without incurring significant costs or disruptions. Understanding Vendor

By Hazem Abbas



Open-source Apps

9,500+

Medical Apps

500+

Lists

450+

Dev. Resources

900+

/