«غوغل»: دقة روبوتات الدردشة أقل مما نعتقد!

ishraq

الاشراق

الاشراق | متابعة.

كشفت شركة «غوغل»، في دراسة موسّعة، أن دقّة الإجابات التي تقدّمها روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تُجاوز 70% في كثير من الأحيان، رغم التطور المتسارع الذي تشهده هذه النماذج، وذلك وفق تقرير نشره موقع Digital Trends.

ونشرت «غوغل» تقريراً من 18 صفحة عرضت فيه منهجية الاختبار والنتائج التفصيلية، موضحةً أن نماذج الذكاء الاصطناعي تخطئ في سؤال واحد من كل ثلاثة، حتى عندما تبدو الإجابات منطقية وقابلة للتصديق.

وجاء نموذج «جيميناي 3 برو» في صدارة نتائج الاختبارات بنسبة دقّة بلغت 69%، يليه «جيميناي 2.5 برو» بنسبة 62%، ثم «جي بي تي-5» بنسبة 61.8%. أمّا نماذج مثل Claude Opus 4.5 و«غروك»، فقد سجّلت نتائج أدنى تراوحت بين 51% و53%.


اختبارات دقيقة تكشف نقاط القوة والضعف
أجرت مختبرات «دييب مايند» التابعة لـ«غوغل» هذه الدراسة استناداً إلى أربعة معايير رئيسية:

1. المعيار البارامتري
يقيس قدرة النموذج على استرجاع المعلومات من بنك معارفه الداخلي عند طرح أسئلة واقعية.

2. المعيار البحثي
يختبر مهارات النموذج في البحث عبر الإنترنت وجمع البيانات الدقيقة من مصادر خارجية.

3. المعيار متعدد الوسائط
يركّز على قدرة النموذج على فهم الصور والإجابة عنها بشكل صحيح.

4. معيار الأساس 2
يفحص قدرة النموذج على تقديم إجابات تتماشى مع سياق معيّن أو توجّه محدد.

ويولّد كل معيار أكثر من 3500 نتيجة تُنشر بشكل مفتوح بالشراكة مع مجتمع Kaggle المتخصّص في علوم البيانات، فيما احتفظت الشركة بجزء من الاختبارات لأغراض بحثية خاصة.

نتائج متفاوتة وتحدّيات مستمرة
أظهرت النتائج تفاوتاً واسعاً بين النماذج، تبعاً لنوعية الأسئلة والمعايير المستخدمة. رغم تصدّر «جيميناي 3 برو» التقييم العام، تفوّقت نماذج أخرى، مثل «جي بي تي-5»، في معايير محددة، كالبحث وفهم السياق.

في المقابل، سُجّل أضعف أداء في المهمات المتعددة الوسائط، بما في ذلك تحليل الصور، لدى معظم النماذج. وانخفض أداء نموذج «غروك 4 فاست» إلى متوسط لا يتجاوز 36%، فيما تراجعت نتيجته إلى 17% في الاختبار المتعدد الوسائط، و15% في المعيار البارامتري.

وتشير الدراسة إلى أن هذه النتائج تبرز قصوراً مقلقاً في التطبيقات التي تتطلب مستوى عالياً من الدقّة، ولا سيما في المجالات الحساسة مثل الرعاية الصحية والتمويل، حيث يمكن للخطأ، ولو بنسبة محدودة، أن يؤدي إلى عواقب جسيمة.

وتؤكد نتائج دراسة «غوغل» أن الذكاء الاصطناعي، رغم تقدّمه الكبير، لا يزال بعيداً من تحقيق الدقّة الكاملة، وأن الاعتماد عليه في المهمات الحرجة يستدعي قدراً أكبر من الرقابة البشرية ومعايير صارمة للتحقّق من المعلومات.

Copyright © 2017 Al Eshraq TV all rights reserved Created by AVESTA GROUP