اختبار "الأذكى في العالم" Grok3

مجموعة Aipu Waton (1)

مقدمة

هل تعتقد أن Grok3 سيكون "نقطة النهاية" للنماذج المدربة مسبقًا؟

أطلقت إيلون موسك وفريق XAI رسميًا أحدث إصدار من Grok ، Grok3 ، خلال البث المباشر. قبل هذا الحدث ، أثارت كمية كبيرة من المعلومات ذات الصلة ، إلى جانب الضجيج الترويجي لـ Musk على مدار الساعة طوال أيام الأسبوع ، توقعات عالمية لـ Grok3 إلى مستويات غير مسبوقة. قبل أسبوع واحد فقط ، صرح Musk بثقة خلال البث المباشر أثناء التعليق على Deepseek R1 ، "Xai على وشك إطلاق نموذج منظمة العفو الدولية أفضل". من البيانات المقدمة ، يقال إن Grok3 قد تجاوز جميع النماذج الرئيسية الحالية في المعايير للرياضيات والعلوم والبرمجة ، مع ادعاء Musk حتى أنه سيتم استخدام Grok3 في المهام الحسابية المتعلقة بعثات Mars Spacex ، وتوقع "اختراقات على مستوى جائزة نوبل في غضون ثلاث سنوات." ومع ذلك ، هذه حاليا مجرد تأكيدات المسك. بعد الإطلاق ، اختبرت أحدث إصدار من بيتا من Grok3 وطرح سؤال الخدعة الكلاسيكي للنماذج الكبيرة: "أيهما أكبر ، 9.11 أو 9.9؟" للأسف ، دون أي تصفيات أو علامات ، ما زال ما يسمى أذكى Grok3 لا يمكن الإجابة على هذا السؤال بشكل صحيح. فشل Grok3 في تحديد معنى السؤال بدقة.

 

أثار هذا الاختبار بسرعة اهتمامًا كبيرًا من العديد من الأصدقاء ، وبشكل من قبيل الصدفة ، أظهرت اختبارات مماثلة مختلفة في الخارج Grok3 تكافح مع أسئلة الفيزياء/الرياضيات الأساسية مثل "أي الكرة تسقط أولاً من برج بيزا المميل؟" وهكذا ، فقد تم تصنيفها بدحوى على أنها "عبقرية غير راغبة في الإجابة على الأسئلة البسيطة".

640

Grok3 جيد ، لكنه ليس أفضل من R1 أو O1-Pro.

شهدت Grok3 "فشل" في العديد من اختبارات المعرفة المشتركة في الممارسة. خلال حدث إطلاق XAI ، أظهر Musk باستخدام Grok3 لتحليل فصول الأحرف والتأثيرات من مسار اللعبة في Exile 2 ، الذي ادعى أنه يلعبه كثيرًا ، ولكن معظم الإجابات التي قدمتها Grok3 كانت غير صحيحة. المسك أثناء البث المباشر لم يلاحظ هذه القضية الواضحة.

 

لم يقدم هذا الخطأ المزيد من الأدلة فقط على مستخدمي الإنترنت في الخارج للسخرية من المسك من أجل "إيجاد بديل" في الألعاب ، بل أثار أيضًا مخاوف كبيرة بشأن موثوقية Grok3 في التطبيقات العملية. بالنسبة لمثل هذا "العبقري" ، بغض النظر عن قدراته الفعلية ، لا تزال موثوقيتها في سيناريوهات التطبيق المعقدة للغاية ، مثل مهام استكشاف المريخ ، موضع شك.

 

في الوقت الحالي ، يشير العديد من المختبرين الذين تلقوا الوصول إلى Grok3 قبل أسابيع ، وأولئك الذين اختبروا للتو قدرات النموذج لبضع ساعات أمس ، جميعهم إلى استنتاج مشترك: "Grok3 جيد ، لكنه ليس أفضل من R1 أو O1-Pro".

640 (1)

منظور حاسم حول "تعطيل nvidia"

في برنامج PPT الذي تم تقديمه رسميًا أثناء الإصدار ، تبين أن Grok3 "بعيدًا عن الأمام" في ساحة Chatbot ، ولكن هذه التقنيات الرسومية المستخدمة بذكاء: فإن المحور العمودي على لوحة المتصدرين المدرجة فقط في نطاق الدرجات 1400-1300 ، مما يجعل الفرق الأصلي 1 ٪ في نتائج الاختبار ذات دلالة في هذا العرض.

640

في نتائج تسجيل النماذج الفعلية ، يتقدم Grok3 فقط 1-2 ٪ على Deepseek R1 و GPT-4.0 ، وهو ما يتوافق مع تجارب العديد من المستخدمين في الاختبارات العملية التي وجدت "لا فرق ملحوظ". Grok3 لا يتجاوز سوى خلفائه بنسبة 1 ٪ -2 ٪.

640

على الرغم من أن Grok3 قد سجل أعلى من جميع النماذج التي تم اختبارها بشكل عام ، إلا أن الكثير منها لا يأخذ هذا على محمل الجد: بعد كل شيء ، تم انتقاد XAI من قبل بسبب "التلاعب بالدرجات" في عصر Grok2. عندما عاقل المتصدرون نمط طول الإجابة ، انخفضت الدرجات إلى حد كبير ، مما دفع المطلعين على الصناعة في كثير من الأحيان إلى انتقاد ظاهرة "التهديف العالي ولكن القدرة المنخفضة".

 

سواء من خلال "التلاعب" المتصدرين أو الحيل في التصميم في الرسوم التوضيحية ، فإنها تكشف عن هوس Xai و Musk بمفهوم "قيادة الحزمة" في إمكانيات النموذج. دفع Musk سعرًا حادًا لهذه الهوامش: خلال الإطلاق ، تباهى باستخدام 200000 H100 وحدات معالجة الرسومات (مدعيا "أكثر من 100000" خلال البث المباشر) وتحقيق إجمالي وقت تدريب قدره 200 مليون ساعة. وقد أدى ذلك البعض إلى الاعتقاد بأنه يمثل نعمة مهمة أخرى لصناعة GPU والنظر في تأثير Deepseek على القطاع على أنه "أحمق". والجدير بالذكر أن البعض يعتقد أن القوة الحسابية المطلقة ستكون مستقبل التدريب النموذجي.

 

ومع ذلك ، قارن بعض مستخدمي الإنترنت استهلاك عام 2000 H800 على مدار شهرين لإنتاج Deepseek V3 ، ويحسبون أن استهلاك الطاقة التدريبي الفعلي لـ Grok3 هو 263 مرة من V3. الفجوة بين Deepseek V3 ، التي سجلت 1402 نقطة ، و Grok3 أقل بقليل من 100 نقطة. بعد إصدار هذه البيانات ، أدرك الكثيرون بسرعة أنه وراء عنوان Grok3 كأقوى في العالم ، يكمن تأثير فائدة هامشي واضح - لقد بدأ منطق النماذج الأكبر التي تولد أداء أقوى في إظهار عائدات متناقصة.

640 (2)

حتى مع وجود "تسجيل عالٍ ولكن منخفضة القدرة" ، كان لدى Grok2 كميات هائلة من بيانات الطرف الأول عالي الجودة من منصة X (Twitter) لدعم الاستخدام. ومع ذلك ، في تدريب Grok3 ، واجهت Xai بشكل طبيعي "السقف" الذي يواجهه Openai حاليًا - عدم وجود بيانات التدريب المتميزة تكشف بسرعة الفائدة الهامشية لقدرات النموذج.

 

من المحتمل أن يكون مطورو Grok3 و Musk أول من يفهم وتحديد هذه الحقائق بعمق ، وهذا هو السبب في أن Musk قد ذكر باستمرار على وسائل التواصل الاجتماعي أن مستخدمي الإصدار الآن هو "لا يزال مجرد بيتا" وأن "النسخة الكاملة سيتم إصدارها في الأشهر المقبلة". تولى Musk دور مدير المنتجات في Grok3 ، مما يشير إلى أن المستخدمين يقدمون ملاحظات حول مختلف القضايا التي واجهتها في قسم التعليقات.

 

ومع ذلك ، في غضون يوم واحد ، أثار أداء Grok3 بلا شك إنذارات لأولئك الذين يأملون في الاعتماد على "العضلات الحاسوبية الضخمة" لتدريب نماذج كبيرة أقوى: استنادًا إلى معلومات Microsoft المتاحة للجمهور ، فإن GPT-4 من Openai يبلغ حجم معلمة 1.8 تريليون ، أكثر من عشرة أضعاف GPT-3. تشير الشائعات إلى أن حجم المعلمة من GPT-4.5 قد يكون أكبر.

 

مع ارتفاع أحجام المعلمات النموذجية ، تتصاعد تكاليف التدريب أيضًا. مع وجود Grok3 ، يجب أن ينظر المتنافسون مثل GPT-4.5 وغيرهم الذين يرغبون في مواصلة "حرق الأموال" لتحقيق أداء أفضل من خلال حجم المعلمة في السقف الذي أصبح الآن بوضوح في الأفق ويتأملون في كيفية التغلب عليه. في هذه اللحظة ، كانت إيليا سوتسكفر ، كبير العلماء السابقون في Openai ، قد ذكرت سابقًا في ديسمبر الماضي ، "التدريب المسبق الذي نتعرف عليه سيأتي إلى نهايته" ، الذي عاد إلى الظهور في المناقشات ، مما دفع جهودًا لإيجاد المسار الحقيقي لتدريب النماذج الكبيرة.

640 (3)

نظرت وجهة نظر إيليا إلى إنذار الصناعة. لقد توقع بدقة الإرهاق الوشيك للبيانات الجديدة التي يمكن الوصول إليها ، مما يؤدي إلى موقف لا يمكن فيه تعزيز الأداء من خلال الحصول على البيانات ، مما يشبهه إلى استنفاد الوقود الأحفوري. وأشار إلى أن "مثل النفط ، المحتوى الذي ينشئه الإنسان على الإنترنت هو مورد محدود". في تنبؤات Sutskever ، سيمتلك الجيل القادم من النماذج ، بعد التدريب بعد التدريب ، "استقلالية حقيقية" وقدرات التفكير "على غرار الدماغ البشري".

 

على عكس النماذج التي تم تدريبها مسبقًا اليوم والتي تعتمد بشكل أساسي على مطابقة المحتوى (استنادًا إلى محتوى النموذج الذي تم تعلمه مسبقًا) ، ستكون أنظمة الذكاء الاصطناعى المستقبلية قادرة على تعلم وإنشاء منهجيات لحل المشكلات بطريقة أقرب إلى "التفكير" في الدماغ البشري. يمكن للإنسان تحقيق الكفاءة الأساسية في موضوع مع الأدب المهني الأساسي فقط ، في حين أن نموذج AI كبير يتطلب ملايين نقاط البيانات لتحقيق فعالية المبتدئين الأساسية. حتى عندما يتم تغيير الصياغة قليلاً ، قد لا يتم فهم هذه الأسئلة الأساسية بشكل صحيح ، مما يوضح أن النموذج لم يتحسن حقًا في الذكاء: تمثل الأسئلة الأساسية التي لا يمكن حلها المذكورة في بداية المقالة مثالًا واضحًا لهذه الظاهرة.

微信图片 _20240614024031.jpg1

خاتمة

ومع ذلك ، إلى جانب القوة الغاشمة ، إذا نجح Grok3 بالفعل في الكشف عن الصناعة أن "النماذج المدربة قبل أن تقترب من نهايتها" ، فإن ذلك سيحمل آثارًا كبيرة على هذا المجال.

ربما بعد أن يتراجع الهيجان المحيط Grok3 تدريجياً ، سنشهد المزيد من الحالات مثل مثال Fei-Fei Li على "ضبط نماذج عالية الأداء على مجموعة بيانات معينة مقابل 50 دولارًا فقط" ، في نهاية المطاف اكتشاف المسار الحقيقي إلى AGI.

ابحث عن محلول كابل ELV

الكابلات السيطرة

ل BMS ، الحافلة ، الصناعية ، كابل الأجهزة.

نظام الكابلات المنظم

الشبكة والبيانات ، كابل الألياف البصرية ، سلك التصحيح ، الوحدات النمطية ، اللوحة الوجه

2024 مراجعة المعارض والأحداث

16 أبريل-18 ، 2024 طاقة الشرق الأوسط في دبي

16 أبريل-18 ، 2024 Securika في موسكو

May.9th ، 2024 New Products & Technologies Launch Event في Shanghai

22 أكتوبر -25 ، 2024 الأمن الصين في بكين

Nov.19-20 ، 2024 Connection World KSA


وقت النشر: فبراير -19-2025