DeepSeek: الأداة المُزعزعة التي تُحدث ثورة في عالم الذكاء الاصطناعي

مجموعة الاتحاد البرلماني الدولي واتون

مقدمة

استمرار القلق بين النماذج الكبيرة المتنافسة، ومقدمي الخدمات السحابية المتنافسين على حصة السوق، ومصنعي الرقائق المجتهدين - لا يزال تأثير DeepSeek قائما.

مع اقتراب مهرجان الربيع من نهايته، لا يزال الحماس المحيط بـ DeepSeek قويًا. سلّطت العطلة الأخيرة الضوء على تنافس محموم في قطاع التكنولوجيا، حيث ناقش الكثيرون هذا "المشروع المُضلّل" وحلّلوه. يشهد وادي السيليكون أزمة غير مسبوقة: إذ يُعبّر مُناصرو البرمجيات مفتوحة المصدر عن آرائهم مُجددًا، وحتى شركة OpenAI تُعيد تقييم ما إذا كانت استراتيجيتها للبرمجيات مغلقة المصدر هي الخيار الأمثل. وقد أثار النموذج الجديد لانخفاض تكاليف الحوسبة سلسلة من ردود الفعل بين عمالقة الرقائق مثل Nvidia، مما أدى إلى خسائر سوقية قياسية في يوم واحد في تاريخ سوق الأسهم الأمريكية، بينما تُجري الوكالات الحكومية تحقيقات حول امتثال الرقائق التي تستخدمها DeepSeek. ورغم الآراء المُتباينة حول DeepSeek في الخارج، إلا أنها تشهد نموًا استثنائيًا على الصعيد المحلي. فبعد إطلاق نموذج R1، شهد التطبيق المُرتبط به زيادة كبيرة في عدد الزيارات، مما يُشير إلى أن النمو في قطاعات التطبيقات سيدفع منظومة الذكاء الاصطناعي ككل إلى الأمام. والجانب الإيجابي هو أن DeepSeek سيُوسّع آفاق التطبيقات، مما يُشير إلى أن الاعتماد على ChatGPT لن يكون مُكلفًا في المستقبل. انعكس هذا التحول في أنشطة OpenAI الأخيرة، بما في ذلك توفير نموذج استدلال يُسمى o3-mini للمستخدمين المجانيين استجابةً لـ DeepSeek R1، بالإضافة إلى ترقيات لاحقة جعلت سلسلة أفكار o3-mini متاحة للعامة. وقد أعرب العديد من المستخدمين في الخارج عن امتنانهم لـ DeepSeek على هذه التطورات، مع أن سلسلة الأفكار هذه تُعتبر بمثابة ملخص.

بتفاؤل، من الواضح أن DeepSeek تُوحّد اللاعبين المحليين. بفضل تركيزها على خفض تكاليف التدريب، تنضم العديد من شركات تصنيع الرقائق الأولية، وموفري الخدمات السحابية الوسيطة، والعديد من الشركات الناشئة بنشاط إلى النظام البيئي، مما يُحسّن كفاءة التكلفة لاستخدام نموذج DeepSeek. ووفقًا لأوراق DeepSeek، لا يتطلب التدريب الكامل لنموذج V3 سوى 2.788 مليون ساعة من وحدة معالجة الرسومات H800، وتتميز عملية التدريب باستقرار عالٍ. تُعد بنية MoE (مزيج الخبراء) حاسمة في خفض تكاليف ما قبل التدريب بعشرة أضعاف مقارنةً بنموذج Llama 3 الذي يحتوي على 405 مليارات معلمة. حاليًا، يُعد V3 أول نموذج مُعترف به علنًا يُظهر هذا القدر العالي من الندرة في MoE. بالإضافة إلى ذلك، يعمل MLA (الاهتمام متعدد الطبقات) بتآزر، لا سيما في جوانب التفكير المنطقي. كلما كانت MoE أقل كثافة، زاد حجم الدفعة اللازم أثناء التفكير للاستفادة الكاملة من القدرة الحسابية، ويُعدّ حجم KVCache العامل المحدد الرئيسي؛ ويُقلّل MLA حجم KVCache بشكل كبير، وفقًا لما ذكره باحث من Chuanjing Technology في تحليلٍ لمجلة AI Technology Review. بشكل عام، يكمن نجاح DeepSeek في الجمع بين تقنيات متعددة، وليس تقنية واحدة فقط. يُشيد خبراء الصناعة بالقدرات الهندسية لفريق DeepSeek، مُشيرين إلى تميزهم في التدريب المتوازي وتحسين أداء المُشغّل، وتحقيق نتائج رائدة من خلال تحسين كل تفصيل. يُعزز نهج DeepSeek مفتوح المصدر التطوير الشامل للنماذج الكبيرة، ومن المتوقع أن يؤدي توسع نماذج مماثلة لتشمل الصور ومقاطع الفيديو وغيرها إلى تحفيز الطلب بشكل كبير في جميع أنحاء الصناعة.

فرص خدمات الاستدلال من جهات خارجية

تشير البيانات إلى أنه منذ إطلاقه، استقطب تطبيق DeepSeek 22.15 مليون مستخدم نشط يوميًا (DAU) في غضون 21 يومًا فقط، محققًا نسبة 41.6% من قاعدة مستخدمي ChatGPT، متجاوزًا بذلك 16.95 مليون مستخدم نشط يوميًا لتطبيق Doubao، ليصبح بذلك أسرع التطبيقات نموًا عالميًا، متصدرًا متجر تطبيقات Apple في 157 دولة/منطقة. ومع ذلك، وبينما توافد المستخدمون بأعداد كبيرة، واصل قراصنة الإنترنت مهاجمة تطبيق DeepSeek بلا هوادة، مما تسبب في ضغط كبير على خوادمه. ويعتقد محللو الصناعة أن هذا يعود جزئيًا إلى استخدام DeepSeek لبطاقات التدريب مع افتقارها إلى القدرة الحسابية الكافية للاستدلال. وصرح أحد المطلعين على الصناعة لمجلة AI Technology Review: "يمكن حل مشاكل الخوادم المتكررة بسهولة عن طريق فرض رسوم أو تمويل لشراء المزيد من الأجهزة؛ في النهاية، يعتمد الأمر على قرارات DeepSeek". وهذا يمثل مفاضلة بين التركيز على التكنولوجيا والإنتاج. اعتمدت DeepSeek بشكل كبير على التكميم الكمي لتحقيق الاكتفاء الذاتي، نظرًا لقلة التمويل الخارجي الذي تلقته، مما أدى إلى انخفاض ضغط التدفق النقدي نسبيًا وبيئة تكنولوجية أكثر نقاءً. حاليًا، وفي ضوء المشكلات المذكورة أعلاه، يحث بعض المستخدمين DeepSeek عبر وسائل التواصل الاجتماعي على رفع حدود الاستخدام أو تقديم ميزات مدفوعة لتعزيز راحة المستخدم. بالإضافة إلى ذلك، بدأ المطورون باستخدام واجهة برمجة التطبيقات الرسمية أو واجهات برمجة تطبيقات خارجية لتحسين الأداء. ومع ذلك، أعلنت منصة DeepSeek المفتوحة مؤخرًا أن "موارد الخادم الحالية شحيحة، وقد تم تعليق عمليات إعادة شحن خدمة واجهة برمجة التطبيقات".

 

هذا بلا شك يفتح آفاقًا جديدة أمام موردي الطرف الثالث في قطاع البنية التحتية للذكاء الاصطناعي. مؤخرًا، أطلقت العديد من شركات الحوسبة السحابية العملاقة المحلية والدولية واجهات برمجة تطبيقات نماذج DeepSeek، وكانت مايكروسوفت وأمازون من أوائل الشركات التي انضمت في نهاية يناير. وكانت هواوي كلاود، الشركة الرائدة محليًا، هي من اتخذت الخطوة الأولى بإطلاق خدمات الاستدلال DeepSeek R1 وV3 بالتعاون مع Flow، الشركة القائمة على السيليكون، في الأول من فبراير. وتشير تقارير من AI Technology Review إلى أن خدمات Flow، الشركة القائمة على السيليكون، شهدت تدفقًا كبيرًا من المستخدمين، مما أدى فعليًا إلى "تعطيل" المنصة. كما أصدرت شركات التكنولوجيا الثلاث الكبرى - BAT (بايدو، علي بابا، تينسنت) وبايت دانس - عروضًا منخفضة التكلفة لفترة محدودة بدءًا من الثالث من فبراير، تُذكرنا بحرب أسعار موردي الحوسبة السحابية العام الماضي التي أشعلها إطلاق DeepSeek لنموذج V2، حيث أصبح DeepSeek يُلقب بـ"جزار الأسعار". تعكس الإجراءات المحمومة لموردي السحابة الروابط القوية السابقة بين مايكروسوفت أزور وOpenAI، حيث استثمرت مايكروسوفت في عام ٢٠١٩ مليار دولار أمريكي في OpenAI وحصدت ثمارها بعد إطلاق ChatGPT في عام ٢٠٢٣. ومع ذلك، بدأت هذه العلاقة الوثيقة بالتراجع بعد أن قامت Meta بجعل Llama مفتوح المصدر، مما سمح لموردي خدمات أخرى خارج بيئة مايكروسوفت أزور بالتنافس مع نماذجهم الكبيرة. في هذه الحالة، لم يتفوق DeepSeek على ChatGPT من حيث شعبية المنتج فحسب، بل قدم أيضًا نماذج مفتوحة المصدر بعد إصدار o1، على غرار الحماس الذي أحاط بإعادة إحياء Llama لـ GPT-3.

 

في الواقع، يضع مزودو الخدمات السحابية أنفسهم أيضًا كبوابات مرور لتطبيقات الذكاء الاصطناعي، مما يعني أن تعميق العلاقات مع المطورين يترجم إلى مزايا استباقية. تشير التقارير إلى أن Baidu Smart Cloud كان لديه أكثر من 15000 عميل يستخدمون نموذج DeepSeek عبر منصة Qianfan في يوم إطلاق النموذج. بالإضافة إلى ذلك، تقدم العديد من الشركات الأصغر حلولاً، بما في ذلك Silicon-based Flow و Luchen Technology و Chuanjing Technology والعديد من مزودي البنية التحتية للذكاء الاصطناعي الذين أطلقوا دعمًا لنماذج DeepSeek. علمت AI Technology Review أن فرص التحسين الحالية لعمليات النشر المحلية لـ DeepSeek موجودة بشكل أساسي في مجالين: الأول هو تحسين خصائص الندرة لنموذج MoE باستخدام نهج التفكير المختلط لنشر نموذج MoE المكون من 671 مليار معلمة محليًا مع استخدام استدلال وحدة معالجة الرسومات/وحدة المعالجة المركزية الهجين. بالإضافة إلى ذلك، يعد تحسين MLA أمرًا حيويًا. ومع ذلك، لا يزال نموذجا DeepSeek يواجهان بعض التحديات في تحسين النشر. نظرًا لحجم النموذج وتعدد معاييره، يُعدّ التحسين معقدًا للغاية، خاصةً في عمليات النشر المحلية حيث يُشكّل تحقيق التوازن الأمثل بين الأداء والتكلفة تحديًا، وفقًا لباحث من شركة Chuanjing Technology. تكمن العقبة الأبرز في تجاوز حدود سعة الذاكرة. وأوضح قائلًا: "نعتمد نهجًا تعاونيًا متنوعًا للاستفادة الكاملة من وحدات المعالجة المركزية (CPU) والموارد الحاسوبية الأخرى، حيث نضع فقط الأجزاء غير المشتركة من مصفوفة MoE المتفرقة على وحدة المعالجة المركزية/ذاكرة الوصول العشوائي الديناميكية (DRAM) للمعالجة باستخدام مشغلات وحدة المعالجة المركزية عالية الأداء، بينما تبقى الأجزاء الكثيفة على وحدة معالجة الرسومات (GPU). تشير التقارير إلى أن إطار عمل Chuanjing مفتوح المصدر KTransformers يُضيف بشكل أساسي استراتيجيات ومشغلات متنوعة إلى تطبيق Transformers الأصلي من خلال قالب، مما يُحسّن بشكل كبير سرعة الاستدلال باستخدام أساليب مثل CUDAGraph. وقد خلقت DeepSeek فرصًا لهذه الشركات الناشئة، حيث أصبحت فوائد النمو واضحة؛ حيث أبلغت العديد من الشركات عن نمو ملحوظ في قاعدة عملائها بعد إطلاق واجهة برمجة تطبيقات DeepSeek، حيث تلقت استفسارات من عملاء سابقين يبحثون عن تحسينات. أشار خبراء في هذا المجال إلى أنه "في الماضي، كانت مجموعات العملاء الراسخة نوعًا ما محصورة في الخدمات الموحدة للشركات الكبرى، مقيدة بشدة بمزايا التكلفة الناتجة عن حجم العمل. ومع ذلك، بعد الانتهاء من نشر DeepSeek-R1/V3 قبل عيد الربيع، تلقينا فجأة طلبات تعاون من العديد من العملاء المعروفين، وحتى عملاء كانوا خاملين سابقًا بادروا بالتواصل معنا لتقديم خدمات DeepSeek". حاليًا، يبدو أن DeepSeek تجعل أداء استنتاج النماذج أمرًا بالغ الأهمية بشكل متزايد، ومع التوسع في اعتماد النماذج الكبيرة، سيستمر هذا في التأثير بشكل كبير على تطوير صناعة البنية التحتية للذكاء الاصطناعي. إذا أمكن نشر نموذج بمستوى DeepSeek محليًا بتكلفة منخفضة، فسيدعم ذلك بشكل كبير جهود التحول الرقمي للحكومات والمؤسسات. ومع ذلك، لا تزال التحديات قائمة، حيث قد يكون لدى بعض العملاء توقعات عالية بشأن قدرات النماذج الكبيرة، مما يجعل من الواضح أن الموازنة بين الأداء والتكلفة أمر بالغ الأهمية في النشر العملي. 

لتقييم ما إذا كان DeepSeek أفضل من ChatGPT، من الضروري فهم اختلافاتهما الرئيسية ونقاط قوتهما وحالات استخدامهما. إليك مقارنة شاملة:

الميزة/الجانب ديب سيك تشات جي بي تي
ملكية تم تطويره بواسطة شركة صينية تم تطويره بواسطة OpenAI
نموذج المصدر مفتوح المصدر الملكية
يكلف مجاني الاستخدام؛ خيارات وصول أرخص إلى واجهة برمجة التطبيقات التسعير بالاشتراك أو الدفع مقابل الاستخدام
التخصيص قابلة للتخصيص بدرجة كبيرة، مما يسمح للمستخدمين بتعديلها والبناء عليها تخصيص محدود متاح
الأداء في مهام محددة يتفوق في مجالات معينة مثل تحليل البيانات واسترجاع المعلومات متعدد الاستخدامات مع أداء قوي في الكتابة الإبداعية والمهام المحادثة
دعم اللغة التركيز القوي على اللغة والثقافة الصينية دعم واسع للغة ولكنه يركز على الولايات المتحدة
تكلفة التدريب انخفاض تكاليف التدريب وتحسين الكفاءة تكاليف التدريب أعلى، مما يتطلب موارد حسابية كبيرة
تباين الاستجابة قد تقدم استجابات مختلفة، ربما متأثرة بالسياق الجيوسياسي إجابات متسقة بناءً على بيانات التدريب
الجمهور المستهدف يستهدف المطورين والباحثين الذين يريدون المرونة يستهدف المستخدمين العامين الذين يبحثون عن قدرات المحادثة
حالات الاستخدام أكثر كفاءة لتوليد التعليمات البرمجية والمهام السريعة مثالي لإنشاء النصوص والإجابة على الاستفسارات والمشاركة في الحوار

منظور نقدي حول "تعطيل إنفيديا"

في الوقت الحالي، بالإضافة إلى هواوي، تتكيف العديد من شركات تصنيع الرقائق المحلية، مثل مور ثريدز، وموكسي، وبيران تكنولوجي، وتيانشو تشيكسين، مع نموذجي ديب سيك. وصرح أحد مصنعي الرقائق لمجلة إيه آي تكنولوجي ريفيو: "يُظهر هيكل ديب سيك الابتكار، إلا أنه يبقى برنامج ماجستير في القانون. يركز تكيفنا مع ديب سيك بشكل أساسي على تطبيقات الاستدلال، مما يجعل التنفيذ التقني سهلًا وسريعًا نسبيًا". ومع ذلك، يتطلب نهج وزارة التعليم متطلبات أعلى من حيث التخزين والتوزيع، إلى جانب ضمان التوافق عند النشر مع الرقائق المحلية، مما يُمثل العديد من التحديات الهندسية التي تتطلب حلًا أثناء التكيف. وقال أحد ممارسي الصناعة، استنادًا إلى خبرته العملية: "حاليًا، لا تُضاهي قوة الحوسبة المحلية قوة إنفيديا من حيث سهولة الاستخدام والاستقرار، مما يتطلب مشاركة المصنع الأصلي لإعداد بيئة البرنامج، واستكشاف الأخطاء وإصلاحها، وتحسين الأداء الأساسي". في الوقت نفسه، "نظرًا لحجم معاملات DeepSeek R1 الكبير، تتطلب القدرة الحسابية المحلية عددًا أكبر من العقد للتوازي. إضافةً إلى ذلك، لا تزال مواصفات الأجهزة المحلية متأخرة بعض الشيء؛ فعلى سبيل المثال، لا يدعم معالج Huawei 910B حاليًا استدلال FP8 الذي قدمته DeepSeek." من أبرز مميزات نموذج DeepSeek V3 تقديم إطار عمل تدريبي دقيق مختلط FP8، والذي تم التحقق من صحته بفعالية على نموذج ضخم للغاية، مما يُمثل إنجازًا كبيرًا. في السابق، اقترحت شركات كبرى مثل Microsoft وNvidia أعمالًا مماثلة، لكن الشكوك لا تزال قائمة في هذا المجال بشأن الجدوى. من المفهوم أنه مقارنةً بـ INT8، تتمثل الميزة الرئيسية لـ FP8 في أن التكميم بعد التدريب يُمكن أن يحقق دقة شبه معدومة مع تحسين سرعة الاستدلال بشكل كبير. بالمقارنة مع FP16، يُمكن لـ FP8 تحقيق تسارع يصل إلى ضعفي تسارع H20 من Nvidia وأكثر من 1.5 ضعف تسارع H100. من الجدير بالذكر أنه مع تزايد زخم المناقشات حول اتجاه قوة الحوسبة المحلية بالإضافة إلى النماذج المحلية، أصبحت التكهنات حول ما إذا كان يمكن تعطيل Nvidia، وما إذا كان يمكن تجاوز خندق CUDA، سائدة بشكل متزايد. إحدى الحقائق التي لا يمكن إنكارها هي أن DeepSeek قد تسبب بالفعل في انخفاض كبير في القيمة السوقية لشركة Nvidia، ولكن هذا التحول يثير تساؤلات حول سلامة قوة الحوسبة المتطورة لـ Nvidia. يتم تحدي الروايات المقبولة سابقًا بشأن التراكم الحسابي المدفوع برأس المال، ومع ذلك لا يزال من الصعب على Nvidia استبدالها بالكامل في سيناريوهات التدريب. يوضح تحليل الاستخدام العميق لـ DeepSeek لـ CUDA أن المرونة - مثل استخدام SM للاتصال أو التلاعب المباشر ببطاقات الشبكة - غير ممكنة لوحدات معالجة الرسومات العادية. تؤكد وجهات نظر الصناعة أن خندق Nvidia يشمل نظام CUDA بأكمله بدلاً من CUDA نفسه فقط، ولا تزال تعليمات PTX (تنفيذ الخيوط المتوازية) التي يستخدمها DeepSeek جزءًا من نظام CUDA البيئي. على المدى القصير، لا يُمكن تجاوز قوة إنفيديا الحسابية - وهذا واضحٌ بشكلٍ خاص في التدريب؛ ومع ذلك، سيكون استخدام البطاقات المحلية للاستدلال أسهل نسبيًا، لذا من المرجح أن يكون التقدم أسرع. يُركز تكييف البطاقات المحلية بشكل أساسي على الاستدلال؛ لم ينجح أحدٌ حتى الآن في تدريب نموذج لأداء DeepSeek على البطاقات المحلية على نطاق واسع، وفقًا لما ذكره أحد محللي الصناعة لمجلة AI Technology Review. بشكل عام، من منظور الاستدلال، تُعتبر الظروف مُشجعة لشرائح النماذج الكبيرة المحلية. تتضح فرص مُصنّعي الشرائح المحليين في مجال الاستدلال بشكلٍ أكبر نظرًا لمتطلبات التدريب المُرتفعة للغاية، والتي تُعيق دخول السوق. يُؤكد المُحللون أن مجرد استخدام بطاقات الاستدلال المحلية كافٍ؛ وإذا لزم الأمر، يُمكن الحصول على جهاز إضافي، بينما تُشكل نماذج التدريب تحدياتٍ فريدة - فإدارة عدد متزايد من الأجهزة قد تُصبح مُرهقة، وقد تؤثر مُعدلات الخطأ المرتفعة سلبًا على نتائج التدريب. كما أن للتدريب مُتطلبات مُحددة لحجم العناقيد، في حين أن متطلبات العناقيد للاستدلال ليست صارمةً بنفس القدر، مما يُخفف مُتطلبات وحدة معالجة الرسومات. حاليًا، لا يتفوق أداء بطاقة H20 من Nvidia على أداء Huawei أو Cambrian؛ فقوتها تكمن في التجميع. واستنادًا إلى التأثير العام على سوق الطاقة الحاسوبية، أشار يو يانغ، مؤسس شركة Luchen Technology، في مقابلة مع AI Technology Review، إلى أن "DeepSeek قد يُضعف مؤقتًا إنشاء وتأجير مجموعات حوسبة تدريبية فائقة الحجم. على المدى الطويل، من المرجح أن يرتفع الطلب في السوق بشكل كبير من خلال خفض التكاليف المرتبطة بتدريب النماذج الكبيرة، والاستدلال، والتطبيقات. وبالتالي، ستؤدي الإصدارات اللاحقة من الذكاء الاصطناعي القائمة على هذا إلى استمرار الطلب المستدام في سوق الطاقة الحاسوبية". بالإضافة إلى ذلك، "يتوافق الطلب المتزايد من DeepSeek على خدمات الاستدلال والضبط الدقيق بشكل أكبر مع المشهد الحاسوبي المحلي، حيث تكون القدرات المحلية ضعيفة نسبيًا، مما يُساعد على الحد من هدر الموارد الخاملة بعد إنشاء المجموعة؛ وهذا يُتيح فرصًا واعدة للمُصنّعين على مختلف مستويات النظام البيئي الحاسوبي المحلي". تعاونت شركة Luchen Technology مع Huawei Cloud لإطلاق سلسلة DeepSeek R1 من واجهات برمجة التطبيقات الاستدلالية وخدمات التصوير السحابي القائمة على قدرات الحوسبة المحلية. وأعرب يو يانغ عن تفاؤله بالمستقبل قائلاً: "تُعزز DeepSeek الثقة بالحلول المُنتجة محليًا، مما يُشجع على مزيد من الحماس والاستثمار في القدرات الحاسوبية المحلية مستقبلًا".

微信图片_20240614024031.jpg1

خاتمة

يعتمد تفوّق DeepSeek على ChatGPT على احتياجات المستخدم وأهدافه الخاصة. قد يكون DeepSeek أفضل للمهام التي تتطلب مرونةً وتكلفةً منخفضةً وإمكانية تخصيص. أما في الكتابة الإبداعية، والاستفسارات العامة، وواجهات المحادثة سهلة الاستخدام، فقد يكون ChatGPT الخيار الأمثل. لكل أداة غرضها الخاص، لذا يعتمد الاختيار بشكل كبير على سياق استخدامها.

ابحث عن حل كابل ELV

كابلات التحكم

لكابلات BMS وBUS والصناعية والأجهزة.

نظام الكابلات الهيكلية

الشبكة والبيانات، كابل الألياف الضوئية، سلك التوصيل، الوحدات، اللوحة الأمامية

مراجعة المعارض والفعاليات لعام 2024

16-18 أبريل 2024، معرض الشرق الأوسط للطاقة في دبي

16-18 أبريل 2024 سيكوريكا في موسكو

9 مايو 2024، إطلاق منتجات وتقنيات جديدة في شنغهاي

22-25 أكتوبر 2024 الأمن الصين في بكين

19-20 نوفمبر 2024، عالم متصل، المملكة العربية السعودية


وقت النشر: ١٠ فبراير ٢٠٢٥