المعركة بين النماذج الكبيرة المحلية للأغراض العامة لم تنته بعد. بعد فترة خمول حوالي نصف عام ، ظهر معظم اللاعبين.
من بين هؤلاء ، يقوم شخص ما بتسريع التكرار. في 8 أغسطس ، أصدرت شركة Baichuan Intelligent ، التي أسسها Wang Xiaochuan ، مؤسس Sogou Search ، منتجها النموذجي الثالث واسع النطاق Baichuan-53B ، مع 53 مليار معلمة تدريب. في هذا الوقت ، مرت 4 أشهر فقط منذ أن أعلن Wang Xiaochuan دخوله إلى ساحة المعركة النموذجية واسعة النطاق ، وكانت الشركة الناشئة تحقق تقدمًا سريعًا.
هذه ليست سوى البداية ، فقد كشفت شركة Baichuan Intelligent لـ Times Finance أنه سيكون هناك عدد من المنتجات التي سيتم إصدارها في المستقبل ، بما في ذلك النماذج واسعة النطاق ذات المعلمات التي تتجاوز 100 مليار.
كانت هناك أيضا مخارج قاتمة. أسسها Wang Huiwen ، المؤسس المشارك لشركة Meituan ، وقد اجتذبت مؤسسات رأس المال الاستثماري المعروفة مثل Source Code Capital و Wuyuan Capital ، بالإضافة إلى الاستثمار من عمالقة الإنترنت مثل Wang Xing ، مؤسس Meituan ، و Su Hua ، مؤسس Kuaishou. كان يعتبرها السوق ذات مرة واحدة من أقوى اللاعبين في ساحة المعركة المحلية ذات النطاق الواسع.
ومع ذلك ، نظرًا لاستقالة Wang Huiwen بسبب مشاكل صحية في أواخر يونيو ولم يكن قادرًا على الاستمرار في تولي المسؤولية لسنوات ضوئية ، كان على هذه الشركة الناشئة واسعة النطاق المرتقبة أن تبيع نفسها لشركة Meituan ، كما قامت مجموعة من المستثمرين بسحب أموالهم. تشارك.
وجد آخرون طريقة أخرى. تؤكد Lanzhou Technology ، التي أسسها خبير الذكاء الاصطناعي Zhou Ming ، على النماذج خفيفة الوزن وتأمل في حل مشاكل مشهد الجانب B بتكلفة أقل. لقد أنشأت You Yang ، الأستاذ الشاب الذي ساعد Google في تقليل وقت تدريب نموذج BERT من 3 أيام إلى 76 دقيقة ، Luchen Technology ، في محاولة لاختراق حل منخفض التكلفة لتدريب النماذج الكبيرة.
وعلى النقيض من ذلك ، فقد طال انتظار النماذج الكبيرة الحجم التي طورتها الشركات المصنعة الكبرى. لم يكن حتى بداية شهر أغسطس أن ظهر نموذج Hunyuan الكبير الذي طورته Tencent ذاتيًا ومنتج Byte's AI الحواري من أخبار الاختبار الداخلية ، ولا يزال وقت الإطلاق المحدد غير معروف.
ولا تزال أيضًا في مرحلة الاختبار ، هناك أيضًا مؤسسة AI 2.0 "01Wanwu" التي أسسها Kai-Fu Lee. في اجتماع الصرف الأجنبي الذي عقد في 3 يوليو ، كشف Kai-fu Lee أن الشركة قد حققت اختبارًا داخليًا للنموذج بمقياس 10 مليار معلمة في غضون ثلاثة أشهر ، وتتوسع حاليًا إلى مقياس من 30 مليار إلى 70 مليار معلمة. . ومع ذلك ، لم يتم فتح المنتج في السوق بعد.
يجدر بنا التطلع إلى نوع التغييرات التي ستجلبها منتجات النماذج واسعة النطاق التي لم يتم إصدارها إلى صناعة التكنولوجيا. من هذا المنظور ، قد يستمر هذا الشجار لفترة طويلة.
** هجوم وانغ شياوتشوان **
تجذب Baichuan Intelligent ، التي أسسها Wang Xiaochuan ، انتباه السوق من خلال سرعة إطلاق المنتج المذهلة.
بعد الإعلان في أبريل عن أنه سينتهي الأمر ببناء نموذج واسع النطاق ، استغرق الأمر شهرين وخمسة أيام فقط لإطلاق نموذج Baichuan-7B مفتوح المصدر واسع النطاق المكون من 7 مليارات متغير في 15 يونيو. في أقل من شهر ، تم إصدار 13 مليار معلمة أخرى من طراز كبير مفتوح المصدر Baichuan-13B.
يعد Baichuan-53B الذي تم إصداره في 8 أغسطس بالفعل المنتج الثالث الذي تم طرحه من قبل هذه الشركة الناشئة النموذجية واسعة النطاق في غضون نصف عام ، وتحقق Baichuan Intelligent تقدمًا سريعًا.
رد الشخص المسؤول عن Baichuan Intelligence على Times Finance أن الشركة قد أمضت بالفعل الكثير من الوقت في الاستعدادات الأولية قبل إنشائها ، وفكرت بوضوح في المسار والطريقة منذ البداية.
وأشار إلى أنه سيتم النظر في ثلاثة مستويات عند عمل نموذج كبير: البيانات والخوارزمية وقوة الحوسبة. بغض النظر عن قوة الحوسبة ، تتمتع شركات البحث بشكل طبيعي بقدرات بيانات ممتازة.لقد كان الفريق الأساسي لشركة Baichuan Intelligence يقوم بالتقاط البيانات واستخراجها وتنظيفها وإلغاء تكرارها ومكافحة البريد العشوائي والعمليات الأخرى لمدة 20 عامًا ، والتي يمكنها الحصول على البيانات بشكل أسرع. مجموعات بيانات الجودة.
تتمحور الخوارزمية حول معالجة اللغة الطبيعية ، ويتم تكرار هندسة الخوارزمية ، وهي ليست مشكلة هندسية واحدة ، ولكنها مدفوعة ببيانات نصية ، وتعمل الخوارزمية والهندسة معًا. يمكن أن تلعب الخبرة السابقة في البحث أيضًا دورًا جيدًا هنا ، وذلك باستخدام تقييم البيانات لدفع تحسين النموذج.
"مع سنوات من التكنولوجيا والخبرة المتراكمة ، يمكن لشركة Baichuan Intelligent أن تصنع منتجات نموذجية كبيرة الحجم بسرعة وبشكل جيد."
ومع ذلك ، في المؤتمر الصحفي ، أشار وانغ شياو تشوان أيضًا إلى أن النموذج الكبير المحلي للأغراض العامة لا يزال في مرحلة التصنيف والاستنساخ. جميع المصنّعين يقيسون أساسًا مقارنة بـ OpenAI ، وستظهر مشكلة التجانس حتمًا.
لهذا السبب ، في رأيه ، على عكس الموقف الذي تم فيه إصلاح النمط الرئيسي للنموذج واسع النطاق للمصدر المغلق في الولايات المتحدة ، لا يوجد استنتاج حول "نموذجها الواسع النطاق هو الأفضل في الصين" . في هذا المشاجرة ، المال مهم ، لكن في النهاية يكون الناس والفريق والمنظمة هم من يتخذون القرار. تمتلك الشركات الكبيرة المزيد من المال ، والمزيد من الأشخاص ، والمزيد من القوة الحاسوبية ، لكن كفاءتها التنظيمية ليست بالضرورة جيدة بما يكفي في العادة ، وقد تكون الكفاءة التنظيمية للشركات الناشئة جيدة وقد لا تكون كذلك.
"الكل يقاتل من أجل الفرص ، ولا يقعون بالضرورة في المصانع الكبرى."
تحدث وانغ شياوتشوان أيضًا عن خروج وانغ هوي ون في المقابلة. وأشارت إلى أن Wang Huiwen هو الوحيد من بين العديد من النماذج واسعة النطاق السائدة في الصين الذي لا يتمتع بخلفية تقنية قوية ، والتحدي الذي يواجهه أكبر من الشركات الأخرى. هناك الكثير من القرارات الفنية التي يجب اتخاذها في العمل ، مثل من يجب تجنيده ، وما هي خارطة الطريق التقنية التي يجب اتخاذها ، ومقدار موارد الحوسبة المطلوبة ، وستواجه بالتأكيد الكثير من ضغوط اتخاذ القرار.
"ليس الأمر أن صنع نموذج كبير أمر مرهق ، إنه يوجد الكثير من الضغط لاتخاذ قرارات بدون خلفية فنية. ولكن إذا كانت التكنولوجيا كافية ، فهي في الواقع ممتعة للغاية."
** Tencent، Byte طال انتظاره **
في بداية المشاجرة للنماذج واسعة النطاق ، كان عمالقة الإنترنت يعتبرون منافسين أقوياء لأن لديهم المزيد من القوة الحاسوبية والمواهب والأموال والبيانات.
تم إطلاق Wenxin Yiyan المطورة ذاتيًا من Baidu لأول مرة في نهاية مارس من هذا العام ؛ تبعها Tongyi Qianwen من علي بابا عن كثب وتم الإعلان عنها في قمة Alibaba Cloud التي عقدت في 11 أبريل. قبل يوم واحد فقط من إطلاق علي لـ Tongyi Qianwen ، أعلن Wang Xiaochuan للتو عن نهايته وأنشأ Baichuan Intelligent.
في المقابل ، تعد Tencent و Byte ، وهما مصنعان من الدرجة الأولى ، أبطأ بكثير في إطلاق النماذج الكبيرة للأغراض العامة.
في 3 أغسطس ، وفقًا لتقارير 36kr ، دخل "Tencent Hunyuan Large Model" المطور ذاتيًا من Tencent مرحلة الاختبار الداخلي للتطبيق. بعد ثلاثة أيام ، في 6 أغسطس ، تم الكشف أيضًا عن منتج Byte's AI الحواري Grace. بعد شهرين من البحث والتطوير ، دخل أخيرًا مرحلة الاختبار.
في هذا الوقت ، مرت 4 أشهر منذ أن أطلق بايدو سراح Wenxin Yiyan. فيما يتعلق بالسبب الذي يجعل منتجات النماذج واسعة النطاق للأغراض العامة من Tencent أبطأ ، صرح Ma Huateng ذات مرة علنًا: "تنغمس Tencent أيضًا في البحث والتطوير ، ولكنها ليست في عجلة من أمرها لإنهائها مبكرًا وإظهار المنتجات شبه المصنعة . "
ومع ذلك ، فإن Tencent ، التي "ليست في عجلة من أمرها" ، أخذت زمام المبادرة في الإعلان عن مسار "نموذج الصناعة الكبيرة" في منتصف يونيو من هذا العام ، حيث طرحت أكثر من 50 حلاً لـ 10 صناعات رئيسية دفعة واحدة. من قبيل الصدفة ، أطلقت ByteDance أيضًا منصة الخدمة النموذجية واسعة النطاق "Volcano Ark" في يونيو ، والتي تزود المؤسسات بمجموعة كاملة من خدمات النظام الأساسي من خلال دمج النماذج واسعة النطاق للعديد من شركات تكنولوجيا الذكاء الاصطناعي ومعاهد البحث العلمي.
اعتقد السوق ذات مرة أن نموذج الصناعة واسع النطاق سيصبح طريقة لهاتين المصنعين الرئيسيين لاختراقهما.
لكن ربما هذه ليست المشكلة. هناك دائمًا خطر الاستعاضة عن نموذج الصناعة الكبير الذي تتم الدعوة إليه حاليًا. أشار Wu Xiaoru ، رئيس HKUST Xunfei ، ذات مرة إلى Times Finance أنه قبل 10 سنوات ، في تكنولوجيا التعرف على الكلام ، كان هناك العديد من النماذج الخاصة التي تركز على سيناريوهات مختلفة مثل الاتصال ، والقيادة ، والعمل المكتبي.
"أعتقد أن العارضين الكبار يمرون بنفس المرحلة."
في المقابل ، من منظور طويل الأجل ، يمثل النموذج الكبير للأغراض العامة حقًا فرصة كبيرة على مستوى النظام الأساسي أو فرصة معطلة. ولهذا السبب بالتحديد ، لا يمكن لـ Tencent ولا Byte السماح لأنفسهم بالتفويت ، حتى لو كان التقدم بطيئًا ، يجب عليهم الإصرار على التواجد.
أشار بعض المطلعين في Tencent إلى Times Finance أن خطة Tencent كانت دائمًا تسير على قدمين ، وأن جنرال موتورز والصناعة يسيران جنبًا إلى جنب. هذا فقط بالمقارنة مع بعض الشركات المصنعة المتطرفة ، فإن Tencent ، التي تغطي منتجاتها الشبكات الاجتماعية والألعاب والإعلان وإنشاء المحتوى وغيرها من المجالات ، تعتبر أكثر حذراً.
** رجال الأعمال الأكاديميون يجدون طريقة أخرى **
في ساحة المعركة النموذجية واسعة النطاق ، تشكل الشركات الأكاديمية الناشئة من الجامعات والمؤسسات البحثية القطب الثالث للمنافسة.
إنهم ليسوا لاعبين مصنفين مثل Wang Xiaochuan و Wang Huiwen. في بداية عملهم ، يمكنهم جذب مئات الملايين من الدولارات في الاستثمار بفضل علاقاتهم ، واستخدام هذا للبدء بسرعة. كما أنها ليست مثل الشركات الكبرى مثل Tencent و Ali و Baidu ، التي تتمتع بمزايا لا يمكن التغلب عليها في قوة الحوسبة والمواهب ورأس المال.
لكن بالاعتماد على فهمهم المتعمق لتكنولوجيا الذكاء الاصطناعي ، لا يزال بإمكان رواد الأعمال هؤلاء العثور على اتجاهات تطوير جديدة تحت الهجوم.
على سبيل المثال ، تختلف Lanzhou Technology ، التي أسسها Zhou Ming ، نائب الرئيس السابق لمعهد Microsoft Asia Research ، عن المنتجات النموذجية واسعة النطاق في السوق التي تتبع مئات المليارات أو حتى تريليونات من المعلمات. كان هذا الشخص يدرس البرمجة اللغوية العصبية (معالجة اللغة الطبيعية) منذ عام 1980. يأمل خبير الذكاء الاصطناعي الصيني في حل مشكلة سيناريوهات الجانب B بنموذج خفيف الوزن.
استخدم نموذج Mencius الكبير الذي أطلقته ذات مرة مليار معلمة لتحديث قائمة CLUE لمعيار التقييم الموثوق لفهم اللغة الصينية ، والتي كانت تهيمن عليها سابقًا النماذج ذات المعلمات من 10 مليار و 100 مليار مستوى.
هذا قرار عملي. من أجل أمن البيانات ، لن تقوم معظم الشركات بتحميل البيانات ، ولكنها تتطلب نشرًا محليًا ، مما سيزيد التكلفة بشكل كبير. في مقابلة مع وسائل الإعلام ، أشار Zhou Ming إلى أنه حتى لو كان مجرد نشر محلي للاستدلال ، باستخدام نموذج كبير مدرب جيدًا ، فإن نموذجًا كبيرًا يحتوي على 100 مليار معلمة لا يزال بحاجة إلى 8 إلى 16 A100 ، وهو واحد على الأقل أو مليوني يوان في الاستثمار ، "بالنسبة للعديد من السيناريوهات ، يجب أن يكون العملاء رخيصين وبأسعار معقولة."
تأمل Luchen Technology ، التي أسسها الأستاذ الشاب You Yang ، رئيس جامعة سنغافورة الوطنية ، في استخدام تقنية الخوارزمية لتقليل تكلفة استدعاء النماذج الكبيرة.
في الوقت الحاضر ، سواء كان مصنعًا كبيرًا أو شركة ناشئة ، يجب أن يواجه مشكلة أن اتجاه التجانس للنماذج المحلية واسعة النطاق أصبح أكثر وضوحًا. إذا لم يتم حل هذه المشكلة ، فمن المحتمل أن تقع النماذج الكبيرة في المستقبل في مأزق الهامش المنخفض الذي يواجهه موفرو الخدمات السحابية اليوم.
أخبرت يانغ تايمز فاينانس أن هذا يرجع إلى أن تكلفة التكرار لقاعدة التكنولوجيا الأساسية مرتفعة للغاية. استخدم GPT كمثال. تكلفة تدريب OpenAI تصل إلى 60 مليون دولار أمريكي في كل مرة. تحتاج إلى التدريب كل ثلاثة أو أربعة أشهر ، وتحتاج إلى أربعة أو خمسة تدريبات لتكرار واحد. على هذا الأساس ، قد يكلف كل تكرار للمؤسسة الفنية 200 مليون إلى 300 مليون دولار أمريكي.
تؤدي التكاليف الباهظة إلى ندرة القواعد التكنولوجية في السوق. بشكل أساسي فقط GPT و LLAMA و GLM المحلي. تقوم جميع الشركات المصنعة بتقليد هذه النماذج الكبيرة بشكل أساسي لتصنيع المنتجات ، مما تسبب في ظهور مشكلة التجانس بشكل أكبر.
لقد قامت You Yang ، التي كانت تدرس الحوسبة عالية الأداء لفترة طويلة ، بتأسيس Luchen Technology. يمكن لنظام المصدر المفتوح Colossal-AI الذي أطلقته الشركة حاليًا أن يقلل بشكل كبير من تكاليف التطوير والتطبيق لتدريب نموذج كبير للذكاء الاصطناعي ، والضبط الدقيق والاستدلال من خلال تقنيات مثل التوازي الفعال متعدد الأبعاد والذاكرة غير المتجانسة.
تعتقد You Yang أنه فقط عندما تنخفض تكلفة تدريب النموذج واسع النطاق بسرعة ، أو عندما يتم اعتماد تقنيات تحسين أفضل للتحكم في المعلمات عند حوالي 20 مليار ، ولا تزال تحقق نفس التأثير مثل 100 مليار معلمة ، فإن النماذج واسعة النطاق تزدهر حقًا. في ذلك اليوم.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
نصف عام من المعركة الشرسة للنماذج الكبيرة ، تأخرت Tencent Byte منذ فترة طويلة
المصدر الأصلي: Times Finance
المؤلف: شيه سيلين
المعركة بين النماذج الكبيرة المحلية للأغراض العامة لم تنته بعد. بعد فترة خمول حوالي نصف عام ، ظهر معظم اللاعبين.
من بين هؤلاء ، يقوم شخص ما بتسريع التكرار. في 8 أغسطس ، أصدرت شركة Baichuan Intelligent ، التي أسسها Wang Xiaochuan ، مؤسس Sogou Search ، منتجها النموذجي الثالث واسع النطاق Baichuan-53B ، مع 53 مليار معلمة تدريب. في هذا الوقت ، مرت 4 أشهر فقط منذ أن أعلن Wang Xiaochuan دخوله إلى ساحة المعركة النموذجية واسعة النطاق ، وكانت الشركة الناشئة تحقق تقدمًا سريعًا.
هذه ليست سوى البداية ، فقد كشفت شركة Baichuan Intelligent لـ Times Finance أنه سيكون هناك عدد من المنتجات التي سيتم إصدارها في المستقبل ، بما في ذلك النماذج واسعة النطاق ذات المعلمات التي تتجاوز 100 مليار.
كانت هناك أيضا مخارج قاتمة. أسسها Wang Huiwen ، المؤسس المشارك لشركة Meituan ، وقد اجتذبت مؤسسات رأس المال الاستثماري المعروفة مثل Source Code Capital و Wuyuan Capital ، بالإضافة إلى الاستثمار من عمالقة الإنترنت مثل Wang Xing ، مؤسس Meituan ، و Su Hua ، مؤسس Kuaishou. كان يعتبرها السوق ذات مرة واحدة من أقوى اللاعبين في ساحة المعركة المحلية ذات النطاق الواسع.
ومع ذلك ، نظرًا لاستقالة Wang Huiwen بسبب مشاكل صحية في أواخر يونيو ولم يكن قادرًا على الاستمرار في تولي المسؤولية لسنوات ضوئية ، كان على هذه الشركة الناشئة واسعة النطاق المرتقبة أن تبيع نفسها لشركة Meituan ، كما قامت مجموعة من المستثمرين بسحب أموالهم. تشارك.
وجد آخرون طريقة أخرى. تؤكد Lanzhou Technology ، التي أسسها خبير الذكاء الاصطناعي Zhou Ming ، على النماذج خفيفة الوزن وتأمل في حل مشاكل مشهد الجانب B بتكلفة أقل. لقد أنشأت You Yang ، الأستاذ الشاب الذي ساعد Google في تقليل وقت تدريب نموذج BERT من 3 أيام إلى 76 دقيقة ، Luchen Technology ، في محاولة لاختراق حل منخفض التكلفة لتدريب النماذج الكبيرة.
وعلى النقيض من ذلك ، فقد طال انتظار النماذج الكبيرة الحجم التي طورتها الشركات المصنعة الكبرى. لم يكن حتى بداية شهر أغسطس أن ظهر نموذج Hunyuan الكبير الذي طورته Tencent ذاتيًا ومنتج Byte's AI الحواري من أخبار الاختبار الداخلية ، ولا يزال وقت الإطلاق المحدد غير معروف.
ولا تزال أيضًا في مرحلة الاختبار ، هناك أيضًا مؤسسة AI 2.0 "01Wanwu" التي أسسها Kai-Fu Lee. في اجتماع الصرف الأجنبي الذي عقد في 3 يوليو ، كشف Kai-fu Lee أن الشركة قد حققت اختبارًا داخليًا للنموذج بمقياس 10 مليار معلمة في غضون ثلاثة أشهر ، وتتوسع حاليًا إلى مقياس من 30 مليار إلى 70 مليار معلمة. . ومع ذلك ، لم يتم فتح المنتج في السوق بعد.
يجدر بنا التطلع إلى نوع التغييرات التي ستجلبها منتجات النماذج واسعة النطاق التي لم يتم إصدارها إلى صناعة التكنولوجيا. من هذا المنظور ، قد يستمر هذا الشجار لفترة طويلة.
** هجوم وانغ شياوتشوان **
تجذب Baichuan Intelligent ، التي أسسها Wang Xiaochuan ، انتباه السوق من خلال سرعة إطلاق المنتج المذهلة.
بعد الإعلان في أبريل عن أنه سينتهي الأمر ببناء نموذج واسع النطاق ، استغرق الأمر شهرين وخمسة أيام فقط لإطلاق نموذج Baichuan-7B مفتوح المصدر واسع النطاق المكون من 7 مليارات متغير في 15 يونيو. في أقل من شهر ، تم إصدار 13 مليار معلمة أخرى من طراز كبير مفتوح المصدر Baichuan-13B.
يعد Baichuan-53B الذي تم إصداره في 8 أغسطس بالفعل المنتج الثالث الذي تم طرحه من قبل هذه الشركة الناشئة النموذجية واسعة النطاق في غضون نصف عام ، وتحقق Baichuan Intelligent تقدمًا سريعًا.
رد الشخص المسؤول عن Baichuan Intelligence على Times Finance أن الشركة قد أمضت بالفعل الكثير من الوقت في الاستعدادات الأولية قبل إنشائها ، وفكرت بوضوح في المسار والطريقة منذ البداية.
وأشار إلى أنه سيتم النظر في ثلاثة مستويات عند عمل نموذج كبير: البيانات والخوارزمية وقوة الحوسبة. بغض النظر عن قوة الحوسبة ، تتمتع شركات البحث بشكل طبيعي بقدرات بيانات ممتازة.لقد كان الفريق الأساسي لشركة Baichuan Intelligence يقوم بالتقاط البيانات واستخراجها وتنظيفها وإلغاء تكرارها ومكافحة البريد العشوائي والعمليات الأخرى لمدة 20 عامًا ، والتي يمكنها الحصول على البيانات بشكل أسرع. مجموعات بيانات الجودة.
تتمحور الخوارزمية حول معالجة اللغة الطبيعية ، ويتم تكرار هندسة الخوارزمية ، وهي ليست مشكلة هندسية واحدة ، ولكنها مدفوعة ببيانات نصية ، وتعمل الخوارزمية والهندسة معًا. يمكن أن تلعب الخبرة السابقة في البحث أيضًا دورًا جيدًا هنا ، وذلك باستخدام تقييم البيانات لدفع تحسين النموذج.
"مع سنوات من التكنولوجيا والخبرة المتراكمة ، يمكن لشركة Baichuan Intelligent أن تصنع منتجات نموذجية كبيرة الحجم بسرعة وبشكل جيد."
ومع ذلك ، في المؤتمر الصحفي ، أشار وانغ شياو تشوان أيضًا إلى أن النموذج الكبير المحلي للأغراض العامة لا يزال في مرحلة التصنيف والاستنساخ. جميع المصنّعين يقيسون أساسًا مقارنة بـ OpenAI ، وستظهر مشكلة التجانس حتمًا.
لهذا السبب ، في رأيه ، على عكس الموقف الذي تم فيه إصلاح النمط الرئيسي للنموذج واسع النطاق للمصدر المغلق في الولايات المتحدة ، لا يوجد استنتاج حول "نموذجها الواسع النطاق هو الأفضل في الصين" . في هذا المشاجرة ، المال مهم ، لكن في النهاية يكون الناس والفريق والمنظمة هم من يتخذون القرار. تمتلك الشركات الكبيرة المزيد من المال ، والمزيد من الأشخاص ، والمزيد من القوة الحاسوبية ، لكن كفاءتها التنظيمية ليست بالضرورة جيدة بما يكفي في العادة ، وقد تكون الكفاءة التنظيمية للشركات الناشئة جيدة وقد لا تكون كذلك.
"الكل يقاتل من أجل الفرص ، ولا يقعون بالضرورة في المصانع الكبرى."
تحدث وانغ شياوتشوان أيضًا عن خروج وانغ هوي ون في المقابلة. وأشارت إلى أن Wang Huiwen هو الوحيد من بين العديد من النماذج واسعة النطاق السائدة في الصين الذي لا يتمتع بخلفية تقنية قوية ، والتحدي الذي يواجهه أكبر من الشركات الأخرى. هناك الكثير من القرارات الفنية التي يجب اتخاذها في العمل ، مثل من يجب تجنيده ، وما هي خارطة الطريق التقنية التي يجب اتخاذها ، ومقدار موارد الحوسبة المطلوبة ، وستواجه بالتأكيد الكثير من ضغوط اتخاذ القرار.
"ليس الأمر أن صنع نموذج كبير أمر مرهق ، إنه يوجد الكثير من الضغط لاتخاذ قرارات بدون خلفية فنية. ولكن إذا كانت التكنولوجيا كافية ، فهي في الواقع ممتعة للغاية."
** Tencent، Byte طال انتظاره **
في بداية المشاجرة للنماذج واسعة النطاق ، كان عمالقة الإنترنت يعتبرون منافسين أقوياء لأن لديهم المزيد من القوة الحاسوبية والمواهب والأموال والبيانات.
تم إطلاق Wenxin Yiyan المطورة ذاتيًا من Baidu لأول مرة في نهاية مارس من هذا العام ؛ تبعها Tongyi Qianwen من علي بابا عن كثب وتم الإعلان عنها في قمة Alibaba Cloud التي عقدت في 11 أبريل. قبل يوم واحد فقط من إطلاق علي لـ Tongyi Qianwen ، أعلن Wang Xiaochuan للتو عن نهايته وأنشأ Baichuan Intelligent.
في المقابل ، تعد Tencent و Byte ، وهما مصنعان من الدرجة الأولى ، أبطأ بكثير في إطلاق النماذج الكبيرة للأغراض العامة.
في 3 أغسطس ، وفقًا لتقارير 36kr ، دخل "Tencent Hunyuan Large Model" المطور ذاتيًا من Tencent مرحلة الاختبار الداخلي للتطبيق. بعد ثلاثة أيام ، في 6 أغسطس ، تم الكشف أيضًا عن منتج Byte's AI الحواري Grace. بعد شهرين من البحث والتطوير ، دخل أخيرًا مرحلة الاختبار.
في هذا الوقت ، مرت 4 أشهر منذ أن أطلق بايدو سراح Wenxin Yiyan. فيما يتعلق بالسبب الذي يجعل منتجات النماذج واسعة النطاق للأغراض العامة من Tencent أبطأ ، صرح Ma Huateng ذات مرة علنًا: "تنغمس Tencent أيضًا في البحث والتطوير ، ولكنها ليست في عجلة من أمرها لإنهائها مبكرًا وإظهار المنتجات شبه المصنعة . "
ومع ذلك ، فإن Tencent ، التي "ليست في عجلة من أمرها" ، أخذت زمام المبادرة في الإعلان عن مسار "نموذج الصناعة الكبيرة" في منتصف يونيو من هذا العام ، حيث طرحت أكثر من 50 حلاً لـ 10 صناعات رئيسية دفعة واحدة. من قبيل الصدفة ، أطلقت ByteDance أيضًا منصة الخدمة النموذجية واسعة النطاق "Volcano Ark" في يونيو ، والتي تزود المؤسسات بمجموعة كاملة من خدمات النظام الأساسي من خلال دمج النماذج واسعة النطاق للعديد من شركات تكنولوجيا الذكاء الاصطناعي ومعاهد البحث العلمي.
اعتقد السوق ذات مرة أن نموذج الصناعة واسع النطاق سيصبح طريقة لهاتين المصنعين الرئيسيين لاختراقهما.
لكن ربما هذه ليست المشكلة. هناك دائمًا خطر الاستعاضة عن نموذج الصناعة الكبير الذي تتم الدعوة إليه حاليًا. أشار Wu Xiaoru ، رئيس HKUST Xunfei ، ذات مرة إلى Times Finance أنه قبل 10 سنوات ، في تكنولوجيا التعرف على الكلام ، كان هناك العديد من النماذج الخاصة التي تركز على سيناريوهات مختلفة مثل الاتصال ، والقيادة ، والعمل المكتبي.
"أعتقد أن العارضين الكبار يمرون بنفس المرحلة."
في المقابل ، من منظور طويل الأجل ، يمثل النموذج الكبير للأغراض العامة حقًا فرصة كبيرة على مستوى النظام الأساسي أو فرصة معطلة. ولهذا السبب بالتحديد ، لا يمكن لـ Tencent ولا Byte السماح لأنفسهم بالتفويت ، حتى لو كان التقدم بطيئًا ، يجب عليهم الإصرار على التواجد.
أشار بعض المطلعين في Tencent إلى Times Finance أن خطة Tencent كانت دائمًا تسير على قدمين ، وأن جنرال موتورز والصناعة يسيران جنبًا إلى جنب. هذا فقط بالمقارنة مع بعض الشركات المصنعة المتطرفة ، فإن Tencent ، التي تغطي منتجاتها الشبكات الاجتماعية والألعاب والإعلان وإنشاء المحتوى وغيرها من المجالات ، تعتبر أكثر حذراً.
** رجال الأعمال الأكاديميون يجدون طريقة أخرى **
في ساحة المعركة النموذجية واسعة النطاق ، تشكل الشركات الأكاديمية الناشئة من الجامعات والمؤسسات البحثية القطب الثالث للمنافسة.
إنهم ليسوا لاعبين مصنفين مثل Wang Xiaochuan و Wang Huiwen. في بداية عملهم ، يمكنهم جذب مئات الملايين من الدولارات في الاستثمار بفضل علاقاتهم ، واستخدام هذا للبدء بسرعة. كما أنها ليست مثل الشركات الكبرى مثل Tencent و Ali و Baidu ، التي تتمتع بمزايا لا يمكن التغلب عليها في قوة الحوسبة والمواهب ورأس المال.
لكن بالاعتماد على فهمهم المتعمق لتكنولوجيا الذكاء الاصطناعي ، لا يزال بإمكان رواد الأعمال هؤلاء العثور على اتجاهات تطوير جديدة تحت الهجوم.
على سبيل المثال ، تختلف Lanzhou Technology ، التي أسسها Zhou Ming ، نائب الرئيس السابق لمعهد Microsoft Asia Research ، عن المنتجات النموذجية واسعة النطاق في السوق التي تتبع مئات المليارات أو حتى تريليونات من المعلمات. كان هذا الشخص يدرس البرمجة اللغوية العصبية (معالجة اللغة الطبيعية) منذ عام 1980. يأمل خبير الذكاء الاصطناعي الصيني في حل مشكلة سيناريوهات الجانب B بنموذج خفيف الوزن.
استخدم نموذج Mencius الكبير الذي أطلقته ذات مرة مليار معلمة لتحديث قائمة CLUE لمعيار التقييم الموثوق لفهم اللغة الصينية ، والتي كانت تهيمن عليها سابقًا النماذج ذات المعلمات من 10 مليار و 100 مليار مستوى.
هذا قرار عملي. من أجل أمن البيانات ، لن تقوم معظم الشركات بتحميل البيانات ، ولكنها تتطلب نشرًا محليًا ، مما سيزيد التكلفة بشكل كبير. في مقابلة مع وسائل الإعلام ، أشار Zhou Ming إلى أنه حتى لو كان مجرد نشر محلي للاستدلال ، باستخدام نموذج كبير مدرب جيدًا ، فإن نموذجًا كبيرًا يحتوي على 100 مليار معلمة لا يزال بحاجة إلى 8 إلى 16 A100 ، وهو واحد على الأقل أو مليوني يوان في الاستثمار ، "بالنسبة للعديد من السيناريوهات ، يجب أن يكون العملاء رخيصين وبأسعار معقولة."
تأمل Luchen Technology ، التي أسسها الأستاذ الشاب You Yang ، رئيس جامعة سنغافورة الوطنية ، في استخدام تقنية الخوارزمية لتقليل تكلفة استدعاء النماذج الكبيرة.
في الوقت الحاضر ، سواء كان مصنعًا كبيرًا أو شركة ناشئة ، يجب أن يواجه مشكلة أن اتجاه التجانس للنماذج المحلية واسعة النطاق أصبح أكثر وضوحًا. إذا لم يتم حل هذه المشكلة ، فمن المحتمل أن تقع النماذج الكبيرة في المستقبل في مأزق الهامش المنخفض الذي يواجهه موفرو الخدمات السحابية اليوم.
أخبرت يانغ تايمز فاينانس أن هذا يرجع إلى أن تكلفة التكرار لقاعدة التكنولوجيا الأساسية مرتفعة للغاية. استخدم GPT كمثال. تكلفة تدريب OpenAI تصل إلى 60 مليون دولار أمريكي في كل مرة. تحتاج إلى التدريب كل ثلاثة أو أربعة أشهر ، وتحتاج إلى أربعة أو خمسة تدريبات لتكرار واحد. على هذا الأساس ، قد يكلف كل تكرار للمؤسسة الفنية 200 مليون إلى 300 مليون دولار أمريكي.
تؤدي التكاليف الباهظة إلى ندرة القواعد التكنولوجية في السوق. بشكل أساسي فقط GPT و LLAMA و GLM المحلي. تقوم جميع الشركات المصنعة بتقليد هذه النماذج الكبيرة بشكل أساسي لتصنيع المنتجات ، مما تسبب في ظهور مشكلة التجانس بشكل أكبر.
لقد قامت You Yang ، التي كانت تدرس الحوسبة عالية الأداء لفترة طويلة ، بتأسيس Luchen Technology. يمكن لنظام المصدر المفتوح Colossal-AI الذي أطلقته الشركة حاليًا أن يقلل بشكل كبير من تكاليف التطوير والتطبيق لتدريب نموذج كبير للذكاء الاصطناعي ، والضبط الدقيق والاستدلال من خلال تقنيات مثل التوازي الفعال متعدد الأبعاد والذاكرة غير المتجانسة.
تعتقد You Yang أنه فقط عندما تنخفض تكلفة تدريب النموذج واسع النطاق بسرعة ، أو عندما يتم اعتماد تقنيات تحسين أفضل للتحكم في المعلمات عند حوالي 20 مليار ، ولا تزال تحقق نفس التأثير مثل 100 مليار معلمة ، فإن النماذج واسعة النطاق تزدهر حقًا. في ذلك اليوم.