استخدم ** الإرشادات التي تم إنشاؤها بواسطة AI ** لضبط نموذج الألبكة الكبير ، وتتجاوز القدرة الحسابية ChatGPT——
أحدث نموذج مفتوح المصدر من Microsoft ** WizardMath ** متوفر هنا.
كما هو موضح في الشكل أدناه ، بعد اختباره على مجموعة بيانات GSM8k ، هزمت قدرة WizardMath الرياضية بشكل مباشر العديد من الطرز الكبيرة مثل ChatGPT و Claude Instant 1 و PaLM 2-540B——
وهذا بشرط أن تكون المعلمات الرئيسية 70 مليار فقط ، وهو أقل بكثير من الثلاثة الأخيرة.
أطلقت HuggingFace 3 ** إصدارات قابلة للتشغيل عبر الإنترنت ** (المعلمات 7B و 13B و 70B على التوالي) ، ويمكن طرح العديد من المشكلات الرياضية للتجربة.
على سبيل المثال ، حل المعادلة متعددة الحدود الرباعية التالية:
أو حساب بسيط:
أو اشتقاق معادلة لاجرانج معدلة قليلاً:
كل هذا صحيح (ولا يجب أن تنتظر العملية وقتًا طويلاً).
قال بعض مستخدمي الإنترنت للكاتب:
التأثير مذهل حقًا ، شكرًا لك على مساهمتك في LLM مفتوح المصدر.
في الوقت الحالي ، تعد الرموز ذات الصلة وطرق الاستنساخ والأوراق البحثية مفتوحة المصدر أو عبر الإنترنت ، وقد تلقت GitHub ** 4.8 ألف نجمة ** في غضون أيام قليلة.
إذن ، كيف بالضبط يفعل WizardMath ذلك؟
تعزيز إمكانيات النموذج الكبير بتعليمات مُنشأة بواسطة الذكاء الاصطناعي
تمكنت نماذج OpenAI الكبيرة (InstructGPT و GPT-4 وما إلى ذلك) من أداء مجموعة متنوعة من المهام المعقدة والمتنوعة بنجاح كبير ، ويرجع ذلك جزئيًا إلى الضبط الدقيق باستخدام بيانات تعليمات المجال المفتوح التي تم إنشاؤها بواسطة مستخدمين بشريين حقيقيين.
ومع ذلك ، لا يمكن للجميع الوصول إلى مجموعات بيانات الأوامر مثل هذه الشركة.
أحدهما لأن عملية التعليق التوضيحي بأكملها مكلفة للغاية وتستغرق وقتًا طويلاً ، والآخر هو أنه من الصعب على البشر إنشاء نسبة كافية من التعليمات الصعبة.
لذلك ، أصبح تطوير طريقة إنتاج تلقائية لتعليمات المجال المفتوح منخفضة التكلفة نسبيًا وواسعة النطاق هو المفتاح لنموذج لغة ضبط التعليمات الحالي.
هنا ، يسمي المؤلفون طريقتهم ** Evol Instruction **.
إنها طريقة جديدة لاستخدام الذكاء الاصطناعي لتحل محل البشر لتوليد تعليمات المجال المفتوح تلقائيًا والتي تغطي مستويات صعوبة مختلفة.
على وجه التحديد ، ينقسم تعليم Evol إلى ** مطور التعليمات ومزيل التعليمات **.
من بينها ، يمكن للتعليمات المطورة ترقية التعليمات البسيطة إلى تعليمات أكثر تعقيدًا أو إنشاء تعليمات جديدة من خلال مسارين للتطور العميق (الخط الأزرق) أو التطور الشامل (الخط الأحمر).
أي واحد يجب تنفيذه؟ فقط اختر عشوائيا.
من بينها ، يتم إكمال "طريقة التطور" المحددة للتطور المتعمق من خلال خمسة أنواع من العمليات ، بما في ذلك:
نظرًا لأن جميع التعليمات يتم تنفيذها بواسطة AI ، فإن الأخطاء في بعض الأحيان لا مفر منها. لذلك ، يتم استخدام مزيل التعليمات لتصفية التعليمات الفاشلة.
فيما يلي مثال ملموس لطريقة تبدأ بـ "1 + 1 =؟" وتنتهي تلقائيًا بإنشاء عدد غير قليل من الإرشادات الجديدة من خلال الخطوات المذكورة أعلاه.
من خلال تكرار عملية التوليد هذه ، يمكننا أخيرًا الحصول على تعليمات كافية ، ثم دمجها ودمجها عشوائيًا لتشكيل مجموعة تعليمات بمستوى صعوبة ** توزيع موحد ** ، ومن ثم يمكننا ضبط النموذج الأساسي الكبير.
هنا ، يختار المؤلف بيانات تدريب Alpaca (التي تم إنشاؤها بواسطة 175 فقط من تعليمات البذور التي تم إنشاؤها بشكل مصطنع) كمجموعة بيانات أولية ، ثم يستخدم واجهة برمجة تطبيقات ChatGPT لأداء أربع دورات تطور ، وفي النهاية يحصل على 250000 تعليمات.
من أجل إجراء مقارنة عادلة مع بيانات المستخدم الحقيقي لـ Vicuna's 70 ألف (ShareGPT) ، استخرج المؤلف كمية متساوية من العينات من 250.000 قطعة من البيانات ، ودرب نموذج LLaMA 7B ، وحصل أخيرًا على WizardLM. كان WizardLM أفضل بكثير من Vicuna.
(الألبكة: نموذج دقيق من ستانفورد يعتمد على LLaMa-7B ؛ تم ضبط Vicuna ، جامعة كاليفورنيا في بيركلي على أساس LLaMa-13B)
بالإضافة إلى ذلك ، يفضل البشر إخراج WizardLM على ChatGPT بموجب تعليمات اختبار أكثر تعقيدًا ، مما يشير إلى أن هذه الطريقة يمكن أن تحسن بشكل كبير من قدرة LLM على التعامل مع التعليمات المعقدة.
بناءً على ذلك ، استخدم المؤلف تعليمات Evol لتوليد العديد من الإرشادات المتعلقة بمجال الرياضيات ، ثم صقل نموذج الألبكة الكبير للحصول على ** WizardMath **.
يظهر تأثيرها كما هو موضح في البداية. تُقاس قدرتها الرياضية على مجموعة بيانات GSM8k ، متجاوزة العديد من الطرز الكبيرة بما في ذلك ChatGPT ، و Claude Instant 1 ، و PaLM 2-540B ، وما إلى ذلك ، وتحتل المرتبة الخامسة ، والثانية بعد GPT-4 و Claud1 .3 و 2.0 ، وبعد Flan-PaLM 2 مع 540 مليار معلمة.
عن طريق القياس ، حصل المؤلف أيضًا على ** WizardCoder ** ، المتخصصة في إمكانيات الترميز على الألبكة ، والتأثير يفوق كلود وبارد (لمزيد من التفاصيل ، يرجى النقر فوق العنوان في نهاية المقالة).
** مقدمة الفريق **
يوجد 9 مؤلفين في هذا المقال ، جميعهم صينيون.
هناك 3 أحرف في عمل واحد:
** Can Xu ** ، كبير علماء التطبيقات في مجموعة S + D NLP التابعة لأكاديمية Microsoft Asia Internet Engineering Academy ، عمل سابقًا على نظام روبوت الدردشة في مجموعة أبحاث Microsoft Xiaobing ومعهد Microsoft Asia Research Institute ؛
** Qingfeng Sun ** ، عالم أبحاث Microsoft ، اتجاه البحث هو معالجة اللغة الطبيعية واسترجاع المعلومات ، بارع في بناء أنظمة بحث فعالة ، ونماذج أساسية عميقة ساهمت في Microsoft Bing و Office 365 ؛
** Kai Zheng ** ، عالم أبحاث Microsoft ، اتجاه البحث هو معالجة اللغة الطبيعية والبحث وترتيب التوصيات ، كما ساهم في النموذج العميق الأساسي لـ Microsoft Bing و Office 365.
المؤلف المقابل هو ** Jiang Daxin ** ، الشريك العالمي ونائب رئيس Microsoft ، وكبير العلماء السابق لـ Microsoft Research Asia. وقد عمل في Microsoft لأكثر من 16 عامًا وكان المسؤول عن فهم اللغة الطبيعية لمايكروسوفت محرك بحث Bing ومساعد ذكي Cortana. تم الكشف عن أنه ترك وظيفته وكرس نفسه لبدء عمل نموذجي واسع النطاق.
مؤلف آخر ، Jiazhan Feng ، طالب بجامعة بكين ، وقد تم إنتاج هذه الورقة البحثية المشتركة أثناء فترة تدريبه في Microsoft.
الصفحة الرئيسية للمشروع:
عنوان الورق:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
قدرة الرياضيات تتجاوز ChatGPT ، نموذج كبير مفتوح المصدر 70B مشتعل: صقل الذكاء الاصطناعي باستخدام الذكاء الاصطناعي ، من إنتاج Microsoft All-China Class
المصدر: Qubit (ID: QbitAI) المؤلف: Feng Se
استخدم ** الإرشادات التي تم إنشاؤها بواسطة AI ** لضبط نموذج الألبكة الكبير ، وتتجاوز القدرة الحسابية ChatGPT——
أحدث نموذج مفتوح المصدر من Microsoft ** WizardMath ** متوفر هنا.
وهذا بشرط أن تكون المعلمات الرئيسية 70 مليار فقط ، وهو أقل بكثير من الثلاثة الأخيرة.
على سبيل المثال ، حل المعادلة متعددة الحدود الرباعية التالية:
قال بعض مستخدمي الإنترنت للكاتب:
تعزيز إمكانيات النموذج الكبير بتعليمات مُنشأة بواسطة الذكاء الاصطناعي
تمكنت نماذج OpenAI الكبيرة (InstructGPT و GPT-4 وما إلى ذلك) من أداء مجموعة متنوعة من المهام المعقدة والمتنوعة بنجاح كبير ، ويرجع ذلك جزئيًا إلى الضبط الدقيق باستخدام بيانات تعليمات المجال المفتوح التي تم إنشاؤها بواسطة مستخدمين بشريين حقيقيين.
ومع ذلك ، لا يمكن للجميع الوصول إلى مجموعات بيانات الأوامر مثل هذه الشركة.
أحدهما لأن عملية التعليق التوضيحي بأكملها مكلفة للغاية وتستغرق وقتًا طويلاً ، والآخر هو أنه من الصعب على البشر إنشاء نسبة كافية من التعليمات الصعبة.
لذلك ، أصبح تطوير طريقة إنتاج تلقائية لتعليمات المجال المفتوح منخفضة التكلفة نسبيًا وواسعة النطاق هو المفتاح لنموذج لغة ضبط التعليمات الحالي.
هنا ، يسمي المؤلفون طريقتهم ** Evol Instruction **.
إنها طريقة جديدة لاستخدام الذكاء الاصطناعي لتحل محل البشر لتوليد تعليمات المجال المفتوح تلقائيًا والتي تغطي مستويات صعوبة مختلفة.
على وجه التحديد ، ينقسم تعليم Evol إلى ** مطور التعليمات ومزيل التعليمات **.
من بينها ، يمكن للتعليمات المطورة ترقية التعليمات البسيطة إلى تعليمات أكثر تعقيدًا أو إنشاء تعليمات جديدة من خلال مسارين للتطور العميق (الخط الأزرق) أو التطور الشامل (الخط الأحمر).
أي واحد يجب تنفيذه؟ فقط اختر عشوائيا.
أضف القيود ، والتعميق ، والخرسانة ، وزيادة خطوات التفكير ، وتعقيد المدخلات.
نظرًا لأن جميع التعليمات يتم تنفيذها بواسطة AI ، فإن الأخطاء في بعض الأحيان لا مفر منها. لذلك ، يتم استخدام مزيل التعليمات لتصفية التعليمات الفاشلة.
فيما يلي مثال ملموس لطريقة تبدأ بـ "1 + 1 =؟" وتنتهي تلقائيًا بإنشاء عدد غير قليل من الإرشادات الجديدة من خلال الخطوات المذكورة أعلاه.
هنا ، يختار المؤلف بيانات تدريب Alpaca (التي تم إنشاؤها بواسطة 175 فقط من تعليمات البذور التي تم إنشاؤها بشكل مصطنع) كمجموعة بيانات أولية ، ثم يستخدم واجهة برمجة تطبيقات ChatGPT لأداء أربع دورات تطور ، وفي النهاية يحصل على 250000 تعليمات.
من أجل إجراء مقارنة عادلة مع بيانات المستخدم الحقيقي لـ Vicuna's 70 ألف (ShareGPT) ، استخرج المؤلف كمية متساوية من العينات من 250.000 قطعة من البيانات ، ودرب نموذج LLaMA 7B ، وحصل أخيرًا على WizardLM. كان WizardLM أفضل بكثير من Vicuna.
(الألبكة: نموذج دقيق من ستانفورد يعتمد على LLaMa-7B ؛ تم ضبط Vicuna ، جامعة كاليفورنيا في بيركلي على أساس LLaMa-13B)
بالإضافة إلى ذلك ، يفضل البشر إخراج WizardLM على ChatGPT بموجب تعليمات اختبار أكثر تعقيدًا ، مما يشير إلى أن هذه الطريقة يمكن أن تحسن بشكل كبير من قدرة LLM على التعامل مع التعليمات المعقدة.
بناءً على ذلك ، استخدم المؤلف تعليمات Evol لتوليد العديد من الإرشادات المتعلقة بمجال الرياضيات ، ثم صقل نموذج الألبكة الكبير للحصول على ** WizardMath **.
يظهر تأثيرها كما هو موضح في البداية. تُقاس قدرتها الرياضية على مجموعة بيانات GSM8k ، متجاوزة العديد من الطرز الكبيرة بما في ذلك ChatGPT ، و Claude Instant 1 ، و PaLM 2-540B ، وما إلى ذلك ، وتحتل المرتبة الخامسة ، والثانية بعد GPT-4 و Claud1 .3 و 2.0 ، وبعد Flan-PaLM 2 مع 540 مليار معلمة.
عن طريق القياس ، حصل المؤلف أيضًا على ** WizardCoder ** ، المتخصصة في إمكانيات الترميز على الألبكة ، والتأثير يفوق كلود وبارد (لمزيد من التفاصيل ، يرجى النقر فوق العنوان في نهاية المقالة).
** مقدمة الفريق **
يوجد 9 مؤلفين في هذا المقال ، جميعهم صينيون.
هناك 3 أحرف في عمل واحد:
** Can Xu ** ، كبير علماء التطبيقات في مجموعة S + D NLP التابعة لأكاديمية Microsoft Asia Internet Engineering Academy ، عمل سابقًا على نظام روبوت الدردشة في مجموعة أبحاث Microsoft Xiaobing ومعهد Microsoft Asia Research Institute ؛
** Qingfeng Sun ** ، عالم أبحاث Microsoft ، اتجاه البحث هو معالجة اللغة الطبيعية واسترجاع المعلومات ، بارع في بناء أنظمة بحث فعالة ، ونماذج أساسية عميقة ساهمت في Microsoft Bing و Office 365 ؛
** Kai Zheng ** ، عالم أبحاث Microsoft ، اتجاه البحث هو معالجة اللغة الطبيعية والبحث وترتيب التوصيات ، كما ساهم في النموذج العميق الأساسي لـ Microsoft Bing و Office 365.
مؤلف آخر ، Jiazhan Feng ، طالب بجامعة بكين ، وقد تم إنتاج هذه الورقة البحثية المشتركة أثناء فترة تدريبه في Microsoft.
الصفحة الرئيسية للمشروع:
عنوان الورق: