في 16 أغسطس ، أعلن فريق OpenAI عن استخدام جديد للذكاء الاصطناعي ، واستخدام GPT-4 لتطوير سياسة المحتوى وقرارات تعديل المحتوى ، وتمكين وضع العلامات الأكثر اتساقًا ، وحلقات التغذية الراجعة الأسرع لتنقيح السياسة ، وتقليل مشاركة المشاركين في المراجعة اليدوية.
يلعب الإشراف على المحتوى دورًا حيويًا في الحفاظ على سلامة المنصات الرقمية. وجد باحثو OpenAI أن نظام تعديل المحتوى باستخدام GPT-4 يمكن أن يكرر تغييرات السياسة بشكل أسرع ، مما يقلل من وقت الدورة من أشهر إلى ساعات.
في الوقت نفسه ، يمكن لـ GPT-4 أيضًا تفسير القواعد والفروق الدقيقة في مستندات سياسة المحتوى الطويلة والتكيف مع تحديثات السياسة على الفور ، مما ينتج عنه تسميات أكثر اتساقًا. يوفر هذا رؤية أكثر إيجابية لمستقبل المنصات الرقمية ، حيث يمكن للذكاء الاصطناعي المساعدة في تنظيم حركة المرور عبر الإنترنت وفقًا لسياسات خاصة بالمنصة وتخفيف العبء المادي والعقلي لأعداد كبيرة من المنظمين البشريين.
ما نوع المستخدم المتاح: يمكن لأي شخص لديه إمكانية الوصول إلى OpenAI API تنفيذ هذا النهج لإنشاء نظام الإشراف بمساعدة AI الخاص به.
تحديات الإشراف على المحتوى
يتطلب الإشراف على المحتوى جهدًا دقيقًا ، وحساسية ، وفهمًا عميقًا للسياق ، وتكيفًا سريعًا مع حالات الاستخدام الجديدة ، مما يجعل العملية تستغرق وقتًا طويلاً وتشكل تحديًا. تقليديا ، يقع عبء هذه المهمة على عاتق القيّمين من البشر ، الذين ، بدعم من نماذج تعلّم آلي صغيرة محددة الرأسية ، يتفحصون كميات كبيرة من المحتوى لتصفية المواد السامة والضارة. هذه العملية بطيئة بطبيعتها ويمكن أن تكون مرهقة عقليًا للبشر.
حلها باستخدام نموذج لغة كبير (LLM)
يستكشف فريق بحث OpenAI استخدام LLM لمواجهة هذه التحديات. يجادلون بأن نماذجهم اللغوية الكبيرة ، مثل GPT-4 ، يمكنها فهم اللغة الطبيعية وتوليدها ، مما يجعلها مناسبة للإشراف على المحتوى. يمكن لهذه النماذج إصدار أحكام معتدلة بناءً على إرشادات السياسة المقدمة لها.
مع النظام ، تم تقليص عملية تطوير سياسات تعديل المحتوى وتخصيصها من أشهر إلى ساعات.
بمجرد تطوير إرشادات السياسة للمراجعة ، يمكن لخبراء السياسة إنشاء مجموعة بيانات ذهبية عن طريق تحديد عدد صغير من الأمثلة وتعيين تسميات لهم وفقًا للسياسة.
ثم يقرأ GPT-4 السياسة ويعين تسمية لمجموعة البيانات نفسها ، لكنه لا يرى الإجابة.
من خلال فحص التناقضات بين أحكام GPT-4 والأحكام البشرية ، يمكن لخبراء السياسة أن يطلبوا من GPT-4 التوصل إلى الأسباب الكامنة وراء تسمياتها ، وتحليل أوجه الغموض في تعريفات السياسة ، وحل الالتباس ، وتقديم مزيد من التبصر في السياسة وفقًا للتوضيح. يمكننا تكرار الخطوتين 2 و 3 حتى نشعر بالرضا عن جودة السياسة.
تنتج هذه العملية التكرارية سياسات محتوى مصقولة يتم ترجمتها إلى مصنفات ، مما يتيح نشر السياسة وتعديل المحتوى على نطاق واسع.
بدلاً من ذلك ، لمعالجة كميات كبيرة من البيانات على نطاق واسع ، يمكننا استخدام التنبؤات من GPT-4 لضبط نموذج أصغر.
تقدم هذه الفكرة البسيطة والفعالة العديد من التحسينات على الطرق التقليدية لإدارة المحتوى:
التسميات أكثر اتساقًا. سياسات المحتوى في تطور مستمر وغالبًا ما تكون مفصلة للغاية. قد يفسر الأشخاص السياسة بشكل مختلف ، أو قد يستغرق بعض الوسطاء وقتًا أطول لاستيعاب تغييرات السياسة الجديدة ، مما يؤدي إلى وضع علامات غير متسقة. في المقابل ، LL.M. حساس للفروق الدقيقة في الصياغة ويمكن أن يتكيف على الفور مع تحديثات السياسة ، مما يوفر للمستخدمين تجربة محتوى متسقة.
حلقات تغذية مرتدة أسرع. غالبًا ما تكون دورة تحديثات السياسة - وضع سياسات جديدة ، ووضع العلامات عليها ، وجمع التعليقات البشرية - عملية طويلة وطويلة الأمد. يمكن لـ GPT-4 تقليل هذه العملية إلى بضع ساعات ، مما يتيح استجابات أسرع للمخاطر الجديدة.
تقليل العبء العقلي. يمكن أن يؤدي التعرض المستمر لمحتوى ضار أو مرفوض إلى الإرهاق العاطفي والضغط النفسي للمشرف. إن أتمتة مثل هذه المهام يفيد رفاهية المشاركين.
يوضح الرسم البياني أعلاه عملية كيفية استخدام GPT-4 لمراقبة المحتوى (من تطوير السياسة إلى الاعتدال على نطاق واسع)
على عكس الذكاء الاصطناعي الدستوري ، الذي يعتمد بشكل أساسي على الأحكام الداخلية للنموذج حول ما هو آمن وما هو غير آمن ، فإن نهج OpenAI يجعل التكرار على سياسات المحتوى الخاصة بالمنصة بشكل أسرع وبأقل جهد.
(أعلى) جودة تصنيف GPT-4 مماثلة للمراجعين البشريين المدربين تدريباً خفيفاً (المجموعة ب). ومع ذلك ، لا يزال الوسيط البشري المتمرس والمدرّب جيدًا (المجموعة أ) يتفوق على كليهما.
يستكشف فريق بحث OpenAI بنشاط مزيدًا من التحسينات على جودة تنبؤ GPT-4 ، على سبيل المثال من خلال دمج التفكير المتسلسل أو النقد الذاتي. في الوقت نفسه ، تحاول أيضًا الكشف عن طرق الخطر غير المعروفة ، وهي مستوحاة من الذكاء الاصطناعي الدستوري ، وتهدف إلى استخدام نماذج لتحديد المحتوى الضار المحتمل وتقديم وصف عالي المستوى للمحتوى الضار. ستقوم هذه النتائج بعد ذلك بإبلاغ التحديثات على سياسات المحتوى الحالية أو تطوير السياسات التي تستهدف مجالات مخاطر جديدة تمامًا.
ملاحظة: الذكاء الاصطناعي الدستوري هو آلية طورتها شركة Anthropic المنافسة ، التي أسسها أعضاء سابقون في OpenAI ، لمنتجها واسع النطاق كلود ، والذي يهدف إلى توفير نهج "قائم على المبادئ" لمواءمة أنظمة الذكاء الاصطناعي مع النوايا البشرية ، مما يسمح لـ ChatGPT تستخدم النماذج المشابهة مجموعة بسيطة من المبادئ كدليل للإجابة على الأسئلة. *
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أصدر فريق OpenAI أحدث استخدام لـ GPT-4 لإنشاء نظام مراجعة المحتوى وتقليل المشاركة اليدوية
في 16 أغسطس ، أعلن فريق OpenAI عن استخدام جديد للذكاء الاصطناعي ، واستخدام GPT-4 لتطوير سياسة المحتوى وقرارات تعديل المحتوى ، وتمكين وضع العلامات الأكثر اتساقًا ، وحلقات التغذية الراجعة الأسرع لتنقيح السياسة ، وتقليل مشاركة المشاركين في المراجعة اليدوية.
يلعب الإشراف على المحتوى دورًا حيويًا في الحفاظ على سلامة المنصات الرقمية. وجد باحثو OpenAI أن نظام تعديل المحتوى باستخدام GPT-4 يمكن أن يكرر تغييرات السياسة بشكل أسرع ، مما يقلل من وقت الدورة من أشهر إلى ساعات.
في الوقت نفسه ، يمكن لـ GPT-4 أيضًا تفسير القواعد والفروق الدقيقة في مستندات سياسة المحتوى الطويلة والتكيف مع تحديثات السياسة على الفور ، مما ينتج عنه تسميات أكثر اتساقًا. يوفر هذا رؤية أكثر إيجابية لمستقبل المنصات الرقمية ، حيث يمكن للذكاء الاصطناعي المساعدة في تنظيم حركة المرور عبر الإنترنت وفقًا لسياسات خاصة بالمنصة وتخفيف العبء المادي والعقلي لأعداد كبيرة من المنظمين البشريين.
ما نوع المستخدم المتاح: يمكن لأي شخص لديه إمكانية الوصول إلى OpenAI API تنفيذ هذا النهج لإنشاء نظام الإشراف بمساعدة AI الخاص به.
تحديات الإشراف على المحتوى
يتطلب الإشراف على المحتوى جهدًا دقيقًا ، وحساسية ، وفهمًا عميقًا للسياق ، وتكيفًا سريعًا مع حالات الاستخدام الجديدة ، مما يجعل العملية تستغرق وقتًا طويلاً وتشكل تحديًا. تقليديا ، يقع عبء هذه المهمة على عاتق القيّمين من البشر ، الذين ، بدعم من نماذج تعلّم آلي صغيرة محددة الرأسية ، يتفحصون كميات كبيرة من المحتوى لتصفية المواد السامة والضارة. هذه العملية بطيئة بطبيعتها ويمكن أن تكون مرهقة عقليًا للبشر.
حلها باستخدام نموذج لغة كبير (LLM)
يستكشف فريق بحث OpenAI استخدام LLM لمواجهة هذه التحديات. يجادلون بأن نماذجهم اللغوية الكبيرة ، مثل GPT-4 ، يمكنها فهم اللغة الطبيعية وتوليدها ، مما يجعلها مناسبة للإشراف على المحتوى. يمكن لهذه النماذج إصدار أحكام معتدلة بناءً على إرشادات السياسة المقدمة لها.
مع النظام ، تم تقليص عملية تطوير سياسات تعديل المحتوى وتخصيصها من أشهر إلى ساعات.
تنتج هذه العملية التكرارية سياسات محتوى مصقولة يتم ترجمتها إلى مصنفات ، مما يتيح نشر السياسة وتعديل المحتوى على نطاق واسع.
بدلاً من ذلك ، لمعالجة كميات كبيرة من البيانات على نطاق واسع ، يمكننا استخدام التنبؤات من GPT-4 لضبط نموذج أصغر.
تقدم هذه الفكرة البسيطة والفعالة العديد من التحسينات على الطرق التقليدية لإدارة المحتوى:
التسميات أكثر اتساقًا. سياسات المحتوى في تطور مستمر وغالبًا ما تكون مفصلة للغاية. قد يفسر الأشخاص السياسة بشكل مختلف ، أو قد يستغرق بعض الوسطاء وقتًا أطول لاستيعاب تغييرات السياسة الجديدة ، مما يؤدي إلى وضع علامات غير متسقة. في المقابل ، LL.M. حساس للفروق الدقيقة في الصياغة ويمكن أن يتكيف على الفور مع تحديثات السياسة ، مما يوفر للمستخدمين تجربة محتوى متسقة.
حلقات تغذية مرتدة أسرع. غالبًا ما تكون دورة تحديثات السياسة - وضع سياسات جديدة ، ووضع العلامات عليها ، وجمع التعليقات البشرية - عملية طويلة وطويلة الأمد. يمكن لـ GPT-4 تقليل هذه العملية إلى بضع ساعات ، مما يتيح استجابات أسرع للمخاطر الجديدة.
تقليل العبء العقلي. يمكن أن يؤدي التعرض المستمر لمحتوى ضار أو مرفوض إلى الإرهاق العاطفي والضغط النفسي للمشرف. إن أتمتة مثل هذه المهام يفيد رفاهية المشاركين.
على عكس الذكاء الاصطناعي الدستوري ، الذي يعتمد بشكل أساسي على الأحكام الداخلية للنموذج حول ما هو آمن وما هو غير آمن ، فإن نهج OpenAI يجعل التكرار على سياسات المحتوى الخاصة بالمنصة بشكل أسرع وبأقل جهد.
يستكشف فريق بحث OpenAI بنشاط مزيدًا من التحسينات على جودة تنبؤ GPT-4 ، على سبيل المثال من خلال دمج التفكير المتسلسل أو النقد الذاتي. في الوقت نفسه ، تحاول أيضًا الكشف عن طرق الخطر غير المعروفة ، وهي مستوحاة من الذكاء الاصطناعي الدستوري ، وتهدف إلى استخدام نماذج لتحديد المحتوى الضار المحتمل وتقديم وصف عالي المستوى للمحتوى الضار. ستقوم هذه النتائج بعد ذلك بإبلاغ التحديثات على سياسات المحتوى الحالية أو تطوير السياسات التي تستهدف مجالات مخاطر جديدة تمامًا.