Gunakan instruksi yang dihasilkan AI untuk menyempurnakan model alpaka besar, dan kemampuan matematisnya melebihi ChatGPT——
Model open source terbaru Microsoft WizardMath ada di sini.
Seperti terlihat pada gambar di bawah ini, setelah diuji pada kumpulan data GSM8k, kemampuan matematis WizardMath langsung mengalahkan banyak model besar seperti ChatGPT, Claude Instant 1, dan PaLM 2-540B——
Dan dengan syarat parameter kunci hanya 70 miliar, yang jauh lebih sedikit dari tiga yang terakhir.
HuggingFace telah meluncurkan 3 versi online yang dapat dimainkan (masing-masing parameter 7B, 13B, dan 70B), dan berbagai soal matematika dapat dicoba untuk dicoba.
Atau derivasi persamaan Lagrange yang sedikit dimodifikasi:
Semuanya sudah benar (dan prosesnya tidak perlu menunggu terlalu lama).
Beberapa netizen mengatakan kepada penulis:
Efeknya sungguh luar biasa, terima kasih atas kontribusi Anda untuk open source LLM.
Saat ini, kode, metode reproduksi, dan makalah yang relevan juga bersifat open source atau online, dan GitHub telah menerima 4,8 ribu bintang hanya dalam beberapa hari.
Jadi, bagaimana tepatnya WizardMath melakukannya?
Tingkatkan kemampuan model besar dengan instruksi yang dihasilkan AI
Model besar OpenAI (InstructGPT, GPT-4, dll.) telah mampu melakukan berbagai tugas yang kompleks dan beragam dengan sukses besar, sebagian karena penyempurnaan menggunakan data instruksi domain terbuka yang dihasilkan oleh pengguna manusia nyata.
Namun, tidak semua orang memiliki akses ke kumpulan data perintah seperti yang dimiliki perusahaan ini.
Salah satunya karena seluruh proses anotasi sangat mahal dan memakan waktu, dan yang lainnya adalah sulit bagi manusia untuk membuat instruksi sulit dalam jumlah yang cukup.
Oleh karena itu, mengembangkan metode produksi otomatis instruksi domain terbuka skala besar yang relatif murah telah menjadi kunci model bahasa penyetelan instruksi saat ini.
Di sini, penulis menamai metode mereka Evol Instruction.
Ini adalah metode baru menggunakan AI untuk menggantikan manusia agar secara otomatis menghasilkan instruksi bidang terbuka yang mencakup berbagai tingkat kesulitan.
Secara khusus, Instruksi Evol dibagi menjadi Instruksi Evolver dan Penghilang Instruksi.
Diantaranya, pembuat instruksi dapat memutakhirkan instruksi sederhana menjadi instruksi yang lebih kompleks atau membuat instruksi baru melalui dua jalur evolusi dalam (garis biru) atau evolusi ekstensif (garis merah).
Mana yang harus dilaksanakan? Pilih saja secara acak.
Di antara mereka, "metode evolusi" spesifik dari evolusi mendalam diselesaikan melalui lima jenis operasi, termasuk:
Menambah kendala, memperdalam, mengkonkretkan, menambah langkah penalaran, dan memperumit masukan.
Karena semua instruksi dilakukan oleh AI, terkadang kesalahan tidak dapat dihindari. Oleh karena itu, eliminator instruksi digunakan untuk memfilter instruksi yang gagal.
Berikut adalah contoh konkret dari metode yang dimulai dengan "1+1=?" dan berakhir secara otomatis menghasilkan beberapa instruksi baru melalui langkah-langkah di atas.
Dengan mengulangi proses pembuatan ini, kami akhirnya bisa mendapatkan instruksi yang cukup, lalu menggabungkannya dan mengacaknya secara acak untuk membentuk set instruksi dengan tingkat kesulitan distribusi seragam, lalu kami dapat menyempurnakan model besar dasar.
Di sini, penulis memilih data pelatihan Alpaca (dihasilkan hanya dari 175 instruksi benih yang dibuat secara artifisial) sebagai kumpulan data awal, dan kemudian menggunakan API ChatGPT untuk melakukan empat siklus evolusi, dan akhirnya mendapatkan 250.000 instruksi.
Untuk membuat perbandingan yang adil dengan 70k data pengguna nyata (ShareGPT) Vicuna, penulis mengekstrak jumlah sampel yang sama dari 250.000 lembar data, melatih model LLaMA 7B, dan akhirnya memperoleh WizardLM. WizardLM jauh lebih baik daripada Vicuna.
(Alpaca: Stanford menyempurnakan model berdasarkan LLaMa-7B; Vicuna, UC Berkeley menyempurnakan berdasarkan LLaMa-13B)
Selain itu, manusia lebih memilih keluaran WizardLM daripada ChatGPT di bawah instruksi pengujian yang lebih kompleks, menunjukkan bahwa metode ini dapat meningkatkan kemampuan LLM secara signifikan untuk menangani instruksi yang kompleks.
Berdasarkan hal tersebut, penulis menggunakan Instruksi Evol untuk menghasilkan banyak instruksi yang berkaitan dengan bidang matematika, kemudian menyempurnakan model alpaka besar untuk mendapatkan WizardMath.
Efeknya seperti yang ditunjukkan di awal.Kemampuan matematisnya diukur pada kumpulan data GSM8k, melampaui banyak model besar termasuk ChatGPT, Claude Instant 1, PaLM 2-540B, dll., peringkat kelima, kedua setelah GPT-4 dan Claud1 .3 dan 2.0, dan setelah Flan-PaLM 2 dengan 540 miliar parameter.
Dengan analogi, penulis juga mendapatkan WizardCoder, yang berspesialisasi dalam kemampuan pengkodean pada alpaka, dan efeknya melampaui Claude dan Bard (untuk detailnya, silakan klik alamat di akhir artikel).
perkenalan tim
Ada 9 penulis dalam artikel ini, semuanya Cina.
Ada 3 karakter dalam satu karya:
Can Xu, Senior Application Scientist dari S+D NLP Group of Microsoft Asia Internet Engineering Academy, sebelumnya mengerjakan sistem robot obrolan di Microsoft Xiaobing Research Group dan Microsoft Asia Research Institute;
Qingfeng Sun, ilmuwan Riset Microsoft, arah penelitian adalah pemrosesan bahasa alami dan pengambilan informasi, mahir dalam membangun sistem pencarian yang efisien, menyumbangkan model inti mendalam ke Microsoft Bing dan Office 365;
Kai Zheng, ilmuwan Microsoft Research, arah penelitian adalah pemrosesan bahasa alami, peringkat pencarian dan rekomendasi, juga menyumbangkan model inti yang mendalam untuk Microsoft Bing dan Office 365.
Penulis koresponden adalah Jiang Daxin, mitra global dan wakil presiden Microsoft, dan mantan kepala ilmuwan Microsoft Research Asia. Dia telah bekerja di Microsoft selama lebih dari 16 tahun dan merupakan orang yang bertanggung jawab atas pemahaman bahasa alami dari Microsoft Mesin pencari Bing dan asisten cerdas Cortana Telah terungkap bahwa dia telah meninggalkan pekerjaannya dan mengabdikan dirinya untuk memulai bisnis model berskala besar.
Penulis lain, Jiazhan Feng, adalah seorang mahasiswa Universitas Peking.Makalah co-authored ini dihasilkan selama magang di Microsoft.
halaman beranda proyek:
Alamat kertas:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Kemampuan matematika melebihi ChatGPT, model besar open source 70B sedang on fire: fine-tuning AI dengan AI, diproduksi oleh Microsoft All-China Class
Sumber: "Qubit" (ID: QbitAI), Penulis: Feng Se
Gunakan instruksi yang dihasilkan AI untuk menyempurnakan model alpaka besar, dan kemampuan matematisnya melebihi ChatGPT——
Model open source terbaru Microsoft WizardMath ada di sini.
Dan dengan syarat parameter kunci hanya 70 miliar, yang jauh lebih sedikit dari tiga yang terakhir.
Misalnya, selesaikan persamaan polinomial kuartik berikut:
Beberapa netizen mengatakan kepada penulis:
Tingkatkan kemampuan model besar dengan instruksi yang dihasilkan AI
Model besar OpenAI (InstructGPT, GPT-4, dll.) telah mampu melakukan berbagai tugas yang kompleks dan beragam dengan sukses besar, sebagian karena penyempurnaan menggunakan data instruksi domain terbuka yang dihasilkan oleh pengguna manusia nyata.
Namun, tidak semua orang memiliki akses ke kumpulan data perintah seperti yang dimiliki perusahaan ini.
Salah satunya karena seluruh proses anotasi sangat mahal dan memakan waktu, dan yang lainnya adalah sulit bagi manusia untuk membuat instruksi sulit dalam jumlah yang cukup.
Oleh karena itu, mengembangkan metode produksi otomatis instruksi domain terbuka skala besar yang relatif murah telah menjadi kunci model bahasa penyetelan instruksi saat ini.
Di sini, penulis menamai metode mereka Evol Instruction.
Ini adalah metode baru menggunakan AI untuk menggantikan manusia agar secara otomatis menghasilkan instruksi bidang terbuka yang mencakup berbagai tingkat kesulitan.
Secara khusus, Instruksi Evol dibagi menjadi Instruksi Evolver dan Penghilang Instruksi.
Diantaranya, pembuat instruksi dapat memutakhirkan instruksi sederhana menjadi instruksi yang lebih kompleks atau membuat instruksi baru melalui dua jalur evolusi dalam (garis biru) atau evolusi ekstensif (garis merah).
Mana yang harus dilaksanakan? Pilih saja secara acak.
Menambah kendala, memperdalam, mengkonkretkan, menambah langkah penalaran, dan memperumit masukan.
Karena semua instruksi dilakukan oleh AI, terkadang kesalahan tidak dapat dihindari. Oleh karena itu, eliminator instruksi digunakan untuk memfilter instruksi yang gagal.
Berikut adalah contoh konkret dari metode yang dimulai dengan "1+1=?" dan berakhir secara otomatis menghasilkan beberapa instruksi baru melalui langkah-langkah di atas.
Di sini, penulis memilih data pelatihan Alpaca (dihasilkan hanya dari 175 instruksi benih yang dibuat secara artifisial) sebagai kumpulan data awal, dan kemudian menggunakan API ChatGPT untuk melakukan empat siklus evolusi, dan akhirnya mendapatkan 250.000 instruksi.
Untuk membuat perbandingan yang adil dengan 70k data pengguna nyata (ShareGPT) Vicuna, penulis mengekstrak jumlah sampel yang sama dari 250.000 lembar data, melatih model LLaMA 7B, dan akhirnya memperoleh WizardLM. WizardLM jauh lebih baik daripada Vicuna.
(Alpaca: Stanford menyempurnakan model berdasarkan LLaMa-7B; Vicuna, UC Berkeley menyempurnakan berdasarkan LLaMa-13B)
Selain itu, manusia lebih memilih keluaran WizardLM daripada ChatGPT di bawah instruksi pengujian yang lebih kompleks, menunjukkan bahwa metode ini dapat meningkatkan kemampuan LLM secara signifikan untuk menangani instruksi yang kompleks.
Berdasarkan hal tersebut, penulis menggunakan Instruksi Evol untuk menghasilkan banyak instruksi yang berkaitan dengan bidang matematika, kemudian menyempurnakan model alpaka besar untuk mendapatkan WizardMath.
Efeknya seperti yang ditunjukkan di awal.Kemampuan matematisnya diukur pada kumpulan data GSM8k, melampaui banyak model besar termasuk ChatGPT, Claude Instant 1, PaLM 2-540B, dll., peringkat kelima, kedua setelah GPT-4 dan Claud1 .3 dan 2.0, dan setelah Flan-PaLM 2 dengan 540 miliar parameter.
Dengan analogi, penulis juga mendapatkan WizardCoder, yang berspesialisasi dalam kemampuan pengkodean pada alpaka, dan efeknya melampaui Claude dan Bard (untuk detailnya, silakan klik alamat di akhir artikel).
perkenalan tim
Ada 9 penulis dalam artikel ini, semuanya Cina.
Ada 3 karakter dalam satu karya:
Can Xu, Senior Application Scientist dari S+D NLP Group of Microsoft Asia Internet Engineering Academy, sebelumnya mengerjakan sistem robot obrolan di Microsoft Xiaobing Research Group dan Microsoft Asia Research Institute;
Qingfeng Sun, ilmuwan Riset Microsoft, arah penelitian adalah pemrosesan bahasa alami dan pengambilan informasi, mahir dalam membangun sistem pencarian yang efisien, menyumbangkan model inti mendalam ke Microsoft Bing dan Office 365;
Kai Zheng, ilmuwan Microsoft Research, arah penelitian adalah pemrosesan bahasa alami, peringkat pencarian dan rekomendasi, juga menyumbangkan model inti yang mendalam untuk Microsoft Bing dan Office 365.
Penulis lain, Jiazhan Feng, adalah seorang mahasiswa Universitas Peking.Makalah co-authored ini dihasilkan selama magang di Microsoft.
halaman beranda proyek:
Alamat kertas: