Khả năng toán học vượt ChatGPT, mô hình lớn mã nguồn mở 70B đang bùng cháy: tinh chỉnh AI với AI, do Microsoft All-China Class sản xuất

Nguồn: "Qubit" (ID: QbitAI), Tác giả: Feng Se

Sử dụng hướng dẫn do AI tạo để tinh chỉnh mô hình alpaca lớn và khả năng toán học vượt xa ChatGPT——

Mô hình mã nguồn mở mới nhất của Microsoft WizardMath đã có tại đây.

Như trong hình bên dưới, sau khi thử nghiệm trên bộ dữ liệu GSM8k, khả năng toán học của WizardMath đã trực tiếp đánh bại nhiều mô hình lớn như ChatGPT, Claude Instant 1, PaLM 2-540B——

Và với điều kiện là các tham số chính chỉ có 70 tỷ, ít hơn nhiều so với ba tham số sau.

HuggingFace đã ra mắt 3 phiên bản có thể chơi trực tuyến (các thông số lần lượt là 7B, 13B và 70B) và nhiều bài toán khác nhau có thể được đưa vào để thử.

Ví dụ, giải phương trình đa thức bậc bốn sau:

Hoặc một phép tính đơn giản:

Hoặc một dẫn xuất phương trình Lagrange được sửa đổi một chút:

Tất cả đều chính xác (và quá trình không phải đợi quá lâu).

Một số cư dân mạng nói với tác giả:

Hiệu ứng thực sự tuyệt vời, cảm ơn bạn đã đóng góp cho LLM mã nguồn mở.

Hiện tại, các mã, phương pháp sao chép và bài báo có liên quan cũng là mã nguồn mở hoặc trực tuyến và GitHub đã nhận được 4,8 nghìn sao chỉ sau vài ngày.

Vì vậy, chính xác thì WizardMath làm điều đó như thế nào?

Nâng cao khả năng mô hình lớn với hướng dẫn do AI tạo

Các mô hình lớn của OpenAI (InstructGPT, GPT-4, v.v.) đã có thể thực hiện thành công nhiều tác vụ phức tạp và đa dạng, một phần nhờ tinh chỉnh sử dụng dữ liệu hướng dẫn miền mở do người dùng thực tạo ra.

Tuy nhiên, không phải ai cũng có quyền truy cập vào bộ dữ liệu lệnh như công ty này.

Một là do toàn bộ quá trình chú thích cực kỳ tốn kém và tốn thời gian, hai là con người khó có thể tạo đủ tỷ lệ các hướng dẫn khó.

Do đó, việc phát triển một phương pháp sản xuất tự động hướng dẫn miền mở quy mô lớn, chi phí tương đối thấp đã trở thành chìa khóa cho mô hình ngôn ngữ điều chỉnh hướng dẫn hiện tại.

Ở đây, các tác giả đặt tên cho phương pháp của họ là Hướng dẫn Evol.

Đó là một phương pháp mới sử dụng AI để thay thế con người để tự động tạo ra các hướng dẫn trường mở với các mức độ khó khác nhau.

Cụ thể, Hướng dẫn tiến hóa được chia thành Trình tiến hóa hướng dẫn và Công cụ loại bỏ hướng dẫn.

Trong số đó, trình phát triển hướng dẫn có thể nâng cấp một hướng dẫn đơn giản thành một hướng dẫn phức tạp hơn hoặc tạo một hướng dẫn mới thông qua hai con đường tiến hóa sâu (đường màu xanh) hoặc tiến hóa mở rộng (đường màu đỏ).

Cái nào nên được thực hiện? Chỉ cần chọn ngẫu nhiên.

Trong số đó, "phương pháp tiến hóa" cụ thể của tiến hóa chuyên sâu được hoàn thành thông qua năm loại hoạt động, bao gồm:

Bổ sung các ràng buộc, đào sâu, cụ thể hóa, tăng các bước suy luận, phức tạp hóa việc nhập liệu.

Vì tất cả các hướng dẫn đều được thực hiện bởi AI nên đôi khi không tránh khỏi sai sót. Do đó, bộ loại bỏ lệnh được sử dụng để lọc các lệnh không thành công.

Dưới đây là một ví dụ cụ thể về một phương thức bắt đầu bằng "1+1=?" và kết thúc tự động tạo ra khá nhiều hướng dẫn mới thông qua các bước trên.

Bằng cách lặp lại quy trình tạo này, cuối cùng chúng ta có thể nhận đủ hướng dẫn, sau đó kết hợp chúng và xáo trộn ngẫu nhiên chúng để tạo thành một tập hợp hướng dẫn có mức độ khó phân phối đồng đều, sau đó chúng ta có thể tinh chỉnh mô hình lớn cơ bản.

Ở đây, tác giả chọn dữ liệu huấn luyện của Alpaca (chỉ được tạo bởi 175 hướng dẫn hạt giống được tạo nhân tạo) làm tập dữ liệu ban đầu, sau đó sử dụng API của ChatGPT để thực hiện 4 chu kỳ tiến hóa và cuối cùng thu được 250.000 hướng dẫn.

Để so sánh công bằng với 70.000 dữ liệu người dùng thực của Vicuna (ShareGPT), tác giả đã trích xuất một lượng mẫu bằng nhau từ 250.000 mẩu dữ liệu, đào tạo mô hình LLaMA 7B và cuối cùng thu được WizardLM. WizardLM tốt hơn đáng kể so với Vicuna.

(Alpaca: Mô hình tinh chỉnh của Stanford dựa trên LLaMa-7B; Vicuna, UC Berkeley tinh chỉnh dựa trên LLaMa-13B)

Ngoài ra, con người thích đầu ra của WizardLM hơn ChatGPT theo các hướng dẫn kiểm tra phức tạp hơn, cho thấy rằng phương pháp này có thể cải thiện đáng kể khả năng xử lý các hướng dẫn phức tạp của LLM.

Dựa trên điều này, tác giả đã sử dụng Hướng dẫn Evol để tạo ra nhiều hướng dẫn liên quan đến lĩnh vực toán học, sau đó tinh chỉnh mô hình alpaca lớn để có được WizardMath.

Hiệu quả của nó như đã thấy ở phần đầu, khả năng toán học của nó được đo trên bộ dữ liệu GSM8k, vượt qua nhiều mô hình lớn như ChatGPT, Claude Instant 1, PaLM 2-540B, v.v., đứng thứ 5, chỉ sau GPT-4 và Claud1 .3 và 2.0, và sau Flan-PaLM 2 với 540 tỷ tham số.

Tương tự, tác giả cũng có WizardCoder, chuyên về khả năng mã hóa trên alpaca, và hiệu quả vượt trội hơn cả Claude và Bard (chi tiết xin click vào địa chỉ cuối bài viết).

giới thiệu đội

Có 9 tác giả trong bài báo này, tất cả đều là người Trung Quốc.

Có 3 nhân vật trong một tác phẩm:

Can Xu, Nhà khoa học ứng dụng cấp cao của Nhóm S+D NLP thuộc Học viện Kỹ thuật Internet Microsoft Châu Á, trước đây đã làm việc về hệ thống rô-bốt trò chuyện trong Nhóm nghiên cứu Microsoft Xiaobing và Viện nghiên cứu Microsoft Châu Á;

Qingfeng Sun, nhà khoa học Nghiên cứu của Microsoft, hướng nghiên cứu là xử lý ngôn ngữ tự nhiên và truy xuất thông tin, thành thạo trong việc xây dựng các hệ thống tìm kiếm hiệu quả, đã đóng góp các mô hình sâu cốt lõi cho Microsoft Bing và Office 365;

Kai Zheng, nhà khoa học Nghiên cứu của Microsoft, hướng nghiên cứu là xử lý ngôn ngữ tự nhiên, xếp hạng tìm kiếm và đề xuất, cũng đóng góp mô hình sâu cốt lõi cho Microsoft Bing và Office 365.

Tác giả tương ứng là Jiang Daxin, đối tác toàn cầu kiêm phó chủ tịch của Microsoft, đồng thời là cựu trưởng khoa khoa học của Microsoft Research Asia, ông đã làm việc tại Microsoft hơn 16 năm và là người phụ trách lĩnh vực hiểu biết ngôn ngữ tự nhiên của Microsoft Công cụ tìm kiếm Bing và trợ lý thông minh Cortana tiết lộ rằng anh đã nghỉ việc và chuyên tâm khởi nghiệp kinh doanh mô hình quy mô lớn.

Một tác giả khác, Jiazhan Feng, là sinh viên Đại học Bắc Kinh. Bài viết đồng tác giả này được thực hiện trong thời gian thực tập của anh ấy tại Microsoft.

Trang chủ dự án:

Địa chỉ giấy tờ:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)