Tín dụng hình ảnh: Được tạo bởi AI không giới hạn
Cuộc hỗn chiến của các mẫu xe cỡ lớn đa dụng trong nước còn lâu mới kết thúc. Sau khoảng nửa năm không hoạt động, hầu hết người chơi đã nổi lên.
Trong số này, ai đó tăng tốc độ lặp lại. Vào ngày 8 tháng 8, Baichuan Intelligent, được thành lập bởi Wang Xiaochuan, người sáng lập Sogou Search, đã phát hành sản phẩm mô hình quy mô lớn thứ ba Baichuan-53B, với 53 tỷ tham số đào tạo đằng sau nó. Vào thời điểm này, chỉ mới 4 tháng kể từ khi Wang Xiaochuan tuyên bố gia nhập chiến trường người mẫu quy mô lớn, và công ty mới thành lập đang có những bước phát triển nhanh chóng.
Đây mới chỉ là bước khởi đầu. Baichuan Intelligent tiết lộ với Times Finance rằng sẽ có một số sản phẩm được tung ra trong tương lai, bao gồm cả các mô hình quy mô lớn với thông số vượt quá 100 tỷ.
Cũng có những lối thoát ảm đạm. Được thành lập bởi Wang Huiwen, người đồng sáng lập Meituan, nó đã thu hút các tổ chức đầu tư mạo hiểm nổi tiếng như Source Code Capital và Wuyuan Capital, cũng như đầu tư từ những gã khổng lồ Internet như Wang Xing, người sáng lập Meituan và Su Hua, người sáng lập. của Kuaishou.Nó từng được thị trường coi là một trong những người chơi mạnh nhất trên chiến trường mô hình quy mô lớn trong nước.
Tuy nhiên, khi Wang Huiwen từ chức vì vấn đề sức khỏe vào cuối tháng 6 và không thể tiếp tục phụ trách cách xa nhiều năm ánh sáng, công ty khởi nghiệp quy mô lớn rất được mong đợi này đã phải bán mình cho Meituan, và một nhóm nhà đầu tư cũng rút tiền. cổ phiếu.
Những người khác đã tìm thấy một cách khác. Lanzhou Technology, được thành lập bởi chuyên gia AI Zhou Ming, nhấn mạnh vào các mô hình nhẹ và hy vọng có thể giải quyết các vấn đề về cảnh B-side với chi phí thấp hơn. You Yang, giáo sư trẻ từng giúp Google giảm thời gian đào tạo mô hình BERT từ 3 ngày xuống còn 76 phút, thành lập Luchen Technology, cố gắng bứt phá bằng giải pháp đào tạo mô hình lớn chi phí thấp.
Ngược lại, các mô hình quy mô lớn được phát triển bởi các nhà sản xuất lớn đã quá hạn từ lâu. Mãi đến đầu tháng 8, mô hình lớn Hunyuan do Tencent tự phát triển và sản phẩm đối thoại AI của Byte Grace mới xuất hiện tin tức thử nghiệm nội bộ và thời gian ra mắt cụ thể vẫn chưa được biết.
Cũng vẫn đang trong giai đoạn thử nghiệm, còn có doanh nghiệp AI 2.0 "01Wanwu" do Kai-Fu Lee thành lập. Tại cuộc họp ngoại hối được tổ chức vào ngày 3 tháng 7, Kai-fu Lee tiết lộ rằng công ty đã đạt được thử nghiệm nội bộ mô hình với quy mô 10 tỷ tham số trong vòng ba tháng và hiện đang mở rộng lên quy mô từ 30 tỷ đến 70 tỷ tham số . Tuy nhiên, sản phẩm vẫn chưa được tung ra thị trường.
Thật đáng mong đợi những sản phẩm mô hình quy mô lớn chưa được phát hành này sẽ mang lại những thay đổi gì cho ngành công nghệ. Từ góc độ này, cuộc ẩu đả này có thể kéo dài trong một thời gian dài.
Tấn công Vương Tiểu Xuyên
Baichuan Intelligent, được thành lập bởi Wang Xiaochuan, đang thu hút sự chú ý của thị trường với tốc độ phát hành sản phẩm đáng kinh ngạc.
Sau khi thông báo vào tháng 4 rằng họ sẽ kết thúc việc xây dựng một mô hình quy mô lớn, chỉ mất hai tháng năm ngày để phát hành mô hình quy mô lớn mã nguồn mở 7 tỷ tham số Baichuan-7B vào ngày 15 tháng 6. Trong vòng chưa đầy một tháng, một mô hình lớn mã nguồn mở Baichuan-13B khác với 13 tỷ tham số đã được phát hành.
Baichuan-53B được phát hành vào ngày 8 tháng 8 đã là sản phẩm thứ ba được công ty khởi nghiệp mô hình quy mô lớn này phát hành trong vòng nửa năm và Baichuan Intelligent đang đạt được tiến bộ nhanh chóng.
Người phụ trách Baichuan Intelligence trả lời Times Finance rằng công ty đã dành nhiều thời gian cho việc chuẩn bị sơ bộ trước khi thành lập và đã suy nghĩ rõ ràng về lộ trình và phương pháp ngay từ đầu.
Nó chỉ ra rằng ba cấp độ sẽ được xem xét khi tạo ra một mô hình lớn: dữ liệu, thuật toán và sức mạnh tính toán. Bất kể sức mạnh tính toán, các công ty tìm kiếm đương nhiên có khả năng dữ liệu tuyệt vời.Nhóm cốt lõi của Baichuan Intelligence đã thực hiện thu thập, trích xuất, làm sạch, chống trùng lặp, chống thư rác và các hoạt động khác trong 20 năm, có thể lấy dữ liệu nhanh hơn. bộ dữ liệu chất lượng.
Thuật toán tập trung vào xử lý ngôn ngữ tự nhiên và kỹ thuật thuật toán được lặp đi lặp lại. Đây không phải là một vấn đề kỹ thuật đơn lẻ mà được thúc đẩy bởi dữ liệu văn bản, thuật toán và kỹ thuật phối hợp với nhau. Kinh nghiệm trước đây trong tìm kiếm cũng có thể đóng một vai trò tốt ở đây, sử dụng đánh giá dữ liệu để thúc đẩy cải tiến mô hình.
"Với nhiều năm tích lũy công nghệ và kinh nghiệm, Baichuan Intelligent có thể tạo ra các sản phẩm mô hình quy mô lớn một cách nhanh chóng và tốt."
Tuy nhiên, tại buổi họp báo, Wang Xiaochuan cũng chỉ ra rằng mô hình lớn đa năng trong nước hiện nay vẫn đang trong giai đoạn phân loại và sinh sản. Về cơ bản, tất cả các nhà sản xuất đều đang so sánh điểm chuẩn với OpenAI và vấn đề về tính đồng nhất chắc chắn sẽ nảy sinh.
Bởi vì điều này, theo quan điểm của ông, không giống như tình huống mà mô hình quy mô lớn nguồn đóng ở Hoa Kỳ đã được cố định, không có kết luận nào về "mô hình quy mô lớn của ai là tốt nhất ở Trung Quốc". . Trong cuộc hỗn chiến này, tiền rất quan trọng, nhưng cuối cùng chính con người, nhóm và tổ chức mới là người đưa ra quyết định. Các công ty lớn có nhiều tiền hơn, nhiều người hơn và nhiều khả năng tính toán hơn, nhưng hiệu quả tổ chức của họ thường không nhất thiết phải đủ tốt, hiệu quả tổ chức của các công ty mới thành lập có thể tốt hoặc có thể không.
"Mọi người đều đang tranh giành cơ hội và họ không nhất thiết phải rơi vào các nhà máy lớn."
Wang Xiaochuan cũng nói về việc Wang Huiwen rời đi trong cuộc phỏng vấn. Nó chỉ ra rằng Wang Huiwen là người duy nhất trong số một số người mẫu quy mô lớn chính thống ở Trung Quốc không có nền tảng kỹ thuật vững chắc và thách thức đối với anh ta lớn hơn các công ty khác. Có rất nhiều quyết định kỹ thuật được đưa ra trong công việc, chẳng hạn như tuyển dụng ai, lộ trình kỹ thuật nào cần thực hiện và cần bao nhiêu tài nguyên máy tính, và bạn chắc chắn sẽ phải đối mặt với rất nhiều áp lực khi ra quyết định.
"Làm một mô hình lớn không phải là căng thẳng, mà là có rất nhiều áp lực để đưa ra quyết định mà không có nền tảng kỹ thuật. Nhưng nếu có đủ công nghệ, nó thực sự khá dễ chịu."
Tencent, Byte đã quá hạn từ lâu
Khi bắt đầu cuộc hỗn chiến của các mô hình quy mô lớn, những gã khổng lồ Internet được coi là những đối thủ cạnh tranh mạnh mẽ vì họ có nhiều năng lực tính toán, tài năng, quỹ và dữ liệu hơn.
Wenxin Yiyan do Baidu tự phát triển được ra mắt lần đầu tiên vào cuối tháng 3 năm nay; Tongyi Qianwen của Alibaba cũng theo sát và được công bố tại Hội nghị thượng đỉnh về đám mây của Alibaba tổ chức vào ngày 11 tháng 4. Chỉ một ngày trước khi Ali ra mắt Tongyi Qianwen, Wang Xiaochuan vừa tuyên bố kết thúc và thành lập Baichuan Intelligence.
Ngược lại, Tencent và Byte, cả hai đều là nhà sản xuất hạng nhất, chậm hơn nhiều trong việc tung ra các mẫu xe cỡ lớn cho mục đích chung.
Vào ngày 3 tháng 8, theo báo cáo của 36kr, "Mô hình lớn Tencent Hunyuan" do Tencent tự phát triển đã bước vào giai đoạn thử nghiệm nội bộ ứng dụng. Ba ngày sau, vào ngày 6 tháng 8, sản phẩm đối thoại AI của Byte, Grace cũng lộ diện, sau hai tháng nghiên cứu và phát triển, nó cuối cùng đã bước vào giai đoạn thử nghiệm.
Tại thời điểm này, đã 4 tháng kể từ khi Baidu phát hành Wenxin Yiyan. Về lý do khiến các sản phẩm mô hình quy mô lớn đa năng của Tencent chậm hơn, Ma Huateng từng công khai cho biết: “Tencent cũng đang đắm chìm trong nghiên cứu và phát triển, nhưng không vội hoàn thành sớm và cho ra mắt bán thành phẩm. .”
Tuy nhiên, Tencent "không vội vàng" đã đi đầu trong việc công bố lộ trình của "mô hình ngành công nghiệp lớn" vào giữa tháng 6 năm nay, đưa ra hơn 50 giải pháp cho 10 ngành công nghiệp chính trong một lần. Thật trùng hợp, ByteDance cũng đã phát hành nền tảng dịch vụ mô hình quy mô lớn "Volcano Ark" vào tháng 6, cung cấp cho các doanh nghiệp đầy đủ các dịch vụ nền tảng bằng cách tích hợp các mô hình quy mô lớn của nhiều công ty công nghệ AI và viện nghiên cứu khoa học.
Thị trường từng tin rằng mô hình công nghiệp quy mô lớn sẽ trở thành phương thức để hai nhà sản xuất lớn này bứt phá.
Nhưng đó có thể không phải là trường hợp. Luôn có nguy cơ bị thay thế bởi mô hình công nghiệp lớn hiện đang được ủng hộ. Wu Xiaoru, chủ tịch của HKUST Xunfei, từng chỉ ra với Times Finance rằng 10 năm trước, trong công nghệ nhận dạng giọng nói, có nhiều mô hình đặc biệt tập trung vào các tình huống khác nhau như gọi điện, lái xe, làm việc văn phòng.
"Tôi nghĩ những người mẫu lớn cũng trải qua giai đoạn tương tự."
Ngược lại, từ góc độ dài hạn hơn, mô hình lớn có mục đích chung thực sự đại diện cho một cơ hội đột phá hoặc cấp độ nền tảng lớn. Chính vì điều này mà cả Tencent và Byte đều không thể cho phép mình bỏ lỡ, dù tiến độ có chậm cũng nhất quyết phải có mặt.
Một số người trong cuộc của Tencent đã chỉ ra với Times Finance rằng kế hoạch của Tencent luôn là đi bằng hai chân, GM và ngành công nghiệp này luôn song hành với nhau. Chỉ là so với một số nhà sản xuất cấp tiến, Tencent, người có các sản phẩm bao gồm xã hội, trò chơi, quảng cáo, sáng tạo nội dung và các lĩnh vực khác, thận trọng hơn.
Doanh nhân hàn lâm tìm cách khác
Trên chiến trường mô hình quy mô lớn, các công ty khởi nghiệp học thuật từ các trường đại học và tổ chức nghiên cứu tạo thành cực cạnh tranh thứ ba.
Họ không phải là những người chơi hạt giống như Wang Xiaochuan và Wang Huiwen, khi mới bắt đầu kinh doanh, họ có thể thu hút hàng trăm triệu đô la đầu tư nhờ vào các mối quan hệ của mình và sử dụng số tiền này để bắt đầu nhanh chóng. Nó cũng không giống như các công ty lớn như Tencent, Ali và Baidu, những công ty có lợi thế không thể vượt qua về sức mạnh tính toán, tài năng và vốn.
Nhưng dựa vào sự hiểu biết sâu sắc của họ về công nghệ trí tuệ nhân tạo, những doanh nhân này vẫn có thể tìm ra hướng phát triển mới dưới sự tấn công.
Ví dụ, Lanzhou Technology do Zhou Ming, cựu phó chủ tịch Viện nghiên cứu Microsoft châu Á thành lập, khác với các sản phẩm mô hình quy mô lớn trên thị trường theo đuổi thông số hàng trăm tỷ, thậm chí hàng nghìn tỷ đồng. (Xử lý ngôn ngữ tự nhiên) từ năm 1980. Chuyên gia AI Trung Quốc hy vọng có thể giải quyết vấn đề về các kịch bản bên B bằng một mô hình nhẹ hơn.
Mô hình lớn Mạnh Tử do nó đưa ra đã từng sử dụng một tỷ tham số để làm mới danh sách CLUE của tiêu chuẩn đánh giá có thẩm quyền về khả năng hiểu ngôn ngữ Trung Quốc, trước đây bị thống trị bởi các mô hình có tham số ở cấp độ 10 tỷ và 100 tỷ.
Đây là một quyết định thực dụng. Vì mục đích bảo mật dữ liệu, hầu hết các doanh nghiệp sẽ không tải dữ liệu lên mà sẽ yêu cầu triển khai cục bộ, điều này sẽ làm tăng đáng kể chi phí. Trong một cuộc phỏng vấn với giới truyền thông, Zhou Ming đã chỉ ra rằng ngay cả khi chỉ triển khai suy luận cục bộ, sử dụng một mô hình lớn được đào tạo bài bản, một mô hình lớn với 100 tỷ tham số vẫn cần 8 đến 16 A100, tức là ít nhất một hoặc hai triệu nhân dân tệ đầu tư, "Đối với nhiều tình huống, khách hàng cần giá rẻ và giá cả phải chăng."
Luchen Technology, được thành lập bởi giáo sư trẻ You Yang, chủ tịch Đại học Quốc gia Singapore, hy vọng sẽ sử dụng công nghệ thuật toán để giảm chi phí gọi các mô hình lớn.
Ngày nay, dù là nhà máy lớn hay công ty mới thành lập đều phải đối mặt với vấn đề xu hướng đồng nhất hóa của các mô hình quy mô lớn trong nước ngày càng trở nên rõ ràng. Nếu vấn đề này không được giải quyết, các mô hình lớn trong tương lai có thể sẽ rơi vào tình trạng khó khăn về lợi nhuận thấp mà các nhà cung cấp dịch vụ đám mây hiện nay phải đối mặt.
You Yang nói với Times Finance rằng điều này là do chi phí lặp lại của cơ sở công nghệ cơ bản quá cao. Ông lấy GPT làm ví dụ, chi phí đào tạo của OpenAI lên tới 60 triệu đô la Mỹ mỗi lần, nó cần được đào tạo ba hoặc bốn tháng một lần và cần bốn hoặc năm lần đào tạo cho một lần lặp lại. Trên cơ sở này, mỗi lần lặp lại nền tảng kỹ thuật có thể tiêu tốn từ 200 triệu đến 300 triệu đô la Mỹ.
Chi phí quá cao dẫn đến cơ sở công nghệ cực kỳ khan hiếm trên thị trường. Về cơ bản chỉ có GPT, LLAMA và GLM trong nước. Tất cả các nhà sản xuất về cơ bản đều bắt chước những mô hình lớn này để tạo ra sản phẩm, điều này đã khiến vấn đề đồng nhất trở nên nổi bật hơn.
You Yang, người đã nghiên cứu về máy tính hiệu năng cao trong một thời gian dài, đã thành lập Luchen Technology. Hệ thống nguồn mở Colossal-AI hiện do công ty tung ra có thể giảm đáng kể chi phí phát triển và ứng dụng của đào tạo mô hình lớn AI, tinh chỉnh và suy luận thông qua các công nghệ như song song đa chiều hiệu quả và bộ nhớ không đồng nhất.
You Yang tin rằng chỉ khi chi phí đào tạo mô hình quy mô lớn giảm nhanh chóng hoặc khi các kỹ thuật tối ưu hóa tốt hơn được áp dụng để kiểm soát các tham số ở khoảng 20 tỷ mà vẫn đạt được hiệu quả tương tự như 100 tỷ tham số, thì các mô hình quy mô lớn sẽ thực sự nảy nở.ngày đó.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Nửa năm khốc liệt tranh giành mô hình lớn, Tencent Byte đã quá hạn từ lâu
Nguồn gốc: Thời Đại Tài Chính
Tác giả: Xie Silin
Cuộc hỗn chiến của các mẫu xe cỡ lớn đa dụng trong nước còn lâu mới kết thúc. Sau khoảng nửa năm không hoạt động, hầu hết người chơi đã nổi lên.
Trong số này, ai đó tăng tốc độ lặp lại. Vào ngày 8 tháng 8, Baichuan Intelligent, được thành lập bởi Wang Xiaochuan, người sáng lập Sogou Search, đã phát hành sản phẩm mô hình quy mô lớn thứ ba Baichuan-53B, với 53 tỷ tham số đào tạo đằng sau nó. Vào thời điểm này, chỉ mới 4 tháng kể từ khi Wang Xiaochuan tuyên bố gia nhập chiến trường người mẫu quy mô lớn, và công ty mới thành lập đang có những bước phát triển nhanh chóng.
Đây mới chỉ là bước khởi đầu. Baichuan Intelligent tiết lộ với Times Finance rằng sẽ có một số sản phẩm được tung ra trong tương lai, bao gồm cả các mô hình quy mô lớn với thông số vượt quá 100 tỷ.
Cũng có những lối thoát ảm đạm. Được thành lập bởi Wang Huiwen, người đồng sáng lập Meituan, nó đã thu hút các tổ chức đầu tư mạo hiểm nổi tiếng như Source Code Capital và Wuyuan Capital, cũng như đầu tư từ những gã khổng lồ Internet như Wang Xing, người sáng lập Meituan và Su Hua, người sáng lập. của Kuaishou.Nó từng được thị trường coi là một trong những người chơi mạnh nhất trên chiến trường mô hình quy mô lớn trong nước.
Tuy nhiên, khi Wang Huiwen từ chức vì vấn đề sức khỏe vào cuối tháng 6 và không thể tiếp tục phụ trách cách xa nhiều năm ánh sáng, công ty khởi nghiệp quy mô lớn rất được mong đợi này đã phải bán mình cho Meituan, và một nhóm nhà đầu tư cũng rút tiền. cổ phiếu.
Những người khác đã tìm thấy một cách khác. Lanzhou Technology, được thành lập bởi chuyên gia AI Zhou Ming, nhấn mạnh vào các mô hình nhẹ và hy vọng có thể giải quyết các vấn đề về cảnh B-side với chi phí thấp hơn. You Yang, giáo sư trẻ từng giúp Google giảm thời gian đào tạo mô hình BERT từ 3 ngày xuống còn 76 phút, thành lập Luchen Technology, cố gắng bứt phá bằng giải pháp đào tạo mô hình lớn chi phí thấp.
Ngược lại, các mô hình quy mô lớn được phát triển bởi các nhà sản xuất lớn đã quá hạn từ lâu. Mãi đến đầu tháng 8, mô hình lớn Hunyuan do Tencent tự phát triển và sản phẩm đối thoại AI của Byte Grace mới xuất hiện tin tức thử nghiệm nội bộ và thời gian ra mắt cụ thể vẫn chưa được biết.
Cũng vẫn đang trong giai đoạn thử nghiệm, còn có doanh nghiệp AI 2.0 "01Wanwu" do Kai-Fu Lee thành lập. Tại cuộc họp ngoại hối được tổ chức vào ngày 3 tháng 7, Kai-fu Lee tiết lộ rằng công ty đã đạt được thử nghiệm nội bộ mô hình với quy mô 10 tỷ tham số trong vòng ba tháng và hiện đang mở rộng lên quy mô từ 30 tỷ đến 70 tỷ tham số . Tuy nhiên, sản phẩm vẫn chưa được tung ra thị trường.
Thật đáng mong đợi những sản phẩm mô hình quy mô lớn chưa được phát hành này sẽ mang lại những thay đổi gì cho ngành công nghệ. Từ góc độ này, cuộc ẩu đả này có thể kéo dài trong một thời gian dài.
Tấn công Vương Tiểu Xuyên
Baichuan Intelligent, được thành lập bởi Wang Xiaochuan, đang thu hút sự chú ý của thị trường với tốc độ phát hành sản phẩm đáng kinh ngạc.
Sau khi thông báo vào tháng 4 rằng họ sẽ kết thúc việc xây dựng một mô hình quy mô lớn, chỉ mất hai tháng năm ngày để phát hành mô hình quy mô lớn mã nguồn mở 7 tỷ tham số Baichuan-7B vào ngày 15 tháng 6. Trong vòng chưa đầy một tháng, một mô hình lớn mã nguồn mở Baichuan-13B khác với 13 tỷ tham số đã được phát hành.
Baichuan-53B được phát hành vào ngày 8 tháng 8 đã là sản phẩm thứ ba được công ty khởi nghiệp mô hình quy mô lớn này phát hành trong vòng nửa năm và Baichuan Intelligent đang đạt được tiến bộ nhanh chóng.
Người phụ trách Baichuan Intelligence trả lời Times Finance rằng công ty đã dành nhiều thời gian cho việc chuẩn bị sơ bộ trước khi thành lập và đã suy nghĩ rõ ràng về lộ trình và phương pháp ngay từ đầu.
Nó chỉ ra rằng ba cấp độ sẽ được xem xét khi tạo ra một mô hình lớn: dữ liệu, thuật toán và sức mạnh tính toán. Bất kể sức mạnh tính toán, các công ty tìm kiếm đương nhiên có khả năng dữ liệu tuyệt vời.Nhóm cốt lõi của Baichuan Intelligence đã thực hiện thu thập, trích xuất, làm sạch, chống trùng lặp, chống thư rác và các hoạt động khác trong 20 năm, có thể lấy dữ liệu nhanh hơn. bộ dữ liệu chất lượng.
Thuật toán tập trung vào xử lý ngôn ngữ tự nhiên và kỹ thuật thuật toán được lặp đi lặp lại. Đây không phải là một vấn đề kỹ thuật đơn lẻ mà được thúc đẩy bởi dữ liệu văn bản, thuật toán và kỹ thuật phối hợp với nhau. Kinh nghiệm trước đây trong tìm kiếm cũng có thể đóng một vai trò tốt ở đây, sử dụng đánh giá dữ liệu để thúc đẩy cải tiến mô hình.
"Với nhiều năm tích lũy công nghệ và kinh nghiệm, Baichuan Intelligent có thể tạo ra các sản phẩm mô hình quy mô lớn một cách nhanh chóng và tốt."
Tuy nhiên, tại buổi họp báo, Wang Xiaochuan cũng chỉ ra rằng mô hình lớn đa năng trong nước hiện nay vẫn đang trong giai đoạn phân loại và sinh sản. Về cơ bản, tất cả các nhà sản xuất đều đang so sánh điểm chuẩn với OpenAI và vấn đề về tính đồng nhất chắc chắn sẽ nảy sinh.
Bởi vì điều này, theo quan điểm của ông, không giống như tình huống mà mô hình quy mô lớn nguồn đóng ở Hoa Kỳ đã được cố định, không có kết luận nào về "mô hình quy mô lớn của ai là tốt nhất ở Trung Quốc". . Trong cuộc hỗn chiến này, tiền rất quan trọng, nhưng cuối cùng chính con người, nhóm và tổ chức mới là người đưa ra quyết định. Các công ty lớn có nhiều tiền hơn, nhiều người hơn và nhiều khả năng tính toán hơn, nhưng hiệu quả tổ chức của họ thường không nhất thiết phải đủ tốt, hiệu quả tổ chức của các công ty mới thành lập có thể tốt hoặc có thể không.
"Mọi người đều đang tranh giành cơ hội và họ không nhất thiết phải rơi vào các nhà máy lớn."
Wang Xiaochuan cũng nói về việc Wang Huiwen rời đi trong cuộc phỏng vấn. Nó chỉ ra rằng Wang Huiwen là người duy nhất trong số một số người mẫu quy mô lớn chính thống ở Trung Quốc không có nền tảng kỹ thuật vững chắc và thách thức đối với anh ta lớn hơn các công ty khác. Có rất nhiều quyết định kỹ thuật được đưa ra trong công việc, chẳng hạn như tuyển dụng ai, lộ trình kỹ thuật nào cần thực hiện và cần bao nhiêu tài nguyên máy tính, và bạn chắc chắn sẽ phải đối mặt với rất nhiều áp lực khi ra quyết định.
"Làm một mô hình lớn không phải là căng thẳng, mà là có rất nhiều áp lực để đưa ra quyết định mà không có nền tảng kỹ thuật. Nhưng nếu có đủ công nghệ, nó thực sự khá dễ chịu."
Tencent, Byte đã quá hạn từ lâu
Khi bắt đầu cuộc hỗn chiến của các mô hình quy mô lớn, những gã khổng lồ Internet được coi là những đối thủ cạnh tranh mạnh mẽ vì họ có nhiều năng lực tính toán, tài năng, quỹ và dữ liệu hơn.
Wenxin Yiyan do Baidu tự phát triển được ra mắt lần đầu tiên vào cuối tháng 3 năm nay; Tongyi Qianwen của Alibaba cũng theo sát và được công bố tại Hội nghị thượng đỉnh về đám mây của Alibaba tổ chức vào ngày 11 tháng 4. Chỉ một ngày trước khi Ali ra mắt Tongyi Qianwen, Wang Xiaochuan vừa tuyên bố kết thúc và thành lập Baichuan Intelligence.
Ngược lại, Tencent và Byte, cả hai đều là nhà sản xuất hạng nhất, chậm hơn nhiều trong việc tung ra các mẫu xe cỡ lớn cho mục đích chung.
Vào ngày 3 tháng 8, theo báo cáo của 36kr, "Mô hình lớn Tencent Hunyuan" do Tencent tự phát triển đã bước vào giai đoạn thử nghiệm nội bộ ứng dụng. Ba ngày sau, vào ngày 6 tháng 8, sản phẩm đối thoại AI của Byte, Grace cũng lộ diện, sau hai tháng nghiên cứu và phát triển, nó cuối cùng đã bước vào giai đoạn thử nghiệm.
Tại thời điểm này, đã 4 tháng kể từ khi Baidu phát hành Wenxin Yiyan. Về lý do khiến các sản phẩm mô hình quy mô lớn đa năng của Tencent chậm hơn, Ma Huateng từng công khai cho biết: “Tencent cũng đang đắm chìm trong nghiên cứu và phát triển, nhưng không vội hoàn thành sớm và cho ra mắt bán thành phẩm. .”
Tuy nhiên, Tencent "không vội vàng" đã đi đầu trong việc công bố lộ trình của "mô hình ngành công nghiệp lớn" vào giữa tháng 6 năm nay, đưa ra hơn 50 giải pháp cho 10 ngành công nghiệp chính trong một lần. Thật trùng hợp, ByteDance cũng đã phát hành nền tảng dịch vụ mô hình quy mô lớn "Volcano Ark" vào tháng 6, cung cấp cho các doanh nghiệp đầy đủ các dịch vụ nền tảng bằng cách tích hợp các mô hình quy mô lớn của nhiều công ty công nghệ AI và viện nghiên cứu khoa học.
Thị trường từng tin rằng mô hình công nghiệp quy mô lớn sẽ trở thành phương thức để hai nhà sản xuất lớn này bứt phá.
Nhưng đó có thể không phải là trường hợp. Luôn có nguy cơ bị thay thế bởi mô hình công nghiệp lớn hiện đang được ủng hộ. Wu Xiaoru, chủ tịch của HKUST Xunfei, từng chỉ ra với Times Finance rằng 10 năm trước, trong công nghệ nhận dạng giọng nói, có nhiều mô hình đặc biệt tập trung vào các tình huống khác nhau như gọi điện, lái xe, làm việc văn phòng.
"Tôi nghĩ những người mẫu lớn cũng trải qua giai đoạn tương tự."
Ngược lại, từ góc độ dài hạn hơn, mô hình lớn có mục đích chung thực sự đại diện cho một cơ hội đột phá hoặc cấp độ nền tảng lớn. Chính vì điều này mà cả Tencent và Byte đều không thể cho phép mình bỏ lỡ, dù tiến độ có chậm cũng nhất quyết phải có mặt.
Một số người trong cuộc của Tencent đã chỉ ra với Times Finance rằng kế hoạch của Tencent luôn là đi bằng hai chân, GM và ngành công nghiệp này luôn song hành với nhau. Chỉ là so với một số nhà sản xuất cấp tiến, Tencent, người có các sản phẩm bao gồm xã hội, trò chơi, quảng cáo, sáng tạo nội dung và các lĩnh vực khác, thận trọng hơn.
Doanh nhân hàn lâm tìm cách khác
Trên chiến trường mô hình quy mô lớn, các công ty khởi nghiệp học thuật từ các trường đại học và tổ chức nghiên cứu tạo thành cực cạnh tranh thứ ba.
Họ không phải là những người chơi hạt giống như Wang Xiaochuan và Wang Huiwen, khi mới bắt đầu kinh doanh, họ có thể thu hút hàng trăm triệu đô la đầu tư nhờ vào các mối quan hệ của mình và sử dụng số tiền này để bắt đầu nhanh chóng. Nó cũng không giống như các công ty lớn như Tencent, Ali và Baidu, những công ty có lợi thế không thể vượt qua về sức mạnh tính toán, tài năng và vốn.
Nhưng dựa vào sự hiểu biết sâu sắc của họ về công nghệ trí tuệ nhân tạo, những doanh nhân này vẫn có thể tìm ra hướng phát triển mới dưới sự tấn công.
Ví dụ, Lanzhou Technology do Zhou Ming, cựu phó chủ tịch Viện nghiên cứu Microsoft châu Á thành lập, khác với các sản phẩm mô hình quy mô lớn trên thị trường theo đuổi thông số hàng trăm tỷ, thậm chí hàng nghìn tỷ đồng. (Xử lý ngôn ngữ tự nhiên) từ năm 1980. Chuyên gia AI Trung Quốc hy vọng có thể giải quyết vấn đề về các kịch bản bên B bằng một mô hình nhẹ hơn.
Mô hình lớn Mạnh Tử do nó đưa ra đã từng sử dụng một tỷ tham số để làm mới danh sách CLUE của tiêu chuẩn đánh giá có thẩm quyền về khả năng hiểu ngôn ngữ Trung Quốc, trước đây bị thống trị bởi các mô hình có tham số ở cấp độ 10 tỷ và 100 tỷ.
Đây là một quyết định thực dụng. Vì mục đích bảo mật dữ liệu, hầu hết các doanh nghiệp sẽ không tải dữ liệu lên mà sẽ yêu cầu triển khai cục bộ, điều này sẽ làm tăng đáng kể chi phí. Trong một cuộc phỏng vấn với giới truyền thông, Zhou Ming đã chỉ ra rằng ngay cả khi chỉ triển khai suy luận cục bộ, sử dụng một mô hình lớn được đào tạo bài bản, một mô hình lớn với 100 tỷ tham số vẫn cần 8 đến 16 A100, tức là ít nhất một hoặc hai triệu nhân dân tệ đầu tư, "Đối với nhiều tình huống, khách hàng cần giá rẻ và giá cả phải chăng."
Luchen Technology, được thành lập bởi giáo sư trẻ You Yang, chủ tịch Đại học Quốc gia Singapore, hy vọng sẽ sử dụng công nghệ thuật toán để giảm chi phí gọi các mô hình lớn.
Ngày nay, dù là nhà máy lớn hay công ty mới thành lập đều phải đối mặt với vấn đề xu hướng đồng nhất hóa của các mô hình quy mô lớn trong nước ngày càng trở nên rõ ràng. Nếu vấn đề này không được giải quyết, các mô hình lớn trong tương lai có thể sẽ rơi vào tình trạng khó khăn về lợi nhuận thấp mà các nhà cung cấp dịch vụ đám mây hiện nay phải đối mặt.
You Yang nói với Times Finance rằng điều này là do chi phí lặp lại của cơ sở công nghệ cơ bản quá cao. Ông lấy GPT làm ví dụ, chi phí đào tạo của OpenAI lên tới 60 triệu đô la Mỹ mỗi lần, nó cần được đào tạo ba hoặc bốn tháng một lần và cần bốn hoặc năm lần đào tạo cho một lần lặp lại. Trên cơ sở này, mỗi lần lặp lại nền tảng kỹ thuật có thể tiêu tốn từ 200 triệu đến 300 triệu đô la Mỹ.
Chi phí quá cao dẫn đến cơ sở công nghệ cực kỳ khan hiếm trên thị trường. Về cơ bản chỉ có GPT, LLAMA và GLM trong nước. Tất cả các nhà sản xuất về cơ bản đều bắt chước những mô hình lớn này để tạo ra sản phẩm, điều này đã khiến vấn đề đồng nhất trở nên nổi bật hơn.
You Yang, người đã nghiên cứu về máy tính hiệu năng cao trong một thời gian dài, đã thành lập Luchen Technology. Hệ thống nguồn mở Colossal-AI hiện do công ty tung ra có thể giảm đáng kể chi phí phát triển và ứng dụng của đào tạo mô hình lớn AI, tinh chỉnh và suy luận thông qua các công nghệ như song song đa chiều hiệu quả và bộ nhớ không đồng nhất.
You Yang tin rằng chỉ khi chi phí đào tạo mô hình quy mô lớn giảm nhanh chóng hoặc khi các kỹ thuật tối ưu hóa tốt hơn được áp dụng để kiểm soát các tham số ở khoảng 20 tỷ mà vẫn đạt được hiệu quả tương tự như 100 tỷ tham số, thì các mô hình quy mô lớn sẽ thực sự nảy nở.ngày đó.