Setengah tahun pertempuran sengit untuk model besar, Tencent Byte sudah lama tertunda

Sumber asli: Times Finance

Pengarang: Xie Silin

Kredit gambar: Dihasilkan oleh AI‌ Tak Terbatas

Huru-hara model besar tujuan umum domestik masih jauh dari selesai. Setelah masa tidak aktif sekitar setengah tahun, sebagian besar pemain muncul.

Di antaranya, seseorang mempercepat iterasi. Pada 8 Agustus, Baichuan Intelligent, yang didirikan oleh Wang Xiaochuan, pendiri Sogou Search, merilis produk model skala besar ketiga Baichuan-53B, dengan 53 miliar parameter pelatihan di belakangnya. Saat ini, hanya 4 bulan sejak Wang Xiaochuan mengumumkan masuknya dia ke medan perang model skala besar, dan perusahaan baru itu membuat kemajuan pesat.

Ini baru permulaan, Baichuan Intelligent mengungkapkan kepada Times Finance bahwa akan ada sejumlah produk yang dirilis di masa mendatang, termasuk model skala besar dengan parameter melebihi 100 miliar.

Ada juga jalan keluar yang suram. Didirikan oleh Wang Huiwen, salah satu pendiri Meituan, telah menarik institusi VC terkenal seperti Source Code Capital dan Wuyuan Capital, serta investasi dari raksasa internet seperti Wang Xing, pendiri Meituan, dan Su Hua, pendiri Kuaishou Pernah dianggap oleh pasar Itu adalah salah satu pemain paling kuat di medan perang model skala besar domestik.

Namun, karena Wang Huiwen mengundurkan diri karena masalah kesehatan pada akhir Juni dan tidak dapat terus bertanggung jawab dalam beberapa tahun cahaya, perusahaan rintisan skala besar yang sangat dinantikan ini harus menjual dirinya ke Meituan, dan sekelompok investor juga menarik diri mereka. saham.

Yang lain telah menemukan cara lain. Lanzhou Technology, yang didirikan oleh pakar AI Zhou Ming, menekankan model yang ringan dan berharap dapat memecahkan masalah B-side scene dengan biaya lebih rendah. You Yang, seorang profesor muda yang membantu Google mengurangi waktu pelatihan model BERT dari 3 hari menjadi 76 menit, mendirikan Luchen Technology, mencoba menerobos dengan solusi berbiaya rendah untuk melatih model besar.

Sebaliknya, model skala besar yang dikembangkan oleh pabrikan besar sudah lama tertunda. Baru pada awal Agustus model besar Hunyuan yang dikembangkan sendiri oleh Tencent dan produk dialog AI Byte Grace keluar dari berita pengujian internal, dan waktu peluncuran spesifiknya masih belum diketahui.

Juga masih dalam tahap pengujian, ada juga perusahaan AI 2.0 "01Wanwu" yang didirikan oleh Kai-Fu Lee. Pada pertemuan valuta asing yang diadakan pada 3 Juli, Kai-fu Lee mengungkapkan bahwa perusahaan telah mencapai pengujian internal model dengan skala 10 miliar parameter dalam waktu tiga bulan, dan saat ini sedang berkembang ke skala 30 miliar hingga 70 miliar parameter. . Namun, produk tersebut belum dibuka ke pasar.

Perlu dinantikan perubahan seperti apa yang akan dibawa oleh produk model skala besar yang belum dirilis ini ke industri teknologi. Dari perspektif ini, perkelahian ini bisa berlangsung lama.

Serang Wang Xiaochuan

Baichuan Intelligent, yang didirikan oleh Wang Xiaochuan, menarik perhatian pasar dengan kecepatan rilis produknya yang luar biasa.

Setelah mengumumkan pada bulan April bahwa mereka akan membangun model skala besar, hanya butuh dua bulan dan lima hari untuk merilis model skala besar open source Baichuan-7B dengan 7 miliar parameter pada 15 Juni. Dalam waktu kurang dari sebulan, 13 miliar parameter open source model besar Baichuan-13B lainnya dirilis.

Baichuan-53B yang dirilis pada 8 Agustus sudah menjadi produk ketiga yang dirilis oleh perusahaan rintisan model skala besar ini dalam waktu setengah tahun, dan Baichuan Intelligent membuat kemajuan pesat.

Orang yang bertanggung jawab atas Intelijen Baichuan menjawab kepada Times Finance bahwa perusahaan telah menghabiskan banyak waktu untuk persiapan awal sebelum didirikan, dan memikirkan dengan jelas tentang rute dan metode sejak awal.

Ini menunjukkan bahwa tiga level akan dipertimbangkan saat membuat model besar: data, algoritme, dan daya komputasi. Terlepas dari daya komputasi, perusahaan pencari secara alami memiliki kemampuan data yang sangat baik. Tim inti Baichuan Intelligence telah melakukan pengambilan data, ekstraksi, pembersihan, deduplikasi, anti-spam, dan operasi lainnya selama 20 tahun, yang dapat memperoleh data lebih cepat. kumpulan data berkualitas.

Algoritme berpusat pada pemrosesan bahasa alami, dan rekayasa algoritme diulang. Ini bukan masalah rekayasa tunggal, tetapi didorong oleh data teks, algoritme dan rekayasa bekerja sama. Pengalaman sebelumnya dalam penelusuran juga dapat berperan baik di sini, menggunakan evaluasi data untuk mendorong peningkatan model.

"Dengan akumulasi teknologi dan pengalaman bertahun-tahun, Baichuan Intelligent dapat membuat produk model skala besar dengan cepat dan baik."

Namun, pada konferensi pers, Wang Xiaochuan juga menunjukkan bahwa model besar untuk keperluan umum domestik saat ini masih dalam tahap klasifikasi dan reproduksi. Semua pabrikan pada dasarnya membandingkan dengan OpenAI, dan masalah homogenitas pasti akan muncul.

Karena itu, dalam pandangannya, tidak seperti situasi di mana pola kepala model skala besar sumber tertutup di Amerika Serikat telah diperbaiki, tidak ada kesimpulan tentang "model skala besar siapa yang terbaik di China" . Dalam huru-hara ini, uang memang penting, tetapi pada akhirnya orang, tim, dan organisasilah yang membuat keputusan. Perusahaan besar memiliki lebih banyak uang, lebih banyak orang, dan lebih banyak daya komputasi, tetapi efisiensi organisasi mereka biasanya belum tentu cukup baik. Efisiensi organisasi perusahaan pemula mungkin baik atau mungkin tidak baik.

"Semua orang berjuang untuk mendapatkan peluang, dan peluang itu tidak selalu jatuh di pabrik besar."

Wang Xiaochuan juga berbicara tentang keluarnya Wang Huiwen dalam wawancara tersebut. Ini menunjukkan bahwa Wang Huiwen adalah satu-satunya di antara beberapa model skala besar arus utama di China yang tidak memiliki latar belakang teknis yang kuat, dan tantangan baginya lebih besar daripada perusahaan lain. Ada banyak keputusan teknis yang harus dibuat dalam pekerjaan, seperti siapa yang akan direkrut, peta jalan teknis apa yang harus diambil, dan berapa banyak sumber daya komputasi yang dibutuhkan, dan Anda pasti akan menghadapi banyak tekanan pengambilan keputusan.

"Bukan berarti membuat model besar itu membuat stres, tetapi ada banyak tekanan untuk membuat keputusan tanpa latar belakang teknis. Tapi jika teknologinya memadai, itu sebenarnya cukup menyenangkan."

Tencent, Byte sudah lama tertunda

Pada awal pertarungan model berskala besar, raksasa internet dianggap sebagai pesaing yang kuat karena mereka memiliki daya komputasi, talenta, dana, dan data yang lebih besar.

Wenxin Yiyan yang dikembangkan sendiri oleh Baidu pertama kali diluncurkan pada akhir Maret tahun ini; Tongyi Qianwen dari Alibaba mengikuti dari dekat dan diumumkan di Alibaba Cloud Summit yang diadakan pada 11 April. Tepat sehari sebelum Ali melepaskan Tongyi Qianwen, Wang Xiaochuan baru saja mengumumkan ajalnya dan mendirikan Baichuan Intelligent.

Sebaliknya, Tencent dan Byte, yang merupakan pabrikan tingkat pertama, jauh lebih lambat dalam meluncurkan model besar untuk keperluan umum.

Pada tanggal 3 Agustus, menurut laporan 36kr, "Tencent Hunyuan Large Model" yang dikembangkan sendiri oleh Tencent telah memasuki tahap pengujian internal aplikasi. Tiga hari kemudian, pada 6 Agustus, produk dialog AI Byte Grace juga terungkap Setelah dua bulan penelitian dan pengembangan, akhirnya memasuki tahap pengujian.

Saat ini, sudah 4 bulan sejak Baidu merilis Wenxin Yiyan. Mengenai alasan mengapa produk model skala besar tujuan umum Tencent lebih lambat, Ma Huateng pernah menyatakan secara terbuka, “Tencent juga tenggelam dalam penelitian dan pengembangan, tetapi tidak terburu-buru untuk menyelesaikannya lebih awal dan menunjukkan produk setengah jadi .”

Namun, Tencent, yang "tidak terburu-buru", memimpin dalam mengumumkan rute "model industri besar" pada pertengahan Juni tahun ini, mengeluarkan lebih dari 50 solusi untuk 10 industri besar sekaligus. Secara kebetulan, ByteDance juga merilis platform layanan model skala besar "Volcano Ark" pada bulan Juni, yang menyediakan berbagai layanan platform bagi perusahaan dengan mengintegrasikan model skala besar dari banyak perusahaan teknologi AI dan lembaga penelitian ilmiah.

Pasar pernah percaya bahwa model industri skala besar akan menjadi metode bagi dua pabrikan besar ini untuk menerobos.

Tapi mungkin bukan itu masalahnya. Selalu ada risiko digantikan oleh model industri besar yang saat ini diadvokasi. Wu Xiaoru, presiden HKUST Xunfei, pernah menunjukkan kepada Times Finance bahwa 10 tahun yang lalu, dalam teknologi pengenalan ucapan, ada banyak model khusus yang berfokus pada berbagai skenario seperti menelepon, mengemudi, dan pekerjaan kantor. Model tersebut juga keluar.

"Saya pikir model besar melewati fase yang sama."

Sebaliknya, dari perspektif jangka panjang, model besar tujuan umum benar-benar mewakili peluang tingkat platform atau gangguan yang besar. Justru karena ini baik Tencent maupun Byte tidak dapat membiarkan diri mereka ketinggalan, bahkan jika kemajuannya lambat, mereka harus bersikeras untuk hadir.

Beberapa orang dalam Tencent menunjukkan kepada Times Finance bahwa rencana Tencent selalu berjalan dengan dua kaki, dan GM serta industri berjalan seiring. Hanya saja, dibandingkan dengan beberapa pabrikan radikal, Tencent yang produknya mencakup sosial, game, periklanan, pembuatan konten, dan bidang lainnya, lebih berhati-hati.

Pengusaha Akademik Temukan Cara Lain

Di medan perang model skala besar, perusahaan rintisan akademis dari universitas dan lembaga penelitian membentuk tiang persaingan ketiga.

Mereka bukan pemain unggulan seperti Wang Xiaochuan dan Wang Huiwen.Pada awal bisnis mereka, mereka dapat menarik investasi ratusan juta dolar berdasarkan koneksi mereka, dan menggunakan ini untuk memulai dengan cepat. Ini juga tidak seperti perusahaan besar seperti Tencent, Ali, dan Baidu, yang memiliki keunggulan yang tidak dapat diatasi dalam daya komputasi, bakat, dan modal.

Namun dengan mengandalkan pemahaman mendalam mereka tentang teknologi kecerdasan buatan, para pengusaha ini masih dapat menemukan arah pengembangan baru di bawah serangan tersebut.

Misalnya, Lanzhou Technology, yang didirikan oleh Zhou Ming, mantan wakil presiden Microsoft Asia Research Institute, berbeda dengan produk model skala besar di pasar yang mengejar ratusan miliar bahkan triliunan parameter. Orang ini telah mempelajari NLP (Natural Language Processing) sejak 1980. Pakar AI China berharap dapat memecahkan masalah skenario sisi-B dengan model yang lebih ringan.

Model besar Mencius yang diluncurkan olehnya pernah menggunakan satu miliar parameter untuk memperbarui daftar CLUE dari tolok ukur evaluasi otoritatif untuk pemahaman bahasa Mandarin, yang sebelumnya didominasi oleh model dengan parameter level 10 miliar dan 100 miliar.

Ini adalah keputusan pragmatis. Demi keamanan data, sebagian besar perusahaan tidak akan mengunggah data, tetapi memerlukan penerapan lokal, yang akan meningkatkan biaya secara signifikan. Dalam sebuah wawancara dengan media, Zhou Ming menunjukkan bahwa meskipun hanya penerapan inferensi lokal, menggunakan model besar yang terlatih dengan baik, model besar dengan 100 miliar parameter masih membutuhkan 8 hingga 16 A100, yang setidaknya satu atau dua investasi dua juta yuan, "Untuk banyak skenario, pelanggan harus murah dan terjangkau."

Luchen Technology, yang didirikan oleh profesor muda You Yang, presiden National University of Singapore, berharap dapat menggunakan teknologi algoritme untuk mengurangi biaya pemanggilan model besar.

Saat ini, apakah itu pabrik besar atau perusahaan baru, harus menghadapi masalah bahwa tren homogenisasi model skala besar domestik menjadi semakin jelas. Jika masalah ini tidak diselesaikan, model besar di masa mendatang kemungkinan besar akan jatuh ke dalam kesulitan margin rendah yang dihadapi oleh penyedia layanan cloud saat ini.

You Yang memberi tahu Times Finance bahwa ini karena biaya iterasi dari basis teknologi yang mendasarinya terlalu tinggi. Dia menggunakan GPT sebagai contoh. Biaya pelatihan OpenAI setiap kali mencapai 60 juta dolar AS. Perlu dilatih setiap tiga atau empat bulan, dan perlu empat atau lima pelatihan untuk satu iterasi. Atas dasar ini, setiap iterasi yayasan teknis dapat menelan biaya 200 juta hingga 300 juta dolar AS.

Biaya yang terlalu tinggi menyebabkan basis teknologi yang sangat langka di pasar. Pada dasarnya hanya GPT, LLAMA, dan GLM domestik. Semua pabrikan pada dasarnya meniru model besar ini untuk membuat produk, yang menyebabkan masalah homogenitas menjadi lebih menonjol.

You Yang, yang telah lama mempelajari komputasi kinerja tinggi, mendirikan Teknologi Luchen. Sistem open source Colossal-AI yang saat ini diluncurkan oleh perusahaan dapat secara signifikan mengurangi biaya pengembangan dan penerapan pelatihan model besar AI, penyempurnaan dan penalaran melalui teknologi seperti paralelisme multidimensi yang efisien dan memori heterogen.

You Yang percaya bahwa hanya ketika biaya pelatihan model skala besar turun dengan cepat, atau ketika teknik pengoptimalan yang lebih baik diadopsi untuk mengontrol parameter sekitar 20 miliar, dan masih mencapai efek yang sama dengan 100 miliar parameter, model skala besar akan benar-benar berkembang hari itu.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)