Resim kredisi: Sınırsız AI tarafından oluşturuldu
Yerli genel amaçlı büyük modellerin yakın dövüşü henüz bitmedi. Yaklaşık yarım yıllık bir uyku döneminden sonra çoğu oyuncu su yüzüne çıktı.
Bunların arasında biri yinelemeyi hızlandırır. Sogou Search'ün kurucusu Wang Xiaochuan tarafından kurulan Baichuan Intelligent, arkasında 53 milyar eğitim parametresi bulunan üçüncü büyük ölçekli model ürünü Baichuan-53B'yi 8 Ağustos'ta piyasaya sürdü. Şu anda, Wang Xiaochuan'ın büyük ölçekli model savaş alanına girdiğini duyurmasının üzerinden sadece 4 ay geçmişti ve başlangıç şirketi hızlı bir ilerleme kaydediyordu.
Baichuan Intelligent, Times Finance'e, 100 milyarı aşan parametrelere sahip büyük ölçekli modeller de dahil olmak üzere, gelecekte bir dizi ürünün piyasaya sürüleceğini açıkladı.
Kasvetli çıkışlar da vardı. Meituan'ın kurucu ortağı Wang Huiwen tarafından kurulan bu şirket, Source Code Capital ve Wuyuan Capital gibi tanınmış VC kurumlarının yanı sıra Meituan'ın kurucusu Wang Xing ve kurucusu Su Hua gibi İnternet devlerinin yatırımlarını çekmiştir. Kuaishou Bir zamanlar piyasa tarafından kabul ediliyordu Yerli büyük ölçekli model savaş alanındaki en güçlü oyunculardan biri.
Ancak Wang Huiwen'in Haziran sonunda sağlık sorunları nedeniyle istifa etmesi ve ışık yılları öteden sorumluluğa devam edememesi üzerine bu merakla beklenen büyük ölçekli startup şirket kendisini Meituan'a satmak zorunda kaldı ve bir grup yatırımcı da hisselerini geri çekti. hisseler.
Diğerleri başka bir yol buldu. Yapay zeka uzmanı Zhou Ming tarafından kurulan Lanzhou Technology, hafif modelleri vurguluyor ve B-tarafı sahne sorunlarını daha düşük maliyetle çözmeyi umuyor. Google'ın BERT modelinin eğitim süresini 3 günden 76 dakikaya indirmesine yardımcı olan genç bir profesör olan You Yang, büyük modelleri eğitmek için düşük maliyetli bir çözüm bulmaya çalışarak Luchen Technology'yi kurdu.
Buna karşılık, büyük üreticiler tarafından geliştirilen büyük ölçekli modellerin zamanı çoktan geçmiştir. Tencent'in kendi geliştirdiği Hunyuan büyük modeli ve Byte'ın AI diyalog ürünü Grace'in şirket içi test haberlerinden Ağustos ayının başına kadar çıkmamıştı ve belirli lansman zamanı hala bilinmiyor.
Ayrıca hala test aşamasında, Kai-Fu Lee tarafından kurulan AI 2.0 kuruluşu "01Wanwu" da var. 3 Temmuz'da düzenlenen döviz toplantısında Kai-fu Lee, şirketin 10 milyar parametrelik bir ölçekteki modelin dahili testini üç ay içinde başardığını ve şu anda 30 milyar ila 70 milyar parametrelik bir ölçeğe genişlemekte olduğunu açıkladı. . Ancak ürün henüz piyasaya açılmadı.
Daha piyasaya çıkmamış bu büyük ölçekli model ürünlerin teknoloji sektörüne ne tür değişiklikler getireceğini merakla beklemekte fayda var. Bu açıdan bakıldığında bu çekişme uzun sürebilir.
Wang Xiaochuan'a Saldırın
Wang Xiaochuan tarafından kurulan Baichuan Intelligent, inanılmaz ürün piyasaya sürme hızıyla pazarın dikkatini çekiyor.
Nisan ayında büyük ölçekli bir model inşa etmeyi bitireceğini açıkladıktan sonra, 7 milyar parametreli açık kaynaklı büyük ölçekli Baichuan-7B modelini 15 Haziran'da piyasaya sürmek sadece iki ay beş gün sürdü. Bir aydan kısa bir süre içinde, 13 milyar parametrelik açık kaynaklı büyük model Baichuan-13B daha piyasaya sürüldü.
8 Ağustos'ta piyasaya sürülen Baichuan-53B, bu büyük ölçekli model başlangıç şirketi tarafından altı ay içinde piyasaya sürülen üçüncü ürün ve Baichuan Intelligent hızlı bir ilerleme kaydediyor.
Baichuan Intelligence'dan sorumlu kişi, Times Finance'e, şirketin kurulmadan önce ön hazırlıklar için zaten çok zaman harcadığını ve baştan itibaren rota ve yöntemi net bir şekilde düşündüğünü söyledi.
Büyük bir model yapılırken üç düzeyin dikkate alınacağına işaret edildi: veri, algoritma ve bilgi işlem gücü. Bilgi işlem gücü ne olursa olsun, arama şirketleri doğal olarak mükemmel veri yeteneklerine sahiptir. kaliteli veri setleri.
Algoritma, doğal dil işlemeye odaklanır ve algoritma mühendisliği yinelenir.Tek bir mühendislik problemi değildir, ancak metin verileri tarafından yönlendirilir, algoritma ve mühendislik birlikte çalışır. Model geliştirmeyi yönlendirmek için veri değerlendirmeyi kullanarak önceki arama deneyimi de burada iyi bir rol oynayabilir.
"Yılların birikmiş teknolojisi ve tecrübesiyle Baichuan Intelligent, büyük ölçekli model ürünleri hızlı ve iyi bir şekilde yapabilir."
Ancak basın toplantısında Wang Xiaochuan, mevcut yerli genel amaçlı büyük modelin hala sınıflandırma ve yeniden üretim aşamasında olduğuna da dikkat çekti. Tüm üreticiler temel olarak OpenAI ile kıyaslama yapıyor ve homojenlik sorunu kaçınılmaz olarak ortaya çıkacak.
Bu nedenle, onun görüşüne göre, Amerika Birleşik Devletleri'ndeki kapalı kaynaklı büyük ölçekli modelin kafa modelinin sabitlendiği durumun aksine, "Çin'de kimin büyük ölçekli modelinin en iyi olduğu" konusunda bir sonuç yok. . Bu yakın dövüşte para önemlidir ama sonunda kararı verecek olanlar insanlar, ekip ve organizasyondur. Büyük şirketler daha fazla paraya, daha fazla insana ve daha fazla bilgi işlem gücüne sahiptir, ancak organizasyonel verimlilikleri genellikle yeterince iyi değildir.Yeni kurulan şirketlerin organizasyonel verimliliği iyi olabilir veya olmayabilir.
"Herkes fırsatlar için savaşıyor ve büyük fabrikalara düşmeleri gerekmiyor."
Wang Xiaochuan, röportajda Wang Huiwen'in çıkışından da bahsetti. Wang Huiwen'in Çin'deki birkaç ana akım büyük ölçekli model arasında güçlü bir teknik altyapıya sahip olmayan tek kişi olduğuna ve onun için zorluğun diğer şirketlerden daha büyük olduğuna işaret edildi. Çalışmada kimi işe alacağınız, hangi teknik yol haritasının alınacağı ve ne kadar bilgi işlem kaynağına ihtiyaç duyulacağı gibi verilmesi gereken birçok teknik karar vardır ve kesinlikle çok fazla karar verme baskısı ile karşı karşıya kalacaksınız.
"Büyük bir model yapmak stresli değil, teknik altyapı olmadan karar vermek için çok fazla baskı var. Ancak teknoloji yeterliyse, aslında oldukça keyifli."
Tencent, Byte çok gecikti
Büyük ölçekli modellerin yakın dövüşünün başlangıcında, İnternet devleri daha fazla bilgi işlem gücüne, yeteneğe, fona ve veriye sahip oldukları için güçlü rakipler olarak görülüyordu.
Baidu'nun kendi geliştirdiği Wenxin Yiyan, ilk olarak bu yıl Mart ayının sonunda piyasaya sürüldü; Alibaba'nın Tongyi Qianwen yakından takip etti ve 11 Nisan'da düzenlenen Alibaba Bulut Zirvesi'nde duyuruldu. Ali, Tongyi Qianwen'i serbest bırakmadan sadece bir gün önce, Wang Xiaochuan az önce sonunu duyurdu ve Baichuan Intelligent'i kurdu.
Buna karşılık, her ikisi de birinci sınıf üreticiler olan Tencent ve Byte, genel amaçlı büyük modelleri piyasaya sürmekte çok daha yavaş.
36kr raporlarına göre 3 Ağustos'ta Tencent'in kendi geliştirdiği "Tencent Hunyuan Büyük Modeli", uygulama içi test aşamasına girdi. Üç gün sonra, 6 Ağustos'ta Byte'ın AI diyalog ürünü Grace de ortaya çıktı ve iki aylık araştırma ve geliştirmenin ardından nihayet test aşamasına girdi.
Şu anda Baidu, Wenxin Yiyan'ı serbest bırakalı 4 ay oldu. Tencent'in genel amaçlı büyük ölçekli model ürünlerinin neden daha yavaş olduğuyla ilgili olarak Ma Huateng bir keresinde halka açık bir şekilde şöyle demişti: "Tencent ayrıca araştırma ve geliştirmeye dalmış durumda, ancak bunu erken bitirmek ve yarı mamul ürünleri göstermek için acele etmiyor. ”
Ancak "acelesi olmayan" Tencent, bu yılın haziran ayı ortasında "büyük endüstri modeli" rotasını duyurmada başı çekti ve 10 büyük sektör için tek seferde 50'den fazla çözüm ortaya çıkardı. Tesadüfen, ByteDance, birçok AI teknoloji şirketinin ve bilimsel araştırma enstitüsünün büyük ölçekli modellerini entegre ederek işletmelere eksiksiz bir platform hizmetleri yelpazesi sağlayan büyük ölçekli model hizmet platformu "Volcano Ark"ı da Haziran ayında piyasaya sürdü.
Pazar bir zamanlar büyük ölçekli endüstri modelinin bu iki büyük üreticinin çığır açması için bir yöntem olacağına inanıyordu.
Ancak durum böyle olmayabilir. Halihazırda savunulan büyük sanayi modelinin yerini alma riski her zaman vardır. HKBTÜ Xunfei'nin başkanı Wu Xiaoru, bir keresinde Times Finance'e 10 yıl önce konuşma tanıma teknolojisinde arama, araba kullanma ve ofis işleri gibi farklı senaryolara odaklanan birçok özel modelin bulunduğunu belirtmişti.
"Bence büyük modeller aynı aşamadan geçiyor."
Buna karşılık, daha uzun vadeli bir perspektiften bakıldığında, genel amaçlı büyük model gerçekten de platform düzeyinde büyük veya yıkıcı bir fırsatı temsil ediyor. Tam da bu nedenle ne Tencent ne de Byte ıskalamalarına izin veremezler, ilerleme yavaş olsa bile var olmakta ısrar etmelidirler.
Bazı Tencent çalışanları, Times Finance'e Tencent'in planının her zaman iki ayak üzerinde yürümek olduğunu ve GM ile endüstrinin el ele gittiğini belirtti. Sadece bazı radikal üreticilerle karşılaştırıldığında, ürünleri sosyal, oyun, reklam, içerik oluşturma ve diğer alanları kapsayan Tencent daha temkinli.
Akademik Girişimciler Başka Bir Yol Buluyor
Büyük ölçekli model savaş alanında, üniversitelerden ve araştırma kurumlarından akademik start-up şirketleri rekabetin üçüncü kutbunu oluşturuyor.
Wang Xiaochuan ve Wang Huiwen gibi tohumlanmış oyuncular değiller.İşlerinin başında, bağlantıları sayesinde yüz milyonlarca dolarlık yatırımı çekebilirler ve bunu hızlı bir şekilde başlamak için kullanabilirler. Tencent, Ali ve Baidu gibi bilgi işlem gücü, yetenekler ve sermaye açısından aşılmaz avantajlara sahip büyük şirketler gibi de değil.
Ancak yapay zeka teknolojisine ilişkin derinlemesine anlayışlarına güvenen bu girişimciler, saldırı altında yeni gelişme yönleri bulabilirler.
Örneğin Microsoft Asya Araştırma Enstitüsü'nün eski başkan yardımcısı Zhou Ming tarafından kurulan Lanzhou Technology, piyasadaki yüz milyarlarca hatta trilyonlarca parametrenin peşinden koşan büyük ölçekli model ürünlerden farklıdır.Bu kişi NLP eğitimi almıştır. (Doğal Dil İşleme) 1980'den beri. Çinli yapay zeka uzmanı, B tarafı senaryoları sorununu daha hafif bir modelle çözmeyi umuyor.
Başlattığı Mencius büyük modeli, daha önce 10 milyar ve 100 milyar düzey parametreli modellerin hakim olduğu Çince dilini anlama için yetkili değerlendirme ölçütünün CLUE listesini yenilemek için bir milyar parametre kullanmıştı.
Bu pragmatik bir karardır. Veri güvenliği adına, çoğu kuruluş veri yüklemeyecek, ancak yerelleştirilmiş dağıtım gerektirecek ve bu da maliyeti önemli ölçüde artıracaktır. Medya ile yapılan bir röportajda Zhou Ming, iyi eğitilmiş büyük bir model kullanarak yalnızca yerel çıkarım konuşlandırması olsa bile, 100 milyar parametreye sahip büyük bir modelin yine de 8 ila 16 A100'e ihtiyaç duyduğuna dikkat çekti. yatırımda iki milyon yuan, "Birçok senaryo için müşterilerin ucuz ve uygun fiyatlı olması gerekiyor."
Singapur Ulusal Üniversitesi başkanı genç profesör You Yang tarafından kurulan Luchen Technology, büyük modelleri çağırma maliyetini azaltmak için algoritma teknolojisini kullanmayı umuyor.
Günümüzde, ister büyük bir fabrika ister yeni kurulan bir şirket olsun, yerli büyük ölçekli modellerin homojenleşme eğiliminin giderek daha belirgin hale gelmesi sorunuyla yüzleşmek zorundadır. Bu sorun çözülmezse, gelecekte büyük modellerin bugün bulut hizmeti sağlayıcılarının karşılaştığı düşük marjlı duruma düşmesi muhtemeldir.
You Yang, Times Finance'e bunun temeldeki teknoloji tabanının yineleme maliyetinin çok yüksek olmasından kaynaklandığını söylediniz. Örnek olarak GPT'yi kullandı. OpenAI'nin eğitim maliyeti her seferinde 60 milyon ABD doları kadar yüksek. Her üç veya dört ayda bir eğitilmesi gerekiyor ve bir yineleme için dört veya beş eğitime ihtiyacı var. Bu temelde, teknik temelin her yinelemesi 200 milyon ila 300 milyon ABD dolarına mal olabilir.
Aşırı yüksek maliyetler, piyasada son derece kıt teknoloji temellerine yol açar. Temel olarak yalnızca GPT, LLAMA ve yerli GLM. Tüm üreticilerin ürün yapmak için temelde bu büyük modelleri taklit etmesi, homojenlik sorununun daha belirgin hale gelmesine neden olmuştur.
Uzun süredir yüksek performanslı bilgi işlem üzerine çalışan You Yang, Luchen Technology'yi kurdu. Şu anda şirket tarafından başlatılan açık kaynak sistemi Colossal-AI, verimli çok boyutlu paralellik ve heterojen bellek gibi teknolojiler aracılığıyla AI büyük model eğitimi, ince ayar ve akıl yürütmenin geliştirme ve uygulama maliyetlerini önemli ölçüde azaltabilir.
You Yang, yalnızca büyük ölçekli model eğitiminin maliyeti hızla düştüğünde veya parametreleri yaklaşık 20 milyarda kontrol etmek için daha iyi optimizasyon teknikleri benimsendiğinde ve yine de 100 milyar parametreyle aynı etkiyi elde ettiğinde büyük ölçekli modellerin olacağına inanıyor. o gün gerçekten güzelleş.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Büyük modeller için yarım yıllık şiddetli savaş, Tencent Byte'ın zamanı çoktan geçti
Orijinal kaynak: Times Finance
Yazar: Xie Silin
Yerli genel amaçlı büyük modellerin yakın dövüşü henüz bitmedi. Yaklaşık yarım yıllık bir uyku döneminden sonra çoğu oyuncu su yüzüne çıktı.
Bunların arasında biri yinelemeyi hızlandırır. Sogou Search'ün kurucusu Wang Xiaochuan tarafından kurulan Baichuan Intelligent, arkasında 53 milyar eğitim parametresi bulunan üçüncü büyük ölçekli model ürünü Baichuan-53B'yi 8 Ağustos'ta piyasaya sürdü. Şu anda, Wang Xiaochuan'ın büyük ölçekli model savaş alanına girdiğini duyurmasının üzerinden sadece 4 ay geçmişti ve başlangıç şirketi hızlı bir ilerleme kaydediyordu.
Baichuan Intelligent, Times Finance'e, 100 milyarı aşan parametrelere sahip büyük ölçekli modeller de dahil olmak üzere, gelecekte bir dizi ürünün piyasaya sürüleceğini açıkladı.
Kasvetli çıkışlar da vardı. Meituan'ın kurucu ortağı Wang Huiwen tarafından kurulan bu şirket, Source Code Capital ve Wuyuan Capital gibi tanınmış VC kurumlarının yanı sıra Meituan'ın kurucusu Wang Xing ve kurucusu Su Hua gibi İnternet devlerinin yatırımlarını çekmiştir. Kuaishou Bir zamanlar piyasa tarafından kabul ediliyordu Yerli büyük ölçekli model savaş alanındaki en güçlü oyunculardan biri.
Ancak Wang Huiwen'in Haziran sonunda sağlık sorunları nedeniyle istifa etmesi ve ışık yılları öteden sorumluluğa devam edememesi üzerine bu merakla beklenen büyük ölçekli startup şirket kendisini Meituan'a satmak zorunda kaldı ve bir grup yatırımcı da hisselerini geri çekti. hisseler.
Diğerleri başka bir yol buldu. Yapay zeka uzmanı Zhou Ming tarafından kurulan Lanzhou Technology, hafif modelleri vurguluyor ve B-tarafı sahne sorunlarını daha düşük maliyetle çözmeyi umuyor. Google'ın BERT modelinin eğitim süresini 3 günden 76 dakikaya indirmesine yardımcı olan genç bir profesör olan You Yang, büyük modelleri eğitmek için düşük maliyetli bir çözüm bulmaya çalışarak Luchen Technology'yi kurdu.
Buna karşılık, büyük üreticiler tarafından geliştirilen büyük ölçekli modellerin zamanı çoktan geçmiştir. Tencent'in kendi geliştirdiği Hunyuan büyük modeli ve Byte'ın AI diyalog ürünü Grace'in şirket içi test haberlerinden Ağustos ayının başına kadar çıkmamıştı ve belirli lansman zamanı hala bilinmiyor.
Ayrıca hala test aşamasında, Kai-Fu Lee tarafından kurulan AI 2.0 kuruluşu "01Wanwu" da var. 3 Temmuz'da düzenlenen döviz toplantısında Kai-fu Lee, şirketin 10 milyar parametrelik bir ölçekteki modelin dahili testini üç ay içinde başardığını ve şu anda 30 milyar ila 70 milyar parametrelik bir ölçeğe genişlemekte olduğunu açıkladı. . Ancak ürün henüz piyasaya açılmadı.
Daha piyasaya çıkmamış bu büyük ölçekli model ürünlerin teknoloji sektörüne ne tür değişiklikler getireceğini merakla beklemekte fayda var. Bu açıdan bakıldığında bu çekişme uzun sürebilir.
Wang Xiaochuan'a Saldırın
Wang Xiaochuan tarafından kurulan Baichuan Intelligent, inanılmaz ürün piyasaya sürme hızıyla pazarın dikkatini çekiyor.
Nisan ayında büyük ölçekli bir model inşa etmeyi bitireceğini açıkladıktan sonra, 7 milyar parametreli açık kaynaklı büyük ölçekli Baichuan-7B modelini 15 Haziran'da piyasaya sürmek sadece iki ay beş gün sürdü. Bir aydan kısa bir süre içinde, 13 milyar parametrelik açık kaynaklı büyük model Baichuan-13B daha piyasaya sürüldü.
8 Ağustos'ta piyasaya sürülen Baichuan-53B, bu büyük ölçekli model başlangıç şirketi tarafından altı ay içinde piyasaya sürülen üçüncü ürün ve Baichuan Intelligent hızlı bir ilerleme kaydediyor.
Baichuan Intelligence'dan sorumlu kişi, Times Finance'e, şirketin kurulmadan önce ön hazırlıklar için zaten çok zaman harcadığını ve baştan itibaren rota ve yöntemi net bir şekilde düşündüğünü söyledi.
Büyük bir model yapılırken üç düzeyin dikkate alınacağına işaret edildi: veri, algoritma ve bilgi işlem gücü. Bilgi işlem gücü ne olursa olsun, arama şirketleri doğal olarak mükemmel veri yeteneklerine sahiptir. kaliteli veri setleri.
Algoritma, doğal dil işlemeye odaklanır ve algoritma mühendisliği yinelenir.Tek bir mühendislik problemi değildir, ancak metin verileri tarafından yönlendirilir, algoritma ve mühendislik birlikte çalışır. Model geliştirmeyi yönlendirmek için veri değerlendirmeyi kullanarak önceki arama deneyimi de burada iyi bir rol oynayabilir.
"Yılların birikmiş teknolojisi ve tecrübesiyle Baichuan Intelligent, büyük ölçekli model ürünleri hızlı ve iyi bir şekilde yapabilir."
Ancak basın toplantısında Wang Xiaochuan, mevcut yerli genel amaçlı büyük modelin hala sınıflandırma ve yeniden üretim aşamasında olduğuna da dikkat çekti. Tüm üreticiler temel olarak OpenAI ile kıyaslama yapıyor ve homojenlik sorunu kaçınılmaz olarak ortaya çıkacak.
Bu nedenle, onun görüşüne göre, Amerika Birleşik Devletleri'ndeki kapalı kaynaklı büyük ölçekli modelin kafa modelinin sabitlendiği durumun aksine, "Çin'de kimin büyük ölçekli modelinin en iyi olduğu" konusunda bir sonuç yok. . Bu yakın dövüşte para önemlidir ama sonunda kararı verecek olanlar insanlar, ekip ve organizasyondur. Büyük şirketler daha fazla paraya, daha fazla insana ve daha fazla bilgi işlem gücüne sahiptir, ancak organizasyonel verimlilikleri genellikle yeterince iyi değildir.Yeni kurulan şirketlerin organizasyonel verimliliği iyi olabilir veya olmayabilir.
"Herkes fırsatlar için savaşıyor ve büyük fabrikalara düşmeleri gerekmiyor."
Wang Xiaochuan, röportajda Wang Huiwen'in çıkışından da bahsetti. Wang Huiwen'in Çin'deki birkaç ana akım büyük ölçekli model arasında güçlü bir teknik altyapıya sahip olmayan tek kişi olduğuna ve onun için zorluğun diğer şirketlerden daha büyük olduğuna işaret edildi. Çalışmada kimi işe alacağınız, hangi teknik yol haritasının alınacağı ve ne kadar bilgi işlem kaynağına ihtiyaç duyulacağı gibi verilmesi gereken birçok teknik karar vardır ve kesinlikle çok fazla karar verme baskısı ile karşı karşıya kalacaksınız.
"Büyük bir model yapmak stresli değil, teknik altyapı olmadan karar vermek için çok fazla baskı var. Ancak teknoloji yeterliyse, aslında oldukça keyifli."
Tencent, Byte çok gecikti
Büyük ölçekli modellerin yakın dövüşünün başlangıcında, İnternet devleri daha fazla bilgi işlem gücüne, yeteneğe, fona ve veriye sahip oldukları için güçlü rakipler olarak görülüyordu.
Baidu'nun kendi geliştirdiği Wenxin Yiyan, ilk olarak bu yıl Mart ayının sonunda piyasaya sürüldü; Alibaba'nın Tongyi Qianwen yakından takip etti ve 11 Nisan'da düzenlenen Alibaba Bulut Zirvesi'nde duyuruldu. Ali, Tongyi Qianwen'i serbest bırakmadan sadece bir gün önce, Wang Xiaochuan az önce sonunu duyurdu ve Baichuan Intelligent'i kurdu.
Buna karşılık, her ikisi de birinci sınıf üreticiler olan Tencent ve Byte, genel amaçlı büyük modelleri piyasaya sürmekte çok daha yavaş.
36kr raporlarına göre 3 Ağustos'ta Tencent'in kendi geliştirdiği "Tencent Hunyuan Büyük Modeli", uygulama içi test aşamasına girdi. Üç gün sonra, 6 Ağustos'ta Byte'ın AI diyalog ürünü Grace de ortaya çıktı ve iki aylık araştırma ve geliştirmenin ardından nihayet test aşamasına girdi.
Şu anda Baidu, Wenxin Yiyan'ı serbest bırakalı 4 ay oldu. Tencent'in genel amaçlı büyük ölçekli model ürünlerinin neden daha yavaş olduğuyla ilgili olarak Ma Huateng bir keresinde halka açık bir şekilde şöyle demişti: "Tencent ayrıca araştırma ve geliştirmeye dalmış durumda, ancak bunu erken bitirmek ve yarı mamul ürünleri göstermek için acele etmiyor. ”
Ancak "acelesi olmayan" Tencent, bu yılın haziran ayı ortasında "büyük endüstri modeli" rotasını duyurmada başı çekti ve 10 büyük sektör için tek seferde 50'den fazla çözüm ortaya çıkardı. Tesadüfen, ByteDance, birçok AI teknoloji şirketinin ve bilimsel araştırma enstitüsünün büyük ölçekli modellerini entegre ederek işletmelere eksiksiz bir platform hizmetleri yelpazesi sağlayan büyük ölçekli model hizmet platformu "Volcano Ark"ı da Haziran ayında piyasaya sürdü.
Pazar bir zamanlar büyük ölçekli endüstri modelinin bu iki büyük üreticinin çığır açması için bir yöntem olacağına inanıyordu.
Ancak durum böyle olmayabilir. Halihazırda savunulan büyük sanayi modelinin yerini alma riski her zaman vardır. HKBTÜ Xunfei'nin başkanı Wu Xiaoru, bir keresinde Times Finance'e 10 yıl önce konuşma tanıma teknolojisinde arama, araba kullanma ve ofis işleri gibi farklı senaryolara odaklanan birçok özel modelin bulunduğunu belirtmişti.
"Bence büyük modeller aynı aşamadan geçiyor."
Buna karşılık, daha uzun vadeli bir perspektiften bakıldığında, genel amaçlı büyük model gerçekten de platform düzeyinde büyük veya yıkıcı bir fırsatı temsil ediyor. Tam da bu nedenle ne Tencent ne de Byte ıskalamalarına izin veremezler, ilerleme yavaş olsa bile var olmakta ısrar etmelidirler.
Bazı Tencent çalışanları, Times Finance'e Tencent'in planının her zaman iki ayak üzerinde yürümek olduğunu ve GM ile endüstrinin el ele gittiğini belirtti. Sadece bazı radikal üreticilerle karşılaştırıldığında, ürünleri sosyal, oyun, reklam, içerik oluşturma ve diğer alanları kapsayan Tencent daha temkinli.
Akademik Girişimciler Başka Bir Yol Buluyor
Büyük ölçekli model savaş alanında, üniversitelerden ve araştırma kurumlarından akademik start-up şirketleri rekabetin üçüncü kutbunu oluşturuyor.
Wang Xiaochuan ve Wang Huiwen gibi tohumlanmış oyuncular değiller.İşlerinin başında, bağlantıları sayesinde yüz milyonlarca dolarlık yatırımı çekebilirler ve bunu hızlı bir şekilde başlamak için kullanabilirler. Tencent, Ali ve Baidu gibi bilgi işlem gücü, yetenekler ve sermaye açısından aşılmaz avantajlara sahip büyük şirketler gibi de değil.
Ancak yapay zeka teknolojisine ilişkin derinlemesine anlayışlarına güvenen bu girişimciler, saldırı altında yeni gelişme yönleri bulabilirler.
Örneğin Microsoft Asya Araştırma Enstitüsü'nün eski başkan yardımcısı Zhou Ming tarafından kurulan Lanzhou Technology, piyasadaki yüz milyarlarca hatta trilyonlarca parametrenin peşinden koşan büyük ölçekli model ürünlerden farklıdır.Bu kişi NLP eğitimi almıştır. (Doğal Dil İşleme) 1980'den beri. Çinli yapay zeka uzmanı, B tarafı senaryoları sorununu daha hafif bir modelle çözmeyi umuyor.
Başlattığı Mencius büyük modeli, daha önce 10 milyar ve 100 milyar düzey parametreli modellerin hakim olduğu Çince dilini anlama için yetkili değerlendirme ölçütünün CLUE listesini yenilemek için bir milyar parametre kullanmıştı.
Bu pragmatik bir karardır. Veri güvenliği adına, çoğu kuruluş veri yüklemeyecek, ancak yerelleştirilmiş dağıtım gerektirecek ve bu da maliyeti önemli ölçüde artıracaktır. Medya ile yapılan bir röportajda Zhou Ming, iyi eğitilmiş büyük bir model kullanarak yalnızca yerel çıkarım konuşlandırması olsa bile, 100 milyar parametreye sahip büyük bir modelin yine de 8 ila 16 A100'e ihtiyaç duyduğuna dikkat çekti. yatırımda iki milyon yuan, "Birçok senaryo için müşterilerin ucuz ve uygun fiyatlı olması gerekiyor."
Singapur Ulusal Üniversitesi başkanı genç profesör You Yang tarafından kurulan Luchen Technology, büyük modelleri çağırma maliyetini azaltmak için algoritma teknolojisini kullanmayı umuyor.
Günümüzde, ister büyük bir fabrika ister yeni kurulan bir şirket olsun, yerli büyük ölçekli modellerin homojenleşme eğiliminin giderek daha belirgin hale gelmesi sorunuyla yüzleşmek zorundadır. Bu sorun çözülmezse, gelecekte büyük modellerin bugün bulut hizmeti sağlayıcılarının karşılaştığı düşük marjlı duruma düşmesi muhtemeldir.
You Yang, Times Finance'e bunun temeldeki teknoloji tabanının yineleme maliyetinin çok yüksek olmasından kaynaklandığını söylediniz. Örnek olarak GPT'yi kullandı. OpenAI'nin eğitim maliyeti her seferinde 60 milyon ABD doları kadar yüksek. Her üç veya dört ayda bir eğitilmesi gerekiyor ve bir yineleme için dört veya beş eğitime ihtiyacı var. Bu temelde, teknik temelin her yinelemesi 200 milyon ila 300 milyon ABD dolarına mal olabilir.
Aşırı yüksek maliyetler, piyasada son derece kıt teknoloji temellerine yol açar. Temel olarak yalnızca GPT, LLAMA ve yerli GLM. Tüm üreticilerin ürün yapmak için temelde bu büyük modelleri taklit etmesi, homojenlik sorununun daha belirgin hale gelmesine neden olmuştur.
Uzun süredir yüksek performanslı bilgi işlem üzerine çalışan You Yang, Luchen Technology'yi kurdu. Şu anda şirket tarafından başlatılan açık kaynak sistemi Colossal-AI, verimli çok boyutlu paralellik ve heterojen bellek gibi teknolojiler aracılığıyla AI büyük model eğitimi, ince ayar ve akıl yürütmenin geliştirme ve uygulama maliyetlerini önemli ölçüde azaltabilir.
You Yang, yalnızca büyük ölçekli model eğitiminin maliyeti hızla düştüğünde veya parametreleri yaklaşık 20 milyarda kontrol etmek için daha iyi optimizasyon teknikleri benimsendiğinde ve yine de 100 milyar parametreyle aynı etkiyi elde ettiğinde büyük ölçekli modellerin olacağına inanıyor. o gün gerçekten güzelleş.