Рукопашний бій вітчизняних універсальних великогабаритних моделей далекий від завершення. Після періоду спокою приблизно півроку більшість гравців з’явилися.
Серед них хтось прискорює ітерацію. 8 серпня компанія Baichuan Intelligent, заснована Ван Сяочуанем, засновником Sogou Search, випустила свою третю масштабну модель продукту Baichuan-53B із 53 мільярдами параметрів навчання. На той час минуло лише 4 місяці, як Ван Сяочуань оголосив про свій вихід на поле битви великомасштабних моделей, і нова компанія швидко прогресувала.
Це лише початок. Baichuan Intelligent розповіла Times Finance, що в майбутньому буде випущено різноманітні продукти, включаючи великомасштабні моделі з параметрами, що перевищують 100 мільярдів.
Були й похмурі виходи. Заснований Ван Хуйвенем, співзасновником Meituan, він залучив відомі установи венчурного капіталу, такі як Source Code Capital і Wuyuan Capital, а також інвестиції таких інтернет-гігантів, як Ван Сін, засновник Meituan, і Су Хуа, засновник Куайшоу Колись вважався ринком, це один із найпотужніших гравців на національному полі битви великомасштабних моделей.
Однак, оскільки наприкінці червня Ван Хуйвен пішов у відставку через проблеми зі здоров’ям і не зміг продовжувати керувати світловими роками, ця довгоочікувана велика стартап-компанія була змушена продати себе Meituan, а група інвесторів також відкликала свої акції.
Інші знайшли інший шлях. Lanzhou Technology, заснована експертом зі штучного інтелекту Чжоу Міном, наголошує на легких моделях і сподівається вирішити проблеми зі сценою B за нижчу ціну. Ю Ян, молодий професор, який допоміг Google скоротити час навчання моделі BERT з 3 днів до 76 хвилин, створив компанію Luchen Technology, намагаючись прорватися з недорогим рішенням для навчання великих моделей.
На відміну від цього, великомасштабні моделі, розроблені великими виробниками, давно назріли. Лише на початку серпня велика модель Hunyuan, розроблена власними силами Tencent, і діалоговий продукт Byte зі штучним інтелектом Grace вийшли з новин внутрішнього тестування, і конкретний час запуску досі невідомий.
Крім того, ще на стадії тестування є також підприємство AI 2.0 «01Wanwu», засноване Кай-Фу Лі. На валютній зустрічі, що відбулася 3 липня, Кай-Фу Лі повідомив, що компанія досягла внутрішнього тестування моделі з масштабом 10 мільярдів параметрів протягом трьох місяців і наразі розширюється до масштабу від 30 мільярдів до 70 мільярдів параметрів. . Однак продукт ще не вийшов на ринок.
Варто з нетерпінням чекати, які зміни внесуть у технологічну індустрію ці неопубліковані великомасштабні моделі продуктів. З цієї точки зору ця сутичка може тривати довго.
Напад на Ван Сяочуань
Компанія Baichuan Intelligent, заснована Ван Сяочуанем, привертає увагу ринку дивовижною швидкістю випуску продукту.
Після того, як у квітні було оголошено про створення великомасштабної моделі, знадобилося лише два місяці та п’ять днів, щоб 15 червня випустити великомасштабну модель Baichuan-7B із відкритим вихідним кодом із 7 мільярдами параметрів. Менш ніж за місяць була випущена ще одна велика модель Baichuan-13B з відкритим вихідним кодом із 13 мільярдами параметрів.
Baichuan-53B, випущений 8 серпня, є вже третім продуктом, випущеним цією великомасштабною компанією-стартапом протягом півроку, і Baichuan Intelligent швидко прогресує.
Керівник Baichuan Intelligence відповів Times Finance, що компанія вже витратила багато часу на попередню підготовку перед своїм створенням і з самого початку чітко продумала маршрут і метод.
Зазначається, що при створенні великої моделі будуть враховуватися три рівні: дані, алгоритм і обчислювальна потужність. Незалежно від обчислювальної потужності пошукові компанії, природно, мають чудові можливості обробки даних. Основна команда Baichuan Intelligence протягом 20 років займається збором даних, вилученням, очищенням, дедуплікацією, захистом від спаму та іншими операціями, які можуть отримувати дані швидше. якісні набори даних.
Алгоритм зосереджений на обробці природної мови, а розробка алгоритму повторюється. Це не окрема інженерна проблема, але керована текстовими даними, алгоритм і інженерія працюють разом. Попередній досвід пошуку також може зіграти добру роль тут, використовуючи оцінку даних для покращення моделі.
«Завдяки рокам накопичених технологій і досвіду Baichuan Intelligent може швидко й якісно виготовляти великомасштабні моделі».
Однак на прес-конференції Ван Сяочуань також зазначив, що поточна вітчизняна велика модель загального призначення все ще перебуває на стадії класифікації та відтворення. Усі виробники в основному порівнюють OpenAI, і проблема однорідності неминуче виникне.
Через це, на його думку, на відміну від ситуації, коли шаблон голови закритої великомасштабної моделі в США був зафіксований, немає висновку про те, «чия великомасштабна модель найкраща в Китаї». . У цій сутичці гроші важливі, але врешті-решт люди, команда та організація приймають рішення. Великі компанії мають більше грошей, більше людей і більше обчислювальної потужності, але їх організаційна ефективність, як правило, не обов’язково достатньо хороша. Організаційна ефективність компаній-початківців може бути хорошою, а може й ні.
«Кожен бореться за можливості, і вони не обов’язково потрапляють на великі заводи».
Ван Сяочуань також говорив про відхід Ван Хуйвеня в інтерв'ю. Він зазначив, що Ван Хуйвен є єдиним серед кількох основних великомасштабних моделей у Китаї, який не має сильного технічного досвіду, і виклик для нього є більшим, ніж для інших компаній. У роботі потрібно прийняти багато технічних рішень, наприклад, кого найняти, яку технічну дорожню карту взяти та скільки обчислювальних ресурсів потрібно, і ви, безумовно, зіткнетеся з великим тиском прийняття рішень.
«Справа не в тому, що створення великої моделі є стресом, а в тому, що є великий тиск, щоб приймати рішення без технічної підготовки. Але якщо технологія достатня, це насправді дуже приємно».
Tencent, Byte давно прострочено
На початку сутички масштабних моделей інтернет-гіганти вважалися сильними конкурентами, оскільки мали більше обчислювальної потужності, талантів, коштів і даних.
Wenxin Yiyan власної розробки Baidu був вперше запущений наприкінці березня цього року; Tongyi Qianwen від Alibaba уважно слідкував за цим і був оголошений на саміті Alibaba Cloud Summit 11 квітня. Буквально за день до того, як Алі звільнив Tongyi Qianwen, Ван Сяочуань щойно оголосив про свій кінець і створив Baichuan Intelligent.
Навпаки, Tencent і Byte, які є виробниками першого рівня, набагато повільніше запускають великі моделі загального призначення.
3 серпня, згідно зі звітами 36kr, власно розроблена Tencent «Tencent Hunyuan Large Model» увійшла до стадії внутрішнього тестування програми. Через три дні, 6 серпня, також був представлений діалоговий продукт Byte зі штучним інтелектом Grace, який після двох місяців досліджень і розробок нарешті перейшов на стадію тестування.
На цей час минуло 4 місяці, як Baidu випустив Wenxin Yiyan. Стосовно причини, чому універсальні великомасштабні моделі продукції Tencent працюють повільніше, Ма Хуатенг одного разу публічно заявив: «Tencent також занурена в дослідження та розробки, але не поспішає закінчувати їх раніше та показувати напівфабрикати. .”
Проте Tencent, яка «не поспішає», взяла на себе ініціативу в оголошенні маршруту «моделі великої промисловості» в середині червня цього року, викинувши більше 50 рішень для 10 основних галузей за один раз. За збігом обставин у червні ByteDance також випустив платформу обслуговування великомасштабних моделей «Volcano Ark», яка надає підприємствам повний спектр послуг платформи шляхом інтеграції великомасштабних моделей багатьох технологічних компаній ШІ та науково-дослідних інститутів.
Колись ринок вважав, що модель великої промисловості стане методом прориву для цих двох великих виробників.
Але це може бути не так. Завжди існує ризик бути заміненим моделлю великої індустрії, яку зараз пропагують. Ву Сяору, президент HKUST Xunfei, якось зазначив Times Finance, що 10 років тому в технології розпізнавання мовлення було багато спеціальних моделей, які зосереджувалися на різних сценаріях, таких як дзвінки, водіння та офісна робота. Модель також вийшла.
«Я думаю, що великі моделі проходять ту саму фазу».
Навпаки, з довгострокової перспективи велика модель загального призначення дійсно представляє велику можливість на рівні платформи або руйнівну можливість. Саме через це ні Tencent, ні Byte не можуть дозволити собі пропустити, навіть якщо прогрес повільний, вони повинні наполягати на присутності.
Деякі інсайдери Tencent зазначили Times Finance, що план Tencent завжди полягав у тому, щоб ходити на двох ногах, а GM і галузь йдуть рука об руку. Просто в порівнянні з деякими радикальними виробниками Tencent, чия продукція охоплює соціалку, ігри, рекламу, створення контенту та інші сфери, більш обережна.
Академічні підприємці знаходять інший шлях
На полі битви великомасштабних моделей академічні стартап-компанії з університетів і науково-дослідних установ утворюють третій полюс конкуренції.
Вони не є сіяними гравцями, як Ван Сяочуань і Ван Хуйвен. На початку свого бізнесу вони можуть залучити сотні мільйонів доларів інвестицій завдяки своїм зв’язкам і використати це, щоб швидко почати. Це також не схоже на такі великі компанії, як Tencent, Ali та Baidu, які мають непереборні переваги в обчислювальній потужності, талантах і капіталі.
Але покладаючись на своє глибоке розуміння технології штучного інтелекту, ці підприємці все ще можуть знайти нові напрямки розвитку під ударом.
Наприклад, Lanzhou Technology, заснована Чжоу Міном, колишнім віце-президентом Microsoft Asia Research Institute, відрізняється від широкомасштабних модельних продуктів на ринку, які переслідують сотні мільярдів або навіть трильйонів параметрів. Ця людина вивчає НЛП (Обробка природної мови) з 1980 року. Китайський експерт зі штучного інтелекту сподівається вирішити проблему сценаріїв B-side за допомогою більш легкої моделі.
Велика модель Mencius, запущена нею, свого часу використовувала один мільярд параметрів, щоб оновити список CLUE авторитетного еталонного тесту для розуміння китайської мови, в якому раніше домінували моделі з параметрами рівнів 10 мільярдів і 100 мільярдів.
Це прагматичне рішення. З міркувань безпеки даних більшість підприємств не завантажуватимуть дані, а вимагатимуть локалізованого розгортання, що значно збільшить вартість. В інтерв’ю ЗМІ Чжоу Мін зазначив, що навіть якщо це лише локальне розгортання логічного висновку з використанням добре навченої великої моделі, велика модель зі 100 мільярдами параметрів все одно потребує від 8 до 16 A100, що є принаймні одним або два мільйони юанів інвестицій, «Для багатьох сценаріїв клієнти повинні бути дешевими та доступними».
Компанія Luchen Technology, заснована молодим професором Ю Янгом, президентом Національного університету Сінгапуру, сподівається використовувати технологію алгоритму для зниження вартості виклику великих моделей.
Сьогодні, незалежно від того, чи це велика фабрика, чи нова компанія, вона повинна зіткнутися з проблемою, що тенденція гомогенізації вітчизняних великомасштабних моделей стає все більш очевидною. Якщо цю проблему не вирішити, великі моделі в майбутньому, швидше за все, потраплять у скрутне становище з низькою рентабельністю, з яким стикаються сьогодні постачальники хмарних послуг.
Ю Янг сказав Times Finance, що це тому, що вартість ітерації базової технологічної бази занадто висока. Як приклад він навів GPT.Вартість навчання OpenAI досягає 60 мільйонів доларів США щоразу.Її потрібно навчати кожні три-чотири місяці, а для однієї ітерації потрібно чотири-п’ять тренувань. Виходячи з цього, кожна ітерація технічної основи може коштувати від 200 до 300 мільйонів доларів США.
Надмірно високі витрати призводять до надзвичайно дефіцитної технологічної бази на ринку. В основному лише GPT, LLAMA та вітчизняний GLM. Усі виробники в основному імітують ці великі моделі, щоб виробляти продукти, що призвело до того, що проблема однорідності стала більш помітною.
Ю Ян, який тривалий час вивчає високопродуктивні обчислення, створив Luchen Technology. Система з відкритим кодом Colossal-AI, яку зараз запускає компанія, може значно знизити витрати на розробку та застосування великої моделі штучного інтелекту, навчання, тонке налаштування та міркування за допомогою таких технологій, як ефективний багатовимірний паралелізм і гетерогенна пам’ять.
Ю Янг вважає, що тільки тоді, коли витрати на навчання великомасштабної моделі швидко впадуть або коли будуть прийняті кращі методи оптимізації для контролю параметрів на рівні приблизно 20 мільярдів і все одно досягнуто такого ж ефекту, як 100 мільярдів параметрів, великомасштабні моделі будуть створені. по-справжньому процвітати в той день.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Півроку запеклої боротьби за великі моделі Tencent Byte вже давно
Джерело: Times Finance
Автор: Се Сілін
Рукопашний бій вітчизняних універсальних великогабаритних моделей далекий від завершення. Після періоду спокою приблизно півроку більшість гравців з’явилися.
Серед них хтось прискорює ітерацію. 8 серпня компанія Baichuan Intelligent, заснована Ван Сяочуанем, засновником Sogou Search, випустила свою третю масштабну модель продукту Baichuan-53B із 53 мільярдами параметрів навчання. На той час минуло лише 4 місяці, як Ван Сяочуань оголосив про свій вихід на поле битви великомасштабних моделей, і нова компанія швидко прогресувала.
Це лише початок. Baichuan Intelligent розповіла Times Finance, що в майбутньому буде випущено різноманітні продукти, включаючи великомасштабні моделі з параметрами, що перевищують 100 мільярдів.
Були й похмурі виходи. Заснований Ван Хуйвенем, співзасновником Meituan, він залучив відомі установи венчурного капіталу, такі як Source Code Capital і Wuyuan Capital, а також інвестиції таких інтернет-гігантів, як Ван Сін, засновник Meituan, і Су Хуа, засновник Куайшоу Колись вважався ринком, це один із найпотужніших гравців на національному полі битви великомасштабних моделей.
Однак, оскільки наприкінці червня Ван Хуйвен пішов у відставку через проблеми зі здоров’ям і не зміг продовжувати керувати світловими роками, ця довгоочікувана велика стартап-компанія була змушена продати себе Meituan, а група інвесторів також відкликала свої акції.
Інші знайшли інший шлях. Lanzhou Technology, заснована експертом зі штучного інтелекту Чжоу Міном, наголошує на легких моделях і сподівається вирішити проблеми зі сценою B за нижчу ціну. Ю Ян, молодий професор, який допоміг Google скоротити час навчання моделі BERT з 3 днів до 76 хвилин, створив компанію Luchen Technology, намагаючись прорватися з недорогим рішенням для навчання великих моделей.
На відміну від цього, великомасштабні моделі, розроблені великими виробниками, давно назріли. Лише на початку серпня велика модель Hunyuan, розроблена власними силами Tencent, і діалоговий продукт Byte зі штучним інтелектом Grace вийшли з новин внутрішнього тестування, і конкретний час запуску досі невідомий.
Крім того, ще на стадії тестування є також підприємство AI 2.0 «01Wanwu», засноване Кай-Фу Лі. На валютній зустрічі, що відбулася 3 липня, Кай-Фу Лі повідомив, що компанія досягла внутрішнього тестування моделі з масштабом 10 мільярдів параметрів протягом трьох місяців і наразі розширюється до масштабу від 30 мільярдів до 70 мільярдів параметрів. . Однак продукт ще не вийшов на ринок.
Варто з нетерпінням чекати, які зміни внесуть у технологічну індустрію ці неопубліковані великомасштабні моделі продуктів. З цієї точки зору ця сутичка може тривати довго.
Напад на Ван Сяочуань
Компанія Baichuan Intelligent, заснована Ван Сяочуанем, привертає увагу ринку дивовижною швидкістю випуску продукту.
Після того, як у квітні було оголошено про створення великомасштабної моделі, знадобилося лише два місяці та п’ять днів, щоб 15 червня випустити великомасштабну модель Baichuan-7B із відкритим вихідним кодом із 7 мільярдами параметрів. Менш ніж за місяць була випущена ще одна велика модель Baichuan-13B з відкритим вихідним кодом із 13 мільярдами параметрів.
Baichuan-53B, випущений 8 серпня, є вже третім продуктом, випущеним цією великомасштабною компанією-стартапом протягом півроку, і Baichuan Intelligent швидко прогресує.
Керівник Baichuan Intelligence відповів Times Finance, що компанія вже витратила багато часу на попередню підготовку перед своїм створенням і з самого початку чітко продумала маршрут і метод.
Зазначається, що при створенні великої моделі будуть враховуватися три рівні: дані, алгоритм і обчислювальна потужність. Незалежно від обчислювальної потужності пошукові компанії, природно, мають чудові можливості обробки даних. Основна команда Baichuan Intelligence протягом 20 років займається збором даних, вилученням, очищенням, дедуплікацією, захистом від спаму та іншими операціями, які можуть отримувати дані швидше. якісні набори даних.
Алгоритм зосереджений на обробці природної мови, а розробка алгоритму повторюється. Це не окрема інженерна проблема, але керована текстовими даними, алгоритм і інженерія працюють разом. Попередній досвід пошуку також може зіграти добру роль тут, використовуючи оцінку даних для покращення моделі.
«Завдяки рокам накопичених технологій і досвіду Baichuan Intelligent може швидко й якісно виготовляти великомасштабні моделі».
Однак на прес-конференції Ван Сяочуань також зазначив, що поточна вітчизняна велика модель загального призначення все ще перебуває на стадії класифікації та відтворення. Усі виробники в основному порівнюють OpenAI, і проблема однорідності неминуче виникне.
Через це, на його думку, на відміну від ситуації, коли шаблон голови закритої великомасштабної моделі в США був зафіксований, немає висновку про те, «чия великомасштабна модель найкраща в Китаї». . У цій сутичці гроші важливі, але врешті-решт люди, команда та організація приймають рішення. Великі компанії мають більше грошей, більше людей і більше обчислювальної потужності, але їх організаційна ефективність, як правило, не обов’язково достатньо хороша. Організаційна ефективність компаній-початківців може бути хорошою, а може й ні.
«Кожен бореться за можливості, і вони не обов’язково потрапляють на великі заводи».
Ван Сяочуань також говорив про відхід Ван Хуйвеня в інтерв'ю. Він зазначив, що Ван Хуйвен є єдиним серед кількох основних великомасштабних моделей у Китаї, який не має сильного технічного досвіду, і виклик для нього є більшим, ніж для інших компаній. У роботі потрібно прийняти багато технічних рішень, наприклад, кого найняти, яку технічну дорожню карту взяти та скільки обчислювальних ресурсів потрібно, і ви, безумовно, зіткнетеся з великим тиском прийняття рішень.
«Справа не в тому, що створення великої моделі є стресом, а в тому, що є великий тиск, щоб приймати рішення без технічної підготовки. Але якщо технологія достатня, це насправді дуже приємно».
Tencent, Byte давно прострочено
На початку сутички масштабних моделей інтернет-гіганти вважалися сильними конкурентами, оскільки мали більше обчислювальної потужності, талантів, коштів і даних.
Wenxin Yiyan власної розробки Baidu був вперше запущений наприкінці березня цього року; Tongyi Qianwen від Alibaba уважно слідкував за цим і був оголошений на саміті Alibaba Cloud Summit 11 квітня. Буквально за день до того, як Алі звільнив Tongyi Qianwen, Ван Сяочуань щойно оголосив про свій кінець і створив Baichuan Intelligent.
Навпаки, Tencent і Byte, які є виробниками першого рівня, набагато повільніше запускають великі моделі загального призначення.
3 серпня, згідно зі звітами 36kr, власно розроблена Tencent «Tencent Hunyuan Large Model» увійшла до стадії внутрішнього тестування програми. Через три дні, 6 серпня, також був представлений діалоговий продукт Byte зі штучним інтелектом Grace, який після двох місяців досліджень і розробок нарешті перейшов на стадію тестування.
На цей час минуло 4 місяці, як Baidu випустив Wenxin Yiyan. Стосовно причини, чому універсальні великомасштабні моделі продукції Tencent працюють повільніше, Ма Хуатенг одного разу публічно заявив: «Tencent також занурена в дослідження та розробки, але не поспішає закінчувати їх раніше та показувати напівфабрикати. .”
Проте Tencent, яка «не поспішає», взяла на себе ініціативу в оголошенні маршруту «моделі великої промисловості» в середині червня цього року, викинувши більше 50 рішень для 10 основних галузей за один раз. За збігом обставин у червні ByteDance також випустив платформу обслуговування великомасштабних моделей «Volcano Ark», яка надає підприємствам повний спектр послуг платформи шляхом інтеграції великомасштабних моделей багатьох технологічних компаній ШІ та науково-дослідних інститутів.
Колись ринок вважав, що модель великої промисловості стане методом прориву для цих двох великих виробників.
Але це може бути не так. Завжди існує ризик бути заміненим моделлю великої індустрії, яку зараз пропагують. Ву Сяору, президент HKUST Xunfei, якось зазначив Times Finance, що 10 років тому в технології розпізнавання мовлення було багато спеціальних моделей, які зосереджувалися на різних сценаріях, таких як дзвінки, водіння та офісна робота. Модель також вийшла.
«Я думаю, що великі моделі проходять ту саму фазу».
Навпаки, з довгострокової перспективи велика модель загального призначення дійсно представляє велику можливість на рівні платформи або руйнівну можливість. Саме через це ні Tencent, ні Byte не можуть дозволити собі пропустити, навіть якщо прогрес повільний, вони повинні наполягати на присутності.
Деякі інсайдери Tencent зазначили Times Finance, що план Tencent завжди полягав у тому, щоб ходити на двох ногах, а GM і галузь йдуть рука об руку. Просто в порівнянні з деякими радикальними виробниками Tencent, чия продукція охоплює соціалку, ігри, рекламу, створення контенту та інші сфери, більш обережна.
Академічні підприємці знаходять інший шлях
На полі битви великомасштабних моделей академічні стартап-компанії з університетів і науково-дослідних установ утворюють третій полюс конкуренції.
Вони не є сіяними гравцями, як Ван Сяочуань і Ван Хуйвен. На початку свого бізнесу вони можуть залучити сотні мільйонів доларів інвестицій завдяки своїм зв’язкам і використати це, щоб швидко почати. Це також не схоже на такі великі компанії, як Tencent, Ali та Baidu, які мають непереборні переваги в обчислювальній потужності, талантах і капіталі.
Але покладаючись на своє глибоке розуміння технології штучного інтелекту, ці підприємці все ще можуть знайти нові напрямки розвитку під ударом.
Наприклад, Lanzhou Technology, заснована Чжоу Міном, колишнім віце-президентом Microsoft Asia Research Institute, відрізняється від широкомасштабних модельних продуктів на ринку, які переслідують сотні мільярдів або навіть трильйонів параметрів. Ця людина вивчає НЛП (Обробка природної мови) з 1980 року. Китайський експерт зі штучного інтелекту сподівається вирішити проблему сценаріїв B-side за допомогою більш легкої моделі.
Велика модель Mencius, запущена нею, свого часу використовувала один мільярд параметрів, щоб оновити список CLUE авторитетного еталонного тесту для розуміння китайської мови, в якому раніше домінували моделі з параметрами рівнів 10 мільярдів і 100 мільярдів.
Це прагматичне рішення. З міркувань безпеки даних більшість підприємств не завантажуватимуть дані, а вимагатимуть локалізованого розгортання, що значно збільшить вартість. В інтерв’ю ЗМІ Чжоу Мін зазначив, що навіть якщо це лише локальне розгортання логічного висновку з використанням добре навченої великої моделі, велика модель зі 100 мільярдами параметрів все одно потребує від 8 до 16 A100, що є принаймні одним або два мільйони юанів інвестицій, «Для багатьох сценаріїв клієнти повинні бути дешевими та доступними».
Компанія Luchen Technology, заснована молодим професором Ю Янгом, президентом Національного університету Сінгапуру, сподівається використовувати технологію алгоритму для зниження вартості виклику великих моделей.
Сьогодні, незалежно від того, чи це велика фабрика, чи нова компанія, вона повинна зіткнутися з проблемою, що тенденція гомогенізації вітчизняних великомасштабних моделей стає все більш очевидною. Якщо цю проблему не вирішити, великі моделі в майбутньому, швидше за все, потраплять у скрутне становище з низькою рентабельністю, з яким стикаються сьогодні постачальники хмарних послуг.
Ю Янг сказав Times Finance, що це тому, що вартість ітерації базової технологічної бази занадто висока. Як приклад він навів GPT.Вартість навчання OpenAI досягає 60 мільйонів доларів США щоразу.Її потрібно навчати кожні три-чотири місяці, а для однієї ітерації потрібно чотири-п’ять тренувань. Виходячи з цього, кожна ітерація технічної основи може коштувати від 200 до 300 мільйонів доларів США.
Надмірно високі витрати призводять до надзвичайно дефіцитної технологічної бази на ринку. В основному лише GPT, LLAMA та вітчизняний GLM. Усі виробники в основному імітують ці великі моделі, щоб виробляти продукти, що призвело до того, що проблема однорідності стала більш помітною.
Ю Ян, який тривалий час вивчає високопродуктивні обчислення, створив Luchen Technology. Система з відкритим кодом Colossal-AI, яку зараз запускає компанія, може значно знизити витрати на розробку та застосування великої моделі штучного інтелекту, навчання, тонке налаштування та міркування за допомогою таких технологій, як ефективний багатовимірний паралелізм і гетерогенна пам’ять.
Ю Янг вважає, що тільки тоді, коли витрати на навчання великомасштабної моделі швидко впадуть або коли будуть прийняті кращі методи оптимізації для контролю параметрів на рівні приблизно 20 мільярдів і все одно досягнуто такого ж ефекту, як 100 мільярдів параметрів, великомасштабні моделі будуть створені. по-справжньому процвітати в той день.