Битва отечественных крупногабаритных моделей общего назначения далека от завершения. После полугодового периода покоя большинство игроков вышли на поверхность.
Среди них кто-то ускоряет итерацию. 8 августа компания Baichuan Intelligent, основанная Ван Сяочуанем, основателем Sogou Search, выпустила свой третий крупномасштабный модельный продукт Baichuan-53B, за которым стоит 53 миллиарда тренировочных параметров. В то время прошло всего 4 месяца с тех пор, как Ван Сяочуань объявил о своем выходе на поле битвы крупномасштабных моделей, и начинающая компания быстро развивалась.
Это только начало.Компания Baichuan Intelligent сообщила Times Finance, что в будущем будет выпущен ряд продуктов, в том числе крупномасштабные модели с параметрами, превышающими 100 миллиардов.
Были и мрачные выходы. Основанная Ван Хуэйвэнем, соучредителем Meituan, она привлекла известные венчурные фонды, такие как Source Code Capital и Wuyuan Capital, а также инвестиции интернет-гигантов, таких как Ван Син, основатель Meituan, и Су Хуа, основатель Kuaishou Когда-то считалось рынком Это один из самых мощных игроков на отечественном поле битвы крупномасштабных моделей.
Однако, поскольку Ван Хуэйвэнь подал в отставку из-за проблем со здоровьем в конце июня и не мог продолжать управлять световыми годами, эта долгожданная крупномасштабная стартап-компания была вынуждена продать себя Meituan, и группа инвесторов также отозвала свои акции.
Другие нашли другой путь. Компания Lanzhou Technology, основанная экспертом по искусственному интеллекту Чжоу Мином, уделяет особое внимание облегченным моделям и надеется решить проблемы со сценой на стороне B с меньшими затратами. Ю Ян, молодой профессор, который помог Google сократить время обучения модели BERT с 3 дней до 76 минут, основал Luchen Technology, пытаясь прорваться с недорогим решением для обучения больших моделей.
Напротив, крупномасштабные модели, разработанные крупными производителями, давно назрели. Только в начале августа самостоятельно разработанная Tencent большая модель Hunyuan и диалоговый продукт Byte с искусственным интеллектом Grace вышли из новостей внутреннего тестирования, и конкретное время запуска до сих пор неизвестно.
Также все еще в стадии тестирования находится предприятие AI 2.0 «01Wanwu», основанное Кай-Фу Ли. На встрече по обмену валюты, состоявшейся 3 июля, Кай-фу Ли сообщил, что компания провела внутреннее тестирование модели с масштабом 10 миллиардов параметров в течение трех месяцев и в настоящее время расширяется до масштаба от 30 до 70 миллиардов параметров. . Однако продукт еще не вышел на рынок.
Какие изменения эти невыпущенные крупномасштабные продукты привнесут в технологическую отрасль, стоит с нетерпением ждать. С этой точки зрения эта потасовка может длиться долго.
Атаковать Ван Сяочуаня
Baichuan Intelligent, основанная Ван Сяочуанем, привлекает внимание рынка своей удивительной скоростью выпуска продукции.
После объявления в апреле о том, что в конечном итоге будет построена крупномасштабная модель, потребовалось всего два месяца и пять дней, чтобы 15 июня выпустить крупномасштабную модель с открытым исходным кодом Baichuan-7B с 7 миллиардами параметров. Менее чем за месяц была выпущена еще одна крупная модель с открытым исходным кодом Baichuan-13B с 13 миллиардами параметров.
Baichuan-53B, выпущенный 8 августа, является уже третьим продуктом, выпущенным этой крупной модельной компанией за последние полгода, и Baichuan Intelligent быстро развивается.
Ответственный за Baichuan Intelligence ответил Times Finance, что компания уже потратила много времени на предварительную подготовку перед ее созданием и с самого начала четко продумывала маршрут и метод.
В нем указано, что при создании большой модели будут учитываться три уровня: данные, алгоритм и вычислительная мощность. Независимо от вычислительной мощности, поисковые компании, естественно, обладают отличными возможностями обработки данных.Основная команда Baichuan Intelligence занимается сбором данных, извлечением, очисткой, дедупликацией, защитой от спама и другими операциями в течение 20 лет, что позволяет быстрее получать данные. качественные наборы данных.
Алгоритм сосредоточен на обработке естественного языка, а разработка алгоритма повторяется.Это не отдельная инженерная проблема, а управляемая текстовыми данными, алгоритм и инженерия работают вместе. Предыдущий опыт поиска также может сыграть здесь хорошую роль, используя оценку данных для улучшения модели.
«Благодаря годам накопленных технологий и опыта Baichuan Intelligent может быстро и качественно производить крупномасштабные модели».
Однако на пресс-конференции Ван Сяочуань также отметил, что текущая отечественная крупная модель общего назначения все еще находится на стадии классификации и воспроизведения. Все производители в основном проводят бенчмаркинг с OpenAI, и неизбежно возникает проблема однородности.
Из-за этого, по его мнению, в отличие от ситуации, в которой зафиксировался головной паттерн закрытой крупномасштабной модели в США, не делается вывод о том, «чья крупномасштабная модель в Китае лучшая». . В этой рукопашной схватке важны деньги, но, в конце концов, решение принимают люди, команда и организация. У крупных компаний больше денег, больше людей и больше вычислительной мощности, но их организационная эффективность обычно не обязательно достаточно высока.Организационная эффективность начинающих компаний может быть хорошей, а может и не быть.
«Все борются за возможности, и они не обязательно выпадают на крупных фабриках».
Ван Сяочуань также рассказал об уходе Ван Хуэйвэня в интервью. Он указал, что Wang Huiwen — единственный из нескольких основных крупномасштабных моделей в Китае, у которого нет сильного технического образования, и задача для него больше, чем для других компаний. В работе необходимо принять множество технических решений, например, кого нанять, какую техническую дорожную карту выбрать и сколько вычислительных ресурсов необходимо, и вы определенно столкнетесь с большим давлением при принятии решений.
«Дело не в том, что создание большой модели вызывает стресс, а в том, что приходится принимать решения без технического образования. Но если технология достаточна, это на самом деле довольно приятно».
Tencent, Байт давно просрочен
В начале схватки крупномасштабных моделей интернет-гиганты считались сильными конкурентами, поскольку у них было больше вычислительной мощности, талантов, средств и данных.
Платформа Wenxin Yiyan, разработанная Baidu, была впервые запущена в конце марта этого года; Tongyi Qianwen от Alibaba последовала за ней, о чем было объявлено на саммите Alibaba Cloud Summit, состоявшемся 11 апреля. За день до того, как Али освободил Тунъи Цяньвэня, Ван Сяочуань только что объявил о своем уходе и основал Baichuan Intelligent.
Напротив, Tencent и Byte, которые являются производителями первого уровня, намного медленнее запускают крупные модели общего назначения.
3 августа, согласно отчетам 36kr, самостоятельно разработанная Tencent «Tencent Hunyuan Large Model» вступила в стадию внутреннего тестирования приложения. Спустя три дня, 6 августа, диалоговый продукт Byte с искусственным интеллектом Grace был также представлен, и после двух месяцев исследований и разработок он, наконец, вышел на стадию тестирования.
На данный момент прошло 4 месяца с тех пор, как Baidu выпустила Wenxin Yiyan. Относительно того, почему масштабные модельные продукты общего назначения Tencent работают медленнее, Ма Хуатенг однажды публично заявил: «Tencent также погружена в исследования и разработки, но не спешит заканчивать их раньше и показывать полуфабрикаты. ».
Тем не менее, Tencent, которая «не торопится», взяла на себя инициативу в объявлении маршрута «модели большой индустрии» в середине июня этого года, выкинув более 50 решений для 10 основных отраслей за один раз. Так совпало, что в июне ByteDance также выпустила платформу обслуживания крупномасштабных моделей «Вулканический ковчег», которая предоставляет предприятиям полный спектр услуг платформы за счет интеграции крупномасштабных моделей многих компаний, занимающихся технологиями искусственного интеллекта, и научно-исследовательских институтов.
Когда-то рынок считал, что крупномасштабная отраслевая модель станет методом прорыва для этих двух крупных производителей.
Но это может быть не так. Всегда существует риск быть замененным моделью большой индустрии, которую сейчас отстаивают. Ву Сяору, президент HKUST Xunfei, однажды указал Times Finance, что 10 лет назад в технологии распознавания речи существовало множество специальных моделей, ориентированных на различные сценарии, такие как звонки, вождение и работа в офисе.
«Я думаю, что большие модели проходят ту же фазу».
Напротив, в долгосрочной перспективе универсальная крупная модель действительно представляет собой масштабную платформу или революционную возможность. Именно из-за этого ни Tencent, ни Byte не могут позволить себе промахнуться, даже если прогресс идет медленно, они должны настаивать на своем присутствии.
Некоторые инсайдеры Tencent указали Times Finance, что план Tencent всегда заключался в том, чтобы ходить на двух ногах, а GM и отрасль идут рука об руку. Просто по сравнению с некоторыми радикальными производителями, Tencent, чьи продукты охватывают социальные сети, игры, рекламу, создание контента и другие области, более осторожна.
Предприниматели-академики находят другой путь
На крупномасштабном модельном поле битвы академические стартапы из университетов и исследовательских институтов образуют третий полюс конкуренции.
Это не посевные игроки, как Ван Сяочуань и Ван Хуэйвэнь.В начале своего бизнеса они могут привлечь сотни миллионов долларов инвестиций благодаря своим связям и использовать это для быстрого старта. Это также не похоже на такие крупные компании, как Tencent, Ali и Baidu, обладающие непреодолимыми преимуществами в вычислительной мощности, талантах и капитале.
Но, опираясь на свое глубокое понимание технологии искусственного интеллекта, эти предприниматели все же могут найти новые направления развития под ударом.
Например, компания Lanzhou Technology, основанная Чжоу Мином, бывшим вице-президентом азиатского исследовательского института Microsoft, отличается от представленных на рынке крупномасштабных модельных продуктов, учитывающих сотни миллиардов или даже триллионов параметров. (обработка естественного языка) с 1980 года. Китайский эксперт по ИИ надеется решить проблему сценариев на стороне B с помощью более легкой модели.
Запущенная ею большая модель Mencius когда-то использовала миллиард параметров для обновления списка CLUE авторитетного оценочного эталона понимания китайского языка, в котором ранее доминировали модели с параметрами 10 миллиардов и 100 миллиардов уровней.
Это прагматичное решение. Ради безопасности данных большинство предприятий не будут загружать данные, а потребуют локализованного развертывания, что значительно увеличит стоимость. В интервью средствам массовой информации Чжоу Мин отметил, что даже если это только локальное развертывание вывода с использованием хорошо обученной большой модели, для большой модели со 100 миллиардами параметров все равно требуется от 8 до 16 A100, что составляет как минимум один или два миллиона юаней инвестиций: «Во многих сценариях клиенты должны быть дешевыми и доступными».
Компания Luchen Technology, основанная молодым профессором Ю Янгом, президентом Национального университета Сингапура, надеется использовать технологию алгоритмов для снижения стоимости вызова больших моделей.
В настоящее время, будь то крупная фабрика или начинающая компания, она должна столкнуться с проблемой, заключающейся в том, что тенденция к гомогенизации отечественных крупномасштабных моделей становится все более и более очевидной. Если эта проблема не будет решена, большие модели в будущем, вероятно, окажутся в затруднительном положении с низкой маржой, с которой сегодня сталкиваются поставщики облачных услуг.
Ю Ян сказал Times Finance, что это связано с тем, что стоимость итерации базовой технологической базы слишком высока. В качестве примера он привел GPT. Стоимость обучения OpenAI достигает 60 миллионов долларов США каждый раз. Его нужно обучать каждые три-четыре месяца, и для одной итерации требуется четыре или пять тренировок. Исходя из этого, каждая итерация технического фундамента может стоить от 200 до 300 миллионов долларов США.
Чрезмерно высокие затраты приводят к крайне дефицитным технологическим базам на рынке. В основном только GPT, LLAMA и отечественный GLM. Все производители в основном имитируют эти большие модели для производства продуктов, что делает проблему однородности более заметной.
Ю Ян, долгое время изучавший высокопроизводительные вычисления, основал Luchen Technology. Система с открытым исходным кодом Colossal-AI, запущенная в настоящее время компанией, может значительно снизить затраты на разработку и применение для обучения больших моделей ИИ, тонкой настройки и рассуждений с помощью таких технологий, как эффективный многомерный параллелизм и гетерогенная память.
Ю Ян считает, что только тогда, когда стоимость обучения крупномасштабных моделей быстро снизится или когда будут приняты более совершенные методы оптимизации для управления параметрами примерно на 20 миллиардах и при этом будет достигнут тот же эффект, что и при 100 миллиардах параметров, крупномасштабные модели по-настоящему расцветать в тот день.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Полгода ожесточенной борьбы за большие модели, Tencent Byte давно пора
Первоисточник: Таймс Финанс
Автор: Се Силинь
Битва отечественных крупногабаритных моделей общего назначения далека от завершения. После полугодового периода покоя большинство игроков вышли на поверхность.
Среди них кто-то ускоряет итерацию. 8 августа компания Baichuan Intelligent, основанная Ван Сяочуанем, основателем Sogou Search, выпустила свой третий крупномасштабный модельный продукт Baichuan-53B, за которым стоит 53 миллиарда тренировочных параметров. В то время прошло всего 4 месяца с тех пор, как Ван Сяочуань объявил о своем выходе на поле битвы крупномасштабных моделей, и начинающая компания быстро развивалась.
Это только начало.Компания Baichuan Intelligent сообщила Times Finance, что в будущем будет выпущен ряд продуктов, в том числе крупномасштабные модели с параметрами, превышающими 100 миллиардов.
Были и мрачные выходы. Основанная Ван Хуэйвэнем, соучредителем Meituan, она привлекла известные венчурные фонды, такие как Source Code Capital и Wuyuan Capital, а также инвестиции интернет-гигантов, таких как Ван Син, основатель Meituan, и Су Хуа, основатель Kuaishou Когда-то считалось рынком Это один из самых мощных игроков на отечественном поле битвы крупномасштабных моделей.
Однако, поскольку Ван Хуэйвэнь подал в отставку из-за проблем со здоровьем в конце июня и не мог продолжать управлять световыми годами, эта долгожданная крупномасштабная стартап-компания была вынуждена продать себя Meituan, и группа инвесторов также отозвала свои акции.
Другие нашли другой путь. Компания Lanzhou Technology, основанная экспертом по искусственному интеллекту Чжоу Мином, уделяет особое внимание облегченным моделям и надеется решить проблемы со сценой на стороне B с меньшими затратами. Ю Ян, молодой профессор, который помог Google сократить время обучения модели BERT с 3 дней до 76 минут, основал Luchen Technology, пытаясь прорваться с недорогим решением для обучения больших моделей.
Напротив, крупномасштабные модели, разработанные крупными производителями, давно назрели. Только в начале августа самостоятельно разработанная Tencent большая модель Hunyuan и диалоговый продукт Byte с искусственным интеллектом Grace вышли из новостей внутреннего тестирования, и конкретное время запуска до сих пор неизвестно.
Также все еще в стадии тестирования находится предприятие AI 2.0 «01Wanwu», основанное Кай-Фу Ли. На встрече по обмену валюты, состоявшейся 3 июля, Кай-фу Ли сообщил, что компания провела внутреннее тестирование модели с масштабом 10 миллиардов параметров в течение трех месяцев и в настоящее время расширяется до масштаба от 30 до 70 миллиардов параметров. . Однако продукт еще не вышел на рынок.
Какие изменения эти невыпущенные крупномасштабные продукты привнесут в технологическую отрасль, стоит с нетерпением ждать. С этой точки зрения эта потасовка может длиться долго.
Атаковать Ван Сяочуаня
Baichuan Intelligent, основанная Ван Сяочуанем, привлекает внимание рынка своей удивительной скоростью выпуска продукции.
После объявления в апреле о том, что в конечном итоге будет построена крупномасштабная модель, потребовалось всего два месяца и пять дней, чтобы 15 июня выпустить крупномасштабную модель с открытым исходным кодом Baichuan-7B с 7 миллиардами параметров. Менее чем за месяц была выпущена еще одна крупная модель с открытым исходным кодом Baichuan-13B с 13 миллиардами параметров.
Baichuan-53B, выпущенный 8 августа, является уже третьим продуктом, выпущенным этой крупной модельной компанией за последние полгода, и Baichuan Intelligent быстро развивается.
Ответственный за Baichuan Intelligence ответил Times Finance, что компания уже потратила много времени на предварительную подготовку перед ее созданием и с самого начала четко продумывала маршрут и метод.
В нем указано, что при создании большой модели будут учитываться три уровня: данные, алгоритм и вычислительная мощность. Независимо от вычислительной мощности, поисковые компании, естественно, обладают отличными возможностями обработки данных.Основная команда Baichuan Intelligence занимается сбором данных, извлечением, очисткой, дедупликацией, защитой от спама и другими операциями в течение 20 лет, что позволяет быстрее получать данные. качественные наборы данных.
Алгоритм сосредоточен на обработке естественного языка, а разработка алгоритма повторяется.Это не отдельная инженерная проблема, а управляемая текстовыми данными, алгоритм и инженерия работают вместе. Предыдущий опыт поиска также может сыграть здесь хорошую роль, используя оценку данных для улучшения модели.
«Благодаря годам накопленных технологий и опыта Baichuan Intelligent может быстро и качественно производить крупномасштабные модели».
Однако на пресс-конференции Ван Сяочуань также отметил, что текущая отечественная крупная модель общего назначения все еще находится на стадии классификации и воспроизведения. Все производители в основном проводят бенчмаркинг с OpenAI, и неизбежно возникает проблема однородности.
Из-за этого, по его мнению, в отличие от ситуации, в которой зафиксировался головной паттерн закрытой крупномасштабной модели в США, не делается вывод о том, «чья крупномасштабная модель в Китае лучшая». . В этой рукопашной схватке важны деньги, но, в конце концов, решение принимают люди, команда и организация. У крупных компаний больше денег, больше людей и больше вычислительной мощности, но их организационная эффективность обычно не обязательно достаточно высока.Организационная эффективность начинающих компаний может быть хорошей, а может и не быть.
«Все борются за возможности, и они не обязательно выпадают на крупных фабриках».
Ван Сяочуань также рассказал об уходе Ван Хуэйвэня в интервью. Он указал, что Wang Huiwen — единственный из нескольких основных крупномасштабных моделей в Китае, у которого нет сильного технического образования, и задача для него больше, чем для других компаний. В работе необходимо принять множество технических решений, например, кого нанять, какую техническую дорожную карту выбрать и сколько вычислительных ресурсов необходимо, и вы определенно столкнетесь с большим давлением при принятии решений.
«Дело не в том, что создание большой модели вызывает стресс, а в том, что приходится принимать решения без технического образования. Но если технология достаточна, это на самом деле довольно приятно».
Tencent, Байт давно просрочен
В начале схватки крупномасштабных моделей интернет-гиганты считались сильными конкурентами, поскольку у них было больше вычислительной мощности, талантов, средств и данных.
Платформа Wenxin Yiyan, разработанная Baidu, была впервые запущена в конце марта этого года; Tongyi Qianwen от Alibaba последовала за ней, о чем было объявлено на саммите Alibaba Cloud Summit, состоявшемся 11 апреля. За день до того, как Али освободил Тунъи Цяньвэня, Ван Сяочуань только что объявил о своем уходе и основал Baichuan Intelligent.
Напротив, Tencent и Byte, которые являются производителями первого уровня, намного медленнее запускают крупные модели общего назначения.
3 августа, согласно отчетам 36kr, самостоятельно разработанная Tencent «Tencent Hunyuan Large Model» вступила в стадию внутреннего тестирования приложения. Спустя три дня, 6 августа, диалоговый продукт Byte с искусственным интеллектом Grace был также представлен, и после двух месяцев исследований и разработок он, наконец, вышел на стадию тестирования.
На данный момент прошло 4 месяца с тех пор, как Baidu выпустила Wenxin Yiyan. Относительно того, почему масштабные модельные продукты общего назначения Tencent работают медленнее, Ма Хуатенг однажды публично заявил: «Tencent также погружена в исследования и разработки, но не спешит заканчивать их раньше и показывать полуфабрикаты. ».
Тем не менее, Tencent, которая «не торопится», взяла на себя инициативу в объявлении маршрута «модели большой индустрии» в середине июня этого года, выкинув более 50 решений для 10 основных отраслей за один раз. Так совпало, что в июне ByteDance также выпустила платформу обслуживания крупномасштабных моделей «Вулканический ковчег», которая предоставляет предприятиям полный спектр услуг платформы за счет интеграции крупномасштабных моделей многих компаний, занимающихся технологиями искусственного интеллекта, и научно-исследовательских институтов.
Когда-то рынок считал, что крупномасштабная отраслевая модель станет методом прорыва для этих двух крупных производителей.
Но это может быть не так. Всегда существует риск быть замененным моделью большой индустрии, которую сейчас отстаивают. Ву Сяору, президент HKUST Xunfei, однажды указал Times Finance, что 10 лет назад в технологии распознавания речи существовало множество специальных моделей, ориентированных на различные сценарии, такие как звонки, вождение и работа в офисе.
«Я думаю, что большие модели проходят ту же фазу».
Напротив, в долгосрочной перспективе универсальная крупная модель действительно представляет собой масштабную платформу или революционную возможность. Именно из-за этого ни Tencent, ни Byte не могут позволить себе промахнуться, даже если прогресс идет медленно, они должны настаивать на своем присутствии.
Некоторые инсайдеры Tencent указали Times Finance, что план Tencent всегда заключался в том, чтобы ходить на двух ногах, а GM и отрасль идут рука об руку. Просто по сравнению с некоторыми радикальными производителями, Tencent, чьи продукты охватывают социальные сети, игры, рекламу, создание контента и другие области, более осторожна.
Предприниматели-академики находят другой путь
На крупномасштабном модельном поле битвы академические стартапы из университетов и исследовательских институтов образуют третий полюс конкуренции.
Это не посевные игроки, как Ван Сяочуань и Ван Хуэйвэнь.В начале своего бизнеса они могут привлечь сотни миллионов долларов инвестиций благодаря своим связям и использовать это для быстрого старта. Это также не похоже на такие крупные компании, как Tencent, Ali и Baidu, обладающие непреодолимыми преимуществами в вычислительной мощности, талантах и капитале.
Но, опираясь на свое глубокое понимание технологии искусственного интеллекта, эти предприниматели все же могут найти новые направления развития под ударом.
Например, компания Lanzhou Technology, основанная Чжоу Мином, бывшим вице-президентом азиатского исследовательского института Microsoft, отличается от представленных на рынке крупномасштабных модельных продуктов, учитывающих сотни миллиардов или даже триллионов параметров. (обработка естественного языка) с 1980 года. Китайский эксперт по ИИ надеется решить проблему сценариев на стороне B с помощью более легкой модели.
Запущенная ею большая модель Mencius когда-то использовала миллиард параметров для обновления списка CLUE авторитетного оценочного эталона понимания китайского языка, в котором ранее доминировали модели с параметрами 10 миллиардов и 100 миллиардов уровней.
Это прагматичное решение. Ради безопасности данных большинство предприятий не будут загружать данные, а потребуют локализованного развертывания, что значительно увеличит стоимость. В интервью средствам массовой информации Чжоу Мин отметил, что даже если это только локальное развертывание вывода с использованием хорошо обученной большой модели, для большой модели со 100 миллиардами параметров все равно требуется от 8 до 16 A100, что составляет как минимум один или два миллиона юаней инвестиций: «Во многих сценариях клиенты должны быть дешевыми и доступными».
Компания Luchen Technology, основанная молодым профессором Ю Янгом, президентом Национального университета Сингапура, надеется использовать технологию алгоритмов для снижения стоимости вызова больших моделей.
В настоящее время, будь то крупная фабрика или начинающая компания, она должна столкнуться с проблемой, заключающейся в том, что тенденция к гомогенизации отечественных крупномасштабных моделей становится все более и более очевидной. Если эта проблема не будет решена, большие модели в будущем, вероятно, окажутся в затруднительном положении с низкой маржой, с которой сегодня сталкиваются поставщики облачных услуг.
Ю Ян сказал Times Finance, что это связано с тем, что стоимость итерации базовой технологической базы слишком высока. В качестве примера он привел GPT. Стоимость обучения OpenAI достигает 60 миллионов долларов США каждый раз. Его нужно обучать каждые три-четыре месяца, и для одной итерации требуется четыре или пять тренировок. Исходя из этого, каждая итерация технического фундамента может стоить от 200 до 300 миллионов долларов США.
Чрезмерно высокие затраты приводят к крайне дефицитным технологическим базам на рынке. В основном только GPT, LLAMA и отечественный GLM. Все производители в основном имитируют эти большие модели для производства продуктов, что делает проблему однородности более заметной.
Ю Ян, долгое время изучавший высокопроизводительные вычисления, основал Luchen Technology. Система с открытым исходным кодом Colossal-AI, запущенная в настоящее время компанией, может значительно снизить затраты на разработку и применение для обучения больших моделей ИИ, тонкой настройки и рассуждений с помощью таких технологий, как эффективный многомерный параллелизм и гетерогенная память.
Ю Ян считает, что только тогда, когда стоимость обучения крупномасштабных моделей быстро снизится или когда будут приняты более совершенные методы оптимизации для управления параметрами примерно на 20 миллиардах и при этом будет достигнут тот же эффект, что и при 100 миллиардах параметров, крупномасштабные модели по-настоящему расцветать в тот день.