Meio ano de batalha feroz por modelos grandes, Tencent Byte está muito atrasado

Fonte original: Times Finance

Autor: Xie Silin

Crédito da imagem: Gerado por Unbounded AI‌

A confusão de grandes modelos domésticos de uso geral está longe de terminar. Após um período inativo de cerca de meio ano, a maioria dos jogadores voltou à tona.

Entre eles, alguém acelera a iteração. Em 8 de agosto, a Baichuan Intelligent, fundada por Wang Xiaochuan, fundador da Sogou Search, lançou seu terceiro produto de modelo em larga escala Baichuan-53B, com 53 bilhões de parâmetros de treinamento por trás dele. Naquela época, fazia apenas 4 meses desde que Wang Xiaochuan anunciou sua entrada no campo de batalha de modelos em grande escala, e a empresa iniciante estava progredindo rapidamente.

Este é apenas o começo. Baichuan Intelligent revelou ao Times Finance que haverá uma série de produtos lançados no futuro, incluindo modelos de grande escala com parâmetros superiores a 100 bilhões.

Também houve saídas sombrias. Fundada por Wang Huiwen, co-fundador da Meituan, atraiu instituições de capital de risco conhecidas, como Source Code Capital e Wuyuan Capital, bem como investimentos de gigantes da Internet, como Wang Xing, fundador da Meituan, e Su Hua, fundador da Kuaishou Já foi considerado pelo mercado É um dos players mais poderosos no campo de batalha de modelos domésticos em grande escala.

No entanto, como Wang Huiwen renunciou devido a problemas de saúde no final de junho e foi incapaz de continuar no comando anos-luz de distância, esta empresa iniciante de larga escala altamente esperada teve que se vender para a Meituan, e um grupo de investidores também retirou suas ações.

Outros encontraram outra maneira. A Lanzhou Technology, fundada pelo especialista em IA Zhou Ming, enfatiza modelos leves, na esperança de resolver os problemas da cena do lado B a um custo menor. You Yang, um jovem professor que ajudou o Google a reduzir o tempo de treinamento do modelo BERT de 3 dias para 76 minutos, fundou a Luchen Technology, tentando inovar com uma solução de baixo custo para treinar modelos grandes.

Em contraste, os modelos em grande escala desenvolvidos pelos principais fabricantes estão muito atrasados. Não foi até o início de agosto que o grande modelo Hunyuan autodesenvolvido da Tencent e o produto de diálogo AI da Byte, Grace, saíram das notícias de testes internos, e o tempo de lançamento específico ainda é desconhecido.

Também ainda em fase de testes, existe também a empresa AI 2.0 "01Wanwu" fundada por Kai-Fu Lee. Na reunião de câmbio realizada em 3 de julho, Kai-Fu Lee revelou que a empresa realizou testes internos do modelo com uma escala de 10 bilhões de parâmetros em três meses e atualmente está expandindo para uma escala de 30 bilhões a 70 bilhões de parâmetros. . No entanto, o produto ainda não foi lançado no mercado.

Vale a pena esperar para saber que tipo de mudanças esses produtos inéditos de modelos em grande escala trarão para a indústria de tecnologia. A partir dessa perspectiva, essa briga pode durar muito tempo.

Ataque Wang Xiaochuan

A Baichuan Intelligent, fundada por Wang Xiaochuan, está atraindo a atenção do mercado com sua incrível velocidade de lançamento de produtos.

Depois de anunciar em abril que acabaria construindo um modelo em grande escala, levou apenas dois meses e cinco dias para liberar o modelo de grande escala de código aberto de 7 bilhões de parâmetros Baichuan-7B em 15 de junho. Em menos de um mês, outro grande modelo de código aberto de 13 bilhões de parâmetros Baichuan-13B foi lançado.

O Baichuan-53B lançado em 8 de agosto já é o terceiro produto lançado por esta empresa start-up de modelo em grande escala em meio ano, e o Baichuan Intelligent está progredindo rapidamente.

O responsável pela Baichuan Intelligence respondeu ao Times Finance que a empresa já havia gasto muito tempo nos preparativos preliminares antes de seu estabelecimento e pensou claramente sobre a rota e o método desde o início.

Ele apontou que três níveis serão considerados ao fazer um grande modelo: dados, algoritmo e poder de computação. Independentemente do poder de computação, as empresas de pesquisa naturalmente têm excelentes recursos de dados. A equipe principal da Baichuan Intelligence tem feito captura de dados, extração, limpeza, desduplicação, anti-spam e outras operações por 20 anos, o que pode obter dados mais rapidamente. conjuntos de dados de qualidade.

O algoritmo é centrado no processamento de linguagem natural e a engenharia do algoritmo é iterada. Não é um único problema de engenharia, mas conduzido por dados de texto, o algoritmo e o trabalho de engenharia juntos. A experiência anterior em pesquisa também pode desempenhar um bom papel aqui, usando a avaliação de dados para direcionar a melhoria do modelo.

"Com anos de tecnologia e experiência acumuladas, a Baichuan Intelligent pode fabricar modelos de produtos em grande escala com rapidez e qualidade."

No entanto, na coletiva de imprensa, Wang Xiaochuan também apontou que o atual modelo doméstico de uso geral de grande porte ainda está em fase de classificação e reprodução. Todos os fabricantes estão basicamente comparando com o OpenAI, e o problema de homogeneidade inevitavelmente surgirá.

Por causa disso, em sua opinião, ao contrário da situação em que o padrão da cabeça do modelo de grande escala de código fechado nos Estados Unidos foi corrigido, não há conclusão sobre "cujo modelo de grande escala é o melhor da China" . Nessa confusão, o dinheiro é importante, mas no final são as pessoas, a equipe e a organização que tomam a decisão. Grandes empresas têm mais dinheiro, mais pessoas e mais poder computacional, mas sua eficiência organizacional geralmente não é necessariamente boa o suficiente.A eficiência organizacional de empresas iniciantes pode ou não ser boa.

"Todo mundo está lutando por oportunidades, e elas não necessariamente caem em grandes fábricas."

Wang Xiaochuan também falou sobre a saída de Wang Huiwen na entrevista. Ele apontou que Wang Huiwen é o único entre vários modelos convencionais de grande escala na China que não possui uma sólida formação técnica, e o desafio para ele é maior do que para outras empresas. Há muitas decisões técnicas a serem tomadas no trabalho, como quem contratar, qual roteiro técnico seguir e quantos recursos de computação são necessários, e você certamente enfrentará muita pressão na tomada de decisões.

"Não é que fazer um modelo grande seja estressante, é que há muita pressão para tomar decisões sem conhecimento técnico. Mas se a tecnologia for suficiente, é realmente muito agradável."

Tencent, Byte está muito atrasado

No início da confusão de modelos em grande escala, os gigantes da Internet eram considerados fortes concorrentes porque tinham mais poder de computação, talentos, fundos e dados.

O Wenxin Yiyan, desenvolvido pela Baidu, foi lançado pela primeira vez no final de março deste ano; o Tongyi Qianwen, do Alibaba, seguiu de perto e foi anunciado no Alibaba Cloud Summit realizado em 11 de abril. Um dia antes de Ali lançar Tongyi Qianwen, Wang Xiaochuan acaba de anunciar seu fim e estabelecer o Baichuan Intelligent.

Em contraste, a Tencent e a Byte, que são fabricantes de primeira linha, são muito mais lentas no lançamento de modelos grandes de uso geral.

Em 3 de agosto, de acordo com relatórios de 36kr, o "Tencent Hunyuan Large Model" autodesenvolvido da Tencent entrou no estágio de teste interno do aplicativo. Três dias depois, em 6 de agosto, o produto de diálogo AI da Byte, Grace, também foi exposto. Após dois meses de pesquisa e desenvolvimento, ele finalmente entrou na fase de testes.

Neste momento, já se passaram 4 meses desde que o Baidu lançou Wenxin Yiyan. Em relação ao motivo pelo qual os produtos de modelo de grande escala de uso geral da Tencent são mais lentos, Ma Huateng declarou publicamente: “A Tencent também está imersa em pesquisa e desenvolvimento, mas não tem pressa em terminá-lo cedo e mostrar os produtos semi-acabados. .”

No entanto, a Tencent, que "não tem pressa", assumiu a liderança ao anunciar a rota do "modelo da grande indústria" em meados de junho deste ano, lançando mais de 50 soluções para 10 grandes indústrias de uma só vez. Coincidentemente, a ByteDance também lançou a plataforma de serviço modelo em grande escala "Volcano Ark" em junho, que fornece às empresas uma gama completa de serviços de plataforma integrando os modelos em grande escala de muitas empresas de tecnologia de IA e institutos de pesquisa científica.

O mercado já acreditou que o modelo industrial em grande escala se tornaria o método para esses dois grandes fabricantes se destacarem.

Mas isso pode não ser o caso. Há sempre o risco de ser substituído pelo modelo da grande indústria que atualmente se defende. Wu Xiaoru, presidente da HKUST Xunfei, disse certa vez ao Times Finance que há 10 anos, na tecnologia de reconhecimento de voz, havia muitos modelos especiais com foco em diferentes cenários, como chamadas, direção e trabalho de escritório. O modelo também existe.

"Acho que grandes modelos passam pela mesma fase."

Por outro lado, de uma perspectiva de longo prazo, o modelo grande de uso geral realmente representa uma grande oportunidade disruptiva ou em nível de plataforma. É justamente por isso que nem a Tencent nem a Byte podem se dar ao luxo de errar, mesmo que o andamento seja lento, eles devem insistir em estar presentes.

Alguns insiders da Tencent apontaram ao Times Finance que o plano da Tencent sempre foi andar sobre duas pernas, e a GM e a indústria andam de mãos dadas. Só que, em comparação com alguns fabricantes radicais, a Tencent, cujos produtos abrangem áreas sociais, jogos, publicidade, criação de conteúdo e outras áreas, é mais cautelosa.

Empreendedores Acadêmicos Encontram Outra Maneira

No campo de batalha do modelo em grande escala, empresas acadêmicas iniciantes de universidades e instituições de pesquisa formam o terceiro polo da competição.

Eles não são jogadores semeados como Wang Xiaochuan e Wang Huiwen.No início de seus negócios, eles podem atrair centenas de milhões de dólares em investimentos em virtude de suas conexões e usar isso para começar rapidamente. Também não é como grandes empresas como Tencent, Ali e Baidu, que têm vantagens insuperáveis em poder de computação, talentos e capital.

Mas, contando com sua compreensão profunda da tecnologia de inteligência artificial, esses empreendedores ainda podem encontrar novas direções de desenvolvimento sob o ataque.

Por exemplo, a Lanzhou Technology, fundada por Zhou Ming, ex-vice-presidente do Microsoft Asia Research Institute, é diferente dos modelos de produtos em larga escala do mercado que buscam centenas de bilhões ou mesmo trilhões de parâmetros. (Natural Language Processing) desde 1980. O especialista chinês em IA espera resolver o problema dos cenários do lado B com um modelo mais leve.

O grande modelo Mencius lançado por ele já usou um bilhão de parâmetros para atualizar a lista CLUE do benchmark de avaliação oficial para compreensão da língua chinesa, que era anteriormente dominado por modelos com parâmetros de 10 bilhões e 100 bilhões de níveis.

Esta é uma decisão pragmática. Por uma questão de segurança de dados, a maioria das empresas não fará upload de dados, mas exigirá implantação localizada, o que aumentará significativamente o custo. Em entrevista à mídia, Zhou Ming apontou que, mesmo que seja apenas a implantação local do raciocínio, usando um grande modelo bem treinado, um grande modelo com 100 bilhões de parâmetros ainda precisa de 8 a 16 A100, o que se traduz em pelo menos um ou dois milhões de yuans de investimento, "Para muitos cenários, os clientes precisam ser baratos e acessíveis."

A Luchen Technology, fundada pelo jovem professor You Yang, presidente da Universidade Nacional de Cingapura, espera usar a tecnologia de algoritmos para reduzir o custo de chamar modelos grandes.

Hoje em dia, seja uma grande fábrica ou uma empresa iniciante, deve enfrentar o problema de que a tendência de homogeneização dos modelos domésticos de grande escala está se tornando cada vez mais óbvia. Se esse problema não for resolvido, grandes modelos no futuro provavelmente cairão na situação de baixa margem enfrentada pelos provedores de serviços de nuvem hoje.

You Yang disse ao Times Finance que isso ocorre porque o custo de iteração da base de tecnologia subjacente é muito alto. Ele usou o GPT como exemplo. O custo de treinamento do OpenAI chega a 60 milhões de dólares americanos por vez. Ele precisa ser treinado a cada três ou quatro meses e precisa de quatro ou cinco treinamentos para uma iteração. Com base nisso, cada iteração da base técnica pode custar de 200 milhões a 300 milhões de dólares americanos.

Custos excessivamente altos levam a bases tecnológicas extremamente escassas no mercado. Basicamente, apenas GPT, LLAMA e GLM doméstico. Todos os fabricantes estão basicamente imitando esses grandes modelos para fabricar produtos, o que fez com que o problema da homogeneidade se tornasse mais proeminente.

You Yang, que estuda computação de alto desempenho há muito tempo, fundou a Luchen Technology. O sistema de código aberto Colossal-AI atualmente lançado pela empresa pode reduzir significativamente os custos de desenvolvimento e aplicação de treinamento de grandes modelos de IA, ajuste fino e raciocínio por meio de tecnologias como paralelismo multidimensional eficiente e memória heterogênea.

You Yang acredita que somente quando o custo do treinamento de modelo em grande escala cair rapidamente, ou quando melhores técnicas de otimização forem adotadas para controlar os parâmetros em cerca de 20 bilhões e ainda atingir o mesmo efeito de 100 bilhões de parâmetros, os modelos em grande escala verdadeiramente florescer naquele dia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)