El tumulto de los grandes modelos domésticos de propósito general está lejos de terminar. Después de un período de inactividad de aproximadamente medio año, la mayoría de los jugadores emergieron.
Entre estos, alguien acelera la iteración. El 8 de agosto, Baichuan Intelligent, fundada por Wang Xiaochuan, el fundador de Sogou Search, lanzó su tercer producto modelo a gran escala Baichuan-53B, con 53 mil millones de parámetros de entrenamiento detrás. En este momento, solo habían pasado 4 meses desde que Wang Xiaochuan anunció su entrada en el campo de batalla de modelos a gran escala, y la empresa de nueva creación estaba progresando rápidamente.
Esto es solo el comienzo. Baichuan Intelligent reveló a Times Finance que habrá una serie de productos lanzados en el futuro, incluidos modelos a gran escala con parámetros que superan los 100 mil millones.
También hubo salidas sombrías. Fundado por Wang Huiwen, cofundador de Meituan, ha atraído a instituciones de capital de riesgo conocidas como Source Code Capital y Wuyuan Capital, así como inversiones de gigantes de Internet como Wang Xing, fundador de Meituan, y Su Hua, fundador de Kuaishou Alguna vez fue considerado por el mercado Es uno de los jugadores más poderosos en el campo de batalla de modelos domésticos a gran escala.
Sin embargo, como Wang Huiwen renunció debido a problemas de salud a fines de junio y no pudo continuar a cargo de años luz de distancia, esta empresa emergente a gran escala muy esperada tuvo que venderse a Meituan, y un grupo de inversionistas también retiraron su Comparte.
Otros han encontrado otra manera. Lanzhou Technology, fundada por el experto en inteligencia artificial Zhou Ming, enfatiza los modelos livianos, con la esperanza de resolver los problemas de la escena del lado B a un costo menor. You Yang, un joven profesor que ayudó a Google a reducir el tiempo de entrenamiento del modelo BERT de 3 días a 76 minutos, estableció Luchen Technology, tratando de abrirse camino con una solución de bajo costo para entrenar modelos grandes.
Por el contrario, los modelos a gran escala desarrollados por los principales fabricantes están muy retrasados. No fue hasta principios de agosto que el modelo grande Hunyuan de desarrollo propio de Tencent y el producto de diálogo de inteligencia artificial de Byte, Grace, salieron de las noticias de pruebas internas, y aún se desconoce el tiempo de lanzamiento específico.
También en la etapa de prueba, también está la empresa AI 2.0 "01Wanwu" fundada por Kai-Fu Lee. En la reunión de cambio de divisas celebrada el 3 de julio, Kai-fu Lee reveló que la compañía ha logrado pruebas internas del modelo con una escala de 10 000 millones de parámetros en tres meses, y actualmente se está expandiendo a una escala de 30 000 millones a 70 000 millones de parámetros. . Sin embargo, el producto aún no se ha abierto al mercado.
Vale la pena esperar qué tipo de cambios traerán estos productos inéditos a gran escala a la industria de la tecnología. Desde esta perspectiva, esta pelea puede durar mucho tiempo.
Ataque a Wang Xiaochuan
Baichuan Intelligent, fundada por Wang Xiaochuan, está atrayendo la atención del mercado con su increíble velocidad de lanzamiento de productos.
Después de anunciar en abril que terminaría construyendo un modelo a gran escala, tomó solo dos meses y cinco días lanzar el modelo a gran escala de fuente abierta de 7 mil millones de parámetros Baichuan-7B el 15 de junio. En menos de un mes, se lanzó otro modelo grande de fuente abierta Baichuan-13B de 13 mil millones de parámetros.
El Baichuan-53B lanzado el 8 de agosto ya es el tercer producto lanzado por esta empresa de puesta en marcha de modelos a gran escala en medio año, y Baichuan Intelligent está progresando rápidamente.
La persona a cargo de Baichuan Intelligence respondió a Times Finance que la empresa ya había dedicado mucho tiempo a los preparativos preliminares antes de su establecimiento y pensó claramente en la ruta y el método desde el principio.
Señaló que se considerarán tres niveles al hacer un modelo grande: datos, algoritmo y poder de cómputo. Independientemente de la potencia informática, las empresas de búsqueda naturalmente tienen excelentes capacidades de datos. El equipo central de Baichuan Intelligence ha estado realizando captura, extracción, limpieza, deduplicación, antispam y otras operaciones de datos durante 20 años, lo que puede obtener datos más rápido. conjuntos de datos de calidad.
El algoritmo se centra en el procesamiento del lenguaje natural y la ingeniería del algoritmo es iterativa. No es un problema de ingeniería único, sino que impulsado por datos de texto, el algoritmo y la ingeniería trabajan juntos. La experiencia previa en la búsqueda también puede jugar un buen papel aquí, utilizando la evaluación de datos para impulsar la mejora del modelo.
"Con años de tecnología y experiencia acumuladas, Baichuan Intelligent puede fabricar modelos a gran escala de forma rápida y eficaz".
Sin embargo, en la conferencia de prensa, Wang Xiaochuan también señaló que el modelo grande de uso general doméstico actual todavía se encuentra en la etapa de clasificación y reproducción. Básicamente, todos los fabricantes están comparando con OpenAI, y el problema de la homogeneidad surgirá inevitablemente.
Debido a esto, en su opinión, a diferencia de la situación en la que se ha arreglado el patrón principal del modelo a gran escala de código cerrado en los Estados Unidos, no hay una conclusión sobre "cuyo modelo a gran escala es el mejor en China". . En este tumulto, el dinero es importante, pero al final son las personas, el equipo y la organización quienes toman la decisión. Las grandes empresas tienen más dinero, más personas y más poder de cómputo, pero su eficiencia organizativa generalmente no es necesariamente lo suficientemente buena.La eficiencia organizativa de las empresas emergentes puede o no ser buena.
"Todos luchan por las oportunidades, y no necesariamente caen en las grandes fábricas".
Wang Xiaochuan también habló sobre la salida de Wang Huiwen en la entrevista. Señaló que Wang Huiwen es el único entre varios modelos principales a gran escala en China que no tiene una sólida formación técnica, y el desafío para él es mayor que para otras empresas. Se deben tomar muchas decisiones técnicas en el trabajo, como a quién contratar, qué hoja de ruta técnica tomar y cuántos recursos informáticos se necesitan, y definitivamente enfrentará mucha presión para tomar decisiones.
"No es que hacer un modelo grande sea estresante, es que hay mucha presión para tomar decisiones sin conocimientos técnicos. Pero si la tecnología es suficiente, en realidad es bastante agradable".
Tencent, Byte está muy atrasado
Al comienzo del tumulto de los modelos a gran escala, se consideraba que los gigantes de Internet eran fuertes competidores porque tenían más poder de cómputo, talentos, fondos y datos.
El Wenxin Yiyan de desarrollo propio de Baidu se lanzó por primera vez a fines de marzo de este año; el Tongyi Qianwen de Alibaba lo siguió de cerca y se anunció en la Cumbre de la nube de Alibaba celebrada el 11 de abril. Justo el día antes de que Ali liberara a Tongyi Qianwen, Wang Xiaochuan anunció su fin y estableció Baichuan Intelligent.
Por el contrario, Tencent y Byte, que son fabricantes de primer nivel, son mucho más lentos en el lanzamiento de modelos grandes de uso general.
El 3 de agosto, según informes de 36kr, el "Modelo grande de Tencent Hunyuan" de desarrollo propio de Tencent entró en la etapa de prueba interna de la aplicación. Tres días después, el 6 de agosto, también se expuso el producto de diálogo de IA de Byte, Grace, que luego de dos meses de investigación y desarrollo, finalmente entró en la etapa de prueba.
En este momento, han pasado 4 meses desde que Baidu lanzó Wenxin Yiyan. Con respecto a la razón por la cual los productos modelo a gran escala de uso general de Tencent son más lentos, Ma Huateng declaró una vez públicamente: "Tencent también está inmerso en investigación y desarrollo, pero no tiene prisa por terminarlo antes y mostrar los productos semiacabados". .”
Sin embargo, Tencent, que "no tiene prisa", tomó la delantera al anunciar la ruta del "modelo de gran industria" a mediados de junio de este año, lanzando más de 50 soluciones para 10 industrias importantes de una sola vez. Coincidentemente, ByteDance también lanzó la plataforma de servicio modelo a gran escala "Volcano Ark" en junio, que brinda a las empresas una gama completa de servicios de plataforma al integrar los modelos a gran escala de muchas empresas de tecnología de inteligencia artificial e institutos de investigación científica.
El mercado alguna vez creyó que el modelo de industria a gran escala se convertiría en el método para que estos dos grandes fabricantes se abrieran paso.
Pero ese puede no ser el caso. Siempre existe el riesgo de ser reemplazado por el modelo de gran industria que se propugna actualmente. Wu Xiaoru, presidente de HKUST Xunfei, señaló una vez a Times Finance que hace 10 años, en la tecnología de reconocimiento de voz, había muchos modelos especiales que se enfocaban en diferentes escenarios, como llamadas, conducción y trabajo de oficina. El modelo también existe.
"Creo que las grandes modelos pasan por la misma fase".
Por el contrario, desde una perspectiva a más largo plazo, el modelo grande de propósito general realmente representa una gran oportunidad disruptiva o a nivel de plataforma. Es precisamente por eso que ni Tencent ni Byte pueden permitirse perder, aunque el progreso sea lento, deben insistir en estar presentes.
Algunas personas con información privilegiada de Tencent señalaron a Times Finance que el plan de Tencent siempre ha sido caminar sobre dos piernas, y GM y la industria van de la mano. Es solo que, en comparación con algunos fabricantes radicales, Tencent, cuyos productos cubren redes sociales, juegos, publicidad, creación de contenido y otros campos, es más cauteloso.
Los emprendedores académicos encuentran otro camino
En el campo de batalla de modelos a gran escala, las empresas académicas de universidades e instituciones de investigación forman el tercer polo de competencia.
No son jugadores sembrados como Wang Xiaochuan y Wang Huiwen. Al comienzo de su negocio, pueden atraer cientos de millones de dólares en inversiones en virtud de sus conexiones y usar esto para comenzar rápidamente. Tampoco es como las grandes empresas como Tencent, Ali y Baidu, que tienen ventajas insuperables en potencia informática, talento y capital.
Pero confiando en su profundo conocimiento de la tecnología de inteligencia artificial, estos emprendedores aún pueden encontrar nuevas direcciones de desarrollo bajo el ataque.
Por ejemplo, Lanzhou Technology, fundada por Zhou Ming, ex vicepresidente del Instituto de Investigación de Microsoft Asia, es diferente de los productos modelo a gran escala en el mercado que persiguen cientos de miles de millones o incluso billones de parámetros. Esta persona ha estado estudiando PNL. (procesamiento del lenguaje natural) desde 1980. El experto chino en IA espera resolver el problema de los escenarios del lado B con un modelo más liviano.
El modelo grande de Mencius que lanzó utilizó una vez mil millones de parámetros para actualizar la lista CLUE del punto de referencia de evaluación autorizado para la comprensión del idioma chino, que anteriormente estaba dominado por modelos con parámetros de 10 mil millones y 100 mil millones de niveles.
Esta es una decisión pragmática. Por el bien de la seguridad de los datos, la mayoría de las empresas no cargarán datos, pero requerirán una implementación localizada, lo que aumentará significativamente el costo. En una entrevista con los medios, Zhou Ming señaló que incluso si se trata solo de un despliegue local de inferencia, utilizando un modelo grande bien entrenado, un modelo grande con 100 mil millones de parámetros aún necesita de 8 a 16 A100, que es al menos uno o dos millones de yuanes en inversión, "Para muchos escenarios, los clientes deben ser baratos y asequibles".
Luchen Technology, fundada por el joven profesor You Yang, presidente de la Universidad Nacional de Singapur, espera utilizar la tecnología de algoritmos para reducir el costo de llamar a modelos grandes.
Hoy en día, ya sea una gran fábrica o una empresa de nueva creación, debe enfrentar el problema de que la tendencia de homogeneización de los modelos domésticos a gran escala es cada vez más evidente. Si este problema no se resuelve, es probable que los grandes modelos del futuro caigan en la situación de bajo margen que enfrentan los proveedores de servicios en la nube en la actualidad.
You Yang le dijo a Times Finance que esto se debe a que el costo de iteración de la base tecnológica subyacente es demasiado alto. Usó GPT como ejemplo. El costo de capacitación de OpenAI es tan alto como 60 millones de dólares estadounidenses cada vez, y necesita capacitación cada tres o cuatro meses, y necesita cuatro o cinco capacitaciones para una iteración. Sobre esta base, cada iteración de la base técnica puede costar entre 200 y 300 millones de dólares estadounidenses.
Costos excesivamente altos conducen a bases tecnológicas extremadamente escasas en el mercado. Básicamente solo GPT, LLAMA y GLM doméstico. Básicamente, todos los fabricantes están imitando estos modelos grandes para fabricar productos, lo que ha hecho que el problema de la homogeneidad se vuelva más prominente.
You Yang, que ha estado estudiando computación de alto rendimiento durante mucho tiempo, estableció Luchen Technology. El sistema de código abierto Colossal-AI lanzado actualmente por la compañía puede reducir significativamente los costos de desarrollo y aplicación del entrenamiento, ajuste y razonamiento de modelos grandes de IA a través de tecnologías como el paralelismo multidimensional eficiente y la memoria heterogénea.
You Yang cree que solo cuando el costo del entrenamiento de modelos a gran escala disminuya rápidamente, o cuando se adopten mejores técnicas de optimización para controlar los parámetros en aproximadamente 20 mil millones, y aun así lograr el mismo efecto que 100 mil millones de parámetros, los modelos a gran escala verdaderamente florecer ese día.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Medio año de feroz batalla por modelos grandes, Tencent Byte está muy atrasado
Fuente original: Times Finance
Autor: Xie Silin
El tumulto de los grandes modelos domésticos de propósito general está lejos de terminar. Después de un período de inactividad de aproximadamente medio año, la mayoría de los jugadores emergieron.
Entre estos, alguien acelera la iteración. El 8 de agosto, Baichuan Intelligent, fundada por Wang Xiaochuan, el fundador de Sogou Search, lanzó su tercer producto modelo a gran escala Baichuan-53B, con 53 mil millones de parámetros de entrenamiento detrás. En este momento, solo habían pasado 4 meses desde que Wang Xiaochuan anunció su entrada en el campo de batalla de modelos a gran escala, y la empresa de nueva creación estaba progresando rápidamente.
Esto es solo el comienzo. Baichuan Intelligent reveló a Times Finance que habrá una serie de productos lanzados en el futuro, incluidos modelos a gran escala con parámetros que superan los 100 mil millones.
También hubo salidas sombrías. Fundado por Wang Huiwen, cofundador de Meituan, ha atraído a instituciones de capital de riesgo conocidas como Source Code Capital y Wuyuan Capital, así como inversiones de gigantes de Internet como Wang Xing, fundador de Meituan, y Su Hua, fundador de Kuaishou Alguna vez fue considerado por el mercado Es uno de los jugadores más poderosos en el campo de batalla de modelos domésticos a gran escala.
Sin embargo, como Wang Huiwen renunció debido a problemas de salud a fines de junio y no pudo continuar a cargo de años luz de distancia, esta empresa emergente a gran escala muy esperada tuvo que venderse a Meituan, y un grupo de inversionistas también retiraron su Comparte.
Otros han encontrado otra manera. Lanzhou Technology, fundada por el experto en inteligencia artificial Zhou Ming, enfatiza los modelos livianos, con la esperanza de resolver los problemas de la escena del lado B a un costo menor. You Yang, un joven profesor que ayudó a Google a reducir el tiempo de entrenamiento del modelo BERT de 3 días a 76 minutos, estableció Luchen Technology, tratando de abrirse camino con una solución de bajo costo para entrenar modelos grandes.
Por el contrario, los modelos a gran escala desarrollados por los principales fabricantes están muy retrasados. No fue hasta principios de agosto que el modelo grande Hunyuan de desarrollo propio de Tencent y el producto de diálogo de inteligencia artificial de Byte, Grace, salieron de las noticias de pruebas internas, y aún se desconoce el tiempo de lanzamiento específico.
También en la etapa de prueba, también está la empresa AI 2.0 "01Wanwu" fundada por Kai-Fu Lee. En la reunión de cambio de divisas celebrada el 3 de julio, Kai-fu Lee reveló que la compañía ha logrado pruebas internas del modelo con una escala de 10 000 millones de parámetros en tres meses, y actualmente se está expandiendo a una escala de 30 000 millones a 70 000 millones de parámetros. . Sin embargo, el producto aún no se ha abierto al mercado.
Vale la pena esperar qué tipo de cambios traerán estos productos inéditos a gran escala a la industria de la tecnología. Desde esta perspectiva, esta pelea puede durar mucho tiempo.
Ataque a Wang Xiaochuan
Baichuan Intelligent, fundada por Wang Xiaochuan, está atrayendo la atención del mercado con su increíble velocidad de lanzamiento de productos.
Después de anunciar en abril que terminaría construyendo un modelo a gran escala, tomó solo dos meses y cinco días lanzar el modelo a gran escala de fuente abierta de 7 mil millones de parámetros Baichuan-7B el 15 de junio. En menos de un mes, se lanzó otro modelo grande de fuente abierta Baichuan-13B de 13 mil millones de parámetros.
El Baichuan-53B lanzado el 8 de agosto ya es el tercer producto lanzado por esta empresa de puesta en marcha de modelos a gran escala en medio año, y Baichuan Intelligent está progresando rápidamente.
La persona a cargo de Baichuan Intelligence respondió a Times Finance que la empresa ya había dedicado mucho tiempo a los preparativos preliminares antes de su establecimiento y pensó claramente en la ruta y el método desde el principio.
Señaló que se considerarán tres niveles al hacer un modelo grande: datos, algoritmo y poder de cómputo. Independientemente de la potencia informática, las empresas de búsqueda naturalmente tienen excelentes capacidades de datos. El equipo central de Baichuan Intelligence ha estado realizando captura, extracción, limpieza, deduplicación, antispam y otras operaciones de datos durante 20 años, lo que puede obtener datos más rápido. conjuntos de datos de calidad.
El algoritmo se centra en el procesamiento del lenguaje natural y la ingeniería del algoritmo es iterativa. No es un problema de ingeniería único, sino que impulsado por datos de texto, el algoritmo y la ingeniería trabajan juntos. La experiencia previa en la búsqueda también puede jugar un buen papel aquí, utilizando la evaluación de datos para impulsar la mejora del modelo.
"Con años de tecnología y experiencia acumuladas, Baichuan Intelligent puede fabricar modelos a gran escala de forma rápida y eficaz".
Sin embargo, en la conferencia de prensa, Wang Xiaochuan también señaló que el modelo grande de uso general doméstico actual todavía se encuentra en la etapa de clasificación y reproducción. Básicamente, todos los fabricantes están comparando con OpenAI, y el problema de la homogeneidad surgirá inevitablemente.
Debido a esto, en su opinión, a diferencia de la situación en la que se ha arreglado el patrón principal del modelo a gran escala de código cerrado en los Estados Unidos, no hay una conclusión sobre "cuyo modelo a gran escala es el mejor en China". . En este tumulto, el dinero es importante, pero al final son las personas, el equipo y la organización quienes toman la decisión. Las grandes empresas tienen más dinero, más personas y más poder de cómputo, pero su eficiencia organizativa generalmente no es necesariamente lo suficientemente buena.La eficiencia organizativa de las empresas emergentes puede o no ser buena.
"Todos luchan por las oportunidades, y no necesariamente caen en las grandes fábricas".
Wang Xiaochuan también habló sobre la salida de Wang Huiwen en la entrevista. Señaló que Wang Huiwen es el único entre varios modelos principales a gran escala en China que no tiene una sólida formación técnica, y el desafío para él es mayor que para otras empresas. Se deben tomar muchas decisiones técnicas en el trabajo, como a quién contratar, qué hoja de ruta técnica tomar y cuántos recursos informáticos se necesitan, y definitivamente enfrentará mucha presión para tomar decisiones.
"No es que hacer un modelo grande sea estresante, es que hay mucha presión para tomar decisiones sin conocimientos técnicos. Pero si la tecnología es suficiente, en realidad es bastante agradable".
Tencent, Byte está muy atrasado
Al comienzo del tumulto de los modelos a gran escala, se consideraba que los gigantes de Internet eran fuertes competidores porque tenían más poder de cómputo, talentos, fondos y datos.
El Wenxin Yiyan de desarrollo propio de Baidu se lanzó por primera vez a fines de marzo de este año; el Tongyi Qianwen de Alibaba lo siguió de cerca y se anunció en la Cumbre de la nube de Alibaba celebrada el 11 de abril. Justo el día antes de que Ali liberara a Tongyi Qianwen, Wang Xiaochuan anunció su fin y estableció Baichuan Intelligent.
Por el contrario, Tencent y Byte, que son fabricantes de primer nivel, son mucho más lentos en el lanzamiento de modelos grandes de uso general.
El 3 de agosto, según informes de 36kr, el "Modelo grande de Tencent Hunyuan" de desarrollo propio de Tencent entró en la etapa de prueba interna de la aplicación. Tres días después, el 6 de agosto, también se expuso el producto de diálogo de IA de Byte, Grace, que luego de dos meses de investigación y desarrollo, finalmente entró en la etapa de prueba.
En este momento, han pasado 4 meses desde que Baidu lanzó Wenxin Yiyan. Con respecto a la razón por la cual los productos modelo a gran escala de uso general de Tencent son más lentos, Ma Huateng declaró una vez públicamente: "Tencent también está inmerso en investigación y desarrollo, pero no tiene prisa por terminarlo antes y mostrar los productos semiacabados". .”
Sin embargo, Tencent, que "no tiene prisa", tomó la delantera al anunciar la ruta del "modelo de gran industria" a mediados de junio de este año, lanzando más de 50 soluciones para 10 industrias importantes de una sola vez. Coincidentemente, ByteDance también lanzó la plataforma de servicio modelo a gran escala "Volcano Ark" en junio, que brinda a las empresas una gama completa de servicios de plataforma al integrar los modelos a gran escala de muchas empresas de tecnología de inteligencia artificial e institutos de investigación científica.
El mercado alguna vez creyó que el modelo de industria a gran escala se convertiría en el método para que estos dos grandes fabricantes se abrieran paso.
Pero ese puede no ser el caso. Siempre existe el riesgo de ser reemplazado por el modelo de gran industria que se propugna actualmente. Wu Xiaoru, presidente de HKUST Xunfei, señaló una vez a Times Finance que hace 10 años, en la tecnología de reconocimiento de voz, había muchos modelos especiales que se enfocaban en diferentes escenarios, como llamadas, conducción y trabajo de oficina. El modelo también existe.
"Creo que las grandes modelos pasan por la misma fase".
Por el contrario, desde una perspectiva a más largo plazo, el modelo grande de propósito general realmente representa una gran oportunidad disruptiva o a nivel de plataforma. Es precisamente por eso que ni Tencent ni Byte pueden permitirse perder, aunque el progreso sea lento, deben insistir en estar presentes.
Algunas personas con información privilegiada de Tencent señalaron a Times Finance que el plan de Tencent siempre ha sido caminar sobre dos piernas, y GM y la industria van de la mano. Es solo que, en comparación con algunos fabricantes radicales, Tencent, cuyos productos cubren redes sociales, juegos, publicidad, creación de contenido y otros campos, es más cauteloso.
Los emprendedores académicos encuentran otro camino
En el campo de batalla de modelos a gran escala, las empresas académicas de universidades e instituciones de investigación forman el tercer polo de competencia.
No son jugadores sembrados como Wang Xiaochuan y Wang Huiwen. Al comienzo de su negocio, pueden atraer cientos de millones de dólares en inversiones en virtud de sus conexiones y usar esto para comenzar rápidamente. Tampoco es como las grandes empresas como Tencent, Ali y Baidu, que tienen ventajas insuperables en potencia informática, talento y capital.
Pero confiando en su profundo conocimiento de la tecnología de inteligencia artificial, estos emprendedores aún pueden encontrar nuevas direcciones de desarrollo bajo el ataque.
Por ejemplo, Lanzhou Technology, fundada por Zhou Ming, ex vicepresidente del Instituto de Investigación de Microsoft Asia, es diferente de los productos modelo a gran escala en el mercado que persiguen cientos de miles de millones o incluso billones de parámetros. Esta persona ha estado estudiando PNL. (procesamiento del lenguaje natural) desde 1980. El experto chino en IA espera resolver el problema de los escenarios del lado B con un modelo más liviano.
El modelo grande de Mencius que lanzó utilizó una vez mil millones de parámetros para actualizar la lista CLUE del punto de referencia de evaluación autorizado para la comprensión del idioma chino, que anteriormente estaba dominado por modelos con parámetros de 10 mil millones y 100 mil millones de niveles.
Esta es una decisión pragmática. Por el bien de la seguridad de los datos, la mayoría de las empresas no cargarán datos, pero requerirán una implementación localizada, lo que aumentará significativamente el costo. En una entrevista con los medios, Zhou Ming señaló que incluso si se trata solo de un despliegue local de inferencia, utilizando un modelo grande bien entrenado, un modelo grande con 100 mil millones de parámetros aún necesita de 8 a 16 A100, que es al menos uno o dos millones de yuanes en inversión, "Para muchos escenarios, los clientes deben ser baratos y asequibles".
Luchen Technology, fundada por el joven profesor You Yang, presidente de la Universidad Nacional de Singapur, espera utilizar la tecnología de algoritmos para reducir el costo de llamar a modelos grandes.
Hoy en día, ya sea una gran fábrica o una empresa de nueva creación, debe enfrentar el problema de que la tendencia de homogeneización de los modelos domésticos a gran escala es cada vez más evidente. Si este problema no se resuelve, es probable que los grandes modelos del futuro caigan en la situación de bajo margen que enfrentan los proveedores de servicios en la nube en la actualidad.
You Yang le dijo a Times Finance que esto se debe a que el costo de iteración de la base tecnológica subyacente es demasiado alto. Usó GPT como ejemplo. El costo de capacitación de OpenAI es tan alto como 60 millones de dólares estadounidenses cada vez, y necesita capacitación cada tres o cuatro meses, y necesita cuatro o cinco capacitaciones para una iteración. Sobre esta base, cada iteración de la base técnica puede costar entre 200 y 300 millones de dólares estadounidenses.
Costos excesivamente altos conducen a bases tecnológicas extremadamente escasas en el mercado. Básicamente solo GPT, LLAMA y GLM doméstico. Básicamente, todos los fabricantes están imitando estos modelos grandes para fabricar productos, lo que ha hecho que el problema de la homogeneidad se vuelva más prominente.
You Yang, que ha estado estudiando computación de alto rendimiento durante mucho tiempo, estableció Luchen Technology. El sistema de código abierto Colossal-AI lanzado actualmente por la compañía puede reducir significativamente los costos de desarrollo y aplicación del entrenamiento, ajuste y razonamiento de modelos grandes de IA a través de tecnologías como el paralelismo multidimensional eficiente y la memoria heterogénea.
You Yang cree que solo cuando el costo del entrenamiento de modelos a gran escala disminuya rápidamente, o cuando se adopten mejores técnicas de optimización para controlar los parámetros en aproximadamente 20 mil millones, y aun así lograr el mismo efecto que 100 mil millones de parámetros, los modelos a gran escala verdaderamente florecer ese día.