Nvidia reduce el método de generación de imágenes de IA al tamaño de un mensaje de WhatsApp

Perfusion, la solución de Nvidia para altas demandas de almacenamiento de generación de imágenes de IA

Los investigadores de Nvidia han desarrollado una nueva técnica de generación de imágenes de IA que permite modelos de texto a imagen altamente personalizados con requisitos mínimos de almacenamiento.

Según un artículo publicado en arXiv, el método propuesto, llamado "Perfusión", puede agregar nuevos conceptos visuales a los modelos existentes, utilizando solo 100 KB de parámetros por concepto.

Fuente: Investigación de Nvidia

Como describen los autores del artículo, Perfusion funciona "haciendo pequeñas actualizaciones en la representación interna del modelo de texto a imagen".

Más específicamente, realiza cambios cuidadosamente calculados en la parte del modelo que conecta las descripciones textuales con las características visuales generadas.La aplicación de pequeñas ediciones paramétricas a la capa de atención cruzada permite que Perfusion modifique la forma en que la entrada de texto se convierte en imágenes.

Entonces, Perfusion no volvió a entrenar completamente el modelo de texto a imagen desde cero. En cambio, modifica ligeramente las transformaciones matemáticas que convierten el texto en imágenes. Esto le permite personalizar el modelo para generar nuevos conceptos visuales sin requerir mucha potencia informática o reentrenamiento del modelo.

El método de perfusión requiere sólo 100kb.

La perfusión logra estos resultados con dos a cinco órdenes de magnitud menos de parámetros que las técnicas de la competencia.

Mientras que otros métodos pueden requerir cientos de megabytes a gigabytes de almacenamiento por concepto, Perfusion requiere solo 100 KB, comparable a una pequeña imagen, texto o mensaje de WhatsApp.

Esta reducción drástica podría hacer que sea más factible implementar modelos de arte de IA altamente personalizados.

Según el coautor Gal Chechik,

"Infusion no solo permite una personalización más precisa en una fracción del tamaño del modelo, sino que también permite el uso de señales más complejas y la incorporación de conceptos aprendidos individualmente en el momento de la inferencia".

El método puede utilizar las nociones aprendidas individualmente de "oso de peluche" y "tetera" para generar imágenes creativas como "un oso de peluche navegando en una tetera".

Fuente: Investigación de Nvidia

Posibilidad de personalización eficiente

La capacidad única de Perfusion para personalizar modelos de IA utilizando solo 100 KB por concepto abre innumerables aplicaciones potenciales:

Este enfoque allana el camino para que las personas personalicen fácilmente los modelos de texto a imagen con nuevos objetos, escenas o estilos, eliminando así la necesidad de una costosa capacitación. La eficiencia de Perfusion de actualizaciones de parámetros de 100 KB por concepto permite que los modelos personalizados con la tecnología se implementen en dispositivos de consumo, lo que permite la creación de imágenes en el dispositivo.

Uno de los aspectos más convincentes de esta tecnología es el potencial que ofrece para compartir y colaborar en torno a modelos de IA. Los usuarios pueden compartir sus conceptos personalizados como pequeños archivos adicionales, evitando compartir los tediosos puntos de control del modelo.

En términos de distribución, los modelos adaptados a organizaciones específicas pueden difundirse o implementarse más fácilmente en el perímetro. A medida que la práctica de la generación de texto a imagen se generalice cada vez más, la capacidad de lograr reducciones de tamaño tan drásticas sin sacrificar la funcionalidad será fundamental.

Sin embargo, vale la pena señalar que Perfusion proporciona principalmente personalización del modelo en lugar de capacidades generativas completas en sí.

Restricciones y liberaciones

Si bien es prometedora, la técnica tiene algunas limitaciones. Los autores señalan que las elecciones clave durante el entrenamiento a veces pueden generalizar demasiado un concepto. Todavía se necesita más investigación para combinar a la perfección múltiples ideas personalizadas en una sola imagen.

Los autores señalan que el código de Perfusion estará disponible en la página de su proyecto, lo que indica la intención de publicar el método en el futuro, posiblemente pendiente de revisión por pares y publicaciones de investigación oficiales. Sin embargo, dado que el trabajo actualmente solo se publica en arXiv, los detalles exactos de la disponibilidad pública siguen sin estar claros. En esta plataforma, los investigadores pueden cargar artículos antes de la revisión formal por pares y la publicación en revistas/conferencias.

Si bien aún no se ha accedido al código de Perfusion, los planes propuestos por los autores significan que estos sistemas de IA personalizados y altamente eficientes podrían, a su debido tiempo, llegar a las manos de los desarrolladores, la industria y los creadores.

Con el desarrollo de plataformas de arte de IA como MidJourney, DALL-E 2 y Stable Diffusion, las técnicas que permiten un mayor control del usuario podrían ser fundamentales para la implementación en el mundo real. Con claras mejoras de eficiencia como Perfusion, Nvidia parece decidida a mantener su ventaja en un entorno en rápida evolución.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)