Perfusion, решение Nvidia для высоких требований к памяти для создания изображений AI
Исследователи Nvidia разработали новый метод генерации изображений с помощью ИИ, который позволяет создавать настраиваемые модели преобразования текста в изображение с минимальными требованиями к объему памяти.
Согласно статье, опубликованной на arXiv, предлагаемый метод под названием «Perfusion» может добавлять новые визуальные концепции к существующим моделям, используя только 100 КБ параметров на концепцию.
Источник: исследование Nvidia.
Как описывают авторы статьи, Perfusion работает, «внося небольшие обновления во внутреннее представление модели преобразования текста в изображение».
В частности, он вносит тщательно рассчитанные изменения в ту часть модели, которая связывает текстовые описания с сгенерированными визуальными функциями.Применение небольших параметрических правок к слою перекрестного внимания позволяет Perfusion изменить способ преобразования текстового ввода в изображения.
Таким образом, Perfusion не полностью переобучала модель преобразования текста в изображение с нуля. Вместо этого он слегка подправляет математические преобразования, которые превращают текст в изображения. Это позволяет настраивать модель для создания новых визуальных концепций, не требуя больших вычислительных мощностей или переобучения модели.
Метод перфузии требует всего 100kb.
Перфузия позволяет достичь этих результатов, используя на два-пять порядков меньше параметров, чем конкурирующие методы.
В то время как другие методы могут потребовать хранения от сотен мегабайт до гигабайт на концепцию, Perfusion требует всего 100 КБ, что сопоставимо с небольшим изображением, текстом или сообщением WhatsApp.
Это резкое сокращение может сделать более целесообразным развертывание настраиваемых художественных моделей ИИ.
По словам соавтора Гал Чечик,
«Infusion не только обеспечивает более точную персонализацию при уменьшении размера модели, но также позволяет использовать более сложные сигналы и включать индивидуально изученные концепции во время вывода».
Метод может использовать индивидуально усвоенные понятия «плюшевый мишка» и «чайник» для создания творческих образов, таких как «плюшевый мишка, плывущий в чайнике».
Источник: исследование Nvidia.
Возможность эффективной персонализации
Уникальная способность Perfusion персонализировать модели ИИ, используя всего 100 КБ на концепцию, открывает бесчисленное количество потенциальных приложений:
Этот подход позволяет людям легко настраивать модели преобразования текста в изображения с помощью новых объектов, сцен или стилей, тем самым устраняя необходимость в дорогостоящем переобучении. Эффективность Perfusion, заключающаяся в обновлении параметров размером 100 КБ на концепцию, позволяет реализовать модели, настроенные с использованием этой технологии, на потребительских устройствах, что позволяет создавать образы на устройствах.
Одним из наиболее привлекательных аспектов этой технологии является потенциал, который она предлагает для совместного использования и совместной работы над моделями ИИ. Пользователи могут делиться своими персонализированными концепциями в виде небольших дополнительных файлов, избегая совместного использования утомительных контрольных точек модели.
С точки зрения распространения, модели, адаптированные для конкретных организаций, легче распространять или развертывать на периферии. По мере того, как практика преобразования текста в изображение становится все более популярной, возможность добиться такого значительного уменьшения размера без ущерба для функциональности будет иметь решающее значение.
Однако стоит отметить, что Perfusion в первую очередь обеспечивает персонализацию модели, а не полные генеративные возможности.
Ограничения и выпуски
Несмотря на то, что этот метод многообещающий, он имеет некоторые ограничения. Авторы отмечают, что ключевые выборы во время обучения иногда могут чрезмерно обобщать концепцию. По-прежнему необходимы дополнительные исследования, чтобы легко объединить несколько персонализированных идей в одно изображение.
Авторы отмечают, что код Perfusion будет доступен на странице их проекта, что указывает на намерение публично опубликовать метод в будущем, возможно, в ожидании экспертной оценки и официальных исследовательских публикаций. Однако, поскольку работа в настоящее время опубликована только на arXiv, точные детали общедоступности остаются неясными. На этой платформе исследователи могут загружать статьи перед официальным рецензированием и публикацией в журналах/конференциях.
Хотя доступ к коду Perfusion еще не получен, предложенные авторами планы означают, что такие высокоэффективные персонализированные системы искусственного интеллекта со временем могут попасть в руки разработчиков, индустрии и создателей.
С развитием художественных платформ ИИ, таких как MidJourney, DALL-E 2 и Stable Diffusion, методы, обеспечивающие больший контроль пользователя, могут иметь решающее значение для реального развертывания. Благодаря аккуратным улучшениям эффективности, таким как Perfusion, Nvidia, похоже, полна решимости сохранить свое преимущество в быстро развивающейся среде.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Nvidia сокращает метод генерации изображений AI до размера сообщения WhatsApp
Perfusion, решение Nvidia для высоких требований к памяти для создания изображений AI
Исследователи Nvidia разработали новый метод генерации изображений с помощью ИИ, который позволяет создавать настраиваемые модели преобразования текста в изображение с минимальными требованиями к объему памяти.
Согласно статье, опубликованной на arXiv, предлагаемый метод под названием «Perfusion» может добавлять новые визуальные концепции к существующим моделям, используя только 100 КБ параметров на концепцию.
Источник: исследование Nvidia.
Как описывают авторы статьи, Perfusion работает, «внося небольшие обновления во внутреннее представление модели преобразования текста в изображение».
В частности, он вносит тщательно рассчитанные изменения в ту часть модели, которая связывает текстовые описания с сгенерированными визуальными функциями.Применение небольших параметрических правок к слою перекрестного внимания позволяет Perfusion изменить способ преобразования текстового ввода в изображения.
Таким образом, Perfusion не полностью переобучала модель преобразования текста в изображение с нуля. Вместо этого он слегка подправляет математические преобразования, которые превращают текст в изображения. Это позволяет настраивать модель для создания новых визуальных концепций, не требуя больших вычислительных мощностей или переобучения модели.
Метод перфузии требует всего 100kb.
Перфузия позволяет достичь этих результатов, используя на два-пять порядков меньше параметров, чем конкурирующие методы.
В то время как другие методы могут потребовать хранения от сотен мегабайт до гигабайт на концепцию, Perfusion требует всего 100 КБ, что сопоставимо с небольшим изображением, текстом или сообщением WhatsApp.
Это резкое сокращение может сделать более целесообразным развертывание настраиваемых художественных моделей ИИ.
По словам соавтора Гал Чечик,
«Infusion не только обеспечивает более точную персонализацию при уменьшении размера модели, но также позволяет использовать более сложные сигналы и включать индивидуально изученные концепции во время вывода».
Метод может использовать индивидуально усвоенные понятия «плюшевый мишка» и «чайник» для создания творческих образов, таких как «плюшевый мишка, плывущий в чайнике».
Источник: исследование Nvidia.
Возможность эффективной персонализации
Уникальная способность Perfusion персонализировать модели ИИ, используя всего 100 КБ на концепцию, открывает бесчисленное количество потенциальных приложений:
Этот подход позволяет людям легко настраивать модели преобразования текста в изображения с помощью новых объектов, сцен или стилей, тем самым устраняя необходимость в дорогостоящем переобучении. Эффективность Perfusion, заключающаяся в обновлении параметров размером 100 КБ на концепцию, позволяет реализовать модели, настроенные с использованием этой технологии, на потребительских устройствах, что позволяет создавать образы на устройствах.
Одним из наиболее привлекательных аспектов этой технологии является потенциал, который она предлагает для совместного использования и совместной работы над моделями ИИ. Пользователи могут делиться своими персонализированными концепциями в виде небольших дополнительных файлов, избегая совместного использования утомительных контрольных точек модели.
С точки зрения распространения, модели, адаптированные для конкретных организаций, легче распространять или развертывать на периферии. По мере того, как практика преобразования текста в изображение становится все более популярной, возможность добиться такого значительного уменьшения размера без ущерба для функциональности будет иметь решающее значение.
Однако стоит отметить, что Perfusion в первую очередь обеспечивает персонализацию модели, а не полные генеративные возможности.
Ограничения и выпуски
Несмотря на то, что этот метод многообещающий, он имеет некоторые ограничения. Авторы отмечают, что ключевые выборы во время обучения иногда могут чрезмерно обобщать концепцию. По-прежнему необходимы дополнительные исследования, чтобы легко объединить несколько персонализированных идей в одно изображение.
Авторы отмечают, что код Perfusion будет доступен на странице их проекта, что указывает на намерение публично опубликовать метод в будущем, возможно, в ожидании экспертной оценки и официальных исследовательских публикаций. Однако, поскольку работа в настоящее время опубликована только на arXiv, точные детали общедоступности остаются неясными. На этой платформе исследователи могут загружать статьи перед официальным рецензированием и публикацией в журналах/конференциях.
Хотя доступ к коду Perfusion еще не получен, предложенные авторами планы означают, что такие высокоэффективные персонализированные системы искусственного интеллекта со временем могут попасть в руки разработчиков, индустрии и создателей.
С развитием художественных платформ ИИ, таких как MidJourney, DALL-E 2 и Stable Diffusion, методы, обеспечивающие больший контроль пользователя, могут иметь решающее значение для реального развертывания. Благодаря аккуратным улучшениям эффективности, таким как Perfusion, Nvidia, похоже, полна решимости сохранить свое преимущество в быстро развивающейся среде.