佈局多模態大模型：清華系團隊完成近億元天使輪融資，螞蟻領投

2023-06-20 06:42:16

作者：澎湃新聞

記者邵文

·生數科技成立於2023年3月，核心成員主要來自清華大學人工智能學院，是國內最早佈局多模態通用大模型的團隊之一。本輪融資由螞蟻集團領投，百度風投、卓源資本跟投，目前估值1億美元。

國內多模態大模型發展出現新動向。 6月19日，由清華大學計算機系教授、人工智能研究院副院長朱軍帶領的新團隊完成了近億級天使輪融資。

澎湃科技（了解到，這家名為北京生數科技有限公司（以下簡稱“生數科技”）的多模態大模型創業公司宣布完成近億元人民幣的天使輪融資。由螞蟻集團領投，百度風投、卓源資本跟投，目前估值1億美元。本輪融資後續將主要用於核心研發團隊的建設，加速多模態大模型和應用產品的研發。

多模態大模型指的是將文本、圖像、視頻、音頻等多模態信息聯合起來進行訓練的模型。此前，OpenAI聯合創始人伊爾亞·蘇茨克維（Ilya Sutskever）曾表示，“人工智能的長期目標是構建多模態神經網絡，即AI能夠學習不同模態之間的概念，從而更好地理解世界”。

生數科技模型支持的圖像生成。

生數科技成立於2023年3月，由北京瑞萊智慧科技有限公司、螞蟻集團和百度風投聯合孵化成立，前瑞萊智慧副總裁、畢業於清華大學計算機系的唐家渝出任首席執行官，致力於打造可控的多模態通用大模型。據悉，這是ChatGPT火熱後，螞蟻集團第一次下場投資大模型公司，也是朱軍在瑞萊智慧後的第二次創業。瑞萊智慧是一家人工智能基礎設施和解決方案的提供商。

生數科技的團隊核心成員來自清華大學人工智能研究院，主要是朱軍帶領的課題組。該課題組致力於貝葉斯機器學習的基礎理論和高效算法研究，是國際上最早研究深度概率生成模型的團隊之一。 2022年1月，該團隊提出的無訓練推理框架Analytic-DPM被OpenAI應用於DALL·E 2模型處理策略中，此後提出採樣算法DPM-Solver，現作為全球最快圖像生成算法被Stable Diffusion等大量開源項目所採用。

修改視頻中畫面元素（提示語: a Swarovski crystal swan is swimming in a river），最左原視頻、中間生數科技效果、最右Runway效果。

據介紹，生數科技是國內最早佈局多模態通用大模型的團隊之一，其於2023年初開源了全球首個基於Transformer的多模態擴散大模型UniDiffuser，首次實現基於一個底層模型高質量地完成圖生文、圖文聯合生成、圖文改寫等多種生成任務。

Transformer模型於2017年由谷歌的一個團隊推出，是一種深度學習模型，可以按輸入數據各部分重要性的不同而分配不同的權重。該模型主要用於自然語言處理（NLP）與計算機視覺（CV）領域。 GPT等目前主要的大模型均基於Transformer開發。

“整體來看，目前業內做圖像生成大模型的思路是一樣的，都是基於擴散模型。我們的創新之處在於修改了底層的主網絡，首個把Transformer用在Diffusion Model技術裡面實現多模態。”唐家渝近日在接受媒體採訪時說。

唐家渝認為，現階段市面上的模型和產品僅僅解決了初級階段的可生成性問題，但生成的結果仍有很大的不確定性和不可控性，模型對用戶意圖的把握、精確細節的控制仍存在很大不足，比如難以對生成的圖像畫面中元素的位置、細節做到準確的控制，生成的3D模型在表面精細度、色彩光影的準確性方面仍處於較低水平。

3D內容生成（提示語：a DSLR photo of a blue jay standing on a large basket of rainbow macarons）。

生數科技向澎湃科技介紹，其在3D內容生成方面，研發了業內首個基於三視圖自動生成3D內容的技術，以及無需任何3D訓練數據的文生3D內容技術，效果方面可以做到細節精細化，能夠接近產業級應用，“所訓練的大模型在圖像生成方面已超過Stable Diffusion最新版基礎模型水平，預計將於年內赶超Midjourney最新版本。”

Stable Diffusion是由初創公司StabilityAI、CompVis與Runway合作開發的文本到圖像生成模型，於2022年發布，現已開源。 Midjourney是一款2022年3月面世的文本到圖像生成工具，經歷多個迭代，進入公開測試階段，其逼真效果引發中文網絡熱議。 Stable Diffusion和Midjourney都是目前全球範圍內行業領先、評價很高的AI工具。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言