# AI与区块链的融合:从技术到应用人工智能行业近期的飞速发展被一些人视为第四次工业革命的开端。大型语言模型的出现显著提升了各行各业的效率,据估计为美国整体提高了约20%的工作效率。同时,大模型所带来的泛化能力被认为是一种全新的软件设计范式。相比过去精确的代码设计,现在的软件开发更多地是将泛化能力强的大模型框架嵌入到软件中,使软件具备更强的表现力和更广泛的输入输出能力。深度学习技术确实为AI行业带来了新一轮繁荣,这股热潮也逐渐蔓延到了加密货币行业。本报告将详细探讨AI行业的发展历程、技术分类,以及深度学习技术的发明对行业的影响。然后深入分析深度学习中GPU、云计算、数据源、边缘设备等产业链上下游的发展现状与趋势。之后从本质上探讨Crypto与AI行业的关系,并对Crypto相关的AI产业链格局进行了梳理。## AI行业的发展历程AI行业从20世纪50年代起步,为实现人工智能的愿景,学术界和工业界在不同时代不同学科背景下,发展出了多种实现人工智能的流派。现代人工智能技术主要使用"机器学习"这一术语,其核心理念是让机器依靠数据在任务中反复迭代以改善系统性能。主要步骤是将数据输入算法,用此数据训练模型,测试部署模型,使用模型完成自动化的预测任务。目前机器学习有三大主要流派,分别是联结主义、符号主义和行为主义,分别模仿人类的神经系统、思维、行为。而目前以神经网络为代表的联结主义占据上风(也被称为深度学习),主要原因是这种架构有一个输入层一个输出层,但有多个隐藏层,一旦层数以及神经元(参数)的数量变得足够多,就有足够的机会拟合复杂的通用型任务。通过数据输入,可以不断调整神经元的参数,最终经历过多次数据,该神经元就会达到一个最佳的状态(参数),这也就是所谓的"深度"的由来 - 足够多的层数和神经元。而基于神经网络的深度学习技术,也有多个技术迭代与演进,从最早期的神经网络,到前馈神经网络、RNN、CNN、GAN最后演进到现代大模型如GPT等使用的Transformer技术。Transformer技术只是神经网络的一个演进方向,多加了一个转换器(Transformer),用于把所有模态(如音频,视频,图片等)的数据编码成对应的数值来表示。然后再输入到神经网络中,这样神经网络就能拟合任何类型的数据,也就是实现多模态。AI发展经历了三次技术浪潮,第一次浪潮是20世纪60年代,是AI技术提出的十年后,这次浪潮是符号主义技术发展引起的,该技术解决了通用的自然语言处理以及人机对话的问题。同时期,专家系统诞生,这个是斯坦福大学完成的DENRAL专家系统,该系统具备非常强的化学知识,通过问题进行推断以生成和化学专家一样的答案,这个化学专家系统可以被视为化学知识库以及推断系统的结合。第二次AI技术浪潮发生在1997年,IBM深蓝"Blue"以3.5:2.5战胜了国际象棋冠军卡斯帕罗夫,这场胜利被视为人工智能的一个里程碑。第三次AI技术浪潮发生在2006年。深度学习三巨头Yann LeCun、Geoffrey Hinton以及Yoshua Bengio提出了深度学习的概念,一种以人工神经网络为架构,对数据进行表征学习的算法。之后深度学习的算法逐渐演进,从RNN、GAN到Transformer以及Stable Diffusion,这些算法共同塑造了这第三次技术浪潮,这也是联结主义的鼎盛时期。## 深度学习产业链当前大模型语言使用的都是基于神经网络的深度学习方法。以GPT为首的大模型造就了一波人工智能的热潮,大量的玩家涌入这个赛道,我们也发现市场对于数据、算力的需求大量迸发,因此在报告的这一部分,我们主要是探索深度学习算法的产业链,在深度学习算法主导的AI行业,其上下游是如何组成的,而上下游的现状与供需关系、未来发展又是如何。首先我们需要明晰的是,在进行基于Transformer技术的GPT为首的LLMs(大模型)训练时,一共分为三个步骤。在训练之前,因为是基于Transformer,因此转换器需要将文本输入转化为数值,这个过程被称为"Tokenization",之后这些数值被称为Token。在一般的经验法则下,一个英文单词或者字符可以粗略视作一个Token,而每个汉字可以被粗略视为两个Token。这个也是GPT计价使用的基本单位。第一步,预训练。通过给输入层足够多的数据对来寻找该模型下各个神经元最佳的参数,这个时候需要大量的数据,而这个过程也是最耗费算力的过程,因为要反复迭代神经元尝试各种参数。第二步,微调。微调是给予一批量较少,但是质量非常高的数据来训练,这样的改变就会让模型的输出有更高的质量,因为预训练需要大量数据,但是很多数据可能存在错误或者低质量。第三步,强化学习。首先会建立一个全新的模型,我们称其为"奖励模型",这个模型目的非常简单,就是对输出的结果进行排序。之后用这个模型来判定我们大模型的输出是否是高质量的,这样就可以用一个奖励模型来自动迭代大模型的参数。简而言之,在大模型的训练过程中,预训练对数据的量有非常高的要求,所需要耗费的GPU算力也是最多的,而微调需要更加高质量的数据来改进参数,强化学习可以通过一个奖励模型来反复迭代参数以输出更高质量的结果。在训练的过程中,参数越多那么其泛化能力的天花板就越高。因此,影响大模型表现主要由三个方面决定,参数数量、数据量与质量、算力,这三个共同影响了大模型的结果质量和泛化能力。## Crypto与AI的关系区块链得益于ZK技术的发展,演变成了去中心化 + 去信任化的思想。我们回到区块链创造之初,是比特币链。在中本聪的论文中,其首先称其为去信任化的、价值转移系统。之后Vitalik等人发表了论文推出了去中心化、去信任化、价值互换的智能合约平台。回到本质,我们认为整个区块链网络就是一个价值网络,每一笔交易都是以底层代币为基础的价值转换。这里的价值是Token的形式体现,而Tokenomics就是具体的Token价值体现的规则。代币和区块链技术这种对价值重新定义与发现的手段,对任何行业也至关重要,包括AI行业。在AI行业中,发行代币能够让AI产业链中的各方面都进行价值的重塑,那么会激励更多人愿意在AI行业各个细分赛道深根,因为其带来的收益将变得更为显著,不仅仅是现金流来决定其当前价值,并且代币的协同作用会让基础设施的价值得到提升,这会天然的导致胖协议瘦应用范式的形成。其次,AI产业链中所有项目都将获得资本增值的收益,并且这种代币能够反哺生态系统以及促进某种哲学思想的诞生。代币经济学显然对行业的影响是有其积极的一面,区块链技术的不可篡改和无需信任的性质也有其AI行业的实际意义,能够实现一些需要信任的应用,比如我们的用户数据能够允许在某个模型之上,但是确保模型不知道具体的数据、确保模型不泄露数据、确保返回该模型推理的真实数据。当GPU不足够时,能够通过区块链网络分销,当GPU迭代,闲置的GPU能贡献算力到网络中,重新发现剩余价值,这是全球化的价值网络才能做到的事情。总之,代币经济学能够促进价值的重塑和发现,去中心化账本能够解决信任问题,将价值在全球范围重新流动起来。## Crypto行业AI相关项目概览### GPU供给侧目前使用较多的是Render项目,其在2020年推出,主要用于非大模型类的视频渲染任务。Render面向的场景与AI并不同,因此严格意义上不算是AI板块。并且其视频渲染业务确实有一定的真实需求,因此GPU云算力市场不仅仅可以面向AI模型的训练、推理,也可以应用于传统渲染任务,这降低了GPU云市场依赖单一市场风险。在Crypto关于AI的产业链中,算力供给无疑是最重要的一点。根据行业预测,2024年GPU的算力需求大约有750亿美元,到2032年大约有7730亿美元的市场需求,年化复合增长率(CAGR)约为33.86%。GPU的迭代率遵循摩尔定律(18-24各月性能翻倍,价格下降一半),那么对于共享GPU算力的需求将会变得极大,因为GPU市场的爆发,会在未来摩尔定律的影响下,形成大量的非最新几代的GPU,这时候这些闲置的GPU将作为长尾算力在共享网络中继续发挥其价值,因此我们确实看好这个赛道的长期潜力和实际效用,不仅仅是中小模型的业务还有传统的渲染业务也会形成比较强的需求。### 数据目前上线的项目包括EpiK Protocol、Synesis One、Masa等,不同点在于EpiK protocol和Synesis One是对于公开数据源进行收集,但是Masa是基于ZK技术,能够实现隐私数据的收集,这样对于用户更加友好。相比于其它Web2的传统数据企业,Web3数据提供商具备的优势在于数据采集侧,因为个人能够贡献自己非隐私的数据,这样项目的接触面会变得很广,不仅仅是ToB,而且能够为任何用户的数据都进行定价,任何过去的数据都有了价值,并且由于代币经济学的存在,本身网络价值和价格是相互依赖的,0成本的代币随着网络价值变高也会变高,而这些代币会降低开发商的成本,用来奖励用户,用户贡献数据的动机将变得更足。### ZKML如果数据想要实现隐私计算以及训练,目前业内主要采用的ZK方案,使用同态加密技术,将数据在链下推理然后将结果和ZK证明上传,那么就能保证数据的隐私性和推理
AI与区块链融合:从技术演进到产业链布局
AI与区块链的融合:从技术到应用
人工智能行业近期的飞速发展被一些人视为第四次工业革命的开端。大型语言模型的出现显著提升了各行各业的效率,据估计为美国整体提高了约20%的工作效率。同时,大模型所带来的泛化能力被认为是一种全新的软件设计范式。相比过去精确的代码设计,现在的软件开发更多地是将泛化能力强的大模型框架嵌入到软件中,使软件具备更强的表现力和更广泛的输入输出能力。深度学习技术确实为AI行业带来了新一轮繁荣,这股热潮也逐渐蔓延到了加密货币行业。
本报告将详细探讨AI行业的发展历程、技术分类,以及深度学习技术的发明对行业的影响。然后深入分析深度学习中GPU、云计算、数据源、边缘设备等产业链上下游的发展现状与趋势。之后从本质上探讨Crypto与AI行业的关系,并对Crypto相关的AI产业链格局进行了梳理。
AI行业的发展历程
AI行业从20世纪50年代起步,为实现人工智能的愿景,学术界和工业界在不同时代不同学科背景下,发展出了多种实现人工智能的流派。
现代人工智能技术主要使用"机器学习"这一术语,其核心理念是让机器依靠数据在任务中反复迭代以改善系统性能。主要步骤是将数据输入算法,用此数据训练模型,测试部署模型,使用模型完成自动化的预测任务。
目前机器学习有三大主要流派,分别是联结主义、符号主义和行为主义,分别模仿人类的神经系统、思维、行为。
而目前以神经网络为代表的联结主义占据上风(也被称为深度学习),主要原因是这种架构有一个输入层一个输出层,但有多个隐藏层,一旦层数以及神经元(参数)的数量变得足够多,就有足够的机会拟合复杂的通用型任务。通过数据输入,可以不断调整神经元的参数,最终经历过多次数据,该神经元就会达到一个最佳的状态(参数),这也就是所谓的"深度"的由来 - 足够多的层数和神经元。
而基于神经网络的深度学习技术,也有多个技术迭代与演进,从最早期的神经网络,到前馈神经网络、RNN、CNN、GAN最后演进到现代大模型如GPT等使用的Transformer技术。Transformer技术只是神经网络的一个演进方向,多加了一个转换器(Transformer),用于把所有模态(如音频,视频,图片等)的数据编码成对应的数值来表示。然后再输入到神经网络中,这样神经网络就能拟合任何类型的数据,也就是实现多模态。
AI发展经历了三次技术浪潮,第一次浪潮是20世纪60年代,是AI技术提出的十年后,这次浪潮是符号主义技术发展引起的,该技术解决了通用的自然语言处理以及人机对话的问题。同时期,专家系统诞生,这个是斯坦福大学完成的DENRAL专家系统,该系统具备非常强的化学知识,通过问题进行推断以生成和化学专家一样的答案,这个化学专家系统可以被视为化学知识库以及推断系统的结合。
第二次AI技术浪潮发生在1997年,IBM深蓝"Blue"以3.5:2.5战胜了国际象棋冠军卡斯帕罗夫,这场胜利被视为人工智能的一个里程碑。
第三次AI技术浪潮发生在2006年。深度学习三巨头Yann LeCun、Geoffrey Hinton以及Yoshua Bengio提出了深度学习的概念,一种以人工神经网络为架构,对数据进行表征学习的算法。之后深度学习的算法逐渐演进,从RNN、GAN到Transformer以及Stable Diffusion,这些算法共同塑造了这第三次技术浪潮,这也是联结主义的鼎盛时期。
深度学习产业链
当前大模型语言使用的都是基于神经网络的深度学习方法。以GPT为首的大模型造就了一波人工智能的热潮,大量的玩家涌入这个赛道,我们也发现市场对于数据、算力的需求大量迸发,因此在报告的这一部分,我们主要是探索深度学习算法的产业链,在深度学习算法主导的AI行业,其上下游是如何组成的,而上下游的现状与供需关系、未来发展又是如何。
首先我们需要明晰的是,在进行基于Transformer技术的GPT为首的LLMs(大模型)训练时,一共分为三个步骤。
在训练之前,因为是基于Transformer,因此转换器需要将文本输入转化为数值,这个过程被称为"Tokenization",之后这些数值被称为Token。在一般的经验法则下,一个英文单词或者字符可以粗略视作一个Token,而每个汉字可以被粗略视为两个Token。这个也是GPT计价使用的基本单位。
第一步,预训练。通过给输入层足够多的数据对来寻找该模型下各个神经元最佳的参数,这个时候需要大量的数据,而这个过程也是最耗费算力的过程,因为要反复迭代神经元尝试各种参数。
第二步,微调。微调是给予一批量较少,但是质量非常高的数据来训练,这样的改变就会让模型的输出有更高的质量,因为预训练需要大量数据,但是很多数据可能存在错误或者低质量。
第三步,强化学习。首先会建立一个全新的模型,我们称其为"奖励模型",这个模型目的非常简单,就是对输出的结果进行排序。之后用这个模型来判定我们大模型的输出是否是高质量的,这样就可以用一个奖励模型来自动迭代大模型的参数。
简而言之,在大模型的训练过程中,预训练对数据的量有非常高的要求,所需要耗费的GPU算力也是最多的,而微调需要更加高质量的数据来改进参数,强化学习可以通过一个奖励模型来反复迭代参数以输出更高质量的结果。
在训练的过程中,参数越多那么其泛化能力的天花板就越高。因此,影响大模型表现主要由三个方面决定,参数数量、数据量与质量、算力,这三个共同影响了大模型的结果质量和泛化能力。
Crypto与AI的关系
区块链得益于ZK技术的发展,演变成了去中心化 + 去信任化的思想。我们回到区块链创造之初,是比特币链。在中本聪的论文中,其首先称其为去信任化的、价值转移系统。之后Vitalik等人发表了论文推出了去中心化、去信任化、价值互换的智能合约平台。
回到本质,我们认为整个区块链网络就是一个价值网络,每一笔交易都是以底层代币为基础的价值转换。这里的价值是Token的形式体现,而Tokenomics就是具体的Token价值体现的规则。
代币和区块链技术这种对价值重新定义与发现的手段,对任何行业也至关重要,包括AI行业。在AI行业中,发行代币能够让AI产业链中的各方面都进行价值的重塑,那么会激励更多人愿意在AI行业各个细分赛道深根,因为其带来的收益将变得更为显著,不仅仅是现金流来决定其当前价值,并且代币的协同作用会让基础设施的价值得到提升,这会天然的导致胖协议瘦应用范式的形成。
其次,AI产业链中所有项目都将获得资本增值的收益,并且这种代币能够反哺生态系统以及促进某种哲学思想的诞生。
代币经济学显然对行业的影响是有其积极的一面,区块链技术的不可篡改和无需信任的性质也有其AI行业的实际意义,能够实现一些需要信任的应用,比如我们的用户数据能够允许在某个模型之上,但是确保模型不知道具体的数据、确保模型不泄露数据、确保返回该模型推理的真实数据。当GPU不足够时,能够通过区块链网络分销,当GPU迭代,闲置的GPU能贡献算力到网络中,重新发现剩余价值,这是全球化的价值网络才能做到的事情。
总之,代币经济学能够促进价值的重塑和发现,去中心化账本能够解决信任问题,将价值在全球范围重新流动起来。
Crypto行业AI相关项目概览
GPU供给侧
目前使用较多的是Render项目,其在2020年推出,主要用于非大模型类的视频渲染任务。Render面向的场景与AI并不同,因此严格意义上不算是AI板块。并且其视频渲染业务确实有一定的真实需求,因此GPU云算力市场不仅仅可以面向AI模型的训练、推理,也可以应用于传统渲染任务,这降低了GPU云市场依赖单一市场风险。
在Crypto关于AI的产业链中,算力供给无疑是最重要的一点。根据行业预测,2024年GPU的算力需求大约有750亿美元,到2032年大约有7730亿美元的市场需求,年化复合增长率(CAGR)约为33.86%。
GPU的迭代率遵循摩尔定律(18-24各月性能翻倍,价格下降一半),那么对于共享GPU算力的需求将会变得极大,因为GPU市场的爆发,会在未来摩尔定律的影响下,形成大量的非最新几代的GPU,这时候这些闲置的GPU将作为长尾算力在共享网络中继续发挥其价值,因此我们确实看好这个赛道的长期潜力和实际效用,不仅仅是中小模型的业务还有传统的渲染业务也会形成比较强的需求。
数据
目前上线的项目包括EpiK Protocol、Synesis One、Masa等,不同点在于EpiK protocol和Synesis One是对于公开数据源进行收集,但是Masa是基于ZK技术,能够实现隐私数据的收集,这样对于用户更加友好。
相比于其它Web2的传统数据企业,Web3数据提供商具备的优势在于数据采集侧,因为个人能够贡献自己非隐私的数据,这样项目的接触面会变得很广,不仅仅是ToB,而且能够为任何用户的数据都进行定价,任何过去的数据都有了价值,并且由于代币经济学的存在,本身网络价值和价格是相互依赖的,0成本的代币随着网络价值变高也会变高,而这些代币会降低开发商的成本,用来奖励用户,用户贡献数据的动机将变得更足。
ZKML
如果数据想要实现隐私计算以及训练,目前业内主要采用的ZK方案,使用同态加密技术,将数据在链下推理然后将结果和ZK证明上传,那么就能保证数据的隐私性和推理