Các dự án Web3 về khái niệm AI trở thành mục tiêu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện qua: sử dụng phần thưởng phân tán để điều phối nguồn cung tiềm năng dài, liên quan đến dữ liệu, lưu trữ và tính toán; đồng thời xây dựng mô hình mã nguồn mở và thị trường phi tập trung cho AI Agent.
AI chủ yếu được ứng dụng trong ngành Web3 vào tài chính trên chuỗi (thanh toán tiền điện tử, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Công dụng của AI+Web3 thể hiện ở sự bổ sung cho nhau: Web3 hy vọng chống lại sự tập trung hóa của AI, AI hy vọng giúp Web3 mở rộng ra ngoài.
Giới thiệu
Trong hai năm qua, sự phát triển của AI giống như đã được nhấn nút tăng tốc. Cuộc cách mạng do Chatgpt khởi xướng không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh ra, mà còn tạo ra những cơn sóng lớn trong lĩnh vực Web3.
Dưới sự hỗ trợ của khái niệm AI, thị trường tiền mã hóa đã được thúc đẩy rõ rệt trong việc huy động vốn. Theo thống kê, chỉ trong nửa đầu năm 2024 đã có 64 dự án Web3+AI hoàn thành việc huy động vốn, hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã đạt được mức huy động vốn cao nhất là 100 triệu USD trong vòng A.
Thị trường thứ cấp đang trở nên sôi động hơn. Dữ liệu từ trang tổng hợp tiền điện tử Coingecko cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD. Những tiến bộ công nghệ AI chủ đạo đã mang lại lợi ích rõ rệt; sau khi OpenAI phát hành mô hình chuyển đổi văn bản thành video Sora, giá trung bình của lĩnh vực AI đã tăng 151%. Hiệu ứng AI cũng đã lan tỏa đến một trong những lĩnh vực hút vốn của tiền điện tử, Meme: Đồng MemeCoin đầu tiên với khái niệm AI Agent - GOAT đã nhanh chóng trở nên nổi tiếng và được định giá 1,4 tỷ USD, thành công trong việc khơi dậy cơn sốt AI Meme.
Về nghiên cứu và chủ đề AI+Web3 cũng đang rất sôi nổi, từ AI+Depin đến AI Memecoin và hiện tại là AI Agent và AI DAO, tâm lý FOMO đã không còn theo kịp tốc độ thay đổi của những câu chuyện mới.
Kết hợp thuật ngữ AI+Web3 đầy tiền nóng, cơ hội và những tưởng tượng về tương lai này, không tránh khỏi bị coi là một cuộc hôn nhân do vốn đầu tư sắp đặt. Chúng ta dường như rất khó phân biệt dưới lớp vỏ hào nhoáng này, rốt cuộc đây là sân nhà của những nhà đầu cơ, hay là đêm trước khi bình minh bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ quan trọng đối với cả hai bên là: Liệu việc có đối phương có mang lại lợi ích hơn không? Có thể hưởng lợi từ mô hình của đối phương không? Bài viết này cố gắng nhìn nhận cấu trúc này từ vai trò của những người đi trước: Web3 sẽ phát huy vai trò như thế nào trong các giai đoạn của công nghệ AI, và AI có thể mang lại sức sống mới cho Web3 ra sao?
Phần 1: Cơ hội nào cho Web3 dưới AI Stack?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về công nghệ của mô hình AI lớn:
Diễn đạt toàn bộ quá trình bằng ngôn ngữ thông dụng: "Mô hình lớn" giống như bộ não của con người, giai đoạn đầu giống như một em bé vừa mới chào đời, cần quan sát và tiếp nhận lượng lớn thông tin từ thế giới bên ngoài để hiểu về thế giới, đây là giai đoạn "thu thập" dữ liệu. Do máy tính không có nhiều giác quan như con người, thông tin quy mô lớn từ bên ngoài không có nhãn hiệu trước khi đào tạo cần được "tiền xử lý" để chuyển đổi thành định dạng thông tin mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" để xây dựng một mô hình có khả năng hiểu và dự đoán, có thể được coi là quá trình trẻ sơ sinh dần dần hiểu và học hỏi từ thế giới bên ngoài. Các tham số của mô hình giống như khả năng ngôn ngữ được điều chỉnh liên tục trong quá trình học của trẻ sơ sinh. Nội dung học bắt đầu được phân chia theo từng lĩnh vực, hoặc giao tiếp với người khác để nhận phản hồi và điều chỉnh, sau đó sẽ bước vào giai đoạn "tinh chỉnh" của mô hình lớn.
Khi trẻ em lớn lên và bắt đầu nói, chúng có thể hiểu ý nghĩa và diễn đạt cảm xúc, suy nghĩ trong các cuộc đối thoại mới. Giai đoạn này tương tự như "suy luận" của mô hình AI lớn, mô hình có khả năng dự đoán và phân tích các văn bản ngôn ngữ mới. Trẻ sơ sinh thể hiện cảm xúc, mô tả đồ vật và giải quyết vấn đề thông qua khả năng ngôn ngữ, cũng giống như mô hình AI lớn được đào tạo và sử dụng trong giai đoạn suy luận để thực hiện các nhiệm vụ cụ thể, chẳng hạn như phân loại hình ảnh, nhận diện giọng nói.
AI Agent ngày càng tiến gần đến hình thái tiếp theo của mô hình lớn - có khả năng thực hiện nhiệm vụ độc lập và theo đuổi các mục tiêu phức tạp, không chỉ có khả năng suy nghĩ mà còn có thể ghi nhớ, lập kế hoạch và có thể sử dụng công cụ để tương tác với thế giới.
Hiện tại, đối với các điểm đau của AI trong các ngăn xếp, Web3 đã hình thành một hệ sinh thái đa tầng, kết nối lẫn nhau, bao gồm tất cả các giai đoạn của quy trình mô hình AI.
Một, Cấp độ cơ bản: Airbnb về sức mạnh tính toán và dữ liệu
sức mạnh tính toán
Hiện tại, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết cho việc đào tạo mô hình và mô hình suy diễn.
Ví dụ, LLAMA3 của Meta cần 16.000 GPU H100 do NVIDIA sản xuất (đây là đơn vị xử lý đồ họa hàng đầu được thiết kế cho AI và khối lượng công việc tính toán hiệu suất cao) trong 30 ngày để hoàn thành đào tạo. Phiên bản 80GB của nó có giá từ 30.000 đến 40.000 đô la, điều này cần một khoản đầu tư phần cứng tính toán từ 400 đến 700 triệu đô la (GPU + chip mạng), trong khi mỗi tháng đào tạo tiêu tốn 1,6 tỷ kilowatt giờ, chi phí năng lượng gần 20 triệu đô la mỗi tháng.
Giải phóng sức mạnh tính toán AI cũng chính là lĩnh vực đầu tiên mà Web3 giao thoa với AI - DePin (Mạng cơ sở hạ tầng vật lý phi tập trung). Hiện tại, trang dữ liệu DePin Ninja đã liệt kê hơn 1400 dự án, trong đó các dự án tiêu biểu về chia sẻ sức mạnh GPU bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó là: nền tảng cho phép cá nhân hoặc thực thể sở hữu tài nguyên GPU nhàn rỗi đóng góp công suất tính toán theo cách phi tập trung không cần giấy phép, thông qua một thị trường trực tuyến giữa người mua và người bán tương tự như Uber hoặc Airbnb, tăng cường tỷ lệ sử dụng tài nguyên GPU chưa được khai thác. Người dùng cuối từ đó cũng nhận được tài nguyên tính toán hiệu quả với chi phí thấp hơn; đồng thời, cơ chế staking đảm bảo rằng nhà cung cấp tài nguyên sẽ bị trừng phạt tương ứng nếu vi phạm cơ chế kiểm soát chất lượng hoặc ngắt kết nối mạng.
Điểm đặc trưng của nó là:
Tập hợp tài nguyên GPU nhàn rỗi: Bên cung cấp chủ yếu là các trung tâm dữ liệu độc lập nhỏ và vừa bên thứ ba, các nhà điều hành mỏ tiền điện tử và tài nguyên tính toán dư thừa, cơ chế đồng thuận là phần cứng khai thác PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án nỗ lực khởi động thiết bị có ngưỡng tham gia thấp hơn, như exolab sử dụng MacBook, iPhone, iPad và các thiết bị cục bộ khác để thiết lập mạng lưới tính toán cho việc suy luận mô hình lớn.
Đối mặt với thị trường dài hạn của sức mạnh tính toán AI:
a. "Về mặt kỹ thuật", thị trường sức mạnh tính toán phi tập trung phù hợp hơn cho các bước suy luận. Việc đào tạo phụ thuộc nhiều vào khả năng xử lý dữ liệu do GPU quy mô siêu lớn mang lại, trong khi yêu cầu hiệu suất tính toán GPU cho suy luận tương đối thấp, như Aethir tập trung vào công việc kết xuất độ trễ thấp và ứng dụng suy luận AI.
b. "Về phía nhu cầu" thì các bên có nhu cầu tính toán nhỏ sẽ không tự đào tạo mô hình lớn của riêng mình, mà chỉ chọn tối ưu hóa, tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này đều phù hợp một cách tự nhiên với nguồn lực tính toán nhàn rỗi phân tán.
Quyền sở hữu phi tập trung: Ý nghĩa công nghệ của blockchain là người sở hữu tài nguyên luôn giữ quyền kiểm soát đối với tài nguyên, linh hoạt điều chỉnh theo nhu cầu, đồng thời thu được lợi nhuận.
Dữ liệu
Dữ liệu là nền tảng của AI. Không có dữ liệu, tính toán giống như bèo trôi, hoàn toàn vô dụng. Mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out", số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc đào tạo các mô hình AI hiện tại, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu biết, thậm chí là giá trị và biểu hiện nhân văn của mô hình. Hiện tại, các vấn đề về nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Khát dữ liệu: Đào tạo mô hình AI phụ thuộc vào lượng dữ liệu đầu vào lớn. Tài liệu công khai cho thấy, số lượng tham số của OpenAI khi đào tạo GPT-4 đã đạt tới mức hàng nghìn tỷ.
Chất lượng dữ liệu: Khi AI kết hợp với các ngành, tính kịp thời, sự đa dạng, tính chuyên môn của dữ liệu theo ngành, và việc tiếp nhận nguồn dữ liệu mới như cảm xúc từ mạng xã hội đã đặt ra những yêu cầu mới đối với chất lượng của nó.
Vấn đề về quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thấy tầm quan trọng của các tập dữ liệu chất lượng, và đang áp dụng các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quy trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện tại, giải pháp web3 được thể hiện ở bốn khía cạnh sau:
Thu thập dữ liệu: Việc cung cấp dữ liệu thực tế được thu thập miễn phí đang nhanh chóng cạn kiệt, chi phí mà các công ty AI trả cho dữ liệu đang tăng lên theo từng năm. Tuy nhiên, khoản chi này không được trả lại cho những người đóng góp thực sự cho dữ liệu, mà các nền tảng hoàn toàn hưởng lợi từ giá trị tạo ra từ dữ liệu, như Reddit đã đạt được tổng doanh thu 203 triệu USD thông qua các thỏa thuận cấp phép dữ liệu với các công ty AI.
Cho phép những người dùng thực sự đóng góp cũng tham gia vào việc tạo ra giá trị từ dữ liệu và thông qua mạng lưới phân tán cũng như cơ chế khuyến khích, thu thập dữ liệu cá nhân hơn và có giá trị hơn với chi phí thấp là tầm nhìn của Web3.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung chuyển để thu thập dữ liệu thời gian thực từ toàn bộ internet, và nhận phần thưởng bằng token.
Vana đã giới thiệu khái niệm Hồ dữ liệu lưu động độc đáo (DLP), cho phép người dùng tải lên dữ liệu cá nhân (như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt lựa chọn liệu có cho phép các bên thứ ba cụ thể sử dụng những dữ liệu này hay không.
Trong PublicAI, người dùng có thể sử dụng #AI或#Web3 làm nhãn phân loại trên X và @PublicAI để thực hiện việc thu thập dữ liệu.
Tiền xử lý dữ liệu: Trong quá trình xử lý dữ liệu của AI, do dữ liệu thu thập thường ồn ào và chứa lỗi, cần phải làm sạch và chuyển đổi chúng thành định dạng có thể sử dụng trước khi đào tạo mô hình, liên quan đến các nhiệm vụ lặp đi lặp lại như chuẩn hóa, lọc và xử lý giá trị thiếu. Giai đoạn này là một trong số ít các khâu thủ công trong ngành AI, đã phát sinh ra ngành nghề người gán nhãn dữ liệu, và khi yêu cầu chất lượng dữ liệu của mô hình ngày càng cao, tiêu chuẩn đối với người gán nhãn dữ liệu cũng tăng theo, trong khi nhiệm vụ này tự nhiên phù hợp với cơ chế khuyến khích phi tập trung của Web3.
Hiện tại, Grass và OpenLayer đều đang xem xét việc tham gia vào khâu quan trọng này là gán nhãn dữ liệu.
Synesis đã đưa ra khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu được gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã biến nhiệm vụ gán nhãn thành trò chơi và cho phép người dùng đặt cọc điểm để kiếm thêm điểm.
Quyền riêng tư và an ninh dữ liệu: Cần phải làm rõ rằng quyền riêng tư dữ liệu và an ninh dữ liệu là hai khái niệm khác nhau. Quyền riêng tư dữ liệu liên quan đến việc xử lý dữ liệu nhạy cảm, trong khi an ninh dữ liệu bảo vệ thông tin dữ liệu khỏi việc truy cập, phá hủy và đánh cắp trái phép. Do đó, lợi thế công nghệ quyền riêng tư Web3 và các ứng dụng tiềm năng thể hiện ở hai khía cạnh: (1) Đào tạo dữ liệu nhạy cảm; (2) Hợp tác dữ liệu: Nhiều chủ sở hữu dữ liệu có thể cùng tham gia vào việc đào tạo AI mà không cần phải chia sẻ dữ liệu gốc của họ.
Các công nghệ bảo mật phổ biến hiện nay trong Web3 bao gồm:
Môi trường thực thi đáng tin cậy (TEE), chẳng hạn như Super Protocol.
Mã hóa đồng nhất hoàn toàn (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network.
Công nghệ zero-knowledge (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra bằng chứng zero-knowledge cho lưu lượng HTTPS, cho phép người dùng an toàn nhập khẩu hoạt động, danh tiếng và dữ liệu danh tính từ các trang web bên ngoài mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn đang trong giai đoạn đầu, phần lớn các dự án vẫn đang trong quá trình khám phá, hiện tại khó khăn là chi phí tính toán quá cao, ví dụ:
Khung zkML EZKL cần khoảng 80 phút để tạo ra chứng minh cho mô hình 1M-nanoGPT.
Theo dữ liệu từ Modulus Labs, chi phí của zkML cao hơn 1000 lần so với tính toán thuần túy.
Lưu trữ dữ liệu: Sau khi có dữ liệu, cần một nơi để lưu trữ dữ liệu trên chuỗi và LLM được tạo ra từ dữ liệu đó. Vấn đề cốt lõi là khả năng sẵn có của dữ liệu (DA), trước khi nâng cấp Danksharding của Ethereum, thông lượng của nó là 0.08MB. Trong khi đó, việc huấn luyện mô hình AI và suy luận thời gian thực thường cần từ 50 đến 100GB thông lượng dữ liệu mỗi giây. Khoảng cách về quy mô này khiến các giải pháp trên chuỗi hiện có không đủ khả năng đối phó với "các ứng dụng AI tiêu tốn tài nguyên".
0g.AI là dự án đại diện cho danh mục này. Nó là giải pháp lưu trữ phi tập trung được thiết kế cho nhu cầu hiệu suất cao của AI, với các tính năng chính bao gồm: hiệu suất cao và khả năng mở rộng, thông qua công nghệ phân mảnh nâng cao (Sharding) và mã sửa lỗi (Erasure Coding), hỗ trợ tải lên và tải xuống nhanh chóng các tập dữ liệu quy mô lớn, tốc độ truyền dữ liệu gần 5GB mỗi giây.
Hai, Middleware: Đào tạo và suy diễn mô hình
Thị trường phi tập trung mô hình mã nguồn mở
Cuộc tranh luận về việc mô hình AI nên đóng hay mở nguồn chưa bao giờ biến mất. Sự đổi mới tập thể mà mã nguồn mở mang lại là một lợi thế không thể so sánh với mô hình đóng nguồn, tuy nhiên, trong bối cảnh không có mô hình lợi nhuận nào, mô hình mã nguồn mở làm thế nào để tăng cường động lực cho các nhà phát triển? Điều này thật sự đáng suy nghĩ.
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
16 thích
Phần thưởng
16
6
Chia sẻ
Bình luận
0/400
NeverVoteOnDAO
· 16giờ trước
Lại làm những khái niệm này để lừa đảo mọi người
Xem bản gốcTrả lời0
PanicSeller69
· 16giờ trước
Cuộn lại rồi, thật sự phải nhập một vị thế.
Xem bản gốcTrả lời0
OnChainDetective
· 16giờ trước
Đã theo dõi dữ liệu cả đêm, ngay cả chế độ giao dịch cũng được AI thiết lập sẵn.
Xem bản gốcTrả lời0
SybilSlayer
· 16giờ trước
Yêu mã hóa lại thích đi dạo, thật thơm
Xem bản gốcTrả lời0
ThatsNotARugPull
· 16giờ trước
Lại muốn chơi đùa với mọi người mà không muốn trở thành đồ ngốc của web3.
AI+Web3: Khám phá ứng dụng của động lực phân phối trong thị trường dữ liệu, Khả năng tính toán và Mã nguồn mở.
AI+Web3: Tháp và Quảng trường
TL;DR
Các dự án Web3 về khái niệm AI trở thành mục tiêu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện qua: sử dụng phần thưởng phân tán để điều phối nguồn cung tiềm năng dài, liên quan đến dữ liệu, lưu trữ và tính toán; đồng thời xây dựng mô hình mã nguồn mở và thị trường phi tập trung cho AI Agent.
AI chủ yếu được ứng dụng trong ngành Web3 vào tài chính trên chuỗi (thanh toán tiền điện tử, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Công dụng của AI+Web3 thể hiện ở sự bổ sung cho nhau: Web3 hy vọng chống lại sự tập trung hóa của AI, AI hy vọng giúp Web3 mở rộng ra ngoài.
Giới thiệu
Trong hai năm qua, sự phát triển của AI giống như đã được nhấn nút tăng tốc. Cuộc cách mạng do Chatgpt khởi xướng không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh ra, mà còn tạo ra những cơn sóng lớn trong lĩnh vực Web3.
Dưới sự hỗ trợ của khái niệm AI, thị trường tiền mã hóa đã được thúc đẩy rõ rệt trong việc huy động vốn. Theo thống kê, chỉ trong nửa đầu năm 2024 đã có 64 dự án Web3+AI hoàn thành việc huy động vốn, hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã đạt được mức huy động vốn cao nhất là 100 triệu USD trong vòng A.
Thị trường thứ cấp đang trở nên sôi động hơn. Dữ liệu từ trang tổng hợp tiền điện tử Coingecko cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD. Những tiến bộ công nghệ AI chủ đạo đã mang lại lợi ích rõ rệt; sau khi OpenAI phát hành mô hình chuyển đổi văn bản thành video Sora, giá trung bình của lĩnh vực AI đã tăng 151%. Hiệu ứng AI cũng đã lan tỏa đến một trong những lĩnh vực hút vốn của tiền điện tử, Meme: Đồng MemeCoin đầu tiên với khái niệm AI Agent - GOAT đã nhanh chóng trở nên nổi tiếng và được định giá 1,4 tỷ USD, thành công trong việc khơi dậy cơn sốt AI Meme.
Về nghiên cứu và chủ đề AI+Web3 cũng đang rất sôi nổi, từ AI+Depin đến AI Memecoin và hiện tại là AI Agent và AI DAO, tâm lý FOMO đã không còn theo kịp tốc độ thay đổi của những câu chuyện mới.
Kết hợp thuật ngữ AI+Web3 đầy tiền nóng, cơ hội và những tưởng tượng về tương lai này, không tránh khỏi bị coi là một cuộc hôn nhân do vốn đầu tư sắp đặt. Chúng ta dường như rất khó phân biệt dưới lớp vỏ hào nhoáng này, rốt cuộc đây là sân nhà của những nhà đầu cơ, hay là đêm trước khi bình minh bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ quan trọng đối với cả hai bên là: Liệu việc có đối phương có mang lại lợi ích hơn không? Có thể hưởng lợi từ mô hình của đối phương không? Bài viết này cố gắng nhìn nhận cấu trúc này từ vai trò của những người đi trước: Web3 sẽ phát huy vai trò như thế nào trong các giai đoạn của công nghệ AI, và AI có thể mang lại sức sống mới cho Web3 ra sao?
Phần 1: Cơ hội nào cho Web3 dưới AI Stack?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về công nghệ của mô hình AI lớn:
Diễn đạt toàn bộ quá trình bằng ngôn ngữ thông dụng: "Mô hình lớn" giống như bộ não của con người, giai đoạn đầu giống như một em bé vừa mới chào đời, cần quan sát và tiếp nhận lượng lớn thông tin từ thế giới bên ngoài để hiểu về thế giới, đây là giai đoạn "thu thập" dữ liệu. Do máy tính không có nhiều giác quan như con người, thông tin quy mô lớn từ bên ngoài không có nhãn hiệu trước khi đào tạo cần được "tiền xử lý" để chuyển đổi thành định dạng thông tin mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" để xây dựng một mô hình có khả năng hiểu và dự đoán, có thể được coi là quá trình trẻ sơ sinh dần dần hiểu và học hỏi từ thế giới bên ngoài. Các tham số của mô hình giống như khả năng ngôn ngữ được điều chỉnh liên tục trong quá trình học của trẻ sơ sinh. Nội dung học bắt đầu được phân chia theo từng lĩnh vực, hoặc giao tiếp với người khác để nhận phản hồi và điều chỉnh, sau đó sẽ bước vào giai đoạn "tinh chỉnh" của mô hình lớn.
Khi trẻ em lớn lên và bắt đầu nói, chúng có thể hiểu ý nghĩa và diễn đạt cảm xúc, suy nghĩ trong các cuộc đối thoại mới. Giai đoạn này tương tự như "suy luận" của mô hình AI lớn, mô hình có khả năng dự đoán và phân tích các văn bản ngôn ngữ mới. Trẻ sơ sinh thể hiện cảm xúc, mô tả đồ vật và giải quyết vấn đề thông qua khả năng ngôn ngữ, cũng giống như mô hình AI lớn được đào tạo và sử dụng trong giai đoạn suy luận để thực hiện các nhiệm vụ cụ thể, chẳng hạn như phân loại hình ảnh, nhận diện giọng nói.
AI Agent ngày càng tiến gần đến hình thái tiếp theo của mô hình lớn - có khả năng thực hiện nhiệm vụ độc lập và theo đuổi các mục tiêu phức tạp, không chỉ có khả năng suy nghĩ mà còn có thể ghi nhớ, lập kế hoạch và có thể sử dụng công cụ để tương tác với thế giới.
Hiện tại, đối với các điểm đau của AI trong các ngăn xếp, Web3 đã hình thành một hệ sinh thái đa tầng, kết nối lẫn nhau, bao gồm tất cả các giai đoạn của quy trình mô hình AI.
Một, Cấp độ cơ bản: Airbnb về sức mạnh tính toán và dữ liệu
sức mạnh tính toán
Hiện tại, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết cho việc đào tạo mô hình và mô hình suy diễn.
Ví dụ, LLAMA3 của Meta cần 16.000 GPU H100 do NVIDIA sản xuất (đây là đơn vị xử lý đồ họa hàng đầu được thiết kế cho AI và khối lượng công việc tính toán hiệu suất cao) trong 30 ngày để hoàn thành đào tạo. Phiên bản 80GB của nó có giá từ 30.000 đến 40.000 đô la, điều này cần một khoản đầu tư phần cứng tính toán từ 400 đến 700 triệu đô la (GPU + chip mạng), trong khi mỗi tháng đào tạo tiêu tốn 1,6 tỷ kilowatt giờ, chi phí năng lượng gần 20 triệu đô la mỗi tháng.
Giải phóng sức mạnh tính toán AI cũng chính là lĩnh vực đầu tiên mà Web3 giao thoa với AI - DePin (Mạng cơ sở hạ tầng vật lý phi tập trung). Hiện tại, trang dữ liệu DePin Ninja đã liệt kê hơn 1400 dự án, trong đó các dự án tiêu biểu về chia sẻ sức mạnh GPU bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó là: nền tảng cho phép cá nhân hoặc thực thể sở hữu tài nguyên GPU nhàn rỗi đóng góp công suất tính toán theo cách phi tập trung không cần giấy phép, thông qua một thị trường trực tuyến giữa người mua và người bán tương tự như Uber hoặc Airbnb, tăng cường tỷ lệ sử dụng tài nguyên GPU chưa được khai thác. Người dùng cuối từ đó cũng nhận được tài nguyên tính toán hiệu quả với chi phí thấp hơn; đồng thời, cơ chế staking đảm bảo rằng nhà cung cấp tài nguyên sẽ bị trừng phạt tương ứng nếu vi phạm cơ chế kiểm soát chất lượng hoặc ngắt kết nối mạng.
Điểm đặc trưng của nó là:
Tập hợp tài nguyên GPU nhàn rỗi: Bên cung cấp chủ yếu là các trung tâm dữ liệu độc lập nhỏ và vừa bên thứ ba, các nhà điều hành mỏ tiền điện tử và tài nguyên tính toán dư thừa, cơ chế đồng thuận là phần cứng khai thác PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án nỗ lực khởi động thiết bị có ngưỡng tham gia thấp hơn, như exolab sử dụng MacBook, iPhone, iPad và các thiết bị cục bộ khác để thiết lập mạng lưới tính toán cho việc suy luận mô hình lớn.
Đối mặt với thị trường dài hạn của sức mạnh tính toán AI:
a. "Về mặt kỹ thuật", thị trường sức mạnh tính toán phi tập trung phù hợp hơn cho các bước suy luận. Việc đào tạo phụ thuộc nhiều vào khả năng xử lý dữ liệu do GPU quy mô siêu lớn mang lại, trong khi yêu cầu hiệu suất tính toán GPU cho suy luận tương đối thấp, như Aethir tập trung vào công việc kết xuất độ trễ thấp và ứng dụng suy luận AI.
b. "Về phía nhu cầu" thì các bên có nhu cầu tính toán nhỏ sẽ không tự đào tạo mô hình lớn của riêng mình, mà chỉ chọn tối ưu hóa, tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này đều phù hợp một cách tự nhiên với nguồn lực tính toán nhàn rỗi phân tán.
Dữ liệu
Dữ liệu là nền tảng của AI. Không có dữ liệu, tính toán giống như bèo trôi, hoàn toàn vô dụng. Mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out", số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc đào tạo các mô hình AI hiện tại, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu biết, thậm chí là giá trị và biểu hiện nhân văn của mô hình. Hiện tại, các vấn đề về nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Khát dữ liệu: Đào tạo mô hình AI phụ thuộc vào lượng dữ liệu đầu vào lớn. Tài liệu công khai cho thấy, số lượng tham số của OpenAI khi đào tạo GPT-4 đã đạt tới mức hàng nghìn tỷ.
Chất lượng dữ liệu: Khi AI kết hợp với các ngành, tính kịp thời, sự đa dạng, tính chuyên môn của dữ liệu theo ngành, và việc tiếp nhận nguồn dữ liệu mới như cảm xúc từ mạng xã hội đã đặt ra những yêu cầu mới đối với chất lượng của nó.
Vấn đề về quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thấy tầm quan trọng của các tập dữ liệu chất lượng, và đang áp dụng các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quy trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện tại, giải pháp web3 được thể hiện ở bốn khía cạnh sau:
Cho phép những người dùng thực sự đóng góp cũng tham gia vào việc tạo ra giá trị từ dữ liệu và thông qua mạng lưới phân tán cũng như cơ chế khuyến khích, thu thập dữ liệu cá nhân hơn và có giá trị hơn với chi phí thấp là tầm nhìn của Web3.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung chuyển để thu thập dữ liệu thời gian thực từ toàn bộ internet, và nhận phần thưởng bằng token.
Vana đã giới thiệu khái niệm Hồ dữ liệu lưu động độc đáo (DLP), cho phép người dùng tải lên dữ liệu cá nhân (như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt lựa chọn liệu có cho phép các bên thứ ba cụ thể sử dụng những dữ liệu này hay không.
Trong PublicAI, người dùng có thể sử dụng #AI或#Web3 làm nhãn phân loại trên X và @PublicAI để thực hiện việc thu thập dữ liệu.
Hiện tại, Grass và OpenLayer đều đang xem xét việc tham gia vào khâu quan trọng này là gán nhãn dữ liệu.
Synesis đã đưa ra khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu được gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã biến nhiệm vụ gán nhãn thành trò chơi và cho phép người dùng đặt cọc điểm để kiếm thêm điểm.
Các công nghệ bảo mật phổ biến hiện nay trong Web3 bao gồm:
Môi trường thực thi đáng tin cậy (TEE), chẳng hạn như Super Protocol.
Mã hóa đồng nhất hoàn toàn (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network.
Công nghệ zero-knowledge (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra bằng chứng zero-knowledge cho lưu lượng HTTPS, cho phép người dùng an toàn nhập khẩu hoạt động, danh tiếng và dữ liệu danh tính từ các trang web bên ngoài mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn đang trong giai đoạn đầu, phần lớn các dự án vẫn đang trong quá trình khám phá, hiện tại khó khăn là chi phí tính toán quá cao, ví dụ:
Khung zkML EZKL cần khoảng 80 phút để tạo ra chứng minh cho mô hình 1M-nanoGPT.
Theo dữ liệu từ Modulus Labs, chi phí của zkML cao hơn 1000 lần so với tính toán thuần túy.
Hai, Middleware: Đào tạo và suy diễn mô hình
Thị trường phi tập trung mô hình mã nguồn mở
Cuộc tranh luận về việc mô hình AI nên đóng hay mở nguồn chưa bao giờ biến mất. Sự đổi mới tập thể mà mã nguồn mở mang lại là một lợi thế không thể so sánh với mô hình đóng nguồn, tuy nhiên, trong bối cảnh không có mô hình lợi nhuận nào, mô hình mã nguồn mở làm thế nào để tăng cường động lực cho các nhà phát triển? Điều này thật sự đáng suy nghĩ.