Ngoài việc "ngâm mình" trong việc địa phương hóa AI, sự thay đổi lớn nhất trong lĩnh vực AI gần đây là những bước đột phá công nghệ trong việc tạo video đa phương thức, đã tiến triển từ việc hỗ trợ tạo video chỉ dựa trên văn bản đến một công nghệ tạo hình tích hợp hoàn toàn kết hợp văn bản, hình ảnh và âm thanh.
Dưới đây là một vài ví dụ về những bước đột phá công nghệ để mọi người trải nghiệm:
1) ByteDance mã nguồn mở framework EX-4D: Video đơn kính lập tức chuyển đổi thành nội dung 4D góc nhìn tự do, với tỷ lệ chấp nhận của người dùng là 70,7%. Điều này có nghĩa là đối với một video thông thường, AI có thể tự động tạo ra hiệu ứng xem từ bất kỳ góc nào, điều này trước đây cần đến một đội ngũ mô hình 3D chuyên nghiệp để đạt được.
2) Nền tảng "Hui Xiang" của Baidu: tạo ra một video 10 giây từ một hình ảnh, tuyên bố đạt được chất lượng "cấp phim". Tuy nhiên, liệu điều này có phải là phóng đại bởi marketing hay không vẫn còn phải chờ xem cho đến khi bản cập nhật Pro vào tháng Tám.
3) Google DeepMind Veo: Có thể đạt được video 4K + tạo ra sự đồng bộ âm thanh môi trường. Điểm nổi bật công nghệ chính là khả năng "đồng bộ hóa" được đạt được, vì trước đây đây là sự ghép nối của hai hệ thống cho video và âm thanh. Để đạt được sự khớp đúng ở mức độ ngữ nghĩa thực sự, cần phải vượt qua nhiều thách thức đáng kể, chẳng hạn như trong các cảnh phức tạp, nơi mà việc đồng bộ hóa các hành động đi bộ trong video và âm thanh bước chân tương ứng cần phải được giải quyết.
4) Nội dung Douyin: 8 tỷ tham số, 2.3 giây để tạo video 1080p, chi phí 3.67 nhân dân tệ/5 giây. Nói thật, việc kiểm soát chi phí này khá tốt, nhưng hiện tại, xét về chất lượng sản xuất, nó vẫn chưa đạt yêu cầu khi gặp các cảnh phức tạp.
Tại sao người ta nói rằng những trường hợp này có giá trị và ý nghĩa đáng kể về những đột phá trong chất lượng video, chi phí sản xuất và các kịch bản ứng dụng?
1. Về mặt đột phá trong giá trị công nghệ, độ phức tạp của việc tạo ra một video đa phương thức thường là theo cấp số nhân. Một hình ảnh đơn lẻ bao gồm khoảng 10^6 pixel, và một video phải đảm bảo tính nhất quán theo thời gian (ít nhất 100 khung hình), cùng với sự đồng bộ hóa âm thanh (10^4 điểm mẫu mỗi giây), trong khi cũng phải xem xét tính nhất quán không gian 3D.
Tóm lại, độ phức tạp kỹ thuật không hề thấp. Ban đầu, đó là một mô hình siêu lớn đối mặt với tất cả các nhiệm vụ. Có thông tin cho rằng Sora đã đốt cháy hàng chục nghìn H100 để đạt được khả năng tạo video. Hiện nay, điều này có thể được thực hiện thông qua sự phân tách theo mô-đun và làm việc hợp tác của các mô hình lớn. Ví dụ, EX-4D của Byte thực sự phá vỡ các nhiệm vụ phức tạp thành: mô-đun ước lượng độ sâu, mô-đun biến đổi góc nhìn, mô-đun nội suy tạm thời, mô-đun tối ưu hóa kết xuất, và nhiều thứ khác. Mỗi mô-đun chuyên về một nhiệm vụ và sau đó phối hợp thông qua một cơ chế.
2. Về việc giảm chi phí: nó thực sự liên quan đến việc tối ưu hóa kiến trúc lý luận, bao gồm một chiến lược sinh lớp, nơi mà một bộ khung độ phân giải thấp được tạo ra trước và sau đó nội dung hình ảnh độ phân giải cao được cải thiện; một cơ chế tái sử dụng bộ nhớ, tức là tái sử dụng các cảnh tương tự; và phân bổ tài nguyên động, thực sự điều chỉnh độ sâu của mô hình dựa trên độ phức tạp của nội dung cụ thể.
Với bộ tối ưu hóa này, chúng tôi sẽ đạt được kết quả là 3.67 nhân dân tệ mỗi 5 giây cho Nội dung Douyin.
3. Về tác động ứng dụng, sản xuất video truyền thống là một trò chơi đòi hỏi vốn đầu tư lớn: thiết bị, địa điểm, diễn viên, hậu kỳ; việc một quảng cáo dài 30 giây tốn hàng trăm nghìn đô la là chuyện bình thường. Bây giờ, AI nén toàn bộ quy trình này chỉ còn một lời nhắc và vài phút chờ đợi, và có thể đạt được những góc nhìn và hiệu ứng đặc biệt mà khó có thể đạt được trong việc quay phim truyền thống.
Điều này biến các rào cản kỹ thuật và tài chính ban đầu của sản xuất video thành sự sáng tạo và thẩm mỹ, điều này có thể thúc đẩy một cuộc tái cấu trúc toàn bộ nền kinh tế người sáng tạo.
Câu hỏi đặt ra là mối quan hệ giữa những thay đổi trong cầu của công nghệ AI web2 và AI web3 là gì?
1. Đầu tiên, sự thay đổi trong cấu trúc nhu cầu về sức mạnh tính toán. Trước đây, trong AI, cuộc cạnh tranh dựa trên quy mô; ai có nhiều cụm GPU đồng nhất hơn sẽ thắng. Tuy nhiên, nhu cầu về tạo video đa phương thức yêu cầu một sự kết hợp đa dạng của sức mạnh tính toán, điều này có thể tạo ra nhu cầu về sức mạnh tính toán nhàn rỗi phân tán, cũng như các mô hình tinh chỉnh phân tán khác nhau, các thuật toán và nền tảng suy diễn.
2. Thứ hai, nhu cầu về gán nhãn dữ liệu cũng sẽ tăng cường. Việc tạo ra một video chuyên nghiệp yêu cầu: mô tả cảnh chính xác, hình ảnh tham khảo, phong cách âm thanh, quỹ đạo chuyển động của máy ảnh, điều kiện ánh sáng, v.v., sẽ trở thành những yêu cầu gán nhãn dữ liệu chuyên nghiệp mới. Sử dụng các phương pháp khuyến khích Web3 có thể khuyến khích các nhiếp ảnh gia, kỹ sư âm thanh, nghệ sĩ 3D và những người khác cung cấp các yếu tố dữ liệu chuyên nghiệp, nâng cao khả năng tạo video AI với gán nhãn dữ liệu chuyên môn trong các lĩnh vực cụ thể.
3. Cuối cùng, đáng chú ý rằng khi AI dần chuyển từ phân bổ tài nguyên quy mô lớn tập trung sang hợp tác mô-đun, chính nó đại diện cho một nhu cầu mới cho các nền tảng phi tập trung. Vào thời điểm đó, sức mạnh tính toán, dữ liệu, mô hình, động lực, v.v. sẽ cùng nhau tạo thành một bánh đà tự củng cố, điều này sẽ lần lượt thúc đẩy sự tích hợp của các kịch bản web3AI và web2AI.
Mời người khác bỏ phiếu