213
/
160306
Những AI biến văn bản thành video tương tự Sora
nhung-ai-bien-van-ban-thanh-video-tuong-tu-sora
news

Những AI biến văn bản thành video tương tự Sora

Thứ 4, 21/02/2024 | 05:29:00
2,290 lượt xem

Trước Sora, cộng đồng sử dụng trí tuệ nhân tạo (AI) đã có những mô hình AI khác có thể chuyển lệnh văn bản thành video như Lumier, Emu Video, VideoPoet...

Sora (OpenAI)

Sora là cái tên mới nhất được công bố nhưng lại gây xôn xao nhất, phần vì đây là sản phẩm của OpenAI - nhà phát triển ChatGPT nổi tiếng, nhưng nguyên nhân chủ yếu nhờ chất lượng video do chương trình tạo ra chỉ từ lệnh văn bản.

Thành công với ChatGPT cũng giúp trí tuệ nhân tạo của công ty có khả năng hiểu ngôn ngữ sâu sắc. Những clip minh họa cho khả năng của Sora đã thể hiện nhân vật chuyển động và sắc thái hết sức sinh động, như một thước phim người quay.

Video "siêu thực" do Sora tạo từ các lệnh văn bản Chụp màn hình

Nhưng Sora chưa có mặt trên thị trường vì các lý do an toàn. OpenAI sẽ tiến hành các biện pháp đo lường cẩn trọng trước khi đưa sản phẩm này đến tay người dùng đại chúng, đặc biệt trong bối cảnh trí tuệ nhân tạo đang bị kẻ gian lợi dụng cho các mục đích xấu, giả mạo người dùng hoặc phi pháp.

Lumiere (Google)

Lumiere là sản phẩm đến từ Google, cũng có khả năng sản xuất video từ lệnh văn bản nhập vào, hoạt động dựa trên mô hình khuếch tán cấu trúc STUNet (Space-Time-U-Net). Lumiere không loay hoay với việc ghép các khung hình tĩnh với nhau mà thay vào đó, AI này xác định những chi tiết có trong video (phần không gian), theo dõi cách chúng chuyển động, thay đổi cùng lúc (phần thời gian), từ đó giúp quá trình vận hành trôi chảy.

Cũng như Sora, Lumiere chưa được đưa tới công chúng. Hãng mới giới thiệu mô hình này từ cuối tháng 1.2024 sau khi ra mắt Gemini - mô hình ngôn ngữ lớn vừa được đồng bộ với Bard.

VideoPoet (G0ogle)

Mô hình ngôn ngữ lớn (LLM) này được đào tạo từ kho video, ảnh, âm thanh và văn bản khổng lồ do Google Search phát triển năm 2023. VideoPoet có thể thực hiện nhiều nhiệm vụ khác nhau từ nguồn vào là văn bản, ảnh, video... để tạo video, làm nổi bật nội dung, chuyển video thành âm thanh, biến ảnh tĩnh thành ảnh động...

Ý tưởng ban đầu của VideoPoet bắt nguồn từ yêu cầu chuyển mọi mô hình ngôn ngữ tự hồi quy sang một hệ thống tạo video. Các mô hình ngôn ngữ tự hồi quy hiện tại có thể xử lý văn bản và mã lập trình như con người, nhưng vướng rào cản khi chuyển sang video. VideoPoet giải quyết điều này bằng cách sử dụng mã thông báo để chuyển dữ liệu nhập vào từ bất cứ định dạng nào thành ngôn ngữ nó có thể hiểu.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn Chụp màn hình

Emu Video (Meta)

Ngoài Google, OpenAI thì Meta cũng là một trong những Big Tech tích cực trong việc sáng tạo AI. Công ty sở hữu Facebook cũng phát triển AI làm video là Emu Video, có khả năng chuyển hình ảnh thành văn bản rồi từ đó sử dụng làm dữ liệu để tạo ra clip.

Emu Video đang nhận được nhiều đánh giá tích cực từ những người tham gia chương trình thử nghiệm, khi có tới 81% thích AI này hơn Imagen Video (Google). Trên 90% chọn mô hình của Meta thay vì PYOCO (Nvidia), thậm chí còn tốt hơn Make-A-Video cũng của Meta (chọn 96%).

CogVideo (Đại học Thanh Hoa, Trung Quốc)

Không giống với các mô hình trên đều là sản phẩm từ những doanh nghiệp công nghệ hàng đầu thế giới, CogVideo là AI được phát triển bởi nhóm nghiên cứu đến từ Đại học Thanh Hoa - trường danh tiếng hàng đầu tại Trung Quốc cũng như châu Á. Chương trình dựa trên CogView2, một mô hình chuyển văn bản thành hình ảnh huấn luyện trước.

Chuyên gia sáng tạo nghệ thuật trên máy tính Glenn Marshall từng thử nghiệm CogVideo đã cho rằng "giới đạo diễn có thể mất việc". Clip có tên The Crow do ông tạo với sự trợ giúp của CogVideo đã nhận được nhiều đánh giá cao và từng dự giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).

Theo Anh Quân/ Thanh Niên

https://thanhnien.vn/nhung-ai-bien-van-ban-thanh-video-tuong-tu-sora-185240220082532259.htm

  • Từ khóa

AI xâm lấn vào nhà trường, thầy cô than vãn 'chưa bao giờ gian lận nhiều đến thế'

Sự phổ biến của các công cụ AI, đặc biệt là các chatbot như ChatGPT, khiến các trường học và giáo viên phải đau đầu để xác định ranh giới giữa việc sử...
12:35 - 14/09/2025
37 lượt xem

Sapo bác bỏ thông tin bị hacker rao bán dữ liệu khách hàng

Tối 13.9, Công ty cổ phần công nghệ Sapo lên tiếng khẳng định, thông tin xuất hiện trên một số kênh cho rằng dữ liệu khách hàng của Sapo bị rao bán là sai...
07:51 - 14/09/2025
97 lượt xem

Xiaomi đuổi việc giám đốc cấp cao vì làm lộ bí mật

Wang Teng, giám đốc tiếp thị của Xiaomi vừa bị đuổi việc, thừa nhận làm lộ bí mật công ty nhưng chối bỏ cáo buộc bán bí mật cho đối thủ để trục lợi.
10:12 - 14/09/2025
94 lượt xem

Trung Quốc thông báo điều tra chống bán phá giá với chip Mỹ, ngay trước ngày bắt đầu đàm phán

Trung Quốc thông báo điều tra chống bán phá giá đối với chip Mỹ trong bối cảnh vòng đàm phán thương mại Mỹ - Trung lần thứ tư dự kiến bắt đầu tại thủ đô...
22:01 - 13/09/2025
405 lượt xem

Việt Nam có nền tảng trí tuệ nhân tạo hợp nhất ChatGPT, Gemini, Grok

Nền tảng trí tuệ nhân tạo hợp nhất giúp các tổ chức, doanh nghiệp và gia đình tại Việt Nam có thể truy cập và sử dụng nhiều mô hình AI tiên tiến trên thế...
17:12 - 13/09/2025
525 lượt xem