Không phải ChatGPT, làn sóng AI thật sự đang ở nơi khác

Ý kiến

Không phải ChatGPT, làn sóng AI thật sự đang ở nơi khác

BBWV - Khi chatbot dần bão hòa, các công ty công nghệ lớn chuyển sang world model, nền tảng AI hiểu thế giới vật lý và có thể dẫn dắt làn sóng đổi mới tiếp theo.

Hình ảnh: Bam Studios

Tác giả: Parmy Olson

23 tháng 04, 2026 lúc 8:35 PM

Tóm tắt bài viết bởi

Các công ty công nghệ lớn như Nvidia, Alibaba Group và Tencent đang phát triển "world model", một nền tảng AI hiểu thế giới vật lý, mở ra kỷ nguyên mới cho robot và xe tự lái.
"World model" có khả năng hiểu không gian ba chiều và quy luật vật lý, khắc phục hạn chế của chatbot như ChatGPT trong việc thực sự hiểu thế giới vật chất.
Niantic Spatial, nhà phát triển Pokémon Go, đang xây dựng mô hình địa không gian quy mô lớn, còn DoorDash thu thập dữ liệu về hành động của con người để huấn luyện robot.
Google DeepMind phát triển Genie 3, kết hợp khả năng ngôn ngữ của ChatGPT với khả năng điều khiển đồ vật, trong khi World Labs của Bà Fei-Fei Li huy động 1 tỷ USD cho Marble.
Trung Quốc có thể đóng vai trò lớn trong lĩnh vực "world model" nhờ thế mạnh về phần cứng và sản xuất robot, chiếm 85-90% số lượng robot hình người toàn cầu năm ngoái.

Khi sự chú ý của mọi người đang dồn vào các chatbot mạnh như ChatGPT và Claude, rất dễ bỏ qua sự phát triển của một nhánh khác trong trí tuệ nhân tạo: World model.

Đây là các hệ thống có khả năng hiểu không gian ba chiều và các quy luật vật lý, tạo nền tảng cho nhiều ứng dụng từ robot, kính thông minh đến xe tự lái, cũng như sở hữu năng lực mà các chatbot hiện nay chưa có.

Trong hai tuần qua, Nvidia, Alibaba Group và Tencent lần lượt công bố các world model riêng, cho thấy một thế hệ mới có thể dẫn dắt cuộc cách mạng AI tiếp theo. Các công ty tiên phong đang theo đuổi những chiến lược thương mại khác nhau. HY World 2.0 của Tencent được mở mã nguồn, trong khi mô hình của Nvidia chỉ dành cho giới nghiên cứu. Trung Quốc cũng cho thấy họ không còn tụt lại xa như thời kỳ mô hình ngôn ngữ lớn nữa.

Các chatbot như ChatGPT có thể tạo cảm giác hiểu được thế giới vật lý, nhưng thực chất chỉ là những kẻ bắt chước tinh vi. Chúng không có nền tảng trải nghiệm vật chất hay khái niệm về tính tồn tại của vật thể. Đây là nhận thức mà con người hình thành từ khi còn nhỏ, rằng một chiếc cốc hay cái ghế vẫn tồn tại ngay cả khi ta không nhìn thấy.

Nhưng nếu bạn hỏi liệu chiếc sofa có lọt qua cửa hay quả bóng sẽ lăn về đâu sau khi bật vào tường, nó sẽ dựa vào các mẫu văn bản đã học thay vì hiểu thực sự các lực tác động. Vì vậy, câu trả lời có thể hoàn toàn sai. World model ra đời để lấp vào khoảng trống đó.

Nỗ lực này đang âm thầm tăng tốc, với nhiều cách tiếp cận và mô hình kinh doanh tận dụng dữ liệu từ thế giới thực, bao gồm cả một trò chơi từng gây sốt cách đây một thập kỷ. Hãy nhớ lại Pokémon Go, ứng dụng khiến hàng triệu người giơ điện thoại lên ở nghĩa trang hay góc phố để bắt các nhân vật Pokemon. Từ đó đến nay, trò chơi đã tích lũy được một kho dữ liệu bản đồ toàn cầu và chia sẻ với các công ty như Coco Robotics, đơn vị vận hành robot giao hàng tại nhiều thành phố ở Mỹ và châu Âu. Nhà phát triển trò chơi Niantic Spatial đang xây dựng một mô hình địa không gian quy mô lớn, với đối tượng sử dụng cuối cùng về cơ bản là các robot.

Trong khi đó, DoorDash trả tiền cho lực lượng lao động thời vụ để quay lại cảnh họ gấp quần áo hoặc rửa bát, nhằm thu thập dữ liệu và bán cho các công ty robot phục vụ huấn luyện. Còn Instacart đã phát triển một xe đẩy mua sắm hợp tác với Nvidia, được trang bị cảm biến và camera. Mục tiêu ở đây không phải để dạy robot mà là để thu thập dữ liệu phục vụ quảng cáo và quản lý hàng tồn.

Một số nhà khoa học cho rằng hướng đi này là bước tiếp theo mang tính then chốt để đưa máy móc tiến gần hơn tới trí tuệ giống con người, mục tiêu mà OpenAI, Anthropic và Google đã theo đuổi trong nhiều năm qua.

Google DeepMind, đơn vị phát triển chatbot Gemini, cũng đang đặt cược vào mô hình thế giới với Genie 3. Hãy tưởng tượng một ChatGPT vừa hiểu ngôn ngữ, vừa có thể lái xe hay rót một tách cà phê. Kết quả có thể giống một android trong tác phẩm I, Robot của Isaac Asimov. Kết quả cũng có thể trừu tượng hơn, như một trò chơi điện tử liên tục tiến hóa theo người dùng. Đó cũng có thể là một hệ thống tự động hóa công nghiệp cho tua bin khí.

Những công ty phác họa tương lai đó còn bao gồm World Labs, một startup tách ra từ Đại học Stanford, do Fei-Fei Li sáng lập. Bà thường được gọi là “mẹ đỡ đầu của AI” nhờ những đóng góp tiên phong của mình trong lĩnh vực nhận diện hình ảnh. Tháng 2 vừa qua, công ty của bà thông báo đã huy động được 1 tỉ USD trong vòng gọi vốn đầu tiên.

World Labs có trụ sở tại San Francisco, sử dụng mô hình mang tên Marble để tự tạo ra các thế giới ảo và hướng tới thu hút khách hàng trong lĩnh vực game, thực tế ảo và huấn luyện robot. Tuy nhiên, ngay cả khi đã nhận vốn từ các nhà đầu tư như Nvidia, Advanced Micro Devices (AMD) và Autodesk, con đường dẫn đến lợi nhuận vẫn chưa rõ ràng.

“Phố Wall, đặc biệt là các nhà đầu tư giai đoạn sau, vẫn đang chờ xem công nghệ này trưởng thành thành các ứng dụng cụ thể”, Li nói trong một cuộc phỏng vấn gần đây. Dù vậy, bà không hề dao động: “Tôi hoàn toàn tin rằng đây có ý nghĩa sâu sắc ngang với trí tuệ ngôn ngữ.”

Li cũng đặt cược rằng dữ liệu tổng hợp sẽ mang tính then chốt đối với world model, bởi khác với ngôn ngữ, dữ liệu ba chiều phong phú không tồn tại sẵn với số lượng lớn trên Internet. Nói cách khác, làn sóng AI tiếp theo có thể được huấn luyện chủ yếu bằng dữ liệu do chính AI tạo ra, chứ không chỉ dựa vào các video người giao hàng của DoorDash gấp quần áo. Điều này tự thân cũng có thể mở ra một mô hình kinh doanh.

Kỷ nguyên mô hình ngôn ngữ hiện nay nhiều khả năng sẽ thuộc về một nhóm nhỏ các phòng thí nghiệm Mỹ sở hữu nguồn lực tài chính dồi dào và các mô hình đóng. Nhưng world model dường như đang phát triển theo hướng khác, với nhiều cách tiếp cận hơn, trải rộng trên nhiều khu vực, cởi mở hơn về cấp phép và chưa có sự đồng thuận rõ ràng về cách kiếm tiền.

Trung Quốc có thể sẽ đóng vai trò lớn hơn trong lĩnh vực này. Thế mạnh về phần cứng và sản xuất giúp nước này xuất xưởng khoảng 85% đến 90% robot hình người trên toàn cầu trong năm ngoái, theo các nhà nghiên cứu tại Barclays. Nếu các world model của Trung Quốc trở thành tiêu chuẩn mặc định để huấn luyện robot, những công ty định hình AI vật lý trong thập kỷ tới có thể không phải là những cái tên đang xuất hiện trên mặt báo hiện nay, và cũng có thể nằm rất xa Thung lũng Silicon.

Theo Bloomberg

Theo phattrienxanh.baotainguyenmoitruong.vn

https://phattrienxanh.baotainguyenmoitruong.vn/khong-phai-chatgpt-lan-song-ai-that-su-dang-o-noi-khac-57485.html

BÀI LIÊN QUAN