Hầu hết thử nghiệm bot AI giao dịch trên Phố Wall đều thất bại

AI & Dữ liệu lớn

Hầu hết thử nghiệm bot AI giao dịch trên Phố Wall đều thất bại

BBWV - AI chưa sẵn sàng thay thế các nhà quản lý quỹ của bạn. Câu trả lời đến từ kết quả của những thử nghiệm công khai.

AI Bot.

Tác giả: Justina Lee

07 tháng 05, 2026 lúc 11:00 AM

Tóm tắt bài viết bởi

Trong cuộc thi giao dịch Alpha Arena do startup Nof1 điều hành, các hệ thống AI hàng đầu như Claude, Gemini, ChatGPT và Grok đã thua lỗ khi giao dịch cổ phiếu công nghệ Mỹ.
Tổng danh mục đầu tư của các hệ thống AI tham gia Alpha Arena đã mất khoảng 1/3 vốn, với chỉ 6 trên tổng số 32 kết quả mang lại lợi nhuận cho các mô hình.
Ông Jay Azhang, người sáng lập Nof1, cho biết LLM giỏi nghiên cứu nhưng chưa biết mức độ quan trọng của các biến số tác động đến cổ phiếu và thường chọn sai thời điểm giao dịch.
Thước đo của Intelligent Alpha cho phép 10 mô hình AI truy cập báo cáo tài chính và dữ liệu kinh tế vĩ mô, cho thấy kết quả khả quan hơn, với ChatGPT dự đoán đúng hướng 68% ước tính lợi nhuận.
Ông Alexander Izydorczyk từ NX1 Capital nhận định không có bot giao dịch AI nào thể hiện lợi thế lâu dài, vì các đấu trường bị giới hạn bởi dữ liệu đào tạo và kỹ thuật giao dịch bí mật.

Trong một loạt các cuộc thi giao dịch mới giữa các mô hình AI hàng đầu thế giới, kết quả cho đến nay không mấy khả quan. Hầu hết các hệ thống đều thua lỗ. Chúng giao dịch quá nhiều và đưa ra các quyết định khác nhau một cách khó lường dù nhận cùng một chỉ thị. Chưa ai biết liệu những thiếu sót này sẽ biến mất với các phiên bản mạnh hơn, hay chúng cho thấy một khoảng cách cơ bản giữa các mô hình ngôn ngữ lớn (LLM) và cách thị trường thực sự vận hành.

Hãy xem Alpha Arena, một cuộc thi do startup công nghệ Nof1 điều hành. Cuộc thi này đưa tám hệ thống AI tiên phong, bao gồm Claude của Anthropic, Gemini của Google, ChatGPT của OpenAI và Grok của Elon Musk, đối đầu nhau trong bốn vòng thi riêng biệt. Mỗi hệ thống được cấp 10.000 USD cho mỗi vòng trước khi được thả vào giao dịch cổ phiếu công nghệ Mỹ trong hai tuần. Các thử thách bao gồm giao dịch dựa trên nhiều tín hiệu, hành động phòng thủ, phản ứng với đối thủ và sử dụng đòn bẩy cao.

Toàn bộ danh mục đầu tư đã mất khoảng một phần ba vốn. Trong tổng số 32 bộ kết quả, chỉ có sáu lần một mô hình kết thúc với lợi nhuận. Grok 4.20 mang lại hiệu suất tốt nhất trong thử thách mà nó nhận biết được hiệu suất của đối thủ. Nó chỉ đặt 158 lệnh; trong khi với cùng một yêu cầu, Qwen của Alibaba đã giao dịch tới 1.418 lần.

Alpha Arena là một trong số các thử nghiệm ngày càng nhiều nhằm kiểm tra xem liệu các LLM có thể làm được công việc khó nhất trong ngành tài chính hay không: đánh bại thị trường. Mặc dù các cuộc thi này còn xa mới đạt được sự chặt chẽ về mặt học thuật, chúng là minh chứng công khai nhất cho đến nay về những gì xảy ra khi các hệ thống này cố gắng đảm nhận một số công việc sinh lợi và rủi ro bậc nhất ở Phố Wall.

Những kết quả ban đầu này rất quan trọng vì giao dịch là một trong những công việc mà ngành tài chính vẫn còn thận trọng trong việc giao hoàn toàn cho AI. Trong vài năm qua, các ông lớn từ JPMorgan Chase & Co. đến Balyasny Asset Management đã ứng dụng công nghệ này ở hầu hết mọi lĩnh vực khác. Các LLM hiện đang phân tích tin tức tại các quỹ định lượng, soạn thảo bản ghi nhớ tại các quỹ phòng hộ và phát hiện gian lận trên Bloomberg Terminal tại các ngân hàng lớn, cùng nhiều nhiệm vụ khác. Nhưng "con người giám sát" vẫn là phương châm khi nói đến việc giao dịch bằng tiền thật. Có lẽ là vì lý do chính đáng.

"Các LLM không thực sự có thể tự kiếm tiền," Jay Azhang, người sáng lập Nof1, cho biết. "Về cơ bản, bạn cần một bộ khung, một giàn giáo và một nền tảng dữ liệu rất tinh vi để chúng có cơ hội." Ông cho biết, các LLM rất giỏi trong việc nghiên cứu, tìm kiếm và triển khai các công cụ phù hợp cho những nhiệm vụ nhất định. Nhưng chúng chưa biết mức độ quan trọng thực sự của mỗi biến số tác động đến cổ phiếu, bao gồm những thứ như xếp hạng của nhà phân tích, giao dịch nội bộ và thay đổi tâm lý. Chúng có xu hướng chọn sai thời điểm giao dịch, định cỡ vị thế không chính xác và mua bán quá thường xuyên.

Blog về AI Flat Circle đã theo dõi 11 đấu trường liên quan đến thị trường, và tất cả đều có ít nhất một mô hình kiếm được tiền. Nhưng chỉ trong hai đấu trường, mô hình trung vị có lãi, cho thấy hầu hết đều gặp khó khăn trong việc đánh bại thị trường. Kết quả đó phản ánh hiệu suất của con người, vì phần lớn các quỹ được quản lý chủ động cũng nổi tiếng là có hiệu suất kém hơn thị trường chung. Và cũng giống như con người, các mô hình có thể có những thiên kiến rõ ràng. Các đấu trường cho thấy các hệ thống AI đưa ra những quyết định rất khác nhau với cùng một chỉ thị, điều này có ý nghĩa lớn đối với bất kỳ công ty nào triển khai chúng. Ví dụ, ông Azhang cho biết trong lần chạy mới nhất của Alpha Arena, Claude chủ yếu muốn mua vào, Gemini không gặp vấn đề gì với việc bán khống, và Qwen thì thoải mái chấp nhận rủi ro với đòn bẩy lớn.

"Chúng có những 'tính cách' mà bạn phải quản lý gần giống như một nhà phân tích con người," Doug Clinton, người điều hành Intelligent Alpha, một công ty có quỹ do LLM điều khiển và công bố thước đo riêng về khả năng dự báo lợi nhuận doanh nghiệp của AI, cho biết. Ông nói thêm rằng kết quả có thể được cải thiện bằng cách cho mô hình biết nó đang thể hiện một số thiên kiến.

Thước đo của Intelligent Alpha cho phép 10 mô hình AI truy cập vào các báo cáo tài chính, dự báo của nhà phân tích, bản ghi các cuộc họp công bố kết quả kinh doanh, dữ liệu kinh tế vĩ mô và tối đa 10 lượt tìm kiếm trên web. Với phạm vi hẹp hơn, kết quả khả quan hơn cho các LLM. Trong quý IV năm 2025, ChatGPT của OpenAI đã dự đoán đúng hướng của các ước tính lợi nhuận trong 68% trường hợp. Đây là kết quả tốt nhất cho đến nay. Và theo ông Clinton, các mô hình có xu hướng cải thiện sau mỗi lần phát hành phiên bản mới.

Việc đánh giá bất kỳ điều nào trong số này đều rất khó. Các lựa chọn thiết kế trong mọi thứ, từ tần suất chạy mô hình đến loại tài sản chúng giao dịch, đều tạo ra sự khác biệt lớn. Và phương pháp kiểm tra mặc định cho một chiến lược giao dịch, kiểm tra dữ liệu lịch sử để xem nó sẽ hoạt động như thế nào, không thực sự hiệu quả với AI.

Một mô hình được hỏi vào năm 2026 rằng nó sẽ giao dịch như thế nào vào tháng 3 năm 2020 đã biết tháng 3 năm 2020 trông như thế nào. Tình trạng sai lệch này, được gọi là thiên kiến nhìn về tương lai, đã thách thức các khuôn khổ nền tảng của tài chính học thuật và định lượng trong nhiều thập kỷ. Thay vào đó, các LLM phải được đánh giá trên thị trường thực, do đó dẫn đến sự gia tăng của các thước đo và đấu trường.

Có lẽ vì chúng hầu hết đều thua lỗ, các đấu trường giao dịch AI có xu hướng chỉ diễn ra trong thời gian ngắn. Với rào cản gia nhập thấp, nhiều đấu trường được thiết lập bởi các cá nhân hoặc startup sử dụng các nền tảng này làm bệ phóng cho các sản phẩm khác.

Nof1 đang chuẩn bị cho mùa thứ hai của Alpha Arena, trong đó mỗi mô hình AI sẽ có khả năng tìm kiếm trên web, suy nghĩ lâu hơn, truy cập nhiều nguồn dữ liệu hơn và thực hiện nhiều bước hơn. Nhưng cuối cùng, hoạt động kinh doanh của công ty là một hệ thống cho phép các nhà giao dịch nhỏ lẻ xây dựng các tác nhân giao dịch AI cho chiến lược của riêng họ.

"Việc đưa tiền cho một LLM ngay bây giờ và để nó tự giao dịch - điều đó vẫn chưa thể xảy ra," ông Azhang nói.

Hầu hết các thử nghiệm công khai vẫn còn ngắn ngủi và quá nhiễu để đưa ra kết luận chắc chắn, theo nhận định của Jim Moran, người viết blog Flat Circle và trước đây là đồng sáng lập của nhà cung cấp dữ liệu thay thế YipitData. Các đấu trường này cũng có những bất lợi tự nhiên, bao gồm quyền truy cập hạn chế vào các nghiên cứu cổ phiếu độc quyền và khả năng thực thi lệnh kém hơn.

"Nếu bạn lấy một trong những tác nhân này từ một trong những đấu trường này và chuyển nó vào hoạt động bên trong một quỹ phòng hộ cao cấp, chúng sẽ hoạt động tốt hơn," ông nói.

Alexander Izydorczyk, trước đây là người đứng đầu bộ phận khoa học dữ liệu tại quỹ phòng hộ Coatue Management và hiện đang làm việc tại NX1 Capital, gần đây đã viết rằng không có bot giao dịch AI nào mà ông theo dõi cho thấy lợi thế lâu dài. Ông cho rằng các đấu trường bị giới hạn bởi những gì chúng không thể thấy trong dữ liệu đào tạo của mình: các kỹ thuật định lượng thực tế được sử dụng bên trong các công ty giao dịch bí mật.

Alexander Izydorczyk, nguyên giám đốc khoa học dữ liệu tại quỹ phòng hộ Coatue Management và hiện đang công tác tại NX1 Capital, gần đây nhận định rằng chưa có bất kỳ robot giao dịch AI nào mà ông theo dõi thể hiện được lợi thế duy trì bền vững. Ông lập luận rằng năng lực của các công cụ này bị giới hạn bởi những gì chúng không thể tiếp cận trong dữ liệu đào tạo: Đó là các kỹ thuật định lượng thực chiến được áp dụng bên trong các "cỗ máy" giao dịch bí mật.

Ông cho rằng sự bảo mật tương tự này cũng là một tín hiệu cho thấy tương lai của bất kỳ hệ thống AI nào nếu thực sự hoạt động hiệu quả: chúng rồi cũng sẽ được đưa vào vòng bí mật.

“Nhưng đôi khi những kẻ mới bắt đầu lại nhìn thấy những điều mà những người đương nhiệm không thể,” Izydorczyk viết trên blog cá nhân của mình. “Những người ngoại đạo, nếu thành công, cũng sẽ sớm nhận ra rằng thành quả từ các thị trường cạnh tranh và có tính thanh khoản cao mang lại lợi nhuận tốt hơn nhiều so với việc có thêm một vài người theo dõi trên mạng xã hội. Khi các chiến lược giao dịch bằng tác nhân LLM bắt đầu phát huy hiệu quả, bạn sẽ không còn nghe thấy bất kỳ thông tin nào về chúng trong một thời gian dài.”

Với sự hỗ trợ từ Emily Nicolle