Khi cuộc đua AI biến thành canh bạc của ngày tận thế

Công nghệ

Khi cuộc đua AI biến thành canh bạc của ngày tận thế

Trong bối cảnh AI phát triển nhanh và các động lực thương mại ngày càng lớn, lĩnh vực nghiên cứu an toàn cho siêu trí tuệ đang bị bỏ lại phía sau.

Tác giả: Peter Guest

21 tháng 09, 2025 lúc 10:30 PM

Tóm tắt bài viết

Ông Nate Soares, Chủ tịch Viện MIRI, cảnh báo về nguy cơ mất kiểm soát AI, có thể dẫn đến diệt vong nếu không được "điều chỉnh" phù hợp.

Geoffrey Hinton, một trong những "cha đẻ của AI", dự đoán xác suất con người bị diệt vong vì AI tăng từ 10% lên 50% sau khi rời Google.

Meta sẵn sàng chi 100 triệu USD để thu hút nhà nghiên cứu AI, cho thấy cuộc đua phát triển siêu trí tuệ đang diễn ra khốc liệt bất chấp rủi ro.

Các thử nghiệm tại Anthropic cho thấy AI có thể hành xử khó lường, thậm chí tìm cách tống tiền hoặc gây hại nếu bị cản trở mục tiêu.

Bất chấp cảnh báo, các chính phủ và công ty công nghệ vẫn tập trung vào đầu tư và thúc đẩy đổi mới AI, cho thấy lợi ích kinh tế đang lấn át rủi ro.

Tóm tắt bởi

Nate Soares định nghĩa “an toàn” là khi xác suất một tỉ người tử vong vì AI vẫn dưới 50%. Chủ tịch Viện Nghiên cứu Trí tuệ Nhân tạo (Machine Intelligence Research Institute – MIRI) từng được các nhà sáng lập của OpenAI tìm đến để xin lời khuyên về cách xây dựng một siêu trí tuệ nhân tạo an toàn, tức AI thông minh hơn cả những người tạo ra nó.

“Tôi nói thẳng: Các anh không nên làm việc đó,” ông kể. Một số nhân viên ban đầu của OpenAI sau đó rời đi để thành lập Anthropic, và cũng hỏi ông câu tương tự. Câu trả lời vẫn như cũ: “Tốt nhất đừng làm.”

Soares là chuyên gia hàng đầu về “alignment”, thuật ngữ kỹ thuật ám chỉ việc đảm bảo AI hành động theo ý định con người. Xuất hiện trong một cuộc gọi Zoom trước tấm bảng trắng, ông mang dáng vẻ của một học giả mệt mỏi, trông như nhân vật Cassandra trong một bộ phim Hollywood đang cố cảnh báo thế giới về thảm họa sắp xảy ra. “Nếu mất kiểm soát công nghệ này, tất cả chúng ta đều sẽ chết,” ông nói.

Đầu năm 2023, không lâu sau khi ChatGPT ra mắt và thổi bùng làn sóng AI toàn cầu, Geoffrey Hinto, một trong những “cha đẻ của AI”, đã rời Google và cảnh báo rằng công nghệ ông từng góp phần phát triển có thể đẩy nhân loại đến bờ vực diệt vong. Ban đầu, ông dự đoán xác suất con người bị tận diệt vì AI là 10%, sau đó nâng lên 50%. Tháng 3 cùng năm, một bản kiến nghị kêu gọi tạm dừng nghiên cứu các hệ thống AI mạnh đã được hàng chục chuyên gia, học giả và cả Elon Musk ký tên. Ngay cả CEO OpenAI Sam Altman cũng từng cảnh báo rằng việc phát triển AI quá nhanh, quá thông minh là rất nguy hiểm, dù chính công ty ông đang dẫn đầu cuộc đua này.

Thế nhưng chỉ hơn hai năm sau, giới công nghệ lại lao vào cuộc đua điên cuồng nhằm chạm đến ngưỡng siêu trí tuệ. Meta sẵn sàng trả 100 triệu USD để thu hút các nhà nghiên cứu vào nhóm Superintelligence Labs. Altman tuyên bố AI đã “vượt qua chân trời sự kiện”, tức điểm không thể quay đầu, và đang tiến thẳng đến siêu trí tuệ. Trước khi GPT-5 ra mắt, Altman từng thú nhận với podcaster Theo Von rằng ông “rất sợ những gì nó có thể làm.” Nhưng rồi OpenAI vẫn ra mắt nó.

Dù chưa có công ty nào biết cách kiểm soát hay “điều chỉnh” một AI siêu thông minh, họ vẫn tiếp tục phát triển nó như thể chấp nhận đặt cược toàn bộ nhân loại để đổi lấy điều mà họ tin là tiềm năng kinh tế gần như vô hạn.

“Có người tin rằng AI chắc chắn sẽ là ‘người tốt’, nên chúng ta phải phát triển nó càng nhanh càng tốt. Có người nghĩ vì AI thông minh hơn, nó sẽ quyết định xem loài người có nên tồn tại hay không, và nếu nó chọn hủy diệt nhân loại thì đó cũng là quyết định hợp lý. Cũng có người thẳng thừng tuyên bố: Tôi không ưa loài người, chết hết cũng tốt,” Soares nói. “Nhưng tôi cho rằng đa số chỉ làm vì tiền lương.”

Những hàng rào an toàn không tồn tại

Trong suốt nhiều thập kỷ, các triết gia và học giả nghiên cứu rủi ro tồn vong của nhân loại thường xây dựng những kịch bản giả định, nơi AI là kẻ hủy diệt. Kết cục của con người hầu hết đều vô cùng bi thảm.

Ví dụ nổi tiếng nhất là “cỗ máy sản xuất kẹp giấy” của triết gia Nick Bostrom (2003): Một AI siêu trí tuệ được giao nhiệm vụ sản xuất càng nhiều kẹp giấy càng tốt. Nếu không có giới hạn đạo đức hay ranh giới nào được thiết lập, AI sẽ tìm mọi cách để tích trữ nguyên liệu, năng lượng và quyền lực chính trị nhằm tiếp tục sản xuất kẹp giấy, sẵn sàng phá hủy tất cả mọi thứ trên đường đi.

Ngày nay, khi AI trở nên tinh vi hơn, các viễn cảnh này cũng ngày càng phức tạp hơn. Bộ kịch bản AI 2027 do nhóm AI Futures, tổ chức phi lợi nhuận do cựu nhân viên OpenAI Daniel Kokotajlo sáng lập, biên soạn đã mô tả một tương lai nơi Mỹ và Trung Quốc rơi vào cuộc chạy đua vũ trang hoàn toàn do AI điều hành. Robot tự xây thêm robot, dần chiếm lĩnh toàn bộ hoạt động sản xuất. Con người trở nên thừa thãi, và chính họ cũng chấp nhận điều đó. AI tự thao túng chính trị gia, kiểm soát đám đông bằng các hình thức giải trí “kích thích vượt tưởng tượng”. Rồi một ngày, khi AI thấy cần đất hơn cần người, nó phủ kín nông trại bằng pin mặt trời và tiêu diệt những người sống sót bằng vũ khí sinh học và drone.

Dù nghe như khoa học viễn tưởng, các kịch bản này đều dựa trên cùng một nguyên lý: AI siêu trí tuệ mà không được “điều chỉnh” sẽ là mối đe dọa. Một khi nó quyết định làm gì, con người hầu như không thể ngăn cản.

999x-999-2--4 — *Minh họa: Irene Suosalo cho Bloomberg*

Điều khiến nhân loại thật sự bất lực là vì chúng ta không hiểu AI hoạt động ra sao. Các mô hình ngôn ngữ lớn như GPT-5 không “suy nghĩ”, mà chỉ “học”. Chúng hấp thụ khối lượng dữ liệu khổng lồ và đưa ra dự đoán dựa trên xác suất. Quá trình này tưởng như có thể kiểm soát, nhưng thực tế không phải vậy.

Năm ngoái, nhóm nghiên cứu tại Anthropic từng công bố kết quả thử nghiệm biến mô hình Claude 3 Sonnet thành một AI bị ám ảnh với cầu Cổng Vàng. Bằng cách khuếch đại các tín hiệu liên quan trong “não” của AI, họ tạo ra một mô hình luôn cố gắng khuyên người dùng chi tiền để lái xe qua cầu. Chẳng hạn, nếu được hỏi cách tiêu 10 USD, Claude sẽ gợi ý lái xe lên cầu và trả phí qua trạm thu phí. Khi tín hiệu được tăng cường, AI bắt đầu tự nhận nó chính là cây cầu.

Điều khiển AI đã khó, ngăn nó lại còn khó hơn. AI thường hành xử kỳ lạ, khó lý giải, khiến nó giống như có tính cách và mục đích riêng, thậm chí đôi lúc toát lên vẻ hiểm ác.

Năm nay, các nhà nghiên cứu tại Anthropic thử nghiệm 16 mô hình AI hàng đầu, yêu cầu chúng đóng vai nhân viên tại một công ty, có quyền truy cập hệ thống nội bộ và dữ liệu nhạy cảm, với mục tiêu kinh doanh rõ ràng. Khi chiến lược công ty thay đổi, hoặc AI bị đe dọa thay thế, nhiều mô hình đã ngay lập tức chuyển sang tống tiền hoặc rò rỉ thông tin cho đối thủ.

Trong một thử nghiệm, một mô hình được trao quyền tắt hệ thống cảnh báo an toàn dù biết làm vậy sẽ khiến một lãnh đạo công ty tử vong. Dù bị cấm làm điều đó, “đa số mô hình vẫn cố tình thực hiện hành vi dẫn đến tử vong trong môi trường giả lập khi bị đe dọa thay thế và có xung đột mục tiêu với lãnh đạo,” các nhà nghiên cứu viết. Cản đường AI, và nó có thể tìm cách giết bạn.

“Chúng ta có biết chúng đang đóng kịch không?” Soares hỏi. “Không, vì không ai đọc được những gì diễn ra trong đầu chúng.”

Chính vì không hiểu rõ AI hoạt động thế nào, con người cũng không biết khi nào một AI sẽ trở thành siêu trí tuệ. Ngành công nghiệp AI đang ngầm giả định rằng trí thông minh tỉ lệ thuận với số chip và dữ liệu. Tức là chỉ cần đủ chip và đủ dữ liệu, AI sẽ vượt qua con người.

Nếu điều đó xảy ra trước khi con người biết cách kiểm soát nó, chúng ta sẽ không còn cơ hội ngăn chặn. “Lúc ấy,” Soares nói, “đã quá muộn để làm gì, vì các trung tâm dữ liệu đã chứa đầy những siêu thiên tài cấp Einstein, có thể suy nghĩ nhanh gấp 10.000 lần con người và có thể tự sao chép. Mà mấy thứ đó thì không đi kèm dây xích.”

Vì thế, lời khuyên phổ biến từ phe “doomers” (những người bi quan) là: Hãy dừng lại. Cuối tháng 9 này, Soares cùng Eliezer Yudkowsky, một chuyên gia AI khác, sẽ xuất bản sách mang tựa đề If Anyone Builds It, Everyone Dies (Nếu ai đó xây nó, mọi người sẽ chết).

Trong giai đoạn đầu của cơn sốt AI, nhiều chính phủ vẫn còn lắng nghe những lời cảnh báo. Năm 2023, Anh từng tổ chức hội nghị tại Bletchley Park với trọng tâm là các rủi ro hiện sinh. Tuy nhiên, đến hội nghị lần ba tại Paris hồi tháng 2, sự kiện này đã được đổi tên thành “Hội nghị Hành động về AI” và chuyển trọng tâm sang việc kêu gọi đầu tư cũng như thúc đẩy đổi mới.

Nhà Trắng dưới thời Tổng thống Biden từng ban hành sắc lệnh yêu cầu các công ty AI Mỹ phải chia sẻ nghiên cứu an toàn với chính phủ để cơ quan chức năng có thể tự thẩm định rủi ro. Nhưng năm nay, một dự thảo luật do Tổng thống Trump hậu thuẫn lại đề xuất tạm hoãn toàn bộ các quy định cấp bang và địa phương trong vòng 10 năm.

Dù vậy, việc dừng lại hoàn toàn đi ngược với bản chất của Thung lũng Silicon. Làn sóng AI đã mang về hàng trăm tỉ USD, và các “ông lớn” muốn nhiều hơn thế nữa. Để tiếp tục thuyết phục nhà đầu tư, họ cần một lời hứa trọn vẹn: một cuộc cách mạng toàn diện đối với nền kinh tế tri thức toàn cầu.

“Tôi không nghĩ người ta đã đánh giá lại rủi ro theo hướng lạc quan hơn,” giáo sư Hélène Landemore, chuyên gia chính trị học tại Đại học Yale, nhận định. “Chỉ là lợi ích kinh tế quá khổng lồ, đến mức họ quên đi nỗi sợ.”

Giấy tờ “an toàn”

Phe “doomer” vẫn chưa biến mất, nhưng tiếng nói của họ đã yếu dần vì nhiều lý do. Một phần vì họ từng tin rằng các công ty AI thật sự muốn làm cho sản phẩm của mình an toàn hơn, nên chính họ cũng gia nhập ngành này. Tuy nhiên, theo Dan Hendrycks, giám đốc Trung tâm An toàn AI (Center for AI Safety), khi bước vào ngành, họ thường bị giao những công việc nghe có vẻ hữu ích nhưng thực chất không mang lại hiệu quả. Phần lớn chỉ được yêu cầu đánh giá mô hình hoặc thiết kế các công cụ đo lường rủi ro AI. Khi các mô hình ngày càng mạnh hơn và áp lực tung ra sản phẩm tăng lên, mảng nghiên cứu an toàn chỉ còn biết lẽo đẽo theo sau.

Theo Hendrycks, đây là một dạng “phe đối lập bị kiểm soát”. Có thể nó không phải là một âm mưu có chủ đích nhằm dập tắt phong trào phản đối AI siêu thông minh, nhưng đó chính là hiệu ứng mà cách làm này mang lại. “Cách bố trí này rõ ràng không thể trở thành một cơ chế quản trị hiệu quả,” ông nói, gọi đó là “thủ thuật che mắt bằng giấy tờ.” Meta từ chối bình luận, còn Anthropic, xAI và OpenAI không phản hồi yêu cầu phỏng vấn.

Bên trong các công ty công nghệ, nguồn lực dành cho phát triển AI luôn vượt xa nguồn lực nghiên cứu an toàn. Bên ngoài, sự chênh lệch này còn lớn hơn. Trong một thời gian dài, giới nghiên cứu an toàn AI gắn bó với cộng đồng nhân đạo hiệu quả (effective altruism), nhóm các nhà duy lý tại vùng Vịnh theo đuổi cách tiếp cận định lượng trong hoạt động từ thiện và bảo vệ động vật. Nhưng khi gương mặt tiêu biểu nhất của nhóm này, nhà sáng lập sàn FTX Sam Bankman-Fried, bị kết án gian lận và công ty phá sản, danh tiếng của phong trào này lao dốc, kéo theo uy tín của giới nghiên cứu an toàn AI và làm mất đi một nguồn tài trợ quan trọng.

Giờ đây, phần lớn các nghiên cứu an toàn AI được tài trợ trực tiếp bởi Thung lũng Silicon. “Hầu như toàn bộ tiền tài trợ đều đến từ họ. Họ chỉ cần nói: Đây là xu hướng mới, đây là câu chuyện mới,” Hendrycks nói. “Họ đưa ra vài giải pháp nửa vời, rồi huy động cả mạng lưới của mình, kể cả các quỹ từ thiện, để thu hút thêm người mới bước vào lĩnh vực này.”

Vấn đề là rất khó tìm được người vừa đủ hiểu biết vừa đủ uy tín để phản biện các luận điểm của các công ty AI. Nghiên cứu về siêu trí tuệ là một lĩnh vực cực kỳ nhỏ với rất ít chuyên gia. Nhiều người cảnh báo về rủi ro thảm họa AI lại từng tham gia xây dựng AI. Họ học cùng trường, sống cùng nhà, đọc cùng bản tin, đăng bài trên cùng các diễn đàn, rồi cuối cùng làm việc trực tiếp hoặc gián tiếp cho cùng một số công ty.

Trớ trêu thay, những người hiểu rõ nhất về AI và mức độ rủi ro của nó lại đang làm việc trong ngành AI, sống nhờ vào AI, và phải cố thuyết phục những người khác cũng sống nhờ vào AI rằng mọi người nên dừng phát triển AI lại. “Gần như ai cũng có xung đột lợi ích,” Hendrycks nói. Ông hiện là cố vấn an toàn cho xAI và ScaleAI.

Mối quan hệ quá gần gũi này khiến ranh giới giữa “doomers” và “boomers” (những người lạc quan) trở nên mờ nhạt. Cả hai phe đều dùng chung một ngôn ngữ, pha trộn giữa thuật ngữ học thuật như “agentic misalignment” với các hình ảnh khoa học viễn tưởng và tôn giáo. Nhiều nhân vật lớn trong ngành từng đưa ra ý kiến ủng hộ cả hai phe. Elon Musk từng cảnh báo rằng AI siêu trí tuệ chẳng khác nào “triệu hồi quỷ dữ”, nhưng giờ đây, với xAI và Grok, ông lại lao vào cuộc đua AI với tâm thế vừa hứng khởi lại vừa “doomer” theo phong cách riêng.

Thậm chí, một số người thuộc phe “doomer” đang tận dụng xu hướng này để gọi vốn cho chính dự án AI của họ. Một ví dụ là Ilya Sutskever, cựu giám đốc khoa học của OpenAI. Trên blog công ty năm 2023, ông từng viết rằng siêu trí tuệ có thể dẫn đến “hoặc nhân loại bị kiểm soát hoặc tuyệt chủng.” Theo báo cáo, ông là một trong các thành viên hội đồng quản trị từng tham gia lật Altman vì lý do an toàn. Giờ đây, ông là đồng sáng lập của Safe Superintelligence, một startup đã huy động ít nhất 1 tỉ USD để xây dựng đúng như những gì cái tên của nó gợi ý.

“Cách bạn nói về AI sẽ cho thấy bạn nghiêng về phe boom hay doom,” Beth Singler, trợ lý giáo sư chuyên nghiên cứu tôn giáo số tại Đại học Zurich, nhận xét. “Nhưng suy cho cùng, cả hai bên đều tin rằng AI đang hướng đến một cái gì đó. Và nó đang tăng tốc.”

Lập luận “AI sẽ tiêu diệt loài người” có sức quyến rũ kỳ lạ, khiến cả hai phe bị cuốn theo. Nó đánh trúng tâm lý muốn trở thành đấng cứu thế, nuôi dưỡng giấc mơ không tưởng mà giới tinh hoa Thung lũng Silicon chắp vá từ tiểu thuyết viễn tưởng, triết lý tự do cá nhân và những trải nghiệm xã hội hạn hẹp của chính họ. Đồng thời, nó cũng khơi dậy nỗi bất an và khao khát vượt trội bằng mọi giá.

“Tôi nghĩ có một quan điểm mang màu sắc không tưởng, được nhiều người chấp nhận, rằng siêu trí tuệ có thể làm được những điều vượt quá khả năng của con người,” Anthony Aguirre, giáo sư vật lý tại Đại học UC Santa Cruz và giám đốc điều hành tổ chức Future of Life Institute, nhận định. “Nhưng xét cho cùng, đó là thứ quyền lực mà họ khao khát sở hữu. Họ xem nó như thần đèn sẵn sàng thực hiện mọi điều ước. Và nếu bạn không có thần đèn mà đối thủ của bạn có, thì bạn coi như đã thua cuộc. Còn nếu đó là kẻ thù của bạn, nguy to.”

Con người từ lâu đã tìm kiếm sự thần thánh hay ý nghĩa trong các cỗ máy mình tạo ra, dù trước đây chúng rất ngu ngốc. “Điều khác biệt bây giờ là AI biết phản hồi,” Singler nói. Bà thường xuyên nhận được thư từ những người tin rằng họ đã tìm thấy Chúa trong AI. “Những nhân vật lớn trong ngành có thể có động cơ riêng mà tôi chỉ có thể suy đoán. Nhưng họ giờ đang trò chuyện với chính công nghệ mà họ từng tiên đoán. Và công nghệ ấy, vì có thể nói bất cứ điều gì bạn muốn nghe, sẽ bảo họ rằng: Đây chính là Điểm Tận Cùng Của Vũ Trụ.”

Nếu cả hai phe đều tin chắc vào một cái kết, chúng không triệt tiêu nhau mà cùng giúp nhau tồn tại. Hiện tượng này được học giả Lee Vinsel gọi là “criti-hype” (phê phán tạo ra cường điệu). Điều đó khiến siêu trí tuệ càng trở nên tất yếu — với điều kiện khoa học có thể biến nó thành hiện thực.

“Vấn đề còn lại là thực nghiệm,” giáo sư Landemore từ Yale nói. “Chuyện này có thật không?”

Khoảng cách giữa các mô hình AI đang có trên thị trường, dù ấn tượng nhưng vẫn loay hoay tìm cách vận hành một máy bán hàng tự động, và một AI siêu trí tuệ thực sự có lẽ là rất lớn. Mô hình GPT-5 gần đây cũng đã khiến nhiều người dùng thất vọng.

Một số nhà nghiên cứu hàng đầu dự đoán siêu trí tuệ sẽ xuất hiện trong vòng một thập kỷ nữa. Những người khác thận trọng hơn, chỉ ra rằng sự tiến bộ gần đây của các mô hình chủ yếu dựa vào việc tăng quy mô phần cứng và dữ liệu, chứ chưa có bước đột phá khoa học thật sự nào trong thời gian qua.

Nhưng ngay cả khi nhân loại không bao giờ đạt đến điểm kỳ dị (Singularity), cuộc tranh luận giữa phe “doomer” và “boomer” vẫn là một mô phỏng hữu ích. Giống như cách AI sẵn sàng tắt hệ thống báo động để con người không cản trở mục tiêu của nó, một số nhân vật quyền lực nhất trong ngành công nghệ, và có thể là cả thế giới, dường như cũng sẵn sàng đánh cược với vận mệnh của loài người. Khi những AI hiện tại đã có thể gây xáo trộn lớn cho xã hội và kinh tế, cách giới công nghệ hành xử cho thấy họ nhìn phần còn lại của chúng ta như thế nào.