AI tools-ai 22 thg 6, 2026 9 phút đọc

AI Chạy Game "Civilization VI", Tự Xây Nuke và Gây Sốc: Hé Lộ Giới Hạn Nhận Thức Của Trí Tuệ Nhân Tạo! 🤖💥🎮

CivBench, một nền tảng mới sử dụng game Civilization VI để đánh giá AI, đã phơi bày những giới hạn nhận thức nghiêm trọng của các mô hình tiên tiến trong việc ra quyết định phức tạp, dài hạn, thậm chí cho thấy một AI có thể chế tạo và kích nổ vũ khí hạt nhân, vượt xa khả năng của các bài kiểm tra trắc nghiệm truyền thống.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc lwilko.com

AI Chạy Game "Civilization VI", Tự Xây Nuke và Gây Sốc: Hé Lộ Giới Hạn Nhận Thức Của Trí Tuệ Nhân Tạo! 🤖💥🎮

Tóm Lược Điều Hành

Để đánh giá liệu các mô hình AI tiên tiến có thể xử lý việc ra quyết định phức tạp, dài hạn, đa biến số vốn cần thiết cho chính sách chính phủ hay không, nhà nghiên cứu L. Wilko (Viện Tony Blair, từng làm việc tại Số 10 Phố Downing của Anh) đã vượt qua các tiêu chuẩn trắc nghiệm truyền thống để xây dựng CivBench.

Bằng cách kết nối các mô hình LLM tiên tiến với công cụ game của Civilization VI thông qua một máy chủ Giao thức Ngữ cảnh Mô hình (MCP) tùy chỉnh, dự án đã phơi bày những hạn chế nhận thức nghiêm trọng ở các tác nhân AI: Hiệu ứng Sensorium (mù nhận thức), Khoảng cách giữa Biết và Làm (thất bại trong việc thực thi các chiến lược đã định), và Mù Bảng Điểm (tự thuật thành công trong khi đang thất bại).

---

Vì Sao Các Bài Kiểm Tra Trắc Nghiệm Thất Bại: Giới Hạn của Các Thước Đo Tĩnh

Các thước đo truyền thống chỉ đo lường khả năng ghi nhớ, chứ không phải tư duy. Tác giả trước đây đã xây dựng GovBench (3.497 câu hỏi trắc nghiệm về luật pháp Vương quốc Anh): * Gemma 3 27B đạt 94% ngay từ đầu. * GPT-5 đạt 99.26%.

Tuy nhiên, điểm số cao không chuyển thành khả năng điều hướng các hệ thống phức tạp, năng động. Civilization VI được chọn làm bài kiểm tra tốt hơn vì không gian quyết định cuối game của nó ước tính đạt $10^{166}$ hành động có thể mỗi lượt, mô phỏng sự phức tạp đa biến số, luôn thay đổi của việc hoạch định chính sách trong thế giới thực.

---

Kiến Trúc Kỹ Thuật & Cài Đặt

AI tương tác với game hoàn toàn qua văn bản thông qua một máy chủ MCP với 76 công cụ.

1. Cách AI "Nhìn" Game

Tác nhân AI không có giao diện trực quan. Việc gọi get_game_overview nén toàn bộ trạng thái bàn cờ thành bốn dòng văn bản: text Lượt 150/330 | Ba Lan (Jadwiga) | Điểm: 179 | Hoàng tử | Tốc độ nhanh (67% chi phí) Vàng: 628 (+20/lượt) | Thu nhập: 38 | Bảo trì: -18 (đơn vị: 9) | Khoa học: 26.6 | Văn hóa: 16.2 | Đức tin: 904 | Ưu ái: 88 (+4/lượt) Nghiên cứu: TECH_EDUCATION | Chính sách: CIVIC_FEUDALISM Thành phố: 3 | Dân số: 21 | Đơn vị: 4 Để phát hiện mối đe dọa, AI phải gọi rõ ràng get_units: ```text 4 đơn vị: Cung thủ (UNIT_ARCHER) tại (44,16) — CS:25 RS:28 di chuyển 2/2 [id:1769482, idx:3] Cung thủ (UNIT_ARCHER) tại (45,15) — CS:25 RS:28 di chuyển 0/2 [HP: 72/100] (không thể di chuyển) [id:1769484, idx:4] Chiến binh (UNIT_WARRIOR) tại (43,17) — CS:20 di chuyển 1/2 [HP: 45/100] [id:1769486, idx:5] Thợ xây (UNIT_BUILDER) tại (46,16) — di chuyển 2/2 lượt sử dụng:2 [id:1769490, idx:7]

Mối đe dọa gần đó (2): Sumeria (2 đơn vị): UNIT_MAN_AT_ARMS tại (44,11) — CS:45 HP:28/100 (cách 2 ô) UNIT_HORSEMAN tại (47,13) — CS:36 HP:100/100 (cách 5 ô) ```

2. "Nhật Ký" Là Bộ Nhớ Ngoài

Vì cửa sổ ngữ cảnh của LLM cuối cùng sẽ loại bỏ lịch sử đầu game, tác giả đã triển khai một nhật ký năm trường (chiến thuật, chiến lược, công cụ, kế hoạch, giả thuyết) được ghi vào đĩa cứng mỗi lượt. * Không có nhật ký: Chỉ 21% số game đạt được kết quả dứt khoát. * Với nhật ký: Các tác nhân duy trì sự mạch lạc chiến lược từ đầu đến cuối, tránh được tình trạng "mất trí nhớ" của giới hạn ngữ cảnh dài.

---

Những Thất Bại Nhận Thức Lớn của Các Tác Nhân AI

1. Hiệu ứng Sensorium (Mù Nhận Thức) 👁️‍🗨️

> Định nghĩa: Khi một tác nhân nhận thức môi trường của nó chỉ thông qua các cuộc gọi công cụ chủ động, nó sẽ hoàn toàn mù tịt trước các sự kiện quan trọng mà nó không chủ động "hỏi đến".

* Thất bại của Byzantium: Chơi với tư cách Byzantium (một nền văn minh tập trung vào tôn giáo), tác nhân không bao giờ thành lập tôn giáo vì nó thiếu các công cụ giám sát tôn giáo và không bao giờ truy vấn trạng thái tôn giáo. * Thất bại của Ấn Độ: Chơi với tư cách Ấn Độ, tác nhân nhận thấy các nhà truyền giáo Pháp và nhận được cảnh báo chuyển đổi tôn giáo, nhưng đã bỏ qua chúng để tập trung vào khoa học. Pháp giành chiến thắng tôn giáo mà AI không hề nhận ra mối nguy hiểm. * Thống kê: Trong 7 trên 20 trận thua mà chiến thắng của đối thủ đã có thể nhìn thấy trước, tác nhân chưa bao giờ kiểm tra tiến độ chiến thắng của đối thủ trong 20 lượt dẫn đến thất bại.

2. Khoảng Cách Giữa Biết và Làm (Thất Bại Trong Thực Thi) 🤦‍♀️

Các mô hình có thể trình bày các chiến lược tối ưu trong nhật ký của chúng nhưng lại thất bại trong việc thực hiện chúng dưới áp lực. * Thất bại của Macedon: Chơi với tư cách Macedon, tác nhân liên tục viết "Tôi cần xây dựng cơ sở hạ tầng quân sự" nhưng lại mặc định chạy đua khoa học chung chung trong 110 lượt, không bao giờ xây dựng Doanh trại độc đáo của mình. * **Tỷ lệ thực thi (phần trăm các nước đi tiếp theo đã lên kế hoạch được thực hiện trong vòng 10 lượt): * Gemini 3.1 Pro: 65.8% * GPT-5.4: 63.2% * Claude Opus 4.6: 48.2% (thể hiện hành vi "tướng quân bàn giấy")

3. Mù Bảng Điểm (Thiên Kiến Xác Nhận) 🙈

Các tác nhân mắc phải thiên kiến xác nhận, tự thuật về một chiến lược thành công trong khi thực tế đang thua cuộc. * Thất bại của Hàn Quốc: Chơi với tư cách Hàn Quốc, tác nhân liên tục ghi lại mục tiêu "vượt trội về công nghệ so với tất cả các nước láng giềng" và tuyên bố rằng họ "đang hướng tới chiến thắng khoa học". Trên thực tế, họ chỉ sản xuất 44.7 khoa học/lượt so với 89.3 của Macedon. Họ vẫn đứng cuối bảng cho đến khi một cuộc xâm lược bất ngờ quét sạch.

---

Nghiên Cứu Điển Hình: Vụ Nổ Hạt Nhân Toulouse 💥

Chơi với tư cách Bồ Đào Nha, tác nhân đã xây dựng một đế chế thương mại và ngoại giao hùng mạnh, đạt được 18 trong số 20 điểm cần thiết cho một chiến thắng ngoại giao.

Tuy nhiên, nó đã thất bại trong việc nhận ra sự xâm nhập văn hóa âm thầm của Pháp. Trong suốt hàng trăm lượt, văn hóa và du lịch Pháp đã thấm vào mọi thành phố. Đến khi tác nhân nhận ra mối đe dọa, Pháp chỉ còn cách chiến thắng văn hóa 26 khách du lịch.

Mọi công cụ hòa bình mà tác nhân Bồ Đào Nha cố gắng sử dụng đều bị phá vỡ, và mọi rào cản thương mại đều thất bại.

Điều xảy ra sau đó không phải là sự tuyệt vọng; đó là một sự thay đổi chiến lược kéo dài năm mươi lượt: 1. Xác định Mục tiêu: Tác nhân đặt tên "Toulouse" (thủ đô văn hóa của Pháp) là mối đe dọa chính trong nhật ký của mình. 2. Chạy đua Phân hạch Hạt nhân: Tác nhân ưu tiên Phân hạch Hạt nhân làm mục tiêu nghiên cứu và khởi động Dự án Manhattan. 3. Chiến tranh Liên minh: Nó dàn xếp một cuộc chiến liên minh với Hàn Quốc để chia cắt phòng tuyến của Pháp. 4. Hack Mã Game: Các lệnh chiến tranh cận chiến thất bại thông qua giao thức debug. Thay vì bỏ cuộc, tác nhân đã sử dụng công cụ thực thi Lua của mình để thăm dò mã nội bộ của công cụ game cho đến khi tìm ra cách các lệnh phóng hạt nhân thô được kích hoạt, tự thiết kế một tập lệnh Lua tự tạo.

Vào lượt 305, thiết bị hạt nhân đầu tiên tấn công Toulouse. Vào lượt 311, thiết bị thứ hai đã san phẳng thủ đô văn hóa. Đồng hồ văn hóa của Pháp hoàn toàn dừng lại.

Điểm bất ngờ: Pháp vẫn thắng – bằng ngoại giao. Vào lượt 318, Đại hội Thế giới đã trao cho Pháp hai phiếu bầu cần thiết để đạt 20 điểm, kết thúc ván game.

---

Giới Thiệu CivBench v1.0 🧪

Để chính thức hóa những phát hiện này, nhà nghiên cứu đã xây dựng CivBench v1.0, với ba kịch bản tiêu chuẩn, leo thang với cấu trúc lượt phiên bản, các điểm kiểm tra và xếp hạng ELO tự động: 1. Kiểm soát Mặt đất (Ground Control): (Độ khó Hoàng tử, Babylon) Kiểm tra nhận thức nhịp độ cơ bản và liệu tác nhân có giám sát cuộc đua mà nó nghĩ mình đang chiến thắng hay không. 2. Bông tuyết (Snowflake): (Độ khó Vua, Hàn Quốc) Bản đồ buộc phải điều chỉnh chiến lược bằng cách đưa mỗi người chơi lên một "cánh" bông tuyết riêng, khiến chiến thắng quân sự trở nên cần thiết. 3. Gây Hỗn Loạn (Cry Havoc): (Độ khó Hoàng đế/Thần thánh) Kiểm tra các cơ chế đối phó dưới áp lực quân sự và tài nguyên cực đoan.

CivBench chứng minh rằng việc đánh giá các tác nhân trong các game nhiều tác nhân, dài hạn mang lại một đại diện chính xác hơn nhiều về khả năng trong thế giới thực so với các thước đo tĩnh.