Bỏ qua đến nội dung chính
Về trang chủ
AI 2 phút đọc

🤖 Các mô hình GPT và Claude trượt bài kiểm tra tài chính của Bridgewater

Quỹ phòng hộ Bridgewater và Thinking Machines Lab phát hiện các mô hình AI hàng đầu thất bại trước tài liệu tài chính thực tế do dữ liệu chuẩn chưa từng được công bố mạng xã hội.

Tier 1 · nguồn 65% độ tin cậy Đã được duyệt
Nguồn gốc the-decoder.com

Quỹ phòng hộ Bridgewater phối hợp cùng Thinking Machines Lab mới đây công bố báo cáo cho thấy các mô hình AI thương mại hàng đầu như GPT của OpenAI và Claude của Anthropic đã thất bại trong các bài kiểm tra đánh giá tài liệu tài chính nội bộ. Nguyên nhân cốt lõi được xác định là do những câu trả lời chính xác cho các bài kiểm tra này chưa từng được công bố rộng rãi trên môi trường Internet công cộng, khiến các mô hình ngôn ngữ lớn không có dữ liệu để học tập trước đó.

Bối cảnh

Trong các thử nghiệm đánh giá hiệu suất phân tích tài chính, các mô hình thương mại đóng kín đắt đỏ thường được kỳ vọng sẽ vượt trội nhờ quy mô tham số lớn. Tuy nhiên, nghiên cứu thực tế từ Bridgewater chỉ ra rằng một mô hình mã nguồn mở được tinh chỉnh sâu (fine-tuned open-weight model) lại mang lại kết quả vượt trội hơn hẳn các đối thủ thương mại lớn nhất hiện nay. Đáng chú ý, giải pháp tinh chỉnh này hoạt động hiệu quả hơn trong khi chỉ tiêu tốn một phần nhỏ chi phí vận hành so với việc gọi API từ các hệ thống lớn.

Vì sao đáng chú ý

Kết quả này giáng một đòn mạnh vào giả định cho rằng các mô hình AI tổng quát hóa cao như GPT hay Claude có thể dễ dàng giải quyết các bài toán chuyên ngành hẹp mà không cần tinh chỉnh. Đối với giới công nghệ và tài chính Việt Nam, xu hướng này khẳng định tầm quan trọng của việc tự chủ công nghệ bằng cách tối ưu hóa các mô hình mã nguồn mở trên tập dữ liệu nội bộ bảo mật, thay vì phụ thuộc hoàn toàn vào các dịch vụ đám mây của nước ngoài vừa đắt đỏ vừa có nguy cơ rò rỉ thông tin nhạy cảm.