AI tools-ai 21 thg 6, 2026 8 phút đọc

🤖 Xây Dựng Hệ Thống AI Tác Tử Đáng Tin Cậy: Bài Học Từ Nền Tảng PRINCE Của Bayer 💊

Nền tảng PRINCE của Bayer AG, phát triển cùng Thoughtworks, là một hệ thống AI tác tử tiên tiến sử dụng kỹ thuật Sinh tạo Tăng cường Truy xuất (RAG) và Chuyển văn bản thành SQL để tích hợp dữ liệu dược phẩm phi cấu trúc, với trọng tâm vào Kỹ thuật Ngữ cảnh và Kỹ thuật Giàn giáo Vận hành nhằm đảm bảo độ tin cậy trong phát triển thuốc.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc martinfowler.com

Xây Dựng Hệ Thống AI Tác Tử Đáng Tin Cậy: Bài Học Từ Nền Tảng PRINCE Của Bayer 🧬

Nguồn: Martin Fowler / Thoughtworks / Bayer AG Đăng tải trên: Blog của Martin Fowler (Ngày 16 tháng 6, 2026)

---

Tổng Quan

Chào mừng quý vị độc giả của Kalera News! Hôm nay, chúng ta sẽ cùng khám phá Trung tâm Thông tin Tiền lâm sàng (PRINCE), một nền tảng điện toán đám mây đột phá được phát triển bởi Bayer AG hợp tác cùng Thoughtworks. PRINCE ra đời để giải quyết những thách thức cố hữu trong ngành dược phẩm, đặc biệt là quá trình phát triển thuốc. Nền tảng này tích hợp hàng thập kỷ báo cáo nghiên cứu an toàn phi cấu trúc (dạng PDF) và siêu dữ liệu có cấu trúc thông qua AI tác tử sử dụng Sinh tạo Tăng cường Truy xuất (RAG) và Chuyển văn bản thành SQL (Text-to-SQL). 🧠✨

Thiết kế của hệ thống xoay quanh hai mô hình kiến trúc cốt lõi: 1. Kỹ thuật Ngữ cảnh (Context Engineering): Định hình, hạn chế và định tuyến thông tin một cách có chọn lọc giữa các tác tử chuyên biệt, nhằm ngăn ngừa “nhiễu ngữ cảnh” và cải thiện khả năng điều hướng của hệ thống. 2. Kỹ thuật Giàn giáo Vận hành (Harness Engineering): Xây dựng “khung giàn giáo” vận hành vững chắc xung quanh các mô hình AI – bao gồm điều phối, lưu trữ trạng thái bền vững, cơ chế thử lại, phương án dự phòng, xác thực, khả năng quan sát và cổng xem xét của con người – để đảm bảo độ tin cậy tuyệt đối trong môi trường được kiểm soát chặt chẽ.

---

Các Mô Hình Cốt Lõi: Ngữ Cảnh và Giàn Giáo Vận Hành

Những quyết định kỹ thuật đằng sau PRINCE được phân loại rõ ràng thành hai lĩnh vực:

* Kỹ thuật Ngữ cảnh: Chi tiết hóa thông tin mà mỗi mô hình nhận được, thông tin bị từ chối và cách ngữ cảnh di chuyển giữa các bước chuyên biệt (như nghiên cứu, phản hồi và viết). Bằng cách hạn chế ngữ cảnh, các nhà phát triển giảm chi phí token, ngăn chặn “ảo giác” (hallucinations) và đảm bảo khả năng điều hướng cao cho mô hình. Điều này là tối quan trọng để giữ cho AI luôn đi đúng hướng! 🎯 * Kỹ thuật Giàn giáo Vận hành: Bao gồm toàn bộ “khung giàn giáo” được xây dựng xung quanh các mô hình: điều phối, hộp cát công cụ (tool sandboxing), lưu trữ trạng thái bền vững, chính sách thử lại, logic dự phòng, quy tắc xác thực, vòng lặp phản hồi (reflection loops), khả năng quan sát và các cổng xem xét của con người. Khung giàn giáo này là lá chắn, đảm bảo an toàn và độ tin cậy trong các lĩnh vực khoa học được quản lý nghiêm ngặt. 🛡️

---

Thách Thức & Sự Phát Triển Của Nền Tảng PRINCE

Mê Cung Dữ Liệu Tiền Lâm Sàng labyrinth

Quá trình khám phá thuốc tiền lâm sàng tại Bayer đối mặt với một khối lượng dữ liệu khổng lồ, phân mảnh và phức tạp: * Kho Dữ Liệu Riêng Biệt: Các báo cáo nghiên cứu an toàn dạng PDF phi cấu trúc nằm rải rác trên nhiều hệ thống khác nhau. * Tìm Kiếm Hạn Chế: Các phương pháp tìm kiếm truyền thống (từ khóa hoặc Boolean) thất bại khi xử lý các thuật ngữ sinh học/khoa học phức tạp. * Phân Tích Thủ Công: Việc trích xuất và đối chiếu thông tin từ hàng thập kỷ báo cáo PDF lịch sử (thường là tài liệu được quét) cực kỳ chậm chạp và tốn nhiều tài nguyên. 📚🐌

Ba Giai Đoạn Phát Triển Của PRINCE

Nền tảng PRINCE đã trải qua ba giai đoạn tiến hóa quan trọng: 1. Tìm kiếm (Tập trung vào Siêu dữ liệu): Một cổng thống nhất giúp tổng hợp các kho dữ liệu tiền lâm sàng, có thể tìm kiếm thông qua siêu dữ liệu có cấu trúc. 2. Hỏi (Tập trung vào RAG): Hệ thống hỏi đáp bằng ngôn ngữ tự nhiên, được xây dựng dựa trên dữ liệu phi cấu trúc, bao gồm cả các file PDF lịch sử đã được xử lý bằng công nghệ nhận dạng ký tự quang học (OCR). 3. Thực hiện (Tập trung vào Tác tử): Một trợ lý nghiên cứu chủ động, có khả năng thực hiện các quy trình làm việc đa bước phức tạp, điều phối các tác vụ đa tác tử, thực hiện truy vấn Chuyển văn bản thành SQL và soạn thảo các tài liệu quy định. 🧪🤖

---

Kiến Trúc Hệ Thống và Công Nghệ Sử Dụng

PRINCE được xây dựng như một giao diện người dùng đàm thoại tương tác, được hỗ trợ bởi một hệ thống phụ trợ đa tác tử mạnh mẽ và bền bỉ.

* Giao Diện Người Dùng (Frontend): Giao diện người dùng đàm thoại dựa trên React. * Bộ Điều Phối (Orchestration Engine): Công cụ quy trình làm việc dựa trên LangGraph, được cung cấp qua FastAPI. * Hệ Sinh Thái Dữ Liệu & Cơ Sở Dữ Liệu: * Amazon OpenSearch Service: Lưu trữ các biểu diễn vector của báo cáo nghiên cứu (cơ sở tri thức cốt lõi). * Amazon Athena: Dịch vụ truy vấn phi máy chủ để truy cập siêu dữ liệu có cấu trúc đã được tuyển chọn. * PostgreSQL: Lưu trữ trạng thái thực thi tác tử sau mỗi bước logic bằng một bộ kiểm điểm LangGraph (cho phép lưu trữ và tiếp tục trạng thái). * DynamoDB: Quản lý trạng thái cấp ứng dụng rộng hơn (nhật ký, phiên người dùng, trích dẫn). * Lớp Mô Hình: Các mô hình được lưu trữ từ OpenAI, Anthropic, Google và các nhà cung cấp mã nguồn mở, được truy cập thông qua một cổng nội bộ thống nhất. * Khả năng Quan sát (Observability): CloudWatch cho các chỉ số sức khỏe hệ thống; Langfuse là công cụ quan sát chính để theo dõi lưu lượng truy cập sản xuất, gỡ lỗi các vòng lặp tác tử, quản lý tập dữ liệu đánh giá và tính toán các chỉ số RAGAS. 📊👁️

---

Quy Trình Agentic RAG & Đa Tác Tử

PRINCE sử dụng kiến trúc đa tác tử để chia nhỏ các truy vấn phức tạp thành các bước chuyên biệt. Đây là một quy trình tinh vi:

1. Làm rõ Ý định Người dùng: Bước “thất bại nhanh” này giải quyết sự mơ hồ ngay từ đầu để ngăn chặn việc thử-sai tốn kém trên các tập dữ liệu khổng lồ. Nó chủ động đặt câu hỏi làm rõ để xác định miền (ví dụ: độc chất học so với dược lý học) và đề xuất các công cụ cụ thể. 2. Suy nghĩ & Lập kế hoạch (Phản hồi Quy trình): Lấy cảm hứng từ tính năng “Thinking” của Anthropic, bước này cung cấp một không gian lập luận riêng biệt, nơi mô hình điều phối phác thảo các bước cần thiết để trả lời câu hỏi. 3. Tác tử Nghiên cứu (Thực thi): Thực hiện các công cụ chuyên biệt: * Công cụ RAG: Truy xuất ngữ cảnh ngữ nghĩa từ các file PDF phi cấu trúc qua OpenSearch. * Công cụ Chuyển văn bản thành SQL: Tự động tạo và chạy các truy vấn SQL chống lại Amazon Athena để truy xuất siêu dữ liệu dạng bảng. 4. Tác tử Phản hồi (Phản hồi Dữ liệu): Kiểm tra dữ liệu đã truy xuất. Nó đánh giá xem các dữ kiện có đủ để xây dựng một phản hồi hoàn chỉnh, chính xác về mặt khoa học hay không. Nếu có khoảng trống dữ liệu, nó sẽ quay lại Tác tử Nghiên cứu với các tham số tinh chỉnh. 5. Tác tử Viết (Phản hồi Bản nháp): Tạo bản nháp cuối cùng của báo cáo, đảm bảo rằng mọi tuyên bố đều được xây dựng nghiêm ngặt dựa trên các dữ kiện đã truy xuất. 6. Trích dẫn & Nền tảng: Một quy trình hậu xử lý chuyên biệt ánh xạ các tuyên bố trở lại các trang PDF vật lý hoặc các hàng cơ sở dữ liệu, đảm bảo khả năng truy vết và độ tin cậy 100%. ✅📑

PRINCE không chỉ là một nền tảng, mà còn là một minh chứng cho cách AI tác tử có thể cách mạng hóa các ngành công nghiệp truyền thống, mang lại độ tin cậy và hiệu quả chưa từng có! 🚀