EvolutionaryScale — startup AI được sáng lập bởi đội ngũ cựu chuyên gia Meta AI (những người đứng sau dòng mô hình ESM-1 và ESM-2 nổi tiếng) — vừa chính thức công bố ESMC, một mô hình ngôn ngữ protein mã nguồn mở mạnh mẽ. Đây là một phần của hệ sinh thái ESM3, hứa hẹn mở ra kỷ nguyên mới cho "AI sinh học" (AI Biology), nơi các nhà khoa học có thể tương tác với các phân tử sự sống như cách chúng ta tương tác với văn bản.
Diễn biến
Theo thông tin từ đội ngũ phát triển, ESMC được huấn luyện dựa trên một tập dữ liệu khổng lồ gồm 2,8 tỷ chuỗi protein, bao quát sự đa dạng sinh học của toàn bộ sự sống trên Trái Đất từ trước đến nay. Khác với các mô hình ngôn ngữ văn bản thông thường chỉ học từ dữ liệu số, ESMC học cách "hiểu" cấu trúc phân phối của các lựa chọn tiến hóa trong tự nhiên qua hàng tỷ năm. Việc tiếp cận lượng dữ liệu khổng lồ này cho phép mô hình nắm bắt được các quy luật vật lý và sinh học phức tạp đằng sau cách thức protein hình thành, cuộn gấp và hoạt động trong môi trường tế bào.
Đặc biệt, ESMC là phiên bản tinh gọn nhưng vẫn giữ được sức mạnh đáng kinh ngạc từ mô hình flagship ESM3. Nó tập trung vào khả năng dự đoán cấu trúc và chức năng protein với hiệu năng vượt trội so với các thế hệ trước, đồng thời tối ưu hóa cho cộng đồng nghiên cứu mở có thể triển khai trên các hạ tầng phần cứng thông dụng hơn.
Vì sao đáng chú ý
Đây là bước tiến quan trọng trong kỷ nguyên "AI for Science", chuyển dịch từ việc quan sát sang việc kiến tạo chủ động. Với các nhà nghiên cứu và startup biotech tại Việt Nam, những mô hình như ESMC cung cấp nền tảng để thiết kế protein mới (de novo design) hoặc dự đoán chức năng sinh học với độ chính xác cực cao.
Việc công khai mô hình này (phiên bản ESMC 300M tham số) không chỉ thúc đẩy cộng đồng nghiên cứu mở trong việc ứng dụng AI vào y sinh và phát triển thuốc, mà còn mở rộng sang các lĩnh vực như sản xuất enzyme công nghiệp xanh hay xử lý ô nhiễm môi trường bằng vi sinh vật. Thay vì phải mất hàng năm trời trong phòng thí nghiệm để thử sai, các nhà khoa học giờ đây có thể "mô phỏng" các giả thuyết trên máy tính với độ tin cậy cao, rút ngắn thời gian đưa các phát kiến y học từ phòng lab đến với bệnh nhân.