Nhóm nghiên cứu trí tuệ nhân tạo của Apple vừa công bố phương pháp Text-Conditional JEPA (TC-JEPA). Đây là cải tiến kỹ thuật nhằm nâng cao khả năng tự học trực quan của các mô hình AI bằng cách kết hợp thêm thông tin ngữ nghĩa từ văn bản.
Diễn biến
Kiến trúc I-JEPA (Image-based Joint-Embedding Predictive Architecture) trước đây thường gặp khó khăn do sự mơ hồ về mặt thị giác tại các vùng ảnh bị che khuất. TC-JEPA giải quyết vấn đề này bằng cách sử dụng chính các đoạn chú thích hình ảnh (image captions) làm điều kiện định hướng.
Cụ thể, hệ thống áp dụng cơ chế chú ý chéo thưa thớt (sparse cross-attention) để điều chế các đặc trưng ảnh được dự đoán. Việc này giúp mô hình giảm thiểu sự không chắc chắn và nắm bắt được đầy đủ ý nghĩa ngữ nghĩa của bức ảnh thay vì chỉ dự đoán pixel một cách máy móc.
Vì sao đáng chú ý
Nghiên cứu của Apple khẳng định xu hướng tích hợp đa phương thức (multimodal) là chìa khóa để AI hiểu thế giới thực tốt hơn. Đối với giới nghiên cứu AI tại Việt Nam, TC-JEPA cung cấp một hướng đi hiệu quả để huấn luyện mô hình thị giác máy chất lượng cao mà không cần lượng dữ liệu gán nhãn thủ công khổng lồ, giúp tối ưu hóa tài nguyên tính toán.