AI 27 thg 5, 2026 1 phút đọc

Apple đề xuất TC-JEPA: Dùng văn bản giúp AI hiểu hình ảnh chính xác hơn

Apple giới thiệu TC-JEPA, một phương pháp tự giám sát mới sử dụng chú thích văn bản để định hướng và giảm độ nhiễu khi AI học nhận diện hình ảnh.

Tier 1 · nguồn 99% độ tin cậy Đã được duyệt

Apple Computer Vision Research Multimodal

Nguồn gốc machinelearning.apple.com

Nhóm nghiên cứu trí tuệ nhân tạo của Apple vừa công bố phương pháp Text-Conditional JEPA (TC-JEPA). Đây là cải tiến kỹ thuật nhằm nâng cao khả năng tự học trực quan của các mô hình AI bằng cách kết hợp thêm thông tin ngữ nghĩa từ văn bản.

Diễn biến

Kiến trúc I-JEPA (Image-based Joint-Embedding Predictive Architecture) trước đây thường gặp khó khăn do sự mơ hồ về mặt thị giác tại các vùng ảnh bị che khuất. TC-JEPA giải quyết vấn đề này bằng cách sử dụng chính các đoạn chú thích hình ảnh (image captions) làm điều kiện định hướng.

Cụ thể, hệ thống áp dụng cơ chế chú ý chéo thưa thớt (sparse cross-attention) để điều chế các đặc trưng ảnh được dự đoán. Việc này giúp mô hình giảm thiểu sự không chắc chắn và nắm bắt được đầy đủ ý nghĩa ngữ nghĩa của bức ảnh thay vì chỉ dự đoán pixel một cách máy móc.

Vì sao đáng chú ý

Nghiên cứu của Apple khẳng định xu hướng tích hợp đa phương thức (multimodal) là chìa khóa để AI hiểu thế giới thực tốt hơn. Đối với giới nghiên cứu AI tại Việt Nam, TC-JEPA cung cấp một hướng đi hiệu quả để huấn luyện mô hình thị giác máy chất lượng cao mà không cần lượng dữ liệu gán nhãn thủ công khổng lồ, giúp tối ưu hóa tài nguyên tính toán.