AI tools-ai 13 thg 6, 2026 5 phút đọc

Robot biết 'đọc vị' cảm xúc: Đột phá dùng mô hình VLM giúp robot hiểu cử chỉ và bối cảnh giao tiếp của con người 🤖🧠

Nghiên cứu mới từ Đại học Melbourne (Australia) công bố trên tạp chí IEEE Robotics and Automation Letters cho thấy việc huấn luyện mô hình thị giác - ngôn ngữ (VLM) giúp robot cộng tác (cobot) không chỉ phân tích nét mặt mà còn đọc vị bối cảnh cử chỉ của con người để đưa ra phản hồi thích ứng phù hợp.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc spectrum.ieee.org

Khi các robot ngày càng tiến bộ vượt bậc về sự khéo léo và khả năng vận động vật lý, viễn cảnh con người làm việc sát cánh cùng chúng trong các nhà máy, văn phòng hay hộ gia đình đang trở nên cận kề hơn bao giờ hết. Nhưng để sự hợp tác này thực sự hiệu quả và an toàn, robot cần phải nâng cao khả năng nhận thức cảm xúc của con người.

Một nghiên cứu đột phá mới đây được công bố trên tạp chí uy tín IEEE Robotics and Automation Letters đã mở ra hướng đi mới: Huấn luyện các robot cộng tác (collaborative robots - cobots) "đọc vị" cảm xúc con người bằng cách kết hợp biểu cảm khuôn mặt với các yếu tố bối cảnh xung quanh thông qua mô hình thị giác - ngôn ngữ (Vision-Language Model - VLM).

Nghiên cứu do nhà khoa học Seung Chan Hong dẫn đầu khi thực hiện luận văn cử nhân tại Đại học Melbourne (Australia). Ông chia sẻ: > "Chúng ta nghe nói rất nhiều về việc robot trở nên khéo léo hơn, di chuyển tốt hơn. Nhưng đó chỉ là một mảnh ghép. Chúng ta cũng cần phải đổi mới cách chúng thực sự tương tác với con người."

---

1. Huấn luyện VLM hiểu bối cảnh thay vì chỉ quét khuôn mặt

Các hệ thống AI truyền thống thường nhận diện cảm xúc bằng cách phân tích tĩnh nét mặt hoặc theo dõi chuyển động của các điểm trên cơ thể. Tuy nhiên, cách tiếp cận này bỏ qua rất nhiều bối cảnh thực tế. Chẳng hạn, một người nhíu mày có thể chỉ đơn giản là đang tập trung cao độ vào công việc chứ không phải đang giận dữ. Các hành vi đi kèm như gõ ngón tay xuống bàn, mím môi hay tư thế đứng mới là chìa khóa mở ra cảm xúc thực tế.

Để giải quyết vấn đề này, nhóm nghiên cứu đã sử dụng mô hình thị giác - ngôn ngữ (VLM) — tương tự như các mô hình ngôn ngữ lớn (LLM) đằng sau ChatGPT nhưng có khả năng xử lý hình ảnh và video trực quan:

- Cách thu thập dữ liệu: Các tình nguyện viên xem video quay cảnh robot bàn giao đồ vật cho con người (với các mức độ thành công và thất bại khác nhau) và mô tả chi tiết cảm xúc của con người trong video dựa trên toàn bộ bối cảnh xung quanh. - Kết quả đối chiếu vượt trội: Khi so sánh VLM với hệ thống AI phân tích khuôn mặt truyền thống: - Hệ thống AI truyền thống đạt điểm tương đồng 0.77 (trên thang điểm từ 0 đến 1, với 1 là khớp hoàn hảo với nhận định của con người). - Mô hình VLM đạt điểm số ấn tượng 0.86.

Hong giải thích: "Mô hình VLM có thể đồng điệu với những gì người quan sát thấy tốt hơn rất nhiều, bởi vì nó không chỉ nhìn vào khuôn mặt của người đó trong một khoảnh khắc ngắn ngủi, mà nhìn vào toàn bộ bối cảnh — vị trí của người đó, họ đang làm gì và họ đang tương tác với robot như thế nào."

---

2. Thử nghiệm thực tế: Khi robot biết xin lỗi "thấu cảm"

Trong thí nghiệm thứ hai, nhóm nghiên cứu đã yêu cầu 40 tình nguyện viên tương tác trực tiếp với một robot tích hợp VLM. Họ cố tình lập trình cho robot mắc lỗi trong quá trình thực hiện nhiệm vụ vật lý. Sau đó, robot sẽ đưa ra một trong hai phản hồi: 1. Một lời xin lỗi thích ứng cảm xúc (được cá nhân hóa dựa trên biểu cảm và bối cảnh tức giận/thất vọng của con người do VLM ghi nhận). 2. Một lời xin lỗi được soạn sẵn theo kịch bản tĩnh (boilerplate apology).

Kết quả là 31 trên 40 người tham gia ưu tiên lựa chọn lời xin lỗi thích ứng cảm xúc. Họ cảm thấy robot "hiểu chuyện" và thấu cảm hơn.

---

3. Giới hạn phũ phàng: Hiệu suất vật lý vẫn là cốt lõi

Mặc dù lời xin lỗi thấu cảm mang lại trải nghiệm tâm lý tốt hơn, khảo sát của nghiên cứu cũng chỉ ra một sự thật phũ phàng: Khả năng thích ứng cảm xúc không thể bù đắp cho sự yếu kém về mặt chức năng.

Khi robot liên tục thất bại trong các nhiệm vụ vật lý, niềm tin của người dùng đối với robot sẽ sụt giảm nghiêm trọng, bất kể robot có biết xin lỗi khéo léo đến đâu. Lời xin lỗi thấu cảm chỉ đóng vai trò như một "chất bôi trơn xã hội" (social lubricant) tạm thời, chứ không thể khôi phục lại niềm tin đã mất do lỗi vận hành vật lý gây ra.

Nghiên cứu này là một bước tiến quan trọng chứng minh tiềm năng to lớn của các mô hình đa phương thức (multimodal models) trong việc thu hẹp khoảng cách giao tiếp giữa người và máy, mở đường cho những thế hệ robot cộng tác thông minh và thấu hiểu hơn trong tương lai.

Nguồn tham khảo: IEEE Robotics and Automation Letters (DOI: 10.1109/LRA.2024.11523497)