Trong vài thập kỷ tới, hàng tỷ robot tự hành, được trang bị AI, sẽ làm việc cùng con người trong các nhà máy, thực hiện các công việc lặp đi lặp lại trong nhà kho, chăm sóc người cao tuổi, hỗ trợ ở các khu vực thảm họa nguy hiểm, giao hàng và thức ăn đến tận cửa nhà chúng ta, và cuối cùng là giúp đỡ trong chính ngôi nhà của chúng ta. Một số sẽ trông giống chúng ta, và nhiều chiếc thì không. Điều chắc chắn là bất kể hình dạng nào, robot đều sẽ phụ thuộc rất nhiều vào AI để mang lại giá trị thực tế.
Năm 2025, tổng đầu tư vào các công ty robot đạt mức kỷ lục 40,7 tỷ USD, chiếm 9% tổng vốn đầu tư mạo hiểm. Vậy câu hỏi trị giá hàng tỷ đô la là: Cần điều gì để robot được hỗ trợ bởi AI bắt đầu tạo ra tác động kinh tế nghiêm trọng? Nhiều công ty robot và AI hiện nay đang đưa ra những tuyên bố táo bạo, chẳng hạn như robot hình người sẽ sớm xuất hiện trong nhà chúng ta, nhưng vẫn còn một khoảng cách lớn giữa lời hứa và thực tế.
Lời hứa về những robot sống và làm việc cùng chúng ta đã là chất liệu của khoa học viễn tưởng từ rất lâu. Và trong khi nhiều lập trình viên đã cố gắng biến lời hứa đó thành hiện thực, thế giới vật lý quá phức tạp để các chương trình máy tính truyền thống có thể xử lý sự phức tạp vô tận mà nó mang lại. Nhờ AI, robot không còn được lập trình—thay vào đó, chúng học cách hoạt động trong thế giới thực. Với đủ thực hành, chúng có thể học cách nhận thức và hiểu thế giới xung quanh, suy luận về thế giới đó, và sử dụng lý lẽ cùng sự hiểu biết đó để thực hiện các nhiệm vụ hữu ích, đáng tin cậy và an toàn.
Hai chúng tôi đã làm việc ở tuyến đầu của AI và robot trong thập kỷ qua, với tư cách là Giáo sư Robot tại Đại học bang Oregon và Đồng sáng lập của Agility Robotics, và là cựu CEO của dự án "moonshot" Everyday Robots tại Google X. Kinh nghiệm triển khai robot được hỗ trợ bởi AI trong môi trường thực tế đã cho chúng tôi một góc nhìn về nơi AI có thể được sử dụng với lợi ích lớn trong các hệ thống robot phức tạp trong tương lai gần và nơi chúng ta vẫn đang ở ranh giới của khoa học viễn tưởng. Chúng tôi tin rằng AI sẽ cho phép một điểm bùng phát trong các tiến bộ robot, nhưng điều đó sẽ thông qua ứng dụng được thiết kế tốt của các hệ thống công cụ AI phối hợp, chứ không phải một bước đột phá duy nhất kiểu ChatGPT.
Khi sự phấn khích xung quanh AI cũng lớn bằng sự không chắc chắn về những gì sẽ khả thi, đây là năm sự thật khó chấp nhận sẽ định nghĩa AI trong robot học.
1. Khoảng Cách Từ YouTube Đến Thực Tế Là Có Thật 🎬❌
Trong nhiều năm, chúng ta đã thấy các video trên YouTube với robot hình người thực hiện những động tác đáng kinh ngạc từ sàn nhảy đến đường chạy vượt chướng ngại vật. Lời khuyên nội bộ trong ngành robot là "đừng bao giờ tin video robot trên YouTube." Khoảng cách giữa robot thật sự có thể làm việc trong môi trường con người không có cấu trúc và các màn trình diễn robot được kịch bản và chỉnh sửa cẩn thận vẫn còn rất lớn. Màn trình diễn gần đây nhất thu hút nhiều sự chú ý là một buổi biểu diễn võ thuật với các robot hình người Unitree biểu diễn cùng trẻ em tại Gala Lễ hội Mùa xuân Trung Quốc 2026. Mặc dù ấn tượng, điều này nằm trong một chuỗi dài các màn trình diễn robot được kịch bản chặt chẽ, nơi mọi thứ đã được biên đạo và lên kế hoạch cẩn thận.
Việc nhìn thấy những loại demo này đặt ra câu hỏi về tình hình thực tế của robot học. Nếu robot có thể thực hiện các động tác kung fu, lật người và nhảy múa, tại sao chúng vẫn chưa xuất hiện trên sàn nhà máy? Và tại sao chúng không thể rửa bát trong nhà tôi sau bữa tối? Câu trả lời đơn giản là: Làm cho robot được hỗ trợ bởi AI có khả năng thực hiện các nhiệm vụ tổng quát trong các môi trường con người đa dạng vẫn thực sự rất khó. Mặc dù những kỳ tích công nghệ ấn tượng như tại Lễ hội Mùa xuân có thể khiến chúng ta cảm thấy rất gần, việc sử dụng AI trong các demo này chỉ dành cho điều khiển động cơ cấp thấp (để giữ robot không bị ngã) và do đó chỉ là một phần nhỏ của giải pháp để robot trở nên đa năng trong các không gian thực, không có cấu trúc nơi con người chúng ta sinh sống và làm việc.
2. Dữ Liệu Là Thách Thức Chưa Được Giải Quyết 📊🚫
Các Mô hình Ngôn ngữ Lớn (LLMs) như ChatGPT của OpenAI và Claude của Anthropic ban đầu được huấn luyện trên một cơ sở dữ liệu văn bản quy mô internet. Thế giới thức dậy một ngày cuối năm 2022 với ChatGPT thể hiện rằng máy tính AI đột nhiên có thể "nói chuyện" với chúng ta bằng văn xuôi hoặc thơ ca và về dường như bất kỳ chủ đề nào. LLMs đã cho thấy khả năng tổng quát hóa tốt và hiện có thể nhận đầu vào đa phương thức (văn bản, hình ảnh, video) và tạo ra đầu ra đa phương thức. Quan trọng là, kho dữ liệu huấn luyện vừa khổng lồ vừa do con người tạo ra, đây là những đặc điểm tạo nên tiêu chuẩn vàng cho việc huấn luyện AI.
Trao cho AI một cơ thể (dưới dạng robot), để nó có thể tương tác với con người trong thế giới vật lý, tiếp tục là một vấn đề rất khó và chưa được giải quyết rộng rãi. Các mô hình AI cho robot đa năng phải đồng thời thỏa mãn nhiều hạn chế vật lý, hình học và thời gian, thường mâu thuẫn nhau, trong khi hoạt động trong môi trường động, không có cấu trúc. Để tổng quát hóa, các mô hình robot cần được huấn luyện trên dữ liệu thu thập trong một không gian cấu hình đa chiều, nơi "chiều" đại diện cho văn bản, điều kiện ánh sáng, bậc tự do, giới hạn khớp, vận tốc, lực và giới hạn an toàn, chỉ để kể tên một vài yếu tố. Quan trọng là, đây phải là dữ liệu tốt—nó phải chứa nhiều ví dụ từ vô số cấu hình có thể trong thế giới vật lý.
Vì có rất ít nguồn dữ liệu như vậy hiện có, các cách tiếp cận như điều khiển từ xa, phân tích video, ghi lại chuyển động của con người và tự khám phá trong mô phỏng cũng như trong thế giới thực đều được xem là những cách quan trọng để thu thập dữ liệu. Đây là một nhiệm vụ Hercules. Ví dụ, tại Everyday Robots ở Google X, chúng tôi đã chạy 240 triệu trường hợp robot trong trình mô phỏng của mình trong suốt năm 2022 để thu thập dữ liệu huấn luyện, chủ yếu để huấn luyện một mô hình phân loại rác. Lượng dữ liệu tương tự sẽ cần thiết cho mỗi kỹ năng để đạt đến mức độ khả năng tương tự, nhưng chưa đạt đến cấp độ con người.
3. Sẽ Không Có Một AI Robot Đơn Lẻ 🧠🌐
Chúng ta còn rất xa mới đến thời điểm một mô hình AI duy nhất có thể cho phép robot đa năng sống và làm việc cùng chúng ta.
Robot đa năng có thể có bánh xe hoặc chân. Chúng có thể có một, hai, ba hoặc nhiều cánh tay. Một số có cánh quạt và có thể bay, trong khi những chiếc khác có thể được thiết kế để hoạt động dưới nước. Một số sẽ lái xe trên những con đường đông đúc. Thế giới vật lý đa dạng và phức tạp vô cùng. Và sau đó là tất cả con người và các loài động vật khác sẽ bao quanh robot. Làm thế nào bạn có thể huấn luyện một mô hình để vận hành robot một cách an toàn và đáng tin cậy trong tất cả các môi trường này? Câu trả lời đơn giản là: Bạn không thể. Ít nhất là trong một thời gian khá dài.
Chúng tôi tin rằng kiến trúc AI chiến thắng dẫn đến những bước đột phá lớn tiếp theo trong robot đa năng sẽ là "AI tác tử" cho robot, là các mô hình điều phối cấp cao có khả năng suy luận, lập kế hoạch, sử dụng công cụ và học hỏi từ kết quả để thực hiện các nhiệm vụ phức tạp với sự giám sát hạn chế. Các mô hình tác tử, cấp cao chạy trên robot sẽ gọi một hệ thống các mô hình chuyên biệt cho các loại nhiệm vụ khác nhau. Chúng ta có thể sẽ sớm thấy nhiều robot hợp tác và phối hợp với nhau thông qua các mô hình AI tác tử trên bo mạch của chúng.
Các công cụ AI đang mở khóa những khả năng mới và mạnh mẽ trong robot học, điều này đến lượt nó sẽ cho phép các giải pháp mới và thị trường mới. Thật đáng khích lệ khi thấy những mô hình mới này được cung cấp rộng rãi, một số thậm chí là giải pháp mã nguồn mở. Sự sẵn có này tương tự như những gì đã xảy ra với internet: Tiến bộ thực sự xảy ra khi nó trở nên phổ biến. Chúng tôi dự đoán một sự dân chủ hóa không thể tránh khỏi của các hành vi phức tạp trong robot học với khả năng tiếp cận rộng rãi các công cụ và công nghệ AI này.
4. Phần Cứng Vẫn Cực Kỳ Khó Khăn 🛠️🚧
Robot là những hệ thống phức tạp với nhiều bộ phận đều cần phối hợp với độ chính xác cao. Để một robot hữu ích và an toàn, mọi bộ phận của nó phải được phối hợp, từ hệ thống cảm biến đến máy tính điều khiển nó, cho đến từng bộ truyền động riêng lẻ.
Bộ truyền động—tức là động cơ và bánh răng—là một ví dụ điển hình về một bộ phận quan trọng của robot mà những gì đưa chúng ta đến đây sẽ không đưa chúng ta đến đó. Các bộ truyền động được sử dụng rộng rãi bởi hầu hết robot công nghiệp sẽ không hoạt động cho robot vận hành trong môi trường con người. Nếu những robot này vô tình va chạm với chướng ngại vật, cú va chạm mạnh, lực lớn và mọi thứ dễ vỡ. Con người không di chuyển theo cách này. Chúng ta linh hoạt hơn nhiều trong cách chúng ta tương tác với thế giới, và chúng ta liên tục tiếp xúc với môi trường và sử dụng sự tiếp xúc đó để giúp chúng ta hoàn thành công việc.
Hãy xem xét thách thức khi đưa chìa khóa vào ổ khóa: Con người thường không làm điều này bằng cách căn chỉnh chìa khóa hoàn hảo với lỗ khóa. Thay vào đó, chúng ta chỉ cần cảm nhận cạnh của lỗ khóa và lay nhẹ chìa khóa vào. Robot cần có khả năng hoạt động theo những cách mới để đạt được khả năng tương đương bằng cách sử dụng một loại bộ truyền động mới nhạy cảm với lực và có khả năng tương tác linh hoạt với môi trường. Mặc dù những loại bộ truyền động này đã tồn tại, nhưng chúng vẫn chưa được cung cấp rộng rãi ở quy mô lớn cho các hệ thống robot được thiết kế để hoạt động xung quanh con người.
5. Giá Trị Thực Đến Từ Các Nhiệm Vụ "Dễ" 👶💼
Có sự khác biệt lớn giữa các nhiệm vụ trông ấn tượng và các nhiệm vụ thực tế mang lại giá trị. Robot học là một ví dụ hoàn hảo về nghịch lý Moravec, trong đó nói rằng các công việc khó với con người thì dễ với máy tính (như nhân hai số lớn), còn các công việc dễ với con người (như cử động của trẻ nhỏ) thì cực kỳ khó với máy tính và robot.
Phục vụ khách hàng là một bài kiểm tra thực tế không khoan nhượng, bởi vì khách hàng chỉ quan tâm đến việc giải quyết các vấn đề thực sự của họ. Nếu chúng ta triển khai các giải pháp robot dựa trên AI, chúng phải vượt trội hơn so với cách làm hiện tại đồng thời thể hiện các chỉ số hiệu suất đáng tin cậy và an toàn. Công việc ban đầu của Agility Robotics để triển khai robot hình người Digit tại địa điểm của khách hàng đã dẫn đến nhận thức rằng trở ngại đầu tiên của chúng tôi là an toàn: Robot giữ thăng bằng và thao tác vật thể trong không gian con người mang lại những loại rủi ro mới cho nơi làm việc. Trong các lần triển khai robot hình người đầu tiên, các rào cản vật lý là cần thiết, và Agility đã khởi động một nỗ lực kỹ thuật kéo dài nhiều năm để giải quyết thách thức an toàn, chạm đến gần như mọi khía cạnh của thiết kế robot và phụ thuộc rất nhiều vào các cách tiếp cận dựa trên AI mới để phát hiện con người và kiểm soát hành vi.
Everyday Robots tại Google đã triển khai robot vào năm 2019 hoạt động tự chủ trong các tòa nhà văn phòng, thực hiện các công việc như dọn bàn quán cà phê và phân loại rác. Chúng tôi nhanh chóng học được thế giới thực "lộn xộn" và khó khăn như thế nào đối với robot. Kinh nghiệm này đã định hình kiến trúc và việc triển khai các hệ thống AI của chúng tôi đồng thời thu thập dữ liệu thế giới thực có thể được kết hợp với dữ liệu mô phỏng để huấn luyện và cải thiện các mô hình.
Sự tập trung vào việc tạo ra một sản phẩm để đáp ứng nhu cầu cụ thể của khách hàng và triển khai robot trong môi trường thực tế là cách duy nhất để định hình cấu trúc của các công cụ và cơ sở hạ tầng AI cho tiện ích ngắn hạn trên con đường hướng tới khả năng và tính tổng quát rộng hơn trong dài hạn. Sẽ không có khoảnh khắc "aha", không có thuật toán "viên đạn bạc", và không có lượng dữ liệu đủ để tạo ra một robot đa năng mà không có kinh nghiệm thực tế sâu rộng.
Robot AI Đang Đến, Từng Bước Một 🚀🚶♀️
Khi chúng ta nhìn về tương lai, không còn nghi ngờ gì nữa rằng thế giới đang đưa AI vào thế giới vật lý thông qua robot. Chúng ta đang ở giai đoạn đầu của một "bùng nổ kỷ Cambri" của những cỗ máy thông minh, hữu ích. Chúng tôi tin rằng AI không phải là một công cụ duy nhất, mà là một vùng biên giới rộng lớn của các cách tiếp cận kỹ thuật đang mở khóa những khả năng mới mạnh mẽ đến mức chúng sẽ định hình nền kinh tế của chúng ta trong tương lai. Điều này sẽ không xảy ra trong một khoảnh khắc quyết định duy nhất, mà là một chuỗi các đột phá lớn nhỏ liên tục, nơi robot do AI điều khiển bắt đầu cung cấp giá trị thực sự trong một vài nhiệm vụ, và sau đó là thêm vài nhiệm vụ nữa, với tác động mở rộng trên nhiều thị trường trị giá hơn 100 tỷ USD sẽ cải thiện đáng kể chất lượng cuộc sống của chúng ta.