Hai tuần trước, OpenAI thông báo sẽ khởi động lại chương trình robot bị đóng cửa vào năm 2021 – một tín hiệu rõ ràng cho thấy các phòng thí nghiệm AI lớn đang chạy đua để dạy máy móc cách vận hành trong thế giới vật lý. Tuy nhiên, việc chế tạo robot có khả năng đòi hỏi một thứ mà ngành AI chưa có: dữ liệu huấn luyện tương xứng với dữ liệu được sử dụng cho các mô hình ngôn ngữ lớn (LLM).
Khoảng trống này đang tạo ra một loại hình kinh doanh cơ sở hạ tầng mới. Khác với LLM được huấn luyện trên kho văn bản công khai khổng lồ, robot cần dữ liệu ghi lại tương tác vật lý, và loại dữ liệu này gần như không tồn tại. Các video YouTube hay cảnh quay từ những người làm việc tự do thường có độ trung thực thấp và khó để khớp với thế giới vật lý thực.
XDOF (phát âm là "ecks-doff"), vừa ra mắt công khai, đang đặt cược rằng nút thắt lớn tiếp theo trong AI không phải là mô hình hay chip, mà là vòng lặp phản hồi dữ liệu cần thiết để dạy robot cách tương tác với thế giới vật lý.
XDOF và nguồn vốn "khủng"
Startup này đặt mục tiêu xây dựng các hệ thống đường ống dữ liệu, công cụ thu thập và hệ thống chú thích mà các phòng thí nghiệm tiên phong và công ty robot khó có thể tự xây dựng. Để thực hiện điều này, XDOF đã huy động được 70 triệu USD từ các quỹ đầu tư lớn như Thrive Capital, Spark Capital, a16z, Lux và WndrCo. Đồng sáng lập kiêm Giám đốc điều hành Philippe Wu cho biết XDOF, với khoảng 60 nhân viên, đã và đang làm việc với 20 khách hàng, trong đó có một số phòng thí nghiệm AI hàng đầu, nhưng không thể tiết lộ danh tính.
> "Tất cả các phòng thí nghiệm hàng đầu đều đang theo đuổi lĩnh vực robot học," Wu chia sẻ. "Chúng tôi đã chứng kiến những sai lầm khi tụt hậu trong cuộc đua mô hình ngôn ngữ... bạn không muốn rơi vào tình huống theo đuổi công nghệ này quá muộn, trong khi mọi người đều nhận ra AI vật lý là biên giới tiếp theo."
Giải pháp từ vấn đề cá nhân
Wu đã gặp phải vấn đề này khi còn là nghiên cứu sinh tiến sĩ tại UC Berkeley. Trọng tâm nghiên cứu của anh là giúp robot học các kỹ năng từ bộ dữ liệu quy mô lớn. Chỉ có một vấn đề:
> "Chúng tôi không có dữ liệu quy mô lớn để làm việc," anh nói với TechCrunch. "Đây là một vấn đề 'con gà quả trứng' – trước tiên chúng tôi cần thu thập dữ liệu trước khi có thể đặt câu hỏi về cách huấn luyện một mô hình nền tảng cho robot."
Wu và người đồng sáng lập kiêm Giám đốc công nghệ tương lai của XDOF, Fred Shentu, đã làm việc trong một dự án tên là GELLO, một hệ thống vận hành từ xa chi phí thấp cho phép người vận hành điều khiển cánh tay robot để tạo dữ liệu huấn luyện. "Cuối cùng, nó trở thành một bài báo có ảnh hưởng lớn trong ngành robot, vì nhiều người có nhu cầu và nút thắt tương tự, và nhiều người bắt đầu tận dụng loại thiết bị này để thu thập dữ liệu," Wu cho biết.
Nhận thấy cơ hội, Wu, Shentu và người đồng sáng lập thứ ba kiêm Giám đốc vận hành Nemo Jin đã thành lập XDOF vào tháng 10 năm 2024 để cung cấp một hệ sinh thái dữ liệu cho các công ty theo đuổi mô hình robot. Với ý thức rằng việc chỉ cung cấp dữ liệu có thể là một ngõ cụt, công ty cũng tập trung vào làm sạch, công cụ hóa và chú thích dữ liệu – tạo ra một vòng lặp phản hồi tự củng cố cho việc huấn luyện robot.
ABC: Bộ dữ liệu robot "khủng" chưa từng có
Để khởi đầu, công ty đang hợp tác với phòng thí nghiệm Nghiên cứu AI của UC Berkeley để phát hành bộ sưu tập dữ liệu huấn luyện robot chất lượng cao lớn nhất từng được tập hợp, có tên là ABC. Bộ dữ liệu này bao gồm:
- 130.000 quỹ đạo dữ liệu thao tác của robot. - 300 giờ mô phỏng. - 100 giờ đánh giá.
Loại dữ liệu tiền huấn luyện quy mô lớn này chưa bao giờ có sẵn cho giới học thuật trước đây. "Chúng tôi đã thấy trong ngôn ngữ, tạo ảnh và các lĩnh vực khác, rằng khi các mô hình và dữ liệu được phát hành, cộng đồng sẽ đạt được những điều mà bạn không ngờ tới," David McAllister, một nghiên cứu sinh tiến sĩ tại Berkeley đã giúp tổ chức việc phát hành, nói với TechCrunch.
Đội ngũ này đã sử dụng dữ liệu để huấn luyện robot thực hiện các nhiệm vụ tiêu chuẩn như gấp áo phông, làm phẳng hộp hoặc chất AirPods vào hộp của chúng.
Chiến lược thu thập dữ liệu ba cấp độ của XDOF
XDOF có kế hoạch làm việc trên ba cấp độ của một "kim tự tháp dữ liệu":
- Cấp độ giá trị nhất: Dữ liệu vận hành từ xa được thu thập trên robot thực tế đang được triển khai. - Cấp độ tiếp theo: Robot được vận hành từ xa thu thập dữ liệu tổng quát hơn, như với GELLO. - Cuối cùng: Dữ liệu "góc nhìn thứ nhất" (egocentric) được thu thập bởi con người thực hiện các nhiệm vụ hàng ngày, mà XDOF có kế hoạch xây dựng các cảm biến đeo được riêng của mình.
> "Sự lựa chọn camera của bạn sẽ ảnh hưởng đến chất lượng dữ liệu – điều này sẽ ảnh hưởng đến hiệu suất của thuật toán theo dõi tay của bạn," Wu nói. "Nếu bạn không thiết kế phần cứng tốt ngay từ đầu, dữ liệu bạn thu thập có thể có những vấn đề rất cụ thể mà bạn không lường trước được."
Tại sao các phòng thí nghiệm AI lớn không tự làm?
Công ty có kế hoạch thuê và đào tạo đội ngũ lớn các nhân viên vận hành từ xa và nhân viên thu thập dữ liệu góc nhìn thứ nhất trên khắp thế giới – một mô hình tốn nhiều lao động đặt ra câu hỏi rõ ràng: Tại sao các phòng thí nghiệm lớn không tự thực hiện công việc sản xuất dữ liệu này?
> "Bạn cần một nhà kho rộng hàng trăm nghìn mét vuông với hàng trăm robot," Wu giải thích. "Bạn cần bảo trì những robot này, hiệu chỉnh các thông số vật lý của chúng và huấn luyện người vận hành một cách bài bản."
Đây là một quá trình xây dựng đòi hỏi sự tập trung, vốn đầu tư và quy mô vận hành mà hầu hết các phòng thí nghiệm AI thà thuê ngoài – và đây chính xác là thị trường mà XDOF đang đặt cược.
Cái tên XDOF là một cách chơi chữ dựa trên thuật ngữ robot học "degrees of freedom" (bậc tự do), mô tả số lượng chuyển động độc lập mà một robot có thể thực hiện. Cánh tay của bạn, từ vai đến cổ tay, có bảy bậc tự do. Robot mới nhất của công ty robot hình người Figure.AI có 30 bậc. Chữ X trong tên công ty thể hiện tham vọng của họ: "Bậc tự do tùy ý, bậc tự do không giới hạn," Wu chia sẻ. ✨