Vào tháng 11 năm 2025, AllenAI đã giới thiệu OlmoEarth (v1), một bộ mô hình AI tiên tiến nhanh chóng được các đối tác áp dụng rộng rãi để theo dõi sự thay đổi của rừng ngập mặn, phân loại nguyên nhân mất rừng hay lập bản đồ loại cây trồng quy mô quốc gia chỉ trong vài ngày. Sứ mệnh của OlmoEarth là mang AI hiện đại đến các tổ chức và cộng đồng đang nỗ lực bảo vệ con người và hành tinh chúng ta. 🌏🌿
Tuy nhiên, khi OlmoEarth xử lý hình ảnh vệ tinh để đưa ra dự đoán trên hàng chục đến hàng trăm nghìn km vuông, hiệu quả tính toán trở thành yếu tố then chốt quyết định khả năng thực thi. Chi phí điện toán chiếm phần lớn nhất trong toàn bộ vòng đời vận hành OlmoEarth – từ xuất dữ liệu, tiền xử lý, suy luận đến hậu xử lý. Một mô hình hiệu quả hơn đồng nghĩa với việc hỗ trợ được nhiều đối tác hơn trên Nền tảng OlmoEarth, và bất kỳ ai tự vận hành cũng có thể khai thác công nghệ này nhanh hơn với chi phí thấp hơn. 💡
Để giải quyết thách thức này, AllenAI vừa ra mắt OlmoEarth v1.1 – một dòng mô hình mới hứa hẹn cắt giảm chi phí tính toán lên đến gấp 3 lần mà vẫn giữ vững hiệu suất của OlmoEarth v1 trên các tiêu chuẩn nghiên cứu và nhiệm vụ hợp tác. Đây thực sự là một bước tiến lớn! 💰✨
Tăng Hiệu Quả Bằng Cách Giảm Độ Dài Chuỗi Token
Các mô hình OlmoEarth được xây dựng dựa trên kiến trúc transformer, một trong những kiến trúc thống trị trong học máy hiện nay. Để xử lý dữ liệu viễn thám, chúng ta cần chuyển đổi chúng thành một chuỗi token mà mô hình có thể tiếp nhận. 🤖
Có hai yếu tố quan trọng ảnh hưởng đến hiệu quả trong các mô hình transformer: kích thước mô hình (đây là lý do AllenAI cung cấp một bộ mô hình để người dùng có thể chọn kích thước phù hợp với ngân sách điện toán của mình) và độ dài chuỗi token. Điều đáng chú ý là chi phí tính toán tăng theo cấp số nhân với độ dài chuỗi token, vì vậy ngay cả những giảm thiểu nhỏ cũng có thể giúp cắt giảm đáng kể chi phí vận hành mô hình. 📉 Việc tối ưu hóa độ dài chuỗi token trực tiếp dẫn đến giảm số lượng phép toán cần thiết, từ đó giúp suy luận nhanh hơn và rẻ hơn.
Thiết Kế Token: Bài Toán Hóc Búa Của AI Viễn Thám
Điều này đặt ra một câu hỏi quan trọng cho các mô hình viễn thám dựa trên transformer: một token nên đại diện cho điều gì? 🤔
Lấy ví dụ hình ảnh Sentinel-2, một dạng dữ liệu phổ biến mà OlmoEarth xử lý. Một đầu vào Sentinel-2 sẽ là một tensor với chiều cao (H), chiều rộng (W) đại diện cho các pixel vĩ độ và kinh độ, một chiều thời gian (T), và 12 kênh Sentinel-2 ([H, W, T, D=12]).
Hiện tại (trong v1), dữ liệu được chia thành các miếng vá dựa trên độ phân giải. Cụ thể, AllenAI chọn một kích thước miếng vá không gian p, và chia toàn bộ hình ảnh Sentinel-2 thành các miếng vá kích thước p x p. Đối với mỗi miếng vá, một token được tạo ra cho mỗi bước thời gian và mỗi độ phân giải. Vì vậy, một đầu vào Sentinel-2 với 2 bước thời gian sẽ tạo ra 6 token cho mỗi miếng vá (2 bước thời gian x 3 độ phân giải: 10m, 20m và 60m).
Tổng cộng, một đầu vào Sentinel-2 [H, W, T, D=12] sẽ tạo ra H/p x W/p x T x 3 token. Đây là một kỹ thuật phổ biến khi xử lý dữ liệu Sentinel-2; các mô hình như Galileo và SatMAE đều áp dụng phương pháp này, và SatMAE cho thấy kết quả tốt hơn đáng kể. Tuy nhiên, nó không phải là phương pháp duy nhất, ví dụ, CROMA chỉ sử dụng một token duy nhất cho tất cả các băng tần, bất kể độ phân giải. Vì số lượng token tăng theo cấp số nhân, việc gộp các độ phân giải vào một token duy nhất có thể tạo ra số token ít hơn ba lần và tiết kiệm đáng kể chi phí trong quá trình huấn luyện trước (pre-training), tinh chỉnh (fine-tuning) và suy luận (inference). ✂️
Thử nghiệm ban đầu cho thấy, việc gộp token một cách ngây thơ (naively) dẫn đến sụt giảm hiệu suất đáng kể, bao gồm giảm 10 điểm phần trăm trên chuẩn m-eurosat kNN (một nhiệm vụ benchmark phổ biến). AllenAI giả thuyết rằng việc tách các băng tần Sentinel-2 thành các token khác nhau giúp OlmoEarth mô hình hóa các mối quan hệ quan trọng giữa các băng tần dễ dàng hơn.
Để hợp nhất các token mà không ảnh hưởng đến hiệu suất, AllenAI đã phải sửa đổi quy trình huấn luyện trước của mình. Những thay đổi này được mô tả chi tiết trong báo cáo kỹ thuật của họ. 📄🔬
Dành Cho Các Nhà Phát Triển
Kết quả là một dòng mô hình "làm nhiều hơn với ít hơn". Ở mọi kích thước, OlmoEarth v1.1 chạy rẻ hơn đến ba lần so với OlmoEarth v1, giúp việc làm mới bản đồ quy mô hành tinh thường xuyên trở nên khả thi hơn cho mọi nhóm vận hành OlmoEarth. Nếu bạn đang sử dụng một mô hình từ dòng OlmoEarth gốc, hãy dùng thử OlmoEarth v1.1! Nó mang lại hiệu suất tương tự OlmoEarth v1 trong khi chỉ yêu cầu một phần ba chi phí tính toán. Mặc dù có ghi nhận một số trường hợp sụt giảm hiệu suất nhỏ (tham khảo báo cáo kỹ thuật để biết thêm chi tiết), nếu nó phù hợp với nhiệm vụ của bạn, bạn sẽ thấy tốc độ tăng đáng kể trong quá trình tinh chỉnh và suy luận. 🚀💻
Dành Cho Các Nhà Nghiên Cứu
Các mô hình viễn thám đã được huấn luyện trước có nhiều mức độ tự do, điều này khiến chúng khó nghiên cứu. Khi hiệu suất thay đổi, liệu đó là do kiến trúc, tập dữ liệu hay thuật toán huấn luyện trước? 🧐
AllenAI huấn luyện OlmoEarth v1.1 trên cùng một tập dữ liệu với OlmoEarth v1, do đó bất kỳ sự khác biệt nào giữa hai phiên bản đều cô lập được tác động của các thay đổi về phương pháp luận. Điều này được kỳ vọng sẽ thúc đẩy sự hiểu biết về các nguyên tắc khoa học khi huấn luyện trước các mô hình cho viễn thám. 🧠🔬
Bắt Đầu Ngay
Hãy khám phá các trọng số của OlmoEarth v1.1 và mã nguồn huấn luyện, bao gồm trọng số cho các mô hình Base, Tiny và Nano, tại các liên kết sau:
* Mô hình: https://huggingface.co/collections/allenai/olmoearth * Báo cáo kỹ thuật: https://allenai.org/papers/olmoearth_v1_1 * Mã nguồn: https://github.com/allenai/olmoearth_pretrain
Bạn cũng có thể xem thêm các bài viết khác từ tác giả này, như "EMO: Pretraining mixture of experts for emergent modularity" được xuất bản vào ngày 8 tháng 5 năm 2026. 🗓️