AI tools-ai 22 thg 6, 2026 8 phút đọc

TOTEN: Chấm Dứt Nỗi Ám Ảnh Sai Số Kỹ Thuật Của LLM Với Phương Pháp Mã Hóa Ngữ Nghĩa Mới! 💡🚀

TOTEN, một framework mã hóa ngữ nghĩa mới dựa trên Tri Thức và Ontology các Thực Thể Kỹ Thuật (OEE), đã chứng minh khả năng vượt trội trong việc xử lý chính xác các đại lượng vật lý và ký hiệu kỹ thuật, giải quyết triệt để vấn đề sai sót của các mô hình ngôn ngữ lớn (LLM).

Tier 2 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc arxiv.org

Vấn đề nan giải của LLM: Khi số liệu khoa học bị "xé nhỏ" vô nghĩa

Các thuật toán mã hóa token tiêu chuẩn như Byte-Pair Encoding (BPE), WordPiece hay SentencePiece vốn rất hiệu quả cho việc nén văn bản và xây dựng từ vựng chung. Tuy nhiên, chúng lại "mù tịt" về mặt ngữ nghĩa đối với các thực thể kỹ thuật có cấu trúc. Khi xử lý văn bản khoa học, kỹ thuật hay kỹ sư, những thực thể nguyên tử như đại lượng vật lý, số liệu, đơn vị và biểu thức ký hiệu thường bị phân mảnh thành các "từ con" (subwords) ngẫu nhiên, vô nghĩa về mặt từ vựng. Ví dụ, "150m/s²" hay "42.5 kN" có thể bị chia thành các cụm token rời rạc.

Sự phân mảnh này đã làm suy giảm nghiêm trọng khả năng suy luận số học, toán học và kỹ thuật của các Mô hình Ngôn ngữ Lớn (LLM), dẫn đến những sai sót không đáng có trong các ứng dụng quan trọng. Đây là một điểm yếu chí mạng khi AI ngày càng được ứng dụng sâu rộng vào các lĩnh vực đòi hỏi độ chính xác cao.

TOTEN ra đời: Mã hóa ngữ nghĩa dựa trên Ontology kỹ thuật 🤖

Để giải quyết vấn đề cấp bách này, một nhóm các nhà nghiên cứu tài năng từ UFMA, USP và Aia Context – bao gồm Antonio de Sousa Leitão Filho, Allan Kardec Duailibe Barros Filho, Fabrício Saul Lima, Selby Mykael Lima dos Santos và Rejani Bandeira Vieira Sousa – đã phát triển TOTEN (Typed Ontological Tokenization - Mã hóa Token dựa trên Ontology có Kiểu). Đây là một framework mã hóa ngữ nghĩa dựa trên tri thức, thay thế hoàn toàn phương pháp phân tách subword thống kê bằng cách phân loại khai báo, được xây dựng trên một Ontology các Thực Thể Kỹ Thuật (OEE) chính thức.

TOTEN hứa hẹn một bước tiến lớn trong việc giúp LLM không chỉ "đọc" mà còn "hiểu" sâu sắc hơn về thế giới số liệu kỹ thuật.

📌 Các kho lưu trữ và bộ dữ liệu chính: * Kho mã nguồn: GitHub - toten * Bộ dữ liệu: Hugging Face - EngQuant (Bộ kiểm định được xác thực vật lý với N=800)

1. Trái tim của TOTEN: Ontology các Thực Thể Kỹ Thuật (OEE) và 8 Định đề Cấu trúc 🧠

Ontology các Thực Thể Kỹ Thuật (OEE) là nền tảng cốt lõi của TOTEN, được hình thức hóa toán học dưới dạng một bộ tứ: $$\mathcal{O}=\langle\mathcal{T},\ \mathcal{P},\ \mathcal{R},\ \mathcal{I}\rangle$$ Trong đó: * $\mathcal{T}$ là tập hợp các kiểu chính (ví dụ: Đại lượng Vật lý, Văn xuôi Kỹ thuật, Định danh Kỹ thuật như NBR hoặc ABNT, Toán tử Hình thức, Hằng số Chung, Biểu thức Ký hiệu, Số thuần túy). * $\mathcal{P}$ là tập hợp các nguyên tắc cấu trúc (định đề). * $\mathcal{R}$ là mối quan hệ cấu thành giữa các kiểu. * $\mathcal{I}$ là tập hợp các bất biến.

8 Định đề Cấu trúc cốt lõi của OEE:

Những định đề này đảm bảo sự chặt chẽ và nhất quán về mặt ngữ nghĩa khi xử lý các thực thể kỹ thuật: 1. $A_1$ (Tính Nội tại): Một kiểu được định nghĩa bởi các thuộc tính ngữ nghĩa nội tại của nó, không phải bởi tần suất xuất hiện thực nghiệm trong một corpus văn bản. 2. $A_2$ (Bảo toàn Bất biến): Thực thể mã hóa phải bảo toàn tất cả các bất biến ngữ nghĩa của một kiểu; bất kỳ sự vi phạm cấu trúc nào cũng dẫn đến từ chối. 3. $A_3$ (Cấu thành Trung gian): Sự cấu thành của các kiểu được định nghĩa nếu và chỉ nếu chúng được cho phép bởi các mối quan hệ cấu thành. Việc nối tự do giữa số và đơn vị bị nghiêm cấm. 4. $A_4$ (Lỗi Phân loại): Việc áp dụng một thực thể mã hóa không chính xác vào một vùng đã được phân loại là một lỗi phân loại, không phải là sự suy giảm chất lượng dần dần. 5. $A_5$ (Khả năng Mở rộng nhưng Không Sửa đổi): Ontology này mở cho việc mở rộng nhưng đóng cho việc sửa đổi. 6. $A_6$ (Quy ước Kiểu chữ là Thuộc tính Nội tại): Định danh kiểu không thay đổi dưới các biến đổi kiểu chữ được công bố là tương đương bởi Unicode Character Database (UCD). 7. $A_7$ (Neo Cấu trúc của Biểu thức Ký hiệu): Các biểu thức ký hiệu phải nằm liền kề ít nhất một neo cấu trúc (ví dụ: $=, \approx, \le$) để tránh nhầm lẫn với các từ trong ngôn ngữ tự nhiên. 8. $A_8$ (Dấu Toán học Đặc biệt trong Ký hiệu Ghép): Các cấu thành sử dụng các toán tử ASCII mơ hồ (như / hoặc *) phải chứa ít nhất một dấu toán học phân loại (ví dụ: chữ cái Hy Lạp, chỉ số dưới, ký hiệu LaTeX) để được nhận diện chính xác.

2. Kiến trúc TOTEN và Ba "Oracle" Ngoại vi ⚙️

TOTEN hoạt động qua ba lớp mạnh mẽ, kết hợp với các "oracle" (người tiên tri) bên ngoài để tăng cường khả năng xử lý:

1. Lớp Phân loại Ontology: Phân tích và phân đoạn văn bản thô thành các vùng có kiểu dựa trên các định nghĩa OEE. 2. Lớp Khởi tạo: Tạo ra một biểu diễn có cấu trúc, tự mô tả (gắn thẻ có cấu trúc). 3. Tích hợp các Oracle Ngoại vi: * Pint Oracle (Chiều): Đảm bảo các tính toán và kiểm tra chiều vật lý nghiêm ngặt. * Unicode Character Database (UCD) Oracle (Kiểu chữ): Giải mã và chuẩn hóa các biến thể kiểu chữ. * RSLP Oracle (Hình thái học): Xử lý việc loại bỏ hậu tố và hình thái học tiếng Bồ Đào Nha (điểm đặc thù trong nghiên cứu gốc).

3. Những Đột phá Hiệu suất Ấn tượng của TOTEN! 📈🏆

Đánh giá nội tại được thực hiện trên bộ kiểm định được xác thực vật lý nội bộ (EngQuant, N=800) và bốn corpus bên ngoài bằng tiếng Bồ Đào Nha Brazil (N=1.771 trường hợp), đo lường tính nguyên tử ontology, tính tương đương chiều, độ bền kiểu chữ và khả năng tái tạo số.

Kết quả thực sự ấn tượng và khẳng định vị thế dẫn đầu của TOTEN:

* Tính nguyên tử Ontology: TOTEN đạt tính nguyên tử ontology đơn vị hoàn hảo (1.00) trong tất cả các thử nghiệm. Điều này có nghĩa là nó không bao giờ phân mảnh các đơn vị vật lý. * Khả năng Tái tạo số: Trên các corpus bên ngoài, TOTEN đạt độ chính xác từ 0.775 đến 0.904, hoàn toàn vượt trội so với baseline tốt nhất (Quantulum3) chỉ đạt từ 0.627 đến 0.703. * Trên bộ kiểm định EngQuant, TOTEN đạt độ chính xác 0.780, trong khi Quantulum3 chỉ đạt vỏn vẹn 0.340. Sự khác biệt này có ý nghĩa thống kê rất cao (kiểm định McNemar với hiệu chỉnh Holm).

Nghiên cứu này đại diện cho một bước nhảy vọt khổng lồ cho các hệ thống AI xử lý đại lượng vật lý, cơ sở dữ liệu khoa học và các tác vụ kỹ thuật quan trọng về an toàn. Bằng cách neo chặt việc mã hóa token vào một ontology xác định thay vì chỉ dựa vào các liên kết thống kê thuần túy, TOTEN đảm bảo rằng các số và đơn vị vật lý được phân tích một cách nguyên tử, ngăn chặn LLM hiểu sai đơn vị hoặc mắc lỗi số học thảm khốc trong các lĩnh vực kỹ thuật. Đây chính là mảnh ghép còn thiếu để AI thực sự đáng tin cậy trong các môi trường kỹ thuật khắt khe nhất!

---

Editorial Note của Sylvie: Với những cải tiến vượt bậc này, TOTEN không chỉ là một công cụ mã hóa token mới mà còn là một minh chứng rõ ràng cho sức mạnh của phương pháp tiếp cận dựa trên tri thức. Việc AI có thể xử lý các thông tin kỹ thuật một cách chính xác, không mắc lỗi cơ bản, sẽ mở ra kỷ nguyên mới cho các ứng dụng AI trong khoa học và kỹ thuật, từ thiết kế tự động đến phân tích dữ liệu chuyên sâu. Một lần nữa, tri thức con người lại định hình tương lai của AI! 🌟✨