MemVerse: Multimodal Memory và con đường hướng tới Lifelong Learning Agents

Trong việc xây dựng các hệ thống AI Agent, "trí nhớ" (Memory) luôn là rào cản lớn nhất ngăn cách giữa một mô hình ngôn ngữ đơn thuần và một thực thể thông minh có khả năng đồng hành lâu dài. Các giải pháp hiện tại như mở rộng Context Window hay RAG (Retrieval-Augmented Generation) vẫn tồn tại những hạn chế cốt lõi về chi phí tính toán và khả năng tổng hợp thông tin theo thời gian.

Bài viết này phân tích MemVerse – một framework bộ nhớ đa phương thức dành cho Lifelong Learning Agents, được công bố dưới dạng preprint mã nguồn mở vào tháng 12/2025. Đây là một bước tiến đáng chú ý khi kết hợp giữa cơ chế truy xuất truyền thống và việc cập nhật trọng số mô hình theo thời gian thực.

Nghiên cứu có tiêu đề là "MemVerse: Multimodal Memory for Lifelong Learning Agents", được thực hiện bởi nhóm tác giả Junming Liu, Yifei Sun cùng các cộng sự tại Shanghai Artificial Intelligence Laboratory (Shanghai AI Lab). Điểm đáng giá của công trình này là mã nguồn đã được nhóm tác giả open-source hoàn toàn, cộng đồng kỹ thuật có thể tiếp cận và thử nghiệm tại: https://github.com/KnowledgeXLab/MemVerse

Trọng tâm của nghiên cứu là giải quyết bài toán "Catastrophic Forgetting" (Quên thảm khốc) và nâng cao khả năng suy luận đa phương thức (Multimodal Reasoning) cho các Agent hoạt động trong môi trường tương tác liên tục, thay vì chỉ xử lý các tác vụ đơn lẻ như các phương pháp truyền thống.

1. Vấn đề thực tế

Hiện tại, đa số các AI Agent xử lý bộ nhớ theo hai hướng:

Parametric Memory (Bộ nhớ tham số): Kiến thức nằm trong trọng số (weights) của mô hình. Nhược điểm là tĩnh, khó cập nhật và dễ gặp hiện tượng Catastrophic Forgetting (học cái mới quên cái cũ) khi fine-tune liên tục.
Non-parametric Memory (Bộ nhớ ngoài): Sử dụng Vector Database để làm RAG. Nhược điểm là thiếu cấu trúc, truy xuất chậm khi dữ liệu lớn và chỉ dừng lại ở việc tìm kiếm chứ không phải thực sự học được kiến thức.

MemVerse giải quyết bài toán này bằng cách không chọn một trong hai, mà kết hợp cả hai trong một kiến trúc thống nhất, cho phép Agent vừa có khả năng truy xuất chính xác, vừa có trực giác phản hồi nhanh.

2. Nền tảng tư duy

Kiến trúc của MemVerse được xây dựng dựa trên lý thuyết nhận thức Dual-Process Theory, nổi bật nhất là mô hình System 1 / System 2 do Daniel Kahneman đề xuất trong tác phẩm Thinking, Fast and Slow (2011):

Tư duy chậm (Slow Pathway): Tương ứng với bộ nhớ dài hạn dựa trên truy xuất (Retrieval-based). Nó đảm bảo độ chính xác cao, lưu trữ chi tiết và có cấu trúc chặt chẽ, nhưng tốc độ xử lý chậm.
Tư duy nhanh (Fast Pathway): Tương ứng với bộ nhớ tham số (Parametric Memory). Đây là một mô hình ngôn ngữ nhỏ (Small LM) được huấn luyện để phản hồi tức thì các thông tin quen thuộc mà không cần tra cứu phức tạp.

Điểm mấu chốt là sự chuyển hóa: Dữ liệu thô từ trải nghiệm sẽ được lưu vào bộ nhớ chậm, sau đó được chưng cất (distill) định kỳ để nạp vào bộ nhớ nhanh.

3. Phân tích kỹ thuật

Kiến trúc tổng thể của MemVerse

Hình 1. Kiến trúc tổng thể của MemVerse. Hệ thống kết hợp Short-term Memory để duy trì ngữ cảnh cục bộ, Long-term Memory dưới dạng Multimodal Knowledge Graph cho lưu trữ có cấu trúc, và Parametric Memory để truy xuất nhanh thông qua fine-tuning định kỳ. Memory Orchestrator đóng vai trò điều phối toàn bộ luồng lưu trữ và truy hồi. Nguồn: Liu et al., 2025.

Hệ thống MemVerse vận hành dựa trên một Memory Orchestrator (Bộ điều phối) quản lý luồng dữ liệu giữa các thành phần sau:

Xử lý đa phương thức (Multimodal Processing)

Agent không lưu trữ trực tiếp dữ liệu thô (ảnh, video, âm thanh) vào vector store đơn thuần. Thay vào đó:

Sử dụng các mô hình VLM (như GPT-4o, BLIP) hoặc Audio model để chuyển đổi tín hiệu đầu vào thành các mô tả văn bản (textual descriptions).
Các mô tả này được liên kết ngược (grounding) với file gốc để đảm bảo tính xác thực khi cần truy xuất bằng chứng.

Long-Term Memory (LTM) - Knowledge Graph

Khác với RAG thông thường chỉ dùng Vector Search phẳng, MemVerse tổ chức bộ nhớ dưới dạng Hierarchical Knowledge Graph (Đồ thị tri thức phân cấp), chia làm 3 tầng:

Core Memory: Lưu trữ thông tin cốt lõi về người dùng và sở thích cá nhân.
Episodic Memory: Lưu trữ chuỗi sự kiện theo dòng thời gian.
Semantic Memory: Lưu trữ các tri thức tổng quát được khái quát hóa từ các sự kiện cụ thể.

Cấu trúc Graph cho phép thực hiện các suy luận đa bước (multi-hop reasoning) mà phương pháp tìm kiếm tương đồng (similarity search) của vector database thường thất bại.

Parametric Memory - Cơ chế chưng cất (Distillation)

Đây là điểm sáng tạo nhất của MemVerse. Để giảm độ trễ và tăng tính "bản năng" cho Agent:

Hệ thống định kỳ trích xuất các cặp câu hỏi - câu trả lời (QA pairs) từ Knowledge Graph.
Sử dụng dữ liệu này để Supervised Fine-tuning (SFT) một mô hình ngôn ngữ nhỏ (ví dụ Qwen-7B).
Kết quả: Các kiến thức quan trọng được nhúng trực tiếp vào trọng số của mô hình nhỏ này. Khi gặp câu hỏi tương tự, Agent trả lời ngay lập tức bằng Parametric Memory mà không cần tốn chi phí truy xuất Graph. Công thức cập nhật trọng số mô hình được mô tả như một quá trình tích lũy liên tục:

\mathcal{M}^{t+1}_{parametric} = \mathcal{M}^{t}_{parametric} + \Delta \Theta_t

$\mathcal{M}^{t}_{\text{parametric}}$ biểu diễn trạng thái bộ nhớ tham số tại thời điểm (t), tức là toàn bộ trọng số của mô hình ngôn ngữ nhỏ sau khi đã được huấn luyện trên các kinh nghiệm trước đó.
$\Delta \Theta_t$ là phần điều chỉnh tham số thu được từ một vòng Supervised Fine-tuning mới, dựa trên các cặp dữ liệu được trích xuất từ Long-term Memory (thường là các cặp question–retrieved answer).

Minh họa khả năng ghi nhớ đa phương thức và suy luận có căn cứ của MemVerse

Hình 2. Minh họa khả năng ghi nhớ đa phương thức và suy luận có căn cứ của MemVerse. So với mô hình không có bộ nhớ, MemVerse cho phép Agent truy xuất bằng chứng đa phương thức, giảm hallucination và duy trì ngữ cảnh dài hạn. Nguồn: Liu et al., 2025.

4. Góc nhìn thực tế

Từ góc độ triển khai hệ thống thực tế, kiến trúc này mang lại những đánh giá sau:

Ưu điểm:

Hiệu năng cao: Việc sử dụng Parametric Memory giúp giảm đáng kể độ trễ (latency) cho các truy vấn lặp lại. Paper ghi nhận tốc độ truy xuất nhanh hơn ~72% so với việc chỉ dùng Long-term retrieval.
Khả năng mở rộng: Kiến trúc Model-Agnostic (không phụ thuộc mô hình), cho phép thay thế các module LLM/VLM tùy theo tài nguyên phần cứng.
Tính bền vững: Giải quyết tốt vấn đề quên kiến thức cũ nhờ sự hỗ trợ của Knowledge Graph làm "kho lưu trữ vĩnh cửu" (backup), trong khi vẫn cập nhật được kiến thức mới vào model.

Thách thức:

Chi phí hạ tầng: Việc duy trì quy trình Fine-tuning định kỳ đòi hỏi tài nguyên GPU ổn định và tốn kém hơn so với RAG thuần túy.
Độ phức tạp khi xây dựng Graph: Quá trình trích xuất Entity và Relation từ hội thoại tự nhiên (unstructured text) vẫn là một bài toán khó, dễ bị nhiễu (noise), ảnh hưởng đến chất lượng của Graph.
Đồng bộ hóa: Cần cơ chế kiểm soát chặt chẽ để tránh xung đột thông tin giữa bộ nhớ tham số (trong weights) và bộ nhớ ngoài (trong Graph) khi thông tin thay đổi.

5. Kết luận

MemVerse không chỉ là một kỹ thuật lưu trữ, mà là một bước chuyển dịch tư duy từ Static RAG sang Dynamic Memory Systems. Việc kết hợp sức mạnh lưu trữ của Knowledge Graph với tốc độ phản hồi của Small LM được Fine-tune là hướng đi hợp lý cho các bài toán AI Companion, NPC trong Game hoặc Trợ lý ảo chuyên sâu.

Đối với các kỹ sư đang xây dựng hệ thống AI, việc tham khảo cơ chế "Dual-pathway" của MemVerse sẽ mở ra nhiều ý tưởng để tối ưu hóa sự cân bằng giữa chi phí, tốc độ và khả năng ghi nhớ của mô hình.