MemVerse: Multimodal Memory và con đường hướng tới Lifelong Learning Agents
Phân tích MemVerse – một framework bộ nhớ đa phương thức cho AI Agents học tập suốt đời, kết hợp Knowledge Graph truy xuất và Parametric Memory để giải quyết bài toán catastrophic forgetting, tối ưu suy luận đa phương thức và tương tác dài hạn.

Trong việc xây dựng các hệ thống AI Agent, "trí nhớ" (Memory) luôn là rào cản lớn nhất ngăn cách giữa một mô hình ngôn ngữ đơn thuần và một thực thể thông minh có khả năng đồng hành lâu dài. Các giải pháp hiện tại như mở rộng Context Window hay RAG (Retrieval-Augmented Generation) vẫn tồn tại những hạn chế cốt lõi về chi phí tính toán và khả năng tổng hợp thông tin theo thời gian.
Bài viết này phân tích MemVerse – một framework bộ nhớ đa phương thức dành cho Lifelong Learning Agents, được công bố dưới dạng preprint mã nguồn mở vào tháng 12/2025. Đây là một bước tiến đáng chú ý khi kết hợp giữa cơ chế truy xuất truyền thống và việc cập nhật trọng số mô hình theo thời gian thực.
Nghiên cứu có tiêu đề là "MemVerse: Multimodal Memory for Lifelong Learning Agents", được thực hiện bởi nhóm tác giả Junming Liu, Yifei Sun cùng các cộng sự tại Shanghai Artificial Intelligence Laboratory (Shanghai AI Lab). Điểm đáng giá của công trình này là mã nguồn đã được nhóm tác giả open-source hoàn toàn, cộng đồng kỹ thuật có thể tiếp cận và thử nghiệm tại: https://github.com/KnowledgeXLab/MemVerse
Trọng tâm của nghiên cứu là giải quyết bài toán "Catastrophic Forgetting" (Quên thảm khốc) và nâng cao khả năng suy luận đa phương thức (Multimodal Reasoning) cho các Agent hoạt động trong môi trường tương tác liên tục, thay vì chỉ xử lý các tác vụ đơn lẻ như các phương pháp truyền thống.
1. Vấn đề thực tế
Hiện tại, đa số các AI Agent xử lý bộ nhớ theo hai hướng:
- Parametric Memory (Bộ nhớ tham số): Kiến thức nằm trong trọng số (weights) của mô hình. Nhược điểm là tĩnh, khó cập nhật và dễ gặp hiện tượng Catastrophic Forgetting (học cái mới quên cái cũ) khi fine-tune liên tục.
- Non-parametric Memory (Bộ nhớ ngoài): Sử dụng Vector Database để làm RAG. Nhược điểm là thiếu cấu trúc, truy xuất chậm khi dữ liệu lớn và chỉ dừng lại ở việc tìm kiếm chứ không phải thực sự học được kiến thức.
MemVerse giải quyết bài toán này bằng cách không chọn một trong hai, mà kết hợp cả hai trong một kiến trúc thống nhất, cho phép Agent vừa có khả năng truy xuất chính xác, vừa có trực giác phản hồi nhanh.
2. Nền tảng tư duy
Kiến trúc của MemVerse được xây dựng dựa trên lý thuyết nhận thức Dual-Process Theory, nổi bật nhất là mô hình System 1 / System 2 do Daniel Kahneman đề xuất trong tác phẩm Thinking, Fast and Slow (2011):
- Tư duy chậm (Slow Pathway): Tương ứng với bộ nhớ dài hạn dựa trên truy xuất (Retrieval-based). Nó đảm bảo độ chính xác cao, lưu trữ chi tiết và có cấu trúc chặt chẽ, nhưng tốc độ xử lý chậm.
- Tư duy nhanh (Fast Pathway): Tương ứng với bộ nhớ tham số (Parametric Memory). Đây là một mô hình ngôn ngữ nhỏ (Small LM) được huấn luyện để phản hồi tức thì các thông tin quen thuộc mà không cần tra cứu phức tạp.
Điểm mấu chốt là sự chuyển hóa: Dữ liệu thô từ trải nghiệm sẽ được lưu vào bộ nhớ chậm, sau đó được chưng cất (distill) định kỳ để nạp vào bộ nhớ nhanh.
3. Phân tích kỹ thuật
Hình 1. Kiến trúc tổng thể của MemVerse. Hệ thống kết hợp Short-term Memory để duy trì ngữ cảnh cục bộ, Long-term Memory dưới dạng Multimodal Knowledge Graph cho lưu trữ có cấu trúc, và Parametric Memory để truy xuất nhanh thông qua fine-tuning định kỳ. Memory Orchestrator đóng vai trò điều phối toàn bộ luồng lưu trữ và truy hồi. Nguồn: Liu et al., 2025.
Hệ thống MemVerse vận hành dựa trên một Memory Orchestrator (Bộ điều phối) quản lý luồng dữ liệu giữa các thành phần sau:
Xử lý đa phương thức (Multimodal Processing)
Agent không lưu trữ trực tiếp dữ liệu thô (ảnh, video, âm thanh) vào vector store đơn thuần. Thay vào đó:
- Sử dụng các mô hình VLM (như GPT-4o, BLIP) hoặc Audio model để chuyển đổi tín hiệu đầu vào thành các mô tả văn bản (textual descriptions).
- Các mô tả này được liên kết ngược (grounding) với file gốc để đảm bảo tính xác thực khi cần truy xuất bằng chứng.
Long-Term Memory (LTM) - Knowledge Graph
Khác với RAG thông thường chỉ dùng Vector Search phẳng, MemVerse tổ chức bộ nhớ dưới dạng Hierarchical Knowledge Graph (Đồ thị tri thức phân cấp), chia làm 3 tầng:
- Core Memory: Lưu trữ thông tin cốt lõi về người dùng và sở thích cá nhân.
- Episodic Memory: Lưu trữ chuỗi sự kiện theo dòng thời gian.
- Semantic Memory: Lưu trữ các tri thức tổng quát được khái quát hóa từ các sự kiện cụ thể.
Cấu trúc Graph cho phép thực hiện các suy luận đa bước (multi-hop reasoning) mà phương pháp tìm kiếm tương đồng (similarity search) của vector database thường thất bại.
Parametric Memory - Cơ chế chưng cất (Distillation)
Đây là điểm sáng tạo nhất của MemVerse. Để giảm độ trễ và tăng tính "bản năng" cho Agent:
- Hệ thống định kỳ trích xuất các cặp câu hỏi - câu trả lời (QA pairs) từ Knowledge Graph.
- Sử dụng dữ liệu này để Supervised Fine-tuning (SFT) một mô hình ngôn ngữ nhỏ (ví dụ Qwen-7B).
- Kết quả: Các kiến thức quan trọng được nhúng trực tiếp vào trọng số của mô hình nhỏ này. Khi gặp câu hỏi tương tự, Agent trả lời ngay lập tức bằng Parametric Memory mà không cần tốn chi phí truy xuất Graph. Công thức cập nhật trọng số mô hình được mô tả như một quá trình tích lũy liên tục:
- biểu diễn trạng thái bộ nhớ tham số tại thời điểm (t), tức là toàn bộ trọng số của mô hình ngôn ngữ nhỏ sau khi đã được huấn luyện trên các kinh nghiệm trước đó.
- là phần điều chỉnh tham số thu được từ một vòng Supervised Fine-tuning mới, dựa trên các cặp dữ liệu được trích xuất từ Long-term Memory (thường là các cặp question–retrieved answer).
Hình 2. Minh họa khả năng ghi nhớ đa phương thức và suy luận có căn cứ của MemVerse. So với mô hình không có bộ nhớ, MemVerse cho phép Agent truy xuất bằng chứng đa phương thức, giảm hallucination và duy trì ngữ cảnh dài hạn. Nguồn: Liu et al., 2025.
4. Góc nhìn thực tế
Từ góc độ triển khai hệ thống thực tế, kiến trúc này mang lại những đánh giá sau:
Ưu điểm:
- Hiệu năng cao: Việc sử dụng Parametric Memory giúp giảm đáng kể độ trễ (latency) cho các truy vấn lặp lại. Paper ghi nhận tốc độ truy xuất nhanh hơn ~72% so với việc chỉ dùng Long-term retrieval.
- Khả năng mở rộng: Kiến trúc Model-Agnostic (không phụ thuộc mô hình), cho phép thay thế các module LLM/VLM tùy theo tài nguyên phần cứng.
- Tính bền vững: Giải quyết tốt vấn đề quên kiến thức cũ nhờ sự hỗ trợ của Knowledge Graph làm "kho lưu trữ vĩnh cửu" (backup), trong khi vẫn cập nhật được kiến thức mới vào model.
Thách thức:
- Chi phí hạ tầng: Việc duy trì quy trình Fine-tuning định kỳ đòi hỏi tài nguyên GPU ổn định và tốn kém hơn so với RAG thuần túy.
- Độ phức tạp khi xây dựng Graph: Quá trình trích xuất Entity và Relation từ hội thoại tự nhiên (unstructured text) vẫn là một bài toán khó, dễ bị nhiễu (noise), ảnh hưởng đến chất lượng của Graph.
- Đồng bộ hóa: Cần cơ chế kiểm soát chặt chẽ để tránh xung đột thông tin giữa bộ nhớ tham số (trong weights) và bộ nhớ ngoài (trong Graph) khi thông tin thay đổi.
5. Kết luận
MemVerse không chỉ là một kỹ thuật lưu trữ, mà là một bước chuyển dịch tư duy từ Static RAG sang Dynamic Memory Systems. Việc kết hợp sức mạnh lưu trữ của Knowledge Graph với tốc độ phản hồi của Small LM được Fine-tune là hướng đi hợp lý cho các bài toán AI Companion, NPC trong Game hoặc Trợ lý ảo chuyên sâu.
Đối với các kỹ sư đang xây dựng hệ thống AI, việc tham khảo cơ chế "Dual-pathway" của MemVerse sẽ mở ra nhiều ý tưởng để tối ưu hóa sự cân bằng giữa chi phí, tốc độ và khả năng ghi nhớ của mô hình.
Related Articles
Discover more articles related to this topic

“Kỹ thuật là cách thế phơi lộ”: khi công nghệ định hình tự do của chúng ta
Heidegger từng nói kỹ thuật không chỉ là công cụ trong tay con người, mà là tấm gương định hình cách ta nhìn và sống trong thế giới. Ngày nay, khi trí tuệ nhân tạo bắt đầu can thiệp vào cách ta học hỏi, sáng tạo và ra quyết định, câu hỏi lớn vẫn vang vọng: liệu AI đang giúp chúng ta mở ra những lối đi mới, hay đang âm thầm dựng nên một chiếc lồng vô hình bủa vây tự do và suy tưởng của chính con người?

Ngôn Ngữ, Xác Suất và Nhận Thức – phương trình công nghệ trong lịch sử mô hình hóa ngôn ngữ của nhân loại
Khám phá hành trình tiến hóa vĩ đại của mô hình ngôn ngữ, nơi ngôn ngữ, xác suất và nhận thức đan xen trong suốt tiến trình lịch sử công nghệ: từ những mô hình thống kê N-gram giản đơn, đến mạng nơ-ron và RNN, rồi bứt phá với LSTM, Seq2Seq và Attention; từ cuộc cách mạng Transformer mở đường cho BERT, GPT và vô số biến thể, đến kỷ nguyên LLM với khả năng sáng tạo, suy luận, đa phương thức. Đây không chỉ là câu chuyện kỹ thuật, mà còn là bản trường ca triết học về cách máy móc phản chiếu tư duy con người và gợi mở viễn cảnh trí tuệ nhân tạo tổng quát.

Lỗ hổng bảo mật trong Multi-Agent AI: Hiểm nguy từ Prompt Injection
Khám phá cách các cuộc tấn công prompt injection lợi dụng hệ thống multi-agent LLM hiện đại: từ việc tối ưu đường đi theo băng thông, cho đến kỹ thuật permutation invariance giúp vượt qua hàng rào bảo vệ. Bài viết phân tích dựa trên nghiên cứu mới nhất tại ACL 2025 giúp hiểu rõ cách thức kẻ tấn công khai thác cũng như lý do các hệ thống AI phân tán dễ tổn thương.

Fractal Dimension: Khi chiều không gian vượt thoát khỏi khuôn khổ số nguyên
Khám phá chiều fractal – một khái niệm đột phá trong hình học, vượt ra ngoài khuôn khổ số nguyên để mô tả sự phức tạp của tự nhiên. Bài viết đi sâu vào lịch sử, cơ sở toán học và vô vàn ứng dụng của fractal trong sinh học, vật lý, kinh tế và đặc biệt là khoa học máy tính và AI.
Discover all 5 articles in our blog