Hầu hết các LLM cục bộ hiện nay đều khá dễ đoán. Bạn tải xuống một mô hình, trỏ một chương trình chạy đến nó, đặt một câu hỏi, và sau đó xem văn bản di chuyển trên màn hình từng token một. Mô hình có thể tốt hơn hoặc tệ hơn mô hình bạn đã sử dụng ngày hôm qua, nhưng trải nghiệm cơ bản thường giống nhau.
DiffusionGemma thì khác, ít nhất là khi bạn chạy nó ở chế độ trực quan. Mô hình Gemma thử nghiệm mới của Google không chỉ gõ câu trả lời từ trái sang phải. Thay vào đó, nó xử lý một khối văn bản tại một thời điểm, dần dần thay thế và tinh chỉnh các token cho đến khi câu trả lời được hoàn thiện. Hiệu ứng tương tự như việc xem một trình tạo ảnh khử nhiễu một bức ảnh, đó chính là quá trình "khuếch tán" (diffusion). Đó là một trải nghiệm rất khác so với các LLM thông thường tạo ra từng token một.
Một người đã thử nó trên MacBook Pro M4 Pro sử dụng GGUF 4-bit thông qua bản fork llama.cpp tùy chỉnh được Unsloth mô tả chi tiết. Nó không nhanh hơn so với việc chạy mô hình Gemma 4 26B-A4B thông thường của Google, và nó cũng làm cho máy Mac hoạt động chậm hơn so với các LLM thông thường. Tuy nhiên, đó là một trải nghiệm kỳ lạ, nhưng cũng vô cùng thú vị vì sự khác biệt của nó so với các mô hình ngôn ngữ tự hồi quy điển hình.
DiffusionGemma là gì?
DiffusionGemma là mô hình mở thử nghiệm của Google dành cho việc tạo văn bản, thử nghiệm một ý tưởng rất khác biệt: Thay vì viết từng token một như hầu hết các mô hình ngôn ngữ, nó soạn thảo và tinh chỉnh toàn bộ khối văn bản song song, điều mà Google cho rằng có thể giúp việc tạo văn bản nhanh hơn tới 4 lần trên GPU. Đây là một mô hình trọng số mở Apache 2.0 dựa trên họ Gemma 4, được xây dựng như một mô hình Mixture-of-Experts 26 tỷ với khoảng 4 tỷ tham số hoạt động trong quá trình suy luận, nó có thể xử lý văn bản, hình ảnh và video làm đầu vào trong khi tạo ra đầu ra văn bản.
DiffusionGemma thay đổi cách tạo văn bản
DiffusionGemma tạo cảm giác kỳ lạ vì đầu ra không giống như văn bản thông thường. Khi bật chế độ trực quan, bạn có thể xem một canvas 256 token được viết lại khi mô hình hoạt động, với văn bản trông giống như trình giữ chỗ xuất hiện trước khi các phần của nó thay đổi và câu trả lời dần trở nên mạch lạc hơn. Nó không chỉ là một dòng từ xuất hiện ở cuối từ trước đó, và chỉ riêng điều đó đã khiến nó giống như một loại mô hình cục bộ khác.
Bạn không cần phải quan sát quá trình tạo ra văn bản để mô hình trở nên hữu ích, và nhiều giao diện LLM cục bộ tốt hơn chính vì chúng che giấu những phần phức tạp. Nhưng trong trường hợp này, hình ảnh trực quan đã làm tốt việc giải thích điều gì làm cho DiffusionGemma khác biệt. Bạn có thể đọc về sự lan truyền văn bản bao nhiêu tùy thích, nhưng việc nhìn thấy văn bản liên tục thay đổi tại chỗ sẽ giúp khái niệm này dễ hiểu hơn nhiều.
Một mô hình tự hồi quy thông thường phải commit token tiếp theo, rồi token sau đó, sau nữa. Nó có thể lập kế hoạch theo nghĩa lỏng lẻo, và các mô hình tốt rõ ràng là làm như vậy, nhưng token mà nó viết bây giờ không thể trực tiếp dựa trên token chính xác mà nó sẽ viết sau 50 token nữa vì token đó chưa tồn tại. Thay vào đó, DiffusionGemma hoạt động trên một khối, với sự chú ý hai chiều bên trong khung vẽ đó. Nó có thể sử dụng các phần sau của block để tinh chỉnh các phần trước đó, đó là lý do tại sao đầu ra có thể trông giống như nó đang được tập trung hơn là đang được gõ.
Đó cũng là lý do tại sao DiffusionGemma lại mang đến cảm giác khác biệt so với các mô hình cục bộ mà mọi người thường sử dụng.
Những tuyên bố về tốc độ của Google cần có bối cảnh cụ thể
Điểm mạnh của DiffusionGemma chính là tốc độ. Trong bài đăng ra mắt, Google cho biết mô hình này có thể tạo văn bản nhanh hơn tới 4 lần trên GPU chuyên dụng, với hơn 1.000 token mỗi giây trên một card Nvidia H100 và hơn 700 token mỗi giây trên card RTX 5090. Họ cũng cho biết mô hình lượng tử hóa có thể nằm gọn trong 18GB VRAM trên các GPU cao cấp dành cho người tiêu dùng.
Kết quả chạy trên M4 Pro không giống như vậy. Dù không nhận được kết quả đọc token mỗi giây thông thường, nhưng phần footer chụp được báo cáo tổng cộng 137,9 giây, 123 bước khử nhiễu và 9 block, tương đương với 1,121 giây mỗi bước. Vì mỗi khối là một canvas 256 token, điều đó cũng tương đương với 2.304 vị trí canvas trên 123 bước, hoặc khoảng 18,7 vị trí token cho mỗi bước khử nhiễu.
Phần cứng cũng rất quan trọng. Máy Mac bị chậm lại trên toàn hệ thống trong khi chạy, và cảm giác không nhanh hơn so với việc chạy mô hình Gemma 4 26B-A4B thông thường của Google trên máy tính cục bộ. Google cảnh báo rằng máy Mac dùng chip Apple Silicon có thể không đạt được tốc độ tăng tương tự vì các hệ thống bộ nhớ hợp nhất thường bị giới hạn bởi băng thông bộ nhớ trong quá trình suy luận, trong khi tốc độ tăng của DiffusionGemma dựa trên việc giao cho bộ tăng tốc chuyên dụng một khối lượng công việc tính toán nặng hơn.
Điều đó không có nghĩa là tuyên bố về tốc độ là sai, nó chỉ có nghĩa là phần thú vị trong quá trình chạy không phải là thông lượng thô. Phần thú vị là được thấy mô hình sử dụng một quy trình tạo khác biệt rõ rệt, và thấy điều đó đã thay đổi cảm giác tương tác với mô hình tuyến tính cục bộ như thế nào.
Việc chạy cục bộ vẫn còn ở giai đoạn đầu và hơi khó khăn
Cách đươc sử dụng để thiết lập và chạy cái này là Unsloth GGUF, phụ thuộc vào nhánh DiffusionGemma từ một yêu cầu kéo llama.cpp đang mở. Hướng dẫn của Unsloth xây dựng một trình chạy llama-diffusion-cli chuyên dụng, bởi vì đường dẫn llama-cli hoặc llama-server tiêu chuẩn chưa thể tạo ra từ mô hình.
Sự khác biệt đó rất quan trọng nếu bạn đã quen với việc sử dụng Ollama hoặc llama.cpp làm mặc định LLM cục bộ dễ dàng. Đây không phải là loại mô hình bạn có thể dễ dàng kéo vào thiết lập hiện có của mình và coi như một GGUF khác. Nó cần đúng nhánh, đúng trình chạy và flag --diffusion-visual nếu bạn muốn phần làm cho nó trực quan hơn. Lệnh để chạy nó với đầu ra trực quan, sau khi biên dịch, là:
./llama-diffusion-cli -m ./diffusiongemma-26B-A4B-it-Q4_K_M.gguf -ngl 99 -cnv -n 4096 --diffusion-visual
Các file được lượng tử hóa ít nhất cũng khả thi đối với phần cứng người tiêu dùng. Unsloth liệt kê file Q4KM 16GB là tùy chọn nhỏ nhất, với các biến thể lớn hơn 18GB, 21GB, 25GB và 47GB ở trên. Điều đó đặt mô hình vào cùng một phạm vi chung với các mô hình cục bộ lớn khác mà bạn có thể chạy trên GPU với lượng VRAM kha khá.
Tuy nhiên, đây vẫn là một thiết lập thử nghiệm. Điểm mấu chốt hiện nay là khả năng hỗ trợ người dùng, khả năng vận hành và chất lượng hình ảnh của mô hình, chứ không phải là những điểm chưa hoàn thiện xung quanh một mô hình thông thường nhàm chán. Nếu bạn đã nghe nói về các mô hình phân tán và muốn tự mình trải nghiệm, thì đó chính là sức hấp dẫn của chúng.
DiffusionGemma không phải là bản nâng cấp trực tiếp so với Gemma 4
Cái tên DiffusionGemma nghe giống như một thành viên khác của gia đình Gemma, đúng vậy, nhưng mô hình này có mục tiêu rất khác. Google mô tả nó là một mô hình mở thử nghiệm dựa trên kiến trúc Gemma 4 26B A4B Mixture of Experts, với tổng cộng khoảng 26 tỷ tham số và khoảng 4 tỷ tham số hoạt động. Điểm khác biệt là dạng khuếch tán và tạo dựa trên block, chứ không phải ý tưởng cơ bản của một mô hình MoE cục bộ.
Google khẳng định rất rõ ràng rằng các mô hình tự hồi quy Gemma 4 tiêu chuẩn vẫn là khuyến nghị để đạt chất lượng đầu ra tối đa. DiffusionGemma ưu tiên tốc độ và tạo bố cục song song, và bảng benchmark được công bố thường cho thấy nó xếp sau mô hình Gemma 4 26B A4B tiêu chuẩn trong các bài kiểm tra suy luận, lập trình, thị giác và ngữ cảnh dài.
Bài kiểm tra cụ thể đã thực hiện ít nhất cũng hoạt động được. Người dùng yêu cầu nó tạo ra một game kiểu Flappy Bird bằng Python, hiển thị trên trình duyệt và được chạy bằng Flask, và dự án được tạo ra đã hoạt động khi test. Lực hấp dẫn quá mạnh, nên chơi không được thoải mái lắm, nhưng nó đã tạo ra ứng dụng Flask, HTML, CSS và JavaScript cần thiết để có một game hoạt động trên trình duyệt. Bạn có thể xem toàn bộ đầu ra tại liên kết Gist này.
DiffusionGemma vẫn đang trong giai đoạn thử nghiệm, còn ở giai đoạn đầu và không phải là thứ có thể so sánh với một LLM cục bộ thông thường. Việc quan sát quá trình khử nhiễu câu trả lời diễn ra khá lạ, hơi gây xao nhãng, nhưng thực sự hữu ích để hiểu những gì Google đang cố gắng thực hiện, đồng thời giúp mọi người dễ dàng hiểu hơn bao giờ hết mô hình khuếch tán thực sự trông như thế nào trong thực tế.
Hướng dẫn AI
Học IT
Hàm Excel