Chạy OpenClaw miễn phí: Các mô hình cục bộ với Ollama và Gemma 4

Trần Mến

Bài trước

Bài sau

Phương án miễn phí mà chẳng ai biết đến

Trong khi mọi người đang tranh luận về giá cả của Claude so với ChatGPT, thì có một lựa chọn thứ tư hoàn toàn miễn phí: Chạy mô hình AI trên phần cứng của riêng bạn. Không cần API key, không cần thanh toán, không giới hạn tốc độ. Chỉ cần máy tính của bạn thực hiện công việc.

Google đã ra mắt Gemma 4 vài tuần trước - nó được xếp hạng thứ 3 trong số các mô hình mã nguồn mở trên toàn cầu, được cấp phép Apache 2.0 (miễn phí cho mọi thứ, bao gồm cả sử dụng thương mại), và nó chạy trên laptop.

Đến cuối bài học này, bạn sẽ có một mô hình cục bộ miễn phí được kết nối với OpenClaw.

🔄 Tóm tắt nhanh: Trong bài học trước, bạn đã thêm ChatGPT và Gemini làm nhà cung cấp và học cách chuyển đổi giữa chúng bằng lệnh /model. Bây giờ bạn sẽ thêm một tùy chọn thứ tư hoạt động ngay cả khi Internet của bạn bị gián đoạn.

Bước 1: Cài đặt Ollama

Ollama giúp việc chạy các mô hình cục bộ trở nên cực kỳ đơn giản. Chỉ cần một lần cài đặt, một lệnh để tải mô hình và bạn đã có thể chạy.

macOS:

brew install ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: Tải xuống từ ollama.com và chạy trình cài đặt.

Khởi động service:

ollama serve

Service này chạy ngầm trên http://127.0.0.1:11434.

✅ Kiểm tra nhanh: Ollama mặc định lắng nghe trên cổng nào? Đáp án: 11434

Bước 2: Chọn kích thước Gemma 4 của bạn

Đây là hướng dẫn phần cứng trung thực:

Mô hình	Các tham số	RAM cần thiết	Tốc độ	Chất lượng
Gemma 4 E2B	~2B	4GB	Rất nhanh	Chỉ thực hiện các nhiệm vụ cơ bản
Gemma 4 E4B	~4B	8GB	Nhanh	Thích hợp cho việc xem xét mã nguồn và giải thích
Gemma 4 26B MoE	26B (3.8B active)	20GB (16GB Q4)	Trung bình	Chất lượng gần 13B, tốc độ 4B
Gemma 4 31B Dense	31B	24GB+	Chậm hơn	Phần cứng chất lượng tốt nhất, chuyên nghiệp

Hầu hết các nhà phát triển nên bắt đầu với E4B. Nó chạy trên hầu hết mọi máy tính hiện đại và xử lý tốt các tác vụ lập trình đơn giản. Nếu bạn có RAM từ 20GB trở lên, hãy thử 26B MoE - nó vượt trội hơn hẳn so với các máy cùng loại.

Tải xuống mô hình:

# Mặc định (E4B - hoạt động trên hầu hết các máy)
ollama pull gemma4

# 26B MoE (chất lượng tốt hơn, cần RAM từ 20GB trở lên)
ollama pull gemma4:26b

# Nhỏ nhất (cho phần cứng hạn chế)
ollama pull gemma4:e2b

Dung lượng tải xuống E4B khoảng 3GB. 26B khoảng 16GB. Hãy chuẩn bị một tách cà phê trong lúc chờ quá trình tải xuống hoàn tất.

Bước 3: Kiểm tra độc lập

Trước khi kết nối với OpenClaw, hãy đảm bảo rằng nó hoạt động:

ollama run gemma4

Nhập một câu hỏi lập trình:

Điều gì sai với biểu thức chính quy này: /^[a-z]+@[a-z]+\.[a-z]{2,3}$/

Gemma 4 sẽ xác định các hạn chế (không có chữ hoa, không có số, không có subdomain, giới hạn độ dài TLD). Nếu bạn nhận được câu trả lời hợp lý, mô hình cục bộ của bạn đang hoạt động.

Nhập /bye để thoát.

Bước 4: Kết nối với OpenClaw

OpenClaw có trình cung cấp Ollama được tích hợp sẵn. Nó tự động phát hiện phiên bản cục bộ của bạn.

openclaw config set providers.ollama.baseUrl "http://127.0.0.1:11434"
openclaw models set ollama/gemma4

Đối với mô hình 26B:

openclaw models set ollama/gemma4:26b

Kiểm tra:

openclaw chat

Bây giờ, bạn đang chạy OpenClaw với một mô hình AI cục bộ hoàn toàn miễn phí. Không cần API key. Không tính phí. Không có dữ liệu nào rời khỏi máy của bạn.

✅ Kiểm tra nhanh: Lệnh nào kết nối OpenClaw với phiên bản Ollama cục bộ của bạn?

Đáp án: openclaw config set providers.ollama.baseUrl "http://127.0.0.1:11434"

Những điểm mạnh (và điểm yếu) của các mô hình cục bộ

Hãy thẳng thắn về những sự đánh đổi:

Điểm mạnh của Gemma 4 khi chạy cục bộ:

Xem xét code và phát hiện lỗi - mô hình 26B thực sự rất tốt ở khoản này
Giải thích code, tạo chú thích, viết tài liệu
Tạo boilerplate (các tuyến CRUD, file cấu hình, kiểm thử)
Bảo mật hoàn toàn - không có gì rời khỏi máy của bạn
Không giới hạn tốc độ, không có hóa đơn bất ngờ, hoạt động ngoại tuyến

Điểm yếu:

Tái cấu trúc đa file phức tạp - các mô hình đám mây vượt trội hơn trong những tác vụ ngữ cảnh lớn
Các quyết định kiến trúc tinh tế - những mô hình lớp Opus suy nghĩ sâu sắc hơn
Tốc độ tạo ra các file lớn - tạo ra hơn 500 dòng chậm hơn đáng kể so với API
Cửa sổ ngữ cảnh - thường là 8-32K token cục bộ so với hơn 200K trên các mô hình đám mây

Cách tiếp cận thông minh: Sử dụng mô hình cục bộ của bạn cho 50% các tác vụ thường xuyên. Chuyển sang điện toán đám mây cho 50% trường hợp cần suy luận phức tạp. Hóa đơn API hàng tháng của bạn sẽ giảm đáng kể.

Mẹo chuyên nghiệp để cải thiện hiệu suất cục bộ

1. Giữ cho mô hình được load. Khởi động nguội mất 5-10 giây:

ollama run gemma4 --keepalive 30m

2. Sử dụng lượng tử hóa Q4_K_M cho 26B. Nó giảm bộ nhớ khoảng 55% với tổn thất chất lượng tối thiểu. Đây là những gì Ollama sử dụng theo mặc định.

3. Đóng các ứng dụng nặng khác. Suy luận cục bộ sử dụng RAM rất nhiều. Chrome với 40 tab + Gemma 4 = thời gian tệ.

4. Giám sát tài nguyên của bạn:

# macOS
top -l 1 | grep -E "PhysMem|CPU"

# Linux
free -h && top -bn1 | head -5

Hãy tự mình thử!

Thực hiện thiết lập cục bộ đầy đủ:

# 1. Cài đặt Ollama
brew install ollama # hoặc curl cho Linux

# 2. Khởi động service
ollama serve

# 3. Tải Gemma 4
ollama pull gemma4

# 4. Kết nối với OpenClaw
openclaw config set providers.ollama.baseUrl "http://127.0.0.1:11434"
openclaw models set ollama/gemma4

# 5. Kiểm tra với một bài tập lập trình
openclaw chat

Yêu cầu nó xem xét code này - và so sánh chất lượng phản hồi với những gì Claude đã cung cấp cho bạn trong bài học 3:

Tìm tất cả các lỗi và đề xuất cải tiến:

async function processOrders(orders) {
  for (const order of orders) {
    await sendEmail(order.customer)
    await updateInventory(order.items)
    await chargePayment(order.total)
  }
  return { success: true }
}

Bạn có thể nhận thấy mô hình cục bộ nắm bắt được các vấn đề rõ ràng (xử lý tuần tự, không xử lý lỗi) nhưng có thể bỏ sót các vấn đề tinh tế hơn (điều gì xảy ra nếu chargePayment thất bại sau khi updateInventory thành công?). Đó là khoảng cách về chất lượng - và đó là lý do tại sao bạn giữ lại các nhà cung cấp dịch vụ đám mây cho những tác vụ phức tạp.

Những điểm chính cần ghi nhớ

Ollama + Gemma 4 cung cấp cho bạn một trợ lý lập trình AI riêng tư, miễn phí trên phần cứng của riêng bạn
E4B chạy trên 8GB RAM; 26B MoE cần 20GB+ nhưng mang lại chất lượng tốt hơn nhiều
Các mô hình cục bộ xử lý 50% những tác vụ lập trình thường xuyên một cách hoàn hảo
Sự đánh đổi: Ít ngữ cảnh hơn, tạo chậm hơn, khả năng suy luận yếu hơn so với các mô hình đám mây
Kết hợp cục bộ cho các tác vụ thường xuyên + đám mây cho những tác vụ phức tạp = chi phí hàng tháng thấp nhất có thể

Câu 1:
Bạn có một chiếc MacBook Air với 16GB RAM. Bạn nên sử dụng mô hình Gemma 4 nào?
- A. Gemma 4 31B Dense
- B. Gemma 4 26B MoE (lượng tử hóa Q4)
- C. Gemma 4 E4B
- D. Bất kỳ mô hình nào - RAM không quan trọng đối với suy luận cục bộ
GIẢI THÍCH:

Mô hình E4B dễ dàng phù hợp với 16GB. Mô hình 26B MoE với lượng tử hóa Q4 có thể vừa với ~16GB nhưng sẽ hơi chật chội. Mô hình 31B Dense cần 24GB trở lên. Hãy bắt đầu với E4B để đảm bảo độ tin cậy, thử mô hình 26B lượng tử hóa nếu bạn muốn đẩy hiệu năng lên cao hơn.
Câu 2:
Mô hình Gemma 4 26B MoE có 26 tỷ tham số nhưng chỉ kích hoạt 3,8 tỷ tham số mỗi phản hồi. Điều này có nghĩa là gì trong thực tế?
- A. Nó tạo ra đầu ra chất lượng thấp hơn so với mô hình 26B
- B. Nó chạy nhanh gần bằng mô hình 4B trong khi tạo ra chất lượng gần với mô hình 13B
- C. Nó yêu cầu 26GB VRAM để chạy
- D. Nó chỉ có thể xử lý 3,8 tỷ token mỗi phiên
GIẢI THÍCH:

Kiến trúc Mixture of Experts (MoE) chỉ kích hoạt một tập hợp nhỏ các tham số trên mỗi token. Mô hình 26B MoE chạy nhanh như mô hình 4B nhưng tạo ra chất lượng gần với mô hình lớn hơn nhiều - đây là lựa chọn chất lượng tốt nhất trên mỗi RAM.

Thứ Bảy, 18/04/2026 08:44

5 ★ 1 👨 333

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Học OpenClaw

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Chạy OpenClaw miễn phí: Các mô hình cục bộ với Ollama và Gemma 4

Phương án miễn phí mà chẳng ai biết đến

Bước 1: Cài đặt Ollama

Bước 2: Chọn kích thước Gemma 4 của bạn

Bước 3: Kiểm tra độc lập

Bước 4: Kết nối với OpenClaw

Những điểm mạnh (và điểm yếu) của các mô hình cục bộ

Mẹo chuyên nghiệp để cải thiện hiệu suất cục bộ

Hãy tự mình thử!

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Thành thạo OpenClaw

Xuất bản OpenClaw skill

Test và gỡ lỗi skill trong OpenClaw

Các tham số và biến của OpenClaw Skill

Quy trình làm việc nhiều bước trong OpenClaw

Kết nối Claude với OpenClaw: API key, thanh toán và cấu hình

Danh sách kiểm tra bảo mật OpenClaw skill

Kết nối ChatGPT và Gemini với OpenClaw: Thêm hai nhà cung cấp nữa trong 5 phút

Cài đặt và chạy OpenClaw lần đầu trên mọi nền tảng