Chạy OpenClaw miễn phí: Các mô hình cục bộ với Ollama và Gemma 4

Phương án miễn phí mà chẳng ai biết đến

Trong khi mọi người đang tranh luận về giá cả của Claude so với ChatGPT, thì có một lựa chọn thứ tư hoàn toàn miễn phí: Chạy mô hình AI trên phần cứng của riêng bạn. Không cần API key, không cần thanh toán, không giới hạn tốc độ. Chỉ cần máy tính của bạn thực hiện công việc.

Google đã ra mắt Gemma 4 vài tuần trước - nó được xếp hạng thứ 3 trong số các mô hình mã nguồn mở trên toàn cầu, được cấp phép Apache 2.0 (miễn phí cho mọi thứ, bao gồm cả sử dụng thương mại), và nó chạy trên laptop.

Đến cuối bài học này, bạn sẽ có một mô hình cục bộ miễn phí được kết nối với OpenClaw.

🔄 Tóm tắt nhanh: Trong bài học trước, bạn đã thêm ChatGPT và Gemini làm nhà cung cấp và học cách chuyển đổi giữa chúng bằng lệnh /model. Bây giờ bạn sẽ thêm một tùy chọn thứ tư hoạt động ngay cả khi Internet của bạn bị gián đoạn.

Bước 1: Cài đặt Ollama

Ollama giúp việc chạy các mô hình cục bộ trở nên cực kỳ đơn giản. Chỉ cần một lần cài đặt, một lệnh để tải mô hình và bạn đã có thể chạy.

macOS:

brew install ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: Tải xuống từ ollama.com và chạy trình cài đặt.

Khởi động service:

ollama serve

Service này chạy ngầm trên http://127.0.0.1:11434.

Kiểm tra nhanh: Ollama mặc định lắng nghe trên cổng nào? Đáp án: 11434

Bước 2: Chọn kích thước Gemma 4 của bạn

Đây là hướng dẫn phần cứng trung thực:

Mô hìnhCác tham sốRAM cần thiếtTốc độChất lượng
Gemma 4 E2B~2B4GBRất nhanhChỉ thực hiện các nhiệm vụ cơ bản
Gemma 4 E4B~4B8GBNhanhThích hợp cho việc xem xét mã nguồn và giải thích
Gemma 4 26B MoE26B (3.8B active)20GB (16GB Q4)Trung bìnhChất lượng gần 13B, tốc độ 4B
Gemma 4 31B Dense31B24GB+Chậm hơnPhần cứng chất lượng tốt nhất, chuyên nghiệp

Hầu hết các nhà phát triển nên bắt đầu với E4B. Nó chạy trên hầu hết mọi máy tính hiện đại và xử lý tốt các tác vụ lập trình đơn giản. Nếu bạn có RAM từ 20GB trở lên, hãy thử 26B MoE - nó vượt trội hơn hẳn so với các máy cùng loại.

Tải xuống mô hình:

# Mặc định (E4B - hoạt động trên hầu hết các máy)
ollama pull gemma4

# 26B MoE (chất lượng tốt hơn, cần RAM từ 20GB trở lên)
ollama pull gemma4:26b

# Nhỏ nhất (cho phần cứng hạn chế)
ollama pull gemma4:e2b

Dung lượng tải xuống E4B khoảng 3GB. 26B khoảng 16GB. Hãy chuẩn bị một tách cà phê trong lúc chờ quá trình tải xuống hoàn tất.

Bước 3: Kiểm tra độc lập

Trước khi kết nối với OpenClaw, hãy đảm bảo rằng nó hoạt động:

ollama run gemma4

Nhập một câu hỏi lập trình:

Điều gì sai với biểu thức chính quy này: /^[a-z]+@[a-z]+\.[a-z]{2,3}$/

Gemma 4 sẽ xác định các hạn chế (không có chữ hoa, không có số, không có subdomain, giới hạn độ dài TLD). Nếu bạn nhận được câu trả lời hợp lý, mô hình cục bộ của bạn đang hoạt động.

Nhập /bye để thoát.

Bước 4: Kết nối với OpenClaw

OpenClaw có trình cung cấp Ollama được tích hợp sẵn. Nó tự động phát hiện phiên bản cục bộ của bạn.

openclaw config set providers.ollama.baseUrl "http://127.0.0.1:11434"
openclaw models set ollama/gemma4

Đối với mô hình 26B:

openclaw models set ollama/gemma4:26b

Kiểm tra:

openclaw chat

Bây giờ, bạn đang chạy OpenClaw với một mô hình AI cục bộ hoàn toàn miễn phí. Không cần API key. Không tính phí. Không có dữ liệu nào rời khỏi máy của bạn.

Kiểm tra nhanh: Lệnh nào kết nối OpenClaw với phiên bản Ollama cục bộ của bạn?

Đáp án: openclaw config set providers.ollama.baseUrl "http://127.0.0.1:11434"

Những điểm mạnh (và điểm yếu) của các mô hình cục bộ

Hãy thẳng thắn về những sự đánh đổi:

Điểm mạnh của Gemma 4 khi chạy cục bộ:

  • Xem xét code và phát hiện lỗi - mô hình 26B thực sự rất tốt ở khoản này
  • Giải thích code, tạo chú thích, viết tài liệu
  • Tạo boilerplate (các tuyến CRUD, file cấu hình, kiểm thử)
  • Bảo mật hoàn toàn - không có gì rời khỏi máy của bạn
  • Không giới hạn tốc độ, không có hóa đơn bất ngờ, hoạt động ngoại tuyến

Điểm yếu:

  • Tái cấu trúc đa file phức tạp - các mô hình đám mây vượt trội hơn trong những tác vụ ngữ cảnh lớn
  • Các quyết định kiến ​​trúc tinh tế - những mô hình lớp Opus suy nghĩ sâu sắc hơn
  • Tốc độ tạo ra các file lớn - tạo ra hơn 500 dòng chậm hơn đáng kể so với API
  • Cửa sổ ngữ cảnh - thường là 8-32K token cục bộ so với hơn 200K trên các mô hình đám mây

Cách tiếp cận thông minh: Sử dụng mô hình cục bộ của bạn cho 50% các tác vụ thường xuyên. Chuyển sang điện toán đám mây cho 50% trường hợp cần suy luận phức tạp. Hóa đơn API hàng tháng của bạn sẽ giảm đáng kể.

Mẹo chuyên nghiệp để cải thiện hiệu suất cục bộ

1. Giữ cho mô hình được load. Khởi động nguội mất 5-10 giây:

ollama run gemma4 --keepalive 30m

2. Sử dụng lượng tử hóa Q4_K_M cho 26B. Nó giảm bộ nhớ khoảng 55% với tổn thất chất lượng tối thiểu. Đây là những gì Ollama sử dụng theo mặc định.

3. Đóng các ứng dụng nặng khác. Suy luận cục bộ sử dụng RAM rất nhiều. Chrome với 40 tab + Gemma 4 = thời gian tệ.

4. Giám sát tài nguyên của bạn:

# macOS
top -l 1 | grep -E "PhysMem|CPU"

# Linux
free -h && top -bn1 | head -5

Hãy tự mình thử!

Thực hiện thiết lập cục bộ đầy đủ:

# 1. Cài đặt Ollama
brew install ollama # hoặc curl cho Linux

# 2. Khởi động service
ollama serve

# 3. Tải Gemma 4
ollama pull gemma4

# 4. Kết nối với OpenClaw
openclaw config set providers.ollama.baseUrl "http://127.0.0.1:11434"
openclaw models set ollama/gemma4

# 5. Kiểm tra với một bài tập lập trình
openclaw chat

Yêu cầu nó xem xét code này - và so sánh chất lượng phản hồi với những gì Claude đã cung cấp cho bạn trong bài học 3:

Tìm tất cả các lỗi và đề xuất cải tiến:

async function processOrders(orders) {
  for (const order of orders) {
    await sendEmail(order.customer)
    await updateInventory(order.items)
    await chargePayment(order.total)
  }
  return { success: true }
}

Bạn có thể nhận thấy mô hình cục bộ nắm bắt được các vấn đề rõ ràng (xử lý tuần tự, không xử lý lỗi) nhưng có thể bỏ sót các vấn đề tinh tế hơn (điều gì xảy ra nếu chargePayment thất bại sau khi updateInventory thành công?). Đó là khoảng cách về chất lượng - và đó là lý do tại sao bạn giữ lại các nhà cung cấp dịch vụ đám mây cho những tác vụ phức tạp.

Những điểm chính cần ghi nhớ

  • Ollama + Gemma 4 cung cấp cho bạn một trợ lý lập trình AI riêng tư, miễn phí trên phần cứng của riêng bạn
  • E4B chạy trên 8GB RAM; 26B MoE cần 20GB+ nhưng mang lại chất lượng tốt hơn nhiều
  • Các mô hình cục bộ xử lý 50% những tác vụ lập trình thường xuyên một cách hoàn hảo
  • Sự đánh đổi: Ít ngữ cảnh hơn, tạo chậm hơn, khả năng suy luận yếu hơn so với các mô hình đám mây
  • Kết hợp cục bộ cho các tác vụ thường xuyên + đám mây cho những tác vụ phức tạp = chi phí hàng tháng thấp nhất có thể
  • Câu 1:

    Bạn có một chiếc MacBook Air với 16GB RAM. Bạn nên sử dụng mô hình Gemma 4 nào?

    GIẢI THÍCH:

    Mô hình E4B dễ dàng phù hợp với 16GB. Mô hình 26B MoE với lượng tử hóa Q4 có thể vừa với ~16GB nhưng sẽ hơi chật chội. Mô hình 31B Dense cần 24GB trở lên. Hãy bắt đầu với E4B để đảm bảo độ tin cậy, thử mô hình 26B lượng tử hóa nếu bạn muốn đẩy hiệu năng lên cao hơn.

  • Câu 2:

    Mô hình Gemma 4 26B MoE có 26 tỷ tham số nhưng chỉ kích hoạt 3,8 tỷ tham số mỗi phản hồi. Điều này có nghĩa là gì trong thực tế?

    GIẢI THÍCH:

    Kiến trúc Mixture of Experts (MoE) chỉ kích hoạt một tập hợp nhỏ các tham số trên mỗi token. Mô hình 26B MoE chạy nhanh như mô hình 4B nhưng tạo ra chất lượng gần với mô hình lớn hơn nhiều - đây là lựa chọn chất lượng tốt nhất trên mỗi RAM.

Thứ Bảy, 18/04/2026 08:44
51 👨 55
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ Học OpenClaw