Theo dõi chi tiêu và chọn mô hình phù hợp cho từng nhiệm vụ

Nhà phát triển $200/ngày so với nhà phát triển $5/tháng

Một nhà phát triển sử dụng Claude Opus cả ngày thông qua API sẽ tiêu tốn hơn $200/ngày. Một nhà phát triển khác làm công việc tương tự chỉ tốn $5/tháng bằng cách kết hợp các mô hình một cách chiến lược. Năng suất như nhau. Chi phí chênh lệch gấp 40 lần.

Bí quyết không phải là một công cụ đặc biệt hay thủ thuật nào cả - mà là hiểu được chi phí của mỗi "token" và lựa chọn mô hình phù hợp với nhiệm vụ.

Đến cuối bài học này, bạn sẽ biết chính xác mình đang chi tiêu bao nhiêu và làm thế nào để cắt giảm chi phí.

🔄 Tóm tắt nhanh: Bạn còn nhớ 4 loại nhà cung cấp từ bài học 1 không? Cao cấp ($100-360/tháng), Trung cấp ($8-30/tháng), Tiết kiệm ($0.30-5/tháng) và Cục bộ ($0). Bài học này sẽ chỉ cho bạn cách luôn nằm trong phạm vi ngân sách mà không làm giảm chất lượng.

Cách tính giá token

Mỗi nhà cung cấp AI tính phí theo "token" - khoảng 4 ký tự hoặc ¾ từ trong tiếng Anh. Giá cả được chia thành hai thành phần:

  • Token đầu vào: Những gì bạn gửi (prompt của bạn + lịch sử cuộc hội thoại)
  • Token đầu ra: Những gì AI tạo ra (phản hồi của nó)

Token đầu ra hầu như luôn có giá cao hơn. Đây là tình hình hiện tại:

Nhà cung cấpMô hìnhĐầu vào (mỗi 1M)Đầu ra (mỗi 1M)
AnthropicClaude Opus 4.6$5.00$25.00
AnthropicClaude Sonnet 4.6$3.00$15.00
AnthropicClaude Haiku 4.5$1.00$5.00
OpenAIGPT-5.4$2.50$15.00
GoogleGemini 3.1 Pro$2.00$12.00
GoogleGemini Flash~$0.07~$0.30
DeepSeekV3.2$0.28$0.42
LocalGemma 4 (Ollama)$0.00$0.00

Kiểm tra nhanh: Cái nào tốn kém nhiều hơn - token đầu vào hay token đầu ra?

Đáp án: Token đầu ra, vì AI phải tạo ra chúng, điều này đòi hỏi nhiều sức mạnh tính toán hơn.

Chi phí thực tế của các tác vụ

Việc định giá trừu tượng trên mỗi triệu token rất khó. Dưới đây là chi phí thực tế của các tác vụ phổ biến:

Tác vụToken đã sử dụng (xấp xỉ)Claude SonnetGemini FlashCục bộ
"Hãy giải thích lỗi này"~500 vào / ~300 ra$0.006$0.0001$0
Kiểm tra code (200 dòng)~2K vào / ~1K ra$0.02$0.0004$0
Viết 10 bài unit test~1K vào / ~3K ra$0.05$0.001$0
Tái cấu trúc một file (500 dòng)~5K vào / ~3K ra$0.06$0.001$0
Gỡ lỗi sự cố phức tạp (phiên làm việc dài)~50K vào / ~10K ra$0.30$0.005$0

Với một ngày lập trình 4 tiếng điển hình sử dụng Sonnet, bạn sẽ tốn từ 1 đến 5 USD. Một tháng sử dụng vừa phải: Từ 15 đến 30 USD. Đó là con số thực tế - chứ không phải con số đáng sợ "1.650 USD/tháng" đã gây xôn xao dư luận.

Chi phí ẩn: Tích lũy ngữ cảnh

Điều mà không ai nói cho bạn biết: Tích lũy ngữ cảnh là yếu tố gây tốn kém lớn nhất. Nó chiếm 40 - 50% mức tiêu thụ token thông thường.

Mỗi tin nhắn trong cuộc trò chuyện của bạn đều được gửi lại với mỗi yêu cầu mới - bao gồm tất cả đầu ra của công cụ, nội dung file và các phản hồi trước đó. Đến tin nhắn thứ 30 trong một phiên, bạn đang phải trả tiền để gửi lại các tin nhắn từ 1 đến 29 với mỗi câu hỏi mới.

Cách khắc phục:

# Bắt đầu một phiên mới khi chuyển đổi tác vụ
/new

# Kiểm tra kích thước ngữ cảnh hiện tại của bạn
/status

Lệnh /status hiển thị mức sử dụng ngữ cảnh và chi phí ước tính của phiên hiện tại. Nếu bạn thấy ngữ cảnh vượt quá 50.000 token, hãy bắt đầu một phiên mới.

Nguyên tắc chung: Bắt đầu một phiên mới cho mỗi tác vụ riêng biệt. Đừng yêu cầu OpenClaw xem xét code của bạn, sau đó viết các bài kiểm tra, rồi giải thích thuật toán tất cả trong cùng một phiên. Mỗi tác vụ mới nên là một cuộc hội thoại mới.

Kiểm tra nhanh: Phiên của bạn hiển thị 80.000 token ngữ cảnh. Bạn nên làm gì?

Câu trả lời: Bắt đầu một phiên mới với lệnh /new - bạn đang trả tiền để gửi lại tất cả 80.000 token với mỗi tin nhắn mới.

Theo dõi chi tiêu của bạn trong OpenClaw

OpenClaw có tính năng theo dõi chi phí tích hợp. Sử dụng các lệnh sau:

# Hiển thị tóm tắt chi phí phiên
/usage cost

# Hiển thị chi tiết phân bổ token cho mỗi tin nhắn
/usage full

# Hiển thị trạng thái phiên hiện tại bao gồm mô hình và chi phí
/status

Lệnh /usage full sẽ thêm phần footer chi phí vào mỗi phản hồi. Hãy bật tính năng này khi bạn bắt đầu theo dõi lần đầu tiên - nó giúp hiển thị chi phí mà không cần thêm nỗ lực.

Thiết lập giới hạn chi tiêu ở cấp nhà cung cấp:

  • Anthropic: console.anthropic.com → Settings → Plans & Billing → Monthly spending limit
  • OpenAI: platform.openai.com → Settings → Billing → Usage limits
  • Google: Thiết lập cảnh báo ngân sách trong Google Cloud Console

Đặt giới hạn Anthropic của bạn ở mức 150% chi tiêu dự kiến ​​hàng tháng. Điều này giúp bạn có đủ ngân sách cho những tuần bận rộn đồng thời ngăn ngừa chi phí vượt quá dự kiến.

Chiến lược tối ưu hóa chi phí

Đây là chiến lược khớp mô hình giúp giảm chi phí từ 50 - 80%:

Cấp 1 - Miễn phí (sử dụng lần đầu): - Gemma 4 cục bộ để: giải thích lỗi, viết bình luận, xem xét code đơn giản, tạo boilerplate - Chi phí: $0

Cấp 2 - Tiết kiệm ($0.30-5/tháng): - Gemini Flash để: viết test, tái cấu trúc tiêu chuẩn, tạo tài liệu, gỡ lỗi đơn giản - Chi phí: vài phần trăm xu cho mỗi tác vụ

Cấp 3 - Trung bình ($8-30/tháng): - Claude Sonnet hoặc Gemini Pro để: xem xét code thực tế, tái cấu trúc phức tạp, gỡ lỗi sự cố sản xuất - Chi phí: $0.02-0.06 cho mỗi tác vụ

Cấp 4 - Cao cấp (theo yêu cầu): - Claude Opus để: quyết định kiến ​​trúc, xem xét bảo mật phức tạp, lỗi đồng thời tinh vi - Chi phí: $0.10-0.50 cho mỗi tác vụ

Quy trình làm việc:

# Bắt đầu trên cục bộ
/model ollama/gemma4

# Tác vụ đơn giản → Giữ nguyên cục bộ
"Viết docstring cho hàm này"

# Hmm, cần chất lượng tốt hơn → nâng cấp lên Sonnet
/model anthropic/claude-sonnet-4-6

# Gặp lỗi rất khó → đến lúc dùng Opus
/model anthropic/claude-opus-4-6

# Đã sửa → quay lại cục bộ
/model ollama/gemma4

Hãy tự mình thử!

Theo dõi chi phí của bạn cho một phiên lập trình:

# 1. Bắt đầu một cuộc trò chuyện với tính năng theo dõi chi phí được bật
openclaw chat

# 2. Bật hiển thị chi phí cho mỗi tin nhắn
/usage full

# 3. Thực hiện ba nhiệm vụ trên ba mô hình:

# Task A: Giải thích lỗi (sử dụng cục bộ)
/model ollama/gemma4
"Giải thích: TypeError: Không thể đọc thuộc tính của undefined (đọc 'map')"

# Task B: Viết các bài unit test (sử dụng Flash)
/model google/gemini-3.1-flash
"Viết 5 bài unit test cho một hàm xác thực địa chỉ email"

# Task C: Xem xét code phức tạp (sử dụng Sonnet)
/model anthropic/claude-sonnet-4-6
"Xem xét middleware xác thực này để tìm các lỗ hổng bảo mật: [dán code của bạn]"

# 4. Kiểm tra tổng chi tiêu của bạn
/usage cost

So sánh chi phí giữa các cấp độ. Task A phải là 0 USD, Task B phải dưới 0,01 USD và Task C phải dưới 0,10 USD. Đó là sức mạnh của việc khớp mô hình.

Những điểm chính cần ghi nhớ

  • Token đầu ra có giá cao hơn token đầu vào - hãy lưu ý đến lượng văn bản bạn yêu cầu AI tạo ra
  • Việc tích lũy ngữ cảnh (40-50% chi phí) có nghĩa là các phiên dài sẽ nhanh chóng trở nên đắt đỏ - hãy bắt đầu lại từ đầu cho mỗi tác vụ
  • Sử dụng lệnh /status/usage cost để theo dõi chi tiêu trong thời gian thực
  • Ghép mô hình phù hợp với nhiệm vụ: Miễn phí cho các tác vụ thường xuyên, ngân sách cho những tác vụ tiêu chuẩn, tầm trung cho các tác vụ nghiêm trọng, cao cấp cho những vấn đề khó khăn
  • Đặt giới hạn chi tiêu ở cấp độ nhà cung cấp như một mạng lưới an toàn
  • Câu 1:

    Việc xem xét code 200 dòng có giá 0,15 USD trên Claude Sonnet và 0,003 USD trên Gemini Flash. Vậy khi nào bạn nên sử dụng Sonnet?

    GIẢI THÍCH:

    Đối với code phức tạp với logic tinh tế, điều kiện tranh chấp hoặc các vấn đề bảo mật, khoảng cách về chất lượng rất quan trọng - Sonnet phát hiện ra những vấn đề mà Flash bỏ sót. Đối với các kiểm tra kiểu đơn giản, tái cấu trúc tiêu chuẩn hoặc code dễ hiểu, Flash hoàn toàn đáp ứng được nhu cầu và rẻ hơn 50 lần.

  • Câu 2:

    Việc tích lũy ngữ cảnh chiếm 40-50% lượng token tiêu thụ. Nguyên nhân là gì?

    GIẢI THÍCH:

    Mỗi khi bạn gửi một tin nhắn mới, OpenClaw sẽ gửi lại toàn bộ lịch sử cuộc hội thoại - tất cả các tin nhắn trước đó, kết quả đầu ra của công cụ và nội dung file. Một phiên 30 tin nhắn có nghĩa là tin nhắn thứ 30 bao gồm tất cả 29 tin nhắn trước đó. Đây là lý do tại sao các phiên dài nhanh chóng trở nên đắt đỏ.

Thứ Bảy, 18/04/2026 09:33
51 👨 42
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ Học OpenClaw