Theo dõi chi tiêu và chọn mô hình phù hợp cho từng nhiệm vụ

Trần Mến

Bài trước

Bài sau

Nhà phát triển $200/ngày so với nhà phát triển $5/tháng

Một nhà phát triển sử dụng Claude Opus cả ngày thông qua API sẽ tiêu tốn hơn $200/ngày. Một nhà phát triển khác làm công việc tương tự chỉ tốn $5/tháng bằng cách kết hợp các mô hình một cách chiến lược. Năng suất như nhau. Chi phí chênh lệch gấp 40 lần.

Bí quyết không phải là một công cụ đặc biệt hay thủ thuật nào cả - mà là hiểu được chi phí của mỗi "token" và lựa chọn mô hình phù hợp với nhiệm vụ.

Đến cuối bài học này, bạn sẽ biết chính xác mình đang chi tiêu bao nhiêu và làm thế nào để cắt giảm chi phí.

🔄 Tóm tắt nhanh: Bạn còn nhớ 4 loại nhà cung cấp từ bài học 1 không? Cao cấp ($100-360/tháng), Trung cấp ($8-30/tháng), Tiết kiệm ($0.30-5/tháng) và Cục bộ ($0). Bài học này sẽ chỉ cho bạn cách luôn nằm trong phạm vi ngân sách mà không làm giảm chất lượng.

Cách tính giá token

Mỗi nhà cung cấp AI tính phí theo "token" - khoảng 4 ký tự hoặc ¾ từ trong tiếng Anh. Giá cả được chia thành hai thành phần:

Token đầu vào: Những gì bạn gửi (prompt của bạn + lịch sử cuộc hội thoại)
Token đầu ra: Những gì AI tạo ra (phản hồi của nó)

Token đầu ra hầu như luôn có giá cao hơn. Đây là tình hình hiện tại:

Nhà cung cấp	Mô hình	Đầu vào (mỗi 1M)	Đầu ra (mỗi 1M)
Anthropic	Claude Opus 4.6	$5.00	$25.00
Anthropic	Claude Sonnet 4.6	$3.00	$15.00
Anthropic	Claude Haiku 4.5	$1.00	$5.00
OpenAI	GPT-5.4	$2.50	$15.00
Google	Gemini 3.1 Pro	$2.00	$12.00
Google	Gemini Flash	~$0.07	~$0.30
DeepSeek	V3.2	$0.28	$0.42
Local	Gemma 4 (Ollama)	$0.00	$0.00

✅ Kiểm tra nhanh: Cái nào tốn kém nhiều hơn - token đầu vào hay token đầu ra?

Đáp án: Token đầu ra, vì AI phải tạo ra chúng, điều này đòi hỏi nhiều sức mạnh tính toán hơn.

Chi phí thực tế của các tác vụ

Việc định giá trừu tượng trên mỗi triệu token rất khó. Dưới đây là chi phí thực tế của các tác vụ phổ biến:

Tác vụ	Token đã sử dụng (xấp xỉ)	Claude Sonnet	Gemini Flash	Cục bộ
"Hãy giải thích lỗi này"	~500 vào / ~300 ra	$0.006	$0.0001	$0
Kiểm tra code (200 dòng)	~2K vào / ~1K ra	$0.02	$0.0004	$0
Viết 10 bài unit test	~1K vào / ~3K ra	$0.05	$0.001	$0
Tái cấu trúc một file (500 dòng)	~5K vào / ~3K ra	$0.06	$0.001	$0
Gỡ lỗi sự cố phức tạp (phiên làm việc dài)	~50K vào / ~10K ra	$0.30	$0.005	$0

Với một ngày lập trình 4 tiếng điển hình sử dụng Sonnet, bạn sẽ tốn từ 1 đến 5 USD. Một tháng sử dụng vừa phải: Từ 15 đến 30 USD. Đó là con số thực tế - chứ không phải con số đáng sợ "1.650 USD/tháng" đã gây xôn xao dư luận.

Chi phí ẩn: Tích lũy ngữ cảnh

Điều mà không ai nói cho bạn biết: Tích lũy ngữ cảnh là yếu tố gây tốn kém lớn nhất. Nó chiếm 40 - 50% mức tiêu thụ token thông thường.

Mỗi tin nhắn trong cuộc trò chuyện của bạn đều được gửi lại với mỗi yêu cầu mới - bao gồm tất cả đầu ra của công cụ, nội dung file và các phản hồi trước đó. Đến tin nhắn thứ 30 trong một phiên, bạn đang phải trả tiền để gửi lại các tin nhắn từ 1 đến 29 với mỗi câu hỏi mới.

Cách khắc phục:

# Bắt đầu một phiên mới khi chuyển đổi tác vụ
/new

# Kiểm tra kích thước ngữ cảnh hiện tại của bạn
/status

Lệnh /status hiển thị mức sử dụng ngữ cảnh và chi phí ước tính của phiên hiện tại. Nếu bạn thấy ngữ cảnh vượt quá 50.000 token, hãy bắt đầu một phiên mới.

Nguyên tắc chung: Bắt đầu một phiên mới cho mỗi tác vụ riêng biệt. Đừng yêu cầu OpenClaw xem xét code của bạn, sau đó viết các bài kiểm tra, rồi giải thích thuật toán tất cả trong cùng một phiên. Mỗi tác vụ mới nên là một cuộc hội thoại mới.

✅ Kiểm tra nhanh: Phiên của bạn hiển thị 80.000 token ngữ cảnh. Bạn nên làm gì?

Câu trả lời: Bắt đầu một phiên mới với lệnh /new - bạn đang trả tiền để gửi lại tất cả 80.000 token với mỗi tin nhắn mới.

Theo dõi chi tiêu của bạn trong OpenClaw

OpenClaw có tính năng theo dõi chi phí tích hợp. Sử dụng các lệnh sau:

# Hiển thị tóm tắt chi phí phiên
/usage cost

# Hiển thị chi tiết phân bổ token cho mỗi tin nhắn
/usage full

# Hiển thị trạng thái phiên hiện tại bao gồm mô hình và chi phí
/status

Lệnh /usage full sẽ thêm phần footer chi phí vào mỗi phản hồi. Hãy bật tính năng này khi bạn bắt đầu theo dõi lần đầu tiên - nó giúp hiển thị chi phí mà không cần thêm nỗ lực.

Thiết lập giới hạn chi tiêu ở cấp nhà cung cấp:

Anthropic: console.anthropic.com → Settings → Plans & Billing → Monthly spending limit
OpenAI: platform.openai.com → Settings → Billing → Usage limits
Google: Thiết lập cảnh báo ngân sách trong Google Cloud Console

Đặt giới hạn Anthropic của bạn ở mức 150% chi tiêu dự kiến hàng tháng. Điều này giúp bạn có đủ ngân sách cho những tuần bận rộn đồng thời ngăn ngừa chi phí vượt quá dự kiến.

Chiến lược tối ưu hóa chi phí

Đây là chiến lược khớp mô hình giúp giảm chi phí từ 50 - 80%:

Cấp 1 - Miễn phí (sử dụng lần đầu): - Gemma 4 cục bộ để: giải thích lỗi, viết bình luận, xem xét code đơn giản, tạo boilerplate - Chi phí: $0

Cấp 2 - Tiết kiệm ($0.30-5/tháng): - Gemini Flash để: viết test, tái cấu trúc tiêu chuẩn, tạo tài liệu, gỡ lỗi đơn giản - Chi phí: vài phần trăm xu cho mỗi tác vụ

Cấp 3 - Trung bình ($8-30/tháng): - Claude Sonnet hoặc Gemini Pro để: xem xét code thực tế, tái cấu trúc phức tạp, gỡ lỗi sự cố sản xuất - Chi phí: $0.02-0.06 cho mỗi tác vụ

Cấp 4 - Cao cấp (theo yêu cầu): - Claude Opus để: quyết định kiến trúc, xem xét bảo mật phức tạp, lỗi đồng thời tinh vi - Chi phí: $0.10-0.50 cho mỗi tác vụ

Quy trình làm việc:

# Bắt đầu trên cục bộ
/model ollama/gemma4

# Tác vụ đơn giản → Giữ nguyên cục bộ
"Viết docstring cho hàm này"

# Hmm, cần chất lượng tốt hơn → nâng cấp lên Sonnet
/model anthropic/claude-sonnet-4-6

# Gặp lỗi rất khó → đến lúc dùng Opus
/model anthropic/claude-opus-4-6

# Đã sửa → quay lại cục bộ
/model ollama/gemma4

Hãy tự mình thử!

Theo dõi chi phí của bạn cho một phiên lập trình:

# 1. Bắt đầu một cuộc trò chuyện với tính năng theo dõi chi phí được bật
openclaw chat

# 2. Bật hiển thị chi phí cho mỗi tin nhắn
/usage full

# 3. Thực hiện ba nhiệm vụ trên ba mô hình:

# Task A: Giải thích lỗi (sử dụng cục bộ)
/model ollama/gemma4
"Giải thích: TypeError: Không thể đọc thuộc tính của undefined (đọc 'map')"

# Task B: Viết các bài unit test (sử dụng Flash)
/model google/gemini-3.1-flash
"Viết 5 bài unit test cho một hàm xác thực địa chỉ email"

# Task C: Xem xét code phức tạp (sử dụng Sonnet)
/model anthropic/claude-sonnet-4-6
"Xem xét middleware xác thực này để tìm các lỗ hổng bảo mật: [dán code của bạn]"

# 4. Kiểm tra tổng chi tiêu của bạn
/usage cost

So sánh chi phí giữa các cấp độ. Task A phải là 0 USD, Task B phải dưới 0,01 USD và Task C phải dưới 0,10 USD. Đó là sức mạnh của việc khớp mô hình.

Những điểm chính cần ghi nhớ

Token đầu ra có giá cao hơn token đầu vào - hãy lưu ý đến lượng văn bản bạn yêu cầu AI tạo ra
Việc tích lũy ngữ cảnh (40-50% chi phí) có nghĩa là các phiên dài sẽ nhanh chóng trở nên đắt đỏ - hãy bắt đầu lại từ đầu cho mỗi tác vụ
Sử dụng lệnh /status và /usage cost để theo dõi chi tiêu trong thời gian thực
Ghép mô hình phù hợp với nhiệm vụ: Miễn phí cho các tác vụ thường xuyên, ngân sách cho những tác vụ tiêu chuẩn, tầm trung cho các tác vụ nghiêm trọng, cao cấp cho những vấn đề khó khăn
Đặt giới hạn chi tiêu ở cấp độ nhà cung cấp như một mạng lưới an toàn

Câu 1:
Việc xem xét code 200 dòng có giá 0,15 USD trên Claude Sonnet và 0,003 USD trên Gemini Flash. Vậy khi nào bạn nên sử dụng Sonnet?
- A. Luôn luôn - sự khác biệt về chất lượng không đáng với khoản tiết kiệm chi phí
- B. Không bao giờ - Flash xử lý tất cả các đánh giá code một cách đầy đủ
- C. Khi code có logic phức tạp, xử lý song song hoặc các lỗi nhỏ mà Flash có thể bỏ sót
- D. Chỉ khi hạn mức Gemini của bạn đã hết
GIẢI THÍCH:

Đối với code phức tạp với logic tinh tế, điều kiện tranh chấp hoặc các vấn đề bảo mật, khoảng cách về chất lượng rất quan trọng - Sonnet phát hiện ra những vấn đề mà Flash bỏ sót. Đối với các kiểm tra kiểu đơn giản, tái cấu trúc tiêu chuẩn hoặc code dễ hiểu, Flash hoàn toàn đáp ứng được nhu cầu và rẻ hơn 50 lần.
Câu 2:
Việc tích lũy ngữ cảnh chiếm 40-50% lượng token tiêu thụ. Nguyên nhân là gì?
- A. Mô hình AI sử dụng thêm token cho quá trình xử lý nội bộ
- B. Mọi tin nhắn trước đó trong cuộc hội thoại của bạn đều được gửi lại với mỗi yêu cầu mới
- C. OpenClaw sao chép tin nhắn để phục hồi lỗi
- D. API của nhà cung cấp tính phí gấp đôi cho nội dung được lưu vào cache
GIẢI THÍCH:

Mỗi khi bạn gửi một tin nhắn mới, OpenClaw sẽ gửi lại toàn bộ lịch sử cuộc hội thoại - tất cả các tin nhắn trước đó, kết quả đầu ra của công cụ và nội dung file. Một phiên 30 tin nhắn có nghĩa là tin nhắn thứ 30 bao gồm tất cả 29 tin nhắn trước đó. Đây là lý do tại sao các phiên dài nhanh chóng trở nên đắt đỏ.

Thứ Bảy, 18/04/2026 09:33

5 ★ 1 👨 143

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Học OpenClaw

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Theo dõi chi tiêu và chọn mô hình phù hợp cho từng nhiệm vụ

Nhà phát triển $200/ngày so với nhà phát triển $5/tháng

Cách tính giá token

Chi phí thực tế của các tác vụ

Chi phí ẩn: Tích lũy ngữ cảnh

Theo dõi chi tiêu của bạn trong OpenClaw

Chiến lược tối ưu hóa chi phí

Hãy tự mình thử!

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Kết nối ChatGPT và Gemini với OpenClaw: Thêm hai nhà cung cấp nữa trong 5 phút

Quy trình làm việc nhiều bước trong OpenClaw

Các tham số và biến của OpenClaw Skill

Xuất bản OpenClaw skill

Danh sách kiểm tra bảo mật OpenClaw skill

Cài đặt và chạy OpenClaw lần đầu trên mọi nền tảng

Kết nối OpenClaw skill với các API bên ngoài

Thành thạo OpenClaw

Kết nối Claude với OpenClaw: API key, thanh toán và cấu hình