Khi AI agent bắt đầu chuyển từ các bản demo nghiên cứu sang môi trường production thực tế, một câu hỏi ngày càng trở nên quan trọng: làm thế nào để biết một AI agent thực sự “giỏi”?
Trong nhiều năm, cộng đồng AI thường dùng các benchmark như perplexity, MMLU hoặc coding leaderboard để đánh giá model. Tuy nhiên, các chỉ số này gần như không phản ánh chính xác khả năng của một AI agent ngoài đời thực. Một model có điểm MMLU rất cao chưa chắc đã xử lý được GitHub issue thật, điều hướng website phức tạp hay vận hành workflow customer support kéo dài hàng trăm lượt tương tác.
Đó là lý do trong vài năm gần đây, cộng đồng AI bắt đầu chuyển mạnh sang các “agentic benchmark” — những bộ đánh giá tập trung vào khả năng hành động, reasoning, tool use và autonomy của AI agent. Tuy nhiên, benchmark của AI agent cũng có một đặc điểm rất quan trọng: kết quả phụ thuộc cực mạnh vào scaffold. Prompt design, tool access, retry budget, execution environment và evaluator protocol đều có thể làm thay đổi score đáng kể. Vì vậy, benchmark score gần như không bao giờ nên được nhìn tách rời khỏi context của cách benchmark được thực hiện.
SWE-bench Verified: Bài kiểm tra software engineering thực tế nhất
SWE-bench Verified hiện được xem là benchmark quan trọng nhất để đánh giá khả năng software engineering của AI agent. Khác với nhiều coding benchmark truyền thống chỉ yêu cầu model sinh code ngắn hoặc trả lời câu hỏi lý thuyết, SWE-bench sử dụng các GitHub issue thật từ hàng nghìn repository Python phổ biến. AI agent không chỉ cần “đề xuất cách sửa”, mà phải thực sự tạo patch, sửa đúng code và pass toàn bộ unit test.
Điều khiến benchmark này được đánh giá cao là tính thực tế rất mạnh. Nó phản ánh khá chính xác cách developer làm việc ngoài đời: đọc issue, hiểu codebase, sửa lỗi và đảm bảo hệ thống vẫn hoạt động ổn định. Một điểm rất đáng chú ý là khi benchmark ra mắt năm 2023, Claude 2 chỉ giải quyết được khoảng 1.96% issue. Nhưng tới cuối 2025 và đầu 2026, nhiều frontier model đã vượt mốc 80% trên SWE-bench Verified.
Tuy nhiên, benchmark này cũng có giới hạn khá rõ. Nó đo khả năng software repair, chứ không đại diện cho “AI agent tổng quát”. Một model rất mạnh trên SWE-bench chưa chắc hoạt động tốt trong web navigation, customer support hoặc long-horizon reasoning. Và chính vì vậy, benchmark này cần được nhìn cùng với các benchmark khác thay vì tách riêng.
Truy cập: https://www.swebench.com/
GAIA: Benchmark đánh giá AI assistant tổng quát
GAIA tập trung vào khả năng hoạt động như một AI assistant thực thụ. Các task trong GAIA thường nhìn khá đơn giản ở bề mặt, nhưng thực tế lại yêu cầu reasoning nhiều bước, web browsing, tool use và đôi khi cả multimodal understanding.
Điểm thú vị của GAIA là benchmark này rất khó “ăn may”. AI không thể đoán đại để vượt qua task. Nó buộc phải thực sự hiểu quy trình và hoàn thành toàn bộ chuỗi hành động. Chính điều đó khiến GAIA được cộng đồng research dùng rất nhiều để phát hiện lỗi tool use, reasoning failure và vấn đề reproducibility mà nhiều benchmark hẹp hơn hoàn toàn không thể nhìn ra.
Với các team đang xây AI assistant đa năng thay vì task-specific agent, GAIA hiện được xem là một trong những benchmark phản ánh năng lực thực tế tốt nhất hiện nay.
Truy cập: https://huggingface.co/spaces/gaia-benchmark/leaderboard
WebArena: Benchmark đo khả năng tự điều hướng web
WebArena là một trong những benchmark nổi tiếng nhất để đánh giá khả năng tự sử dụng website của AI agent. Benchmark này mô phỏng nhiều loại website thực tế như e-commerce, forum, collaborative development platform và content management system. AI agent sẽ nhận instruction dạng ngôn ngữ tự nhiên rồi phải tự thao tác toàn bộ trên trình duyệt thật.
Điểm khó nằm ở chỗ task thường rất dài và nhiều bước. Agent phải nhớ trạng thái, lên kế hoạch, xử lý UI và phản ứng với môi trường thay đổi liên tục. Trong paper gốc, agent dựa trên GPT-4 chỉ đạt khoảng 14.41% task success, trong khi con người đạt hơn 78%.
Tới năm 2025, các hệ thống web agent mạnh hơn đã vượt mức 60%, nhưng khoảng cách với con người vẫn còn rất lớn. Điều này cho thấy autonomous web navigation thực tế khó hơn rất nhiều so với các demo automation đơn giản mà người dùng thường thấy trên mạng xã hội.
Truy cập: https://webarena.dev/
τ-bench: Benchmark cho reliability và policy reasoning
τ-bench tập trung vào một vấn đề mà rất nhiều benchmark khác bỏ sót: độ ổn định và reliability của AI agent. Benchmark này mô phỏng các cuộc hội thoại nhiều lượt giữa user, AI agent và hệ thống tool/API trong các domain như retail hoặc airline.
Điểm khó của τ-bench không chỉ nằm ở reasoning, mà còn ở việc agent phải tuân thủ policy, thu thập đủ thông tin và giữ consistency qua nhiều lượt tương tác. Ví dụ, AI phải biết từ chối yêu cầu đổi vé không hoàn tiền thay vì chỉ cố “làm hài lòng người dùng”.
Một phát hiện khá đáng lo là ngay cả các frontier model hiện nay vẫn có độ ổn định thấp khi task lặp lại nhiều lần. Một agent có thể xử lý đúng task một lần, nhưng thất bại khi phải lặp lại cùng task đó nhiều lần liên tiếp. Điều này cực kỳ quan trọng với production system xử lý hàng triệu interaction ngoài đời thực.
Truy cập: https://github.com/sierra-research/tau-bench
ARC-AGI-2: Benchmark đo “fluid intelligence” của AI
ARC-AGI-2 hiện được xem là một trong những benchmark khó nhất để đánh giá khả năng generalization thực sự của AI. Benchmark này yêu cầu AI nhìn ví dụ input-output, suy luận quy luật trừu tượng rồi áp dụng vào trường hợp mới hoàn toàn.
Điều đặc biệt là task được thiết kế để chống lại memorization, benchmark hacking và pattern matching đơn giản. ARC-AGI-1 trước đây từng bị “saturate” khi nhiều model vượt mốc 90% nhờ engineering đặc thù, vì vậy ARC-AGI-2 được tạo ra để khó hơn đáng kể.
Tới năm 2026, GPT-5.2 đạt khoảng 52.9%, Claude Opus 4.6 đạt khoảng 68.8%, còn Gemini 3.1 Pro đạt khoảng 77.1%. Tuy nhiên, benchmark còn khó hơn nữa là ARC-AGI-3. Phiên bản này biến task thành môi trường game tương tác, nơi AI phải khám phá môi trường mới, tự suy luận mục tiêu và lập kế hoạch hành động mà gần như không có instruction rõ ràng.
Theo báo cáo kỹ thuật, con người có thể giải quyết gần như toàn bộ task, trong khi frontier AI hiện vẫn dưới 1%. Và đó cũng chính là lý do ARC-AGI được xem là “North Star benchmark” cho AGI research hiện nay.
Truy cập: https://arcprize.org/leaderboard
OSWorld: Benchmark đánh giá khả năng “dùng máy tính”
OSWorld tập trung vào khả năng sử dụng hệ điều hành thật. Benchmark này bao gồm hàng trăm task trên Ubuntu, Windows và macOS, yêu cầu AI phải thao tác GUI, điều khiển chuột, gõ bàn phím và làm việc qua ứng dụng desktop thật.
Điểm đặc biệt là AI không được dùng API “sạch”, mà phải tương tác trực tiếp như con người. Điều này khiến benchmark khó hơn rất nhiều so với text-only environment. Trong phiên bản đầu tiên, con người hoàn thành hơn 72% task, trong khi model mạnh nhất chỉ khoảng 12%.
OSWorld hiện được xem là benchmark cực kỳ quan trọng cho computer-use agent, enterprise automation và productivity AI — những lĩnh vực đang được rất nhiều công ty AI đầu tư mạnh trong vài năm gần đây.
Truy cập: https://os-world.github.io/
AgentBench: Benchmark đo độ “đa dụng” của AI Agent
AgentBench không tập trung vào một domain cụ thể, mà đánh giá khả năng hoạt động của AI trên nhiều môi trường khác nhau cùng lúc. Benchmark này bao gồm OS interaction, database query, knowledge graph, web shopping, web browsing, game và task planning.
Điều này giúp AgentBench trở thành công cụ rất hữu ích để xem một AI agent có thực sự generalize được giữa nhiều domain khác nhau hay không. Một model có thể cực mạnh ở SWE-bench nhưng lại sụp đổ hoàn toàn khi phải xử lý database query hoặc web navigation.
Đó là lý do AgentBench thường được dùng để đánh giá architecture, tìm điểm yếu của model hoặc so sánh khả năng transfer giữa nhiều môi trường.
Truy cập: https://github.com/THUDM/AgentBench
Một trong những điều quan trọng nhất khi đánh giá AI agent là không benchmark nào phản ánh đầy đủ mọi năng lực. SWE-bench mạnh về software engineering, GAIA mạnh về assistant workflow, WebArena đo khả năng tự dùng web, τ-bench đo reliability, ARC-AGI kiểm tra generalization, OSWorld đánh giá computer-use, còn AgentBench tập trung vào breadth.
Khi kết hợp nhiều benchmark cùng lúc, chúng mới tạo ra bức tranh tương đối chính xác về khả năng thực tế của AI agent.
Khi AI agent ngày càng tiến gần tới production deployment, việc đánh giá chúng đang trở nên khó hơn rất nhiều so với thời chatbot đơn thuần. Một model giỏi trả lời câu hỏi chưa chắc đã biết dùng web, hiểu workflow, giữ consistency hay thao tác tốt trên máy tính thật.
Đó là lý do các agentic benchmark hiện đại đang dần trở thành tiêu chuẩn mới của ngành AI. Và trong vài năm tới, khả năng hiểu đúng benchmark — thay vì chỉ nhìn leaderboard — có thể sẽ là yếu tố cực kỳ quan trọng với bất kỳ ai xây dựng AI agent thực tế.
Hướng dẫn AI
Học IT
Hàm Excel