Việc tin tưởng một AI agent mới mà bạn vừa triển khai có thể cần thời gian. Bạn chạy thử nó trên dữ liệu công việc của mình, theo dõi sát sao trong nhiều ngày và nhiều tuần, luôn đánh giá xem nó có giúp ích hay gây hại cho bạn. Ngay khi bạn bắt đầu thư giãn và tận hưởng sự gia tăng năng suất, nhà cung cấp AI lại tung ra bản cập nhật mô hình: Các phản hồi đã thay đổi, hướng dẫn của bạn được hiểu khác đi, và bạn lại trở về trạng thái không tin tưởng.
Cải thiện hiệu suất của AI agent là một quá trình liên tục, không phải là thiết lập một lần. Điều này là bình thường, vì AI cần bảo trì như bất kỳ công cụ nào khác.
Phần 1: Chuẩn bị
Thêm kiểm soát phiên bản và thiết lập sandbox
Kiểm soát phiên bản nghe có vẻ nhàm chán, nhưng việc lưu và đặt tên các phiên bản AI agent sẽ giúp bạn tránh được rất nhiều rắc rối khi cập nhật nó theo thời gian. Nếu không có nó, bạn sẽ khó cộng tác với các nhà phát triển khác trong nhóm của mình và có thể tái tạo lại các lỗi mà bạn đã sửa trước đó.
Một số công cụ xây dựng AI agent, như Zapier, cung cấp tính năng kiểm soát phiên bản tích hợp sẵn. Điều này rất lý tưởng. Nếu công cụ của bạn không có, hãy lưu mọi phần cấu hình vào một nguồn thông tin duy nhất. Dưới đây là những loại thông tin bạn cần theo dõi:
- Mô hình AI bạn đang sử dụng
- Bất kỳ hướng dẫn hệ thống nào
- Danh sách các công cụ được kết nối
- Phiên bản cơ sở kiến thức (bao gồm cả phiên bản của từng tài liệu trong đó)
- Bất kỳ yếu tố nào khác làm thay đổi hành vi của agent khi được thêm, thay đổi hoặc xóa
Thiết lập mục tiêu và bảng điểm
Giống như bất kỳ dự án nào, bạn bắt đầu bằng cách xác định đích đến. Bước đầu tiên là quyết định bạn đang cải thiện điều gì:
- Mô hình không phản hồi chính xác? Tập trung vào độ chính xác.
- Giọng nói không phù hợp? Tập trung vào giọng điệu và phong cách.
- Các lệnh gọi và hành động của công cụ trở nên khó đoán? Hãy sẵn sàng tìm hiểu về schema, MCP và API.
Với mục tiêu đã đặt ra, hãy tạo một bảng điểm. Điều này sẽ giúp bạn xếp hạng các phản hồi, phân biệt kết quả hữu ích với kết quả không tốt.
|
Số liệu |
0 điểm |
1 điểm |
2 điểm |
|---|---|---|---|
|
Chính xác và đầy đủ |
Không chính xác hoặc không đầy đủ |
Đúng một phần, nhưng còn thiếu một số yếu tố |
Chính xác và đầy đủ |
|
Thực tế |
Phỏng đoán hoặc bịa đặt sự thật trong khi bỏ qua dữ liệu được cung cấp |
Sử dụng một số dữ liệu thực tế, nhưng lại diễn giải sai hoặc tự mình lấp đầy những chỗ trống |
Rõ ràng dựa trên thông tin được cung cấp |
|
Hữu ích và rõ ràng |
Khó hiểu, không rõ ràng, khó theo dõi |
Có thể chấp nhận được, nhưng có thể khiến người dùng vẫn còn thắc mắc, nghi ngờ hoặc dẫn đến leo thang xung đột |
Thiết thực và dễ thực hiện |
|
Giọng điệu, định dạng và thương hiệu |
Không đúng thương hiệu, định dạng kém, khó hiểu |
Sự lệch tông, định dạng hỗn hợp, tạo ra sự khó chịu |
Đúng với thương hiệu, cấu trúc tốt, hấp dẫn |
Thu thập kết quả đầu ra
Đã đến lúc thu thập phản hồi từ agent. Thu thập từ 20 đến 50 phản hồi gần đây từ các cuộc hội thoại hoặc những lần chạy của agent, đủ để có được kết quả tốt mà không làm bạn bị quá tải với quá nhiều dữ liệu. Hãy đảm bảo rằng tập hợp phản hồi này phản ánh đầy đủ các câu hỏi mà người dùng đặt ra; Nếu không, bạn sẽ tối ưu hóa cho một phạm vi sử dụng hẹp và làm cho agent trở nên thiếu linh hoạt.
Đánh giá đầu ra và tìm ra các vấn đề hàng đầu
Thêm các cột đánh giá từ bước đầu tiên vào bảng tính, một cột cho những tiêu chí đạt/không đạt và nhiều cột cho các chỉ số chất lượng (chính xác và đầy đủ, có cơ sở, v.v...). Xem xét từng phản hồi: Agent đã đạt hay không đạt? Nếu đạt, hãy thêm điểm chất lượng từ 0-2. Tiếp tục cho đến khi tất cả đều được đánh giá.
Nhìn vào danh sách đã được phân loại, bạn có thể hình dung được nên tập trung vào đâu. Ban đầu, bạn có thể có nhiều hàng có mức độ nghiêm trọng cao; tuy nhiên, khi cải thiện hệ thống AI của mình, bạn sẽ thấy mình chuyển sang các vấn đề thường xuyên và sau đó là tác động kinh doanh.
Xây dựng bộ kiểm thử
Vì bạn đã có danh sách đã được phân loại, đây là thời điểm tốt để lưu lại các phản hồi nhằm giúp bạn kiểm thử hệ thống AI của mình vào cuối mỗi dự án trong tương lai, để bạn có thể chắc chắn rằng những vấn đề bạn đang giải quyết sẽ không quay trở lại.
Phần 2: Tìm giải pháp
Động não tìm ra các phương pháp tiếp cận
Một số vấn đề khá đơn giản: Bạn nhìn vào danh sách chấm điểm của mình và ngay lập tức biết đây là vấn đề về cơ sở kiến thức hoặc một lệnh gọi công cụ đang đi sai hướng. Trong những trường hợp này, bạn có thể bắt tay vào ngay và bắt đầu xây dựng. Nhưng có những tình huống mà vấn đề khó chẩn đoán: Đó có thể là hai tài liệu có thông tin mâu thuẫn, nhưng cũng có thể là hướng dẫn hệ thống cần được sửa đổi.
Nếu bạn xem danh sách điểm của mình và không biết bắt đầu từ đâu, đây là một vài gợi ý để giúp bạn động não:
|
Vấn đề |
Nguyên nhân và giải pháp tiềm năng |
|---|---|
|
Ảo giác và thông tin sai lệch/bịa đặt |
• Kết nối cơ sở kiến thức (RAG) với agent của bạn và load tài liệu cũng như dữ liệu vào đó. • Nếu bạn đã có cơ sở kiến thức được kết nối, hãy kiểm tra lại nội dung tài liệu để xem có thông tin mâu thuẫn hoặc không chính xác hay không. • Nếu agent của bạn phải xử lý nhiều dữ liệu, hãy cân nhắc chuyển sang mô hình có cửa sổ ngữ cảnh lớn hơn. |
|
Sử dụng công cụ không thể dự đoán trước |
• Kiểm tra xem mô tả các công cụ có quá giống nhau và gây nhầm lẫn cho mô hình về việc công cụ nào là tốt nhất cho từng tác vụ hay không. • Các mô hình có nhiều công cụ được kết nối (hơn 15-20) có thể trở nên khó dự đoán hơn khi chọn công cụ tốt nhất. Hãy cân nhắc chia chức năng thành 2 agent hoặc thành một hệ thống multi-agent. • Cân nhắc xem mô hình bạn đang sử dụng có đủ thông minh để hiểu được sự tinh tế trong các lệnh của người dùng hay không. Các mô hình nhỏ hơn đôi khi có thể gặp khó khăn và cần những lệnh trực tiếp hơn. |
|
Tương tác không thể dự đoán hoặc thất bại với các hệ thống bên ngoài |
• Kiểm tra mô tả các công cụ được kết nối để đảm bảo mô hình hiểu được mục đích của công cụ và biết cách điền chính xác từng tham số. • Giới hạn quyền truy cập cho AI agent trong các API endpoint của bạn để ngăn chặn những thao tác CRUD không mong muốn. |
|
Dài dòng hoặc không đúng thương hiệu |
• Bạn đang sử dụng mô hình được điều chỉnh để phản hồi nhiều. Hãy cân nhắc chuyển sang mô hình khác hoặc điều chỉnh cài đặt. • Điều chỉnh cài đặt độ chi tiết trong API của mô hình. • Điều chỉnh hướng dẫn hệ thống để kiểm soát độ dài, giọng điệu và phong cách phản hồi. • Rút gọn hướng dẫn về giọng điệu và phong cách xuống mức cần thiết, vì hướng dẫn dài hơn đôi khi có thể dẫn đến hành vi khó đoán. • Cân nhắc đặt giới hạn số lượng token đầu ra tối đa trong cài đặt API để buộc đầu ra ngắn hơn. • Cân nhắc điều chỉnh nhiệt độ hoặc top-k (không điều chỉnh cả hai cùng lúc) để giảm sự khác biệt giữa các phản hồi. |
|
Mức sử dụng token cao |
• Kiểm tra tất cả các dữ liệu đầu vào xem có nhiều văn bản được truyền đến mô hình hay không: Hướng dẫn hệ thống, độ dài/sự chồng chéo của các đoạn kiến thức trong cơ sở kiến thức, prompt của người dùng. • Nếu có, hãy kiểm tra cài đặt API về độ mạnh của suy luận: Cài đặt cao hơn sẽ tiêu tốn nhiều token hơn. • Nếu công cụ của bạn cần hỗ trợ các cuộc trò chuyện dài, hãy cân nhắc tóm tắt cuộc trò chuyện khi nó diễn ra thay vì luôn gửi toàn bộ chuỗi hội thoại. |
Bắt đầu xây dựng và thử nghiệm

Bạn đã có danh sách ý tưởng; đã đến lúc thực hiện. Bắt đầu từ dòng đầu tiên trong danh sách, hãy thay đổi thiết lập của bạn và duy trì vòng lặp xây dựng/kiểm thử chặt chẽ: Mỗi khi bạn đạt được tiến bộ đáng kể, hãy kiểm tra bằng cách cung cấp 5-10 ví dụ phản hồi từ danh sách đã được chấm điểm của bạn và xem agent hoạt động như thế nào.
Chạy bộ kiểm thử của bạn
Khi bạn tìm thấy một giải pháp khả thi hoạt động tốt trong chu trình xây dựng/kiểm thử, hãy thử tìm ra lỗi bằng bộ kiểm thử của mình. Lấy danh sách trường hợp lý tưởng, trường hợp xấu nhất và trường hợp tấn công (red-team), và chạy tất cả các đầu vào để kiểm tra xem agent có:
- Hoàn thành chính xác tất cả các nhiệm vụ trong danh sách trường hợp lý tưởng
- Phản hồi phù hợp (hoặc ít nhất là cho thấy sự cải thiện) trong danh sách trường hợp xấu nhất
- Không thất bại trong bất kỳ bài kiểm thử nào của nhóm tấn công
Bạn có thể chấm điểm các phản hồi giống như đã làm lúc đầu để có một thước đo khách quan nhằm hiểu điều gì được coi là sự cải thiện. Nếu agent thất bại trong các bài kiểm thử này, hãy tiếp tục thay đổi cấu hình và chạy lại các bài kiểm thử cho đến khi điểm số được cải thiện.
Phần 3: Triển khai
Viết nhật ký thay đổi
Bây giờ, bạn đã tìm ra và xác nhận giải pháp của mình, đã đến lúc lưu lại những thay đổi. Chọn ứng dụng không gian làm việc yêu thích, mở một thư mục mới để sắp xếp tất cả nhật ký thay đổi và tăng số phiên bản của AI agent bằng cách sử dụng framework sau:
- Tăng số phiên bản chính cho những thay đổi lớn làm thay đổi đáng kể cách thức hoạt động và hành vi của agent. Ví dụ: v1.0.0 > v2.0.0
- Tăng số ở giữa cho những thay đổi đáng chú ý nhưng không quá đột phá. Ví dụ: v1.0.0 > v1.1.0
- Tăng số cuối cùng cho các bản sửa lỗi và những thay đổi rất nhỏ. Ví dụ: v1.0.1
Đưa công cụ mới vào hoạt động
Bạn đã sẵn sàng ra mắt. Thay thế các liên kết truy cập đến phiên bản cũ bằng phiên bản mới, bao gồm cả bất kỳ liên kết nhúng nào trong những công cụ nội bộ. Gửi email nhật ký thay đổi cho đồng nghiệp của bạn để cho họ biết những gì mới và mời họ phản hồi.
Làm cho nó có thể lặp lại
Không chỉ là một bản sửa lỗi một lần, bạn muốn xây dựng một hệ thống sẽ giúp cải thiện AI agent của mình theo thời gian khi hoàn cảnh thay đổi. Với suy nghĩ đó:
- Tạo một biểu mẫu phản hồi đơn giản để người dùng có thể báo cáo sự cố khi họ gặp phải. Điều này giúp việc đánh giá danh sách phản hồi dễ dàng hơn trong tương lai và tìm ra các chỉ số chất lượng mới để tối ưu hóa.
- Đánh dấu thời gian xem xét trên lịch của bạn. Đối với một agent mới tham gia vào quy trình làm việc quan trọng, bạn có thể muốn xem xét các phản hồi mỗi tuần một lần; đối với một agent đã có thành tích tốt trong việc cung cấp những phản hồi chất lượng, bạn có thể chuyển sang xem xét hàng tháng hoặc hàng quý.
- Tái sử dụng và quản lý bộ kiểm thử của bạn. Khi bạn thêm nhiều tính năng và khả năng hơn cho agent của mình, các cách mà nó có thể gặp lỗi cũng có thể tăng lên. Hãy cập nhật danh sách trường hợp lý tưởng, trường hợp xấu nhất và trường hợp tấn công (red-team) bằng cách thêm các mục mới, để bạn có thể kiểm tra agent của mình dựa trên những nhu cầu và mối đe dọa đang phát triển và đảm bảo mọi thứ hoạt động như mong đợi.
Mẹo và hướng dẫn bổ sung về AI agent
Mô hình AI
Việc thay đổi mô hình AI có thể thay đổi hoàn toàn hành vi của agent, tùy thuộc vào thiết lập và khả năng của mô hình. Hãy đảm bảo kiểm tra lại mọi thứ với các phản hồi mới nhất và bộ kiểm thử của bạn để đảm bảo hành vi được cải thiện.
Tùy thuộc vào nhà cung cấp và mô hình, bạn có thể thay đổi các cài đặt kiểm soát cách nó xử lý yêu cầu cá nhân.
Hướng dẫn hệ thống
Prompt hệ thống là nơi bạn xác định tính cách, quy tắc, ràng buộc và hành vi của agent. Đây thường là điều đầu tiên cần điều chỉnh khi có sự cố xảy ra và là giải pháp tiết kiệm chi phí nhất.
Những thay đổi nhỏ về cách diễn đạt đôi khi có thể tạo ra những thay đổi lớn về hành vi. Hãy cụ thể. Sử dụng ví dụ. Nêu rõ các ràng buộc thay vì hy vọng mô hình sẽ tự suy luận ra chúng.
Các công cụ được kết nối và cấu hình công cụ
Nếu agent của bạn sử dụng các công cụ (MCP, API, tra cứu cơ sở dữ liệu, hành động), hãy kiểm tra ba điều sau:
- Liệu các công cụ phù hợp đã được kết nối chưa
- Liệu agent có chọn đúng công cụ cho từng tình huống chưa
- Liệu bản thân công cụ có hoạt động chính xác chưa
Cơ sở kiến thức (RAG)
Nếu agent của bạn sử dụng phương pháp tạo nội dung tăng cường bằng truy xuất (RAG) hoặc lấy dữ liệu từ cơ sở kiến thức, chất lượng nội dung đó sẽ ảnh hưởng trực tiếp đến chất lượng phản hồi.
- Thêm, xóa hoặc viết lại tài liệu để cải thiện độ chính xác.
- Viết nội dung cơ sở kiến thức bằng giọng điệu thương hiệu mục tiêu của bạn có thể cải thiện tính nhất quán trong giọng điệu của agent.
- Điều chỉnh độ dài và sự chồng chéo của các đoạn thông tin dựa trên dữ liệu của bạn. Các đoạn ngắn hoạt động tốt hơn cho việc tra cứu thông tin thực tế. Các đoạn dài hơn giữ lại nhiều ngữ cảnh hơn cho những câu hỏi phức tạp.
Kiến trúc điều phối
Nếu agent của bạn là một phần của hệ thống điều phối - một mạng lưới các hệ thống và công cụ được kết nối, được kích hoạt và sắp xếp theo trình tự dựa trên một tập hợp những quy tắc - thì các trình kích hoạt hành động và luồng thông tin rất quan trọng.
Khắc phục sự cố và xây dựng chức năng nâng cao phụ thuộc rất nhiều vào nền tảng điều phối bạn đang sử dụng: Một số nền tảng hiển thị tất cả dữ liệu và khả năng cho tất cả các agent/node trong một dự án duy nhất; những nền tảng khác giới hạn chúng ở mỗi bước xử lý vì lý do bảo mật.
Sự tham gia của con người
AI hoạt động tốt hơn khi có sự giám sát của con người. Ban đầu, tốt nhất là để các agent gửi thông báo đầu ra cho bạn để bạn có thể xem liệu chúng có hữu ích hay không - và nếu có, hãy bật đèn xanh cho bước tiếp theo. Khi bạn tin tưởng các agent của mình hơn, bạn có thể loại bỏ sự tham gia của con người để cố gắng tự động hóa quy trình làm việc từ đầu đến cuối càng nhiều càng tốt. Trong trường hợp này, hãy đảm bảo bạn có nhật ký kiểm toán tốt, vì lỗi không còn chỉ là việc kiểm tra nhanh một danh sách phản hồi duy nhất nữa: Nó trở thành một cuộc điều tra trên nhiều hệ thống.
Tiếp tục cải tiến các AI agent của bạn
AI rất linh hoạt, nhưng điều đó không có nghĩa là bạn có thể triển khai nó một lần là xong. Mỗi dự án cải tiến là một cơ hội để cung cấp thêm ngữ cảnh về công việc bạn làm, quy trình làm việc mà AI agent tham gia và những điều nên làm và không nên làm cốt lõi của các nhiệm vụ.
Hãy sử dụng bài viết này như một bản kế hoạch để hướng dẫn bạn trong vài lần đầu tiên muốn cải tiến các công cụ AI agent của mình, và thêm ghi chú và ràng buộc của riêng bạn để mở rộng nó và làm cho nó hữu ích hơn cho tình huống của bạn.
Hướng dẫn AI
Học IT
Hàm Excel