Nhiều người từng tốn rất nhiều thời gian để tự tay làm giàu thông tin khách hàng tiềm năng – tìm kiếm thông tin công ty trên Google, kiểm tra LinkedIn, sao chép các đoạn thông tin vào bảng tính, soạn thảo những email tiếp cận không giống thư mẫu. Đó là kiểu công việc mà bạn cảm thấy hiệu quả trong lúc làm nhưng thực chất chỉ là tốn thời gian và công sức.
Rồi mọi người thử dùng các LLM agent, và trải qua nhiều cung bậc cảm xúc. Đầu tiên là sự chấp nhận – “được rồi, AI có thể thực hiện các hành động, vậy thì sao cũng được”. Sau đó là sự nghi hoặc – “khoan đã, nó có thể duyệt web, viết code và gọi API à?” Rồi đến sự hưng phấn tột độ, tiếp theo là nhận thức cay đắng rằng họ đã lãng phí hàng trăm giờ để làm những việc mà một AI agent được cấu hình tốt có thể xử lý trong vài giây.
Bài viết sau đay sẽ trình bày về các LLM agent là gì, điều gì đang diễn ra bên trong chúng, và chúng đáng được triển khai ở đâu ngay bây giờ.
LLM agent là gì?
LLM agent là một hệ thống trí tuệ nhân tạo (AI) được xây dựng trên nền tảng mô hình ngôn ngữ lớn, có khả năng tự động suy luận vấn đề, lập kế hoạch, sử dụng các công cụ bên ngoài và thực hiện những tác vụ nhiều bước với sự can thiệp hạn chế của con người.
Sự khác biệt giữa LLM agent và chatbot cơ bản là chatbot giống như một cuốn bách khoa toàn thư rất tiên tiến. Bạn đặt câu hỏi và nó sẽ trả lời dựa trên những gì nó đã đọc (hoặc tra cứu). Nhưng nó không thể làm bất cứ điều gì. Ví dụ, nếu bạn hỏi về chiến lược tiếp thị, nó sẽ cung cấp cho bạn một template tuyệt vời. Nó có thể giải thích "chân dung khách hàng mục tiêu" là gì hoặc cung cấp cho bạn danh sách các từ khóa SEO chung. Nhưng nó không thể lấy dữ liệu Google Analytics, phân đoạn danh sách email và cập nhật CRM của bạn.
LLM agent cũng chính là AI đó, nhưng đã được nâng cấp đáng kể với 3 tính năng sau:
- Mục tiêu: Thay vì chỉ trả lời câu hỏi, bạn cung cấp cho nó một mục tiêu cụ thể, ví dụ như "nghiên cứu vị trí của đối thủ cạnh tranh và lập kế hoạch tiếp thị cho quý 3".
- Công cụ: Agent có thể truy cập Internet, sử dụng phần mềm chuyên dụng hoặc xem các file của bạn.
- Lý luận: Agent có thể tự nói chuyện với chính nó. Nó nói, "Để xây dựng chiến lược này, trước tiên tôi cần thu thập dữ liệu nhân khẩu học của đối tượng mục tiêu và dữ liệu chuyển đổi gần đây. Sau đó, tôi cần nghiên cứu xem các đối thủ cạnh tranh đang sử dụng thông điệp gì. Cuối cùng, tôi sẽ soạn thảo các đề xuất định vị và kế hoạch kênh." (Đúng vậy, nó tự nói chuyện. Một cách hiệu quả).
Các LLM agent hoạt động như thế nào?
Các LLM agent tuân theo một chu trình gọi là "suy nghĩ-hành động-quan sát", thường sử dụng những mô hình như ReAct (lý luận và hành động). LLM nhận được một mục tiêu cộng với bất kỳ ngữ cảnh liên quan nào (hướng dẫn, các bước trước đó, dữ liệu nguồn hoặc những công cụ có sẵn), sau đó đưa ra một suy nghĩ (phải làm gì tiếp theo) và một hành động (như "tìm kiếm X" hoặc "chạy code Y"); và sau khi hành động đó được thực thi, nó quan sát kết quả, lưu trữ thông tin liên quan trong bộ nhớ ngắn hạn của nó và lặp lại.
Quá trình này lặp đi lặp lại - đôi khi hàng chục lần - tạo ra một chuỗi các quyết định giúp mọi thứ đi đúng hướng đối với những nhiệm vụ phức tạp, không có hồi kết. Nếu không có nó, bạn sẽ chỉ nhận được một câu trả lời duy nhất có thể bỏ sót các dữ kiện quan trọng hoặc cần nhiều lần trao đổi qua lại.

Những thành phần chính của LLM agent
Mỗi agent được xây dựng từ 4 thành phần chính tạo nên khả năng hoạt động của LLM agent. Chất lượng của mỗi thành phần quyết định liệu agent của bạn có thực sự hữu ích hay chỉ đang lãng phí tài nguyên. Và tài nguyên, không giống như sự lạc quan, tốn kém về tiền bạc.
Lõi agent
Lõi agent chính là bản thân LLM - GPT, Opus, Gemini, hoặc bất kỳ hệ thống nào bạn đang sử dụng - hoạt động như công cụ suy luận trung tâm. Nó chịu trách nhiệm diễn giải đầu vào, "suy nghĩ" về mục tiêu và quyết định những việc cần làm tiếp theo. Nhiều lõi mới hơn là đa phương thức, nghĩa là chúng có thể xử lý hình ảnh, âm thanh và tài liệu cùng với văn bản.
Việc lựa chọn LLM quan trọng hơn hầu hết mọi người nhận ra, bởi vì lõi không chỉ tạo ra văn bản. Nó phối hợp giữa các thành phần và công cụ, đánh giá trạng thái của một nhiệm vụ ở mỗi bước và đưa ra phán đoán về những việc cần làm khi mọi thứ không diễn ra theo kế hoạch.
Lập kế hoạch
Khi bạn giao cho một agent một mục tiêu phức tạp, nó không chỉ bắt đầu thực hiện các hành động ngay lập tức. Trước tiên, nó sẽ vạch ra một kế hoạch hành động - chia mục tiêu thành một chuỗi các bước, xác định các điểm có thể gây lỗi và ưu tiên sử dụng công cụ nào trong từng trường hợp.
Hai phương pháp phổ biến xuất hiện trong khung LLM agent ở đây:
- Chuỗi suy luận (Chain-of-thought - CoT): Agent viết ra lý luận của mình từng bước một, làm cho logic trở nên rõ ràng và (về lý thuyết) có thể kiểm tra được.
- Cây suy luận (Tree-of-Thought - ToT): Agent tạo ra và khám phá nhiều đường dẫn suy luận cùng một lúc, cho phép nó quay lại và tự sửa lỗi khi một đường dẫn thất bại.
Bộ nhớ
Nếu không có bộ nhớ, một AI agent sẽ mất dấu những gì nó đã làm được giữa chừng một nhiệm vụ. Bộ nhớ là thứ giữ cho ngữ cảnh được nguyên vẹn qua nhiều bước.
- Bộ nhớ ngắn hạn hoạt động như một cửa sổ ngữ cảnh di động - theo dõi lịch sử trò chuyện hiện tại và các quan sát gần đây của bạn - mà agent tóm tắt khi nó bắt đầu bị tràn.
- Bộ nhớ dài hạn sử dụng các vector nhúng được lưu trữ trong cơ sở dữ liệu để khởi tạo những phiên mới, do đó agent không bắt đầu mà không có thông tin. Nó thường dựa vào việc tạo ra thông tin được tăng cường bằng truy xuất (RAG) để lấy kiến thức chuyên ngành hoặc nhật ký thực thi trước đó.
Công cụ
Mô hình có thể suy luận cả ngày, nhưng nó không thể duyệt web, gửi tin nhắn Slack hoặc cập nhật bản ghi Salesforce mà không có kết nối bên ngoài. Công cụ là các API, chức năng bên ngoài và dịch vụ của bên thứ ba mà agent có thể gọi để thực hiện những tác vụ mà nó không thể tự làm. Càng nhiều công cụ mà agent có thể truy cập, nó càng trở nên hữu ích.
Các loại LLM agent
Khi nói về các loại LLM agent khác nhau, thực chất chúng ta đang nói về mức độ tự chủ mà chúng ta cho phép chúng giải quyết vấn đề. Loại agent bạn cần phụ thuộc vào mức độ tự chủ cần thiết và độ phức tạp của quy trình công việc bạn đang cố gắng giảm tải.
Agent chuyên nhiệm vụ
Agent chuyên nhiệm vụ chỉ làm một việc và làm tốt việc đó. Ví dụ, một agent hỗ trợ khách hàng xử lý các yêu cầu, một agent làm giàu thông tin khách hàng tiềm năng nghiên cứu những khách hàng tiềm năng đến từ các kênh khác nhau, hoặc một agent chuẩn bị cuộc họp soạn thảo tóm tắt trước mỗi cuộc gọi.
Nhiều người thích lấy các agent chuyên nhiệm vụ làm điểm khởi đầu vì chúng rẻ, đáng tin cậy và dễ gỡ lỗi hơn nhiều so với bất kỳ loại nào rộng hơn. Nếu nhóm của bạn mới làm quen với các LLM agent, đây là một điểm khởi đầu tốt. Chọn một quy trình công việc đang chiếm nhiều thời gian của ai đó, tự động hóa nó thật tốt và xây dựng từ đó.
Agent tự chủ
Một agent tự chủ có mục tiêu rộng hơn và tự do hơn trong cách đạt được mục tiêu đó. Thay vì được hướng dẫn chính xác các bước cần thực hiện, nó tự tìm ra quy trình. Mức độ tự chủ này rất hữu ích cho các công việc nghiên cứu chuyên sâu hoặc không rõ ràng, đặc biệt khi con đường đúng đắn không rõ ràng ngay từ đầu. Nhược điểm là càng nhiều quyền tự chủ thì càng dễ xảy ra sai sót.
Các agent tự chủ phù hợp khi công việc thực sự được hưởng lợi từ sự linh hoạt. Chúng không phù hợp khi ai đó về cơ bản đang sử dụng chúng để tránh đưa ra quyết định.
Hệ thống multi-agent
Tại sao lại sử dụng một agent duy nhất khi bạn có thể có nhiều agent chuyên biệt làm việc cùng nhau? Có thể một agent xử lý nghiên cứu, một agent khác soạn thảo, và một agent khác chạy kiểm thử chất lượng. Một agent điều phối quản lý nhóm, phân bổ nhiệm vụ và giải quyết xung đột.
Hệ thống multi-agent có thể rất mạnh mẽ, đặc biệt đối với các quy trình công việc phức tạp hơn, nơi không có agent nào có sự kết hợp skill phù hợp. Nhưng chúng cũng có thể trở thành một dạng phức tạp mới của sự lan rộng quy trình nếu bạn đưa chúng vào quá sớm.
Hướng dẫn AI
Học IT
Hàm Excel