Series Tất tần tật về AI Agents - Bài 1: AI Agents là gì?
AI Agents tuy lạ mà quen, tuy quen mà lạ nha. Ở Việt Nam thì từ cuối năm 2024 đến nay các chuyên gia nhắc nhiều. Còn trong báo cáo phân tích thì McKinsey, Gartner, Forbes hay Harvard Business Review đã nhắc tới xu hướng này từ 2023.Để dễ hiểu, chúng ta tách AI Agents thành AI và Agents nha.Agents hiểu nôm na là trợ lý thông tin.
- Agents “người” là cô tổng đài viên trả lời thông tin, hoặc thực hiện tác vụ như đặt vé khách sạn máy bay.
- Agents “máy” là mấy em Chatbot trả lời theo kịch bản dựng sẵn là Agents, nhưng không phải AI Agents.
AI phải được hiểu là có Agent có ứng dụng AI. Vì vậy:
- Mấy em Voicebot cũng có ứng dụng AI trong việc nhận diện giọng nói nhưng chỉ là AI hời hợt ở hình thức giao tiếp nếu bên dưới cũng theo kịch bản dựng sẵn.
- Mấy em trợ lý ảo như Siri, Alexa hay Google Assistant được xem là đời đầu của AI Agents khi làm được rất nhiều thứ rất AI: nhận diện giọng nói, phân tích câu truy vấn, đặt vào ngữ cảnh cá nhân hoá, xử lý và trả thông tin liên quan.
Từ hồi có Generative AI (AI tạo sinh nội dung - hay còn gọi là Foundation AI) thì AI Agents trăm hoa đua nở luôn.Nhưng trước khi đi sâu và các hình thức AI Agents, để tôi giải thích kỹ hơn về Machine Learning và AI Engineering.
Các bạn nhớ lại đi, có phải trước khi có chatGPT ra đời, khi nói tới AI chúng ta hay nói AI và Machine Learning không?
Vì sao? Vì muốn có AI thì phải có train (huấn luyện) 1 tập dữ liệu theo mô hình nào đó. Việc train này tốn nhiều tiền trong việc đánh nhãn (labelling). Ví dụ: phải có người thật gán nhãn hàng trăm ngàn bức ảnh liên quan đến “một quả trứng Ốp la”, thì sau này khi đưa vào 1 bức ảnh mới hoàn toàn thì máy trả về kết quả đây có phải là quả trứng Ốp la hay không?
Do đó, khi nhà phát triển ứng dụng nào nói “tôi có sử dụng AI” thì gần như chắc chắn ứng dụng thuộc dạng giàu có và đầu tư lớn (đầu tư phần cứng, có kỹ sư Machine Learning, có dữ liệu để train, có thời gian và tiền bạc để điều chỉnh và nâng cấp…).Nhưng sau khi thời kỳ chatGPT, cụm từ “có sử dụng AI” trở nên đơn giản và bình dân hơn rất nhiều.
Vì sao? Vì:
- Không cần train dữ liệu vì đã có người xây dựng mô hình và train sẵn.
- Các mô hình được train với tập dữ liệu lớn hơn rất nhiều
- “AI as a Service” trở nên phổ biến và đơn giản. Với số tiền hợp lý, và kiến thức cơ bản về lập trình có thể tương tác trực tiếp, các AI Engineer có thể nhanh chóng giao tiếp và khai thác AI.
Cho dễ hình dung, bạn tưởng tưởng foundation AI là phần lõi, và AI Agents là phần vỏ bên ngoài. Agents (như chatGPT) sẽ tiếp nhận yêu cầu của bạn và gởi cho AI xử lý và trả kết quả về.
Tuy nhiên, vấn đề không đơn giản như thế:
- Vì là AI tạo sinh nên dữ liệu tạo ra từ AI rất có thể là không chính xác nhưng người khác lại tưởng là chính xác. Đây gọi là hallucination (ảo giác).
- AI không có dữ liệu thời gian thực
- AI không có dữ liệu chi tiết và cụ thể của những dữ liệu không phổ biến (chưa được train). Ví dụ như dữ liệu về sản phẩm, chính sách bán hàng, hay đặt hàng cụ thể trong hệ thống của công ty bạn.
Vì vậy, một số phương án được đưa ra để làm AI Agents thông minh và đáp ứng đúng nhu cầu cụ thể hơn: Prompt Engineering, RAG và Finetuning.
Các AI Agents mà các bạn đang tương tác bây giờ sẽ có thêm 1 phần nữa:
- Phần lõi: Foundation AI (gemini, chatGPT). Những AI đã được train với hàng tỉ tham số.
- Phần thân: Prompt Engineering, RAG, Finetuning giúp cá nhân hoá hoặc tối ưu thông tin của Foundation AI
- Phần vỏ: chính là giao diện của con AI bot mà bạn giao tiếp. Có thể là chatbot, voicebot…và nội dung trả về không chỉ là thông tin dạng text mà còn có thể là hình ảnh, nhạc, video…
Đón xem bài 2 - Prompt Engineering, RAG và Finetuning