Quay lại Blog

Cách lặp lại để cải thiện prompt AI: Một hệ thống kiểm thử đơn giản

Đừng đoán mò vì sao prompt của bạn thất bại. Một chu trình 4 bước để kiểm thử và tinh chỉnh prompt, mang lại kết quả tốt hơn rõ rệt.

Cách lặp lại để cải thiện prompt AI: Một hệ thống kiểm thử đơn giản
Bạn viết một prompt. Kết quả sai. Bạn viết lại. Vẫn sai, nhưng sai theo kiểu khác. Bạn chỉnh vài từ, tạo lại, được thứ gì đó gần đúng hơn — rồi quên mất mình đã đổi cái gì. Ba mươi phút sau, bạn quay về vạch xuất phát, không biết phiên bản nào thực sự tốt hơn.
Cách "tạo lại và hy vọng" này là cách phần lớn mọi người dùng AI. Và đó là lý do phần lớn mọi người vẫn ấm ức. Theo nghiên cứu của Workday, khoảng 37% thời gian mà nhân viên tiết kiệm được nhờ AI lại bị mất vào việc làm lại — sửa lỗi, kiểm tra kết quả và viết lại nội dung chưa đạt yêu cầu.
Sự khác biệt giữa chỉnh sửa ngẫu nhiên và lặp lại có hệ thống không nằm ở công sức — mà ở phương pháp. Khi bạn kiểm thử, đánh giá và ghi lại các thay đổi, bạn ngừng lặp lại cùng một sai lầm. Bạn học được điều gì thực sự hiệu quả với trường hợp cụ thể của mình. Và bạn xây dựng được những prompt cho ra kết quả tốt một cách ổn định, thay vì thi thoảng mới may mắn vớ được.

Vì sao chỉnh sửa ngẫu nhiên không hiệu quả

Có lý do khiến việc lặp lại prompt giống như đánh bạc. Khi bạn đổi ba thứ cùng lúc và kết quả tốt lên, bạn không biết thay đổi nào giúp ích. Khi bạn viết lại theo trí nhớ thay vì so sánh các phiên bản, bạn không nhận ra được quy luật. Khi bạn xóa các bản thử cũ, bạn mất luôn dữ liệu có thể cho biết điều gì hiệu quả.
Một nghiên cứu từ MIT Sloan cho thấy chỉ một nửa mức cải thiện hiệu suất từ các mô hình AI tiên tiến đến từ chính mô hình. Nửa còn lại đến từ cách người dùng điều chỉnh prompt. Nói cách khác, kỹ năng viết prompt của bạn quan trọng không kém năng lực của AI.
Nhưng kỹ năng không phải phép màu. Đó là khả năng nhận diện quy luật, được rèn qua luyện tập có hệ thống. Bạn cần thấy thay đổi nào tạo ra kết quả nào — nghĩa là bạn cần một hệ thống.

Chu trình lặp lại 4 bước

Việc lặp lại prompt hiệu quả tuân theo một vòng lặp đơn giản:
  1. Kiểm thử — Chạy prompt và lưu lại toàn bộ kết quả
  2. Đánh giá — So sánh kết quả với mục tiêu cụ thể của bạn
  3. Tinh chỉnh — Thực hiện một thay đổi có chủ đích dựa trên điểm chưa ổn
  4. Ghi lại — Lưu lại bạn đã đổi gì và chuyện gì xảy ra
Nó không phức tạp. Nhưng làm đủ cả bốn bước — đặc biệt là bước cuối — chính là điểm phân biệt giữa người ngày càng giỏi và người mãi vật lộn với cùng một vấn đề.
Sơ đồ vòng tròn thể hiện bốn bước lặp lại prompt: Kiểm thử, Đánh giá, Tinh chỉnh, Ghi lại
Sơ đồ vòng tròn thể hiện bốn bước lặp lại prompt: Kiểm thử, Đánh giá, Tinh chỉnh, Ghi lại

Bước 1: Chạy prompt và lưu lại toàn bộ

Bắt đầu với prompt bạn đang có. Đừng nghĩ quá nhiều cho phiên bản đầu — đằng nào bạn cũng sẽ cải thiện nó. Mục tiêu là có một mốc cơ sở để đo lường.
Khi chạy prompt, hãy lưu cả prompt lẫn câu trả lời đầy đủ. Không phải chỉ những phần hay. Không phải bản tóm tắt. Lưu trọn vẹn. Bạn cần bức tranh đầy đủ để chẩn đoán vấn đề.
Nếu đang thử trên ChatGPT hay Claude, hãy sao chép toàn bộ đoạn hội thoại vào một ghi chú hoặc tài liệu trước khi thay đổi. Một khi bạn tạo lại hoặc chỉnh sửa, bản gốc biến mất.

Bước 2: Đánh giá dựa trên mục tiêu thực tế

Đây là chỗ phần lớn người ta đi sai. Họ nhìn kết quả và nghĩ "chưa ổn lắm" — rồi lập tức bắt đầu viết lại. Cảm giác không hài lòng mơ hồ đó không cho bạn biết phải sửa cái gì.
Thay vào đó, hãy dùng cái mà tôi gọi là Phép thử Bút Đỏ. Đọc qua kết quả và đánh dấu những vấn đề cụ thể:
  • Giọng văn có sai không? Sai ở đâu?
  • Có thiếu thông tin không? Thiếu cái gì cụ thể?
  • Có dài quá không? Phần nào là chữ thừa?
  • Có hiểu sai yêu cầu không? Sai như thế nào?
  • Định dạng có sai không? Đáng lẽ phải thế nào?
Hãy ghi đánh giá của bạn ra. "Đoạn 2 quá trang trọng, thiếu ràng buộc về ngân sách, thừa phần lịch sử công ty không liên quan." Giờ bạn biết chính xác cần sửa gì.

Bước 3: Mỗi lần chỉ thay đổi một thứ

Đây là kỷ luật khó duy trì nhất, và cũng quan trọng nhất. Khi bạn đổi nhiều thứ cùng lúc, bạn không thể biết thay đổi nào hiệu quả. Các nghiên cứu về A/B testing đều cho thấy tách biệt từng biến số là điều thiết yếu — kiểm thử nhiều thay đổi cùng lúc khiến không thể quy kết kết quả cho yếu tố nào.
Chọn vấn đề quan trọng nhất từ phần đánh giá và chỉ xử lý đúng vấn đề đó. Một số cách sửa thường gặp:
  • Thêm bối cảnh: Cung cấp thông tin nền để AI hiểu tình huống của bạn
  • Thêm ràng buộc: Quy định độ dài, định dạng, giọng văn hoặc điều cần loại trừ
  • Thêm ví dụ: Cho thấy đầu ra tốt trông như thế nào (cách này gọi là few-shot prompting)
  • Làm rõ yêu cầu: Viết lại các chỉ dẫn mơ hồ thành cụ thể
  • Gán vai trò: Cho AI biết nó cần đóng vai ai (xem role prompting)
Thực hiện một thay đổi, chạy lại prompt và so sánh. Có giúp ích không? Có phát sinh vấn đề mới không? Bạn sẽ biết, vì bạn chỉ đổi đúng một thứ.

Bước 4: Ghi lại bạn đã thay đổi gì

Bước này nghe có vẻ tùy chọn. Không phải đâu. Không có ghi chép, bạn sẽ lặp lại những thử nghiệm đã thất bại, quên mất các kỹ thuật từng hiệu quả, và để mất những prompt tốt nhất vào lịch sử chat.
Phần ghi chép của bạn không cần cầu kỳ. Một sổ nhật ký đơn giản là đủ:
  • Phiên bản: v1, v2, v3...
  • Đã đổi gì: "Thêm ràng buộc số từ tối đa 200"
  • Kết quả: "Độ dài đã đúng nhưng mất giọng trò chuyện"
  • Giữ hay bỏ: Giữ ràng buộc, lần sau sửa giọng văn
Theo thời gian, sổ nhật ký này trở thành cẩm nang riêng của bạn. Bạn sẽ nhận ra quy luật — có thể thêm ví dụ luôn giúp ích cho các tác vụ viết lách của bạn, hoặc nêu định dạng từ đầu sẽ cho cấu trúc tốt hơn. Những hiểu biết này tích lũy theo thời gian.
Nếu bạn đang tinh chỉnh những prompt sẽ dùng đi dùng lại, một công cụ như PromptNest cho phép bạn đính ghi chú trực tiếp lên từng prompt. Bạn có thể theo dõi đã thử gì, cái gì hiệu quả và vì sao — mà không cần duy trì một tài liệu riêng.

Ví dụ thực tế: Tinh chỉnh prompt tóm tắt cuộc họp

Hãy đi qua một chu trình lặp lại thực tế. Giả sử bạn cần tóm tắt biên bản cuộc họp thành các đầu việc cho cả nhóm.
Phiên bản 1:

Tóm tắt biên bản cuộc họp này.

{{meeting_notes}}
Kết quả: Một bản tóm tắt chung chung khiến các đầu việc bị chôn vùi trong các đoạn bối cảnh. Quá dài, và bạn phải lùng tìm xem thực ra cần làm gì.
Đánh giá: Thiếu đầu ra có cấu trúc. Không có đầu việc rõ ràng. Có phần kể lại không cần thiết.
Thay đổi: Thêm ràng buộc về định dạng.
Phiên bản 2:

Trích các đầu việc từ biên bản cuộc họp này. Trình bày dưới dạng danh sách gạch đầu dòng, kèm tên người phụ trách trong dấu ngoặc vuông sau mỗi mục.

{{meeting_notes}}
Kết quả: Danh sách đầu việc gọn gàng có người phụ trách. Nhưng vài mục còn mơ hồ ("theo dõi cái việc đã bàn lúc nãy") và thiếu thời hạn.
Đánh giá: Định dạng tốt, nhưng các mục thiếu chi tiết và thời hạn.
Thay đổi: Thêm yêu cầu về sự cụ thể và thời hạn.
So sánh trước và sau cho thấy một prompt mơ hồ được biến thành prompt cụ thể, có cấu trúc
So sánh trước và sau cho thấy một prompt mơ hồ được biến thành prompt cụ thể, có cấu trúc
Phiên bản 3:

Trích các đầu việc từ biên bản cuộc họp này.

Với mỗi đầu việc, hãy nêu:
- Việc cần làm cụ thể là gì (không nói chung chung)
- Ai phụ trách [trong dấu ngoặc vuông]
- Thời hạn nếu có nhắc đến, hoặc "Chưa có thời hạn"

Nếu một đầu việc không rõ trong biên bản, hãy đánh dấu bằng "[CẦN LÀM RÕ]" để tôi theo dõi tiếp.

{{meeting_notes}}
Kết quả: Đầu việc cụ thể, người phụ trách rõ ràng, có thời hạn khi sẵn có, và đánh dấu mọi mục còn mơ hồ. Đây mới là thứ dùng được.
Ba lần lặp. Mỗi lần xử lý một vấn đề cụ thể được phát hiện ở khâu đánh giá. Prompt cuối tốt hơn hẳn so với phiên bản đầu — và bạn biết chính xác vì sao.

Khi nào nên dừng lặp lại

Việc lặp lại có quy luật giảm dần lợi ích. Đến một điểm, bạn chỉ đang đánh bóng thứ vốn đã đủ tốt. Dưới đây là dấu hiệu nên dừng lại:
Kết quả đáp ứng yêu cầu của bạn. Không phải hoàn hảo — chỉ cần đáp ứng yêu cầu. Nếu nó làm được điều bạn cần, dùng được rồi.
Các thay đổi đang khiến mọi thứ tệ đi. Đôi khi bạn chạm đến cực đại cục bộ. Nếu ba thay đổi gần nhất đều làm chất lượng giảm, hãy quay lại phiên bản tốt nhất và coi như xong.
Bạn đang tối ưu cho trường hợp ngoại lệ. Nếu prompt chạy đúng 90% số lần và bạn dành hàng giờ cho 10% còn lại, hãy cân nhắc xem khoảng thời gian đó có đáng không.
Vấn đề nằm ở tác vụ, không phải prompt. Có những việc thực sự khó với AI hiện tại. Nếu bạn đã thử mọi cách hợp lý, có thể vấn đề là bạn đang yêu cầu AI làm điều nó chưa thể làm tốt một cách ổn định.

Xây hệ thống của bạn, không chỉ xây prompt

Giá trị thực sự của việc lặp lại có hệ thống không nằm ở một prompt được cải thiện cụ thể nào. Nó nằm ở kỹ năng bạn rèn luyện và thư viện bạn xây dựng.
Mỗi prompt bạn lặp lại đều dạy bạn điều gì đó về cách AI phản ứng với chỉ dẫn. Theo thời gian, bạn sẽ có những bản nháp đầu tốt hơn vì đã nội hóa được điều gì hiệu quả. Bạn sẽ nhận ra ngay những kiểu lỗi quen thuộc. Bạn sẽ có một bộ sưu tập prompt đã được kiểm chứng để chỉnh sửa và tái sử dụng cho các tác vụ mới.
Bộ sưu tập đó rất quan trọng. Những người viết prompt giỏi nhất không bắt đầu từ con số không mỗi lần — họ duy trì thư viện prompt đã được kiểm chứng để có thể chỉnh và dùng lại. Theo một khảo sát của Rev.com, những người dùng thấy gợi ý prompt hữu ích có khả năng nhận được câu trả lời thỏa đáng trong dưới hai phút cao hơn 280% so với những người không thấy hữu ích.
Nếu bạn đang tích lũy những prompt đáng giữ, PromptNest cho chúng một mái nhà tử tế — sắp xếp theo dự án, có thể tìm kiếm, và mở ra bằng phím tắt từ bất cứ ứng dụng nào. Bạn có thể lưu các prompt đã tinh chỉnh kèm sẵn biến như {{meeting_notes}}, điền vào chỗ trống khi cần, và bỏ qua hẳn quá trình lặp lại vì bạn đã làm xong phần việc đó rồi.
Hãy bắt đầu áp dụng chu trình 4 bước cho prompt tiếp theo. Kiểm thử, đánh giá, tinh chỉnh, ghi lại. Lúc đầu sẽ tốn thêm chút thời gian. Nhưng mỗi giờ bạn đầu tư cho việc lặp lại là một giờ bạn sẽ tiết kiệm — gấp nhiều lần — khi prompt của bạn thực sự hoạt động.