Kembali ke Blog

Cara Iterasi Prompt AI: Sistem Pengujian yang Sederhana

Berhenti menebak-nebak kenapa prompt-mu gagal. Siklus 4 langkah untuk menguji dan menyempurnakan prompt agar hasilnya benar-benar lebih baik.

Cara Iterasi Prompt AI: Sistem Pengujian yang Sederhana
Kamu menulis sebuah prompt. Hasilnya meleset. Lalu kamu menulis ulang. Masih meleset, tapi dengan cara yang berbeda. Kamu mengubah beberapa kata, regenerasi, hasilnya mendekati — lalu kamu lupa apa yang sudah diubah. Tiga puluh menit kemudian, kamu kembali ke titik awal, tidak yakin versi mana yang sebenarnya lebih baik.
Pendekatan "regenerasi dan berharap" ini adalah cara kebanyakan orang menggunakan AI. Dan itulah alasan kebanyakan orang tetap frustrasi. Menurut riset Workday, sekitar 37% waktu yang dihemat karyawan dengan AI justru habis untuk pengerjaan ulang — memperbaiki kesalahan, memverifikasi hasil, dan menulis ulang konten yang melenceng.
Perbedaan antara mengoprek acak dan iterasi sistematis bukan soal usaha — tapi soal metode. Saat kamu menguji, mengevaluasi, dan mendokumentasikan perubahan, kamu berhenti mengulang kesalahan yang sama. Kamu jadi paham apa yang benar-benar bekerja untuk kasusmu sendiri. Dan kamu membangun prompt yang andal menghasilkan output bagus, bukan yang sesekali kebetulan berhasil.

Kenapa mengoprek acak tidak berhasil

Ada alasan kenapa iterasi prompt terasa seperti berjudi. Saat kamu mengubah tiga hal sekaligus dan hasilnya membaik, kamu tidak tahu perubahan mana yang membantu. Saat kamu menulis ulang dari ingatan tanpa membandingkan versi, kamu tidak bisa melihat polanya. Saat kamu menghapus percobaan lama, kamu kehilangan data yang seharusnya bisa memberitahumu apa yang berhasil.
Riset dari MIT Sloan menemukan bahwa hanya separuh peningkatan performa dari model AI canggih yang berasal dari modelnya sendiri. Separuh lainnya datang dari bagaimana pengguna menyesuaikan prompt mereka. Dengan kata lain, keterampilan menyusun prompt sama pentingnya dengan kemampuan AI itu sendiri.
Tapi keterampilan bukan sihir. Ia adalah pengenalan pola yang dibangun lewat latihan terstruktur. Kamu perlu melihat perubahan apa menghasilkan apa — dan untuk itu kamu butuh sistem.

Siklus iterasi 4 langkah

Iterasi prompt yang efektif mengikuti loop sederhana:
  1. Uji — Jalankan prompt dan tangkap output lengkapnya
  2. Evaluasi — Bandingkan hasil dengan tujuan spesifikmu
  3. Perbaiki — Lakukan satu perubahan terarah berdasarkan apa yang salah
  4. Dokumentasikan — Catat apa yang kamu ubah dan apa yang terjadi
Ini tidak rumit. Tapi melakukan keempat langkah — terutama yang terakhir — itulah yang membedakan orang yang terus membaik dari orang yang terus bergulat dengan masalah yang sama.
Diagram lingkaran yang menunjukkan empat langkah iterasi prompt: Uji, Evaluasi, Perbaiki, Dokumentasikan
Diagram lingkaran yang menunjukkan empat langkah iterasi prompt: Uji, Evaluasi, Perbaiki, Dokumentasikan

Langkah 1: Jalankan prompt dan tangkap semuanya

Mulai dengan prompt apa pun yang kamu punya. Jangan terlalu memikirkan versi pertama — toh kamu akan memperbaikinya. Tujuannya adalah mendapatkan baseline yang bisa kamu ukur.
Saat menjalankan prompt, simpan baik prompt maupun respons lengkapnya. Bukan hanya bagian yang bagus. Bukan ringkasan. Semuanya. Kamu butuh gambaran utuh untuk mendiagnosis masalah.
Kalau kamu menguji di ChatGPT atau Claude, salin seluruh percakapan ke catatan atau dokumen sebelum melakukan perubahan. Begitu kamu regenerasi atau edit, versi aslinya hilang.

Langkah 2: Evaluasi terhadap tujuan sebenarnya

Di sinilah kebanyakan orang keliru. Mereka melihat output dan berpikir "ini belum pas" — lalu langsung menulis ulang. Ketidakpuasan samar itu tidak memberitahumu apa yang harus diperbaiki.
Sebagai gantinya, gunakan apa yang saya sebut Red Pen Test. Telusuri output dan tandai masalah yang spesifik:
  • Apakah nadanya salah? Di bagian mana persisnya?
  • Apakah ada informasi yang hilang? Apa tepatnya?
  • Apakah terlalu panjang? Bagian mana yang isinya hampa?
  • Apakah AI salah menangkap tugasnya? Bagaimana?
  • Apakah formatnya salah? Seharusnya seperti apa?
Tuliskan evaluasimu. "Terlalu formal di paragraf 2, tidak menyebut batasan anggaran, memuat latar belakang sejarah perusahaan yang tidak relevan." Sekarang kamu tahu persis apa yang harus diperbaiki.

Langkah 3: Lakukan satu perubahan dalam satu waktu

Ini disiplin yang paling sulit dijaga, sekaligus yang paling penting. Saat kamu mengubah banyak hal sekaligus, kamu tidak bisa belajar perubahan mana yang berhasil. Riset A/B testing secara konsisten menunjukkan bahwa mengisolasi satu variabel itu krusial — menguji banyak perubahan sekaligus membuat kita mustahil menilai apa yang menyebabkan hasilnya.
Pilih masalah paling penting dari evaluasimu dan tangani hanya itu. Perbaikan yang umum meliputi:
  • Tambahkan konteks: Beri latar belakang yang dibutuhkan AI untuk memahami situasimu
  • Tambahkan batasan: Tentukan panjang, format, nada, atau hal yang harus dikecualikan
  • Tambahkan contoh: Tunjukkan seperti apa output yang baik (ini disebut few-shot prompting)
  • Perjelas tugasnya: Tulis ulang instruksi samar menjadi spesifik
  • Berikan peran: Beritahu AI siapa dirinya seharusnya (lihat role prompting)
Lakukan satu perubahanmu, jalankan prompt lagi, lalu bandingkan. Apakah membantu? Apakah memunculkan masalah baru? Kamu akan tahu, karena hanya satu hal yang berubah.

Langkah 4: Dokumentasikan apa yang kamu ubah

Langkah ini terasa opsional. Padahal tidak. Tanpa dokumentasi, kamu akan mengulang eksperimen yang gagal, melupakan teknik yang berhasil, dan kehilangan prompt terbaikmu di riwayat chat.
Dokumentasimu tidak perlu rumit. Log sederhana sudah cukup:
  • Versi: v1, v2, v3...
  • Apa yang berubah: "Menambahkan batasan jumlah kata 200 kata"
  • Hasil: "Output kini panjangnya pas tapi nada percakapannya hilang"
  • Pertahankan atau buang: Pertahankan batasan, perbaiki nadanya berikutnya
Seiring waktu, log ini menjadi panduan pribadimu. Kamu akan mulai melihat pola — mungkin menambahkan contoh selalu membantu untuk tugas menulis, atau menentukan format di awal menghasilkan struktur yang lebih baik. Wawasan-wawasan ini menumpuk.
Kalau kamu mengiterasi prompt yang akan dipakai berulang, alat seperti PromptNest memungkinkanmu menempelkan catatan langsung pada setiap prompt. Kamu bisa melacak apa yang sudah kamu coba, apa yang berhasil, dan kenapa — tanpa perlu menjaga dokumen terpisah.

Contoh nyata: mengiterasi prompt ringkasan rapat

Mari kita jalankan satu siklus iterasi nyata. Misalnya kamu perlu meringkas catatan rapat menjadi action item untuk timmu.
Versi 1:

Ringkas catatan rapat berikut.

{{meeting_notes}}
Hasil: Ringkasan umum yang menyembunyikan action item di antara paragraf konteks. Terlalu panjang, dan kamu harus mencari-cari apa yang sebenarnya perlu dilakukan.
Evaluasi: Tidak ada output yang terstruktur. Tidak ada action item yang jelas. Banyak rekap yang tidak perlu.
Perubahan: Tambahkan batasan format.
Versi 2:

Ekstrak action item dari catatan rapat berikut. Sajikan sebagai daftar berbutir dengan nama penanggung jawab dalam tanda kurung di akhir tiap item.

{{meeting_notes}}
Hasil: Daftar berbutir yang rapi berisi action item dengan penanggung jawabnya. Tapi beberapa item masih samar ("tindak lanjuti hal yang tadi kita bahas") dan tenggat waktunya tidak ada.
Evaluasi: Format sudah bagus, tapi item-itemnya kurang spesifik dan tanpa waktu.
Perubahan: Tambahkan persyaratan untuk spesifikasi dan tenggat.
Perbandingan sebelum dan sesudah yang menunjukkan prompt samar diubah menjadi prompt yang spesifik dan terstruktur
Perbandingan sebelum dan sesudah yang menunjukkan prompt samar diubah menjadi prompt yang spesifik dan terstruktur
Versi 3:

Ekstrak action item dari catatan rapat berikut.

Untuk setiap action item, sertakan:
- Apa yang harus dilakukan secara spesifik (bukan rujukan samar)
- Siapa penanggung jawabnya [dalam tanda kurung]
- Tenggat jika disebutkan, atau "Tenggat tidak disebutkan"

Jika ada action item yang kurang jelas dalam catatan, tandai dengan "[NEEDS CLARIFICATION]" agar saya bisa menindaklanjuti.

{{meeting_notes}}
Hasil: Action item yang spesifik, penanggung jawab yang jelas, tenggat di mana tersedia, dan tanda pada hal-hal yang ambigu. Ini sudah bisa dipakai.
Tiga iterasi. Masing-masing menyelesaikan masalah spesifik yang teridentifikasi dalam evaluasi. Prompt akhirnya jauh lebih baik daripada yang pertama — dan kamu tahu persis kenapa.

Kapan harus berhenti mengiterasi

Iterasi punya hasil yang menurun. Pada titik tertentu, kamu hanya memoles sesuatu yang sebenarnya sudah cukup baik. Berikut tanda-tanda kamu sebaiknya berhenti:
Output sudah memenuhi kebutuhanmu. Bukan sempurna — kebutuhan. Kalau hasilnya sudah menyelesaikan apa yang kamu perlukan, lepas saja.
Perubahan justru memperburuk. Kadang kamu mentok di puncak lokal. Kalau tiga perubahan terakhir semuanya menurunkan kualitas, kembali ke versi terbaikmu dan anggap selesai.
Kamu mengoptimalkan untuk kasus pinggir. Kalau prompt sudah bekerja 90% waktu dan kamu menghabiskan berjam-jam untuk 10% sisanya, pertimbangkan apakah waktu itu sepadan.
Masalahnya pada tugasnya, bukan promptnya. Beberapa tugas memang sulit untuk AI saat ini. Kalau kamu sudah mencoba semua pendekatan masuk akal, mungkin masalahnya kamu meminta AI melakukan sesuatu yang belum bisa ia kerjakan secara konsisten.

Bangun sistemmu, bukan hanya promptmu

Nilai sebenarnya dari iterasi sistematis bukan terletak pada satu prompt yang membaik. Ia ada pada keterampilan yang kamu kembangkan dan koleksi yang kamu bangun.
Setiap prompt yang kamu iterasi mengajarimu sesuatu tentang bagaimana AI merespons instruksi. Seiring waktu, draf pertamamu akan makin baik karena kamu sudah menyerap apa yang berhasil. Kamu akan langsung mengenali pola kegagalan yang umum. Kamu akan punya koleksi prompt teruji yang bisa kamu adaptasi untuk tugas baru.
Koleksi itu penting. Para prompt engineer terbaik tidak memulai dari nol setiap kali — mereka menjaga pustaka prompt yang sudah teruji dan bisa mereka modifikasi serta pakai ulang. Menurut survei Rev.com, pengguna yang merasa saran prompt itu membantu memiliki kemungkinan 280% lebih besar mendapatkan jawaban memuaskan dalam waktu kurang dari dua menit dibandingkan yang tidak.
Kalau kamu sedang mengumpulkan prompt yang layak disimpan, PromptNest memberi mereka rumah yang tepat — terorganisir per proyek, bisa dicari, dan dapat diakses dengan pintasan keyboard dari aplikasi mana pun. Kamu bisa menyimpan prompt yang sudah kamu iterasi dengan variabel seperti {{meeting_notes}} yang sudah terpasang, isi bagian kosong saat kamu butuh, dan lewati proses iterasi sepenuhnya karena kamu sudah melakukannya sebelumnya.
Mulailah siklus 4 langkah ini pada prompt berikutnya. Uji, evaluasi, perbaiki, dokumentasikan. Awalnya memang sedikit lebih lama. Tapi setiap jam yang kamu investasikan untuk iterasi adalah jam yang akan kamu hemat — berkali-kali lipat — saat promptmu benar-benar bekerja.