Tagasi blogisse

Kuidas AI-juhiseid täiustada: lihtne testimissüsteem

Lõpeta arvamine, miks su juhised ei tööta. Neljaastmeline tsükkel juhiste testimiseks ja parandamiseks, mis tegelikult annab paremaid tulemusi.

Kuidas AI-juhiseid täiustada: lihtne testimissüsteem
Kirjutasid juhise. Vastus oli vale. Kirjutasid selle ümber. Ikka vale, aga teistmoodi vale. Muutsid paari sõna, lasid uuesti genereerida, said midagi paremat — ja siis kaotasid silmist, mida sa tegelikult muutsid. Pool tundi hiljem oled tagasi alguspunktis ega tea, milline versioon oli päriselt parem.
Selline „genereeri ja looda parimat" lähenemine on viis, kuidas enamik inimesi AI-d kasutab. Ja just seetõttu jäävadki paljud frustratsiooni kütkeisse. Workday uuringu kohaselt läheb ligikaudu 37% AI-ga säästetud ajast kaotsi ümbertegemisele — vigade parandamisele, vastuste kontrollimisele ja sisu ümberkirjutamisele, mis ei tabanud märki.
Suvalise näpitsemise ja süsteemse iteratsiooni vahe ei seisne pingutuses, vaid meetodis. Kui sa testid, hindad ja dokumenteerid oma muudatusi, siis lakkad samade vigade kordamisest. Sa õpid, mis sinu konkreetsel juhul tegelikult töötab. Ja sa ehitad juhiseid, mis annavad usaldusväärselt häid tulemusi, selle asemel et neile aeg-ajalt juhuse tahtel komistada.

Miks suvaline näpitsemine ei toimi

On põhjus, miks juhiste täiustamine tundub hasartmänguna. Kui muudad korraga kolme asja ja vastus läheb paremaks, ei tea sa, milline muudatus aitas. Kui kirjutad mälu järgi ümber, selle asemel et versioone võrrelda, ei märka sa mustreid. Kui kustutad oma vanad katsetused, kaotad andmed, mis sulle ütleksid, mis tegelikult töötab.
MIT Sloani uuring näitas, et ainult pool täiustatud AI-mudelite jõudluse kasvust tuleb mudelist endast. Teine pool tuleb sellest, kuidas kasutajad oma juhiseid kohandavad. Teisisõnu — sinu oskus juhiseid kirjutada loeb sama palju kui AI võimekus.
Aga oskus pole maagia. See on mustrite äratundmine, mis sünnib struktureeritud praktikast. Sa pead nägema, millised muudatused millised tulemused annavad — see tähendab, et sul on vaja süsteemi.

Neljaastmeline iteratsioonitsükkel

Tõhus juhiste täiustamine järgib lihtsat tsüklit:
  1. Testi — käivita oma juhis ja salvesta kogu vastus
  2. Hinda — võrdle tulemust oma konkreetse eesmärgiga
  3. Täpsusta — tee üks sihipärane muudatus selle põhjal, mis on valesti
  4. Dokumenteeri — pane kirja, mida muutsid ja mis juhtus
See pole keeruline. Aga kõigi nelja sammu — eriti viimase — tegemine eristab inimesi, kes lähevad järjepidevalt paremaks, neist, kes maadlevad ikka ja jälle samade probleemidega.
Ringskeem, mis näitab juhiste iteratsiooni nelja sammu: Testi, Hinda, Täpsusta, Dokumenteeri
Ringskeem, mis näitab juhiste iteratsiooni nelja sammu: Testi, Hinda, Täpsusta, Dokumenteeri

1. samm: käivita juhis ja salvesta kõik

Alusta sellest juhisest, mis sul on. Ära mõtle esimest versiooni üle — sa lähed seda nagunii parandama. Eesmärk on saada lähtepunkt, millega edasisi versioone võrrelda.
Kui käivitad juhise, salvesta nii juhis kui ka täielik vastus. Mitte ainult head osad. Mitte kokkuvõte. Kogu asi. Probleemide diagnoosimiseks on sul vaja tervet pilti.
Kui katsetad ChatGPT-s või Claude'is, kopeeri kogu vestlus enne muudatuste tegemist märkmesse või dokumenti. Kui oled juba uuesti genereerinud või toimetanud, on originaal kadunud.

2. samm: hinda päris eesmärki silmas pidades

Just siin lähevad enamikul asjad sassi. Vaadatakse vastust ja mõeldakse „see pole päris see" — ning hakatakse kohe ümber kirjutama. See ähmane rahulolematus ei ütle sulle, mida parandada.
Kasuta selle asemel seda, mida ma nimetan punase pliiatsi testiks. Käi vastus läbi ja märgi konkreetsed probleemid:
  • Kas toon on vale? Kus täpselt?
  • Kas mõni info on puudu? Mis konkreetselt?
  • Kas tekst on liiga pikk? Millised osad on tühi sõnavaht?
  • Kas ülesanne sai valesti aru? Kuidas?
  • Kas vorming on vale? Mis see peaks olema?
Pane oma hinnang kirja. „Teises lõigus liiga ametlik, eelarvepiirang puudu, lisatud asjakohatu taust ettevõtte ajaloo kohta." Nüüd tead täpselt, mida parandada.

3. samm: muuda korraga ainult ühte asja

See on kõige raskem distsipliin ja ühtlasi kõige tähtsam. Kui muudad korraga mitut asja, ei saa sa teada, milline muudatus toimis. A/B-testimise uuringud näitavad järjekindlalt, et ühe muutuja eraldi hoidmine on hädavajalik — mitme muudatuse üheaegne testimine teeb tulemuste põhjuse tuvastamise võimatuks.
Vali oma hinnangust kõige tähtsam probleem ja tegele ainult sellega. Levinud parandused on:
  • Lisa konteksti: anna AI-le taust, mida ta su olukorra mõistmiseks vajab
  • Lisa piiranguid: täpsusta pikkust, vormingut, tooni või seda, mis välja jätta
  • Lisa näiteid: näita, milline näeb välja hea vastus (seda nimetatakse few-shot juhendamiseks)
  • Täpsusta ülesannet: kirjuta ähmased juhised konkreetseks ümber
  • Anna roll: ütle AI-le, kes ta peaks olema (vt rolli andmist)
Tee oma üks muudatus, käivita juhis uuesti ja võrdle. Kas see aitas? Kas see tekitas uue probleemi? Sa tead, sest muutsid ainult ühte asja.

4. samm: dokumenteeri, mida muutsid

See samm tundub valikuline. Pole. Ilma dokumenteerimiseta kordad ebaõnnestunud katseid, unustad toimivad võtted ja kaotad oma parimad juhised vestluste ajalukku.
Su dokumentatsioon ei pea olema põhjalik. Lihtne logi piisab:
  • Versioon: v1, v2, v3...
  • Mis muutus: „Lisasin sõnade arvu piirangu 200 sõna"
  • Tulemus: „Pikkus on nüüd õige, aga kadus vestluslik toon"
  • Hoia või viska: hoia piirang, paranda järgmisena toon
Aja jooksul saab sellest logist sinu isiklik mängumeisterraamat. Hakkad mustreid märkama — võib-olla aitavad näited alati su kirjutamisülesannetes või vormingu varakult täpsustamine annab parema struktuuri. Sellised tähelepanekud kuhjuvad.
Kui täiustad juhiseid, mida hakkad korduvalt kasutama, võimaldab tööriist nagu PromptNest lisada märkmeid otse iga juhise juurde. Saad jälgida, mida oled proovinud, mis töötas ja miks — eraldi dokumenti pidamata.

Päris näide: koosolekukokkuvõtte juhise täiustamine

Vaatame ühe päris iteratsioonitsükli läbi. Oletame, et pead koosolekumärkmetest oma tiimi jaoks tegevuspunktid kokku panema.
Versioon 1:

Summarize these meeting notes.

{{meeting_notes}}
Tulemus: üldine kokkuvõte, mis matab tegevuspunktid kontekstilõikude alla. Liiga pikk ja sa pead jahtima, mis tegelikult tegema peab.
Hinnang: struktureeritud vorming puudub. Selgeid tegevuspunkte pole. Sisaldab ebavajalikku ülevaadet.
Muudatus: lisa vorminguga seotud piirangud.
Versioon 2:

Extract action items from these meeting notes. Format as a bulleted list with the owner's name in brackets after each item.

{{meeting_notes}}
Tulemus: korralik täppidega tegevuspunktide loend ja vastutajad. Aga osa punkte on ebamäärased („tee järelkontroll selles asjas, mida arutasime") ja tähtajad puuduvad.
Hinnang: vorming on hea, aga punktid ei ole konkreetsed ega ajastatud.
Muudatus: lisa nõuded konkreetsuse ja tähtaegade kohta.
Enne ja pärast võrdlus, mis näitab, kuidas ähmasest juhisest sai konkreetne ja struktureeritud juhis
Enne ja pärast võrdlus, mis näitab, kuidas ähmasest juhisest sai konkreetne ja struktureeritud juhis
Versioon 3:

Extract action items from these meeting notes.

For each action item, include:
- What specifically needs to be done (not vague references)
- Who owns it [in brackets]
- Deadline if mentioned, or "No deadline specified"

If an action item is unclear in the notes, flag it with "[NEEDS CLARIFICATION]" so I can follow up.

{{meeting_notes}}
Tulemus: konkreetsed tegevuspunktid, selged vastutajad, tähtajad seal, kus need on olemas, ning tähistused kõige ebamäärasema juures. See on kasutatav.
Kolm iteratsiooni. Iga üks tegeles konkreetse hinnangus tuvastatud probleemiga. Lõplik juhis on esimesest dramaatiliselt parem — ja sa tead täpselt, miks.

Millal lõpetada täiustamine

Iteratsiooni tulu kahaneb. Mingil hetkel lihvid sa midagi, mis on juba piisavalt hea. Siin on märgid, et tasub lõpetada:
Vastus vastab sinu nõuetele. Mitte täiuslik — nõuetele. Kui see teeb seda, mida vajad, siis see on valmis.
Muudatused teevad asja hullemaks. Vahel jõuad lokaalse maksimumini. Kui su viimased kolm muudatust on kõik kvaliteeti halvendanud, mine tagasi parima versiooni juurde ja loe töö tehtuks.
Optimeerid erijuhtumeid. Kui juhis töötab 90% ajast ja sa kulutad tunde ülejäänud 10% peale, mõtle, kas see aeg on seda väärt.
Probleem on ülesandes, mitte juhises. Mõned ülesanded on praegusele AI-le tõeliselt rasked. Kui oled proovinud kõiki mõistlikke lähenemisi, võib olla tegu sellega, et palud AI-l teha midagi, mida ta veel usaldusväärselt ei suuda.

Ehita süsteemi, mitte ainult juhiseid

Süsteemse iteratsiooni tegelik väärtus pole ükski üksik täiustatud juhis. See on oskus, mille omandad, ja kogu, mille üles ehitad.
Iga juhis, mida iteratiivselt parandad, õpetab sulle midagi selle kohta, kuidas AI juhistele reageerib. Aja jooksul hakkavad esimesed mustandid juba paremad olema, sest oled selgeks saanud, mis töötab. Tunned tüüpilised veamustrid kohe ära. Sul tekib kogu tõestatud juhiseid, mida saad uute ülesannete jaoks kohandada.
See kogu loeb. Parimad juhiste kirjutajad ei alusta iga kord nullist — nad peavad testitud juhistest kogusid, mida saavad muuta ja taaskasutada. Rev.com küsitluse järgi saavad kasutajad, kellele juhiste soovitused on abiks, 280% tõenäolisemalt rahuldava vastuse kahe minuti jooksul, võrreldes nendega, kellele need abi ei paku.
Kui sul tekib hoidmist väärt juhiseid, annab PromptNest neile korraliku kodu — projektide kaupa korrastatud, otsitavad ja klahvikombinatsiooniga ükskõik millisest rakendusest kättesaadavad. Saad oma täiustatud juhised salvestada koos sisseehitatud muutujatega nagu {{meeting_notes}}, täita lüngad siis, kui vaja, ja iteratsiooniprotsessi täiesti vahele jätta — sest töö on juba tehtud.
Alusta neljaastmelise tsükliga oma järgmise juhise juures. Testi, hinda, täpsusta, dokumenteeri. Alguses võtab see veidi rohkem aega. Aga iga tund, mille investeerid täiustamisse, on tund, mille sa tagasi saad — ja palju kordi rohkem — kui su juhised lõpuks päriselt töötama hakkavad.