Kaip tobulinti AI užklausas: paprasta testavimo sistema
Liaukitės spėlioję, kodėl jūsų užklausos neveikia. 4 žingsnių ciklas užklausoms testuoti ir tobulinti, kuris iš tikrųjų duoda geresnių rezultatų.
Parašėte užklausą. Rezultatas buvo blogas. Tad perrašėte. Vis tiek blogai, tik kitaip blogai. Pakeitėte kelis žodžius, sugeneravote iš naujo, gavote kažką artimesnio – tada pamiršote, ką pakeitėte. Po trisdešimties minučių vėl esate pradinėje pozicijoje ir nebežinote, kuri versija iš tiesų buvo geresnė.
Šis „generuok iš naujo ir tikėkis“ metodas yra būdas, kuriuo dauguma žmonių naudoja dirbtinį intelektą. Ir būtent dėl to dauguma lieka nusivylę. Pagal Workday tyrimą, maždaug 37 % laiko, kurį darbuotojai sutaupo naudodami AI, prarandama dėl perdarymo – klaidų taisymo, rezultatų tikrinimo ir netinkamo turinio perrašymo.
Skirtumas tarp atsitiktinio koregavimo ir sistemingo tobulinimo nėra pastangos – tai metodas. Kai testuojate, vertinate ir dokumentuojate savo pakeitimus, nustojate kartoti tas pačias klaidas. Sužinote, kas iš tikrųjų veikia jūsų konkrečiu atveju. Ir sukuriate užklausas, kurios patikimai duoda gerus rezultatus, o ne kartais į juos atsitiktinai pataiko.
Kodėl atsitiktinis koregavimas neveikia
Yra priežastis, kodėl užklausų tobulinimas atrodo kaip azartinis lošimas. Kai keičiate tris dalykus iš karto ir rezultatas pagerėja, nežinote, kuris pakeitimas padėjo. Kai perrašote iš atminties, užuot lyginę versijas, negalite pastebėti dėsningumų. Kai ištrinate senesnius bandymus, prarandate duomenis, kurie pasakytų, kas veikia.
MIT Sloan tyrimas parodė, kad tik pusė pažangių AI modelių našumo pagerėjimo ateina iš paties modelio. Kita pusė priklauso nuo to, kaip naudotojai pritaiko savo užklausas. Kitaip tariant, jūsų gebėjimas formuluoti užklausas yra toks pat svarbus kaip ir paties AI galimybės.
Tačiau įgūdis nėra magija. Tai modelių atpažinimas, įgytas struktūrizuotos praktikos būdu. Reikia matyti, kokie pakeitimai duoda kokius rezultatus – o tam reikia sistemos.
4 žingsnių tobulinimo ciklas
Veiksmingas užklausų tobulinimas vyksta paprastu ciklu:
Testuokite – paleiskite užklausą ir užfiksuokite visą rezultatą
Įvertinkite – palyginkite rezultatą su konkrečiu tikslu
Patobulinkite – atlikite vieną tikslingą pakeitimą pagal tai, kas negerai
Dokumentuokite – užrašykite, ką pakeitėte ir kas įvyko
Tai nesudėtinga. Bet visų keturių žingsnių laikymasis – ypač paskutinio – yra tai, kas skiria nuolat tobulėjančius nuo tų, kurie kapstosi tose pačiose problemose.
1 žingsnis: paleiskite užklausą ir viską užfiksuokite
Pradėkite nuo bet kokios turimos užklausos. Negaiškite laiko galvodami apie pirmąją versiją – vis tiek ją tobulinsite. Tikslas – gauti pradinį tašką, su kuriuo galėsite lyginti.
Paleidę užklausą, išsaugokite ir užklausą, ir visą atsakymą. Ne tik gerąsias dalis. Ne santrauką. Visą turinį. Reikia visapusiško vaizdo, kad galėtumėte diagnozuoti problemas.
Jei testuojate ChatGPT ar Claude, prieš darydami pakeitimus nukopijuokite visą pokalbį į užrašą ar dokumentą. Kai sugeneruosite iš naujo arba redaguosite, originalo nebebus.
2 žingsnis: vertinkite pagal tikrąjį tikslą
Štai kur dauguma žmonių klysta. Pažiūri į rezultatą ir pagalvoja: „čia ne visai tai“ – ir iš karto ima perrašinėti. Toks miglotas nepasitenkinimas nepasako, ką taisyti.
Vietoj to taikykite tai, ką vadinu raudono pieštuko testu. Peržiūrėkite rezultatą ir pažymėkite konkrečias problemas:
Ar tonas netinkamas? Kur konkrečiai?
Ar trūksta informacijos? Kokios būtent?
Ar per ilgas? Kurios dalys yra užpildas?
Ar AI nesuprato užduoties? Kaip?
Ar formatas netinkamas? Koks turėtų būti?
Užrašykite vertinimą. „Per oficialus 2 pastraipoje, trūksta biudžeto apribojimo, įtraukta nereikalinga informacija apie įmonės istoriją.“ Dabar tiksliai žinote, ką taisyti.
3 žingsnis: keiskite po vieną dalyką
Tai sunkiausia disciplina, kurią reikia išlaikyti, ir pati svarbiausia. Kai keičiate kelis dalykus iš karto, negalite suprasti, kuris pakeitimas suveikė. A/B testavimo tyrimai nuosekliai rodo, kad vieno kintamojo izoliavimas yra itin svarbus – kelių pakeitimų testavimas vienu metu neleidžia priskirti rezultatų konkrečiam pakeitimui.
Iš savo vertinimo pasirinkite svarbiausią problemą ir spręskite tik ją. Dažni sprendimai:
Pridėkite konteksto: pateikite informaciją, kurios AI reikia jūsų situacijai suprasti
Pridėkite apribojimų: nurodykite ilgį, formatą, toną arba ką reikia praleisti
Pridėkite pavyzdžių: parodykite, kaip atrodo geras rezultatas (tai vadinama few-shot prompting)
Priskirkite vaidmenį: pasakykite AI, kuo jis turėtų būti (žr. vaidmenų užklausas)
Atlikite vieną pakeitimą, paleiskite užklausą iš naujo ir palyginkite. Ar pagerėjo? Ar atsirado nauja problema? Žinosite, nes pakeitėte tik vieną dalyką.
4 žingsnis: dokumentuokite, ką pakeitėte
Šis žingsnis atrodo neprivalomas. Bet nėra. Be dokumentacijos kartosite nepavykusius eksperimentus, pamiršite sėkmingus metodus ir prarasite geriausias užklausas pokalbių istorijoje.
Dokumentacija nebūtinai turi būti sudėtinga. Užtenka paprasto žurnalo:
Versija: v1, v2, v3...
Kas pasikeitė: „Pridėtas 200 žodžių apribojimas“
Rezultatas: „Tinkamo ilgio, bet prarastas pokalbio tonas“
Palikti ar atmesti: palikti apribojimą, kitą kartą taisyti toną
Laikui bėgant šis žurnalas tampa asmeniniu žinynu. Pastebėsite dėsningumus – galbūt pavyzdžių pridėjimas visada padeda rašymo užduotyse, o gal anksti nurodytas formatas duoda geresnę struktūrą. Šios įžvalgos kaupiasi.
Jei tobulinate užklausas, kurias naudosite ne kartą, įrankis kaip PromptNest leidžia prie kiekvienos užklausos pridėti pastabas. Galite sekti, ką išbandėte, kas suveikė ir kodėl – netvarkydami atskiro dokumento.
Pereikime per realų tobulinimo ciklą. Tarkime, jums reikia susitikimo užrašus paversti komandai skirtais veiksmų sąrašais.
1 versija:
Apibendrink šiuos susitikimo užrašus.
{{meeting_notes}}
Rezultatas: bendra santrauka, kurioje veiksmų punktai paskęsta konteksto pastraipose. Per ilga, ir tenka ieškoti, kas iš tiesų turi būti padaryta.
Vertinimas: trūksta struktūrizuoto rezultato. Nėra aiškių veiksmų punktų. Įtraukta nereikalinga apžvalga.
Pakeitimas: pridėti formato apribojimus.
2 versija:
Iš šių susitikimo užrašų ištrauk veiksmų punktus. Pateik kaip ženkliuką sąrašą su atsakingo asmens vardu skliausteliuose po kiekvieno punkto.
{{meeting_notes}}
Rezultatas: tvarkingas veiksmų punktų sąrašas su atsakingais asmenimis. Bet kai kurie punktai miglotai („pasekti tą dalyką, kurį aptarėme“), o terminų nėra.
Vertinimas: geras formatas, bet punktams trūksta konkretumo ir laiko nuorodų.
Pakeitimas: pridėti reikalavimus dėl konkretumo ir terminų.
Palyginimas „prieš ir po“: miglota užklausa virsta konkrečia, struktūrizuota užklausa
3 versija:
Iš šių susitikimo užrašų ištrauk veiksmų punktus.
Kiekvienam veiksmų punktui pateik:
- Ką konkrečiai reikia padaryti (be miglotų nuorodų)
- Kas atsakingas [skliausteliuose]
- Terminą, jei paminėtas, arba „Terminas nenurodytas“
Jei veiksmų punktas užrašuose neaiškus, pažymėk jį „[REIKIA PATIKSLINIMO]“, kad galėčiau pasiteirauti.
{{meeting_notes}}
Rezultatas: konkretūs veiksmų punktai, aiškūs atsakingi asmenys, terminai, kur jie yra, ir žymės prie visko, kas dviprasmiška. Tinka naudoti.
Trys iteracijos. Kiekviena sprendė konkrečią vertinimo metu nustatytą problemą. Galutinė užklausa nepalyginamai geresnė už pirmąją – ir žinote, kodėl.
Kada nustoti tobulinti
Tobulinimas turi mažėjančią grąžą. Tam tikru momentu tiesiog šlifuojate tai, kas jau yra pakankamai gera. Štai požymiai, kad metas sustoti:
Rezultatas atitinka jūsų reikalavimus. Ne tobulas – atitinkantis reikalavimus. Jei daro tai, ko reikia, naudokite.
Pakeitimai blogina situaciją. Kartais pasiekiate vietinį maksimumą. Jei paskutiniai trys pakeitimai pablogino kokybę, grįžkite prie geriausios versijos ir užbaikite.
Optimizuojate kraštutinius atvejus. Jei užklausa veikia 90 % atvejų, o jūs valandų valandas leidžiate likusiems 10 %, pasvarstykite, ar tas laikas to vertas.
Problema yra užduotis, o ne užklausa. Kai kurios užduotys dabartiniam AI tikrai sunkios. Jei išbandėte visus protingus būdus, problema gali būti ta, kad iš AI prašote to, ko jis dar negali patikimai padaryti.
Kurkite sistemą, ne tik užklausas
Tikroji sisteminio tobulinimo vertė – ne kuri nors viena patobulinta užklausa. Tai įgūdis, kurį išsiugdote, ir biblioteka, kurią sukaupiate.
Kiekviena tobulinama užklausa moko, kaip AI reaguoja į instrukcijas. Laikui bėgant pradėsite gauti geresnius pirmus juodraščius, nes jau būsite įsisavinę, kas veikia. Iš karto atpažinsite dažnus nesėkmių požymius. Turėsite išbandytų užklausų rinkinį, kurį galėsite pritaikyti naujoms užduotims.
Tas rinkinys svarbus. Geriausi užklausų inžinieriai nepradeda kiekvieną kartą nuo nulio – jie kaupia išbandytų užklausų bibliotekas, kurias gali keisti ir pakartotinai naudoti. Pagal Rev.com apklausą, naudotojai, kuriems naudingi užklausų pasiūlymai, 280 % dažniau gauna tinkamus atsakymus per mažiau nei dvi minutes nei tie, kurie tokios pagalbos neturi.
Jei kaupiate vertas išsaugoti užklausas, PromptNest joms suteikia tinkamus namus – sutvarkytos pagal projektus, lengvai randamos ir pasiekiamos klavišų kombinacija iš bet kurios programos. Galite išsaugoti patobulintas užklausas su jau įdėtais kintamaisiais, tokiais kaip {{meeting_notes}}, užpildyti laukus, kai prireikia, ir visiškai praleisti tobulinimo procesą, nes darbą jau atlikote.
Kitą kartą rašydami užklausą pradėkite nuo 4 žingsnių ciklo. Testuokite, vertinkite, tobulinkite, dokumentuokite. Iš pradžių užtruks šiek tiek ilgiau. Bet kiekviena valanda, investuota į tobulinimą, yra valanda, kurią daug kartų atgausite, kai jūsų užklausos iš tiesų pradės veikti.