Poprawiłem odpowiedzi AI o 60% - Ty też możesz

Poprawiłem odpowiedzi AI o 60% - Ty też możesz

Wstęp: mit "Idealnego Promptu"
Co na to nauka?
"Hold my kawa" czyli poligon doświadczalny
Analiza wyników
Osobowości modeli
Podsumowanie i ściągi

Mit "Idealnego Promptu"

Internet tonie w radach. Jedni mówią: „bądź miły”. Drudzy: „szantażuj emocjonalnie”. Jeszcze inni każą pisać prompty, które wyglądają jak fragment kodu z gry.

Problem? Większość tych „strategii” opiera się na anegdotach.
Komuś raz coś „zaskoczyło” i uznał, że znalazł rozwiązanie wszystkich ejajowych problemów.

Wszyscy szukają tego jednego, uniwersalnego promptu. Jedynego Pierścienia, który obsłuży każdy model i każde zadanie.

On nie istnieje.

Większość tych rad nie działa, bo zakłada, że model językowy to kalkulator. Że jak wpiszesz 2+2, to zawsze dostaniesz 4.

Otóż nie. AI to kapryśny nastolatek. Ma swoje humory, osobowości i – co najdziwniejsze – reaguje na psychologię.

Wiem - teoretycznie to nie powinno działać. A jednak psychologiczne chwyty wymuszają na AI lepsze wyniki i redukują halucynacje.

Co na to nauka?

Zanim uznasz, że sam mam halucynacje, musisz wiedzieć jedno. Za "psychologią promptowania" stoją twarde badania naukowe.

Kiedy zacząłem grzebać w dokumentacji, okazało się, że naukowcy od dawna wiedzą, że AI ma... "uczucia". A przynajmniej symuluje je tak dobrze, że daje się nimi manipulować.

Oto trzy fundamenty, na których oparłem mój test:

  • Metoda "Na Jogina" (Google DeepMind): Badacze z Google (Yang et al., 2023) odkryli coś, co brzmi jak żart. Dodanie do promptu frazy "Weź głęboki oddech i rozwiąż to krok po kroku" podniosło skuteczność w zadaniach matematycznych z 34% na 80%.
  • Metoda "Na Bogacza" (Tipping Prompting): Badanie Bsharat et al. (2023) wykazało, że modele są chciwe. Obietnica wirtualnego napiwku (nawet symbolicznego) potrafiła podnieść jakość odpowiedzi o 45%.
  • Metoda "Na Szantażystę" (EmotionPrompt): To już kompletny odlot. Li et al. (2023) udowodnili, że jeśli powiesz AI: "To dla mnie bardzo ważne" albo "Moja kariera od tego zależy", wyniki szybują w górę o 115%.

No ale papier przyjmie wszystko, a ja wolę "mięso".

Dlatego postanowiłem nie wierzyć na słowo. Zbudowałem własny poligon, żeby przetestować. Potrzymaj mi kawę...

"Hold my kawa" czyli poligon doświadczalny


Poświęciłem weekend.
Zbudowałem 3 automatyzacje.
Wydałem kilkaset złotych na API.
Przeprowadziłem 450 prób.

Przetestowałem trzy modele: Claude Sonnet 4.5, ChatGPT 5.1, Gemini 3.

Zamiast robić ręczne testy w oknie czatu, zbudowałem automatyzację. Tradycyjne testy, nawet w trybie czatu tymczasowego, mogą być skażone „wiedzą” modelu, który zagląda do swojej pamięci.

Automatyzacja bez dostępu do pamięci gwarantuje „czystą tablicę” przy każdym teście.