A Claude modelleket fejlesztő Anthropic cég új funkciót vezetett be az API-ján keresztül, amelyet „prompt caching”-nek hívnak. Ez a funkció lehetővé teszi a fejlesztők számára, hogy az API hívások között tárolják a gyakran használt kontextust, ezáltal jelentős költség- és időmegtakarítást érjenek el. A prompt caching használatával akár 90%-kal csökkenthetők a költségek, és akár 85%-kal is lerövidíthető a hosszú promptok feldolgozási ideje. Jelenleg a prompt caching nyilvános bétaverzióban érhető el a Claude 3.5 Sonnet és Claude 3 Haiku modellek esetében, de hamarosan támogatni fogja a Claude 3 Opus modellt is.
Mikor érdemes használni a prompt cachinget?
A prompt caching különösen hasznos olyan helyzetekben, amikor nagy mennyiségű kontextust szeretnénk egyszer elküldeni, majd azt ismételten felhasználni a későbbi kérésekben. Az alábbiakban néhány gyakorlati példa található a prompt caching alkalmazására:
- Beszélgető ügynökök: Hosszabb beszélgetések során, különösen akkor, ha hosszú utasításokat vagy dokumentumokat kell kezelni, jelentősen csökkenthetők a költségek és a válaszidő.
- Kódolási asszisztensek: Az autocomplete és kódbázis kérdezz-felelek funkciók javítása érdekében a kódbázis összefoglalóját a promptba lehet ágyazni, ami gyorsítja és hatékonyabbá teszi a válaszokat.
- Nagy dokumentumok feldolgozása: Teljes hosszú szövegeket, képeket tartalmazó anyagokat lehet a promptba beilleszteni anélkül, hogy ez megnövelné a válaszidőt.
- Részletes utasítások: Hosszú utasítások, eljárások és példák megosztása, amelyek finomítják Claude válaszait. A fejlesztők gyakran néhány példát tartalmaznak a promptban, de a prompt caching segítségével több tucatnyi, kiváló minőségű példát is be lehet vonni a jobb teljesítmény érdekében.
- Agentikus keresés és eszközhasználat: A több eszközhívást és iteratív változtatásokat igénylő forgatókönyvek javítása, ahol minden lépés általában új API hívást igényel.
- Könyvekkel, dokumentációval, podcast átiratokkal és más hosszú tartalmakkal való kommunikáció: Bármilyen tudásbázist életre lehet kelteni, ha az egész dokumentumot a promptba ágyazzuk, és lehetőséget biztosítunk a felhasználóknak kérdések feltevésére.
A korai felhasználók jelentős sebesség- és költségjavulást tapasztaltak a prompt caching segítségével, különféle felhasználási esetekben, például egy teljes tudásbázis beépítésénél, 100 példás oktatásoknál vagy minden beszélgetési fordulat beépítésénél a promptba.
Árazási modell
A cachelt promptokat az eltárolt bemeneti tokenek száma és azok használatának gyakorisága alapján árazza az Anthropic. A cachebe írás 25%-kal többe kerül, mint az alap bemeneti tokenár a modellek esetében, míg a cachelt tartalom használata jelentősen olcsóbb, mindössze az alap bemeneti tokenár 10%-ába kerül.
A Notion cég is elkezdte alkalmazni a prompt cachinget a Claude által támogatott funkciókhoz, amelyek az AI asszisztensüket, a Notion AI-t működtetik. A prompt caching bevezetésével a Notion jelentősen csökkenteni tudta a költségeket, és növelte a válaszadási sebességet, ezáltal javítva a felhasználói élményt.
Simon Last, a Notion társalapítója így nyilatkozott: „Izgatottan várjuk, hogy a prompt caching segítségével a Notion AI gyorsabbá és olcsóbbá váljon, miközben megőrzi a legmodernebb minőséget.”
Hogyan lehet elkezdeni?
A prompt caching nyilvános béta verziójának használatához a fejlesztőknek meg kell látogatniuk az Anthropic API dokumentációját és árazási oldalát, ahol minden szükséges információt megtalálnak a bevezetéshez.
Forrás: „Prompt caching with Claude„




