gpt-realtime az új beszéd-alapú ai model

Beszélgetős AI új generáció: bemutatkozik a gpt-realtime

Az OpenAI bemutatta legújabb beszéd-alapú AI modelljét, a gpt-realtime-ot, amely valós időben képes természetes hangú beszélgetésekre. Az új modell jelentős fejlődést mutat a hangminőség, intelligencia és utasításkövetés terén, miközben képes eszközök hívására és képek feldolgozására is.

Új beszéd-alapú AI model

Az OpenAI most mutatta be legfejlettebb beszéd-alapú mesterséges intelligencia modelljét, a gpt-realtime-ot, amely új mércét állít a valós idejű hangalapú AI interakciók területén. A modellt kifejezetten ügyfelek szoros bevonásával fejlesztették ki, hogy valódi alkalmazásokban – mint az ügyfélszolgálat, személyi asszisztálás és oktatás – nyújtson kiemelkedő teljesítményt.

Kiváncsian várom hogy az érzelmeket mennyire jól tudja kifejezni!

A legszembetűnőbb újítás a természetes hangzás terén történt. A gpt-realtime olyan beszédmintákat produkál, amelyek emberi intonációt, érzelmi kifejezést és természetes tempót követnek. A modell képes finomhangolt utasításokat követni, mint például „beszélj gyorsan és szakszerűen” vagy „beszélj együttérzően francia akcentussal”. Az OpenAI két új hangot is kiadott – Marin és Cedar néven -, amelyek a legjelentősebb fejlődést mutatják a természetes beszéd terén.

Az intelligencia és megértés jelentős ugrást mutat az előző verzióhoz képest. A gpt-realtime pontosabban érti a natív hangbemenetet, felismeri a nem verbális jelzéseket – például nevetést -, képes nyelvváltásra a mondat közepén, és alkalmazkodik a hangnemhez. A modell különösen jól teljesít más nyelveken való alfanumerikus szekvenciák – telefonszámok, azonosítók – felismerésében spanyol, kínai, japán és francia nyelven.

Jelentős pontosságnövekedés

A Big Bench Audio értékelésen, amely az érvelési képességeket méri, a gpt-realtime 82,8%-os pontosságot ért el, jelentősen felülmúlva a 2024 decemberi modell 65,6%-os eredményét. Ez az értékelés a nyelvi modellek hangbemenet alapú érvelési képességeit teszteli.

Az utasításkövetés terén is jelentős javulást mutat a rendszer. A fejlesztők részletes utasításokat adhatnak a modellnek arról, hogyan beszéljen, mit mondjon bizonyos helyzetekben, és mit tegyen vagy ne tegyen. A MultiChallenge audio benchmarkon 30,5%-os pontosságot ért el az utasításkövetés mérésében, ami jelentős javulás a korábbi 20,6%-hoz képest.

A funkcióhívás képessége kulcsfontosságú a gyakorlati alkalmazásokban. A gpt-realtime három területen javult: releváns funkciók hívása, megfelelő időzítés és pontos argumentumok használata. A ComplexFuncBench audio értékelésen 66,5%-os eredményt ért el, szemben a korábbi 49,7%-kal. Új fejlesztés az aszinkron funkcióhívás, amely lehetővé teszi, hogy a modell folyamatos beszélgetést folytasson, miközben háttérben várakozik a funkciók eredményeire.

Örülhetnek a programozók is: a beszéd-alapú AI model Realtime API-val is elérhető

A Realtime API-ban számos új funkcionalitás jelent meg. A távoli MCP szerver támogatás egyszerűsíti az új képességek integrálását – elegendő egy MCP szerver URL-jét megadni, és az eszközök automatikusan elérhetővé válnak. A képbemenet támogatás révén a felhasználók képeket, fotókat és képernyőképeket oszthatnak meg a beszélgetés során, lehetővé téve olyan kérdéseket, mint „mit látsz?” vagy „olvasd fel a szöveget erről a képernyőképről”.

Ezzel már rendesen lehet telefonálni is

További fontos újítások közé tartozik a Session Initiation Protocol (SIP) támogatás, amely lehetővé teszi az alkalmazások közvetlen csatlakozását a nyilvános telefonhálózathoz és PBX rendszerekhez. Az újrafelhasználható promptok funkció pedig lehetővé teszi a fejlesztői üzenetek, eszközök és példák mentését és újrafelhasználását különböző munkamenetek között.

A biztonság terén az OpenAI többrétegű védelmi rendszert épített be. Aktív osztályozók figyelik a munkameneteket, és leállíthatják azokat, ha káros tartalmat észlelnek. A fejlesztők saját biztonsági intézkedéseket is hozzáadhatnak az Agents SDK segítségével.

És még az ára is csökkent

A gpt-realtime modell már minden fejlesztő számára elérhető, 20%-kal csökkentett árakkal az előző verzióhoz képest. A hosszú munkamenetek költségeit intelligens token-limitekkel és többfordulós csonkítással lehet jelentősen csökkenteni.

Ez az újítás jelentős lépést jelent az AI-alapú beszédtechnológia fejlődésében, közelebb hozva azt a jövőt, amikor a mesterséges intelligenciával való természetes beszélgetés mindennapi tapasztalattá válik.

Forrás: „Introducing gpt-realtime” – OpenAI

Itt is nézze meg

chatgpt már tud keresni a weben a felhasználók kérései alapján

Forradalmi újítás: a ChatGPT webes kereséssel ad naprakész válaszokat

Az OpenAI jelentős lépést tett előre azáltal, hogy a ChatGPT számára bevezette az internetes keresési funkciót. Az újítás lehetővé teszi, hogy a chatbot naprakész információkkal szolgáljon a felhasználók számára, miközben tovább erősíti az OpenAI versenyképességét a keresőpiacon.