gpt-realtime az új beszéd-alapú ai model

Beszélgetős AI új generáció: bemutatkozik a gpt-realtime

MiMaster 2025.09.04. MI újdonságok 104 Megtekintések

Az OpenAI bemutatta legújabb beszéd-alapú AI modelljét, a gpt-realtime-ot, amely valós időben képes természetes hangú beszélgetésekre. Az új modell jelentős fejlődést mutat a hangminőség, intelligencia és utasításkövetés terén, miközben képes eszközök hívására és képek feldolgozására is.

Új beszéd-alapú AI model

Az OpenAI most mutatta be legfejlettebb beszéd-alapú mesterséges intelligencia modelljét, a gpt-realtime-ot, amely új mércét állít a valós idejű hangalapú AI interakciók területén. A modellt kifejezetten ügyfelek szoros bevonásával fejlesztették ki, hogy valódi alkalmazásokban – mint az ügyfélszolgálat, személyi asszisztálás és oktatás – nyújtson kiemelkedő teljesítményt.

Kiváncsian várom hogy az érzelmeket mennyire jól tudja kifejezni!

A legszembetűnőbb újítás a természetes hangzás terén történt. A gpt-realtime olyan beszédmintákat produkál, amelyek emberi intonációt, érzelmi kifejezést és természetes tempót követnek. A modell képes finomhangolt utasításokat követni, mint például „beszélj gyorsan és szakszerűen” vagy „beszélj együttérzően francia akcentussal”. Az OpenAI két új hangot is kiadott – Marin és Cedar néven -, amelyek a legjelentősebb fejlődést mutatják a természetes beszéd terén.

Az intelligencia és megértés jelentős ugrást mutat az előző verzióhoz képest. A gpt-realtime pontosabban érti a natív hangbemenetet, felismeri a nem verbális jelzéseket – például nevetést -, képes nyelvváltásra a mondat közepén, és alkalmazkodik a hangnemhez. A modell különösen jól teljesít más nyelveken való alfanumerikus szekvenciák – telefonszámok, azonosítók – felismerésében spanyol, kínai, japán és francia nyelven.

Jelentős pontosságnövekedés

A Big Bench Audio értékelésen, amely az érvelési képességeket méri, a gpt-realtime 82,8%-os pontosságot ért el, jelentősen felülmúlva a 2024 decemberi modell 65,6%-os eredményét. Ez az értékelés a nyelvi modellek hangbemenet alapú érvelési képességeit teszteli.

Az utasításkövetés terén is jelentős javulást mutat a rendszer. A fejlesztők részletes utasításokat adhatnak a modellnek arról, hogyan beszéljen, mit mondjon bizonyos helyzetekben, és mit tegyen vagy ne tegyen. A MultiChallenge audio benchmarkon 30,5%-os pontosságot ért el az utasításkövetés mérésében, ami jelentős javulás a korábbi 20,6%-hoz képest.

A funkcióhívás képessége kulcsfontosságú a gyakorlati alkalmazásokban. A gpt-realtime három területen javult: releváns funkciók hívása, megfelelő időzítés és pontos argumentumok használata. A ComplexFuncBench audio értékelésen 66,5%-os eredményt ért el, szemben a korábbi 49,7%-kal. Új fejlesztés az aszinkron funkcióhívás, amely lehetővé teszi, hogy a modell folyamatos beszélgetést folytasson, miközben háttérben várakozik a funkciók eredményeire.

Örülhetnek a programozók is: a beszéd-alapú AI model Realtime API-val is elérhető

A Realtime API-ban számos új funkcionalitás jelent meg. A távoli MCP szerver támogatás egyszerűsíti az új képességek integrálását – elegendő egy MCP szerver URL-jét megadni, és az eszközök automatikusan elérhetővé válnak. A képbemenet támogatás révén a felhasználók képeket, fotókat és képernyőképeket oszthatnak meg a beszélgetés során, lehetővé téve olyan kérdéseket, mint „mit látsz?” vagy „olvasd fel a szöveget erről a képernyőképről”.

Ezzel már rendesen lehet telefonálni is

További fontos újítások közé tartozik a Session Initiation Protocol (SIP) támogatás, amely lehetővé teszi az alkalmazások közvetlen csatlakozását a nyilvános telefonhálózathoz és PBX rendszerekhez. Az újrafelhasználható promptok funkció pedig lehetővé teszi a fejlesztői üzenetek, eszközök és példák mentését és újrafelhasználását különböző munkamenetek között.

A biztonság terén az OpenAI többrétegű védelmi rendszert épített be. Aktív osztályozók figyelik a munkameneteket, és leállíthatják azokat, ha káros tartalmat észlelnek. A fejlesztők saját biztonsági intézkedéseket is hozzáadhatnak az Agents SDK segítségével.

És még az ára is csökkent

A gpt-realtime modell már minden fejlesztő számára elérhető, 20%-kal csökkentett árakkal az előző verzióhoz képest. A hosszú munkamenetek költségeit intelligens token-limitekkel és többfordulós csonkítással lehet jelentősen csökkenteni.

Ez az újítás jelentős lépést jelent az AI-alapú beszédtechnológia fejlődésében, közelebb hozva azt a jövőt, amikor a mesterséges intelligenciával való természetes beszélgetés mindennapi tapasztalattá válik.

Forrás: „Introducing gpt-realtime” – OpenAI

Forradalmi újítás: a ChatGPT webes kereséssel ad naprakész válaszokat

Az OpenAI jelentős lépést tett előre azáltal, hogy a ChatGPT számára bevezette az internetes keresési funkciót. Az újítás lehetővé teszi, hogy a chatbot naprakész információkkal szolgáljon a felhasználók számára, miközben tovább erősíti az OpenAI versenyképességét a keresőpiacon.

MiMaster Lépj szintet a Mesterséges Intelligenciával

Anthropic új fegyvere: a vállalati MI végre a céges hálózaton belül marad

Google három ingyenes MI-funkciót aktivál 3 milliárd Gmail-felhasználó számára

Veszélyes titok a munkahelyeken: Shadow AI – munkatársak 80%-a engedély nélkül dolgozik MI-vel

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

MI-őrület – Kijöttek az új verziók: mindenhonnan olvas, videót készít, ügynököket terel

Versenyfutás az MI-vel: mesterséges intelligencia vs. emberi munkaerő. Ki lesz a nyertes?

Mi az a Markdown, és miért forradalmi az LLM-ekkel kombinálva?

ChatGPT 3.5: Teljes Útmutató az Első Lépésektől a Hatékony Beállításokig

ChatGPT használatának munkahelyi lehetőségei

Elhülyüléssel fizetünk az MI használatért?

Versenyfutás az MI-vel: mesterséges intelligencia vs. emberi munkaerő. Ki lesz a nyertes?

Kínai robotok kitúrják munkahelyükről a fizikai dolgozókat is : A jövő robotjai már itt vannak!

Elhülyüléssel fizetünk az MI használatért?

Eljön a nap, amikor a főnök nem azt kérdezi: mit tudsz, hanem hogy mennyire tudsz „tanulást tanulni”

Beszélgetős AI új generáció: bemutatkozik a gpt-realtime

Új beszéd-alapú AI model

Kiváncsian várom hogy az érzelmeket mennyire jól tudja kifejezni!

Jelentős pontosságnövekedés

Örülhetnek a programozók is: a beszéd-alapú AI model Realtime API-val is elérhető

Ezzel már rendesen lehet telefonálni is

És még az ára is csökkent

Kapcsolódó cikkek

Itt is nézze meg

Forradalmi újítás: a ChatGPT webes kereséssel ad naprakész válaszokat

Anthropic új fegyvere: a vállalati MI végre a céges hálózaton belül marad

Google három ingyenes MI-funkciót aktivál 3 milliárd Gmail-felhasználó számára

Veszélyes titok a munkahelyeken: Shadow AI – munkatársak 80%-a engedély nélkül dolgozik MI-vel

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

Kosmos: Az MI tudós, amely 6 hónapnyi munkát végez el egyetlen nap alatt

Gemini 2.0: az MI technológia legújabb mérföldköve

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

Unbound Academy osztályteremeiben az MI oktat: Forradalom vagy kockázat?

Anthropic új fegyvere: a vállalati MI végre a céges hálózaton belül marad

Google három ingyenes MI-funkciót aktivál 3 milliárd Gmail-felhasználó számára

Veszélyes titok a munkahelyeken: Shadow AI – munkatársak 80%-a engedély nélkül dolgozik MI-vel

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

Kosmos: Az MI tudós, amely 6 hónapnyi munkát végez el egyetlen nap alatt