Október 22-én az OpenAI nagyszabású eseményen mutatta be két új modelljét: a Claude 3.5 Sonnet és a Claude 3.5 Haiku verziót. Az új modellek jelentős fejlesztéseket kínálnak, különösen a kódolás terén. A Sonnet modell 49%-os pontosságot ért el a SWE-bench teszteken, míg a Haiku sebességben és pontosságban is felülmúlja elődjét, a Claude 3 Opust. Mindkét modell a legújabb generáció képességeit hozza el, ráadásul az árak és sebesség nem változtak.
Egy másik kiemelt újdonság a „computer use” funkció, mely lehetővé teszi a modellek számára, hogy számítógépes feladatokat végezzenek, mint például a kurzor mozgatása vagy űrlapok kitöltése. Ez az egyedülálló fejlesztés egyelőre béta verzióban érhető el az Anthropic API-n, az Amazon Bedrockon és a Google Cloud Vertex AI rendszerében. A Replit és más cégek már elkezdték alkalmazni ezt az innovatív megoldást.
Az új modellek szebbek, jobbak, olcsóbbak
A Claude 3.5 Sonnet és Haiku modellek frissítései jelentős előrelépést jelentenek a mesterséges intelligencia iparági alkalmazásaiban, különösen a kódolási és eszközhasználati feladatok terén. A Sonnet modell a SWE-bench Verified tesztjén 49%-os pontszámot ért el, felülmúlva más nyilvánosan elérhető modelleket, beleértve az OpenAI és a GPT-4o fejlett rendszereit. A TAU-bench teszteken is javított, különösen a kiskereskedelmi (69,2%) és légitársasági (46%) szektorokban. Ügyfél-visszajelzések szerint a modell hatékonyabbá teszi a szoftverfejlesztést és az automatizált munkafolyamatokat, anélkül, hogy extra költségeket vagy késést eredményezne.
A Claude 3.5 Haiku gyorsasága és pontossága miatt kiemelkedő. A modell a SWE-bench Verified tesztjén 40,6%-ot ért el, felülmúlva még a Sonnet teljesítményét is. Az alacsony késleltetés, jobb eszközhasználat és pontosabb utasításkövetés révén ideális felhasználói termékekhez és nagy adatmennyiségek feldolgozásához.
A Claude API már a számítógép önálló vezérlésére is képes
A Claude AI modellek új képességei lehetővé teszik a számítógépes interfészek érzékelését és kezelését, így általános számítógépes készségeket sajátíthatnak el. Az új API segítségével Claude képes utasításokat számítógépes parancsokká alakítani, például böngésző megnyitására és űrlapok kitöltésére. Az OSWorld tesztjein Claude 14,9%-ot ért el a screenshot-alapú kategóriában, felülmúlva más AI modelleket. Bár a képességek fejlesztése gyorsan halad, Claude jelenleg nem tudja hibátlanul végrehajtani az olyan alapvető műveleteket, mint a görgetés vagy nagyítás. A biztonság érdekében új osztályozókat vezettek be a visszaélések megelőzésére.
Megjegyzés: A vezérlés funkció csak API-n keresztül érhető el jelenleg.
Ez azt jelenti, hogy egy programot kell írni, ami a Claude új API-ját használja és ezen keresztül tudja a számítógépet vezérelni. Erről bővebben itt: https://www.anthropic.com/news/developing-computer-use
A bemutatott technológiák kapcsán az OpenAI hangsúlyozta, hogy a „Számítógép használat” még kísérleti fázisban van, de jelentős fejlődés várható a következő hónapokban. A biztonság érdekében az amerikai és brit AI Biztonsági Intézetek is tesztelték az új modelleket, amelyek az ASL-2 szabványoknak megfelelnek.
Az új Claude 3.5 Haiku november végén válik elérhetővé, text- és képinformációk kezelésére is képes változatban. A fejlesztések célja, hogy az AI modellek jobban támogassák az automatizált munkafolyamatokat és személyre szabott feladatokat.
Példák
Természetesen a szorgos fejlesztők már írtak is gyorsan olyan programokat, amelyek képesek használni a Claude új „Computer use” API-ját:
Okay, this is pretty nuts https://t.co/c9DpExLfLs – #VSCode extension that integrates Claude’s Computer Use.
Yes, it launches a browser to troubleshoot the app.
Even if this is a toy today, this adds a new layer of imagination to what’s possible. pic.twitter.com/GFNPbzDOCS
— Gajus (@kuizinas) October 28, 2024
Want to use Claude to control your computer?
pip install open-interpreter
interpreter –osWorks on Windows and Mac. Have fun 🙂 pic.twitter.com/73YrxaTQGm
— killian (@hellokillian) October 24, 2024
introducing: claude browser
last week @AnthropicAI upgraded Claude 3.5 sonnet with computer use capabilities and results were incredible.
so we hooked it up to a cloud browser (powered by @steeldotdev) and made it a browser assistant you can use without running anything… pic.twitter.com/ggxozJLXjJ
— huss (@hussufo) October 29, 2024
This is INSANE!
Claude controlled my computer to
1. Read @paulg‘s essay „Write and Write Nots”
2. Then emailed me the summary.Here’s the @Replit : https://t.co/gZODjsdiiD pic.twitter.com/Aw53mKcsTs
— Prathit (@_Prathit) November 2, 2024
Tried using Claude Computer Use to automate some tasks in Unity, but it failed with installing Unity
Made my own version of Computer Use allowing Claude to control my local Windows machine
Hallucination in this case is a breaking bug, but fun to see it nearly get there pic.twitter.com/cDmzpQbaAG
— Jos van der Westhuizen (@JosvdWest) October 31, 2024
stb.
stb.




