Új korszak az automatizálásban: Claude 3.5 Sonnet már maga irányítja számítógépet

MiMaster 2024.10.27. Hírek 65 Megtekintések

Október 22-én az OpenAI nagyszabású eseményen mutatta be két új modelljét: a Claude 3.5 Sonnet és a Claude 3.5 Haiku verziót. Az új modellek jelentős fejlesztéseket kínálnak, különösen a kódolás terén. A Sonnet modell 49%-os pontosságot ért el a SWE-bench teszteken, míg a Haiku sebességben és pontosságban is felülmúlja elődjét, a Claude 3 Opust. Mindkét modell a legújabb generáció képességeit hozza el, ráadásul az árak és sebesség nem változtak.

Egy másik kiemelt újdonság a „computer use” funkció, mely lehetővé teszi a modellek számára, hogy számítógépes feladatokat végezzenek, mint például a kurzor mozgatása vagy űrlapok kitöltése. Ez az egyedülálló fejlesztés egyelőre béta verzióban érhető el az Anthropic API-n, az Amazon Bedrockon és a Google Cloud Vertex AI rendszerében. A Replit és más cégek már elkezdték alkalmazni ezt az innovatív megoldást.

Az új modellek szebbek, jobbak, olcsóbbak

A Claude 3.5 Sonnet és Haiku modellek frissítései jelentős előrelépést jelentenek a mesterséges intelligencia iparági alkalmazásaiban, különösen a kódolási és eszközhasználati feladatok terén. A Sonnet modell a SWE-bench Verified tesztjén 49%-os pontszámot ért el, felülmúlva más nyilvánosan elérhető modelleket, beleértve az OpenAI és a GPT-4o fejlett rendszereit. A TAU-bench teszteken is javított, különösen a kiskereskedelmi (69,2%) és légitársasági (46%) szektorokban. Ügyfél-visszajelzések szerint a modell hatékonyabbá teszi a szoftverfejlesztést és az automatizált munkafolyamatokat, anélkül, hogy extra költségeket vagy késést eredményezne.

A Claude 3.5 Haiku gyorsasága és pontossága miatt kiemelkedő. A modell a SWE-bench Verified tesztjén 40,6%-ot ért el, felülmúlva még a Sonnet teljesítményét is. Az alacsony késleltetés, jobb eszközhasználat és pontosabb utasításkövetés révén ideális felhasználói termékekhez és nagy adatmennyiségek feldolgozásához.

A Claude API már a számítógép önálló vezérlésére is képes

A Claude AI modellek új képességei lehetővé teszik a számítógépes interfészek érzékelését és kezelését, így általános számítógépes készségeket sajátíthatnak el. Az új API segítségével Claude képes utasításokat számítógépes parancsokká alakítani, például böngésző megnyitására és űrlapok kitöltésére. Az OSWorld tesztjein Claude 14,9%-ot ért el a screenshot-alapú kategóriában, felülmúlva más AI modelleket. Bár a képességek fejlesztése gyorsan halad, Claude jelenleg nem tudja hibátlanul végrehajtani az olyan alapvető műveleteket, mint a görgetés vagy nagyítás. A biztonság érdekében új osztályozókat vezettek be a visszaélések megelőzésére.

Megjegyzés: A vezérlés funkció csak API-n keresztül érhető el jelenleg.
Ez azt jelenti, hogy egy programot kell írni, ami a Claude új API-ját használja és ezen keresztül tudja a számítógépet vezérelni. Erről bővebben itt: https://www.anthropic.com/news/developing-computer-use

A bemutatott technológiák kapcsán az OpenAI hangsúlyozta, hogy a „Számítógép használat” még kísérleti fázisban van, de jelentős fejlődés várható a következő hónapokban. A biztonság érdekében az amerikai és brit AI Biztonsági Intézetek is tesztelték az új modelleket, amelyek az ASL-2 szabványoknak megfelelnek.

Az új Claude 3.5 Haiku november végén válik elérhetővé, text- és képinformációk kezelésére is képes változatban. A fejlesztések célja, hogy az AI modellek jobban támogassák az automatizált munkafolyamatokat és személyre szabott feladatokat.

Példák

Természetesen a szorgos fejlesztők már írtak is gyorsan olyan programokat, amelyek képesek használni a Claude új „Computer use” API-ját:

Okay, this is pretty nuts https://t.co/c9DpExLfLs – #VSCode extension that integrates Claude’s Computer Use.
Yes, it launches a browser to troubleshoot the app.
Even if this is a toy today, this adds a new layer of imagination to what’s possible. pic.twitter.com/GFNPbzDOCS
— Gajus (@kuizinas) October 28, 2024

Want to use Claude to control your computer?
pip install open-interpreter
interpreter –os
Works on Windows and Mac. Have fun 🙂 pic.twitter.com/73YrxaTQGm
— killian (@hellokillian) October 24, 2024

introducing: claude browser
last week @AnthropicAI upgraded Claude 3.5 sonnet with computer use capabilities and results were incredible.
so we hooked it up to a cloud browser (powered by @steeldotdev) and made it a browser assistant you can use without running anything… pic.twitter.com/ggxozJLXjJ
— huss (@hussufo) October 29, 2024

This is INSANE!
Claude controlled my computer to
1. Read @paulg‘s essay „Write and Write Nots”
2. Then emailed me the summary.
Here’s the @Replit : https://t.co/gZODjsdiiD pic.twitter.com/Aw53mKcsTs
— Prathit (@_Prathit) November 2, 2024

Tried using Claude Computer Use to automate some tasks in Unity, but it failed with installing Unity
Made my own version of Computer Use allowing Claude to control my local Windows machine
Hallucination in this case is a breaking bug, but fun to see it nearly get there pic.twitter.com/cDmzpQbaAG
— Jos van der Westhuizen (@JosvdWest) October 31, 2024

stb.
stb.

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

Az Owkin francia-amerikai mesterséges intelligencia vállalat nemrégiben bejelentette első speciális biológiai MI ügynökének elindítását a J.P. Morgan Healthcare konferencián, amely alapvetően megváltoztathatja a gyógyszer- és diagnosztikai kutatások folyamatát. Az egészségügyi szakemberek mostantól olyan MI-eszközöket használhatnak, amelyek valós betegadatokból tanultak és közvetlenül a munkájukba integrálhatók.

MiMaster Lépj szintet a Mesterséges Intelligenciával

Anthropic új fegyvere: a vállalati MI végre a céges hálózaton belül marad

Google három ingyenes MI-funkciót aktivál 3 milliárd Gmail-felhasználó számára

Veszélyes titok a munkahelyeken: Shadow AI – munkatársak 80%-a engedély nélkül dolgozik MI-vel

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

MI-őrület – Kijöttek az új verziók: mindenhonnan olvas, videót készít, ügynököket terel

Versenyfutás az MI-vel: mesterséges intelligencia vs. emberi munkaerő. Ki lesz a nyertes?

Mi az a Markdown, és miért forradalmi az LLM-ekkel kombinálva?

ChatGPT 3.5: Teljes Útmutató az Első Lépésektől a Hatékony Beállításokig

ChatGPT használatának munkahelyi lehetőségei

Elhülyüléssel fizetünk az MI használatért?

Versenyfutás az MI-vel: mesterséges intelligencia vs. emberi munkaerő. Ki lesz a nyertes?

Kínai robotok kitúrják munkahelyükről a fizikai dolgozókat is : A jövő robotjai már itt vannak!

Elhülyüléssel fizetünk az MI használatért?

Eljön a nap, amikor a főnök nem azt kérdezi: mit tudsz, hanem hogy mennyire tudsz „tanulást tanulni”

Új korszak az automatizálásban: Claude 3.5 Sonnet már maga irányítja számítógépet

Az új modellek szebbek, jobbak, olcsóbbak

A Claude API már a számítógép önálló vezérlésére is képes

Példák

Kapcsolódó cikkek

Itt is nézze meg

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

Anthropic új fegyvere: a vállalati MI végre a céges hálózaton belül marad

Google három ingyenes MI-funkciót aktivál 3 milliárd Gmail-felhasználó számára

Veszélyes titok a munkahelyeken: Shadow AI – munkatársak 80%-a engedély nélkül dolgozik MI-vel

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

Kosmos: Az MI tudós, amely 6 hónapnyi munkát végez el egyetlen nap alatt

Unbound Academy osztályteremeiben az MI oktat: Forradalom vagy kockázat?

Robotlaborok és AI: A biológiai kutatás új korszaka

3.5 napos munkahetet ígér a mesterséges intelligencia ereje

Anthropic új fegyvere: a vállalati MI végre a céges hálózaton belül marad

Google három ingyenes MI-funkciót aktivál 3 milliárd Gmail-felhasználó számára

Veszélyes titok a munkahelyeken: Shadow AI – munkatársak 80%-a engedély nélkül dolgozik MI-vel

Hetekről órákra csökkent az elemzési idő – új MI eszköz érkezik az egészségügyi cégekhez

Kosmos: Az MI tudós, amely 6 hónapnyi munkát végez el egyetlen nap alatt