GPT-4 är den senaste milstolpen i OpenAI:s försök att utöka djupinlärning till artificiell intelligens. GPT-4 är en stor multimodal modell (accepterar bild- och textinmatning och sänder ut text) som, även om den är mindre kapabel än människor i många verkliga scenarier, uppvisar prestanda på mänsklig nivå på olika synpunkter. akademisk och professionell referens.
GPT-4 är den nya revolutionen
GPT står för generative pre-trained transformer, och GPT-4 är en del av en serie grundläggande språkmodeller som går tillbaka till original GPT under 2018. Efter den ursprungliga releasen tillkännagav OpenAI GPT-2 2019 och GPT-3 2020. En annan förfining kallad GPT-3.5 kom 2022. I november släppte OpenAI ChatGPT , som vid den tiden var en förfinad chattmodell baserad på GPT-3.5 .
Med tiden har OpenAI ökat storleken och komplexiteten för varje GPT-modell, vilket resulterat i generellt bättre prestanda, modell över modell, jämfört med hur en människa skulle slutföra text i samma scenario, men varierar beroende på uppgift. GPT-4 är en stor multimodal modell som kan bearbeta bild och textinmatning och produktion av textutdata. Den har potential att användas i ett brett spektrum av tillämpningar, såsom dialogsystem, textsammanfattning och maskinöversättning.
Tillkännage GPT-4, en stor multimodal modell, med våra bästa resultat någonsin för kapacitet och anpassning: https://t.co/TwLFssyALF https://t.co/lYWwPjZbSg
14 mars 2023 • 18:00
Ett av huvudmålen med att utveckla denna nya version är att förbättra sin förmåga att förstå och generera text på naturligt språk , särskilt i mer komplexa scenarier. För att testa dess kapacitet i sådana scenarier testades GPT-4 till och med på en mängd olika tester som ursprungligen utformades för människor. Den presterar ganska bra på dessa bedömningar, och överträffar ofta den stora majoriteten av mänskliga testtagare, vanligtvis de 10 % av testtagarna (detta är i motsats till GPT-3.5, versionen som ChatGPT baserades på, som fick de lägsta 10 % ).
GPT-4 är mer kreativ och samarbetsvillig än någonsin. Du kan skapa, redigera och iterera med användare på kreativt och tekniskt skrivande uppgifter, som att komponera låtar, skriva manus eller lära sig en användares skrivstil. I tillfälliga samtal kan skillnaden mellan GPT-3.5 och GPT-4 vara subtil. Skillnaden uppstår när uppgiftens komplexitet når en tillräcklig tröskel: GPT-4 är mer pålitlig, kreativ och kapabel att hantera mycket mer konkreta instruktioner än GPT-3.5.
“Vi spenderade sex månader på att göra GPT-4 säkrare och mer pålitlig. GPT-4 är 82 % mindre sannolikt att svara på förfrågningar om otillåtet innehåll och 40 % mer sannolikt att ge pålitliga svar än GPT-3.5 i våra interna utvärderingar.”
Trots denna revolution, begränsningar är fortfarande erkända . “GPT-4 har fortfarande många kända begränsningar som vi arbetar för att ta itu med, såsom social fördom, hallucinationer och motstridiga indikationer. Vi uppmuntrar och underlättar transparens, användarutbildning och ökad AI-läskunnighet när samhället omfamnar dessa modeller. Vi avser också att bredda inträdesvägarna för människor att forma våra modeller.”
Just nu, GPT-4 är tillgänglig i ChatGPT Plus och som ett API för utvecklare att bygga applikationer och tjänster. Några av de varumärken som allianser redan har annonserats med inkluderar Duolingo, Be My Eyes, Morgan Stanley eller Khan Academy.
Vad du kan göra tack vare GPT-4
Greg Brockman, president och medgrundare av OpenAI, visade i GPT-4-presentationen några av de användningsområden som denna nya version av modellen kan användas till. Till exempel tack vare bildigenkänning , det låter dig analysera dem och starta konversationer om dem. Om du laddar upp ett foto med vad du har i kylen och frågar “vad kan jag göra med dessa ingredienser?” det borde ge dig tillbaka ett fullständigt recept.
Även genom Be My Eyes kan du beskriva och förstå vad som är intressant med en bild, även uppdelad i olika rutor eller sektioner. Be My Eyes använder GPT-4 för att förvandla visuell tillgänglighet . Skillnaden mellan GPT-4 och andra språk- och maskininlärningsmodeller, förklarar Jesper Hvirring Henriksen, CTO för Be My Eyes, är både förmågan att föra ett samtal och den större graden av analytisk förmåga som tekniken erbjuder.
“Grundläggande bildigenkänningsappar berättar bara vad som finns framför dig. De kan inte ha en diskussion för att förstå om nudlarna har rätt sorts ingredienser eller om föremålet på golvet inte bara är en boll, utan en snubbelrisk, och kommunicera det.”
I en av demos som visas av OpenAI, möjligheten att till och med omvandla enkla indata till kod och skapa en webbsida från en enkel bild visades. En bild med en mycket grundläggande skiss av en webbsida som användaren ville skapa med HTML och JavaScript visades, och GPT-4 returnerade koden som behövdes för att skapa den webbsidan med allt i ordning som visas i skissen.
Jag såg just GPT-4 förvandla en handritad skiss till en funktionell webbplats.
Det här är galet. https://t.co/P5nSjrk7Wn
14 mars 2023 • 21:47
Om du är ett fan av memet “massor av text” är GPT-4 nu en bra allierad för att hjälpa dig att förstå och syntetisera stora textsträngar. GPT-4 kan hantera över 25 000 ord text vilket möjliggör användningsfall som att skapa innehåll i långa former, utökade konversationer och dokumentsökning och analys.
När det kommer till kreativt skrivande , kan du uppnå några riktigt fantastiska saker, som skulle kosta en människa ganska många timmar, på några minuter. Ett exempel som OpenAI ville lyfta fram visar svaret på följande begäran: ”förklara för mig handlingen i Askungen i en mening där varje ord måste börja med nästa bokstav i alfabetet från A till Ö, utan att upprepa någon bokstav. Resultatet (på engelska) kunde inte bli mer perfekt. «En vacker Askungen, som ivrigt bor, vinner äntligen lycka; inspirerande svartsjuk släkt, kärlek ger magiskt näring till överdådig prins; stilla räddar, toffeln triumferar, förenar mycket underbart, främlingsungdom nitiskt».
Linus (●ᴗ●)
@LinusEkenstam
Här är några otroliga saker som människor redan gör med GPT-4
Det har gått mindre än 3,5 timmar
🧵 En tråd
14 mars 2023 • 22:27
De språng när det gäller att skriva kod är också betydande. I Twitter-tråden som du har ovan, som inkluderar några av de första GPT-4-applikationerna, kan vi se hur enkla spel som Snake eller Pong har återskapats och ger koden till personer utan programmeringskunskaper.
Till exempel, GPT-4 är det som driver den nya Bing , körs på den här nya versionen som Microsoft har anpassat för sökning. Om du har använt den nya Bing-förhandsvisningen någon gång under de senaste fem veckorna, har du redan upplevt en tidigare version av denna kraftfulla modell. När OpenAI gör uppdateringar till GPT-4 och senare, Bing kommer att dra nytta av dessa förbättringar tillsammans med sina egna uppdateringar baserade på feedback från communityn. Faktum är att om du vill uppleva GPT-4, registrera dig för den nya Bing-förhandsvisningen och när du väl är inne kommer du att kunna använda nya Bing för att söka, svara, chatta och skapa.



