Meta har avslöjat Voicebox, en mångsidig AI för talgenerering som erbjuder en rad funktioner. Den här avancerade AI-modellen kan utföra uppgifter som talredigering, sampling och stilisering genom inlärning i sammanhanget.
Voicebox – AI för talgenerering
Voicebox utmärker sig när det gäller att producera ljudklipp av hög kvalitet och redigera förinspelat ljud, som att ta bort oönskat bakgrundsljud, samtidigt som det ursprungliga innehållet och stilen bibehålls.
Dessutom stöder den flera språk, vilket möjliggör talproduktion på sex olika språk. Tillbaka i september 2022 hade Meta avslöjat “Make-A-Video”, ett nytt AI-system som förvandlar text till högkvalitativa videoklipp.
Voicebox är en del av en ny våg av generativa AI-modeller med olika potentiella tillämpningar. Till exempel kan det förbättra virtuella assistenter och icke-spelare karaktärer i metaversen genom att tillhandahålla naturligt klingande röster.
Det kan också hjälpa synskadade individer genom att göra det möjligt för AI att läsa skrivna meddelanden i sina vänners röster. Dessutom kan kreatörer utnyttja Voicebox för att enkelt skapa och redigera ljudspår för videor, bland andra möjligheter.
Mångsidigheten hos Voicebox omfattar flera uppgifter, inklusive:
- Text-till-tal-syntes i sammanhang: Voicebox kan generera text-till-tal med hjälp av ett ljudexempel så kort som två sekunder, vilket matchar stilen på det tillhandahållna ljudet.
- Talredigering och brusreducering: Den kan rekonstruera avbrutna talsegment eller ersätta feluttalade ord utan att kräva ominspelning. Användare kan till exempel ta bort en hund som skäller från ett talsegment och instruera Voicebox att återskapa det sömlöst, i likhet med ett radergummi för ljudredigering.
- Tvärspråkig stilöverföring: Med ett talprov och en textpassage på olika språk kan Voicebox producera en läsning av texten på vilket som helst av de språk som stöds (engelska, franska, tyska, spanska, polska och portugisiska). Den här funktionen hjälper människor som talar olika språk att enkelt prata med varandra.
- Olika talprover: Voicebox lärde sig från olika typer av data, så det kan göra tal som låter som hur människor pratar i den verkliga världen på de sex språk den kan.
För att lära dig mer om Metas AI Voicebox Speech Generation, besök – Röstlåda
Meta tillkännagav uppdateringarna;
Vi är nöjda med Voicebox, vårt nya projekt som gör ljud med AI. Vi vill fortsätta lära oss mer om ljud och AI, och vi hoppas att andra kommer att använda vårt arbete för att skapa nya saker.