Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu
Open Het is in verband gebracht met de groeiende competitieve AI -spraakmarkt voor initiatieven met Nieuw model, GPT-realtimeHet volgt complexe instructies en met de stem “het lijkt natuurlijker en expressiever te zijn.”
Naarmate de spraak AI groeit en klanten gebruiken als klantenservice of realtime vertaling, worden realistische kleinste AI-spraakmarkten die bescherming van bedrijfskwaliteit bieden verwarmd. Openai heeft beweerd dat zijn nieuwe model spraakachtige stem biedt, maar het moet nog steeds concurreren tegen bedrijven zoals Againlab.
Het model zal beschikbaar zijn in de realtime API, die het bedrijf meestal beschikbaar stelt. Naast het GPT-realtime-model heeft de OPNA ook een nieuwe stem gepubliceerd in API, die het Cedar en Marine noemt en zijn andere stem bijwerkt om met het nieuwste model te werken.
Opeena zei in een livestream dat het werkte met zijn klanten die spraak-apps creëerden voor GPT-realtime training en “voorzichtigheid van het model heeft het model afgestemd op echte situaties zoals klantenservice en academische begeleiding.”
Raakt de limiet van AI -schaling
Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:
- Tact
- Bekwame schattingen architecteren voor echte throputwinsten
- Competitief meer ontgrendelen met duurzame AI -systemen
Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo
Het bedrijf heeft zich gericht op de vaardigheid van het emotionele, natuurlijk klinkende spraakmodel dat aanpast hoe ontwikkelaars de technologie maken.
Spraak-to-sipitis model
Het model werkt in het speech-to-spach framework, stelt de spaakprompts in staat om de stem te begrijpen en te reageren. Spraak-to-spitmodellen zijn ideaal geschikt voor realtime reacties, waarbij een persoon, meestal een klant, communiceert met een applicatie.
Een klant wil bijvoorbeeld enkele producten retourneren en het klantenservice -platform belt. Ze kunnen praten met de AI -stemassistent die reageert op vragen en verzoeken alsof ze met een man praten.
Openai -klanten op een livestream T-Mobile Een AI heeft spraakgestuurde agenten getoond die mensen helpen nieuwe telefoons te vinden. Een andere klant, zoekplatform voor onroerend goed JiloToont een agent die helpt om het omliggende gebied te beperken om de juiste plaats te vinden.
OpenAI zegt dat GPT-realtime dit “het meest geavanceerde, geproduceerde spraakmodel” is. Net als zijn andere spraakmodellen, kan het de middelste zin naar de taal schakelen. Openai-onderzoekers hebben echter opgemerkt dat GPT-realtime meer complexe instructies kan volgen, zoals “Speak in Franse uitspraak.”
GPT-realtime wordt echter geconfronteerd met de concurrentie van andere modellen die veel merken al gebruiken. Agenlab Het gesprek in mei publiceerde AI 2.0. Klankhuis Partner met een fastfoodfranchise voor AI Voice Drive-Thru. Sterke AI -startup Bonzen Het AVI 3 -model is gelanceerd, waarmee gebruikers een AI -versie van hun eigen stem kunnen maken.
Enterprises ontdekken verschillende use cases voor spraak AI en meer gebruikelijke modelleveranciers die multimodale LLM’s leveren, creëren een case voor zichzelf. Mistral Het is gepubliceerd door zijn nieuwe voxtrale model, verwijzend naar een goed werk met realtime vertaling. Google De audio wordt verbeterd en wint aan populariteit met een audiofunctie in de notebooklm die onderzoeksbriefjes omzet in een podcast.
Het volgen van de meer goede instructie
Openai zegt dat GPT-realtime slim is en binnenlandse audio beter begrijpt, inclusief gelach of verlangen, met de mogelijkheid om niet-georiënteerde signalen te vangen.
Beste Bench Audio EVO heeft het model 82,8% in nauwkeurigheid gescoord in vergelijking met het vorige model, dat 65,6% scoorde. OpenAI heeft niet het aantal GPT-realtime-tests gegeven tegen de modellen van zijn concurrenten.
OpenAI richt zich op het verbeteren van de stroomgerichte kracht, waardoor het model effectiever zal voldoen aan de richting. Het nieuwe model verdient een score van 30,5% in multichenose audiobenchmark. Ingenieurs zijn ook trots op de functie door oproepen te bellen zodat GPT-realtime toegang heeft tot de juiste tools.
Realtime API -updates
OpenAI Realtime API heeft verschillende nieuwe functies toegevoegd om het nieuwe model te ondersteunen en hoe realtime AI-mogelijkheden in hun applicaties te consolideren.
Het kan nu de MCP ondersteunen en de invoer van de afbeelding detecteren, het stelt gebruikers in staat om het te informeren over wat het in realtime laat zien. Google is een functie zwaar benadrukt terwijl hij vorig jaar zijn project Astra presenteert.
Het Realtime API Session Initigation Protocol (SIP) kan worden beheerd. SIP -applicaties zijn aan de telefoon bevestigd, zoals een openbaar telefoonnetwerk of een bureaustelefoon, waardoor de cases van meer communicatiecentra worden geopend. Gebruikers kunnen de verzoeken opslaan en opnieuw gebruiken in de API.
Tot nu toe zijn mensen gefascineerd door het model, hoewel ze nog steeds een voorlopige test zijn van een recent gepubliceerd model.
OpenAI verlaagde de GPT-realtime-prijzen met 20% tot een miljoen audio-input token en audio-output tokens voor $ 64.
Bronlink