Home Techniek Stop met benchmarking in het lab: inclusief Akhara laat zien hoe LLM...

Techniek

Stop met benchmarking in het lab: inclusief Akhara laat zien hoe LLM presteert in de productie

Door

20 augustus 2025

Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu

Benchmark -testmodellen zijn noodzakelijk geworden voor het initiatief, waardoor ze het soort prestaties kunnen kiezen dat resoneert met hun behoeften. Niet alle criteria worden echter hetzelfde gebouwd en veel testmodellen zijn gebaseerd op de statische datasaat- of testomgeving.

De opname is gerelateerd aan de onderzoekers van AI, die hiermee verband houden Alibabar MierenEr wordt een nieuw model voorgesteld aan Leaderboard en Benchmark dat zich richt op een modelprestaties in echte omstandigheden. Ze beweren dat LLMS een leidersbord vereist dat mensen ze gebruiken hoe ze ze gebruiken en het vermogen van statische kennis om te overwegen hoeveel ze hun antwoorden leuk vonden in vergelijking met modellen.

A PapierOnderzoekers legden de basis voor de inclusiearena, die de modellen rangschikken op basis van de keuze van de gebruiker.

“Om met deze hiaten om te gaan, bieden we inclusie Arena, een live leaderboard dat real-world AI-aangedreven applicaties inclusief geavanceerde LLMS en MLLMS overbrugt. In tegenstelling tot de drukke platforms beschrijft ons systeem willekeurig de modelgevechten op de echte app.”

Raakt de limiet van AI -schaling

Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:

Tact

Bekwame schattingen architecteren voor echte throputwinsten

Competitief meer ontgrendelen met duurzame AI -systemen

Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo

De inclusiearena staat vanwege de echte aspecten van MMLU en Openllm en de unieke benadering van de rangorde -modellen. Het huurt Bradley-Terry modelleringsmethoden zoals een chatboatarena in.

De inclusiearena werkt door benchmark te integreren in AI -toepassingen om humanitaire evaluatie te verzamelen en te beheren. Onderzoekers hebben erkend dat “het aantal primair geïntegreerde AI-gedreven toepassingen beperkt is, maar we willen een open alliantie creëren om het ecosysteem uit te breiden.”

Tegen die tijd zijn de meeste mensen bekend met leaderboard en benchmark die de uitvoeringen belonen die worden gepubliceerd door bedrijven zoals elke nieuwe LLM Open,, Google Of EtnografischDe venturebetes zijn niet onbekend voor deze leidersboards omdat sommige modellen zo zijn Jai’s Grock 3, Chattbot Arena tonen hun kracht bovenaan het klassement. De inclusie AI -onderzoekers hebben betoogd dat hun nieuwe leaderboard “evaluaties weerspiegelen de praktische gebruikssituatie”, dus er zijn betere informatie over de modellen die ze van plan zijn te kiezen in initiatieven.

Met behulp van Bradley-Terry-methoden

De inclusie Arena Brodly-Terry-methoden trekt inspiratie uit Chattboat Arena, terwijl Chattbot Arena ook de ELO-rangorde-methode benoemt.

De meeste leiders zijn afhankelijk van de ELO -methode om de rangorde en prestaties in te stellen. De ELO DIAB verwijst naar de ELO -rating, die de relatieve vaardigheden van de spelers bepaalt. Zowel ALO als Bradley-Terry zijn mogelijke structuren, maar onderzoekers zeggen dat Bradley-Terry een stabielere beoordeling creëert.

“Het Bradley-Teri-model biedt een sterke structuur om de slapende mogelijkheden te raden uit de resultaten van de paren,” zei de krant. “In praktische situaties, vooral met een groot en groeiend model, is de mogelijkheid van vergelijking van brede paren echter verboden en het hulpbronnenintensief is dit dat het een cruciale behoefte benadrukt aan intelligente oorlogstechnieken die de hoogste hoeveelheid gegevenswinst in een beperkt budget maken.”

Om de ranglijsten efficiënter te maken in het licht van een groot aantal LLM’s, zijn er nog twee elementen in de inclusiearena: Placement Match -mechanisme en een zonnig monster. Plaatsingswedstrijd wordt geschat als de eerste ranglijst voor het nieuwe model dat is geregistreerd voor het mechanisme Leaderboard. Het nabijheidssteekproef dan die vergelijken zijn vervolgens beperkt tot modellen in hetzelfde geloofsgebied.

Hoe werkt het

Dus hoe werkt het?

De structuur van de inclusiearena integreert de AI-aangedreven toepassingen. Momenteel zijn er twee applicaties beschikbaar in de inclusiepanden: Character Chat-app Joyland en onderwijscommunicatie-app T-box. Wanneer mensen applicaties gebruiken, worden aanwijzingen naar meerdere LLM’s achter het scherm verzonden voor reactie. Vervolgens kiezen gebruikers welk antwoord het beste is, hoewel ze niet weten welk model reageert.

Het framework houdt rekening met gebruikersvoorkeuren om paren modellen te maken voor vergelijkingen. Het Bradley-Terry-algoritme wordt vervolgens gebruikt om een score te berekenen voor elk model, dat later het uiteindelijke leidersbord leidt.

De inclusie AI wordt vergeleken met de 501,003 paar van zijn test in de gegevens tot juli 2025.

Volgens het voorlopige onderzoek van de inclusieve binnenplaats is het maximale prestatiemodel antropologisch gekleed 3.7 sonnet, Depsec V3-0324, CLOD 3.5 Sonnet, Depsec V3 en Queen Max -0125.

Natuurlijk had het twee app -gegevens met meer dan 46.611 actieve gebruikers volgens papier. Onderzoekers zeggen dat ze meer opvattingen en specifiek leiderschap kunnen creëren met meer gegevens.

Meer leaderboard, zoals meer

Het groeiende aantal van het gepubliceerde model maakt de ondernemingen uitdagender om te selecteren welke LLM -beoordeling te beginnen. Leaderboards en benchmarks begeleiden de technische beslissing -modellen die de beste prestaties kunnen bieden voor hun behoeften. Natuurlijk moet interne evaluatie worden uitgevoerd om ervoor te zorgen dat LLMS effectief is voor hun aanvragen na bedrijven.

Het biedt ook een concept van brede LLM -landschap, waarbij wordt benadrukt welke modellen competitief worden in vergelijking met hun collega’s. Beloning van recente criteria bijv. 2 Allen’s InstituteIk probeer modellen uit te lijnen in termen van echtgebruik voor het initiatief.

Dagelijkse inzichten in het geval van zakelijk gebruik met VB dagelijks

Als je je baas wilt beïnvloeden, heeft VB je elke dag gedekt. We geven u de interne primeur, beginnend bij de wettelijke verschuiving naar praktische implementatie, zodat u inzichten kunt delen voor het maximale meer.

Lees ons privacybeleid

Bedankt voor het inschrijven. Bekijk hier meer VB -nieuwsbrieven.

Er is een fout opgetreden.

Bronlink

Facebook
Twitter
Pinterest
WhatsApp

Vorig artikelIs de Spaanse tas goedkoop, zelfs na 2025 montage?
Volgend artikelDe hongercrisis van Soedan is verslechterd omdat de arts zegt dat kinderen dagelijks sterven “

Marijn van der Heijden
http://schaatskrant.nl

GERELATEERDE ARTIKELEN MEER VAN DEZE AUTEUR

Beste draagbare luidsprekerdeal: Sonos Rome Krijg $ 40 tot $ 40

Leig 1 Socker: Livestream PSG versus Angers van overal

Ultrahuman heeft Oura aangeklaagd voor een patentovertreding in de slimme ringoorlog

Laatste nieuws

Gastheer Engeland Get Women’s Rugby World Cup -promotie

22 augustus 2025

Ten minste 73% van de volwassenen in de Verenigde Staten is...

22 augustus 2025

Donna de Leone knuffelt de uitdaging in het seizoen van Atenio

22 augustus 2025

Zal Serena Williams ‘gewichtsracering toelating om het stigma van anti-obesity-medicijnen te...

22 augustus 2025

Beste draagbare luidsprekerdeal: Sonos Rome Krijg $ 40 tot $ 40

22 augustus 2025

Dit is menselijke tragedie vanwege de hongersnood van Israël in Gaza...

22 augustus 2025

Israël is beschuldigd van het toestaan van de hongersnood in Gaza...

22 augustus 2025

Toen verschillende mensen, waaronder een kind, stierven, een toeristische bus dump...

22 augustus 2025

Trump zegt: ‘Ik zal zien wiens schuld’

22 augustus 2025

West -Indië Women’s Team verhoogt de trainingsmethoden in Antigua Training Camp

22 augustus 2025

Waar staat de oppositie van Rusland vandaag, de VS-Russische relatie beweegt?

22 augustus 2025

100 dieven werken samen met Theta Network

22 augustus 2025

Categorieën
Wereld479
Nieuws304
Politiek286
Toernooien162
Techniek151
Sport109
Agenda8