Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu


Van onderzoekers Universiteit van Californië, Berkeley,, Stanford University En Databix Naam heeft een nieuwe AI -optimalisatiemethode gelanceerd Hack Het wordt aanzienlijk overtroffen de traditionele herstelonderwijs (RL) -technieken om zich aan te passen aan het Big Language Model (LLM) met gespecialiseerd werk.

De GEPA verwijdert het populaire exemplaar van leren door duizenden proeven-en-getroffen inspanningen uitgevoerd door eenvoudige cijfersscores. In plaats daarvan gebruikt het het eigen taalbegrip van een LLM om de effectiviteit ervan weer te geven, om de defecten te diagnosticeren en zijn instructies te herhalen. Naast het feit dat het nauwkeuriger is dan gevestigde technieken, behaalt GEPA hogere resultaten met aanzienlijk meer bekwame, 35 keer minder proefrun.

Voor de complexe AI -agent en workflow -business, vertaalt het zich rechtstreeks in de cycli van snelle ontwikkeling, wat voldoende berekeningen en meer prestaties vertaalt, betrouwbare toepassingen.

Moderne AI -systemen zijn hoge uitgaven voor uitsluiting

Moderne Enterprise AI -applicaties zijn zelden een enkele oproep naar LLM. Het zijn vaak “samengestelde AI-systemen”, complexe workflows die aangepaste logica keten om geavanceerde werken uit te voeren, waaronder meerdere LLM-modules, externe apparatuur zoals database- of code-tolk en multi-steps onderzoek en gegevensanalyse.


Raakt de limiet van AI -schaling

Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:

  • Tact
  • Bekwame schattingen architecteren voor echte throputwinsten
  • Competitief meer ontgrendelen met duurzame AI -systemen

Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo


Dit is een populaire manier om deze systemen te optimaliseren door de methoden voor het leren van versterkingDergelijke groepsrelatieve beleidsoptimalisatie (GRPO), een strategie die wordt gebruikt in populaire rationele modellen, inclusief DEPSEC-R 1. Deze methode beschouwt het systeem als een zwarte doos; Het loopt een baan, een algemeen succes wordt metriek (een “sclast award” is als een score van 7-10) en deze reactie gebruikt om de parameters van het model in de goede richting te voorkomen.

De hoofdfout van de RL is de inefficiëntie van het monster. Om effectief te leren van deze geïsoleerde numerieke scores, vereist het RL -systeem vaak duizenden duizenden of zelfs duizenden proefruns, bekend als “roll -outs”. Voor elke real-world enterprise-applicatie die betrokken is bij dure oproepen van apparatuur (bijv. API-vragen, codecompilatie) of modellen met sterk eigendom, is dit proces verboden en duur verboden en duur.

Lakshya is een Agarwal, co-auteurs van papier en een doctoraatsstudent in UC Berkeley, vertelde VentcherBeat dat deze complexiteit een belangrijk obstakel is voor veel bedrijven. “Voor veel groepen is RL niet praktisch vanwege de uitgaven en complexiteit-en tot nu toe zullen ze op weg zijn om engineering met alleen handen te leiden,” zei Augwal. Hij zei dat de GEPA is ontworpen voor partijen die zijn ontworpen om systemen in modellen op topniveau te optimaliseren, die misschien niet vaak subtiel zijn, waardoor ze de prestaties kunnen verbeteren zonder hun aangepaste GPU -clusters te bedienen.

Onderzoekers kaderen deze uitdaging als volgt in: “Hoe kunnen we het meeste onderwijssignaal halen uit elke dure uitrol om de effectieve aanpassing van modulaire AI-systemen in de instellingen met lage data of budget-zeeloze instellingen mogelijk te maken?”

Een optimizer die over de taal leerde

GEPA -framework Bron: Arsive

GEPA (genetische pararto) is een snelle optimizer die deze uitdaging vervangt door zeldzame beloningen te vervangen door natuurlijke taalreacties. Het kan in deze tekst worden geserialiseerd die in deze tekst kan worden geserialiseerd die een LLM leest en begrijpt die kan worden geserialiseerd in de gehele prestaties van het AI -systeem (zijn rationele stappen, oproepen van apparatuur en zelfs foutmeldingen). De Gapper -methode is gebouwd op drie hoofdpijlers.

De eerste is de “genetische snelle evolutie”, waarbij de GEPA de populatie van de prompt behandelt, zoals de genenpool. Het vraagt herhaaldelijk om een nieuwe, mogelijke betere versie van de “Mutts” te maken. Deze transformatie is een intelligent proces dat wordt aangedreven door de tweede pijler: “Reflectie met de natuurlijke taalrespons.” Na een paar rollouts biedt de GEPA een LLM met volledige uitvoeringstrace (wat het systeem probeerde te doen) en resultaten (wat correct of fout was). De LLM reflecteert vervolgens op deze reactie op de natuurlijke taal om het probleem te diagnosticeren en het probleem te detecteren, meer gedetailleerde prompt. In plaats van alleen het bekijken van de lage score in de code van de codegeneratie, kan het bijvoorbeeld een compilerfout analyseren en de snelle vereiste voltooien voor het opgeven van een specifieke bibliotheekversie.

De derde pijler is de “perto-gebaseerde selectie”, die zorgt voor slimme zoekopdracht. In plaats van zich te concentreren op een enkele beste prestatieprompt, die kan worden vastgelegd in een subpatiale oplossing (een “lokaal beste”), onderhoudt de GEPA een levendige selectie van “experts” -verzoeken. Het volgt welke een lijst van de topkandidaten om de beste prestaties vroeg in verschillende verschillende voorbeelden. Met het voorbeeld van deze verschillende sets van winnende technieken, zorgt de GEPA ervoor dat het meer oplossingen verkent en zal het eerder een prompt ontdekken die goed generaliseert tijdens de brede input.

Modellen kunnen vastzitten in lokale minima door single beste kandidaat (links) te selecteren wanneer selectie (rechts) meer opties kan verkennen en optimale oplossingen vinden: rxev

De effectiviteit van dit hele proces wordt “Feedback Engineering” genoemd. Agarwal legt uit dat de sleutel rijk is, tekstdetails die systemen al produceren maar vaak annuleren. “Traditionele pijpleidingen verminderen dit detail vaak tot een enkele numerieke prijs, obscuur waarom specifieke resultaten optreden,” zei hij. “De hoofdrichting van de GEPA is om de reacties te vormen dat het oppervlak niet alleen het resultaat is, maar ook het tussenliggende traject en defecten in de eenvoudige tekst – een persoon zal hetzelfde bewijs gebruiken om het gedrag van het systeem te diagnosticeren.”

Voor een documentherstelsysteem betekent het bijvoorbeeld vermeld welke documenten correct zijn hersteld en welke documenten werden gemist in plaats van het berekenen van een eindscore.

GPA in actie

Onderzoekers hebben de GEPA geëvalueerd in de vier verschillende werken, waaronder multi-hop vraag antwoorden (Hotpotka) en privacy-reddende query (PUPA). Ze vergeleken de op RL gebaseerde GRPO en de state-of-the-art optimizer MProve 2 en gebruikten zowel open-source (Kwenn3 8B) als eigendom (GPT-4.1 Mini) -model.

Gedurende al het werk heeft GEPA GRPO voldoende overschreden en heeft hij een hogere score van 19% behaald bij het gebruik van 35 keer lagere uitrol. Agarwal gaf een voorbeeld van deze vaardigheid: “We hebben de GEPA gebruikt om het QAA -systeem ~ 3 uur te maken versus grpo 24 uur – om 8x te verminderen tijdens de ontwikkeling, evenals 20% hogere prestaties,” legde hij uit. “De op RL gebaseerde optimalisatie van dezelfde scène in onze test besteedt op dat moment ongeveer $ 300, wanneer onze examens minder dan $ 20 kosten voor betere resultaten.”

GEPA Key Benchmarks Bron andere baseline -uitsluiting uitsluiten: arcev

Naast de ruwe prestaties hebben onderzoekers ontdekt dat GEPA-liefhebbende systemen betrouwbaarder zijn wanneer ze worden geconfronteerd met nieuwe, ongeziene gegevens. Het wordt gemeten door “generalisatie -interval” (verschil tussen trainingsgegevens en prestaties in eindexamengegevens). Agarwal gaat ervan uit dat het wordt geleerd uit de Gepa Rich Response. “De kloof van de kleine generalisatie van de gapper kan voortkomen uit het gebruik van de natuurlijke taalreactie op elk resultaat-wat deed, wat mislukt en de waarom-keeble alleen afhankelijk is van de toekenning van een enkele scler,” zei hij. “Het kan het systeem alleen maar aanmoedigen om instructies en technieken te ontwikkelen op basis van een breed begrip van succes in plaats van de specifieke patronen voor trainingsgegevens.” Voor het initiatief betekent deze geavanceerde betrouwbaarheid minder fragiele, meer aangepaste AI-app voor de rol van de klant.

Een van de belangrijkste praktische voordelen is dat de op instructies gebaseerde prompts van GEPA 9,2 keer lager zijn dan aanwijzingen die worden geproduceerd door optimalisatoren zoals MIPRV 2, die verschillende schotenvoorbeelden bevat. Vraagt om de kortheid te verminderen en de uitgaven voor op API gebaseerde modellen te verminderen. Het maakt de uiteindelijke applicatie sneller en goedkoop om uit te voeren.

Het artikel presenteert ook de resultaten die zijn toegewijd om de GEPA te gebruiken als een “schatting-time” -zoektechniek, waardoor AI wordt omgezet in een terugkerende probleemoplossing van een enkele antwoordgenerator. Agarwal beschrijft een scène waarin GEPA kan worden geïntegreerd in de CI/CD -pijplijn van een bedrijf. Wanneer de nieuwe code is gepleegd, kan GEPA automatisch meerdere gunstige versies maken en verfijnen, ze testen op prestaties en een poolverzoek openen met de best-performer-varianten om ingenieurs te beoordelen. “Dit wordt omgezet in een ononderbroken, automatisch proces bij hun onderzoek naar de optimalisatie, bij hun onderzoek naar de Offten Tuda -code -generatie, in 20% van deze procedure heeft de prestaties op een expertniveau verhoogd, vergeleken met 0% voor een enkele schotinspanning van GPT -4.

Papierschrijvers geloven dat GEPA een basisstap is naar een nieuw voorbeeld van AI -ontwikkeling. Naast het creëren van meer mens-nationale AI’s, kan de meest onmiddellijke impact echter zijn wie een hoog prestatiesysteem kan creëren.

“We hopen dat de GEPA een positieve verandering in het AI-systeembouw mogelijk maakt, deze nationale systemen vergemakkelijkt de optimalisatie van de laatste gebruikers, die vaak relevante domeinvaardigheden hebben met de taak, maar niet tijd en bereid om een complexe RL-specificatie te leren,” zei Agrawal. “Het geeft de belanghebbenden de kracht rechtstreeks met de juiste werkspecifieke domeinkennis.”


Bronlink