Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu


Een nieuwe trainingsstructuur Het is ontwikkeld door onderzoekers Tensent AI Lab En Washington University Grote taalmodellen (LLMS) zonder dat ze moeten worden verbeterd om ze te verbeteren Eventuele door mensen gelabelde gegevens. De truc, geroepen R-ZeroHet aanpakken van een van de belangrijkste obstakels bij het creëren van zelf gedefinieerde AI-systemen maakt gebruik van versterking leren om zijn eigen trainingsgegevens helemaal opnieuw te maken. R-Zero werkt met elkaar samen met een gesprek en daagt twee verschillende modellen uit.

Onderzoek toont aan dat R-Zero het vermogen van logica over verschillende LLM’s verbetert, wat de complexiteit en kosten van geavanceerde AI-training kan verminderen. Voor het initiatief kan deze aanpak de ontwikkeling van speciale modellen voor complex rationeel werk versnellen zonder de uitgebreide kosten voor het samenstellen van cureren.

De uitdagingen van zelf gedefinieerde LLM

Het concept achter zelf gedefinieerde LLM is om AI-systemen te maken die autonoom kunnen maken, verfijnen en leren van hun eigen ervaring. Het biedt een schaalbaar pad naar de meer intelligente en capabele AI. Een grote uitdaging is echter dat deze modellen werk van hoge kwaliteit en grote hoeveelheden labels nodig hebben, die dienen als een supervisiesignaal om van AI te leren.

Om deze gegevens te maken, is het vertrouwen op menselijke vaccins niet alleen duur en traag, maar het creëert ook een fundamentele barrière. Het beperkt effectief de potentiële mogelijkheden van een AI die mensen kan leren. Om het aan te pakken, hebben onderzoekers labelvrije methoden gemaakt die directe beloningssignalen ontvangen van de eigen output van een model, bijvoorbeeld het meten van zijn vertrouwen in elk antwoord. Hoewel deze methoden de vereisten van voor de hand liggende labels elimineren, zijn ze nog steeds afhankelijk van een reeds bestaande taak, waardoor hun toepassing wordt beperkt tot echte zelf-deficit-situaties.


Raakt de limiet van AI -schaling

Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:

  • Tact
  • Bekwame schattingen architecteren voor echte throputwinsten
  • Competitief meer ontgrendelen met duurzame AI -systemen

Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo


Modellen met andere methoden creëren hun eigen werk om te leren. In de domeinen zoals open-end logica, waar er echter geen gemakkelijke manier is om de nauwkeurigheid (zoals code-executeurs) te testen, is het een belangrijke barrière om te zorgen dat de kwaliteit van deze zichzelf blootgestelde gegevens een belangrijke barrière is.

R-nul hoe werkt het

R-Zero is een structuur die is ontworpen voor rationele LLM-training die zich kan ontwikkelen uit nul externe gegevens. Het proces begint met een enkel basismodel, dat is verdeeld in twee tekens: een “uitdager” en een “oplosser”. Deze twee modellen zijn onafhankelijk gunstig, maar samen ontwikkeld door de ononderbroken cyclus van de interactie.

Het doel van de uitdager is om nieuwe banen te creëren die voor de deur staan ​​van de huidige vaardigheden van Salver, niet erg gemakkelijk of onmogelijk. Solver wordt in plaats daarvan beloond om deze groeiende complexe taken op te lossen. In een schriftelijke opmerking aan Venturebit, legden de papieren auteurs van de krant Cheng Huang en de doctoraatsstudent aan de Universiteit van Washington, St. Louis uit dat deze dynamiek erg belangrijk is omdat het vaak ingewikkeld is om vragen van hoge kwaliteit te creëren dan antwoorden.

Huang zei: “Wat we in een praktisch formaat hebben gevonden, is de grootste uitdaging om geen antwoorden te produceren … maar eerder hoge kwaliteit, romans en moeilijkere vragen,” zei Huang. “Wij geloven dat goede leraren veel zeldzaam zijn dan goede studenten. Co-evolutionaire dynamiek automatisch automatisch automatisch, zorgt voor een stabiel en dynamisch curriculum dat veel meer oplossingscapaciteit duwt dan dat een vaste, reeds bestaande gegevenssas kan bereiken.”

Zodra de uitdager voldoende vragen produceert, worden ze gefilterd op diversiteit en worden ze samengesteld in een trainingsdataset. In de trainingsfase van de oplosser is het subtiel voor deze uitdagende vragen. Het “correcte” antwoord voor elke vraag wordt bepaald door de meerderheidsstem uit de eigen poging van Salver.

Door dit hele proces te herhalen, het creëren van een zelf toegebrachte lus die werkt zonder menselijke interventie, waardoor de twee modellen meer in staat zijn om geleidelijk over elkaar heen te worden.

In R-Zero-actie

Onderzoekers onderzochten de R-Zero op verschillende open-source LLMS, waaronder het Qwen3- en Octinker Families-model. Ze hebben eerst modellen getraind op wiskundeproblemen en dan als de leerlogische vaardigheden kunnen generaliseren in andere complexe, gewone domein benchmarks Mmlu (Compromis en rationele daad van multi -taal) en Supergipicue (Wetenschap en redelijke handelingen).

De resultaten hebben aangetoond dat R-Zero een zeer effectieve, model-immuunstructuur is. Het heeft bijvoorbeeld de QWEN3-4B-BASE-modelscore verhoogd met een gemiddelde van +6,49 over de wiskundige rationele criteria. Het trainingsproces verbetert consequent en verbetert voldoende prestaties, winst op verschillende herhalingen. Het grotere QWEN3-8B-BASE-model heeft gezien dat zijn gemiddelde wiskundescore na drie herhalingen naar +5,51 punten stijgt.

De onmiddellijke prestatielip na de eerste herhaling was een originele zoekopdracht, die de rol van de uitdaging legaliseerde bij het creëren van een leercurriculum van hoge kwaliteit. “Dit zorgt ervoor dat het intelligente curriculum geproduceerd door de RL-geschoolde uitdager aanzienlijk effectief is dan elke getrainde generator,” schreven onderzoekers op hun paper.

Aanzienlijk werd de vaardigheden die werden geleerd uit wiskunde effectief overgebracht naar gewoon rationeel werk, waardoor de inherente capaciteit van de modellen werd verbeterd. Hetzelfde Qwen3-4b-base-model heeft bijvoorbeeld de verbetering van +7,54 aangetoond in rationele criteria voor algemene domein. Een andere interessante zoekopdracht is dat R-Zero kan fungeren als een besliste stap voor de training. Modellen behaalden voor het eerst een hogere prestaties ontwikkeld door R-Zero toen de traditionele subtiel was gebonden aan de delicate gelabelde gegevens, de structuur diende als een prestatieverbetering.

Voor het initiatief kunnen de “van nul data” een gamemanager zijn, vooral in nichedomeinen waar gegevens van hoge kwaliteit zeldzaam of niet bestaan. Huang benadrukt dat het belangrijkste voordeel van R-Giro de mogelijkheid is om het duurste en tijdrovende deel van AI-ontwikkeling in te voeren: gegevenscreatie.

“Onze aanpak omzeilt het basisobstakel om de datasets van hoge kwaliteit te vinden, te labelen en te corrigeren,” zei hij. “Dit gaat niet alleen over een kostenbesparende actie; het is een pad naar het maken van AI die kan worden overwonnen door menselijk vermogen, omdat het niet langer beperkt is tot menselijke kennis of datamogelijkheden.”

Het co-evolutionaire proces gaf echter ook een cruciale uitdaging aan. Aangezien de uitdager met succes moeilijkere problemen met succes oplevert, begint het vermogen om betrouwbare “nauwkeurige” antwoorden te produceren door de meerderheid van stemmen van Salvar afnemen. Onderzoekers hebben ontdekt dat de daadwerkelijke nauwkeurigheid van deze zelfafhankelijke labels met 5% tot 3% is gedaald in de eerste herhaling in de eerste herhalingVergeleken met Oracle LLM zo sterk als GPT -4De deze afname van de gegevenskwaliteit is een belangrijke handel en is een mogelijke barrière voor de langetermijnprestaties van het systeem.

Huang erkent dat dit een fundamenteel probleem is voor een zelfbenodigd voorbeeld. “Ons werk is een bewijs van een concept dat de waarschijnlijkheid van deze aanpak toont, maar we erkennen dat stabiele, langetermijnverbetering zonder de vlakten een belangrijk obstakel is,” zei hij. “Dit probleem zal een belangrijke volgende stap zijn voor de hele onderzoeksgemeenschap om op te lossen.”

Onderzoekers wijzen ook op een belangrijke beperking van de structuur: het huidige proces is het meest geschikt voor domeinen zoals wiskunde waar nauwkeurigheid doelgericht kan worden bepaald. Dus, hoe kan dit krachtige voorbeeld worden gemaakt als een kopie van de marketing of uitgebreid tot een meer subjectief bedrijfswerk als een samenvatting van rapporten?

Huang suggereert dat de derde geassocieerd is met een mogelijk pad naar de voorkant, die de AI-agent in het mengsel naast elkaar bestaat: betreft een “verificatie” of “criticus”.

In plaats van een eenvoudig ‘correct’ antwoord te evalueren, zal deze verificateur worden getraind om de kwaliteit van de Salver-output te evalueren op basis van een meer korte criteria, “legde hij uit.” Co-evolutionaire dynamiek creëert vervolgens een uitdagerprompt, creëert oplossingsrespons en biedt een kwaliteitssignaal voor de verifier, waardoor drie modellen samen worden verbeterd. “

Hoewel het een aspect blijft voor toekomstig onderzoek, duidt het op de toekomst waar de hele autonome AI -systemen niet alleen objectieve logica kunnen beheersen, maar ook subjectieve logica.


Bronlink