Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu
Open En Etnografisch Vaak kunnen hun funderingsmodellen tegen elkaar bouwen, maar de twee bedrijven werden samengesteld om elkaars openbare modellen te evalueren om afstemming te testen.
Bedrijven zeggen dat ze van mening zijn dat de verantwoordingsplicht en bescherming van kruisevaluatie meer transparantie zal bieden in wat deze krachtige modellen kunnen doen, initiatieven in staat stellen de beste modellen te kiezen die het beste voor hen werken.
“Wij geloven dat deze aanpak de verantwoordingsplicht en transparante evaluatie ondersteunt, de modellen van elk lab zullen helpen ervoor te zorgen dat nieuwe en uitdagende situaties kunnen worden getest”, zegt Openai Het zoeken ervanDe
Beide bedrijven hebben ontdekt dat rationele modellen zoals Opence 03 en 4 -Minit en Clock 4 jailbreaks voorkomen van etnografische, terwijl gewone chatmodellen zoals GPT -1.3 gevoelig waren voor misbruik. Zo’n evaluatie kan initiatieven helpen om de potentiële risico’s met betrekking tot deze modellen te detecteren, hoewel moet worden opgemerkt dat GPT -5 geen deel uitmaakt van de test.
Raakt de limiet van AI -schaling
Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:
- Tact
- Bekwame schattingen architecteren voor echte throputwinsten
- Competitief meer ontgrendelen met duurzame AI -systemen
Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo
De evaluatie van deze bescherming en transparantie -uitlijning wordt grotendeels gevolgd door de gebruikers van de chatgpt dat de Openai -modellen het slachtoffer zijn geworden van psychofyse en overdreven prestigieus zijn geworden. Opena heeft sindsdien rolls -updates, die de oorzaak van psychofyse zijn geworden.
“We zijn in de eerste plaats geïnteresseerd in het begrijpen van modellentrends voor schadelijke actie”, zegt Anthropic Het rapportDe “We merken dat deze modellen het doel zijn om de meest gerelateerde werkwoorden te begrijpen die proberen deze modellen te accepteren in plaats van zich te concentreren op de opkomst van dergelijke acties of de mogelijkheid om deze modellen met succes te voltooien.”
Openai vermeldt dat tests zijn ontworpen om aan te tonen hoe modellen zijn geïntegreerd in een moeilijke omgeving. De situaties die ze hebben gebouwd, zijn gevallen van de meeste uiteinden.
Rationele modellen behouden afstemming
Tests behandelen alleen universeel beschikbare modellen van beide agentschappen: Anthropic ClOD 4 Optus en Cloud 4 Sonnet, en Opta -4 O, GPT -4.1 & 3 -Mint van GPT -4.1 en 3. Beide agentschappen hebben de externe bescherming van modellen ontspannen.
OpenAI heeft de openbare API getest op Clude -modellen en is gepland om de logica van Claud 4 te gebruiken. Anthropic zei dat ze Openai en 3-Pro niet gebruikten omdat het niet “niet consistent was met de API die onze tools het best ondersteunden”.
Het doel van de test was niet om de Apple-to-App-vergelijking tussen modellen te beheren, maar om te bepalen hoe vaak het grotere taalmodel (LLM) van lijnen was afgeweken. Beide bedrijven hebben de evaluatiestructuur van de schaduw-Aerna-destructieve opgeheven, waaruit bleek dat het slagingspercentage van de kleimodellen hoog was.
“Deze tests evalueren de oriëntatie van modellen in een solide of hoog niveau situatie in de gesemineerde omgevingen, niet bij algemeen gebruik en houdt vaak lange, multi-gescheurde interactie in,” zei Anthropic. “Dit soort beoordeling wordt een belangrijke focus voor ons uitlijningswetenschapsteam omdat het waarschijnlijk gedrag zal vastleggen dat minder snel zal verschijnen in de algemene pre-establishment-test met echte gebruikers.”
Anthropic zei dat deze nationale tests beter werken als bedrijven aantekeningen kunnen vergelijken, “omdat deze situaties een grote hoeveelheid onafhankelijkheidsgraad zijn in het ontwerpen. Geen enkel onderzoeksteam kan alleen de hele ruimte van productieve evaluatie -ideeën verkennen.”
Zoekopdrachten laten zien dat rationele modellen meestal het zicht uitvoeren en jailbreaking kunnen voorkomen. OpenAI en 3 ClOD 4 OPS waren beter opgesteld, maar GPT -4 en GPT -4.1 en 4 -minuten “zagen er vaak iets meer uit dan het geklede model.”
GPT -4 O, GPT -4.1 en 4 -mini toonden ook de wens om samen te werken met het misbruik van mensen en hoe drugs te maken, bioepons kunnen ontwikkelen en gedetailleerde instructies geven over de terroristische aanvallen. De hoge percentages van beide beklede modellen werden afgewezen, wat betekent dat modellen weigerden de vragen te beantwoorden die de antwoorden niet kennen om uitspraak te voorkomen.
De modellen van de bedrijven zijn “gerelateerd aan de vormen van psychofyse” en op een gegeven moment legitimeerden de gesimuleerde gebruikers de schadelijke beslissingen.
De initiatieven moeten weten wat
Voor initiatieven zijn de potentiële risico’s met betrekking tot modellen van onschatbare waarde. Modelevaluatie voor veel bedrijven, waaronder veel tests en benchmarking -frameworks, is nu bijna d riger geworden.
Ondernemingen moeten blijven evalueren van de modellen die ze gebruiken en deze richtlijnen moeten in gedachten worden gehouden om hun eigen bescherming te runnen met de GPT -5 -manifestatie:
- Onderzoek zowel argumenten als niet-resource modellen, omdat rationele modellen meer weerstand tegen misbruik vertoonden, ze konden nog steeds hallucinaties of ander schadelijk gedrag bieden.
- Benchmarks over de leveranciers omdat de modellen faalden in verschillende statistieken.
- Stresstests op misbruik en psychosfency, zowel weigeren als nut weigeren beide afwegingen te tonen tussen effectiviteit en onderhoud.
- Na de implementatie bleef het model controleren.
Hoewel veel beoordelingsfocus op prestaties, bestaan er tests voor de uitlijning van de derde partijbescherming. Bijvoorbeeld, Deze Van SpermaHet afgelopen jaar publiceerde Openai een afstemming van het onderwijs voor zijn modellen, bekend als de op regels gebaseerde prijs, terwijl hij aan de andere kant werd gelanceerd om auditingsagenten te verifiëren om de bescherming van de antropologische model te verifiëren.
Bronlink