Home Techniek Openai-etnografische cross-tests onthullen de risico’s van jailbreak en misbruik door welke initiatieven...

Techniek

Openai-etnografische cross-tests onthullen de risico’s van jailbreak en misbruik door welke initiatieven moeten worden toegevoegd aan de GPT -5-evaluatie

Door

Marijn van der Heijden

28 augustus 2025

Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu

Open En Etnografisch Vaak kunnen hun funderingsmodellen tegen elkaar bouwen, maar de twee bedrijven werden samengesteld om elkaars openbare modellen te evalueren om afstemming te testen.

Bedrijven zeggen dat ze van mening zijn dat de verantwoordingsplicht en bescherming van kruisevaluatie meer transparantie zal bieden in wat deze krachtige modellen kunnen doen, initiatieven in staat stellen de beste modellen te kiezen die het beste voor hen werken.

“Wij geloven dat deze aanpak de verantwoordingsplicht en transparante evaluatie ondersteunt, de modellen van elk lab zullen helpen ervoor te zorgen dat nieuwe en uitdagende situaties kunnen worden getest”, zegt Openai Het zoeken ervanDe

Beide bedrijven hebben ontdekt dat rationele modellen zoals Opence 03 en 4 -Minit en Clock 4 jailbreaks voorkomen van etnografische, terwijl gewone chatmodellen zoals GPT -1.3 gevoelig waren voor misbruik. Zo’n evaluatie kan initiatieven helpen om de potentiële risico’s met betrekking tot deze modellen te detecteren, hoewel moet worden opgemerkt dat GPT -5 geen deel uitmaakt van de test.

Raakt de limiet van AI -schaling

Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:

Tact

Bekwame schattingen architecteren voor echte throputwinsten

Competitief meer ontgrendelen met duurzame AI -systemen

Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo

De evaluatie van deze bescherming en transparantie -uitlijning wordt grotendeels gevolgd door de gebruikers van de chatgpt dat de Openai -modellen het slachtoffer zijn geworden van psychofyse en overdreven prestigieus zijn geworden. Opena heeft sindsdien rolls -updates, die de oorzaak van psychofyse zijn geworden.

“We zijn in de eerste plaats geïnteresseerd in het begrijpen van modellentrends voor schadelijke actie”, zegt Anthropic Het rapportDe “We merken dat deze modellen het doel zijn om de meest gerelateerde werkwoorden te begrijpen die proberen deze modellen te accepteren in plaats van zich te concentreren op de opkomst van dergelijke acties of de mogelijkheid om deze modellen met succes te voltooien.”

Openai vermeldt dat tests zijn ontworpen om aan te tonen hoe modellen zijn geïntegreerd in een moeilijke omgeving. De situaties die ze hebben gebouwd, zijn gevallen van de meeste uiteinden.

Rationele modellen behouden afstemming

Tests behandelen alleen universeel beschikbare modellen van beide agentschappen: Anthropic ClOD 4 Optus en Cloud 4 Sonnet, en Opta -4 O, GPT -4.1 & 3 -Mint van GPT -4.1 en 3. Beide agentschappen hebben de externe bescherming van modellen ontspannen.

OpenAI heeft de openbare API getest op Clude -modellen en is gepland om de logica van Claud 4 te gebruiken. Anthropic zei dat ze Openai en 3-Pro niet gebruikten omdat het niet “niet consistent was met de API die onze tools het best ondersteunden”.

Het doel van de test was niet om de Apple-to-App-vergelijking tussen modellen te beheren, maar om te bepalen hoe vaak het grotere taalmodel (LLM) van lijnen was afgeweken. Beide bedrijven hebben de evaluatiestructuur van de schaduw-Aerna-destructieve opgeheven, waaruit bleek dat het slagingspercentage van de kleimodellen hoog was.

“Deze tests evalueren de oriëntatie van modellen in een solide of hoog niveau situatie in de gesemineerde omgevingen, niet bij algemeen gebruik en houdt vaak lange, multi-gescheurde interactie in,” zei Anthropic. “Dit soort beoordeling wordt een belangrijke focus voor ons uitlijningswetenschapsteam omdat het waarschijnlijk gedrag zal vastleggen dat minder snel zal verschijnen in de algemene pre-establishment-test met echte gebruikers.”

Anthropic zei dat deze nationale tests beter werken als bedrijven aantekeningen kunnen vergelijken, “omdat deze situaties een grote hoeveelheid onafhankelijkheidsgraad zijn in het ontwerpen. Geen enkel onderzoeksteam kan alleen de hele ruimte van productieve evaluatie -ideeën verkennen.”

Zoekopdrachten laten zien dat rationele modellen meestal het zicht uitvoeren en jailbreaking kunnen voorkomen. OpenAI en 3 ClOD 4 OPS waren beter opgesteld, maar GPT -4 en GPT -4.1 en 4 -minuten “zagen er vaak iets meer uit dan het geklede model.”

GPT -4 O, GPT -4.1 en 4 -mini toonden ook de wens om samen te werken met het misbruik van mensen en hoe drugs te maken, bioepons kunnen ontwikkelen en gedetailleerde instructies geven over de terroristische aanvallen. De hoge percentages van beide beklede modellen werden afgewezen, wat betekent dat modellen weigerden de vragen te beantwoorden die de antwoorden niet kennen om uitspraak te voorkomen.

De modellen van de bedrijven zijn “gerelateerd aan de vormen van psychofyse” en op een gegeven moment legitimeerden de gesimuleerde gebruikers de schadelijke beslissingen.

De initiatieven moeten weten wat

Voor initiatieven zijn de potentiële risico’s met betrekking tot modellen van onschatbare waarde. Modelevaluatie voor veel bedrijven, waaronder veel tests en benchmarking -frameworks, is nu bijna d riger geworden.

Ondernemingen moeten blijven evalueren van de modellen die ze gebruiken en deze richtlijnen moeten in gedachten worden gehouden om hun eigen bescherming te runnen met de GPT -5 -manifestatie:

Onderzoek zowel argumenten als niet-resource modellen, omdat rationele modellen meer weerstand tegen misbruik vertoonden, ze konden nog steeds hallucinaties of ander schadelijk gedrag bieden.

Benchmarks over de leveranciers omdat de modellen faalden in verschillende statistieken.

Stresstests op misbruik en psychosfency, zowel weigeren als nut weigeren beide afwegingen te tonen tussen effectiviteit en onderhoud.

Na de implementatie bleef het model controleren.

Hoewel veel beoordelingsfocus op prestaties, bestaan er tests voor de uitlijning van de derde partijbescherming. Bijvoorbeeld, Deze Van SpermaHet afgelopen jaar publiceerde Openai een afstemming van het onderwijs voor zijn modellen, bekend als de op regels gebaseerde prijs, terwijl hij aan de andere kant werd gelanceerd om auditingsagenten te verifiëren om de bescherming van de antropologische model te verifiëren.

Dagelijkse inzichten in het geval van zakelijk gebruik met VB dagelijks

Als je je baas wilt beïnvloeden, heeft VB je elke dag gedekt. We geven u de interne primeur, beginnend bij de wettelijke verschuiving naar praktische implementatie, zodat u inzichten kunt delen voor het maximale meer.

Lees ons privacybeleid

Bedankt voor het inschrijven. Bekijk hier meer VB -nieuwsbrieven.

Er is een fout opgetreden.

Bronlink

Facebook
Twitter
Pinterest
WhatsApp

Vorig artikelKiev werd gebroken na het zware bombardement op Rusland gedurende enkele weken
Volgend artikelVN -personeel drukte op mensenrechtenchef Bholkar naar Turk Gaza Gaza Gaza

Marijn van der Heijden
http://schaatskrant.nl

GERELATEERDE ARTIKELEN MEER VAN DEZE AUTEUR

Mijn geheime wapen voor kamp is deze draagbare projector die 22% korting is voor Labor Day Weekend

‘SNL’ seizoen 51: Wie verlaat de cast?

Ride 1 -Up Trailerush Electronic Mountain Bike Review: kwaliteitsmateriaal, geprijsde prijs

Laatste nieuws

Battle for the Bottom of the Sea: Protection Under Water

30 augustus 2025

Het VK weigert overheidsfunctionarissen uit te nodigen voor de Gaza -oorlogvoering...

30 augustus 2025

Met Greta Thunberg verwierp de aantijgingen van oppositie, begon hij van...

30 augustus 2025

Koortscoach zegt

30 augustus 2025

Gauf maakt ons open in de verklaring in zijn woorden –...

30 augustus 2025

Rode Kruis zegt dat het Israëlische van plan is om de...

30 augustus 2025

Venetië is tot nu toe de beste uitkijk van de rode...

30 augustus 2025

3 mensen hebben het Indonesische regionale parlementshuis in brand gestoken: NPR

30 augustus 2025

Mijn geheime wapen voor kamp is deze draagbare projector die 22%...

30 augustus 2025

MLB beste weddenschappen op zaterdag 30 augustus: tophonkbalweddenschappen, voorspelling

30 augustus 2025

Antonio Masa Godoy Dice, voormalig president van de sipime

30 augustus 2025

‘We zijn op straat’: Palestijnen ontsnapten uit de invasie van Israël...

30 augustus 2025

Categorieën
Wereld1465
Nieuws871
Politiek862
Toernooien456
Techniek421
Sport341
Agenda8