Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu


Het verwerven van inter -gebruikelijke normen zoals Model Context Protocol (MCP) kan initiatieven bieden met inzichten in hoe agenten en modellen werken uit hun wandbeperkingen. Veel criteria kunnen echter niet de echte interactie met MCP vastleggen.

Salesforce AI Research creëerde een nieuwe open-source benchmark. Het wordt MCP-universums genoemd wiens doelwit het volgen van LLM’s die ruzie maken met dit contact met de echte MCP-servers die het daadwerkelijk wordt gebruikt met modellen met betere schilderijen en realtime interacties. In zijn initiële onderzoek blijkt dat modellen de voorkeur hebben OpenOnlangs GPT -5 is vrijgegeven Sterk, maar presteren nog niet goed in situaties in het echte leven.

Salesforce zegt: “De bestaande criteria richten zich in principe op de geïsoleerde aspecten van LLM-prestaties, als volgende, het wiskundige argument of het bellen van functies, de modellen communiceren niet met de echte MCP-server in verschillende situaties,” zegt Salesforce, “zegt Salesforce,” zei Salesforce, “zei Salesforce,” zei Salesforce, “zei Salesforce,” zei Salesforce. Een papierDe

Het gebruik van MCP-universitaire apparatuur, gesprekken met multi-turn-apparatuur, lange context van het maken van modelprestaties via ramen en grote gereedschappen. Dit is gebaseerd op bestaande MCP -servers met werkelijke gegevensbronnen en omgeving.


Raakt de limiet van AI -schaling

Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:

  • Tact
  • Bekwame schattingen architecteren voor echte throputwinsten
  • Competitief meer ontgrendelen met duurzame AI -systemen

Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo


Junanan Lee, directeur van AI Research bij de Salesforce, vertelde VentcherBieit dat veel modellen “nog steeds geconfronteerd worden met de beperkingen die hun werkzaamheden voor bedrijfsklasse hebben teruggezet.”

“De grootste twee zijn: de grote twee zijn: uitdagingen in de lange context kunnen de modellen consequent de weg of worsteling van rationele informatie verliezen bij het hanteren van zeer lange of complexe inputs,” zei Lee. “En, onbekende apparatuuruitdagingen, zijn de modellen vaak niet in staat om vreemden of systemen te gebruiken in de manier waarop mensen zich aan de vlucht kunnen aanpassen.

MCP-Universi sluit zich aan bij andere MCP-gebaseerde voorgestelde criteriaAls MCP-RADER Massachusetts Amherst en Shi’an Ziaotong University, evenals Beijing Post en Telecommunications University ‘ MacpworldDe IT maakt ook McPepavals, de Salesforce die in juli is gepubliceerd, die oorspronkelijk op agenten richtte. Lee zegt dat het grootste verschil tussen MCP-Universi en McPepavals is dat het volgende wordt geëvalueerd met synthetische werken.

Hoe werkt het

MCP-University beoordeelt dat elk model meerdere taken uitvoert die personen imiteren die door ondernemingen zijn genomen. Salesforce zegt dat het MCP-universitairs heeft ontworpen met zes hoofddomeinen die door ondernemingen worden gebruikt: locatie op positie, opslagbeheer, financiële analyse, 3D-ontwerp, browserautomatisering en web zoeken. Het heeft toegang tot 11 MCP -server voor een totaal van 231 banen.

  • Richt zich op geografische argumenten en ruimtelijke prestaties op de positie. Onderzoekers hebben voor dit proces de Google Maps MCP -server aangeboord.
  • Het opslagbeheerdomein richt zich op codebase -bewerkingen en is verbonden met de GitHub MCP om de versiebeheerapparatuur te publiceren, zoals zoekopdrachten, probleemvolgingen en codebewerking.
  • Financiële analyse is verbonden met de Yahoo Finance MCP -server om kwantitatieve logica en besluitvorming voor financiële markt te evalueren.
  • 3D Design Blender evalueert het gebruik van computergestande ontwerpapparatuur via MCP.
  • De browserautomatisering, verbonden met de MCP van de toneelschrijver, onderzoekt de browserinteractie.
  • Web Search Domain Google Search MCP Server en breng MCP mee om “Open-Domain Information Search” mee te nemen en het is gestructureerd als meer open-end taak.

Salesforce zegt dat het moest worden ontworpen voor nieuwe MCP -functies die weerspiegeld zijn in praktisch gebruik. Voor elk domein hebben ze vier tot vijf soorten werk gecreëerd die onderzoekers denken dat LLMS gemakkelijk kan voltooien. Onderzoekers stellen bijvoorbeeld de modellen een doel in dat betrokken is bij wortelplannen, identificeert optimale stops en detecteert vervolgens de bestemming.

Elk model wordt geëvalueerd hoe ze de taken voltooien. Lee en zijn team kozen ervoor om een ​​executiegebaseerd evaluatievoorbeeld te volgen in plaats van een meer gewoon LLM-as-a-o-judgment-systeem. Onderzoekers wijzen erop dat het voorbeeld van LLM-A-A-Judge “niet geschikt is voor onze MCP-universitaire scene, omdat sommige werkzaamheden zijn ontworpen om realtime gegevens te gebruiken, terwijl de kennis van de LLM-rechter stabiel is.”

Salesforce -onderzoekers hebben drie soorten evaluatie gebruikt: Format Assessor om te zien of agenten en modellen de formaatvereisten volgen, vaste evaluatoren om de nauwkeurigheid in de tijd te evalueren en om de dynamische evaluatie voor vluchtprijzen of GitHub -problemen te evalueren.

“MCP-Universi heeft zich gericht op het creëren van uitdagende real-world taken met executive-gebaseerde evaluatie, die de agent in complexe situaties kunnen drukken. Bovendien bieden MCP-universiteiten een uitgebreide structuur/codebase voor het bouwen en evalueren,” zei Lee.

Zelfs grote modellen hebben problemen

Voor de MCP-Universi-test evalueerde de Salesforce een aantal populaire eigendoms- en open source-modellen. Deze omvatten van Grock -4 Niet,, Etnografisch‘S -Claved -4 Sant en Clod 3.7 Sant, Onaiye’s GPT -5, O 4 -Mine, O 3, GPT -4.1, GPT -OTP, GoogleZijn Gemi 2.5 Pro en Gemstie 2.5 Faks, van Glm -4.5 tot Zullen,, KlagenZijn km-k 2, KoninginDe QWen3-codeerder en QWen3-235B-A22B-Instruct-2507 en DIPSEC-V 3-0304 DIPSCHet geteste model had ten minste 120b parameters.

In deze test bleek uit de Salesforce dat GPT -1 het beste slagingspercentage had, vooral voor financiële analyse. Na de Grock -4 versloeg de browser alle modellen voor automatisering en het Claud -1.5 -sonnet uit de top drie, hoewel het niet meer prestatienummers plaatste dan een van de gevolgde modellen. Van de open source -modellen is de GLM -4.5 de beste.

MCP-Universi heeft echter aangetoond dat modellen al lang aanzienlijk zijn verminderd voor lange contexten, vooral op positie, browserautomatisering en financiële analyse. Het moment waarop LLMS geconfronteerd wordt met onbekende apparatuur, neemt hun prestaties ook af. LLMS Enterprises toonde de moeilijkheid om meer dan de helft van het werkte te voltooien.

“Deze zoekopdrachten benadrukken dat de huidige Frontier LLMS nog steeds kort is in het werk van het uitvoeren van de verschillende real-world MCP-taken.

Lee vertelde Ventchartes dat hij hoopt dat initiatieven MCP-Universi zullen gebruiken, waar agenten en modellen geen dieper idee krijgen, zodat ze hun kader of de implementatie van MCP-apparatuur kunnen verbeteren.


Bronlink