Wil je slim inzicht in je inbox? Meld u aan voor onze wekelijkse nieuwsbrieven om te krijgen wat belangrijk is voor de Enterprise AI, data- en beveiligingsleiders. Abonneer u nu
Adobe Photoshop is volgens de 90% van de creatieve professionals een van de meest erkende software die tot nu toe is gemaakt, volgens de wereld van de wereld, volgens FuturieelDe
Dus de waarheid is dat een Nieuw open source AI -model – Qwen-edit naar afbeeldingGisteren Chinese e-commerce gigant Alibaba AI-onderzoekers gepubliceerd door Queen Team-IS Is nu in staat om bewerkingswerk uit te voeren zoals veel Photoshop met een enkele tekstinvoerEen belangrijke prestatie.
Gebouwd op het Queen-iMez Foundation-model van 20 miljard-parameter, eerder deze maand gepubliceerd, breidt de quin-image-edit de unieke energie van het systeem uit om het brede spectrum van bewerkingsfuncties te dekken, van de subtiele aanwezigheid tot de subtiele aanwezigheid van de quin-image-edit.
Upload gewoon een vroeg figuur – ik heb het van mezelf geprobeerd De laatste jaarlijkse transformatieconferentie van VenterBeat In San Francisco en typ vervolgens de instructies over wat u wilt wijzigen en de quin-image-edit retourneert een nieuwe afbeelding met de toegepaste bewerkingen.
Raakt de limiet van AI -schaling
Power caps, toenemende tokens -uitgaven en vertraging in veronderstellingen zijn opnieuw de Enterprise AI opnieuw te varen. Word lid van onze exclusieve salon om te ontdekken hoe toppartijen zijn:
- Tact
- Bekwame schattingen architecteren voor echte throputwinsten
- Competitief meer ontgrendelen met duurzame AI -systemen
Bescherm uw plek om vooruit te blijven:: https://bit.ly/4mwgngo
Voorbeeld van invoerfiguur:
Voorbeelden van de uitvoerafbeelding met prompt: “Draag de man taxido.”
Het model is nu beschikbaar op verschillende platforms Queen Chat,, Knuffel,, Modelsho,, GranaatappelEn door Alibaba Cloud App Programming Interface (API)De volgende waarmee een derde -partijontwikkelaar of -onderneming dit nieuwe model kan integreren in hun eigen toepassing en workflow.
Ik heb mijn voorbeeld hierboven gemaakt Queen ChatHet Qin -team is rivaal in de chatzpt van OpenAI, maar het moet worden opgemerkt voor ambitieuze gebruikers die beperkt zijn tot ongeveer 8 gratis werk (invoer/uitvoer) gedurende 12 uur voordat het opnieuw wordt ingesteld. Gebruikers kunnen meer werktoegang hebben tot betaling.
Beide zijn ondersteuning voor Engelse en Chinese inputs en beide richten zich op zowel semantische betekenis als visuele loyaliteit, Qwen-Image-bewerking vermindert de barrière voor de productie van visuele materialen van professionele kwaliteit.
En het gegeven model is beschikbaar als een open source code Onder een Apache 2.0 -licentieInitiatieven zijn veilig om hun eigen hardware of virtuele wolken/machines te nemen, te downloaden en in te stellen, waardoor het is opgeslagen uit de software zoals Photoshop.
Als “Het kan een haarlok veranderen, een zeer subtiel beeld”, schreef in Juniang Lynn X.
De aankondiging van de partij weerspiegelt het sensatie, presenteert het quin-beeld-edit als een geheel nieuw systeem, maar past zijn unieke tekst toe als een natuurlijke verbetering van de koningin-afbeelding en is rechtstreeks van toepassing op de methoden met dubbele coderende methoden.
Dubbele coderingen maken de originele afbeeldingsstijl en bewerkingen in inhoudsopslag mogelijk
Cuin-Image-edit is gebaseerd op de Foundation Foundation Queen-beeldDie werd geïntroduceerd als een groot model als een expert in zowel de beeldgeneratie als de tekstweergave van dit jaar.
Het technische rapport van de koningin-afbeelding benadrukte de mogelijkheid om complexe taken zoals multi-line lay-outs met artikelniveau te verwerken met tekstniveau, Chinese en Engelse karakters en nauwkeurig.
Het rapport benadrukte ook een Dual-coderingsprocesEen Verial Autoincoder (VAE) voor FYWEN2.5-VL tegelijkertijd voedende en reconstructieve details voor semantische controle. Deze aanpak maakt bewerkingen mogelijk die trouw zijn voor zowel de prompt als het uiterlijk van de oorspronkelijke afbeelding.
Dezelfde architecturale voorkeuren ten grondslag liggen aan het bewerking van de koningin-beeld. Door te profiteren van dubbele coderingen, kan het model zich aanpassen aan twee niveaus: Fonetiek Door de betekenis of structuur van een scène te veranderen en Aanwezigheid Identificeer of verwijder de ingrediënten terwijl u deze pech.
Fonetiek Nieuw intellectueel eigendom creëren, 90 of 180 graden objecten roteren voor het uiten van verschillende weergaven of het transformeren van een input in een andere stijl zoals door studio gheibli-geïnspireerde industrie. Deze bewerkingen wijzigen meestal veel pixels aan, maar behouden de onderliggende identiteit van de objecten.
Hier Een exemplaar van de semantische bewerking De ingenieur van het AI-applicatieplatform is van Sridhar Athinarayanan, die een transcript-gehoste implementatie of “schatting” van Quinn gebruikte voor een foto van Manhattan om eruit te zien als een speelgoed LEGO-set.
Aanwezigheid Focus op specifieke, lokale veranderingen. In dit geval blijven de meeste afbeeldingen ongewijzigd wanneer specifieke objecten veranderen. Protesten omvatten het toevoegen van een uithangbord dat een weerspiegeling van het water creëert, de strengen van het verdwaalde haar uit het portret verwijdert en de kleur van een letter in een tekstafbeelding verandert.
Een goed voorbeeld van het bijwonen van Queen-Image Edit is een goed voorbeeld van Uttarai mede-oprichter en CEO Tomas Hill die een Evenals op de X. Zijn vrouw laten zien met dezelfde boog bedekt met zijn trouwjurk en graffiti onder één boog:
Het combineren met Quinn’s gevestigde energie bij het weergeven van Chinese en Engelse tekst, bevindt het bewerkingsgerichte systeem zich als een flexibel hulpmiddel voor makers die meer nodig hebben dan gewone generatorfiguur.
Dubbele controle over semantische reikwijdte en look-trouw betekent dat dezelfde apparatuur een heel andere behoefte kan hebben, van creatieve IP-ontwikkeling tot foto-herbouw op productieniveau.
Om tekst in afbeeldingen toe te voegen of te verwijderen
Nog een opvallende kracht Bewerk de tweetalige tekstMet de Queen-Image-edit kunnen gebruikers de tekst in zowel Chinees als Engels toevoegen, verwijderen of aanpassen, terwijl lettertypen, maat en stijl worden behouden.
Het strekt zich uit tot de bekendheid van Queen-Image voor het weergeven van het beeld van Strong ৰ, vooral in uitdagende situaties zoals complexe complexe Chinese karakters.
In de praktijk maakt het de juiste bewerking van posters, markeringen, t-shirts of kalligrafie-illustraties mogelijk waarbij de details van de kleine tekst belangrijk zijn, zoals het wordt gezien Een ander exemplaar uit de replica hieronderDe
Een demonstratie is betrokken bij het corrigeren van fouten in een deel van de Chinese kalligrafie die wordt gegenereerd door een stap -door -step geketend bewerkingsproces.
Gebruikers kunnen de verkeerde zones markeren, het systeem instrueren om ze te repareren en vervolgens de details verfijnen totdat de juiste tekens zijn weergegeven. Deze terugkerende methode laat zien hoe het model kan worden toegepast op bewerkingsfuncties met hoge steak waar nauwkeurigheid nodig is.
App en use case
Het Queen -team benadrukte verschillende mogelijke toepassingen:
- Creatief ontwerp en uitbreiding van IPHet creëren van dergelijke op mascotte gebaseerde emoji-pakketten.
- Advertenties en het maken van inhoudWaar logo, handtekening en tekst-zware visuals kunnen worden aangepast.
- Virtuele avatar en kunstOndersteunt de presentatie van uniek karakter met stijloverdracht.
- Fotografie en persoonlijk gebruikConsistent in de achtergrond, veranderingen in kleding en verwijdering van objecten.
- Cultureel behoudKlassieke kalligrafie aangetoond door de taken te corrigeren.
Brug de fijne bewerking met brede creatieve conversies en biedt koningin-beeld-edit aan professionals die controle over casual examens nodig hebben wanneer dat nodig is.
Benchmarking en prestaties
Volgens het Queen-team geven evaluaties in openbare criteria aan dat de Queen-Image-Edit distribueert Geavanceerde prestaties Bewerk de afbeelding.
Het volgt uit brede Qwen-Image Technische beoordelingen, waarbij het basismodel de belangrijkste resultaten behaalt in zowel de productie als de weergave van de tekst die de tekst weergeeft.
Specifieke bewerkingsbenchmarkstatistieken zijn niet gedetailleerd gemaakt in de release, maar de koningin-afbeelding zelf heeft hoge rangen gekregen in onderscheidende evaluatie zoals AI Arena, waar menselijke retarters output van verschillende leveranciers vergelijken.
API -prijs en beschikbaarheid
Door Alibaba Cloud Model StudioOntwikkelaars hebben toegang tot Qwen-Image-edit als API. Als de prijs wordt bepaald $ 0,045 per afbeeldingInclusief een gratis quotum 100 afbeeldingen zijn 180 dagen geldig Na de activering.
Service is in eerste instantie beschikbaar SingaporeInclusief het tariefpercentage Vijf verzoeken per seconde En tot Twee coëfficiëntwerk in elk accountDe
Om API te gebruiken, moeten ontwikkelaars een Model Studio API -sleutel krijgen en het model bellen via HTTP of via DashCope SDK in Python of Java.
Foto’s kunnen worden gecrediteerd als URL of in basis 64 -indeling, met ondersteunde resoluties met 512 tot 4.096 pixels en maximaal 10 MB -bestandsvormen. Uitvoerafbeeldingen worden gehost in Alibaba Cloud -objectopslag met 24 uur geldige links, gebruikers moeten de resultaten downloaden en opslaan.
Wat is de volgende koningin?
Qwen positioneert het beeldbewerking als een staptorenD. om barrières voor het creëren van visuele inhoud te verminderen. De specifieke, stijl-compatibele bewerking maakt het model toegankelijker, het model Particuliere projecten van informele gebruikers van Design Studios kunnen toepasselijke applicaties ondersteunen.
Het systeem duidt op een brede neiging van AI-ontwikkeling: het verplaatsen van een enkele geïnformeerde generatie naar apparatuur die bewerking, correctie en verfijning integreert.
Zowel met semantische flexibiliteit en nauwkeurigheid op aanwezigheidsniveau weerspiegelen deze verandering in de bewerking met quin-beeld, waardoor de generatorbevoegdheden van het grotere model worden gecombineerd met betrouwbaarheid die nodig is voor professionele bewerking.
Bronlink