Arm Mali-G77 GPU - komplette ind og outs

Forfatter: Randy Alexander
Oprettelsesdato: 3 April 2021
Opdateringsdato: 15 Kan 2024
Anonim
Arm Mali-G77 GPU - komplette ind og outs - Teknologier
Arm Mali-G77 GPU - komplette ind og outs - Teknologier

Indhold


Foruden sin nye Cortex-A77 CPU-kerne har Arm afsløret en næste generation af GPU, der er bestemt til næste generations SoCs for smartphones. Mali-G77, som ikke skal forveksles med den nye Mali-D77-skærmprocessor, markerer afgangen til Arm's Bifrost-arkitektur og overgangen til Valhall.

Vi kommer ind på de fine detaljer i den nye arkitektur på et øjeblik. Først springer vi lige ind i, hvad brugere skal forvente med hensyn til præstationsgevinster.

Mali-G77 præstationsoversigt

Arm kan prale af op til en 40 procent grafisk ydeevne boost med næste generation af Mali-G77 enheder sammenlignet med dagens Mali-G76-modeller. Dette nummer tager højde for proces såvel som arkitektoniske forbedringer. Mali-G77 kan konfigureres fra 7 til 16 shader-kerner, og hver kerne er næsten nøjagtigt den samme størrelse som G76-kernen. Dette betyder, at avancerede smartphones sandsynligvis vil blive leveret med lignende GPU-kernetællinger, som de gør i dag - et sted i de lave teenagere. Dette giver os praktisk mulighed for at foretage nogle spekulative ydelsesvurderinger over for eksisterende chipsæt.


Ser man på det populære Manhattan GFXBench benchmark, åbner et 40 procents ydeevne boost en betydelig føring mod den nuværende generations hardware. Qualcomms næste generation af Adreno-chip har brug for sin egen betydningsfulde præstationsopgradering for at holde spillereglen niveau. Tabellerne ser ud til at vende til Arm's fordel.

Arkitekturmæssigt øger spilpræstation 20 til 40%, mens maskinlæring tjener 60% boost

Baseret på denne temmelig rå ballparkering ser en 10-core Mali-G77 (en konfiguration, som vi ofte ser fra Huawei), til næsten at udtrække denne generation af toppen af ​​linjen mobil grafikhardware. En 12-kernekonfiguration, typisk set i Samsungs Exynos, giver en stor føring for Arm's nyeste GPU. Naturligvis afhænger reelle benchmarks af andre faktorer, herunder procesknudepunkt, GPU-cachehukommelse, LPDDR-hukommelseskonfiguration og den type applikation, du tester. Så tag ovenstående graf med en stor dosis salt.


Med hensyn til den nye arkitektur alene siger Arm, at Mali-G77 tilbyder en gennemsnitlig forbedring på 30 procent til energieffektivitet og ydelsestæthed. Der er også et enormt boost på 60 procent til applikationer til maskinlæring takket være INT8 dot-produktstøtte. Forventninger til spilpræstation indstilles et sted mellem 20 og 40 procent boost, afhængigt af titlen og typen af ​​grafisk arbejdsbelastning, der tilbydes.

For at forstå nøjagtigt, hvordan Arm har opnået denne performance-løftning, lad os tage et dybere dyb ned i arkitekturen.

Mød Valhall, Bifrosts efterfølger

Vahall er Arm's anden generation af skalær GPU-arkitektur. Det er en 16-bredt-varp eksekveringsmotor, hvilket væsentligt betyder, at GPU udfører 16 instruktioner parallelt per cyklus, pr. Behandlingsenhed, pr. Kerne. Det er op fra 4 og 8 bredt i Bifrost.

Andre nye arkitektoniske funktioner inkluderer dynamisk instruktionsplanlægning, der styres helt i hardware og et helt nyt instruktionssæt, der bevarer driftsækvivalensen til Bifrost. Andre inkluderer support til Arm's AFBC1.3-komprimeringsformat, FP16-gengivelsesmål, lagdelt gengivelse og vertex shader-output.

Mali-G77 gør 33% mere matematik parallelt med G76.

Nøglerne til at forstå de store arkitektoniske ændringer findes ved at undersøge udførelsesenheden inde i kernen. Denne del af GPU'en er ansvarlig for antalknusning.

Inde i udførelsesmotoren

I Bifrost indeholdt hver GPU-kerne tre eksekveringsmotorer eller to i tilfælde af nogle nedre ende Mali-G52-design. Hver motor indeholder en i-cache, registerfil og varp-kontrolenhed. I Mali-G72 håndterer hver motor 4 instruktioner pr. Cyklus, som steg til 8 i sidste års Mali-G76. Spredning over disse tre kerner giver mulighed for 12 og 24 32-bit flydende punkt (FP32) fused multiply-accumulation (FMA) instruktioner pr. Cyklus.

Med Valhall og Mali-G77 er der kun en enkelt udførelsesmotor inde i hver GPU-kerne. Som tidligere huser denne motor warp-kontrolenheden, register og icache, som nu deles på tværs af to behandlingsenheder. Hver behandlingsenhed håndterer 16 varpinstruktioner pr. Cyklus for en samlet gennemstrømning på 32 FP32 FMA-instruktioner pr. Kerne. Det er et løft på 33 procent til instruktion gennemløbet over Mali-G76.

Arm er overført fra tre til kun en eksekveringsenhed pr. GPU-kerne, men der er nu to behandlingsenheder inden for en G77-kerne.

Derudover indeholder hver af disse behandlingsenheder to nye matematiske funktionsblokke. Den nye konverteringsenhed (CVT) håndterer grundlæggende heltal-, logik-, gren- og konverteringsinstruktioner. Den specielle funktionsenhed (SFU) accelererer heltalmultiplikation, opdelinger, kvadratrot, logaritmer og andre komplekse heltalfunktioner.

Standard FMA-enheden har set et par justeringer, der understøtter 16 FP32-instruktioner pr. Cyklus, 32 FP16 eller 64 INT8 dot-produktinstruktioner. Disse optimeringer giver 60 procent højere ydeevne i applikationer til maskinlæring.

Quad Texture Mapper

Den anden nøgleændring i Mali-G77 er introduktionen af ​​en quad-teksturmapper, op fra en dual-teksturmapper i den forrige generation. Teksturmapper er ansvarlig for kortlægning af 3D-polygoner i en scene i 2D-repræsentationen, som du ser på en skærm. Det er ansvarligt for prøveudtagning, interpolering og filtrering for at udjævne vinklet og bevægeligt indhold for at undgå barske kanter i lav kvalitet.

Billig anti-aliasering forbliver på plads for at hjælpe med billedkvalitet, men fordoblingen af ​​strukturens ydelse er den største fordel her. Tekstureenheden behandler nu 4 bilinære texler pr. Ur op fra 2 tidligere, 2 trilinære texler pr. Ur og håndterer hurtigere FP16 og FP32-filtrering.

Quad-teksturmapper er delt i to stier, hvilket giver en kortere pipeline til tråde, der rammer indhold i cachen. Miss-stien, der håndterer formatkonvertering og dekomprimering af tekstur, har en bredere grænseflade til L2-cache. Dette er også nyttigt til arbejdsbelastninger i maskinen, der ofte kan være nødvendigt at hente nye data fra hukommelsen.

Samler alt sammen i Mali-G77

Arm har lavet en række andre justeringer til Mali-G77 for at falde sammen med de store ændringer i Valhall-arkitekturen. Kontrolblokken er forenklet takket være designen af ​​en enkelt udførelsesenhed, mens den interne dynamiske planlægning faktisk giver mulighed for en mere fleksibel instruktion, der udsendes inden for hver kerne. Med en højere gennemstrømning i hver kerne er datapaden også kortere og lavere i latenstid, ned til kun 4-cyklusser fra 8 tidligere.

Det nye design er også bedre tilpasset Vulkan API, hvilket forenkler driverbeskrivelserne til at sænke føreromkostningen for at forbedre "til metallet" -ydelsen.

I sammendraget foretager Mali-G72 og Valhall vigtige ændringer fra Bifrost, der lover betydelige ydeevneforbedringer til spil- og maskinlæringsapplikationer. Det er vigtigt, at designet passer inden for de samme strøm- og områdebudgetter som Bifrost, hvilket sikrer, at mobile enheder vil være i stand til at tilbyde højere ydeevne uden at bekymre sig om omkostninger til varme, strøm og silicium. Baseret på præstationsfremskrivningerne skal Mali-G77 være i stand til at give Qualcomms næstgener Adreno et godt løb for sine penge.

idte år tweetede Android' egen teknikdirektør David Burke om, at delingmenuen til Android, om den i øjeblikket er, kal være "meget hurtigere og lettere at bruge." N&#...

Xiaomi og det undermærke Redmi er kendt for at levere telefoner, der er dyre, der er fyldt med funktioner. Vi har endda et denne værdi for pengene-tilgang med Mi Mix 3 5G. Dette hånd...

Populær