Acasă Gândire înainte Oracle, nvidia, brațul ia lumina reflectoarelor la chipsurile fierbinți

Oracle, nvidia, brațul ia lumina reflectoarelor la chipsurile fierbinți

2024

Video: Oracle Live: Discussion with Jensen Huang, Founder & CEO, NVIDIA (Octombrie 2024)

Deși o mare parte a emoției pe cip a venit săptămâna trecută de la anunțul Broadwell al Intel, au existat o serie de alte cipuri discutate în detaliu în cadrul conferinței anuale Hot Chips, care a avut tendința de a se concentra mai ales pe cipuri concepute pentru servere și centre de date.

Spectacolul este cunoscut pentru cipurile de înaltă calitate, cu Intel, Oracle și IBM discutând toate cele mai recente înregistrări ale acestora, însă numai Oracle's Sparc M7 a fost cu adevărat nou. În schimb, o mare parte din emisiune a sfârșit concentrându-se pe produsele bazate pe ARM, inclusiv primele detalii despre viitoarea versiune „Denver” pe 64 de biți a Nvidia a procesorului său Tegra K1.

Oracle, Intel și IBM Aim High With Chips Server

Dintre cipurile de ultimă generație, cele mai impresionante știri au venit de la Oracle, care a discutat despre următoarea generație a procesorului său SPARC, cunoscut un M7. Acest cip va avea 32 de nuclee SPARC S4 (fiecare cu până la opt fire dinamice), 64 MB de memorie cache L3, opt controlere de memorie DDR4 (până la 2TB pe procesor și 160 GBps de lățime de bandă de memorie cu DDR4-2133) și opt acceleratoare de analiză a datelor conectate peste o rețea on-chip.

Chip-ul este organizat în opt cluster-uri cu patru nuclee fiecare cu cache L2 partajată și o memorie cache L3 partiționată cu mai mult de 192 GBps lățime de bandă între un cluster de bază și cache-ul L3 local. În comparație cu M6 (un cip de 28 nm cu 12 nuclee SPARC S3 de 3, 6 GHz), M7 oferă o performanță de 3-3, 5 ori mai bună pe lățimea de bandă a memoriei, debitul întreg, sistemele OLTP, Java, ERP și debitul în virgulă plutitoare. Stephen Phillips, directorul principal al Oracle al SPARC Architecture, a declarat că obiectivul este o creștere a performanței în funcție de pas, mai degrabă decât câștiguri incrementale.

M7 poate scala până la 8 prize fără lipici (până la 256 de nuclee, 2.000 de fire și 16TB de memorie) și cu un comutator ASIC pentru a gestiona traficul între ele într-o configurație SMP, până la 32 de procesoare, astfel încât să puteți termina cu un sistem cu 1.024 nuclee, 8.192 fire și până la 64TB de memorie. Destul de impresionant. Oracle a declarat că oferă performanțe de 3 până la 3, 5 ori mai bune la o varietate de teste, comparativ cu SPARC M6 de anul trecut. Compania a spus că acest lucru va fi optimizat pentru stiva software Oracle, fabricată pe un proces de 20 nm și disponibilă în sistem cândva anul viitor.

De asemenea, IBM a oferit mai multe detalii pe linia sa Power8, pe care a anunțat-o la emisiunea de anul trecut. Acea versiune a cipului avea 12 nuclee, fiecare cu până la opt fire cu 512KB de SRAM Level 2 cache pe core (6MB L2 total) și 96MB de DRAM încorporat sub formă de cache de nivel 3. Acest cip imens, care măsoară 650 de milimetri pătrați cu 4, 2 miliarde de tranzistoare, este fabricat pe procesul SOI de 22 nm de la IBM și a început expedierea în iunie, potrivit IBM.

În urmă cu câteva luni, IBM a anunțat o versiune cu șase nuclee care măsoară 362 mm ². Discuția din acest an a fost despre cum IBM poate combina două dintre versiunile cu șase nuclee într-un singur pachet cu 48 de benzi de PCIe Gen 3. IBM a spus că o versiune cu două prize cu un total de 24 de nuclee și 192 de fire va depăși un procesor cu două Server Xeon Ivy Bridge cu 24 de nuclee (cu 48 de fire). IBM vinde Power în mare parte pe piețe de înaltă performanță și specializate, astfel încât majoritatea oamenilor nu vor compara cele două, dar este interesant. În efortul de a face arhitectura Power mai mainstream, IBM a anunțat anul trecut Open Power Consortium, iar anul acesta, compania a spus că are o stivă software complet open-source pentru platformă. Dar până acum, nimeni altul decât IBM nu a anunțat un server bazat pe platformă.

Intel a vorbit despre „Ivytown”, versiunea de server a Ivy Bridge, care include versiunile Xeon E5 introduse cu un an în urmă, iar Xeon E7 introdus în februarie. Discuția din acest an s-a concentrat asupra modului în care Intel are acum practic o arhitectură care poate acoperi ambele piețe, cu cipuri care permit până la 15 nuclee, două controlere de memorie DDR3, trei legături QPI și 40 de benzi PCI Gen 3, care este amenajată într-un etaj modular plan care poate fi transformat în trei matrițe diferite, fiecare proiectat pentru prize diferite, cu un total de peste 75 de variante. Aceasta poate fi utilizată pe servere cu două, patru și opt socluri fără interconectări speciale.

Aceste cipuri, desigur, reprezintă cea mai mare parte a achizițiilor de server în aceste zile, întrucât Intel reprezintă pentru marea majoritate a unităților de server. Însă o mulțime de informații au fost anterior acoperite la ISSCC, iar Intel este de dorit să introducă următoarea versiune a familiei E5 (E5-1600v3 și E5-2600 v3) foarte curând, pe baza unei versiuni actualizate folosind o variantă a Arhitectura Haswell numită Haswell-EP. (Săptămâna trecută, Dell a anunțat noi stații de lucru pe baza acestor noi cipuri.)

Intel a discutat, de asemenea, cu Atom C2000, cunoscut sub numele de Avoton, care a intrat în producție la sfârșitul anului 2013. Acest cip și cipurile Ivy Bridge și Haswell sunt toate bazate pe procesul Intel de 22 nm.

Nvidia, AMD, Aplicat Micro Obiectiv pe piețele noi pentru ARM

Cea mai mare surpriză a emisiunii a fost, probabil, concentrarea pe tehnologia bazată pe ARM, inclusiv note cheie de la boxele ARM și detaliile Nvidia despre viitoarea versiune „Denver” a procesorului său Tegra K1.

Într-o notă cheie, ARM CTO Mike Muller a discutat constrângerile de putere în orice, de la senzori la servere și s-a concentrat pe modul în care ARM încerca să se extindă în întreprindere. Muller a împins, de asemenea, conceptul de utilizare a cipurilor de senzori ARM pentru Internet of Things, subiect care a fost răsunat într-o notă-cheie din Rob Chandhok de la Qualcomm. Dar nici o companie nu a anunțat noi nuclee sau procesoare.

În schimb, marile vești de pe acest front au venit de la Nvidia, care a dat multe mai multe detalii despre noua versiune a procesorului său K1. Atunci când proiectul Denver a companiei a fost anunțat pentru prima dată, suna ca acest cip ar urma să fie orientat către piața de calcul performant, dar acum compania pare să se concentreze mai mult pe lucruri precum tabletele și piața auto. Tegra K1 va veni în două versiuni. Primul, care a fost anunțat la începutul acestui an și care acum este livrat în tableta Shield a companiei, are patru nuclee ARM Cortex-A15 pe 32 de biți, plus un „nucleu de companie” cu putere redusă în configurația 4 + 1 pe care Nvidia a apăsat-o linia sa Tegra de câțiva ani.

Versiunea Denver este destul de diferită, cu două noi nuclee proprii pe 64 de biți, proiectate de Nvidia, iar compania aduce cu adevărat beneficii de performanță pe care le obține. Nucleul este suprascalar cu șapte căi (ceea ce înseamnă că poate executa simultan până la șapte micro-op-uri) și are o memorie cache de instrucțiuni L1 cu patru căi de 128KB și o memorie cache de date L1 pe 64 de canale. Cipul combină două dintre aceste nuclee, împreună cu o memorie cache de 2MB de nivel 2 care servește ambelor nuclee, deoarece 192 „CUDA nuclee” (nuclee grafice) pe care le împărtășește cu K1 pe 32 de biți. Ca atare, reprezintă o mare depărtare de arhitectura 4 + 1.

O mare schimbare include ceea ce Nvidia numește „optimizarea dinamică a codului”, care este conceput pentru a lua cod ARM utilizat frecvent și pentru a-l converti în micro-cod special optimizat pentru procesor. Aceasta este stocată în 128 MB de memorie cache (sculptată în memoria principală a sistemului tradițional). Scopul este de a-i conferi performanța unei execuții în afara ordinului, fără a necesita atât de multă putere ca tehnica folosită de obicei. Conceptul nu este nou - Transmeta l-a încercat cu ani în urmă cu cipul său Crusoe - dar Nvidia spune că acum funcționează mai bine.

Nvidia a arătat mai multe repere, în care a susținut că noul cip poate atinge performanțe semnificativ mai mari decât procesoarele existente cu patru sau opt nuclee mobile - citând în special Snapdragon 800 (MSM8974) de la Qualcomm, Apple A7 (numit uneori Cyclone) folosit în iPhone 5s - și chiar unele procesoare PC principale. Nvidia a declarat că a depășit un procesor Atom (Bay Trail) și a fost similar cu procesorul Intel de 1, 4 GHz Celeron dual-core Celeron (Haswell). Desigur, tind să iau numerele de performanță ale vânzătorilor cu un bob de sare: nu numai că vânzătorii aleg reperele, nu este deloc clar că vorbim despre aceleași viteze ale ceasului sau aceeași putere de tragere.

Între timp, în cipurile care vizează mai mult serverele, AMD a vorbit mai mult despre Opteron A1100, cunoscut sub numele de "Seattle", cu compania spunând că în prezent este prelevarea de probe și ar trebui să fie disponibilă pe servere la sfârșitul acestui an. Acest cip are opt nuclee de procesor Cortex A57 pe 64 de biți; 4MB de cache L2 și 8 MB de cache L3; două canale de memorie pentru până la 128 GB memorie DDR3 sau DDR4 cu corecție de eroare; o mulțime de I / O integrate (8 benzi fiecare dintre PCIe Gen3 și 6 Gbps SATA și două porturi Ethernet de 10 Gbps); un „procesor de control al sistemului” Cortex A5 pentru pornire sigură; și un accelerator pentru accelerarea criptare și decriptare. Este fabricat pe procesul de 28 nm al GlobalFoundries. AMD nu a dat încă detalii despre frecvența, puterea sau performanța cipului, dar a arătat o diagramă de bază a cipului. (de mai sus)

Applied Micro susține de mult timp faptul că are primul cip de server ARM pe piață, cu X-Gene 1 (cunoscut sub numele de Storm) care conține 8 nuclee ARMv8 proprietate 2.4GHZ, patru controlere de memorie DDR3, PCIe Gen3 și 6Gbps SATA și 10 Gbps Ethernet. Aceasta este în prezent în producție pe procesul de 40 milimetri TSMC, spune compania.

La Hot Chips, Applied Micro și-a împins designul X-Gene 2 (Shadowcat), care va fi disponibil cu opt sau 16 nuclee „îmbunătățite”, care rulează cu viteze de 2, 4 la 2, 8 GHz și adaugă un gaz RoCE (RDMA peste Ethernet convergent). Adaptor pentru canale ca o interconectare concepută pentru a permite conexiuni cu latență scăzută între clustere de microserver. Acesta este proiectat pentru a fi utilizat în clustere, cu un singur server rack care suportă până la 6.480 de fire și 50TB de memorie, toate împărțind un singur grup de stocare. Compania spune că X-Gene 2 va oferi aproximativ 60 la sută performanțe întregi mai bune, de două ori performanța pe Memcache și aproximativ 25 la sută mai bună în serviciul Apache Web. Este fabricat pe un proces de 28 nm și este în prezent prelevare.

Applied Micro spune că X-Gene 2 umple un gol între microserversele concurente (Cavium ThunderX, Intel Atom C2000 „Avoton” și AMD Opteron A1100 „Seattle”) și serverele Xeon cu dimensiuni complete. Aceasta a oferit câteva detalii despre următoarea generație, X-Gene 3 (Skylark), care urmează să înceapă prelevarea de probe anul viitor. Acest cip va avea 16 nuclee ARMv8 care rulează până la 3 GHz și va fi fabricat folosind tehnologia FinFet de 16 nm.