Acasă Gândire înainte În sfârșit, schimbările mari sunt la orizont pentru supercomputere

În sfârșit, schimbările mari sunt la orizont pentru supercomputere

2024

Video: ADORMIREA MAICII DOMNULUI (Octombrie 2024)

Privind în urmă la conferința de supercomputare ISC din această săptămână, se pare că lumea de supercomputare va înregistra unele îmbunătățiri majore în următorii doi ani, dar actualizarea la lista de top de două ori pe an a celor mai rapide supercomputere din lume nu a fost foarte diferită de versiunea anterioară.

Cele mai rapide computere din lume continuă să fie cele două masini chineze masive care au trecut pe lista de câțiva ani: computerul Sunway TaihuLight de la Centrul Național de Supercomputare din China din Wuxi, cu o performanță susținută Linpack de peste 93 de petaflops (93 mii trilioane de puncte flotante operații pe secundă); și computerul Tianhe-2 de la Centrul Național Super Computer din China din Guangzhou, cu performanțe susținute de peste 33, 8 petaflops. Acestea rămân cele mai rapide mașini cu o marjă imensă.

Noul număr trei este sistemul Piz Daint de la Swiss National Supercomputing Center, un sistem Cray care utilizează Intel Xeons și Nvidia Tesla P100s, care a fost recent modernizată pentru a-i da un randament susținut Linpack de 19, 6 petaflops, de două ori totalul său anterior. Asta l-a mutat de la numărul opt de pe listă.

Aceasta scade sistemul american de top - sistemul Titan de la Laboratorul Național Oak Ridge - până la locul patru, ceea ce face prima dată în douăzeci de ani că nu există un sistem american în primii trei. Restul listei rămâne neschimbat, SUA reprezentând în continuare cinci din primele 10 în general, iar Japonia pentru două.

Chiar dacă cea mai rapidă listă de calculatoare nu s-a schimbat prea mult, există alte schimbări în altă parte. Pe lista celor 500 de sisteme cele mai eficiente din punct de vedere energetic, nouă dintre primele zece s-au schimbat. Pe deasupra se află sistemul Tsubame 3.0, un sistem HPE ICE XA modificat la Tokyo Institute of Technology bazat pe un nucleu Xeon E5-2680v4 14, interconectare Omni-Path și Tesla P100 Nvidia, care permite 14, 1 gigaflops pe watt. Acesta este un salt uriaș de la DGX Saturn V al Nvidia, bazat pe platforma DGX-1 a firmei și cipurile P100, care a fost numărul unu pe lista din noiembrie, dar a fost numărul zece de această dată, la 9, 5 gigaflops / Watt. P100 se află în nouă dintre primele zece sisteme Green500.

Spargerea a 10 gigaflop / watt este o afacere importantă, deoarece înseamnă că un sistem ipotetic exaflop construit folosind tehnologia actuală ar consuma sub 100 megawatt (MW). Acest lucru este încă prea mult - ținta este de 20-30 MW pentru un sistem exaflop, pe care cercetătorii speră să îl vadă în următorii cinci ani - dar este un pas imens înainte.

La fel ca lista Top 500, au existat doar modificări minore pe listele similare cu diferite criterii de referință, cum ar fi referința de înaltă performanță Conjugate Gradient (HPCG), unde mașinile tind să vadă doar 1-10 la sută din performanțele lor de vârf teoretice și unde top sistem - în acest caz, mașina Riken K - oferă încă mai puțin de 1 petaflop. Atât sistemele TaihuLight, cât și Piz Daint au trecut pe această listă. Când cercetătorii vorbesc despre o mașină exaflop, ei tind să însemne etalonul Linpack, dar HPCG poate fi mai realistă în ceea ce privește performanțele din lumea reală.

Apariția computerelor GPU ca accelerator - folosind aproape întotdeauna procesoarele GPU Nvidia, cum ar fi P100 - a fost cea mai vizibilă schimbare pe aceste liste din ultimii ani, urmată de introducerea acceleratorului propriu Intel, Xeon Phi cu mai multe nuclee (inclusiv cea mai recentă versiune Knights Landing). Lista actuală Top 500 include 91 de sisteme care utilizează acceleratoare sau coprocesoare, inclusiv 74 cu GPU Nvidia și 17 cu Xeon Phi (cu alte trei folosind ambele); unul cu un AMD Radeon GPU ca accelerator și două care folosesc un procesor cu mai multe nuclee de la PEZY Computing, un furnizor japonez. Alte 13 sisteme folosesc acum Xeon Phi (Knights Landing) ca principală unitate de procesare.

Dar multe dintre cele mai mari schimbări la supercomputere sunt încă la orizont, deoarece începem să vedem sisteme mai mari proiectate cu aceste concepte. Un exemplu este noul MareNostrum 4 de la Barcelona Supercomputing Center, care a intrat pe lista Top 500 la numărul 13. După cum este instalat până acum, acesta este un sistem Lenovo bazat pe viitoarea versiune Skyeke-SP a Xeon (oficial Xeon Platinum 8160 24 -procesor de înregistrare). Ceea ce este interesant aici sunt cele trei noi grupuri de „tehnologie emergentă” planificate pentru următorii doi ani, inclusiv un cluster cu procesoare IBM Power 9 și GPU Nvidia, concepute pentru a avea o capacitate de procesare de vârf de peste 1, 5 Petaflops; o a doua bazată pe versiunea lui Xeon Phi din Knights Hill; și un al treilea bazat pe procesoare ARMv8 pe 64 de biți proiectate de Fujitsu.

Aceste concepte sunt utilizate într-o serie de alte proiecte majore de supercomputare, în special câteva sponsorizate de Departamentul de Energie al SUA, ca parte a colaborării CORAL la Oak Ridge, Argonne și Laboratoarele Naționale Lawrence Livermore. În primul rând, ar trebui să fie Summit la Oak Ridge, care va folosi procesoarele IBM Power 9 și Nvidia Volta GPU, și programat pentru a livra peste 150 până la 300 de petaflops de vârf; urmat de Sierra la Lawrence Livermore, programat pentru a livra peste 100 de petaflops de vârf.

Ar trebui să vedem apoi supercomputerul Aurora de la Laboratorul Național Argonne, bazat pe versiunea Kne Hill din Xeon Phi și construit de Cray, care este prevăzut pentru a livra 180 de petaflops de vârf. Sistemele CORAL ar trebui să fie funcționale și alergare anul urmator.

Între timp, grupurile chineze și japoneze au planificat și upgrade-uri, folosind în mare parte arhitecturi unice. Ar trebui să fie interesant de urmărit.

O schimbare și mai mare pare a fi doar un pic mai departe: trecerea la învățarea mașinii, de obicei pe unități masive de procesare paralele în interiorul procesorului. În timp ce numărul Linpack se referă la performanțe de 64 de biți sau cu precizie dublă, există clase de aplicații - inclusiv multe aplicații bazate pe rețele neuronale profunde - care funcționează mai bine cu calcule cu o singură sau chiar jumătate de precizie. Noi procesoare profită de acest lucru, cum ar fi recentul anunț Volta V100 al Nvidiei și viitoarea versiune a lui Xeon Phi. În cadrul spectacolului, Intel a spus că versiunea, care urmează să fie în producție în al patrulea trimestru, ar avea noi seturi de instrucțiuni pentru „calcul de precizie scăzută” numite Quad Fused Multiply Add (QFMA) și Quad Virtual Neural Network Instruction (QVNNI).

Presupun că aceste concepte ar putea fi aplicate și la alte arhitecturi, cum ar fi TPU-urile Google sau FPGA-urile Intel și cipurile Nervana.

Chiar dacă anul acesta nu vedem schimbări mari, anul viitor ar trebui să ne așteptăm să vedem mai multe. Conceptul de mașină exascală (1000 teraflop) este încă la vedere, deși probabil va implica o serie de modificări și mai mari.