Acasă Gândire înainte De ce învățarea automată este viitorul

De ce învățarea automată este viitorul

2024

Cuprins:

Concurența de învățare a mașinilor

Video: Cupa Hagi Danone Finala: Academia Hagi - Kinder Tg. Mureş 2-2, 7-5 d.7m (Octombrie 2024)

În cadrul conferinței de supercomputare SC16 din această lună, două tendințe au fost evidente. Prima este apariția celui mai recent Xeon Phi de la Intel (Knights Landing) și cel mai recent Tesla al lui Nvidia (P100 bazat pe Pascal) pe lista Top500 a celor mai rapide computere din lume; ambele sisteme au ajuns în top 20. Al doilea este un mare accent pe modul în care producătorii de cipuri și sisteme iau concepte din sistemele moderne de învățare a mașinilor și le aplică la supercomputere.

Pe baza revizuirii actuale a listei Top500, care se actualizează de două ori pe an, partea de sus a graficului este încă în mâna computerului Sunway TaihuLight de la Centrul Național de Supercomputare din China din Wuxi și computerul Tianhe-2 de la Super Computerul Chinez Centrul din Guangzhou, așa cum a fost de la emisiunea ISC16 din iunie. Niciun alt computer nu are performanțe totale, sistemele clasate pe locul al treilea și al patrulea - încă supercomputatorul Titan de la Oak Ridge și sistemul Sequoia de la Lawrence Livermore - ambele oferind aproximativ jumătate din performanța Tianhe-2.

Primul dintre acestea se bazează pe un procesor unic chinezesc, SW26010 de 1, 45 GHz, care folosește un nucleu RISC pe 64 de biți. Aceasta are un 10.649.600 de nuclee de neegalat, care furnizează 125, 4 petaflops cu capacitate teoretică maximă și 93 petaflops cu performanțe maxime măsurate pe etalonul Linpack, cu 15, 4 Megawatt de putere. Trebuie menționat că, deși această mașină ocupă topurile în performanța Linpack cu o marjă uriașă, nu este la fel de bine la alte teste. Există și alte criterii de referință, cum ar fi standardul HPCG (High Performance Conjugate Gradients), unde mașinile tind să vadă doar 1 până la 10 la sută din performanțele lor de vârf teoretice și unde sistemul de top - în acest caz, mașina Riken K - oferă încă mai puțin decât 1 petaflop.

Însă testele Linpack sunt standardul pentru a vorbi despre calculul de înaltă performanță (HPC) și ceea ce este folosit pentru a crea lista Top500. Folosind testele Linpack, mașina nr. 2, Tianhe-2, a fost numărul 1 pe grafic în ultimii ani și folosește acceleratoare Xeon E5 și Xeon Phi mai vechi (Knights Corner). Aceasta oferă 54, 9 petaflops de performanță teoretică maximă și repere la 33, 8 petaflops în Linpack. Mulți observatori consideră că interzicerea exportului de versiuni mai noi de Xeon Phi (Knights Landing) i-a determinat pe chinezi să creeze propriul procesor de supercomputere.

Knights Landing, în mod oficial Xeon Phi 7250, a jucat un rol important în noile sisteme de pe listă, începând cu supercomputerul Cori de la Laboratorul Național Lawrence Berkeley venind pe locul cinci, cu o performanță maximă de 27, 8 petaflops și o performanță măsurată de 14 petaflops. Acesta este un sistem Cray XC40, care utilizează interconectarea Aries. Rețineți că Knights Landing poate acționa ca un procesor principal, 68 de nuclee per procesor livrând 3 teraflops de vârf. (Intel listează o altă versiune a cipului cu 72 de nuclee la 3, 46 teraflops cu performanță teoretică maximă de dublă precizie pe lista sa de prețuri, dar niciuna dintre mașinile din listă nu folosește această versiune, poate pentru că este mai scumpă și folosește mai multă energie.)

Anterior Xeon Phis putea funcționa doar ca acceleratoare în sistemele care erau controlate de procesoarele Xeon tradiționale. Pe locul al șaselea s-a aflat sistemul Oakforest-PACS al Centrului comun al Japoniei pentru calculatoare avansate de înaltă performanță, care a notat 24, 9 petaflops de vârf. Aceasta este construită de Fujitsu, folosind interconectarea Knights Landing și Intel Omni-Path. Knights Landing este de asemenea utilizat în sistemul nr. 12 (computerul Marconi de la CINECA din Italia, construit de Lenovo și folosind Omni-Path) și sistemul nr. 33 (Camphor 2 de la Universitatea Kyoto din Japonia, construit de Cray și folosind Berbecul interconectare).

Nvidia a fost bine reprezentată și pe noua listă. Sistemul nr. 8, Piz Daint de la Swiss National Supercomputing Center, a fost modernizat la un Cray XC50 cu Xeons și Nvidia Tesla P100, și oferă acum sub 16 petaflops de performanță teoretică de vârf și 9.8 petaflops de performanță Linpack - un mare upgrade de la 7.8 petaflops de performanță maximă și 6.3 petaflops de performanță Linpack în iterația sa anterioară bazată pe Cray XC30 cu acceleratoare Nvidia K20x.

Celălalt sistem bazat pe P100 de pe listă a fost DGV Saturn V al lui Nvidia, bazat pe sistemele DGX-1 ale companiei și pe o interconectare Infiniband, care a intrat pe numărul 28 pe listă. Rețineți că Nvidia vinde acum atât procesoarele, cât și aparatul DGX-1, care include software și opt Tesla P100. Sistemul DGX Saturn V, pe care Nvidia îl folosește pentru cercetarea internă AI, are aproape 4, 9 petaflops de vârf și 3, 3 petaflops Linpack. Dar ceea ce subliniază Nvidia este că folosește doar 350 de kilowati de putere, ceea ce îl face mult mai eficient din punct de vedere energetic. Drept urmare, acest sistem este în topul listei Green500 a celor mai eficiente sisteme energetice. Nvidia subliniază că aceasta este considerabil mai puțin energetică decât sistemul Camphor 2 bazat pe Xeon Phi, care are performanțe similare (aproape 5, 5 petaflops maxim și 3, 1 petaflops Linpack).

Este o comparație interesantă, cu Nvidia oferind eficiență energetică mai bună pe GPU și Intel oferind un model de programare mai familiar. Sunt sigur că vom vedea mai multă concurență în anii următori, deoarece diferitele arhitecturi concurează pentru a vedea care dintre ele va fi primul care va ajunge la „calculul exaspale” sau dacă abordarea chineză de acasă va ajunge acolo. În prezent, Proiectul de calcul exasalat al Departamentului pentru Energie din SUA se așteaptă ca primele mașini exasale să fie instalate în 2022 și să funcționeze în anul următor.

Mi se pare interesant de remarcat faptul că, în ciuda accentului pe acceleratoarele cu mai multe nuclee precum soluțiile Nvidia Tesla și Intel Xeon Phi, doar 96 de sisteme folosesc astfel de acceleratoare (inclusiv cele care folosesc Xeon Phi singur); spre deosebire de 104 sisteme acum un an. Intel continuă să fie cel mai mare furnizor de cipuri, cu cipurile sale în 462 din primele 500 de sisteme, urmate de procesoarele IBM Power din 22. Hewlett-Packard Enterprise a creat 140 de sisteme (inclusiv cele construite de Silicon Graphics, pe care le-a achiziționat HPE), Lenovo a construit 92, și Cray 56.

Concurența de învățare a mașinilor

Au fost o serie de anunțuri la sau în jurul spectacolului, majoritatea tratând o formă de inteligență artificială sau de învățare automată. Nvidia a anunțat un parteneriat cu IBM pe un nou set de instrumente de învățare profundă, numit IBM PowerAI, care rulează serverele IBM Power utilizând interconectarea NVLink a Nvidia.

AMD, care a fost o gândire ulterioară atât în mediile HPC, cât și în mediul de învățare automată, lucrează pentru a schimba asta. În acest domeniu, compania s-a concentrat pe propriile GPU Radeon, și-a împins GPU-urile de server FirePro S9300 x2 și a anunțat un parteneriat cu Google Cloud Platform pentru a-l putea utiliza peste cloud. Dar AMD nu a investit atât de mult în software pentru programarea GPU-urilor, întrucât a subliniat OpenCL peste abordarea mai proprietară a Nvidia. În cadrul spectacolului, AMD a introdus o nouă versiune a platformei sale Radeon Open Compute Platform (ROCm), și a prezentat planurile de a susține GPU-urile sale în scenarii de calcul eterogene cu mai multe CPU, inclusiv viitoarele sale CPU "Zen" x86, arhitecturi ARM începând cu ThunderX de la Cavium și Procesoare IBM Power 8.

În cadrul spectacolului, Intel a vorbit despre o nouă versiune a actualului său cip Xeon E5v4 (Broadwell), reglat pentru încărcările de lucru cu punct flotant și despre modul în care următoarea versiune bazată pe platforma Skylake va avea loc anul viitor. Însă, într-un eveniment ulterior în acea săptămână, Intel a făcut o serie de anunțuri concepute pentru a-și poziționa jetoanele în spațiul de inteligență artificială sau în mașina de învățare. (Iată care este extrema ExtechTech.) O mare parte din aceasta are implicații asupra calculelor de înaltă performanță, dar în mare parte sunt separate. Pentru început, pe lângă procesoarele standard Xeon, compania promovează, de asemenea, FPGA pentru a face o mare parte din inferencing în rețelele neuronale. Acesta este un motiv important pentru care compania a achiziționat recent Altera, iar astfel de FPGA sunt acum utilizate de companii precum Microsoft.

Dar accentul pus pe AI s-a ocupat săptămâna trecută cu câteva cipuri mai noi. În primul rând, există Xeon Phi, unde Intel a indicat că actuala versiune a Knights Landing va fi completată anul viitor cu o nouă versiune numită Knights Mill, care vizează piața „deep learning”. Anunțată la IDF, aceasta este o altă versiune de 14 nm, dar cu suport pentru calcule de jumătate de precizie, care sunt frecvent utilizate în formarea rețelelor neuronale. Într-adevăr, unul dintre marile avantaje ale actualelor jetoane Nvidia în învățarea profundă este sprijinul lor pentru calcule de jumătate de precizie și operațiuni întregi pe 8 biți, pe care Nvidia le numește adesea drept „tera-ops”. Intel a spus că Knights Mill va oferi de patru ori performanța Knights Landing pentru învățare profundă. (Acest cip este încă arătat pentru a fi urmat ulterior de o versiune de 10 milimetri numită Knights Hill, orientată probabil mai mult către piața tradițională de înaltă performanță.)

Cel mai interesant pentru anul viitor este un design de la Nervana, pe care Intel l-a achiziționat recent, care folosește o serie de clustere de procesare concepute pentru a efectua operații simple de matematică conectate la memoria de mare lățime de bandă (HBM). Pe primul loc în această familie va fi Lake Crest, care a fost proiectat înainte ca Intel să cumpere compania și să fie fabricat pe un proces TSMC de 28 nm. Începând cu versiunile de test din prima jumătate a anului viitor, Intel spune că va oferi mai multe performanțe de calcul brute decât un GPU. Aceasta va fi în cele din urmă urmată de Knights Crest, care implementează cumva tehnologia Nervana alături de Xeon, cu detalii încă neanunțate.

"Ne așteptăm ca tehnologiile Nervana să producă o evoluție avansată de 100 de ori a performanței în următorii trei ani pentru a instrui rețele neuronale complexe, permițând oamenilor de știință de date să rezolve mai rapid cele mai mari provocări ale AI", a scris CEO-ul Intel, Brian Krzanich.

De asemenea, Intel a anunțat recent că intenționează să achiziționeze Movidius, ceea ce face ca cipurile bazate pe DSP să fie deosebit de potrivite pentru viziunea computerizată - din nou, luând decizii bazate pe modele instruite anterior.

Este o poveste complicată și în evoluție - cu siguranță nu la fel de simplă ca presiunea lui Nvidia pentru GPU-urile sale de pretutindeni. Dar ceea ce clarifică este doar cât de rapid decolează învățarea automată și multele modalități diferite prin care companiile planifică să abordeze problema, de la GPU-uri precum cele de la Nvidia și AMD, la multe procesoare x86 de bază, cum ar fi Xeon Phi, la FPGAs, la produse specializate pentru instruire, cum ar fi Nervana și TrueNorth, la IBM, la motoare personalizate de tip DSP, precum unitățile de procesare a tensiunii Google. Va fi foarte interesant să vedem dacă piața are loc pentru toate aceste abordări.