Acasă Gândire înainte Jetoane calde: învățarea automată are rolul central

Jetoane calde: învățarea automată are rolul central

2024

Video: One Chip Challenge 2020 (Noiembrie 2024)

Cel mai tare subiect în calculul de astăzi este învățarea automată și asta este cu siguranță vizibil pe partea hardware. În ultimele săptămâni, am auzit multe despre noile cipuri concepute pentru învățare profundă, de la Tesla P100 Nvidia și Drive PX 2 până la unitățile de procesare a tensiunii Google la Xeon Phi Intel. Deci, nu este surprinzător că la conferința Hot Chips săptămâna trecută am auzit de la o serie de companii diferite, cu unele abordări foarte diferite în ceea ce privește proiectarea adaptată pentru învățarea mașinilor și procesarea vederii.

Poate cea mai mare veste a fost divulgarea de către Nvidia a mai multor detalii cu privire la cipul său Parker, utilizat în modulul său Drive PX 2 pentru autovehicule auto și care vizează învățarea profundă pentru mașini autonome. Acest cip utilizează două nuclee de procesor Denver compatibile cu ARM, patru nuclee ARM Cortex-A57 și 256 din ceea ce Nvidia termeni nuclee Pascal CUDA (grafică).

Nvidia a declarat că acesta a fost primul său cip proiectat și evaluat pentru utilizare auto, cu caracteristici speciale de rezistență și și-a exprimat viteza și memoria mai rapid, menționând că nucleul Denver oferă o îmbunătățire semnificativă a performanței pe watt. Printre noile caracteristici se numără virtualizarea asistată de hardware, cu până la 8 VMS pentru a permite integrarea funcțiilor auto care se fac în mod tradițional pe computere separate. În general, compania a spus că modelul Drive PX 2 poate avea două dintre aceste cipuri Parker și două GPU-uri discrete, cu o performanță totală de 8 teraflops (dublă precizie) sau 24 de operații de învățare profundă (8 biți sau jumătate de precizie). compania a inclus valori de referință comparand-o favorabil cu procesarea mobilă actuală folosind SpecInt_2000, un reper relativ vechi. Dar performanța pare impresionantă, iar Volvo a spus recent că o va folosi pentru testarea vehiculelor autonome începând de anul viitor.

Desigur, există multe alte abordări.

Starter-ul chinez DeePhi a discutat despre o platformă bazată pe FPGA pentru rețele neuronale, cu două arhitecturi diferite, în funcție de tipul rețelei implicate. Aristotel este proiectat pentru rețele neuronale relativ mici relativ și bazat pe Xilinx Zynq 7000, în timp ce Descartes este proiectat pentru rețele neuronale recurente mai mari, folosind memorie de lungă durată pe termen scurt (RNN-LSTM), bazată pe Kintex Ultrascale FPGA. DeePhi susține că compilatorul și arhitectura sa reduc timpul de dezvoltare comparativ cu majoritatea utilizărilor FPGA și, de asemenea, că utilizarea unui FPGA poate oferi performanțe mai bune decât soluțiile Tvid K1 și K40 ale Nvidia.

O altă abordare este utilizarea unui procesor digital de semnal sau DSP, care îndeplinește de obicei o funcție specifică sau un set mic de funcții foarte repede, folosind foarte puțină energie. Adesea acestea sunt încorporate în alte cipuri mai complexe pentru a accelera anumite funcții, cum ar fi procesarea vederii. O serie de companii, inclusiv Movidius, CEVA și Cadence își împărtășeau soluțiile la Hot Chips.

Movidius își arăta soluția bazată pe DSP cunoscută sub numele de unitatea de procesare a viziunii Myriad 2 și o avea pe afișaj în drona DJI Phantom 4. De asemenea, a arătat modul în care Myriad 2 depășește GPU-urile și rețeaua neuronală profundă GoogLeNet utilizate în concursul ImageNet din 2014.

CEVA și-a promovat DSP-ul Vision CEVA-XM4, special reglat pentru procesarea vederii și orientat către piața auto, împreună cu platforma sa CEVA Deep Neural Network 2, despre care a spus că ar putea lua orice este scris pentru cadrele Caffe sau TensorFlow și să-l optimizeze pentru a putea funcționa. pe DSP-ul său. Noul procesor ar trebui să fie în SoCs anul viitor.

Între timp, Cadence, care face familia Tensilica a procesoarelor de viziune (care poate fi încorporată în alte produse), a discutat cea mai nouă versiune a sa, Vision P6, care a adăugat noi caracteristici, cum ar fi suportul cu punct flotant vectorial și alte caracteristici pentru rețelele neuronale convolutive.. Primele produse ar trebui să fie scoase în curând.

Microsoft a vorbit despre detaliile hardware-ului pentru căștile sale HoloLens, spunând că a folosit un procesor Intel Atom Cherry Trail de 14 nm care rulează Windows 10 și un hub senzor Holographic Processing Unit (HPU 1.0), produs de TSMC pe un proces de 28 nm. Aceasta include 24 de nuclee Tensilica DSP.

Am fost preluat în mod special de unul dintre diapozitivele Cadence care arătau diferențele de randament și eficiență a GPU-urilor, FPGA-urilor și diferitelor tipuri de DSP-uri în ceea ce privește operațiunile de adăugare multiplă, unul dintre blocurile cheie pentru rețelele neuronale. Deși, în mod evident, auto-servire (așa cum sunt toate prezentările furnizorilor), a subliniat modul în care diferitele tehnici variază în ceea ce privește viteza și eficiența (performanță pe watt), fără a mai menționa costul și ușurința programării. Există o mulțime de soluții pentru diferite abordări aici și va fi interesant să vedem cum se scutură acest lucru în următorii ani.