Acasă Gândire înainte Google cloud tpus face parte dintr-o tendință către procesoarele specifice pentru ai

Google cloud tpus face parte dintr-o tendință către procesoarele specifice pentru ai

2024

Video: Document AI (Octombrie 2024)

În ultimele săptămâni, au existat o serie de introduceri importante ale noilor platforme de calcul concepute special pentru a lucra pe rețele neuronale profunde pentru învățarea mașinilor, inclusiv noile „TPU-uri cloud” ale Google și noul design Volta al Nvidia.

Pentru mine, aceasta este cea mai interesantă tendință în arhitectura computerelor - chiar mai mult decât AMD și Intel care introduce acum procesoare cu 16 nuclee și 18 nuclee. Desigur, există și alte abordări alternative, dar Nvidia și Google primesc în mod meritat multă atenție pentru abordările lor unice.

La Google I / O, l-am văzut prezentând un „cloud TPU” (pentru unitatea de procesare a tensiunii, care indică faptul că este optimizat pentru cadrul de învățare automată TensorFlow de la Google). TPU de generație anterioară, introdus la emisiunea de anul trecut, este un ASIC conceput în principal pentru inferencing - rularea operațiunilor de învățare a mașinilor -, dar noua versiune este concepută pentru invocarea și formarea acestor algoritmi.

Într-o lucrare recentă, Google a oferit mai multe detalii despre TPU original, pe care a descris-o ca conținând o matrice de 256-cu-256 unități cu acumulări multiple (MAC) în total (65.536 în total), cu o performanță maximă de 92 teraopuri (miliarde de operații pe al doilea). Acesta primește instrucțiunile sale de la un procesor gazdă prin magistrala PCIe Gen 3. Google a spus că aceasta este o matriță de 28 nm, care avea mai puțin de jumătate din dimensiunea unui procesor Intel Haswell Xeon 22 nm și că a depășit acel procesor și procesorul K80 de 28 nm Nvidia.

Noua versiune, denumită TPU 2.0 sau cloud TPU, (văzută mai sus), conține de fapt patru procesoare pe placă, iar Google a spus că fiecare placă este capabilă să atingă 180 de teraflop (180 de trilioane de operații în virgulă flotantă pe secundă). La fel de important, plăcile sunt concepute pentru a lucra împreună, folosind o rețea personalizată de mare viteză, astfel încât acționează ca o singură supercomputare de învățare a mașinii pe care Google o numește „pod TPU”.

Acest pod TPU conține 64 de TPU din a doua generație și oferă până la 11, 5 petaflops pentru a accelera formarea unui singur model de învățare mașină mare. În cadrul conferinței, Fei Fei Li, care conduce cercetarea AI a Google, a declarat că, în timp ce unul dintre modelele de învățare pe scară largă ale companiei pentru traducere necesită o zi întreagă pentru a se pregăti pe 32 dintre cele mai bune GPU-uri disponibile în comerț, acum poate fi pregătit pentru aceeași precizie într-o după-amiază folosind o optime dintr-un pod TPU. Este un salt mare.

Înțelegeți că acestea nu sunt sisteme mici - un Pod pare să fie de dimensiunea a patru rafturi normale de calcul.

Și fiecare dintre procesoarele individuale par să aibă chiuvete de căldură foarte mari, ceea ce înseamnă că plăcile nu pot fi stivuite prea bine. Google nu a oferit încă multe detalii cu privire la ce s-a schimbat în această versiune a procesoarelor sau a interconectării, dar este probabil că și aceasta se bazează în jurul MAC-urilor pe 8 biți.

Cu o săptămână înainte, Nvidia a introdus ultima sa intrare în această categorie, un cip masiv cunoscut sub numele de Telsa V100 Volta, pe care l-a descris drept primul procesor cu această nouă arhitectură Volta, conceput pentru GPU-uri de înaltă calitate.

Nvidia a spus că noul cip este capabil de 120 de teraflops TensorFlow (sau 15 TFLOPS de 32 de biți sau 7, 5 64 de biți.) Aceasta folosește o nouă arhitectură care include 80 Streaming Multiprocessors (SMS), fiecare dintre acestea cuprinzând opt noi "Tensor Cores". și este un tablou 4x4x4 capabil să efectueze 64 de operații FMA (Fused Multiply-Add) pe ceas. Nvidia a declarat că va oferi cipul în stațiile sale de lucru DGX-1V cu 8 placi V100 în trimestrul al treilea, în urma DGX-1 anterioară a firmei care a folosit arhitectura P100 anterioară.

Compania a declarat că această cutie de 149.000 de dolari ar trebui să furnizeze 960 de teraflopuri de performanță de antrenament, folosind 3200 de wați. Mai târziu, primul a spus, va livra o stație personală DGX cu patru V100, iar în al patrulea trimestru, acesta a spus că furnizorii de servere mari vor livra servere V100.

Acest cip este primul anunțat care va folosi procesorul TSMC de 12 nm și va fi un cip imens cu 21, 1 miliarde tranzistoare pe 815 milimetri pătrați. Nvidia a citat atât Microsoft cât și Amazon ca clienți timpurii pentru cip.

Rețineți că există diferențe mari între aceste abordări. TPU-urile Google sunt cipuri cu adevărat personalizate, concepute pentru aplicațiile TensorFlow, în timp ce Nvidia V100 este un cip ceva mai general, capabil de diferite tipuri de matematică pentru alte aplicații.

Între timp, ceilalți mari furnizori de cloud privesc alternative, Microsoft folosind atât GPU-uri pentru instruire, cât și matricile gate-programmable de câmp (FPGA) pentru inferencing și oferind atât clienților. Amazon Web Services pune acum la dispoziția dezvoltatorilor atât instanțe GPU cât și FPGA. Și Intel a împins FPGA și o serie de alte tehnici. Între timp, o serie de noi start-up-uri lucrează la abordări alternative.

În unele moduri, aceasta este cea mai drastică schimbare pe care am observat-o în anii de procesare a posturilor de lucru și a serverului, cel puțin de când dezvoltatorii au început să folosească „computer GPU” în urmă cu câțiva ani. Va fi fascinant să vezi cum se dezvoltă acest lucru.