Cuprins:
Video: Elementele esentiale pentru CRESTEREA UNEI AFACERI rapid si corect (Noiembrie 2024)
Informațiile și informațiile de afaceri (BI) sunt două părți ale aceleiași monede. Avansările în stocare, procesare și analiză au democratizat datele până la punctul în care nu trebuie să fiți un profesionist de bază de date sau un om de știință de date pentru a lucra cu seturi de date masive și pentru a obține informații. Există încă o curbă de învățare, dar instrumentele de autoservire BI și instrumente de vizualizare a datelor redefinesc modul în care întreprinderile valorifică toate datele pe care le colectează în analize acționabile. Cu toate acestea, există o diferență între o companie de baze de date BI sau o bază de date care are o analiză avansată și o bază de date de inteligență artificială (AI), creată special pentru modelele de instruire în învățarea mașinilor (ML) și modelele de învățare profundă.
Algoritmii ML sunt țesute în materialul de mare parte din software-ul de astăzi. Experiențele consumatorilor se contopesc cu AI prin asistenți virtuali și, în software-ul de afaceri, există exemple precum Salesforce Einstein care acționează ca un strat inteligent sub întregul portofoliu al companiei de management al relațiilor cu clienții (CRM). Giganții tehnologici, inclusiv Google și Microsoft, ne împing viitorul inteligent și mai departe, nu numai cu cercetarea, ci prin rescrierea modului în care funcționează tehnologia lor de la sol cu AI.
Una dintre provocările cu mașinile de instruire și modelele de învățare profundă este volumul și puterea de procesare a datelor de care aveți nevoie pentru a antrena o rețea neuronală, de exemplu, pe recunoașterea complexă a modelului în domenii precum clasificarea imaginilor sau procesarea limbajului natural (NLP). Prin urmare, bazele de date AI încep să apară pe piață ca o modalitate de a optimiza procesul de învățare și instruire AI pentru companii. Am discutat cu furnizorul de baze de date relaționale accelerat de GPU Kinetica, care și-a construit o bază de date AI proprie, și cu expertul rezident al BM și expertul bazei de date PCMag, Pam Baker, pentru a demitifica ce este o bază de date AI și cum funcționează în comparație cu bazele de date tradiționale. Mai important, am cerut ajutorul lor pentru a sorta modul de operare și vorbirea de marketing pentru a determina dacă această tehnologie emergentă are sau nu o valoare reală pentru afaceri.
Ce sunt bazele de date AI?
Natura în schimbare rapidă a spațiului AI poate îngreuna stabilirea terminologiei. Adesea auzi termeni precum ML, învățare profundă și AI utilizate în mod interschimbabil atunci când, de fapt, sunt încă tehnici în curs de dezvoltare sub umbrela mai mare a AI. Ca atare, Baker a spus că există două definiții extrem de diferite a ceea ce depinde de o bază de date AI, cu cea cu care vorbești: una practică și cealaltă, mai plăcintă în cer.
"Există un fel de consens liber în industrie că o bază de date AI ar fi una care ar funcționa complet în afara interogărilor de limbaj natural. Interfața de utilizator ar fi astfel încât nu ar trebui să vă bazați pe termenii de căutare și frazele cheie pentru a găsi informațiile de care aveți nevoie, permițând utilizatorului să convoace seturi de date cu NLP ", a declarat Baker. "S-ar putea să faceți un argument foarte limitat potrivit căruia IBM Watson poate prezenta întrebări de limbaj natural la sistem, dar trebuie să fiți deja conectat la date și să alegeți singuri datele. Deci, chiar acum, această definiție este o întindere."
Definiția mai practică, și subiectul acestui explicator, este, în esență, utilizarea unei baze de date create special pentru a accelera pregătirea modelului ML. O serie de companii tehnologice dezvoltă deja cipuri AI dedicate pentru a atenua încărcarea grea de procesare a noilor produse hardware, în timp ce furnizorii dezvoltă mai multe funcții bazate pe AI care necesită o putere semnificativă de calcul. Pe partea de date, utilizarea unei baze de date AI vă poate ajuta să reglați mai bine volumul, viteza și provocările complexe de guvernare și gestionare a datelor asociate cu formarea ML și modelele de învățare profundă pentru a economisi timp și optimiza resurse.
Credit imagine: Todd Jaquith la Futurism.com. Faceți clic pentru a extinde infografia completă
„În acest moment sunt multe eforturi pentru a accelera antrenamentul ML prin mai multe tactici diferite”, a explicat Baker. "Unul este să separi infrastructura de cercetătorii AI efectuând codarea, astfel încât funcțiile automate să gestioneze infrastructura și să antreneze modelul ML. Deci, în loc să petreci ceva de trei luni, s-ar putea să te uiți la 30 de zile sau 30 de minute."
Kinetica descompune această idee într-o platformă de baze de date integrată optimizată pentru modelarea ML și învățarea profundă. Baza de date AI combină stocarea datelor, analiza avansată și vizualizările într-o bază de date în memorie. Mate Radalj, vicepreședinte și principalul inginer software al grupului avansat de tehnologie Kinetica, a explicat că o bază de date AI ar trebui să poată să ingereze, să exploreze, să analizeze și să vizualizeze date complexe cu mișcare rapidă în milisecunde. Scopul este reducerea costurilor, generarea de noi venituri și integrarea modelelor ML, astfel încât întreprinderile să poată lua decizii mai eficiente, bazate pe date.
"O bază de date AI este un subset al unei baze de date generale", a spus Radalj. "Momentan, bazele de date AI sunt foarte populare. Dar o mulțime de soluții folosesc componente distribuite. Spark, MapReduce și HDFS se întorc întotdeauna înainte și înapoi decât în memorie. Nu au confluența unor factori precum baza noastră de date, care a fost construit de la sol cu procesoare strâns integrate și GPU-uri pe o singură platformă. Avantajul la nivel înalt pentru noi este furnizarea mai rapidă și o amprentă hardware mai scăzută a formării bazate pe model, cu o transformare rapidă și analitice integrate în aceeași platformă."
Cum funcționează o bază de date AI
Există o serie de exemple de baze de date AI în practică. Microsoft Batch AI oferă infrastructură bazată pe cloud pentru instruirea modelelor de învățare profundă și ML care rulează pe GPU-urile Microsoft Azure. De asemenea, compania are produsul său Azure Data Lake pentru a facilita procesarea și analizarea datelor într-o arhitectură distribuită pentru companii și oamenii de știință de date.
Un alt exemplu este abordarea AutoML a Google, care este în mod fundamental o reinginerie a modului de instruire a modelelor ML. Google AutoML automatizează designul modelului ML pentru a genera noi arhitecturi de rețele neuronale bazate pe seturi de date particulare, apoi testează și repetă aceste mii de ori pentru a codifica sisteme mai bune. De fapt, AI-ul Google poate crea acum modele mai bune decât cercetătorii umani.
„Uitați-vă la Google AutoML: ML care scrie codul ML, astfel încât să nu aveți nevoie de oameni”, a spus Baker. "Acest lucru vă oferă o idee despre ce diferență extremă există în ceea ce fac vânzătorii. Unii încearcă să transmită analitice avansate ca ML - și nu este. Și alții fac ML la un nivel atât de avansat, dincolo de ceea ce majoritatea întreprinderile pot înțelege în acest moment ".
Apoi există Kinetica. Startup-ul bazat pe San Francisco, care a strâns 63 de milioane de dolari în finanțare de capital de risc (VC), oferă o bază de date SQL de înaltă performanță optimizată pentru ingestia rapidă de date și analitice. Kinetica este ceea ce Radalj a descris ca o bază de date distribuită în mod masiv de procesare paralelă (MPP) și platforma de calcul în care fiecare nod prezintă co-localizate date în memorie, CPU și GPU.
Ceea ce face ca o bază de date AI diferită de o bază de date tradițională, a explicat Radalj, se rezumă la trei elemente de bază:
- Ingestie accelerată de date,
- Co-localitatea datelor din memorie (procesare paralelă pe nodurile bazei de date) și
- O platformă comună pentru oamenii de știință de date, ingineri software și administratorii bazelor de date pentru a repeta și testa modele mai repede și pentru a aplica rezultatele direct la analitice.
Pentru toți experții care nu au baza de date și formarea modelelor AI citind acest lucru, Radalj a descompus fiecare dintre aceste trei elemente de bază și a explicat modul în care baza de date AI se leagă de valoarea comercială tangibilă. Disponibilitatea datelor și ingestia de date sunt esențiale, a spus el, deoarece capacitatea de a prelucra date în streaming în timp real permite întreprinderilor să acționeze rapid asupra informațiilor bazate pe AI.
"Avem un client cu amănuntul dorit să urmărească ratele de vânzare după magazin, la fiecare cinci minute", a spus Radalj. "Am vrut să folosim AI pentru a prognoza, pe baza ultimelor ore de date istorice, dacă ar trebui să reînnoiască inventarul și să optimizeze acest proces. Dar pentru a face această reînnoire a stocurilor bazate pe mașini necesită să suportăm 600-1200 de interogări pe secundă. Noi suntem o bază de date SQL și o bază de date AI, astfel încât să putem ingera date în același ritm. Întâlnim acea misiune de afaceri a rezultat într-o aplicație care conduce mai mult ROI."
Baker a fost de acord că ML necesită o cantitate mare de date, astfel încât ingerarea rapidă ar fi foarte importantă pentru o bază de date AI. Al doilea factor, conceptul de „co-localitate a datelor din memorie”, are o explicație puțin mai mare. O bază de date în memorie stochează date în memoria principală, mai degrabă decât în stocarea separată a discului. Face acest lucru pentru a procesa interogările mai rapid, în special în bazele de date de analiză și BI. Prin localitate, Radalj a explicat că Kinetica nu separă procesorul și GPU-ul calculează nodurile față de nodurile de stocare.
Drept urmare, baza de date AI susține procesarea paralelă - care imită capacitatea creierului uman de a procesa mai mulți stimuli - rămânând, de asemenea, distribuită într-o infrastructură de baze de date scalabilă. Acest lucru împiedică amprenta hardware mai mare, care rezultă din ceea ce Radalj a numit „transport de date” sau din necesitatea de a trimite date înainte și înapoi între diferite componente ale bazei de date.
"Unele soluții folosesc un orchestrator precum IBM Symphony pentru a programa lucrările pe diverse componente, în timp ce Kinetica subliniază transportul funcțional împotriva resurselor co-localizate, cu o optimizare avansată pentru a minimiza transportul de date", a spus Radalj. „Acea localitate se pretează la o performanță și un randament superior, în special pentru interogarea grea extrem de concurentă pe seturi de date mari.”
În ceea ce privește hardware-ul de bază al bazei de date, Kinetica este asociată cu Nvidia, care are o gamă în expansiune de GPU-uri AI și explorează oportunități cu Intel. Radalj a mai spus că compania urmărește cu atenție hardware-ul AI și infrastructura bazată pe cloud, cum ar fi unitățile de procesare a tensiunii (TPU) Google.
În cele din urmă, există ideea unui proces de formare model unificat. O bază de date AI este eficientă numai dacă aceste beneficii ale unei ingestii și prelucrări mai rapide servesc obiective mai mari, orientate către afaceri, pentru ML și pentru eforturile de învățare profundă. Radalj se referă la baza de date AI a Kinetica ca „platformă de conducte model”, care realizează găzduire de model bazată pe știința datelor.
Toate acestea se pretează la testări și iterații mai rapide pentru a dezvolta modele ML mai precise. În acest sens, Baker a spus că colaborarea într-un mod unificat poate ajuta toți inginerii și cercetătorii care lucrează pentru a instrui un model de ML sau de învățare profundă, itera mai repede prin combinarea a ceea ce funcționează, spre deosebire de reinventarea continuă a tuturor etapelor în procesul de instruire. Radalj a spus că obiectivul este crearea unui flux de lucru în care ingestia, streamingul și interogarea mai rapidă a lotului generează rezultate ale modelelor care pot fi aplicate imediat la BI.
"Oamenii de știință de date, inginerii de software și administratorii bazelor de date au o singură platformă în care se pot delimita cu ușurință lucrările pe știința datelor, scrierea programelor software și modelele și interogările de date SQL", a spus Radalj. "Oamenii lucrează mai curat împreună în aceste domenii diferite atunci când este o platformă comună. Obiectivul mai des decât nu cu rularea ML și învățarea profundă este, doriți să folosiți rezultatele - coeficientele și variabilele - în combinație cu analizele și folosiți ieșirea pentru lucruri precum punctarea sau pentru a prezice ceva util."
Hype sau realitate?
Valoarea de bază a unei baze de date AI, cel puțin în modul în care Kinetica o definește, este în optimizarea resurselor de calcul și de bază de date. La rândul său, acest lucru vă permite să creați modele mai bune de ML și de învățare profundă, să le antrenați mai rapid și mai eficient și să mențineți o linie directă pentru modul în care acea AI va fi aplicată afacerii dvs.
Radalj a dat exemplul unei companii de gestionare a flotei sau de camioane. În acest caz, o bază de date AI ar putea prelucra fluxuri masive de informații în timp real dintr-o flotă de vehicule. Apoi, prin modelarea datelor geospatiale și combinarea acestora cu analitice, baza de date ar putea reorienta în mod dinamic camioanele și optimiza rutele.
"Este mai ușor să furnizați rapid, prototip și să testați. Cuvântul„ modelare "este aruncat în AI, dar este vorba despre ciclism prin diferite abordări - cu cât mai multe date, cu atât mai bine - rularea acestora din nou, testarea, compararea și venind cu cele mai bune modele ”, a spus Radalj. "Rețelele neuronale au primit viață pentru că există mai multe date ca niciodată. Și învățăm să putem calcula prin aceasta."
În cele din urmă, baza de date co-localizată a Kinetica și platforma modelului de conducte nu sunt decât o abordare într-un spațiu care poate însemna o mulțime de lucruri diferite în funcție de cine întrebi. Baker a spus că provocarea pentru cumpărător pe o piață care este în continuă evoluție și experimentală este să descoperi cu exactitate ceea ce un vânzător de baze de date AI pune la punct.
"Ca un concept de afaceri, învățare profundă, ML, și toate acestea sunt un concept solid. Ceea ce rezolvăm sunt probleme tehnice care pot fi rezolvate, chiar dacă nu le-am rezolvat încă", a spus Baker. "Asta nu înseamnă că acesta este un spațiu matur, pentru că nu este cu siguranță. Aș spune că„ cumpărătorul trebuie să fie atent pentru că ceva ar putea fi sau nu ML. S-ar putea să fie doar o analiză avansată pentru grădină."
În ceea ce privește dacă bazele de date AI sunt toate hype chiar acum sau dacă reprezintă o tendință importantă în cazul în care se desfășoară activitatea, Baker a spus că este o parte din ambele. Ea a spus că Big Data, ca termen de marketing, este acum în favoarea. Baker a spus că acum există o anumită conflicte de piață între analitice avansate, bazate pe date și algoritmi adevărați de ML și de învățare profundă. Indiferent, fie că vorbești despre o bază de date pentru modelarea ML sau despre AIs-urile conștientizate de sine, concepute de cultura pop, totul începe și se termină cu date.
"Datele vor fi utilizate în afaceri până când se va termina timpul, este atât de important pentru a face afaceri", a spus Baker. "Când vorbești în termeni de ficțiune științifică, AI este o inteligență auto-realizată. Atunci când începi să vorbești despre singularități și roboți care preiau lumea. Fie că se întâmplă sau nu, nu știu. Voi pleca. asta lui Stephen Hawking ".