Acasă Afaceri Lacuri de date, explicate

Lacuri de date, explicate

Video: 12. Document stores (2/2) - Big Data - ETH Zurich - Fall 2020 (Noiembrie 2024)

Video: 12. Document stores (2/2) - Big Data - ETH Zurich - Fall 2020 (Noiembrie 2024)
Anonim

Revoluția Big Data a redefinit modul de funcționare a întreprinderilor; datele stau la baza tuturor. Nu numai că instrumentele open-source precum Apache Hadoop și Spark au făcut ca cantitățile vaste de date să fie mai ușor de colectat, prelucrat și stocat în timp real, dar informațiile de business (BI) și instrumentele de vizualizare a datelor au început să ne ajute să zgâriem suprafața analizei. și transformarea acestor date pentru a informa deciziile de bază ale afacerii.

Deși, în ciuda cât de mult a evoluat tehnologia Big Data și BI, tot avem de-a face cu astfel de volume masive de date care compun constant, încât găsirea punctelor potrivite pentru a analiza se simte în continuare ca să te scufunzi pentru ace într-un hastack fără sfârșit. Soluția? Reproiectați fagurele.

Introduceți lacuri de date, un nou tip de arhitectură de întreprindere bazată pe cloud care structurează datele într-un mod mai scalabil, care facilitează experimentarea; o face mai deschisă la explorare și manipulare decât încuiată în scheme și silozuri rigide. Nasry Angel, cercetător în domeniul arhitecturii la Forrester Research, a explicat de ce întreprinderile împrumută arhitecturi de lacuri de date.

"Sună clișeu, dar atunci când te gândești la un mediu de date modern eficient, este mult mai experimental", a spus Angel. "Trebuie să poți învăța rapid și să eșuezi rapid. În trecut, gestionarea datelor, în special într-un depozit, era tot despre calitate, până la punctul zecimal; să te asiguri că totul era complet exact și adevărat. Se numește alungarea unei singure versiunea adevărului. Apoi, generați un raport perfect pentru pixeli și aruncați-l cu 5.000 de utilizatori.

"În zilele noastre, este un proces mai științific. Intrați cu o ipoteză despre datele pe care doriți să le testați și doriți să vă puteți juca cu datele, să amestecați și să potriviți, să încercați lucruri diferite înainte de a merge și a produce ceva."

Ce este într-un lac de date?

Un lac de date este un depozit de stocare. Deși, spre deosebire de un depozit de date sau „data mart”, Angel a explicat că lacurile de date sunt distribuite pe mai multe noduri, mai degrabă decât în ​​mediul fix și structurat al unui depozit de date bazându-se pe scheme (vezi infografic mai jos).

"Un lac de date vă permite să aplicați o schemă atunci când scrieți datele versus un depozit de date care vă solicită să faceți o schemă pe citire. Deci, în esență, un depozit de date vă solicită să modelați datele înainte de a înțelege contextul său, ceea ce nu nu are sens, a spus Angel.

Sursa: JustOne Database, Inc. (Faceți clic pe graficul de mai sus pentru a vedea vizualizarea completă.)

"În mod obișnuit, într-un depozit, aveți profesioniști IT care vin cu ceea ce consideră că sunt cele mai bune modele de date și nu sunt utilizatorii eventuali ai datelor. Puteți vedea rapid cum acest lucru împiedică productivitatea și valoarea afacerii", a adăugat el. „În cele din urmă, tu și utilizatorii de afaceri trebuie să fiți cei care iau decizii cu privire la structura datelor și, într-un lac de date, puteți explora și descoperi mai întâi ce este acolo și apoi să vă dați seama de o schemă pentru a o organiza cel mai bine”.

Lacurile de date sunt construite de obicei pe Hadoop, iar distribuțiile Hadoop ale întreprinderilor, cum ar fi Hortonworks și MapR oferă arhitecturi de lacuri de date. Întreprinderile pot construi, de asemenea, lacuri de date utilizând cloud Infrastructure-as-a-Service (IaaS), inclusiv Amazon Web Services (AWS) și Microsoft Azure. Cloud Elastic Compute Cloud (EC2) Amazon acceptă lacuri de date în timp ce Microsoft are o platformă dedicată Azure Data Lake pentru a stoca și analiza date în timp real. Angel a spus ca lacurile de date se maturizeaza pana in punctul din spatiul Big Data in care firmele pot incepe sa investeasca in ele cu incredere rezonabila.

"Câțiva ani în urmă, Hadoop a fost toată furia. Acum ajungem într-un punct în care Hadoop este comodizat", a spus Angel. "Întrebarea nu este dacă Hadoop, ci când, și ce ai de făcut cu ea. Ce tipuri de aplicații aveți de gând să construiți pe Hadoop odată ce ați obținut datele într-un loc comun, cum ar fi un lac de date? În acest moment, este vorba despre utilizarea datelor pentru a dezvolta aplicații pentru a răspunde nevoilor dvs. specifice de afaceri."

Construirea deasupra unui rezervor de date

Partea cea mai interesantă despre Big Data este toată posibilitatea pe care o deblochează. După ce ați configurat un lac de date în care să vă jucați și să experimentați cu diferite combinații de date și rezultate ale afacerilor, puteți începe stratificarea tehnici inovatoare de analiză.

Algoritmii de învățare automată (ML) devin deja parte a structurii infrastructurii cloud, iar cercetătorii îmbunătățesc continuu tehnicile de învățare profundă și rețelele neuronale pentru a antrena mașini și sisteme de date pentru a recunoaște tipare complexe. Analizele predictive sunt coapte în tot mai multe instrumente de date și platforme de întreprindere, folosite pentru orice, de la scoruri predictive și segmentarea automată pentru managementul relațiilor cu clienții (CRM), până la identificarea tendințelor pieței financiare și înlăturarea preventivă a defecțiunilor mecanice din utilaje.

Toate acestea se întâmplă în afara oricărui depozit de date pe care afacerea dvs. îl alimentează și îl scalează în funcție de nevoile sale. Angel a vorbit despre unele cazuri de utilizare din lumea reală în care a văzut ca lacurile de date schimbă modul în care funcționează organizațiile.

"Lucram cu o companie de publicare care are un portofoliu de reviste diferite - au o publicație pentru avocați, alta pentru contabili, alta pentru consultanți etc. - și fiecare publicație avea propriul său depozit de date. În mod efectiv, fiecare publicație avea propria pagină. silo ", a explicat Angel.

"Așadar, am extras toate datele dintr-un depozit și le-am introdus într-un lac de date, iar lacul de date le-a permis să vadă peste silozuri. Au fost capabili să exploreze datele și să descopere date și au realizat că în toate aceste publicații diferite, clienții de la fiecare revistă erau interesați de cibersecuritate. Cititorii pentru securitate cibernetică erau puternici în toate aceste roluri diferite. Deci, ce au făcut? Au făcut din cibersecuritate tema conferinței lor anuale."

Un alt exemplu despre care a vorbit despre Angel este comerțul electronic. Un alt client, un retailer online de artă, arunca o tonă de informații într-un lac de date și îl folosea nu numai ca depozit, ci ca o pânză de fel pentru a pune la cunoștință informații despre afaceri. Retailerul a adus date de tranzacție (comenzi, facturi, plăți etc.), date clickstream (succesiunea de clicuri și pagini a fiecărui site) și date din depozitul de date al retailerului toate în lac, și le-a folosit în concert pentru a combate coșul de cumpărături abandon și conversii.

"Vrei să construiești pe un lac de date și să-l folosești pentru a formula perspective complexe de afaceri", a spus Angel. "Retailerul de artă a putut să privească datele din fluxul de clic ale unui client și să potrivească clicurile cu profilurile clienților, apoi să utilizeze date tranzacționale pentru a vedea ce a cumpărat clientul în trecut și să utilizeze aceste informații pentru a rula campanii de e-mail foarte specifice. Deci, dacă un client este abandonat în coșul lor, retailerul ar putea urmări două ore mai târziu și să spună: „Am văzut că verifici acest Picasso; iată link-ul dacă vrei să-l analizezi din nou”.

Lacurile de date sunt universal aplicabile pentru tot felul de cazuri de utilizare a afacerilor. Însă, pentru un ofițer tehnic șef (CTO) sau un responsabil cu securitatea informațiilor (CISO), având în vedere migrarea către arhitectură, Angel a subliniat că depozitele de date nu sunt încă învechite, nici de vreo întindere. Pentru majoritatea organizațiilor de întreprindere, indiferent dacă utilizați un furnizor de cloud sau o distribuție personalizată Hadoop, întreprinderile au încă nevoie de ambele.

Lacurile de date vă oferă acces la informații inegalabile, eliminând limitele conformării datelor la o schemă particulară și vin cu un cost total de proprietate mult mai mic, având în vedere utilizarea unui stoc de cloud ieftin, flexibil, cum ar fi AWS, pentru a scala în sus și în jos - în timp ce numai plata pentru puterea de procesare pe care o utilizați efectiv. Rularea unui depozit de date este mai scumpă și, în consecință, face profesioniștii IT mai selectivi cu privire la ce date intră și ies. Dar pentru cele mai critice date ale unei întreprinderi, nu este un lucru rău.

"Depozitul de date are avantaje în ceea ce privește securitatea și este un instrument foarte ușor pentru controlul guvernării datelor", a spus Angel. "Așa că doriți să păstrați informațiile cele mai sensibile în depozit, lucrurile critice pentru misiune. Dar când vine vorba de noi oportunități de afaceri și de a descoperi perspective ascunse, doriți să folosiți un lac de date."

Lacuri de date, explicate