Acasă opinii Modul în care întreprinderile pot înțelege piața de date mari

Modul în care întreprinderile pot înțelege piața de date mari

Video: C.R.I.E.S. Intreprinderi Sociale de Insertie (Octombrie 2024)

Video: C.R.I.E.S. Intreprinderi Sociale de Insertie (Octombrie 2024)
Anonim

Întreprinderile nu obțin puncte pentru cât de eficient se execută infrastructura lor sau pentru cât de mare pot stiva toate Big Data pe care le colectează. Ceea ce contează este calitatea analizelor și a informațiilor pe care le produc datele.

În ultimii câțiva ani, Hadoop este cuvântul care a devenit cel mai sinonim cu ingerarea, procesarea și transformarea datelor. Acest cadru open-source pentru stocarea și procesarea distribuită a datelor a generat propriul spațiu al întreprinderii și și-a integrat calea în toate platformele cloud majore. Hadoop este departe de singura tehnologie Big Data despre care merită să vorbim, dar a devenit cea pe care se bazează multe altele.

Problema pentru afaceri este spațiul Hadoop este plin de distribuții și opțiuni de instrumentare, iar după cum a explicat directorul cercetării Gartner, Nick Heudecker, multe dintre ele arată la fel. Heudecker, a cărui cercetare acoperă gestionarea informațiilor, inclusiv spațiile Big Data și NoSQL, a spus că dacă te uiți la opțiunile generale de prelucrare a datelor, o mulțime de furnizori oferă funcții foarte similare.

Dărâmarea pieței

Există trei principii start-up-uri Hadoop pure - Cloudera, Hortonworks și MapR - și toate au crescut constant în 2015. Potrivit Gartner, fiecare are aproximativ 700 de clienți, dă sau ia 10%, punând piața globală între 2.100-2.400 de clienți Hadoop din întreaga lume. Toți trei oferă atât un nivel gratuit, cât și un nivel de întreprindere din distribuția lor Hadoop și fiecare aduce contribuții semnificative open-source la proiecte sub banner-ul Apache Software Foundation (ASF).

"Datele noastre indică faptul că 44% din utilizarea Hadoop este în prezent neplătită", a spus Heudecker. "Există un lider clar? Nu cred asta. Toate au cota de piață pentru că este un spațiu foarte nou."

În ultimele luni, o mare parte a concurenței dintre cele trei s-a redus la competiție în ceea ce privește capacitățile de analiză a datelor și modalitățile creative de integrare a lui Apache Spark, un motor de procesare a datelor Big Big cu sursă deschisă, cu cazuri de utilizare de la fluxuri de date în timp real la învățarea mașinii. MapR a anunțat recent MapR Streams ca parte a unei „platforme de date convergente” care integrează Hadoop, procesarea fluxurilor bazate pe Spark și analitice. Hortonworks a lansat o actualizare la Platforma de date Hortonworks (HDP) cu analiză Spark în memorie, iar Cloudera oferă o varietate de integrări open-source Spark prin inițiativa sa One Platform, împreună cu oferirea de clase de instruire Spark.

"Se întâmplă multe în spațiile de gestionare a informațiilor și a infrastructurii informaționale și nu este totul Hadoop", a explicat Heudecker. "Există un impuls extraordinar în spatele vitezei și modelului de prelucrare a datelor centrat pe memorie a lui Spark, deși dezvoltarea lui Spark este încă în primele etape. Spark va fi o altă limbă franca în prelucrarea datelor, la fel ca SQL în ziua de azi, și prezintă cu siguranță semne că are niște picioare. pe măsură ce tot mai multe companii investesc în el ".

Heudecker a subliniat, de asemenea, importanța jucătorilor din cloud în Big Data; gigantii tehnologici care au integrat Hadoop și alte tehnologii Big Data în ofertele existente de infrastructură ca serviciu (IaaS).

Amazon Web Services (AWS) utilizează serviciul său Amazon Elastic MapReduce (EMR) pentru orchestrarea Hadoop bazată pe cloud. Microsoft oferă o serie întreagă de servicii Big Data în platforma sa de cloud Azure, în parteneriat cu Hortonworks pe serviciul său HDInsight pentru gestionarea Apache Hadoop, Spark, HBase și Storm, împreună cu Azure Data Lake și Azure Data Analytics bazate pe SQL. IBM are atât platforma locală IBM Open care oferă Hadoop cât și IBM BigInsights, un pachet de analiză care să funcționeze deasupra acestuia, împreună cu Hadoop și Apache Spark-as-a-service gestionate în cloud-ul Bluemix. Lista continuă, iar companiile găsesc cazurile de utilizare mai aplicabile în cloud.

"Estimăm că AWS are doar 5.000 de clienți, deci este peste două ori mai mult decât baza de clienți a combinației pure-play", a spus Heudecker. "Unul dintre avantajele mișcării în cloud este că obțineți un ecosistem. Puteți obține distribuțiile Hadoop pur-play pe oricare dintre ofertele IaaS. MapR este disponibil în toți norii la care vă puteți gândi, în afară de IBM; același pentru Cloudera și Hortonworks. Nu am văzut că disponibilitatea cloud devine un factor prea mare atunci când alegem între un furnizor și altul."

Alegerea unei strategii de date pentru întreprinderi

Atât pentru întreprinderile mici și mijlocii (IMM), cât și pentru întreprinderile în creștere, atunci când investesc în soluții de prelucrare a datelor și analitice, Heudecker a spus că factorul decisiv este care platformă poate oferi cel mai înalt nivel de servicii. Cea mai mare provocare a întreprinderilor, potrivit Gartner, este decalajul de competențe - înțelegând cine va gestiona platforma odată ce este instalată și implementată.

"Dacă companiile caută un partener al platformei de date, cine îi va ajuta cu ingerarea datelor? Cine îi va ajuta să construiască aplicația analitică? În ceea ce privește cele trei Hadoop-ers pur-joc, criteriile de evaluare tind să fie în jurul valorii de maturitatea instrumentelor și consolelor de management, a instrumentelor de guvernare a datelor și a performanței."

Celălalt aspect interesant al alegerii unei platforme Hadoop este lipsa de loialitate. Companiile reevaluează platforma Hadoop de fiecare dată la fiecare 6-12 luni pentru a vedea dacă componentele procesării datelor sunt încă potrivite, din cauza cât de rapid se schimbă spațiul și cât de puțin s-au diferențiat jucătorii mari. Heudecker a declarat că 20 la sută dintre companiile despre care a vorbit au mai multe distribuții Hadoop care rulează în centrele lor de date sau în cloud, fie permițând diferitelor echipe să își aleagă platforma la alegere, fie diversificându-se intenționat pentru a evita să se blocheze cu o singură distribuție Hadoop.

Acest tip de portofoliu diversificat de platforme se bazează pe ceea ce Frank Buytendijk, un vicepreședinte de cercetare Gartner și analist distins concentrat pe strategia digitală, numește „informația ca un atu”. Cum nu poți conduce o afacere fără capital, forță de muncă, materiale și facilități fizice sau virtuale, Buytendijk a spus că nu poți conduce o afacere fără informații.

"Ne-am uitat la afaceri în termeni de cele trei fluxuri: fluxul primar era mărfurile, fluxul secundar fiind banii, iar fluxul terțiar era informație pentru a ne asigura că mărfurile și banii sunt aliniați. Acum, în majoritatea afacerilor este invers. Fluxul principal este informația, de la identificare și configurare la marketingul de conținut, etc. Indiferent dacă numiți Big Data sau nu contează cu adevărat."

„Big Data” este învechit

Buytendjik a spus că nu vede Big Data ca o tehnologie separată pentru companii, ci ca o temă sau o gândire în strategia digitală generală.

„Nu cred să am o strategie Big Data”, a spus Buytendjik. "Nu mai există o strategie de afaceri fără componente digitale, așa că cred că am o strategie digitală în care toate tipurile de tehnologii oferă capacități critice. Aceasta include dispozitivele mobile, sociale, cloud, IoT, mașini inteligente și Big Data."

Heudecker crede că vom începe să vorbim despre „Big Data” din ce în ce mai puțin, pentru că acum sunt doar date. Este modul în care se desfășoară afacerile. Volumele masive și viteza mare a datelor nu mai sunt la fel de descurajante.

„Datele mari devin subsumate încă o dată de informații și analitice”, a spus Heudecker. "Categoria Big Data nu este sincer să se diferențieze. Întotdeauna suntem întrebați dimensiunea pieței Big Data, dar ce înseamnă asta? Big Data nu este chiar o piață, este un concept. Pentru o companie, gândește-te la Big Data ca ceva unic și special, care este radical diferit de ceea ce ai făcut înainte este o greșeală. În acest moment, datele sunt doar normale."

Modul în care întreprinderile pot înțelege piața de date mari