PlanetNTF

Posts Tagged: ‘hbase’

Artikelserie: Was Sie schon immer ueber BigData wissen wollten

4. Dezember 2012 Posted by Romeo Kienzler

Hallo.

Ich möchte hier eine kleine Serie über BigData schreiben.

Sie wird ungefaehr die folgenden Topics beinhalten:

Was ist BigData?
Einige interessante BigData UseCases aus Sicht von IBM
Einige interessante BigData UseCases aus globaler Sicht
BigData Storage
BigData Analytics

Applied Statistics / Descriptive, Predictive, Prescriptive
Large Scale Mathematics
BigData Visualization

Parallelization / Harddisk / Hauptspeicher / CPU Datendurchsatz
Fehler Toleranz / Commodity Hardware
360 Grad Ansicht: ETL (Extract Transform Load), Hadoop, Stream Computing, Massive Parallel DWH
Ausblick, Self-Service BI

Ich möchte nun mit der Definition von BigData beginnen.

Wir sehen ein Datanprozessierungsproblem als BigData Problem wenn mindestens eines

der folgenden V's zutrifft:

Volume:

Die groessten traditionellen DWH's die ich in meiner Laufbahn bisher kennen lernen durfte

waren ca. 100 TB gross. Hier wurde jedoch sorgfältig ausgewählt welche Daten man im DWH

speichert und welche nicht. Ziel von BigData ist es, den Zugriff von Unternehmen auf alle fuer Ihre Entscheidung relevanten Daten zu erweitern.

Abbildung 1: Seit Beginn der Menschheitsgeschichte bis 2003 wurden gleich viel Daten produziert

wie seit 2003 bis heute. 100 Millionen Tweets werden pro Tag verschickt, 35 Stunden Video in

jeder Minute auf YouTube geladen, 6,1 Billionen Textnachrichten wurden

2011 gesendet und 247 Millarden E-Mails gingen durch das Netz. 80 % davon sind Spam und Viren.

Die Informationsmenge nimmt schneller zu als die Moeglichkeiten wie Unternehmen diese

Informationen prozessierenkoennen. Fuer den Teil zwischen den beiden Kurven befinden sich die

Unternehmen im Blindflug.

Variaety:

In traditionellen DWH's werden nur strukturierte Daten aufbereitet die ueber einen ETL Prozess

vorher sorgfaeltig vom relationalen relationalen in DWH spezifische Strukturen ueberfuehrt

wurden. Man sagt dass diese Prozess vom Aufwand her oft schon 70-80% des DHW Gesamtaufwandes

darstellt. Der neue Ansatz lautet "Feature Extraction". Daten werden nicht mehr transformiert

sondern so wie sie von der Quelle stammen importiert. Dies beinhaltet nicht nur strukturierte

Daten, sondern auch "semi-structured data" wie z.B. News-Feeds oder "unstructured data" wie

z.B. Freiform-Texte, Audio und Video.

Velocity:

Man unterscheidet zwischen "Data at Rest" und "Data in Motion". Beim Letzteren geht es um

Echtzeit oder annähernde Echtzeitprozessierung (Near-RealTime). Zumeist setzt dies voraus

dass Daten nicht oder nur sekundaer auf persistenten Speichermedien gehalten werden.

Das Data-Processing findet auf dem Netzwerk, im Hauptspeicher und letztendlich in der CPU

statt. Ein prominentes Beispiel hierfuer ist momentan "Click-Stream Analytics", bei dem

der Pfad eines Webseitenbesuchers in Echtzeit verfolgt wird und dazu passende Inhalte

geschaltet werden (vgl. "Recommender System").

Im naechsten Beitrag werde ich auf einige interessante IBM BigData UseCases eingehen wo

klar wird welche Rolle die 3 V's spielen.

Read full article |Kommentare deaktiviert
Tags: analytics, big, big_data, cognos, cplex, data, hadoop, hbase, hdfs, hive, ilog, r-project, spss
Categories: Allgemein

Aggregator für deutschsprachige Blogs zum Thema HCL Collaboration Solutions

Powered by hedersoft

Posts Tagged: ‘hbase’

Artikelserie: Was Sie schon immer ueber BigData wissen wollten

Archives

Meta

PlanetNTF