Posts Tagged: ‘hbase’

Artikelserie: Was Sie schon immer ueber BigData wissen wollten

4. Dezember 2012 Posted by Romeo Kienzler

 Hallo. 

Ich möchte hier eine kleine Serie über BigData schreiben. 

Sie wird ungefaehr die folgenden Topics beinhalten: 

  • Was ist BigData? 
  • Einige interessante BigData UseCases aus Sicht von IBM 
  • Einige interessante BigData UseCases aus globaler Sicht 
  • BigData Storage 
  • BigData Analytics 
    • Applied Statistics / Descriptive, Predictive, Prescriptive
    • Large Scale Mathematics
    • BigData Visualization 
  • Parallelization / Harddisk / Hauptspeicher / CPU Datendurchsatz
  • Fehler Toleranz / Commodity Hardware 
  • 360 Grad Ansicht: ETL (Extract Transform Load), Hadoop, Stream Computing, Massive Parallel DWH 
  • Ausblick, Self-Service BI 

Ich möchte nun mit der Definition von BigData beginnen. 

Wir sehen ein Datanprozessierungsproblem als BigData Problem wenn mindestens eines 
der folgenden V's zutrifft: 

Volume

Die groessten traditionellen DWH's die ich in meiner Laufbahn bisher kennen lernen durfte 
waren ca. 100 TB gross. Hier wurde jedoch sorgfältig ausgewählt welche Daten man im DWH 
speichert und welche nicht. Ziel von BigData ist es, den Zugriff von Unternehmen auf alle fuer Ihre Entscheidung relevanten Daten zu erweitern.
 
 
image
 
 
 
 
 
 
 
 
Abbildung 1: Seit Beginn der Menschheitsgeschichte bis 2003 wurden gleich viel Daten produziert
wie seit 2003 bis heute. 100 Millionen Tweets werden pro Tag verschickt, 35 Stunden Video in
 jeder Minute auf YouTube geladen, 6,1 Billionen Textnachrichten wurden
 2011 gesendet und 247 Millarden E-Mails gingen durch das Netz. 80 % davon sind Spam und Viren.
Die Informationsmenge nimmt schneller zu als die Moeglichkeiten wie Unternehmen diese 
Informationen prozessierenkoennen. Fuer den Teil zwischen den beiden Kurven befinden sich die
 Unternehmen im Blindflug.


Variaety

In traditionellen DWH's werden nur strukturierte Daten aufbereitet die ueber einen ETL Prozess 
vorher sorgfaeltig vom relationalen relationalen in DWH spezifische Strukturen ueberfuehrt 
wurden. Man sagt dass diese Prozess vom Aufwand her oft schon 70-80% des DHW Gesamtaufwandes 
darstellt. Der neue Ansatz lautet "Feature Extraction". Daten werden nicht mehr transformiert 
sondern so wie sie von der Quelle stammen importiert. Dies beinhaltet nicht nur strukturierte 
Daten, sondern auch "semi-structured data" wie z.B. News-Feeds oder "unstructured data" wie 
z.B. Freiform-Texte, Audio und Video. 

Velocity

Man unterscheidet zwischen "Data at Rest" und "Data in Motion". Beim Letzteren geht es um 
Echtzeit oder annähernde Echtzeitprozessierung (Near-RealTime). Zumeist setzt dies voraus 
dass Daten nicht oder nur sekundaer auf persistenten Speichermedien gehalten werden. 
Das Data-Processing findet auf dem Netzwerk, im Hauptspeicher und letztendlich in der CPU 
statt. Ein prominentes Beispiel hierfuer ist momentan "Click-Stream Analytics", bei dem 
der Pfad eines Webseitenbesuchers in Echtzeit verfolgt wird und dazu passende Inhalte 
geschaltet werden (vgl. "Recommender System"). 

Im naechsten Beitrag werde ich auf einige interessante IBM BigData UseCases eingehen wo
klar wird welche Rolle die 3 V's spielen.