Posts Tagged: ‘hadoop’

Twitter Analyse mit Node.js, Node-RED, CouchDB/Cloudant und R

4. August 2015 Posted by Romeo Kienzler

Hallo,

ich habe leider noch keinen deutschen Audio-Track im Video, aber ich wollte es trotzdem mal teilen. Hier sieht man wie man mit IBM Bluemix (IBM PaaS Cloud) in weniger als 10 Minuten eine Twitteranalyse durchführt. Die blauen Vögel die um meinen Kopf fliegen kommen übrigens daher dass ich seit über 1,5 Jahren fast ausschliesslich mit IBM Bluemix arbeite und es mir immernoch extrem Freude bereitet da ich mich wirklich darauf verlassen kann dass die komplette Software-Infrastruktur von IBM gewartet wird und ich mich nur noch auf meinen eigenen Code fixieren muss, viel Spass:

 

Anbei noch der Link zum R-Script auf welches im Video hingewiesen wird.

https://github.com/romeokienzler/developerWorks/blob/master/tweets.r

Uebrigens, man kann das ganze ganz leicht selbst ausprobieren da IBM neben einem 30-tägigen Testaccount einen sogenanntes "Free Tier" anbietet bei dem alle Services bis zu einer bestimmten Resourcenkonfiguration komplett kostenlos (auch in Produktion) genutzt werden können.

Hier ein paar Beispiele:

  • 50 GB Hadoop
  • 20 GB CouchDB
  • 500 MB MongoDB
  • 1 GB DB2
  • 2 GB RAM DOCKER
  • 500 MB RAM  CloudFoundry
  • 12 GB RAM - 80 GB HD, 8vCores OpenStack

Hier kann man sich dafür anmelden:

http://ibm.biz/joinIBMCloud
 

 

Twitter Analyse mit Node.js, Node-RED, CouchDB/Cloudant und R

4. August 2015 Posted by Romeo Kienzler

Hallo,

ich habe leider noch keinen deutschen Audio-Track im Video, aber ich wollte es trotzdem mal teilen. Hier sieht man wie man mit IBM Bluemix (IBM PaaS Cloud) in weniger als 10 Minuten eine Twitteranalyse durchführt. Die blauen Vögel die um meinen Kopf fliegen kommen übrigens daher dass ich seit über 1,5 Jahren fast ausschliesslich mit IBM Bluemix arbeite und es mir immernoch extrem Freude bereitet da ich mich wirklich darauf verlassen kann dass die komplette Software-Infrastruktur von IBM gewartet wird und ich mich nur noch auf meinen eigenen Code fixieren muss, viel Spass:

 

Anbei noch der Link zum R-Script auf welches im Video hingewiesen wird.

https://github.com/romeokienzler/developerWorks/blob/master/tweets.r

Uebrigens, man kann das ganze ganz leicht selbst ausprobieren da IBM neben einem 30-tägigen Testaccount einen sogenanntes "Free Tier" anbietet bei dem alle Services bis zu einer bestimmten Resourcenkonfiguration komplett kostenlos (auch in Produktion) genutzt werden können.

Hier ein paar Beispiele:

  • 50 GB Hadoop
  • 20 GB CouchDB
  • 500 MB MongoDB
  • 1 GB DB2
  • 2 GB RAM DOCKER
  • 500 MB RAM  CloudFoundry
  • 12 GB RAM - 80 GB HD, 8vCores OpenStack

Hier kann man sich dafür anmelden:

http://ibm.biz/joinIBMCloud
 

 

Twitter Analyse mit Node.js, Node-RED, CouchDB/Cloudant und R

4. August 2015 Posted by Romeo Kienzler

Hallo,

ich habe leider noch keinen deutschen Audio-Track im Video, aber ich wollte es trotzdem mal teilen. Hier sieht man wie man mit IBM Bluemix (IBM PaaS Cloud) in weniger als 10 Minuten eine Twitteranalyse durchführt. Die blauen Vögel die um meinen Kopf fliegen kommen übrigens daher dass ich seit über 1,5 Jahren fast ausschliesslich mit IBM Bluemix arbeite und es mir immernoch extrem Freude bereitet da ich mich wirklich darauf verlassen kann dass die komplette Software-Infrastruktur von IBM gewartet wird und ich mich nur noch auf meinen eigenen Code fixieren muss, viel Spass:

 

Anbei noch der Link zum R-Script auf welches im Video hingewiesen wird.

https://github.com/romeokienzler/developerWorks/blob/master/tweets.r

Uebrigens, man kann das ganze ganz leicht selbst ausprobieren da IBM neben einem 30-tägigen Testaccount einen sogenanntes "Free Tier" anbietet bei dem alle Services bis zu einer bestimmten Resourcenkonfiguration komplett kostenlos (auch in Produktion) genutzt werden können.

Hier ein paar Beispiele:

  • 50 GB Hadoop
  • 20 GB CouchDB
  • 500 MB MongoDB
  • 1 GB DB2
  • 2 GB RAM DOCKER
  • 500 MB RAM  CloudFoundry
  • 12 GB RAM - 80 GB HD, 8vCores OpenStack

Hier kann man sich dafür anmelden:

http://ibm.biz/joinIBMCloud
 

 

1 Jahr Bluemix – ein Erfahrungsbericht aus technischer Sicht

21. Juli 2015 Posted by Romeo Kienzler

Mein Name ist Romeo Kienzler und ich arbeite als Data Scientist, Architect und Technology Evangelist bei IBM Zurich (EcoD DACH) und befasse mich hauptsächlich mit dem Thema „Data Management & Analytics in the Cloud“ auf der technischen Ebene.

Mein Fokus liegt in der Betreuung von Start-Ups und akademischen Einrichtugen – ab und zu arbeite ich aber auch mit größeren Enterprise-Kunden.

Ich arbeite nun seit dem Beginn der “OpenBeta” Anfang 2014 intensiv mit Bluemix und möchte hier einen kurzen Erfahrungsbericht schreiben.

 

IBM Bluemix, die „Open by Design“ PaaS (Platform as a Service) Cloud der IBM die auf offenen Standards basiert

 IBM Bluemix ist die PaaS (Platform as a Service) Cloud von IBM, welche letztes Frühjahr in die „Open Beta“ ging und seit knapp über einem Jahr nun in Produktion ist.

Der Hauptunterschied zu anderen PaaS Clouds ist der „Open By Design“-Approach, den IBM hier fährt. Anstelle von proprietären Schnittstellen basiert die IBM Cloud auf den Standards „ OpenStack “, „ DOCKER “ und „ CloudFoundry “. OpenStack ist ein offener Standard für Infrastructure Clouds (IaaS), CloudFoundry das äquivalent dazu für Platform Clouds (PaaS) und DOCKER sind „ultra-light“ virtuelle Maschinen die auf Container Isolation basieren. Eine Docker VM startet beispielsweise in < 100 ms. Somit wird der „Vendor Lock-In“ reduziert – andererseits profitieren die OpenSource Communities auch von OpenSource Engagement der IBM.
Wie das OpenSource Engagement von IBM aussieht? Derzeit arbeiten beispielsweise über 150 aktive IBM Entwickler am Source-Code von „CloudFoundry“. Zusätzlich ist IBM auch Mitglied in der CloudFoundry Foundation, offizieller Platinum Member der OpenStack Foundation und ist mit DOCKER eine stategische Partnerschaft eingegangen. Ich denke dass diese Standards in hohem Masse von den Erfahrungen die IBM im Enterprise Geschäft hat profitieren, da IBM einerseits sicherstellt dass diese Standards sich den Bedürfnissen der Enterprise Kunden anpassen und kontinuierlich erweitert werden, andererseits profitieren die Kunden davon Ihr Know-How, Prozesse und Toolset nun mit jeder Cloud (private, hybrid oder public) verwendet werden können die auf diesen Standards basiert.

Doch was macht der offene CloudFoundry – Standard eigentlich so spannend?

 Das offene System bringt entscheidende Vorteile in Sachen Kompatibilität und Breite der angebotenen Technologien.

Es gibt weltweit keine Cloud die mehr Services anbietet, als die IBM Platform Cloud, aktuell sind es über 100 Services, aber es kommt ca. jeder Woche mindestens einer dazu. Neben Standards Services wie MongoDB, MySQL, PostgreSQL, Redis, DB2, CouchDB gibt es auch spezialisierte Services für alle möglichen Anforderungen.

Auf Runtime-Ebene wird alles von IBM WebSpehre Liberty (JEE Container analog TomCat oder Jetty) über Node.js zu einer Vielzahl von CloudFoundry Plugins für nahezu jede Programmiersprache und Frameworks unterstützt. Dies gilt nicht nur für PHP, Python oder Perl sondern auch für „Exoten“ wie Go, R, Scala oder „Aliens“ wie Eiffel, Erlang oder Haskel.

Hier ein Beispiel wie einfach sich die PHP/MySQL Applikation "Wordpress" installieren lässt:

Aber neben den Runtimes gibt es auch ein offenes Services-Ecosystem und dies wird durch den sogenannten IBM Cloud Marketplace ermöglicht, in dem Fremdanbieter ihren Service über IBM anbieten können. Hierbei geschieht die Abrechnung jedoch zentral via IBM – ähnlich einem App-Store – nur für Services. Und nicht zu vergessen natürlich die IBM Watson Cognitive Computing Services oder auch die Cloud Integration Services, mit dem man ein lokales Data Center mit der IBM Cloud integrieren kann.

Meine ganz persönliche Erfahrung mit IBM Bluemix

Ich habe nun diese Reise seit über 18 Monaten begleitet und kann mit guten Gewissen sagen, dass die IBM Platform Cloud unter den großen Wettbewerbern die offenste und reichhaltigste darstellt.

Es macht wirklich Spaß damit zu entwickeln, da man sich nun voll und ganz auf die Applikationsentwicklung konzentrieren kann – lästiges Aufsetzen von Servern, Infrastruktur, Netzwerk und Middleware entfällt völlig. Eine Datenbank startet in unter 7 Sekunden und eine Applikation ist mit einem einzigen Befehl in ca. 1 Minute installiert und unter einer öffentlichen URL erreichbar.

Und nicht nur dies, mit einer einfachen zusätzlichen Konfiguration ist die Applikation sogar horizontal skalierbar – ohne die eigentliche Applikation zu ändern. Dies bedeutet dass bei geringem Workload die Applikation faktisch „schläft“ und nur ein Minimum an Ressourcen benötigt. Wird die Applikation jedoch hohem Load ausgesetzt, werden vollautomatisch zusätzliche Instannzen auch über Servergrenzen hinweg gestartet und auch wieder gestoppt. Dies alles geschieht ohne Zutun des Applikationsentwicklers und auch ohne dass der Anwender etwas davon mitbekommt. (Außer natürlich eine angenehme, immer konstante – vordefinierte – Response-Time von z.B. 100ms).

Schlussendlich bietet diese Cloud zusätzlich noch eine komplette DevOps Integration mit automatischem Build Service „as a Serivce“ basierend auf Jenkins mit Plugins für Maven, Ant, Grunt, Gradle, ein privates GIT repository , Eclipse Orion, Rational Jazz und vieles mehr. Somit können neben traditionellen Softwareentwicklungsprozessen auch moderne Prozesse wie Scrum, Kanban, Contineous Integration und Contineous Delivery einfach integriert werden – wenn nötig sogar ohne lokale Installationen da sowohl Eclipse, das Source Code Reposiotry, der BuildServier und die Runtime als Cloud – Service verfügbar sind. Natürlich kann auf Wunsch auch jede Komponente lokal oder bei einem anderen Cloud-Provider verwendet werden.

IBM hat hier ein Meisterstück geleistet

Dies alles hat IBM in 1 Jahr vom Beta auf Produktionsqualität getrieben und dies ist erst der Anfang der Reise. Falls alle Software die IBM im Portfolio hat wird cloud-enabled d.h. über Bluemix.net verfügbar sein – zusätzlich natürlich mit dem wöchentlich wachsenden Partnernetzwerk.

Interessiert? Versuchen Sie es doch selbst einmal – IBM hat einen sehr großzügigen „Free Tier“ bei dem (unabhängig von der einmonatigen Trial) viele Services und Runtimes kostenlos (auch in Produktion) genutzt werden können.

Unter folgendem Link können Sie sich für die Trial registieren (wird nach 30 Tagen automatisch ins Free Tier konvertiert): https://ibm.biz/BdXhUK

Anbei noch ein kleines Video-Tutorial, in dem man sehen kann, wie man eine JavaEE WebApplikation innerhalb von 60 Sekunden schreiben und unter einer öffentlichen URL in der IBM Cloud verfügbar machen kann.
 

-----------------------------------------------------------------------------------------------------------------------------------
IBM Cloud Free Tier: 20 GB Hadoop, 20 GB CouchDB, 500 MB MongoDB, 1 GB DB2
2 GB RAM DOCKER, 500 MB RAM  CloudFoundry, 12 GB RAM - 80 GB HD, 8vCores OpenStack
https://ibm.biz/BdXhUK
-----------------------------------------------------------------------------------------------------------------------------------

 

1 Jahr Bluemix – ein Erfahrungsbericht aus technischer Sicht

21. Juli 2015 Posted by Romeo Kienzler

Mein Name ist Romeo Kienzler und ich arbeite als Data Scientist, Architect und Technology Evangelist bei IBM Zurich (EcoD DACH) und befasse mich hauptsächlich mit dem Thema „Data Management & Analytics in the Cloud“ auf der technischen Ebene.

Mein Fokus liegt in der Betreuung von Start-Ups und akademischen Einrichtugen – ab und zu arbeite ich aber auch mit größeren Enterprise-Kunden.

Ich arbeite nun seit dem Beginn der “OpenBeta” Anfang 2014 intensiv mit Bluemix und möchte hier einen kurzen Erfahrungsbericht schreiben.

 

IBM Bluemix, die „Open by Design“ PaaS (Platform as a Service) Cloud der IBM die auf offenen Standards basiert

 IBM Bluemix ist die PaaS (Platform as a Service) Cloud von IBM, welche letztes Frühjahr in die „Open Beta“ ging und seit knapp über einem Jahr nun in Produktion ist.

Der Hauptunterschied zu anderen PaaS Clouds ist der „Open By Design“-Approach, den IBM hier fährt. Anstelle von proprietären Schnittstellen basiert die IBM Cloud auf den Standards „ OpenStack “, „ DOCKER “ und „ CloudFoundry “. OpenStack ist ein offener Standard für Infrastructure Clouds (IaaS), CloudFoundry das äquivalent dazu für Platform Clouds (PaaS) und DOCKER sind „ultra-light“ virtuelle Maschinen die auf Container Isolation basieren. Eine Docker VM startet beispielsweise in < 100 ms. Somit wird der „Vendor Lock-In“ reduziert – andererseits profitieren die OpenSource Communities auch von OpenSource Engagement der IBM.
Wie das OpenSource Engagement von IBM aussieht? Derzeit arbeiten beispielsweise über 150 aktive IBM Entwickler am Source-Code von „CloudFoundry“. Zusätzlich ist IBM auch Mitglied in der CloudFoundry Foundation, offizieller Platinum Member der OpenStack Foundation und ist mit DOCKER eine stategische Partnerschaft eingegangen. Ich denke dass diese Standards in hohem Masse von den Erfahrungen die IBM im Enterprise Geschäft hat profitieren, da IBM einerseits sicherstellt dass diese Standards sich den Bedürfnissen der Enterprise Kunden anpassen und kontinuierlich erweitert werden, andererseits profitieren die Kunden davon Ihr Know-How, Prozesse und Toolset nun mit jeder Cloud (private, hybrid oder public) verwendet werden können die auf diesen Standards basiert.

Doch was macht der offene CloudFoundry – Standard eigentlich so spannend?

 Das offene System bringt entscheidende Vorteile in Sachen Kompatibilität und Breite der angebotenen Technologien.

Es gibt weltweit keine Cloud die mehr Services anbietet, als die IBM Platform Cloud, aktuell sind es über 100 Services, aber es kommt ca. jeder Woche mindestens einer dazu. Neben Standards Services wie MongoDB, MySQL, PostgreSQL, Redis, DB2, CouchDB gibt es auch spezialisierte Services für alle möglichen Anforderungen.

Auf Runtime-Ebene wird alles von IBM WebSpehre Liberty (JEE Container analog TomCat oder Jetty) über Node.js zu einer Vielzahl von CloudFoundry Plugins für nahezu jede Programmiersprache und Frameworks unterstützt. Dies gilt nicht nur für PHP, Python oder Perl sondern auch für „Exoten“ wie Go, R, Scala oder „Aliens“ wie Eiffel, Erlang oder Haskel.

Hier ein Beispiel wie einfach sich die PHP/MySQL Applikation "Wordpress" installieren lässt:

Aber neben den Runtimes gibt es auch ein offenes Services-Ecosystem und dies wird durch den sogenannten IBM Cloud Marketplace ermöglicht, in dem Fremdanbieter ihren Service über IBM anbieten können. Hierbei geschieht die Abrechnung jedoch zentral via IBM – ähnlich einem App-Store – nur für Services. Und nicht zu vergessen natürlich die IBM Watson Cognitive Computing Services oder auch die Cloud Integration Services, mit dem man ein lokales Data Center mit der IBM Cloud integrieren kann.

Meine ganz persönliche Erfahrung mit IBM Bluemix

Ich habe nun diese Reise seit über 18 Monaten begleitet und kann mit guten Gewissen sagen, dass die IBM Platform Cloud unter den großen Wettbewerbern die offenste und reichhaltigste darstellt.

Es macht wirklich Spaß damit zu entwickeln, da man sich nun voll und ganz auf die Applikationsentwicklung konzentrieren kann – lästiges Aufsetzen von Servern, Infrastruktur, Netzwerk und Middleware entfällt völlig. Eine Datenbank startet in unter 7 Sekunden und eine Applikation ist mit einem einzigen Befehl in ca. 1 Minute installiert und unter einer öffentlichen URL erreichbar.

Und nicht nur dies, mit einer einfachen zusätzlichen Konfiguration ist die Applikation sogar horizontal skalierbar – ohne die eigentliche Applikation zu ändern. Dies bedeutet dass bei geringem Workload die Applikation faktisch „schläft“ und nur ein Minimum an Ressourcen benötigt. Wird die Applikation jedoch hohem Load ausgesetzt, werden vollautomatisch zusätzliche Instannzen auch über Servergrenzen hinweg gestartet und auch wieder gestoppt. Dies alles geschieht ohne Zutun des Applikationsentwicklers und auch ohne dass der Anwender etwas davon mitbekommt. (Außer natürlich eine angenehme, immer konstante – vordefinierte – Response-Time von z.B. 100ms).

Schlussendlich bietet diese Cloud zusätzlich noch eine komplette DevOps Integration mit automatischem Build Service „as a Serivce“ basierend auf Jenkins mit Plugins für Maven, Ant, Grunt, Gradle, ein privates GIT repository , Eclipse Orion, Rational Jazz und vieles mehr. Somit können neben traditionellen Softwareentwicklungsprozessen auch moderne Prozesse wie Scrum, Kanban, Contineous Integration und Contineous Delivery einfach integriert werden – wenn nötig sogar ohne lokale Installationen da sowohl Eclipse, das Source Code Reposiotry, der BuildServier und die Runtime als Cloud – Service verfügbar sind. Natürlich kann auf Wunsch auch jede Komponente lokal oder bei einem anderen Cloud-Provider verwendet werden.

IBM hat hier ein Meisterstück geleistet

Dies alles hat IBM in 1 Jahr vom Beta auf Produktionsqualität getrieben und dies ist erst der Anfang der Reise. Falls alle Software die IBM im Portfolio hat wird cloud-enabled d.h. über Bluemix.net verfügbar sein – zusätzlich natürlich mit dem wöchentlich wachsenden Partnernetzwerk.

Interessiert? Versuchen Sie es doch selbst einmal – IBM hat einen sehr großzügigen „Free Tier“ bei dem (unabhängig von der einmonatigen Trial) viele Services und Runtimes kostenlos (auch in Produktion) genutzt werden können.

Unter folgendem Link können Sie sich für die Trial registieren (wird nach 30 Tagen automatisch ins Free Tier konvertiert): https://ibm.biz/BdXhUK

Anbei noch ein kleines Video-Tutorial, in dem man sehen kann, wie man eine JavaEE WebApplikation innerhalb von 60 Sekunden schreiben und unter einer öffentlichen URL in der IBM Cloud verfügbar machen kann.
 

-----------------------------------------------------------------------------------------------------------------------------------
IBM Cloud Free Tier: 20 GB Hadoop, 20 GB CouchDB, 500 MB MongoDB, 1 GB DB2
2 GB RAM DOCKER, 500 MB RAM  CloudFoundry, 12 GB RAM - 80 GB HD, 8vCores OpenStack
https://ibm.biz/BdXhUK
-----------------------------------------------------------------------------------------------------------------------------------

 

How to get the most out of your PureData System for Analytics using Hadoop as a cost-efficient extension

23. Juni 2015 Posted by Ralf Götz

Today’s requirements for collecting huge amounts of data are different from several years back when only relational databases satisfied the need for a system of record. Now, new data formats need to be acquired, stored and processed in a convenient and flexible way. Customers need to integrate different systems and platforms to unify data access and acquisition without losing control and security.

The logical data warehouse

More and more relational databases and Hadoop platforms are building the core of a Logical Data Warehouse in which each system handles the workload which it can handle best. We call this using “fit for purpose” stores.

An analytical data warehouse appliance such as PureData System for Analytics is often at the core of this Logical Data Warehouse and it is efficient in many ways. It can host and process several terabytes of valuable, high-quality data enabling lightning fast analytics at scale. And it has been possible (with some effort) to move bulk data between Hadoop and relational databases using Sqoop – an open source component of Hadoop. But there was no way to query both systems using SQL – a huge disadvantage.

Two options for combining relational database and Hadoop

Why move bulk data between different systems or run cross-systems analytical queries? Well, there are several use cases for this scenario but I will only highlight two of them based on a typical business scenario in analytics.

The task: an analyst needs to find out how the stock level of the company’s products will develop throughout the year. This stock level is being updated very frequently and produces lots of data in the current data warehouse system implemented on PureData System for Analytics. Therefore the data cannot be kept in the system for more than a year (hot data). A report on this hot data indicates that the stock level is much too high and needs to be adjusted to keep stock costs low. This would normally trigger immediate sales activities (e.g. a marketing and/or sales campaign with lower prices).

“We need a report, which could analyze all stock levels for all products for the last 10+ years!”

Yet, a historical report, which could analyze all stock levels for all products for the last 10+ years would have indicated that the stock level at this time of the year is a good thing, because a high season is approaching. Therefore, the company would be able to sell most of their products and satisfy the market trend. But how can the company provide such a report with so much data?

Bild

The company would have 2 use case options to satisfy their needs:

  1. Replace the existing analytical data warehouse appliance with a newer and bigger one (This would cost some dollars and has been covered in another blog post.), or
  2. Use an existing Hadoop cluster as a cheap storage and processing extension for the data warehouse appliance (Note that a new, yet to be implemented Hadoop cluster would probably cost more than a bigger PureData box as measured by Total Cost of Ownership).

Option 2 would require a mature, flexible integration interface between Hadoop and PureData. Sqoop would not be able to handle this, because it requires more capabilities than just bulk data movement capabilities from Hadoop to PureData.

IBM Fluid Query for seamless cross-platform data access using standard SQL

These requirements are only two of the reasons why IBM has introduced IBM Fluid Query in March, 2015 as a no charge extension for PureData System for Analytics. Fluid Query enables bulk data movement from Hadoop to PureData and vice versa ANDoperational SQL query federation. With Fluid Query, data residing in Hadoop distributions from Cloudera, Hortonworks and IBM BigInsights for Apache Hadoop can be combined with the data residing in PureData using standard SQL syntax.

“Move and query all data, find the value in the data and integrate only if needed.”

This enables users to seamlessly query older, cooler data and hot data without the complexity of data integration with a more exploratory approach: move and query all data, find the value in the data and integrate only if needed.

Bild

IBM Fluid Query can be downloaded and installed as a free add-on for PureData System for Analytics.

Try it out today. IBM Fluid Query is technology that is available for PureData System for Analytics.  Clients can download and install this software and get started right away with these new capabilities.  Download it here on Fix Central. Doug Dailey’s “Getting Started with Fluid Query” blog for more information and documentation links to get started is highly recommended reading.

Bild

Do you need more information? Follow me on Twitter.

How to get the most out of your PureData System for Analytics using Hadoop as a cost-efficient extension

23. Juni 2015 Posted by Ralf Götz

Today’s requirements for collecting huge amounts of data are different from several years back when only relational databases satisfied the need for a system of record. Now, new data formats need to be acquired, stored and processed in a convenient and flexible way. Customers need to integrate different systems and platforms to unify data access and acquisition without losing control and security.

The logical data warehouse

More and more relational databases and Hadoop platforms are building the core of a Logical Data Warehouse in which each system handles the workload which it can handle best. We call this using “fit for purpose” stores.

An analytical data warehouse appliance such as PureData System for Analytics is often at the core of this Logical Data Warehouse and it is efficient in many ways. It can host and process several terabytes of valuable, high-quality data enabling lightning fast analytics at scale. And it has been possible (with some effort) to move bulk data between Hadoop and relational databases using Sqoop – an open source component of Hadoop. But there was no way to query both systems using SQL – a huge disadvantage.

Two options for combining relational database and Hadoop

Why move bulk data between different systems or run cross-systems analytical queries? Well, there are several use cases for this scenario but I will only highlight two of them based on a typical business scenario in analytics.

The task: an analyst needs to find out how the stock level of the company’s products will develop throughout the year. This stock level is being updated very frequently and produces lots of data in the current data warehouse system implemented on PureData System for Analytics. Therefore the data cannot be kept in the system for more than a year (hot data). A report on this hot data indicates that the stock level is much too high and needs to be adjusted to keep stock costs low. This would normally trigger immediate sales activities (e.g. a marketing and/or sales campaign with lower prices).

“We need a report, which could analyze all stock levels for all products for the last 10+ years!”

Yet, a historical report, which could analyze all stock levels for all products for the last 10+ years would have indicated that the stock level at this time of the year is a good thing, because a high season is approaching. Therefore, the company would be able to sell most of their products and satisfy the market trend. But how can the company provide such a report with so much data?

Bild

The company would have 2 use case options to satisfy their needs:

  1. Replace the existing analytical data warehouse appliance with a newer and bigger one (This would cost some dollars and has been covered in another blog post.), or
  2. Use an existing Hadoop cluster as a cheap storage and processing extension for the data warehouse appliance (Note that a new, yet to be implemented Hadoop cluster would probably cost more than a bigger PureData box as measured by Total Cost of Ownership).

Option 2 would require a mature, flexible integration interface between Hadoop and PureData. Sqoop would not be able to handle this, because it requires more capabilities than just bulk data movement capabilities from Hadoop to PureData.

IBM Fluid Query for seamless cross-platform data access using standard SQL

These requirements are only two of the reasons why IBM has introduced IBM Fluid Query in March, 2015 as a no charge extension for PureData System for Analytics. Fluid Query enables bulk data movement from Hadoop to PureData and vice versa ANDoperational SQL query federation. With Fluid Query, data residing in Hadoop distributions from Cloudera, Hortonworks and IBM BigInsights for Apache Hadoop can be combined with the data residing in PureData using standard SQL syntax.

“Move and query all data, find the value in the data and integrate only if needed.”

This enables users to seamlessly query older, cooler data and hot data without the complexity of data integration with a more exploratory approach: move and query all data, find the value in the data and integrate only if needed.

Bild

IBM Fluid Query can be downloaded and installed as a free add-on for PureData System for Analytics.

Try it out today. IBM Fluid Query is technology that is available for PureData System for Analytics.  Clients can download and install this software and get started right away with these new capabilities.  Download it here on Fix Central. Doug Dailey’s “Getting Started with Fluid Query” blog for more information and documentation links to get started is highly recommended reading.

Bild

Do you need more information? Follow me on Twitter.

How to get the most out of your PureData System for Analytics using Hadoop as a cost-efficient extension

23. Juni 2015 Posted by Ralf Götz

Today’s requirements for collecting huge amounts of data are different from several years back when only relational databases satisfied the need for a system of record. Now, new data formats need to be acquired, stored and processed in a convenient and flexible way. Customers need to integrate different systems and platforms to unify data access and acquisition without losing control and security.

The logical data warehouse

More and more relational databases and Hadoop platforms are building the core of a Logical Data Warehouse in which each system handles the workload which it can handle best. We call this using “fit for purpose” stores.

An analytical data warehouse appliance such as PureData System for Analytics is often at the core of this Logical Data Warehouse and it is efficient in many ways. It can host and process several terabytes of valuable, high-quality data enabling lightning fast analytics at scale. And it has been possible (with some effort) to move bulk data between Hadoop and relational databases using Sqoop – an open source component of Hadoop. But there was no way to query both systems using SQL – a huge disadvantage.

Two options for combining relational database and Hadoop

Why move bulk data between different systems or run cross-systems analytical queries? Well, there are several use cases for this scenario but I will only highlight two of them based on a typical business scenario in analytics.

The task: an analyst needs to find out how the stock level of the company’s products will develop throughout the year. This stock level is being updated very frequently and produces lots of data in the current data warehouse system implemented on PureData System for Analytics. Therefore the data cannot be kept in the system for more than a year (hot data). A report on this hot data indicates that the stock level is much too high and needs to be adjusted to keep stock costs low. This would normally trigger immediate sales activities (e.g. a marketing and/or sales campaign with lower prices).

“We need a report, which could analyze all stock levels for all products for the last 10+ years!”

Yet, a historical report, which could analyze all stock levels for all products for the last 10+ years would have indicated that the stock level at this time of the year is a good thing, because a high season is approaching. Therefore, the company would be able to sell most of their products and satisfy the market trend. But how can the company provide such a report with so much data?

Bild

The company would have 2 use case options to satisfy their needs:

  1. Replace the existing analytical data warehouse appliance with a newer and bigger one (This would cost some dollars and has been covered in another blog post.), or
  2. Use an existing Hadoop cluster as a cheap storage and processing extension for the data warehouse appliance (Note that a new, yet to be implemented Hadoop cluster would probably cost more than a bigger PureData box as measured by Total Cost of Ownership).

Option 2 would require a mature, flexible integration interface between Hadoop and PureData. Sqoop would not be able to handle this, because it requires more capabilities than just bulk data movement capabilities from Hadoop to PureData.

IBM Fluid Query for seamless cross-platform data access using standard SQL

These requirements are only two of the reasons why IBM has introduced IBM Fluid Query in March, 2015 as a no charge extension for PureData System for Analytics. Fluid Query enables bulk data movement from Hadoop to PureData and vice versa ANDoperational SQL query federation. With Fluid Query, data residing in Hadoop distributions from Cloudera, Hortonworks and IBM BigInsights for Apache Hadoop can be combined with the data residing in PureData using standard SQL syntax.

“Move and query all data, find the value in the data and integrate only if needed.”

This enables users to seamlessly query older, cooler data and hot data without the complexity of data integration with a more exploratory approach: move and query all data, find the value in the data and integrate only if needed.

Bild

IBM Fluid Query can be downloaded and installed as a free add-on for PureData System for Analytics.

Try it out today. IBM Fluid Query is technology that is available for PureData System for Analytics.  Clients can download and install this software and get started right away with these new capabilities.  Download it here on Fix Central. Doug Dailey’s “Getting Started with Fluid Query” blog for more information and documentation links to get started is highly recommended reading.

Bild

Do you need more information? Follow me on Twitter.

Teil 2 meiner Artikelserie über BigData

20. Dezember 2012 Posted by Romeo Kienzler

 Im zweiten Teil der Serie über BigData möchte ich einige interessante Usecases von IBM vorstellen.
 
IBM Watson:

Watson, der Supercomputer welcher Anfang 2011 die beiden Jeopardy - Champions geschlagen hat
vereint zwei der Paradigmen, welche für alle BigData Projekte gelten. Einen modernen und
fortschrittlichen Algorithmus und die technische Möglichkeit diesen Algorithmus in kurzer 
Zeit auf sehr grosse Datenmengen anzuwenden.

Der Algorithmus bei Watson ist ein System welches DeepQA genannt wird (http://www.research.ibm.com/deepqa/deepqa.shtml). Es handelt sich hierbei um eine Weiterentwicklung
klassischer QA (Question Answering) Systeme. Kern von DeepQA ist die Erweiterung der
klassischen, Wissensbasierten Systeme um eine statistische Komponente die die neusten Entwicklungen
der NLP (Natural Language Processing) Forschung einfliessen lässt. 

Um nun diesen Algorithmus in ausreichender Geschwindigkeit mit Daten zu füttern hat sich IBM der allerneusten Power -- Prozessortechnologie  http://www-03.ibm.com/systems/power/index.html bedient. Kern bei dieser Prozessorgeneration ist die Tatsache dass sich ein Teil des Hauptspeichers nun auf dem Prozessorkern selbst befindet. Durch Zusammenschaltung von 2880 solcher CPU Kernen war
es möglich den Text des gesamten englischsprachigen Internets (dedupliziert nur ca. 1 TB!) auf den CPU Kernen zu speichern und somit die Suchanfragen in einer Taktfrequenz von über 5 Ghz auszuführen.

Die Ergebnisse der Suchanfrage wurden von DeepQA ausgewählt und je nach statistischer Zuversichtlichkeit des Systems
als mögliche Antwort vorgeschlagen. Hier musste extrem auf den Echtzeit-Aspekt wert gelegt werden da die Kandidaten
den „Buzzer" auch im Millisekundenbereich gedrückt haben.


Vestas:

Vestas stellt u.a. Windkraftanlagen her, möchte aber seine Kunden auch optimal beraten, wo diese Windkraftanlagen
am besten aufgestellt werden. Hierfür haben sie ein auf 2.8 PB (PetaByte, 1000 TB = 1 PB) Daten basierendes System entwickelt welches für eine Berechnung drei Wochen benötigt hat. Mit dem IBM BigInsights System und 15000
CPU Kernen wurde die Antwortzeit auf 15 Minuten verringert. Das System kann ohne Software seitigen Anpassungen
vergrössert werden, Vestas möchte das System innerhalb der nächsten Zeit auf 20 PB vergrössern.
 
 
Datenüberwachung einer Neugeborenen Intensivstation:

Mittels der IBM InfoSphere Streams massive parallelen und In-Memory Dataprocessing Middleware werden 16 Sensor-Streams von Neugeborenen in Echtzeit überwacht. Mithilfe eines statistischen Modells kann das System eine
Infektion 24 Stunden vor einem menschlichen Experten vorhersagen. Dieser Zeitvorsprung kann lebensrettend sein.
 
 Video 
 
Im nächsten Teil werde ich noch einige interessante Nicht-IBM Usecases aufzeigen um dann in die Technik einzutauchen.

Ich wünsche allen frohe Weihnachten und einen guten Rutsch ins Jahr 2013.

 

Artikelserie: Was Sie schon immer ueber BigData wissen wollten

4. Dezember 2012 Posted by Romeo Kienzler

 Hallo. 

Ich möchte hier eine kleine Serie über BigData schreiben. 

Sie wird ungefaehr die folgenden Topics beinhalten: 

  • Was ist BigData? 
  • Einige interessante BigData UseCases aus Sicht von IBM 
  • Einige interessante BigData UseCases aus globaler Sicht 
  • BigData Storage 
  • BigData Analytics 
    • Applied Statistics / Descriptive, Predictive, Prescriptive
    • Large Scale Mathematics
    • BigData Visualization 
  • Parallelization / Harddisk / Hauptspeicher / CPU Datendurchsatz
  • Fehler Toleranz / Commodity Hardware 
  • 360 Grad Ansicht: ETL (Extract Transform Load), Hadoop, Stream Computing, Massive Parallel DWH 
  • Ausblick, Self-Service BI 

Ich möchte nun mit der Definition von BigData beginnen. 

Wir sehen ein Datanprozessierungsproblem als BigData Problem wenn mindestens eines 
der folgenden V's zutrifft: 

Volume

Die groessten traditionellen DWH's die ich in meiner Laufbahn bisher kennen lernen durfte 
waren ca. 100 TB gross. Hier wurde jedoch sorgfältig ausgewählt welche Daten man im DWH 
speichert und welche nicht. Ziel von BigData ist es, den Zugriff von Unternehmen auf alle fuer Ihre Entscheidung relevanten Daten zu erweitern.
 
 
image
 
 
 
 
 
 
 
 
Abbildung 1: Seit Beginn der Menschheitsgeschichte bis 2003 wurden gleich viel Daten produziert
wie seit 2003 bis heute. 100 Millionen Tweets werden pro Tag verschickt, 35 Stunden Video in
 jeder Minute auf YouTube geladen, 6,1 Billionen Textnachrichten wurden
 2011 gesendet und 247 Millarden E-Mails gingen durch das Netz. 80 % davon sind Spam und Viren.
Die Informationsmenge nimmt schneller zu als die Moeglichkeiten wie Unternehmen diese 
Informationen prozessierenkoennen. Fuer den Teil zwischen den beiden Kurven befinden sich die
 Unternehmen im Blindflug.


Variaety

In traditionellen DWH's werden nur strukturierte Daten aufbereitet die ueber einen ETL Prozess 
vorher sorgfaeltig vom relationalen relationalen in DWH spezifische Strukturen ueberfuehrt 
wurden. Man sagt dass diese Prozess vom Aufwand her oft schon 70-80% des DHW Gesamtaufwandes 
darstellt. Der neue Ansatz lautet "Feature Extraction". Daten werden nicht mehr transformiert 
sondern so wie sie von der Quelle stammen importiert. Dies beinhaltet nicht nur strukturierte 
Daten, sondern auch "semi-structured data" wie z.B. News-Feeds oder "unstructured data" wie 
z.B. Freiform-Texte, Audio und Video. 

Velocity

Man unterscheidet zwischen "Data at Rest" und "Data in Motion". Beim Letzteren geht es um 
Echtzeit oder annähernde Echtzeitprozessierung (Near-RealTime). Zumeist setzt dies voraus 
dass Daten nicht oder nur sekundaer auf persistenten Speichermedien gehalten werden. 
Das Data-Processing findet auf dem Netzwerk, im Hauptspeicher und letztendlich in der CPU 
statt. Ein prominentes Beispiel hierfuer ist momentan "Click-Stream Analytics", bei dem 
der Pfad eines Webseitenbesuchers in Echtzeit verfolgt wird und dazu passende Inhalte 
geschaltet werden (vgl. "Recommender System"). 

Im naechsten Beitrag werde ich auf einige interessante IBM BigData UseCases eingehen wo
klar wird welche Rolle die 3 V's spielen.