Posts Tagged: ‘biginsights’

1 Jahr Bluemix – ein Erfahrungsbericht aus technischer Sicht

21. Juli 2015 Posted by Romeo Kienzler

Mein Name ist Romeo Kienzler und ich arbeite als Data Scientist, Architect und Technology Evangelist bei IBM Zurich (EcoD DACH) und befasse mich hauptsächlich mit dem Thema „Data Management & Analytics in the Cloud“ auf der technischen Ebene.

Mein Fokus liegt in der Betreuung von Start-Ups und akademischen Einrichtugen – ab und zu arbeite ich aber auch mit größeren Enterprise-Kunden.

Ich arbeite nun seit dem Beginn der “OpenBeta” Anfang 2014 intensiv mit Bluemix und möchte hier einen kurzen Erfahrungsbericht schreiben.

 

IBM Bluemix, die „Open by Design“ PaaS (Platform as a Service) Cloud der IBM die auf offenen Standards basiert

 IBM Bluemix ist die PaaS (Platform as a Service) Cloud von IBM, welche letztes Frühjahr in die „Open Beta“ ging und seit knapp über einem Jahr nun in Produktion ist.

Der Hauptunterschied zu anderen PaaS Clouds ist der „Open By Design“-Approach, den IBM hier fährt. Anstelle von proprietären Schnittstellen basiert die IBM Cloud auf den Standards „ OpenStack “, „ DOCKER “ und „ CloudFoundry “. OpenStack ist ein offener Standard für Infrastructure Clouds (IaaS), CloudFoundry das äquivalent dazu für Platform Clouds (PaaS) und DOCKER sind „ultra-light“ virtuelle Maschinen die auf Container Isolation basieren. Eine Docker VM startet beispielsweise in < 100 ms. Somit wird der „Vendor Lock-In“ reduziert – andererseits profitieren die OpenSource Communities auch von OpenSource Engagement der IBM.
Wie das OpenSource Engagement von IBM aussieht? Derzeit arbeiten beispielsweise über 150 aktive IBM Entwickler am Source-Code von „CloudFoundry“. Zusätzlich ist IBM auch Mitglied in der CloudFoundry Foundation, offizieller Platinum Member der OpenStack Foundation und ist mit DOCKER eine stategische Partnerschaft eingegangen. Ich denke dass diese Standards in hohem Masse von den Erfahrungen die IBM im Enterprise Geschäft hat profitieren, da IBM einerseits sicherstellt dass diese Standards sich den Bedürfnissen der Enterprise Kunden anpassen und kontinuierlich erweitert werden, andererseits profitieren die Kunden davon Ihr Know-How, Prozesse und Toolset nun mit jeder Cloud (private, hybrid oder public) verwendet werden können die auf diesen Standards basiert.

Doch was macht der offene CloudFoundry – Standard eigentlich so spannend?

 Das offene System bringt entscheidende Vorteile in Sachen Kompatibilität und Breite der angebotenen Technologien.

Es gibt weltweit keine Cloud die mehr Services anbietet, als die IBM Platform Cloud, aktuell sind es über 100 Services, aber es kommt ca. jeder Woche mindestens einer dazu. Neben Standards Services wie MongoDB, MySQL, PostgreSQL, Redis, DB2, CouchDB gibt es auch spezialisierte Services für alle möglichen Anforderungen.

Auf Runtime-Ebene wird alles von IBM WebSpehre Liberty (JEE Container analog TomCat oder Jetty) über Node.js zu einer Vielzahl von CloudFoundry Plugins für nahezu jede Programmiersprache und Frameworks unterstützt. Dies gilt nicht nur für PHP, Python oder Perl sondern auch für „Exoten“ wie Go, R, Scala oder „Aliens“ wie Eiffel, Erlang oder Haskel.

Hier ein Beispiel wie einfach sich die PHP/MySQL Applikation "Wordpress" installieren lässt:

Aber neben den Runtimes gibt es auch ein offenes Services-Ecosystem und dies wird durch den sogenannten IBM Cloud Marketplace ermöglicht, in dem Fremdanbieter ihren Service über IBM anbieten können. Hierbei geschieht die Abrechnung jedoch zentral via IBM – ähnlich einem App-Store – nur für Services. Und nicht zu vergessen natürlich die IBM Watson Cognitive Computing Services oder auch die Cloud Integration Services, mit dem man ein lokales Data Center mit der IBM Cloud integrieren kann.

Meine ganz persönliche Erfahrung mit IBM Bluemix

Ich habe nun diese Reise seit über 18 Monaten begleitet und kann mit guten Gewissen sagen, dass die IBM Platform Cloud unter den großen Wettbewerbern die offenste und reichhaltigste darstellt.

Es macht wirklich Spaß damit zu entwickeln, da man sich nun voll und ganz auf die Applikationsentwicklung konzentrieren kann – lästiges Aufsetzen von Servern, Infrastruktur, Netzwerk und Middleware entfällt völlig. Eine Datenbank startet in unter 7 Sekunden und eine Applikation ist mit einem einzigen Befehl in ca. 1 Minute installiert und unter einer öffentlichen URL erreichbar.

Und nicht nur dies, mit einer einfachen zusätzlichen Konfiguration ist die Applikation sogar horizontal skalierbar – ohne die eigentliche Applikation zu ändern. Dies bedeutet dass bei geringem Workload die Applikation faktisch „schläft“ und nur ein Minimum an Ressourcen benötigt. Wird die Applikation jedoch hohem Load ausgesetzt, werden vollautomatisch zusätzliche Instannzen auch über Servergrenzen hinweg gestartet und auch wieder gestoppt. Dies alles geschieht ohne Zutun des Applikationsentwicklers und auch ohne dass der Anwender etwas davon mitbekommt. (Außer natürlich eine angenehme, immer konstante – vordefinierte – Response-Time von z.B. 100ms).

Schlussendlich bietet diese Cloud zusätzlich noch eine komplette DevOps Integration mit automatischem Build Service „as a Serivce“ basierend auf Jenkins mit Plugins für Maven, Ant, Grunt, Gradle, ein privates GIT repository , Eclipse Orion, Rational Jazz und vieles mehr. Somit können neben traditionellen Softwareentwicklungsprozessen auch moderne Prozesse wie Scrum, Kanban, Contineous Integration und Contineous Delivery einfach integriert werden – wenn nötig sogar ohne lokale Installationen da sowohl Eclipse, das Source Code Reposiotry, der BuildServier und die Runtime als Cloud – Service verfügbar sind. Natürlich kann auf Wunsch auch jede Komponente lokal oder bei einem anderen Cloud-Provider verwendet werden.

IBM hat hier ein Meisterstück geleistet

Dies alles hat IBM in 1 Jahr vom Beta auf Produktionsqualität getrieben und dies ist erst der Anfang der Reise. Falls alle Software die IBM im Portfolio hat wird cloud-enabled d.h. über Bluemix.net verfügbar sein – zusätzlich natürlich mit dem wöchentlich wachsenden Partnernetzwerk.

Interessiert? Versuchen Sie es doch selbst einmal – IBM hat einen sehr großzügigen „Free Tier“ bei dem (unabhängig von der einmonatigen Trial) viele Services und Runtimes kostenlos (auch in Produktion) genutzt werden können.

Unter folgendem Link können Sie sich für die Trial registieren (wird nach 30 Tagen automatisch ins Free Tier konvertiert): https://ibm.biz/BdXhUK

Anbei noch ein kleines Video-Tutorial, in dem man sehen kann, wie man eine JavaEE WebApplikation innerhalb von 60 Sekunden schreiben und unter einer öffentlichen URL in der IBM Cloud verfügbar machen kann.
 

-----------------------------------------------------------------------------------------------------------------------------------
IBM Cloud Free Tier: 20 GB Hadoop, 20 GB CouchDB, 500 MB MongoDB, 1 GB DB2
2 GB RAM DOCKER, 500 MB RAM  CloudFoundry, 12 GB RAM - 80 GB HD, 8vCores OpenStack
https://ibm.biz/BdXhUK
-----------------------------------------------------------------------------------------------------------------------------------

 

1 Jahr Bluemix – ein Erfahrungsbericht aus technischer Sicht

21. Juli 2015 Posted by Romeo Kienzler

Mein Name ist Romeo Kienzler und ich arbeite als Data Scientist, Architect und Technology Evangelist bei IBM Zurich (EcoD DACH) und befasse mich hauptsächlich mit dem Thema „Data Management & Analytics in the Cloud“ auf der technischen Ebene.

Mein Fokus liegt in der Betreuung von Start-Ups und akademischen Einrichtugen – ab und zu arbeite ich aber auch mit größeren Enterprise-Kunden.

Ich arbeite nun seit dem Beginn der “OpenBeta” Anfang 2014 intensiv mit Bluemix und möchte hier einen kurzen Erfahrungsbericht schreiben.

 

IBM Bluemix, die „Open by Design“ PaaS (Platform as a Service) Cloud der IBM die auf offenen Standards basiert

 IBM Bluemix ist die PaaS (Platform as a Service) Cloud von IBM, welche letztes Frühjahr in die „Open Beta“ ging und seit knapp über einem Jahr nun in Produktion ist.

Der Hauptunterschied zu anderen PaaS Clouds ist der „Open By Design“-Approach, den IBM hier fährt. Anstelle von proprietären Schnittstellen basiert die IBM Cloud auf den Standards „ OpenStack “, „ DOCKER “ und „ CloudFoundry “. OpenStack ist ein offener Standard für Infrastructure Clouds (IaaS), CloudFoundry das äquivalent dazu für Platform Clouds (PaaS) und DOCKER sind „ultra-light“ virtuelle Maschinen die auf Container Isolation basieren. Eine Docker VM startet beispielsweise in < 100 ms. Somit wird der „Vendor Lock-In“ reduziert – andererseits profitieren die OpenSource Communities auch von OpenSource Engagement der IBM.
Wie das OpenSource Engagement von IBM aussieht? Derzeit arbeiten beispielsweise über 150 aktive IBM Entwickler am Source-Code von „CloudFoundry“. Zusätzlich ist IBM auch Mitglied in der CloudFoundry Foundation, offizieller Platinum Member der OpenStack Foundation und ist mit DOCKER eine stategische Partnerschaft eingegangen. Ich denke dass diese Standards in hohem Masse von den Erfahrungen die IBM im Enterprise Geschäft hat profitieren, da IBM einerseits sicherstellt dass diese Standards sich den Bedürfnissen der Enterprise Kunden anpassen und kontinuierlich erweitert werden, andererseits profitieren die Kunden davon Ihr Know-How, Prozesse und Toolset nun mit jeder Cloud (private, hybrid oder public) verwendet werden können die auf diesen Standards basiert.

Doch was macht der offene CloudFoundry – Standard eigentlich so spannend?

 Das offene System bringt entscheidende Vorteile in Sachen Kompatibilität und Breite der angebotenen Technologien.

Es gibt weltweit keine Cloud die mehr Services anbietet, als die IBM Platform Cloud, aktuell sind es über 100 Services, aber es kommt ca. jeder Woche mindestens einer dazu. Neben Standards Services wie MongoDB, MySQL, PostgreSQL, Redis, DB2, CouchDB gibt es auch spezialisierte Services für alle möglichen Anforderungen.

Auf Runtime-Ebene wird alles von IBM WebSpehre Liberty (JEE Container analog TomCat oder Jetty) über Node.js zu einer Vielzahl von CloudFoundry Plugins für nahezu jede Programmiersprache und Frameworks unterstützt. Dies gilt nicht nur für PHP, Python oder Perl sondern auch für „Exoten“ wie Go, R, Scala oder „Aliens“ wie Eiffel, Erlang oder Haskel.

Hier ein Beispiel wie einfach sich die PHP/MySQL Applikation "Wordpress" installieren lässt:

Aber neben den Runtimes gibt es auch ein offenes Services-Ecosystem und dies wird durch den sogenannten IBM Cloud Marketplace ermöglicht, in dem Fremdanbieter ihren Service über IBM anbieten können. Hierbei geschieht die Abrechnung jedoch zentral via IBM – ähnlich einem App-Store – nur für Services. Und nicht zu vergessen natürlich die IBM Watson Cognitive Computing Services oder auch die Cloud Integration Services, mit dem man ein lokales Data Center mit der IBM Cloud integrieren kann.

Meine ganz persönliche Erfahrung mit IBM Bluemix

Ich habe nun diese Reise seit über 18 Monaten begleitet und kann mit guten Gewissen sagen, dass die IBM Platform Cloud unter den großen Wettbewerbern die offenste und reichhaltigste darstellt.

Es macht wirklich Spaß damit zu entwickeln, da man sich nun voll und ganz auf die Applikationsentwicklung konzentrieren kann – lästiges Aufsetzen von Servern, Infrastruktur, Netzwerk und Middleware entfällt völlig. Eine Datenbank startet in unter 7 Sekunden und eine Applikation ist mit einem einzigen Befehl in ca. 1 Minute installiert und unter einer öffentlichen URL erreichbar.

Und nicht nur dies, mit einer einfachen zusätzlichen Konfiguration ist die Applikation sogar horizontal skalierbar – ohne die eigentliche Applikation zu ändern. Dies bedeutet dass bei geringem Workload die Applikation faktisch „schläft“ und nur ein Minimum an Ressourcen benötigt. Wird die Applikation jedoch hohem Load ausgesetzt, werden vollautomatisch zusätzliche Instannzen auch über Servergrenzen hinweg gestartet und auch wieder gestoppt. Dies alles geschieht ohne Zutun des Applikationsentwicklers und auch ohne dass der Anwender etwas davon mitbekommt. (Außer natürlich eine angenehme, immer konstante – vordefinierte – Response-Time von z.B. 100ms).

Schlussendlich bietet diese Cloud zusätzlich noch eine komplette DevOps Integration mit automatischem Build Service „as a Serivce“ basierend auf Jenkins mit Plugins für Maven, Ant, Grunt, Gradle, ein privates GIT repository , Eclipse Orion, Rational Jazz und vieles mehr. Somit können neben traditionellen Softwareentwicklungsprozessen auch moderne Prozesse wie Scrum, Kanban, Contineous Integration und Contineous Delivery einfach integriert werden – wenn nötig sogar ohne lokale Installationen da sowohl Eclipse, das Source Code Reposiotry, der BuildServier und die Runtime als Cloud – Service verfügbar sind. Natürlich kann auf Wunsch auch jede Komponente lokal oder bei einem anderen Cloud-Provider verwendet werden.

IBM hat hier ein Meisterstück geleistet

Dies alles hat IBM in 1 Jahr vom Beta auf Produktionsqualität getrieben und dies ist erst der Anfang der Reise. Falls alle Software die IBM im Portfolio hat wird cloud-enabled d.h. über Bluemix.net verfügbar sein – zusätzlich natürlich mit dem wöchentlich wachsenden Partnernetzwerk.

Interessiert? Versuchen Sie es doch selbst einmal – IBM hat einen sehr großzügigen „Free Tier“ bei dem (unabhängig von der einmonatigen Trial) viele Services und Runtimes kostenlos (auch in Produktion) genutzt werden können.

Unter folgendem Link können Sie sich für die Trial registieren (wird nach 30 Tagen automatisch ins Free Tier konvertiert): https://ibm.biz/BdXhUK

Anbei noch ein kleines Video-Tutorial, in dem man sehen kann, wie man eine JavaEE WebApplikation innerhalb von 60 Sekunden schreiben und unter einer öffentlichen URL in der IBM Cloud verfügbar machen kann.
 

-----------------------------------------------------------------------------------------------------------------------------------
IBM Cloud Free Tier: 20 GB Hadoop, 20 GB CouchDB, 500 MB MongoDB, 1 GB DB2
2 GB RAM DOCKER, 500 MB RAM  CloudFoundry, 12 GB RAM - 80 GB HD, 8vCores OpenStack
https://ibm.biz/BdXhUK
-----------------------------------------------------------------------------------------------------------------------------------

 

How to get the most out of your PureData System for Analytics using Hadoop as a cost-efficient extension

23. Juni 2015 Posted by Ralf Götz

Today’s requirements for collecting huge amounts of data are different from several years back when only relational databases satisfied the need for a system of record. Now, new data formats need to be acquired, stored and processed in a convenient and flexible way. Customers need to integrate different systems and platforms to unify data access and acquisition without losing control and security.

The logical data warehouse

More and more relational databases and Hadoop platforms are building the core of a Logical Data Warehouse in which each system handles the workload which it can handle best. We call this using “fit for purpose” stores.

An analytical data warehouse appliance such as PureData System for Analytics is often at the core of this Logical Data Warehouse and it is efficient in many ways. It can host and process several terabytes of valuable, high-quality data enabling lightning fast analytics at scale. And it has been possible (with some effort) to move bulk data between Hadoop and relational databases using Sqoop – an open source component of Hadoop. But there was no way to query both systems using SQL – a huge disadvantage.

Two options for combining relational database and Hadoop

Why move bulk data between different systems or run cross-systems analytical queries? Well, there are several use cases for this scenario but I will only highlight two of them based on a typical business scenario in analytics.

The task: an analyst needs to find out how the stock level of the company’s products will develop throughout the year. This stock level is being updated very frequently and produces lots of data in the current data warehouse system implemented on PureData System for Analytics. Therefore the data cannot be kept in the system for more than a year (hot data). A report on this hot data indicates that the stock level is much too high and needs to be adjusted to keep stock costs low. This would normally trigger immediate sales activities (e.g. a marketing and/or sales campaign with lower prices).

“We need a report, which could analyze all stock levels for all products for the last 10+ years!”

Yet, a historical report, which could analyze all stock levels for all products for the last 10+ years would have indicated that the stock level at this time of the year is a good thing, because a high season is approaching. Therefore, the company would be able to sell most of their products and satisfy the market trend. But how can the company provide such a report with so much data?

Bild

The company would have 2 use case options to satisfy their needs:

  1. Replace the existing analytical data warehouse appliance with a newer and bigger one (This would cost some dollars and has been covered in another blog post.), or
  2. Use an existing Hadoop cluster as a cheap storage and processing extension for the data warehouse appliance (Note that a new, yet to be implemented Hadoop cluster would probably cost more than a bigger PureData box as measured by Total Cost of Ownership).

Option 2 would require a mature, flexible integration interface between Hadoop and PureData. Sqoop would not be able to handle this, because it requires more capabilities than just bulk data movement capabilities from Hadoop to PureData.

IBM Fluid Query for seamless cross-platform data access using standard SQL

These requirements are only two of the reasons why IBM has introduced IBM Fluid Query in March, 2015 as a no charge extension for PureData System for Analytics. Fluid Query enables bulk data movement from Hadoop to PureData and vice versa ANDoperational SQL query federation. With Fluid Query, data residing in Hadoop distributions from Cloudera, Hortonworks and IBM BigInsights for Apache Hadoop can be combined with the data residing in PureData using standard SQL syntax.

“Move and query all data, find the value in the data and integrate only if needed.”

This enables users to seamlessly query older, cooler data and hot data without the complexity of data integration with a more exploratory approach: move and query all data, find the value in the data and integrate only if needed.

Bild

IBM Fluid Query can be downloaded and installed as a free add-on for PureData System for Analytics.

Try it out today. IBM Fluid Query is technology that is available for PureData System for Analytics.  Clients can download and install this software and get started right away with these new capabilities.  Download it here on Fix Central. Doug Dailey’s “Getting Started with Fluid Query” blog for more information and documentation links to get started is highly recommended reading.

Bild

Do you need more information? Follow me on Twitter.

How to get the most out of your PureData System for Analytics using Hadoop as a cost-efficient extension

23. Juni 2015 Posted by Ralf Götz

Today’s requirements for collecting huge amounts of data are different from several years back when only relational databases satisfied the need for a system of record. Now, new data formats need to be acquired, stored and processed in a convenient and flexible way. Customers need to integrate different systems and platforms to unify data access and acquisition without losing control and security.

The logical data warehouse

More and more relational databases and Hadoop platforms are building the core of a Logical Data Warehouse in which each system handles the workload which it can handle best. We call this using “fit for purpose” stores.

An analytical data warehouse appliance such as PureData System for Analytics is often at the core of this Logical Data Warehouse and it is efficient in many ways. It can host and process several terabytes of valuable, high-quality data enabling lightning fast analytics at scale. And it has been possible (with some effort) to move bulk data between Hadoop and relational databases using Sqoop – an open source component of Hadoop. But there was no way to query both systems using SQL – a huge disadvantage.

Two options for combining relational database and Hadoop

Why move bulk data between different systems or run cross-systems analytical queries? Well, there are several use cases for this scenario but I will only highlight two of them based on a typical business scenario in analytics.

The task: an analyst needs to find out how the stock level of the company’s products will develop throughout the year. This stock level is being updated very frequently and produces lots of data in the current data warehouse system implemented on PureData System for Analytics. Therefore the data cannot be kept in the system for more than a year (hot data). A report on this hot data indicates that the stock level is much too high and needs to be adjusted to keep stock costs low. This would normally trigger immediate sales activities (e.g. a marketing and/or sales campaign with lower prices).

“We need a report, which could analyze all stock levels for all products for the last 10+ years!”

Yet, a historical report, which could analyze all stock levels for all products for the last 10+ years would have indicated that the stock level at this time of the year is a good thing, because a high season is approaching. Therefore, the company would be able to sell most of their products and satisfy the market trend. But how can the company provide such a report with so much data?

Bild

The company would have 2 use case options to satisfy their needs:

  1. Replace the existing analytical data warehouse appliance with a newer and bigger one (This would cost some dollars and has been covered in another blog post.), or
  2. Use an existing Hadoop cluster as a cheap storage and processing extension for the data warehouse appliance (Note that a new, yet to be implemented Hadoop cluster would probably cost more than a bigger PureData box as measured by Total Cost of Ownership).

Option 2 would require a mature, flexible integration interface between Hadoop and PureData. Sqoop would not be able to handle this, because it requires more capabilities than just bulk data movement capabilities from Hadoop to PureData.

IBM Fluid Query for seamless cross-platform data access using standard SQL

These requirements are only two of the reasons why IBM has introduced IBM Fluid Query in March, 2015 as a no charge extension for PureData System for Analytics. Fluid Query enables bulk data movement from Hadoop to PureData and vice versa ANDoperational SQL query federation. With Fluid Query, data residing in Hadoop distributions from Cloudera, Hortonworks and IBM BigInsights for Apache Hadoop can be combined with the data residing in PureData using standard SQL syntax.

“Move and query all data, find the value in the data and integrate only if needed.”

This enables users to seamlessly query older, cooler data and hot data without the complexity of data integration with a more exploratory approach: move and query all data, find the value in the data and integrate only if needed.

Bild

IBM Fluid Query can be downloaded and installed as a free add-on for PureData System for Analytics.

Try it out today. IBM Fluid Query is technology that is available for PureData System for Analytics.  Clients can download and install this software and get started right away with these new capabilities.  Download it here on Fix Central. Doug Dailey’s “Getting Started with Fluid Query” blog for more information and documentation links to get started is highly recommended reading.

Bild

Do you need more information? Follow me on Twitter.

How to get the most out of your PureData System for Analytics using Hadoop as a cost-efficient extension

23. Juni 2015 Posted by Ralf Götz

Today’s requirements for collecting huge amounts of data are different from several years back when only relational databases satisfied the need for a system of record. Now, new data formats need to be acquired, stored and processed in a convenient and flexible way. Customers need to integrate different systems and platforms to unify data access and acquisition without losing control and security.

The logical data warehouse

More and more relational databases and Hadoop platforms are building the core of a Logical Data Warehouse in which each system handles the workload which it can handle best. We call this using “fit for purpose” stores.

An analytical data warehouse appliance such as PureData System for Analytics is often at the core of this Logical Data Warehouse and it is efficient in many ways. It can host and process several terabytes of valuable, high-quality data enabling lightning fast analytics at scale. And it has been possible (with some effort) to move bulk data between Hadoop and relational databases using Sqoop – an open source component of Hadoop. But there was no way to query both systems using SQL – a huge disadvantage.

Two options for combining relational database and Hadoop

Why move bulk data between different systems or run cross-systems analytical queries? Well, there are several use cases for this scenario but I will only highlight two of them based on a typical business scenario in analytics.

The task: an analyst needs to find out how the stock level of the company’s products will develop throughout the year. This stock level is being updated very frequently and produces lots of data in the current data warehouse system implemented on PureData System for Analytics. Therefore the data cannot be kept in the system for more than a year (hot data). A report on this hot data indicates that the stock level is much too high and needs to be adjusted to keep stock costs low. This would normally trigger immediate sales activities (e.g. a marketing and/or sales campaign with lower prices).

“We need a report, which could analyze all stock levels for all products for the last 10+ years!”

Yet, a historical report, which could analyze all stock levels for all products for the last 10+ years would have indicated that the stock level at this time of the year is a good thing, because a high season is approaching. Therefore, the company would be able to sell most of their products and satisfy the market trend. But how can the company provide such a report with so much data?

Bild

The company would have 2 use case options to satisfy their needs:

  1. Replace the existing analytical data warehouse appliance with a newer and bigger one (This would cost some dollars and has been covered in another blog post.), or
  2. Use an existing Hadoop cluster as a cheap storage and processing extension for the data warehouse appliance (Note that a new, yet to be implemented Hadoop cluster would probably cost more than a bigger PureData box as measured by Total Cost of Ownership).

Option 2 would require a mature, flexible integration interface between Hadoop and PureData. Sqoop would not be able to handle this, because it requires more capabilities than just bulk data movement capabilities from Hadoop to PureData.

IBM Fluid Query for seamless cross-platform data access using standard SQL

These requirements are only two of the reasons why IBM has introduced IBM Fluid Query in March, 2015 as a no charge extension for PureData System for Analytics. Fluid Query enables bulk data movement from Hadoop to PureData and vice versa ANDoperational SQL query federation. With Fluid Query, data residing in Hadoop distributions from Cloudera, Hortonworks and IBM BigInsights for Apache Hadoop can be combined with the data residing in PureData using standard SQL syntax.

“Move and query all data, find the value in the data and integrate only if needed.”

This enables users to seamlessly query older, cooler data and hot data without the complexity of data integration with a more exploratory approach: move and query all data, find the value in the data and integrate only if needed.

Bild

IBM Fluid Query can be downloaded and installed as a free add-on for PureData System for Analytics.

Try it out today. IBM Fluid Query is technology that is available for PureData System for Analytics.  Clients can download and install this software and get started right away with these new capabilities.  Download it here on Fix Central. Doug Dailey’s “Getting Started with Fluid Query” blog for more information and documentation links to get started is highly recommended reading.

Bild

Do you need more information? Follow me on Twitter.