Datalake comparaison - 10 Conclusion

Franchement nous avions d’énormes à priori avant de commencer ce comparatif et honnêtement le résultat nous surprend nous même. Toutes les solutions analysées présentent des intérêts et aucune ne peut prétendre être la solution ultime, c’est d’ailleurs celle qui veut tout faire à la fois qui pour nous est la moins intéressante. Nous ne pouvons que saluer les efforts d’innovations que les différents éditeurs ont trouvées et nous les remercions de proposer des outils qui permettent de traiter nos chères données. En effet nous parlons toujours comme si LA donnée était une seule entité et devait se traiter de la même manière mais c’est faux il y a plusieurs types de données : les chaudes qui sont consommées immédiatement, les froides qu’on ne va voir qu’une fois de temps en temps, il y a aussi des données qui servent à tirer des tendances, il y a des données qui servent à savoir ce qu’il s’est passé pour trouver une cause au problème, il y a des données confidentielles, il y a des données à partager publiquement… Les données disponibles dans les entreprises sont très différentes et ont bien souvent besoin d’un traitement tout aussi différent. D’ailleurs il n’est pas rare de trouver dans les hébergeurs cloud plusieurs solutions de traitement de la donnée comme chez Google qui propose de manager pour vous 4 grandes familles des solutions analysées (SGBDR, Hadoop, BigQuery et Cloudspanner) et qui proposera bientôt Snowflake. Ce qu’il faut comprendre c’est que ces solutions sont complémentaires et non pas concurrentes et ceux qui s’obstinent à vouloir les opposer s’éloignent de ce qui est important à savoir : quel est le type de données que vous avez dans votre entreprise et quel est votre besoin? Et c’est seulement après que l’on choisit une solution. Le débat n’est pas quelle est la meilleure solution mais plutôt quelles données vous avez et qu’est-ce que vous voulez en faire. Quant à nous nous préférons proposer des préconisations d’outils en fonction de plusieurs besoins vous les trouverez ci dessous :


Datawarehouse petite volumétrie
SGBDR classique, Redshift ou BigQuery


Datawarehouse BigData
BigQuery, snowflake, Redshift


BigData Application avec une table ou modèle très simple
Hadoop, MongoDB


BigData application avec modèle complexe
CloudSpanner


Application Critique
CloudSpanner


Datalake petite volumétrie
SGBDR classique, BigQuery


Datalake BigData
BigQuery, Snowflake, MongoDb, Hadoop managé


Machine learning (tensorflow)
BigQuery parce que la plateforme Google est la plus avancée dans le domaine de tensorflow managée.


Machine learning multi algorithmes 
Snowflake, Bigquery, Hadoop

N’hésitez pas à faire appel à notre entreprise Domwee si vous avez des besoins de conseils ou d’intégration sur les problématiques de traitement de données dans le cloud. Nous avons mis beaucoup de temps et de coeur pour écrire ce dossier et si vous avez aimez n’hésitez pas à le partager à tous ceux qui pourraient être intéressés il a été écrit pour cela.



Ne passez pas à côté de la révolution cloud et n’oubliez pas : “traiter vos données avec le respect qu’elles méritent”.

Plan :
1 introduction


8 SAP Hana
9 CloudSpanner
10 conclusion

Commentaires

Posts les plus consultés de ce blog

Load Balancer

Data loss prevention API