Datalake comparaison - 10 Conclusion
Franchement nous avions d’énormes à priori avant de commencer ce comparatif et honnêtement le
résultat nous surprend nous même. Toutes les solutions analysées présentent des intérêts et
aucune ne peut prétendre être la solution ultime, c’est d’ailleurs celle qui veut tout faire à la fois qui
pour nous est la moins intéressante. Nous ne pouvons que saluer les efforts d’innovations que les
différents éditeurs ont trouvées et nous les remercions de proposer des outils qui permettent de
traiter nos chères données. En effet nous parlons toujours comme si LA donnée était une seule
entité et devait se traiter de la même manière mais c’est faux il y a plusieurs types de données : les
chaudes qui sont consommées immédiatement, les froides qu’on ne va voir qu’une fois de temps en
temps, il y a aussi des données qui servent à tirer des tendances, il y a des données qui servent à
savoir ce qu’il s’est passé pour trouver une cause au problème, il y a des données confidentielles, il
y a des données à partager publiquement… Les données disponibles dans les entreprises sont très
différentes et ont bien souvent besoin d’un traitement tout aussi différent. D’ailleurs il n’est pas rare
de trouver dans les hébergeurs cloud plusieurs solutions de traitement de la donnée comme chez
Google qui propose de manager pour vous 4 grandes familles des solutions analysées (SGBDR,
Hadoop, BigQuery et Cloudspanner) et qui proposera bientôt Snowflake. Ce qu’il faut comprendre
c’est que ces solutions sont complémentaires et non pas concurrentes et ceux qui s’obstinent à
vouloir les opposer s’éloignent de ce qui est important à savoir : quel est le type de données que
vous avez dans votre entreprise et quel est votre besoin? Et c’est seulement après que l’on choisit
une solution. Le débat n’est pas quelle est la meilleure solution mais plutôt quelles données vous
avez et qu’est-ce que vous voulez en faire. Quant à nous nous préférons proposer des
préconisations d’outils en fonction de plusieurs besoins vous les trouverez ci dessous :
Datawarehouse petite volumétrie
SGBDR classique, Redshift ou BigQuery
Datawarehouse BigData
BigQuery, snowflake, Redshift
BigData Application avec une table ou modèle très simple
Hadoop, MongoDB
BigData application avec modèle complexe
CloudSpanner
Application Critique
CloudSpanner
Datalake petite volumétrie
SGBDR classique, BigQuery
Datalake BigData
BigQuery, Snowflake, MongoDb, Hadoop managé
Machine learning (tensorflow)
BigQuery parce que la plateforme Google est la plus avancée dans le domaine de tensorflow managée.
Machine learning multi algorithmes
Snowflake, Bigquery, Hadoop
N’hésitez pas à faire appel à notre entreprise Domwee si vous avez des besoins de conseils ou
d’intégration sur les problématiques de traitement de données dans le cloud. Nous avons mis
beaucoup de temps et de coeur pour écrire ce dossier et si vous avez aimez n’hésitez pas à le
partager à tous ceux qui pourraient être intéressés il a été écrit pour cela.
Ne passez pas à côté de la révolution cloud et n’oubliez pas : “traiter vos données avec le respect
qu’elles méritent”.
Plan :
1 introduction
Plan :
1 introduction
Commentaires
Enregistrer un commentaire