Articles

What’s new 18/11/2019

News 1 : Sécurité GCP et machine learning Google est adepte du machine learning surtout quand il s’agit de monitorer ces serveurs et on le comprend quand on a plus de 70 000 serveurs dans un datacenter on voit bien l’intérêt de régler automatiquement la climatisation et l’électricité. Google est aussi adepte d’analyse de logs c’est comme cela que Google élimine ou développe ces centaines d’applications. Malheur aux application avec peu de trafic. Une énorme introduction qui va m’aider à expliquer le nouveau service que propose Google en béta en effet Google fait du machine learning sur les logs d’accès des utilisateurs GCP sur les 3 derniers mois pour prédire si les droits ne sont pas trop permissifs et alerter les administrateurs sur le fait qu’un droit n’a pas été utilisé depuis longtemps et qu’il n’est peut être pas pertinent de le conserver ou que tel autre était propriétaire et qu’il peut passer éditeur seulement. Vous l’aurez compris ce service s’adresse aux ...

What’s new 11/11/2019

Image
News 1 : Procédures stockées et tables temporaires dans BigQuery L’outil BigQuery est très puissant, de ce fait il est largement utilisé par les personnes qui ont besoin de préparer leurs données sur des millions ou des milliards de lignes. Aujourd’hui il est plus facile de faire cette tâche car des options de scripts sont arrivés comme les boucles De plus nous pouvons créer des procédures stockées ce qui va alléger les requêtes et faciliter la lecture de celles ci et pour la maintenance c’est une réelle bouffée d’air pur.  La dernière chose est la possibilité de créer des tables temporaires. Pour nous cela n’était pas essentiel puisqu’il existait un workaround facile à mettre en place : utiliser un dataset de travail qui ne conserve les données qu’un seul jour cela est d’ailleurs beaucoup plus utile que les tables temporaires pour débugger.  Plus d’informations en anglais ici News 2 : BigQuery est compatible avec Parquet et ORC Parquet et Apach...

What’s new 28/10/2019

Image
News 1 : Grafana propose un plugin BigQuery Grafana permet d’afficher l’utilisation de BigQuery dans des Dashboards grâce à un plugin.  Plus d’informations en anglais ici News 2 : La suite Teradata arrive sur GCP en 2020 La suite de traitement de données Teradata va faire son apparition en 2020 sur la plateforme GCP Plus d’informations en anglais ici News 3 : Sql server en Beta sur Cloud SQL  Il est maintenant possible de choisir Sql Server dans Cloud SQL. Un pas de plus qui va permettre de mettre encore plus de solutions dans le cloud managé. Plus d’informations en anglais ici

What’s new 30/09/2019

Image
News 1 : Passer de redshift vers Google BigQuery c’est devenu très simple Google simplifie la migration des données de Amazon redshift vers Google Bigquery . Cela est très intéressant pour économiser de l’argent sur des bases de données décisionnelles et gagner en simplicité sur la gestion des ressources. Plus d’informations en anglais ici News 2 : Besoin d’une base de données VRAIMENT disponible  Le schéma de Google va trop loin mais c’est plus le fond qui nous intéresse et il est vrai qu’une base de données décisionnelle classique nécessite de l’attention (optimisation et gestion des pics de charge) et il y a des moments (lors du chargement des nouvelles données) où les données ne sont pas disponibles. Passer sur des bases de données nouvelles générations comme BigQuery ne nécessite AUCUNE action d’optimisation et reste accessible même pendant les chargements de données. C’est un réel gain économique et en confort d’utilisation.   ...

Datalake comparaison - 10 Conclusion

Franchement nous avions d’énormes à priori avant de commencer ce comparatif et honnêtement le résultat nous surprend nous même. Toutes les solutions analysées présentent des intérêts et aucune ne peut prétendre être la solution ultime, c’est d’ailleurs celle qui veut tout faire à la fois qui pour nous est la moins intéressante. Nous ne pouvons que saluer les efforts d’innovations que les différents éditeurs ont trouvées et nous les remercions de proposer des outils qui permettent de traiter nos chères données. En effet nous parlons toujours comme si LA donnée était une seule entité et devait se traiter de la même manière mais c’est faux il y a plusieurs types de données : les chaudes qui sont consommées immédiatement, les froides qu’on ne va voir qu’une fois de temps en temps, il y a aussi des données qui servent à tirer des tendances, il y a des données qui servent à savoir ce qu’il s’est passé pour trouver une cause au problème, il y a des données confidentielles, il y a d...

Datalake comparaison - 9 Cloudspanner

Image
Dans ce chapitre nous allons nous consacrer à la solution Cloudspanner , une solution managée sur la plateforme cloud de Google GCP, cette solution a été développée par Google et est de ce fait une exclusivité GCP. Cette solution a été développée par Google pour ses propres besoins de gestion de grosses bases de données, elle est utilisée chez Google depuis plus de 4 ans sur des applications critiques. Google passe régulièrement le reste de ses applications critiques sur cette technologie (Gmail, adsense,adwords...) Si vous voyez des erreurs commises dans ce comparatif veuillez nous adresser un mail à contact@domwee.com nous nous efforcerons de corriger le plus rapidement possible. Architecture simplifiée L’architecture utilise des nœuds et des réplications, les tables sont réparties dans ces nœuds et les réplications sont utilisées pour faire des accès en lecture et de la redondance d’information pour éviter toute perte de données. Comme les données d’une même t...