Articles

BigQuery Rapide et simple

Image
Bonjour et je m’excuse de ne pas avoir posté depuis si longtemps. Il y a deux raisons : la première est qu’il ne se passe pas grand chose nous le concédons sur GCP et la deuxième est que Domwee prépare activement la sortie d’un logiciel. Nous vous tiendrons au courant plus tard. Pour patienter un petit peu nous avons fait une vidéo sur BigQuery parce que cette base de données mérite vraiment le détour. C’est la première et nous en ferons d’autres :  https://www.youtube.com/watch?v=C7h64_bWe_M

Data loss prevention API

Image
Les entreprises traitent de plus en plus leur données automatiquement. Plusieurs profils peuvent être amenés à “jouer” avec leurs données : data scientists internes, data scientists externes ou entreprises spécialisées dans ce domaine. Par faute de temps ou par manque d’outil les données fournies ne sont pas toujours pré traitées et sont souvent envoyées telles quelles, or cela a deux inconvénients : le premier (que tout le monde avait trouvé) transmettre des informations importantes inutiles et donc augmenter le risque de fuite d’information, Le deuxième c’est qu’une donnée trop riche nuit à son traitement. Je donne un exemple pour un ordinateur un numéro de téléphone est une suite de 4 numéros et s’ils ne sont pas contextualisé il prendra cela pour 4 numéros de 2 chiffres. Dans certains cas il est préférable de remplacer ces 4 séries de chiffres par un libellé comme NumTéléphone pour faire comprendre à l’algorithme que c’est l’information de la présence de numéro...

What’s new 18/11/2019

News 1 : Sécurité GCP et machine learning Google est adepte du machine learning surtout quand il s’agit de monitorer ces serveurs et on le comprend quand on a plus de 70 000 serveurs dans un datacenter on voit bien l’intérêt de régler automatiquement la climatisation et l’électricité. Google est aussi adepte d’analyse de logs c’est comme cela que Google élimine ou développe ces centaines d’applications. Malheur aux application avec peu de trafic. Une énorme introduction qui va m’aider à expliquer le nouveau service que propose Google en béta en effet Google fait du machine learning sur les logs d’accès des utilisateurs GCP sur les 3 derniers mois pour prédire si les droits ne sont pas trop permissifs et alerter les administrateurs sur le fait qu’un droit n’a pas été utilisé depuis longtemps et qu’il n’est peut être pas pertinent de le conserver ou que tel autre était propriétaire et qu’il peut passer éditeur seulement. Vous l’aurez compris ce service s’adresse aux ...

What’s new 11/11/2019

Image
News 1 : Procédures stockées et tables temporaires dans BigQuery L’outil BigQuery est très puissant, de ce fait il est largement utilisé par les personnes qui ont besoin de préparer leurs données sur des millions ou des milliards de lignes. Aujourd’hui il est plus facile de faire cette tâche car des options de scripts sont arrivés comme les boucles De plus nous pouvons créer des procédures stockées ce qui va alléger les requêtes et faciliter la lecture de celles ci et pour la maintenance c’est une réelle bouffée d’air pur.  La dernière chose est la possibilité de créer des tables temporaires. Pour nous cela n’était pas essentiel puisqu’il existait un workaround facile à mettre en place : utiliser un dataset de travail qui ne conserve les données qu’un seul jour cela est d’ailleurs beaucoup plus utile que les tables temporaires pour débugger.  Plus d’informations en anglais ici News 2 : BigQuery est compatible avec Parquet et ORC Parquet et Apach...

What’s new 28/10/2019

Image
News 1 : Grafana propose un plugin BigQuery Grafana permet d’afficher l’utilisation de BigQuery dans des Dashboards grâce à un plugin.  Plus d’informations en anglais ici News 2 : La suite Teradata arrive sur GCP en 2020 La suite de traitement de données Teradata va faire son apparition en 2020 sur la plateforme GCP Plus d’informations en anglais ici News 3 : Sql server en Beta sur Cloud SQL  Il est maintenant possible de choisir Sql Server dans Cloud SQL. Un pas de plus qui va permettre de mettre encore plus de solutions dans le cloud managé. Plus d’informations en anglais ici

What’s new 30/09/2019

Image
News 1 : Passer de redshift vers Google BigQuery c’est devenu très simple Google simplifie la migration des données de Amazon redshift vers Google Bigquery . Cela est très intéressant pour économiser de l’argent sur des bases de données décisionnelles et gagner en simplicité sur la gestion des ressources. Plus d’informations en anglais ici News 2 : Besoin d’une base de données VRAIMENT disponible  Le schéma de Google va trop loin mais c’est plus le fond qui nous intéresse et il est vrai qu’une base de données décisionnelle classique nécessite de l’attention (optimisation et gestion des pics de charge) et il y a des moments (lors du chargement des nouvelles données) où les données ne sont pas disponibles. Passer sur des bases de données nouvelles générations comme BigQuery ne nécessite AUCUNE action d’optimisation et reste accessible même pendant les chargements de données. C’est un réel gain économique et en confort d’utilisation.   ...

Datalake comparaison - 10 Conclusion

Franchement nous avions d’énormes à priori avant de commencer ce comparatif et honnêtement le résultat nous surprend nous même. Toutes les solutions analysées présentent des intérêts et aucune ne peut prétendre être la solution ultime, c’est d’ailleurs celle qui veut tout faire à la fois qui pour nous est la moins intéressante. Nous ne pouvons que saluer les efforts d’innovations que les différents éditeurs ont trouvées et nous les remercions de proposer des outils qui permettent de traiter nos chères données. En effet nous parlons toujours comme si LA donnée était une seule entité et devait se traiter de la même manière mais c’est faux il y a plusieurs types de données : les chaudes qui sont consommées immédiatement, les froides qu’on ne va voir qu’une fois de temps en temps, il y a aussi des données qui servent à tirer des tendances, il y a des données qui servent à savoir ce qu’il s’est passé pour trouver une cause au problème, il y a des données confidentielles, il y a d...