Cloud Storage

On va commencer la présentation des services de GCP par le plus simple et celui qui est utilisé par

pratiquement tous les autres services GCP : Cloud Storage.

A l’instar d’un disque dur sur votre ordinateur cloud storage est l’endroit de stockage des fichiers

pour GCP. Il a de ce fait les mêmes fonctions qu’un disque dur allant du stockage de fichiers vitaux

pour les applications au stockage de sauvegardes en passant par le stockage de fichiers

multimédia. On peut naturellement mettre des droits sur les fichiers.

Mais ce n’est pas tout cloud storage amène de la sécurisation dans le stockage de données, de la

haute disponibilité à travers le monde, il permet aussi de gérer le cycle de vie des fichiers, la

maintenance est assurée par les équipes de Google et tout cela avec un prix au Mo utilisé.

Beaucoup de personnes nous ont demandé ce que cloud storage avait de différent par rapport à

Drive ou même à Team Drive. En fait ils pensaient trouver un outil qui pourrait pallier les manques

rencontrés lors de l’utilisation des deux produits de G Suite mais Cloud Storage n’est pas fait pour

être utilisé par des end users directement. Il sert à faire du stockage applicatif. Il y a certes des

applications qui pourront mettre à disposition des fichiers, mais l’interface devra être développée

dans une application web par exemple.

Voici en détail ce qu’est cloud storage :

Sécurisation du stockage : Le gros avantage de cloud storage est qu’il ne dépend pas que d’un

seul matériel pour stocker vos fichiers. Les datacenters traditionnels proposent généralement de

stocker vos fichiers sur une baie de disque durs (NAS ou SAN appelés NAS dans la suite) avec de

la redondance d’information sur les disques durs (si vous souhaitez en savoir plus faîtes une

recherche sur la technologie RAID sur internet) et aussi une redondance d’alimentation. Ces deux

sécurités vous protègent des deux principales défaillances que l’on retrouve en informatique à savoir

un disque dur ou une alimentation qui tombe en panne. Avant que les SSD ne se démocratisent les

disques dur avec les lecteurs optiques restaient les deux dernières pièces mécaniques à l’intérieur

de nos calculateurs préférés. D’ailleurs c’était le seul bruit avec les ventilateurs qui émanait de nos

ordinateurs. Comme toutes les pièces mécaniques ils sont sujets à l’usure. Bref redonder ces

composants est primordial puisque sans données aucune application ne peut fonctionner. En

revanche cela ne prévient pas d’une autre panne, comme une barette de RAM qui a surchauffée ou

la carte mère du NAS qui flanche dans le meilleur des cas les données sont inaccessibles le temps

de la réparation mais dans d’autres cas les données sont perdues. Pour éviter de tout perdre les

datacenters proposent une sauvegarde régulière sur un autre support de vos données souvent un

robot de sauvegarde avec des bandes magnétiques et la perte de données se limite au travail d’une

journée. Dans Google cloud platforme les données sont réparties et redondées entre plusieurs NAS

ce qui protège non seulement d’une panne d’un disque dur mais aussi d’une panne d’un NAS. Cela

n’empêche pas Google de faire des sauvegarde régulière des données pour palier aux imprévus

plus grave. En résumé la perte ou l’inaccessibilité des données est quasiment nulle (reste le dernier

point noir la défaillance de la connexion internet que nous vous conseillons de doubler). Les

données sont chiffrées et réparties sur différents NAS ce qui rend presque impossible pour un

hacker qui a pris le contrôle au niveau physique d’un serveur du datacenter de Google de pouvoir

avoir accès aux données et rappelons que Google a une équipe dédiée d’ingénieurs sécurité qui

scrutent 24h/24 7J/7 les intrusions. Vous l’aurez compris en terme de sécurité le choix de GCP est

un très bon choix. En ce qui concerne les disques durs usagés, ceux ci sont détruits directement

dans le datacenter quand ils sont sortis du circuit d’utilisation chez Google.

Maintenance : Google n’attend pas qu’un disque dur montre des signes de défaillance pour le

remplacer, ils ont des process internes et changent les disques durs tous les X jours. Comme ce

sont de très gros datacenters et que tout est standardisé Google a toutes les pièces de rechange en

stock (alimentation, disque dur, barette de RAM….) ce qui assure un temps de panne le plus court

possible. Ils ne sont pas obligés d’attendre qu’un spécialiste se déplace pour venir réparer. La

gestion de l’obsolescence est importante qui ne s’est jamais retrouvé dans la situation ou un serveur

ne peut pas être migré ou ne peut pas accueillir le dernier patch de sécurité parce qu’il utilise une

technologie dépassée? Cela ne peut pas se produire avec cloud storage car Google a conçu un

système qui ne dépend pas que d’un seul matériel et les données peuvent être déplacées à la volée

entre ces différents NAS à chaud ce qui permet de décomissionner un NAS pour le remplacer par

un nouveau à n’importe quel moment tout en étant transparent pour nous les utilisateurs. En ayant

des dizaines de milliers de serveurs dans leurs datacenters Google peut se permettre de dédier des

personnes à ces tâches de maintenance et d’assurer un service de qualité et d’industrialiser un

grand nombre de processus.

Prix adaptatif : Au contraire d’un grand nombre de datacenters traditionnels les datacenters du

cloud public propose un coût au Mo stocké et non pas au Mo réservé. La différence est très

importante et permet de faire des économies importantes puisqu’on ne paye pas pour des Mo non

utilisés qui sont dimensionnés pour les prochains mois ou années d’utilisation du service.

Autre particularité il y a des niveaux de disponibilité des données en fonction de l’utilisation que l’on

souhaite en faire. En effet on peut classer les données selon une “température”, on va dire que les

données utilisées plusieurs fois par jour sont très chaudes et les données utilisées une fois par an

ou presque jamais sont très froides. Les données chaudes sont les données essentielles au

fonctionnement de l’entreprise ou de votre application et doivent être disponibles le plus rapidement

possible afin d’avoir la meilleure productivité et les données froides sont généralement des archives

ou des sauvegardes qui peuvent être utiles un jour comme ne jamais l’être. Dans les entreprises

actuelles on va souvent utiliser des bandes de sauvegardes pour les données froides c’est un

support moins onéreux que des disques durs en contrepartie on accepte de mettre plusieurs

minutes voire plusieurs jours dans certains cas pour retrouver et récupérer les données. Dans GCP

c’est pareil on a différents types de stockage classés du plus chaud au plus froid :

Multi-Regional Storage : données utilisées très souvent dans le monde entier
Regional Storage : données utilisées très souvent seulement sur un continent
Nearline Storage : données utilisées une poignée de fois par mois
Coldline Storage : données d’archive très peu utilisées

En ce qui concerne le type de stockage Multi-Régional Google réplique les données entre plusieurs

datacenters sur toute la planète le coût de stockage au Mo est le plus élevé mais la latence pour les

utilisateurs, et ce peu importe où ils se trouvent dans le monde, est ultra courte. Cette option est à

proscrire si vous êtes contraint de conserver vos données dans l’union européenne. Les autre

classes de stockage permettent de choisir le lieu de stockage.

Les coûts changent trop souvent pour les afficher ici nous vous invitons à aller les voir sur cette

page : https://cloud.google.com/storage/docs/storage-classes.

Les types de stockage Nearline et Coldline sont un poil moins réactifs que les deux premiers types

de stockage (cela est de l’ordre quelques dizaines de millisecondes) et sont très attractifs en terme

de coût. La grosse différence c’est que chaque utilisation des données est payante et donc vous

pouvez payer plus cher (pour le même nombre de Mo) un stockage de type nearline qu’un stockage

de type Regional si vous avez mal estimé la fréquence d’utilisation de vos données Nearline. A

savoir que les données de type coldline et nearline ont une durée minimale de stockage, c’est à dire

que si vous supprimez vos données avant le délai minimum vous continuez à payer (1 mois pour

nearline et 3 pour coldline). Autre point à savoir, un fichier modifié pour les classes de stockage froid

correspond à une suppression et un ajout.

Cycle de vie des fichiers : Comme vous avez pu le remarquer le prix de cloud storage se fait au

Mo stocké et conserver des données coûte de l’argent et garder des données inutiles est du

gaspillage économique et écologique, il existe une notion souvent sous utilisée qui permet

d’optimiser le stockage en définissant une obsolescence des données, il est en effet possible de

définir dans un bucket (nom pour définir une entité de base dans Cloud storage il peut être vu

comme un répertoire racine) une durée de rétention de l’information et passé ce délai les fichiers

sont automatiquement supprimés. C’est très utile pour les archives ou les sauvegardes qui sont déjà

traitées comme cela en entreprise parce que les bandes de sauvegardes sont utilisées plusieurs

fois. De par la facilité de mise en place dans GCP nous vous encourageons à étendre ce

comportement à d’autres cas. On peut également gérer le nombre de versions conservé pour un

fichier, il y a pas mal de paramétrage disponible dans la documentation.

Partage de fichiers :

L’utilisation de cloud storage pour les outils de cloud platform est native, c’est d’ailleurs très souvent

cloud storage qui fait la passerelle entre deux outils.

Le chemin à utiliser est gs://[nom du bucket]/[chemin]/[nom du fichier]

Ces liens sont courts et clairs, la seule contrainte c’est que chaque bucket doit être unique pour tous

les clients Google et donc quelquefois Google nous dit que le nom existe déjà lors de la création

d’un bucket (ça peut être pénible, une bonne pratique est de préfixer le nom du bucket par le nom

du projet ou l’id, cela permet aussi de s’y retrouver plus facilement)..

Le partage se fait au niveau du bucket donc pensez bien à créer des ensembles de données en

fonction du partage et non pas par fonction d’un autre élément. Les partages vers un compte Google

ou vers un projet GCP sont très faciles, il suffit de mettre le compte Google de l’utilisateur ou du

service concerné. Les partages avec des personnes n’ayant pas de compte Google (fournisseurs,

clients) sont possibles, il faudra dans ce cas créer un compte de service avec une clef json et

partager le bucket avec ce compte nouvellement créé. Google ne facture pas les comptes de

service, en revanche la personne ne pourra pas utiliser l’interface graphique de Google et sera

obligée passer par les api. Google cloud SDK permet d’utiliser ces comptes. C’est un outil en ligne

de commande (gratuit) qui s’installe sur tous les OS.

En conclusion Cloud storage est un outil de stockage applicatif sécurisé, économique et performant.

Il ne remplace pas G Drive ou Team Drive. C’est un service de stockage pour des sites web, de la

sauvegarde de données, des applications ou un espace d’échanges inter applicatifs avec vos

fournisseurs ou vos clients. Petite précision à ce sujet Cloud storage ne supporte pas le protocole

FTP, il utilise le HTTPS et ne permet pas de gérer les droits finement au sous-dossier (le dossier

racine pour rappel étant le bucket) ou au fichier comme le ferait un serveur FTP.

Rechercher dans ce blog

GCP partage

Cloud Storage

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Datalake comparaison - 10 Conclusion

Load Balancer

Data loss prevention API