Cloud Storage
On va commencer la présentation des services de GCP par le plus simple et celui qui est utilisé par
pratiquement tous les autres services GCP : Cloud Storage.
A l’instar d’un disque dur sur votre ordinateur cloud storage est l’endroit de stockage des fichiers
pour GCP. Il a de ce fait les mêmes fonctions qu’un disque dur allant du stockage de fichiers vitaux
pour les applications au stockage de sauvegardes en passant par le stockage de fichiers
multimédia. On peut naturellement mettre des droits sur les fichiers.
Mais ce n’est pas tout cloud storage amène de la sécurisation dans le stockage de données, de la
haute disponibilité à travers le monde, il permet aussi de gérer le cycle de vie des fichiers, la
maintenance est assurée par les équipes de Google et tout cela avec un prix au Mo utilisé.
Beaucoup de personnes nous ont demandé ce que cloud storage avait de différent par rapport à
Drive ou même à Team Drive. En fait ils pensaient trouver un outil qui pourrait pallier les manques
rencontrés lors de l’utilisation des deux produits de G Suite mais Cloud Storage n’est pas fait pour
être utilisé par des end users directement. Il sert à faire du stockage applicatif. Il y a certes des
applications qui pourront mettre à disposition des fichiers, mais l’interface devra être développée
dans une application web par exemple.
Voici en détail ce qu’est cloud storage :
Sécurisation du stockage : Le gros avantage de cloud storage est qu’il ne dépend pas que d’un
seul matériel pour stocker vos fichiers. Les datacenters traditionnels proposent généralement de
stocker vos fichiers sur une baie de disque durs (NAS ou SAN appelés NAS dans la suite) avec de
la redondance d’information sur les disques durs (si vous souhaitez en savoir plus faîtes une
recherche sur la technologie RAID sur internet) et aussi une redondance d’alimentation. Ces deux
sécurités vous protègent des deux principales défaillances que l’on retrouve en informatique à savoir
un disque dur ou une alimentation qui tombe en panne. Avant que les SSD ne se démocratisent les
disques dur avec les lecteurs optiques restaient les deux dernières pièces mécaniques à l’intérieur
de nos calculateurs préférés. D’ailleurs c’était le seul bruit avec les ventilateurs qui émanait de nos
ordinateurs. Comme toutes les pièces mécaniques ils sont sujets à l’usure. Bref redonder ces
composants est primordial puisque sans données aucune application ne peut fonctionner. En
revanche cela ne prévient pas d’une autre panne, comme une barette de RAM qui a surchauffée ou
la carte mère du NAS qui flanche dans le meilleur des cas les données sont inaccessibles le temps
de la réparation mais dans d’autres cas les données sont perdues. Pour éviter de tout perdre les
datacenters proposent une sauvegarde régulière sur un autre support de vos données souvent un
robot de sauvegarde avec des bandes magnétiques et la perte de données se limite au travail d’une
journée. Dans Google cloud platforme les données sont réparties et redondées entre plusieurs NAS
ce qui protège non seulement d’une panne d’un disque dur mais aussi d’une panne d’un NAS. Cela
n’empêche pas Google de faire des sauvegarde régulière des données pour palier aux imprévus
plus grave. En résumé la perte ou l’inaccessibilité des données est quasiment nulle (reste le dernier
point noir la défaillance de la connexion internet que nous vous conseillons de doubler). Les
données sont chiffrées et réparties sur différents NAS ce qui rend presque impossible pour un
hacker qui a pris le contrôle au niveau physique d’un serveur du datacenter de Google de pouvoir
avoir accès aux données et rappelons que Google a une équipe dédiée d’ingénieurs sécurité qui
scrutent 24h/24 7J/7 les intrusions. Vous l’aurez compris en terme de sécurité le choix de GCP est
un très bon choix. En ce qui concerne les disques durs usagés, ceux ci sont détruits directement
dans le datacenter quand ils sont sortis du circuit d’utilisation chez Google.
Maintenance : Google n’attend pas qu’un disque dur montre des signes de défaillance pour le
remplacer, ils ont des process internes et changent les disques durs tous les X jours. Comme ce
sont de très gros datacenters et que tout est standardisé Google a toutes les pièces de rechange en
stock (alimentation, disque dur, barette de RAM….) ce qui assure un temps de panne le plus court
possible. Ils ne sont pas obligés d’attendre qu’un spécialiste se déplace pour venir réparer. La
gestion de l’obsolescence est importante qui ne s’est jamais retrouvé dans la situation ou un serveur
ne peut pas être migré ou ne peut pas accueillir le dernier patch de sécurité parce qu’il utilise une
technologie dépassée? Cela ne peut pas se produire avec cloud storage car Google a conçu un
système qui ne dépend pas que d’un seul matériel et les données peuvent être déplacées à la volée
entre ces différents NAS à chaud ce qui permet de décomissionner un NAS pour le remplacer par
un nouveau à n’importe quel moment tout en étant transparent pour nous les utilisateurs. En ayant
des dizaines de milliers de serveurs dans leurs datacenters Google peut se permettre de dédier des
personnes à ces tâches de maintenance et d’assurer un service de qualité et d’industrialiser un
grand nombre de processus.
Prix adaptatif : Au contraire d’un grand nombre de datacenters traditionnels les datacenters du
cloud public propose un coût au Mo stocké et non pas au Mo réservé. La différence est très
importante et permet de faire des économies importantes puisqu’on ne paye pas pour des Mo non
utilisés qui sont dimensionnés pour les prochains mois ou années d’utilisation du service.
Autre particularité il y a des niveaux de disponibilité des données en fonction de l’utilisation que l’on
souhaite en faire. En effet on peut classer les données selon une “température”, on va dire que les
données utilisées plusieurs fois par jour sont très chaudes et les données utilisées une fois par an
ou presque jamais sont très froides. Les données chaudes sont les données essentielles au
fonctionnement de l’entreprise ou de votre application et doivent être disponibles le plus rapidement
possible afin d’avoir la meilleure productivité et les données froides sont généralement des archives
ou des sauvegardes qui peuvent être utiles un jour comme ne jamais l’être. Dans les entreprises
actuelles on va souvent utiliser des bandes de sauvegardes pour les données froides c’est un
support moins onéreux que des disques durs en contrepartie on accepte de mettre plusieurs
minutes voire plusieurs jours dans certains cas pour retrouver et récupérer les données. Dans GCP
c’est pareil on a différents types de stockage classés du plus chaud au plus froid :
- Multi-Regional Storage : données utilisées très souvent dans le monde entier
- Regional Storage : données utilisées très souvent seulement sur un continent
- Nearline Storage : données utilisées une poignée de fois par mois
- Coldline Storage : données d’archive très peu utilisées
En ce qui concerne le type de stockage Multi-Régional Google réplique les données entre plusieurs
datacenters sur toute la planète le coût de stockage au Mo est le plus élevé mais la latence pour les
utilisateurs, et ce peu importe où ils se trouvent dans le monde, est ultra courte. Cette option est à
proscrire si vous êtes contraint de conserver vos données dans l’union européenne. Les autre
classes de stockage permettent de choisir le lieu de stockage.
Les coûts changent trop souvent pour les afficher ici nous vous invitons à aller les voir sur cette
Les types de stockage Nearline et Coldline sont un poil moins réactifs que les deux premiers types
de stockage (cela est de l’ordre quelques dizaines de millisecondes) et sont très attractifs en terme
de coût. La grosse différence c’est que chaque utilisation des données est payante et donc vous
pouvez payer plus cher (pour le même nombre de Mo) un stockage de type nearline qu’un stockage
de type Regional si vous avez mal estimé la fréquence d’utilisation de vos données Nearline. A
savoir que les données de type coldline et nearline ont une durée minimale de stockage, c’est à dire
que si vous supprimez vos données avant le délai minimum vous continuez à payer (1 mois pour
nearline et 3 pour coldline). Autre point à savoir, un fichier modifié pour les classes de stockage froid
correspond à une suppression et un ajout.
Cycle de vie des fichiers : Comme vous avez pu le remarquer le prix de cloud storage se fait au
Mo stocké et conserver des données coûte de l’argent et garder des données inutiles est du
gaspillage économique et écologique, il existe une notion souvent sous utilisée qui permet
d’optimiser le stockage en définissant une obsolescence des données, il est en effet possible de
définir dans un bucket (nom pour définir une entité de base dans Cloud storage il peut être vu
comme un répertoire racine) une durée de rétention de l’information et passé ce délai les fichiers
sont automatiquement supprimés. C’est très utile pour les archives ou les sauvegardes qui sont déjà
traitées comme cela en entreprise parce que les bandes de sauvegardes sont utilisées plusieurs
fois. De par la facilité de mise en place dans GCP nous vous encourageons à étendre ce
comportement à d’autres cas. On peut également gérer le nombre de versions conservé pour un
fichier, il y a pas mal de paramétrage disponible dans la documentation.
Partage de fichiers :
L’utilisation de cloud storage pour les outils de cloud platform est native, c’est d’ailleurs très souvent
cloud storage qui fait la passerelle entre deux outils.
Le chemin à utiliser est gs://[nom du bucket]/[chemin]/[nom du fichier]
Ces liens sont courts et clairs, la seule contrainte c’est que chaque bucket doit être unique pour tous
les clients Google et donc quelquefois Google nous dit que le nom existe déjà lors de la création
d’un bucket (ça peut être pénible, une bonne pratique est de préfixer le nom du bucket par le nom
du projet ou l’id, cela permet aussi de s’y retrouver plus facilement)..
Le partage se fait au niveau du bucket donc pensez bien à créer des ensembles de données en
fonction du partage et non pas par fonction d’un autre élément. Les partages vers un compte Google
ou vers un projet GCP sont très faciles, il suffit de mettre le compte Google de l’utilisateur ou du
service concerné. Les partages avec des personnes n’ayant pas de compte Google (fournisseurs,
clients) sont possibles, il faudra dans ce cas créer un compte de service avec une clef json et
partager le bucket avec ce compte nouvellement créé. Google ne facture pas les comptes de
service, en revanche la personne ne pourra pas utiliser l’interface graphique de Google et sera
obligée passer par les api. Google cloud SDK permet d’utiliser ces comptes. C’est un outil en ligne
de commande (gratuit) qui s’installe sur tous les OS.
En conclusion Cloud storage est un outil de stockage applicatif sécurisé, économique et performant.
Il ne remplace pas G Drive ou Team Drive. C’est un service de stockage pour des sites web, de la
sauvegarde de données, des applications ou un espace d’échanges inter applicatifs avec vos
fournisseurs ou vos clients. Petite précision à ce sujet Cloud storage ne supporte pas le protocole
FTP, il utilise le HTTPS et ne permet pas de gérer les droits finement au sous-dossier (le dossier
racine pour rappel étant le bucket) ou au fichier comme le ferait un serveur FTP.
Commentaires
Enregistrer un commentaire