Partenaires

CNRS

Rechercher

Sur ce site

Sur le Web du CNRS


Accueil du site > Les tables rondes de RAISIN > 01/06/2006 - Table ronde "Haute disponibilité"

01/06/2006 - Table ronde "Haute disponibilité"

par Anne Facq - 22 juin 2006

		NOTES DE LA TABLE RONDE HAUTE DISPONIBILITE	
			      01/06/2006

** La première table ronde RAISIN a eu lieu le jeudi 1 juin à 14h autour du thème de la haute disponibilité des services.

** Lieu : Salle 285, 2ème étage, Institut de Mathématiques de Bordeaux - IMB, Bât A33, Université Bordeaux 1

** Animateur : Christophe Delalande
** Prise de notes : Anne et Laurent Facq

** Le thème de cette table ronde "haute disponibilité" doit être pris dans son sens le plus large:
  - PCA (Plan de Continuité d'Activité): mesures permettant de basculer automatiquement un service en cas de panne
  - PRA  (Plan de Reprise d'Activité): mesures permettant de basculer manuellement un service en cas de panne

** Ordre du jour 
  - haute disponibilité avec heatbeat/mon/drbd
  - replication de spool de courrier avec CYRUS-IMAP
  - dhcp failover
  - disques SAN, FC, ISCSI, device-mapper-multipath
  - RedHat Cluster Suite
  - systèmes de fichiers clusterisés: GFS
  - replication ldap
  - virtualisation
  - réplication SQL
  - redondance réseau (channel-bonding, trunk, stp)

** Participants :
  - Serge Borderes (CENBG) 
  - Benoit Capelle (LaBRI)
  - Christophe Delalande (LaBRI)
  - Christophe Delmon (CREMI)
  - Philippe Depouilly (IMB)
  - Jean-Michel Escalier (EPOC)
  - Anne Facq (CRPP)
  - Laurent Facq  (REAUMUR)
  - Jacques Foury (IMB)
  - Patrice Fortier (Bordeaux III)
  - Jerome Castang (IMB)
  - Christian Labesse (IMB)
  - Laurent Lavaud (Bordeaux II)
  - Sandrine Layrisse (IMB)
  - Sandrine Maillet (CRPP)
  - Benoit Mandy (Bordeaux IV)
  - Gregoire Moreau  (REAUMUR)
  - Jean-Denis Portelli (REAUMUR)
  - Catherine Seznec (CENBG)
  - Pascal Ung (LaBRI)

** Deroulement de la table ronde
  1) Tour de table
  2) Presentation "Haute disponbilite de services" par Benoit Capelle (LaBRI) 
  3) Presentation "Fiabilisation de systeme de fichier - solutions
     GFS" par Jerome Gastan (IMB)

-------------------------------------------------------------------------------

1) TOUR DE TABLE

Le tour de table a permis aux participants de faire un etat des lieux
des solutions mises en place par les participants puis d'exprimer les
besoins par rapport a cette table ronde

** Etat des lieux 

  - Remarques generales 
    - dans un grand nombre de site les administrateurs travaillent sur
      la disponibilite des donnees ou des services plutot que sur la haute
      disponibilite
     - la replication ldap existe sur un grand nombre de sites

  - CENBG 
    - utilisation d'un serveurs NAS, RAID5 avec snapshot, snapshot très
      interessant. snapshot sur 15 jours -> utilisateurs
      autonomes. (solution payante)
    - utilisation de vmware GSX pour creer des serveurs virtuels
      (solution gratuite)
  
  - LaBRI :
    - utilisation d'une baie SAN connectee par fibre : elle comporte les
      donnees + les images des machines virtuelles vmware (solution payante)
    - maquette de replication cyrus-imap
    - utilisation de vmware ESX pour creer des serveurs virtuels 
      (solution payante)
    - utilisation de heartbeat
  
  - IMB 
    - utilisation de vmware-GSX et vmware-server pour creer des serveurs
      virtuels (solution gratuite)
      NB : virtualisation de webmail (horde/imp) fonctionne bien avec
      vmware-server mais pb avec vmware-gsx
    - test d'une solution a base de Redhat Cluster suite + GFS
    - maquette de replication cyrus-imap
    - replication de base mysql

  - EPOC
    - replication de base mysql
  
  - Bordeaux II 
    - virtualisation de serveurs (webmail,replica LDAP) avec XEN
      (solution gratuite)
    - partie de reseau redondee (spanning tree niveau 2) et objectif de
      redonder site en hertzien + operateur
  
  - CRPP 
    - virtualisation de services windows (antivirus, WSUS) avec
      MS Virtual Server (solution gratuite)
    - synchronisation des donnees avec rsync (solution gratuite)
    - test virtualisation de services avec XEN en cours 
  
  - REAUMUR :
    - utilisation de heartbeat pour DNS, clamav, squid
    - test de CISCO slb (load balancing au niveau des routeurs)
    - synchronisation des donnees avec rsync (solution gratuite)
    - utilisation de mondo pour faire des CDs de restoration de secours

  - CREMI 
    - baie DAS en RAID3 avec snapt shot via rsync quotidien sur 15 jours
    - repartition de charge pour les clients legers
      (320 clients leger sur LVS sur NFS en read only)
    - virtualisation de services type DNS via vmware (2 serveurs vmware
      en RAID5)
  
** Attentes par rapport a la table ronde
  - redondance materielle, logicielle
  - haute disponibilite sur elements du reseau
  - haute disponibilite sur base de donnees
  - haute disponibilite pour serveur web

** Remarques  

  -  il faut aussi penser a ecrire les procedures de reprise en cas
  d'incident pour aider les collegues qui n'ont pas mis en place le
  service a le redemarrer en cas de panne
  - qu'est-ce qu'on virtualise ?
  - virtualisation = consolidation 
    => permet de travailler en mode degrade


-------------------------------------------------------------------------------

2) PRESENTATION "HAUTE DISPONBILITE DE SERVICES" PAR BENOIT CAPELLE (LaBRI) 

Au LaBRI, des solutions permettant d'assurer une haute disponibilite
de services ont ete testees afin d' assurer une continuite de service
en cas de mise a jour du systeme ou d'un logiciel sur un serveur, de
reboot, de probleme materiel ou logiciel

** Les solutions ci-dessous ont ete testees et ecartees :

  - LVS 
   load balancing
   !! a redonder le LVS 
   => 4 machines

  - Cluster IPtables
  pas connu, pas de doc, aucun support, developpement gele
  2 machines qui partagene meme adresse mac, meme adresse IP
  repartition des demandes suivant l'ip source (paire/impaire)
  si une des 2 machines tombent, l'autre prend toutes les requetes

  - Saru 
  2 serveurs qui se partagent un service 
  extension d'iptable
  avec surveillance 
  developpe pour noyau 2.4 mais pas pour noyeau 2.6

  - Heartbeat+Mon+DRBD
  DRBD = raid sur IP (BD = Block device)
  (copie au niveau bloc d'un maitre vers un esclave)
  Inconvenient : si corruption de donnees ext3 sur maitre => corrution
  sur esclave 
  Dans drdb le bloc device de l'esclave n'est pas monte, il
  est monte qu'en cas de bascule, avec un fsck.
  il faut module dans noyau pour drbd
  projet pour DRDB : maitre et esclave accedent au bloc device

** Voici la solution mise en place pour assurer la haute disponibilite
   du serveur DNS avec Heartbeat+Mon

  - le serveur DNS primaire n'est pas redonde et n'est pas
    accede par les clients DNS

  - les serveurs DNS secondaires fonctionnnent en mode maitre/esclave

  Chaque serveur secondaire a sa propre adresse IP 
  L'adresse IP du service IP utilisee par les clients est detenue par le maitre

  Chaque serveur a le service DNS lance pour permettre la propagation
  des modifications depuis le DNS primaire

  - Heartbeat se base sur un echange permanent de battements de coeur
  entre les deux machines.

  - Mon : programme qui regarde si service repond
  NB : Mon est inclus dans heartbeat 2

  Attention au script de demarrage du DNS 
  sinon heartbeat se relance toute les 2 secondes
  car valeurs retournees ne sont pas celles attendues

  Materiel utilise sur les 2 serveurs DNS secondaires
  - 2 cartes reseau (1 dedieee a heartbeat, l'autre pour service)
  - 1 port serie

  => broadcast sur eth1 et sur port serie

-------------------------------------------------------------------------------

3) PRESENTATION "FIABILISATION DE SYSTEME DE FICHIER - SOLUTION GFS"
   PAR JEROME CASTANG (IMB)

** Constat : 
  - donnees augmentent sans cesse, anticipation de l'espae de stockage
    difficile
  - etat limite des serveurs NFS (pb de montee en charge)

** Objectif :
  - rendre transparent le fait qu'une baie est attachee a un serveur
    => virtusaliser le stockage
  - ne pas avoir goulot d'etranglement

** Utilisation de GFS
  - possibilite d'acces concurrents aux fichiers (alors que NFS non)
  - GFS gere 
    - le snapshot
    - extension de la taille de la partition
  - contrainte : il faut etre membre d'un cluster pour acceder a une partition

** Utilisation de Redhat-cluster-suite (projet de Redhat) 
  = mettre a disposition un espace de stockage virtualise
    => acces au disque comme si le disque est local

  - les machines qui accedent a un espace de stockage (baie ISCSI) sont dans un
    redhat-cluster-suite

** Maquette :
  - baie ISCI avec RAID physique (pas de RAID virtuel)
  - les machines qui accedent a cette baie font partie du cluster
  - acces a la baie en parellele : redondance d'acces a la baie :
    module multi path (dm_multipath) (ex: 2 cartes ethernet)
  
  - lourd et long mais ne genere pas d'interruption de service

  - les machines qui accedent a une meme zone doivent etre membres du
    meme cluster

  - les acces concurrents sont geres par GFS : gestion des verroux POSIX
    comme sur disque local

  - performances
    - stabilite 
      - test avec verrou ok, pas d'incoherence. comme sur un disque local.
      - file d'attente correcte pour acces au fichier (ordre des demandes)
    - perte : bons resultats : perte de 30% de performance : 70 Mo/s

  - snapshot = snapshot de LVM

  - pas de maitre et esclave 
    quand acces a un fichier, les machines communiquent entre elles

  - jusqu'a 200 machines dans un cluster, informations reparties

  - si une machine qui a pose un verrou tombe
    les autres machines decident "d'eteindre" la machine qui est tombee 
      (= notion similaire au heartbeat) 
  - 6 demons pour gerer le cluster+multipath+ GFS

  - systeme de load balancing avec multipath (ronde sur les chemins)