Francis Galibert

Conférence donnée au séminaire ENS-CNRS 'histoire de séquençage' (19 janvier 2012). Texte complété en octobre 2012 dans le cadre de l'histoire du programme génome, revu et amendé par l'auteur, avec un diaporama

Francis Galibert
Histrecmed

Francis Galibert, né le 25 mai 1934 à Asnières 92, est pharmacien docteur es sciences. Il a débuté sa carrière de chercheur au Centre Hayem, Institut des Maladies du Sang (Hopital Saint Louis, Paris) dirigé par le Pr. Jean Bernard dans l'équipe de Michel Boiron. Il intègre le CNRS en octobre 1962 comme attaché de recherche. Adjoint du directeur du département des Sciences de la Vie au CNRS (1988).  Devenu professeur émérite à l'université de Rennes 1 (équipe Génétique du chien de l'UMR 6061 à l' Institut Génétique et Développement de Rennes, IFR 140), Francis Galibert a été élu à l'Académie nationale de médecine en section des sciences pharmaceutiques.

FG : J'ai fait mon post-doc chez Frederick Sanger au tout début des années 1970, i.e. au démarrage des recherches sur le séquençage de l'ADN. Je n'étais pas tenté par les Etats-Unis, craignant un trop grand décalage entre un laboratoire américain et un laboratoire français et une plus grande difficulté de réinsertion à mon retour. Alors pourquoi Cambridge ? En fait, Georges Peries, un collègue biologiste argentin chez Michel Boiron, avait un contact avec son compatriote Cesar Millstein (Nobel 1984) attaché au laboratoire Sanger et il m'a conseillé d'y poser une candidature qui fut acceptée fin 1969.

Le séquençage des protéines

Le premier problème lorsqu'on veut séquencer une macromolécule, c'est de trouver la méthode. Le principe établi au tout début - i.e. dans les années 1950 - consistait à essayer de fractionner cette macromolécule en entités de plus en plus petites de façon à déterminer facilement la séquence du dernier élément isolé, puis de proche en proche à reconstituer l'ensemble. Fred Sanger qui est chimiste a commencé par s'intéresser aux protéines dans les années 1950. Pourquoi pas à l'ADN pourrait-on se demander? Réponse, parce que les protéines sont des macromolécules que l'on pouvait obtenir facilement de façon purifiée et dont certaines sont constituées d'un enchainement d'acides aminés en nombre restreint. Sanger a donc choisi l'insuline qui est une petite molécule formée de deux chaînes de 32 et 20 acides aminés. Avec les protéines, on a des enzymes dont les spécificités sont très bien connues. Si vous prenez la trypsine par exemple, elle va couper derrière une lysine ou une arginine, donc vous savez que les peptides que vous allez obtenir vont se terminer par l'un ou l'autre de ces acides aminés. C'est pour ses travaux sur l'insuline qu'il a obtenu un premier prix Nobel en 1958.

Séquencer l'ARN

Puis, dans les années 1960, il s'est intéressé à l'ARN. Mais il n'était pas le seul, il y avait aussi le groupe de Robert Holley aux Etats-Unis (U. Urbana). La difficulté avec l'ARN est de trouver une molécule de petite taille, purifiée, pour pouvoir travailler. C'est ainsi qu'Holley s'est intéressé à un ARN de transfert extrait de la levure. Mais il faut imaginer la complexité du processus de purification qui était employé. Holley travaillait avec du matériel non radioactif, donc en grande quantité et produit avec d'énormes cultures de levure. Pour purifier un ARN de transfert particulier, il a utilisé une gigantesque machine de plusieurs mètres de long, constituée d'une multitude de petits flacons et d'un dispositif de circulation à contre courant de deux fluides non miscibles. L'échantillon biologique à purifier est introduit à l'une des extrémités de la machine et migre vers l'autre extrémité. Grâce au coefficient de partage, différent pour chacun des constituants du mélange initial, la migration de chacun d'eux s'effectue à des vitesses différentes. C'est ainsi qu'il a réussi à purifier des quantités importantes d'un tRNA transporteur d'alanine. Mais il n'utilisait que des rayons ultraviolets pour détecter les produits, d'où l'énorme quantité de matériel qui lui était nécessaire et par voie de conséquence, l'impossibilité d'utiliser cette méthodologie pour des applications biologiques. Il reste que Robert Holley a ainsi pu déterminer la structure complète de cet ARN et qu'il a obtenu le prix Nobel en 1968.
Fred Sanger a essayé de son coté de purifier du tRNA, mais sans succès. Il s'est alors intéressé à un nouvel petit RNA appelé RNA 5S découvert chez E.coli en1963 par Rosset et Monnier. L'ARN 5S, s'est révélé être facilement purifiable par chromatographie. Sanger s'est précipité dessus, mais à la différence de Holley, il a décidé de travailler avec des marqueurs radioactifs (radio phosphore 32). Disposant d'ARN 5S radioactif, il a alors entrepris son séquençage. Pour cela il a utilisé la même approche que Holley consistant à hydrolyser l'ARN 5S par la RNase T1 qui coupe après les résidus G, puis la RNase pancréatique qui coupe l'ARN après une pyrimidine ou encore la RNase U2 qui hydrolyse l'ARN après les résidus puriques. A la différentes de Holley les divers produits de digestions enzymatiques étaient fractionnés par électrophorèses bidimensionnelle, d'abord sur de l'acétate de cellulose, puis par migration sur papier DEAE (transfert par buvardage). Finalement les divers produits d'hydrolyse ainsi fractionnés étaient détectés par autoradiographie. Cette méthode extrêmement légère lui a permis de publier la séquence de l'ARN 5S en 1967, deux ans après Holley (avec lequel j'estime d'ailleurs qu'il aurait du partager le prix Nobel de 1968! cette méthode a en effet été utilisée par des dizaines de laboratoire pour séquencer des centaines d'ARN de transfert, d'ARN viraux ou ribosomiques). Il s'est alors tourné vers l'ADN. 

Séquencer l'ADN

À propos de l'ADN, il faut d'abord rappeler une publication d'Erwin Chargaff décrivant en 1952 la dépurination chimique, c'est-à-dire l'utilisation d'acide pour couper les liaisons osidiques qui lient les sucres aux bases. Cette technique permet d'obtenir des chaînes d'ADN uniquement constituées d'enchainement de bases pyrimidiques. C'est cette méthode qui a permis à Chargaff de montrer l'intangibilité des appariements A-T et G-C qui caractérise la structure de l'ADN, une découverte qui précède celle de Francis Crick et de Jim Watson avec la double hélice. Dans les années 1960, Burton et Tederson ont utilisé la méthode de dépurination de Chargaff suivie de chromatographie sur papier pour révéler par UV et analyser des di et tri nucléotides. Mais c'était tout ce que l'on savait faire à l'époque. En 1970, quand Sanger commence à s'intéresser à l'ADN le problème est que l'on ne disposait ni d'ADN, ni d'enzyme. Les plus petites macromolécules disponibles étaient des génomes de virus de 5000 à 6000 nucléotides et l'on n'avait pas d'enzymes pour les découper. Il fallait donc se débrouiller. Heureusement, on disposait des méthodes de fractionnement de l'ARN. Voilà l'état de l'art au moment où je suis arrivé à Cambridge. J'ai de suite décidé de m'intéresser à l'ADN et de me joindre à un petit groupe de trois malheureux post'docs un canadien d'origine asiatique, Vic Ling, John Sedat qui venait de chez Robert Sinsheimer et Edward Ziff qui avait fait sa thèse avec J.R. Fresco. 
À l'époque, le groupe Sanger était divisé en deux, un groupe travaillait sur l'ARN et finissait de séquencer le génome du phage R17, l'autre (petit) groupe s'intéressait à l'ADN. Je me souviendrais toujours de ma première entrevue avec Fred Sanger qui m'a demandé ce que je voulais faire. J'avais une chance rare à l'époque que n'avaient pas mes collègues post'docs, celle d'avoir un poste CNRS. Cela signifiait que je n'étais pas inquiet à l'idée de me lancer dans une recherche menée hors des sentiers battus. En réalité, faire de l'ARN m'apparaissait comme un peu routinier. Cela peut paraître un peu bizarre de dire ça aujourd'hui, mais toujours est-il que Sanger m'a proposé de travailler sur l'ADN. J'ai accepté, mais je n'ai réalisé qu'après coup ce à quoi je m'exposais. À la vérité, nous ne savions pas par où commencer. Avec mes collègues post'docs, nous nous sommes retrouvés tous dans notre coin en train d'essayer d'imaginer ce que l'on pourrait faire jusqu'à ce que l'un d'entre nous, Vic Ling, aie une première idée. Elle consistait à reprendre les méthodes de fractionnement mises au point pour l'ARN afin de les appliquer à l'ADN. Vic a pris trois phages, Fd, F1, PhiX, dont les génomes monocaténaires font quelques 6000 nucléotides de long pour récupérer leurs ADN qu'il a traités selon la méthode de dépurination de Chargaff. Il a ensuite utilisé les méthodes de fractionnement développées pour le séquençage de l'ARN et a été le premier à faire la séquence d'oligonucléotides composés d'une vingtaine de résidus C et T, résultats publiés en 1972. A l'époque nous ne disposions pas d'enzyme de restriction, en revanche nous disposions d'une nucléase produite par E.coli infecté par le phage T4. Cet enzyme appelé Endo IV nucléase n'avait pas de spécificité d'hydrolyse stricte mais avait deux préférences : l'ADN sous forme monobrin et les liaisons Phosphate Sucre en 3' de résidu C. 

Le séquençage du phage phiX 174

C'est une histoire qui prouve le caractère souvent illusoire de la programmation de la recherche. John Sedat, avait fait sa thèse chez Robert Sinsheimer où il avait isolé le phage PhiX 174 (un virus bactériophage très simple dont le génome est composé d'une molécule d'ADN simple brin circulaire longue de 5386 nucléotides). Quand John est arrivé chez Fred, il a tout naturellement utilisé le génome de PhiX 174 comme substrat et l'endo IV envoyée à Fred Sanger par celui qui l'avait découverte. La manip consistait à hydrolyser l'ADN dans des conditions de forte salinité dans lesquelles la majeure partie de ce dernier est sous forme double brin avec peu de régions monocaténaires accessibles à l'endo IV. Dans ces conditions d'hydrolyse particulière après migration dans un gel d'acrylamide, la très grande majorité de l'ADN de PhiX 174 est sous forme de très grands fragments qui ne pénètrent pas dans le gel. Seules quelques bandes de taille modeste pénètrent et peuvent être visualisées par autographie si l'ADN a été préalablement marqué au Phosphore 32. Pour obtenir de l'ADN de PhiX 174 suffisamment radioactif on faisait des cultures d'E.coli infecté par le virus d'une centaine de millilitres dans un milieu appauvri en phosphore et auquel on ajoutait jusqu'à 100 millicuries de phosphate 32P. Après culture, les bactéries étaient récoltées, lavées, l'ADN extrait et purifié par chromatographie. 
Les biologistes d'aujourd'hui n'ont pas idée de ce que cela représente, mais je peux dire que les compteurs Geiger personnels qui ne nous quittaient jamais avaient en permanence leur aiguille bloquée au maximum. On a obtenu ainsi après électrophorèse en gel d'acrylamide des bandes séparées de petite taille. Indépendamment de cela Ed Ziff de son coté hydrolysait le même ADN avec la même enzyme mais dans des conditions totalement différentes, c'est à dire dans un milieu de faible osmolarité dans lequel l'ADN monocaténaire de PhiX 174 était totalement déstructuré et ainsi totalement accessible à l'endo IV. Dans ces conditions après une électrophorèse bi-dimentionelle, on obtenait des centaines de spots révélés par autoradiographie et représentant autant d'oligonucléotides différents. En revanche en traitant dans les mêmes conditions de faible concentration saline l'ADN provenant des bandes obtenues par électrophorèse en gel d'acrylamide on obtenait une vingtaine de spots, démontrant ainsi que ces bandes ne représentaient qu'une fraction de l'ADN génomique et pouvait donc servir de substrat au développement d'une méthode complète d'analyse de la séquence d'ADN à l'image de ce qu'avait été le RNA de transfert ou l'ARN 5S pour le développement d'une méthode de séquençage de l'ARN. 
Nous avions donc des fragments d'ADN de faible complexité, nous savions les hydrolyser et obtenir des oligonucléotides, mais comment faire pour les séquencer ? C'est alors que j'ai développé toute une approche extrêmement laborieuse mettant en jeu différents systèmes enzymatiques qui nous ont permis de déterminer la séquence de tous ces oligonucléotides et de réaliser une première séquence d'ADN de 48 nucléotides. Le cercle infernal, pas d'ADN, pas d'enzyme, pas de méthode était enfin brisé, mais à quel prix ! Ce travail a donné lieu à deux publications (dont nous avions d'ailleurs tiré au sort l'ordre des auteurs) : Determination of the nucleotide sequence of a fragment of bacteriophage phiX 174 DNA. Ziff EB, Sedat JW, Galibert F. Nat New Biol. 1973 Jan 10;241(106):34-7 et Direct determination of DNA nucleotide sequences : structure of a fragment of bacteriophage phiX172 DNA. Galibert F, Sedat J, Ziff E. J Mol Biol. 1974 Aug 15;87(3):377-407. Restait à poursuivre et à améliorer le procédé à toutes ces étapes car telle quelle la méthodologie était inapplicable à la résolution de problèmes biologiques. Un succès significatif a été obtenu dans cette direction par Hugh Robertson, un autre post doc travaillant à l'origine dans un autre groupe que celui de Fred Sanger. Robertson, eut l'idée d'essayer de protéger une région du phage PhiX 174 homologue de celle sur laquelle les ribosomes se fixent pour initier la synthèse protéique et ainsi éventuellement la protéger contre l'action des DNases. Il a réussi son pari, obtenu une bande de faible complexité représentatrice d'un site d'initiation de la traduction. Celle-ci a alors pu être séquencée comme précédemment. 

La réplication de l'ADN

Dès lors le problème se déplace, comment obtenir plus facilement des fragments d'ADN ? C'est là que Fred Sanger entre en scène, alors qu'il était jusque là tapi dans son coin et n'intervenait pas, si ce n'est pour nous demandé au hasard des rencontres et particulièrement au thé à la cafétéria sans avoir l'air de s'y intéresser plus que cela comment ça allait (Rien n'était plus étranger à Sanger que la programmation de la recherche. Je ne me souviens que d'une seule réunion organisée par lui avec l'ensemble de l'équipe alors qu'au retour d'Australie, il avait constaté que l'essor des travaux de séquençage commençait à créer des tensions internes dans le labo). Fred eut donc l'idée d'utiliser la réplication. A partir d'un oligonucléotide hybridé sur un long fragment d'ADN, appelé "template ou matrice", on peut faire une élongation de cette amorce en présence de DNA polymérase et des 4 deoxy nucléoside triphosphates ou dNTP et obtenir un fragment d'ADN complémentaire de la matrice à partir de l'endroit choisi. Fred Sanger avait par ailleurs remarqué que dans la protéine majeure de l'enveloppe du phage F1 il y avait une séquence Tryp Met Val. Or ce qui est remarquable dans cet enchainement d'acides aminés est que deux d'entre eux Tryp et Met ne sont codés que par un seul codon et que le troisième est codé par un codon, uniquement dégénéré sur sa troisième base. Dès lors on peut en déduire sans ambiguité un enchainement de 8 nucléotides au niveau de l'ADN et tenter à partir de ce point d'ancrage de synthétiser un fragment d'ADN. 
Dans les années 1973, la synthèse d'oligonucléotides n'était l'apanage que de quelques chimistes. Quand vous êtes Prix Nobel, vous avez des copains 'prix Nobel' qui sont prêts à travailler avec vous et Sanger connaissait Har Gobind Khorana, un chimiste remarquable qui avait développé une méthodologie capable de synthétiser des oligonucléotides de séquences définies. Khorana a donc demandé à H. Kossel un post'doc de chez lui de synthétiser l'oligonucléotide complémentaire du point d'amorçage identifié par F. Sanger. Paul Berg également Prix Nobel de chimie pour ses travaux sur les acides nucléiques avait plusieurs années auparavant observé qu'on pouvait en présence de manganèse au lieu de magnésium permettre l'incorporation de dérivé de la série ribo en lieu et place des dérivés naturels de la série des deoxy et donc introduire dans une chaine de DNA en croissance des dérivés de la série ribo et ainsi introduire des points de clivage soit par la soude soit par des RNases. Après avoir réalisé une brève synthèse à partir de l'amorce synthétique, Fred Sanger imagina de réinitier celle-ci mais cette fois en ajoutant aux 4 dNTP dont un marqué au 32P du rCTP. Il a par ce procédé connu ultérieurement sous le nom de ribosubstitution pu obtenir un fragment d'ADN, complémentaire d'une région prédéterminée du génome matrice. Cette région marquée au 32P et hydrolysable par la RNase pancréatique en 3' des résidus rCTP permettait d'obtenir des deoxyoligonucléotides dont les séquences purent être déterminées comme précédemment. La même opération a été alors reproduite mais en incorporant non plus du rCTP mais successivement les trois autres dérivés de la série ribo (Use of DNA polymerase I primed by a synthetic oligonucleotide to determine a nucleotide sequence in phage fl DNA, Sanger F, Donelson JE, Coulson AR, Kössel H, Fischer D., Proc Natl Acad Sci U S A. 1973 Apr;70(4):1209-13).
Bien qu'ayant démontré son efficacité la méthode de ribosubstitution, était délicate de mise en œuvre car l'incorporation des dérivés ribo était peu efficace. Fred Sanger eut alors l'idée d'améliorer le système dans une autre approche connue sous le nom de "méthode Plus- Moins". Celle-ci reprend le principe de base d'une élongation à partir d'une amorce mais en lieu et place des ribonucléotides met à profit une propriété remarquable de l'enzyme de Klenow. Cet enzyme est en réalité un fragment de l'ADN polymérase 1. Il possède l'activité de synthèse de pol1 par élongation d'une amorce hybridée sur un Template et son activité d'exonucléase 3' vers 5'. Lorsque le fragment de Klenow est empêché de synthétisé de l'ADN parce que dans le milieu réactionnel manque le dNTP complémentaire qui doit être incorporé en regard d'un dNTP donné, il hydrolyse l'ADN en cours de synthèse et ce jusqu'à une position où il peut incorporer un dNTP. Fred Sanger imagina alors le procédé suivant. Après une brève synthèse en présence des 4 dNTP dont un marqué au 32P, le produit de celle-ci est fractionné en 8 lots identiques ; 4 serviront à la partie + de la méthode et 4 serviront à la partie -. La synthèse est alors reprise. Mais dans chacun des 4 tubes + on ajoute un seul dNTP, et dans chacun des 4 tubes - 3 dNTP seulement (soit un seul dNTP différent manquant dans chacun de ces 4 tubes ). En raison des propriétés de synthèse et d'hydrolyse du fragment de Klenow juste décrit, on peut prédire la nature du dNTP en 3' de chacune des chaines d'ADN en croissance dans les 8 tubes. La résolution en parallèle dans un gel d'acrylamide de toutes ces molécules permet de lire la séquence en partant de la molécule la plus petite, de noter dans quel puits elle se trouve et ainsi identifier le résidu dNTP par lequel elle se termine en 3'. Il convient ensuite de suivre de puits en puits les molécules de mobilité immédiatement inférieure et de noter dans quels puits elles sont et donc le dNTP à leurs extrémités. C'est avec cette méthode que la séquence complète du génome du phage PhiX 174 a été déterminée. Notons toutefois que pour ce travail la synthèse des oligonucleotides restant à l'époque très limitée, les amorces nécessaires étaient préparées sous forme de fragments d'ADN obtenus par hydrolyse avec des enzymes de restriction (Nucleotide sequence of bacteriophage phi X174 DNA. Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M., Nature. 1977 Feb 24;265(5596):687-95). Ainsi, le caractère simple brin du génome de PhiX174 a permis à Frederick Sanger d'en réaliser le séquençage dès 1974, faisant ainsi de ce virus, le premier organisme dont la séquence ADN du génome fut complètement déterminée.
En dépit de ce succès, Fred Sanger imagina d'aller plus loin, mais toujours en gardant les mêmes principes et en essayant d'éliminer les parties les moins performantes ou trop fastidieuses. Cette fois il imagina de remplacer les dérivés ribo et l'activité exonucléase 3' du fragment de Klenow par des dérivés dideoxy. Ces derniers sont des nucléotides en tout point identiques aux dérivés naturels des séries ribo ou deoxy sauf qu'ils ne possèdent aucun hydroxyle en position 2' ou 3' du deoxyribose. Dès lors qu'ils sont incorporés dans une chaine d'ADN en croissance ils ne permettent pas à celle-ci de s'accroitre puisque dépourvue d'hydroxyle en 3' et 2'. Ainsi la méthode aux dideoxynucléotides, n'est rien d'autre que la méthode des ribosubstitution dans laquelle le dérivé ribo est remplacé par un dideoxyribonucléotide suivie d'un fractionnement des molécules d'ADN dont la synthèse a été arrêtée par électrophorèse en gel d'acrylamide comme dans la méthode + / - avec cette fois 4 pools d'ADN au lieu de 8 fractionnés en parallèle. Outre une bien meilleure capacité d'incorporation des dideoxy par rapport aux derivés ribo la méthode permet de visualiser tous les intermédiaires de taille lorsque plusieurs résidus identiques se suivent et de les dénombrer très exactement, ce que ne permet pas la méthode +/- qui ne permet de visualiser que le premier et le dernier d'une série de trois ou plus de résidus identiques (DNA sequencing with chain-terminating inhibitors. Sanger F, Nicklen S, Coulson AR. Proc Natl Acad Sci U S A. 1977 Dec;74(12):5463-7). Cette publication mettait le mot fin du moins provisoirement à un travail qui avait débuté sept ans plus tôt. Aujourd'hui, on utilise toujours la méthode aux ddN de F. Sanger. Celle-ci a bénéficiée de nombreuses améliorations avec l'introduction d'abord de la fluorescence pour remplacer la radioactivité puis de l'utilisation de quatre ddN porteurs de marqueurs de fluorescence différents permettant d'analyser la taille des fragments produits dans un seul puits au lieu de quatre. Elle a par la suite aussi grandement bénéficié de l'avènement de la PCR et d'une synthèse d'oligonucléotides de plus en plus performante et accessible, d'une automatisation poussée et du développement de l'informatique. 

Autre méthode de séquençage

Une autre méthode de séquençage est apparue quelques mois avant celle publiée par F. Sanger et al. en 1977. Il s'agit de la méthode des dégradations chimiques publiée par A. Maxam et W. Gilbert. (A new method for sequencing DNA. Maxam AM, Gilbert W. Proc Natl Acad Sci U S A. 1977 Feb;74(2):560-4). Walter Gilbert est un biochimiste qui à l'époque s'intéressait à la régulation de l'expression des gènes et à celle de l'operon lactose plus particulièrement dont quelques années auparavant il avait protégé l'opérateur, courte séquence de 28 nucléotides, de la digestion par la DNase pancréatique par fixation in vitro du répresseur lac - une opération similaire dans don principe à celle faite également à cette époque par Hugh Roberson et rapportée plus haut. En copiant in vitro ce fragment sous forme RNA, il en avait déterminé la séquence. En utilisant un fragment obtenu par digestion de l'ADN d'E.coli avec l'enzyme de restriction Alu I, et récupération du fragment liant le répresseur lac, il a développé une méthode complète, relativement rapide de séquençage de l'ADN.
Celle-ci consiste en une dégradation partielle d'un fragment d'ADN (marqué in vitro en position 5' par un 32P) par un réactif chimique qui endommage l'ADN sur A, G, C ou T. Secondairement à cette attaque les liaisons phosphate/ sucre adjacentes sont rompues, libérant des molécules d'ADN qui vont toutes débutées avec la extrémité 5' marquée au 32P et se terminer sur la base qui précède celle endommagée et que l'on connaît de par le réactif chimique utilisé. La migration en parallèle dans un gel d'acrylamide des produits de dégradation obtenues par une batterie de réactifs chimiques différents permet de visualiser toutes ces molécules et comme dans le cas de la méthode+/- ou celle des ddNTP, lire directement la séquence ADN. La méthode des dégradations chimiques de Maxam et Gilbert publiée quelques mois avant celle de Sanger et al aux ddNTP a été pendant plusieurs années la méthode de référence et la seule à être de fait utilisée et ce pour plusieurs raisons. Mais la plus importante est que cette méthode s'appliquait particulièrement bien à l'ADN double brin alors que celle aux ddNTP nécessitait un ADN monobrin sur lequel hybrider une amorce. Or en dehors de quelques génomes de phages, les génomes dans leur très grande majorité sont double brin. 

Véritable paradoxe ! Pour élégante qu'elle fut et pour universelle qu'elle soit devenue, la méthode aux ddNTP était à l'origine quasiment inapplicable

En 1980, Walter Gilbert et Frederic Sanger recevaient le prix Nobel de chimie. Pour Sanger c'était la deuxième fois (cela aurait pu être la troisième !) qu'il était honoré d'une telle distinction. Au cours des années qui ont suivi plusieurs innovations techniques ont permis de contourner la contrainte de l'ADN monobrin et donner un avantage net à la méthode aux ddNTP qui est devenue pratiquement la seule à être utilisée. Le premier changement d'importance est dû à un bactériologiste, Joshua Messing, dont on parle peu, mais à qui on doit beaucoup. Messing avait développé plusieurs systèmes de clonage à partir du phage M13. Ce dernier a un génome monobrin comme PhiX174. Lorsque des virions infectent des bactéries l'une des premières étapes dans le cycle réplicatif viral est la synthèse d'un ADN double brin appelé forme réplicative à partir de laquelle une seule chaine est copiée et encapsulée pour donner un virion possédant un génome monobrin expulsé dans le milieu extérieur sans lyse de la paroi bactérienne. Ainsi l'extraction d'ADN génomique à partir des virions récupérés des surnageants de cultures d'E.coli infecté par le phage M13 fournit un ADN monobrin de quelques 6000 nucléotides, tandis que l'extraction à partir de bactéries infectées fournit un ADN double brin, facile à récupérer et assimilable du point de vue des manipulations à un plasmide. Joshua Messing a introduit dans cet ADN un fragment codant le peptide ± de la beta galactosidase. De plus il a introduit dans le fragment codant ce peptide un autre fragment de quelques dizaines de nucléotides n'interrompant pas la phase de lecture et n'interférant pas avec la capacité biologique du peptide à complémenter la beta galactosidase. En revanche ce petit fragment regroupait un grand nombre de sites de restriction faisant de ces dérivés de M13 des vecteurs de clonage sans égale permettant de cloner n'importe quel fragment d'ADN double brin et de récupérer celui - ci sous forme monobrin susceptible d'être séquencé par la méthode aux ddNTP. Par la suite, d'autres apports ont été également profitables à cette méthode comme l'amélioration des réactifs permettant in fine de séquencer aussi bien de l'ADN monobrin que double brin ou encore l'introduction des ddNTP fluorescents comme cela a été décrit plus haut. 

Les débuts de la bioinformatique 

Dans les années 1970 et même au début des années 1980, la vitesse de séquençage de l'ADN était faible, d'une à deux l'années pour un fragment de quelques milliers de nucléotides et les problèmes biologiques faibles ou absents, de sorte que le besoin d'un soutien maintenant indispensable de la bioinformatique était peu prégnant. Pourtant dés 1979, Roger Staden, chez Sanger publiait un premier article où il montrait l'intérêt de l'informatique pour comparer et assembler la séquence du phage lambda en cours d'établissement par la méthode du shot gun qui consiste à fragmenter de façon aléatoire un génome, de séquencer individuellement tous les fragments et de reconstituer la séquence du génome de départ par assemblage des séquences de chacun d'eux. (R Staden, A strategy of DNA sequencing employing computer programs. Nucleic Acids Res. 1979 June 11; 6(7): 2601-2610). Depuis la bioinformatique s'est énormément développée et est devenue indispensable au séquençage proprement dit, à l'interprétation des données de séquençage ainsi qu'au stockage des données..

Le séquençage du virus HBV facteur de l'hépatite B

J'ai toujours regretté mon départ de chez Fred Sanger. Au début, il m'avait demandé combien de temps je souhaitais rester et qu'est ce que je voulais faire. Je lui avais répondu que je souhaitais rester deux ans et m'occuper de l'ADN. Or, comme je viens de le dire, on a patiné pendant dix-huit mois avant que les choses ne commencent à se décanter, c'est-à-dire que j'ai du repartir quand le plus dur avait été fait et que les avancées les plus intéressantes allaient se produire. De plus quand je suis revenu en France (fin 1973), ça a été le vide complet et ce pour plusieurs raisons dont la principale était qu'il était impossible de poursuivre à Paris le travail entrepris à Cambridge. La sagesse aurait été que je renonce à poursuivre dans cette voie, mais après avoir gouté au nirvana je n'en avais ni le cœur ni le courage. La situation a rapidement changé avec la publication de la méthode des dégradations chimiques de Walter Gilbert (1977) avec laquelle je me suis familiarisé en 1978 au cours d'un bref séjour à Londres à l'Imperial Cancer Research. Pierre Tiollais, ancien interne en médecine, que j'avais eu dans mon laboratoire à l'Hôpital Saint Louis avant mon départ pour Cambridge et qui s'était ensuite installé à l'Institut Pasteur a eu l'idée de travailler sur le virus de l'Hépatite B et m'a rapidement convaincu de l'intérêt de ce projet. Pierre Tiollais a alors entrepris de cloner le génome de ce virus dans un plasmide afin de pouvoir disposer de quantités suffisantes de celui-ci. Pour ce faire il est allé manipuler en Suêde dans le laboratoire de Lenart Philippson. A cette époque 'Post Asilomar' ce type de manipulation était interdite en France mais autorisé en Suêde. Le génome du virus de l'hépatite B cloné dans le plasmide PBR322, m'a été donné par Pierre Tiollais. J'ai alors entrepris son séquençage par la méthode de Maxam et Gilbert mais aussi par la méthode aux ddNTP récemment adaptée pour analyser des ADN double brin. Ce travail a été réalisé dans mon laboratoire à l'hôpital Saint Louis. Ayant gardé des contacts étroits avec le laboratoire de F. Sanger je suis allé à Cambridge pour utiliser les premiers programmes bioinformatiques développés par R. Staden. En deux jours les différents génes codés par ce génome viral de 3182 nucléotides étaient identifiés, les séquences des protéines correspondantes déterminées, parmi lesquelles celle codée par le gene S et qui correspond à la protéine d'enveloppe qui sera dans la foulée proposée comme substrat pour l'élaboration d'un vaccin, premier vaccin d'origine recombinante le seul toujours utilisé aujourd'hui contre l'Hépatite B (Nucleotide sequence of the hepatitis B virus genome (subtype ayw) cloned in E. coli. Galibert F, Mandart E, Fitoussi F, Tiollais P, Charnay P. Nature. 1979 Oct 25;281(5733):646-50).

La situation française en matière de génomique

En France comme l'on sait, la communauté scientifique n'a guère investi dans la technologie. Heureusement, nous avons eu le CEPH créé à l'initiative de Jean Dausset et de Daniel Cohen, un personnage hors du commun, sorte de Craig Venter à la française. Jeune interne, je l'ai hébergé pendant un certain temps dans mon labo à Saint Louis. C'est en créant le CEPH que Dausset et Cohen ont eu l'idée de rassembler des familles et commencer une analyse approfondie du système HLA et qu'ils ont commencé à s'investir, non pas dans le séquençage, mais dans ce que l'on pourrait appeler la génomique avec le projet de cartographie du génome humain. Puis, il y a eu l'AFM et le Généthon avec Bernard Barataud. Et l'Etat demandera t on? C'est le grand absent dans l'affaire. Il faut attendre la création du GIP GREG un peu plus tard. Mais ce GIP installé en 1993 a été supprimé en octobre 1996, c'est-à-dire qu'il n'a duré que trois ans ! Pourquoi ? Parmi les raisons qui ont été évoquées, il y a l'absence d'intérêt des séquençages intégraux selon certains biologistes. Pierre Chambon qui est certainement un très grand scientifique, a torpillé les programmes de séquençage de l'ADN, alors même qu'il faisait partie du conseil scientifique du GREG. Son crédo était : "laissons faire les Américains avec leur Human Genome Program (HGP). Ils sont suffisamment bêtes pour le faire et quand ils l'auront fait, on pourra travailler dessus". Quand un Chambon disait ce genre de chose, vous imaginez la réaction des décideurs !
D'autre part, le GREG était animé par Piotr Slonimski qui est un levuriste, pour qui le génome humain n'était peut-être pas la priorité. Par ailleurs la communauté scientifique française s'intéressant à la génétique humaine n'était pas prête dans son ensemble et s'intéressant à de nombreuses maladies n'avait pas d'objectif commun précis et délimité, éventuellement adapté aux capacités techniques et financières. Il faut par ailleurs souligner qu'à son lancement le Human Genome Project américain apparaissait comme une opération politique. Jim Watson ne masquait pas qu'il représentait le meilleur moyen de collecter des fonds auprès du Congrès des Etats-Unis. Quand le projet génome humain a été lancé, les méthodologies n'étaient pas mures. Il y avait une discordance énorme entre les capacités techniques nécessaires et les demandes des biologistes. Ce dialogue de sourds explique pourquoi les choses n'ont pas évolué favorablement en France. Il n'empêche que grâce à André Goffeau plusieurs laboratoires réunis au sein d'un consortium Européens ont fait la démonstration de ce qu'il était possible de faire en séquençant l'intégralité du génome de la levure (Life with 6000 genes. Goffeau A, Barrell BG, Bussey H, Davis RW, Dujon B, Feldmann H, Galibert F, Hoheisel JD, Jacq C, Johnston M, Louis EJ, Mewes HW, Murakami Y, Philippsen P, Tettelin H, Oliver SG. Science. 1996 Oct 25;274(5287):546, 563-7). 

Directeur scientifique adjoint au département des sciences de la vie

Du côté des établissements publics de recherche, on se disait concerné, mais on restait inactif. La direction du CNRS était assurée par François Kourilsky que je connaissais depuis notre jeunesse lycéenne. Quand il a pris la direction du CNRS en 1988, je lui ai adressé un petit mot de félicitation et je lui ai demandé ce qu'il comptait faire en matière de séquençage. Il me répond : "le séquençage ? Je ne m'en occupe pas.
- Écoutes, ce n'est pas le genre de truc qui arrive tous les quatre matins, ça risque tout de même de bouleverser complètement la biologie.
- Bon, vois ça avec Claude Paoletti". C'est comme cela que j'ai fini par devenir adjoint de Claude Paoletti, directeur du Département des Sciences de la Vie au CNRS. Nous avons lancé plusieurs actions et créé entre autres une fédération de laboratoires s'intéressant à Arabidopsis, En 1995, Claude Griscelli au ministère de la Recherche m'a demandé un rapport sur ce qu'il convenait de faire. Un groupe de réflexion dont j'ai présidé les travaux a été réuni et nous avons produit un rapport 'très grand séquençage' qui a été remis le premier avril (le choix de la date n'était pas très heureux) et dans lequel on recommandait la création en trois pôles d'un centre de séquençage. Pour autant aucune décision n'a été prise. Ce n'est que plus tard que l'idée d'un grand centre a été reprise, animée cette fois par Jean-Marc Egly qui venait de chez Chambon et qui préconisait la création d'un centre national en un site unique. Les choses auraient encore certainement beaucoup trainées s'il n'y avait pas eu l'AFM. Le CNRS a donc installé le Centre national de séquençage (CNS - Génoscope) en 1997 soutenu financièrement par l'AFM qui a imposé le site d'Evry. Quant au Centre national de génotypage (CNG) il a été installé un peu plus tard à l'instigation de l'Inserm. Autrement dit, la réalisation du CNS se place dix ans après le début des vrais programmes de séquençage et même vingt ans après les premiers balbutiements que j'évoquais plus haut. Le problème est que la technologie n'est pas prisée en France comme elle devrait l'être. 

Le génome du chien

La cartographie du génome du chien a été menée après le déménagement de mon laboratoire à Rennes. En 1992, j'ai, avec la majorité de ses agents, déménagé à Rennes où j'ai alors été nommé professeur, l'UPR 41, créée en 1988 à l'hôpital Saint Louis à Paris. Une fois installé à Rennes j'ai commencé à m'intéresser à la génétique du chien dont l'évidence du modèle pour les maladies génétiques humaines m'était apparue au cours d'un congrès qui s'était tenu aux Etats Unis en 1991. Du fait d'un processus de sélection multiséculaire, le chien est le mammifère qui offre le polymorphisme le plus étendu. Pour autant chaque race reste très homogène avec une prévalence très grande de maladies génétiques spontanées proches ou identiques aux maladies humaines, rendant l'identification des allèles morbides beaucoup plus facile qu'en médecine humaine (The importance of the canine model in medical genetics. Galibert F, André C, Chéron A, Chuat JC, Hitte C, Jiang Z, Jouquand S, Priat C, Rénier C, Vignaux F.Bull Acad Natl Med. 1998;182(4):811-21). Ainsi de 1993 à 2003 nous avons construits des cartes de plus en plus dense du génome canin puis participé au séquençage du génome du chien achevé en 2005. Pendant cette période nous avons collaboré avec plusieurs collègues américains dont principalement Elaine Ostrander alors basée à Seattle. Tous ces travaux n'ont d'ailleurs été possibles que grâce à des contrats de recherche financés par l'American Kennel Club (AKC) ou le NIH et même l'armée américaine. Ce n'est que relativement récemment qu'un soutien européen ou français a pu être obtenu

Quelques considérations générales en matière de conclusion

Je voudrais souligner combien toutes ces recherches en génétique et en génomique sont issues de la rencontre entre disciplines. Je rappelle qu' E .Chargaff était chimiste et F. Crick physicien, de même F. Sanger n'était pas biologiste mais chimiste et par ailleurs bricoleur de génie. J'ajoute que bien que Prix Nobel et responsable d'un gros laboratoire, Sanger n'a jamais cessé de 'paillasser' lui-même (ce que de mon côté, j'ai essayé de faire. Hélas pas avec le même succès).
En matière de séquençage, je dirais que grâce aux remarquables progrès, notamment en termes de qualité des réactifs, de l'avènement de la PCR, du développement d'automates pour la synthèse des oligonucléotides, de l'essor de l'informatique, etc., on peut dire que la Génomique est devenue une discipline à part entière avec ses quartiers de noblesse. Prenez l'idée des gènes imbriqués qui date de 1978. A l'époque où F. Sanger a fait le séquençage de PhiX 174, on ne voyait pas comment un génome de cette taille pouvait coder pour toutes ces protéines. Mais une fois qu'on a eu la séquence, on a compris. Il y a des paires de gènes imbriqués les uns dans les autres et donc lus dans différentes phases de lecture. Ce fait était insoupçonnable. Pourquoi au cours de l'Evolution, la nature a t-elle maintenu cette disposition par essence instable ? Cela reste un peu mystérieux. Voilà le type de découverte en elle-même imprévisible. Je veux dire que l'on ne pouvait pas programmer une expérience pour montrer l'existence d'une situation inimaginable. Seul le séquençage du phage pouvait la révéler. C'est ainsi que lorsque Fred Sanger a fait la séquence de la mitochondrie humaine en 1982, on a découvert que le code génétique n'était pas aussi universel qu'on le croyait. Autrement dit, chaque fois qu'on déterminait de nouvelles séquences, on découvrait des choses inattendues qui faisaient avancer les connaissances.
Le progrès technologique ne s'est pas pour autant arrêté. Depuis quelques années, de nouveaux moyens de séquençage sont apparus, collectivement dénommés 'NGS' (next generation sequencing). Ces méthodes se fondent sur le même paradigme que celui mis en avant dans la méthode aux ddN de Fred Sanger à savoir un Template et une amorce qu'on allonge en copiant le Template. En revanche grâce à une très forte parallèlisation, la quantité de séquence produite est énorme de plusieurs centaines de gigabases, il s'ensuit un abaissement des coûts de production des séquences brutes très important à quelques milliers d'euros seulement. Mais ce que ne disent pas les promoteurs de ces méthodes c'est que la production de séquences brutes doit être suivie d'un énorme travail d'analyse bio-informatique et d'interprétation biologique infiniment plus couteux financièrement et en temps. Par ailleurs ces NGS restent quelque peu indigentes pour le séquençage de novo de grands génomes ce qui laisse encore beaucoup de travail d'amélioration à faire dans tous les domaines !