Causerie donnée par Antoine Danchin, le 15 mars 2012, au séminaire CNRS-ENS ‘histoire de séquençage’ 

(script : Karine Gay, revu et annoté par Antoine Danchin)

danchin

DR

Pour commencer je voudrais préciser que si j’accepte que l’on me considère comme un objet d’étude, ou si vous voulez, comme un singe à qui l’on ferait une coupure entre les deux hémisphères cérébraux, un primate qui réfléchirait avec deux consciences, ce que je vais vous raconter à propos de l’histoire qui vous intéresse sera probablement différent de ce que vous avez pu entendre par ailleurs. Ce sera aussi très partiel : on ne résume pas trente ans en moins de deux heures.

Une mise en garde, d'abord. Je suis convaincu que l’activité scientifique est davantage le résultat d’un travail collectif que celui de la (ou des) personne(s) qui en revendique(nt) les résultats. Par exemple, le rôle de Jim Watson et de Francis Crick me semble moins relever de ces deux personnes que d’une sorte de hasard ; il ne fait aucun doute que s’ils n’avaient pas découvert la structure de l’ADN, six mois plus tard, celle-ci l’aurait été par d’autres . En ce sens l’activité scientifique est très différente de la création artistique. Une œuvre d’art est inséparable de l’homme ou de la femme qui en est l’auteur . Ce n’est pas le nom des savants qui devrait rester dans l’histoire, mais ce qu’ils ont fait ou éventuellement le contexte dans lequel ils l’ont fait. Prenons le cas du ‘Bulletin des sciences mathématiques, astronomiques, physiques et chimiques’ créé au XIXème par le baron de Férussac. Pratiquement, tous les grands savants de l’époque y ont apporté leurs contributions, mais si le Bulletin est encore bien connu de quelques mathématiciens d’aujourd’hui, il est ignoré de la plupart, et tout le monde a oublié le nom de son fondateur. Ce qu'on retient est souvent anecdotique et la véritable réalité de la création est le plus souvent perdue, et pour toujours. Ce qu'on retient de l'Antiquité est bien souvent Diogène Laërce, qui a survécu par une sorte d'accident de l'histoire alors qu'il n'est certainement pas un acteur majeur. Si je mets l'accent sur cet aspect, c'est pour faire revivre un peu du contexte dans lequel est née la génomique des micro-organismes, et dont le point de départ se situe, pour mon exploration personnelle, autour des réflexions du Centre Royaumont pour une Science de l’Homme créé par Jacques Monod et dont il m'avait demandé d'être l'un des coordinateurs. Incidemment, je pense que si Monod avait vécu plus longtemps, ses idées sur la création du savoir auraient beaucoup apporté aux sciences de la vie et que la génomique, en France et dans le monde aurait probablement eu un parcours bien différent. Le Centre Royaumont a duré jusqu’à sa mort en 1976. C’était un lieu où l’on discutait d’un certain nombre de problèmes généraux liés à la génétique, au fonctionnement du cerveau,… bref, une structure favorisant la réflexion pure, et dont je me suis moi-même largement inspiré ensuite .

Avec le mathématicien Philippe Courrège je travaillais à cette époque sur la formalisation mathématique des théories sélectives, à l’Institut de Biologie Physico-Chimique, juste à côté de l'Institut Henri Poincaré. A l’occasion d’une rencontre avec Jean-Pierre Changeux, celui-ci nous avait demandé si nous pourrions choisir le système nerveux comme objet d'étude des processus sélectifs, ce qui nous a paru particulièrement intéressant. Nous avons donc élaboré un certain nombre de modèles mathématiques pour échafauder une théorie de l’apprentissage par sélection stabilisatrice des synapses entre les neurones . Cela a duré quatre ans, avec des réunions tous les mercredis après-midi à l’IBPC. C’est ce premier travail collectif — ceux qui participaient à nos échanges allaient et venaient, parfois pour une seule séance, nous avons même eu la participation de Benoît Mandelbrot, juste au moment où il inventait les fractals — qui m’a donné l’idée de créer un être fictif qui représenterait notre collectivité de chercheurs [cf. le concept d’’Aristote composite’ imaginé par la fondation Rockefeller dans les années 1930, et pour les mathématicien, Nicolas Bourbaki, de l'Université de "Nancago"—Nancy/Chicago, toujours en activité]. La majorité des résultats de cet énorme travail — qui n’est pas obsolète — n’a jamais été publiée alors qu’ils pourraient peut-être être réutilisés aujourd’hui dans la perspective de théories qu’on ne pouvait valider à l’époque, faute des moyens de simulation adéquats. Voilà d’ailleurs un exemple qui montre comment il arrive souvent que des gens qui travaillent sur des sujets inédits peuvent rester dans l'obscurité. Après divers épisodes, dont trois années de séances hebdomadaires au département de mathématique de l'Université de Hong Kong, je poursuis ce séminaire aujourd’hui essentiellement sous forme électronique. Son objet est de créer de la connaissance nouvelle au travers des échanges d'un groupe informel de personnes de tous horizons, sous la forme d'une réflexion théorique et pratique :  quels thèmes choisir (en biologie, et plus généralement en science) ? Où faut-il aller ?, Comment placer la création conceptuelle en face de questions éthiques?, etc. Le thème central de nos discussions est le concept biologique de "fonction".

Après ce préambule, j’en viens au séquençage des génomes. Le travail de mon laboratoire consistait alors à chercher à comprendre, au moyen des approches de la génétique classique, la façon dont les gènes fonctionnent ensemble. Or, au début du mois de janvier 1983, j’avais fait une conférence à Ougadougou (Haute Volta, aujourd'hui Burkina Faso) sur le rôle du sang, juste avant la découverte du rôle de ce qui allait apparaître comme un virus nouveau dans la transmission du sida. Cela m'avait conduit à suivre avec attention son identification et le séquençage de son génome, et j'ai donc suivi les travaux de Simon Wain-Hobson, j'y reviendrai. Aussitôt après la découverte du VIH, et l'idée que le séquençage du génome permettrait de mieux comprendre la maladie , j'avais envisagé la possibilité d’inverser la procédure habituelle des généticiens qui consistait à étudier un par un les gènes d’un organisme, pour m’intéresser à la façon dont les gènes sont répartis dans le génome, mais aussi alléger le processus expérimental qui consistait à isoler individuellement chaque gène intéressant, en réalisant d'un coup l'isolement et la caractérisation simultanée de tous les gènes d'un organisme. Séquencer les génomes, si cela était techniquement possible, était la solution évidente. Mais on voyait bien dans ce contexte la nécessité d'un traitement informatique des séquences, et il était difficile de savoir si le domaine était assez mûr pour cela. Aussi, deux ans plus tard, en 1985, avec un informaticien spécialiste d'intelligence artificielle, Olivier Gascuel, nous nous sommes demandés si des méthodes informatiques permettraient de préciser efficacement les contours d'une question biologique, et nous nous sommes attelés pour cela à la question de la sécrétion des protéines, en cherchant à identifier autant de caractères que possible de l'adressage des protéines sécrétées. Cela n'avait pas qu'un intérêt conceptuel. A l’époque, j’étais conseiller de la compagnie Elf-BioRecherches (qui est devenue Sanofi), firme qui cherchait à produire de l’hormone de croissance humaine en grande quantité. Et l'idée était de faire sécréter la protéine par le colibacille, pour obtenir une entité vraiment identique à la protéine humaine (la production dans le cytoplasme sans sécrétion conduisait à une protéine contenant souvent un acide aminé en trop). Le travail réalisé avec Gascuel a si bien marché  que cela m’a convaincu qu’on pouvait, grâce à l'informatique, se lancer dans un programme de génomique, en prenant pour objet privilégié une bactérie bien choisie. Il s'agissait de faire du séquençage, non pas pour voir le génome comme une collection de gènes, mais pour appréhender un génotype comme un ensemble organisé, autrement dit, poser la question de savoir si le type des gènes et leur répartition dans les chromosomes (ce qui constitue le génotype) a un sens ou non. Cela, on ne peut le comprendre que si l’on dispose de la séquence complète du génome d’un organisme.

Mais à l’époque les moyens employés étaient extrêmement lourds. L’idée de séquencer intégralement un génome avait du mal à passer et c’est en discutant avec le pastorien Simon Wain-Hobson qu’il nous a semblé judicieux de commencer par séquencer le génome d'organismes bactériens aussi simples que possible. Comme vous le savez, à Pasteur, à la suite des travaux de François Jacob et Jacques Monod, le modèle privilégié était Escherichia coli. Or, en 1987 les Japonais avaient construit un ensemble de bactériophages lambda recouvrant tout son génome. Et dans les années 1988-1989, les Américains annonçaient qu’ils avaient entrepris le séquençage de son génome, et qu'il devait être terminé dans les deux ans . Il fallait donc envisager le choix d’autres organismes. Comme il fallait en trouver un doté d’un petit génome, c’est en discutant avec des collègues comme Simon Wain-Hobson et Daniel Cohen (déjà impliqué dans la mise en place d'un projet de séquençage du génome humain), que nous avons pensé à la bactérie intracellulaire Chlamydia trachomatis [bacille responsable de la majorité des MST]. Nous savions que ce genre d’entreprise risquait de s’avérer extrêmement coûteux, et le projet s’est trouvé rapidement bloqué. Il faut dire, dans ce cas particulier, que C. trachomatis est une cause majeure de la stérilité féminine et il est facile de voir que les intérêts financiers liés à la procréation médicalement assistée allaient contre le souci de comprendre et de remédier aux causes de la stérilité, ce qui n'aidait pas à "vendre" le projet . Exit donc Chlamydia trachomatis. J’étais à l’Institut Pasteur à l’époque. L'Unité de Raymond Dedonder travaillait sur Bacillus subtilis, bactérie modèle d'un clade très différent de celui d'Escherichia coli. Je me suis demandé si on ne pourrait pas en séquencer le génome, ce que j’ai proposé à la Société Française de Microbiologie au printemps 1987. L’idée était de réunir un ensemble de laboratoires afin de séquencer le génome de B. subtilis, mais, là aussi, j’ai été d'abord assez mal reçu. On l'imagine facilement. Outre les objections habituelles aux projets de séquençage que nous verrons bientôt, j’étais un spécialiste du colibacille et je débarque chez les spécialistes de B. subtilis… Mais il se trouve que Raymond Dedonder, alors directeur de l’Institut Pasteur, a pu jouer un rôle extrêmement positif pour le déclenchement du projet. En juin 1987, il se rendait en effet aux Etats-Unis pour le meeting annuel organisé sur cette bactérie. Là, il rencontrait Jim Hoch, l’un des grands spécialistes de B. subtilis aux Etats-Unis, qui proposa justement de séquencer le génome de la bactérie. Ce qui était le projet d'un illuminé devenait raisonnable. Et quand Dedonder est revenu en France, il s'est souvenu de ma proposition du printemps, et m’a demandé si j’étais toujours d’accord pour cette entreprise, ce à quoi j’ai évidemment répondu par l’affirmative. Je n’ai posé qu’une condition, que l’Institut Pasteur recrute un chercheur sur ce sujet. Cela s’est fait avec  le recrutement de Philippe Glaser.

Je passe sur les problèmes que nous avons rencontrés notamment en matière de financement. En gros, l’objection générale dans les grandes institutions était : ces projets coûtent une fortune et vont consommer une grande partie du maigre financement de la recherche en biologie. De plus, le séquençage de l’ensemble d’un génome n’a guère d’intérêt, puisqu’on connaît déjà la plupart des gènes dignes d'être étudiés, etc. Aussi dans les années 1990, nous n’avons reçu presqu'aucun financement, si ce n’est, avec constance, un soutien de l’Institut Pasteur, je vais y revenir. Or, j’étais convaincu par nos résultats que l’on pouvait attendre un support très efficace de l’usage de l’informatique dans les sciences de la vie. Je rappelle que chez Elf-BioRecherches  nous avions essentiellement obtenus de très bons résultats sur l'hormone de croissance grâce à une réflexion menée sur les peptides signaux, complémentaire d'une analyse détaillée du métabollisme. Nous avions déposé une demande de brevet. Mais au cours de la procédure, nous nous sommes rendu compte que notre peptide signal ne serait pas protégé contre les contrefaçons et nous avons donc dû le garder secret. L'intérêt de ces travaux a fait que, pendant 25 ans, j’ai été soutenu par Sanofi, ce qui m’a permis de financer le séjour au laboratoire de nombreux étudiants. Cela supposait, bien sûr, que je gardais les résultats de nos expériences confidentiels. A ce propos, je suis persuadé qu’on trouverait un grand nombre de résultats dans l’industrie dont la diffusion serait du plus grand intérêt pour le monde académique. Or, il faudra les redécouvrir un jour ou l'autre car ils sont couverts par le secret. Il serait intéressant d'imaginer comment construire des ponts appropriés entre recherche académique et recherche industrielle pour éviter d'avoir à réinventer la roue.

Cependant, j’avais la chance de participer au conseil scientifique du Centre de Génétique Moléculaire (CGM) du CNRS dirigé par Piotr Slonimski et dont faisait partie André Goffeau [le responsable du programme européen de séquençage de la levure]. Lorsque j’ai proposé au cours d'une réunion de ce conseil de séquencer le génome de B. subtilis, André Goffeau a d’abord exprimé des réserves, puis, après une brève réflexion et avec une grande générosité (cela voulait dire partager une même source de financement), il a décidé que nous pourrions le faire avec son aide. Je me suis donc lancé dans l’aventure avec le soutien de la Communauté Européenne où Goffeau avait un rôle important. Dès le départ j’étais convaincu qu’il fallait mettre en place une grosse infrastructure informatique et Goffeau m’a demandé d’écrire la partie du projet qui y serait consacrée. J’ai inclus dans ce texte une partie descriptive qui met en évidence, c’est amusant à signaler, ce que l’on appelle aujourd’hui le ‘génome minimum’. Nous avions déjà fait le calcul de la taille exacte de ce que serait un génome minimum bactérien . C’était un point important car cela définissait une sorte de niveau zéro de ce qui permet la vie, et nous a permis plus facilement de solliciter des soutiens internationaux. Après un premier soutien européen, l’un des évaluateurs (en Allemagne) ayant bloqué l'extension du projet, nous n’avons finalement plus reçu un centime de l’Europe. Quant au CNRS, il s'était complètement positionné en dehors du projet. On pourrait discuter longuement des raisons pour lesquelles cette institution ne s’intéressait pas à ce genre de projets , ce dont on ressent d’ailleurs les conséquences aujourd’hui. Il  y a toujours eu un gros problème en France à propos de la génétique. La biologie recouvre deux grandes disciplines, l’une très abstraite qui est la génétique elle-même, la relation entre les objets, et une autre consacrée aux objets eux-mêmes, la biochimie . Or, le CNRS est totalement dominé par la biochimie et son pendant, la biologie structurale. Cela explique que nous avons eu beaucoup de mal à faire passer nos idées, en particulier celles afférentes à l’informatique .

A ce propos, je me demande si nous n’avons pas inventé le concept et l'expression de biologie in silico, autrement dit, l’idée que, à côté des expériences in vivo ou in vitro, on peut aussi expérimenter grâce à l’ordinateur. Le mot a été repris (si j’avais su son succès je l’aurais protégé !), mais il me semble avoir été publié pour la première fois  dans un article consacré à la gestion des bases de données génomiques . In silico introduit une nouvelle façon de faire des expériences, et conduit alors à s'interroger sur la notion de preuve en biologie. La notion de preuve scientifique est une question intéressante aussi sur un plan philosophique et historique : qu’est-ce qu’une preuve en biologie ? Dans ce domaine, il reste aujourd'hui impossible de convaincre uniquement par le calcul (pour la plupart, curieusement, l'acceptation de la preuve ultime reste la preuve biochimique, malgré les évidents aménagements des conditions expérimentales que cette technique permet), mais nous parvenons à un tournant crucial. L’accumulation des données est devenu tellement gigantesque que leur interprétation ne peut plus être faite de manière expérimentale : le temps et le coût des expériences à la paillasse seraient totalement prohibitifs et même irréalisables. On est obligé de recourir au calcul. Dès lors, peut-on considérer un résultat mathématique comme une preuve en biologie?

Mais revenons aux années 1990-1991. C’est un moment très particulier dans l’histoire des programmes de séquençage. Normalement, si l’on s’était fié à ce que l’on lisait dans Science, on aurait déjà disposé de la séquence du génome d’E. coli. Mais en fait, son séquençage n’était toujours pas réalisé. Le laboratoire de George Church qui s’en était chargé avait utilisé une technique remarquable et avait obtenu une gigantesque liste d’autoradiographies qui recouvrait l’ensemble du génome. Mais le problème — dont la difficulté était très sous-estimée — était de sortir l’information de ces autoradiographies et personne ne savait le faire. Nous avons alors eu l’idée d’utiliser les données disponibles pour faire le point . Nous avons d’abord traité statistiquement 700 kilobases , 1000 kilobases , puis 1500 kilobases du génome , déjà présentes dans les bases de données et, avec Claudine Médigue, nous avons découvert quelque chose de surprenant : le cinquième du génome d’E. coli avait une signature bien différente de celle du cœur du génome, montrant que les gènes correspondant venaient probablement d’ailleurs. C'était la première démonstration de l'existence d'un transfert génétique horizontal de grande ampleur. J’ai eu une correspondance à l’époque avec Nature où l'ambiguïté de la notion de preuve et l'idée qu'une approche in silico n'avait pas le même statut que les expériences de laboratoire apparaît de façon éclatante : on m’a répondu qu’en gros tout cela était parfait, mais que ce n’était que du calcul et on m’a suggéré d’envoyer l'article correspondant à un journal spécialisé . Ce thème a été pourtant été repris par cette revue, comme s'il était nouveau, dix ans plus tard...

C’est d’ailleurs en cette occasion que l’on a publié pour la première fois la généralité de cet aspect — le fait qu'un génome bactérien comprenne une proportion considérable de gènes "étrangers" — tout à fait intéressant des ‘transferts génétiques horizontaux’. Si vous vous intéressez à la sémantique, on observe à ce propos quelque chose de remarquable. Lorsque vous recherchez ‘horizontal gene transfer’ à PubMed au NCBI, vous pouvez voir qu’il y a plusieurs milliers d’articles, et si vous remplacez 'horizontal' par 'lateral' vous trouverez nettement moins d’occurrences. C’est amusant historiquement, ‘horizontal gene transfer‘ avait donc une certaine antériorité. Cela avait décrit d'abord un processus génétique considéré comme anecdotique, et lié à l'invasion des génomes par les bacteriophages. Or, un certain nombre de gens n’a pas accepté facilement le passage de l'anecdote à un processus général et important, et un autre terme, 'lateral', a remplacé le terme 'horizontal', simplement afin déplacer le champ de référence . Ce genre de déplacement arrive très souvent dans la recherche. Un mot a un certain succès et, tout d’un coup, on en invente un autre pour donner l’impression d’un concept nouveau. Puis on arrête de l’utiliser et on revient à l’ancien. Voici un autre cas typique. Il s’agit de catabolite activator protein (CAP) inventé par Geoffrey Zubay pour décrire la base de la répression catabolique. Certains chercheurs n’ont pas voulu reconnaître les travaux de collègues qui ont travaillé sur ‘CAP’ au début et ils ont inventé un autre mot, ‘CRP’ pour cyclic (AMP) receptor protein. Dans la littérature vous constaterez une dichotomie quasi-totale dans l'usage de ces deux termes, c’est assez amusant, mais on peut aller encore plus loin en regardant qui sont les auteurs qui utilisent l'un ou l'autre, au sein d'une même institutinon de recherche, par exemple. En fait, derrière le côté scientifique froid, création du savoir, etc., des publications scientifiques, il y a des luttes de pouvoir aiguës. Tous les coups sont permis et, en particulier, tous les moyens sont bons pour faire disparaître l’origine d’un concept. C'est pourquoi, en 1990, pour m'opposer à cette tendance, j’ai inventé un nom d’auteur pensant que l’on pourrait, comme en mathématiques [avec l’exemple de Bourbaki], créer un personnage fictif qui représenterait un ensemble de personnes réunies en séminaire. J’avais proposé Stanislas Noria : Stanislas pour « Séquence Totale des Acides Nucléiques » (Stan) et Noria pour « Nouvelle Orientation de la Recherche en Intelligence Artificielle » . Nous avons publié un certain nombre d'articles sous ce nom, mais malheureusement il a été impossible de le laisser publier seul. Il y a une réticence très forte dans la communauté scientifique à l’idée qu’il n’y ait pas une personne réelle derrière un travail, alors que je suis personnellement persuadé que l’ensemble des choses que nous produisons est le fait d’une collectivité.

En 1989 avec B. subtilis, c’est la première fois que l’Europe et les Etats-Unis partagent un projet de séquençage d'un génome. Malheureusement les Américains de la Côte Ouest et ceux de la Côte Est se faisait la guerre pour le contrôle des résultats obtenus à propos de la bactérie et la participation américaine est rapidement abandonnée. Par chance, en 1990 l’Europe a vu les Japonais proposer de s’associer immédiatement au projet . Nous avons donc reproduit exactement ce qu’avait fait Goffeau avec la levure, la constitution d'un consortium de laboratoires, et cela a très bien marché. L’Europe était ainsi suffisamment avancée en 1991 pour organiser un meeting à Elounda en Crète et y inviter les Américains. Ce colloque présentait ce que l’Europe avait déjà fait en matière de séquençage : le chromosome 3 complet de la levure, et un fragment continu de 100 kilobases du génome Bacillus subtillis . Dans les deux cas on trouvait la même chose, à mon sens la première découverte de la génomique, à savoir que la moitié des gènes découverts ne ressemblent pas à quelque chose de connu. Aujourd’hui, cela paraît banal, mais à l’époque c’était inattendu puisque cela contredisait l’un des arguments majeur des adversaires du séquençage. Ceux-ci expliquaient en effet que si l’on prenait un mutant quelconque d'un organisme quelconque et qu’on isole le gène correspondant, puis qu’on le séquence pour le traduire en une protéine, et que l’on regarde dans les banques de données si cela ressemble à quelque chose, on a 95% de chance de trouver que c’est le cas. Autrement dit, l’idée était que l’on connaissait déjà tout, et qu’il n’y avait rien de nouveau à trouver en séquençant les génomes. Me prenant à part dans le jardin de l'hôtel où se réunissait la conférence, Piotr Slonimski me dit en riant qu'il avait trouvé un nom pour ces gènes découverts lors du séquençage d’un génome, ‘elusive, esoteric but conspicuous’ [‘EEC genes’, ce qui constituait un clin d’œil à l’origine européenne du programme], et dans sa présentation il n'a manqué de retenir cette description. C’est aussi à Elounda que je me suis demandé s’il ne fallait pas séquencer le génome d'un Mycoplasma. J’ai essayé de prendre des contacts avec les Américains, mais cela n’a pas marché, je n’ai pas réussi à obtenir le soutien du CNRS ou de l’Institut Pasteur .

A cette époque j’essayais aussi de développer la bioinformatique dans un contexte assez compliqué. L’idée était d’installer un consortium au CNRS pour réunir l’ensemble des gens travaillant en informatique sur le génome, par exemple ceux qui enseignaient la biométrie à Lyon et qui avaient développé un très bon logiciel de gestion de bases de données, etc. Nous souhaitions réunir toute la communauté française, mais cela s’est révélé impossible. Les gens se bagarraient, certains créaient des structures administratives bancales, GIP, etc. J’ai insisté lourdement et à de nombreuses reprises auprès du CNRS pour créer un groupement de recherche (GDR). Mais finalement, nous n’avons réussi à le faire qu’en association avec l’Institut National de Recherche en Informatique et en Automatique (INRIA). Nous avons donc créé en avril 1992 le GDR 1029 « Informatique et Génomes » avec effet rétroactif en janvier 1992. La difficulté venait aussi du fait que les informaticiens pensent que les biologistes ne sont que des pourvoyeurs de données et que ces derniers estiment que le rôle des informaticiens n’est que de fournir l'analyse technique de leur données. Comme il me semblait clair qu’il fallait donner toute son importance à l’informatique, j’ai suggéré que la section du Comité National qui s’occuperait de ce GDR, relève de l’informatique et pas de la biologie. Ce GDR n’a duré que 4 ans, mais on peut dire que pratiquement tous les gens que vous voyez aujourd’hui œuvrer dans ce secteur, enfin presque tous, ont eu un lien avec ce GDR. Mais évidemment, il reste des traces des luttes passées, du fait de protagonistes dont il n'est pas utile de connaître le nom.

Du côté de l’administration, la situation était la suivante. Quand un nouveau ministre de la Recherche arrive dans son ministère, la première chose qu’il découvre, est qu’il n’a pas de personnel ou que le personnel dont il dispose n’est pas du bon niveau, qu’il est très mal payé et donc qu’il ne peut pas faire grand-chose. Il fait alors le tour des organismes publics qui dépendent de lui pour demander à leurs directeurs de mettre du personnel à sa disposition. Or, il arrive qu’un directeur d’établissement public comprenne très bien comment tirer parti de ce genre de demande. Si les personnes qu’il met à la disposition du ministère font du bon travail, lorsqu’il y aura des changements politiques, le nouveau ministre chargé de la Recherche voudra garder le personnel mis en place. Moyennant quoi, la politique du ministère sera non pas celle des politiques, mais elle s’inscrira dans la logique des établissements qui auront mis leur personnel à la disposition de l’administration. Ce système est d’une efficacité redoutable. Il a contribué à couler le programme de génomique à partir de 1992. J’ai eu entre les mains des rapports qui m’ont permis de constater qu’un certain nombre de conseillers étaient hostiles à l’idée du séquençage : "c’est un projet idiot, nous qui sommes intelligents, laissons faire les Américains, et nous exploiterons leurs données" ! Cet état d’esprit est scandaleux. D’abord parce qu’il déprécie l’idée que l’acquisition de données requiert une forte dose d’inventivité  conceptuelle et technologique, ensuite parce qu’il revient à méconnaître tout ce que l’on va apprendre en faisant du séquençage. Voilà le genre de difficultés auxquelles je me suis heurté en lançant le GDR. Je voyais Daniel Cohen fréquemment, nous étions reçus par le ministre ou par ses conseillers qui nous disaient qu’ils allaient nous financer… Et puis il ne se passait rien. L’argent n’arrivait pas. Les dossiers étaient purement et simplement enterrés. Nous nous posions donc la question de savoir comment créer un ensemble destiné à piloter la génomique en France, en particulier avec Piotr Slonimski. Vous savez qu’il y a eu un grand nombre  de projets divers avant d’en arriver au GREG. Mais finalement, on sait le destin de cet organisme. Dans la lettre du GREG , en 1996 ou 1997, il est écrit que le ministère a demandé, par fax, la fermeture de la sous commission du GREG qui s’occupait de l’informatique, ce qui annonçait la disparition de l’organisme lui-même, et montrait une totale incompréhension de l'importance majeure de l'informatique dans ces projets. La seule agence à s’être comportée de manière positive, mais qui est bien évidemment très minoritaire par rapport aux autres, est l’INRIA. Il faudrait aussi parler sans doute de la création du service ‘Infobiogen’, qui a servi aussi de boîte aux lettres pour de nombreux laboratoires de l’INSERM et d'autres EPST, et qui a pu jouer un certain rôle jusqu’à ce que l’on la fasse disparaître en 2006 . C’est incroyable, tous les efforts pour coordonner la bioinformatique en France ont été systématiquement torpillés. Certes, il existe désormais une Société Française de Bioinformatique qui essaye de rassembler les projets, qui fait de l’information, mais qui n'a pas les moyens d'un pilotage global de cette discipline.

Nous sommes donc en 1996. C’est la fin du GREG et en même temps, c’est le moment décisif où l’on s’aperçoit qu’il faut accélérer le séquençage. A la réunion de Dormy House, près d’Oxford en Angleterre (23-25 avril 1995), Craig Venter annonce qu'il a réussi à séquencer le génome complet d’Haemophilus influenzae et qu'il a pratiquement terminé le séquençage du génome de Mycoplasma genitalium. En fait, il s’agit d'un coup médiatique, certes cela concerne le génome entier d’une bactérie autonome, mais si on regarde la quantité d’ADN séquencé en continu, c’est nettement plus petit que ce qu’ont fait d’autres programmes à la même époque (levure et B. subtilis en particulier). En réalité, Craig Venter ne s’intéressait pas aux microbes, mais au cDNA du génome humain. A mon avis, il avait fait initialement de grandes banques de séquençages de cDNA en disant bien sûr qu’il diffuserait la connaissance correspondante, mais je le soupçonne d’avoir été plus malin car il avait créé deux structures : TIGR (The Institute for Genome Research) qui était sans but lucratif d’un côté et HGS (Human Genome Sciences) à but lucratif de l’autre. Il est évident que si vous avez accès à d’énormes données de séquences rien ne vous interdit d’extraire celles qui vous intéressent et d’en faire quelque chose par ailleurs.

A ce moment là nous n’avions pas fini Bacillus subtilis et nous avons compris qu’il fallait accélérer et nous nous sommes retrouvés confrontés à d’intéressants problèmes technologiques. Nous utilisions des fragments clonés du génome dans un hôte approprié, en l’occurrence E. coli. Or, il se trouve qu’à peu près 15% de l’ADN de B. subtilis est extrêmement toxique dans ces condtions, car n’importe quel gène de B. subtilis mis dans E. coli s’exprime à un niveau extrêmement élevé. Nous ne pouvions donc avoir accès qu’à environ 85 % du génome, et un peu mieux en utilisant une souche que nous avons mise au point à l'époque . Et nous n'avons pu progresser qu'en évitant les clonages intermédiaires, grâce aux progrès de la PCR "longue" qui venaient d'être commercialisée. Quoiqu’il en soit, nous avons réussi à ce que la séquence de E. coli et de B. subtilis soient terminées en 1997. Pour E. coli l’affaire avait failli très mal tourner. En 1995, le NIH avait refusé de continuer à subventionner son séquençage. C'est que les promoteurs du projet avaient fait une publicité exagérée pour la prévision de leurs résultats, en avaient sous-estimé les difficultés et avaient consommé leurs crédits. Il y a donc eu une réaction de la communauté scientifique (dont je faisais partie) pour les soutenir  et les NIH ont finalement reconduit les moyens à condition qu’ils réalisent la séquence complète avant la fin de 1996. A partir de là tous les programmes de séquençage ont commencé à accélérer de façon considérable. Mais un certain nombre de bactéries, en particulier celles qui ressemblent à Bacillus subtilis et qui ont un génome riche en AT et susceptible de s’exprimer très fort dans des hôtes hétérogènes posaient des difficultés de séquençage, et la première de ce type, après B. subtilis, a été Bacillus anthracis en 2002. Quant au génome humain, pour obtenir ses premiers éléments, il avait fallu pas mal de temps. Cela peut paraître bizarre aujourd’hui avec l’apparition des nouvelles techniques de séquençage. Cependant, on n’imagine plus le nombre de personnes qu’il fallait pour séquencer un génome. Aujourd’hui, on vous propose votre génome sur une clé USB séquencé en une journée pour environ 900 dollars… cf. la publicité de ‘NanoPore’ . Je remarque d’ailleurs que si la France avait su s’organiser, le CEA aurait été très bien placé pour faire ce que fait ‘NanoPore’. L’arrière plan politique et humain, et le mépris de la technologie, dans l’histoire de la génomique en France ont été dévastateurs, en particulier sur le plan économique.

Si l’on se tourne maintenant vers l’avenir, il y a un ou deux points que je souhaiterais développer et notamment la question des bases de données. Il convient d’évoquer l’énorme accumulation de leur volume au cours de ces dernières années. C’est très bien de séquencer des génomes, mais que va-t-on faire des données ? C’est d’autant moins simple que l’on se trouve confronté à la loi de Moore, mais d'une façon inattendue : la courbe d’augmentation des vitesses de calcul et de capacités de stockage vient de croiser celle de l'accroissement du volume de données, qui va beaucoup plus vite qu'elle ! Pendant deux ans, grâce à des techniques de compression , je pense qu’on va encore tenir le coup et les coûts, mais après, c’est l’inconnu. Nous sommes arrivés à un tournant extrêmement intéressant. Je rappelle qu’au moment de la création du Laboratoire Européen de Biologie Moléculaire (EMBL) dans les années 1970, s’était posée la question du séquençage de E. coli. Une parenthèse politique : Je signale à ce propos que l’EMBL ne dépend pas de la Communauté Européenne puisque l'EMBO inclut des pays comme la Suisse et Israël, ce qui a des conséquences assez particulières, comme le fait que la France et l’Allemagne financent deux fois l’Europe en ce qui concerne la biologie en général et la génomique en particulier, ce qui ne manque pas de poser des problèmes de financement considérables.

Quand on a commencé à faire du séquençage, à chaque fois qu’on avait séquençé un gène, on publiait un article et on rassemblait les séquences (tirées, à la main des articles) dans des banques de données. L’EMBL a donc créé une banque de données en Europe avec une banque annexe, en Suisse, ‘SwissProt’ consacrée aux protéines. En parallèle, aux Etats-Unis, on sait que le Human Genome Project fut lancé dans le sillage de l’Atomic Bomb Casualty Commission mise en place pour évaluer les conséquences génétiques des bombes atomiques d’Hiroshima et de Nagasaki. Le point de départ du programme génome humain américain était lié à la guerre et aux mutations possibles dues au rayonnement ionisants, ce qui explique pourquoi ce programme ait été développé par le Department of Energy (DoE). Aussi les premières banques de données ont été créées au DoE où l’on a très vite compris l’intérêt de se mettre d’accord avec les Européens. Rapidement, un accord a été passé entre la banque de données de l’EMBL à Heidelberg et GenBank (DoE) installée au Los Alamos National Laboratory (LANL) aux Etats-Unis. Il y a eu ensuite une lutte interne aux Etats-Unis dont je ne connais pas bien le détail, qui a opposé le DoE et les National Institutes of Health (NIH), qui pensaient que le séquençage du génome humain devait relever de la médecine. En définitive, à la suite d’une bagarre assez féroce, GenBank a été récupérée par les NIH et placée au National Center for Biotechnology Information (NCBI) sous la direction de David Lipman. En 1995, les Japonais ont commencé à développer leur recherche dans ce domaine et ont voulu participer à l’échange, c’était la DNA Data Bank of Japan (DDBJ). Lipman a tout de suite compris l’intérêt qu’il aurait à faire entrer les Japonais car cela lui permettait de résoudre son problème avec le DoE et une alliance à trois EMBL, DNA Data Bank of Japan et Genbank a été conclue, avec pour objectif l'échange total des données (mais sous des formats différents).

J’ai été recruté à cette époque là en tant qu’International advisor pour ce qui est devenu the International Nucleotide Database Collaboration (INSDC) . Il faut s’imaginer ce qu’est une banque, on doit structurer et définir le format des données qui seront ensuite distribuées aux usagers du monde entier. La philosophie sous-jacente de l’ensemble est celle de la naissance de l'Internet, décentralisée et ouverte, destinée à être transparente et généreuse, fondée sur le partage, autrement dit an-archique (au sens étymologique). Les gens y discutent directement de ce qu’ils pensent et souhaitent être le bien public, à partir de la demande des usagers. Leur tâche consiste à vérifier que les différents thèmes sont harmonisés, qu’il y a bien un échange de données toutes les 24 heures et que les formats sont nécessaires, utiles et interopérables. Les Etats-Unis étant plus pragmatiques que le reste du monde, David Lipman a tout de suite vu qu’il s’agissait d’un problème politique global et il s’est donc mis sous la dépendance directe de la National Library of Medicine, ce qui lui assure un minimum de financement pérenne. Donc aux Etats-Unis le gouvernement fédéral a son mot à dire dans la gestion de GenBank. Quant au Japon, la situation y est assez instable. En Europe s’est posé le problème de l’endroit où on allait mettre cette banque et surtout qui allait la financer. Pour l’instant c’est surtout la France et l’Allemagne qui la soutiennent via l'EMBO pour son financement courant. L'Angleterre apporte surtout le financement du Wellcome Trust. Au contraire les programmes de recherche de l’Union Européenne sont par définition à durée limitée, alors qu’il s’agit là d’une infrastructure dont il importe d’assurer la pérennité, un peu comme une bibliothèque nationale. Donc la première question était de savoir où on allait mettre cette banque. L'emplacement initial était l'EMBL à Heidelberg, mais la structure était clairement trop petite, et ce sont les Anglais qui ont trouvé la solution. Grâce au traitement du sida, le Wellcome Trust avait amassé une fortune gigantesque et il a pu financer le Sanger Centre à Hinxton Hall (au sud de Cambridge) où l’on fait essentiellement du séquençage. Le Sanger Centre a donc proposé d’être l’hôte d’une annexe de l’EMBL en fondant l’Institut Européen de Bioinformatique (European Bioinformatics Institute – EBI). Mais contrairement à ce qui se passe aux Etats-Unis, le financement de l’EBI n’est pas pérenne et il s’agit d’un problème aigu car nous arrivons à des coûts de recherche, de stockage, de calcul, etc. considérables. Il va donc falloir trouver une solution.

J’ai donc essayé de développer l’idée qu’il ne s’agit pas d’alimenter trois banques de données, mais une seule. J’avais proposé plusieurs dénominations, mais cela a été initialement refusé par les Américains . Au moins, jusqu’au jour où à cause de la querelle DoE-NIH, David Lipman a eu besoin de l’aide de l’Europe et des Japonais. C’est alors qu’il a accepté le nom d’International Nucleotide Sequence Database Collaboration (INSDC) qui représente aujourd’hui une base de données à trois points d’entrée. J’essaie aujourd'hui de faire en sorte que les gens qui écrivent des articles n’écrivent pas qu’ils ont déposé leur séquence à GenBank mais bien à l’INSDC, mais c'est rarement le cas. Or, on peut comprendre que se pose en permanence un problème de négociation entre les trois bases de données. Les Etats-Unis disent qu’ils produisent presque toutes les données, ce qui n’est pas tout à fait faux, et que nous bénéficions tous de ce qu’ils font. Le principal apport des Européens était jusqu'à récemment celui du Swiss Intitute of Bioinformatics, avec la banque de données de séquences protéiques SwissProt. Mais, problème majeur, SwissProt compte plusieurs centaines de personnes qu’il faut rémunérer, d’où la question de son financement. Pour l’instant la Suisse paye, mais cela devient difficile et SwissProt a dû se mettre d’accord avec l’autre banque de données de protéines située aux Etats-Unis, PIR, pour créer un ensemble qui s’appelle UniProt, financé de façon non négligeable par les NIH. Aussi l’avantage compétitif de l’Europe se trouve compromis.

Voilà la situation actuelle : le seul financement stable est le financement assuré au NCBI par le gouvernement fédéral américain. Et nous ne savons pas comment nous allons payer à l'avenir le dépôt et l’accès à ces données, sans compter, bien sûr, la recherche associée.  Or on se rend bien compte que celui qui possède le savoir possède le pouvoir. En voici un exemple. Je suis allé installer un laboratoire à Hong Kong en 2000, où je suis resté trois ans. J’ai essayé d’y développer la génomique microbienne ainsi qu'un service d'analyse bioinformatique et un ensemble de bases de données. Or, aussitôt après le 11 septembre 2001, j'ai pu constater que l’accès aux calculateurs du NCBI a été interrompu, et cela pendant trois jours. Etait-ce une coincidence ? Nous utilisions comme tous, et sans compter, l’accès au NCBI, mais à partir du moment où il a été interrompu nous perdions un accès majeur à la connaissance. J'avais depuis longtemps tenté de sensibiliser les responsables politiques et la Bibliothèque Nationale de France (BNF) en particulier aux problèmes des bases de connaissance. Et j'ai tenté à nouveau de faire comprendre le problème, sans aucun écho, malheureusement ! A l’occasion, j’avais découvert que la BNF s’intéresse à tout ce qui concerne le livre, mais pas à la science. On y trouve des ouvrages de vulgarisation, mais presqu'aucun de vraie science. On ne protège pas le savoir scientifique. Alors, conserver des bases de données biologiques, vous n’imaginez pas combien c'est impensable. C'est pourquoi j'ai essayé de développer (je suis encore en train de le faire) une association avec la Chine. L'idée serait de construire une contrepartie de ‘PubMed’, mais pour la littérature scientifique biologique non médicale. Par exemple développer des bases de données rassemblant toute la connaissance possible sur les microbes, avec l’idée de négocier pour que la Chine devienne un quatrième point d’entrée de l'INSDC. Nous en sommes là actuellement. La négociation est en cours, non sans quelques difficultés, bien sûr. La Chine produit aujourd’hui d’énormes quantités de données qui ne sont pas accessibles. Il serait donc très intéressant qu’elle fasse partie de cet ensemble, mais se pose évidemment la question politique de connaître les garanties données par le gouvernement chinois pour que cet effort soit à la fois pérenne, ouvert et techniquement fiable. Enfin, l’une des dernières tentatives que j’ai essayée récemment est de faire dépendre ces bases de connaissance des Nations Unies car ce savoir est universel et concerne l’humanité toute entière.

La génomique en est à ce stade aujourd’hui : nous sommes écrasés sous un déluge de données. On se rend compte en même temps que le problème de l’accès à ces données est le même que l’accès au contenu des articles. Plus d’un million et demi d’articles en biologie sont publiés chaque année et il est impossible de lire ne serait-ce que les tables de matière à cause de la politique des éditeurs. La seule manière de le faire serait de mettre en place un réseau parallèle d'analyse du contenu, un système de preuve par le calcul tel que je l’ai déjà évoqué. Il est clair que si nous étions capables de mettre ensemble tout ce qu’on sait déjà, cela produirait des résultats absolument fantastiques. Mais personne ne s’occupe de la mise en œuvre de cette intelligence collective. Des institutions comme le CNRS ne s’y intéressent pas et les Français ne semblent plus guère tournés vers l’avenir. Il y a par ailleurs dans notre pays perte de l’esprit "ingénieur", ce qui est une erreur majeure car il y a toujours eu un lien très fort entre les progrès conceptuels et le développement technologique. Si on ne développe pas la technologie, il y a des tas de choses que l’on ne comprendra pas.