Entretien avec Daniel Schwartz

    (Jean-Paul Jean et René Padieu, Pénombre. numéros 12 et 14, 03-05 1997)

    Polytechnicien, professeur émérite à la Faculté de médecine Paris-Sud, Daniel Schwartz a été directeur de la première unité de recherches statistiques de l'Institut national de la santé et de la recherche médicale (INSERM) et fondateur du Centre d'enseignement de la statistique appliquée à la médecine (CESAM). Il a été le pionnier de l'introduction de la statistique dans la médecine en France, et a publié de nombreux ouvrages sur le sujet.

    René Padieu: Le hasard est-il, selon l'expression célèbre, "l'expression de notre ignorance", ou une caractéristique du monde?

    Daniel Schwatrz: C'est là un vieux débat. Sans doute, dans un lancer de pièce, nous ignorons si le résultat sera pile ou face. Mais s'agit-il là vraiment d'une ignorance, c'est-à-dire d'un état que des connaissances pourraient pallier. C'est ce qu'avançait Laplace, lorsqu'il disait: "le hasard représente seulement l'expression de notre ignorance. Tout phénomène, si minime soit-il, a une cause, et un esprit infiniment puissant, infiniment bien informé des lois de la nature, aurait pu le prévoir dès le commencement des siècles". Mais cette vue n'est pas réaliste, car nous ne sommes pas des esprits infiniment puissants, et rien ne nous permet de prévoir le résultat du pile ou face. Cette incapacité est donc autre chose qu'une ignorance. Disons que le hasard est la dépendance de facteurs si nombreux que leur résultat est imprévisible.

    R. P.: La statistique est-elle la description d'une population ou la mise en évidence de lois?

    D. S.: Les deux à la fois. Pour le premier problème que vous évoquez, la description d'une population, une difficulté majeure provient de la variabilité des caractères biologiques selon les individus. Pour l'évolution d'une maladie par exemple, certains individus guérissent et d'autres non. On ne peut donc décrire la population à partir d'un seul malade, il faut connaître la proportion de guéris dans la population des malades de ce type. Or nous ne pouvons disposer de tous ces malades, mais seulement d'échantillons de taille finie. Le taux de guéris estimé sur des échantillons diffère plus ou moins de la vraie valeur, celle de la population, en raison des fluctuations d'échantillonnage, ou fluctuations du hasard. Ces fluctuations font que, par exemple, si on tire un échantillon dans une urne contenant 20% de boules blanches, on n'obtient pas nécessairement ce taux mais un taux fluctuant autour de 20% d'un échantillon à l'autre. Ces fluctuations du hasard sont imprévisibles et peuvent conduire à de grands écarts. Ainsi, voilà la difficulté : on veut décrire une population par un taux et ce taux est hors de portée.
    À cette difficulté majeure, le statisticien apporte une solution (partielle). Il peut déclarer que le taux inconnu dans la population est compris dans tel intervalle, une fourchette, à condition d'admettre un risque d'erreur (5%, 1%....). Au constat de l'impossible certitude, il oppose la conclusion avec risque d'erreur contrôlé.

    Jean-Paul Jean: Et pour la mise en évidence de lois statistiquement établies?

    D. S.: Les lois qu'on cherche à mettre en évidence sont le plus souvent des associations entre variables: par exemple entre consommation du tabac et cancer des bronches, ou entre administration d'un traitement A et guérison. Dans le cas le plus simple, il s'agit donc d'une description comparée: comparaison pour le cancer entre les fumeurs et les non fumeurs, pour la guérison entre les malades traités par A et des témoins traités différemment. Ici encore, il faut comparer des proportions (probabilités) de cancer, ou de guérison, qui sont hors de portée parce qu'on ne peut avoir accès qu'à des échantillons finis, sujets aux fluctuations d'échantillonnage. Le statisticien apporte une solution, le test statistique. Cette opération permet de savoir si la différence des taux observés sur les échantillons peut raisonnablement être attribuée aux fluctuations d'échantillonnage, ou au contraire être réelle (on dit "significative"); ceci à condition, ici encore, d'admettre un risque d'erreur.

    J.P. J.: Qu'entend-on par "facteurs de risque" d'une maladie?

    D. S.: Une définition du risque d'un événement est la probabilité qu'il se produise, éventuellement au cours d'une période donnée. Le risque d'une maladie est une façon d'exprimer sa fréquence. Les deux mots ont toutefois une connotation différente: la fréquence concerne la population, tandis que le risque s'attache surtout à l'individu. C'est pourquoi l'on recherche une personnalisation maximale du risque, en tenant compte des "facteurs de risque".
    Est facteur de risque tout élément corrélé à l'apparition de l'événement. Le taux annuel d'infarctus dans une population augmente avec l'âge: l'âge est un facteur de risque. Supposons que, dans un groupe de sujets, la fréquence annuelle de l'infarctus atteigne quatre pour mille; pour un sujet dont on ignore tout, le risque annuel d'infarctus est quatre pour mille. Si, dans ce groupe, on sait qu'un sujet a 80 ans, on tiendra compte de cette information en évaluant son risque dans le sous-groupe des sujets de 80 ans. On trouvera ainsi une nouvelle valeur, supérieure à quatre pour mille, mieux adaptée au sujet.
    Cette nouvelle valeur semble plus réaliste, mais elle n'est pas pleinement satisfaisante; on a supposé que le risque est le même pour tous les sujets de 80 ans. Précédemment, on ignorait tout facteur de risque, maintenant on ignore tout facteur de risque autre que l'âge: la frontière de l'inconnu a seulement reculé d'un pas. En prenant en compte de nouveaux facteurs, la cholestérolémie, puis la tension artérielle, puis l'usage du tabac, on pourra placer le sujet dans des sous-groupes de plus en plus réduits. D'étape en étape, le risque changera au gré des informations, cernant de plus en plus près une probabilité personnalisée.
    Dans une étude menée il y a quelques années sur une population d'hommes de 50 ans, le risque annuel de l'événement infarctus ou mort subite était de quatre pour mille. Mais considérons par exemple deux sujets dans des situations extrêmes. Le premier a une tension artérielle et une cholestérolémie normale, il ne fume pas et n'est pas diabétique; le second a une tension artérielle à 200 mm, une cholestérolémie de 300 mg/ml, il fume 40 cigarettes/jour et est diabétique. Le risque annuel du premier était de 1 pour 1000, celui du second de 10%.
    Ainsi la prise en compte des quatre facteurs de risque nous permet de calculer des risques très différents. Jusqu'où peut nous mener cette voie? La connaissance de nouveaux facteurs permettra-t-elle de diviser une population où le risque est de quatre pour mille en deux groupes de sujets, dont l'un comporte les quatre individus qui feront sûrement un infarctus dans l'année, et l'autre les 996 qui n'en feront sûrement pas? La réponse à une telle question est négative, et ce pour deux raisons. La première est qu'on n'arrivera probablement jamais à connaître tous les facteurs de risque. La seconde est que, même si on les connaissait, on ne parviendrait pas à tenir compte du stress ou autres événements aussi imprévisibles que les raisons conduisant au pile ou face.
    Un autre exemple illustrera les limites de la prévision: le conducteur au volant de sa voiture encourt un risque d'accident qu'on estime au mieux en fonction de son âge, de son type de voiture, de l'alcool absorbé... mais sans pouvoir jamais tenir compte des imprévus du parcours.
    Ainsi, apparaît-il que le risque résulte à la fois de l'ignorance et du hasard. Pour personnaliser un risque de maladie, l'épidémiologiste réduit la part d'ignorance pour se rapprocher aussi près que possible de la situation où la seule composante du risque est le hasard pur.

    R. P.: Le hasard est-il un outil du statisticien pour tenir en respect sa subjectivité et quelles sont les stratégies à mettre en œuvre pour réduire l'incertitude des résultats?

    D. S.: Dans les problèmes évoqués plus haut, la difficulté est qu'on voudrait connaître, ou comparer, des taux vrais - ceux des populations - mais qu'on ne dispose en général que d'estimations observées sur des échantillons qui s'écartent plus ou moins des vraies valeurs en raison des fluctuations d'échantillonnage. Ainsi le hasard rend toute conclusion certaine impossible, il est notre maître, notre ennemi... Grâce à ces lois, nous pouvons énoncer des conclusions à condition d'admettre un risque d'erreur contrôlé.
    Cependant l'intervention du hasard ne se limite pas là... L'établissement d'une fourchette dans la description d'une population suppose que l'échantillon considéré soit représentatif. On peut montrer que ceci n'est en principe réalisé que si l'échantillon résulte d'un tirage au sort. De même, dans la description comparée, par exemple dans la comparaison des taux de guéris avec deux traitements A et B. le test statistique permet de savoir si la différence est significative. Mais, dans ce cas, elle ne peut être attribuée aux traitements que si les échantillons des deux groupes sont, à part le traitement, comparables à tous les égards, et là encore on peut montrer que ceci nécessite que les deux groupes aient été constitués par tirage au sort. Ainsi le hasard cette fois nous est utile, ce n'est plus notre ennemi, mais notre allié....

    J.P. J.: Pourquoi, dans ces deux situations, la solution est-elle le tirage au sort?

    D. S.: On constitue souvent des échantillons par des procédés commodes, en s'imaginant qu'ils sont "représentatifs". Ainsi, dans la population française, on choisira les sujets dont le nom commence par A. Dans la population des étudiants suivant un cours, on choisira ceux du premier rang dans l'amphithéâtre. Dans un groupe de souris d'une race donnée, quand on souhaite faire une expérience sur 20 souris, on choisira les 20 premières attrapées dans la cage. Ces méthodes sont mauvaises.
    Les Français dont le nom commence par A diffèrent de ceux dont le nom commence par une autre lettre. Le nom dépend, entre autres, des ethnies, des régions. Dans un amphithéâtre, les élèves du premier rang (quand il y en a...) diffèrent des autres: souvent ce sont les plus consciencieux, les plus tôt arrivés ou ceux qui entendent ou voient moins bien. Les souris attrapées en premier sont... des nigaudes. L'expérience montre qu'elles sont plus vulnérables aux maladies.
    Dans ces exemples, l'échantillon diffère systématiquement de la population par un caractère au moins (la première lettre du nom, la place dans l'amphithéâtre...). Comme un caractère est toujours lié à un écheveau de beaucoup d'autres, l'échantillon risque de différer de la population par de nombreux caractères, peut-être précisément ceux que l'on étudie. Un tel échantillon n'est pas représentatif; on dit qu'il est "biaisé".
    Pour éviter tout biais, on doit introduire dans l'échantillon des sujets choisis indépendamment de toutes leurs caractéristiques. La seule façon d'y parvenir est de recourir au hasard - n'est-ce pas là une de ses définitions? Le hasard est la rencontre de deux chaînes d'événements indépendantes : le croisement, au même instant, de l'itinéraire choisi par Monsieur N et de la trajectoire d'une tuile qui glisse d'un toit et lui tombe sur la tête est un hasard... Ainsi, un échantillon constitué par tirage au sort sera représentatif. Pour obtenir deux groupes, comparables dans la description comparée, c'est le même raisonnement qui conduit à les constituer par tirage au sort.

    J.P. J.: Comment utiliser ces éléments de connaissance pour prendre des décisions? Pourrions-nous prendre quelques exemples? D'abord, celui de la mort subite du nourrisson (MSN). Quel est le risque statistique? Quelles conséquences générales à en tirer sur la prévention? Quelles mesures particulières pour les sujets les plus exposés? Que dire à des parents dont l'enfant est mort, alors que le risque était estimé comme minime? Ainsi, dans le cas d'une famille où un bébé est mort de ce fait, alors que dans la lignée du père, quatre enfants sur 100 étaient décédés de cette façon.

    D. S.: Dans le cas que vous m'avez transmis, la mère a demandé au médecin, qui le lui a déconseillé, des mesures comme des monitorings, un télécontrôle. Le risque de MSN qui était autrefois de 1 pour mille est aujourd'hui de 0,5 pour mille. Cette baisse est due probablement au conseil donné aux mères de coucher l'enfant sur le côté et non plus sur le ventre. Je dis probablement, parce que la causalité est difficile à établir, car d'autres conseils ont aussi été prodigués. Y a-t-il un problème héréditaire? Il n'est pas prouvé. S'il l'était, cela "ne" multiplierait le risque "que" par 2 ou 3, c'est-à-dire que de 0,5 pour mille, il passerait à 1,5 ou à deux pour mille. La différence de risque, malgré la "multiplication par deux ou trois" reste donc très faible. Si l'on prenait ces mesures de monitoring, il faut se dire qu'il y en aurait près de 998 sur 1000 qui ne serviraient à rien, élément dont il faut tenir compte. Il n'est pas sûr non plus que le monitoring serait efficace et il a l'inconvénient d'être très anxiogène pour la mère.
    Pour un bénéfice très faible, le coût est très élevé. Le choix raisonnable est donc de prendre uniquement les mesures habituelles: coucher le bébé sur le côté, éviter la fumée de cigarette dans la pièce, bien aérer la chambre, ne pas avoir d'excès de couverture, ceci entre deux et quatre mois, période dans laquelle peut intervenir la MSN.

    J.P. J.: Mais comment expliquez-vous ensuite aux parents qu'ils ont eu le malheur de "tomber" dans les deux pour mille? Le risque était minime, mais ils en sont victimes.

    D. S.: Il faut leur expliquer que, sur 1000 bébés, on sait qu'en moyenne deux auront une mort subite et 998 y échapperont. Rien ne permet, à l'heure actuelle, de connaître à l'avance les deux victimes, et même si dans l'avenir on décelait des facteurs de risque (l'hérédité en est peut-être un) il restera toujours des facteurs imprévisibles, un pur hasard. Tomber dans les deux pour mille est une malchance...
    La suite de l'entretien porte notamment sur le risque d'être victime d'un attentat dans le RER, la subjectivité du chercheur et du médecin dans l'élaboration des statistiques et l'information transmise à partir de ses constatations, le risque de transmission VIH de la mère à l'enfant, les effets placebo des médicaments, la vache folle, le rapport entre les lignes à haute tension et la leucémie, les risques liés au tabac et la notion de mort prématurée, ainsi que l'apport de la recherche sur le tabac à l'épidémiologie....

    Revenons au problème du risque. Nous vous avions demandé, dans l'entretien précédent (1), comment utiliser les connaissances pour prendre des décisions. Et vous nous avez donné un exemple de réponse, celui de la mort subite du nouveau-né. Pouvez-vous élargir le débat?

    Daniel Schwartz: La connaissance d'un risque sert, d'une part à faire progresser le savoir, mais d'autre part aussi, bien sûr, à guider des décisions: cette utilisation est la "gestion du risque". C'est là le problème à la mode, il fait l'objet d'innombrables écrits et conférences, il est en effet très vaste, en raison des multiples facettes du risque. Une des facettes, la plus importante sans doute, provient du fait que le risque recouvre deux aspects. C'est, d'une part une fréquence dans un groupe de sujets (risque collectif) et d'autre part une probabilité pour un individu (risque individuel). Ce qui est tout différent pour le mode de gestion.

    P.: Il y a donc deux modes, la gestion collective et la gestion individuelle?

    D.S.: Disons trois, car il y a des cas où les deux interviennent. La gestion individuelle et collective

    P.: La mort subite du nouveau-né était, j'imagine, un cas de gestion individuelle. Pouvez-vous nous parler des deux autres situations?

    D.S.: Pour la gestion individuelle et collective, un bon exemple est le tabagisme. Les méfaits du tabagisme, plus ou moins connus depuis très longtemps, ont été prouvés de manière rigoureuse dans les années 50 à l'occasion de l'augmentation explosive de la fréquence du cancer bronchique. Mais il a fallu de nombreuses études très importantes pour prouver la responsabilité du tabac. En effet des enquêtes étiologiques remarquables ont certes prouvé que la fréquence de ce cancer était nettement plus élevée chez les fumeurs que chez les non fumeurs. Mais voilà, ces deux groupes sont-ils comparables, ne diffèrent-ils que par le fait de porter ou non une cigarette à la bouche? Il est bien vraisemblable que non. Et les enquêtes ont confirmé que les fumeurs diffèrent des non fumeurs par la catégorie socio-professionnelle, la consommation de café et d'alcool... ils mesurent même 1 cm de plus. Alors la cause du cancer est-elle le tabac, l'alcool, le café (ou le cm?).
    Cette difficulté de l'imputation causale est la tare majeure des enquêtes d'observation, où on se contente d'observer des groupes qui se sont constitués par eux-mêmes. Pour parvenir à la preuve de causalité, on a dû accumuler les résultats d'études de type varié: d'abord des enquêtes épidémiologiques souvent gigantesques (une enquête sur 1 million de personnes aux États-Unis), ensuite la comparaison des pourcentages de cancer chez les fumeurs et les non fumeurs à égalité de consommation d'alcool, de café, etc. ainsi que des expériences sur animal (badigeonnage sur la peau de souris de condensats de fumée - on n'a pas pu faire fumer des souris, mais seulement des crapauds, en trop petit nombre), analyses chimiques etc. C'est cet ensemble cohérent qui a fini par convaincre que le tabagisme est bien la cause, et la cause non seulement du cancer bronchique, mais de bien d'autres cancers et de maladies respiratoires et cardio-vasculaires. La durée de vie médiane est raccourcie d'environ 8 ans chez les fumeurs réguliers de cigarette. En France, d'après les calculs de C. Hill, le tabagisme tuerait près de 60'000 personnes.

    P.: Mais ces personnes seraient mortes de toute façon? Selon l'expression consacrée, "il faut bien mourir de quelque chose".

    D.S.: Certes, mais il s'agit de morts prématurées. Les sujets auraient vécu plus longtemps.

    P.: Et qu'en est-il alors résulté pour les décisions (gestions) individuelles?

    D.S.: Eh bien, pratiquement rien. Les médecins anglais ont certes diminué leur consommation, très probablement parce qu'ils avaient constitué un des échantillons d'enquête et avaient ainsi observé les dégâts sur eux-mêmes. Mais le public n'a pas suivi dans l'immédiat, et dans les autres pays aucune décision individuelle n'a été à la mesure de la connaissance: Homo Sapiens est l'homme qui sait, ce n'est pas l'homme sage!

    P.: Et au plan collectif?

    D.S.: Bien des mesures collectives sont possibles, notamment l'accroissement des taxes sur le tabac, la réglementation de la consommation dans les lieux publics etc. Cependant la réduction des ventes de tabac occasionne un préjudice à de nombreuses catégories de personnes: planteurs, débitants de tabac (il y en a actuellement en France respectivement 40'000 et 35'000), entreprises de publicité, sans parler de l'État qui tire un énorme profit des taxes (actuellement plus de 40 milliards de francs par an). Et encore faudrait-il ajouter les sommes que les maladies liées au tabagisme rapportent aux médecins, aux chirurgiens, aux pharmaciens. Et pour pousser les choses à l'extrême, remarquer quel avantage résulte de décès, par cancer du poumon en particulier, intervenant juste à l'âge de la retraite! La gestion collective suppose un bilan coût-avantage. Mais un bilan pour qui? La seule solution souhaitable est un accord des parties démocratiquement adopté.
    Il a fallu attendre, pour la mise en œuvre des mesures possibles, les années soixante-dix, voire quatre-vingt, pour la plupart des pays européens; 1976 en France où la loi Veil a, en particulier, interdit la publicité à la radio, à la télévision, au cinéma et par voie d'affiche. En 1991, l'interdiction de publicité a été renforcée par la loi Evin en même temps qu'était décidée une nette augmentation du prix des cigarettes, pour la première fois depuis des décennies.
    Au total, la consommation du tabac, à part une baisse importante pendant la guerre et des variations annuelles mineures, a grandi constamment depuis le début du siècle, puis a présenté un palier à partir de 1976, date de la loi Veil, et une diminution à partir des années 91, date de la loi Evin et de l'augmentation des tarifs. Mais elle reste beaucoup plus élevée qu'elle n'était avant la publication des enquêtes. Celles-ci n'ont donc joué qu'un rôle quasi nul dans les gestions individuelles mais sans doute ont-elles préparé le terrain et permis moins difficilement les décisions de type collectif.

    P.: Et pour la gestion de type purement collectif, quels exemples pouvez-vous nous donner?

    D.S.: Je n'en choisirai qu'un, mais à propos duquel je voudrais évoquer quelques principes généraux allant le plus souvent contre des idées fortement ancrées dans l'esprit du public. Ce sera celui des lignes aériennes à haute tension.
    J'ai assisté, il y a peu, dans une commune des Yvelines, concernée par ce problème, à une réunion d'habitants de la région. Quand l'orateur a communiqué aux assistants la conclusion d'un remarquable travail de synthèse:"les résultats épidémiologiques actuellement disponibles ne permettent pas d'exclure un rôle des champs magnétiques dans l'apparition de leucémies, en particulier chez l'enfant", ce fut un tollé: comment des soi-disant chercheurs de haut niveau peuvent-ils se contenter d'une conclusion qui n'est qu'une absence de conclusion? C'est oui ou non, blanc ou noir, on veut savoir! C'est là une première idée fortement ancrée dans l'esprit du publi: il n'admet pas l'incertain. Or celui-ci est toujours possible, soit parce que la conclusion nécessite des enquêtes immenses, soit parce qu'elles conduisent à des résultats contradictoires. Comme il faut bien agir, on devra pratiquer une gestion dans l'incertain.
    Dans certains cas, le risque a une valeur quasi inconnue pour un effet très grave. C'est ce qui s'est produit pour l'encéphalite spongiforme bovine. On a recours alors à ce qu'on appelle, un peu pompeusement, le principe de précaution: c'est une sévérité des mesures telle qu'on l'adopterait si le risque était très élevé; une démarche qui finalement rappelle le pari de Pascal incitant à agir comme si Dieu existait, bien que la probabilité de cette éventualité soit inconnue.
    Mais ces cas sont l'exception. En général, on a une idée du risque en fonction de l'importance de l'exposition et on peut établir un "risque admissible". Celui-ci résultera d'un bilan entre les avantages et les inconvénients de la limite admise pour l'exposition au risque, il est tel que pour une exposition plus élevée les inconvénients l'emportent sur les avantages.
    Dans le cas des lignes à haute tension, "l'inconvénient" serait - s'il existe - un nombre minime de leucémies chez l'enfant. Mais ce nombre, même minime, est-il tolérable? Ne doit-on pas tout faire pour le réduire à zéro? C'est bien ce que pensaient les assistants à la réunion que j'ai évoquée. "N'y eût-il qu'une leucémie en plus n'est pas tolérable, pensez donc, et si c'était votre enfant". Un contradicteur (je faillis l'être...) eût été lapidé! Car le second principe fortement ancré dans l'esprit du public est que la santé n'a pas de prix. Or malheureusement la santé a un coût. En argent certes: les sommes disponibles sont limitées et le prix payé pour habiller Pierre déshabillerait Paul; pour un danger incertain on va supprimer des crédits, entraînant des dangers certains. Ces coûts ne sont d'ailleurs, et de loin, pas les seuls à considérer. L'enterrement des lignes électriques entraînera très probablement des accidents du travail, peut-être plus nombreux et graves que les éventuelles leucémies.

    P.: Mais que faire alors?

    D.S.: Dans le cas des lignes électriques, la solution raisonnable est sans doute de ne pas toucher aux lignes existantes, mais d'éviter les villes et villages pour les lignes futures.