• Data Science & IA
  • COVID
Analyse Statistique Data science Epidémie Covid France Italie 2020

Décryptage statistique de l'évolution épidémique en France et en Italie

Il n’aura échappé à personne que la crise sanitaire due au COVID-19 est fortement décrite et pilotée par la data, la manifestation la plus éclatante en ayant été la prise en compte dans la décision française de confinement des projections établies par modélisation, par une équipe anglaise de « l’Imperial College ».

Souhaitant comprendre et m’approprier les ressorts de l’épidémie, j’ai analysé les données relatives à la dynamique de l’épidémie et cherché comment établir des projections sur sa fin. L’analyse porte sur les cas confirmés de COVID-19 consolidés par l’agence européenne ECDC, les données françaises provenant de l’agence publique Santé Publique France.

Précisons que n’étant pas spécialiste en modélisation épidémiologique, les analyses présentées ci-dessous sont purement fondées sur les données, pour lesquelles le nombre nous semble suffisant aujourd’hui pour procéder à un ajustement statistique. L’analyse n’intègre donc pas d’hypothèses, de connaissances et de modèles de propagation tels que dans celles réalisées par les épidémiologistes.

À noter également que les volumes de cas présentés ci-dessous sont un minorant du phénomène réel. Nous savons en effet qu’il y a plus de cas que ceux remontés, mais ce qui prime dans l'analyse statistique n'est pas tant le volume de cas en valeur absolue que la capacité de ces données à décrire la forme de la courbe épidémique. Or, si nous faisons l’hypothèse que les données de cas observés suivent une définition stable dans le temps alors nous pouvons analyser voir modéliser pour établir des projections.

Le graphique ci-dessous montre la courbe épidémique en cas cumulés puis en nouveaux cas quotidiens en Chine. S'appuyer sur le cas de la Chine, point de départ de l'épidémie et où la première vague est terminée, permet d'observer des données qui décrivent complément la courbe épidémique.

Aux données observées, nous avons ajouté un ajustement statistique basé sur une forme. La forme sigmoïde est communément admise comme la forme décrivant le mieux la croissance d’une population, ici les cas testés positifs au COVID-19.

L’ajustement ne suit pas complètement la courbe observée, cependant il restitue bien la forte hausse et forte baisse de l’épidémie. À noter que le pic élevé de mi-février est un point extrême dû à une reprise d’historique dans le Hubei suite à un changement de définition dans la notion de cas confirmés

Nous cherchons à appliquer ce même type d’ajustement au cas européen et nous observons le même type de phénomène. Cependant l’observation des données est partielle puisque nous venons tout juste de dépasser le pic épidémique, un palier semble se former. La redescente parait plus lente et les différences de politiques sanitaires y contribuent certainement.

Cette incertitude nous a amené à postuler un second modèle en concurrence, basé sur une formulation de fonction dite de Gompertz. Cette dernière, contrairement à la fonction logistique, a la propriété de redescendre plus lentement qu’elle n’a crû, cela peut donc être un modèle qui pourrait correspondre à l’observation de l’épidémie en Europe.

Nous constatons à date une forte volatilité sur les cas observés qui nous impose une certaine prudence. L’examen graphique montre qu’il est difficile de trancher définitivement entre les deux modèles.

Epidemie Covid Chine 2020

Figure 1 : courbe observée et estimée épidémie COVID-19 en Chine, données observées et arrêtées au 10/04/2020 source ECDC

Le graphique ci-dessus montre l’ajustement en prenant en compte les données jusqu’au 13 avril inclus. Si nous prenons en compte une semaine de plus jusqu’au 20 avril, nous observons un ajustement très proche, où le modèle logistique se révèle plus adapté à la chute des nouveaux cas ces derniers jours.

modélisation de l'épidémie covid en France de Février à Avril 2020

Figure 2 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 13/04/2020 source ECDC

En revanche en Italie, le modèle de Gompertz est plus adapté. Il suit mieux la décroissance lente qui est observée dans les chiffres, alors que le modèle logistique anticipe une décroissance plus marquée qui ne se vérifie pas.

Evolution de  l’épidémie COVID-19 en France au 20 Avril 2020

Figure 3 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 20/04/2020 source ECDC

Pour aller plus loin et déterminer une estimation de fin de vague épidémique, nous avons projeté les modèles sur les prochaines semaines.

Courbe de l’épidémie COVID-19 en Italie au 20 Avril 2020

Figure 4 : courbe observée et estimée de l’épidémie COVID-19 en Italie, données observées et arrêtées au 20/04/2020 source ECDC

Si nous optons pour le modèle de Gompertz en Italie à mesures sanitaires identiques, l'épidémie prendrait fin courant juin, du moins pour la première vague (environ 210k cas confirmés seraient comptabilisés). Notons que nous n’avons pas établi d’intervalle de confiance sur cette estimation.

Pour la France, le modèle pessimiste (courbe verte) nous indique alors, à mesures sanitaires identiques, que la première vague épidémique se terminerait mi-juin (pour environ 140k confirmés). Le modèle en bleu, plus optimiste, montre une extinction début mai, avec un plafonnement à 120k cas confirmés.

Comparaison des courbes de cas en Italie en Avril 2020 face à une fonction logistique et une fonction gompertz

Figure 5 : courbe observée et estimée de l’épidémie COVID-19 en Italie, données observées et arrêtées au 20/04/2020 source ECDC

Rappelons que les volumes de cas cités ici sont exprimés selon la définition des cas sévères recensés par les statistiques publiques des différents pays.

Bien entendu, l’ajustement dépend des données et il n’est pas du tout certain que la courbe épidémique en Italie et en France suive la redescente proposée par ces modèles basés uniquement sur de seules fonctions mathématiques.

Cette première approche repose sur un postulat de forme sigmoïde de la courbe épidémique. Une alternative statistique est d’aborder la courbe par une modélisation « ARIMA », approche utilisée couramment en prévision de séries temporelles. Pour ce faire, uniquement l'Italie a été prise en compte car le recul en nombre de points est plus grand, le confinement ayant débuté avant et l’observation des données récentes de la série montre une série moins volatile que la série française. Cette modélisation suppose que les données sont observées à mesures sanitaires égales.

Le modèle postulé est basé sur les techniques de régression ARIMAX, il est estimé sur les observations post confinement après redescente du rythme épidémique, soit 26 points jours - du 19 mars au 13 avril inclus. Les 7 points du 14 au 20 avril sont observés et prédits (courbes en pointillés) et constituent « une première validation », les points au-delà sont des prévisions.

Comparaison des courbes de cas en France en Avril 2020 face à une fonction logistique et une fonction gompertz

Figure 6 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 20/04/2020 source ECDC

Ce modèle repose sur peu de points de mesure, presque 4 semaines d’observation. Lorsque nous changeons des hypothèses ou modifions le nombre de points d’entraînement, les prévisions varient fortement. Les points « de validation » montrent d’ailleurs que le modèle surestime plusieurs journées consécutives ce qui est le signe d’un changement potentiel de structure.

Malgré ses faiblesses, ce modèle permet d’établir une seconde projection sur l’évolution de l’épidémie : en Italie le nombre de nouveaux cas se situerait entre 1500 et 3100 le 30 avril 2020 avec une confiance de 80%. Le modèle sigmoïde, le plus pessimiste, prévoit une estimation ponctuelle proche de 1000 cas fin avril.

Nos deux modèles aboutissent à des conclusions différentes car le modèle sigmoïde trace une décroissance plus forte.

odélisation et prévision des nouveaux cas positifs en Italie en Avril 2020

Figure 7 : Modélisation et prévision des nouveaux cas positifs en Italie, données observées et arrêtées au 20/04/2020 source ECDC

Les projections établies dans notre analyse montrent que si la fin de l’épidémie est esquissée, la forme de la décroissance est encore incertaine et les projections les plus optimistes sur la France montrent une extinction de la première vague épidémique courant mai. Cette projection s’inscrit dans un contexte de politique sanitaire toujours très strict.
L’analyse proposée dans cet article repose sur l’exploitation des données ouvertes, fournies par l’agence Santé Publique France et l’agence européenne ECDEC. De nombreuses autres données sur l’hospitalisation ou sur la mortalité, par exemple, sont disponibles provenant de l’agence Santé Publique France et de l’INSEE. Cette transparence de l’information est essentielle dans la gestion de la crise et permet aux analystes, statisticiens, data scientists et journalistes de démultiplier les usages pour contribuer pédagogiquement à décrypter la crise.


Article écrit par :

Damien Garrouste Senior Manager Data Science - EPSILON 2@0,5x.jpg

Damien Garrouste

Senior Manager Data Science