Cancer du sein : des superpixels pour la superdétection des tumeurs

Les méthodes d’apprentissage profond (ou deep learning) sont de plus en plus utilisées pour l’aide au diagnostic médical. À IMT Atlantique, Pierre-Henri Conze s’inscrit dans cette tendance du déploiement des algorithmes d’intelligence artificielle pour la santé en se penchant sur le cas du cancer du sein. Ses travaux combinent des superpixels définis sur les mammographies avec des réseaux de neurones profonds pour obtenir de meilleurs taux de détection des zones tumorales et ainsi limiter les faux-positifs.

En France, une femme sur huit est touchée par le cancer du sein. Chaque année, 50 000 nouveaux cas sont recensés sur le territoire, et ce chiffre est en augmentation depuis plusieurs années. Pour autant, les chances de survie sont de plus en plus grandes. 5 ans après le diagnostic, le taux de survie des patientes est passé de 80 % en 1993 à 87 % en 2010. Des résultats à corréler avec la multiplication des opérations de sensibilisation et de détection des tumeurs du sein. Toutefois, les campagnes massives de dépistage restent perfectibles. L’une de leurs limites est notamment un trop grand nombre de faux positifs, qui impliquent un retour des patientes pour des tests complémentaires. Cela conduit parfois à des traitements inutiles et lourds de conséquences : ablation du sein, radiothérapie, chimiothérapie… « Sur 1 000 participantes à un dépistage, 100 sont rappelées, alors que seulement 5 sont concernées en moyenne » détaille Pierre-Henri Conze, chercheur en traitement d’images. Les travaux qu’il mène à IMT Atlantique, en collaboration avec Mines ParisTech, visent à réduire ce nombre de faux positifs grâce à de nouveaux algorithmes d’analyse des radiographies du sein.

Le principe commence à être connu : des outils d’intelligence artificielle sont mis à contribution pour repérer de façon automatique des tumeurs. La détection numérique aide les radiologues et les médecins en leur indiquant les masses, l’un des principaux signes cliniques du cancer du sein. Leur diagnostic est amélioré, et ils gagnent du temps sans passer par de multiples lectures systématiques. Mais c’est dans le détail que tout se joue : comment justement arriver à ce que les outils logiciels soient suffisamment performants pour aider le médecin ? Pierre-Henri Conze résume sa problématique : « Pour chaque pixel d’une mammographie, nous devons pouvoir indiquer au médecin s’il appartient à une zone saine ou à une zone pathologique, et avec quel degré de certitude. »

Un problème se pose néanmoins : effectuer des traitements algorithmiques sur chaque pixel demande du temps. De plus, les pixels sont soumis à des perturbations lors de l’acquisition — du « bruit », comme lorsque l’on prend une photo de nuit et que certains pixels sont blanchis. Difficile alors de dire si un pixel altéré est situé dans une zone pathologique ou non. Le chercheur a donc recours à des « superpixels ». Il s’agit de zones homogènes de l’image obtenues par regroupement de pixels voisins. « En utilisant les superpixels, nous limitons les erreurs liées au bruit de l’image, tout en gardant des zones suffisamment petites pour limiter les éventuels chevauchements entre zones saines et tumorales » explique le chercheur.

Afin de réussir cette classification des superpixels, les scientifiques s’appuient sur des descripteurs : des informations associées à chaque superpixel pour le décrire. « Le descripteur le plus simple à imaginer est l’intensité lumineuse » illustre Pierre-Henri Conze. Pour générer ces informations, il utilise un certain type de réseaux de neurones profonds, dits « convolutifs ». Leur avantage par rapport à d’autres réseaux de neurones ? Ils déterminent eux-mêmes les descripteurs les plus pertinents pour classer les superpixels à partir de bases de données publiques de mammographies. Le couplage des superpixels avec des réseaux neuronaux convolutifs produit des résultats particulièrement intéressants. « Sur des formes aussi irrégulières que les masses tumorales, cette association vise à une meilleure délimitation des tumeurs que les techniques classiques issues du machine learning » pointe le chercheur.

Ces travaux s’inscrivent dans le cadre des activités du laboratoire commun SePEMeD entre IMT Atlantique, le laboratoire LaTIM, et la société Medecom, dont l’un des axes est d’améliorer la fouille de données médicales. Ils prennent la suite directe de recherches menées sur la reconnaissance des tumeurs au niveau du foie. « Avec les tumeurs au niveau du sein, la complexité était un peu plus importante, car il y a 2 radiographies par sein, prises avec des angles et une déformation du corps lors de la prise de vue différents » souligne Pierre-Henri Conze. L’un des enjeux a donc été de corréler les deux images en prenant en compte les déformations liées à l’examen. À présent, le chercheur veut poursuivre ses recherches en intégrant un nouveau degré de complexité : la variation dans le temps. L’objectif est d’arriver à repérer l’apparition de masses en mettant en relation plusieurs examens réalisés pour la même patiente à plusieurs mois d’intervalle. L’enjeu est toujours le même : dépister au plus tôt les tumeurs malignes, pour améliorer toujours plus les chances de survie des patientes atteintes d’un cancer du sein.