Détection de petites cibles par apprentissage profond et critère a
contrario
Alina CIOCARLAN1, Sylvie LEHEGARAT-MASCLE2, Sidonie LEFEBVRE1, Clara BARBANSON3
1DOTA, ONERA, Université Paris-Saclay, F-91123 Palaiseau, France
2SATIE, Université Paris-Saclay, 91405 Orsay, France
3Safran Electronics &Defense, F-91344 Massy, France
alina.ciocarlan@onera.fr, sylvie.le-hegarat@universite-paris-saclay.fr
sidonie.lefebvre@onera.fr, clara.barbanson@safrangroup.com
Résumé – La détection de petites cibles est une problématique délicate mais essentielle dans le domaine de la défense, notamment lorsqu’il
s’agit de différencier ces cibles d’un fond bruité ou texturé, ou lorsqu’elles sont de faible contraste. Pour mieux prendre en compte les informa-
tions contextuelles, nous proposons d’explorer différentes approches de segmentation par apprentissage profond, dont certaines basées sur les
mécanismes d’attention. Nous proposons également d’inclure un module d’attention par canal au TransUnet, réseau à l’état de l’art, ce qui permet
d’améliorer significativement les performances. Par ailleurs, le manque de données annotées induit une perte en précision lors des détections,
conduisant à de nombreuses fausses alarmes non pertinentes. Nous explorons donc des méthodes a contrario afin de sélectionner les cibles les
plus significatives détectées par un réseau entraîné avec peu de données.
Abstract – Small target detection is an essential yet challenging task in defense applications, since differentiating low-contrast targets from
natural textured and noisy environment remains difficult. To better take into account the contextual information, we propose to explore deep
learning approaches based on attention mechanisms. Specifically, we propose a customized version of TransUnet including channel attention,
which has shown a significant improvement in performance. Moreover, the lack of annotated data induces weak detection precision, leading to
many false alarms. We thus explore a contrario methods in order to select meaningful potential targets detected by a weak deep learning training.
1 Introduction
La détection de petites cibles est un grand défi en vision par
ordinateur, principalement du fait de la petite taille des cibles
et de leur environnement bruité qui peut conduire à de nom-
breuses fausses alarmes. Quelques méthodes d’apprentissage
profond ont été étudiées dans des travaux antérieurs : elles sont
basées sur des réseaux de neurones convolutifs (CNN) [1] et in-
cluent parfois des mécanismes d’attention [2]. L’un des avan-
tages de ces derniers est qu’ils modélisent mieux les dépen-
dances à grande échelle comparés aux CNNs. Cette propriété
est un atout pour la détection de cibles, celles-ci ne présen-
tant pas de structure spécifique. Partant de cette observation, [3]
utilise une version améliorée de U-Net qui inclut un encodeur
Transformer (ViT) en plus de l’encodeur convolutif classique,
ce qui conduit à des résultats très compétitifs.
Une autre difficulté de cette application est le manque de
données annotées pour entrainer le détecteur, ce qui résulte
en une détection comportant beaucoup de fausses alarmes. En
effet, le réseau de neurones n’a pas suffisamment d’exemples
pour apprendre à extraire les bonnes caractéristiques. Pour au-
tant, en observant la carte des scores donnée en sortie du réseau,
les cibles y apparaissent comme étant noyées dans du bruit. Ce
bruit, bien que moins significatif perceptuellement, est détecté
comme cible du fait de sa forte valeur pixellique. Cela est dû
au seuil fixe appliqué en sortie du détecteur pour effectuer la
détection, qui ne permet pas de prendre en compte certains cri-
tères de perception comme la forme ou la densité induite par
les niveaux de gris (cf. Figure 1 colonne 2). Pour pallier cela,
nous proposons d’explorer l’intérêt d’un critère a contrario ap-
pliqué sur la carte des scores obtenue en sortie du détecteur afin
de sélectionner les détections les plus significatives au sens du
Nombre de Fausses Alarmes (NFA, défini dans le paragraphe
2). La méthode proposée permet de considérer aussi bien des
caractéristiques de niveaux de gris que des éléments de struc-
turation spatiale tels que la densité ou la forme des nuages de
points représentant des cibles potentielles.
Après avoir présenté les concepts clés ainsi que l’état de l’art
associé, nous décrirons une méthode de filtrage a contrario de
la carte des scores obtenue en sortie de réseaux neuronaux, dont
nous analyserons l’intérêt en dernière partie.
2 Définitions et travaux connexes
Méthodes a contrario Les méthodes de détection a contra-
rio s’inspirent des théories de la perception, en particulier celle
de Gestalt [4]. Elles reposent sur le principe d’Helmoltz qui
stipule qu’une grande déviation d’un modèle aléatoire est pro-
bablement dûe à la présence d’une structure. Les méthodes a
arXiv:2210.00755v1 [cs.CV] 3 Oct 2022