spacer

Technologies Internationales 149  >>  9/12/2008

Tous les articles parus >>

spacer

Traitement d'image et de vidéo

"Vidéopsie" et analyse 4D : la vidéosurveillance du futur ?

http://www.bulletins-electroniques.com/ti/149_01.htm

Copyright © ADIT - Tous droits réservés

La vidéosurveillance de demain sera sûrement assurée par des réseaux de caméras. Si aujourd'hui le matériel est déjà disponible et même en place, les techniques d'analyse de données spatiotemporelles sont encore à leurs premiers balbutiements. Mais les débuts sont prometteurs.

Article rédigé par Sophie Laurent. Nous remercions Janusz Konrad, Associate Professor au département Electrical and Computer Engineering à Boston University pour sa collaboration.

Glossaire :

[1] Trame : image fixe de la séquence vidéo ; l'ensemble des trames constitue la vidéo.
[2] Pixel (picture element) : le plus petit élément d'information d'une image.
[3] Luminance : en vidéo, c'est la mesure de l'intensité de la partie "noir et blanc" de l'image.

Abonnés version papier :

Téléchargez ici la version pdf >>

Transmettre cet article
par email
 >>

Recommander ce site
à un collègue / ami
 >>

Les articles de "Technologies Internationales" classés par thèmes :

FAQ / foire aux questions >>

Conditions d'utilisation >>

Flux RSS >>


Ceux qui ont pris l'avion cet été ont dû voir postés des agents de sécurité scrutant les comportements des passagers, afin de déceler d'éventuels terroristes ou des comportements violents. Ils sont secondés par des caméras de surveillance qui tentent de réaliser reconnaissance de visage et détection de comportements agressifs. Ces techniques progressent même si elles ne sont pas encore fiables à 100%. Toutefois les algorithmes ne sont pas encore terminés que l'on pense déjà à la suite : des réseaux de capteurs visuels, de caméras permettant de suivre des cibles en mouvement et d'étudier leurs déplacements sur de vastes zones. L'autopsie des vidéos, ou "videopsy" en anglais, n'en est encore qu'au stade de la recherche mais les premiers résultats sont prometteurs.


Sans que nous y prêtions trop attention, nous sommes entourés de caméras de vidéosurveillance : le bâtiment où nous travaillons, les transports, le bureau de poste, la banque, le supermarché... Ces capteurs sont devenus très banals, notamment grâce à des coûts de plus en plus faibles. De plus, le choix s'élargit : longtemps limitée aux caméras analogues, l'offre comprend désormais des modèles numériques, rendus possibles grâce aux avancées technologiques dans les capteurs, les algorithmes de compression et les moyens de communication. La miniaturisation de composants et leur prix en baisse ont permis de déployer un grand nombre de caméras numériques. Le domaine de la sécurité est très demandeur de ce type de matériel. Pour lutter plus efficacement contre le crime, le terrorisme, la vidéosurveillance joue un rôle important en permettant de trouver et suivre des individus dans des séquences vidéo. Toutefois, il ne faut pas oublier qu'enregistrer des données est une étape facile. Leur traitement prend davantage de temps et nécessite encore d'être affiné.

Reconnaissance de visages et détection de comportements dangereux

Les thèmes comme la reconnaissance de visage ou la détection de comportements dangereux sont souvent associés par le grand public à la vidéosurveillance. Les logiciels développés permettent en effet de seconder les agents de sécurité en détectant pour eux des détails qu'ils n'auraient pas vus. Les techniques utilisées reposent sur deux approches : la segmentation vidéo temporelle et la segmentation spatiale. La segmentation d'une séquence vidéo consiste à diviser le domaine en classes, chaque classe ayant des caractéristiques visuelles particulières, dans le temps et l'espace.
La segmentation temporelle permet de grouper les trames [1] de la vidéo en fonction de leur relation dans le temps (même scène, même prise de vue...). Dans ce cas, il s'agit de détecter les trames différentes (les coupures). Cette méthode est utilisée dans l'édition de vidéo ou la gestion de bases de vidéos.

Dans le cadre de la vidéosurveillance, la segmentation spatiale est plus intéressante. Elle vise à grouper les pixels [2] en fonction de leur relation spatiale (même objet, pixels de l'arrière-plan, pixels se déplaçant de la même manière...). Il s'agit alors de détecter les pixels différents (gradients de luminance [3] ou de couleur, discontinuité de texture ou de mouvement) : ce sont les méthodes de détection de frontière. On peut aussi, au contraire, identifier les pixels similaires pour définir des "régions". Compte tenu de la dynamique de la scène, le critère de choix est le mouvement (cohérence spatiale du déplacement). De nombreuses techniques existent pour réaliser une segmentation spatiale : détection de seuil variable ou fixe, processus markoviens, contour actif ("Snakes"), quad-tree...

La reconnaissance de visage va se baser sur cette technique de segmentation, en extrayant par exemple la forme et la taille des yeux, du nez, des joues, des mâchoires. Une fois que ces éléments seront identifiés sur la vidéo, ils seront comparés à une base d'informations, une galerie de visages, afin d'identifier la personne. Les derniers développements s'orientent même vers une version 3D pour analyser le contour de l'orbite, du nez ou de la bouche, grâce à des capteurs 3D. Un avantage de cette dernière technique est de ne pas être aussi sensible à la luminosité et de pouvoir identifier un visage grâce à une vue de profil. En effet, l'une des principales contraintes de la reconnaissance de visage classique est le manque de luminosité. Par exemple, la police allemande (BKA) avait conclu, après un test grandeur nature à la gare de Mayence, que les techniques de reconnaissance de visages de criminels dans une foule n'étaient pas encore au point (voir BE Allemagne 344, http://www.bulletins-electroniques.com/actualites/43668.htm). Le taux de réussite avoisinait les 60% en plein jour, mais tombait à 20% la nuit : la luminosité est un problème-clé pour la reconnaissance de visage sur des séquences vidéos non dédiées à ce type de traitement.

Toutefois, ce n'est pas l'unique problème : comme le souligne Ralph Gross, de Carnegie Mellon Robotics Institute, la reconnaissance de visage est très bonne pour des vues frontales et sous 20°. Mais que dire des personnes portant des lunettes de soleil, des longs cheveux, des objets recouvrant partiellement le visage ? Tous ces éléments font que la reconnaissance de visage n'est pas encore tout à fait adaptée à la vidéosurveillance mais la recherche avance : en une dizaine d'années, les algorithmes sont devenus 100 fois plus précis !

La détection de comportements agressifs entre également dans la cadre de la sécurité dans les lieux publics. Il s'agit alors d'apprendre à l'ordinateur à reconnaître un comportement qu'un humain qualifierait de suspect. L'enjeu est important, afin de pouvoir seconder les agents de sécurité. Toutefois, comme le souligne Judee Burgoon de l'université d'Arizona, encore beaucoup de travail est nécessaire pour qu'une machine puisse analyser précisément le comportement de personnes. Les algorithmes visent à d'abord détecter les mouvements, puis les classer et les traquer sur plusieurs trames, la course ainsi identifiée permettant de distinguer les "objets normaux" des autres. Mais cette classification qui repose actuellement sur les réseaux Bayes ou les modèles cachés de Markov par exemple, signifie qu'il faut connaître a priori les attitudes dangereuses (ou au contraire normales), un frein important à cette technique pour son application à la vie pratique. De plus, traquer de multiples individus, se croisant, se masquant... en temps réel est très difficile. De nouvelles techniques sans tracking ont fait leur apparition pour pallier ces difficultés.

Vidéopsie : l'autopsie pour "voir" dans les vidéos

Une nouvelle technique, la vidéopsie, une combinaison de "vidéo" et d'"autopsie", permet de ne plus dissocier analyses temporelle et spatiale mais plutôt de traiter le signal dans sa totalité. Il s'agit alors de considérer les propriétés visuelles temporelles et spatiales (variation de luminance, variations de mouvement...) de ce double point de vue.

Les techniques habituelles proposent de traiter ces deux aspects séquentiellement, par exemple en détectant les contours d'un objet dans chaque image. De nouveaux travaux mettent en avant une véritable analyse en 3D, en liant les coordonnées verticales, horizontales et temporelles (x-y-t), en prenant en compte au moins deux trames à la fois, souvent bien plus. Un premier groupe de méthodes, basées sur le volume, repose sur le principe de similarité de pixel qui a lieu en 3D, les pixels de la même classe formant des structures en 3D. Un deuxième groupe fait appel aux surfaces actives (extension des fameux Snakes à la 3D) où les pixels sont séparés en plusieurs classes. Dans tous les cas, on aboutit à une surface en 3D, un "tunnel".


L'avantage de ces nouvelles techniques est de préserver la cohérence temporelle pour suivre les objets sur une vidéo. Elles utilisent des modèles : par exemple, la technique de vidéo-segmentation par surface active prend en compte un modèle de surface et un autre de similarité / différence spatiotemporelle. Le professeur J. Konrad de Boston University a travaillé sur cette méthode. Les premiers résultats ont permis d'étudier des scènes de la circulation réelle filmées par des caméras de surveillance plus ou moins éloignées.


Vidéopsie avec un réseau de caméras ?

Ces premiers travaux, tant sur l'analyse spatiotemporelle que sur la détection de comportements suspects, permettent de tirer profit d'une caméra à la fois. Une évolution naturelle est donc de relier toutes les caméras entre elles pour, par exemple, étudier la circulation à des carrefours, suivre les mouvements de piétons dans un bâtiment, surveiller les déplacements suspects dans des parkings souterrains, suivre un cambrioleur en train de s'échapper en voiture... D'un point de vue matériel, les caméras sont désormais capables de transmettre des données relativement vite (IEEE 802.3 à 100 Mbps ou 802.11b-g à 11-54 Mbps, selon que le réseau est câblé ou sans fil). Dans des environnements urbains classiques, les contraintes de transmissions sont faibles. Pour ce qui est des champs de bataille, une application importante de ce type de technologie, les caméras ne sont pas aussi fréquemment réparties sur le territoire, les contraintes au niveau de la bande passante ou de l'alimentation sont nettement plus problématiques qu'en ville.

Un choix se pose d'emblée : faut-il centraliser le traitement ou le distribuer ? Si l'on souhaite, par exemple, déterminer la voie la plus souvent empruntée par des véhicules allant d'un point A à un point B, pour passer en revue toutes les vidéos du centre, le réseau sera sûrement saturé ou gaspillé si peu de caméras, voire aucune, voient un véhicule bouger. De plus, les capacités de traitement devront être énormes. Dans un système distribué au contraire, seules les informations intéressantes (direction, vitesse, taille, couleur, forme) pourront être transmises à une caméra dans le voisinage. L'itinéraire final peut ensuite être facilement assemblé au niveau du central.

Toutefois, comme le souligne le professeur Konrad, les caméras en zone urbaine sont suffisamment proches pour que des portions de trames se recouvrent. Il s'agit alors d'exploiter cette corrélation pour rendre le système plus robuste. On pourrait envisager une "collaboration entre caméras" où chacune enverrait à d'autres des résultats de traitement intermédiaires pour vérifier et éventuellement corriger les résultats de la caméra voisine. Cela prend tout son sens dans le cas d'une occlusion (un véhicule pourrait être partiellement occulté d'un point de vue mais entièrement visible d'un autre). Des informations sur des objets en mouvement à occulter transmises entre caméras permettraient de reconnaître l'objet sur différentes vues et en déduire la partie cachée. Une autre solution serait de passer un message multirésolution : les premiers résultats grossiers seraient progressivement remplacés par d'autres plus affinés.

Un problème essentiel à prendre en compte est la panne éventuelle d'une des caméras du réseau : le système doit pouvoir se reconfigurer pour continuer à fonctionner. La topologie du réseau ne doit pas influer sur le traitement qui doit s'adapter automatiquement. Enfin, des caméras ayant des champs se recouvrant permettront d'obtenir une image 3D, en profondeur cette fois, d'une scène filmée sous plusieurs angles. Cela pourrait par exemple servir à analyser les scènes d'accident pour les assurances et les tribunaux. Certes, des techniques de vision artificielle existent actuellement pour reconstituer les scènes. Toutefois, les contraintes pour filmer la scène, la calibration manuelle, les ressources de traitement infinies sont des limites à l'application de ces méthodes à la vidéosurveillance. Ces traitements sont encore du domaine de la recherche : dure tâche de développer des algorithmes distribués sous une contrainte de communication pour traiter des scènes plus ou moins arbitraires (comme l'environnement urbain), avec une calibration de la caméra automatique et, bien sûr, le tout avec une contrainte sur la complexité du traitement !

Un déséquilibre s'est installé : la machine a remplacé l'homme pour surveiller des zones, générant des quantités astronomiques de données qui ne sont pas utilisées, ceci grâce à (ou à cause de ?) la prolifération de caméras dans les zones urbaines. Ce phénomène ne va que s'accentuer dans les prochaines années et de plus en plus de caméras seront installées. Par contre, la mise au point des algorithmes nécessaires à la manipulation des données de plusieurs caméras et à leur communication n'a pas suivi le rythme. Il va falloir se pencher davantage sur le traitement vidéo distribué et des algorithmes de compression adaptés aux situations urbaines. Professeur Konrad a par exemple réussi à condenser des vidéos par des facteurs de 10 à 50 selon leur type, sans perdre d'informations importantes. Toutefois, la machine n'a pas encore réussi à supplanter l'analyse de l'humain...

spacer

spacer

Pour en savoir plus :

Centres de compétences :
- Boston University, professeur Janusz Konrad, jkonrad@bu.edu, iss.bu.edu/jkonrad

A lire également :
- KONRAD, J. Videopsy: Dissecting Visual Data in Space-Time.
IEEE COMM. MAG., 2007, vol. 45, n 1, p. 34-42.
- JODOIN, P.-M., SALIGRAMA, V., KONRAD, J. Behavior Subtraction. IS&T/SPIE Symposium on Electronic Imaging, Visual Communications and Image Processing, 2008, Jan. 28-Feb. 1.
- KASS, M., WITKIN, A., TERZOPOULOS, D. Snakes: Active contour models. Intern. J. Comput. Vis.,1988, vol. 1, p. 321-331.

spacer

spacer

Origine : Technologies Internationales 149 (9/12/2008 ) - ADIT - http://www.bulletins-electroniques.com/ti/149_01.htm
spacer

spacer

[  plan du site  |  données personnelles & politique de confidentialité  |  limites de responsabilité  |  faq  |  nous contacter  ]

spacer

[  page d'accueil  |  découvrir  |  consulter  |  recevoir  |  rechercher  |  utiliser  |  s'exprimer  ]

spacer

bulletins-electroniques.com tous droits réservés   -   votre contact : François Moille

4444444007 6666666000 1010101010