Recherche en temps réel de séquences vidéo similaires par le contenu

Recherche en temps réel de séquences vidéo similaires par le contenu

Gwénolé Quellec Mathieu Lamard  Guy Cazuguel Zakarya Droueche  Béatrice Cochener , Christian Roux 

Laboratoire de Traitement de l’Information Médicale UMR 1101, Inserm Bâtiment 2bis (I3S), CHU Morvan - 5 avenue Foch, F-29609 Brest cedex, France

Université de Bretagne Occidentale 3 rue des Archives, CS 93837, F-29238 Brest cedex 3, France

Département Image et Traitement de l’Information TELECOM Bretagne Technopôle Brest-Iroise, CS 83818, F-29285 Brest cedex, France

Département Image et Traitement de l’Information TELECOM Bretagne Technopôle Brest-Iroise, CS 83818, F-29285 Brest cedex, France

Corresponding Author Email: 
France gwenole.quellec@inserm.fr
Page: 
83-100
|
DOI: 
https://doi.org/10.3166/ts.29.83-100
Received: 
N/A
| |
Accepted: 
N/A
| | Citation

OPEN ACCESS

Abstract: 

A novel Content-Based Video Retrieval (CBVR) framework is presented in this paper: its purpose is to find similar video sub-sequences in videos. By introducing temporal flexibility in the description of video sub-sequences, this framework makes the use of flexible, but slow, distance measures (such as Dynamic Time Warping) optional. As a consequence, real-time retrieval of similar video sub-sequences, among hundreds of thousands of examples, is now possible. The proposed method is adaptive; a fast training procedure is presented. Performances have been successfully assessed on a dataset of 1,707 video clips (> 800,000 sub-sequences). Ultimately, we plan to design a real-time alert (and/or recommendation) generation system for computed-aided video-guided surgery.

RÉSUMÉ

Nous proposons dans cet article une méthode originale pour rechercher, dans des séquences vidéo, des sous-séquences similaires. En introduisant de la flexibilité temporelle dans la caractérisation des sous-séquences, cette méthode permet d’éviter l’utilisation de mesures de distance flexibles (telles que le Dynamic Time Warping) qui ont l’inconvénient d’être lentes. La méthode proposée permet donc de rechercher, en temps réel, des sous-séquences vidéo similaires parmi plusieurs centaines de milliers d’exemples. La méthode proposée est adaptative ; un algorithme d’apprentissage rapide est présenté. Les performances ont été évaluées avec succès sur un ensemble de 1 707 clips vidéo (> 800 000 sous-séquences). A terme, notre objectif est de proposer un système de génération d’alertes et/ou de préconisations, en temps réel, dans le cadre de l’aide à la chirurgie sous contrôle vidéo.

Keywords: 

content-based video retrieval, real-time processing, wavelets

MOTS-CLÉS

recherche de vidéos par le contenu, traitement en temps réel, ondelettes

Extended abstract
1. Introduction
2. Etat de l’art
3. Vue d’ensemble de la méthode
4. Caractérisation d’une sous-séquence vidéo
5. Recherche de sous-séquences vidéo similaires
6. Application à la base de données HOLLYWOOD2
7. Résultats
8. Conclusion
  References

André B., Vercauteren T., Buchner A. M., Shahid M. W., Wallace M. B., Ayache N. (2010). An image retrieval approach to setup difficulty levels in training systems for endomicroscopy diagnosis. In MICCAI, vol. 13, p. 480–487.

Arya S., Mount D. M. (1993). Approximate nearest neighbor queries in fixed dimensions. In Proc. of the ACM-SIAM symposium on discrete algorithms, p. 271–280.

Bay H., Ess A., Tuytelaars T., Gool L. van. (2008). Surf: Speeded up robust features. Comput Vis Image Und, vol. 110, no 3, p. 346–359.

Bruno E., Moenne-Loccoz N., Marchand-Maillet S. (2008). Design of multimodal dissimilarity spaces for retrieval of video documents. IEEE Trans Pattern Anal Mach Intell, vol. 30, no 9, p. 1520–1533.

Douze M., Jégou H., Schmid C. (2010, June). An image-based approach to video copy detection with spatio-temporal post-filtering. IEEE Trans Multimedia, vol. 12, no 4, p. 257–266.

Duchenne O., Laptev I., Sivic J., Bach F., Ponce J. (2009). Automatic annotation of human actions in video. In ICCV’2009, p. 1491–1498.

Dyana A., Subramanian M. P., Das S. (2009). Combining features for shape and motion trajectory of video objects for efficient content based video retrieval. In ICAPR’09, p. 113– 116.

Gao H. P., Yang Z. Q. (2010). Content based video retrieval using spatiotemporal salient objects. In IPTC’10, p. 689–692.

Gionis A., Indyk P., Motwani R. (1999). Similarity search in high dimensions via hashing. In Proc. of the 25th very large database (VLDB) conference.

Hoi S. C. H., Lyu M. R. (2007). A multimodal and multilevel ranking framework for contentbased video retrieval. In ICASSP’07, vol. 4, p. 1225–1228.

Hu W., Xie D., Fu Z., Zeng W., Maybank S. (2007). Semantic-based surveillance video retrieval. IEEE trans. on Image Processing, vol. 16, no 4, p. 1168–1181.

Juan K., Cuiying H. (2010). Content-based video retrieval system research. In ICCSIT’10, vol. 4, p. 701–704.

Lucas B. D., Kanade T. (1981). An iterative image registration technique with an application to stereo vision. In Proc. imaging understanding workshop, p. 121–130.

Marszałek M., Laptev I., Schmid C. (2009). Actions in context. In Ieee conference on computer vision & pattern recognition.

Mises R. von. (1964). Mathematical theory of probability and statistics (H. Geiringer, Ed.). Academic Press, New York.

Naturel X., Gros P. (2008). Detecting repeats for video structuring. Multimedia Tools and Applications, vol. 38, no 2, p. 233–252.

Patel B. V., Deorankar A. V., Meshram B. B. (2010). Content based video retrieval using entropy, edge detection, black and white color features. In ICCET’10, vol. 6, p. 272–276.

Pearson K. (1901). On lines and planes of closest fit to systems of points in space. Philosophical Magazine, vol. 2, no 6, p. 559–572.

Piriou G., Bouthemy P., Yao J.-F. (2006). Recognition of dynamic video contents with global probabilistic models of visual motion. IEEE Trans Image Process, vol. 15, no 11, p. 3417– 3430.

Quellec G., Lamard M., Cazuguel G., Cochener B., Roux C. (2010). Wavelet optimization for content-based image retrieval in medical databases. Med Image Anal, vol. 14, no 2, p. 227– 241.

Sakoe H., Chiba S. (1978). Dynamic programming algorithm optimization for spoken word recognition. IEEE trans. on Acoustics, Speech and Signal Processing, vol. 26, no 1, p. 43–49.

Sivic J., Zisserman A. (2003). Video google: A text retrieval approach to object matching in videos. In Proc int conf on computer vision, p. 1470–1477.

Xu D., Chang S. F. (2008). Video event recognition using kernel methods with multilevel temporal alignment. IEEE Trans Pattern Anal Mach Intell, vol. 30, no 11, p. 1985–1997.