Document Segmentation by Interest Areas Detection. Structuration de Documents Parrepérage de Zones D'intérêt

Document Segmentation by Interest Areas Detection

Structuration de Documents Parrepérage de Zones D'intérêt

Véronique Eglin Stéphane Bres  Hubert Emptoz 

Laboratoire de Reconnaissance de Formes et Vision RFV INSA de Lyon 20, avenue Albert Einstein 69621 VILLEURBANNE CEDEX

Corresponding Author Email: 
eglin@rfv.insa-lyon.fr
Page: 
219-239
|
Received: 
21 July 1998
| |
Accepted: 
N/A
| | Citation

OPEN ACCESS

Abstract: 

This paper presents a new approach of document structuring by the description of a foveated vision system implied in extracting visual and eye-catching information of a document. The simulation system is based on psycho-perceptive rules for visual data capturing. It allows us to obtain a representation of segmented document by using simple low-level processing . The low-level process is based on a visualintegrative memory which displays the unequal importance of information in the visual field. The resulting segmentation enhances the fact that the access of information is directly linked to the search of attractive areas . The technical approach of the segmentation (using a space-variant geometry and a multiresolutionprocess)lays a sound basis for elaborating the kinetic of the ocular displacement on a document. It provides not only a document representation in blocks, but shows a unified view corresponding to the integration of time-variant representations of the same visual field . The resulting blocks (text, graphs, image) are determined and localized all the better, such that the number of fixation points increases and yields a more complete and detailed description of components . 

Résumé

Cette étude présente une nouvelle approche de la structuration de documents imprimés basée sur l'exploitation de la dynamique du regard dans le repérage de l'information. Le système qui a été mis en place nous permet d'obtenir une représentation du document segmenté en faisant appel à des procédures d'extraction de primitives géométriques simples (traitements de bas niveau) relevant de la prise en compte de certains comportements caractéristiques chez l'homme dans l'extraction d'information. Il utilise une série de représentations de type multirésolution du document où la nature du sous-échantillonnage est une fonction de la position du regard. Cette approche est basée sur la recherche des zones de focalisation de l'attention permettant de conserver une description précise des éléments dans les zones de fixation, tout en résumant les régions présentant un «intérêt » moindre. La simulation du parcours de l'oeil sur le document que nous avons retenue traduit la segmentation que ferait un lecteur qui aborde le document sans a priori sur ce qu'il veut trouver . Pour cela, nous nous sommes inspirés d'une stratégie exploratoire particulière : le survol.Celle-ci s'appuie essentiellement sur l'aspect visuel du document, c'est-àdire sur les caractéristiques visuelles de bas niveau de l'image. Elle permet en outre une perception équilibrée des données en privilégiant l'organisation globale du document. La technique mise en oeuvres'appuie sur un partitionnement évolutifde l'espace, en zones centrées aux points de fixation successifs. C'est sur la base de ce partitionnement, que la description des différentes régions cibléesdu document évolue et converge vers une représentation segmentée.

Keywords: 

Document structuring, low-level processing, visual perception, multiresolution, visual data integration .

Mots clés 

Structuration de documents, traitements de bas niveau, perception visuelle, multirésolution, intégration de données visuelles . 

1. Introduction: Présentation des Objectifs
2. Les Différentes Approches de la Structuration de Document
3. Notre Contribution
4. Aspects Techniques du Système
5. Reconstruction des Formes
6. Analyse Critique et Validation
7. Conclusion et Perspectives
8. Remerciements
  References

[Adelson] E.H. Adelson, JR. Bergen, «Early Vision», Computational models of visual processing, Michael S.Landy, J.A.Movskon, 1991, p.36-45. 

[Akindele] O.T. Akindele, A. Belaïd, «A labeling approach for mixed Document Blocks». Proceedings ofthe Second Int. Conf. On Document Analysis and Recognition, 1993, vol.4, pp.749-752.

[Amamoto] N. Amamoto, S. Torigoe, Y. Hirogaki, «Block segmentation and Text Area Extraction of vertically/ Horizontally written document», ICDAR'93, vol.4, 1993, pp.739-743. 

[Baird90] H S. Baird, S.E. Jones, S.J. Fortune, «Image segmentation by shape-directed covers», International Conf. On Document Analysis and Recognition, 1990, pp.820-825. 

[Baird92] H.S. Baird, H. Bunke, K. Yamamoto, «Structured document analysis», Springer, 1992. 

[Barbara] M.O. Barbara, M. Mojahid, J.Vivier, «Mise en forme matérielle des textesdeconsignesetrepérage d'informations»,ColloqueNationalsuri'Ecrit etle Document CNED'96, 1996, pp.229-236.

[Bloomberg] D.S. Bloomberg, «Multiresolution morphological approach to document image analysis», First Int. Conf. on Document analysis, ICDAR'91, vol. 2, 1991, pp.963-971. 

[Bonnet] C. Bonnet et B . Dresp. «Psychophysique del'extraction des contours en visionhumaine»,Reconnaissance deFormes et IntelligenceArtificielle3, 1991, 102-109. 

[Bruce] Bruce, V., Green, P.R. La perception Visuelle :Physiologie, psychologie etécologie. Grenoble : Presse universitaire de Grenoble, 1993, 431 p. 

[Chassery] J.M. Chassery, M. Mlekemi, «Segmentation d'imagesen diagramme de Voronoï. Application à la détection d'événements en imagerie muftisources», 7ème Congrès Reconnaissance de Formes et Intelligence Artificielle,Paris, 1989, pp.781-790. 

[frettez] J.P. Crettez, «Modélisation des voies visuelles primaires, premières étapesde la perceptiondes Formes «,ThèsedeDoctorat, 1984, 242p. 

[Crowley] J.L. Crowley, R.M Stern, «Fast Computation of the Difference of Low-Pass Transform». IEEETransactions on Pattern Analysis and Machine Intelligence, 1984, vol.6, pp.212-222. 

[Déforges] O.Déforges, «Segmentationrobuste d'images de documents par une approcheMultirésolution», Thèse deDoctorat, 1995. 

[Doermann] D. Doermann, A. Rosenfeld, E. Rivlin, «The function of documents», Fourth Int. Conf. on Document analysis, ICDAR'97, vol.2, Ulm, 1997, pp. 1077-108 1. 

[Eglin97] V. Eglin, H. Emptoz. «Low-resolution boundaries for guiding eyemovement on a document», In Proceedings of the fourth International Workshop on Visual Form, Capri, Italy, 1997, pp. 178-187. 

[Eglin98] V. Eglin, S. Bres, H. Emptoz, . «Printed Text featuring using visual criteria of legibility and complexity». Proceedings ofthe 14th International Conference on Pattern Recognition,Brisbane(Australie), août 1998, pp.942944.

[Fletcher] L.A. Fletcher, R. Kasturi, «A robust algorithm for text String Separation from mixed Text/Graphics Images>>, IEEE Trans. On PAMI, vol.10, N° 6, 1988, pp.910-918. 

[Hacisalih] S.S. Hacisalihazade, L.W. Stark, J.S. Allen, «Visual Perception and Sequence of Eye Movements Fixations», IEEE SMC, vol.22, N° 3, 1992, pp.474-480. 

[Ishitani] Y.Ishitani, Document layout analysis based on emergent computation, vol.1, pp.45-50, 1997. 

[Kosslyn] S.M. Kosslyn, Image and brain: the resolution of the imagery debate. Cambridge, MA : MIT Press, 125p., 1994. 

[Lecas] J.C. Lecas. L'attention visuelle, de la conscience aux neurosciences Problèmes fondamentaux et mécanismes de la perception visuelle. Liège Pierre Mardaga, 1992, 31 Op. 

[Lévy] A. Lévy-Schoen, «Exploration et connaissance de l'espace visuel sans vision périphérique; quelques données sur le comportement oculomoteur de l'adultenormal»,JournalPsychologique, 1976, vol.39, n° 1, pp.77-91. 

[Likforman] L.Likforman-Sulem, C. Faure, «Une méthode de résolution de conflits d'alignements pour la segmentataion des documents manuscrits», CNED 94, 3ème ColloqueNationalSurl'Ecrit etleDocument, 1994, pp.265273. 

[Manzanera] A. Manzanera, J.M. Jolion. «Pyramide irrégulière : une représentationpour la visionexploratoire». Traitementdu signal, 1995, vol 12, n°2, pp.169-176. 

[Marr] D. Marr, «Vision». New-york: W.H. Freeman and Co, 1982, 397p. 

[Nagy] G. Nagy, M. Viswanathan, «Dual Representation of segmented Technical Documents», int. Conf. On Pattern Recognition, 1991, pp.141-151. 

[Normand] N.Normand, C.Viard-Gaudin, «A background based adaptation page segmentation algorithm«, Thirth Int. Conf. on Document analysis, ICDAR'95, 1995, pp. 138-14 1. 

[Ogier] J.M. Ogier, R. Mullot,J. Labiche, Y. Lecourtier, «Interprétation de document par cycles«perceptifs»de construction d'objets cohérents.Application aux données cadastrales».3èmeColloqueNationalSurl'Ecrit etleDocument, Rouen, 1994, pp. 167-184. 

[O'Gorman91] L. O'Gorman, « Subsampling Text images», First Int. Conf. on Document analysis, ICDAR'91, 1991, pp.219-227. 

[O'Gorman93] L. O'Gorman, «The document spectrum for page layout analysis », IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(11) :1162-1173. 

[Pavlidis] T. Pavlidis, J. Zhou, «Page Segmentation by white streams», First hit. Conff on Document analysis, ICDAR'91, 1991, pp.945-953. 

[Sankar] P.V. Sankar, E.V. Krishnamurthy, «On the compactness of subsets of digital pictures»,CGIP, vol.8, 1978, pp.403-412. 

[Shah] S. Shah, M. Levine, «Visual Information Processing in Primate Cone Pathway-Part I: A Model». IEEE Transactions on PAMI, 1996, vol.26, n° 2, pp.259-273. 

[Tang] YY. Tang, C.Y. Suen, «Document structures : a survey».Proceedings of Second ICDAR, Montréal (Canada), 1993, vol.1, pp.99-102. 

[Treisman] A. Treisman,«L'attention,lestraits et la perception desobjets», Folio Gallimard, 1992, pp.154-191. 

[Tsotsos] J.K. Tsotsos, « The complexity of perceptual search tasks«. In Eleventh International Joint Conference on Artificial Intelligence, 1989, pp. 135-160. 

[Tsujimoto] S. Tsujimoto, H. Asada, «Major components of a complete text reading system», in Proc. of the IEEE PAMI, vol.80, n° 7, 1992, pp. 11331149. 

[Yamamoto] H. Yamamoto. «An active Foveated Vision System : Attentional Mechanisms ans Scan Path Covergence, Measures», Computer Vision and Image Understanding,vol. 63, N° 1, 1996, 50-65.

[Watanabe] T. Watanabe, Q. Luo, N. Sugie, «Structure recognition methods for various types of documents». Machine Vision and Applications, 1993, 6(23) :163-176. 

[Wertheimer] M.Wertheimer, Untersuchungen zur Lehre von derGestalt, 11.PsychologischeForshung, 4, 1923, 301-350.Traduit par «Laws of organisation in perceptual forms >> in W.D. Ellis (1995). A source book og Gestalt psychology. London :Routledge and Kegan Paul. 

[Wieser] J. Wieser, A. Pinz, «Layout analysis : finding text, titles and photos in digital images of newspaper pages». Proceedings of the Second ICDAR, 1993, vol.4, pp.774-77. 

[Wilson] S.W. Wilson, «On the retino-cortical mapping«, Int. J. Man-Machine Stud., 1983, vol.18, pp.361-389. 

[Wong] K.Y . Wong,R.G. Casey, F.M.Wahl,«Document Analysis System «,IBM Journal of Research and Development, vol.25, N° 6, 1982, pp.647-656.