cInterprétation de documents technique s par «cycles perceptifs» à partir d'une perception globale du document

Interprétation de documents techniques par «cycles perceptifs» à partir d'une perception globale du document

Interpretation of Technical Drawings Using Perceptive Cycles Starting with its Global Perception

Jean-Yves Ramel Nicole Vincent  Hubert Emptoz 

Reconnaissance de Formes & Vision Bât. 403 - INSA de Lyon 20, ay. A. Einstein 69621 Villeurbanne Cedex, France

Université Francois Rabelais 64, avenue jean Portalis 37200 Tours, France

Corresponding Author Email: 
ramel@rfv.insa-lyon.fr
Page: 
83-102
|
Received: 
11 March 1997
| |
Accepted: 
N/A
| | Citation

OPEN ACCESS

Abstract: 

In this paper, we propose a new method for automatic understanding of technical documents . In the case we are concerned with, technical documents are essentially constituted of graphics (lines, filled shapes, text, ...) and have been drawn either by hand or with the help of an editor. The chosen architecture allows to extract, from the document, the graphic and alphanumeric information in order to rebuild the semantic associated to the different objects in the drawing and to their relationships. To realize this work, we have tried to automatise natural techniques normally associated with human perception.

A first stage of global perception of the document is realized, using a limited number of elementary primitives : the Pixel, the Vector and the Quadrilateral, to obtain a first representation of the document. This first representation allows to depict correctly several kinds of technical documents (diagrams, cadastral maps, musical scores, ...). This representation will provide a precise description of all the shapes from the original document (binary images) along the different levels of the analysis.

Next, the dual use of this representation of the document and of a multi-specialist system allows to improve the local analysis during all the reading and understanding steps. A mechanism of «perceptive cycles » allows the different specialists to cooperate. Each specialist possesses some elementary, precise and sufficient information in some particular domains : extraction of text, curves, mechanical elements and it uses the global vision to focus its attention on some places of the image. The hypotheses that the specialists interjected are verified and induce the evolution of the representation of the document. This step of progressive reading has been tested in the particular case of kinetic diagrams . The entire system, using six different specialists, seems to be perfectly suited to this kind of document.

This method is quite different from those using classical procedure : pre-processing - segmentation - analysis - recognition. Every step of the process brings some new information that is used either to confirm a previous hypothesis or states a new one until the total understanding of the document is achieved.

Résumé

Nous présentons, dans cet article, un système de lecture automatique de documents techniques. Les dessins techniques, au sens où nous l'entendons par la suite, sont des documents essentiellement graphiques (constitués de traits, de formes pleines, de texte, ...) produits par un dessinateur, à la main ou avec l'aide d'un système d'édition. L'architecture que nous avons choisie et développée permet d'extraire l'information graphique et alphanumérique du document pour reconstituer la sémantique associée aux différents objets du dessin et à leurs relations . En nous inspirant des connaissances acquises sur les mécanismes de la vision humaine, nous avons élaboré une méthode comportant deux phases :

Durant une première phase de perception globale, une représentation initiale du document est obtenue à l'aide d'un nombre limité de primitives : le Pixel, le Vecteur, le Quadrilatère . Le choix de ces primitives permet à cette représentation de s'adapter à la description de documents techniques de types variés (plans, cadastres, partitions musicales, ...). Cette représentation, bien que fondée sur des primitives élémentaires, fournit une description précise de toutes les formes du document initial (image binaire). Outre leur adéquation aux formes à décrire, ces primitives constituent la base de la structure de données qui nous permettra de définir une représentation efficace des connaissances acquises sur le document durant l'analyse.

Ensuite, l'utilisation duale d'un système multi-spécialistes et de la représentation préalablement construite permet, au cours d'une phase de lecture et d'interprétation, d'utiliser les données fournies par la vision globale pour réaliser les analyses locales. Un mécanisme de "cycles perceptifs" permet aux différents spécialistes de coopérer pour réduire au maximum les erreurs d'analyse et aboutir à une interprétation plus robuste . Chaque spécialiste réalise une tâche précise telle que, par exemple, la détection du texte, des courbes, des éléments mécaniques ou la reconstruction 3D du mécanisme. Tous utilisent la représentation construite pour focaliser leur attention sur des zones précises de l'image qu'ils étudient en détail . En fin de chaque cycle, la complétude de la compréhension du document est vérifiée et un nouveau cycle d'activation des spécialistes approfondit, si nécessaire, l'interprétation . Cette phase de lecture progressive a été mise en place pour le cas particulier des plans cinématiques mécaniques . Le système obtenu comporte alors six spécialistes et s'accorde parfaitement au traitement de ce type de document. Les exécutions continues et entrelacées des différents spécialistes permettent de réaliser des analyses contextuelles par segmentations successives augmentant ainsi l'interaction et l'efficacité du système.

Grâce à cette démarche, nos travaux se distinguent de ceux employant la chaîne habituelle de traitements : pré-traitements - segmentation - analyse - reconnaissance. Notre système s'efforce, dans la vision globale, d'extraire des connaissances puis, à partir des informations possédées sur le document, d'extraire des formes de manière hiérarchique et réfléchie, et il les transcrit dans une représentation évolutive décrivant à chaque instant l'état du contexte d'interprétation.

Keywords: 

Image understanding, perception, technical documents, feature extraction, representation of drawings

Mots clés

Interprétation d'images, documents techniques, perception, extraction de primitives, représentation des documents

1. Introduction
2. Des Démarches Humaines À Un Système De Compréhension Automatique
3. L'approche Globale Du Document
4. Interprétation Du Document Par <<Cycles Perceptifs>>
5. Conclusion
  References

[Antoine92] Antoine, D ., Collin, S . and Tombre, K. Extraction d'indices : la méthode de REDRAW. In : Structured Document Analysis . Baird, H.S., Bunke, H. and Yamamoto, K. Eds . Berlin (Allemagne) : Springer Verlag, 1992 . p. 385-402.

[Belaïd92] Belaïd, A. et Tombre, K. Analyse de documents : de l'image à l a sémantique . Bigre, 1992, N 80, p. 3-28.

[Bellet96] Bellet, E. et Garbay, C . Des processus adaptatifs et coopératifs pour la vision bas niveau. In : Actes du 10e congrès Reconnaissance de Formes et Intelligence Artificielle, Rennes (France), 16- 18 janvier, 1996 . p. 516-525.

[Bruce93] Bruce, V. et Green, P.R . La perception visuelle : Physiologie, psychologie et écologie. Grenoble : Presses universitaires de Grenoble, 1993. 511 p.

[Clavier97] Clavier, E . et Clavier, S . Tri et catégorisation de documents numérisés. 2e Journée jeunes chercheurs « Ecrit et Document » . Paris .13 juin 1997.

[Dori95] Dori, D . and Tombre, K . From engineering drawings to 3D CAD models : are we ready now? Computer Aided Design, 1995, Vol . 29, N 4, p. 243-254 .

[Eglin97] Eglin, V. and Emptoz, H . Low-resolution boundaries for guiding eye movement on a document . Third International Workshop on Visual Form, Capri (Italie), 28-30 mai 1997.

[Fortin92] Fortin, C . et Rousseau, R . Psychologie cognitive : une approche du traitement de l'information . Québec : Presses de l'université du Québec , 1992 . 434 p.

[Kadonaga95] Kadonaga, T. and Abe, K . Comparison of methods for detecting corner points from digital curves. Lecture Notes in Computer Science 1072. Graphics Recognition, Methods and Applications . R . Kasturi and K . Tombre Eds . 1995 . p . 23-34.

[Kasturi90] Kasturi, R . A system for interpretation of line drawings . IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990, Vol . 12 , N 10, p . 978-991.

[Kasturi92] Kasturi, R . An Overview of techniques for graphics recognition . In : Structured Document Analysis . Baird, H.S ., Bunke, H . and Yamamoto, K . Eds . Berlin (Allemagne) : Springer Verlag, 1992. p . 285-324.

[Lecas92] Lecas, J.C . L'attention visuelle : de la conscience aux neurosciences. Bruxelles (Belgique) : Mardaga Eds, 1992 . 300 p.

[Lefèvre96] Lefèvre, V., Pollet, Y., Philipp, S. et Brunesseaux, S . Un système multi-agents pour la fusion de données en analyse d'images. Traitement du Signal, 1996, Vol . 13, N 1, p . 99-111.

[Marr82] Marr, D . Vision : A computional investigation into human representation and processing of visual information . New-York (USA) : W.H . Freeman and company, 1982 . 397 p.

[Martin90] Martin, P. et Bellissant, C. Segmentation et classification par réseau pour la reconnaissance de partitions. In : Colloque de Reconnaissance Automatique de l'Ecrit . 1990. p. 102-111.

[Nagy95] Nagy, G . Document image analysis : what is missing? In : Proceedings of the 8th International Conference on Image Analysis and Processing, San - Remo (Italy), september, 1995 . p . 577-587.

[Ogier95] Ogier, J .M ., Mullot, R ., Labiche, J. et Lecourtier, Y. Interprétation de documents par cycles perceptifs de construction d'objets cohérents. Application aux données cadastrales . Traitement du Signal, 1995, Vol . 12, N 6, p . 627-638.

[Ramel96] Ramel, J .Y. Lecture automatique de dessins, méthodes d'analyse et de reconnaissance, application aux plans cinématiques . Thèse de doctorat (INSA de Lyon). 1996. 156 pages.

[Sayre73] Sayre, K.M . Machine recognition of Handwritten words : A projec report. Pattern Recognition, 1973, Vol . 5, p . 213-228.

[Shih89] Shih, C . and Kasturi, R . Extraction of graphic primitives from images of paper based line drawings . Machine Vision and Applications, 1989, Vol. 2, p. 103-113.

[Simon93] Simon, P. Contribution de l'analyse des mouvements oculaires à l'évaluation de la charge de travail mental . Thèse de doctorat (Université de Valenciennes). 1993. 183 pages.

[Tombre92] Tombre, K . Technical drawing Recognition and understanding : From Pixel to semantics . In : Proceedings of the IAPR Workshop on Machin e Vision and Application . Tokyo (Japon), 7-9 December, 1992 . p . 393-401.

[Ts95] Numéro Spécial Ecrit et Documents . Traitement du Signal, Vol . 12, N 6, 1995.

[Wa1184] Wall, K. and Danielsson, P. A fast sequential method for polygonal approximation of digitized curves . Computer Vision, Graphics and Image Processing, 1984, Vol . 28, p . 220-227.