Contrôle gestuel de la synthèse vocale - Les instruments Cantor Digitalis et Digitartic

Contrôle gestuel de la synthèse vocale

Les instruments Cantor Digitalis et Digitartic

Lionel Feugère Christophe d’Alessandro 

LIMSI, CNRS, Université Paris-Saclay,Bât 508, rue John von Neumann, Campus Universitaire, F-91405 Orsay

Sorbonne Universités, UPMC Univ Paris 06 UFR d’Ingéniérie, 4 place Jussieu, 75252 Paris cedex 05

Corresponding Author Email: 
lionel.feugere@limsi.fr,cda@limsi.fr
Page: 
417-442
|
DOI: 
https://doi.org/10.3166/TS.32.417-442
Received: 
26 March 2015
| |
Accepted: 
13 November 2015
| | Citation

OPEN ACCESS

Abstract: 

Two singing synthesis instruments are presented: Digitalis Cantor and Digitartic. Both instruments use bimanual writing or drawing gestures on graphic tablets. The voice signal is computed with the help of a parametric synthesizer, including a voice source model, consonantal noise models and series/parallel formant filters. Cantor Digitalis is a vowel and semi-vowel singing instrument. Digitartic allows for singing syllables, including plosives, fricative, liquid and nasal consonants. The issue of consonant gestures and musical beat synchronization is discussed. These instruments allow for expressive musical performances. They are regularly used for concerts.

RÉSUMÉ

Deux instruments de synthèse vocale sont présentés : le Cantor Digitalis et le Digitartic. Ces deux instruments utilisent des gestes bimanuels dérivés de l’écriture ou du dessin sur une tablette graphique. Le signal est calculé par un synthétiseur vocal paramétrique, comprenant des modèles de source voisée et de bruits consonantiques et une structure à formants série/parallèle, pour le conduit vocal. Le Cantor Digitalis permet de chanter des voyelles et des semi-voyelles. Le Digitartic permet de chanter des syllabes, avec des consonnes plosives, fricatives, liquides et nasales. La question de la synchronisation des gestes consonantiques et des appuis rythmiques demandés par la musique est discutée. Ces instruments permettent un jeu musical expressif et sont régulièrement utilisés en concert.

Keywords: 

voice synthesis, syllable synthesis, digital musical instrument, gestural control, articulation control, rythmic control

MOTS-CLÉS

synthèse vocale, synthèse syllabique, instrument de musique numérique, contrôle gestuel, contrôle de l’articulation, contrôle rythmique

1. Introduction
2. Méthode De Synthèse
3. Cantor Digitalis : Gestes Mélodiques Et Vocaliques
4. Digitartic : Gestes Mélodiques, Vocaliques Et Consonantiques
5. Discussion
6. Conclusion Et Perpectives
  References

Astrinaki M., D’Alessandro N., Picart B., Drugman T., Dutoit T. (2012, December, 2-5). Reactive and continuous control of HMM-based speech synthesis. In IEEE workshop on spoken language technology (SLT 2012). Miami, Florida, USA.

Beller G. (2011). Gestural control of real-time concatenative synthesis in Luna Park. In 1st international workshop on performative speech and singing synthesis (P3S 2011).

Berndtsson G. (1995). The KTH rule system for singing synthesis. STL-QPSR, vol. 36, no 1, p. 1-22.

Cook P. R. (1993). SPASM, a real-time vocal tract physical model controller; and singer, the companion software synthesis system. Computer Music Journal, vol. 17, no 1, p. 30-44.

Cook P. R. (2005, May 26-28). Real-time performance controllers for synthesized singing. In Proceedings of the 5th conference on new interfaces for musical expression (NIME’05). Vancouver, BC, Canada.

Cook P. R., Leider C. N. (2000, August). squeezeVox: A new controller for vocal synthesis models. In Proceedings of the 2000 international computer music conference (ICMC2000). Berlin.

d’Alessandro C., Feugère L., Le Beux S., Perrotin O., Rilliard A. (2014, June). Drawing melodies: Evaluation of chironomic singing synthesis. J. Acoust. Soc. Am., vol. 135, no 6, p. 3601-3612.

d’Alessandro C., Le Beux S., Rilliard A. (2010, 12-16 Avril). Contrôle gestuel du modèle source/filtre de production de la voix. In 10ème congrès français d’acoustique. Lyon.

D’Alessandro N., Woodruff P., Fabre Y., Dutoit T., Le Beux S., Doval B. et al. (2007, March). Real time and accurate musical control of expression in singing synthesis. Journal on Multimodal User Interfaces, vol. 1, no 1, p. 31-39.

Déchelle F., d’Alessandro C., Rodet X. (1984). Synthèse temps-réel sur microprocesseur TMS 320. In Proc. of the 1984 international computer music conference (ICMC1984), p. 15.

Depalle P., Garcia G., Rodet X. (1995). A virtual castrato (!?). In Proc. of the 1994 international computer music conference (ICMC1994), p. 357-360.

Doval B., d’Alessandro C., Henrich N. (2003). The voice source as a causal/anticausal linear filter. In ISCA (Ed.), Proceedings of voqual’03 : Voice quality : Functions, analysis and synthesis. Geneva, Switzerland.

Doval B., d’Alessandro C., Henrich N. (2006). The spectrum of glottal flow models. Acta Acoustica, vol. 92, p. 1026-1046.

Dudley H., Riesz R. R., Watkins S. S. A. (1939). A synthetic speaker. Journal of the Franklin Institute, vol. 227, no 6, p. 739-764.

Fels S. S., Hinton G. E. (1992, November). Glove-talk: A neural network interface between a data-glove and a speech synthesizer. IEEE Transactions on neural networks, vol. 3, no 6, p. 1-7.

Fels S. S., Hinton G. E. (1998). Glove-talk II : a neural network interface which maps gesture to parallel formants. IEEE Transactions on neural networks, vol. 9, no 1, p. 205.

Fels S. S., Pritchard R., Lenters A. (2009). Fortouch: A wearable digital ventriloquized actor. In Proceedings of the 9th conference on new interfaces for musical expression (NIME’09).

Feugère L. (2013). Synthèse par règles de la voix chantée contrôlé par le geste et applications musicales. Thèse de doctorat non publiée, Université Pierre et Marie Curie, Ecole doctorale Sciences Mécaniques, Acoustique, Electronique et Robotique (SMAER), Paris, France.

Feugère L., d’Alessandro C. (2012, 9-11 mai). Digitartic : synthèse gestuelle de syllabes chantées. In Actes des journées d’informatique musicale (JIM 2012), p. 219-225. Mons, Belgique.

Feugère L., d’Alessandro C. (2013, May). Digitartic: bi-manual gestural control of articulation in performative singing synthesis. In Proceedings of the 13th conference on new interfaces for musical expression (NIME’13), p. 331-336. Daejeon, Korea Republic.

Garnier-Rizet M. (1994). Elaboration d’un module de règles phonético-acoustiques pour un système de synthèse à partir du texte pour le français. Thèse de doctorat non publiée, Université de la Sorbonne nouvelle.

Genevois H. (1999). Geste et pensée musicale : de l’outil à l’instrument (dans "les nouveaux gestes de la musique"). In E. Parenthèse (Ed.),, p. 35-45.

Gordon J. W. (1987). The perceptual attack time of musical tones. J. Acoust. Soc. Am., vol. 82, no 2, p. 88-105.

Holmes J. (1983). Formant synthesizers: cascade or parallel? Speech Communication, vol. 2, p. 251-273.

Kenmochi H., Oshita H. (2007). Vocaloid – commercial singing synthesizer based on sample concatenation. In Interspeech.

Kessous L. (2002). Bi-manual mapping experimentation, with angular fundamental frequency control and sound color navigation. In Proceedings of the international conference on new interfaces for musical expression (NIME’02), p. 113–114.

Kessous L. (2004). Contrôles gestuels bi-manuels de processus sonores. Thèse de doctorat non publiée, Université de Paris VIII.

Klatt D. H. (1980, March). Software for a cascade/parallel formant synthesizer. J. Acoust. Soc. Am., vol. 67, no 3, p. 971-995.

Laver J. (1994). Principles of phonetics (Cambridge, Ed.). Cambridge.

Le Beux S., Feugère L., d’Alessandro C. (2011, 27/08 au 31/08). Chorus digitalis : experiment in chironomic choir singing. In P. of the conference ISSN: 1990-9772 (Ed.), 12th annual conference of the international speech communication association (INTERSPEECH 2011), p. 2005-2008. Firenze, Italy.

Le Beux S., Rilliard A., d’Alessandro C. (2007, August 22-24). Calliphony: A real-time intonation controller for expressive speech synthesis. In 6th ISCA workshop on speech synthesis, p. 345-350. Bonn, Germany.

Miranda E. R., Wanderley M. M. (2006). New digital musical instruments: Control and interraction beyond the keyboard. A-R Editions, no Middleton, WI, USA, p. 1-18.

Morton J., Marcus S., Frankish C. (1976, September). Perceptual centers (P-centers). Psychological Review, vol. 83, no 5, p. 405-408.

Perrotin O., d’Alessandro C. (2013, May 27-30). Adaptive mapping for improved pitch accuracy on touch user interfaces. In K. R. Daejeon + Seoul (Ed.), Proceedings of the 13th conference on new interfaces for musical expression (NIME’13), p. 186-189.

Peterson G. E., Barney H. L. (1952, March). Control methods used in a study of vowels. J. Acoust. Soc. Am., vol. 24, no 2, p. 175-184.

Pritchard B., Fels S. S. (2006). GRASSP: Gesturally-realized audio, speech and song performance. In Proceedings of the 6th conference on new interfaces for musical expression (NIME’06), p. 272-276.

Rodet X., Potard Y., Barrière J.-B. (1984, Autumn). The CHANT project: From the synthesis of the singing voice to synthesis in general. Computer Music Journal, vol. 8, no 3, p. 15-31.

Stevens K. N. (1998). Acoustic phonetics. The MIT Press.

Wanderley M. M., Viollet J.-P., Isart F., Rodet X. (2000). On the choice of transducer technologies for specific musical functions. In Proc. of the 2000 international computer music conference (ICMC2000), p. 244–247.

Zbyszynski M., Wright M., Momeni A., Cullen D. (2007). Ten years of tablet musical interfaces at cnmat. In Proceedings of the 7th conference on new interfaces for musical expression (NIME’07), p. 100-105. New York, USA.