WO2019240042A1 - 表示制御方法、表示制御装置およびプログラム - Google Patents

表示制御方法、表示制御装置およびプログラム Download PDF

Info

Publication number
WO2019240042A1
WO2019240042A1 PCT/JP2019/022750 JP2019022750W WO2019240042A1 WO 2019240042 A1 WO2019240042 A1 WO 2019240042A1 JP 2019022750 W JP2019022750 W JP 2019022750W WO 2019240042 A1 WO2019240042 A1 WO 2019240042A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
sound
note
breath
synthesized
Prior art date
Application number
PCT/JP2019/022750
Other languages
English (en)
French (fr)
Inventor
誠 橘
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to JP2020525529A priority Critical patent/JP6992894B2/ja
Publication of WO2019240042A1 publication Critical patent/WO2019240042A1/ja
Priority to US17/119,471 priority patent/US11893304B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/008Means for controlling the transition from one tone waveform to another
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/121Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of a musical score, staff or tablature
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • This disclosure relates to a technique for displaying synthesis data used for sound synthesis.
  • Patent Document 1 the sound of each note constituting a musical piece by a user using a piano roll type editing screen in which a pitch axis corresponding to a pitch and a time axis corresponding to time are set.
  • a configuration is disclosed in which composite information is edited while visually confirming the height, pronunciation characters, and pronunciation period.
  • On the edit screen a note image representing a note specified by the synthesis information is arranged.
  • a breath sound screen on which a time waveform of a breath sound to be inserted into the music is arranged is displayed in a different area from the editing screen.
  • one aspect of the present disclosure aims to allow a user to easily grasp the positional relationship between a synthesized sound and a sound effect.
  • a display control method provides synthesized data that specifies a synthesized sound generated by sound synthesis and a sound effect added to the synthesized sound.
  • synthesized data specifies a synthesized sound generated by sound synthesis and a sound effect added to the synthesized sound.
  • a processed image in which a first image representing a note corresponding to the synthesized sound and a second image representing the sound effect are arranged in a region where a pitch axis and a time axis are set is displayed on a display device.
  • the display control device includes a pitch axis and a time axis according to synthesis data that specifies a synthesized sound generated by sound synthesis and a sound effect added to the synthesized sound.
  • a display control unit that causes a display device to display a processed image in which a first image representing a note corresponding to the synthesized sound and a second image representing the sound effect are arranged.
  • FIG. 1 is a block diagram of the speech synthesizer 100 according to the first embodiment of the present disclosure.
  • the speech synthesizer 100 is a signal processing device that generates speech such as speech speech and singing speech by a unit connection speech synthesis process.
  • a singing voice of a specific music piece (hereinafter referred to as “synthetic music piece”) is generated by voice synthesis.
  • the singing voice is composed of a sound (hereinafter referred to as “synthetic sound”) that is the original purpose of voice synthesis and a sound that is added to the synthesized sound (hereinafter referred to as “sound effect”).
  • the synthesized sound is a sound for each note constituting the synthesized music.
  • the synthesized sound may be synthesized by a method other than unit connection.
  • the sound effects are sounds other than the notes constituting the score of the synthesized music. That is, the singing voice is a time series of a plurality of synthesized sounds to which sound effects are added.
  • a breath (breathing) sound is exemplified as a sound effect.
  • the speech synthesizer 100 is realized by a computer system including a control device 20, a storage device 30, a display device 40, an input device 50, and a sound emitting device 60.
  • the display device 40 (for example, a liquid crystal display) displays various images under the control of the control device 20.
  • the input device 50 is an operating device that receives an instruction from a user. For example, a plurality of operators operated by the user or a touch panel that detects contact with the display surface of the display device 40 is used as the input device 50.
  • the sound emitting device 60 (for example, a headphone or a speaker) emits a singing voice under the control of the control device 20.
  • the storage device 30 stores a program executed by the control device 20 and various data used by the control device 20.
  • a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of a plurality of types of recording media is arbitrarily employed as the storage device 30.
  • the storage device 30 of the first embodiment stores the synthesized data D, the speech element group, and the breath sound data.
  • note information N (N1, N2, N3...) Is information for designating a note corresponding to a synthesized sound.
  • the note information N designates a pronunciation character X1, a pronunciation period X2, and a pitch (for example, a note number) X3.
  • the phonetic character X1 is a code indicating a syllable (mora) composed of a single vowel or a combination of a consonant and a vowel.
  • the sound generation period X2 is the time length (note value) of a note, and is defined by, for example, the start time and time length (continuation length) or end time of sound generation.
  • the note information N included in the synthesized data D is set by the user.
  • the breath information B (B1, B2,%) Is information for instructing the insertion of a breath sound in the score of the synthesized music.
  • a breath sound is generated immediately before a synthesized sound corresponding to a note is generated. Therefore, the breath information B indicates that the breath sound is inserted immediately before the note corresponding to the synthesized sound to which the breath sound is to be added.
  • a condition for selecting whether or not to add a breath sound to the synthesized sound (hereinafter referred to as “breath sound condition”) is preset by the user.
  • the breath sound condition is set according to, for example, the type of synthesized music set by the user.
  • the setting method of a breath sound condition is not limited to the above illustration.
  • the breath information B is automatically set by the control device 20 according to the breath sound condition.
  • the breath sound corresponding to the automatically set breath information B is not generated immediately before all the notes in the synthesized music, but is generated immediately before a specific note according to the breath sound condition. For example, a breath sound is added immediately before a note immediately after a long rest or immediately before a note that is sounded at a high volume.
  • the note information N and the breath information B are arranged in time series in the order of pronunciation in the synthesized music.
  • the breath information B is arranged immediately before the note information N corresponding to the synthesized sound to which the breath sound is added.
  • the waveform of the breath sound added to the synthesized sound is set in advance according to the type of the synthesized music, for example. Note that the breath sound indicated by each breath information B may be individually set by the user.
  • the speech unit group is a set of speech units (speech synthesis library).
  • Each speech element is a phoneme unit (for example, vowel or consonant) that is the minimum unit of linguistic meaning, or a phoneme chain (for example, diphone or triphone) that connects a plurality of phonemes, and is a sample of a time domain speech waveform. It is expressed as a time series of a frequency domain spectrum calculated for each series or frame of a speech waveform.
  • Each speech segment is collected in advance from, for example, recorded speech of a specific speaker.
  • the breath sound data is data representing a breath sound waveform (hereinafter referred to as “breath waveform”) over a predetermined time length.
  • breath waveform a breath sound waveform
  • the breath sound is collected in advance from, for example, recorded voice of a specific speaker.
  • the control device 20 (an example of a computer) is configured by a processing circuit such as a CPU (Central Processing Unit), for example, and comprehensively controls each element of the speech synthesizer 100. As illustrated in FIG. 1, the control device 20 according to the first embodiment executes a program stored in the storage device 30 to execute a plurality of functions (display control unit 301, synthesized data generation unit 303, and speech synthesis unit 305. ). Note that some functions of the control device 20 may be realized by a dedicated electronic circuit. Further, the function of the control device 20 may be installed in a plurality of devices.
  • a processing circuit such as a CPU (Central Processing Unit)
  • the display control unit 301 displays various images on the display device 40.
  • the display control unit 301 of the first embodiment causes the display device 40 to display the processed image G of FIG. 3 for the user to check and edit the content (note string) of the synthesized music in accordance with the synthesized data D.
  • FIG. 3 is a diagram illustrating an example of the processed image G.
  • the processed image G is a first image representing a note corresponding to a synthesized sound in a region (piano roll type coordinate plane) in which a pitch axis and a time axis intersect with each other are set.
  • a second image representing a breath sound.
  • the first image and the second image are arranged in the processed image G by the display control unit 301. Since the breath sound is basically a non-harmonic sound and does not have a clear pitch, in the related art, the second image is arranged in a region different from the first image.
  • the first image of the first embodiment is an image (hereinafter referred to as “note image”) P1a whose length on the time axis is set according to the duration of each note.
  • note image an image (hereinafter referred to as “note image”) P1a whose length on the time axis is set according to the duration of each note.
  • a rectangular note image P1a (note bar) is illustrated.
  • the length (image length) on the time axis of the note image P1a is set according to the duration of the sound generation period X2 indicated by the note information N of the note corresponding to the note image P1a.
  • the note image P1a is arranged in the processed image G according to the note information N of the note corresponding to the note image P1a.
  • the position of the note image P1a of each note in the direction of the pitch axis is set according to the pitch X3 of the note indicated by the note information N on the pitch axis.
  • the position of the note image P1a of each note in the direction of the time axis is set according to the note sounding period X2 indicated by the note information N.
  • the phonetic character X1 indicated by the note information N of each note is superimposed on the note image P1a together with the note image P1a of the note (for example, as illustrated in FIG. 3).
  • the second image of the first embodiment is an image P2a (hereinafter referred to as “breath image”) whose length on the time axis is set in accordance with the duration of each breath sound.
  • FIG. 3 illustrates a rectangular breath image P2a.
  • the breath image P2a and the note image P1a have different display forms such as patterns, colors and shapes so that they can be visually distinguished.
  • the length (display length) on the time axis of the breath image P2a of each breath sound is set according to the time length of the breath waveform of the breath sound indicated by the breath sound data stored in the storage device 30. That is, the display lengths of the plurality of breath images P2a arranged in the processed image G are equal.
  • breath images P2a having different display lengths may be arranged in the processed image G. For example, when the duration of the breath sound is different, the display length of the breath image P2a is changed according to the duration of the breath sound.
  • the breath image P2a is arranged in the processed image G in accordance with the note information N immediately after the breath information B.
  • the position of the breath image P2a in the direction of the pitch axis is set to the same position as the pitch X3 of the note information N immediately after the breath information B. That is, the breath image P2a is arranged at a position corresponding to the pitch X3 of the note corresponding to the synthesized sound immediately after the sound effect represented by the breath image P2a.
  • the position of the breath image P2a in the direction of the time axis is such that, for example, the end point of the breath image P2a (that is, the end time of the breath sound) coincides with the start time indicated by the pronunciation period X2 of the note information N immediately after the breath information B.
  • the note image P1a and the breath image P2a are connected in the time axis direction.
  • the note image P1a and the breath image P2a may not be completely connected, and the note image P1a and the breath image P2a may be separated from each other.
  • the end time of the breath sound is set before the sound start time of the consonant.
  • the user appropriately edits the note information N of the synthesized data D (the generation of new note information N and the creation of the existing note information N by appropriately operating the input device 50 while viewing the processed image G exemplified above.
  • Change instruction or a change in breath sound condition for adding a breath sound to the synthesized sound.
  • the user instructs various edits to the note image P1a in the processed image G.
  • an instruction to add a new note image P1a or to delete, move, and expand / contract on the time axis of an existing note image P1a is instructed.
  • the control device 20 edits the composite data D in response to an instruction for the note image P1a from the user.
  • the composite data generation unit 303 in FIG. 1 manages the composite data D. Specifically, the composite data generation unit 303 edits the composite data D in accordance with an instruction from the user to the input device 50. For example, the composite data generation unit 303 edits the composite data D so that the editing content for the processed image G is reflected. For example, when the addition of the note image P1a is instructed, the note information N corresponding to the note image P1a is added, and when the expansion / contraction of the note image P1a is instructed, according to the expansion / contraction of the note image P1a. The sound generation period X2 of the note information N is changed. Also, the set breath sound condition is applied to the note information N after editing.
  • a breath sound is added to the synthesized sound of the note indicated by the note information N after editing is determined by the breath sound condition, and the breath information B immediately before the note information N is automatically determined according to the determination. Edited (for example, added or deleted). For example, when the note information N in which the breath information B exists immediately before is deleted, the breath information B is also deleted.
  • the speech synthesizer 305 generates a speech signal V by speech synthesis processing using the speech element group, breath sound data, and synthesized data D stored in the storage device 30.
  • the speech synthesis unit 305 sequentially selects speech units corresponding to the phonetic character X1 designated by each note information N of the synthesized data D from the speech unit group, and the pronunciation period designated by the note information N
  • the speech signals are generated by expanding and contracting each speech unit according to X2 and connecting them to each other.
  • the voice synthesizer 305 generates a voice signal V of the singing voice by synthesizing the breath sound indicated by the breath data with the voice signal.
  • the voice signal V generated by the voice synthesizer 305 is supplied to the sound emitting device 60, whereby the singing voice of the synthesized music is reproduced.
  • FIG. 4 is a flowchart of processing for displaying the processed image G.
  • the process of FIG. 4 is started when the processed image G is displayed.
  • the process in FIG. 4 is repeatedly executed at predetermined intervals while the processed image G is displayed, for example.
  • the composite data generation unit 303 determines whether there is an editing instruction for the composite data D from the user (Sa1).
  • the composite data generation unit 303 edits the note information N in the composite data D according to the instruction from the user (Sa2).
  • the composite data generation unit 303 edits the breath information B in the composite data D according to the editing content of the note information N (Sa3).
  • the composite data D is edited by the processing of step Sa2 and step Sa3. If the presence or absence of a breath sound does not change by editing the note information N, the process of step Sa3 can be omitted.
  • the display control unit 301 displays the processed image G according to the edited composite data D (Sa4). On the other hand, when there is no instruction to edit the composite data D (Sa1: NO), the processing from step Sa1 to step Sa4 is not executed.
  • the processed image G in which the note image P1a and the breath image P2a are arranged in the area where the pitch axis and the time axis are set is displayed on the display device 40. . Therefore, for example, as compared with a configuration in which the note image P1a and the breath image P2a are displayed in separate areas, the user can easily grasp the positional relationship between the synthesized sound and the breath sound.
  • the breath image P2a is displayed at a position corresponding to the pitch X3 of the note corresponding to the synthesized sound immediately after the breath sound
  • the synthesized sound located near the breath sound for example, is displayed.
  • the user can easily grasp the positional relationship between the synthesized sound and the breath sound. It is remarkable.
  • Second Embodiment A second embodiment of the present disclosure will be described.
  • elements having the same functions as those of the first embodiment are diverted using the same reference numerals used in the description of the first embodiment, and detailed descriptions thereof are appropriately omitted.
  • FIG. 5 is a schematic diagram of the processed image G according to the second embodiment.
  • an image including a note image P1a similar to that in the first embodiment and an image (hereinafter referred to as “synthetic sound waveform image”) P1b representing the waveform of the synthesized sound is exemplified as the first image.
  • An image representing a breath waveform (hereinafter referred to as “breath waveform image”) P2b is exemplified as the second image.
  • the note image P1a of the second embodiment is arranged in the processed image G with the display length and position corresponding to the note information N, as in the first embodiment.
  • the synthesized sound waveform image P1b is an image representing the waveform of the voice signal V generated by the voice synthesizer 305.
  • An image representing the envelope of the waveform of the portion of the audio signal V synthesized according to each note (that is, the synthetic sound segment) is used as the synthetic sound waveform image P1b.
  • the synthesized sound waveform image P1b is superimposed on the note image P1a.
  • the waveform envelope image of the portion corresponding to the breath sound in the voice signal V is arranged immediately before the note image P1a as the breath waveform image P2b.
  • the breath image P2a is arranged at a position corresponding to the pitch X3 of the note corresponding to the synthesized sound located immediately after the sound effect represented by the breath image P2a.
  • the phonetic character X1 is arranged, for example, around the first image (note image P1a and synthesized sound waveform image P1b).
  • the same effect as in the first embodiment is realized.
  • the first image includes the synthesized sound waveform image P1b
  • the user can visually grasp the waveform of the synthesized sound.
  • the second image includes the breath waveform image P2b, the user can visually grasp the waveform of the sound effect.
  • FIG. 6 is a schematic diagram of the processed image G according to the third embodiment.
  • the first image of the third embodiment is an image representing the time change of the pitch X3 of the synthesized sound (hereinafter, “pitch image”).
  • P1c is included.
  • the second image is the same as in the second embodiment.
  • the pitch image P1c is an image representing a change in pitch of the singing voice generated by voice synthesis.
  • An image representing a temporal change of a portion corresponding to each note (that is, a synthesized sound) in the singing voice is used as the pitch image P1c.
  • a pitch image P1c is arranged superimposed on the note image P1a and the synthesized sound waveform image P1b.
  • the same effect as in the second embodiment is realized.
  • the first image includes the pitch image P1c representing the time change of the pitch X3 of the synthesized sound
  • the user can visually grasp the time change of the pitch X3 of the synthesized sound.
  • the configuration in each of the above-described embodiments may be applied to a synthesized sound generated by musical tone synthesis for synthesizing musical instrument sounds, for example.
  • the musical sound synthesis and the voice synthesis exemplified in each of the above embodiments are comprehensively expressed as sound synthesis.
  • a fret sound generated when a guitar player moves his / her finger from the fret is exemplified as a sound effect added to the synthesized sound.
  • Examples of sound effects in speech synthesis include various sounds (for example, tongue hit, sigh, cough, sneeze) that are pronounced from the performer's mouth in addition to the breath sound exemplified in the above-described embodiments.
  • various sounds for example, hand clapping, applause or finger snap
  • sound effects for example, the sound of the performer's footsteps or the sound of rubbing the performer's clothes may be used as the sound effect.
  • Examples of sound effects in musical tone synthesis include the following sounds according to the type of musical instrument in addition to the fret sound described above.
  • a sound effect In a wind instrument, for example, a sound of pushing an operator or a sound of breathing is exemplified as a sound effect.
  • various sounds derived from a stick for example, a sound for operating a stick or a sound when a stick is dropped
  • a shout uttered by a performer as a performance is exemplified as a sound effect.
  • a stringed instrument for example, a tapping sound, pick noise, or release noise is exemplified as a sound effect.
  • the composition of the 1st picture is not limited to the above illustration.
  • the image constituting the first image of each note is arbitrary as long as it is at least one of the note image P1a, the synthesized sound waveform image P1b, and the pitch image P1c.
  • the first image may include an image other than the images exemplified above.
  • the first image may include a graphic representing the note itself indicated by each note information N.
  • the display mode (pattern, color, shape, etc.) of the first image is arbitrary as long as the user can visually grasp the information related to the note.
  • the second image includes the breath image P2a.
  • the second image includes the breath waveform image P2b. It is not limited to the above examples.
  • the second image may include both the breath image P2a and the breath waveform image P2b.
  • the second image may include an image other than the images exemplified above.
  • the display mode of the second image is arbitrary as long as the user can visually grasp the position where the breath sound is inserted in the synthesized music.
  • the breath image P2a is arranged at the position corresponding to the pitch X3 of the note corresponding to the synthesized sound immediately after the sound effect represented by the breath image P2a, but the breath image P2a is arranged.
  • the position is not limited to the above examples.
  • the breath image P2a may be arranged at a position corresponding to the pitch X3 of the note corresponding to the synthesized sound immediately before the breath sound corresponding to the breath image P2a.
  • the breath image P2a is arranged in the processed image G according to the note information N immediately before the breath information B.
  • the position of the breath image P2a in the direction of the pitch axis is set to the pitch X3 of the note information N immediately before the breath information B.
  • the position of the breath image P2a in the direction of the time axis is set so that, for example, the start point of the breath image P2a coincides with the end (end time) of the pronunciation period X2 of the note information N immediately before the breath information B.
  • the breath information B exemplified in each of the above embodiments may include various types of information related to the breath sound.
  • the breath information B may specify the sounding time of the breath sound.
  • the sounding time of the breath sound is arbitrarily set according to an instruction from the user, for example.
  • the position on the time axis of the breath image P2a arranged in the processed image G is adjusted according to the sounding time indicated by the breath information B.
  • the breath information B may specify the pitch used for the arrangement on the pitch axis of the processed image G.
  • the pitch specified by the breath information B may be set to match the pitch X3 specified by the note information N immediately after the breath information B.
  • the breath sound may be changed in accordance with an instruction for editing the second image from the user.
  • the duration of the breath sound is changed according to the instruction.
  • the sound generation time designated by the breath information B is edited according to the instruction.
  • the user may instruct the insertion or deletion of breath sounds. Specifically, the user instructs addition of a new second image or deletion of an existing second image in the processed image G. In response to the instruction, editing of the composite data D is instructed.
  • the configuration in which one piece of breath sound data is stored in the storage device 30 is illustrated, but a plurality of pieces of breath sound data each representing a different breath waveform may be stored in the storage device 30.
  • a plurality of breath sound data with different genders or speakers are stored in the storage device 30.
  • the user can also select desired breath sound data from among a plurality of breath sound data.
  • the breath waveform image P2b represented by the breath sound data selected by the user is arranged in the processed image G.
  • the display mode of the second image may be changed in accordance with an instruction from the user. For example, when the user gives an instruction to change the intensity of the breath sound, the width of the second image in the pitch axis direction is changed according to the instruction. In response to an instruction to reduce the intensity of the breath sound, the width of the second image in the pitch axis direction is reduced. When the user gives an instruction to change the frequency at which the breath sound is inserted into the music, the number of second images arranged in the processed image G is increased or decreased according to the instruction.
  • the presence or absence of the addition of the breath sound is exemplified as the breath sound condition.
  • the intensity and time length of the breath sound may be set as the breath sound condition. According to the above configuration, an optimum breath sound can be automatically selected and added to the note information N sequence.
  • the second image is arranged in the processed image G so as to be connected to the first image in the time axis direction.
  • the second image is separated from the first image in the time axis direction and processed. You may arrange
  • the device including the display control unit 301 exemplified in each of the above embodiments functions as a display control device.
  • the display control apparatus includes the speech synthesis unit 305 and the synthesis data generation unit 303 is arbitrary. That is, the speech synthesizer 100 is an example of a display control device.
  • the functions of the display control device according to each of the above-described embodiments are realized by the cooperation of the control device 20 and the program as illustrated in each embodiment.
  • the programs according to the above-described embodiments can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium is also included.
  • the non-transitory recording medium includes an arbitrary recording medium excluding a transient propagation signal (transitory, “propagating” signal), and does not exclude a volatile recording medium.
  • the program may be provided to the computer in the form of distribution via a communication network.
  • the display control method is based on synthesis data that specifies a synthesized sound generated by sound synthesis and a sound effect that is added to the synthesized sound.
  • a processed image in which a first image representing a note corresponding to the synthesized sound and a second image representing the sound effect are arranged in a region where a high axis and a time axis are set is displayed on a display device.
  • the processed image in which the first image representing the note corresponding to the synthesized sound and the second image representing the sound effect are arranged on the display device in the area where the pitch axis and the time axis are set. Therefore, for example, the user can easily grasp the positional relationship between the synthesized sound and the sound effect as compared with a configuration in which the first image and the second image are displayed in separate areas.
  • the second image is arranged at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately after the sound effect represented by the second image.
  • the second image of the sound effect is displayed at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately after the sound effect, for example, it corresponds to the synthesized sound located in the vicinity of the sound effect.
  • the effect that the user can easily grasp the positional relationship between the synthesized sound and the sound effect is remarkable. is there.
  • the second image is arranged at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately before the sound effect represented by the second image.
  • the second image of the sound effect is displayed at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately after the sound effect, for example, it corresponds to the synthesized sound located in the vicinity of the sound effect.
  • the effect that the user can easily grasp the positional relationship between the synthesized sound and the sound effect is remarkable. is there.
  • the first image includes a note image whose length on the time axis is set in accordance with the duration of the note.
  • the user since the first image includes a note image whose length on the time axis is set according to the duration of the note, the user can visually grasp the duration of the synthesized sound.
  • the first image includes a waveform image representing the waveform of the synthesized sound.
  • the user can visually grasp the waveform of the synthesized sound.
  • the first image includes a pitch image representing a temporal change in the pitch of the synthesized sound.
  • the first image since the first image includes the pitch image representing the temporal change in the pitch of the synthesized sound, the user can visually grasp the temporal change in the pitch of the synthesized sound.
  • the second image includes a waveform image representing the waveform of the sound effect.
  • the second image since the second image includes the waveform image representing the waveform of the sound effect, the user can visually grasp the waveform of the synthesized sound and the sound effect.
  • the display control apparatus provides a sound according to synthesis data that specifies a synthesized sound generated by sound synthesis and a sound effect added to the synthesized sound.
  • Display control for displaying on a display device a processed image in which a first image representing a note corresponding to the synthesized sound and a second image representing the sound effect are arranged in a region in which a high axis and a time axis are set Part.
  • the processed image in which the first image representing the note corresponding to the synthesized sound and the second image representing the sound effect are arranged on the display device in the area where the pitch axis and the time axis are set. Therefore, for example, the user can easily grasp the positional relationship between the synthesized sound and the sound effect as compared with a configuration in which the first image and the second image are displayed in separate areas.
  • the display control unit arranges the second image at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately after the sound effect represented by the second image.
  • the second image of the sound effect is displayed at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately after the sound effect, for example, it corresponds to the synthesized sound located in the vicinity of the sound effect.
  • the effect that the user can easily grasp the positional relationship between the synthesized sound and the sound effect is remarkable. is there.
  • the display control unit arranges the second image at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately before the sound effect represented by the second image.
  • the second image of the sound effect is displayed at a position corresponding to the pitch of the note corresponding to the synthesized sound immediately after the sound effect, for example, it corresponds to the synthesized sound located in the vicinity of the sound effect.
  • the effect that the user can easily grasp the positional relationship between the synthesized sound and the sound effect is remarkable. is there.
  • the first image includes a note image whose length on the time axis is set according to the duration of the note.
  • the user since the first image includes a note image whose length on the time axis is set according to the duration of the note, the user can visually grasp the duration of the synthesized sound.
  • the first image includes a waveform image representing the waveform of the synthesized sound.
  • the user can visually grasp the waveform of the synthesized sound.
  • the first image includes a pitch image representing a temporal change in the pitch of the synthesized sound.
  • the first image since the first image includes the pitch image representing the temporal change in the pitch of the synthesized sound, the user can visually grasp the temporal change in the pitch of the synthesized sound.
  • the second image includes a waveform image representing the waveform of the sound effect.
  • the second image since the second image includes the waveform image representing the sound effect waveform, the user can visually grasp the sound effect waveform.
  • a program includes a pitch axis according to synthesis data that specifies a synthesized sound generated by sound synthesis and a sound effect added to the synthesized sound.
  • a display control unit that causes a display device to display a processed image in which a first image representing a note corresponding to the synthesized sound and a second image representing the sound effect are arranged in a region where a time axis is set
  • the processed image in which the first image representing the note corresponding to the synthesized sound and the second image representing the sound effect are arranged on the display device in the area where the pitch axis and the time axis are set. Therefore, for example, the user can easily grasp the positional relationship between the synthesized sound and the sound effect as compared with a configuration in which the first image and the second image are displayed in separate areas.

Abstract

表示制御装置は、音合成により生成される合成音と、合成音に対して付加されるブレス音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、時間軸上の長さが音符の継続長に応じて設定された音符画像と、時間軸上の長さがブレス音の継続長に応じて設定されたブレス画像とを配置した処理画像を、表示装置に表示させる表示制御部を具備する。

Description

表示制御方法、表示制御装置およびプログラム
 本開示は、音合成に利用する合成データを表示する技術に関する。
 発音期間と音高とを音符毎に指定する合成情報に応じて所望の音声を合成する音合成技術が従来から提案されている。例えば、特許文献1には、音高に対応する音高軸と時間に対応する時間軸とが設定されたピアノロール型の編集画面を利用して、利用者が楽曲を構成する各音符の音高や発音文字や発音期間を視覚的に確認しながら合成情報を編集する構成が開示されている。編集画面には、合成情報が指定する音符を表す音符図像が配置される。また、楽曲に挿入されるブレス音の時間波形が配置されたブレス音画面が、編集画面とは異なる領域に表示される。
特開2015-161822号公報
 しかし、特許文献1の技術では、音符図像とブレス音の時間波形とが異なる領域に表示されるため、時間軸上においてブレス音が挿入される位置を利用者が把握しにくいという問題がある。以上の事情を背景として、本開示の一つの態様は、合成音と効果音との位置関係を利用者が容易に把握することを目的とする。
 以上の課題を解決するために、本開示の一つの態様に係る表示制御方法は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる。
 本開示の一つの態様に係る表示制御装置は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる表示制御部を具備する。
第1実施形態における音声合成装置の構成を例示するブロック図である。 合成データの模式図である。 処理画像の一例を示す図である。 処理画像を表示する処理のフローチャートである。 第2実施形態に係る処理画像の一例を示す図である。 第3実施形態に係る処理画像の一例を示す図である。 変形例に係る処理画像の一例を示す図である。
<第1実施形態>
 図1は、本開示の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、例えば、発話音声や歌唱音声等の音声を素片接続型の音声合成処理で生成する信号処理装置である。第1実施形態では、特定の楽曲(以下「合成楽曲」という)の歌唱音声が音声合成により生成される。歌唱音声は、本来の音声合成の目的となる音(以下「合成音」という)と、当該合成音に対して付加される音(以下「効果音」という)とで構成される。合成音は、合成楽曲を構成する音符毎の音である。なお、合成音は、素片接続以外の方式で合成してもよい。他方、効果音は、合成楽曲の楽譜を構成する音符以外の音である。すなわち、歌唱音声は、効果音が付加された複数の合成音の時系列である。第1実施形態では、ブレス(息継ぎ)音を効果音として例示する。
 図1に例示される通り、音声合成装置100は、制御装置20と記憶装置30と表示装置40と入力装置50と放音装置60とを具備するコンピュータシステムで実現される。表示装置40(例えば液晶ディスプレイ)は、制御装置20による制御のもとで各種の画像を表示する。入力装置50は、利用者からの指示を受付ける操作機器である。例えば利用者が操作する複数の操作子、または、表示装置40の表示面に対する接触を検知するタッチパネルが入力装置50として利用される。放音装置60(例えばヘッドホンまたはスピーカ)は、制御装置20による制御のもとで歌唱音声を放音する。
 記憶装置30は、制御装置20が実行するプログラムと、制御装置20が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置30として任意に採用される。第1実施形態の記憶装置30は、合成データDと音声素片群とブレス音データとを記憶する。
 図2は、合成データDの模式図である。合成データDは、合成楽曲の歌唱音声を指定する時系列データである。具体的には、合成データDは、合成音と、当該合成音に対して付加される効果音(すなわちブレス音)を指定する。第1実施形態の合成データDは、合成楽曲を構成する複数の音符の各々について、当該音符に対応する合成音を指示する情報(以下「音符情報」という)Nと、一部の合成音の直前に付加(挿入)されるブレス音を指示する情報(以下「ブレス情報」という)Bとを含む。音符情報Nとブレス情報Bとは、発音順に配置される。
 図2に例示される通り、音符情報N(N1,N2,N3…)は、合成音に対応する音符を指定する情報である。具体的には、音符情報Nは、発音文字X1と発音期間X2と音高(例えばノートナンバー)X3とを指定する。発音文字X1は、母音単体または子音と母音との組合せで構成される音節(モーラ)を示す符号である。発音期間X2は、音符の時間長(音価)であり、例えば発音の開始時刻と時間長(継続長)または終了時刻とで規定される。合成データDに含まれる音符情報Nは、利用者により設定される。
 他方、ブレス情報B(B1,B2,…)は、合成楽曲の楽譜においてブレス音の挿入を指示する情報である。典型的には、音符に対応する合成音を発音する直前にブレス音が発音される。したがって、ブレス情報Bでは、ブレス音が付加されるべき合成音に対応する音符の直前において当該ブレス音が挿入されることが指示される。合成音に対するブレス音の付加の有無を選択する条件(以下「ブレス音条件」という)は、利用者により予め設定される。ブレス音条件は、例えば利用者が設定した合成楽曲の種類に応じて設定される。なお、ブレス音条件の設定方法は、以上の例示に限定されない。ブレス情報Bは、制御装置20によりブレス音条件に応じて自動設定される。なお、自動設定されるブレス情報Bに対応するブレス音は、合成楽曲内の全部の音符の直前に発音されるわけではなく、ブレス音条件に応じて特定の音符の直前に発音される。例えば、長い休符の直後の音符の直前、または、大音量で発音される音符の直前にブレス音が付加される。音符情報Nとブレス情報Bとは、合成楽曲内での発音の順番で時系列に配列されている。ブレス情報Bは、ブレス音が付加される合成音に対応する音符情報Nの直前に配置される。なお、合成音に付加されるブレス音の波形は、例えば合成楽曲の種類に応じて予め事前に設定される。なお、各ブレス情報Bの示すブレス音を、利用者が個別に設定してもよい。
 音声素片群は、複数の音声素片の集合(音声合成用ライブラリ)である。各音声素片は、言語的な意味の最小単位である音素単体(例えば母音または子音)、または複数の音素を連結した音素連鎖(例えばダイフォンまたはトライフォン)であり、時間領域の音声波形のサンプル系列、または、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。各音声素片は、例えば特定の発声者の収録音声から事前に採取される。
 ブレス音データは、所定の時間長にわたるブレス音の波形(以下「ブレス波形」という)を表すデータである。ブレス音は、例えば特定の発声者の収録音声から事前に採取される。
 制御装置20(コンピュータの例示)は、例えばCPU(Central Processing Unit)等の処理回路で構成され、音声合成装置100の各要素を統括的に制御する。図1に例示される通り、第1実施形態の制御装置20は、記憶装置30に記憶されたプログラムを実行することで複数の機能(表示制御部301、合成データ生成部303および音声合成部305)を実現する。なお、制御装置20の一部の機能を専用の電子回路で実現してもよい。また、制御装置20の機能を複数の装置に搭載してもよい。
 表示制御部301は、各種の画像を表示装置40に表示させる。第1実施形態の表示制御部301は、合成データDに応じて、合成楽曲の内容(音符列)を利用者が確認および編集するための図3の処理画像Gを表示装置40に表示させる。
 図3は処理画像Gの一例を示す図である。図3に例示される通り、処理画像Gは、相互に交差する音高軸と時間軸とが設定された領域(ピアノロール型の座標平面)に、合成音に対応する音符を表わす第1画像と、ブレス音を表す第2画像とを配置した画像である。第1画像と第2画像とは、表示制御部301により処理画像G内に配置される。ブレス音は、基本的には非調波音であり明確な音高を持たないので、従来技術では、第1画像とは別の領域に第2画像が配置されていた。
 第1実施形態の第1画像は、時間軸上の長さが各音符の継続長に応じて設定された画像(以下「音符画像」という)P1aである。図3では、矩形状の音符画像P1a(ノートバー)が例示されている。音符画像P1aの時間軸上における長さ(画像長)は、当該音符画像P1aに対応する音符の音符情報Nが示す発音期間X2の継続長に応じて設定される。
 音符画像P1aは、当該音符画像P1aに対応する音符の音符情報Nに応じて処理画像G内に配置される。音高軸の方向における各音符の音符画像P1aの位置は、音高軸上において、音符情報Nが示す音符の音高X3に応じて設定される。他方、時間軸の方向における各音符の音符画像P1aの位置は、音符情報Nが示す音符の発音期間X2に応じて設定される。第1実施形態では、図3に例示される通り、各音符の音符情報Nが示す発音文字X1が当該音符の音符画像P1aとともに(例えば図3の例示のように音符画像P1aにスーパーインポーズして)処理画像G内に配置される。
 第1実施形態の第2画像は、時間軸上の長さが各ブレス音の継続長に応じて設定された画像(以下「ブレス画像」という)P2aである。図3では、矩形状のブレス画像P2aが例示されている。ブレス画像P2aと音符画像P1aとは、視覚的に区別が可能なように、例えば模様、色彩および形状等の表示態様が相違する。各ブレス音のブレス画像P2aの時間軸上における長さ(表示長)は、記憶装置30に記憶されるブレス音データが示すブレス音のブレス波形の時間長に応じて設定される。すなわち、処理画像G内に配置される複数のブレス画像P2aの表示長は等しい。なお、表示長が相違するブレス画像P2aを処理画像G内に配置してもよい。例えばブレス音の継続長が相違する場合には、当該ブレス音の継続長に応じてブレス画像P2aの表示長を変化させる。
 第1実施形態では、ブレス情報Bの直後の音符情報Nに応じてブレス画像P2aが処理画像G内に配置される。音高軸の方向におけるブレス画像P2aの位置は、ブレス情報Bの直後の音符情報Nの音高X3と同じ位置に設定される。すなわち、ブレス画像P2aが表わす効果音の直後の合成音に対応する音符の音高X3に応じた位置に、当該ブレス画像P2aが配置される。時間軸の方向におけるブレス画像P2aの位置は、例えば、ブレス画像P2aの終点(すなわちブレス音の終了時刻)が、ブレス情報Bの直後の音符情報Nの発音期間X2が示す開始時刻に一致するように設定される。すなわち、音符画像P1aとブレス画像P2aとが時間軸方向に連結して配置される。なお、音符画像P1aとブレス画像P2aとが完全には連結せず、音符画像P1aとブレス画像P2aとが離れていてもよい。特に、音符情報Nに応じて生成される合成音の先頭に、音符の開始時刻より前に発音する子音が含まれる場合、ブレス音の終了時刻は、当該子音の発音開始時刻より前に設定される。
 利用者は、以上に例示した処理画像Gを視認しながら入力装置50を適宜に操作することで、合成データDの音符情報Nの編集(新規な音符情報Nの生成および既存の音符情報Nの変更)の指示、または、合成音に対してブレス音を付加するブレス音条件の変更の指示が可能である。例えば、利用者は、処理画像G内における音符画像P1aに対して各種の編集を指示する。例えば、新規な音符画像P1aの追加、または、既存の音符画像P1aの削除、移動および時間軸上の伸縮等の編集が指示される。利用者からの音符画像P1aに対する指示に応じて、制御装置20が合成データDを編集する。
 図1の合成データ生成部303は、合成データDを管理する。具体的には、合成データ生成部303は、入力装置50に対する利用者からの指示に応じて合成データDを編集する。例えば、合成データ生成部303は、処理画像Gに対する編集内容が反映されるように合成データDを編集する。例えば、音符画像P1aの追加が指示された場合には、当該音符画像P1aに応じた音符情報Nが追加され、音符画像P1aの伸縮が指示された場合には、音符画像P1aの伸縮に応じて音符情報Nの発音期間X2が変更される。また、設定されているブレス音条件が編集後の音符情報Nに対して適用される。具体的には、編集後の音符情報Nが示す音符の合成音に対するブレス音の付加の有無がブレス音条件により判断され、当該音符情報Nの直前におけるブレス情報Bが当該判断に応じて自動的に編集(例えば追加や削除)される。例えば、直前にブレス情報Bが存在する音符情報Nが削除された場合には、当該ブレス情報Bも削除される。
 音声合成部305は、記憶装置30に記憶された音声素片群とブレス音データと合成データDとを利用した音声合成処理で音声信号Vを生成する。第1に、音声合成部305は、合成データDの各音符情報Nが指定する発音文字X1に対応した音声素片を音声素片群から順次に選択し、当該音符情報Nが指定する発音期間X2に応じて各音声素片を伸縮したうえで相互に連結することで音声信号を生成する。第2に、音声合成部305は、ブレスデータが示すブレス音を当該音声信号に合成することで歌唱音声の音声信号Vを生成する。音声合成部305が生成した音声信号Vが放音装置60に供給されることで、合成楽曲の歌唱音声が再生される。
 図4は、処理画像Gを表示する処理のフローチャートである。例えば処理画像Gの表示を契機として図4の処理が開始される。図4の処理は、例えば、処理画像Gを表示している間、所定の期間毎に繰り返し実行される。図4の処理が開始されると、合成データ生成部303は、利用者からの合成データDに対する編集指示の有無を判断する(Sa1)。合成データDの編集指示があった場合(Sa1:YES)、合成データ生成部303は、利用者からの指示に応じて合成データDのうち音符情報Nを編集する(Sa2)。合成データ生成部303は、合成データDのうちブレス情報Bを音符情報Nの編集内容に応じて編集する(Sa3)。ステップSa2およびステップSa3の処理により、合成データDが編集される。なお、音符情報Nの編集によりブレス音の有無が変化しない場合、ステップSa3の処理は省略され得る。表示制御部301は、編集後の合成データDに応じて処理画像Gを表示する(Sa4)。他方、合成データDの編集指示がない場合(Sa1:NO)、ステップSa1からステップSa4の処理は実行されない。
 以上の説明から理解される通り、第1実施形態では、音高軸と時間軸とが設定された領域に音符画像P1aとブレス画像P2aとを配置した処理画像Gが表示装置40に表示される。したがって、例えば、音符画像P1aとブレス画像P2aとが別個の領域に表示される構成と比較して、合成音とブレス音との位置関係を利用者が容易に把握することができる。また、ブレス音の直後の合成音に対応する音符の音高X3に応じた位置にブレス画像P2aが表示される第1実施形態の構成によれば、例えばブレス音の付近に位置する合成音に対応する音符の音高X3とは無関係に当該ブレス音のブレス画像P2aを表示する構成と比較して、合成音とブレス音との位置関係を利用者が容易に把握することができるという効果が顕著である。
<第2実施形態>
 本開示の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 図5は、第2実施形態に係る処理画像Gの模式図である。第2実施形態では、第1実施形態と同様の音符画像P1aと、合成音の波形を表す画像(以下「合成音波形画像」という)P1bとを含む画像を第1画像として例示する。また、ブレス波形を表わす画像(以下「ブレス波形画像」という)P2bを第2画像として例示する。
 第2実施形態の音符画像P1aは、第1実施形態と同様に、音符情報Nに応じた表示長および位置で処理画像G内に配置される。合成音波形画像P1bは、音声合成部305により生成された音声信号Vの波形を表わす画像である。音声信号Vのうち各音符に応じて合成された部分(つまり合成音の区間)の波形の包絡を表す画像が合成音波形画像P1bとして利用される。合成音波形画像P1bが音符画像P1aにスーパーインポーズして配置される。音声信号Vのうちブレス音に対応する部分の波形の包絡の画像がブレス波形画像P2bとして音符画像P1aの直前に配置される。すなわち、ブレス画像P2aが表わす効果音の直後に位置する合成音に対応する音符の音高X3に応じた位置に、当該ブレス画像P2aが配置される。なお、発音文字X1は、例えば第1画像(音符画像P1aおよび合成音波形画像P1b)の周囲に配置される。
 第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、合成音波形画像P1bを第1画像が含むから、合成音の波形を利用者が視覚的に把握できる。また、ブレス波形画像P2bを第2画像が含むから、効果音の波形を利用者が視覚的に把握できる。
<第3実施形態>
 図6は、第3実施形態に係る処理画像Gの模式図である。第3実施形態の第1画像は、第2実施形態と同様の音符画像P1aおよび合成音波形画像P1bとに加えて、合成音の音高X3の時間変化を表す画像(以下「音高画像」という)P1cを含む。第2画像については第2実施形態と同様である。
 音高画像P1cは、音声合成により生成された歌唱音声の音高の変化を表す画像である。歌唱音声のうち各音符に対応する部分(つまり合成音)の時間変化を表す画像が音高画像P1cとして利用される。音符画像P1aおよび合成音波形画像P1bにスーパーインポーズして音高画像P1cが配置される。
 第3実施形態においても、第2実施形態と同様の効果が実現される。第3実施形態では、合成音の音高X3の時間変化を表す音高画像P1cを第1画像が含むから、合成音の音高X3の時間変化を利用者が視覚的に把握できる。
<変形例>
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態における構成は、例えば楽器音を合成する楽音合成により生成した合成音について適用してもよい。楽音合成と、前述の各形態で例示した音声合成とは、音合成として包括的に表現される。楽音合成により合成音を生成する構成によれば、例えばギターの演奏者が指をフレットから移動させた場合に発生するフレット音が、当該合成音に付加される効果音として例示される。
 音声合成における効果音としては、前述の各形態で例示したブレス音の他に、演奏者の口から発音される各種の音(例えば舌打ち、ため息、咳、くしゃみ)が例示される。また、演奏者の身体を利用して発音される各種の音(例えば手拍子、拍手またはフィンガースナップ)も効果音として例示される。例えば、演奏者の足音、または、演奏者の着衣がこすれる音等を効果音としてもよい。
 楽音合成における効果音としては、上述したフレット音の他に、楽器の種類に応じた以下の音が例示される。管楽器においては、例えば、操作子を押す音、または、息を吹き込む音が効果音として例示される。打楽器においては、例えば、スティックに由来した各種の音(例えばスティックを操作する音、または、スティックを落とした際の音、)または、演奏者が演奏に伴い発話する掛け声が効果音として例示される。弦楽器においては、例えば、タッピング音、ピックノイズ、または、リリースノイズが効果音として例示される。
(2)前述の各形態において、第1画像の構成は、以上の例示に限定されない。各音符の第1画像を構成する画像は、例えば、音符画像P1a、合成音波形画像P1bおよび音高画像P1cのうちの少なくともひとつであれば任意である。また、第1画像が、以上に例示にした画像以外の画像を含んでもよい。例えば、各音符情報Nが示す音符そのものを表す図形を第1画像が含んでもよい。以上の説明から理解される通り、利用者が視覚的に音符に関する情報を把握できれば、第1画像の表示態様(模様、色彩または形状等)は任意である。
(3)第1実施形態では、第2画像がブレス画像P2aを含み、第2実施形態および第3実施形態では、第2画像がブレス波形画像P2bを含んだが、第2画像を構成する画像は、以上の例示に限定されない。例えば、第2画像がブレス画像P2aとブレス波形画像P2bとの双方を含んでもよい。また、第2画像が以上に例示した画像以外の画像を含んでもよい。第2画像の表示態様は、合成楽曲内においてブレス音が挿入される位置を利用者が視覚的に把握できれば任意である。
(4)前述の各形態では、ブレス画像P2aが表わす効果音の直後の合成音に対応する音符の音高X3に対応する位置に、当該ブレス画像P2aを配置したが、ブレス画像P2aを配置する位置は以上の例示に限定されない。図7に例示される通り、ブレス画像P2aに対応するブレス音の直前の合成音に対応する音符の音高X3に応じた位置に当該ブレス画像P2aを配置してもよい。具体的には、ブレス情報Bの直前の音符情報Nに応じてブレス画像P2aが処理画像G内に配置される。音高軸の方向におけるブレス画像P2aの位置は、ブレス情報Bの直前の音符情報Nの音高X3に設定される。時間軸の方向におけるブレス画像P2aの位置は、例えばブレス画像P2aの始点が、ブレス情報Bの直前の音符情報Nの発音期間X2の末尾(終了時刻)に一致するように設定される。以上の構成によれば、例えばブレス音の付近に位置する合成音の音高X3とは無関係に当該効果音のブレス画像P2aを表示する構成と比較して、合成音とブレス音との位置関係を利用者が容易に把握することができるという効果が顕著である。
(5)前述の各形態に例示したブレス情報Bが、ブレス音に関する各種の情報を含んでもよい。例えば、ブレス情報Bがブレス音の発音時刻を指定してもよい。ブレス音の発音時刻は、例えば利用者からの指示に応じて任意に設定される。以上の構成では、処理画像G内に配置されるブレス画像P2aの時間軸上の位置は、ブレス情報Bが示す発音時刻に応じて調整される。また、処理画像Gの音高軸上の配置に利用される音高をブレス情報Bが指定してもよい。例えば、ブレス情報Bが指定する音高は、ブレス情報Bの直後の音符情報Nが指定する音高X3に一致するように設定してもよい。以上の構成では、ブレス情報Bが指定する音高に応じて、ブレス画像P2aが処理画像G内に配置される。したがって、ブレス画像P2aが表わす効果音の直後の合成音に対応する音符の音高X3に応じた位置に、当該ブレス画像P2aが配置される。以上の通り、音符情報Nとブレス情報Bとの間で時間的な関係が規定されれば、合成データDにおいて、音符情報Nとブレス情報Bとを混在させる必要はない。つまり、音符情報Nとブレス情報Bとは、別々に記憶されていてもよい。
(6)前述の各形態において、利用者からの第2画像に対する編集の指示に応じて、ブレス音を変化させてもよい。利用者が時間軸上において第2画像を伸縮する指示を利用者がした場合には、当該指示に応じてブレス音の継続長を変化させる。具体的には、ブレス情報Bが指定する発音時刻が当該指示に応じて編集される。
 また、ブレス音の挿入や削除を利用者が指示してもよい。具体的には、利用者は、処理画像G内において新規の第2画像の追加、または、既存の第2画像の削除を指示する。当該指示に応じて合成データDの編集が指示される。
(7)前述の各形態では、1個のブレス音データを記憶装置30に記憶する構成を例示したが、相異なるブレス波形をそれぞれが表す複数のブレス音データを記憶装置30に記憶してもよい。例えば、性別または発声者を相違させた複数のブレス音データが記憶装置30に記憶される。利用者は、複数のブレス音データのうち所望のブレス音データを選択することも可能である。ブレス波形画像P2bを表示する構成(第2実施形態および第3実施形態)では、利用者が選択したブレス音データが表すブレス波形画像P2bが処理画像Gに配置される。
(8)前述の各形態において、利用者からの指示に応じて、第2画像の表示の態様を変化させてもよい。例えば、ブレス音の強度を変更する指示が利用者からあった場合には、当該指示に応じて第2画像の音高軸方向の幅を変化させる。ブレス音の強度を下げる指示に対しては、第2画像の音高軸方向の幅を小さくする。また、楽曲内にブレス音が挿入される頻度を変更する指示が利用者からあった場合には、当該指示に応じて処理画像G内に配置される第2画像の個数を増減させる。
(9)前述の各形態では、ブレス音の付加の有無をブレス音条件として例示したが、これに加えて、ブレス音の強度および時間長などもブレス音条件として設定してもよい。以上の構成によれば、音符情報Nの系列に最適なブレス音を自動的に選択して付加することができる。
(10)前述の各形態では、時間軸方向において第2画像が第1画像に連結するように処理画像G内に配置したが、時間軸方向において第2画像を第1画像から離間させて処理画像G内に配置してもよい。
(11)前述の各形態で例示した表示制御部301を具備する装置は、表示制御装置として機能する。表示制御装置が、音声合成部305および合成データ生成部303を具備するか否かは任意である。すなわち、音声合成装置100は、表示制御装置の一例である。
(12)前述の各形態に係る表示制御装置の機能は、各形態での例示の通り、制御装置20とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
<付記>
 以上に例示した形態から、例えば以下の構成が把握される。
 本開示の一つの態様(第1態様)に係る表示制御方法は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる。以上の態様では、音高軸と時間軸とが設定された領域に、合成音に対応する音符を表わす第1画像と、効果音を表す第2画像とを配置した処理画像が表示装置に表示されるから、例えば、第1画像と第2画像とが別個の領域に表示される構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができる。
 第1態様の一例(第2態様)では、前記第2画像を、当該第2画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第2画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第2画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。
 第1態様の一例(第3態様)では、前記第2画像を、当該第2画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第2画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第2画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。
 第1態様から第3態様の何れかの一例(第4態様)では、前記第1画像は、前記時間軸上の長さが音符の継続長に応じて設定された音符画像を含む。以上の態様では、時間軸上の長さが音符の継続長に応じて設定された音符画像を第1画像が含むから、合成音の継続長を利用者が視覚的に把握できる。
 第4態様の一例(第5態様)では、前記第1画像は、前記合成音の波形を表す波形画像を含む。以上の態様では、合成音の波形を表す波形画像を第1画像が含むから、合成音の波形を利用者が視覚的に把握できる。
 第4態様または第5態様の一例(第6態様)では、前記第1画像は、前記合成音の音高の時間変化を表す音高画像を含む。以上の態様では、合成音の音高の時間変化を表す音高画像を第1画像が含むから、合成音の音高の時間変化を利用者が視覚的に把握できる。
 第1態様から第6態様の何れかの一例(第7態様)では、前記第2画像は、前記効果音の波形を表わす波形画像を含む。以上の態様では、効果音の波形を表わす波形画像を第2画像が含むから、合成音と効果音の波形を利用者が視覚的に把握できる。
 本開示の一つの態様(第8態様)に係る表示制御装置は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる表示制御部を具備する。以上の態様では、音高軸と時間軸とが設定された領域に、合成音に対応する音符を表わす第1画像と、効果音を表す第2画像とを配置した処理画像が表示装置に表示されるから、例えば、第1画像と第2画像とが別個の領域に表示される構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができる。
 第8態様の一例(第9態様)では、前記表示制御部は、前記第2画像を、当該第2画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第2画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第2画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。
 第8態様の一例(第10態様)では、前記表示制御部は、前記第2画像を、当該第2画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第2画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第2画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。
 第8態様から第10態様の何れかの一例(第11態様)では、前記第1画像は、時間軸上の長さが音符の継続長に応じて設定された音符画像を含む。以上の態様では、時間軸上の長さが音符の継続長に応じて設定された音符画像を第1画像が含むから、合成音の継続長を利用者が視覚的に把握できる。
 第11態様の一例(第12態様)では、前記第1画像は、合成音の波形を表す波形画像を含む。以上の態様では、合成音の波形を表す波形画像を第1画像が含むから、合成音の波形を利用者が視覚的に把握できる。
 第11態様または第12態様の一例(第13態様)では、前記第1画像は、合成音の音高の時間変化を表す音高画像を含む。以上の態様では、合成音の音高の時間変化を表す音高画像を第1画像が含むから、合成音の音高の時間変化を利用者が視覚的に把握できる。
 第8態様から第13態様の何れかの一例(第14態様)では、前記第2画像は、前記効果音の波形を表わす波形画像を含む。以上の態様では、効果音の波形を表わす波形画像を第2画像が含むから、効果音の波形を利用者が視覚的に把握できる。
 本開示の一つの態様(第15態様)に係るプログラムは、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる表示制御部としてコンピュータを機能させる。以上の態様では、音高軸と時間軸とが設定された領域に、合成音に対応する音符を表わす第1画像と、効果音を表す第2画像とを配置した処理画像が表示装置に表示されるから、例えば、第1画像と第2画像とが別個の領域に表示される構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができる。
100…音声合成装置、20…制御装置、30…記憶装置、301…表示制御部、303…合成データ生成部、305…音声合成部、40…表示装置、50…入力装置、60…放音装置。

Claims (15)

  1.  音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる
     表示制御方法。
  2.  前記第2画像を、当該第2画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する
     請求項1の表示制御方法。
  3.  前記第2画像を、当該第2画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する
     請求項1の表示制御方法。
  4.  前記第1画像は、前記時間軸上の長さが音符の継続長に応じて設定された音符画像を含む
     請求項1から請求項3の何れかの表示制御方法。
  5.  前記第1画像は、前記合成音の波形を表す波形画像を含む
     請求項4の表示制御方法。
  6.  前記第1画像は、前記合成音の音高の時間変化を表す音高画像を含む
     請求項4または請求項5の表示制御方法。
  7.  前記第2画像は、前記効果音の波形を表わす波形画像を含む
     請求項1から請求項6の何れかの表示制御方法。
  8.  音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる表示制御部
     を具備する表示制御装置。
  9.  前記表示制御部は、前記第2画像を、当該第2画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する
     請求項8の表示制御装置。
  10.  前記表示制御部は、前記第2画像を、当該第2画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する
     請求項8の表示制御装置。
  11.  前記第1画像は、時間軸上の長さが音符の継続長に応じて設定された音符画像を含む
     請求項8から請求項10の何れかの表示制御装置。
  12.  前記第1画像は、合成音の波形を表す波形画像を含む
     請求項11の表示制御装置。
  13.  前記第1画像は、合成音の音高の時間変化を表す音高画像を含む
     請求項11または請求項12の表示制御装置。
  14.  前記第2画像は、前記効果音の波形を表わす波形画像を含む
     請求項8から請求項13の何れかの表示制御装置。
  15.  音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第1画像と、前記効果音を表す第2画像とを配置した処理画像を、表示装置に表示させる表示制御部
     としてコンピュータを機能させるプログラム。
PCT/JP2019/022750 2018-06-15 2019-06-07 表示制御方法、表示制御装置およびプログラム WO2019240042A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020525529A JP6992894B2 (ja) 2018-06-15 2019-06-07 表示制御方法、表示制御装置およびプログラム
US17/119,471 US11893304B2 (en) 2018-06-15 2020-12-11 Display control method, display control device, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018114444 2018-06-15
JP2018-114444 2018-06-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/119,471 Continuation US11893304B2 (en) 2018-06-15 2020-12-11 Display control method, display control device, and program

Publications (1)

Publication Number Publication Date
WO2019240042A1 true WO2019240042A1 (ja) 2019-12-19

Family

ID=68841935

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/022750 WO2019240042A1 (ja) 2018-06-15 2019-06-07 表示制御方法、表示制御装置およびプログラム

Country Status (3)

Country Link
US (1) US11893304B2 (ja)
JP (1) JP6992894B2 (ja)
WO (1) WO2019240042A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019240042A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190595A (ja) * 2012-03-14 2013-09-26 Yamaha Corp 歌唱合成用シーケンスデータ編集装置
JP2014098800A (ja) * 2012-11-14 2014-05-29 Yamaha Corp 音声合成装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3744216B2 (ja) * 1998-08-07 2006-02-08 ヤマハ株式会社 波形形成装置及び方法
JP3533974B2 (ja) * 1998-11-25 2004-06-07 ヤマハ株式会社 曲データ作成装置および曲データ作成プログラムを記録したコンピュータで読み取り可能な記録媒体
JP3632523B2 (ja) * 1999-09-24 2005-03-23 ヤマハ株式会社 演奏データ編集装置、方法及び記録媒体
JP3632522B2 (ja) * 1999-09-24 2005-03-23 ヤマハ株式会社 演奏データ編集装置、方法及び記録媒体
JP3975772B2 (ja) * 2002-02-19 2007-09-12 ヤマハ株式会社 波形生成装置及び方法
JP4063048B2 (ja) * 2002-10-30 2008-03-19 ヤマハ株式会社 音声データと演奏データの同期再生を行うための装置および方法
JP4274152B2 (ja) * 2005-05-30 2009-06-03 ヤマハ株式会社 楽音合成装置
FR2958068B1 (fr) * 2010-03-24 2012-05-25 Etienne Edmond Jacques Thuillier Procede et dispositif de synthese d'un signal audio selon un phrase melodique imparti sur un organe vibrant
JP5783206B2 (ja) * 2012-08-14 2015-09-24 ヤマハ株式会社 音楽情報表示制御装置およびプログラム
JP6214947B2 (ja) 2013-07-12 2017-10-18 フタバ産業株式会社 インパネリインフォースメント
JP6070652B2 (ja) * 2014-07-28 2017-02-01 ヤマハ株式会社 リファレンス表示装置およびプログラム
JP6988343B2 (ja) * 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
WO2019240042A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190595A (ja) * 2012-03-14 2013-09-26 Yamaha Corp 歌唱合成用シーケンスデータ編集装置
JP2014098800A (ja) * 2012-11-14 2014-05-29 Yamaha Corp 音声合成装置

Also Published As

Publication number Publication date
US20210096808A1 (en) 2021-04-01
US11893304B2 (en) 2024-02-06
JP6992894B2 (ja) 2022-01-13
JPWO2019240042A1 (ja) 2021-07-08

Similar Documents

Publication Publication Date Title
JP6070010B2 (ja) 音楽データ表示装置および音楽データ表示方法
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP2013137520A (ja) 音楽データ編集装置
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
JP2019066649A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
US7094960B2 (en) Musical score display apparatus
JP2016090916A (ja) 音声合成装置
JP2011095397A (ja) 音声合成装置
WO2019240042A1 (ja) 表示制御方法、表示制御装置およびプログラム
JP6136202B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP5228315B2 (ja) 自動伴奏生成装置および自動伴奏生成方法を実現するためのプログラム
JP3116937B2 (ja) カラオケ装置
JP5387642B2 (ja) 歌詞テロップ表示装置及びプログラム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP4501417B2 (ja) 楽譜表示装置および楽譜表示方法を実現するためのプログラム
JP2012113271A (ja) 音楽情報表示装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2002221978A (ja) ボーカルデータ生成装置、ボーカルデータ生成方法および歌唱音合成装置
JP7127682B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP5953743B2 (ja) 音声合成装置及びプログラム
US20230244646A1 (en) Information processing method and information processing system
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP6427447B2 (ja) カラオケ装置
CN117877459A (zh) 记录介质、音响处理方法以及音响处理系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19819853

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020525529

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19819853

Country of ref document: EP

Kind code of ref document: A1