WO2016152708A1 - 音制御装置、音制御方法、および音制御プログラム - Google Patents

音制御装置、音制御方法、および音制御プログラム Download PDF

Info

Publication number
WO2016152708A1
WO2016152708A1 PCT/JP2016/058466 JP2016058466W WO2016152708A1 WO 2016152708 A1 WO2016152708 A1 WO 2016152708A1 JP 2016058466 W JP2016058466 W JP 2016058466W WO 2016152708 A1 WO2016152708 A1 WO 2016152708A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
syllable
key
output
information
Prior art date
Application number
PCT/JP2016/058466
Other languages
English (en)
French (fr)
Inventor
桂三 濱野
良朋 太田
一輝 柏瀬
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2016152708A1 publication Critical patent/WO2016152708A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Definitions

  • the present invention relates to a sound control device capable of outputting a predetermined sound, a sound control method, and a sound control program.
  • Patent Document 1 discloses the following technology. That is, the musical performance data generator generates a MIDI (musical instrument digital interface) message which is musical performance data according to the user's performance operation.
  • the song synthesizer In response to the MIDI data from the performance data generator, the song synthesizer sequentially uses the stored lyrics data while changing the singing position, and the singing voice having the pitch and the sound generation period determined by the MIDI message is used. Synthesize in real time.
  • the song synthesizing apparatus pronounces the lyrics created by the text editor at the pitch indicated by the note number, and advances the lyrics to the next character each time the note-on is made.
  • Patent Document 2 discloses an automatic singing device.
  • This automatic singing device inputs lyric data in the form of text data from the character text input operation unit, converts it into lyric sequence data, and stores it in the data memory.
  • the data memory also stores melody sequence data corresponding to the notes.
  • the lyric sequence data is also read out in response to the readout of the melody sequence data. At this time, if a flag indicating that it is a syllable to be pronounced simultaneously for a single note is described in the lyric sequence data, a plurality of lyric sequence data is read out for the same melody sequence data.
  • consonants and vowels are respectively pronounced from the sound source belonging to the unvoiced component pronunciation group of the sound source unit and the sound source belonging to the voiced speech component pronunciation group, these are synthesized and voiced .
  • An example of the object of the present invention is to provide a sound generation device, a sound generation method and a sound generation program capable of outputting a plurality of sounds in one continuous operation.
  • the sound control apparatus starts outputting the second sound in response to the reception unit receiving the stop instruction indicating the stop of the output of the first sound and the reception of the stop instruction. And a control unit for outputting the second sound after outputting the first sound, when it is determined that the output of the second sound is to be started.
  • the sound control method receives a stop instruction indicating stop of the output of the first sound, and responds to the reception of the stop instruction whether or not to start the output of the second sound. And, if it is determined to start outputting the second sound, outputting the second sound after outputting the first sound.
  • the sound control program receives a stop instruction indicating stop of the output of the first sound in the computer, and starts outputting the second sound in response to the reception of the stop instruction. If it is determined to start outputting the second sound, the second sound is output after the first sound is output.
  • a sound can be generated by an instruction to start sound generation, and a new sound can be generated by an instruction to stop sound generation. For this reason, it becomes possible to produce a plurality of sounds by one continuous operation at the time of real time performance.
  • FIG. 6 is a timing chart showing the operation of the sound generation device according to the first embodiment of the present invention. It is a flowchart of the key-off process which the sound production apparatus concerning 1st Embodiment of this invention performs.
  • FIG. 7 is a view for explaining another operation example of key-off processing performed by the sound generation device according to the first embodiment of the present invention.
  • FIG. 7 is a view for explaining another operation example of key-off processing performed by the sound generation device according to the first embodiment of the present invention.
  • FIG. 7 is a view for explaining another operation example of key-off processing performed by the sound generation device according to the first embodiment of the present invention.
  • FIG. 1 shows a functional block diagram showing a hardware configuration of a sound generation device according to an embodiment of the present invention.
  • the sound producing device 1 according to the embodiment of the present invention shown in FIG. 1 includes a central processing unit (CPU) 10, a read only memory (ROM) 11, a random access memory (RAM) 12, a sound source 13, and a sound system 14. , A display unit (display) 15, a performance operator 16, a setting operator 17, a data memory 18, and a bus 19.
  • the sound control device may correspond to the sound producing device 1 (100, 200).
  • the reception unit, the determination unit, the control unit, the storage unit, the acquisition unit, and the operation element of the sound control device may correspond to at least one of these configurations of the sound generation device 1.
  • the reception unit may correspond to at least one of the CPU 10 and the performance operator 16.
  • the determination unit may correspond to the CPU 10.
  • the control unit may correspond to at least one of the CPU 10, the sound source 13, and the sound system 14.
  • the storage unit may correspond to the data memory 18.
  • the operator may correspond to the performance operator 16.
  • the CPU 10 is a central processing unit that controls the entire sound generating apparatus 1 according to the embodiment of the present invention.
  • a ROM (Read Only Memory) 11 is a non-volatile memory in which a control program and various data are stored.
  • the RAM 12 is a volatile memory used as a work area of the CPU 10 and various buffers.
  • the data memory 18 stores syllable information including text data obtained by dividing the lyrics into syllables, and a phonological database in which speech segment data of the singing voice is stored.
  • the display unit 15 is a display unit including a liquid crystal display or the like on which an operation state, various setting screens, a message for the user, and the like are displayed.
  • the performance operation element 16 is a performance operation element including a keyboard (see a portion (c) in FIG. 7) having a plurality of keys corresponding to different pitches.
  • the performance control 16 generates performance information such as key-on, key-off, pitch and velocity. In the following, the performance operator may be referred to as a key.
  • the performance information may be performance information of a MIDI message.
  • the setting operator 17 is various setting operators such as an operation knob and an operation button for setting the sound producing device 1.
  • the sound source 13 has a plurality of tone generation channels. Under the control of the CPU 10, one sound generation channel is assigned to the sound source 13 in accordance with real-time performance using the user's performance operation element 16.
  • the sound source 13 reads voice segment data corresponding to a performance from the data memory 18 in the assigned tone generation channel to generate singing voice data.
  • the sound system 14 converts the singing sound data generated by the sound source 13 into an analog signal by a digital / analog converter, amplifies the singing sound converted into an analog signal, and outputs the amplified sound to a speaker or the like.
  • the bus 19 is a bus for transferring data between the units in the sound producing device 1.
  • FIG. 2A is an explanatory view of the sound production acceptance process in the key-on process.
  • FIG. 3B shows an explanatory diagram of syllable information acquisition processing.
  • FIG. 3C shows an explanatory diagram of speech segment data selection processing.
  • FIG. 4 shows a timing chart showing the operation of the sound producing device 1 of the first embodiment.
  • FIG. 5 shows a flowchart of key-off processing that is performed when the performance operation key 16 is turned off in the sound producing device 1 of the first embodiment.
  • the performance operation element 16 is operated to perform a performance.
  • the performance operator 16 may be a keyboard or the like.
  • the CPU 10 detects that the performance operator 16 is keyed on with the progress of the performance, the key-on process shown in FIG. 2A is started.
  • the CPU 10 executes the tone generation instruction acceptance process of step S10 and the syllable information acquisition process of step S11 in the key-on process.
  • the sound source 13 executes the speech segment data selection process of step S12 and the sound generation process of step S13 under the control of the CPU 10.
  • step S10 of the key-on process a sound generation instruction (an example of a start instruction) based on key-on of the operated performance operator 16 is received.
  • the CPU 10 receives performance information such as key-on timing, pitch information of the operated performance operator 16 and velocity.
  • performance information such as key-on timing, pitch information of the operated performance operator 16 and velocity.
  • the CPU 10 receives pitch information indicating the pitch of E5 and velocity information according to the key speed.
  • FIG. 2B is a flowchart showing details of the syllable information acquisition process.
  • the syllable information acquisition process is executed by the CPU 10.
  • the CPU 10 acquires the syllable at the cursor position in step S20.
  • specific lyrics are designated prior to the user's performance.
  • the specific lyrics correspond to, for example, the score shown in FIG. 3A, and are the lyrics stored in the data memory 18.
  • the cursor is placed at the beginning syllable of the text data. This text data is data obtained by dividing designated lyrics for each syllable.
  • the text data 30 is text data corresponding to the lyrics designated corresponding to the score shown in FIG. 3A.
  • the text data 30 has the syllables c1 to c42 shown in FIG. 3B, that is, "ha (ha)”, “ru (ru)”, “yo (yo)”, “ko (ko)”, “i ( i) is text data consisting of five syllables.
  • ha (ha)”, “ru (ru)”, “yo (yo)”, “ko (ko)” and “i (i)” each indicate a Japanese hiragana character and An example of In this case, the syllables “ha (ha)”, “ru (ru)” and “yo (yo)” of c1 to c3 are independent of each other. The syllables "ko" and "i” of c41 and c42 are grouped. The information indicating whether the information is grouped is grouping information (an example of setting information) 31. Grouping information 31 is embedded in each syllable or is associated with each syllable.
  • the symbol "x" indicates that the information is not grouped, and the symbol “o” indicates that the information is grouped.
  • the grouping information 31 may be stored in the data memory 18. As shown in FIG. 3B, when the first key-on n1 sounding instruction is received, the CPU 10 reads from the data memory 18 "ha” which is the first syllable c1 of the designated lyrics. At this time, the CPU 10 also reads out from the data memory 18 the grouping information 31 embedded in or associated with “ha”. Next, the CPU 10 determines whether the syllables acquired in step S21 are grouped, based on the acquired grouping information 31 of syllables.
  • step S20 If the syllable acquired in step S20 is c1 "(ha)", it is determined that the grouping information 31 is "x" and it is determined that the syllable is not grouped, and the process proceeds to step S25.
  • step S25 the CPU 10 advances the cursor to the next syllable of the text data 30, and places the cursor on "ru" of the second syllable c2.
  • the process of step S25 ends, the syllable information acquisition process ends, and the process returns to step S12 of the key-on process.
  • FIG. 3C is a diagram for explaining the speech segment data selection process of step S12.
  • the voice segment data selection process of step S12 is a process performed by the sound source 13 under the control of the CPU 10.
  • the sound source 13 selects speech segment data from the phonology database 32 to cause the acquired syllable to be pronounced.
  • "phoneme chain data 32a" and "stationary partial data 32b" are stored in the phoneme database 32.
  • the phoneme chain data 32a is data of phoneme fragments at the time of pronunciation change corresponding to "silence (#) to consonant", “consonant to vowel", “vowel to consonant or vowel (of the next syllable)", etc. is there.
  • the tone generation process of step S13 the sound production of the voice segment data of ““ # -h ” ⁇ “ ha ” ⁇ “ a ”is sequentially sound source It is done by 13.
  • the pronunciation of "ha (ha)" of the syllable c1 is performed.
  • the singing voice of "ha” is pronounced at the volume according to the velocity information at the pitch of E5 received at the time of acceptance of the tone-on instruction of the key-on n1.
  • the envelope ENV1 of the volume according to the velocity information of the key-on n1 is started, and the voice segment data of ““ # -h ” ⁇ “ ha ” ⁇ “ a ”” is used for the E5 pitch and envelope ENV1.
  • the sound is produced at the volume (step S13). Thereby, the singing sound of "ha” is pronounced.
  • the envelope ENV1 is a continuous sound envelope in which sustain continues until key-on n1 key-off.
  • the voice segment data of "a” is repeatedly reproduced until the key of key on n1 is keyed off at time t2.
  • the key-off an example of the stop instruction
  • the key-off process shown in FIG. 5 is started.
  • the CPU 10 executes the processing of steps S30 and S33 of the key-off processing.
  • the sound source 13 executes the processing of step S31 and step S32 under the control of the CPU 10.
  • step S30 it is determined in step S30 whether the key-off sound generation flag is on.
  • the key-off sound generation flag is set when acquired syllables are grouped. In the syllable information acquisition process shown in FIG. 2A, the first syllable c1 is not grouped. Therefore, the CPU 10 determines that the key-off sound generation flag is not set (No in step S30), and the process proceeds to step S34.
  • step S34 under the control of the CPU 10, the sound source 13 performs a mute process, and as a result, the sound generation of the song sound of "ha” is stopped. That is, in the release curve of the envelope ENV1, the singing sound of "ha” is muted.
  • step S10 When the performance operator 16 is operated with the progress of the real-time performance and the second key-on n2 is detected, the key-on process described above is started again, and the key-on process described above is performed.
  • the sound generation instruction acceptance process of step S10 in the second key-on process will be described.
  • the CPU 10 receives the timing of the key-on n2, pitch information indicating the pitch of E5 and velocity information according to the key speed.
  • the CPU 10 reads from the data memory 18 "ru" which is the second syllable c2 on which the cursor of the designated lyrics is placed.
  • Grouping information 31 of the acquired syllable "ru” is "x". For this reason, the CPU 10 determines that they are not grouped, and advances the cursor to "Yo" of c3 of the third syllable.
  • the speech segment data selection process of step S12 the sound source 13 generates speech corresponding to speech segment data "# -r” and "consonant r ⁇ vowel u” corresponding to "silence ⁇ consonant r” from the phoneme chain data 32a.
  • the segment data “ru” is selected, and the speech segment data “u” corresponding to “vowel u” is selected from the steady part data 32 b.
  • step S13 sound generation of the voice segment data of "# -r"-> "ru”-> “u” is sequentially performed in the sound source 13 under the control of the CPU 10. As a result, the syllable of "ru” of c2 is sounded, and the key-on process ends.
  • step S10 in the third key-on process will be described.
  • the CPU 10 receives the timing of the key on n3, pitch information indicating the pitch of D5, and velocity information according to the key speed.
  • the CPU 10 reads from the data memory 18 "yo" which is the third syllable c3 on which the cursor of the designated lyrics is placed.
  • the grouping information 31 of the acquired syllable "yo" is "x". For this reason, the CPU 10 determines that they are not grouped, and advances the cursor to "ko" of c41 of the fourth syllable.
  • the speech segment data selection process of step S12 the sound source 13 corresponds to the speech segment data "u-y” and "consonant y ⁇ vowel o" corresponding to "vowel u ⁇ consonant y" from the phoneme chain data 32a.
  • the speech segment data "y-o” is selected, and the speech segment data “o” corresponding to "vowel o” is selected from the steady part data 32b.
  • the third key-on n3 is a legato and is smoothly connected from “ru” to "yo” to make it sound.
  • sound generation of the voice segment data of "" u-y " ⁇ " y-o " ⁇ ” o "” is sequentially performed by the sound source 13 under the control of the CPU 10.
  • the syllables of "y (yo)" of c3 connected smoothly from "ru” of c2 are sounded, and the key-on process ends.
  • FIG. 4 shows the operation of the second and third key-on processing.
  • the CPU 10 receives a second key-on n2 tone generation instruction at time t3 (step S10).
  • the CPU 10 acquires the next syllable c2 and determines that the syllable c2 is not grouped with another syllable (step S11).
  • the sound source 13 selects speech segment data "# -r", "ru” and "u” for producing the syllable c2 (step S12).
  • the sound source 13 starts an envelope ENV2 of a volume according to the velocity information of the key-on n2, and the voice segment data of “# -r” ⁇ “ru” ⁇ “u” is the E5 pitch and envelope ENV2
  • the sound is produced at the volume of (step S13). Thereby, the song sound of "ru” is uttered.
  • the envelope ENV2 is similar to the envelope ENV1.
  • the speech segment data of "u” is repeatedly reproduced.
  • the third key-on n3 sounding instruction is accepted (step S10).
  • the CPU 10 acquires the next syllable c3 and determines that the syllable c3 is not grouped with another syllable (step S11).
  • the CPU 10 starts key off processing shown in FIG.
  • step S30 of the key-off process the second syllable c2 "ru" is not grouped. Therefore, the CPU 10 determines that the key-off sound generation flag is not set (No in step S30), and the process proceeds to step S34.
  • step S34 the pronunciation of the song sound of "ru" is stopped.
  • the key off process ends. This is due to the following reasons.
  • the sound source 13 selects speech segment data "u-y”, “y-o” and “o” for producing “yo (yo)” which is the syllable c3 (step S12), and from time t4 , "U-y"->"y-o->” o "” are produced at the pitch D5 and the volume of the sustain of the envelope ENV2 (step S13).
  • the singing sound is smoothly connected and pronounced from "ru” to "yo”. Note that even if the key-on n2 key is keyed off at time t5, no processing is performed because the generation of the singing sound based on the key-on n2 has already been stopped.
  • step S30 of the key-off process the CPU 10 determines that the key-off sound generation flag is not set (No in step S30), and the process proceeds to step S34.
  • step S34 the sound source 13 performs a mute process, and the sounding of the singing voice of "yo” is stopped. That is, the singing voice of "yo" is muted by the release curve of the envelope ENV2.
  • step S10 in the fourth key-on process will be described.
  • the CPU 10 when accepting the sound generation instruction based on the fourth key-on n4 of the operated performance operator 16, the CPU 10 performs the key-on n4 timing, pitch information indicating the pitch of E5, and velocity information according to the key speed.
  • step S11 the CPU 10 reads from the data memory 18 "ko (ko)" which is the fourth syllable c41 on which the cursor of the designated lyrics is placed (step S20). Grouping information 31 of the acquired syllable "ko (ko)" is " ⁇ ". Therefore, the CPU 10 determines that the syllable c41 is grouped with another syllable (step S21), and proceeds to step S22. In step S22, syllables (syllables in the group) belonging to the same group are acquired.
  • the CPU 10 since “ko” and “i” are grouped, the CPU 10 stores the syllable c 42 “i” in the same group as the syllable c 41 into the data memory 18. Read from Next, the CPU 10 sets the key-off sound generation flag in step S23, and prepares to sound the next syllable "i" belonging to the same group when the key is turned off. In the next step S24, the CPU 10 causes the text data 30 to advance the cursor to the next syllable beyond the group to which "ko" and "i" belong. However, in the case of the illustrated example, this process is skipped since there is no next syllable. When the process of step S24 ends, the syllable information acquisition process ends, and the process returns to step S12 of the key-on process.
  • the sound source 13 selects speech segment data corresponding to syllables "ko" and "i" belonging to the same group. That is, the sound source 13 includes, as speech segment data corresponding to the syllable "ko (ko)", speech segment data "# -k” and "consonant k ⁇ " corresponding to "silence ⁇ consonant k” from the phoneme chain data 32a. The voice segment data "ko” corresponding to the vowel o is selected, and the voice segment data "o” corresponding to the "vowel o” is selected from the steady part data 32b.
  • the sound source 13 selects speech segment data “o-i” corresponding to “vowel o ⁇ vowel i” from the phoneme chain data 32a as speech segment data corresponding to the syllable “i”. Then, speech segment data "i” corresponding to "vowel sound i” is selected from the steady part data 32b.
  • the sound generation process of step S13 the sound generation of the first syllable is performed among the syllables belonging to the same group. That is, under the control of the CPU 10, the sound source 13 sequentially generates voice segment data of "# -k"-> "k-o"-> "o". As a result, "ko (ko)", which is the syllable c41, is pronounced.
  • the singing voice of "ko (ko)" is sounded at the volume according to the velocity information at the pitch of E5 received at the time of acceptance of the sound generation instruction of the key-on n4.
  • the key-on process also ends.
  • FIG. 4 shows the operation of this key-on process.
  • the CPU 10 receives a tone generation instruction of the fourth key on n4 at time t7 (step S10).
  • the CPU 10 acquires the fourth syllable c41 (and the grouping information 31 embedded in or associated with the syllable c41). Based on the grouping information 31, the CPU 10 determines that the syllable c41 is grouped with another syllable.
  • the CPU 10 acquires the syllable c42 belonging to the same group as the syllable c41 and sets the key-off sound generation flag (step S11).
  • the sound source 13 selects speech segment data “# ⁇ k”, “k ⁇ o”, “o” and speech segment data “o ⁇ i”, “i” that produce syllables c 41 and c 42 ( Step S12). Then, the sound source 13 starts the envelope ENV3 of the volume according to the velocity information of the key-on n4, and the voice segment data of ““ # -k ” ⁇ “ ko ” ⁇ “ o ”” is the pitch of E5 and The sound is produced at the volume of the envelope ENV3 (step S13). Thereby, the singing voice of "ko (ko)" is pronounced.
  • the envelope ENV3 is similar to the envelope ENV1.
  • the voice segment data of "o" is repeatedly reproduced until the key applied to the key on n4 is keyed off at time t8.
  • the CPU 10 detects that the key-on n4 has been keyed off at time t8, the CPU 10 starts key-off processing shown in FIG.
  • step S30 of the key-off process the CPU 10 determines that the key-off sound generation flag is set (Yes in step S30), and the process proceeds to step S31.
  • step S31 the sound generation process of the next syllable belonging to the same group as the syllable generated earlier is performed. That is, in the syllable information acquisition process of step S12 performed earlier, the sound source 13 is the voice of "o-i" to "i" selected as the speech segment data corresponding to the syllable "i".
  • the segment data is produced at the pitch of E5 and the volume of the release curve of envelope ENV3.
  • the singing voice of "i (i)" which is the syllable c42, is produced at the same pitch E5 as "ko (ko)” of c41.
  • a mute process is performed in step S32, and the sounding of the song sound of "i” is stopped. That is, the singing sound of "i” is muted by the release curve of the envelope ENV3.
  • the sound generation of "ko (ko)” is stopped when the sound generation shifts to "i (i)”.
  • the key-off sound generation flag is reset, and the key-off process is ended.
  • the singing voice which is the singing sound according to the user's real time performance comes to be pronounced, and at the same time the user performs an operation to press the key once during the real time performance.
  • a plurality of singing voices can be pronounced (that is, one continuous operation from pressing to releasing a key, and so on). That is, in the sound generation device 1 of the first embodiment, the grouped syllables are a set of syllables to be sounded by the operation of pressing the key once. For example, syllables of grouped c41 and c42 are pronounced by a single operation of pressing a key.
  • step S31 may be omitted in order to immediately sound the syllable corresponding to key-on n5.
  • the syllable of c42 is not pronounced, and immediately after the key-on n5, the next syllable of c42 is pronounced.
  • the pronunciation of "i (i)" of the next syllable c42 belonging to the same group as the previous syllable c41 is pronounced at the timing when the key applied to the key on n4 is keyed off. For this reason, there is a possibility that the pronunciation length of the syllable instructed to be pronounced by the key-off is too short and unclear.
  • 6A to 6C show another operation example of the key-off process which can make the sound generation of the next syllable belonging to the same group sufficiently long. In the example shown in FIG. 6A, in the envelope ENV3 started by the key-on n4 sounding instruction, the attenuation start is delayed from the key-off by a predetermined time td.
  • the sound production length of the next syllable belonging to the same group can be made sufficiently long.
  • the sounding length of the next syllable belonging to the same group can be made sufficiently long by operating the sustain pedal or the like. That is, in the example illustrated in FIG. 6A, the sound source 13 causes the sound of the syllable c41 to be output at a constant volume in the second half of the envelope ENV3. Next, the sound source 13 starts the output of the sound of the syllable c42 continuously to the stop of the output of the sound of the syllable c41.
  • the volume of the sound of the syllable c42 is the same as the volume immediately before the mute of the syllable c41.
  • the sound source 13 starts to decrease the volume of the sound of the syllable c 42 after maintaining the volume for a predetermined time td.
  • the envelope ENV3 is slowly attenuated. That is, by generating a release curve R3 in which the release curve is indicated by a one-dot chain line and having a gentle slope, the sound production length of the next syllable belonging to the same group can be made sufficiently long. That is, in the example shown in FIG.
  • the sound source 13 attenuates at a slower rate than the decay rate of the sound volume of the syllable c41 when the sound of the syllable c42 is not output (when the syllable c41 is not grouped with other syllables).
  • the sound of the syllable c42 is output while reducing the volume of the sound of the syllable c42 by the speed.
  • the key-off is regarded as a new note-on instruction, and the next syllable is pronounced with a new note of the same pitch. That is, the envelope ENV 10 is started at the key-off time t13 to sound the next syllable belonging to the same group.
  • the sound source 13 starts the output of the sound of the syllable c42 simultaneously with the start of the reduction of the volume of the sound of the syllable c41. At this time, the sound source 13 outputs the sound of the syllable c42 while increasing the volume of the sound of the syllable c42.
  • the lyrics are in Japanese is illustrated. In Japanese, almost one letter is one syllable. On the other hand, in other languages, one letter often does not become one syllable.
  • the sound producing apparatus produces a predetermined sound without lyrics such as humming sound, singing sound such as scat or chorus, or sound effect such as ordinary musical instrument sound or bird's song or telephone bell.
  • the sound generation device of the second embodiment is referred to as a sound generation device 100.
  • the configuration of the sound generation device 100 of the second embodiment is substantially the same as that of the sound generation device 1 of the first embodiment.
  • the second embodiment is different from the first embodiment in the configuration of the sound source 13. That is, the sound source 13 of the second embodiment has the tone color of the predetermined sound without the above-mentioned lyrics, and can emit the predetermined sound without the lyrics according to the designated tone color.
  • step S12 a sound source waveform or voice segment data for causing a predetermined sound or voice to be produced is selected. The operation will be described below.
  • the CPU 10 When the CPU 10 detects that the performance operator 16 has been keyed on by performing real-time performance by the user, the CPU 10 starts key-on processing shown in FIG. 2A.
  • the CPU 10 receives the first key-on n1 sounding instruction in step S10, and receives pitch information indicating the pitch of E5 and velocity information corresponding to the key speed. Then, the CPU 10 acquires key-off sound generation information corresponding to the first key-on n1 with reference to the key-off sound generation information 40 shown in the part (b) of FIG. 7. In this case, specific key-off sound generation information 40 is designated prior to the user's performance.
  • the specific key-off sound generation information 40 corresponds to the score shown in part (a) of FIG. 7 and is stored in the data memory 18. Also, the first key-off pronunciation information of the designated key-off pronunciation information 40 is referred to. The key-off sound generation flag is not set for the key-on n1, since the first key-off sound generation information is "X”.
  • the sound source 13 performs speech segment data selection processing. That is, the sound source 13 selects voice segment data for producing a predetermined voice. As a specific example, the case of producing the sound of "na (na)" will be described. In the following, “na (na)” indicates a Japanese katakana character.
  • the sound source 13 selects speech segment data "# -n” and "na” from the phoneme chain data 32a, and selects speech segment data "a” from the steady part data 32b. Then, in step S13, a tone generation process corresponding to the key on n1 is performed.
  • the sound source 13 is the pitch of E5 received at the time of detection of the key-on n1, "#-n”-> " The speech segment data from n-a "to” a "is pronounced. As a result, the singing sound of "na” is pronounced. This sounding is continued until the key on n1 is keyed off, and when it is keyed off, it is muted and stopped.
  • the CPU 10 detects the key-on n2 as the real-time performance progresses, the same process as described above is performed. Since the second key-off sound generation information corresponding to the key-on n2 is "x", the key-off sound generation flag for the key-on n2 is not set. As shown in part (c) of FIG. 7, a predetermined sound is produced at the pitch of E5, for example, a singing sound of "na”. If the key-on n3 is detected before the key-on n2 key is keyed off, the same process as described above is performed. Since the third key-off sound generation information corresponding to the key-on n3 is "x", the key-off sound generation flag for the key-on n3 is not set.
  • a predetermined sound is produced at the pitch D5, for example, a singing sound of "na".
  • the sound generation corresponding to the key-on n3 becomes a legato smoothly connected to the sound generation corresponding to the key-on n2.
  • the sound generation corresponding to the key on n2 is stopped.
  • the key of key on n3 is keyed off, the sound generation corresponding to key on n3 is muted and stopped.
  • the CPU 10 detects the key-on n4 as the performance further progresses, the same process as described above is performed. Since the fourth key-off sound generation information corresponding to the key-on n4 is "o", the key-off sound generation flag for the key-on n4 is set. As shown in part (c) of FIG. 7, a predetermined sound is produced at the pitch of E5, for example, a singing sound of "na”. When the key-on n4 is keyed off, the sound generation corresponding to the key-on n2 is muted and stopped. However, since the key-off sound generation flag is set, the CPU 10 determines that the key-on n4 'shown in part (c) of FIG.
  • the sound source 13 generates the sound corresponding to the key-on n4' as the key-on n4.
  • a predetermined voice at the pitch of E5 for example, a singing voice of "na" is pronounced when the key of key-on n4 is keyed off.
  • the tone generation length corresponding to the key-on n4 ' is a predetermined length.
  • the syllables of the text data 30 each time the user presses the performance operation element 16 The sound is produced at the pitch of the performance operator 16.
  • the text data 30 is text data obtained by dividing designated lyrics into syllables.
  • the lyrics specified at the time of real time performance are sung.
  • the first syllable and the second syllable can be pronounced at the pitch of the performance operator 16 by one continuous operation on the performance operator 16.
  • the first syllable is generated at the pitch applied to the performance operation element 16 in response to pressing the performance operation element 16.
  • the second syllable is sounded at the pitch applied to the performance operator 16 in response to the operation of leaving the performance operator 16.
  • the sound generation device 100 according to the second embodiment can be applied to a karaoke guide or the like. Also in this case, a predetermined sound without lyrics in accordance with an operation of pushing the performance operator 16 and an operation of leaving the performance operator 16 included in one continuous operation on the performance operator 16. Can be pronounced.
  • a sound producing device 200 when the user performs real time performance using the performance operation element 16 such as a keyboard, it is possible to perform a performance of an expressive singing voice.
  • the hardware configuration of the sound production apparatus 200 of the third embodiment is the same as that shown in FIG.
  • the key-on process shown in FIG. 2A is executed as in the first embodiment.
  • the content of the syllable information acquisition process of step S11 in the key-on process is different from that of the first embodiment.
  • the flowchart shown in FIG. 8 is executed as the syllable information acquisition process of step S11.
  • FIG. 8 the flowchart shown in FIG. 8 is executed as the syllable information acquisition process of step S11.
  • FIG. 9A is a diagram for describing a sound generation instruction reception process executed by the sound generation device 200 of the third embodiment.
  • FIG. 9B is a view for explaining syllable information acquisition processing executed by the sound generation device 200 of the third embodiment.
  • FIG. 10 shows “value v1” to “value v3” of the lyrics information table.
  • FIG. 11 shows an operation example of the sound generation device 200 of the third embodiment.
  • the sound producing device 200 of the third embodiment will be described with reference to these drawings.
  • the performance operation element 16 is operated to perform a performance.
  • the performance operator 16 is a keyboard or the like.
  • the CPU 10 detects that the performance operator 16 is keyed on with the progress of the performance, the key-on process shown in FIG. 2A is started.
  • the CPU 10 executes the sound generation instruction acceptance process of step S10 of the key-on process and the syllable information acquisition process of step S11.
  • the sound source 13 executes the speech segment data selection process of step S12 and the sound generation process of step S13 under the control of the CPU 10.
  • step S10 of the key-on process a tone generation instruction based on the key-on of the operated performance operator 16 is accepted.
  • the CPU 10 receives performance information such as key-on timing, pitch information of the operated performance operator 16 and velocity.
  • the CPU 10 receives the pitch information indicating the pitch of E5 and the velocity information according to the key speed when accepting the first key-on n1 timing.
  • step S11 syllable information acquisition processing for acquiring syllable information corresponding to the key-on n1 is performed.
  • FIG. 8 shows a flowchart of this syllable information acquisition process.
  • the CPU 10 acquires the syllable at the cursor position in step S40.
  • the lyric information table 50 is designated prior to the user's performance.
  • the lyrics information table 50 is stored in the data memory 18.
  • the lyrics information table 50 includes text data in which the lyrics corresponding to the musical score corresponding to the performance are divided into syllables. This lyric is a lyric corresponding to the score shown in FIG. 9A.
  • the cursor is placed at the top syllable of the text data of the designated lyric information table 50.
  • step S41 the CPU 10 refers to the lyric information table 50 to acquire a pronunciation control parameter (an example of a control parameter) associated with the syllable of the acquired first text data.
  • FIG. 9B shows a lyric information table 50 corresponding to the score shown in FIG. 9A.
  • the lyric information table 50 is a characteristic configuration. As shown in FIG. 9B, the lyric information table 50 includes syllable information 50a, a pronunciation control parameter type 50b, and value information 50c of a pronunciation control parameter.
  • the syllable information 50a includes text data in which the lyrics are divided into syllables.
  • the sound generation control parameter type 50b designates any of various parameter types.
  • the sound generation control parameter includes a sound generation control parameter type 50 b and value information 50 c of the sound generation control parameter. In the example shown to FIG.
  • the syllable information 50a consists of a syllable which divided the lyrics of c1, c2, c3, c41 similar to the text data 30 shown to FIG. 3B.
  • the pronunciation control parameter type 50b one or more of the parameters a, b, c, d are set for each syllable. Examples of this pronunciation control parameter type are "Harmonics”, “Brightness”, “Resonance” and “GenderFactor". "Harmonics” is a type of parameter that changes the balance of the harmonic components contained in the voice. "Brightness” is a type of parameter that produces a tone change by directing the tone of the voice.
  • “Resonance” is a type of parameter that produces voiced voice timbre and strength.
  • “GenderFactor” is a type of parameter that changes the thickness and texture of a feminine or male voice by changing formants.
  • the value information 50c is information for setting the value of the sound generation control parameter, and includes “value v1”, “value v2”, and “value v3”.
  • the “value v1” sets the manner of change over time of the tone generation control parameter and can be represented by a graph shape (waveform).
  • Part (a) of FIG. 10 shows an example of “value v1” represented by graph shape.
  • Part (a) of FIG. 10 shows graph shapes w1 to w6 as “value v1”.
  • the graph shapes w1 to w6 have different temporal changes.
  • the “value v1” is not limited to the graph shapes w1 to w6.
  • a graph shape (value) that changes over time can be set as the “value v1”.
  • the “value v2” is a value for setting the time of the horizontal axis of the “value v1” shown in the graph shape as shown in the part (b) of FIG. By setting the “value v2”, it is possible to set the speed of change which is the time from the beginning to the end of the effect.
  • the “value v3” is a value for setting the amplitude of the vertical axis of the “value v1” shown in the graph shape as shown in the part (b) of FIG.
  • the depth of change indicating the degree to which the effect is applied can be set.
  • the settable range of the value of the sound generation control parameter set in the value information 50c differs depending on the sound generation control parameter type.
  • the syllable specified by the syllable information 50a may include a syllable in which the pronunciation control parameter type 50b and its value information 50c are not set.
  • the sound generation control parameter type 50b and the value information 50c thereof are not set in the syllable c3 shown in FIG.
  • the syllable information 50a, the pronunciation control parameter type 50b, and the value information 50c of the lyrics information table 50 are created and / or edited prior to the user's performance and stored in the data memory 18.
  • step S41 the CPU 10 acquires the syllable of c1 in step S40. Therefore, in step S41, the CPU 10 acquires, from the lyric information table 50, the tone generation control parameter type and the value information 50c associated with the syllable c1. That is, the CPU 10 acquires the parameter a and the parameter b which are set in the column next to c1 of the syllable information 50a as the sound generation control parameter type 50b, and the detailed information is omitted from illustration "value v1" to "value "v3" is acquired as the value information 50c.
  • step S42 the process proceeds to step S42.
  • step S42 the CPU 10 advances the cursor to the next syllable of the text data to place the cursor on c2 of the second syllable.
  • the syllable information acquisition process ends, and the process returns to step S12 of the key-on process.
  • speech segment data for causing the acquired syllable c1 to be pronounced is selected from the phoneme database 32.
  • step S13 sound generation of the selected voice segment data is sequentially performed by the sound source 13. As a result, the syllable of c1 is pronounced.
  • the singing voice of syllable c1 is produced at a volume according to the pitch and velocity information of E5 received at the time of reception of key-on n1.
  • the key-on process also ends.
  • Part (c) of FIG. 11 shows a piano roll score 52.
  • the sound source 13 generates the selected voice segment data at the pitch E5 received at the time of detection of the key-on n1.
  • the singing sound of syllable c1 is pronounced.
  • the parameter a set with “value v1”, “value v2” and “value v3” is different from the parameter b set with “value v1”, “value v2” and “value v3”
  • the pronunciation control of the singing sound is performed by two pronunciation control parameter types, ie, two different modes. Therefore, it is possible to change the expression, intonation, voice quality and timbre of the singing voice to be sung, and it becomes possible to add fine nuances and intonation to the singing voice.
  • the pronunciation of the singing voice is generated by three different tone generation control parameter types of the parameter b, the parameter c and the parameter d. Control is performed. By this, it is possible to change the expression and intonation of the singing voice, the voice quality and the timbre.
  • the key-on n3 is detected as the real-time performance progresses, the same process as described above is performed, and the third syllable c3 corresponding to the key-on n3 is sounded at the pitch D5.
  • the sound generation control parameter type 50b is not set in the syllable c3. For this reason, when the syllable c3 is pronounced, as shown by the piano roll score 52 in the part (c) of FIG. 11, the pronunciation control of the singing voice by the pronunciation control parameter is not performed.
  • the syllable information 50a of the lyric information table 50 in the sound production apparatus 200 is made up of text data 30 of syllables obtained by dividing the lyric as shown in FIG. 3B and its grouping information 31 Do.
  • the grouped syllables can be sounded at the pitch of the performance operator 16 by one continuous operation on the performance operator 16. That is, the first syllable is produced at the pitch of the performance operator 16 in response to pressing the performance operator 16.
  • the second syllable is produced at the pitch of the performance operator 16 in response to the operation of leaving the performance operator 16.
  • the tone generation control is performed by the tone generation control parameter associated with each syllable.
  • the sound producing device 200 of the third embodiment can produce a predetermined sound without the above-described lyrics to be produced by the sound producing device 100 of the second embodiment.
  • the sound generation control parameter to be acquired is not determined according to the syllable information, but the key depression operation is performed for the first time. Sound generation control parameters to be acquired may be determined depending on the situation.
  • the pitch is designated in accordance with the operated performance operator 16 (key pressed).
  • the pitches may be designated according to the order in which the performance operators 16 are operated.
  • the lyrics information table 50 includes a plurality of control parameter information (an example of a control parameter), that is, first to nth control parameter information.
  • the first control parameter information includes the combination of the parameter a and the values v1 to v3 and the combination of the parameter b and the values v1 to v3.
  • the plurality of pieces of control parameter information are associated in different orders.
  • the first control parameter information is associated with the first order.
  • the second control parameter information is associated with the second order.
  • the CPU 10 When detecting the first (first) key-on, the CPU 10 reads the first control parameter information associated with the first order from the lyric information table 50. The sound source 13 outputs a sound in a mode according to the read first control parameter information. Similarly, when detecting the n-th (n-th) key-on, the CPU 10 reads, from the lyric information table 50, the pronunciation control parameter information associated with the n-th control parameter information associated with the n-th order. . The sound source 13 outputs a sound in a mode according to the read nth control parameter information.
  • the data memory 18 stores a lyric information table 50 shown in FIG.
  • the lyrics information table 50 includes a plurality of control parameter information.
  • the plurality of pieces of control parameter information are associated with different pitches.
  • the first control parameter information is associated with the pitch A5.
  • the second control parameter information is associated with the pitch B5.
  • the CPU 10 reads the first parameter information associated with the pitch A5 from the data memory 18.
  • the sound source 13 outputs a sound in an aspect and pitch A5 according to the read first control parameter information.
  • the CPU 10 reads, from the data memory 18, the second control parameter information associated with the pitch B5.
  • the sound source 13 outputs a sound in an aspect and pitch B5 according to the read second control parameter information.
  • the data memory 18 stores text data 30 shown in FIG.
  • the text data 30 includes a plurality of syllables: a first syllable "i”, a second syllable “ro” and a third syllable “ha”.
  • “i”, “ro” and “ha” each indicate a Japanese hiragana character and is an example of a syllable.
  • the first syllable "i” is associated with the first order.
  • the second syllable “ro” is associated with the second order.
  • the third syllable "ha” is associated with the third order.
  • the data memory 18 further stores a lyric information table 50 shown in FIG.
  • the lyrics information table 50 includes a plurality of control parameter information.
  • the plurality of pieces of control parameter information are associated with different syllables.
  • the second control parameter information is associated with the syllable "i”.
  • the 26th control parameter information (not shown) is associated with the syllable “ha”.
  • the 45th control parameter information is associated with "ro”.
  • the CPU 10 detects the first (first) key-on, the CPU 10 reads “i” (i) associated with the first order from the text data 30. Further, the CPU 10 reads, from the lyrics information table 50, the second control parameter information associated with “i (i)”.
  • the sound source 13 outputs a singing sound indicating “i” in a manner according to the read second control parameter information.
  • the CPU 10 when detecting the second (second time) key-on, the CPU 10 reads “ro” associated with the second order from the text data 30. In addition, the CPU 10 reads, from the lyrics information table 50, the 45th control parameter information associated with "ro". The sound source 13 outputs a singing sound indicating "ro" in a mode according to the 45th control parameter information.
  • the key-off sound generation information according to the embodiment of the present invention described above may be stored separately from the syllable information instead of being included in the syllable information.
  • the key-off sound generation information may be data describing how many times the key is pressed to perform key-off sound generation.
  • the key-off sound generation information may be information generated by a user instruction in real time at the time of playing. For example, the key-off sound may be performed on the note only when the user depresses the pedal while holding the key. Key-off sound generation may be performed when the time during which the key is pressed exceeds a predetermined length. In addition, key-off tone generation may be performed when the key depression velocity exceeds a predetermined value.
  • a program for realizing the functions of the singing sound producing device 1, 100, 200 according to the embodiment described above is recorded in a computer readable recording medium, and the program recorded in the recording medium is read into a computer system
  • the process may be performed by executing the process.
  • the “computer-readable recording medium” is a volatile memory (for example, DRAM (Dynamic Random Access) in a computer system serving as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line). Also, those including a program that has been held for a certain period of time, such as Memory)).
  • the above program may be transmitted from a computer system in which the program is stored in a storage device or the like to another computer system via a transmission medium or by transmission waves in the transmission medium.
  • the “transmission medium” for transmitting the program is a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
  • the above program may be for realizing a part of the functions described above.
  • the above program may be a so-called difference file (difference program) that can realize the above-described function in combination with a program already recorded in the computer system.

Abstract

 音制御装置は、第1音の出力の停止を示す停止指示を受け付ける受付部と、前記停止指示が受け付けられたことに応答して、第2音の出力を開始するか否かを決定する決定部と、前記第2の音の出力を開始すると決定された場合、前記第1音を出力させた後に前記第2音を出力させる制御部と、を備える。

Description

音制御装置、音制御方法、および音制御プログラム
 この発明は、所定の音を出力させることができる音制御装置、音制御方法、および音制御プログラムに関する。
 本願は、2015年3月20日に日本国に出願された特願2015-057945号に基づいて優先権を主張し、その内容をここに援用する。
 特許文献1には、以下のような技術を開示されている。すなわち、ユーザーの演奏操作に応じて演奏データたるMIDI(musical instrument digital interface)メッセージを演奏データ発生装置が発生させる。歌唱合成装置が、演奏データ発生装置からMIDIメッセージが順次与えられるのに応じて、予め記憶した歌詞データを歌唱位置を変えつつ順次利用し、MIDIメッセージにより定まるピッチおよび発音期間を持った歌唱音声をリアルタイムに合成する。この歌唱合成装置は、ノートオンメッセージの受信に応じて、テキストエディタで作成された歌詞をノートナンバが示すピッチで発音させ、ノートオンのたびに次の文字へと歌詞を進行させる。
 特許文献2は、自動歌唱装置を開示している。この自動歌唱装置は、文字テキスト入力操作部から歌詞データをテキストデータの形式で入力し、歌詞シーケンスデータに変換して、データメモリに格納する。データメモリには、音符に対応するメロディシーケンスデータも格納されている。そのメロディシーケンスデータの読み出しに応じて、前記歌詞シーケンスデータも読み出される。このとき、歌詞シーケンスデータ中に単一の音符に対して同時に発音すべき音節であることを示すフラグが記載されていると、同一のメロディシーケンスデータに対して複数の歌詞シーケンスデータが読み出される。さらに、各歌詞シーケンスデータに基づいて、音源部の無声音成分発音グループに属する音源および有声音成分発音グループに属する音源から、それぞれ、子音と母音とが発音され、これらが合成されて音声出力される。
日本国特開2008-170592号公報 日本国特開平09-050287号公報
 歌を歌う時では、1つの音符で複数の歌詞を発音することがある。日本語の歌詞の場合は、撥音が1つの音符で複数の歌詞を発音する代表例とされる。撥音とは、「かん(kan)」、「さん(san)」などの日本語の仮名である「ん(n)」がつく言葉である。特許文献1記載の歌唱合成装置においては、鍵が1回押されることで1つの歌詞しか進められない。このため、鍵が1回押されることによってでは複数の歌詞の歌唱音を発音することはできない。
 特許文献2記載の自動歌唱装置では、単一の音符に対して複数の歌詞を発音することができる。しかしながら、この自動歌唱装置では、あらかじめ用意したデータを再生させるようにしているため、ユーザーの演奏によって歌詞を発音させることはできない。
 リアルタイム演奏時に、複数の歌唱音を発音させる場合には、鍵が1回押されることに応じて複数の歌唱音を発音させる必要がある。しかしながら、2つ目以降の歌唱音に対する発音指示がないことから、特許文献2記載の技術を特許文献1記載の技術に適用しても、2つ目以降の歌唱音を発音させることができないという問題点があった。
 本発明の目的の一例は、1回の連続する操作で、複数の音を出力させることができる発音装置、発音方法および発音プログラムを提供することである。
 本発明の実施態様にかかる音制御装置は、第1音の出力の停止を示す停止指示を受け付ける受付部と、前記停止指示が受け付けられたことに応答して、第2音の出力を開始するか否かを決定する決定部と、前記第2の音の出力を開始すると決定された場合、前記第1音を出力させた後に前記第2音を出力させる制御部と、を備える。
 本発明の実施態様にかかる音制御方法は、第1音の出力の停止を示す停止指示を受け付け、前記停止指示が受け付けられたことに応答して、第2音の出力を開始するか否かを決定し、前記第2の音の出力を開始すると決定された場合、前記第1音を出力させた後に前記第2音を出力させる、ことを含む。
 本発明の実施態様にかかる音制御プログラムは、コンピュータに、第1音の出力の停止を示す停止指示を受け付け、前記停止指示が受け付けられたことに応答して、第2音の出力を開始するか否かを決定し、前記第2の音の出力を開始すると決定された場合、前記第1音を出力させた後に前記第2音を出力させる、ことを実行させる。
 本発明の実施形態にかかる発音装置では、発音の開始の指示により音を発音すると共に、発音の停止の指示により新たな音の発音を行うことができる。このため、リアルタイム演奏時の1回の連続する操作で複数の音を発音することができるようになる。
本発明の実施形態にかかる発音装置のハードウェア構成を示す機能ブロック図である。 本発明の第1実施形態にかかる発音装置が実行するキーオン処理のフローチャートである。 本発明の第1実施形態にかかる発音装置が実行する音節情報取得処理のフローチャートである。 本発明の第1実施形態にかかる発音装置が処理する発音指示受付処理を説明する図である。 本発明の第1実施形態にかかる発音装置が処理する音節情報取得処理を説明する図である。 本発明の第1実施形態にかかる発音装置が処理する音声素片データ選択処理を説明する図である。 本発明の第1実施形態にかかる発音装置の動作を示すタイミング図である。 本発明の第1実施形態にかかる発音装置が実行するキーオフ処理のフローチャートである。 本発明の第1実施形態にかかる発音装置が実行するキーオフ処理の他の動作例を説明する図である。 本発明の第1実施形態にかかる発音装置が実行するキーオフ処理の他の動作例を説明する図である。 本発明の第1実施形態にかかる発音装置が実行するキーオフ処理の他の動作例を説明する図である。 本発明の第2実施形態にかかる発音装置の動作例を説明する図である。 本発明の第3実施形態にかかる発音装置が実行する音節情報取得処理のフローチャートである。 本発明の第3実施形態にかかる発音装置が実行する発音指示受付処理を説明する図である。 本発明の第3実施形態にかかる発音装置が実行する音節情報取得処理を説明する図である。 本発明の第3実施形態にかかる発音装置における歌詞情報テーブルの値を示す図である。 本発明の第3実施形態にかかる発音装置の動作例を説明する図である。 本発明の第3実施形態にかかる歌詞情報テーブルの変形例を示す図である。 本発明の第3実施形態にかかる歌詞情報テーブルの変形例を示す図である。 本発明の第3実施形態にかかるテキストデータの変形例を示す図である。 本発明の第3実施形態にかかる歌詞情報テーブルの変形例を示す図である。
 図1は、本発明の実施形態にかかる発音装置のハードウェア構成を示す機能ブロック図を示す。
 図1に示す本発明の実施形態にかかる発音装置1は、CPU(Central Processing Unit)10と、ROM(Read Only Memory)11と、RAM(Random Access Memory)12と、音源13と、サウンドシステム14と、表示部(表示器)15と、演奏操作子16と、設定操作子17と、データメモリ18と、バス19とを備える。
 音制御装置は、発音装置1(100、200)に相当してもよい。この音制御装置の受付部、決定部、制御部、記憶部、取得部、および操作子は各々、発音装置1のこれらの構成の少なくとも一つに相当してもよい。例えば、受付部は、CPU10および演奏操作子16の少なくとも一つに相当してもよい。決定部は、CPU10に相当してもよい。制御部は、CPU10、音源13およびサウンドシステム14の少なくとも一つに相当してもよい。記憶部は、データメモリ18に相当してもよい。操作子は、演奏操作子16に相当してもよい。
 CPU10は、本発明の実施形態にかかる発音装置1全体の制御を行う中央処理装置である。ROM(Read Only Memory)11は制御プログラムおよび各種のデータなどが格納されている不揮発性のメモリである。RAM12はCPU10のワーク領域および各種のバッファなどとして使用される揮発性のメモリである。データメモリ18は歌詞を音節に区切ったテキストデータを含む音節情報および歌唱音の音声素片データが格納されている音韻データベースなどが格納されている。表示部15は、動作状態および各種設定画面やユーザーに対するメッセージなどが表示される液晶表示器等からなる表示部である。演奏操作子16は、それぞれ異なる音高に対応する複数の鍵を有する鍵盤(図7の部分(c)参照)などからなる演奏操作子である。演奏操作子16は、キーオン、キーオフ、音高、ベロシティなどの演奏情報を発生する。以下において、演奏操作子を鍵と称する場合がある。この演奏情報は、MIDIメッセージの演奏情報であってもよい。設定操作子17は、発音装置1を設定する操作つまみや操作ボタンなどの各種設定操作子である。
 音源13は、複数の発音チャンネルを有する。音源13には、CPU10の制御の基で、ユーザーの演奏操作子16を使用するリアルタイム演奏に応じて1つの発音チャンネルが割り当てられる。音源13は、割り当てられた発音チャンネルにおいて、データメモリ18から演奏に対応する音声素片データを読み出して歌唱音データを生成する。サウンドシステム14は、音源13で生成された歌唱音データをデジタル/アナログ変換器によりアナログ信号に変換して、アナログ信号とされた歌唱音を増幅してスピーカ等へ出力している。バス19は発音装置1における各部の間のデータ転送を行うためのバスである。
 本発明の第1実施形態にかかる発音装置1について以下に説明する。第1実施形態の発音装置1では、演奏操作子16をキーオンした際に図2Aに示すフローチャートのキーオン処理が実行される。図2Bは、このキーオン処理における音節情報取得処理のフローチャートを示す。図3Aは、キーオン処理における発音受付処理の説明図を示す。図3Bは、音節情報取得処理の説明図を示す。図3Cは、音声素片データ選択処理の説明図を示す。図4は、第1実施形態の発音装置1の動作を示すタイミング図を示す。図5は、第1実施形態の発音装置1において、演奏操作子16をキーオフした際に実行されるキーオフ処理のフローチャートを示す。
 第1実施形態の発音装置1において、ユーザーがリアルタイム演奏を行う場合は、演奏操作子16を操作して演奏を行う。演奏操作子16は鍵盤等であってもよい。演奏の進行に伴い演奏操作子16がキーオンされたことをCPU10が検出すると、図2Aに示すキーオン処理をスタートする。キーオン処理におけるステップS10の発音指示受付処理およびステップS11の音節情報取得処理はCPU10が実行する。ステップS12の音声素片データ選択処理およびステップS13の発音処理はCPU10の制御の基で音源13が実行する。
 キーオン処理のステップS10では、操作された演奏操作子16のキーオンに基づく発音指示(開始指示の一例)を受け付ける。この場合、CPU10はキーオンのタイミング、操作された演奏操作子16の音高情報およびベロシティなどの演奏情報を受け取るようになる。図3Aに示す楽譜の通りユーザーがリアルタイム演奏した場合は、最初のキーオンn1の発音指示を受け付けた時に、CPU10はE5の音高を示す音高情報と鍵速度に応じたベロシティ情報を受け取る。
 次いで、ステップS11にて、キーオンに対応する音節情報を取得する音節情報取得処理を行う。図2Bは、音節情報取得処理の詳細を示すフローチャートである。音節情報取得処理はCPU10で実行される。CPU10は、ステップS20においてカーソル位置の音節を取得する。この場合、ユーザーの演奏に先立って、特定の歌詞が指定されている。特定の歌詞とは、例えば、図3Aに示す楽譜に対応し、データメモリ18に格納されている歌詞である。また、テキストデータの先頭の音節にカーソルが置かれている。このテキストデータは、指定された歌詞を音節毎に区切ったデータである。具体例として、テキストデータ30が、図3Aに示す楽譜に対応して指定された歌詞に対応するテキストデータである場合について説明する。この場合、テキストデータ30は、図3Bに示す音節c1~c42、すなわち、「は(ha)」、「る(ru)」、「よ(yo)」、「こ(ko)」、「い(i)」の5つの音節からなるテキストデータである。以下において、「は(ha)」、「る(ru)」、「よ(yo)」、「こ(ko)」、「い(i)」各々は、日本語のひらがなの一文字を示し、音節の一例である。この場合、c1~c3の音節「は(ha)」、「る(ru)」、「よ(yo)」はそれぞれ独立している。c41とc42との音節「こ(ko)」「い(i)」はグループ化されている。このグループ化されているか否かを示す情報がグループ化情報(設定情報の一例)31である。グループ化情報31は、各音節に埋め込まれ、または、各音節に対応付けられている。グループ化情報31において、記号「×」はグループ化されていないことを表し、記号「○」はグループ化されていることを表している。グループ化情報31は、データメモリ18に記憶されていてもよい。図3Bに示すように、最初のキーオンn1の発音指示を受け付けた際には、CPU10は、指定された歌詞の最初の音節c1である「は(ha)」をデータメモリ18から読み出す。この際、CPU10は、「は(ha)」に埋め込まれまたは対応付けられているグループ化情報31もデータメモリ18から読み出す。次いで、ステップS21にて取得した音節がグループ化されているか否かを、取得された音節のグループ化情報31からCPU10が判断する。ステップS20で取得された音節がc1の「は(ha)」の場合は、そのグループ化情報31が「×」であることからグループ化されていないと判断されて、処理がステップS25に進む。ステップS25では、CPU10がテキストデータ30の次の音節にカーソルを進められ、2番目の音節c2の「る(ru)」にカーソルが置かれる。ステップS25の処理が終了すると音節情報取得処理は終了し、キーオン処理のステップS12にリターンする。
 図3Cは、ステップS12の音声素片データ選択処理を説明するための図である。このステップS12の音声素片データ選択処理は、CPU10の制御の基で音源13によって行われる処理である。音源13は、取得された音節を発音させる音声素片データを音韻データベース32から選択する。音韻データベース32には、「音素連鎖データ32a」と「定常部分データ32b」が記憶されている。音素連鎖データ32aは、「無音(#)から子音」、「子音から母音」、「母音から(次の音節の)子音または母音」などに対応する、発音が変化する際の音素片のデータである。定常部分データ32bは、母音の発音が継続する際の音素片のデータである。最初のキーオンn1の発音指示を受け付けることに応じて取得された音節がc1の「は(ha)」の場合、音源13は、音素連鎖データ32aから「無音→子音h」に対応する音声素片データ「#-h」と「子音h→母音a」に対応する音声素片データ「h-a」を選択すると共に、定常部分データ32bから「母音a」に対応する音声素片データ「a」を選択する。次いで、ステップS13にて、ステップS12で選択した音声素片データに基づく発音処理をCPU10の制御の基で音源13が行う。上記したように、音声素片データが選択された場合は、ステップS13の発音処理において、『「#-h」→「h-a」→「a」』の音声素片データの発音が順次音源13によって行われる。その結果、音節c1の「は(ha)」の発音が行われる。発音の際には、キーオンn1の発音指示の受付の際に受け取ったE5の音高で、ベロシティ情報に応じた音量で「は(ha)」の歌唱音が発音される。ステップS13の発音処理が終了するとキーオン処理も終了する。
 図4は、このキーオン処理の動作を示す。図4の部分(a)は鍵を押す操作を示す。図4の部分(b)は発音内容を示す。図4の部分(c)は、音声素片を示す。CPU10は、時刻t1で最初のキーオンn1の発音指示を受け付ける(ステップS10)。次に、CPU10は、最初の音節c1を取得し、音節c1が別の音節とグループ化されていないと判断する(ステップS11)。次いで、音源13は、音節c1を発音する音声素片データ「#-h」,「h-a」,「a」を選択する(ステップS12)。次に、キーオンn1のベロシティ情報に応じた音量のエンベロープENV1が開始され、『「#-h」→「h-a」→「a」』の音声素片データをE5の音高およびエンベロープENV1の音量で発音させる(ステップS13)。これにより、「は(ha)」の歌唱音が発音される。エンベロープENV1は、キーオンn1のキーオフまでサスティンが持続する持続音のエンベロープである。時刻t2でキーオンn1の鍵がキーオフされるまで「a」の音声素片データが繰り返し再生される。そして、時刻t2でキーオフ(停止指示の一例)されたことがCPU10で検出されると、図5に示すキーオフ処理をスタートする。キーオフ処理のステップS30,ステップS33の処理はCPU10が実行する。ステップS31,ステップS32の処理はCPU10の制御の基で音源13が実行する。
 キーオフ処理がスタートされると、ステップS30でキーオフ発音フラグがオンか否かが判断される。キーオフ発音フラグは、取得した音節がグループ化されている場合にセットされる。図2Aに示す音節情報取得処理において、最初の音節c1はグループ化されていない。このため、CPU10は、キーオフ発音フラグが設定されていないと判断し(ステップS30でNo)、処理がステップS34に進む。ステップS34では、CPU10の制御の基で音源13は、消音処理を行い、その結果、「は(ha)」の歌唱音の発音が停止される。すなわち、エンベロープENV1のリリースカーブで「は(ha)」の歌唱音が消音されていく。ステップS34の処理が終了すると、キーオフ処理は終了する。
 リアルタイム演奏の進行に伴い演奏操作子16が操作されて、2回目のキーオンn2が検出されると上述したキーオン処理が再度スタートされて、上述したキーオン処理が行われる。2回目のキーオン処理における、ステップS10の発音指示受付処理について説明する。この処理では、操作された演奏操作子16のキーオンn2に基づく発音指示を受け付ける際に、CPU10はキーオンn2のタイミング、E5の音高を示す音高情報と鍵速度に応じたベロシティ情報を受け取る。ステップS11の音節情報取得処理では、CPU10は、指定された歌詞のカーソルが置かれた2番目の音節c2である「る(ru)」をデータメモリ18から読み出す。この取得した音節「る(ru)」のグループ化情報31が「×」である。このため、CPU10は、グループ化されていないと判断し、3番目の音節目のc3の「よ(yo)」にカーソルを進める。ステップS12の音声素片データ選択処理では、音源13は、音素連鎖データ32aから「無音→子音r」に対応する音声素片データ「#-r」と「子音r→母音u」に対応する音声素片データ「r-u」を選択すると共に、定常部分データ32bから「母音u」に対応する音声素片データ「u」を選択する。ステップS13の発音処理では、『「#-r」→「r-u」→「u」』の音声素片データの発音がCPU10の制御の基で順次音源13において行われる。その結果、c2の「る(ru)」の音節の発音が行われ、キーオン処理は終了する。
 リアルタイム演奏の進行に伴い演奏操作子16が操作されて、3回目のキーオンn3が検出されると上述したキーオン処理が再度スタートされて、上述したキーオン処理が行われる。この3回目のキーオンn3は、2回目のキーオンn2がキーオフされる前にキーオンするレガートとされている。3回目のキーオン処理における、ステップS10の発音指示受付処理について説明する。この処理では、操作された演奏操作子16のキーオンn3に基づく発音指示を受け付ける際に、CPU10はキーオンn3のタイミング、D5の音高を示す音高情報と鍵速度に応じたベロシティ情報を受け取る。ステップS11の音節情報取得処理では、CPU10は、指定された歌詞のカーソルが置かれた3番目の音節c3である「よ(yo)」をデータメモリ18から読み出す。この取得した音節「よ(yo)」のグループ化情報31が「×」である。このため、CPU10は、グループ化されていないと判断し、4番目の音節目のc41の「こ(ko)」にカーソルを進める。ステップS12の音声素片データ選択処理では、音源13は、音素連鎖データ32aから「母音u→子音y」に対応する音声素片データ「u-y」と「子音y→母音o」に対応する音声素片データ「y-o」を選択すると共に、定常部分データ32bから「母音o」に対応する音声素片データ「o」を選択する。これは、3回目のキーオンn3がレガートであって「る(ru)」から「よ(yo)」へ滑らかにつなげて発音させるためである。ステップS13の発音処理では、『「u-y」→「y-o」→「o」』の音声素片データの発音がCPU10の制御の基で順次音源13よって行われる。その結果、c2の「る(ru)」から滑らかにつながるc3の「よ(yo)」の音節の発音が行われ、キーオン処理は終了する。
 図4は、この2,3回目のキーオン処理の動作を示す。CPU10は、時刻t3で2回目のキーオンn2の発音指示を受け付ける(ステップS10)。CPU10は、次の音節c2を取得し、音節c2が別の音節とグループ化されていないと判断する(ステップS11)。次いで、音源13は、音節c2を発音する音声素片データ「#-r」,「r-u」,「u」を選択する(ステップS12)。音源13は、キーオンn2のベロシティ情報に応じた音量のエンベロープENV2を開始し、『「#-r」→「r-u」→「u」』の音声素片データをE5の音高およびエンベロープENV2の音量で発音させる(ステップS13)。これにより、「る(ru)」の歌唱音が発音される。エンベロープENV2は、エンベロープENV1と同様である。「u」の音声素片データが繰り返し再生される。キーオンn2にかかる鍵がキーオフされる前の時刻t4で3回目のキーオンn3の発音指示を受け付ける(ステップS10)。その発音指示に応答して、CPU10は、次の音節c3を取得し、音節c3が別の音節とグループ化されていないと判断する(ステップS11)。時刻t4では、3回目のキーオンn3がレガートであることから、図5に示すキーオフ処理をCPU10がスタートする。キーオフ処理のステップS30では、2番目の音節c2である「る(ru)」はグループ化されていない。このため、CPU10は、キーオフ発音フラグが設定されていないと判断し(ステップS30でNo)、処理がステップS34に進む。ステップS34では、「る(ru)」の歌唱音の発音が停止される。ステップS34の処理が終了すると、キーオフ処理は終了する。これは以下の理由による。すなわち、歌唱音用の発音チャンネルには1チャンネルが用意されて2つの歌唱音を同時に発音できない。ゆえに、キーオンn2の鍵がキーオフされる時刻t5より前の時刻t4で次のキーオンn3が検出された場合(すなわち、レガートの場合)は、時刻t4でキーオンn2に基づく歌唱音の発音を停止して、時刻t4からキーオンn3に基づく歌唱音の発音を開始させるためである。
 このため、音源13は、音節c3である「よ(yo)」を発音する音声素片データ「u-y」,「y-o」,「o」を選択し(ステップS12)、時刻t4から、『「u-y」→「y-o」→「o」』の音声素片データをD5の音高およびエンベロープENV2のサスティンの音量で発音させる(ステップS13)。これにより、「る(ru)」から「よ(yo)」へ歌唱音が滑らかにつながって発音される。なお、時刻t5でキーオンn2の鍵がキーオフされても、既にキーオンn2に基づく歌唱音の発音は停止されているため、処理は何も行われない。
 CPU10は、時刻t6でキーオンn3がキーオフされたことを検出すると、図5に示すキーオフ処理をスタートする。3番目の音節c3である「よ(yo)」はグループ化されていない。よって、キーオフ処理のステップS30では、CPU10は、キーオフ発音フラグが設定されていないと判断し(ステップS30でNo)、処理がステップS34に進む。ステップS34では、音源13は、消音処理を行い、「よ(yo)」の歌唱音の発音が停止される。すなわち、エンベロープENV2のリリースカーブで「よ(yo)」の歌唱音が消音されていく。ステップS34の処理が終了すると、キーオフ処理は終了する。
 リアルタイム演奏の進行に伴い演奏操作子16が操作されて、4回目のキーオンn4が検出されると上述したキーオン処理が再度スタートされて、上述したキーオン処理が行われる。4回目のキーオン処理における、ステップS10の発音指示受付処理について説明する。この処理では、操作された演奏操作子16の4回目のキーオンn4に基づく発音指示を受け付ける際に、CPU10はキーオンn4のタイミング、E5の音高を示す音高情報と鍵速度に応じたベロシティ情報を受け取る。ステップS11の音節情報取得処理では、CPU10は、指定された歌詞のカーソルが置かれた4番目の音節c41である「こ(ko)」をデータメモリ18から読み出す(ステップS20)。この取得した音節「こ(ko)」のグループ化情報31が「○」である。このため、CPU10は、音節c41が別の音節とグループ化されていると判断し(ステップS21)、ステップS22に進む。ステップS22では、同じグループに属する音節(グループ内の音節)が取得される。この場合は「こ(ko)」と「い(i)」がグループ化されていることから、CPU10は、音節c41と同じグループに属する音節である音節c42「い(i)」をデータメモリ18から読み出す。次いで、CPU10は、ステップS23でキーオフ発音フラグをセットして、キーオフされた際に同じグループに属する次の音節「い(i)」を発音させる準備をする。次のステップS24では、CPU10は、テキストデータ30は、カーソルを、「こ(ko)」と「い(i)」が属するグループを越えて次の音節に進める。ただし、図示例の場合は次の音節がないことから、この処理はスキップされる。ステップS24の処理が終了すると音節情報取得処理は終了し、キーオン処理のステップS12にリターンする。
 ステップS12の音声素片データ選択処理では、音源13は、同じグループに属する音節「こ(ko)」および「い(i)」に対応する音声素片データを選択する。すなわち、音源13は、音節「こ(ko)」に対応する音声素片データとして、音素連鎖データ32aから「無音→子音k」に対応する音声素片データ「#-k」と「子音k→母音o」に対応する音声素片データ「k-o」を選択すると共に、定常部分データ32bから「母音o」に対応する音声素片データ「o」を選択する。また、音源13は、音節「い(i)」に対応する音声素片データとして、音素連鎖データ32aから「母音o→母音i」に対応する音声素片データ「o-i」を選択すると共に、定常部分データ32bから「母音i」に対応する音声素片データ「i」を選択する。ステップS13の発音処理では、同じグループに属する音節のうち、先頭の音節の発音が行われる。すなわち、音源13は、CPU10の制御の基で、『「#-k」→「k-o」→「o」』の音声素片データを順次発音する。その結果、音節c41である「こ(ko)」が発音される。発音の際には、キーオンn4の発音指示の受け付けの際に受け取ったE5の音高で、ベロシティ情報に応じた音量で「こ(ko)」の歌唱音が発音される。ステップS13の発音処理が終了するとキーオン処理も終了する。
 図4は、このキーオン処理の動作を示す。CPU10は、時刻t7で4番目のキーオンn4の発音指示を受け付ける(ステップS10)。CPU10は、4番目の音節c41(および音節c41に埋め込まれまたは対応付けられているグループ化情報31)を取得する。CPU10は、そのグループ化情報31に基づいて、音節c41が別の音節とグループ化されていると判断する。CPU10は、音節c41と同じグループに属する音節c42を取得すると共にキーオフ発音フラグをセットする(ステップS11)。次いで、音源13は、音節c41,c42を発音する音声素片データ「#-k」,「k-o」,「o」および音声素片データ「o-i」,「i」を選択する(ステップS12)。そして、音源13は、キーオンn4のベロシティ情報に応じた音量のエンベロープENV3を開始し、『「#-k」→「k-o」→「o」』の音声素片データをE5の音高およびエンベロープENV3の音量で発音させる(ステップS13)。これにより、「こ(ko)」の歌唱音が発音される。エンベロープENV3は、エンベロープENV1と同様である。時刻t8でキーオンn4にかかる鍵がキーオフされるまで「o」の音声素片データが繰り返し再生される。そして、時刻t8でキーオンn4がキーオフされたことがCPU10で検出されると、図5に示すキーオフ処理をCPU10がスタートする。
 音節c41,c42である「こ(ko)」および「い(i)」がグループ化されていて、キーオフ発音フラグがセットされている。このため、キーオフ処理のステップS30では、CPU10は、キーオフ発音フラグが設定されていると判断し(ステップS30でYes)、処理がステップS31に進む。ステップS31では、先に発音された音節と同じグループに属する次の音節の発音処理が行われる。すなわち、音源13は、先に行ったステップS12の音節情報取得処理において、音節「い(i)」に対応する音声素片データとして選択された『「o-i」→「i」』の音声素片データをE5の音高およびエンベロープENV3のリリースカーブの音量で発音させる。これにより、c41の「こ(ko)」と同じ音高E5で音節c42である「い(i)」の歌唱音が発音される。次いで、ステップS32で消音処理が行われて、「い(i)」の歌唱音の発音が停止される。すなわち、エンベロープENV3のリリースカーブで「い(i)」の歌唱音が消音されていく。なお、「こ(ko)」の発音は、発音が「い(i)」に移行した時点において、停止されている。次いで、ステップS33でキーオフ発音フラグをリセットしてキーオフ処理は終了する。
 以上説明したように、第1実施形態の発音装置1では、ユーザーのリアルタイム演奏に応じた歌唱音である歌声が発音されるようになると共に、リアルタイム演奏時に鍵を1回の押す操作を行うこと(すなわち、鍵を押してから離すまでの連続する1回の操作を行うこと、以下同様)により複数の歌声を発音することができる。すなわち、第1実施形態の発音装置1において、グループ化された音節は、鍵を1回押す操作で発音される音節の集合とされる。例えばグループ化されたc41とc42の音節は鍵を1回の押す操作で発音される。この場合、1音節目の音は鍵を押すことに応答して出力され、2音節目以降の音は鍵から離れることに応答して出力される。グループ化の情報は、キーオフにより次の音節を発音するか否かを決定する情報なので、「キーオフ発音情報(設定情報)」ということができる。キーオンn4にかかる鍵がキーオフされる前に、演奏操作子16の他の鍵にかかるキーオン(キーオンn5とする)が行われた場合について説明する。この場合は、キーオンn4のキーオフ処理が行われたあとにキーオンn5の発音が行われる。すなわち、キーオンn4のキーオフ処理としてc42の音節が発音された後に、キーオンn5に対応するc42の次の音節が発音されるようになる。別法として、キーオンn5に対応する音節をすぐに発音させるために、キーオンn5の操作に応答して実行されるキーオンn4のキーオフ処理においては、ステップS31の処理を省略してもよい。この場合、c42の音節は発音されず、キーオンn5に応じてすぐにc42の次の音節の発音が行われるようになる。
 上記したように、先の音節c41と同じグループに属する次の音節c42の「い(i)」の発音は、キーオンn4にかかる鍵がキーオフされたタイミングで発音される。このため、キーオフで発音指示された音節の発音長が短すぎて不明瞭になるおそれがある。図6A~6Cは、同じグループに属する次の音節の発音を十分長くすることができるキーオフ処理の他の動作例を示す。
 図6Aに示す例では、キーオンn4の発音指示により開始されるエンベロープENV3において、減衰開始を、キーオフから所定時間tdだけ遅らせるようにしている。すなわち、リリースカーブR1を一点鎖線で示すリリースカーブR2のように時間tdだけ遅らせることで、同じグループに属する次の音節の発音長を十分長くすることができる。サスティンペダル等の操作によって、同じグループに属する次の音節の発音長を十分長くすることもできる。すなわち、図6Aに示す例では、音源13は、エンベロープENV3の後半において、音節c41の音を一定の音量で出力させる。次に、音源13は、音節c41の音の出力の停止に連続して音節c42の音の出力を開始させる。その際、音節c42の音の音量は、音節c41の消音直前の音量と同じである。音源13は、所定時間tdだけ音量を維持した後に、音節c42の音の音量の低下を開始する。
 図6Bに示す例では、エンベロープENV3において、ゆっくり減衰させるようにしている。すなわち、リリースカーブを一点鎖線で示す傾斜を緩くしたリリースカーブR3を発生することで、同じグループに属する次の音節の発音長を十分長くすることができる。すなわち、図6Bに示す例では、音源13は、音節c42の音を出力させない場合(音節c41が他の音節とグループ化されていない場合)における音節c41の音の音量の減衰速度よりも遅い減衰速度で音節c42の音の音量を低下させながら音節c42の音を出力させる。
 図6Cに示す例では、キーオフを新たなノートオン指示とみなし、同じ音高の新たなノートで次の音節を発音させる。すなわち、エンベロープENV10を、キーオフの時刻t13において開始して、同じグループに属する次の音節の発音を行う。これにより、同じグループに属する次の音節の発音長を十分長くすることができる。すなわち、図6Cに示す例では、音源13は、音節c41の音の音量の低下を開始させることと同時に、音節c42の音の出力を開始させる。この際、音源13は、音節c42の音の音量を増加させながら音節c42の音を出力させる。
 以上説明した本発明の第1実施形態の発音装置1では、歌詞が日本語の場合を例示している。日本語では、ほぼ1文字が1音節である。一方で、他の言語においては1文字が1音節とならない場合が多い。具体例として、英語の歌詞が「september」の場合について説明する。「september」は、「sep」、「tem」、「ber」の3音節からなる。よって、演奏操作子16をユーザーが鍵を押す毎にその3の音節が、その鍵の音高で順次発音されていくようになる。この場合、「sep」および「tem」の2音節をグループ化することにより、1回の鍵を押す操作に応じて「sep」および「tem」の2音節が発音される。すなわち、鍵を押す操作に応じてその鍵の音高で「sep」の音節の音が出力される。また、鍵から離れる操作に応じて「tem」の音節がその鍵の音高で発音される。歌詞は日本語に限らず他の言語とされていても良い。
 次に、本発明の第2実施形態にかかる発音装置を説明する。第2実施形態の発音装置は、ハミング音や、スキャット、コーラスなどの歌唱音、または、通常の楽器音あるいは鳥のさえずりや電話のベルなどの効果音などの歌詞のない所定の音を発音する。第2実施形態の発音装置を発音装置100と称する。第2実施形態の発音装置100の構成は第1実施形態の発音装置1とほぼ同様である。しかしながら、第2実施形態は、音源13の構成が第1実施形態と相違する。すなわち、第2実施形態の音源13は上記した歌詞のない所定の音の音色を備えており、指定された音色に応じて歌詞のない所定の音を発音することができる。図7は、第2実施形態の発音装置100の動作例を説明するための図である。
 第2実施形態の発音装置100において、テキストデータ30とグループ化情報31からなる音節情報に替えてキーオフ発音情報40がデータメモリ18に格納されている。また、第2実施形態の発音装置100は、ユーザーが演奏操作子16を利用してリアルタイム演奏を行った際に歌詞のない所定の音を発音させる。第2実施形態の発音装置100では、図2Aに示すキーオン処理のステップS11で、図2Bに示す音節情報取得処理に替えてキーオフ発音情報処理が行われる。また、ステップS12の音声素片データ選択処理では、予め定められた音や音声を発音させる音源波形や音声素片データが選択される。以下にその動作を説明する。
 CPU10は、ユーザーがリアルタイム演奏を行うことによって演奏操作子16がキーオンされたことを検出すると、図2Aに示すキーオン処理をスタートする。図7の部分(a)に示す楽譜の楽曲の通りユーザーが演奏する場合について説明する。この場合、CPU10は、ステップS10で最初のキーオンn1の発音指示を受け付け、E5の音高を示す音高情報と鍵速度に応じたベロシティ情報を受け取る。そして、CPU10は、図7の部分(b)に示すキーオフ発音情報40を参照して最初のキーオンn1に対応するキーオフ発音情報を取得する。この場合、ユーザーの演奏に先立って、特定のキーオフ発音情報40が指定されている。この特定のキーオフ発音情報40は、図7の部分(a)に示す楽譜に対応し、データメモリ18に格納されている。また、指定されたキーオフ発音情報40の最初のキーオフ発音情報が参照される。最初のキーオフ発音情報が「×」とされていることから、キーオンn1に対してはキーオフ発音フラグはセットされない。次いで、ステップS12で音声素片データ選択処理を音源13が行う。すなわち、音源13は、予め定められた音声を発音させる音声素片データを選択する。具体例として、「ナ(na)」の音声を発音させる場合について説明する。以下において、「ナ(na)」は、日本語のカタカナの一文字を示す。音源13は、音素連鎖データ32aから「#-n」と「n-a」の音声素片データを選択すると共に、定常部分データ32bから音声素片データ「a」を選択する。そして、ステップS13でキーオンn1に対応する発音処理が行われる。この発音処理では、図7の部分(c)に示すピアノロール譜41で示すように、音源13は、キーオンn1の検出の際に受け取ったE5の音高で、『「#-n」→「n-a」→「a」』の音声素片データの発音が行われる。その結果、「ナ(na)」の歌唱音が発音される。この発音はキーオンn1がキーオフされるまで持続され、キーオフされると消音処理されて停止される。
 リアルタイム演奏の進行に伴いキーオンn2をCPU10が検出すると、上記と同様の処理が行われる。キーオンn2に対応する2番目のキーオフ発音情報が「×」とされていることから、キーオンn2に対するキーオフ発音フラグはセットされない。図7の部分(c)に示すようにE5の音高で予め定められた音声、例えば「ナ(na)」の歌唱音が発音される。キーオンn2の鍵がキーオフされる前にキーオンn3が検出されると、上記と同様の処理が行われる。キーオンn3に対応する3番目のキーオフ発音情報が「×」とされていることから、キーオンn3に対するキーオフ発音フラグはセットされない。図7の部分(c)に示すようにD5の音高で予め定められた音声、例えば「ナ(na)」の歌唱音が発音される。この場合、キーオンn3に対応する発音は、キーオンn2に対応する発音に滑らかにつながるレガートとなる。また、キーオンn3に対応する発音の開始と同時にキーオンn2に対応する発音が停止される。さらに、キーオンn3の鍵がキーオフされると、キーオンn3に対応する発音は消音処理されて停止される。
 さらなる演奏の進行に伴いキーオンn4をCPU10が検出すると、上記と同様の処理が行われる。キーオンn4に対応する4番目のキーオフ発音情報が「○」とされていることから、キーオンn4に対するキーオフ発音フラグがセットされる。図7の部分(c)に示すようにE5の音高で予め定められた音声、例えば「ナ(na)」の歌唱音が発音される。キーオンn4がキーオフされると、キーオンn2に対応する発音は消音処理されて停止される。しかしながら、キーオフ発音フラグがセットされていることから、CPU10が図7の部分(c)に示すキーオンn4’が新たに行われたと判断し、音源13がキーオンn4’に対応する発音をキーオンn4と同じ音高で行う。すなわち、E5の音高で予め定められた音声、例えば「ナ(na)」の歌唱音が、キーオンn4の鍵がキーオフされた時に発音される。この場合、キーオンn4’に対応する発音長は、予め決められた長さとされる。
 上記した第1実施形態にかかる発音装置1では、ユーザーが鍵盤等の演奏操作子16を利用してリアルタイム演奏した際に、演奏操作子16を押す操作を行う毎にテキストデータ30の音節が、その演奏操作子16の音高で発音される。テキストデータ30は、指定された歌詞を音節に区切ったテキストデータである。これにより、リアルタイム演奏時に指定された歌詞が歌われる。歌唱される歌詞の音節をグループ化することにより、演奏操作子16に対する1回の連続する操作により、1音節目と2音節目とを演奏操作子16の音高で発音させることができる。すなわち、演奏操作子16を押すことに応じて1音節目を演奏操作子16にかかる音高で発音させる。また、演奏操作子16から離れる操作に応じて2音節目を演奏操作子16にかかる音高で発音させる。
 上記した第2実施形態にかかる発音装置100では、歌詞による歌唱音に替えて上記した歌詞のない所定の音を押鍵された鍵の音高で発音することができる。よって、第2実施形態にかかる発音装置100は、カラオケのガイドなどに適用することができる。この場合も、演奏操作子16に対する1回の連続する操作に含まれる、演奏操作子16を押す操作と、演奏操作子16をから離れる操作とのにそれぞれに応じて、歌詞のない所定の音を発音させることができる。
 次に、本発明にかかる第3実施形態の発音装置200について説明する。第3実施形態の発音装置200では、ユーザーが鍵盤等の演奏操作子16を利用してリアルタイム演奏した際に、表情豊かな歌声の演奏を行うことができる。第3実施形態の発音装置200のハードウェア構成は図1に示す構成と同じである。第3実施形態では、第1実施形態と同様に、図2Aに示すキーオン処理が実行される。ただし、第3実施形態では、このキーオン処理におけるステップS11の音節情報取得処理の内容が、第1実施形態とは異なる。具体的には、第3実施形態では、ステップS11の音節情報取得処理として図8に示すフローチャートが実行される。図9Aは、第3実施形態の発音装置200によって実行される発音指示受付処理を説明するための図である。図9Bは、第3実施形態の発音装置200によって実行される音節情報取得処理を説明するための図である。図10は、歌詞情報テーブルの「値v1」~「値v3」を示す。図11は、第3実施形態の発音装置200の動作例を示す。これらの図を参照しながら第3実施形態の発音装置200を説明する。
 第3実施形態の発音装置200において、ユーザーがリアルタイム演奏を行う場合、演奏操作子16を操作して演奏を行う。演奏操作子16は鍵盤等である。演奏の進行に伴い演奏操作子16がキーオンされたことをCPU10が検出すると、図2Aに示すキーオン処理をスタートする。キーオン処理のステップS10の発音指示受付処理およびステップS11の音節情報取得処理はCPU10が実行する。ステップS12の音声素片データ選択処理およびステップS13の発音処理はCPU10の制御の基で音源13が実行する。
 キーオン処理のステップS10では、操作された演奏操作子16のキーオンに基づく発音指示を受け付ける。この場合、CPU10はキーオンのタイミング、操作された演奏操作子16の音高情報およびベロシティなどの演奏情報を受け取る。図9Aに示す楽譜の楽曲の通りユーザーが演奏した場合は、最初のキーオンn1のタイミングを受け付ける時に、CPU10はE5の音高を示す音高情報と鍵速度に応じたベロシティ情報を受け取る。次いで、ステップS11にて、キーオンn1に対応する音節情報を取得する音節情報取得処理を行う。図8は、この音節情報取得処理のフローチャートを示す。図8に示す音節情報取得処理がスタートされると、CPU10はステップS40においてカーソル位置の音節を取得する。この場合、ユーザーの演奏に先立って、歌詞情報テーブル50が指定されている。歌詞情報テーブル50は、データメモリ18に格納されている。歌詞情報テーブル50は、演奏に対応する楽譜に対応する歌詞を音節に区切ったテキストデータを含む。この歌詞は、図9Aに示す楽譜に対応する歌詞である。また、指定された歌詞情報テーブル50のテキストデータの先頭の音節にカーソルが置かれている。次いで、CPU10は、ステップS41において、取得した先頭のテキストデータの音節に対応付けられた発音制御パラメータ(制御パラメータの一例)を歌詞情報テーブル50を参照して取得する。図9Bは、図9Aに示す楽譜に対応する歌詞情報テーブル50を示す。
 第3実施形態の発音装置200においては、歌詞情報テーブル50が特徴的な構成である。図9Bに示すように歌詞情報テーブル50は、音節情報50aと、発音制御パラメータタイプ50bと、発音制御パラメータの値情報50cとから構成されている。音節情報50aは、歌詞を音節に区切ったテキストデータを含む。発音制御パラメータタイプ50bは、各種パラメータタイプのいずれかを指定する。発音制御パラメータは、発音制御パラメータタイプ50bと発音制御パラメータの値情報50cとを含む。図9Bに示す例では、音節情報50aは、図3Bに示すテキストデータ30と同様のc1,c2,c3,c41の歌詞を区切った音節からなる。発音制御パラメータタイプ50bとして、一音節ごとに、パラメータa,b,c,dの何れか一つあるいは複数が設定されている。この発音制御パラメータタイプの具体例は、「Harmonics」、「Brightness」、「Resonance」および「GenderFactor」である。「Harmonics」は、声に含まれる倍音成分のバランスを変化させるタイプのパラメータである。「Brightness」は、声の明暗を演出してトーン変化を与えるタイプのパラメータである。「Resonance」は、有声音の音色や強弱を演出するタイプのパラメータである。「GenderFactor」は、フォルマントを変化させることにより、女性的なあるいは男性的な声の太さや質感を変化させるタイプのパラメータである。値情報50cは、発音制御パラメータの値を設定するための情報であり、「値v1」と「値v2」と「値v3」と含む。「値v1」は発音制御パラメータの時間上の変化のしかたを設定し、グラフ形状(波形)で表すことができる。図10の部分(a)は、グラフ形状で表した「値v1」の例を示す。図10の部分(a)は、「値v1」として、グラフ形状w1~w6を示している。グラフ形状w1~w6は、それぞれ異なる時間上の変化をしている。「値v1」は、グラフ形状w1~w6に限られない。「値v1」として、種々の時間上の変化をするグラフ形状(値)を設定することができる。「値v2」は、図10の部分(b)に示すようにグラフ形状で示す「値v1」の横軸の時間を設定するための値である。「値v2」を設定することにより、効果のかかり始めからかかり終わりまでの時間となる変化の速度を設定できる。「値v3」は、図10の部分(b)に示すようにグラフ形状で示す「値v1」の縦軸の振幅を設定するための値である。「値v3」を設定することにより、効果のかかる度合いを示す変化の深さを設定できる。値情報50cで設定される発音制御パラメータの値の設定可能範囲は、発音制御パラメータタイプにより異なっている。ただし、音節情報50aで指定される音節は、発音制御パラメータタイプ50bおよびその値情報50cが設定されていない音節を含んでもよい。例えば、図11に示す音節c3には発音制御パラメータタイプ50bおよびその値情報50cが設定されていない。この歌詞情報テーブル50の音節情報50a、発音制御パラメータタイプ50b、値情報50cは、ユーザーの演奏に先立って作成およびまたは編集されて、データメモリ18に格納されている。
 説明をステップS41に戻す。なお、最初のキーオンn1の時には、CPU10は、ステップS40でc1の音節を取得する。よって、ステップS41では、CPU10は、歌詞情報テーブル50から音節c1に対応付けられた発音制御パラメータタイプと値情報50cとを取得する。すなわち、CPU10は、音節情報50aのc1の横の段に設定されているパラメータa,パラメータbを発音制御パラメータタイプ50bとして取得し、詳細情報の図示が省略されている「値v1」~「値v3」を値情報50cとして取得する。ステップS41の処理が終了すると処理がステップS42に進む。ステップS42では、CPU10がテキストデータの次の音節にカーソルを進めることにより、2音節目のc2にカーソルが置かれる。ステップS42の処理が終了すると音節情報取得処理は終了し、キーオン処理のステップS12にリターンする。ステップS12の音節情報取得処理では、上記したように、取得された音節c1を発音させる音声素片データが音韻データベース32から選択される。次に、ステップS13の発音処理において、選択された音声素片データの発音が順次音源13によって行われる。その結果、c1の音節の発音が行われる。発音の際には、キーオンn1の受付の際に受け取ったE5の音高およびベロシティ情報に応じた音量で音節c1の歌唱音が発音される。ステップS13の発音処理が終了するとキーオン処理も終了する。
 図11の部分(c)は、ピアノロール譜52を示す。このステップS13の発音処理では、ピアノロール譜52に示すように、音源13は、キーオンn1の検出の際に受け取ったE5の音高で、選択された音声素片データの発音を行う。その結果、音節c1の歌唱音が発音される。この発音の際に、「値v1」、「値v2」、「値v3」で設定されたパラメータaと、「値v1」、「値v2」、「値v3」で設定されたパラメータbの異なる2つの発音制御パラメータタイプ、すなわち、2つの異なる態様により、歌唱音の発音制御が行われる。よって、歌唱される歌声の表情や抑揚、声質や音色に変化を与えることができ、歌声に細かなニュアンスや抑揚をつけられるようになる。
 そして、リアルタイム演奏の進行に伴いキーオンn2をCPU10が検出すると、上記と同様の処理が行われて、キーオンn2に対応する2番目の音節c2がE5の音高で発音される。音節c2には図9の部分(b)で示すように、発音制御パラメータタイプ50bとしてパラメータbとパラメータcとパラメータdの3つの発音制御パラメータタイプが対応付けられていると共に、それぞれの発音制御パラメータタイプはそれぞれの「値v1」、「値v2」、「値v3」で設定されている。このため、音節c2の発音の際に、図11の部分(c)にピアノロール譜52で示すように、パラメータbとパラメータcとパラメータdの異なる3つの発音制御パラメータタイプにより、歌唱音の発音制御が行われる。これにより、歌唱される歌声の表情や抑揚、声質や音色に変化を与えられる。
 リアルタイム演奏の進行に伴いキーオンn3をCPU10が検出すると、上記と同様の処理が行われて、キーオンn3に対応する3番目の音節c3がD5の音高で発音される。音節c3には図9Bに示すように、発音制御パラメータタイプ50bが設定されていない。このため、音節c3の発音の際には、図11の部分(c)にピアノロール譜52で示すように、発音制御パラメータによる歌唱音の発音制御が行われない。
 リアルタイム演奏の進行に伴いキーオンn4をCPU10が検出すると、上記と同様の処理が行われて、キーオンn4に対応する4番目の音節c41がE5の音高で発音される。図9Bで示すように、音節c41の発音の際には、音節c41に対応付けられている発音制御パラメータタイプ50b(図示略)および値情報50c(図示略)に応じた発音制御が行われる。
 上記した第3実施形態にかかる発音装置200では、ユーザーが鍵盤等の演奏操作子16を利用してリアルタイム演奏した際に、演奏操作子16を押す操作を行う毎に指定されたテキストデータの音節が、その演奏操作子16の音高で発音される。テキストデータを歌詞とすることで歌声が発音される。この際に、音節毎に対応付けられた発音制御パラメータにより発音制御が行われる。このため、歌唱される歌声の表情や抑揚、声質や音色に変化を与えることができ、歌声に細かなニュアンスや抑揚をつけられるようになる。
 第3実施形態にかかる発音装置200における歌詞情報テーブル50の音節情報50aを、図3Bに示すように歌詞を区切った音節のテキストデータ30とそのグループ化情報31とからなるようにする場合について説明する。この場合、グループ化された音節を演奏操作子16に対する1回の連続する操作により、演奏操作子16の音高で発音させることができる。すなわち、演奏操作子16を押すことに応じて1音節目を演奏操作子16の音高で発音させる。また、演奏操作子16から離れる操作に応じて2音節目を演奏操作子16の音高で発音させる。この際に、音節毎に対応付けられた発音制御パラメータにより発音制御が行われる。このため、歌唱される歌声の表情や抑揚、声質や音色に変化を与えることができ、歌声に細かなニュアンスや抑揚をつけられるようになる。
 第3実施形態の発音装置200は、第2実施形態の発音装置100で発音される上記した歌詞のない所定の音を発音することができる。第3実施形態の発音装置200で上記した歌詞のない所定の音を発音する場合には、音節情報に応じて、取得する発音制御パラメータを決定するのではなく、何回目の押鍵操作であるかに応じて取得する発音制御パラメータを決定するようにすればよい。
 第3実施形態において、音高は、操作された演奏操作子16(押された鍵)に応じて指定されている。別法として、音高は、演奏操作子16が操作された順番に応じて指定されてもよい。
 第3実施形態の第1の変形例について説明する。この変形例では、データメモリ18が、図12に示す歌詞情報テーブル50を格納している。歌詞情報テーブル50は、複数の制御パラメータ情報(制御パラメータの一例)、すなわち、第1から第n制御パラメータ情報を含む。例えば、第1制御パラメータ情報は、パラメータaと値v1~v3の組み合わせ、および、パラメータbと値v1~v3の組み合わせを含む。複数の制御パラメータ情報はそれぞれ異なる順番に対応付けられている。例えば、第1制御パラメータ情報は、第1の順番に対応づけられている。第2制御パラメータ情報は、第2の順番に対応づけられている。CPU10は、第1番目(1回目)のキーオンを検出した場合、歌詞情報テーブル50から、第1の順番に対応付けられた第1制御パラメータ情報を読み出す。音源13は、読み出された第1制御パラメータ情報に従った態様で音を出力する。同様に、CPU10は、第n番目(n回目)のキーオンを検出した場合、歌詞情報テーブル50から、第nの順番に対応付けられた第n制御パラメータ情報に関連付けられた発音制御パラメータ情報を読み出す。音源13は、読み出された第n制御パラメータ情報に従った態様で音を出力する。
 第3実施形態の第2の変形例について説明する。この変形例では、データメモリ18が、図13に示す歌詞情報テーブル50を格納している。歌詞情報テーブル50は、複数の制御パラメータ情報を含む。複数の制御パラメータ情報はそれぞれ異なる音高に対応付けられている。例えば、第1制御パラメータ情報は、音高A5に対応づけられている。第2制御パラメータ情報は、音高B5に対応づけられている。CPU10は、音高A5にかかる鍵のキーオンを検出した場合、データメモリ18から、音高A5に対応付けられた第1パラメータ情報を読み出す。音源13は、読み出された第1制御パラメータ情報に従った態様かつ音高A5で音を出力する。同様に、CPU10は、音高B5にかかる鍵のキーオンを検出した場合、データメモリ18から、音高B5に対応付けられた第2制御パラメータ情報を読み出す。音源13は、読み出された第2制御パラメータ情報に従った態様かつ音高B5で音を出力する。
 第3実施形態の第3の変形例について説明する。この変形例では、データメモリ18が、図14に示すテキストデータ30を格納している。テキストデータ30は、複数の音節、すなわち、第1の音節「い(i)」、第2の音節「ろ(ro)」および第3の音節「は(ha)」を含む。以下において、「い(i)」、「ろ(ro)」および「は(ha)」各々は、日本語のひらがなの一文字を示し、音節の一例である。第1の音節である「い(i)」は、第1の順番に対応づけられている。第2の音節である「ろ(ro)」は、第2の順番に対応づけられている。第3の音節である「は(ha)」は、第3の順番に対応づけられている。データメモリ18は、さらに、図15に示す歌詞情報テーブル50を格納している。歌詞情報テーブル50は、複数の制御パラメータ情報を含む。複数の制御パラメータ情報は、それぞれ異なる音節に対応付けられている。例えば、第2制御パラメータ情報は、音節「い(i)」に対応づけられている。第26制御パラメータ情報(不図示)は、音節「は(ha)」に対応づけられている。第45制御パラメータ情報は、「ろ(ro)」に対応づけられている。CPU10は、第1番目(1回目)のキーオンを検出した場合、テキストデータ30から、第1の順番に対応付けられた「い(i)」を読み出す。また、CPU10は、歌詞情報テーブル50から、「い(i)」に対応付けられた第2制御パラメータ情報を読み出す。音源13は、読み出された第2制御パラメータ情報に従った態様で「い(i)」を示す歌唱音を出力する。同様に、CPU10は、第2番目(2回目)キーオンを検出した場合、テキストデータ30から、第2の順番に対応付けられた「ろ(ro)」を読み出す。また、CPU10は、歌詞情報テーブル50から、「ろ(ro)」に対応付けられた第45制御パラメータ情報を読み出す。音源13は、第45制御パラメータ情報に従った態様で「ろ(ro)」を示す歌唱音を出力する。
 以上説明した本発明の実施形態にかかるキーオフ発音情報は、音節情報の中に含むことに替えて、音節情報とは別に記憶されていてもよい。この場合、キーオフ発音情報は、何回目に鍵が押された場合にキーオフ発音を実行するかを記述したデータであってもよい。キーオフ発音情報は、演奏時にリアルタイムでユーザーの指示により発生される情報であってもよい。例えば、ユーザーが鍵を押している間にペダルを踏んだときのみ、そのノートに対してキーオフ発音を実行してもよい。鍵が押されている時間が所定長を超えたときにキーオフ発音を実行してもよい。また、押鍵ベロシティが所定値を超えたときにキーオフ発音を実行してもよい。
 以上説明した本発明の実施形態にかかる発音装置は、歌詞または歌詞のない歌唱音を発音すること、および、楽器音や効果音などの歌詞のない所定の音を発音することができる。また、本発明の実施形態にかかる発音装置は、歌唱音を含む所定の音を発音することができる。
 以上説明した本発明の実施形態にかかる発音装置において歌詞を発音させる際に、歌詞をほぼ1文字1音節となる日本語を例に上げて説明した。しかしながら、本発明の実施形態はこのような場合に限定されない。1文字が1音節とならない他の言語の歌詞を音節毎に区切って、本発明の実施形態にかかる発音装置で上記したように発音させることにより、他の言語の歌詞を歌唱させるようにしても良い。
 また、以上説明した本発明の実施形態にかかる発音装置において、演奏操作子に替えて、演奏データ発生装置を用意し、演奏データ発生装置から演奏情報を発音装置に順次与えるようにしても良い。
 以上に示した実施形態に係る歌唱音発音装置1、100、200の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、処理を行ってもよい。
 ここでいう「コンピュータシステム」は、オペレーティング・システム(OS:Operating System)や周辺機器等のハードウェアを含んでもよい。
 「コンピュータ読み取り可能な記録媒体」は、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置を含む。
 「コンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含む。
 上記のプログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
 上記のプログラムは、前述した機能の一部を実現するためのものであってもよい。
 上記のプログラムは、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1,100,200 発音装置
10 CPU
11 ROM
12 RAM
13 音源
14 サウンドシステム
15 表示部
16 演奏操作子
17 設定操作子
18 データメモリ
19 バス
30 テキストデータ
31 グループ化情報
32 音韻データベース
32a 音素連鎖データ
32b 定常部分データ
40 キーオフ発音情報
41 ピアノロール譜
50 歌詞情報テーブル
50a 音節情報
50b 発音制御パラメータタイプ
50c 値情報
52 ピアノロール譜

Claims (17)

  1.  第1音の出力の停止を示す停止指示を受け付ける受付部と、
     前記停止指示が受け付けられたことに応答して、第2音の出力を開始するか否かを決定する決定部と、
     前記第2の音の出力を開始すると決定された場合、前記第1音を出力させた後に前記第2音を出力させる制御部と、
     を備える音制御装置。
  2.  前記受付部は、前記第1音の出力の開始を示す開始指示を受け付け、
     前記制御部は、前記開始指示が受け付けられたことに応答して、前記第1音を出力させる
     請求項1に記載の音制御装置。
  3.  前記停止指示を受け付けた場合に次の音の出力を開始するか否かの設定を示す設定情報を記憶する記憶部をさらに備え、
     前記決定部は、前記設定情報に基づいて、前記第2音の出力を開始するか否かを決定する
     請求項1または2に記載の音制御装置。
  4.  前記設定情報は、前記第1音と前記第2音とがグループ化されているか否かの設定を示し、
     前記決定部は、前記設定情報が前記第1音と前記第2音とがグループ化されているという設定を示している場合、前記第2音の出力を開始すると決定し、
     前記決定部は、前記設定情報が前記第1音と前記第2音とがグループ化されていないという設定を示している場合、前記第2音の出力を開始しないと決定する請求項3に記載の音制御装置。
  5.  第1音節を示す第1音節情報と第2音節を示す第2音節情報とを含む複数の音節情報を記憶する記憶部と、
     前記記憶部から前記第1音節情報を取得し、前記第2音の出力を開始すると決定された場合に前記記憶部から前記第2音節情報を取得する取得部と、
     をさらに備え、
     前記制御部は、前記開始指示が受け付けられたことに応答して、前記取得された第1音節情報によって示される第1音節を前記第1音として出力させ、
     前記制御部は、前記第2音の出力を開始すると決定された場合、前記第1音節を出力させた後に前記取得された第2音節情報によって示される第2音節を前記第2音として出力させる
     請求項2に記載の音制御装置。
  6.  前記複数の音節情報は、前記停止指示を受け付けた場合に次の音の出力を開始するか否かの設定を示す設定情報をさらに含み、
     前記決定部は、前記設定情報に基づいて、前記第2音の出力を開始するか否かを決定する
     請求項5に記載の音制御装置。
  7.  前記第1および第2音節各々は、一以上の文字、または日本語の仮名である
     請求項5または6に記載の音制御装置。
  8.  ユーザからの操作を受け付ける操作子をさらに備え、
     前記受付部は、前記操作子に対するユーザからの操作が開始された場合に、前記開始指示を受け付けたと判断し、
     前記受付部は、前記操作子に対するユーザからの操作が終了された場合に、前記停止指示を受け付けたと判断する
     請求項2に記載の音制御装置。
  9.  前記制御部は、前記第1音の出力の停止に連続して前記第2音の出力を開始させる、
     請求項1から8のいずれか一項に記載の音制御装置。
  10.  前記制御部は、前記第2音の音量を低下させながら前記第2音を出力させる
     請求項1から9のいずれか一項に記載の音制御装置。
  11.  前記制御部は、前記第1音を第1音量で出力させた後に、前記第2音を前記第1音量と同じ第2音量で出力させる
     請求項1から10のいずれか一項に記載の音制御装置。
  12.  前記制御部は、前記第2音を出力させない場合における前記第1音の音量の第1減衰速度よりも遅い第2減衰速度で前記第2音の音量を低下させながら前記第2音を出力させる
     請求項1から9のいずれか一項に記載の音制御装置。
  13.  前記制御部は、前記第1音の音量の低下を開始させることと同時に、前記第2音の出力を開始させる
     請求項1から8のいずれか一項に記載の音制御装置。
  14.  前記制御部は、前記第2音の音量を増加させながら前記第2音を出力させる
     請求項13に記載の音制御装置。
  15.  前記第1音および前記第2音は、歌唱音である
     請求項1から14のいずれか一項に記載の音制御装置。
  16.  第1音の出力の停止を示す停止指示を受け付け、
     前記停止指示が受け付けられたことに応答して、第2音の出力を開始するか否かを決定し、
     前記第2の音の出力を開始すると決定された場合、前記第1音を出力させた後に前記第2音を出力させる、
     ことを含む音制御方法。
  17.  コンピュータに、
     第1音の出力の停止を示す停止指示を受け付け、
     前記停止指示が受け付けられたことに応答して、第2音の出力を開始するか否かを決定し、
     前記第2の音の出力を開始すると決定された場合、前記第1音を出力させた後に前記第2音を出力させる、
     ことを実行させる音制御プログラム。
PCT/JP2016/058466 2015-03-20 2016-03-17 音制御装置、音制御方法、および音制御プログラム WO2016152708A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-057945 2015-03-20
JP2015057945 2015-03-20

Publications (1)

Publication Number Publication Date
WO2016152708A1 true WO2016152708A1 (ja) 2016-09-29

Family

ID=56978351

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/058466 WO2016152708A1 (ja) 2015-03-20 2016-03-17 音制御装置、音制御方法、および音制御プログラム

Country Status (2)

Country Link
JP (1) JP2016177277A (ja)
WO (1) WO2016152708A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294990A (zh) * 2022-10-08 2022-11-04 杭州艾力特数字科技有限公司 扩声系统检测方法、系统、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006071931A (ja) * 2004-09-01 2006-03-16 Fyuutorekku:Kk 音楽データ加工方法、音楽データ加工装置、音楽データ加工システム及びコンピュータプログラム
JP2008089644A (ja) * 2006-09-29 2008-04-17 Yamaha Corp 電子楽器および電子楽器制御用プログラム
JP2008191657A (ja) * 2007-01-09 2008-08-21 Yamaha Corp 楽音生成装置及びプログラム
JP2013152337A (ja) * 2012-01-25 2013-08-08 Yamaha Corp 音符列設定装置
JP2013238662A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声合成装置
JP2014010190A (ja) * 2012-06-27 2014-01-20 Yamaha Corp 歌唱合成を行うための装置およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3567294B2 (ja) * 1994-12-31 2004-09-22 カシオ計算機株式会社 音声発生装置
JP3409644B2 (ja) * 1997-05-22 2003-05-26 ヤマハ株式会社 データ編集装置およびデータ編集プログラムを記録した媒体
JP3521871B2 (ja) * 1999-12-17 2004-04-26 ヤマハ株式会社 楽音発生装置および記憶媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006071931A (ja) * 2004-09-01 2006-03-16 Fyuutorekku:Kk 音楽データ加工方法、音楽データ加工装置、音楽データ加工システム及びコンピュータプログラム
JP2008089644A (ja) * 2006-09-29 2008-04-17 Yamaha Corp 電子楽器および電子楽器制御用プログラム
JP2008191657A (ja) * 2007-01-09 2008-08-21 Yamaha Corp 楽音生成装置及びプログラム
JP2013152337A (ja) * 2012-01-25 2013-08-08 Yamaha Corp 音符列設定装置
JP2013238662A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声合成装置
JP2014010190A (ja) * 2012-06-27 2014-01-20 Yamaha Corp 歌唱合成を行うための装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294990A (zh) * 2022-10-08 2022-11-04 杭州艾力特数字科技有限公司 扩声系统检测方法、系统、终端及存储介质
CN115294990B (zh) * 2022-10-08 2023-01-03 杭州艾力特数字科技有限公司 扩声系统检测方法、系统、终端及存储介质

Also Published As

Publication number Publication date
JP2016177277A (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
US10354629B2 (en) Sound control device, sound control method, and sound control program
JP6485185B2 (ja) 歌唱音合成装置
WO2016152717A1 (ja) 音制御装置、音制御方法、および音制御プログラム
JP6167503B2 (ja) 音声合成装置
WO2016152708A1 (ja) 音制御装置、音制御方法、および音制御プログラム
US20220044662A1 (en) Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device
JP6828530B2 (ja) 発音装置及び発音制御方法
JP4180548B2 (ja) 声域告知機能付きカラオケ装置
JP2018151548A (ja) 発音装置及びループ区間設定方法
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP7158331B2 (ja) カラオケ装置
WO2023175844A1 (ja) 電子管楽器及び電子管楽器の制御方法
JP7484952B2 (ja) 電子機器、電子楽器、方法及びプログラム
JP3265995B2 (ja) 歌唱音声合成装置及び方法
JP6809608B2 (ja) 歌唱音生成装置及び方法、プログラム
WO2022190502A1 (ja) 音生成装置およびその制御方法、プログラム、電子楽器
WO2023120121A1 (ja) 子音長変更装置、電子楽器、楽器システム、方法及びプログラム
JPH1031496A (ja) 楽音発生装置
CN110720122B (zh) 音发生装置及方法
JPWO2022190502A5 (ja)
JP2022071098A (ja) 電子楽器、方法及びプログラム
JP2021149043A (ja) 電子楽器、方法及びプログラム
WO2019003348A1 (ja) 歌唱音効果生成装置及び方法、プログラム
JP2011100055A (ja) 音声合成装置
JPH0962297A (ja) フォルマント音源のパラメータ生成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16768611

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16768611

Country of ref document: EP

Kind code of ref document: A1