WO2020217801A1 - オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム - Google Patents

オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム Download PDF

Info

Publication number
WO2020217801A1
WO2020217801A1 PCT/JP2020/012326 JP2020012326W WO2020217801A1 WO 2020217801 A1 WO2020217801 A1 WO 2020217801A1 JP 2020012326 W JP2020012326 W JP 2020012326W WO 2020217801 A1 WO2020217801 A1 WO 2020217801A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
reproduction
audio information
note
end position
Prior art date
Application number
PCT/JP2020/012326
Other languages
English (en)
French (fr)
Inventor
誠 橘
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to JP2021515879A priority Critical patent/JP7226532B2/ja
Priority to CN202080030401.5A priority patent/CN113711302A/zh
Publication of WO2020217801A1 publication Critical patent/WO2020217801A1/ja
Priority to US17/451,850 priority patent/US20220044662A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/615Waveform editing, i.e. setting or modifying parameters for waveform synthesis.
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/641Waveform sampler, i.e. music samplers; Sampled music loop processing, wherein a loop is a sample of a performance that has been edited to repeat seamlessly without clicks or artifacts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Definitions

  • the present invention relates to an audio information reproduction method and device, an audio information generation method and device, and a program.
  • the pronunciation timing and pronunciation length of each syllable of the audio information are fixed. Therefore, in reproducing the audio information generated by singing and synthesizing, it is difficult for the user to change the pronunciation and muffling in a natural way. That is, the audio information is usually reproduced in time series, but it is not suitable for desired reproduction control in real time according to a performance operation or the like. Therefore, there is room for improvement in realizing real-time and desired reproduction control of audio information.
  • An object of the present invention is to provide an audio information reproduction method and apparatus, an audio information generation method and apparatus, and a program capable of realizing real-time and desired reproduction control of audio information.
  • audio information in which the waveform data of each of a plurality of utterance units whose pronunciation pitch and pronunciation order are determined is time-series is read out, and the delimiter information associated with the audio information is used. Then, for each utterance unit, the delimiter information that defines the playback start position, loop start position, loop end position, and playback end position is read out, note-on information and note-off information are acquired, and the note-on information or the said In response to the acquisition of note-off information, the reproduction position in the audio information is moved based on the delimiter information, and in response to the acquisition of the note-on information, the utterance unit of the reproduction target indicated by the reproduction position.
  • Reproduction is started from the reproduction start position, and in response to the acquisition of the note-off information corresponding to the note-on information, reproduction from the loop end position to the reproduction end position of the utterance unit to be reproduced is started.
  • a method of reproducing audio information is provided.
  • the waveform data of each of a plurality of vocalization units whose sound pitch and sound order are determined, which are reproduced in response to the acquisition of note-on information or note-off information are time-series.
  • It is an audio information generation method that generates converted audio information, and obtains a singing synthesis score in which information that specifies the pitch of the singing voice to be synthesized is time-series according to the progress of the song, and the singing By singing and synthesizing the synthesis score, the audio information is generated, and the playback start position, loop start position, and loop end position where playback is started according to the note-on information for each utterance unit in the singing synthesis score.
  • an audio information generation method is provided in which delimiter information that defines a playback end position at which playback ends in response to acquisition of note-off information is associated with the audio information.
  • FIG. 1 is a block diagram of an audio information reproduction device.
  • FIG. 2 is a conceptual diagram showing the relationship between the singing composition score and the reproduction data.
  • FIG. 3 is a functional block diagram of the audio information reproduction device.
  • FIG. 4 is a conceptual diagram showing a part of waveform sample data in audio information and delimiter information.
  • FIG. 5 is a diagram illustrating delimiter information for one phrase in the singing composition score.
  • FIG. 6 is a diagram illustrating delimiter information for one phrase in the singing composition score.
  • FIG. 7 is a flowchart of real-time reproduction processing.
  • FIG. 8 is a diagram illustrating a modified example of the delimiter information for one phrase in the singing composition score.
  • FIG. 1 is a block diagram of an audio information reproduction device to which the audio information reproduction method according to the embodiment of the present invention is applied.
  • the audio information reproduction device 100 has a function of reproducing audio information.
  • the audio information reproduction device 100 may also serve as a device having a function of generating audio information. Therefore, the name of the device to which the present invention is applied does not matter.
  • the present invention when the present invention is mainly applied to a device having a function of reproducing audio information, the present device may be referred to as an audio information reproduction device to which an audio information reproduction method is applied.
  • the present apparatus may be referred to as an audio information generator to which the audio information generation method is applied.
  • the audio information playback device 100 includes a bus 23, a CPU (Central Processing Unit) 10, a timer 11, a ROM (ReadOnlyMemory) 12, a RAM (RandomAccessMemory) 13, and a storage unit 14. Further, the audio information reproduction device 100 includes a performance operator 15, a setting operator 17, a display unit 18, a sound source 19, an effect circuit 20, a sound system 21, and a communication I / F (Interface) 22. To be equipped.
  • a CPU Central Processing Unit
  • ROM ReadOnlyMemory
  • RAM RandomAccessMemory
  • the audio information reproduction device 100 includes a performance operator 15, a setting operator 17, a display unit 18, a sound source 19, an effect circuit 20, a sound system 21, and a communication I / F (Interface) 22. To be equipped.
  • the bus 23 transfers data between each part of the audio information reproduction device 100.
  • the CPU 10 is a central processing unit that controls the entire audio information reproduction device 100.
  • the timer 11 is a module for measuring time.
  • the ROM 12 is a non-volatile memory for storing a control program, various data, and the like.
  • the RAM 13 is a volatile memory used as a work area of the CPU 10 and various buffers.
  • the display unit 18 is a display module such as a liquid crystal display panel or an organic EL (Electro-Luminescence) panel. The display unit 18 displays the operating state of the audio information reproduction device 100, various setting screens, a message to the user, and the like.
  • the performance controller 15 is a module that mainly accepts performance operations that specify pitch and timing.
  • the audio information (audio data) can be reproduced according to the operation of the performance controller 15.
  • the audio information reproduction device 100 is configured as, for example, a keyboard instrument type, and the performance operator 15 includes a plurality of keys (not shown) in the keyboard portion.
  • the performance operator 15 may be in another form, for example, a string, as long as it is an operator that specifies the pitch and timing.
  • the performance operator 15 is not limited to the physical operator, and may be a virtual performance operator displayed on the screen by software.
  • the setting operator 17 is an operation module for performing various settings.
  • the external storage device 3 can be connected to, for example, the audio information reproduction device 100.
  • the storage unit 14 is, for example, a hard disk or a non-volatile memory.
  • the communication I / F 22 is a communication module that communicates with an external device.
  • the communication I / F 22 may include a MIDI (musical instrument digital interface) interface, a USB (Universal Serial Bus), or the like.
  • the program for realizing the present invention may be stored in the ROM 12 in advance, or may be acquired via the communication I / F 22 and stored in the storage unit 14.
  • the hardware shown in FIG. 1 is not essential to be built in the audio information reproduction device 100, and may be realized by an external device connected via an interface such as USB. Further, the setting operator 17 and the like may be a virtual operator displayed on the screen and touch-operated.
  • the storage unit 14 can further store one or more singing synthesis scores 25 and one or more playback data 28 (see FIG. 2).
  • the singing composition score 25 includes information and lyrics text data necessary for synthesizing the singing voice.
  • the information required to synthesize the singing voice includes the start and end times of the note, the pitch of the note, the phonetic symbols in the note, and additional parameters for expression (vibrato, specification of consonant length, etc.). included.
  • the lyrics text data is data that describes the lyrics, and the lyrics for each song are described by being separated by syllables. That is, the lyrics text data has character information in which the lyrics are divided into syllables, and this character information is also display information corresponding to the syllables.
  • a syllable is a unit that is consciously pronounced as a group of sounds.
  • one or more voices (groups) associated with one note will be referred to as a "vocal unit”.
  • "Syllable” is an example of "vocalization unit”.
  • Another example of a "vocal unit” is a "mora”.
  • a mora is a unit of sound having a certain time length. For example, mora indicates a unit of time length corresponding to one Japanese character "kana”.
  • the "vocalization unit” either "syllable” or “mora” may be used, or “syllable” and “mora” may be mixed and used in a song or phrase. For example, “syllable” and "mora” may be used properly according to the song and lyrics.
  • the phoneme information database is stored in the storage unit 14, and is referred to by the sound source 19 during singing synthesis.
  • the phoneme information database is a database that stores speech fragment data.
  • the voice element data is data indicating a voice waveform, and includes, for example, spectrum data of a sample sequence of the voice element as waveform data. Further, the voice element data includes element piece pitch data indicating the pitch of the waveform of the voice element piece.
  • the lyrics text data and the voice fragment data may be managed by the database, respectively.
  • Sound source 19 converts performance data and the like into sound signals.
  • the sound source 19 refers to the phonological information database read from the storage unit 14 and obtains the singing sound data which is the waveform data of the synthetic singing voice. Generate.
  • the effect circuit 20 applies a designated acoustic effect to the singing sound data generated by the sound source 19.
  • the sound system 21 converts the singing sound data processed by the effect circuit 20 into an analog signal by a digital / analog converter. Then, the sound system 21 amplifies the singing sound converted into an analog signal and outputs it from a speaker or the like.
  • the reproduction of the audio information 26 in the present embodiment, in addition to the normal reproduction in which the songs are reproduced in order from the beginning, real-time reproduction in which the audio information 26 is reproduced according to the operation of the performance controller 15 is possible.
  • the audio information 26 may be stored in the storage unit 14 in advance, but may be acquired from the outside after the fact. Further, it is also possible for the CPU 10 to generate the audio information 26 by singing and synthesizing the singing synthesis score 25 and converting it into Wave data.
  • FIG. 2 is a conceptual diagram showing the relationship between the singing synthesis score 25 and the reproduction data 28 before singing synthesis.
  • the reproduction data 28 is audio information with delimiter information, and includes audio information 26 and delimiter information 27 associated with the audio information 26.
  • the singing synthesis score 25 is data in which information for designating the pitch of the singing voice to be synthesized is time-series according to the progress of the song.
  • the singing composition score 25 is composed of a plurality of phrases (phrases a to e). Except for the beginning and end of a song, a group of consecutively pronounced syllables (sometimes one syllable) between rests corresponds to one phrase. Alternatively, a group of mora (sometimes one mora) between rests corresponds to a phrase. Alternatively, a set of syllables and mora between rests corresponds to a phrase. That is, one phrase is composed of one or a plurality of "vocal units".
  • the audio information 26 generated by singing and synthesizing the singing synthesis score 25 has a plurality of phrases (phrases A to E) corresponding to the phrases (phrases a to e) of the singing synthesis score 25. Therefore, the audio information 26 is waveform sample data in which the waveform data (plurality of waveform samples) of each of the plurality of syllables in which the sound pitch and the sound order are determined are time-series.
  • the global playback pointer PG and the local playback pointer PL are used to reproduce the audio information 26.
  • the global playback pointer PG is global position information that determines which note to play when a note is turned on.
  • the reproduction pointer PL is position information indicating a reproduction position in a specific note to be reproduced by the global reproduction pointer PG.
  • the global playback pointer PG moves in note units according to the operation of the performance controller 15. Further, the CPU 10 moves the reproduction pointer PL in the note to be reproduced based on the delimiter information 27 associated with the audio information 26. In other words, as shown in FIG.
  • the global playback pointer PG moves at syllable breaks, and the playback pointer PL moves within syllables. Further, in other words, the global reproduction pointer PG moves in the "utterance unit”, and the reproduction pointer PL moves in the "utterance unit". Specific examples of the waveform sample and the delimiter information 27 in the audio information 26 will be described later in FIG.
  • the sound source 19 outputs additional information when converting the singing synthesis score 25 into the audio information 26.
  • This additional information is output for each composite frame unit (for example, 256 samples) of the sound source 19.
  • each syllable is composed of a plurality of audio elements.
  • each audio element is composed of a plurality of frames. That is, in audio information, each "voice unit" is composed of a plurality of voice elements.
  • This additional information includes, for example, the elemental sample used in the frame ([Sil-dZ], [i], etc. described later in FIG. 5) and the position of the frame in the elemental sample (Sil in [Sil-dZ]). , Information indicating which side of dZ the position is).
  • the additional information may include the composite pitch and phase information of the frame.
  • the CPU 10 identifies the delimiter information 27 to be reproduced according to each note-on by matching the additional information with the singing synthesis score 25. If the above additional information cannot be obtained (such as when a natural singing voice or the like is input), the phoneme recognizer may be used to obtain information corresponding to the additional information.
  • FIG. 3 is a functional block diagram of the audio information playback device 100.
  • the audio information reproduction device 100 has a first reading unit 31, a second reading unit 32, a first acquisition unit 33, a point moving unit 34, and a reproduction unit 35 as main functional blocks related to audio information reproduction.
  • the audio information reproduction device 100 has a second acquisition unit 36 and a generation unit 37 as main functional blocks related to audio information generation.
  • the functions of the first reading unit 31 and the second reading unit 32 are realized mainly by the cooperation of the CPU 10, the RAM 13, the ROM 12, and the storage unit 14.
  • the function of the first acquisition unit 33 is mainly realized by the cooperation of the performance operator 15, the CPU 10, the RAM 13, the ROM 12, and the timer 11.
  • the function of the point moving unit 34 is mainly realized by the cooperation of the CPU 10, the RAM 13, the ROM 12, the timer 11, and the storage unit 14.
  • the function of the reproduction unit 35 is mainly realized by the cooperation of the CPU 10, the RAM 13, the ROM 12, the timer 11, the storage unit 14, the effect circuit 20, and the sound system 21.
  • the first reading unit 31 reads the audio information 26 from the storage unit 14 and the like.
  • the second reading unit 32 reads the delimiter information 27 associated with the audio information 26 from the storage unit 14 and the like.
  • the first acquisition unit 33 detects the operation of the performance operator 15, and acquires the note-on information and the note-off information from the detection result.
  • the mechanism for detecting the operation of the performance operator 15 is not limited, and for example, a mechanism for optically detecting the operation may be used. Note that the note-on information and the note-off information may be acquired from the outside via communication.
  • the point moving unit 34 moves the global playback pointer PG and / or the playback pointer PL based on the delimiter information 27 according to the acquired note-on information or note-off information.
  • the reproduction unit 35 starts from the reproduction start position (the position indicated by the reproduction pointer PL at this point) of the syllable to be reproduced indicated by the global reproduction pointer PG in response to the acquisition of the note-on information. Start playback. Further, when the reproduction pointer PL reaches the loop section, the reproduction unit 35 shifts to the loop reproduction of the loop section. Further, the reproduction unit 35 starts reproduction from the loop end position which is the end of the loop section of the syllable to be reproduced to the reproduction end position in response to the acquisition of the note-off information corresponding to the note-on information.
  • the note-off information corresponding to the note-on information is, for example, information acquired by releasing the same key as the pressed key among the keys included in the performance operator 15.
  • the function of the second acquisition unit 36 is realized mainly by the cooperation of the CPU 10, the RAM 13, the ROM 12, and the storage unit 14.
  • the function of the generation unit 37 is mainly realized by the cooperation of the CPU 10, the RAM 13, the ROM 12, the timer 11 and the storage unit 14.
  • the second acquisition unit 36 acquires the singing synthesis score 25 from the storage unit 14 and the like.
  • the generation unit 37 generates the audio information 26 by singing and synthesizing the acquired singing synthesis score 25, and associates the delimiter information 27 with the generated audio information 26 for each syllable in the singing synthesis score 25. By this process, the generation unit 37 generates the reproduction data 28.
  • the reproduction data 28 used in real time is not limited to the data generated by the generation unit 37.
  • FIG. 4 is a conceptual diagram showing a part of the waveform sample data in the audio information 26 and the delimiter information 27.
  • an example of the reproduction order of the audio information 26 is indicated by an arrow.
  • the audio information 26 is usually in units of one song, but FIG. 4 shows a waveform of a phrase composed of five syllables.
  • the waveform sample data corresponding to the five syllables in this phrase are referred to as samples SP1, SP2, SP3, SP4, and SP5 in order.
  • Each sample SP corresponds to each syllable with a singing synthesis score of 25 before singing synthesis.
  • the delimiter information 27 associated with the audio information 26 defines the playback start position S, the loop section RP, the joint portion C, and the playback end position E for each sample SP (for each corresponding syllable).
  • the loop section RP is a section that starts from the loop start position and ends at the loop end position.
  • the reproduction start position S indicates a position at which reproduction is started according to the note-on information.
  • the loop section RP is a reproduction section that is the target of loop reproduction.
  • the playback end position E indicates a position at which playback ends in response to the acquisition of note-off information.
  • the boundary between adjacent sample SPs in the phrase is the joint portion C (C1 to C4).
  • the reproduction start position S1 For example, for the sample SP1, the reproduction start position S1, the loop section RP1, and the reproduction end position E1 are defined. Similarly, for the samples SP2 to SP5, the reproduction start positions S2 to S5, the loop sections RP2 to RP5, and the reproduction end positions E2 to E5 are defined, respectively.
  • the joint portion C1 is a dividing position between the samples SP1 and SP2, and coincides with the reproduction start position S2 and the reproduction end position E1.
  • the joint portion C2 is a dividing position between the samples SP2 and SP3, and coincides with the reproduction start position S3 and the reproduction end position E2.
  • the joint portion C3 is a dividing position between the samples SP3 and SP4, and coincides with the reproduction start position S4 and the reproduction end position E3.
  • the joint portion C4 is a dividing position between the samples SP4 and SP5, and coincides with the reproduction start position S5 and the reproduction end position E4.
  • the reproduction start position S and the reproduction end position E are the reproduction end position E and the rear of the sample SP on the front side, respectively. It is the same as the reproduction start position S of the sample SP on the side.
  • the reproduction start position S of the first sample SP (syllable) (SP1 in FIG. 4) in the phrase is the front end position of the sample SP.
  • the playback end position E of the last sample SP (syllable) (SP5 in FIG. 4) in the phrase is the end position of the sample SP.
  • the loop section RP is a section corresponding to the stationary part (vowel part) of the syllable in the singing synthesis score 25.
  • the playback proceeds as follows in response to the user operating the performance operator 15.
  • the first acquisition unit 33 acquires note-on information when it detects that the performance operator 15 has been pressed, and acquires note-off information when it detects that the performance operator 15 that has been pressed has been released. To do.
  • the point moving unit 34 moves the global reproduction pointer PG to the reproduction start position S1 and sets the reproduction pointer PL to the reproduction start position S1. Then, the sample SP1 becomes the reproduction target, and the reproduction unit 35 starts the reproduction from the reproduction start position S1. After the reproduction from the reproduction start position S1, the point moving unit 34 gradually moves the reproduction pointer PL backward at a predetermined reproduction speed.
  • This predetermined playback speed is, for example, the same as the playback speed when the singing synthesis score 25 is sung and synthesized to generate the audio information 26.
  • the reproduction pointer PL reaches the loop start position which is the front end of the loop section RP1, the process shifts to the reproduction of the loop section RP1.
  • the reproduction unit 35 may convert the pitch of the loop section RP1 into the pitch based on the note-on information and reproduce it. In such a case, the reproduced pitch changes depending on which key of the performance controls 15 is pressed.
  • the playback unit 35 pitch-shifts the pitch according to the note-on based on the pitch of the singing synthesis score 25 corresponding to the sample SP1 and the input note-on pitch information. You may play it. Note that pitch shifting may be applied not only to the loop section RP1 but also to the entire sample SP1.
  • the point moving unit 34 Upon that, when the reproduction pointer PL reaches the loop end position which is the end of the loop section RP, the point moving unit 34 reverses the moving direction of the reproduction pointer PL and reproduces toward the loop start position which is the front end of the loop section RP1. Move the pointer PL. After that, when the reproduction pointer PL reaches the loop start position, the point moving unit 34 returns the movement direction of the reproduction pointer PL to the forward direction (rearward) and moves the reproduction pointer PL toward the loop end position. The reversal of the movement direction of the reproduction pointer PL in the loop section RP1 is repeated until the note-off information corresponding to the note-on information this time is acquired. Therefore, the loop section RP is loop-reproduced.
  • the point moving unit 34 jumps the reproduction pointer PL from the reproduction position at that time to the loop end position which is the end of the loop section RP1. Then, the reproduction unit 35 starts reproduction from the loop end position to the reproduction end position E1. At this time, the reproduction unit 35 may reproduce smoothly by performing crossfade reproduction. Even if the note-off information is acquired before the reproduction pointer PL reaches the loop section RP1, the point moving unit 34 causes the reproduction pointer PL to jump to the loop end position.
  • the reproduction unit 35 starts the reproduction from the loop end position which is the end of the loop section RP1, and then ends the reproduction of the sample SP1 when the reproduction up to the next reproduction end position E, the reproduction end position E1, is completed. At the same time, the reproduction unit 35 discards the local reproduction pointer PL. Then, when the next note-on information is acquired, as the sequence position identification process, the point moving unit 34 first determines the moving destination of the global playback pointer PG, and moves the global playback pointer PG to the moving destination. For example, assuming that the global reproduction pointer PG is moved to the reproduction start position S2, the reproduction unit 35 then starts the reproduction of the sample SP2 according to the new reproduction pointer PL in which the reproduction start position S2 is set as the reproduction start position.
  • the subsequent reproduction operation of the sample SP2 is the same as the reproduction operation of the sample SP1. Further, the reproduction operation of the samples SP3 and SP4 is the same as the reproduction operation of the sample SP1. Regarding the sample SP5, when the reproduction from the loop end position of the loop section RP5 to the reproduction end position E5 is completed, the reproduction of the phrase shown in FIG. 4 ends.
  • the point moving unit 34 moves the global playback pointer PG to the front end of the sample SP at the beginning of the succeeding phrase.
  • the phrase shown in FIG. 4 is the final phrase in the audio information 26, the reproduction of the audio information 26 ends.
  • the loop playback method of the loop section RP does not matter. Therefore, it does not have to be a mode of reciprocating the loop section RP, and a mode of repeating forward reproduction from the loop start position to the loop end position may be used. In addition, loop reproduction may be realized by using time stretching technology.
  • the delimiter information 27 may be associated ex post facto by analyzing ordinary audio information.
  • the generation unit 37 generates and associates the delimiter information 27 at the stage of singing and synthesizing the singing synthesis score 25 to generate the audio information 26. It is not essential that the playback start position S1, the loop section RP1 (loop start position and loop end position), the joint portion C, and the playback end position E1 are associated with the positions illustrated in FIG.
  • the content of the delimiter information 27 differs depending on the rule applied when the reproduction data 28 is generated.
  • 5 and 6 show a typical example of setting the delimiter information 27 to enable natural pronunciation, and a modified example will be described later in FIG.
  • FIG. 5 and 6 are diagrams exemplifying delimiter information for one phrase in the singing composition score 25.
  • FIG. 6 illustrates delimiter information for a phrase consisting of three syllables "I", "test”, and "it” in English.
  • the loop section loops (loop1 to loop3) and the joint portions c (c1 and c2) in the singing synthesis score 25 shown in FIGS. 5 and 6 are the loop section RP and the joint portion in the audio information 26 shown in FIG. 4, respectively. It corresponds to C.
  • syllables are represented by phoneme symbols in a format conforming to X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet) as an example.
  • the voice element database that constitutes the score 25 for singing synthesis, the voice element data of a single phoneme such as [a] and [i] and the voice element data such as [ai] and [ap] are included.
  • the phoneme fragment data of the phoneme chain is stored.
  • the playback start position s1 of the first syllable in the phrase "ji (Japanese character [JI])" is the front end position of dZ in the voice element [Sil-dZ].
  • the playback start position s of the rear syllable of the two adjacent syllables in the phrase is the rear end of the phoneme fragment composed of the last phoneme of the front syllable and the first phoneme of the rear syllable. The position.
  • the reproduction end position e of the front syllable is the same position as the reproduction start position s of the rear syllable.
  • the playback end position e1 of "ji (Japanese character [JI])" among the adjacent "ji (Japanese character [JI])” and “ko (Japanese character [KO])” is "ko (Japan)”. It is the same position as the playback start position s2 of the word character [KO]) ”.
  • the speech pieces [i], [o], and [M] are the stationary parts of each syllable.
  • the sections of these stationary sections are loops 1, 2, and 3.
  • the joint portions c1 and c2 are at the same positions as the reproduction end positions e1 and e2, respectively. As described above, in the Japanese phrase, the joint portion c is located between the consonants.
  • the generation unit 37 generates the delimiter information 27 at the stage of singing and synthesizing the singing synthesis score 25 to generate the audio information 26. At that time, the generation unit 37 sets the reproduction start position s, the loop section loop (loop start position and loop end position), the joint unit c and the reproduction end position e, respectively, into the reproduction start position S and the loop section RP (loop start position). And the loop end position), the joint portion C, and the break information 27 corresponding to the reproduction end position E are generated. Then, the generation unit 37 generates the reproduction data 28 by associating the generated delimiter information 27 with the audio information 26.
  • the reproduction start position s of the first syllable among the plurality of adjacent syllables in each phrase is the front end position of the first syllable.
  • the reproduction end position e of the last syllable among the plurality of adjacent syllables in each phrase is the end position of the last syllable.
  • the length of the stationary section may be less than a predetermined time for each syllable in the singing synthesis score 25.
  • the loop section RP may be too short to properly perform loop reproduction. Therefore, the generation unit 37 may set a section in which the length of the section of the stationary section is set to a length equal to or longer than the predetermined time as the loop section RP in the delimiter information 27.
  • the playback start position s1 of the first syllable "I” in the phrase is the front end position of aI in the speech element [Sil-aI].
  • the playback start position s2 of "test” is the rear end position of the audio element [aI-t].
  • the reproduction start position s3 of “it” is the rear end position of the audio element [s-t].
  • the reproduction end position e1 of "I” is the same position as the reproduction start position s2 of "test”.
  • the reproduction end position e2 of "test” is the same position as the reproduction start position s3 of "it”.
  • the reproduction end position e3 of the last syllable "it” in the phrase is the rear end position of t in the speech element [t-Sil].
  • FIG. 7 is a flowchart of real-time reproduction processing. This process is realized, for example, by the CPU 10 expanding the program stored in the ROM 12 into the RAM 13 and executing the program.
  • the CPU 10 waits until the user accepts the operation of selecting the song to be played (step S101). If there is no song selection operation after a certain period of time, the CPU 10 may determine that the song set by default has been selected.
  • the CPU 10 executes the initial setting (step S102). In this initial setting, the CPU 10 reads the playback data 28 (audio information 26 and delimiter information 27) of the selected song and sets the sequence position to the initial position. That is, the CPU 10 positions the global reproduction pointer PG and the reproduction pointer PL at the front end of the first syllable of the first phrase in the audio information 26.
  • the CPU 10 determines whether or not the note-on based on the operation of the performance operator 15 is detected (note-on information is acquired) (step S103). Then, when the note-on is not detected, the CPU 10 determines whether or not the note-off is detected (note-off information is acquired) (step S107). On the other hand, when the note-on is detected, the CPU 10 executes the sequence position identification process (step S104).
  • the positions of the global playback pointer PG and the local playback pointer PL are determined. For example, if the difference between the previous note-on time and the current note-on time is larger than a predetermined time, the global playback pointer PG is advanced by one.
  • the accompaniment of the selected song may be reproduced in parallel with the real-time reproduction process. In that case, the global playback pointer PG may be moved following the playback position of the accompaniment. Alternatively, the accompaniment may be played in accordance with the movement of the global playback pointer PG.
  • the CPU 10 starts the process of advancing the reproduction pointer PL in the sample SP1. To do.
  • the reproduction pointer PL is located in the loop section RP1 (during loop reproduction), the CPU 10 advances the reproduction pointer PL so as to reciprocate in the loop section RP1.
  • the CPU 10 does not advance the position of the global playback pointer PG, and the sample SP1 is performed like a chord in a plurality of scales. You may pronounce it as.
  • the CPU 10 may advance the position of the global playback pointer PG so that the sample SP1 and the sample SP2 are simultaneously sounded in their respective scales.
  • the pitches of the keys operated at the same time may be processed according to the highest pitch or the lowest pitch.
  • processing may be performed according to the pitch of the last pressed key.
  • step S105 the CPU 10 reads a sample of the sequence position in the audio information 26.
  • step S106 the CPU 10 starts a sounding process for pronouncing the sample read in step S105.
  • the CPU 10 shifts the sound pitch according to the difference between the pitch defined in the audio information 26 and the pitch based on the note-on information this time.
  • the pitch of the sample to be reproduced is converted into the pitch based on the note-on information and reproduced. In the case of chord pronunciation, it is pronounced at a plurality of pitches based on each note-on information.
  • step S107 the CPU 10 advances the process to step S107.
  • step S110 determines whether or not there is a sample being sounded. Then, if there is no sample being sounded, the CPU 10 returns the process to step S103. On the other hand, if there is a sample being pronounced, the CPU 10 executes the pronunciation continuation process (step S111) and returns the process to step S103.
  • the reproduction after the position indicated by the reproduction pointer PL is continued. In particular, when the reproduction pointer PL is located in the loop section RP1, the loop reproduction of the loop section RP1 is continued.
  • step S107 When the note-off is detected in step S107, it can be normally determined that the pressed key has been released, so the CPU 10 executes the sound generation stop process in step S108.
  • the CPU 10 jumps the reproduction pointer PL to the loop end position which is the end of the loop section RP in the sample SP being sounded, and reproduces from the position after the jump to the reproduction end position E adjacent to the rear.
  • the CPU 10 causes the reproduction pointer PL to jump to the loop end position of the loop section RP1.
  • the CPU 10 starts reproduction from the loop end position of the loop section RP1 to the reproduction end position E1 adjacent to the rear.
  • step S109 the CPU 10 determines whether or not the sequence end has been reached, that is, whether or not the audio information 26 of the selected song has been reproduced to the end. Then, the CPU 10 returns the process to step S103 when the audio information 26 of the selected song has not been reproduced to the end, and ends the real-time reproduction process shown in FIG. 7 when the audio information 26 of the selected song has been reproduced to the end. ..
  • the CPU 10 starts playback from the playback start position S in response to the acquisition of note-on information, and shifts to loop playback when the loop section RP is reached. Further, the CPU 10 starts reproduction from the loop end position, which is the end of the loop section RP of the syllable to be reproduced, to the reproduction end position e, in response to the acquisition of the note-off information corresponding to the note-on information.
  • the performance operator 15 By operating the performance operator 15, the user can make the syllables sound in order at a desired timing.
  • the sound of a desired syllable can be extended as desired by the loop reproduction of the loop section RP.
  • pitch shifting it is possible to perform while changing the sound pitch of the syllable according to the performance operator 15 operated by the user. Therefore, it is possible to control the reproduction of audio information in real time.
  • the CPU 10 generates audio information 26 by singing and synthesizing the singing synthesis score 25, and associates the delimiter information 27 with the audio information 26 for each syllable in the singing synthesis score 25. Therefore, it is possible to generate audio information that can be desired to be reproduced and controlled in real time. In addition, the accuracy of associating the delimiter information 27 can be improved.
  • the loop section RP is a section corresponding to the stationary part of each syllable in the singing composition score 25. Moreover, when the length of the section of the stationary portion is less than the predetermined time for each syllable in the singing synthesis score 25, the CPU 10 sets the length of the section of the stationary portion to be longer than the predetermined time. , Corresponds to the audio information 26 as a loop section RP. Therefore, the sound at the time of loop reproduction can be made natural.
  • FIG. 8 is a diagram illustrating a modified example of the delimiter information for one phrase in the singing composition score 25.
  • delimiter information for a phrase consisting of two syllables "start” and "start” in English is illustrated.
  • the three patterns 1), 2) and 3) in FIG. 8 have the following characteristics.
  • pattern 2 it is the connection part between consonants that is difficult to perceive that a piece is connected.
  • a position preceding the note-on by a certain length may be used as the delimiter position.
  • the performance may be performed in advance at a fixed timing regardless of the lyrics, so that the performance can be performed relatively easily at the timing according to the accompaniment.
  • pattern 2) is the same as the one to which the rule described with reference to FIG. 6 is applied.
  • start and start are represented by phonetic symbols, [Sil-s] [st] [tQ @] [Q @] [Q @ -t] [ts] [st] [tQ @] [Q @] [Q @ -t] [t-Sil].
  • the playback end position e of the rear "start” is the rear end position of t in the audio element [t-Sil].
  • the voice element [Q @] is a stationary part of each syllable, and these sections are loop sections loop.
  • the playback start position s of the first "start” in the phrase is the front end position of s in the audio element [Sil-s].
  • the reproduction start position s of the rear syllable of the two adjacent syllables in the phrase is the same as that of the joint portion c. That is, the joint portion c is the front end position of the rear phoneme in the phoneme piece composed of the last phoneme of the front syllable and the first phoneme of the rear syllable.
  • the front end position of s in [t-s] is the joint portion c.
  • the reproduction end position e of the front syllable is the same as the reproduction start position s and the joint portion c of the rear syllable.
  • the reproduction start position s is the rear side of the phoneme piece composed of the phoneme (phoneme corresponding to the stationary part) extended as the loop section loop and the phoneme immediately before the phoneme. This is the front end position of the phoneme (phoneme corresponding to the stationary part).
  • the front end position of Q @ in the first [t-Q @] is the playback start position s.
  • the reproduction start position s of the rear syllable is the same as that of the joint portion c.
  • the joint portion c is the front end position of Q @ in the second [t-Q @].
  • the reproduction end position e of the front syllable is the same as the reproduction start position s and the joint portion c of the rear syllable.
  • the rules applied when generating the playback data 28 are not limited to one type. In addition, the rules applied may differ depending on the language.
  • step S111 loop reproduction may be performed using the section [i] of the audio element [dZ-i].
  • the singing composition score 25 has facial expression parameters such as vibrato
  • the information may be ignored and the singing composition score 25 may be converted into audio information 26.
  • the reproduction data 28 may include facial expression parameters such as vibrato as information. Even in that case, in the real-time reproduction processing of the audio information 26 in the reproduction data 28, the reproduction of the facial expression parameter such as vibrato may be invalidated.
  • the pronunciation time may be changed while maintaining the vibrato cycle included in the audio information 26 by matching the repetition timing in the loop reproduction with the amplitude waveform of the vibrato.
  • step S106 the Forman shift may be used together. Also, it is not essential to adopt pitch shifting.
  • step S108 after-touch processing is performed instead of the reproduction from the loop end position which is the end of the loop section RP to the reproduction end position e.
  • the above-mentioned predetermined sample data may be reproduced.
  • a grouping process as shown in "WO2016 / 152715” or the like may be applied. For example, if the syllables “ko (Japanese character [KO])" and “i (Japanese character [I])" are grouped, note during pronunciation of "ko (Japanese character [KO])". Depending on the acquisition of the off information, the pronunciation of "ko (Japanese character [KO])” may be followed by the pronunciation of "i (Japanese character [I])”.
  • the audio information 26 used in the real-time reproduction processing is not limited to the one having the sample SP (waveform data corresponding to the syllable) corresponding to the syllable of the singing. That is, the audio information reproduction method of the present invention may be applied to audio information that is not based on singing. Therefore, the audio information 26 is not necessarily limited to that generated by singing synthesis.
  • delimiter information is associated with audio information that is not based on singing, for example, S (Sustain) in the envelope waveform is associated with a section for loop playback, and R (Release) is associated with end information to be reproduced at note-off. It may be attached.
  • the performance operator 15 has a function of designating a pitch.
  • the number of input controls for inputting note-on information and note-off information may be limited to one or more.
  • the input operator may be dedicated, but may be assigned to a part of the performance operator 15 (for example, two white keys having the lowest pitch of the keyboard).
  • the CPU 10 may seek the next delimiter position and move the global reproduction pointer PG and / or the reproduction pointer PL each time information is input by the input operator.
  • the number of channels for reproducing the audio information 26 is not limited to one.
  • the present invention may be applied to each of a plurality of channels sharing the delimiter information 27. At that time, the channel for reproducing the accompaniment may be excluded from the target of the pitch shift processing.
  • the present device when focusing only on the audio information reproduction function, it is not essential that the present device has an audio information generation function. On the contrary, when focusing only on the audio information generation function, it is not essential that the present device has an audio information reproduction function.
  • the same effect as that of the present invention may be obtained by reading the recording medium that stores the control program represented by the software for achieving the present invention into the present device.
  • the program code itself read from the recording medium realizes the novel function of the present invention, and the non-transient computer-readable recording medium 5 (see FIG. 1) that stores the program code.
  • the CPU 10 can read the program code from the recording medium 5 via the communication I / F22.
  • the program code may be supplied via a transmission medium or the like, in which case the program code itself constitutes the present invention.
  • Non-transient computer-readable recording media 5 include floppy disks, hard disks, optical disks, magneto-optical disks, CD-ROMs, CD-Rs, DVD-ROMs, DVD-Rs, magnetic tapes, and non-volatile memory cards. Etc. can be used.
  • a non-transient computer-readable recording medium a volatile memory inside a computer system that serves as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line (a volatile memory inside a computer system (a server or client)
  • a DRAM Dynamic Random Access Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

オーディオ情報を読み出し、オーディオ情報に対応付けられた区切り情報であって、発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する区切り情報を読み出し、ノートオン情報を取得したことに応じて、オーディオ情報における再生位置が示す再生対象の発声単位の再生開始位置から再生を開始し、ノートオン情報に対応するノートオフ情報を取得したことに応じて、再生対象の発声単位のループ終了位置から再生終了位置までの再生を開始する、オーディオ情報再生方法を提供する。

Description

オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム
 本発明は、オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラムに関する。
 従来、歌唱されるための複数の各音節が音符に対応付けられたデータ(歌唱合成用スコア)を再生する技術が知られている。下記特許文献1の装置は、歌唱合成用スコアを、ユーザの演奏操作に応じて歌唱合成することで、歌唱音声のピッチや発音期間をリアルタイムに変化させることができる。また、歌唱合成用スコアを歌唱合成してWaveデータに変換することで、複数の音節の各々の波形データが時系列化されたオーディオ情報を生成することも可能である。
特許4735544号公報
 しかしながら、一旦、歌唱合成用スコアを歌唱合成してオーディオ情報に変換すると、そのオーディオ情報の各音節の発音タイミングや発音長さは決まっている。そのため、歌唱合成して生成されたオーディオ情報の再生において、ユーザの意思で発音や消音を自然な形で変化させることは困難である。すなわち、オーディオ情報は通常、時系列に再生されるが、演奏操作等に応じてリアルタイムで所望に再生制御することに適した情報ではない。そこで、オーディオ情報のリアルタイムで且つ所望の再生制御を実現することに関し、改善の余地があった。
 本発明の目的は、オーディオ情報のリアルタイムで且つ所望の再生制御を実現することができるオーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラムを提供することである。
 本発明の一形態によれば、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を読み出し、ノートオン情報およびノートオフ情報を取得し、前記ノートオン情報または前記ノートオフ情報を取得したことに応じて、前記区切り情報に基づいて前記オーディオ情報における再生位置を移動させ、前記ノートオン情報を取得したことに応じて、前記再生位置が示す再生対象の発声単位の前記再生開始位置から再生を開始し、前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、前記再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、オーディオ情報再生方法が提供される。
 本発明の他の形態によれば、ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成方法であって、合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得し、前記歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける、オーディオ情報生成方法が提供される。
 本発明の一形態によれば、オーディオ情報の再生をリアルタイムで所望に制御することができる。
 本発明の他の形態によれば、リアルタイムで所望に再生制御可能なオーディオ情報を生成することができる。
図1はオーディオ情報再生装置のブロック図である。 図2は歌唱合成用スコアと再生用データとの関係を示す概念図である。 図3はオーディオ情報再生装置の機能ブロック図である。 図4はオーディオ情報における波形サンプルデータの一部と区切り情報とを示す概念図である。 図5は歌唱合成用スコアにおける1つのフレーズに対する区切り情報を例示する図である。 図6は歌唱合成用スコアにおける1つのフレーズに対する区切り情報を例示する図である。 図7はリアルタイム再生処理のフローチャートである。 図8は歌唱合成用スコアにおける1つのフレーズに対する区切り情報の変形例を例示する図である。
 以下、図面を参照して本発明の実施の形態を説明する。
 図1は、本発明の一実施の形態に係るオーディオ情報再生方法が適用されるオーディオ情報再生装置のブロック図である。このオーディオ情報再生装置100は、オーディオ情報を再生する機能を有する。オーディオ情報再生装置100は、オーディオ情報を生成する機能を有する装置を兼ねてもよい。従って、本発明が適用される装置の呼称は問わない。例えば、本発明が、主としてオーディオ情報を再生する機能を有する装置に適用される場合、本装置を、オーディオ情報再生方法が適用されるオーディオ情報再生装置と呼称してもよい。また、本発明が、主としてオーディオ情報を生成する機能を有する装置に適用される場合、本装置を、オーディオ情報生成方法が適用されるオーディオ情報生成装置と呼称してもよい。
 このオーディオ情報再生装置100は、バス23と、CPU(Central Processing Unit)10と、タイマ11と、ROM(Read Only Memory)12と、RAM(Random AccessMemory)13と、記憶部14と、を備える。また、オーディオ情報再生装置100は、演奏操作子15と、設定操作子17と、表示部18と、音源19と、効果回路20と、サウンドシステム21と、通信I/F(Interface)22と、を備える。
 バス23はオーディオ情報再生装置100における各部の間のデータ転送を行う。CPU10は、オーディオ情報再生装置100全体の制御を行う中央処理装置である。タイマ11は、時間を計測するモジュールである。ROM12は制御プログラムや各種のデータなどを格納する不揮発性のメモリである。RAM13はCPU10のワーク領域及び各種のバッファなどとして使用される揮発性のメモリである。表示部18は、液晶ディスプレイパネル、有機EL(Electro-Luminescence)パネルなどの表示モジュールである。表示部18は、オーディオ情報再生装置100の動作状態、各種設定画面、ユーザに対するメッセージなどを表示する。
 演奏操作子15は、主として音高およびタイミングを指定する演奏操作を受け付けるモジュールである。本実施の形態では、オーディオ情報(オーディオデータ)を、演奏操作子15の操作に従って再生することができる。オーディオ情報再生装置100は、例えば、鍵盤楽器型に構成され、演奏操作子15は、鍵盤部における複数の鍵(図示せず)を含む。しかし、オーディオ情報再生装置100の形態は問わず、演奏操作子15は、音高およびタイミングを指定する操作子であれば、他の形態、例えば弦であってもよい。また、演奏操作子15は、物理的な操作子に限らず、ソフトウェアにより画面上に表示される仮想の演奏操作子であってもよい。
 設定操作子17は、各種設定を行うための操作モジュールである。外部記憶装置3は、例えば、オーディオ情報再生装置100に接続可能である。記憶部14は、例えば、ハードディスクや不揮発メモリである。通信I/F22は、外部機器と通信する通信モジュールである。通信I/F22は、MIDI(musical instrument digital interface)インターフェイスや、USB(Universal Serial Bus)等を含んでもよい。本発明を実現するためのプログラムは、予めROM12に格納されるか、あるいは、通信I/F22を介して取得されて記憶部14に記憶されてもよい。
 なお、図1に示したハードウェアの少なくとも一部は、オーディオ情報再生装置100に内蔵されることは必須でなく、USB等のインターフェイスを介して接続された外部装置により実現されてもよい。また、設定操作子17等は、画面上に表示されてタッチ操作される仮想の操作子であってもよい。
 記憶部14はさらに、1つ以上の歌唱合成用スコア25と、1つ以上の再生用データ28とを格納することができる(図2参照)。歌唱合成用スコア25には、歌声を合成するために必要な情報や歌詞テキストデータが含まれる。歌声を合成するために必要な情報には、ノートの開始時刻および終了時刻、ノートの音高、ノート内の発音記号、表情付けのための付加パラメータ(ビブラート、子音の長さの指定等)が含まれる。歌詞テキストデータは、歌詞を記述したデータであり、曲ごとの歌詞が音節単位で区切られて記述されている。すなわち、歌詞テキストデータは歌詞を音節に区切った文字情報を有し、この文字情報は音節に対応する表示用の情報でもある。ここで音節とは、一まとまりの音として意識され発音される単位である。本実施の形態において、1つのノートに対応付けられた1個または複数個の音声(群)を、「発声単位」と呼ぶことにする。「音節」は、「発声単位」の一例である。「発声単位」の別の例としては、「モーラ」が挙げられる。モーラとは、一定の時間的長さをもった音の単位を示す。例えば、モーラは、日本語の「かな」1字に相当する時間長さの単位を示す。「発声単位」として、「音節」または「モーラ」のいずれかが用いられてもよいし、曲やフレーズの中で「音節」および「モーラ」が混在して用いられてもよい。例えば、歌いまわしや歌詞に応じて、「音節」および「モーラ」が使い分けられてもよい。
 なお、音韻情報データベースが記憶部14に記憶されており、歌唱合成の際に音源19によって参照される。音韻情報データベースは、音声素片データを格納するデータベースである。音声素片データは音声の波形を示すデータであり、例えば、音声素片のサンプル列のスペクトルデータを波形データとして含む。また、音声素片データには、音声素片の波形のピッチを示す素片ピッチデータが含まれる。歌詞テキストデータ、音声素片データは、それぞれ、データベースにより管理されてもよい。
 音源19は、演奏データ等を音信号に変換する。歌唱合成用シーケンスデータである歌唱合成用スコア25に基づき歌唱音を発音する場合、音源19は、記憶部14から読み出した音韻情報データベースを参照し、合成歌唱音声の波形データである歌唱音データを生成する。効果回路20は、音源19が生成した歌唱音データに対して、指定された音響効果を適用する。サウンドシステム21は、効果回路20による処理後の歌唱音データを、デジタル/アナログ変換器によりアナログ信号に変換する。そして、サウンドシステム21は、アナログ信号に変換された歌唱音を増幅してスピーカなどから出力する。
 オーディオ情報26の再生に関し、本実施の形態では、曲の先頭から順に再生する通常再生のほかに、演奏操作子15の操作に従って再生するリアルタイム再生が可能である。なお、オーディオ情報26は予め記憶部14に記憶されてもよいが、事後的に外部から取得されてもよい。さらに、CPU10が、歌唱合成用スコア25を歌唱合成してWaveデータに変換することで、オーディオ情報26を生成することも可能である。
 図2は、歌唱合成前の歌唱合成用スコア25と再生用データ28との関係を示す概念図である。再生用データ28は、区切り情報付きオーディオ情報であり、オーディオ情報26と、オーディオ情報26に対応付けられた区切り情報27とから成る。歌唱合成用スコア25は、合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化したデータである。歌唱合成用スコア25は、複数のフレーズ(フレーズa~e)から成る。曲の先頭と末尾を除き、休符と休符との間の連続して発音する一かたまりの音節群(1音節の場合もある)が1つのフレーズに相当する。あるいは、休符と休符との間の1かたまりのモーラ群(1モーラの場合もある)が、1つのフレーズに相当する。あるいは、休符と休符との間の音節およびモーラの集まりが1つのフレーズに相当する。つまり、1つのフレーズは、1つ、または、複数の「発声単位」から構成される。
 歌唱合成用スコア25を歌唱合成して生成されるオーディオ情報26は、歌唱合成用スコア25のフレーズ(フレーズa~e)に対応する複数のフレーズ(フレーズA~E)を有する。従って、オーディオ情報26は、発音音高および発音順序が決められた複数の音節の各々の波形データ(複数の波形サンプル)が時系列化された波形サンプルデータである。
 図2に示すように、オーディオ情報26の再生には、グローバル再生ポインタPGとローカルな再生ポインタPLとが用いられる。グローバル再生ポインタPGは、ノートオンがあった時にどのノートを再生するかを決めるグローバルな位置情報である。再生ポインタPLは、グローバル再生ポインタPGによって再生対象となっている特定のノート内の再生位置を指す位置情報である。リアルタイム再生においては、演奏操作子15の操作に従ってグローバル再生ポインタPGがノート単位で移動する。また、CPU10は、オーディオ情報26に対応付けられた区切り情報27に基づいて、再生対象のノート内において再生ポインタPLを移動させる。言い換えると、図2に示すように、グローバル再生ポインタPGは、音節の区切りで移動し、再生ポインタPLは、音節内を移動する。さらに、言い換えると、グローバル再生ポインタPGは、「発声単位」で移動し、再生ポインタPLは、「発声単位」内を移動する。オーディオ情報26における波形サンプルおよび区切り情報27の具体例については図4で後述する。
 区切り情報27を作成するために、音源19は歌唱合成用スコア25をオーディオ情報26に変換する際に、付加情報を出力する。この付加情報は、音源19の合成フレーム単位(例えば256サンプル)毎に出力される。オーディオ情報において、各音節は複数の音声素片から構成される。そして、各音声素片は複数のフレームから構成される。つまり、オーディオ情報において、各「発声単位」は複数の音声素片から構成される。この付加情報は、例えば、当該フレームで使用した素片サンプル(図5で後述する[Sil-dZ]、[i]等)、当該フレームの素片サンプル内の位置([Sil-dZ]におけるSil、dZのどちら側の位置なのかを示す情報)を含む。なお、上記付加情報は、当該フレームの合成ピッチおよび位相情報を含んでもよい。CPU10は、上記付加情報と歌唱合成用スコア25との間でマッチングを取ることで、各ノートオンに応じて再生すべき区切り情報27を特定する。なお、上記付加情報が得られない場合(自然歌唱音声等が入力された場合等)には、音素認識器を使って付加情報に相当する情報を得るようにしてもよい。
 図3は、オーディオ情報再生装置100の機能ブロック図である。オーディオ情報再生装置100は、オーディオ情報再生に関する主な機能ブロックとして、第1読み出し部31、第2読み出し部32、第1取得部33、ポイント移動部34および再生部35を有する。オーディオ情報再生装置100は、オーディオ情報生成に関する主な機能ブロックとして、第2取得部36および生成部37を有する。
 オーディオ情報再生機能に関し、第1読み出し部31および第2読み出し部32の機能は、主としてCPU10、RAM13、ROM12および記憶部14の協働により実現される。第1取得部33の機能は、主として演奏操作子15、CPU10、RAM13、ROM12およびタイマ11の協働により実現される。ポイント移動部34の機能は、主としてCPU10、RAM13、ROM12、タイマ11および記憶部14の協働により実現される。再生部35の機能は、主としてCPU10、RAM13、ROM12、タイマ11、記憶部14、効果回路20およびサウンドシステム21の協働により実現される。
 第1読み出し部31は、記憶部14等からオーディオ情報26を読み出す。第2読み出し部32は、記憶部14等から、オーディオ情報26に対応付けられた区切り情報27を読み出す。第1取得部33は、演奏操作子15の操作を検出し、検出結果からノートオン情報およびノートオフ情報を取得する。なお、演奏操作子15の操作検出の機構は問わず、例えば、操作を光学的に検出する機構であってもよい。なお、ノートオン情報およびノートオフ情報は、外部から通信を介して取得されたものであってもよい。ポイント移動部34は、取得されたノートオン情報またはノートオフ情報が取得されたことに応じて、区切り情報27に基づいて、グローバル再生ポインタPGおよび/または再生ポインタPLを移動させる。
 再生部35に関する詳細な動作は図4で説明する。概略を述べると、まず、再生部35は、ノートオン情報が取得されたことに応じて、グローバル再生ポインタPGが示す再生対象の音節の再生開始位置(この時点では再生ポインタPLが示す位置)から再生を開始する。また、再生部35は、再生ポインタPLがループ区間に達した場合は当該ループ区間のループ再生に移行する。さらに、再生部35は、ノートオン情報に対応するノートオフ情報が取得されたことに応じて、再生対象の音節のループ区間の終端であるループ終了位置から再生終了位置までの再生を開始する。ノートオン情報に対応するノートオフ情報は、例えば、演奏操作子15に含まれる鍵のうち押下操作された鍵と同じ鍵が離操作されることで取得される情報である。
 一方、オーディオ情報生成機能に関し、第2取得部36の機能は、主としてCPU10、RAM13、ROM12および記憶部14の協働により実現される。生成部37の機能は、主としてCPU10、RAM13、ROM12、タイマ11および記憶部14の協働により実現される。第2取得部36は、記憶部14等から歌唱合成用スコア25を取得する。生成部37は、取得された歌唱合成用スコア25を歌唱合成することでオーディオ情報26を生成すると共に、歌唱合成用スコア25における音節ごとに、区切り情報27を、生成したオーディオ情報26に対応付ける。この処理によって、生成部37は、再生用データ28を生成する。なお、リアルタイムで用いる再生用データ28は、生成部37によって生成されたものに限定されない。
 図4は、オーディオ情報26における波形サンプルデータの一部と区切り情報27とを示す概念図である。図4において、オーディオ情報26の再生順序の例が矢印で示されている。オーディオ情報26は、通常、1曲分を単位とするが、図4では、5つの音節から成るフレーズの波形を示している。このフレーズにおける5つの音節に対応する波形サンプルデータを順に、サンプルSP1、SP2、SP3、SP4、SP5と呼称する。各サンプルSPは、歌唱合成前の歌唱合成用スコア25の各音節に対応している。オーディオ情報26に対応付けられている区切り情報27により、サンプルSPごと(対応する音節ごと)に、再生開始位置S、ループ区間RP、ジョイント部Cおよび再生終了位置Eが規定されている。ループ区間RPは、ループ開始位置から始まり、ループ終了位置で終わる区間である。再生開始位置Sは、ノートオン情報に応じて再生を開始する位置を示す。ループ区間RPは、ループ再生の対象となる再生区間である。再生終了位置Eは、ノートオフ情報を取得したことに応じて再生を終了する位置を示す。フレーズ内で隣接するサンプルSP同士の境界は、ジョイント部C(C1~C4)である。
 例えば、サンプルSP1については、再生開始位置S1、ループ区間RP1、再生終了位置E1が規定されている。同様に、サンプルSP2~SP5については、それぞれ、再生開始位置S2~S5、ループ区間RP2~RP5、再生終了位置E2~E5が規定されている。
 ジョイント部C1は、サンプルSP1、SP2間の区切り位置であり、再生開始位置S2および再生終了位置E1と一致する。ジョイント部C2は、サンプルSP2、SP3間の区切り位置であり、再生開始位置S3および再生終了位置E2と一致する。ジョイント部C3は、サンプルSP3、SP4間の区切り位置であり、再生開始位置S4および再生終了位置E3と一致する。ジョイント部C4は、サンプルSP4、SP5間の区切り位置であり、再生開始位置S5および再生終了位置E4と一致する。
 フレーズ中において、隣接するサンプルSPを前後双方に有するサンプルSP(図4ではサンプルSP2~SP4)については、再生開始位置S、再生終了位置Eはそれぞれ、前側のサンプルSPの再生終了位置E、後側のサンプルSPの再生開始位置Sと同じである。フレーズ中における先頭のサンプルSP(音節)(図4ではSP1)の再生開始位置Sは、当該サンプルSPの前端位置である。フレーズ中における最後尾のサンプルSP(音節)(図4ではSP5)の再生終了位置Eは、当該サンプルSPの終端位置である。ループ区間RPは、歌唱合成用スコア25における音節の、ステーショナリ部(母音部)に対応する区間である。
 このような区切り情報27に基づいて、ユーザが、演奏操作子15を操作することに応じて、次のように再生が進行する。第1取得部33は、演奏操作子15が押下操作されたことを検出するとノートオン情報を取得し、押下操作されている演奏操作子15が離操作されたことを検出するとノートオフ情報を取得する。
 例えば、サンプルSP1より前のフレーズが存在しないか、あるいはサンプルSP1より前のフレーズの再生が終了している状態で、ノートオン情報が取得されたとする。すると、ポイント移動部34はグローバル再生ポインタPGを再生開始位置S1に移動させると共に、再生ポインタPLを再生開始位置S1に設定する。すると、サンプルSP1が再生対象となり、再生部35は、再生開始位置S1からの再生を開始する。再生開始位置S1からの再生後、所定の再生速度で、ポイント移動部34が再生ポインタPLを後方へ漸次移動させていく。この所定の再生速度は、例えば、歌唱合成用スコア25を歌唱合成してオーディオ情報26を生成する際の再生速度と同じである。再生ポインタPLがループ区間RP1の前端であるループ開始位置に至るとループ区間RP1の再生へ移行する。
 リアルタイム演奏におけるループ区間RP1の再生を実行する際には、再生部35は、ループ区間RP1の音高をノートオン情報に基づく音高に変換して再生してもよい。そのようにする場合、演奏操作子15のうちどの鍵を押下したかによって再生音高が変わる。
 例えば、再生部35は、サンプルSP1に対応する歌唱合成用スコア25の音高と、入力されたノートオンの音高情報とに基づき、ノートオンに応じた音高になるようにピッチシフトして再生してもよい。なお、ピッチシフト、をループ区間RP1だけでなく、サンプルSP1全体に対して適用してもよい。
 やがて、再生ポインタPLがループ区間RPの終端であるループ終了位置に達すると、ポイント移動部34は、再生ポインタPLの移動方向を逆転させ、ループ区間RP1の前端であるループ開始位置へ向かって再生ポインタPLを移動させていく。その後、再生ポインタPLがループ開始位置に達すると、ポイント移動部34は、再生ポインタPLの移動方向を順方向(後方)に戻し、ループ終了位置へ向かって再生ポインタPLを移動させていく。ループ区間RP1における再生ポインタPLの移動方向の反転は、今回のノートオン情報に対応するノートオフ情報が取得されるまで繰り返される。従って、ループ区間RPがループ再生される。やがて、ノートオフ情報が取得されると、ポイント移動部34は、そのときの再生位置から、再生ポインタPLを、ループ区間RP1の終端であるループ終了位置にジャンプさせる。そして、再生部35は、ループ終了位置から再生終了位置E1までの再生を開始する。この際、再生部35は、クロスフェード再生を行うことで滑らかに再生するようにしても良い。なお、再生ポインタPLがループ区間RP1に至る前にノートオフ情報が取得された場合であっても、ポイント移動部34は、再生ポインタPLをループ終了位置にジャンプさせる。
 再生部35は、ループ区間RP1の終端であるループ終了位置からの再生を開始した後、次の再生終了位置Eである再生終了位置E1までの再生が終了すると、サンプルSP1の再生を終了する。それと共に、再生部35は、ローカルな再生ポインタPLを破棄する。そして、次のノートオン情報が取得されると、シーケンス位置の同定処理として、まず、ポイント移動部34がグローバル再生ポインタPGの移動先を判断し、グローバル再生ポインタPGを移動先へ移動させる。例えば、グローバル再生ポインタPGを再生開始位置S2に移動させたとすると、次に再生部35は、再生開始位置S2を再生開始位置として設定した新たな再生ポインタPLに従って、サンプルSP2の再生を開始する。
 その後のサンプルSP2の再生動作はサンプルSP1の再生動作と同様である。また、サンプルSP3、SP4の再生動作もサンプルSP1の再生動作と同様である。サンプルSP5については、ループ区間RP5のループ終了位置から再生終了位置E5までの再生が終了すると、図4に示すフレーズの再生は終了する。図4に示すフレーズに対し、後続のフレーズがある場合は、ポイント移動部34は、グローバル再生ポインタPGを、後続のフレーズの先頭のサンプルSPの前端に移動させる。図4に示すフレーズが、オーディオ情報26における最終フレーズである場合は、オーディオ情報26の再生が終了する。
 なお、ループ区間RPのループ再生の手法は問わない。従って、ループ区間RPを往復する態様でなくてもよく、ループ開始位置からループ終了位置まで順方向の再生を繰り返す態様でもよい。また、タイムストレッチ技術を用いてループ再生を実現してもよい。
 図5、図6を用いて、生成部37(図3)が歌唱合成用スコア25から再生用データ28を生成する際に、オーディオ情報26に区切り情報27がどのよう対応付けられるかについて説明する。なお、本発明のオーディオ情報再生方法を実現することに限れば、区切り情報27は、通常のオーディオ情報を解析することで事後的に対応付けられてもよい。しかし、より高い精度で区切り情報27を対応付けるために、生成部37は、歌唱合成用スコア25を歌唱合成してオーディオ情報26を生成する段階で、区切り情報27を生成して対応付ける。なお、再生開始位置S1、ループ区間RP1(ループ開始位置およびループ終了位置)、ジョイント部Cおよび再生終了位置E1は、オーディオ情報26における図4に例示した位置に対応付けられていることは必須でない。再生用データ28を生成する際に適用するルールによって、区切り情報27の内容は異なる。図5、図6では、自然な発音を可能にするための区切り情報27の設定の代表例を説明し、変形例については図8で後述する。
 図5、図6は、歌唱合成用スコア25における1つのフレーズに対する区切り情報を例示する図である。図5では、日本語の「じ([JI]と発音される日本語文字)」「こ([KO]と発音される日本語文字)」「ちゅ([CYU]と発音される日本語文字)」という3つの音節から成るフレーズに対する区切り情報を例示する。図6では、英語の「I」「test」「it」という3つの音節から成るフレーズに対する区切り情報を例示する。図5、図6に示す歌唱合成用スコア25における再生開始位置s(s1~s3)、再生終了位置e(e1~e3)は、それぞれ、図4に示すオーディオ情報26における再生開始位置S、再生終了位置Eに対応している。また、図5、図6に示す歌唱合成用スコア25におけるループ区間loop(loop1~loop3)、ジョイント部c(c1、c2)は、それぞれ、図4に示すオーディオ情報26におけるループ区間RP、ジョイント部Cに対応している。
 図5、図6において、音節を、一例としてX-SAMPA(Extended Speech Assessment Methods Phonetic Alphabet)に準拠した形式の音素記号で表している。歌唱合成用スコア25を構成する音声素片データベースには、[a]、[i]といったような単一の音素の音声素片データや、[a-i]、[a-p]といったような音素連鎖の音声素片データが記憶されている。
 図5の例において、「じ([JI]と発音される日本語文字)」「こ([KO]と発音される日本語文字)」「ちゅ([CYU]と発音される日本語文字)」は表音文字である。「じ(日本語文字[JI])」を音素記号で表すと[dZ-i]となる。「こ(日本語文字[KO])」を音素記号で表すと[k-o]となる。「ちゅ(日本語文字[CYU])」を音素記号で表すと[ts-M]となる。歌唱合成用スコア25においては、フレーズの先頭音節の音声素片の表記は「Sil-」で始まり、最後の音節の音声素片の表記は「-Sil」で終わる。また、繋げて発音する音素間には、音素連鎖の音声素片が配置される。従って、1つのフレーズとして繋げて発音するため場合の「じ(日本語文字[JI])」「こ(日本語文字[KO])」「ちゅ(日本語文字[CYU])」を音素記号で表すと、
[Sil-dZ][dZ-i][i][i-k][k-o][o][o-tS][ts-M][M][M-Sil]となる。
 再生開始位置sに関し、フレーズ中の先頭の音節である「じ(日本語文字[JI])」の再生開始位置s1は、音声素片[Sil-dZ]におけるdZの前端位置である。また、フレーズ中の隣接する2つの音節のうち後側の音節の再生開始位置sは、前側の音節の最後の音素と後側の音節の最初の音素とで構成される音声素片の後端位置である。例えば、隣接する「じ(日本語文字[JI])」「こ(日本語文字[KO])」のうち「こ(日本語文字[KO])」については、「じ(日本語文字[JI])」の最後の音素(i)と「こ(日本語文字[KO])」の最初の音素(k)とで構成される音声素片[i-k]の後端位置が、再生開始位置s2となる。「こ(日本語文字[KO])」「ちゅ(日本語文字[CYU])」のうち「ちゅ(日本語文字[CYU])」については、音声素片[o-tS]の後端位置が、再生開始位置s3となる。
 再生終了位置eに関し、前側の音節の再生終了位置eは、後側の音節の再生開始位置sと同じ位置である。例えば、隣接する「じ(日本語文字[JI])」「こ(日本語文字[KO])」のうち「じ(日本語文字[JI])」の再生終了位置e1は、「こ(日本語文字[KO])」の再生開始位置s2と同じ位置である。「こ(日本語文字[KO])」「ちゅ(日本語文字[CYU])」のうち「こ(日本語文字[KO])」の再生終了位置e2は、「ちゅ(日本語文字[CYU])」の再生開始位置s3と同じ位置である。また、フレーズ中の最後の音節である「ちゅ(日本語文字[CYU])」の再生終了位置e3は、音声素片[M-Sil]におけるMの後端位置である。
 音声素片[i]、[o]、[M]は、各音節のステーショナリ部である。これらステーショナリ部の区間がloop1、2、3となる。また、ジョイント部c1、c2は、それぞれ、再生終了位置e1、e2と同じ位置である。このように、日本語のフレーズにおいては、子音と子音との間にジョイント部cが位置する。
 生成部37は、歌唱合成用スコア25を歌唱合成してオーディオ情報26を生成する段階で、区切り情報27を生成する。その際、生成部37は、再生開始位置s、ループ区間loop(ループ開始位置およびループ終了位置)、ジョイント部cおよび再生終了位置eを、それぞれ、再生開始位置S、ループ区間RP(ループ開始位置およびループ終了位置)、ジョイント部Cおよび再生終了位置Eに対応させた区切り情報27を生成する。そして、生成部37は、生成した区切り情報27をオーディオ情報26に対応付けることで、再生用データ28を生成する。従って、オーディオ情報26においては、各フレーズ中の隣接する複数の音節のうち先頭の音節の再生開始位置sは、当該先頭の音節の前端位置となる。また、オーディオ情報26においては、各フレーズ中の隣接する複数の音節のうち最後尾の音節の再生終了位置eは、当該最後尾の音節の終端位置となる。
 なお、歌唱合成用スコア25を歌唱合成する際、歌唱合成用スコア25における音節ごとに、ステーショナリ部の区間(ループ区間loop)の長さが所定時間未満となる場合があり得る。このような場合、ループ区間RPが短すぎてループ再生を適切に行えない可能性がある。そこで、生成部37は、ステーショナリ部の区間の長さを上記所定時間以上の長さにした区間を、区切り情報27におけるループ区間RPとして設定してもよい。
 次に、図6の例において、「I」「test」「it」を音素記号で表すと、
[Sil-aI][aI][aI-t][t-e][e][e-s][s-t][t-i][i][i-t][t-Sil]となる。
 再生開始位置sに関し、フレーズ中の先頭の音節である「I」の再生開始位置s1は、音声素片[Sil-aI]におけるaIの前端位置である。「test」の再生開始位置s2は、音声素片[aI-t]の後端位置である。「it」の再生開始位置s3は、音声素片[s-t]の後端位置である。
 再生終了位置eに関し、「I」の再生終了位置e1は、「test」の再生開始位置s2と同じ位置である。「test」の再生終了位置e2は、「it」の再生開始位置s3と同じ位置である。また、フレーズ中の最後の音節である「it」の再生終了位置e3は、音声素片[t-Sil]におけるtの後端位置である。
 図7は、リアルタイム再生処理のフローチャートである。この処理は、例えば、CPU10がROM12に記憶されたプログラムをRAM13に展開して実行することにより実現される。
 電源がオンにされると、CPU10は、演奏する曲を選択する操作がユーザから受け付けられるまで待つ(ステップS101)。なお、一定時間経過しても曲選択の操作がない場合は、CPU10は、デフォルトで設定されている曲が選択されたと判断してもよい。CPU10は、曲の選択を受け付けると、初期設定を実行する(ステップS102)。この初期設定においては、CPU10は、選択された曲の再生用データ28(オーディオ情報26および区切り情報27)を読み出すと共に、シーケンス位置を初期位置に設定する。すなわち、CPU10は、グローバル再生ポインタPGおよび再生ポインタPLを、オーディオ情報26における先頭フレーズの先頭音節の前端に位置させる。
 次に、CPU10は、演奏操作子15の操作に基づくノートオンを検出している(ノートオン情報が取得されている)か否かを判別する(ステップS103)。そして、CPU10は、ノートオンが検出されていない場合、ノートオフを検出した(ノートオフ情報を取得した)か否かを判別する(ステップS107)。一方、ノートオンを検出している場合は、CPU10は、シーケンス位置の同定処理を実行する(ステップS104)。
 この同定処理において、グローバル再生ポインタPGおよびローカルな再生ポインタPLの位置が決定される。例えば前のノートオンの時刻と現在のノートオンの時刻との差が所定以上に大きければグローバル再生ポインタPGが1つ進められる。なお、リアルタイム再生処理と並行して、選択曲の伴奏を再生してもよい。その場合、伴奏の再生位置に追従してグローバル再生ポインタPGを移動させてもよい。あるいは、グローバル再生ポインタPGの移動に合わせて伴奏が演奏されるようにしても良い。
 図4に示す例で説明すると、例えば、グローバル再生ポインタPGおよび再生ポインタPLが、サンプルSP1の再生開始位置S1に位置している場合は、CPU10は、サンプルSP1において再生ポインタPLを進める処理を開始する。再生ポインタPLがループ区間RP1に位置している場合(ループ再生中)は、CPU10は、ループ区間RP1内を往復するように再生ポインタPLを進める。
 なお、上記同定処理において、一定時間内に複数の押鍵により複数のノートオンが検出された場合は、CPU10は、グローバル再生ポインタPGの位置を進めず、サンプルSP1を複数の音階で和音のように発音しても良い。あるいは、CPU10は、グローバル再生ポインタPGの位置を進めて、サンプルSP1とサンプルSP2とがそれぞれの音階で同時発音されるようにしても良い。なお、一定時間間隔を保って2つの押鍵がなされた場合は、ステップS103でYESと判別された後、ステップS107でYESと判別され、その後、再びステップS103でYESと判別される。
 なお、複数の鍵が同時に操作された場合であっても、単音のみを出力する構成としてもよい。この場合、同時に操作された鍵の音高のうち、最も高い音高に従って処理してもよいし、最も低い音高に従って処理してもよい。一定時間内に複数の押鍵があった場合、最後に押下された鍵の音高に従って処理してもよい。
 次に、ステップS105で、CPU10は、オーディオ情報26におけるシーケンス位置のサンプルを読み出す。ステップS106では、CPU10は、ステップS105で読み出したサンプルを発音する発音処理を開始する。なお、CPU10は、オーディオ情報26において規定されていた音高と、今回のノートオン情報に基づく音高との差に応じて、発音音高をシフトする。この処理により、再生対象のサンプルの音高がノートオン情報に基づく音高に変換されて再生される。また、和音発音の場合は、それぞれのノートオン情報に基づく複数の音高で発音される。ステップS106の後、CPU10は、処理をステップS107に進める。
 ステップS107で、ノートオフを検出しない場合は、押鍵状態が継続しているので、CPU10は、発音中のサンプルがあるか否かを判別する(ステップS110)。そして、発音中のサンプルがない場合は、CPU10は、処理をステップS103に戻す。一方、発音中のサンプルがある場合は、CPU10は、発音継続処理を実行して(ステップS111)、処理をステップS103に戻す。図4に示す例でいえば、例えば、サンプルSP1の発音中であれば再生ポインタPLが示す位置以降の再生が継続される。特に、再生ポインタPLがループ区間RP1に位置する場合は、ループ区間RP1のループ再生が継続される。
 ステップS107で、ノートオフを検出した場合は、通常、押下された鍵が離操作されたと判断できるので、CPU10は、ステップS108で発音停止処理を実行する。ここでは、CPU10は、再生ポインタPLを、発音中のサンプルSPにおけるループ区間RPの終端であるループ終了位置にジャンプさせると共に、ジャンプ後の位置から、後方に隣接する再生終了位置Eまでの再生を開始する。図4に示す例でいえば、例えば、サンプルSP1の発音中にノートオフ情報が取得された場合、CPU10は、再生ポインタPLを、ループ区間RP1のループ終了位置にジャンプさせる。それと共にCPU10は、ループ区間RP1のループ終了位置から、後方に隣接する再生終了位置E1までの再生を開始する。例えば、図6の例で、「test」を長く伸ばして再生される場合、母音である「e」が伸びると共に、その後、ノートオフに応じて再生終了位置E1まで再生されることで、子音である「st」がしっかりと発音される。従って、自然な伸ばし方で「test」を再生することができる。
 次に、ステップS109で、CPU10は、シーケンスエンドに達したか、すなわち、選択曲のオーディオ情報26の最後まで再生したか否かを判別する。そしてCPU10は、選択曲のオーディオ情報26の最後まで再生していない場合は処理をステップS103に戻し、選択曲のオーディオ情報26の最後まで再生した場合は、図7に示すリアルタイム再生処理を終了する。
 本実施の形態によれば、オーディオ情報のリアルタイムで且つ所望の再生制御を実現することができる。特に、CPU10は、ノートオン情報を取得したことに応じて、再生開始位置Sから再生を開始すると共に、ループ区間RPに達した場合はループ再生に移行する。また、CPU10は、ノートオン情報に対応するノートオフ情報を取得したことに応じて、再生対象の音節のループ区間RPの終端であるループ終了位置から再生終了位置eまでの再生を開始する。ユーザは、演奏操作子15を操作することで、所望のタイミングで音節を順に発音させることができる。しかも、演奏操作子15の押下を継続することで、ループ区間RPのループ再生により、所望の音節の音を所望に伸ばすことができる。さらには、ピッチシフトにより、音節の発音音高をユーザの操作した演奏操作子15に応じて変更しつつ演奏できる。従って、オーディオ情報の再生をリアルタイムで所望に制御することができる。
 また、CPU10は、歌唱合成用スコア25を歌唱合成することでオーディオ情報26を生成すると共に、歌唱合成用スコア25における音節ごとに区切り情報27をオーディオ情報26に対応付ける。従って、リアルタイムで所望に再生制御可能なオーディオ情報を生成することができる。また、区切り情報27の対応付けの精度を高めることができる。
 また、ループ区間RPは、歌唱合成用スコア25における各音節の、ステーショナリ部に対応する区間である。しかも、CPU10は、歌唱合成用スコア25における音節ごとに、ステーショナリ部の区間の長さが所定時間未満である場合は、当該ステーショナリ部の区間の長さを所定時間以上の長さにした区間を、ループ区間RPとしてオーディオ情報26に対応付ける。従って、ループ再生時の音を自然なものにすることができる。
 次に、区切り情報27の設定の変形例については図8で後述する。図8は、歌唱合成用スコア25における1つのフレーズに対する区切り情報の変形例を例示する図である。図8の例では、英語の「start」「start」という2つの音節から成るフレーズに対する区切り情報を例示する。図8における3つのパターン1)、2)、3)は、次のような特徴を有する。
 まず、パターン1)では、子音部分がノートオン以降にすべて含まれる。従って、各ノートをゆっくり単独で発音させた時に各発音(サ行等(日本語の[Sa]行)が明瞭となる。一方、伴奏に合わせて発音する場合は、子音の種類によってはかなり先行して弾く必要がある。
 パターン2)では、素片接続を行っていることが知覚しにくい子音と子音の接続部分としている。なお、この変形例として、子音の種類に依らず、一定の長さだけノートオンから先行した位置を区切り位置としてもよい。この場合は、歌詞に依らず一定のタイミングで先行して演奏すれば良いので、伴奏に合わせたタイミングでの演奏を比較的容易に行うことができる。
 パターン3)では、元の歌唱合成用スコアのノートオンの位置と同じ位置で弾くことができる。ただし、単独で発音する場合には「さ(日本語文字[Sa])」の歌詞のノートを弾いても[a]の部分しか発音されない。
 3つのパターン1)、2)、3)のうち、パターン2)は、図6で説明したルールを適用したものと同じである。「start」「start」を音素記号で表すと、
[Sil-s] [s-t] [t-Q@] [ Q@ ] [Q@-t] [t-s] [s-t] [t-Q@] [ Q@ ] [Q@-t] [t-Sil]となる。
 パターン1)、2)、3)のいずれにおいても、後側の「start」の再生終了位置eは、音声素片[t-Sil]におけるtの後端位置である。また、パターン1)、2)、3)のいずれにおいても、音声素片[ Q@ ]は、各音節のステーショナリ部であり、これらの区間がループ区間loopとなる。
 パターン1)では、再生開始位置sに関し、フレーズ中の先頭の「start」の再生開始位置sは、音声素片[Sil-s]におけるsの前端位置である。また、フレーズ中の隣接する2つの音節のうち後側の音節の再生開始位置sはジョイント部cと同じである。すなわち、ジョイント部cは、前側の音節の最後の音素と後側の音節の最初の音素とで構成される音声素片における、後側の音素の前端位置である。例えば、[t-s]におけるsの前端位置がジョイント部cとなる。前側の音節の再生終了位置eは、後側の音節の再生開始位置sおよびジョイント部cと同じである。
 パターン3)では、再生開始位置sは、ループ区間loopとして伸長される音素(ステーショナリ部に対応する音素)と、当該音素の1つ前の音素とで構成される音声素片における、後側の音素(ステーショナリ部に対応する音素)の前端位置である。例えば、1つ目の[t-Q@]におけるQ@の前端位置が再生開始位置sとなる。また、後側の音節の再生開始位置sはジョイント部cと同じである。ジョイント部cは、2つ目の[t-Q@]におけるQ@の前端位置である。前側の音節の再生終了位置eは、後側の音節の再生開始位置sおよびジョイント部cと同じである。
 このように、再生用データ28を生成する際に適用するルールは1種類に限定されない。また、言語によって適用するルールを異ならせてもよい。
 なお、ステーショナリ部の区間(ループ区間loop)の長さが所定時間未満となる場合において、仮に、ステーショナリ部の区間の長さを長くする処理を採用せず、オーディオ情報26において、ループ区間RPの長さを充分に確保できなかったとする。この場合、ステップS111では、例えば、音声素片[dZ-i]の[i]の区間を使ってループ再生するようにしてもよい。
 なお、歌唱合成用スコア25がビブラート等の表情付けパラメータを持っていたとしても、それらの情報を無視して、歌唱合成用スコア25をオーディオ情報26に変換するようにしてもよい。一方、再生用データ28は、ビブラートなどの表情付けパラメータを情報として含んでもよい。その場合であっても、再生用データ28におけるオーディオ情報26のリアルタイム再生処理においては、ビブラート等の表情付けパラメータの再現を無効にしてもよい。あるいは、ビブラートを再現する場合、ループ再生における反復タイミングをビブラートの振幅波形と合致させることで、オーディオ情報26に含まれるビブラートの周期を保ちながら発音時間を変更するようにしてもよい。
 なお、ステップS106において、フォルマンシフトを併用してもよい。また、ピッチシフトを採用することは必須でない。
 なお、所定のサンプルデータを保持しておき、ノートオフ情報を取得したときに、ステップS108で、ループ区間RPの終端であるループ終了位置から再生終了位置eまでの再生に代えて、アフタタッチ処理として、上記所定のサンプルデータを再生するようにしてもよい。あるいは、アフタタッチ処理として、「WO2016/152715公報」等に示されるようなグループ化処理を適用してもよい。例えば、音節「こ(日本語文字[KO])」と「い(日本語文字[I])」がグループ化されている場合、「こ(日本語文字[KO])」の発音中にノートオフ情報が取得されたことに応じて、「こ(日本語文字[KO])」の発音終了に続けて「い(日本語文字[I])」まで発音してもよい。
 なお、リアルタイム再生処理で用いるオーディオ情報26は、歌唱の音節に相当するサンプルSP(音節に対応する波形データ)を有するものに限定されない。すなわち、本発明のオーディオ情報再生方法を、歌唱に基づかないオーディオ情報に応用してもよい。従って、オーディオ情報26は、必ずしも歌唱合成によって生成されたものに限らない。歌唱に基づかないオーディオ情報に区切り情報が対応付けられる場合、例えば、エンベロープ波形におけるS(Sustain)に、ループ再生する区間が対応付けられ、R(Release)に、ノートオフ時に再生する終端情報が対応付けられてもよい。
 なお、本実施の形態では、演奏操作子15は音高を指定する機能を有していた。しかし、ノートオン情報とノートオフ情報とを入力するための入力操作子を1つ以上に限定してもよい。その場合、入力操作子は専用であってもよいが、演奏操作子15のうちの一部(例えば、鍵盤の最低音高の2つの白鍵など)に割り当てられてもよい。例えば、入力操作子により情報が入力されるごとに、CPU10が次の区切り位置をシークし、グローバル再生ポインタPGおよびまたは再生ポインタPLを移動させる構成としてもよい。
 なお、オーディオ情報26を再生するチャネルの数は1つに限定されない。区切り情報27を共有する複数のチャネルのそれぞれに対して、本発明を適用してもよい。その際、伴奏を再生するチャネルについては、発音音高のシフト処理の対象外としてもよい。
 以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。
 なお、本発明の適用に関し、オーディオ情報再生機能にだけ着目する場合、本装置がオーディオ情報生成機能を有することは必須でない。逆にオーディオ情報生成機能にだけ着目する場合、本装置がオーディオ情報再生機能を有することは必須でない。
 なお、本発明を達成するためのソフトウェアによって表される制御プログラムを記憶した記録媒体を、本装置に読み出すことによって、本発明と同様の効果を奏するようにしてもよい。その場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体5(図1参照)は本発明を構成することになる。例えば、図1に示すように、CPU10は、通信I/F22を介して記録媒体5からプログラムコードを読み出すことができる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本発明を構成することになる。非一過性のコンピュータ読み取り可能な記録媒体5としては、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM,DVD-R,磁気テープ、不揮発性のメモリカード等を用いることができる。また、非一過性のコンピュータ読み取り可能な記録媒体としては、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含む。

Claims (15)

  1.  発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、
     前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を読み出し、
     ノートオン情報およびノートオフ情報を取得し、
     前記ノートオン情報または前記ノートオフ情報を取得したことに応じて、前記区切り情報に基づいて前記オーディオ情報における再生位置を移動させ、
     前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、オーディオ情報再生方法。
  2.  前記ノートオン情報を取得したことに応じて、前記再生位置が示す再生対象の発声単位の前記再生開始位置から再生を開始すると共に、前記再生位置が前記ループ開始位置に達した場合はループ再生に移行する、請求項1に記載のオーディオ情報再生方法。
  3.  前記ループ再生を実行する際、前記ループ再生の音高を前記ノートオン情報に基づく音高に変換して再生する、請求項2に記載のオーディオ情報再生方法。
  4.  前記オーディオ情報は、合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを歌唱合成することで得られる、請求項1~3のいずれか1項に記載のオーディオ情報再生方法。
  5.  前記区切り情報は、前記歌唱合成用スコアを歌唱合成する際に前記オーディオ情報に対応付けられる、請求項4に記載のオーディオ情報再生方法。
  6.  前記オーディオ情報の隣接する2つの発声単位のうち、後側の発声単位の前記再生開始位置は、歌唱合成前の前記歌唱合成用スコアにおいて対応する2つの発声単位のうち、前側の発声単位の最後の音素と前記後側の発声単位の最初の音素とで構成される音声素片の後端位置に相当する、請求項4に記載のオーディオ情報再生方法。
  7.  前記オーディオ情報の各フレーズ中の複数の発声単位のうち最後尾の発声単位の前記再生終了位置は、前記最後尾の発声単位の終端位置である、請求項1~6のいずれか1項に記載のオーディオ情報再生方法。
  8.  ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成方法であって、
     合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得し、
     前記歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける、オーディオ情報生成方法。
  9.  前記歌唱合成用スコアを歌唱合成する際、前記歌唱合成用スコアにおける各発声単位の、ステーショナリ部の区間を、前記ループ開始位置および前記ループ終了位置を規定する前記区切り情報として前記オーディオ情報に対応付ける、請求項8に記載のオーディオ情報生成方法。
  10.  前記歌唱合成用スコアを歌唱合成する際、前記歌唱合成用スコアにおける発声単位ごとに、前記ステーショナリ部の区間の長さが所定時間未満である場合は、前記ステーショナリ部の区間の長さを前記所定時間以上の長さにした区間を、前記ループ開始位置および前記ループ終了位置を規定する前記区切り情報として前記オーディオ情報に対応付ける、請求項9に記載のオーディオ情報生成方法。
  11.  前記歌唱合成用スコアを歌唱合成する際、前記歌唱合成用スコアにおける隣接する2つの発声単位のうち、前側の発声単位の最後の音素と後側の発声単位の最初の音素とで構成される音声素片の後端位置を、前記オーディオ情報の隣接する2つの発声単位のうち、前記後側の発声単位の前記再生開始位置を規定する前記区切り情報として前記オーディオ情報に対応付ける、請求項8に記載のオーディオ情報生成方法。
  12.  オーディオ情報再生方法をコンピュータに実行させるプログラムであって、
     前記オーディオ情報再生方法は、
     発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、
     前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を読み出し、
     ノートオン情報およびノートオフ情報を取得し、
     前記ノートオン情報または前記ノートオフ情報を取得したことに応じて、前記区切り情報に基づいて前記オーディオ情報における再生位置を移動させ、
     前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、プログラム。
  13.  ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成方法を、コンピュータに実行させるプログラムであって、
     前記オーディオ情報生成方法は、
     合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得し、
     前記歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける、プログラム。
  14.  発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報、および、前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を取得し、ノートオン情報およびノートオフ情報を取得したことに応じて、前記区切り情報に基づいて、前記オーディオ情報における再生位置を移動させる移動部と、
     前記ノートオン情報を取得したことに応じて、前記移動部により移動された再生位置が示す再生対象の発声単位の前記再生開始位置から再生を開始すると共に、前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、前記再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、再生部と、を有する、オーディオ情報再生装置。
  15.  ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成装置であって、
     合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得する取得部と、
     前記取得部により取得された歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける生成部と、を有する、オーディオ情報生成装置。
PCT/JP2020/012326 2019-04-26 2020-03-19 オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム WO2020217801A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021515879A JP7226532B2 (ja) 2019-04-26 2020-03-19 オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム
CN202080030401.5A CN113711302A (zh) 2019-04-26 2020-03-19 音频信息播放方法及装置、音频信息生成方法及装置和程序
US17/451,850 US20220044662A1 (en) 2019-04-26 2021-10-22 Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019085558 2019-04-26
JP2019-085558 2019-04-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/451,850 Continuation US20220044662A1 (en) 2019-04-26 2021-10-22 Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device

Publications (1)

Publication Number Publication Date
WO2020217801A1 true WO2020217801A1 (ja) 2020-10-29

Family

ID=72941990

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/012326 WO2020217801A1 (ja) 2019-04-26 2020-03-19 オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム

Country Status (4)

Country Link
US (1) US20220044662A1 (ja)
JP (1) JP7226532B2 (ja)
CN (1) CN113711302A (ja)
WO (1) WO2020217801A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023233856A1 (ja) * 2022-05-31 2023-12-07 ヤマハ株式会社 音制御装置およびその制御方法、プログラム、電子楽器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049169A (ja) * 1996-07-31 1998-02-20 Yamaha Corp 歌唱音合成装置および記憶媒体
JP2002202788A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2004287099A (ja) * 2003-03-20 2004-10-14 Sony Corp 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
JP2013238662A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声合成装置
JP2018151548A (ja) * 2017-03-14 2018-09-27 ヤマハ株式会社 発音装置及びループ区間設定方法
JP2018151547A (ja) * 2017-03-14 2018-09-27 ヤマハ株式会社 発音装置及び発音制御方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3659053B2 (ja) * 1998-04-23 2005-06-15 ヤマハ株式会社 波形データ生成方法、波形データ生成プログラムを記録した記録媒体および波形データ生成装置
JP2000181458A (ja) * 1998-12-16 2000-06-30 Korg Inc タイムストレッチ装置
JP2000206972A (ja) * 1999-01-19 2000-07-28 Roland Corp 波形デ―タの演奏制御装置
JP4685226B2 (ja) * 2000-09-20 2011-05-18 ローランド株式会社 波形再生用自動演奏装置
JP4256331B2 (ja) * 2004-11-25 2009-04-22 株式会社ソニー・コンピュータエンタテインメント 音声データエンコード装置および音声データデコード装置
JP4735544B2 (ja) * 2007-01-10 2011-07-27 ヤマハ株式会社 歌唱合成のための装置およびプログラム
JP5898355B1 (ja) * 2015-04-21 2016-04-06 株式会社カプコン サウンド再生プログラムおよびサウンド再生システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049169A (ja) * 1996-07-31 1998-02-20 Yamaha Corp 歌唱音合成装置および記憶媒体
JP2002202788A (ja) * 2000-12-28 2002-07-19 Yamaha Corp 歌唱合成方法と装置及び記録媒体
JP2004287099A (ja) * 2003-03-20 2004-10-14 Sony Corp 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
JP2013238662A (ja) * 2012-05-11 2013-11-28 Yamaha Corp 音声合成装置
JP2018151548A (ja) * 2017-03-14 2018-09-27 ヤマハ株式会社 発音装置及びループ区間設定方法
JP2018151547A (ja) * 2017-03-14 2018-09-27 ヤマハ株式会社 発音装置及び発音制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023233856A1 (ja) * 2022-05-31 2023-12-07 ヤマハ株式会社 音制御装置およびその制御方法、プログラム、電子楽器

Also Published As

Publication number Publication date
JP7226532B2 (ja) 2023-02-21
CN113711302A (zh) 2021-11-26
US20220044662A1 (en) 2022-02-10
JPWO2020217801A1 (ja) 2020-10-29

Similar Documents

Publication Publication Date Title
US10825434B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
US11996082B2 (en) Electronic musical instruments, method and storage media
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
JP7180587B2 (ja) 電子楽器、方法及びプログラム
WO2020235506A1 (ja) 電子楽器、電子楽器の制御方法、記憶媒体
CN111696498A (zh) 键盘乐器以及键盘乐器的计算机执行的方法
WO2020217801A1 (ja) オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム
JP6766935B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP6760457B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP2008039833A (ja) 音声評価装置
JP6167503B2 (ja) 音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
JP3233036B2 (ja) 歌唱音合成装置
JP3963141B2 (ja) 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
JP7158331B2 (ja) カラオケ装置
JP7276292B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
WO2016152708A1 (ja) 音制御装置、音制御方法、および音制御プログラム
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
EP0396141A2 (en) System for and method of synthesizing singing in real time
Lindborg About TreeTorika: Rhetoric, CAAC and Mao
JP5233737B2 (ja) 音素符号補正装置、音素符号データベース、および音声合成装置
JP5481958B2 (ja) 音素符号変換装置および音声合成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20794724

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021515879

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 20794724

Country of ref document: EP

Kind code of ref document: A1