WO2023120288A1 - 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム - Google Patents

情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム Download PDF

Info

Publication number
WO2023120288A1
WO2023120288A1 PCT/JP2022/045757 JP2022045757W WO2023120288A1 WO 2023120288 A1 WO2023120288 A1 WO 2023120288A1 JP 2022045757 W JP2022045757 W JP 2022045757W WO 2023120288 A1 WO2023120288 A1 WO 2023120288A1
Authority
WO
WIPO (PCT)
Prior art keywords
syllable
electronic musical
musical instrument
detected
operator
Prior art date
Application number
PCT/JP2022/045757
Other languages
English (en)
French (fr)
Inventor
真 段城
文章 太田
厚士 中村
Original Assignee
カシオ計算機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カシオ計算機株式会社 filed Critical カシオ計算機株式会社
Publication of WO2023120288A1 publication Critical patent/WO2023120288A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Definitions

  • the present invention relates to an information processing device, an electronic musical instrument system, an electronic musical instrument, a syllable progression control method, and a program.
  • Patent Document 1 discloses a technique for advancing lyrics in synchronization with a performance based on a user's operation using a keyboard or the like.
  • the present invention has been made in view of the above problems, and an object of the present invention is to appropriately control syllable progression when reproducing harmony such as a chorus based on the operation of an electronic musical instrument.
  • the information processing device of the present invention includes: When an operation on the second operator is detected after a set time has elapsed since an operation on the first operator is detected, the operation of the operator being continued is performed at the timing when the operation on the second operator is detected.
  • a control unit is provided for controlling whether or not to advance the syllable to be pronounced from the first syllable to the next second syllable according to the number.
  • FIG. 1 is a diagram showing an example of the overall configuration of an electronic musical instrument system according to the present invention
  • FIG. 2 is a diagram showing the appearance of the electronic musical instrument of FIG. 1
  • FIG. 2 is a block diagram showing the functional configuration of the electronic musical instrument of FIG. 1
  • FIG. 2 is a block diagram showing the functional configuration of the terminal device of FIG. 1
  • FIG. FIG. 2 is a diagram showing a configuration relating to vocalization of vocals in response to key depression operations on a keyboard in vocal vocalization mode of the electronic musical instrument of FIG. 1
  • FIG. 4 is an image diagram showing the relationship between frames and syllables
  • FIG. 4 is a flow chart showing the flow of sound generation control processing executed by the CPU in FIG. 3
  • FIG. FIG. 4 is a flow chart showing the flow of syllable progress control processing executed by the CPU of FIG. 3
  • FIG. 9 is a diagram showing an example of syllable progression by the syllable progression control process of FIG. 8;
  • FIG. 1 is a diagram showing an overall configuration example of an electronic musical instrument system 1 according to the present invention.
  • an electronic musical instrument system 1 is configured by connecting an electronic musical instrument 2 and a terminal device 3 via a communication interface I (or a communication network N).
  • the electronic musical instrument 2 has a normal mode in which musical instrument sounds are output in accordance with the user's key depression operations on the keyboard 101, and a singing voice production mode in which a singing voice is produced in response to key depression operations on the keyboard 101. It is possible to polyphonically pronounce chords consisting of multiple parts.
  • FIG. 2 is a diagram showing an example of the appearance of the electronic musical instrument 2.
  • the electronic musical instrument 2 includes a keyboard 101 consisting of a plurality of keys as operators, a first switch panel 102 and a second switch panel 103 for instructing various settings, an LCD 104 (Liquid Crystal Display) for various displays, Prepare.
  • the electronic musical instrument 2 also includes a speaker 214 for emitting musical tones and voices (singing voices) generated by a performance, on its rear surface, side surface, rear surface, or the like.
  • FIG. 3 is a block diagram showing the functional configuration of the control system of the electronic musical instrument 2 of FIG.
  • the electronic musical instrument 2 includes a CPU (Central Processing Unit) connected to a timer 210. 201, ROM (Read Only Memory) 202, RAM (Random Access Memory) 203, sound source section 204, voice synthesis section 205, keyboard 101, first switch panel 102, and second switch panel 103 in FIG.
  • the first switch panel 102 includes a singing voice pronunciation mode switch, which will be described later.
  • the second switch panel 103 also includes tone color setting switches, which will be described later.
  • D/A converters 211 and 212 are connected to the sound source section 204 and the voice synthesizing section 205, respectively.
  • the data (singing voice waveform data) are converted into analog signals by D/A converters 211 and 212 respectively, amplified by an amplifier 213 , and then output from a speaker 214 .
  • the CPU 201 executes the program stored in the ROM 202 while using the RAM 203 as a work memory to control the electronic musical instrument 2 shown in FIG.
  • the CPU 201 implements the functions of the control unit of the information processing apparatus of the present invention by executing pronunciation control processing and syllable progression control processing, which will be described later, in cooperation with programs stored in the ROM 202 .
  • the ROM 202 stores programs, various fixed data, and the like.
  • the sound source unit 204 generates sound waves of musical instruments such as pianos, organs, synthesizers, stringed instruments, and wind instruments.
  • musical instruments such as pianos, organs, synthesizers, stringed instruments, and wind instruments.
  • shape data instrument sound waveform data
  • waveform data for various tones such as human voice, dog voice, cat voice, etc. It has a stored waveform ROM.
  • the musical instrument sound waveform data can also be used as the voice sound source waveform data.
  • the sound source unit 204 follows control instructions from the CPU 201 and based on the pitch information of the depressed key on the keyboard 101, reads out musical instrument sound waveform data from, for example, a waveform ROM (not shown), and converts it into a D/A converter. 211. Further, in the singing voice sounding mode, the sound source unit 204 reads out waveform data from, for example, a waveform ROM (not shown) based on the pitch information of the pressed key on the keyboard 101 in accordance with control instructions from the CPU 201, and reads out waveform data for use as a voice sound source. It is output to the voice synthesizing unit 205 as waveform data.
  • the sound source section 204 can simultaneously output waveform data for a plurality of channels. Waveform data corresponding to the pitch of the depressed key on the keyboard 101 may be generated based on the pitch information and the waveform data stored in the waveform ROM.
  • the sound source unit 204 is not limited to the PCM (Pulse Code Modulation) sound source system, for example, Other tone generator systems such as FM (Frequency Modulation) tone generator system may be used.
  • the voice synthesizing unit 205 has a synthesizing filter 205 a , generates singing voice waveform data based on the singing parameters given from the CPU 201 and the voice source waveform data input from the sound source unit 204 , and outputs the data to the D/A converter 212 . do.
  • the sound source unit 204 and the voice synthesis unit 205 may be configured by dedicated hardware such as LSI (Large-Scale Integration), or may be configured by software in collaboration with programs stored in the CPU 201 and ROM 202. It may be realized by LSI (Large-Scale Integration), or may be configured by software in collaboration with programs stored in the CPU 201 and ROM 202. It may be realized by LSI (Large-Scale Integration), or may be configured by software in collaboration with programs stored in the CPU 201 and ROM 202. It may be realized by LSI (Large-Scale Integration), or may be configured by software in collaboration with programs stored in the CPU 201 and ROM 202. It may be realized by LSI (Large-Scale Integration), or may be configured by software in collaboration with programs stored in the CPU 201 and ROM 202. It may be realized by LSI (Large-Scale Integration), or may be configured by software in collaboration with programs stored in the CPU 201 and ROM
  • the key scanner 206 steadily scans the depression/key release state of each key on the keyboard 101 in FIG. 2 and the switch operation states of the first switch panel 102 and the second switch panel 103, pitch, key depression/release information (performance operation information), and switch operation information are output to the CPU 201 .
  • the LCD controller 207 is an IC (integrated circuit) that controls the display state of the LCD 104 .
  • the communication unit 208 connects to a communication network N such as the Internet, a USB (Universal Serial Bus) Sends and receives data to and from an external device such as the terminal device 3 connected via a communication interface I such as a cable.
  • a communication network N such as the Internet
  • USB Universal Serial Bus
  • FIG. 4 is a block diagram showing the functional configuration of the terminal device 3 of FIG. 1.
  • the terminal device 3 is a computer comprising a CPU 301, a ROM 302, a RAM 303, a storage unit 304, an operation unit 305, a display unit 306, a communication unit 307, etc. Each unit is connected by a bus 308. It is As the terminal device 3, for example, a tablet PC (Personal Computer), a notebook PC, a smart phone, etc. are applicable.
  • a tablet PC Personal Computer
  • a learned model 302a is installed in the ROM 302 of the terminal device 3.
  • the learned model 302a includes score data (lyrics data (text information of lyrics) and pitch data (including information on the length of sound)) of a plurality of songs, and a singer who sang each song. It was generated by machine learning a plurality of data sets consisting of singing voice waveform data of time.
  • lyric data and pitch data of an arbitrary song may be phrases
  • a group of singing voice parameters (called singing voice information) for pronouncing the singing voice is inferred.
  • FIG. 5 is a diagram showing a configuration relating to vocalization of singing voices in response to key depression operations on keyboard 101 in the singing voice pronunciation mode.
  • the operation of the electronic musical instrument 2 when producing a singing voice in response to a key depression operation on the keyboard 101 in the singing voice production mode will be described with reference to FIG.
  • the user When the user wishes to perform in the singing voice production mode, the user presses the singing voice production mode switch on the first switch panel 102 of the electronic musical instrument 2 to instruct the transition to the singing voice production mode.
  • the singing voice sounding mode switch When the singing voice sounding mode switch is pressed, the CPU 201 shifts the operation mode to the singing voice sounding mode. Also, when the user selects the tone color of the voice to be produced by the tone color selection switch on the second switch panel 103 , the CPU 201 sets information on the selected tone color in the sound source section 204 .
  • the user inputs the lyric data and pitch data of any song that the electronic musical instrument 2 wants to produce in the singing voice production mode using a dedicated application or the like.
  • the lyric data and pitch data of songs to be sung may be stored in the storage unit 304 , and the lyric data and pitch data of any songs to be sung may be selected from those stored in the storage unit 304 .
  • the CPU 301 applies the input lyric data and pitch data of the song to the learned model 302a.
  • the trained model 302a is caused to infer a singing voice parameter group, and singing voice information, which is the inferred singing voice parameter group, is transmitted to the electronic musical instrument 2 via the communication unit 307.
  • each section obtained by dividing a singing piece into predetermined time units in the time direction is called a frame, and the trained model 302a generates singing voice parameters for each frame. That is, the singing voice information of one song is composed of a plurality of singing voice parameters (singing voice parameter group) for each frame.
  • the length of one sample when a song is sampled at a predetermined sampling frequency (for example, 44.1 kHz) ⁇ 225 is defined as one frame.
  • the frame-based singing voice parameters include a spectrum parameter (the frequency spectrum of the voice being pronounced) and a fundamental frequency F0 parameter (the pitch frequency of the voice being pronounced).
  • the frame-by-frame singing voice parameter includes syllable information.
  • FIG. 6 is an image diagram showing the relationship between frames and syllables (note that FIG. 6 does not use registered trademarks).
  • the voice of a song is composed of a plurality of syllables (first to third syllables in FIG. 6).
  • Each syllable is generally composed of one vowel or a combination of one vowel and one or more consonants.
  • Each syllable is pronounced over a plurality of frame intervals that are continuous in the time direction. ) can be specified by the frame position (the number of the frame from the beginning).
  • the singing voice parameters of the frames corresponding to the syllable start position, syllable end position, vowel start position, and vowel end position of each syllable in the singing voice information include the syllable start frame, syllable end frame, vowel start frame, Information such as the 0th vowel end frame (0 is a natural number) is included.
  • the CPU 201 when singing voice information is received from the terminal device 3 through the communication unit 208, the CPU 201 causes the RAM 203 to store the received singing voice information.
  • the CPU 201 inputs pitch information of the depressed key to the sound source section 204 .
  • the sound source unit 204 reads waveform data of a preset tone color corresponding to the input pitch information from the waveform ROM as voice source waveform data, and inputs the waveform data to the synthesis filter 205a of the speech synthesis unit 205 .
  • the CPU 201 executes syllable progression control processing (see FIG. 8) to be described later to specify a frame to be sounded according to the performance operation.
  • the spectral parameters of the frame are read out from the RAM 203 and input to the synthesizing filter 205a.
  • the synthesizing filter 205 a generates singing voice waveform data based on the input spectrum parameters and voice source waveform data, and outputs it to the D/A converter 212 .
  • the singing voice waveform data output to the D/A converter 212 is converted into an analog audio signal, amplified by the amplifier 213 and output from the speaker 214 .
  • the CPU 201 executes the pronunciation control processing including the syllable progress control processing shown in FIG. Control so that the syllable progression when reproduced is appropriate.
  • FIG. 7 is a flowchart showing the flow of sound generation control processing.
  • the sounding control process is executed by cooperation between the CPU 201 and the program stored in the ROM 202 when the singing voice information received from the terminal device 3 by the communication section 208 is stored in the RAM 203, for example.
  • the CPU 201 initializes variables used in the syllable progression control process (step S1). Next, the CPU 201 determines whether performance operation information has been input by the key scanner 206 (step S2). When determining that performance operation information has been input (step S2; YES), the CPU 201 executes syllable progression control processing (step S3).
  • FIG. 8 is a flowchart showing the flow of syllable progression control processing.
  • the syllable progression control process is executed by cooperation between the CPU 201 and the programs stored in the ROM 202 .
  • the CPU 201 detects a key depression operation or key release operation based on performance operation information input from the key scanner 206 (step S31).
  • a key depression operation is detected (step S31; YES)
  • the CPU 201 sets KeyOnCounter to KeyOnCounter+1 (step S32).
  • KeyOnCounter is a variable that stores the number of keys that are currently being pressed (the number of operators that are being operated).
  • step S33 the CPU 201 determines whether KeyOnCounter is 1 (step S33). That is, it is determined whether or not the detected key depression operation was performed in a state in which no other operator was depressed.
  • step S33 When determining that KeyOnCounter is 1 (step S33; YES), the CPU 201 acquires SystemTime (system time), sets the acquired SystemTime to FirstKeyOnTime (step S34), and proceeds to step S37.
  • FirstKeyOnTime is a variable that stores the time when the key (first operator) that is first pressed among the currently pressed keys is pressed. That is, when determining that KeyOnCounter is 1, the CPU 201 determines that an operation to the first operator (referred to as first key depression) has been detected, and sets FirstKeyOnTime.
  • the CPU 201 acquires SystemTime and determines whether or not SystemTime-FirstKeyOnTime>M (step S35).
  • M is a preset simultaneous judgment period (several milliseconds) for judging whether or not the detected key depression operation (operation to the second operator) and the first key depression are performed at substantially the same time. degree, corresponding to the set time of the present invention). If SystemTime ⁇ FirstKeyOnTime>M is not satisfied (that is, if the elapsed time from the first key depression is within the simultaneous determination period), the detected key depression is considered to be the first key depression and the simultaneous key depression. If SystemTime ⁇ FirstKeyOnTime>M (that is, if the elapsed time from the first key depression is outside the simultaneous determination period), the detected key depression operation is not considered to be the first key depression and the simultaneous key depression.
  • step S35 If it is determined that SystemTime-FirstKeyOnTime>M is not true (it is within the simultaneous determination period) (step S35; NO), the CPU 201 proceeds to step S41.
  • the key depression for which the judgment in step S35 is NO is the first key depression and the simultaneous key depression.
  • control is performed so that one syllable advances as a whole including the first key depression.
  • the first key depression advances the syllable
  • other key depressions that are simultaneous key depressions control the flow to step S41 so as not to advance the syllable.
  • step S35 the CPU 201 determines whether KeyOnCounter ⁇ 4, that is, whether the number of keys currently being pressed is less than four.
  • the set number (here, 4) to be compared with KeyOnCounter in step S36 is the number of parts to be sounded in the singing voice sounding mode. In this embodiment, four parts, soprano, alto, tenor, and bass, are produced in the singing voice production mode, and the set number to be compared with KeyOnCounter in step S36 is four. Note that this set number can be changed according to a user operation.
  • step S36 If it is determined that KeyOnCounter ⁇ 4 (step S36; YES), that is, if it is determined that the number of keys currently being pressed is less than the number of parts, the CPU 201 proceeds to step S37.
  • step S36 If it is determined that KeyOnCounter is not ⁇ 4 (step S36; NO), that is, if it is determined that the number of keys currently being pressed has reached the number of parts, the CPU 201 proceeds to step S41.
  • step S37 the CPU 201 determines whether CurrentFramePos is the frame position of the last syllable (step S37).
  • This CurrentFramePos is a variable that stores the frame position of the current frame to be sounded, and stores the frame position of the frame that was sounded last time until it is replaced by the frame position of the next frame to be sounded in step S43 or S44. It is
  • step S37 When it is determined that CurrentFramePos is the frame position of the last syllable (step S37; YES), the CPU 201 sets the syllable start position of the first syllable to NextFramePos, which is a variable for storing the frame position of the next frame to be sounded. set (step S38) and proceed to step S43.
  • step S37 If it is determined that CurrentFramePos is not the frame position of the last syllable (step S37; NO), the CPU 201 sets NextFramePos to the syllable start position of the next syllable (step S39), and proceeds to step S43.
  • step S43 the CPU 201 sets NextFramePos to CurrentFramePos (step S43), and proceeds to step S4 in FIG. That is, if the last pronounced frame is not the last syllable, the position of the frame to be pronounced advances to the syllable start position of the next syllable. If the last pronounced frame is the last syllable, there is no syllable next to the last pronounced syllable, so the position of the frame to be pronounced advances to the frame at the first syllable start position.
  • step S31 determines whether key release has been detected (step S31; NO) or not. If it is determined in step S31 that key release has been detected (step S31; NO), the CPU 201 sets KeyOnCounter to KeyOnCounter - 1 (step S40), and proceeds to step S41.
  • step S41 the CPU 201 sets NextFramePos to CurrentFramePos+playback rate/120 (step S41).
  • 120 is the default tempo value, but is not limited to this.
  • the playback rate is a value preset by the user. For example, when the playback rate is set to 240, the position of the next sounding frame is set to the position two ahead from the current frame position. When the playback rate is set to 60, the position of the next sounding frame is set to the position advanced by 0.5 from the current frame position.
  • step S42 determines whether or not NextFramePos>vowel end position. That is, it is determined whether or not the position of the next frame to be pronounced exceeds the vowel end position of the current syllable to be pronounced (that is, the vowel end position of the previously pronounced syllable). If it is determined that NextFramePos>not the vowel end position (step S42; NO), the CPU 201 proceeds to step S43, sets NextFramePos to CurrentFramePos (step S43), and proceeds to step S4 in FIG.
  • NextFramePos the frame position of the frame to be pronounced is advanced to NextFramePos, but since NextFramePos is before the vowel end position of the previously pronounced syllable, it is not advanced to the next syllable.
  • step S42 If it is determined that NextFramePos>vowel end position (step S42; YES), the CPU 201 sets CurrentFramePos to the vowel end position of the current syllable to be pronounced (step S44), and proceeds to step S4 in FIG. That is, since the frame position of the frame to be pronounced is set to the vowel end position of the previously pronounced syllable, the next syllable is not advanced.
  • FIG. 9 is a diagram schematically showing how syllables are controlled by the above-described syllable progress control processing.
  • black inverted triangles indicate timings when all keys are released.
  • the numerical value of KeyOnCounter indicates the value of KeyOnCounter at each timing of T1 to T6.
  • the key depression at timing T1 of the performance shown in FIG. 9 is simultaneous key depression of four parts, so the syllable advances by one.
  • the key depression at timing T2 is outside the simultaneous determination period, and the number of keys depressed at this timing has reached the number of parts (4), so the syllable does not advance. Since the key depression at the timing of T3 is the simultaneous key depression of the four parts, the syllable advances by one.
  • the key depression at the timing of T4 is simultaneous key depression of four parts, the syllable advances by one.
  • the key depression at timing T5 is outside the simultaneous determination period, and the number of keys depressed at this timing has reached the number of parts (4), so the syllable does not advance.
  • the key depression at timing T6 is a key depression outside the simultaneous determination period, and the number of keys simultaneously depressed at this timing is less than the number of parts (4), so the syllable advances by one.
  • the syllable progression control process even if a key depression operation is detected, the key depression is outside the simultaneous determination period (that is, not the first key depression or simultaneous key depression with the first key depression). ), if the number of keys being depressed at the time of this key depression operation reaches the number of parts, the syllable to be sounded does not proceed to the next syllable. Therefore, when the melody part (soprano) maintains the vowels without changing the pitch, and only the alto and bass parts change the pitch with melisma, it is possible to prevent the syllables of the lyrics from progressing. , can adequately control the syllable progression when reproducing harmony.
  • the CPU 201 determines whether or not the operation detected based on the performance operation information input at step S1 is a key depression operation (step S4).
  • step S4 If it is determined that the detected operation is a key depression operation (step S4; YES), the CPU 201 executes sound generation processing for generating sound for the frame at the frame position stored in CurrentFramePos (step S5), and proceeds to step S7. Transition.
  • step S5 the CPU 201 causes the voice synthesizing section 205 to synthesize the voice of a singing voice based on the pitch information of the key whose key-depression operation has been detected and the spectral parameters of the frame at the frame position stored in CurrentFramePos. output.
  • the CPU 201 inputs the pitch information of the pressed key and the key being pressed on the keyboard 101 to the sound source unit 204, and the sound source unit 204 generates the input sound of the preset tone color.
  • Waveform data corresponding to high-level information is read out from the waveform ROM and input to the synthesis filter 205a of the speech synthesizing unit 205 as the waveform data for the voice source.
  • CPU 201 acquires the spectral parameters of the frame at the frame position stored in CurrentFramePos from the singing voice information stored in RAM 203, and inputs them to synthesizing filter 205a. Then, the synthesizing filter 205a generates singing voice waveform data based on the input spectrum parameters and the voice source waveform data, and the D/A converter 212 converts the generated singing voice waveform data into an analog voice signal. and is output (sounded) through the speaker 214 .
  • step S4 the CPU 201 executes processing for muting the sound of the released key (step S6), and proceeds to step S7.
  • step S7 the CPU 201 synthesizes a singing voice based on the pitch information of the key that is currently being pressed, other than the released key, and the spectral parameters of the frame at the frame position stored in CurrentFramePos. output. Specifically, the CPU 201 inputs the pitch information of the key that is currently being pressed, other than the released key, to the sound source unit 204, and the sound source unit 204 reproduces the input sound of the preset tone color.
  • the waveform data corresponding to the high information is input to the synthesis filter 205a of the speech synthesizing unit 205 as the waveform data for the voice source. Further, CPU 201 acquires the spectral parameters of the frame at the frame position stored in CurrentFramePos from the singing voice information stored in RAM 203, and inputs them to synthesizing filter 205a. Then, the synthesizing filter 205a generates singing voice waveform data based on the input spectrum parameters and the voice source waveform data, and the D/A converter 212 converts the generated singing voice waveform data into an analog voice signal. and is output (sounded) through the speaker 214 .
  • the CPU 201 determines whether or not an instruction to end the singing voice production mode has been given (step S7). For example, when the singing voice sounding mode switch is pressed during the singing voice sounding mode, the CPU 201 determines that the end of the singing voice sounding mode has been instructed.
  • step S7 If it is determined that termination of the singing voice production mode has not been instructed (step S7; NO), the CPU 201 returns to step S2. If it is determined that termination of the singing voice production mode has been instructed (step S7; YES), the CPU 201 terminates the singing voice production mode.
  • the CPU 201 of the electronic musical instrument 2 when a key depression operation is detected after the simultaneous determination period has elapsed, a control whether or not to advance the syllable to be pronounced from the first syllable (not limited to the first syllable) to the next second syllable. For example, when the number of manipulators that are being continuously operated reaches the set number, the CPU 201 controls to prevent the first syllable from proceeding to the second syllable, and the number of manipulators that are being continuously operated reaches the set number. If it is not satisfied, it is controlled to proceed from the first syllable to the second syllable.
  • the CPU 201 controls to advance the syllable corresponding to the voice to be pronounced from the first syllable to the second syllable when there is no manipulator whose operation is being continued at the detected timing. Therefore, syllable progression can be appropriately controlled.
  • the CPU 201 starts counting the simultaneous determination period when it detects an operation on any operator while none of the operators has been operated. Therefore, syllable progression can be appropriately controlled.
  • the contents of description in the above embodiments are preferred examples of the information processing device, electronic musical instrument, syllable progression control method, and program according to the present invention, and are not limited to these.
  • the information processing apparatus of the present invention is included in the electronic musical instrument 2, but the present invention is not limited to this.
  • the function of the information processing apparatus of the present invention can be applied to an external device (for example, the terminal device 3 (PC (Personal Computer), tablet terminal, smartphone, etc.) connected to the electronic musical instrument 2 via a wired or wireless communication interface. )).
  • the information processing device transmits parameters (spectral parameters in this case) according to syllable position control to the electronic musical instrument 2, and the electronic musical instrument 2 produces synthesized speech based on the received parameters.
  • the terminal device 3 is provided with the learned model 302a, but the electronic musical instrument 2 may be provided with the learned model 302a. Then, the learned model 302a may infer singing voice information based on the lyric data and pitch data input to the electronic musical instrument 2 .
  • the electronic musical instrument 2 is an electronic keyboard instrument. However, it is not limited to this, and may be other electronic musical instruments such as electronic string instruments and electronic wind instruments.
  • the present invention relates to control of electronic musical instruments and has industrial applicability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

電子楽器の操作に基づいてコーラス隊などの和声を再現する場合の音節進行を適切に制御する。 電子楽器のCPUによれば、第1操作子への操作が検出されてから設定時間経過後に第2操作子への操作が検出された場合、第2操作子への操作が検出されたタイミングに操作継続中の操作子の数に応じて、発音させる音節を第1音節から次の第2音節に進めるか、進めないかを制御する。

Description

情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム
 本発明は、情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラムに関する。
 近年、合成音声の利用シーンが拡大している。そうした中、自動演奏だけではなく、ユーザ(演奏者)の押鍵操作に応じて歌詞を進行させ、歌詞に対応した合成音声を出力できる電子楽器があれば、より柔軟な合成音声の表現が可能となり好ましい。
 例えば、特許文献1においては、鍵盤などを用いたユーザ操作に基づく演奏に同期させて歌詞を進行させる技術が開示されている。
特許第4735544号
 ところで、コーラス隊などの和声では、ソプラノ等のメロディーパートは音高を変化させずに母音を維持したまま、アルトやバスパートだけがメリスマで音高を変える場合が多くあるが、押鍵毎に歌詞の音節を進行させてしまうと、そのような和声の変化を再現することができない。
 本発明は、上記の問題に鑑みてなされたものであり、電子楽器の操作に基づいてコーラス隊などの和声を再現する場合の音節進行を適切に制御することを目的とする。
 上記課題を解決するため、本発明の情報処理装置は、
 第1操作子への操作が検出されてから設定時間経過後に第2操作子への操作が検出された場合、前記第2操作子への操作が検出されたタイミングに操作継続中の操作子の数に応じて、発音させる音節を第1音節から次の第2音節に進めるか、進めないかを制御する、制御部を備える。
 本発明によれば、電子楽器の操作に基づいてコーラス隊などの和声を再現する場合の音節進行を適切に制御することが可能となる。
本発明の電子楽器システムの全体構成例を示す図である。 図1の電子楽器の外観を示す図である。 図1の電子楽器の機能的構成を示すブロック図である。 図1の端末装置の機能的構成を示すブロック図である。 図1の電子楽器の歌声発音モードにおける、鍵盤の押鍵操作に応じた歌声の発音に係る構成を示す図である。 フレームと音節の関係を示すイメージ図である。 図3のCPUにより実行される発音制御処理の流れを示すフローチャートである。 図3のCPUにより実行される音節進行制御処理の流れを示すフローチャートである。 図8の音節進行制御処理による音節進行の一例を示す図である。
 以下に、本発明を実施するための形態について、図面を用いて説明する。但し、以下に述べる実施形態には、本発明を実施するために技術的に好ましい種々の限定が付されている。そのため、本発明の技術的範囲を以下の実施形態及び図示例に限定するものではない。
[電子楽器システム1の構成]
 図1は、本発明に係る電子楽器システム1の全体構成例を示す図である。
 図1に示すように、電子楽器システム1は、電子楽器2と、端末装置3と、が通信インターフェースI(又は通信ネットワークN)を介して接続されて構成されている。
[電子楽器2の構成]
 電子楽器2は、ユーザの鍵盤101の押鍵操作に応じて楽器音を出力する通常モードの他、鍵盤101の押鍵操作に応じて歌声を発音する歌声発音モードを有し、コーラス隊などの複数のパートからなる和声をポリフォニック発音させることが可能となっている。
 図2は、電子楽器2の外観例を示す図である。電子楽器2は、操作子としての複数の鍵からなる鍵盤101と、各種設定を指示する第1のスイッチパネル102及び第2のスイッチパネル103と、各種表示を行うLCD104(Liquid Crystal Display)と、を備える。また、電子楽器2は、演奏により生成された楽音や音声(歌声)を放音するスピーカ214を裏面部、側面部、又は背面部等に備える。
 図3は、図1の電子楽器2の制御系の機能的構成を示すブロック図である。図3に示すように、電子楽器2は、タイマ210に接続されたCPU(Central Processing Unit)
201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、音源部204、音声合成部205、図2の鍵盤101、第1のスイッチパネル102、及び第2のスイッチパネル103が接続されるキースキャナ206、図2のLCD104が接続されるLCDコントローラ207、及び通信部208が、それぞれバス209に接続されて構成されている。本実施形態において、第1のスイッチパネル102には、後述する歌声発音モードスイッチが含まれる。また、第2のスイッチパネル103には、後述する音色設定スイッチが含まれる。
 また、音源部204、音声合成部205には、それぞれD/Aコンバータ211、212が接続され、音源部204から出力される楽器音の波形データ、音声合成部205から出力される歌声の音声波形データ(歌声波形データ)は、それぞれD/Aコンバータ211、212によりアナログ信号に変換され、アンプ213により増幅された後、スピーカ214から出力されるようになっている。
 CPU201は、RAM203をワークメモリとして使用しながらROM202に記憶されたプログラムを実行することにより、図1の電子楽器2の制御動作を実行する。CPU201は、ROM202に記憶されているプログラムとの協働により後述する発音制御処理及び音節進行制御処理を実行することで、本発明の情報処理装置の制御部の機能を実現する。
 ROM202は、プログラム及び各種固定データ等を記憶する。
 音源部204は、ピアノ、オルガン、シンセサイザー、弦楽器、管楽器等の楽器音の波

形データ(楽器音波形データ)の他、歌声発音モードにおける発声音源用の波形データ(発声音源用波形データ)として、人の声、犬の声、猫の声等の様々な音色の波形データが記憶された波形ROMを有する。なお、楽器音波形データについても発声音源用波形データとして使用することが可能である。
 音源部204は、通常モードにおいて、CPU201からの制御指示に従い、鍵盤101の押鍵操作された鍵の音高情報に基づいて、例えば図示しない波形ROMから楽器音波形データを読み出し、D/Aコンバータ211に出力する。また、音源部204は、歌声発音モードにおいて、CPU201からの制御指示に従い、鍵盤101の押鍵操作された鍵の音高情報に基づいて、例えば図示しない波形ROMから波形データを読み出し、発声音源用波形データとして音声合成部205に出力する。音源部204は、同時に複数チャネル分の波形データの出力が可能である。なお、音高情報と波形ROMに記憶されている波形データに基づいて、鍵盤101の押鍵操作された鍵の音高に応じた波形データを生成してもよい。
 音源部204は、PCM(Pulse Code Modulation)音源方式に限定されず、例えば、
FM(Frequency Modulation)音源方式等、他の音源方式を用いたものであってもよい。
 音声合成部205は、合成フィルタ205aを有し、CPU201から与えられる歌声パラメータと音源部204から入力される発声音源用波形データとに基づいて歌声波形データを生成し、D/Aコンバータ212に出力する。
 なお、音源部204、音声合成部205は、LSI(Large-Scale Integration)等の
専用のハードウエアにより構成されることとしてもよいし、CPU201とROM202に記憶されたプログラムとの協働によるソフトウエアにより実現されることとしてもよい。
 キースキャナ206は、図2の鍵盤101の各鍵の押鍵/離鍵状態、第1のスイッチパネル102、及び第2のスイッチパネル103のスイッチ操作状態を定常的に走査し、操作された鍵の音高及び押鍵/離鍵情報(演奏操作情報)及びスイッチ操作情報をCPU201に出力する。
 LCDコントローラ207は、LCD104の表示状態を制御するIC(集積回路)である。
 通信部208は、インターネット等の通信ネットワークNやUSB(Universal Serial
Bus)ケーブル等の通信インターフェースIを介して接続された端末装置3等の外部装置とのデータ送受信を行う。
[端末装置3の構成]
 図4は、図1の端末装置3の機能的構成を示すブロック図である。
 図4に示すように、端末装置3は、CPU301、ROM302、RAM303、記憶部304、操作部305、表示部306、通信部307等を備えて構成されたコンピュータであり、各部はバス308により接続されている。端末装置3としては、例えば、タブレットPC(Personal Computer)、ノートPC、スマートフォン等が適用可能である。
 端末装置3のROM302には、学習済みモデル302aが搭載されている。学習済みモデル302aは、複数の歌唱曲の楽譜データ(歌詞データ(歌詞のテキスト情報)及び音高データ(音の長さの情報も含む))と、それぞれの歌唱曲を或る歌い手が歌ったときの歌声波形データと、からなる複数のデータセットを機械学習することにより生成されたものである。学習済みモデル302aは、任意の歌唱曲(フレーズでもよい)の歌詞データ及び音高データが入力されると、学習済みモデル302aを生成したときの歌い手が入力された歌唱曲を歌った場合と同等の歌声を発音するための歌声パラメータ群(歌声情報という)を推論する。
[歌声発音モードの動作]
 図5は、歌声発音モードにおける、鍵盤101の押鍵操作に応じた歌声の発音に係る構成を示す図である。以下、図5を参照して、電子楽器2において歌声発音モードで鍵盤101の押鍵操作に応じて歌声を発音する際の動作について説明する。
 歌声発音モードで演奏を行いたい場合、ユーザは、電子楽器2において第1のスイッチパネル102の歌声発音モードスイッチを押下し、歌声発音モードへの移行を指示する。
 CPU201は、歌声発音モードスイッチが押下されると、動作モードを歌声発音モードに移行させる。また、ユーザが第2のスイッチパネル103の音色選択スイッチにより発音させたい声の音色を選択すると、CPU201は、選択された音色の情報を音源部204に設定する。
 次いで、ユーザは、端末装置3において、電子楽器2に歌声発音モードで発音させたい任意の歌唱曲の歌詞データ及び音高データを専用のアプリケーション等を用いて入力する。歌唱曲の歌詞データ及び音高データを記憶部304に記憶しておき、記憶部304に記憶されている中から任意の歌唱曲の歌詞データ及び音高データを選択することとしてもよい。
 端末装置3において、歌声発音モードで発音させたい任意の歌唱曲の歌詞データ及び音高データが入力されると、CPU301は、入力された歌唱曲の歌詞データ及び音高データを学習済みモデル302aに入力して、学習済みモデル302aに歌声パラメータ群を推論させ、推論された歌声パラメータ群である歌声情報を通信部307により電子楽器2に送信する。
 ここで、歌声情報について説明する。
 歌唱曲を時間方向に所定時間単位で区切ったそれぞれの区間をフレームと呼び、学習済みモデル302aは、フレーム単位で歌声パラメータを生成する。すなわち、1つの歌唱曲の歌声情報は、フレーム単位の複数の歌声パラメータ(歌声パラメータ群)により構成される。本実施形態では、歌唱曲を所定のサンプリング周波数(例えば、44.1kHz)でサンプリングしたときの1サンプルの長さ×225を1フレームとする。
 フレーム単位の歌声パラメータには、スペクトルパラメータ(発音される声の周波数スペクトル)及び基本周波数F0パラメータ(発音される声のピッチ周波数)が含まれる。
 また、フレーム単位の歌声パラメータには、音節の情報が含まれる。
 図6は、フレームと音節の関係を示すイメージ図である(なお、図6は、登録商標を使用したものではない)。図6に示すように、歌唱曲の音声は、複数の音節(図6では第1音節~第3音節)により構成されている。それぞれの音節は、一般的には、1つの母音、又は、1つの母音と1又は複数の子音の組み合わせにより構成されている。各音節は、時間方向に連続する複数のフレーム区間にわたって発音され、一つの歌唱曲に含まれる各音節の音節開始位置、音節終了位置、母音開始位置、母音終了位置(いずれも、時間方向における位置)は、フレーム位置(先頭から何番目のフレームか)によって特定することができる。歌声情報における、各音節の音節開始位置、音節終了位置、母音開始位置、母音終了位置に該当するフレームの歌声パラメータには、第〇音節開始フレーム、第〇音節終了フレーム、第〇母音開始フレーム、第〇母音終了フレーム(〇は自然数)等の情報が含まれている。
 図5に戻り、電子楽器2において、通信部208により端末装置3から歌声情報を受信すると、CPU201は、受信した歌声情報をRAM203に記憶させる。
 ユーザにより鍵盤101が操作され、キースキャナ206から演奏操作情報が入力されると、CPU201は、押鍵操作された鍵の音高情報を音源部204に入力する。音源部204は、予め設定された音色の、入力された音高情報に応じた波形データを発声音源用波形データとして波形ROMから読み出し音声合成部205の合成フィルタ205aに入力する。
 また、キースキャナ206から演奏操作情報が入力されると、CPU201は、後述する音節進行制御処理(図8参照)を実行することにより、演奏操作に応じて発音させるフレームを特定し、特定されたフレームのスペクトルパラメータをRAM203から読み出して合成フィルタ205aに入力する。
 合成フィルタ205aは、入力されたスペクトルパラメータと発声音源用波形データに基づいて歌声波形データを生成し、D/Aコンバータ212に出力する。D/Aコンバータ212に出力された歌声波形データはアナログ音声信号に変換され、アンプ213で増幅されてスピーカ214から出力される。
 ここで、コーラス隊などの和声では、ソプラノ等のメロディーパートは音高を変化させずに母音を維持したまま、アルトやバスパートだけがメリスマで音高を変える場合が多くあるが、押鍵毎に歌詞の音節を進行させてしまうと、そのような和声の変化を再現することができない。
 そこで、CPU201は、歌声発音モードにおいて、キースキャナ206からの演奏操作情報の入力に応じて、図8に示す音節進行制御処理を含む発音制御処理を実行することにより、コーラス隊などの和声を再現する場合の音節進行が適切になるように制御する。
 図7は、発音制御処理の流れを示すフローチャートである。発音制御処理は、例えば通信部208により端末装置3から受信した歌声情報をRAM203に記憶させた際に、CPU201とROM202に記憶されているプログラムとの協働により実行される。
 まず、CPU201は、音節進行制御処理で使用される変数を初期化する(ステップS1)。
 次いで、CPU201は、キースキャナ206により演奏操作情報が入力されたか否かを判断する(ステップS2)。
 演奏操作情報が入力されたと判断した場合(ステップS2;YES)、CPU201は、音節進行制御処理を実行する(ステップS3)。
 図8は、音節進行制御処理の流れを示すフローチャートである。音節進行制御処理は、CPU201とROM202に記憶されているプログラムとの協働により実行される。
 音節進行制御処理において、CPU201は、キースキャナ206から入力された演奏操作情報に基づいて、押鍵操作又は離鍵操作を検出する(ステップS31)。
 押鍵操作を検出した場合(ステップS31;YES)、CPU201は、KeyOnCounterにKeyOnCounter+1を設定する(ステップS32)。
 ここで、KeyOnCounterは、現在押鍵されている(押鍵中の)鍵の数(操作継続中の操作子の数)を格納する変数である。
 次いで、CPU201は、KeyOnCounterが1であるか否かを判断する(ステップS33)。
 すなわち、検出された押鍵操作が他の操作子が押鍵されていない状態でなされたか否かを判断する。
 KeyOnCounterが1であると判断した場合(ステップS33;YES)、CPU201は、SystemTime(システム時間)を取得し、取得したSystemTimeをFirstKeyOnTimeに設定し(ステップS34)、ステップS37に移行する。
 ここで、FirstKeyOnTimeは、現在押鍵されている鍵のうち最初に押鍵された鍵(第1操作子)が押鍵された時間を格納する変数である。すなわち、CPU201は、KeyOnCounterが1であると判断した場合、第1操作子への操作(第1押鍵と呼ぶ)を検出したと判断してFirstKeyOnTimeの設定を行う。
 KeyOnCounterが1ではないと判断した場合(ステップS33;NO)、CPU201は、SystemTimeを取得し、SystemTime - FirstKeyOnTime>Mであるか否かを判断する(ステップS35)。
 ここで、Mは、検出された押鍵操作(第2操作子への操作)が、第1押鍵とほぼ同時に操作されたか否かを判定するために予め設定された同時判定期間(数msec程度。本発明の設定時間に対応。)である。SystemTime - FirstKeyOnTime>Mではない場合(すなわち、第1押鍵からの経過時間が同時判定期間内である場合)、検出された押鍵操作は第1押鍵と同時押鍵であるとみなされる。SystemTime - FirstKeyOnTime >Mである場合(すなわち、第1押鍵からの経過時間が同時判定期間外である場合)、検出された押鍵操作は第1押鍵と同時押鍵とはみなされない。
 SystemTime - FirstKeyOnTime>Mではない(同時判定期間内である)と判断した場合(ステップS35;NO)、CPU201は、ステップS41に移行する。
 ここで、ステップS35の判断がNOとなる押鍵は、第1押鍵と同時押鍵である。複数の同時押鍵の場合は、第1押鍵も含めて全体で1つの音節が進むよう制御する。本実施形態では、第1押鍵で音節を進めるため、同時押鍵となるその他の押鍵では、ステップS41に移行して、音節を進めないよう制御する。
 SystemTime - FirstKeyOnTime>Mである(同時判定期間外である)と判断した場合(ステップS35;YES)、CPU201は、KeyOnCounter<4、すなわち、現在押鍵されている鍵数が4未満であるか否かを判断する(ステップS36)。
 ここで、ステップS36でKeyOnCounterと比較する設定数(ここでは4)は、歌声発音モードで発音するパート数である。本実施形態では、歌声発音モードでソプラノ、アルト、テノール、バスの4つのパートを発音させることとして、ステップS36でKeyOnCounterと比較する設定数を4としている。なお、この設定数は、ユーザ操作に応じて変更可能である。
 KeyOnCounter<4であると判断した場合(ステップS36;YES)、すなわち、現在押鍵されている鍵数がパート数に満たないと判断した場合、CPU201は、ステップS37に移行する。
 KeyOnCounter<4ではないと判断した場合(ステップS36;NO)、すなわち、現在押鍵されている鍵数がパート数に達していると判断した場合、CPU201は、ステップS41に移行する。
 ステップS37において、CPU201は、CurrentFramePosが最後の音節のフレーム位置であるか否かを判断する(ステップS37)。
 このCurrentFramePosは、現在の発音対象のフレームのフレーム位置を格納する変数であり、ステップS43又はS44において次の発音対象のフレームのフレーム位置に置き換えられるまでは、前回発音されたフレームのフレーム位置が格納されている。
 CurrentFramePosが最後の音節のフレーム位置であると判断した場合(ステップS37;YES)、CPU201は、次の発音対象のフレームのフレーム位置を格納する変数であるNextFramePosに、最初の音節の音節開始位置を設定し(ステップS38)、ステップS43に移行する。
 CurrentFramePosが最後の音節のフレーム位置ではないと判断した場合(ステップS37;NO)、CPU201は、NextFramePosに、次の音節の音節開始位置を設定し(ステップS39)、ステップS43に移行する。
 ステップS43において、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS43)、図7のステップS4に移行する。
 すなわち、前回発音されたフレームが最後の音節ではない場合は、発音対象のフレームの位置が次の音節の音節開始位置に進行する。前回発音されたフレームが最後の音節である場合は、前回発音された音節の次の音節がないため、発音対象のフレームの位置が最初の音節開始位置のフレームに進行する。
 一方、ステップS31において、離鍵が検出されたと判断した場合(ステップS31;NO)、CPU201は、KeyOnCounterにKeyOnCounter - 1を設定し(ステップS40)、ステップS41に移行する。
 ステップS41において、CPU201は、NextFramePosにCurrentFramePos+再生レート/120を設定する(ステップS41)。
 ここで、120は、デフォルトのテンポ値であるが、これに限定されるものではない。再生レートは、ユーザが予め設定した値である。例えば、再生レートが240に設定されている場合、次に発音するフレームの位置が現在のフレーム位置から2つ進んだ位置に設定される。再生レートが60に設定されている場合、次に発音するフレームの位置が現在のフレーム位置から0.5進んだ位置に設定される。
 次いで、CPU201は、NextFramePos>母音終了位置であるか否かを判断する(ステップS42)。すなわち、次に発音するフレームの位置が、現在の発音対象の音節の母音終了位置(すなわち前回発音された音節の母音終了位置)を超えるか否かを判断する。
 NextFramePos>母音終了位置ではないと判断した場合(ステップS42;NO)、CPU201は、ステップS43に移行し、CurrentFramePosにNextFramePosを設定し(ステップS43)、図7のステップS4に移行する。すなわち、発音対象のフレームのフレーム位置をNextFramePosに進行させるが、NextFramePosは前回発音された音節の母音終了位置より手前であるため、次の音節には進まない。
 NextFramePos>母音終了位置であると判断した場合(ステップS42;YES)、CPU201は、CurrentFramePosに現在の発音対象の音節の母音終了位置を設定し(ステップS44)、図7のステップS4に移行する。すなわち、発音対象のフレームのフレーム位置を前回発音された音節の母音終了位置に設定するので、次の音節には進まない。
 図9は、上記の音節進行制御処理による音節制御の様子を模式的に示す図である。図9において、黒い逆三角形は、全鍵が離鍵状態となったタイミングを示している。また、KeyOnCounterの数値は、T1~T6のそれぞれのタイミングにおけるKeyOnCounterの値を示している。
 図9に示す演奏のT1のタイミングの押鍵は、4つのパートの同時押鍵であるので音節が1つ進む。T2のタイミングの押鍵は、同時判定期間外の押鍵であり、このタイミングで押鍵されている鍵の数はパート数(4)に達しているため、音節は進まない。T3のタイミングの押鍵は、4つのパートの同時押鍵であるので音節が1つ進む。T4のタイミングの押鍵は、4つのパートの同時押鍵であるので音節が1つ進む。T5のタイミングの押鍵は、同時判定期間外の押鍵であり、このタイミングで押鍵されている鍵の数はパート数(4)に達しているため、音節は進まない。T6のタイミングの押鍵は、同時判定期間外の押鍵であり、このタイミングで同時に押鍵されている鍵の数はパート数(4)に満たないため、音節が1つ進む。
 このように、上記の音節進行制御処理によれば、押鍵操作が検出されても、同時判定期間外の押鍵であり(すなわち、第1押鍵又は第1押鍵と同時押鍵ではなく)、この押鍵操作の時点で押鍵されている鍵の数がパート数に達している場合、発音する音節は次の音節に進行しない。よって、メロディーパート(ソプラノ)は音高を変化させずに母音を維持したまま、アルトやバスパートだけがメリスマで音高を変えるような場合に、歌詞の音節を進行させないようにすることができ、和声を再現する場合の音節進行を適切に制御することができる。
 図7のステップS4において、CPU201は、ステップS1で入力された演奏操作情報に基づいて検出された操作が押鍵操作であるか否かを判断する(ステップS4)。
 検出された操作が押鍵操作であると判断した場合(ステップS4;YES)、CPU201は、CurrentFramePosに格納されているフレーム位置のフレームを発音させる発音処理を実行し(ステップS5)、ステップS7に移行する。
 ステップS5において、CPU201は、押鍵操作が検出された鍵の音高情報と、CurrentFramePosに格納されているフレーム位置のフレームのスペクトルパラメータに基づいて、音声合成部205に歌声の音声を合成させて出力させる。
 具体的に、CPU201は、鍵盤101において押鍵操作された鍵及び押鍵中の鍵の音高情報を音源部204に入力し、音源部204により、予め設定された音色の、入力された音高情報に応じた波形データを波形ROMから読み出して発声音源用波形データとして音声合成部205の合成フィルタ205aに入力させる。また、CPU201は、CurrentFramePosに格納されているフレーム位置のフレームのスペクトルパラメータをRAM203に記憶されている歌声情報から取得して、合成フィルタ205aに入力する。そして、合成フィルタ205aにより、入力されたスペクトルパラメータと発声音源用波形データに基づいて歌声波形データを生成させ、生成された歌声波形データをD/Aコンバータ212によりアナログ音声信号に変換させ、アンプ213とスピーカ214を介して出力(発音)させる。
 検出された操作が離鍵操作であると判断した場合(ステップS4;NO)、CPU201は、離鍵操作された鍵の音声の消音処理を実行し(ステップS6)、ステップS7に移行する。
 ステップS7において、CPU201は、離鍵操作された鍵以外の、現在押鍵中の鍵の音高情報と、CurrentFramePosに格納されているフレーム位置のフレームのスペクトルパラメータに基づいて、歌声の音声を合成させて出力させる。
 具体的に、CPU201は、離鍵操作された鍵以外の、現在押鍵中の鍵の音高情報を音源部204に入力し、音源部204により、予め設定された音色の、入力された音高情報に応じた波形データを発声音源用波形データとして音声合成部205の合成フィルタ205aに入力させる。また、CPU201は、CurrentFramePosに格納されているフレーム位置のフレームのスペクトルパラメータをRAM203に記憶されている歌声情報から取得して、合成フィルタ205aに入力する。そして、合成フィルタ205aにより、入力されたスペクトルパラメータと発声音源用波形データに基づいて歌声波形データを生成させ、生成された歌声波形データをD/Aコンバータ212によりアナログ音声信号に変換させ、アンプ213とスピーカ214を介して出力(発音)させる。
 ステップS7において、CPU201は、歌声発音モードの終了が指示されたか否かを判断する(ステップS7)。
 例えば、歌声発音モード中に歌声発音モードスイッチが押下された場合、CPU201は、歌声発音モードの終了が指示されたと判断する。
 歌声発音モードの終了が指示されていないと判断した場合(ステップS7;NO)、CPU201は、ステップS2に戻る。
 歌声発音モードの終了が指示されたと判断した場合(ステップS7;YES)、CPU201は、歌声発音モードを終了する。
 以上説明したように、電子楽器2のCPU201によれば、同時判定期間の経過後に押鍵操作が検出された場合、当該押鍵操作が検出されたタイミングに操作継続中の操作子の数に応じて、発音させる音節を第1音節(先頭の音節に限らない。)から次の第2音節に進めるか、進めないかを制御する。
 例えば、CPU201は、操作継続中の操作子の数が設定数に達している場合に、第1音節から第2音節に進めないように制御し、操作継続中の操作子の数が設定数に満たない場合に、第1音節から第2音節に進めるように制御する。
 したがって、例えば、メロディーパートは音高を変化させずに母音を維持したまま、アルトやバスパートだけがメリスマで音高を変えるような場合に、歌詞の音節を進行させないようにすることができ、和声を再現する場合の音節進行を適切に制御することができる。
 また、CPU201は、検出された前記タイミングに操作継続中の操作子が存在しない場合に、発音させる音声に対応する音節を第1音節から第2音節に進めるように制御する。したがって、音節進行を適切に制御することができる。
 また、CPU201は、いずれの操作子への操作がされていない状態でいずれかの操作子への操作を検出した場合に、同時判定期間のカウントを開始する。したがって、音節進行を適切に制御することができる。
 なお、上記実施形態における記述内容は、本発明に係る情報処理装置、電子楽器、音節進行制御方法及びプログラムの好適な一例であり、これに限定されるものではない。
 例えば、上記実施形態においては、本発明の情報処理装置が電子楽器2に含まれる構成として説明したが、これに限定されない。例えば、本発明の情報処理装置の機能が、有線又は無線による通信インターフェースを介して電子楽器2に接続された外部装置(例えば、上述の端末装置3(PC(Personal Computer)、タブレット端末、スマートフォン等
))に備えられていることとしてもよい。この場合、情報処理装置は、音節の位置制御に応じたパラメータ(ここでは、スペクトルパラメーター)を電子楽器2に送信し、電子楽器2は、受信したパラメータに基づいて合成した音声を発音する。
 また、上記実施形態では、学習済みモデル302aが端末装置3に備えられていることとして説明したが、電子楽器2に備えられている構成としてもよい。そして、電子楽器2において入力された歌詞データ及び音高データに基づいて、学習済みモデル302aが歌声情報を推論することとしてもよい。
 また、上記実施形態においては、電子楽器2が電子鍵盤楽器である場合を例にとり説明したが、これに限定されず、例えば、電子弦楽器、電子管楽器等の他の電子楽器であってもよい。
 また、上記実施形態では、本発明に係るプログラムのコンピュータ読み取り可能な媒体としてROM等の半導体メモリやハードディスクを使用した例を開示したが、この例に限定されない。その他のコンピュータ読み取り可能な媒体として、SSDや、CD-ROM等の可搬型記録媒体を適用することが可能である。また、本発明に係るプログラムのデータを通信回線を介して提供する媒体として、キャリアウエーブ(搬送波)も適用される。
 その他、電子楽器、情報処理装置、及び電子楽器システムの細部構成及び細部動作に関しても、発明の趣旨を逸脱することのない範囲で適宜変更可能である。
 以上に本発明の実施形態を説明したが、本発明の技術的範囲は上述の実施の形態に限定するものではなく、特許請求の範囲に記載に基づいて定められる。更に、特許請求の範囲の記載から本発明の本質とは関係のない変更を加えた均等な範囲も本発明の技術的範囲に含む。
 なお、明細書、請求の範囲、図面及び要約を含む2021年12月22日に出願された日本特許出願No.2021-207713号の全ての開示は、そのまま本出願の一部に組み込まれる。
 本発明は、電子楽器の制御に関するものであり、産業上の利用可能性を有する。
1 電子楽器システム
2 電子楽器
101 鍵盤
102 第1のスイッチパネル
103 第2のスイッチパネル
104 LCD
201 CPU
202 ROM
203 RAM
204 音源部
205 音声合成部
205a 合成フィルタ
206 キースキャナ
208 通信部
209 バス
210 タイマ
211 D/Aコンバータ
212 D/Aコンバータ
213 アンプ
214 スピーカ
3 端末装置
301 CPU
302 ROM
302a 学習済みモデル
303 RAM
304 記憶部
305 操作部
306 表示部
307 通信部
308 バス

Claims (8)

  1.  第1操作子への操作が検出されてから設定時間経過後に第2操作子への操作が検出された場合、前記第2操作子への操作が検出されたタイミングに操作継続中の操作子の数に応じて、発音させる音節を第1音節から次の第2音節に進めるか、進めないかを制御する、制御部を備える情報処理装置。
  2.  前記制御部は、
     前記操作継続中の操作子の数が設定数に達している場合に、前記第1音節から前記第2音節に進めないように制御し、
     前記操作継続中の操作子の数が前記設定数に満たない場合に、前記第1音節から前記第2音節に進めるように制御する、
     請求項1に記載の情報処理装置。
  3.  前記制御部は、検出された前記タイミングに操作継続中の操作子が存在しない場合に、発音させる音声に対応する音節を前記第1音節から前記第2音節に進めるように制御する、
     請求項1又は2に記載の情報処理装置。
  4.  前記制御部は、いずれの操作子への操作がされていない状態でいずれかの操作子への操作を検出した場合に、前記第1操作子への操作を検出したと判断して前記設定時間のカウントを開始する、
     請求項1~3のいずれか一項に記載の情報処理装置。
  5.  請求項1~4のいずれか一項に記載の情報処理装置と、
     電子楽器と、
     を備え、
     前記情報処理装置は、音節の位置制御に応じたパラメータを前記電子楽器に送信し、
     前記電子楽器は、受信した前記パラメータに基づいて合成した音声を発音する、
     電子楽器システム。
  6.  請求項1~4のいずれか一項に記載の情報処理装置と、
     複数の操作子と、
     を備える電子楽器。
  7.  情報処理装置の制御部が、
     第1操作子への操作が検出されてから設定時間経過後に第2操作子への操作が検出された場合、前記第2操作子への操作が検出されたタイミングに操作継続中の操作子の数に応じて、発音させる音節を第1音節から次の第2音節に進めるか、進めないかを制御する、方法。
  8.  情報処理装置の制御部が、
    第1操作子への操作が検出されてから設定時間経過後に第2操作子への操作が検出された場合、前記第2操作子への操作が検出されたタイミングに操作継続中の操作子の数に応じて、発音させる音節を第1音節から次の第2音節に進めるか、進めないかを制御する、
     処理を実行するためのプログラム。
PCT/JP2022/045757 2021-12-22 2022-12-13 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム WO2023120288A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-207713 2021-12-22
JP2021207713A JP2023092598A (ja) 2021-12-22 2021-12-22 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2023120288A1 true WO2023120288A1 (ja) 2023-06-29

Family

ID=86902379

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/045757 WO2023120288A1 (ja) 2021-12-22 2022-12-13 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2023092598A (ja)
WO (1) WO2023120288A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021099461A (ja) * 2019-12-23 2021-07-01 カシオ計算機株式会社 電子楽器、方法及びプログラム
JP2021099462A (ja) * 2019-12-23 2021-07-01 カシオ計算機株式会社 電子楽器、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021099461A (ja) * 2019-12-23 2021-07-01 カシオ計算機株式会社 電子楽器、方法及びプログラム
JP2021099462A (ja) * 2019-12-23 2021-07-01 カシオ計算機株式会社 電子楽器、方法及びプログラム

Also Published As

Publication number Publication date
JP2023092598A (ja) 2023-07-04

Similar Documents

Publication Publication Date Title
JP3598598B2 (ja) カラオケ装置
US10789922B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
EP3273441B1 (en) Sound control device, sound control method, and sound control program
JP6729539B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2021099462A (ja) 電子楽器、方法及びプログラム
JP4802857B2 (ja) 楽音合成装置及びプログラム
JP2011102978A (ja) 楽音信号処理装置及びプログラム
JP3116937B2 (ja) カラオケ装置
WO2023120288A1 (ja) 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム
JP6044284B2 (ja) 音声合成装置
WO2023120289A1 (ja) 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム
US20220301530A1 (en) Information processing device, electronic musical instrument, and information processing method
JP3307283B2 (ja) 歌唱音合成装置
WO2023140151A1 (ja) 情報処理装置、電子楽器、電子楽器システム、方法及びプログラム
JP2001042879A (ja) カラオケ装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2002221978A (ja) ボーカルデータ生成装置、ボーカルデータ生成方法および歌唱音合成装置
JP7468495B2 (ja) 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム
JP2904045B2 (ja) カラオケ装置
JP3173310B2 (ja) ハーモニー生成装置
WO2023120121A1 (ja) 子音長変更装置、電子楽器、楽器システム、方法及びプログラム
JP4296767B2 (ja) ブレス音合成方法、ブレス音合成装置およびプログラム
JP4033146B2 (ja) カラオケ装置
JP4624879B2 (ja) 楽音情報発生プログラムおよび楽音情報発生装置
JPH1049192A (ja) 歌唱音合成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22910996

Country of ref document: EP

Kind code of ref document: A1