WO2024034116A1 - 音声データ処理装置、音声データ処理方法およびプログラム - Google Patents

音声データ処理装置、音声データ処理方法およびプログラム Download PDF

Info

Publication number
WO2024034116A1
WO2024034116A1 PCT/JP2022/030731 JP2022030731W WO2024034116A1 WO 2024034116 A1 WO2024034116 A1 WO 2024034116A1 JP 2022030731 W JP2022030731 W JP 2022030731W WO 2024034116 A1 WO2024034116 A1 WO 2024034116A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
audio data
rearranged
velocity
unit
Prior art date
Application number
PCT/JP2022/030731
Other languages
English (en)
French (fr)
Inventor
四郎 鈴木
肇 吉野
敬 坂上
Original Assignee
AlphaTheta株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AlphaTheta株式会社 filed Critical AlphaTheta株式会社
Priority to PCT/JP2022/030731 priority Critical patent/WO2024034116A1/ja
Publication of WO2024034116A1 publication Critical patent/WO2024034116A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/04Transposing; Transcribing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Definitions

  • the present invention relates to an audio data processing device, an audio data processing method, and a program.
  • arranged part data is created by arranging predetermined part data out of a plurality of part data separated by a music separation means, and predetermined part data is extracted from the arranged part data and the plurality of part data.
  • a technique for transmitting the removed original song part data is described.
  • the present invention is not limited to such an example, but aims to provide an audio data processing device, an audio data processing method, and a program for providing new expressions using part separation of songs.
  • the audio data of a song including a first part and a second part that are phonetically separable, the audio data of the first part, the unit sound data of the second part, and the unit sound data of the second part are extracted.
  • a voice analysis unit that extracts data indicating the pronunciation position and velocity of the part; and a voice analysis unit that generates mixed voice data in which the unit sounds of the second part rearranged with the voice data of the first part are mixed.
  • the mix processing section converts the velocity of the unit note of the second part rearranged to a sounding position different from the sounding position of the second part in the music into the velocity of the unit sound of the second part in the music.
  • the audio data processing device determines based on the velocity of the sound of the second part in the music selected according to the relationship between the sounding position of the second part and the rearranged sounding position. [2] The audio data processing device according to [1], wherein the mix processing section selects the sound of the second part that is within the same beat as the rearranged sound generation position in the song. [3] The mix processing unit rearranges the front beat and back beat divisions from two or more sounds of the second part that are within the same beat as the rearranged pronunciation position in the song. The audio data processing device according to [2], which selects a sound that is common to a pronunciation position.
  • the mix processing unit may perform the rearrangement of the position within the beat in the music.
  • the audio data processing device according to [2] which selects a sound that is common to a pronunciation position.
  • the mix processing unit selects a sound whose sound generation position is closer to the rearranged sound sound position from among two or more sounds whose position within a beat is common to the rearranged sound sound position in the music piece. , the audio data processing device according to [4].
  • the mix processing unit selects a sound whose sound generation position is closest to the rearranged sound generation position in the music piece.
  • [7] The audio according to any one of [1] to [6], wherein the second part is composed of percussion instrument sounds, and the first part is composed of sounds other than the percussion instrument sounds. Data processing equipment.
  • [8] The audio data processing device according to [7], wherein the percussion instrument sound includes a kick sound.
  • the audio data of a song including a first part and a second part that are phonetically separable
  • the audio data of the first part, the unit sound data of the second part, and the unit sound data of the second part are extracted.
  • the velocity of the unit note of the second part rearranged to a different sounding position from the sounding position of the second part in the music piece is determined by the velocity of the unit sound of the second part in the music piece.
  • An audio data processing method that determines based on the velocity of the sound of the second part in the music selected according to the relationship between the sounding position of the second part and the rearranged sounding position.
  • the quality of the mixed audio data is improved by determining the velocity of the rearranged unit sound based on the velocity of the sound of the second part appropriately selected from the audio data of the original song. be able to.
  • FIG. 1 is a diagram showing the overall configuration of a system according to an embodiment of the present invention.
  • 2 is a block diagram showing a schematic functional configuration of the audio data processing device in the example of FIG. 1.
  • FIG. 3 is a diagram for explaining an example of velocity settings in an embodiment of the present invention.
  • FIG. 3 is a diagram for explaining front beats and back beats.
  • FIG. 7 is a diagram for explaining another example of velocity settings in an embodiment of the present invention.
  • FIG. 1 is a diagram showing the overall configuration of a system according to an embodiment of the present invention.
  • the system 10 includes a PC (Personal Computer) 100, a DJ controller 200, and speakers 300.
  • the PC 100 is a device that stores, processes, and reproduces audio data, and is not limited to a PC, but may be a terminal device such as a tablet or a smartphone.
  • the PC 100 includes a display 101 that displays information to the user, and an input device such as a touch panel or a mouse that obtains operation input from the user.
  • the DJ controller 200 is connected to the PC 100 via a communication means such as a USB (Universal Serial Bus), and receives user operation input regarding music playback using a channel fader, cross fader, performance pad, jog dial, various knobs and buttons, etc. get.
  • the audio data is reproduced using the speaker 300, for example.
  • the PC 100 functions as an audio data processing device in the system 10 as described above.
  • the PC 100 executes processing corresponding to a user's operational input on the stored audio data when the audio data is reproduced.
  • the PC 100 may perform processing on the audio data before playback and save the processed audio data.
  • the DJ controller 200 and speakers 300 may not be connected to the PC 100 at the time the process is executed.
  • the PC 100 functions as the audio data processing device, but in other embodiments, DJ equipment such as a mixer or an all-in-one DJ system (digital audio player with communication and mixing functions) may function as the audio data processing device. .
  • a server connected to a PC or DJ equipment via a network may function as the audio data processing device.
  • FIG. 2 is a block diagram showing a schematic functional configuration of the audio data processing device in the example of FIG. 1.
  • the PC 100 functioning as an audio data processing device includes an audio analysis section 120, a display section 140, a mix processing section 150, and an operation section 160. These functions are implemented by a processor such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor) operating according to a program.
  • the program is read from the storage of the PC 100 or a removable recording medium, or downloaded from a server via a network, and expanded into the memory of the PC 100.
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • Musical piece audio data 110 including a first part and a second part that are phonetically separable is input to the audio analysis unit 120.
  • the first part is a vocal and/or instrumental sound part other than the kick sound
  • the second part is a kick sound part.
  • the kick sound is a bass drum sound or a synthesized sound that imitates a bass drum sound.
  • the audio analysis unit 120 extracts kick sound removed audio data 131, kick unit sound data 132, and kick pronunciation data 133 from the music audio data 110 using, for example, a music separation engine.
  • the kick sound removed audio data 131 is audio data obtained by removing the kick sound from the music audio data 110, that is, the audio data of the first part.
  • the Kick unit sound data 132 is data of the Kick sound included in the music audio data 110, that is, the unit sound of the second part (hereinafter also referred to as Kick unit sound).
  • the kick pronunciation data 133 is data indicating the pronunciation position and velocity of the kick sound in the music audio data 110.
  • a unit sound is a sound extracted using one pronunciation of the sound of the second part as a unit.
  • the audio analysis unit 120 separates the kick sound part from the music audio data 110, further divides the kick sound part into pronunciations, and extracts unit sounds by classifying the pronunciations based on the characteristics of the audio waveform.
  • a plurality of unit sounds having different audio waveform characteristics may be extracted.
  • the Kick unit sound data 132 may be, for example, audio data sampled from the Kick sound part, temporal position information where the unit sound is played in the Kick sound part, or extracted It may be audio data of a sample sound similar to the sound, or an identifier of the sample sound.
  • the sound generation position is the temporal position at which the kick sound is sounded in the music audio data 110, and is recorded, for example, as a time code within the music or as a count in units of bars/beats.
  • Velocity is a parameter that indicates the volume and length of a sound. For example, in MIDI (registered trademark), velocity is used as a numerical value representing the strength of a sound, more specifically, the speed of a keystroke when a sound is produced by a keystroke. The higher the velocity, the louder the volume and the longer the note.
  • the audio analysis unit 120 generates kick pronunciation data 133 that records the pronunciation position and velocity of each kick sound separated from the music audio data 110.
  • the display unit 140 displays information based on the Kick unit sound data 132 or the Kick pronunciation data 133 on the display 101 of the PC 100, for example.
  • the operation unit 160 obtains a user's operation input to an input device such as a touch panel or a mouse of the PC 100.
  • the display unit 140 displays the audio waveform of the song (the waveform may be based on the song audio data 110 or the waveform may be based on the kick sound removed audio data 131) and the kick sound associated with the waveform.
  • the operation unit 160 obtains an operation by the user to change the sound generation position of the kick sound to an arbitrary position within the song.
  • the display unit 140 may display the arrangement of kick sounds according to a preset rhythm pattern, and the operation unit 160 may obtain an operation by the user to select a rhythm pattern.
  • the position of the kick sound may be determined automatically without the user's operation.
  • the display section 140 and the operation section 160 described above may not be included in the functions of the audio data processing device.
  • the mix processing unit 150 generates mixed audio data 170 based on the kick sound removed audio data 131 and the kick unit sound data 132.
  • the mixed audio data 170 is audio data in which the kick sound removed audio data 131 is mixed with the rearranged kick unit sound.
  • the sound generation position of the Kick unit sound in the mixed audio data 170 is determined according to the user operation acquired by the operation unit 160 as described above, or according to the automatically determined rhythm pattern.
  • the pronunciation position of the Kick unit sound in the mixed audio data 170 includes a different position from the pronunciation position of the Kick sound in the original music audio data 110.
  • the appropriate velocity for the kick sound in relation to, for example, the rhythm pattern and the sounds of other parts you can obtain a natural listening sensation and a sense of groove, improving the quality of the track.
  • the appropriate velocity is unknown for a Kick unit note that has been relocated to a position different from the Kick sound generation position in the original music audio data 110. For example, if a uniform velocity is set, the track Quality may deteriorate.
  • the mix processing unit 150 adjusts the velocity of the Kick unit sound that has been relocated to a sound generation position different from the sound generation position of the Kick sound in the original music audio data 110, to the velocity of the Kick unit sound that has been relocated to a sound generation position different from the sound sound generation position of the Kick sound in the original music audio data 110.
  • the determination is made based on the velocity of the kick sound in the original music audio data 110, which is selected according to the relationship with the sound generation position of the kick unit sound.
  • the relationship between the sounding positions is specified based on, for example, the bars and beats of the song.
  • the original pronunciation position and velocity of the kick sound are read from the kick pronunciation data 133 extracted by the audio analysis unit 120. It should be noted that the Kick unit sound that has been relocated to the same sound generation position as the Kick sound in the original music audio data 110 will not be particularly described below because, in principle, it is sufficient to set the same velocity as the original Kick sound.
  • FIG. 3 is a diagram for explaining an example of velocity settings in an embodiment of the present invention.
  • the pronunciation positions of kick sounds for eight beats are shown for the original song (original song audio data 110) and after the change (mixed audio data 170).
  • the kick sound is generated at the beginning of the third to eighth beats (the first segment when one beat is divided into four segments).
  • these Kick sounds before change are given symbols S1 to S6, respectively.
  • the kick sound is generated at the first segment of the first and second beats, and the third segment of the fourth, sixth, and seventh beats.
  • these changed Kick sounds are given codes D1 to D5, respectively.
  • the mix processing unit 150 selects a kick sound from the original song audio data 110 according to the following rules, and selects a rearranged kick sound (target kick sound) based on the velocity of the selected kick sound. (also called velocity). Specifically, the mix processing unit 150 makes the velocity of the target kick sound the same as the velocity of the selected kick sound. (1) If there are two or more kick sounds (2) (1) within the same beat as the target kick sound, the classification of common-time beat and half-time beat is targeted. If there is no kick sound (3) (1) that has the same position as the kick sound, or if there are two or more kick sounds (4) (3) whose positions within the beat are the same as the target kick sound, the sound will be produced.
  • Rule (1) is based on the fact that the velocity of a kick note within the same beat is likely to be appropriate even for a rearranged kick note in relation to the rhythm pattern and the sounds of other parts.
  • Rule (2) is that if there is a kick sound on both the upbeat and backbeat within the same beat, the velocity of the rearranged kick sound and the kick sound that has the same upbeat/backbeat classification will be the same as the rhythm. Based on what is likely to be more appropriate in relation to the pattern.
  • Rule (3) is that if there are no Kick sounds within the same beat, there is a high possibility that the velocity of Kick sounds that share the same position within the beat is appropriate from the relationship with the rhythm pattern, even if they are on other beats. Based on that.
  • Rules (4) and (5) are based on the fact that the velocity of a kick note that is close to the pronunciation position is likely to be appropriate in relation to the sounds of other parts. Note that in other examples, for example, rule (5) may be given priority over rule (3) so that a velocity that is likely to be appropriate in relation to the sounds of other parts is likely to be set.
  • FIG. 5 is a diagram for explaining another example of velocity settings in an embodiment of the present invention.
  • kick sounds S31, S33, S41, S43, S51, S54, S61, S63, S71, and S73 of the original song and changed kick sounds D6 to D12 are shown.
  • S31 indicates that the sounding position is in the "first segment of the third beat”
  • S33 indicates that the sounding position is in the "third segment of the third beat”. , and the same applies hereafter.
  • the velocity of the kick sound S31 is determined from rules (3) and (4) as in the example in Fig. 3. is set. Since the changed kick sound D7 is in the fourth segment of the first beat, the velocity of the kick sound D54 in the fourth segment of the fifth beat in the original song is set according to rule (3). The changed kick sound D8 is in the second segment of the second beat, but since there is no kick sound whose sound position is in the second segment within the beat in the original song, according to rule (5), the kick sound whose sound position is closest is The velocity of sound S31 is set.
  • the kick sound D9 Since the changed kick sound D9 is in the 4th segment of the 3rd beat, from the kick sounds S31 and S33 whose pronunciation position is on the 3rd beat in the original song according to rules (1) and (2), the kick sound D9 is The velocity of kick sound D33, which is also on the backbeat, is set. Similarly, the velocities of the kick sounds S51, S61, and S73 of the original song are set for the changed kick sounds D10, D11, and D12, respectively, based on rules (1) and (2).
  • the velocity of the rearranged Kick unit sound is determined based on the velocity of the Kick sound appropriately selected from the original song audio data 110.
  • the appropriate setting of the velocity of the kick sound in the song audio data 110 for each sounding position can be reflected in the velocity of the kick sound in the mix audio data 170, for example, a natural hearing sensation and a groove feeling can be obtained, and the mix The quality of audio data 170 is improved.
  • the first part of the song is a part other than a kick sound
  • the second part is a kick sound part
  • the first part and the second part There are no limitations on how vocals and/or instrumental sounds are assigned to separate parts.
  • the second part may be any part from which unit sounds can be extracted; for example, it may be a hi-hat or snare part, or a percussion instrument sound part such as a drum sound in which a hi-hat or a snare is added to a kick sound.
  • the second part is a drum sound part
  • the kick unit sound, hi-hat and snare unit sounds are respectively May be relocated.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音声的に分離可能な第1のパートおよび第2のパートを含む楽曲の音声データから、上記第1のパートの音声データ、上記第2のパートの単位音のデータおよび上記第2のパートの発音位置ならびに音のベロシティを示すデータを抽出する音声解析部と、上記第1のパートの音声データに再配置された上記第2のパートの単位音がミックスされたミックス音声データを生成するミックス処理部とを備え、上記ミックス処理部は、上記ミックス音声データにおいて上記楽曲における上記第2のパートの発音位置とは異なる発音位置に再配置された上記第2のパートの単位音のベロシティを、上記第2のパートの発音位置と再配置された発音位置との関係に応じて選択された上記第2のパートの音のベロシティに基づいて決定する、音声データ処理装置が提供される。

Description

音声データ処理装置、音声データ処理方法およびプログラム
 本発明は、音声データ処理装置、音声データ処理方法およびプログラムに関する。
 楽曲を音声的に複数のパートに分離し、分離された各パートの音声データを利用してサービスを提供する技術が知られている。例えば、特許文献1には、楽曲分離手段によって分離された複数のパートデータのうち所定のパートデータを編曲して編曲パートデータを作成し、編曲パートデータと複数のパートデータから所定のパートデータを除いた原曲パートデータとを送信する技術が記載されている。
特開2009-186729号公報
 上記のように、楽曲を音声的に複数のパートに分離し、特定のパートの音のみを加工したり、特定のパートの音をカットしたりする技術は知られている。本発明は、このような例にはとどまらない、楽曲のパート分離を利用した新たな表現を提供するための音声データ処理装置、音声データ処理方法およびプログラムを提供することを目的とする。
[1]音声的に分離可能な第1のパートおよび第2のパートを含む楽曲の音声データから、上記第1のパートの音声データ、上記第2のパートの単位音のデータおよび上記第2のパートの発音位置ならびに音のベロシティを示すデータを抽出する音声解析部と、上記第1のパートの音声データに再配置された上記第2のパートの単位音がミックスされたミックス音声データを生成するミックス処理部とを備え、上記ミックス処理部は、上記楽曲における上記第2のパートの発音位置とは異なる発音位置に再配置された上記第2のパートの単位音のベロシティを、上記楽曲における上記第2のパートの発音位置と再配置された発音位置との関係に応じて選択された上記楽曲における上記第2のパートの音のベロシティに基づいて決定する、音声データ処理装置。
[2]上記ミックス処理部は、上記楽曲において上記再配置された発音位置と同じ拍内にある上記第2のパートの音を選択する、[1]に記載の音声データ処理装置。
[3]上記ミックス処理部は、上記楽曲において上記再配置された発音位置と同じ拍内にある2以上の上記第2のパートの音から、表拍および裏拍の区分が上記再配置された発音位置と共通する音を選択する、[2]に記載の音声データ処理装置。
[4]上記ミックス処理部は、上記楽曲において上記再配置された発音位置と同じ拍内にある上記第2のパートの音がない場合、上記楽曲において拍内での位置が上記再配置された発音位置と共通する音を選択する、[2]に記載の音声データ処理装置。
[5]上記ミックス処理部は、上記楽曲において拍内での位置が上記再配置された発音位置と共通する2以上の音から、発音位置が上記再配置された発音位置により近い音を選択する、[4]に記載の音声データ処理装置。
[6]上記ミックス処理部は、上記楽曲において拍内での位置が上記再配置された発音位置と共通する音がない場合、上記楽曲において発音位置が上記再配置された発音位置に最も近い音を選択する、[4]に記載の音声データ処理装置。
[7]上記第2のパートは、打楽器音によって構成され、上記第1のパートは、上記打楽器音以外の音によって構成される、[1]から[6]のいずれか1項に記載の音声データ処理装置。
[8]上記打楽器音は、Kick音を含む、[7]に記載の音声データ処理装置。
[9]音声的に分離可能な第1のパートおよび第2のパートを含む楽曲の音声データから、上記第1のパートの音声データ、上記第2のパートの単位音のデータおよび上記第2のパートの発音位置ならびに音のベロシティを示すデータを抽出するステップと、上記第1のパートの音声データに再配置された上記第2のパートの単位音がミックスされたミックス音声データを生成するステップとを含み、上記ミックス音声データを生成するステップでは、上記楽曲における上記第2のパートの発音位置とは異なる発音位置に再配置された上記第2のパートの単位音のベロシティを、上記楽曲における上記第2のパートの発音位置と再配置された発音位置との関係に応じて選択された上記楽曲における上記第2のパートの音のベロシティに基づいて決定する、音声データ処理方法。
[10]音声的に分離可能な第1のパートおよび第2のパートを含む楽曲の音声データから、上記第1のパートの音声データ、上記第2のパートの単位音のデータおよび上記第2のパートの発音位置ならびに音のベロシティを示すデータを抽出する機能と、上記第1のパートの音声データに再配置された上記第2のパートの単位音がミックスされたミックス音声データを生成する機能とをコンピュータに実現させるプログラムであって、上記ミックス音声データを生成する機能は、上記楽曲における上記第2のパートの発音位置とは異なる発音位置に再配置された上記第2のパートの単位音のベロシティを、上記楽曲における上記第2のパートの発音位置と再配置された発音位置との関係に応じて選択された上記楽曲における上記第2のパートの音のベロシティに基づいて決定する、プログラム。
 上記の構成によれば、元の楽曲の音声データの第1のパートに再配置された第2のパートの単位音をミックスしたミックス音声データによる新たな表現を提供することができる。ミックス音声データにおいて、再配置された単位音のベロシティを元の楽曲の音声データから適切に選択された第2のパートの音のベロシティに基づいて決定することで、ミックス音声データのクオリティを向上させることができる。
本発明の一実施形態に係るシステムの全体構成を示す図である。 図1の例における音声データ処理装置の概略的な機能構成を示すブロック図である。 本発明の一実施形態におけるベロシティの設定の例について説明するための図である。 表拍および裏拍について説明するための図である。 本発明の一実施形態におけるベロシティの設定の別の例について説明するための図である。
 図1は、本発明の一実施形態に係るシステムの全体構成を示す図である。本実施形態に係るシステム10は、PC(Personal Computer)100と、DJコントローラー200と、スピーカー300とを含む。PC100は音声データの保存、処理および再生を実行する装置であり、PCに限らずタブレットやスマートフォンなどの端末装置であってもよい。PC100は、ユーザーに情報を表示するディスプレイ101と、ユーザーの操作入力を取得するタッチパネルやマウスなどの入力装置とを備える。DJコントローラー200は、例えばUSB(Universal Serial Bus)などの通信手段を介してPC100に接続され、チャンネルフェーダー、クロスフェーダー、パフォーマンスパッド、ジョグダイヤルおよび各種のノブやボタンなどによって楽曲の再生に関するユーザーの操作入力を取得する。音声データは、例えばスピーカー300を用いて再生される。
 本実施形態では、上記のようなシステム10においてPC100が音声データ処理装置として機能する。例えば、PC100は保存された音声データに対するユーザーの操作入力に応じた処理を、音声データの再生時に実行する。あるいは、PC100は音声データに対する処理を再生よりも前に実行し、処理された音声データを保存してもよい。この場合、処理が実行される時点ではPC100にDJコントローラー200やスピーカー300が接続されていなくてもよい。本実施形態ではPC100が音声データ処理装置として機能するが、他の実施形態ではミキサーやオールインワンDJシステム(通信およびミキシング機能付きデジタルオーディオプレーヤー)などのDJ機器が音声データ処理装置として機能してもよい。また、ネットワークを介してPCやDJ機器に接続されたサーバが音声データ処理装置として機能してもよい。
 図2は、図1の例における音声データ処理装置の概略的な機能構成を示すブロック図である。音声データ処理装置として機能するPC100は、音声解析部120、表示部140、ミックス処理部150および操作部160を含む。これらの機能は、CPU(Central Processing Unit)またはDSP(Digital Signal Processor)のようなプロセッサがプログラムに従って動作することによって実装される。プログラムは、PC100のストレージもしくはリムーバブル記録媒体から読み出されるか、ネットワークを介してサーバからダウンロードされて、PC100のメモリに展開される。
 音声解析部120には、音声的に分離可能な第1のパートおよび第2のパートを含む楽曲音声データ110が入力される。本実施形態において、第1のパートはKick音以外のボーカルおよび/または楽器音のパートであり、第2のパートはKick音のパートである。ここで、Kick音はバスドラムの音、またはバスドラムの音を模倣した合成音である。音声解析部120は、例えば楽曲分離エンジンを用いて、楽曲音声データ110からKick音除去音声データ131、Kick単位音データ132およびKick発音データ133を抽出する。ここで、Kick音除去音声データ131は、楽曲音声データ110からKick音を除去した音声のデータ、すなわち第1のパートの音声データである。Kick単位音データ132は、楽曲音声データ110に含まれているKick音、すなわち第2のパートの単位音(以下、Kick単位音ともいう)のデータである。Kick発音データ133は、楽曲音声データ110におけるKick音の発音位置およびベロシティを示すデータである。
 単位音は、第2のパートの音の1回の発音を単位として抽出した音である。例えば、音声解析部120は、楽曲音声データ110からKick音のパートを分離し、さらにKick音のパートを発音ごとに区切り、音声波形の特徴によって発音を分類することによって単位音を抽出する。音声波形の特徴が異なる複数の単位音が抽出されてもよい。Kick単位音データ132は、例えばKick音のパートからサンプリングされた音声データであってよいし、Kick音のパートで単位音が再生される時間的な位置情報であってもよいし、抽出された音に類似したサンプル音の音声データ、またはサンプル音の識別子であってもよい。
 発音位置は、楽曲音声データ110においてKick音が発音される時間的な位置であり、例えば楽曲内のタイムコード、または小節/拍単位のカウントで記録される。ベロシティ(velocity)は、音量や音の長さを示すパラメータである。例えば、MIDI(登録商標)では音の強弱、より具体的には音が打鍵によって発音されるとした場合の打鍵の速度を表す数値としてベロシティが用いられる。ベロシティが大きいほど、音量は大きく、音の長さは長くなる。本実施形態において、音声解析部120は、楽曲音声データ110から分離されたKick音のそれぞれについて発音位置およびベロシティを記録したKick発音データ133を生成する。
 表示部140は、Kick単位音データ132またはKick発音データ133に基づく情報を、例えばPC100のディスプレイ101に表示させる。一方、操作部160は、PC100のタッチパネルやマウスなどの入力装置に対するユーザーの操作入力を取得する。具体的には、例えば、表示部140は楽曲の音声波形(楽曲音声データ110に基づく波形でもよいし、Kick音除去音声データ131に基づく波形でもよい)と、波形に対応付けられたKick音の発音位置とを表示し、操作部160はユーザーがKick音の発音位置を楽曲内の任意の位置に変更する操作を取得する。あるいは、表示部140はプリセットされたリズムパターンによるKick音の配置を表示し、操作部160はユーザーがリズムパターンを選択する操作を取得してもよい。なお、例えばプリセットされたリズムパターンに従ってKick音の配置を変更する場合、Kick音の位置はユーザーの操作によらず自動的に決定されてもよい。この場合、上述した表示部140および操作部160は音声データ処理装置の機能には含まれなくてもよい。
 ミックス処理部150は、Kick音除去音声データ131およびKick単位音データ132に基づいてミックス音声データ170を生成する。ミックス音声データ170は、Kick音除去音声データ131に、再配置されたKick単位音がミックスされた音声データである。ミックス音声データ170におけるKick単位音の発音位置は、上述したように操作部160が取得したユーザー操作、または自動的に決定されたリズムパターンに従って決定される。ここで、ミックス音声データ170におけるKick単位音の発音位置は、元の楽曲音声データ110におけるKick音の発音位置とは異なる位置を含む。
 元の楽曲音声データ110のKick音には、例えば演奏時にパッドなどの操作に強弱をつけたり、打込み時に数値として入力したりすることによって、発音位置ごとに異なるベロシティが設定されている。Kick音に、例えばリズムパターンや他のパートの音との関係において適切なベロシティが設定されていることによって、自然な聴感やグルーブ感が得られ、トラックのクオリティが向上する。これに対して、元の楽曲音声データ110におけるKick音の発音位置とは異なる位置に再配置されたKick単位音では適切なベロシティが不明であり、例えば一律なベロシティを設定した場合にはトラックのクオリティが低下する可能性がある。しかしながら、ユーザーにKick音の発音位置を楽曲内の任意の位置に変更する操作に加えてベロシティの設定操作を要求するのは煩雑であり、またそのような操作によって適切なベロシティが設定されるとは限らない。プリセットされたリズムパターンに従って自動的にKick音の配置を変更する場合も、リズムパターンのみに基づいて適切なベロシティが決定できるとは限らないため、同様の問題が存在する。
 そこで、本実施形態においてミックス処理部150は、元の楽曲音声データ110におけるKick音の発音位置とは異なる発音位置に再配置されたKick単位音のベロシティを、元の発音位置と再配置されたKick単位音の発音位置との関係に応じて選択された、元の楽曲音声データ110におけるKick音のベロシティに基づいて決定する。ここで、発音位置同士の関係は、例えば楽曲の小節や拍を基準にして特定される。Kick音の元の発音位置およびベロシティは、音声解析部120が抽出したKick発音データ133から読み取られる。なお、元の楽曲音声データ110におけるKick音の発音位置と同じ発音位置に再配置されたKick単位音については、原則として元のKick音と同じベロシティを設定すればよいため以下では特に説明しない。
 図3は、本発明の一実施形態におけるベロシティの設定の例について説明するための図である。図示された例では、原曲(元の楽曲音声データ110)および変更後(ミックス音声データ170)について、8拍分のKick音の発音位置が示されている。原曲では、第3拍~第8拍の拍頭(1拍を4つのセグメントに分割した場合の第1セグメント)にKick音の発音位置がある。図では、これらの変更前のKick音にそれぞれS1~S6の符号が与えられている。一方、変更後は、第1拍および第2拍の第1セグメント、ならびに第4拍、第6拍および第7拍の第3セグメントにKick音の発音位置がある。図では、これらの変更後のKick音にそれぞれD1~D5の符号が与えられている。
 この例において、ミックス処理部150は、以下のようなルールに従って元の楽曲音声データ110からKick音を選択し、選択されたKick音のベロシティに基づいて、再配置されたKick音(対象Kick音ともいう)のベロシティを決定する。具体的には、ミックス処理部150は、対象Kick音のベロシティを選択されたKick音のベロシティと同じにする。
(1)対象Kick音の発音位置と同じ拍内にあるKick音
(2)(1)が2以上ある場合、表拍(common-time beat)および裏拍(half-time beat)の区分が対象Kick音の発音位置と共通するKick音
(3)(1)がない場合、拍内での位置が対象Kick音の発音位置と共通するKick音
(4)(3)が2以上ある場合、発音位置が対象Kick音の発音位置により近いKick音
(5)(3)がない場合、発音位置が対象Kick音の発音位置に最も近いKick音
 ここで、ルール(2)について、図4に示されるように1拍を4つのセグメントに分割する場合、第1および第2セグメントが表拍になり、第3および第4セグメントが裏拍になる。
 ルール(1)は、同じ拍内のKick音のベロシティは、リズムパターンおよび他のパートの音との関係から再配置されたKick音についても適切である可能性が高いことに基づく。ルール(2)は、同じ拍内の表拍および裏拍の両方にKick音がある場合は、再配置されたKick音と表拍/裏拍の区分が共通であるKick音のベロシティが、リズムパターンとの関係からより適切である可能性が高いことに基づく。ルール(3)は、同じ拍内にKick音がない場合、リズムパターンとの関係から、他の拍であっても拍内での位置が共通するKick音のベロシティが適切である可能性が高いことに基づく。ルール(4),(5)は、発音位置が近いKick音のベロシティが、他のパートの音との関係から適切である可能性が高いことに基づく。なお、他の例では、例えばルール(3)よりもルール(5)を優先させて、他のパートの音との関係から適切である可能性が高いベロシティが設定されやすいようにしてもよい。
 上記のルールを図3の例に適用すると、変更後のKick音D1,D2の場合、ルール(3)および(4)より、拍内での位置(第1セグメント)が共通する原曲のKick音のうち、発音位置が対象Kick音により近いKick音S1が選択され、変更後のKick音D1,D2のベロシティとして原曲のKick音S1のベロシティが設定される。変更後のKick音D3~D5の場合は、ルール(1)より、それぞれ同じ拍内にある原曲のKick音S2~S5のベロシティが設定される。
 図5は、本発明の一実施形態におけるベロシティの設定の別の例について説明するための図である。図示された例では、原曲のKick音S31,S33,S41,S43,S51,S54,S61,S63,S71,S73と、変更後のKick音D6~D12とが示されている。原曲のKick音に与えられた符号について、「S31」は発音位置が「第3拍の第1セグメント」にあることを示し、「S33」は発音位置が「第3拍の第3セグメント」にあることを示し、以下同様である。
 上記のルール(1)~(5)を図5の例でも適用すると、変更後のKick音D6の場合、図3の例と同様にルール(3)および(4)より、Kick音S31のベロシティが設定される。変更後のKick音D7は第1拍の第4セグメントにあるため、ルール(3)より、原曲で第5拍の第4セグメントにあるKick音D54のベロシティが設定される。変更後のKick音D8は第2拍の第2セグメントにあるが、原曲で発音位置が拍内の第2セグメントであるKick音はないため、ルール(5)より、発音位置が最も近いKick音S31のベロシティが設定される。変更後のKick音D9は第3拍の第4セグメントにあるため、ルール(1)および(2)より原曲で第3拍に発音位置があるKick音S31,S33の中から、Kick音D9と同じく裏拍にあるKick音D33のベロシティが設定される。変更後のKick音D10,D11,D12についても同様に、ルール(1)および(2)よりそれぞれ原曲のKick音S51,S61,S73のベロシティが設定される。
 上述した本発明の一実施形態では、再配置されたKick単位音のベロシティが、元の楽曲音声データ110から適切に選択されたKick音のベロシティに基づいて決定される。これによって、楽曲音声データ110におけるKick音のベロシティの発音位置ごとの適切な設定をミックス音声データ170のKick音のベロシティにも反映させることができ、例えば自然な聴感やグルーブ感が得られ、ミックス音声データ170のクオリティが向上する。
 なお、上記で説明した本発明の一実施形態は例示的なものであり、各種の変更が可能である。例えば、上記の実施形態では楽曲の第1のパートがKick音以外のパートであり、第2のパートがKick音のパートであるものとして説明されたが、第1のパートおよび第2のパートにボーカルおよび/または楽器音をどのように分離したパートを割り当てるかは限定されない。第2のパートは単位音が抽出可能なパートであればよく、例えばハイハットやスネアのパート、またはKick音にハイハットやスネアを加えたドラム音のような打楽器音のパートであってもよい。上述のように音声波形の特徴が異なる複数の単位音を抽出することが可能であるため、第2のパートがドラム音のパートであって、Kick単位音、ならびにハイハットおよびスネアの単位音がそれぞれ再配置されてもよい。
 10…システム、100…PC、101…ディスプレイ、110…楽曲音声データ、120…音声解析部、131…Kick音除去音声データ、132…Kick単位音データ、133…Kick発音データ、140…表示部、150…ミックス処理部、160…操作部、170…ミックス音声データ、200…DJコントローラー、300…スピーカー。

Claims (10)

  1.  音声的に分離可能な第1のパートおよび第2のパートを含む楽曲の音声データから、前記第1のパートの音声データ、前記第2のパートの単位音のデータおよび前記第2のパートの発音位置ならびに音のベロシティを示すデータを抽出する音声解析部と、
     前記第1のパートの音声データに再配置された前記第2のパートの単位音がミックスされたミックス音声データを生成するミックス処理部と
     を備え、
     前記ミックス処理部は、前記楽曲における前記第2のパートの発音位置とは異なる発音位置に再配置された前記第2のパートの単位音のベロシティを、前記楽曲における前記第2のパートの発音位置と再配置された発音位置との関係に応じて選択された前記楽曲における前記第2のパートの音のベロシティに基づいて決定する、音声データ処理装置。
  2.  前記ミックス処理部は、前記楽曲において前記再配置された発音位置と同じ拍内にある前記第2のパートの音を選択する、請求項1に記載の音声データ処理装置。
  3.  前記ミックス処理部は、前記楽曲において前記再配置された発音位置と同じ拍内にある2以上の前記第2のパートの音から、表拍および裏拍の区分が前記再配置された発音位置と共通する音を選択する、請求項2に記載の音声データ処理装置。
  4.  前記ミックス処理部は、前記楽曲において前記再配置された発音位置と同じ拍内にある前記第2のパートの音がない場合、前記楽曲において拍内での位置が前記再配置された発音位置と共通する音を選択する、請求項2に記載の音声データ処理装置。
  5.  前記ミックス処理部は、前記楽曲において拍内での位置が前記再配置された発音位置と共通する2以上の音から、発音位置が前記再配置された発音位置により近い音を選択する、請求項4に記載の音声データ処理装置。
  6.  前記ミックス処理部は、前記楽曲において拍内での位置が前記再配置された発音位置と共通する音がない場合、前記楽曲において発音位置が前記再配置された発音位置に最も近い音を選択する、請求項4に記載の音声データ処理装置。
  7.  前記第2のパートは、打楽器音によって構成され、
     前記第1のパートは、前記打楽器音以外の音によって構成される、請求項1から請求項6のいずれか1項に記載の音声データ処理装置。
  8.  前記打楽器音は、Kick音を含む、請求項7に記載の音声データ処理装置。
  9.  音声的に分離可能な第1のパートおよび第2のパートを含む楽曲の音声データから、前記第1のパートの音声データ、前記第2のパートの単位音のデータおよび前記第2のパートの発音位置ならびに音のベロシティを示すデータを抽出するステップと、
     前記第1のパートの音声データに再配置された前記第2のパートの単位音がミックスされたミックス音声データを生成するステップと
     を含み、
     前記ミックス音声データを生成するステップでは、前記楽曲における前記第2のパートの発音位置とは異なる発音位置に再配置された前記第2のパートの単位音のベロシティを、前記楽曲における前記第2のパートの発音位置と再配置された発音位置との関係に応じて選択された前記楽曲における前記第2のパートの音のベロシティに基づいて決定する、音声データ処理方法。
  10.  音声的に分離可能な第1のパートおよび第2のパートを含む楽曲の音声データから、前記第1のパートの音声データ、前記第2のパートの単位音のデータおよび前記第2のパートの発音位置ならびに音のベロシティを示すデータを抽出する機能と、
     前記第1のパートの音声データに再配置された前記第2のパートの単位音がミックスされたミックス音声データを生成する機能と
     をコンピュータに実現させるプログラムであって、
     前記ミックス音声データを生成する機能は、前記楽曲における前記第2のパートの発音位置とは異なる発音位置に再配置された前記第2のパートの単位音のベロシティを、前記楽曲における前記第2のパートの発音位置と再配置された発音位置との関係に応じて選択された前記楽曲における前記第2のパートの音のベロシティに基づいて決定する、プログラム。
     
PCT/JP2022/030731 2022-08-12 2022-08-12 音声データ処理装置、音声データ処理方法およびプログラム WO2024034116A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030731 WO2024034116A1 (ja) 2022-08-12 2022-08-12 音声データ処理装置、音声データ処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030731 WO2024034116A1 (ja) 2022-08-12 2022-08-12 音声データ処理装置、音声データ処理方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2024034116A1 true WO2024034116A1 (ja) 2024-02-15

Family

ID=89851267

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/030731 WO2024034116A1 (ja) 2022-08-12 2022-08-12 音声データ処理装置、音声データ処理方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2024034116A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272394A (ja) * 1988-09-07 1990-03-12 Roland Corp 自動リズム演奏装置
JP2017058595A (ja) * 2015-09-18 2017-03-23 ヤマハ株式会社 自動アレンジ装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272394A (ja) * 1988-09-07 1990-03-12 Roland Corp 自動リズム演奏装置
JP2017058595A (ja) * 2015-09-18 2017-03-23 ヤマハ株式会社 自動アレンジ装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Practical remix course", SOUND & RECORDING MAGAZINE, JP, vol. 30, no. 5, 1 May 2011 (2011-05-01), JP, pages 70 - 75, XP009552584, ISSN: 1344-6398 *

Similar Documents

Publication Publication Date Title
JP5642296B2 (ja) 音響ジェスチャにより制御信号を発生するための入力インタフェース
US20040044487A1 (en) Method for analyzing music using sounds instruments
WO2017057530A1 (ja) 音響処理装置及び音響処理方法
Meneses et al. GuitarAMI and GuiaRT: two independent yet complementary augmented nylon guitar projects
US7030312B2 (en) System and methods for changing a musical performance
WO2014025041A1 (ja) 発音割り当てのための装置及び方法
JP2000148136A (ja) 音信号分析装置、音信号分析方法及び記憶媒体
WO2024034116A1 (ja) 音声データ処理装置、音声データ処理方法およびプログラム
JP4171680B2 (ja) 音楽再生装置の情報設定装置、情報設定方法、及び情報設定プログラム
WO2024034117A1 (ja) 音声データ処理装置、音声データ処理方法およびプログラム
JP3637196B2 (ja) 音楽再生装置
WO2024034115A1 (ja) 音声信号処理装置、音声信号処理方法およびプログラム
WO2024034118A1 (ja) 音声信号処理装置、音声信号処理方法およびプログラム
WO2022249402A1 (ja) 音響機器、楽曲の再生方法およびプログラム
JP2002268637A (ja) 拍子判定装置、及びプログラム
JP6424907B2 (ja) 演奏情報検索方法を実現するためのプログラム、当該演奏情報検索方法および演奏情報検索装置
JP3627675B2 (ja) 演奏データ編集装置及び方法並びにプログラム
JP4186855B2 (ja) 楽音制御装置及びプログラム
JP2008058796A (ja) 奏法決定装置及びプログラム
JPH10171475A (ja) カラオケ装置
JP4218566B2 (ja) 楽音制御装置及びプログラム
KR100385630B1 (ko) 미디파일 재생장치 및 방법
WO2023235676A1 (en) Enhanced music delivery system with metadata
JP6183002B2 (ja) 演奏情報解析方法を実現するためのプログラム、当該演奏情報解析方法および演奏情報解析装置
JP5983624B6 (ja) 発音割り当てのための装置及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22955031

Country of ref document: EP

Kind code of ref document: A1