WO2024034116A1

WO2024034116A1 - 音声データ処理装置、音声データ処理方法およびプログラム

Info

Publication number: WO2024034116A1
Application number: PCT/JP2022/030731
Authority: WO
Inventors: 四郎鈴木; 肇吉野; 敬坂上
Original assignee: ＡｌｐｈａＴｈｅｔａ株式会社
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2024-02-15

Abstract

音声的に分離可能な第１のパートおよび第２のパートを含む楽曲の音声データから、上記第１のパートの音声データ、上記第２のパートの単位音のデータおよび上記第２のパートの発音位置ならびに音のベロシティを示すデータを抽出する音声解析部と、上記第１のパートの音声データに再配置された上記第２のパートの単位音がミックスされたミックス音声データを生成するミックス処理部とを備え、上記ミックス処理部は、上記ミックス音声データにおいて上記楽曲における上記第２のパートの発音位置とは異なる発音位置に再配置された上記第２のパートの単位音のベロシティを、上記第２のパートの発音位置と再配置された発音位置との関係に応じて選択された上記第２のパートの音のベロシティに基づいて決定する、音声データ処理装置が提供される。

Description

音声データ処理装置、音声データ処理方法およびプログラム

　本発明は、音声データ処理装置、音声データ処理方法およびプログラムに関する。

　楽曲を音声的に複数のパートに分離し、分離された各パートの音声データを利用してサービスを提供する技術が知られている。例えば、特許文献１には、楽曲分離手段によって分離された複数のパートデータのうち所定のパートデータを編曲して編曲パートデータを作成し、編曲パートデータと複数のパートデータから所定のパートデータを除いた原曲パートデータとを送信する技術が記載されている。

特開２００９－１８６７２９号公報

　上記のように、楽曲を音声的に複数のパートに分離し、特定のパートの音のみを加工したり、特定のパートの音をカットしたりする技術は知られている。本発明は、このような例にはとどまらない、楽曲のパート分離を利用した新たな表現を提供するための音声データ処理装置、音声データ処理方法およびプログラムを提供することを目的とする。

［１］音声的に分離可能な第１のパートおよび第２のパートを含む楽曲の音声データから、上記第１のパートの音声データ、上記第２のパートの単位音のデータおよび上記第２のパートの発音位置ならびに音のベロシティを示すデータを抽出する音声解析部と、上記第１のパートの音声データに再配置された上記第２のパートの単位音がミックスされたミックス音声データを生成するミックス処理部とを備え、上記ミックス処理部は、上記楽曲における上記第２のパートの発音位置とは異なる発音位置に再配置された上記第２のパートの単位音のベロシティを、上記楽曲における上記第２のパートの発音位置と再配置された発音位置との関係に応じて選択された上記楽曲における上記第２のパートの音のベロシティに基づいて決定する、音声データ処理装置。
［２］上記ミックス処理部は、上記楽曲において上記再配置された発音位置と同じ拍内にある上記第２のパートの音を選択する、［１］に記載の音声データ処理装置。
［３］上記ミックス処理部は、上記楽曲において上記再配置された発音位置と同じ拍内にある２以上の上記第２のパートの音から、表拍および裏拍の区分が上記再配置された発音位置と共通する音を選択する、［２］に記載の音声データ処理装置。
［４］上記ミックス処理部は、上記楽曲において上記再配置された発音位置と同じ拍内にある上記第２のパートの音がない場合、上記楽曲において拍内での位置が上記再配置された発音位置と共通する音を選択する、［２］に記載の音声データ処理装置。
［５］上記ミックス処理部は、上記楽曲において拍内での位置が上記再配置された発音位置と共通する２以上の音から、発音位置が上記再配置された発音位置により近い音を選択する、［４］に記載の音声データ処理装置。
［６］上記ミックス処理部は、上記楽曲において拍内での位置が上記再配置された発音位置と共通する音がない場合、上記楽曲において発音位置が上記再配置された発音位置に最も近い音を選択する、［４］に記載の音声データ処理装置。
［７］上記第２のパートは、打楽器音によって構成され、上記第１のパートは、上記打楽器音以外の音によって構成される、［１］から［６］のいずれか１項に記載の音声データ処理装置。
［８］上記打楽器音は、Kick音を含む、［７］に記載の音声データ処理装置。
［９］音声的に分離可能な第１のパートおよび第２のパートを含む楽曲の音声データから、上記第１のパートの音声データ、上記第２のパートの単位音のデータおよび上記第２のパートの発音位置ならびに音のベロシティを示すデータを抽出するステップと、上記第１のパートの音声データに再配置された上記第２のパートの単位音がミックスされたミックス音声データを生成するステップとを含み、上記ミックス音声データを生成するステップでは、上記楽曲における上記第２のパートの発音位置とは異なる発音位置に再配置された上記第２のパートの単位音のベロシティを、上記楽曲における上記第２のパートの発音位置と再配置された発音位置との関係に応じて選択された上記楽曲における上記第２のパートの音のベロシティに基づいて決定する、音声データ処理方法。
［１０］音声的に分離可能な第１のパートおよび第２のパートを含む楽曲の音声データから、上記第１のパートの音声データ、上記第２のパートの単位音のデータおよび上記第２のパートの発音位置ならびに音のベロシティを示すデータを抽出する機能と、上記第１のパートの音声データに再配置された上記第２のパートの単位音がミックスされたミックス音声データを生成する機能とをコンピュータに実現させるプログラムであって、上記ミックス音声データを生成する機能は、上記楽曲における上記第２のパートの発音位置とは異なる発音位置に再配置された上記第２のパートの単位音のベロシティを、上記楽曲における上記第２のパートの発音位置と再配置された発音位置との関係に応じて選択された上記楽曲における上記第２のパートの音のベロシティに基づいて決定する、プログラム。

　上記の構成によれば、元の楽曲の音声データの第１のパートに再配置された第２のパートの単位音をミックスしたミックス音声データによる新たな表現を提供することができる。ミックス音声データにおいて、再配置された単位音のベロシティを元の楽曲の音声データから適切に選択された第２のパートの音のベロシティに基づいて決定することで、ミックス音声データのクオリティを向上させることができる。

本発明の一実施形態に係るシステムの全体構成を示す図である。図１の例における音声データ処理装置の概略的な機能構成を示すブロック図である。本発明の一実施形態におけるベロシティの設定の例について説明するための図である。表拍および裏拍について説明するための図である。本発明の一実施形態におけるベロシティの設定の別の例について説明するための図である。

　図１は、本発明の一実施形態に係るシステムの全体構成を示す図である。本実施形態に係るシステム１０は、ＰＣ（Personal Computer）１００と、ＤＪコントローラー２００と、スピーカー３００とを含む。ＰＣ１００は音声データの保存、処理および再生を実行する装置であり、ＰＣに限らずタブレットやスマートフォンなどの端末装置であってもよい。ＰＣ１００は、ユーザーに情報を表示するディスプレイ１０１と、ユーザーの操作入力を取得するタッチパネルやマウスなどの入力装置とを備える。ＤＪコントローラー２００は、例えばＵＳＢ（Universal Serial Bus）などの通信手段を介してＰＣ１００に接続され、チャンネルフェーダー、クロスフェーダー、パフォーマンスパッド、ジョグダイヤルおよび各種のノブやボタンなどによって楽曲の再生に関するユーザーの操作入力を取得する。音声データは、例えばスピーカー３００を用いて再生される。

　本実施形態では、上記のようなシステム１０においてＰＣ１００が音声データ処理装置として機能する。例えば、ＰＣ１００は保存された音声データに対するユーザーの操作入力に応じた処理を、音声データの再生時に実行する。あるいは、ＰＣ１００は音声データに対する処理を再生よりも前に実行し、処理された音声データを保存してもよい。この場合、処理が実行される時点ではＰＣ１００にＤＪコントローラー２００やスピーカー３００が接続されていなくてもよい。本実施形態ではＰＣ１００が音声データ処理装置として機能するが、他の実施形態ではミキサーやオールインワンＤＪシステム（通信およびミキシング機能付きデジタルオーディオプレーヤー）などのＤＪ機器が音声データ処理装置として機能してもよい。また、ネットワークを介してＰＣやＤＪ機器に接続されたサーバが音声データ処理装置として機能してもよい。

　図２は、図１の例における音声データ処理装置の概略的な機能構成を示すブロック図である。音声データ処理装置として機能するＰＣ１００は、音声解析部１２０、表示部１４０、ミックス処理部１５０および操作部１６０を含む。これらの機能は、ＣＰＵ（Central Processing Unit）またはＤＳＰ（Digital Signal Processor）のようなプロセッサがプログラムに従って動作することによって実装される。プログラムは、ＰＣ１００のストレージもしくはリムーバブル記録媒体から読み出されるか、ネットワークを介してサーバからダウンロードされて、ＰＣ１００のメモリに展開される。

　音声解析部１２０には、音声的に分離可能な第１のパートおよび第２のパートを含む楽曲音声データ１１０が入力される。本実施形態において、第１のパートはKick音以外のボーカルおよび／または楽器音のパートであり、第２のパートはKick音のパートである。ここで、Kick音はバスドラムの音、またはバスドラムの音を模倣した合成音である。音声解析部１２０は、例えば楽曲分離エンジンを用いて、楽曲音声データ１１０からKick音除去音声データ１３１、Kick単位音データ１３２およびKick発音データ１３３を抽出する。ここで、Kick音除去音声データ１３１は、楽曲音声データ１１０からKick音を除去した音声のデータ、すなわち第１のパートの音声データである。Kick単位音データ１３２は、楽曲音声データ１１０に含まれているKick音、すなわち第２のパートの単位音（以下、Kick単位音ともいう）のデータである。Kick発音データ１３３は、楽曲音声データ１１０におけるKick音の発音位置およびベロシティを示すデータである。

　単位音は、第２のパートの音の１回の発音を単位として抽出した音である。例えば、音声解析部１２０は、楽曲音声データ１１０からKick音のパートを分離し、さらにKick音のパートを発音ごとに区切り、音声波形の特徴によって発音を分類することによって単位音を抽出する。音声波形の特徴が異なる複数の単位音が抽出されてもよい。Kick単位音データ１３２は、例えばKick音のパートからサンプリングされた音声データであってよいし、Kick音のパートで単位音が再生される時間的な位置情報であってもよいし、抽出された音に類似したサンプル音の音声データ、またはサンプル音の識別子であってもよい。

　発音位置は、楽曲音声データ１１０においてKick音が発音される時間的な位置であり、例えば楽曲内のタイムコード、または小節／拍単位のカウントで記録される。ベロシティ（velocity）は、音量や音の長さを示すパラメータである。例えば、ＭＩＤＩ（登録商標）では音の強弱、より具体的には音が打鍵によって発音されるとした場合の打鍵の速度を表す数値としてベロシティが用いられる。ベロシティが大きいほど、音量は大きく、音の長さは長くなる。本実施形態において、音声解析部１２０は、楽曲音声データ１１０から分離されたKick音のそれぞれについて発音位置およびベロシティを記録したKick発音データ１３３を生成する。

　表示部１４０は、Kick単位音データ１３２またはKick発音データ１３３に基づく情報を、例えばＰＣ１００のディスプレイ１０１に表示させる。一方、操作部１６０は、ＰＣ１００のタッチパネルやマウスなどの入力装置に対するユーザーの操作入力を取得する。具体的には、例えば、表示部１４０は楽曲の音声波形（楽曲音声データ１１０に基づく波形でもよいし、Kick音除去音声データ１３１に基づく波形でもよい）と、波形に対応付けられたKick音の発音位置とを表示し、操作部１６０はユーザーがKick音の発音位置を楽曲内の任意の位置に変更する操作を取得する。あるいは、表示部１４０はプリセットされたリズムパターンによるKick音の配置を表示し、操作部１６０はユーザーがリズムパターンを選択する操作を取得してもよい。なお、例えばプリセットされたリズムパターンに従ってKick音の配置を変更する場合、Kick音の位置はユーザーの操作によらず自動的に決定されてもよい。この場合、上述した表示部１４０および操作部１６０は音声データ処理装置の機能には含まれなくてもよい。

　ミックス処理部１５０は、Kick音除去音声データ１３１およびKick単位音データ１３２に基づいてミックス音声データ１７０を生成する。ミックス音声データ１７０は、Kick音除去音声データ１３１に、再配置されたKick単位音がミックスされた音声データである。ミックス音声データ１７０におけるKick単位音の発音位置は、上述したように操作部１６０が取得したユーザー操作、または自動的に決定されたリズムパターンに従って決定される。ここで、ミックス音声データ１７０におけるKick単位音の発音位置は、元の楽曲音声データ１１０におけるKick音の発音位置とは異なる位置を含む。

　元の楽曲音声データ１１０のKick音には、例えば演奏時にパッドなどの操作に強弱をつけたり、打込み時に数値として入力したりすることによって、発音位置ごとに異なるベロシティが設定されている。Kick音に、例えばリズムパターンや他のパートの音との関係において適切なベロシティが設定されていることによって、自然な聴感やグルーブ感が得られ、トラックのクオリティが向上する。これに対して、元の楽曲音声データ１１０におけるKick音の発音位置とは異なる位置に再配置されたKick単位音では適切なベロシティが不明であり、例えば一律なベロシティを設定した場合にはトラックのクオリティが低下する可能性がある。しかしながら、ユーザーにKick音の発音位置を楽曲内の任意の位置に変更する操作に加えてベロシティの設定操作を要求するのは煩雑であり、またそのような操作によって適切なベロシティが設定されるとは限らない。プリセットされたリズムパターンに従って自動的にKick音の配置を変更する場合も、リズムパターンのみに基づいて適切なベロシティが決定できるとは限らないため、同様の問題が存在する。

　そこで、本実施形態においてミックス処理部１５０は、元の楽曲音声データ１１０におけるKick音の発音位置とは異なる発音位置に再配置されたKick単位音のベロシティを、元の発音位置と再配置されたKick単位音の発音位置との関係に応じて選択された、元の楽曲音声データ１１０におけるKick音のベロシティに基づいて決定する。ここで、発音位置同士の関係は、例えば楽曲の小節や拍を基準にして特定される。Kick音の元の発音位置およびベロシティは、音声解析部１２０が抽出したKick発音データ１３３から読み取られる。なお、元の楽曲音声データ１１０におけるKick音の発音位置と同じ発音位置に再配置されたKick単位音については、原則として元のKick音と同じベロシティを設定すればよいため以下では特に説明しない。

　図３は、本発明の一実施形態におけるベロシティの設定の例について説明するための図である。図示された例では、原曲（元の楽曲音声データ１１０）および変更後（ミックス音声データ１７０）について、８拍分のKick音の発音位置が示されている。原曲では、第３拍～第８拍の拍頭（１拍を４つのセグメントに分割した場合の第１セグメント）にKick音の発音位置がある。図では、これらの変更前のKick音にそれぞれＳ１～Ｓ６の符号が与えられている。一方、変更後は、第１拍および第２拍の第１セグメント、ならびに第４拍、第６拍および第７拍の第３セグメントにKick音の発音位置がある。図では、これらの変更後のKick音にそれぞれＤ１～Ｄ５の符号が与えられている。

　この例において、ミックス処理部１５０は、以下のようなルールに従って元の楽曲音声データ１１０からKick音を選択し、選択されたKick音のベロシティに基づいて、再配置されたKick音（対象Kick音ともいう）のベロシティを決定する。具体的には、ミックス処理部１５０は、対象Kick音のベロシティを選択されたKick音のベロシティと同じにする。
（１）対象Kick音の発音位置と同じ拍内にあるKick音
（２）（１）が２以上ある場合、表拍（common-time beat）および裏拍（half-time beat）の区分が対象Kick音の発音位置と共通するKick音
（３）（１）がない場合、拍内での位置が対象Kick音の発音位置と共通するKick音
（４）（３）が２以上ある場合、発音位置が対象Kick音の発音位置により近いKick音
（５）（３）がない場合、発音位置が対象Kick音の発音位置に最も近いKick音
　ここで、ルール（２）について、図４に示されるように１拍を４つのセグメントに分割する場合、第１および第２セグメントが表拍になり、第３および第４セグメントが裏拍になる。

　ルール（１）は、同じ拍内のKick音のベロシティは、リズムパターンおよび他のパートの音との関係から再配置されたKick音についても適切である可能性が高いことに基づく。ルール（２）は、同じ拍内の表拍および裏拍の両方にKick音がある場合は、再配置されたKick音と表拍／裏拍の区分が共通であるKick音のベロシティが、リズムパターンとの関係からより適切である可能性が高いことに基づく。ルール（３）は、同じ拍内にKick音がない場合、リズムパターンとの関係から、他の拍であっても拍内での位置が共通するKick音のベロシティが適切である可能性が高いことに基づく。ルール（４），（５）は、発音位置が近いKick音のベロシティが、他のパートの音との関係から適切である可能性が高いことに基づく。なお、他の例では、例えばルール（３）よりもルール（５）を優先させて、他のパートの音との関係から適切である可能性が高いベロシティが設定されやすいようにしてもよい。

　上記のルールを図３の例に適用すると、変更後のKick音Ｄ１，Ｄ２の場合、ルール（３）および（４）より、拍内での位置（第１セグメント）が共通する原曲のKick音のうち、発音位置が対象Kick音により近いKick音Ｓ１が選択され、変更後のKick音Ｄ１，Ｄ２のベロシティとして原曲のKick音Ｓ１のベロシティが設定される。変更後のKick音Ｄ３～Ｄ５の場合は、ルール（１）より、それぞれ同じ拍内にある原曲のKick音Ｓ２～Ｓ５のベロシティが設定される。

　図５は、本発明の一実施形態におけるベロシティの設定の別の例について説明するための図である。図示された例では、原曲のKick音Ｓ３１，Ｓ３３，Ｓ４１，Ｓ４３，Ｓ５１，Ｓ５４，Ｓ６１，Ｓ６３，Ｓ７１，Ｓ７３と、変更後のKick音Ｄ６～Ｄ１２とが示されている。原曲のKick音に与えられた符号について、「Ｓ３１」は発音位置が「第３拍の第１セグメント」にあることを示し、「Ｓ３３」は発音位置が「第３拍の第３セグメント」にあることを示し、以下同様である。

　上記のルール（１）～（５）を図５の例でも適用すると、変更後のKick音Ｄ６の場合、図３の例と同様にルール（３）および（４）より、Kick音Ｓ３１のベロシティが設定される。変更後のKick音Ｄ７は第１拍の第４セグメントにあるため、ルール（３）より、原曲で第５拍の第４セグメントにあるKick音Ｄ５４のベロシティが設定される。変更後のKick音Ｄ８は第２拍の第２セグメントにあるが、原曲で発音位置が拍内の第２セグメントであるKick音はないため、ルール（５）より、発音位置が最も近いKick音Ｓ３１のベロシティが設定される。変更後のKick音Ｄ９は第３拍の第４セグメントにあるため、ルール（１）および（２）より原曲で第３拍に発音位置があるKick音Ｓ３１，Ｓ３３の中から、Kick音Ｄ９と同じく裏拍にあるKick音Ｄ３３のベロシティが設定される。変更後のKick音Ｄ１０，Ｄ１１，Ｄ１２についても同様に、ルール（１）および（２）よりそれぞれ原曲のKick音Ｓ５１，Ｓ６１，Ｓ７３のベロシティが設定される。

　上述した本発明の一実施形態では、再配置されたKick単位音のベロシティが、元の楽曲音声データ１１０から適切に選択されたKick音のベロシティに基づいて決定される。これによって、楽曲音声データ１１０におけるKick音のベロシティの発音位置ごとの適切な設定をミックス音声データ１７０のKick音のベロシティにも反映させることができ、例えば自然な聴感やグルーブ感が得られ、ミックス音声データ１７０のクオリティが向上する。

　なお、上記で説明した本発明の一実施形態は例示的なものであり、各種の変更が可能である。例えば、上記の実施形態では楽曲の第１のパートがKick音以外のパートであり、第２のパートがKick音のパートであるものとして説明されたが、第１のパートおよび第２のパートにボーカルおよび／または楽器音をどのように分離したパートを割り当てるかは限定されない。第２のパートは単位音が抽出可能なパートであればよく、例えばハイハットやスネアのパート、またはKick音にハイハットやスネアを加えたドラム音のような打楽器音のパートであってもよい。上述のように音声波形の特徴が異なる複数の単位音を抽出することが可能であるため、第２のパートがドラム音のパートであって、Kick単位音、ならびにハイハットおよびスネアの単位音がそれぞれ再配置されてもよい。

　１０…システム、１００…ＰＣ、１０１…ディスプレイ、１１０…楽曲音声データ、１２０…音声解析部、１３１…Kick音除去音声データ、１３２…Kick単位音データ、１３３…Kick発音データ、１４０…表示部、１５０…ミックス処理部、１６０…操作部、１７０…ミックス音声データ、２００…ＤＪコントローラー、３００…スピーカー。

Claims

　音声的に分離可能な第１のパートおよび第２のパートを含む楽曲の音声データから、前記第１のパートの音声データ、前記第２のパートの単位音のデータおよび前記第２のパートの発音位置ならびに音のベロシティを示すデータを抽出する音声解析部と、
　前記第１のパートの音声データに再配置された前記第２のパートの単位音がミックスされたミックス音声データを生成するミックス処理部と
　を備え、
　前記ミックス処理部は、前記楽曲における前記第２のパートの発音位置とは異なる発音位置に再配置された前記第２のパートの単位音のベロシティを、前記楽曲における前記第２のパートの発音位置と再配置された発音位置との関係に応じて選択された前記楽曲における前記第２のパートの音のベロシティに基づいて決定する、音声データ処理装置。
　前記ミックス処理部は、前記楽曲において前記再配置された発音位置と同じ拍内にある前記第２のパートの音を選択する、請求項１に記載の音声データ処理装置。
　前記ミックス処理部は、前記楽曲において前記再配置された発音位置と同じ拍内にある２以上の前記第２のパートの音から、表拍および裏拍の区分が前記再配置された発音位置と共通する音を選択する、請求項２に記載の音声データ処理装置。
　前記ミックス処理部は、前記楽曲において前記再配置された発音位置と同じ拍内にある前記第２のパートの音がない場合、前記楽曲において拍内での位置が前記再配置された発音位置と共通する音を選択する、請求項２に記載の音声データ処理装置。
　前記ミックス処理部は、前記楽曲において拍内での位置が前記再配置された発音位置と共通する２以上の音から、発音位置が前記再配置された発音位置により近い音を選択する、請求項４に記載の音声データ処理装置。
　前記ミックス処理部は、前記楽曲において拍内での位置が前記再配置された発音位置と共通する音がない場合、前記楽曲において発音位置が前記再配置された発音位置に最も近い音を選択する、請求項４に記載の音声データ処理装置。
　前記第２のパートは、打楽器音によって構成され、
　前記第１のパートは、前記打楽器音以外の音によって構成される、請求項１から請求項６のいずれか１項に記載の音声データ処理装置。
　前記打楽器音は、Kick音を含む、請求項７に記載の音声データ処理装置。
　音声的に分離可能な第１のパートおよび第２のパートを含む楽曲の音声データから、前記第１のパートの音声データ、前記第２のパートの単位音のデータおよび前記第２のパートの発音位置ならびに音のベロシティを示すデータを抽出するステップと、
　前記第１のパートの音声データに再配置された前記第２のパートの単位音がミックスされたミックス音声データを生成するステップと
　を含み、
　前記ミックス音声データを生成するステップでは、前記楽曲における前記第２のパートの発音位置とは異なる発音位置に再配置された前記第２のパートの単位音のベロシティを、前記楽曲における前記第２のパートの発音位置と再配置された発音位置との関係に応じて選択された前記楽曲における前記第２のパートの音のベロシティに基づいて決定する、音声データ処理方法。
　音声的に分離可能な第１のパートおよび第２のパートを含む楽曲の音声データから、前記第１のパートの音声データ、前記第２のパートの単位音のデータおよび前記第２のパートの発音位置ならびに音のベロシティを示すデータを抽出する機能と、
　前記第１のパートの音声データに再配置された前記第２のパートの単位音がミックスされたミックス音声データを生成する機能と
　をコンピュータに実現させるプログラムであって、
　前記ミックス音声データを生成する機能は、前記楽曲における前記第２のパートの発音位置とは異なる発音位置に再配置された前記第２のパートの単位音のベロシティを、前記楽曲における前記第２のパートの発音位置と再配置された発音位置との関係に応じて選択された前記楽曲における前記第２のパートの音のベロシティに基づいて決定する、プログラム。