WO2021157615A1

WO2021157615A1 - 音声補正装置、歌唱システム、音声補正方法、およびプログラム

Info

Publication number: WO2021157615A1
Application number: PCT/JP2021/003941
Authority: WO
Inventors: 敏秀金
Original assignee: Ｊｅインターナショナル株式会社
Priority date: 2020-02-04
Filing date: 2021-02-03
Publication date: 2021-08-12
Also published as: JP2021124588A; JP6793422B1

Abstract

音声補正装置（１）は、ヴォーカル旋律抽出部（１３）と旋律チューニング部（１５）とを備える。ヴォーカル旋律抽出部（１３）は、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング部（１５）は、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。

Description

音声補正装置、歌唱システム、音声補正方法、およびプログラム

　本発明は、音声補正装置、歌唱システム、音声補正方法、およびプログラムに関する。
　本願は、２０２０年２月４日に、日本に出願された特願２０２０－０１７４３８号に基づき優先権を主張し、その内容をここに援用する。

　プロの歌手による歌唱と、プロの歌手ではない一般ユーザーの歌唱とは、聴いたときに差がある。一般ユーザーの歌唱を、プロの歌手による歌唱並みに美しい歌唱に変換することができることが、一般ユーザーに望まれる場合がある。

　特許文献１には、カラオケ装置が記載されている。特許文献１に記載された発明が解決しようとする課題は、複数の歌唱パートを有する楽曲の演奏において、利用者の歌唱に合わせて、可能な限り原曲に近い演奏音を出力することである。この課題を解決するため、特許文献１に記載されたカラオケ装置では、再生手段は、指定された楽曲の伴奏音を再生する。取得手段は、再生手段による伴奏音の再生中に音声を歌唱データとして取得する。生成手段は、複数の歌唱パートの各々の歌声をオリジナル歌手の歌い方で再現した歌声の各々を仮想ヴォーカルデータとする。また、生成手段は、歌唱パートの数と歌唱データの音声の数との差以上の数の仮想ヴォーカルデータと、歌唱データとを、各歌唱パートに対応させて混合した総合ヴォーカルを、前記指定楽曲の歌唱パートの組み合わせごとに生成する。算出手段は、生成手段が生成した総合ヴォーカルの各々について、比較用ヴォーカルと照合し、比較用ヴォーカルとの類似度を算出する。特定手段は、算出された類似度が最も高い総合ヴォーカルを特定する。出力手段は、特定された総合ヴォーカルに含まれる仮想ヴォーカルデータを、伴奏音の再生とともに出力させる。

　なお、特許文献１の段落００３５によると、仮想ヴォーカルデータとは、「指定楽曲における複数の歌唱パートの各々の歌声を、オリジナル歌手の歌い方またはオリジナル歌手の歌い方に近似した歌い方で表した歌声の各々である。ここで言う歌い方には、ビブラートやしゃくり、こぶしなどの歌唱技巧の他に、声質を含む」というものである。つまり、仮想ヴォーカルデータは、予め行われた歌唱のデータである。

特開２０１７－１３８３５９号公報

　上記の特許文献１の技術は、複数の歌唱パートを有する楽曲への適用に限定されるという問題がある。また、複数の歌唱パートを有する楽曲においても、特許文献１のカラオケ装置が出力するものは、結局のところ、仮想ヴォーカルデータおよび伴奏音である。ここで仮想ヴォーカルデータとは、上記の通り、歌手等によって予め歌唱され、得られているデータである。つまり、特許文献１の技術を用いても、ユーザーの歌声そのものは、何ら加工あるいは変換等されることなく、そのまま出力される。

　一方で、ユーザーの歌声による歌唱そのものを、加工処理等によってプロの歌手の歌唱に近づけることができれば、より一層望ましい結果が得られると期待される。

　本発明は、上記の課題認識に基づいて行なわれたものであり、一般のヴォーカル音声データを基に、そのヴォーカル音声データがプロの歌唱等におけるヴォーカル音声データに近づくようにチューニング処理を行うことのできる音声補正装置、歌唱システム、音声補正方法、およびプログラムを提供しようとするものである。

　上記の課題を解決するため、本発明の一態様による音声補正装置は、ヴォーカル旋律抽出部と、旋律チューニング部と、を備えるものである。ヴォーカル旋律抽出部は、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング部は、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。

　また、本発明の一態様は、上記の音声補正装置において、ヴォーカル旋律データベース、をさらに備えてもよい。ヴォーカル旋律データベースは、前記参照ヴォーカル旋律のデータを、楽曲を識別するための曲ＩＤと関連付ける形で記憶する。前記ヴォーカル周波数データは、前記曲ＩＤと関連付けられてもよい。前記旋律チューニング部は、前記曲ＩＤに基づいて前記ヴォーカル旋律データベースに記憶されている前記参照ヴォーカル旋律のデータを参照してもよい。

　また、本発明の一態様は、上記の音声補正装置において、ヴォーカル周波数データ抽出部と、ヴォーカル音声データ復元部と、をさらに備えてもよい。ヴォーカル周波数データ抽出部は、前記ヴォーカル音声の信号波形を表すヴォーカル音声データを基に、前記ヴォーカル周波数データを抽出して、抽出した前記ヴォーカル周波数データを前記ヴォーカル旋律抽出部に渡す。ヴォーカル音声データ復元部は、前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成する

　また、本発明の一態様は、上記の音声補正装置において、ミキシング部をさらに備えてもよい。ミキシング部は、前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成する。

　また、本発明の一態様として、上記の音声補正装置において、前記チューニング後ヴォーカル音声データは、楽曲を識別するための曲ＩＤと関連付けられていてもよい。前記演奏音データは、前記曲ＩＤと関連付ける形で予め演奏音データベースに記録されていてもよい。

　また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出してもよい。

　また、本発明の一態様として、前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させてもよい。

　また、本発明の一態様として、前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理を行ってもよい。その前処理において、前記旋律チューニング部は、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる。

　また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数の時系列を、前記ヴォーカル旋律データとしてもよい。

　また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとしてもよい。

　また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとしてもよい。

　また、本発明の一態様は、ヴォーカル音声データを送信するユーザー端末装置と、前記ヴォーカル音声データを受信する音声補正装置と、を備える歌唱システムである。前記音声補正装置は、ヴォーカル周波数データ抽出部と、ヴォーカル旋律抽出部と、旋律チューニング部と、ヴォーカル音声データ復元部と、ミキシング部と、出力部と、を備える。ヴォーカル周波数データ抽出部は、ヴォーカル音声の信号波形を表す前記ヴォーカル音声データを基に、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを抽出する。ヴォーカル旋律抽出部は、抽出された前記ヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング部は、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。ヴォーカル音声データ復元部は、前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成する。ミキシング部は、前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成する。出力部は、前記完成音声データを前記ユーザー端末装置に送信する。前記ユーザー端末装置は、送信した前記ヴォーカル音声データに対応して、前記音声補正装置から前記完成音声データを受信する。

　また、本発明の一態様は、ヴォーカル旋律抽出過程と、旋律チューニング過程と、を含む音声補正方法である。ヴォーカル旋律抽出過程では、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング過程では、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。

　また、本発明の一態様は、コンピューターを、上記のいずれかの態様の音声補正装置、として機能させるためのプログラムである。

　本発明によれば、音声補正装置あるいは方法等によって、ヴォーカル音声に基づいて抽出された旋律を、参照ヴォーカル旋律に近づけるように、ヴォーカル音声の補正を行うことができる。

本発明の実施形態による音声補正装置の概略機能構成を示したブロック図である。同実施形態による音声補正装置を用いた歌唱システムの概略構成を示すブロック図である。同実施形態における周波数データと、その周波数データにおける旋律データを示すグラフである。同実施形態によるヴォーカル旋律抽出部が、周波数データを基に旋律データを抽出するための第１の方法を示すグラフである。同実施形態によるヴォーカル旋律抽出部が、周波数データを基に旋律データを抽出するための第２の方法を示すグラフである。同実施形態によるヴォーカル旋律抽出部が、周波数データを基に旋律データを抽出するための第３の方法を示すグラフである。同実施形態によるヴォーカル旋律抽出部が取得した取得旋律線と、ヴォーカル旋律データベースから読み出された参照旋律線との差を示すグラフである。同実施形態による旋律チューニングの際に基本周波数のレベルを調整するためのオプショナルな前処理の概略を示すグラフである。同実施形態による音声補正装置の全体的な処理手順を示すフローチャートである。同実施形態における音声データ（入力部が取得する音声データ、ヴォーカル音声データ復元部が復元する音声データ、および演奏音データベースが保持する音声データ）の構成例を示す概略図である。同実施形態による周波数データ（ヴォーカル周波数データ抽出部が出力する周波数データ、および旋律チューニング部が出力する周波数データ）の構成例を示す概略図である。同実施形態による旋律データ（ヴォーカル旋律抽出部が出力する旋律データ、およびヴォーカル旋律データベースが保持する旋律データ）の第１の構成例を示す概略図である。同実施形態による旋律データ（ヴォーカル旋律抽出部が出力する旋律データ、およびヴォーカル旋律データベースが保持する旋律データ）の第２の構成例を示す概略図である。同実施形態によるヴォーカル旋律データベースが保持するデータの構成例を示す概略図である。同実施形態による演奏音データベースが保持するデータの構成例を示す概略図である。

　次に本発明の実施形態について説明する。本実施形態の音声補正装置１は、ヴォーカル音声を補正する。具体的には、音声補正装置１は、ヴォーカル音声のデータを受信し、そのヴォーカル音声のデータが表す旋律を抽出する。一方、音声補正装置１は、参照ヴォーカル旋律の情報を予め保持し、管理している。音声補正装置１は、抽出されたヴォーカル音声の旋律と、予め保持している参照ヴォーカル旋律とを比較・分析する。そして、音声補正装置１は、抽出されたヴォーカル音声の旋律が、参照ヴォーカル旋律に合うように（あるいは、近づくように）、ヴォーカル音声を補正する。音声補正装置１は、補正後（チューニング後）のヴォーカル音声を、出力する。なお、参照ヴォーカル旋律（参照旋律データ）は、例えばプロの歌手らが歌った美しいヴォーカルに基づいて予め算出しておくものとできる。これにより、一般ユーザーの歌唱によるヴォーカル音声の旋律を、例えばプロの歌手の美しい旋律に直すことが可能となる。以下では、本実施形態のより具体的な技術構成について説明する。

　図１は、本実施形態による音声補正装置１の概略機能構成を示したブロック図である。図示するように、音声補正装置１は、入力部１１と、ヴォーカル周波数データ抽出部１２と、ヴォーカル旋律抽出部１３と、比較部１４と、旋律チューニング部１５と、ヴォーカル音声データ復元部１６と、ミキシング部１７と、出力部１８と、ヴォーカル旋律データベース１０１と、演奏音データベース１０２とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次に説明する通りである。

　入力部１１は、外部から、ヴォーカル音声のデータおよび曲ＩＤを取得する。ヴォーカル音声のデータは、例えば、ユーザーの歌声を表すデータである。このヴォーカル音声のデータは、人の歌唱の声のみを含むものであり、楽器演奏の音声を含まない。ヴォーカル音声のデータは、例えば、振幅レベルを表す数値データの時系列として表されるものである。ヴォーカル音声のデータは、ユーザーが、例えばカラオケの演奏等を聞きながら歌唱した歌声を、マイクロフォンを持つ装置で取得し、記録したものである。曲ＩＤ（曲識別情報）は、楽曲を一意に識別するための識別子である。入力部１１は、取得したヴォーカル音声のデータおよび曲ＩＤを、ヴォーカル周波数データ抽出部１２に渡す。

　なお、入力部１１は、例えば、後で説明するユーザー端末装置２から、ヴォーカル音声のデータを受信する。

　ヴォーカル周波数データ抽出部１２は、ヴォーカル音声のデータを入力部１１から受け取り、そのヴォーカル音声のデータから周波数データを抽出する。周波数データは、時間窓ごと、周波数ごと（周波数帯域ごと）の、音声のパワーを表す数値データである。ヴォーカル周波数データ抽出部１２は、受け取ったヴォーカル音声のデータについてフーリエ変換の処理（例えば、高速フーリエ変換（ＦＦＴ，Fast Fourier Transform））を行うことにより、周波数データを抽出する。なお、ヴォーカル周波数データ抽出部１２は、入力部１１から、曲ＩＤも受け取る。

　ヴォーカル周波数データ抽出部１２は、抽出した周波数データおよび曲ＩＤを、ヴォーカル旋律抽出部１３に渡す。つまり、ヴォーカル周波数データ抽出部１２は、ヴォーカル音声の信号波形を表すヴォーカル音声データを基に、ヴォーカル周波数データを抽出して、抽出したヴォーカル周波数データをヴォーカル旋律抽出部１３に渡す。

　ヴォーカル旋律抽出部１３は、ヴォーカル周波数データ抽出部１２から受け取ったヴォーカル周波数データを基に、ヴォーカル旋律データを抽出する。ヴォーカル旋律とは、ヴォーカル周波数データが含む基本音のみを抽出したものである。ヴォーカル旋律データは、楽曲におけるヴォーカルのメロディを表すデータである。ヴォーカル旋律データは、各時間窓におけるヴォーカル音声の基本周波数の時間方向の系列である。つまり、ヴォーカル旋律抽出部１３は、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。なお、ヴォーカル旋律は、ライム（rhyme）とも呼ばれる。

　ヴォーカル旋律抽出部１３が周波数データに基づいてヴォーカル旋律を抽出する処理の概略は、次の通りである。周波数データは、前述の通り、時間窓ごと且つ周波数ごとの音声のパワーを表す。各時間窓は、その時間窓を代表する時刻に対応する。ヴォーカル旋律抽出部１３は、各時間窓において、周波数軸上での音声パワーの極大点を求める。極大点は、通常は、複数発見される。これら複数の極大点のうち、所定の周波数帯域内（人の声の周波数の領域）で且つ所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点が、基本周波数である。その他の成分は、倍音成分（基本周波数の整数倍の成分）に対応するものである。そして、ヴォーカル旋律抽出部１３は、この基本周波数の時間方向の（時間窓ごとの）系列のデータを、ヴォーカル旋律データとして出力する。つまり、ヴォーカル旋律抽出部１３は、ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、その基本周波数に基づいてヴォーカル旋律データを抽出する。なお、ある時間窓において、基本周波数は１点の周波数であってもよいし、上限と下限とを持つ幅（狭い幅）のある周波数帯域であってもよい。

　ヴォーカル旋律抽出部１３は、抽出したヴォーカル旋律データおよび曲ＩＤを、比較部１４に渡す。

　比較部１４は、ヴォーカル旋律抽出部１３から受け取ったヴォーカル旋律データと、その曲の曲ＩＤに対応する参照ヴォーカル旋律とを、比較し、分析する。参照ヴォーカル旋律とは、比較部１４が、ヴォーカル旋律データベース１０１から読み出すものである。具体的には、比較部１４は、ヴォーカル旋律抽出部１３から受け取った曲ＩＤをキーとして、ヴォーカル旋律データベース１０１を検索することにより、上記の参照ヴォーカル旋律をヴォーカル旋律データベース１０１から読み出す。参照ヴォーカル旋律は、プロの歌手の歌唱（例えば、その楽曲のオリジナルの歌手の歌唱等）を基に予め抽出され、ヴォーカル旋律データベース１０１に格納されているものである。つまり、ヴォーカル音声データと、ヴォーカル周波数データと、ヴォーカル旋律データは、楽曲を識別するための曲ＩＤと関連付けられている。このようなヴォーカル旋律データとの比較の対象となる参照ヴォーカル旋律のデータは、この曲ＩＤと関連付ける形で予めヴォーカル旋律データベース１０１に記録されている。

　比較部１４は、曲ＩＤと、ヴォーカル旋律抽出部１３から受け取ったヴォーカル周波数データおよびヴォーカル旋律データと、ヴォーカル旋律データベース１０１から読み出した参照ヴォーカル旋律と、比較分析結果のデータとを、旋律チューニング部１５に渡す。ここで、比較分析結果のデータは、例えば、ヴォーカル旋律データと参照ヴォーカル旋律との間の差の内容の情報や、差が存在する位置（時間位置）の情報を含む。

　旋律チューニング部１５は、比較部１４から受け取った参照ヴォーカル旋律のデータ、および比較分析結果のデータに基づき、ヴォーカル周波数データのチューニングを行う。ここでのチューニングとは、ヴォーカル周波数データが持つヴォーカル旋律を修正して、その旋律を、参照ヴォーカル旋律に合わせること、あるいは近づけることである。つまり、旋律チューニング部１５は、ヴォーカル旋律抽出部１３が抽出したヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照する。これにより、旋律チューニング部１５は、そのヴォーカル旋律が参照ヴォーカル旋律に近づくようにヴォーカル周波数データを変更する。旋律チューニング部１５は、チューニング処理後のヴォーカル周波数データと曲ＩＤとを、ヴォーカル音声データ復元部１６に渡す。

　なお、旋律チューニング部１５による処理の詳細については、後でも、図７や図８を参照しながら説明する。

　ヴォーカル音声データ復元部１６は、旋律チューニング部１５から受け取ったヴォーカル周波数データ（旋律チューニング部１５によるチューニング処理後）を基に、ヴォーカル音声データを復元する。つまり、ヴォーカル音声データ復元部１６は、旋律チューニング部１５が変更した後のヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すデータであるチューニング後ヴォーカル音声データを生成する。具体的には、ヴォーカル音声データ復元部１６は、逆フーリエ変換処理の処理（例えば、逆高速フーリエ変換（ＩＦＦＴ，Inverse Fast Fourier Transform））を行うことにより、チューニング処理後のヴォーカル音声信号を得る。ヴォーカル音声データ復元部１６は、チューニング処理後のヴォーカル音声データと曲ＩＤとを、ミキシング部１７に渡す。

　ミキシング部１７は、ヴォーカル音声データ復元部１６から渡されるヴォーカル音声データと、楽器の演奏音とをミキシング（混合）処理して、ミキシング結果である最終結果音声（「完成音声データ」とも呼ばれる）を出力する。ミキシング部１７は、上記の演奏音のデータを、演奏音データベース１０２から読み出す。具体的には、ミキシング部１７は、ヴォーカル音声データ復元部１６から受け取った曲ＩＤをキーとして演奏音データベース１０２を検索することによって、演奏音のデータを取得する。ミキシング部１７は、前述の通り、ヴォーカル音声データ復元部１６から、チューニング後のヴォーカル音声データを、楽曲を識別するための曲ＩＤと関連付ける形で受け取る。また、ミキシング処理の対象とする演奏音データは、その曲ＩＤと関連付ける形で予め演奏音データベース１０２に記録されている。つまり、ミキシング部１７は、上記の関連付けに基づいて、ヴォーカル音声データ復元部１６が生成したチューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成する。なお、演奏音は、「ＭＲ」とも呼ばれる。ＭＲは、「music recorded」の略であり、楽器の演奏音だけで構成される音源を意味する。一方、ヴォーカル音声と楽器演奏音との両方が入っている音源は「ＡＲ」と呼ばれる。ＡＲは、「all recorded」の略である。ミキシング部１７が出力する、ミキシング後の音声データは、ＡＲである。

　出力部１８は、ミキシング部１７から渡されたミキシング後の音声データを、外部に出力する。これにより、外部装置等は、ヴォーカル音声をチューニングした結果の音声データを受け取ることができる。その外部装置等は、受け取ったその音声データを、再生することができる。

　なお、出力部１８、例えば、後で説明するユーザー端末装置２に対して、チューニング後、且つミキシング後の音声データを、送信する。

　ヴォーカル旋律データベース１０１は、多数の曲についての参照旋律データを格納するデータベースである。ヴォーカル旋律データベース１０１は、曲ＩＤと関連付ける形で、これらの参照旋律データを保持している。つまり、曲ＩＤをキーとして、ヴォーカル旋律データベース１０１を検索することができるように構成されている。ヴォーカル旋律データベース１０１が保持する参照旋律データは、各楽曲の、オリジナル音源に基づくヴォーカルデータや、プロの歌手が歌唱して記録されたヴォーカルデータなどを基に、予め、算出されたものである。参照旋律データを作成するためには、例えば、オリジナル音源に基づくヴォーカルデータや、プロの歌手が歌唱して記録されたヴォーカルデータなどを基として、ヴォーカル周波数データ抽出部１２およびヴォーカル旋律抽出部１３が持つ機能による処理を実行させる。

　なお、ヴォーカル旋律データベース１０１は、音声補正装置１とは別の装置であるデータベースサーバー装置上に実現されていてもよい。

　演奏音データベース１０２は、多数の曲について演奏音データを格納するデータベースである。この演奏音データは、特定の楽曲の楽器による演奏音（ヴォーカル音声を含まない）の音声データである。演奏音データは、カラオケ（karaoke）データとも呼ばれる。演奏音データベース１０２は、曲ＩＤと関連付ける形で、演奏音データを保持している。つまり、曲ＩＤをキーとして、演奏音データベース１０２を検索することができるように構成されている。

　なお、演奏音データベース１０２は、音声補正装置１とは別の装置であるデータベースサーバー装置上に実現されていてもよい。

　図２は、音声補正装置１を用いた歌唱システムの概略構成を示すブロック図である。図示するように、歌唱システム２００は、音声補正装置１と、ユーザー端末装置２と、通信ネットワーク９とを含んで構成される。

　音声補正装置１は、図１に示した装置であり、データベースに蓄積された参照旋律データに基づいて、ヴォーカル音声を補正する機能を持つ。音声補正装置１は、例えば、サーバー型コンピューター等を用いて実現される。

　ユーザー端末装置２は、ユーザーが使用する端末装置である。ユーザー端末装置２は、通信ネットワークを介して音声補正装置１との間で通信を行うことができるように構成される。ユーザー端末装置２は、音声補正装置１に対してヴォーカル音声データを送信し、そのヴォーカル音声データを基に音声補正装置１が作成した音声データを受信することができる。ユーザー端末装置２が受信する音声データは、音声補正装置１における前記の出力部１８が出力するデータである。この音声データは、補正後のヴォーカル音声と、楽器の演奏音とがミックスされた音声データである。ユーザー端末装置２は、補正後のヴォーカル音声と、楽器の演奏音とがミックスされた音声データを、再生して、スピーカー等から出力してよい。

　なお、ユーザー端末装置２上では、一例として、カラオケアプリ（アプリケーションプログラム）が稼働する。カラオケアプリは、カラオケ音声を再生すると同時に、ユーザーのヴォーカル音声を取得し、記録する。ユーザー端末装置２は、ヴォーカル音声を集音するためのマイクロフォンを備える。ただし、ユーザー端末装置２は、このようなカラオケアプリの機能や集音機能を持つことは必ずしも必要ではなく、ヴォーカル音声データを音声補正装置１に対して送信できれば十分である。ユーザー端末装置２は、例えば、スマートフォンや、ＰＣ（パーソナルコンピューター）や、タブレット型端末装置や、ウォッチ型端末装置や、スマートスピーカーや、通信機能を備えたオーディオ機器や、テレビ受像機のＵＳＢ（universal serial bus）ポートに差し込んで使うタイプのスティック型端末等を用いて実現される。なお、図では１台のユーザー端末装置２だけを記載しているが、複数台のユーザー端末装置２が１台の音声補正装置１に接続してそれぞれのヴォーカル音声を補正するようにしてもよい。

　通信ネットワーク９は、音声補正装置１とユーザー端末装置２との間の通信を可能にするネットワークである。通信ネットワーク９としては、例えば、インターネット等を用いる。

　図３は、ヴォーカル周波数データ抽出部１２が抽出する周波数データと、その周波数データにおける旋律データを示すグラフである。このグラフの横軸は時刻に対応し、縦軸は周波数に対応する。ただし、横軸（時刻）または縦軸（周波数）のいずれか一方または両方が、離散的な値を持つ軸であってもよい。また、縦軸は、線形目盛であっても対数目盛であってもよい。グラフ面上の一点のグレースケールの濃度が、その時刻且つその周波数における成分のパワーの度合いを表す。濃度が黒に近いほどパワーが高く、濃度が白に近いほどパワーが低い。濃度１００％の黒はパワーの最大値に対応する。濃度０％（白）はパワーがゼロである状態に対応する。このグラフの、ある特定の時刻におけるグレースケールの濃淡は、その時刻における周波数スペクトルを表す。

　ヴォーカル周波数データ抽出部１２が抽出する周波数データは、本来は、ヴォーカル音声のみに基づく周波数データであるが、図３に示すグラフの例は、ヴォーカル音声と楽器演奏音とがミックスされた周波数データを表すものである。同図において、５０１、５０２、５０３、および５０４は、ヴォーカルの旋律線である。旋律線は、前述の通り、各時刻における基本周波数の時系列を表す。各時刻における基本周波数の特定のしかたについては、既に説明した通りである。グラフ内の時間帯の中で、旋律線が存在する時間帯と、旋律線が存在しない時間帯とがある。旋律線の特定のしかたの、さらなる詳細については、次に図４，図５，図６を参照しながら説明する。

　図４，図５，図６は、ヴォーカル旋律抽出部１３がヴォーカル周波数データを基にヴォーカル旋律データを抽出するための複数の方法をそれぞれ示すグラフである。具体的には、図４，図５，および図６は、ヴォーカル旋律抽出部１３がヴォーカル旋律データを抽出するための、それぞれ、第１、第２、および第３の方法を説明するためのグラフである。ヴォーカル旋律抽出部１３は、これらの方法のうちのいずれかの方法を用いてヴォーカル旋律を抽出してよい。図４，図５，および図６の、横軸は周波数に対応し、縦軸は周波数成分の強さに対応する。ここで、横軸および縦軸のそれぞれは、線形目盛であっても対数目盛であってもよい。図示するグラフは、特定の時刻における周波数成分の分布（パワー）を表している。図４，図５，および図６において、５１１は、このグラフ上での基本周波数ｆ０に対応する極大点である。なお、図４，図５，および図６に示すグラフは、周波数帯域全体の中の、極大点５１１の近傍のみを局所的に示すものである。

　図４に示す第１の方法では、当該時刻における極大点５１１の部分だけが、ヴォーカル旋律線を構成する。つまり、ヴォーカル旋律抽出部１３は、極大点５１１の時間方向の系列を、ヴォーカル旋律線として抽出する。つまり、第１の方法では、ヴォーカル旋律抽出部１３は、ヴォーカル周波数データ内の時刻ごとの基本周波数ｆ０を求め、求められた基本周波数ｆ０の時系列を、ヴォーカル旋律データとする。

　図５に示す第２の方法では、当該時刻における極大点５１１の周波数ｆ０を中心として上下両方向にそれぞれ所定の範囲ｆｗ（ｆｗは、適宜定められる正数）に含まれる領域（図中では領域Ｍ１）がヴォーカル旋律線を構成する。つまり、領域Ｍ１は、周波数が（ｆ０－ｆｗ）から（ｆ０＋ｆｗ）までの範囲である。つまり、ヴォーカル旋律抽出部１３は、この領域Ｍ１の時間方向の系列を、ヴォーカル旋律線として抽出する。つまり、第２の方法では、ヴォーカル旋律抽出部１３は、ヴォーカル周波数データ内の時刻ごとの基本周波数ｆ０を求め、求められた基本周波数ｆ０を含む所定の周波数幅の範囲の時系列を、ヴォーカル旋律データとする。

　図６に示す第３の方法では、当該時刻における極大点５１１のパワーをｐ０としたとき、（ｐ０－ｐｄ）以上のパワー（ｐｄは、適宜定められる正数）を持つ領域（図中では領域Ｍ２）がヴォーカル旋律線を構成する。この（ｐ０－ｐｄ）の値を「パワー閾値」と呼んでもよい。つまり、ヴォーカル旋律抽出部１３は、この領域Ｍ２の時間方向の系列を、ヴォーカル旋律線として抽出する。つまり、第３の方法では、ヴォーカル旋律抽出部１３は、ヴォーカル周波数データ内の時刻ごとの基本周波数ｆ０を求め、求められた基本周波数ｆ０におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、基本周波数の近傍の領域の時系列を、ヴォーカル旋律データとする。

　図７は、ヴォーカル旋律抽出部１３が取得した取得旋律線と、ヴォーカル旋律データベース１０１から読み出された参照旋律線との差を示すグラフである。このグラフの横軸は時刻に対応し、縦軸は周波数に対応する。なお、縦軸は、線形目盛であっても対数目盛であってもよい。同図におけるグラフは、１つの楽曲の中の、一部の時間帯のみの部分を示すものである。同図において、実線のグラフは入力部１１が取得したヴォーカルデータを基に抽出されたヴォーカル旋律線（「取得旋律線」と呼ぶ）である。また、破線のグラフは、参照のためにヴォーカル旋律データベース１０１から読み出されたヴォーカル旋律線（「参照旋律線」と呼ぶ）である。これらの両者は、楽曲の先頭からの相対時刻の情報によって同期している。比較部１４は、前述の通り、これらの両者を比較・分析し、差異に関する情報を旋律チューニング部１５に渡す。比較部１４による分析結果の情報は、取得旋律線と参照旋律線との乖離箇所（時刻または時間帯）や、その乖離度合い（ある時刻における取得旋律線の位置（周波数）が、同時刻における参照旋律線の位置よりも、どの程度高いあるいは低いか）を含む。旋律チューニング部１５は、この情報に基づいて、ヴォーカル周波数データを改変するものである。

　図７において、６０１および６０２の領域は、取得旋律線の、参照旋律線からの乖離が相対的に顕著な個所である。例えば、領域６０１においては、取得旋律線が表す周波数は、参照旋律線が表す周波数よりも高い。言い換えれば、領域６０１においては、取得旋律線は、参照旋律線と比べて、時間的に下げ遅れている。また、領域６０２においては、取得旋律線が表す周波数は、参照旋律線が表す周波数よりも低い。言い換えれば、領域６０２においては、取得旋律線は、参照旋律線と比べて、時間的に上げ遅れている。

　旋律チューニング部１５は、比較部１４から受け取った情報に基づき、図７に示す取得旋律線と参照旋律線との乖離部分（例えば、領域６０１や６０２）について、取得旋律線と参照旋律線とが重なるように（あるいは乖離がより小さくなるように）、ヴォーカル周波数データを改変する。

　具体的には、旋律チューニング部１５は、ヴォーカル周波数データ（例えば、図３）の各時刻内における周波数スペクトルの分布を、上記乖離が小さくなる方向に変形させる。前述の通り、旋律線は、基本周波数ｆ０およびその近傍の状況を表すものである。よって、旋律チューニング部１５は、当該時刻内において、取得旋律線を参照旋律線に重ねるように（あるいは、近づけるように）自由変形を行う。なお、自由変形は、例えば画像編集ツール等でも用いられる、空間の変形の手法の一つである。自由変形自体は、既存技術による計算を用いて行うことができる。自由変形は、一般には、変形により移動する１つまたは複数の点（この点を、アンカー点と呼んでもよい）を基準として、そのアンカー点が変形前の位置から変形後の位置に移動するという拘束条件の下で、アンカー点を含む空間を連続的に変形させる処理である。本実施形態においてアンカー点に相当するものは、基本周波数ｆ０に相当する極大値の点、あるいはその近傍の旋律線に含まれる点である。

　なお、旋律チューニング部１５は、ヴォーカルチューニングの処理の際に、取得旋律線の位置を変更するような変形処理を行うものの、ヴォーカル周波数データが持つその他の特徴をできる限り維持することが望ましい。ここで「その他の特徴」とは、特に、旋律線の位置（基本周波数）以外の、周波数スペクトルの形状等である。これを維持することにより、ヴォーカル音声を発したユーザーの歌唱の特徴を残すことができる。

　なお、上では、旋律チューニング部１５が基本周波数ｆ０の近傍についての変形を行う処理を説明した。付加的な処理として、旋律チューニング部１５は、ヴォーカル音声の倍音成分（基本周波数の整数倍の成分）についても、基本周波数ｆ０と同様の変形を行うようにしてもよい。つまり、旋律チューニング部１５は、ヴォーカル旋律が参照ヴォーカル旋律に近づくように、基本周波数の近傍の周波数スペクトルを変形させるとともに、基本周波数の近傍の前記周波数スペクトルの変形と同様のしかたで、基本周波数の倍音成分を含む周波数スペクトル（基本周波数の整数倍の近傍の周波数スペクトル）を変形させるようにしてもよい。

　図８は、旋律チューニングの際に基本周波数のレベルを調整するためのオプショナルな前処理の概略を示すグラフである。図７に示したグラフでは、取得旋律線と参照旋律線とが、領域６０１や６０２の箇所を除いては元々概ね一致していた。しかしながら、図８に示すように、取得旋律線７０１と参照旋律線７０２とがそもそも全時間帯にわたって所定良乖離し続けている場合もある。このような場合には、旋律チューニング部１５は、取得旋律線７０１の位置を単純に参照旋律線７０２に合わせるような変形処理を行う前に、次に説明する前処理を行うようにしてもよい。

　その前処理とは、参照旋律線７０２の全体的な周波数レベルを、まず取得旋律線７０１全体的な周波数レベルに合わせる処理である。そのためには、旋律チューニング部１５は、前処理として、図８に示す参照旋律線７０２の位置を、７０２Ｍの位置に平行移動（図中の破線矢印線が示す移動）させる。つまり、旋律チューニング部１５は、前処理として、参照旋律線７０２の周波数値に、オフセット値（オフセット値は、正または負の値）を加算する。言い換えれば、旋律チューニング部１５は、参照旋律線７０２を、その形を維持したまま、上（周波数の高い側）または下（周波数の低い側）にシフトさせる。なお、このオフセット値を求めるためには、一例として、取得旋律線７０１と、移動後の参照旋律線７０２Ｍとの間で最小二乗法の計算を行う。つまり、旋律チューニング部１５は、ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように基本周波数の近傍の周波数スペクトルを変形させる処理の前処理として、参照ヴォーカル旋律の周波数レベルがヴォーカル旋律の周波数レベルに合うように、参照ヴォーカル旋律を周波数方向にシフトさせるようにしてもよい。

　旋律チューニング部１５は、このような前処理を行うことにより、旋律チューニングの処理を行う場合にも、元のヴォーカル音声データが持つ声の高さ（周波数）を基本的に維持することができる。

　図９は、音声補正装置１の全体的な処理手順を示すフローチャートである。以下、このフローチャートに沿って処理の手順を説明する。

　まず、ステップＳ１１において、入力部１１は、外部からヴォーカル音声データを取得する。また、入力部１１は、本ステップにおいて取得したヴォーカル音声データに対応する曲ＩＤを取得する。曲ＩＤは、本ステップ以後、必要に応じて使用され得る。

　次に、ステップＳ１２において、ヴォーカル周波数データ抽出部１２は、ステップＳ１１で取得されたヴォーカル音声データのフーリエ変換の処理を行い、このヴォーカル音声データに対応するヴォーカル周波数データを抽出する。本ステップにおいて、ヴォーカル周波数データ抽出部１２は、例えばＦＦＴの処理を行うことによって上記のヴォーカル周波数データを抽出する。

　次に、ステップＳ１３において、ヴォーカル旋律抽出部１３は、ステップＳ１２において抽出されたヴォーカル周波数データを基に、ヴォーカル旋律データを抽出する。ヴォーカル旋律データは、元のヴォーカル音声データが含むヴォーカル音声の旋律を表すデータである。ヴォーカル旋律データは、例えば図３にも示したように、周波数スペクトルの時間推移を表すグラフ上において、旋律線としても表し得るデータである。この旋律線は、幅を持たない線であってもよいし、幅を持つ線として表されるものであってもよい。

　次に、ステップＳ１４において、比較部１４は、ステップＳ１３で抽出されたヴォーカル旋律データと、ヴォーカル旋律データベース１０１に格納されている同じ曲のヴォーカル旋律（「参照ヴォーカル旋律」と呼ばれる）とを、比較・分析する。比較部１４は、比較・分析の結果を表す情報を、旋律チューニング部１５に渡す。比較・分析の結果を表す情報は、元のヴォーカル音声データから抽出されたヴォーカル旋律データと、データベースから読み出された参照ヴォーカル旋律との、差に関する情報を含むものである。

　次に、ステップＳ１５において、旋律チューニング部１５は、ステップＳ１４での比較および分析の結果の情報に基づき、ヴォーカルチューニングの処理を行う。具体的には、旋律チューニング部１５は、入力されたヴォーカル音声のヴォーカル旋律をヴォーカル旋律データベース１０１から取得された参照ヴォーカル旋律に合わせるように、ヴォーカル周波数データを変更する。本ステップの処理により、たとえ両者が完全に一致する結果とならなくても、上記のように、ヴォーカル周波数データが表す旋律が参照ヴォーカル旋律に近づくだけでも、ヴォーカル音声の改善を図ることができる。

　次に、ステップＳ１６において、ヴォーカル音声データ復元部１６は、ステップＳ１５で変更された後のヴォーカル周波数データの逆フーリエ変換処理を行う。本ステップにおいて、ヴォーカル音声データ復元部１６は、例えばＩＦＦＴの処理を行うことによって、ステップＳ１５におけるチューニング処理後のヴォーカル周波数データから、ヴォーカル音声データを復元する。

　次に、ステップＳ１７において、ミキシング部１７は、ステップＳ１６の処理で得られたヴォーカル音声データ（ヴォーカルチューニング後）と、演奏音データベース１０２から取得する演奏音とのミキシングを行う。これら両方の音声データは、共通の相対時刻（楽曲の開始位置からの相対時刻）で指標されたデータであるため、ミキシングの際にはこの相対時刻を用いて同期させることが可能である。本ステップの処理により、修正後のヴォーカル音声と楽器の演奏音との両方を含む音声データが完成する。

　次に、ステップＳ１８において、出力部１８は、ステップＳ１７でミキシングした結果の音声データを、外部に出力する。出力部１８は、ミキシング後の音声データを、例えば、通信ネットワーク９を介してユーザー端末装置２に送信する。本ステップの処理が終了すると、本フローチャート全体の処理が終了する。

　次に、図１０，図１１，図１２，図１３，図１４，および図１５をそれぞれ参照しながら、音声補正装置１が扱うデータの構成例について説明する。

　図１０は、本実施形態における音声データ（入力部１１が取得する音声データ、ヴォーカル音声データ復元部１６が復元する音声データ、および演奏音データベース１０２が保持する音声データ）の構成例を示す概略図である。図示するように、音声データは、相対時刻と振幅とを相互に関連付けて記録するものである。ここで、相対時刻は、例えば楽曲の先頭などからの相対時刻で表わされる。同図の例では、相対時刻は、「ｍｍ：ｓｓ．ｎｎｎｎｎ」という形式で表わされる。ここで、「ｍｍ」は数字２桁の分であり、「ｓｓ」は数字２桁の秒である。また、「ｎｎｎｎｎ」は、数字５桁で表わされる、秒単位未満の連番である。また、振幅は、音声信号の振幅を表すスカラー値である。振幅は、正、零、負のいずれの値も取り得る。この音声データの、隣接する相対時刻間の時間の長さは、音声のサンプリング周波数の逆数である。つまり、例えば音声のサンプリング周波数が４４１００Ｈｚ（ヘルツ）である場合、この音声データは、時間長１秒あたり、４４１００個のレコードを持つ。

　音声データとしては、具体的にコンピューターで扱う場合には、ＷＡＶ形式のデータや、信号は形のデータを所定の方式で圧縮符号化して得られる例えばＭＰ３形式のデータを用いる。

　図１１は、本実施形態による周波数データ（ヴォーカル周波数データ抽出部１２が出力する周波数データ、および旋律チューニング部１５が出力する周波数データ）の構成例を示す概略図である。この周波数データは、例えば、図１０に示した音声データをフーリエ変換して得られるデータである。図示するように、周波数データは、相対時刻と周波数スペクトルの情報とを相互に関連付けて記録したものである。ここで、相対時刻は、１つの時間窓を代表する時刻である。また、周波数スペクトルは、その時間窓における、各周波数（周波数帯域）のパワーを表す。このパワーは、正または零の実数として表わされる。同図において示すｆ１、ｆ２、ｆ３、・・・は、各周波数帯域を代表する周波数である。なお、時間窓の大きさや頻度や、周波数分解能等は、実施態様に応じて適切に定められる。

　図１２は、本実施形態による旋律データ（ヴォーカル旋律抽出部１３が出力する旋律データ、およびヴォーカル旋律データベース１０１が保持する旋律データ）の第１の構成例を示す概略図である。図示するように、旋律データは、相対時刻と、旋律周波数の情報とを、相互に関連付けて記録したものである。ここでの相対時刻は、図１１の周波数データにおける相対時刻に対応するものである。また、ここに示す第１の構成例では、旋律周波数の情報は、単一の周波数の値である。つまり、この旋律データが表す旋律線は、相対時刻ごとの単一周波数の値の時系列である。なお、旋律線が存在しない時間帯に関しては、この旋律データは、旋律周波数の情報を持たない。

　図１２に示す形式の旋律データにおいて、ある相対時刻における旋律周波数の情報は、単一の周波数値である。つまり、この形式で表わされる旋律線は、幅を持たない。つまり、この形式の旋律データは、図４に示した求め方による旋律線に対応している。

　図１３は、本実施形態による旋律データ（ヴォーカル旋律抽出部１３が出力する旋律データ、およびヴォーカル旋律データベース１０１が保持する旋律データ）の第２の構成例を示す概略図である。図示するように、この第２の構成例においても、旋律データは、相対時刻と、旋律周波数の情報とを、相互に関連付けて記録したものである。相対時刻は、図１２の場合と同様に、図１１の周波数データにおける相対時刻に対応するものである。この第２の構成例が、図１２の第１の構成例と異なる点は、旋律周波数の情報の内容である。図示するように、第２の構成例では、旋律周波数の情報は、下限の周波数値と、上限の周波数値とを持つ。つまり、第２の構成例において、旋律周波数は、幅（下限周波数から上限周波数までの幅）を持つものである。なお、旋律線が存在しない時間帯に関しては、この旋律データは、旋律周波数の情報を持たない。

　図１３に示す形式の旋律データにおいて、ある相対時刻における旋律周波数の情報は、上限および下限の周波数値で表わされる幅のある領域を表す。つまり、この形式で表わされる旋律線は、幅を持つ。つまり、この形式の旋律データは、図５や図６に示した求め方による旋律線に対応している。

　図１４は、ヴォーカル旋律データベース１０１が保持するデータの構成例を示す概略図である。図示するように、ヴォーカル旋律データベース１０１は、曲ＩＤと旋律データとを相互に関連付ける形で保持する。曲ＩＤは、楽曲を一意に識別するための識別子の情報である。旋律データは、曲ＩＤに関連付けられた曲の、ヴォーカルの旋律線を表すデータである。この各曲の旋律データは、図１２または図１３に示した旋律データの１つである。ヴォーカル旋律データベース１０１が保持する旋律データは、比較部１４が比較・分析するための参照ヴォーカル旋律（参照旋律線）のデータである。旋律チューニング部１５は、この参照ヴォーカル旋律を基準として、入力された音声に対応するヴォーカル旋律のチューニング処理を行うものである。

　図１５は、演奏音データベース１０２が保持するデータの構成例を示す概略図である。図示するように、演奏音データベース１０２は、曲ＩＤと演奏音データとを相互に関連付ける形で保持する。曲ＩＤは、前述の通り、楽曲を一意に識別するための識別子の情報である。演奏音データは、曲ＩＤに関連付けられた楽曲の、演奏音のみを含む音声データである。この各曲の演奏音データは、図１０に示した音声データの１つである。演奏音データベース１０２が保持する演奏音データは、ミキシング部１７によって読み出され、チューニング後のヴォーカル音声データとミキシングするために用いられる。

　なお、上述した実施形態における音声補正装置１や、ユーザー端末装置２の、少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

　以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、複数の変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。

　［第１変形例］
　音声補正装置１がミキシング部１７を持たないように構成してもよい。この場合、音声補正装置１は、旋律チューニング後のヴォーカル音声と、演奏音データベース１０２から読み出す演奏音とのミキシングを行わない。この場合、音声補正装置１は、旋律チューニング後のヴォーカル音声を、出力できる。出力されるヴォーカル音声と、演奏音とのミキシングは、必要に応じて、外部装置（例えば、ユーザー端末装置２）で行われるようにしてもよい。なお、本変形例では、音声補正装置１が、さらに、演奏音データベース１０２を持たないようにすることもできる。

　［第２変形例］
　音声補正装置１がヴォーカル音声データ復元部１６を持たないように構成してもよい。この場合、音声補正装置１は、旋律チューニング後のヴォーカル音声のヴォーカル周波数のデータを出力することができる。出力されるヴォーカル周波数データ（旋律チューニング後）は、適宜、外部装置によって時間領域の信号波形に変換されるようにしてもよい。

　［第３変形例］
　音声補正装置１がヴォーカル周波数データ抽出部１２を持たないように構成してもよい。この場合、音声補正装置１は、ヴォーカル周波数データを外部から取得する。ヴォーカル旋律抽出部１３は、このヴォーカル周波数データに基づいて旋律の抽出を行うことができる。

　以上説明したように、本実施形態あるいはその変形例によれば、旋律チューニング部１５が、周波数領域のデータにおいて、旋律の変更を行う。それにより、入力されるヴォーカル音声の旋律が、参照ヴォーカル旋律に合うように、ヴォーカル音声の補正を行うことができる。つまり、一般のユーザーの歌唱によるヴォーカルを、より正確な音程に修正することができる。これにより、美しいヴォーカル音声を獲得することが可能となる。なお、参照ヴォーカル旋律としては、典型例としては、楽曲のオリジナル音源の歌手の音程の旋律等を用いることができる。また、ミキシング部１７が、旋律チューニング後のヴォーカル音声と、演奏音とをミキシング処理を行うことにより、チューニング後のヴォーカル音声を演奏音付きで出力することもできる。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明は、例えば、通信を介したカラオケの装置あるいはサービスを含め、音楽に関連する産業全般において利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１　音声補正装置
２　ユーザー端末装置
９　通信ネットワーク
１１　入力部
１２　ヴォーカル周波数データ抽出部
１３　ヴォーカル旋律抽出部
１４　比較部
１５　旋律チューニング部
１６　ヴォーカル音声データ復元部
１７　ミキシング部
１８　出力部
１０１　ヴォーカル旋律データベース
１０２　演奏音データベース
２００　歌唱システム

Claims

　ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
　前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
　を備え、
　前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出し、
　前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させるものであり、
　前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理として、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる、
　音声補正装置。
　ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
　前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
　を備え、
　前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
　前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとする、
　音声補正装置。
　ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
　前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
　を備え、
　前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
　前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとする、
　音声補正装置。
　前記参照ヴォーカル旋律のデータを、楽曲を識別するための曲ＩＤと関連付ける形で記憶するヴォーカル旋律データベース、
　をさらに備え、
　前記ヴォーカル周波数データは、前記曲ＩＤと関連付けられており、
　前記旋律チューニング部は、前記曲ＩＤに基づいて前記ヴォーカル旋律データベースに記憶されている前記参照ヴォーカル旋律のデータを参照する、
　請求項１から３までのいずれか一項に記載の音声補正装置。
　前記ヴォーカル音声の信号波形を表すヴォーカル音声データを基に、前記ヴォーカル周波数データを抽出して、抽出した前記ヴォーカル周波数データを前記ヴォーカル旋律抽出部に渡すヴォーカル周波数データ抽出部と、
　前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成するヴォーカル音声データ復元部と、
　をさらに備える請求項１から４までのいずれか一項に記載の音声補正装置。
　前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成するミキシング部、
　をさらに備える請求項５に記載の音声補正装置。
　前記チューニング後ヴォーカル音声データは、楽曲を識別するための曲ＩＤと関連付けられており、
　前記演奏音データは、前記曲ＩＤと関連付ける形で予め演奏音データベースに記録されている、
　請求項６に記載の音声補正装置。
　ヴォーカル音声データを送信するユーザー端末装置と、
　前記ヴォーカル音声データを受信する請求項１から４までのいずれか一項に記載の音声補正装置と、
　を備える歌唱システムであって、
　前記音声補正装置は、
　ヴォーカル音声の信号波形を表す前記ヴォーカル音声データを基に、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを抽出するヴォーカル周波数データ抽出部と、
　前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成するヴォーカル音声データ復元部と、
　前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成するミキシング部と、
　前記完成音声データを前記ユーザー端末装置に送信する出力部と、
　をさらに備え、
　前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ抽出部が抽出した前記ヴォーカル周波数データを基に前記ヴォーカル旋律データを抽出するものであり、
　前記ユーザー端末装置は、送信した前記ヴォーカル音声データに対応して、前記音声補正装置から前記完成音声データを受信する、
　歌唱システム。
　ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
　前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
　を含み、
　前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出し、
　前記旋律チューニング過程は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させるものであり、
　前記旋律チューニング過程は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理として、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる、
　音声補正方法。
　ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
　前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
　を含み、
　前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
　前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとする、
　音声補正方法。
　ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
　前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
　を含み、
　前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
　前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとする、
　音声補正方法。
　コンピューターを、
　請求項１から７までのいずれか一項に記載の音声補正装置、
　として機能させるためのプログラム。