WO2021157615A1 - 音声補正装置、歌唱システム、音声補正方法、およびプログラム - Google Patents

音声補正装置、歌唱システム、音声補正方法、およびプログラム Download PDF

Info

Publication number
WO2021157615A1
WO2021157615A1 PCT/JP2021/003941 JP2021003941W WO2021157615A1 WO 2021157615 A1 WO2021157615 A1 WO 2021157615A1 JP 2021003941 W JP2021003941 W JP 2021003941W WO 2021157615 A1 WO2021157615 A1 WO 2021157615A1
Authority
WO
WIPO (PCT)
Prior art keywords
vocal
melody
data
frequency
voice
Prior art date
Application number
PCT/JP2021/003941
Other languages
English (en)
French (fr)
Inventor
敏秀 金
Original Assignee
Jeインターナショナル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jeインターナショナル株式会社 filed Critical Jeインターナショナル株式会社
Publication of WO2021157615A1 publication Critical patent/WO2021157615A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

音声補正装置(1)は、ヴォーカル旋律抽出部(13)と旋律チューニング部(15)とを備える。ヴォーカル旋律抽出部(13)は、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング部(15)は、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。

Description

音声補正装置、歌唱システム、音声補正方法、およびプログラム
 本発明は、音声補正装置、歌唱システム、音声補正方法、およびプログラムに関する。
 本願は、2020年2月4日に、日本に出願された特願2020-017438号に基づき優先権を主張し、その内容をここに援用する。
 プロの歌手による歌唱と、プロの歌手ではない一般ユーザーの歌唱とは、聴いたときに差がある。一般ユーザーの歌唱を、プロの歌手による歌唱並みに美しい歌唱に変換することができることが、一般ユーザーに望まれる場合がある。
 特許文献1には、カラオケ装置が記載されている。特許文献1に記載された発明が解決しようとする課題は、複数の歌唱パートを有する楽曲の演奏において、利用者の歌唱に合わせて、可能な限り原曲に近い演奏音を出力することである。この課題を解決するため、特許文献1に記載されたカラオケ装置では、再生手段は、指定された楽曲の伴奏音を再生する。取得手段は、再生手段による伴奏音の再生中に音声を歌唱データとして取得する。生成手段は、複数の歌唱パートの各々の歌声をオリジナル歌手の歌い方で再現した歌声の各々を仮想ヴォーカルデータとする。また、生成手段は、歌唱パートの数と歌唱データの音声の数との差以上の数の仮想ヴォーカルデータと、歌唱データとを、各歌唱パートに対応させて混合した総合ヴォーカルを、前記指定楽曲の歌唱パートの組み合わせごとに生成する。算出手段は、生成手段が生成した総合ヴォーカルの各々について、比較用ヴォーカルと照合し、比較用ヴォーカルとの類似度を算出する。特定手段は、算出された類似度が最も高い総合ヴォーカルを特定する。出力手段は、特定された総合ヴォーカルに含まれる仮想ヴォーカルデータを、伴奏音の再生とともに出力させる。
 なお、特許文献1の段落0035によると、仮想ヴォーカルデータとは、「指定楽曲における複数の歌唱パートの各々の歌声を、オリジナル歌手の歌い方またはオリジナル歌手の歌い方に近似した歌い方で表した歌声の各々である。ここで言う歌い方には、ビブラートやしゃくり、こぶしなどの歌唱技巧の他に、声質を含む」というものである。つまり、仮想ヴォーカルデータは、予め行われた歌唱のデータである。
特開2017-138359号公報
 上記の特許文献1の技術は、複数の歌唱パートを有する楽曲への適用に限定されるという問題がある。また、複数の歌唱パートを有する楽曲においても、特許文献1のカラオケ装置が出力するものは、結局のところ、仮想ヴォーカルデータおよび伴奏音である。ここで仮想ヴォーカルデータとは、上記の通り、歌手等によって予め歌唱され、得られているデータである。つまり、特許文献1の技術を用いても、ユーザーの歌声そのものは、何ら加工あるいは変換等されることなく、そのまま出力される。
 一方で、ユーザーの歌声による歌唱そのものを、加工処理等によってプロの歌手の歌唱に近づけることができれば、より一層望ましい結果が得られると期待される。
 本発明は、上記の課題認識に基づいて行なわれたものであり、一般のヴォーカル音声データを基に、そのヴォーカル音声データがプロの歌唱等におけるヴォーカル音声データに近づくようにチューニング処理を行うことのできる音声補正装置、歌唱システム、音声補正方法、およびプログラムを提供しようとするものである。
 上記の課題を解決するため、本発明の一態様による音声補正装置は、ヴォーカル旋律抽出部と、旋律チューニング部と、を備えるものである。ヴォーカル旋律抽出部は、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング部は、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。
 また、本発明の一態様は、上記の音声補正装置において、ヴォーカル旋律データベース、をさらに備えてもよい。ヴォーカル旋律データベースは、前記参照ヴォーカル旋律のデータを、楽曲を識別するための曲IDと関連付ける形で記憶する。前記ヴォーカル周波数データは、前記曲IDと関連付けられてもよい。前記旋律チューニング部は、前記曲IDに基づいて前記ヴォーカル旋律データベースに記憶されている前記参照ヴォーカル旋律のデータを参照してもよい。
 また、本発明の一態様は、上記の音声補正装置において、ヴォーカル周波数データ抽出部と、ヴォーカル音声データ復元部と、をさらに備えてもよい。ヴォーカル周波数データ抽出部は、前記ヴォーカル音声の信号波形を表すヴォーカル音声データを基に、前記ヴォーカル周波数データを抽出して、抽出した前記ヴォーカル周波数データを前記ヴォーカル旋律抽出部に渡す。ヴォーカル音声データ復元部は、前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成する
 また、本発明の一態様は、上記の音声補正装置において、ミキシング部をさらに備えてもよい。ミキシング部は、前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成する。
 また、本発明の一態様として、上記の音声補正装置において、前記チューニング後ヴォーカル音声データは、楽曲を識別するための曲IDと関連付けられていてもよい。前記演奏音データは、前記曲IDと関連付ける形で予め演奏音データベースに記録されていてもよい。
 また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出してもよい。
 また、本発明の一態様として、前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させてもよい。
 また、本発明の一態様として、前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理を行ってもよい。その前処理において、前記旋律チューニング部は、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる。
 また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数の時系列を、前記ヴォーカル旋律データとしてもよい。
 また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとしてもよい。
 また、本発明の一態様として、前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとしてもよい。
 また、本発明の一態様は、ヴォーカル音声データを送信するユーザー端末装置と、前記ヴォーカル音声データを受信する音声補正装置と、を備える歌唱システムである。前記音声補正装置は、ヴォーカル周波数データ抽出部と、ヴォーカル旋律抽出部と、旋律チューニング部と、ヴォーカル音声データ復元部と、ミキシング部と、出力部と、を備える。ヴォーカル周波数データ抽出部は、ヴォーカル音声の信号波形を表す前記ヴォーカル音声データを基に、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを抽出する。ヴォーカル旋律抽出部は、抽出された前記ヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング部は、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。ヴォーカル音声データ復元部は、前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成する。ミキシング部は、前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成する。出力部は、前記完成音声データを前記ユーザー端末装置に送信する。前記ユーザー端末装置は、送信した前記ヴォーカル音声データに対応して、前記音声補正装置から前記完成音声データを受信する。
 また、本発明の一態様は、ヴォーカル旋律抽出過程と、旋律チューニング過程と、を含む音声補正方法である。ヴォーカル旋律抽出過程では、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。旋律チューニング過程では、前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する。
 また、本発明の一態様は、コンピューターを、上記のいずれかの態様の音声補正装置、として機能させるためのプログラムである。
 本発明によれば、音声補正装置あるいは方法等によって、ヴォーカル音声に基づいて抽出された旋律を、参照ヴォーカル旋律に近づけるように、ヴォーカル音声の補正を行うことができる。
本発明の実施形態による音声補正装置の概略機能構成を示したブロック図である。 同実施形態による音声補正装置を用いた歌唱システムの概略構成を示すブロック図である。 同実施形態における周波数データと、その周波数データにおける旋律データを示すグラフである。 同実施形態によるヴォーカル旋律抽出部が、周波数データを基に旋律データを抽出するための第1の方法を示すグラフである。 同実施形態によるヴォーカル旋律抽出部が、周波数データを基に旋律データを抽出するための第2の方法を示すグラフである。 同実施形態によるヴォーカル旋律抽出部が、周波数データを基に旋律データを抽出するための第3の方法を示すグラフである。 同実施形態によるヴォーカル旋律抽出部が取得した取得旋律線と、ヴォーカル旋律データベースから読み出された参照旋律線との差を示すグラフである。 同実施形態による旋律チューニングの際に基本周波数のレベルを調整するためのオプショナルな前処理の概略を示すグラフである。 同実施形態による音声補正装置の全体的な処理手順を示すフローチャートである。 同実施形態における音声データ(入力部が取得する音声データ、ヴォーカル音声データ復元部が復元する音声データ、および演奏音データベースが保持する音声データ)の構成例を示す概略図である。 同実施形態による周波数データ(ヴォーカル周波数データ抽出部が出力する周波数データ、および旋律チューニング部が出力する周波数データ)の構成例を示す概略図である。 同実施形態による旋律データ(ヴォーカル旋律抽出部が出力する旋律データ、およびヴォーカル旋律データベースが保持する旋律データ)の第1の構成例を示す概略図である。 同実施形態による旋律データ(ヴォーカル旋律抽出部が出力する旋律データ、およびヴォーカル旋律データベースが保持する旋律データ)の第2の構成例を示す概略図である。 同実施形態によるヴォーカル旋律データベースが保持するデータの構成例を示す概略図である。 同実施形態による演奏音データベースが保持するデータの構成例を示す概略図である。
 次に本発明の実施形態について説明する。本実施形態の音声補正装置1は、ヴォーカル音声を補正する。具体的には、音声補正装置1は、ヴォーカル音声のデータを受信し、そのヴォーカル音声のデータが表す旋律を抽出する。一方、音声補正装置1は、参照ヴォーカル旋律の情報を予め保持し、管理している。音声補正装置1は、抽出されたヴォーカル音声の旋律と、予め保持している参照ヴォーカル旋律とを比較・分析する。そして、音声補正装置1は、抽出されたヴォーカル音声の旋律が、参照ヴォーカル旋律に合うように(あるいは、近づくように)、ヴォーカル音声を補正する。音声補正装置1は、補正後(チューニング後)のヴォーカル音声を、出力する。なお、参照ヴォーカル旋律(参照旋律データ)は、例えばプロの歌手らが歌った美しいヴォーカルに基づいて予め算出しておくものとできる。これにより、一般ユーザーの歌唱によるヴォーカル音声の旋律を、例えばプロの歌手の美しい旋律に直すことが可能となる。以下では、本実施形態のより具体的な技術構成について説明する。
 図1は、本実施形態による音声補正装置1の概略機能構成を示したブロック図である。図示するように、音声補正装置1は、入力部11と、ヴォーカル周波数データ抽出部12と、ヴォーカル旋律抽出部13と、比較部14と、旋律チューニング部15と、ヴォーカル音声データ復元部16と、ミキシング部17と、出力部18と、ヴォーカル旋律データベース101と、演奏音データベース102とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次に説明する通りである。
 入力部11は、外部から、ヴォーカル音声のデータおよび曲IDを取得する。ヴォーカル音声のデータは、例えば、ユーザーの歌声を表すデータである。このヴォーカル音声のデータは、人の歌唱の声のみを含むものであり、楽器演奏の音声を含まない。ヴォーカル音声のデータは、例えば、振幅レベルを表す数値データの時系列として表されるものである。ヴォーカル音声のデータは、ユーザーが、例えばカラオケの演奏等を聞きながら歌唱した歌声を、マイクロフォンを持つ装置で取得し、記録したものである。曲ID(曲識別情報)は、楽曲を一意に識別するための識別子である。入力部11は、取得したヴォーカル音声のデータおよび曲IDを、ヴォーカル周波数データ抽出部12に渡す。
 なお、入力部11は、例えば、後で説明するユーザー端末装置2から、ヴォーカル音声のデータを受信する。
 ヴォーカル周波数データ抽出部12は、ヴォーカル音声のデータを入力部11から受け取り、そのヴォーカル音声のデータから周波数データを抽出する。周波数データは、時間窓ごと、周波数ごと(周波数帯域ごと)の、音声のパワーを表す数値データである。ヴォーカル周波数データ抽出部12は、受け取ったヴォーカル音声のデータについてフーリエ変換の処理(例えば、高速フーリエ変換(FFT,Fast Fourier Transform))を行うことにより、周波数データを抽出する。なお、ヴォーカル周波数データ抽出部12は、入力部11から、曲IDも受け取る。
 ヴォーカル周波数データ抽出部12は、抽出した周波数データおよび曲IDを、ヴォーカル旋律抽出部13に渡す。つまり、ヴォーカル周波数データ抽出部12は、ヴォーカル音声の信号波形を表すヴォーカル音声データを基に、ヴォーカル周波数データを抽出して、抽出したヴォーカル周波数データをヴォーカル旋律抽出部13に渡す。
 ヴォーカル旋律抽出部13は、ヴォーカル周波数データ抽出部12から受け取ったヴォーカル周波数データを基に、ヴォーカル旋律データを抽出する。ヴォーカル旋律とは、ヴォーカル周波数データが含む基本音のみを抽出したものである。ヴォーカル旋律データは、楽曲におけるヴォーカルのメロディを表すデータである。ヴォーカル旋律データは、各時間窓におけるヴォーカル音声の基本周波数の時間方向の系列である。つまり、ヴォーカル旋律抽出部13は、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出する。なお、ヴォーカル旋律は、ライム(rhyme)とも呼ばれる。
 ヴォーカル旋律抽出部13が周波数データに基づいてヴォーカル旋律を抽出する処理の概略は、次の通りである。周波数データは、前述の通り、時間窓ごと且つ周波数ごとの音声のパワーを表す。各時間窓は、その時間窓を代表する時刻に対応する。ヴォーカル旋律抽出部13は、各時間窓において、周波数軸上での音声パワーの極大点を求める。極大点は、通常は、複数発見される。これら複数の極大点のうち、所定の周波数帯域内(人の声の周波数の領域)で且つ所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点が、基本周波数である。その他の成分は、倍音成分(基本周波数の整数倍の成分)に対応するものである。そして、ヴォーカル旋律抽出部13は、この基本周波数の時間方向の(時間窓ごとの)系列のデータを、ヴォーカル旋律データとして出力する。つまり、ヴォーカル旋律抽出部13は、ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、その基本周波数に基づいてヴォーカル旋律データを抽出する。なお、ある時間窓において、基本周波数は1点の周波数であってもよいし、上限と下限とを持つ幅(狭い幅)のある周波数帯域であってもよい。
 ヴォーカル旋律抽出部13は、抽出したヴォーカル旋律データおよび曲IDを、比較部14に渡す。
 比較部14は、ヴォーカル旋律抽出部13から受け取ったヴォーカル旋律データと、その曲の曲IDに対応する参照ヴォーカル旋律とを、比較し、分析する。参照ヴォーカル旋律とは、比較部14が、ヴォーカル旋律データベース101から読み出すものである。具体的には、比較部14は、ヴォーカル旋律抽出部13から受け取った曲IDをキーとして、ヴォーカル旋律データベース101を検索することにより、上記の参照ヴォーカル旋律をヴォーカル旋律データベース101から読み出す。参照ヴォーカル旋律は、プロの歌手の歌唱(例えば、その楽曲のオリジナルの歌手の歌唱等)を基に予め抽出され、ヴォーカル旋律データベース101に格納されているものである。つまり、ヴォーカル音声データと、ヴォーカル周波数データと、ヴォーカル旋律データは、楽曲を識別するための曲IDと関連付けられている。このようなヴォーカル旋律データとの比較の対象となる参照ヴォーカル旋律のデータは、この曲IDと関連付ける形で予めヴォーカル旋律データベース101に記録されている。
 比較部14は、曲IDと、ヴォーカル旋律抽出部13から受け取ったヴォーカル周波数データおよびヴォーカル旋律データと、ヴォーカル旋律データベース101から読み出した参照ヴォーカル旋律と、比較分析結果のデータとを、旋律チューニング部15に渡す。ここで、比較分析結果のデータは、例えば、ヴォーカル旋律データと参照ヴォーカル旋律との間の差の内容の情報や、差が存在する位置(時間位置)の情報を含む。
 旋律チューニング部15は、比較部14から受け取った参照ヴォーカル旋律のデータ、および比較分析結果のデータに基づき、ヴォーカル周波数データのチューニングを行う。ここでのチューニングとは、ヴォーカル周波数データが持つヴォーカル旋律を修正して、その旋律を、参照ヴォーカル旋律に合わせること、あるいは近づけることである。つまり、旋律チューニング部15は、ヴォーカル旋律抽出部13が抽出したヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照する。これにより、旋律チューニング部15は、そのヴォーカル旋律が参照ヴォーカル旋律に近づくようにヴォーカル周波数データを変更する。旋律チューニング部15は、チューニング処理後のヴォーカル周波数データと曲IDとを、ヴォーカル音声データ復元部16に渡す。
 なお、旋律チューニング部15による処理の詳細については、後でも、図7や図8を参照しながら説明する。
 ヴォーカル音声データ復元部16は、旋律チューニング部15から受け取ったヴォーカル周波数データ(旋律チューニング部15によるチューニング処理後)を基に、ヴォーカル音声データを復元する。つまり、ヴォーカル音声データ復元部16は、旋律チューニング部15が変更した後のヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すデータであるチューニング後ヴォーカル音声データを生成する。具体的には、ヴォーカル音声データ復元部16は、逆フーリエ変換処理の処理(例えば、逆高速フーリエ変換(IFFT,Inverse Fast Fourier Transform))を行うことにより、チューニング処理後のヴォーカル音声信号を得る。ヴォーカル音声データ復元部16は、チューニング処理後のヴォーカル音声データと曲IDとを、ミキシング部17に渡す。
 ミキシング部17は、ヴォーカル音声データ復元部16から渡されるヴォーカル音声データと、楽器の演奏音とをミキシング(混合)処理して、ミキシング結果である最終結果音声(「完成音声データ」とも呼ばれる)を出力する。ミキシング部17は、上記の演奏音のデータを、演奏音データベース102から読み出す。具体的には、ミキシング部17は、ヴォーカル音声データ復元部16から受け取った曲IDをキーとして演奏音データベース102を検索することによって、演奏音のデータを取得する。ミキシング部17は、前述の通り、ヴォーカル音声データ復元部16から、チューニング後のヴォーカル音声データを、楽曲を識別するための曲IDと関連付ける形で受け取る。また、ミキシング処理の対象とする演奏音データは、その曲IDと関連付ける形で予め演奏音データベース102に記録されている。つまり、ミキシング部17は、上記の関連付けに基づいて、ヴォーカル音声データ復元部16が生成したチューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成する。なお、演奏音は、「MR」とも呼ばれる。MRは、「music recorded」の略であり、楽器の演奏音だけで構成される音源を意味する。一方、ヴォーカル音声と楽器演奏音との両方が入っている音源は「AR」と呼ばれる。ARは、「all recorded」の略である。ミキシング部17が出力する、ミキシング後の音声データは、ARである。
 出力部18は、ミキシング部17から渡されたミキシング後の音声データを、外部に出力する。これにより、外部装置等は、ヴォーカル音声をチューニングした結果の音声データを受け取ることができる。その外部装置等は、受け取ったその音声データを、再生することができる。
 なお、出力部18、例えば、後で説明するユーザー端末装置2に対して、チューニング後、且つミキシング後の音声データを、送信する。
 ヴォーカル旋律データベース101は、多数の曲についての参照旋律データを格納するデータベースである。ヴォーカル旋律データベース101は、曲IDと関連付ける形で、これらの参照旋律データを保持している。つまり、曲IDをキーとして、ヴォーカル旋律データベース101を検索することができるように構成されている。ヴォーカル旋律データベース101が保持する参照旋律データは、各楽曲の、オリジナル音源に基づくヴォーカルデータや、プロの歌手が歌唱して記録されたヴォーカルデータなどを基に、予め、算出されたものである。参照旋律データを作成するためには、例えば、オリジナル音源に基づくヴォーカルデータや、プロの歌手が歌唱して記録されたヴォーカルデータなどを基として、ヴォーカル周波数データ抽出部12およびヴォーカル旋律抽出部13が持つ機能による処理を実行させる。
 なお、ヴォーカル旋律データベース101は、音声補正装置1とは別の装置であるデータベースサーバー装置上に実現されていてもよい。
 演奏音データベース102は、多数の曲について演奏音データを格納するデータベースである。この演奏音データは、特定の楽曲の楽器による演奏音(ヴォーカル音声を含まない)の音声データである。演奏音データは、カラオケ(karaoke)データとも呼ばれる。演奏音データベース102は、曲IDと関連付ける形で、演奏音データを保持している。つまり、曲IDをキーとして、演奏音データベース102を検索することができるように構成されている。
 なお、演奏音データベース102は、音声補正装置1とは別の装置であるデータベースサーバー装置上に実現されていてもよい。
 図2は、音声補正装置1を用いた歌唱システムの概略構成を示すブロック図である。図示するように、歌唱システム200は、音声補正装置1と、ユーザー端末装置2と、通信ネットワーク9とを含んで構成される。
 音声補正装置1は、図1に示した装置であり、データベースに蓄積された参照旋律データに基づいて、ヴォーカル音声を補正する機能を持つ。音声補正装置1は、例えば、サーバー型コンピューター等を用いて実現される。
 ユーザー端末装置2は、ユーザーが使用する端末装置である。ユーザー端末装置2は、通信ネットワークを介して音声補正装置1との間で通信を行うことができるように構成される。ユーザー端末装置2は、音声補正装置1に対してヴォーカル音声データを送信し、そのヴォーカル音声データを基に音声補正装置1が作成した音声データを受信することができる。ユーザー端末装置2が受信する音声データは、音声補正装置1における前記の出力部18が出力するデータである。この音声データは、補正後のヴォーカル音声と、楽器の演奏音とがミックスされた音声データである。ユーザー端末装置2は、補正後のヴォーカル音声と、楽器の演奏音とがミックスされた音声データを、再生して、スピーカー等から出力してよい。
 なお、ユーザー端末装置2上では、一例として、カラオケアプリ(アプリケーションプログラム)が稼働する。カラオケアプリは、カラオケ音声を再生すると同時に、ユーザーのヴォーカル音声を取得し、記録する。ユーザー端末装置2は、ヴォーカル音声を集音するためのマイクロフォンを備える。ただし、ユーザー端末装置2は、このようなカラオケアプリの機能や集音機能を持つことは必ずしも必要ではなく、ヴォーカル音声データを音声補正装置1に対して送信できれば十分である。ユーザー端末装置2は、例えば、スマートフォンや、PC(パーソナルコンピューター)や、タブレット型端末装置や、ウォッチ型端末装置や、スマートスピーカーや、通信機能を備えたオーディオ機器や、テレビ受像機のUSB(universal serial bus)ポートに差し込んで使うタイプのスティック型端末等を用いて実現される。なお、図では1台のユーザー端末装置2だけを記載しているが、複数台のユーザー端末装置2が1台の音声補正装置1に接続してそれぞれのヴォーカル音声を補正するようにしてもよい。
 通信ネットワーク9は、音声補正装置1とユーザー端末装置2との間の通信を可能にするネットワークである。通信ネットワーク9としては、例えば、インターネット等を用いる。
 図3は、ヴォーカル周波数データ抽出部12が抽出する周波数データと、その周波数データにおける旋律データを示すグラフである。このグラフの横軸は時刻に対応し、縦軸は周波数に対応する。ただし、横軸(時刻)または縦軸(周波数)のいずれか一方または両方が、離散的な値を持つ軸であってもよい。また、縦軸は、線形目盛であっても対数目盛であってもよい。グラフ面上の一点のグレースケールの濃度が、その時刻且つその周波数における成分のパワーの度合いを表す。濃度が黒に近いほどパワーが高く、濃度が白に近いほどパワーが低い。濃度100%の黒はパワーの最大値に対応する。濃度0%(白)はパワーがゼロである状態に対応する。このグラフの、ある特定の時刻におけるグレースケールの濃淡は、その時刻における周波数スペクトルを表す。
 ヴォーカル周波数データ抽出部12が抽出する周波数データは、本来は、ヴォーカル音声のみに基づく周波数データであるが、図3に示すグラフの例は、ヴォーカル音声と楽器演奏音とがミックスされた周波数データを表すものである。同図において、501、502、503、および504は、ヴォーカルの旋律線である。旋律線は、前述の通り、各時刻における基本周波数の時系列を表す。各時刻における基本周波数の特定のしかたについては、既に説明した通りである。グラフ内の時間帯の中で、旋律線が存在する時間帯と、旋律線が存在しない時間帯とがある。旋律線の特定のしかたの、さらなる詳細については、次に図4,図5,図6を参照しながら説明する。
 図4,図5,図6は、ヴォーカル旋律抽出部13がヴォーカル周波数データを基にヴォーカル旋律データを抽出するための複数の方法をそれぞれ示すグラフである。具体的には、図4,図5,および図6は、ヴォーカル旋律抽出部13がヴォーカル旋律データを抽出するための、それぞれ、第1、第2、および第3の方法を説明するためのグラフである。ヴォーカル旋律抽出部13は、これらの方法のうちのいずれかの方法を用いてヴォーカル旋律を抽出してよい。図4,図5,および図6の、横軸は周波数に対応し、縦軸は周波数成分の強さに対応する。ここで、横軸および縦軸のそれぞれは、線形目盛であっても対数目盛であってもよい。図示するグラフは、特定の時刻における周波数成分の分布(パワー)を表している。図4,図5,および図6において、511は、このグラフ上での基本周波数f0に対応する極大点である。なお、図4,図5,および図6に示すグラフは、周波数帯域全体の中の、極大点511の近傍のみを局所的に示すものである。
 図4に示す第1の方法では、当該時刻における極大点511の部分だけが、ヴォーカル旋律線を構成する。つまり、ヴォーカル旋律抽出部13は、極大点511の時間方向の系列を、ヴォーカル旋律線として抽出する。つまり、第1の方法では、ヴォーカル旋律抽出部13は、ヴォーカル周波数データ内の時刻ごとの基本周波数f0を求め、求められた基本周波数f0の時系列を、ヴォーカル旋律データとする。
 図5に示す第2の方法では、当該時刻における極大点511の周波数f0を中心として上下両方向にそれぞれ所定の範囲fw(fwは、適宜定められる正数)に含まれる領域(図中では領域M1)がヴォーカル旋律線を構成する。つまり、領域M1は、周波数が(f0-fw)から(f0+fw)までの範囲である。つまり、ヴォーカル旋律抽出部13は、この領域M1の時間方向の系列を、ヴォーカル旋律線として抽出する。つまり、第2の方法では、ヴォーカル旋律抽出部13は、ヴォーカル周波数データ内の時刻ごとの基本周波数f0を求め、求められた基本周波数f0を含む所定の周波数幅の範囲の時系列を、ヴォーカル旋律データとする。
 図6に示す第3の方法では、当該時刻における極大点511のパワーをp0としたとき、(p0-pd)以上のパワー(pdは、適宜定められる正数)を持つ領域(図中では領域M2)がヴォーカル旋律線を構成する。この(p0-pd)の値を「パワー閾値」と呼んでもよい。つまり、ヴォーカル旋律抽出部13は、この領域M2の時間方向の系列を、ヴォーカル旋律線として抽出する。つまり、第3の方法では、ヴォーカル旋律抽出部13は、ヴォーカル周波数データ内の時刻ごとの基本周波数f0を求め、求められた基本周波数f0におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、基本周波数の近傍の領域の時系列を、ヴォーカル旋律データとする。
 図7は、ヴォーカル旋律抽出部13が取得した取得旋律線と、ヴォーカル旋律データベース101から読み出された参照旋律線との差を示すグラフである。このグラフの横軸は時刻に対応し、縦軸は周波数に対応する。なお、縦軸は、線形目盛であっても対数目盛であってもよい。同図におけるグラフは、1つの楽曲の中の、一部の時間帯のみの部分を示すものである。同図において、実線のグラフは入力部11が取得したヴォーカルデータを基に抽出されたヴォーカル旋律線(「取得旋律線」と呼ぶ)である。また、破線のグラフは、参照のためにヴォーカル旋律データベース101から読み出されたヴォーカル旋律線(「参照旋律線」と呼ぶ)である。これらの両者は、楽曲の先頭からの相対時刻の情報によって同期している。比較部14は、前述の通り、これらの両者を比較・分析し、差異に関する情報を旋律チューニング部15に渡す。比較部14による分析結果の情報は、取得旋律線と参照旋律線との乖離箇所(時刻または時間帯)や、その乖離度合い(ある時刻における取得旋律線の位置(周波数)が、同時刻における参照旋律線の位置よりも、どの程度高いあるいは低いか)を含む。旋律チューニング部15は、この情報に基づいて、ヴォーカル周波数データを改変するものである。
 図7において、601および602の領域は、取得旋律線の、参照旋律線からの乖離が相対的に顕著な個所である。例えば、領域601においては、取得旋律線が表す周波数は、参照旋律線が表す周波数よりも高い。言い換えれば、領域601においては、取得旋律線は、参照旋律線と比べて、時間的に下げ遅れている。また、領域602においては、取得旋律線が表す周波数は、参照旋律線が表す周波数よりも低い。言い換えれば、領域602においては、取得旋律線は、参照旋律線と比べて、時間的に上げ遅れている。
 旋律チューニング部15は、比較部14から受け取った情報に基づき、図7に示す取得旋律線と参照旋律線との乖離部分(例えば、領域601や602)について、取得旋律線と参照旋律線とが重なるように(あるいは乖離がより小さくなるように)、ヴォーカル周波数データを改変する。
 具体的には、旋律チューニング部15は、ヴォーカル周波数データ(例えば、図3)の各時刻内における周波数スペクトルの分布を、上記乖離が小さくなる方向に変形させる。前述の通り、旋律線は、基本周波数f0およびその近傍の状況を表すものである。よって、旋律チューニング部15は、当該時刻内において、取得旋律線を参照旋律線に重ねるように(あるいは、近づけるように)自由変形を行う。なお、自由変形は、例えば画像編集ツール等でも用いられる、空間の変形の手法の一つである。自由変形自体は、既存技術による計算を用いて行うことができる。自由変形は、一般には、変形により移動する1つまたは複数の点(この点を、アンカー点と呼んでもよい)を基準として、そのアンカー点が変形前の位置から変形後の位置に移動するという拘束条件の下で、アンカー点を含む空間を連続的に変形させる処理である。本実施形態においてアンカー点に相当するものは、基本周波数f0に相当する極大値の点、あるいはその近傍の旋律線に含まれる点である。
 なお、旋律チューニング部15は、ヴォーカルチューニングの処理の際に、取得旋律線の位置を変更するような変形処理を行うものの、ヴォーカル周波数データが持つその他の特徴をできる限り維持することが望ましい。ここで「その他の特徴」とは、特に、旋律線の位置(基本周波数)以外の、周波数スペクトルの形状等である。これを維持することにより、ヴォーカル音声を発したユーザーの歌唱の特徴を残すことができる。
 なお、上では、旋律チューニング部15が基本周波数f0の近傍についての変形を行う処理を説明した。付加的な処理として、旋律チューニング部15は、ヴォーカル音声の倍音成分(基本周波数の整数倍の成分)についても、基本周波数f0と同様の変形を行うようにしてもよい。つまり、旋律チューニング部15は、ヴォーカル旋律が参照ヴォーカル旋律に近づくように、基本周波数の近傍の周波数スペクトルを変形させるとともに、基本周波数の近傍の前記周波数スペクトルの変形と同様のしかたで、基本周波数の倍音成分を含む周波数スペクトル(基本周波数の整数倍の近傍の周波数スペクトル)を変形させるようにしてもよい。
 図8は、旋律チューニングの際に基本周波数のレベルを調整するためのオプショナルな前処理の概略を示すグラフである。図7に示したグラフでは、取得旋律線と参照旋律線とが、領域601や602の箇所を除いては元々概ね一致していた。しかしながら、図8に示すように、取得旋律線701と参照旋律線702とがそもそも全時間帯にわたって所定良乖離し続けている場合もある。このような場合には、旋律チューニング部15は、取得旋律線701の位置を単純に参照旋律線702に合わせるような変形処理を行う前に、次に説明する前処理を行うようにしてもよい。
 その前処理とは、参照旋律線702の全体的な周波数レベルを、まず取得旋律線701全体的な周波数レベルに合わせる処理である。そのためには、旋律チューニング部15は、前処理として、図8に示す参照旋律線702の位置を、702Mの位置に平行移動(図中の破線矢印線が示す移動)させる。つまり、旋律チューニング部15は、前処理として、参照旋律線702の周波数値に、オフセット値(オフセット値は、正または負の値)を加算する。言い換えれば、旋律チューニング部15は、参照旋律線702を、その形を維持したまま、上(周波数の高い側)または下(周波数の低い側)にシフトさせる。なお、このオフセット値を求めるためには、一例として、取得旋律線701と、移動後の参照旋律線702Mとの間で最小二乗法の計算を行う。つまり、旋律チューニング部15は、ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように基本周波数の近傍の周波数スペクトルを変形させる処理の前処理として、参照ヴォーカル旋律の周波数レベルがヴォーカル旋律の周波数レベルに合うように、参照ヴォーカル旋律を周波数方向にシフトさせるようにしてもよい。
 旋律チューニング部15は、このような前処理を行うことにより、旋律チューニングの処理を行う場合にも、元のヴォーカル音声データが持つ声の高さ(周波数)を基本的に維持することができる。
 図9は、音声補正装置1の全体的な処理手順を示すフローチャートである。以下、このフローチャートに沿って処理の手順を説明する。
 まず、ステップS11において、入力部11は、外部からヴォーカル音声データを取得する。また、入力部11は、本ステップにおいて取得したヴォーカル音声データに対応する曲IDを取得する。曲IDは、本ステップ以後、必要に応じて使用され得る。
 次に、ステップS12において、ヴォーカル周波数データ抽出部12は、ステップS11で取得されたヴォーカル音声データのフーリエ変換の処理を行い、このヴォーカル音声データに対応するヴォーカル周波数データを抽出する。本ステップにおいて、ヴォーカル周波数データ抽出部12は、例えばFFTの処理を行うことによって上記のヴォーカル周波数データを抽出する。
 次に、ステップS13において、ヴォーカル旋律抽出部13は、ステップS12において抽出されたヴォーカル周波数データを基に、ヴォーカル旋律データを抽出する。ヴォーカル旋律データは、元のヴォーカル音声データが含むヴォーカル音声の旋律を表すデータである。ヴォーカル旋律データは、例えば図3にも示したように、周波数スペクトルの時間推移を表すグラフ上において、旋律線としても表し得るデータである。この旋律線は、幅を持たない線であってもよいし、幅を持つ線として表されるものであってもよい。
 次に、ステップS14において、比較部14は、ステップS13で抽出されたヴォーカル旋律データと、ヴォーカル旋律データベース101に格納されている同じ曲のヴォーカル旋律(「参照ヴォーカル旋律」と呼ばれる)とを、比較・分析する。比較部14は、比較・分析の結果を表す情報を、旋律チューニング部15に渡す。比較・分析の結果を表す情報は、元のヴォーカル音声データから抽出されたヴォーカル旋律データと、データベースから読み出された参照ヴォーカル旋律との、差に関する情報を含むものである。
 次に、ステップS15において、旋律チューニング部15は、ステップS14での比較および分析の結果の情報に基づき、ヴォーカルチューニングの処理を行う。具体的には、旋律チューニング部15は、入力されたヴォーカル音声のヴォーカル旋律をヴォーカル旋律データベース101から取得された参照ヴォーカル旋律に合わせるように、ヴォーカル周波数データを変更する。本ステップの処理により、たとえ両者が完全に一致する結果とならなくても、上記のように、ヴォーカル周波数データが表す旋律が参照ヴォーカル旋律に近づくだけでも、ヴォーカル音声の改善を図ることができる。
 次に、ステップS16において、ヴォーカル音声データ復元部16は、ステップS15で変更された後のヴォーカル周波数データの逆フーリエ変換処理を行う。本ステップにおいて、ヴォーカル音声データ復元部16は、例えばIFFTの処理を行うことによって、ステップS15におけるチューニング処理後のヴォーカル周波数データから、ヴォーカル音声データを復元する。
 次に、ステップS17において、ミキシング部17は、ステップS16の処理で得られたヴォーカル音声データ(ヴォーカルチューニング後)と、演奏音データベース102から取得する演奏音とのミキシングを行う。これら両方の音声データは、共通の相対時刻(楽曲の開始位置からの相対時刻)で指標されたデータであるため、ミキシングの際にはこの相対時刻を用いて同期させることが可能である。本ステップの処理により、修正後のヴォーカル音声と楽器の演奏音との両方を含む音声データが完成する。
 次に、ステップS18において、出力部18は、ステップS17でミキシングした結果の音声データを、外部に出力する。出力部18は、ミキシング後の音声データを、例えば、通信ネットワーク9を介してユーザー端末装置2に送信する。本ステップの処理が終了すると、本フローチャート全体の処理が終了する。
 次に、図10,図11,図12,図13,図14,および図15をそれぞれ参照しながら、音声補正装置1が扱うデータの構成例について説明する。
 図10は、本実施形態における音声データ(入力部11が取得する音声データ、ヴォーカル音声データ復元部16が復元する音声データ、および演奏音データベース102が保持する音声データ)の構成例を示す概略図である。図示するように、音声データは、相対時刻と振幅とを相互に関連付けて記録するものである。ここで、相対時刻は、例えば楽曲の先頭などからの相対時刻で表わされる。同図の例では、相対時刻は、「mm:ss.nnnnn」という形式で表わされる。ここで、「mm」は数字2桁の分であり、「ss」は数字2桁の秒である。また、「nnnnn」は、数字5桁で表わされる、秒単位未満の連番である。また、振幅は、音声信号の振幅を表すスカラー値である。振幅は、正、零、負のいずれの値も取り得る。この音声データの、隣接する相対時刻間の時間の長さは、音声のサンプリング周波数の逆数である。つまり、例えば音声のサンプリング周波数が44100Hz(ヘルツ)である場合、この音声データは、時間長1秒あたり、44100個のレコードを持つ。
 音声データとしては、具体的にコンピューターで扱う場合には、WAV形式のデータや、信号は形のデータを所定の方式で圧縮符号化して得られる例えばMP3形式のデータを用いる。
 図11は、本実施形態による周波数データ(ヴォーカル周波数データ抽出部12が出力する周波数データ、および旋律チューニング部15が出力する周波数データ)の構成例を示す概略図である。この周波数データは、例えば、図10に示した音声データをフーリエ変換して得られるデータである。図示するように、周波数データは、相対時刻と周波数スペクトルの情報とを相互に関連付けて記録したものである。ここで、相対時刻は、1つの時間窓を代表する時刻である。また、周波数スペクトルは、その時間窓における、各周波数(周波数帯域)のパワーを表す。このパワーは、正または零の実数として表わされる。同図において示すf1、f2、f3、・・・は、各周波数帯域を代表する周波数である。なお、時間窓の大きさや頻度や、周波数分解能等は、実施態様に応じて適切に定められる。
 図12は、本実施形態による旋律データ(ヴォーカル旋律抽出部13が出力する旋律データ、およびヴォーカル旋律データベース101が保持する旋律データ)の第1の構成例を示す概略図である。図示するように、旋律データは、相対時刻と、旋律周波数の情報とを、相互に関連付けて記録したものである。ここでの相対時刻は、図11の周波数データにおける相対時刻に対応するものである。また、ここに示す第1の構成例では、旋律周波数の情報は、単一の周波数の値である。つまり、この旋律データが表す旋律線は、相対時刻ごとの単一周波数の値の時系列である。なお、旋律線が存在しない時間帯に関しては、この旋律データは、旋律周波数の情報を持たない。
 図12に示す形式の旋律データにおいて、ある相対時刻における旋律周波数の情報は、単一の周波数値である。つまり、この形式で表わされる旋律線は、幅を持たない。つまり、この形式の旋律データは、図4に示した求め方による旋律線に対応している。
 図13は、本実施形態による旋律データ(ヴォーカル旋律抽出部13が出力する旋律データ、およびヴォーカル旋律データベース101が保持する旋律データ)の第2の構成例を示す概略図である。図示するように、この第2の構成例においても、旋律データは、相対時刻と、旋律周波数の情報とを、相互に関連付けて記録したものである。相対時刻は、図12の場合と同様に、図11の周波数データにおける相対時刻に対応するものである。この第2の構成例が、図12の第1の構成例と異なる点は、旋律周波数の情報の内容である。図示するように、第2の構成例では、旋律周波数の情報は、下限の周波数値と、上限の周波数値とを持つ。つまり、第2の構成例において、旋律周波数は、幅(下限周波数から上限周波数までの幅)を持つものである。なお、旋律線が存在しない時間帯に関しては、この旋律データは、旋律周波数の情報を持たない。
 図13に示す形式の旋律データにおいて、ある相対時刻における旋律周波数の情報は、上限および下限の周波数値で表わされる幅のある領域を表す。つまり、この形式で表わされる旋律線は、幅を持つ。つまり、この形式の旋律データは、図5や図6に示した求め方による旋律線に対応している。
 図14は、ヴォーカル旋律データベース101が保持するデータの構成例を示す概略図である。図示するように、ヴォーカル旋律データベース101は、曲IDと旋律データとを相互に関連付ける形で保持する。曲IDは、楽曲を一意に識別するための識別子の情報である。旋律データは、曲IDに関連付けられた曲の、ヴォーカルの旋律線を表すデータである。この各曲の旋律データは、図12または図13に示した旋律データの1つである。ヴォーカル旋律データベース101が保持する旋律データは、比較部14が比較・分析するための参照ヴォーカル旋律(参照旋律線)のデータである。旋律チューニング部15は、この参照ヴォーカル旋律を基準として、入力された音声に対応するヴォーカル旋律のチューニング処理を行うものである。
 図15は、演奏音データベース102が保持するデータの構成例を示す概略図である。図示するように、演奏音データベース102は、曲IDと演奏音データとを相互に関連付ける形で保持する。曲IDは、前述の通り、楽曲を一意に識別するための識別子の情報である。演奏音データは、曲IDに関連付けられた楽曲の、演奏音のみを含む音声データである。この各曲の演奏音データは、図10に示した音声データの1つである。演奏音データベース102が保持する演奏音データは、ミキシング部17によって読み出され、チューニング後のヴォーカル音声データとミキシングするために用いられる。
 なお、上述した実施形態における音声補正装置1や、ユーザー端末装置2の、少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
 以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、複数の変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。
 [第1変形例]
 音声補正装置1がミキシング部17を持たないように構成してもよい。この場合、音声補正装置1は、旋律チューニング後のヴォーカル音声と、演奏音データベース102から読み出す演奏音とのミキシングを行わない。この場合、音声補正装置1は、旋律チューニング後のヴォーカル音声を、出力できる。出力されるヴォーカル音声と、演奏音とのミキシングは、必要に応じて、外部装置(例えば、ユーザー端末装置2)で行われるようにしてもよい。なお、本変形例では、音声補正装置1が、さらに、演奏音データベース102を持たないようにすることもできる。
 [第2変形例]
 音声補正装置1がヴォーカル音声データ復元部16を持たないように構成してもよい。この場合、音声補正装置1は、旋律チューニング後のヴォーカル音声のヴォーカル周波数のデータを出力することができる。出力されるヴォーカル周波数データ(旋律チューニング後)は、適宜、外部装置によって時間領域の信号波形に変換されるようにしてもよい。
 [第3変形例]
 音声補正装置1がヴォーカル周波数データ抽出部12を持たないように構成してもよい。この場合、音声補正装置1は、ヴォーカル周波数データを外部から取得する。ヴォーカル旋律抽出部13は、このヴォーカル周波数データに基づいて旋律の抽出を行うことができる。
 以上説明したように、本実施形態あるいはその変形例によれば、旋律チューニング部15が、周波数領域のデータにおいて、旋律の変更を行う。それにより、入力されるヴォーカル音声の旋律が、参照ヴォーカル旋律に合うように、ヴォーカル音声の補正を行うことができる。つまり、一般のユーザーの歌唱によるヴォーカルを、より正確な音程に修正することができる。これにより、美しいヴォーカル音声を獲得することが可能となる。なお、参照ヴォーカル旋律としては、典型例としては、楽曲のオリジナル音源の歌手の音程の旋律等を用いることができる。また、ミキシング部17が、旋律チューニング後のヴォーカル音声と、演奏音とをミキシング処理を行うことにより、チューニング後のヴォーカル音声を演奏音付きで出力することもできる。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、例えば、通信を介したカラオケの装置あるいはサービスを含め、音楽に関連する産業全般において利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
1 音声補正装置
2 ユーザー端末装置
9 通信ネットワーク
11 入力部
12 ヴォーカル周波数データ抽出部
13 ヴォーカル旋律抽出部
14 比較部
15 旋律チューニング部
16 ヴォーカル音声データ復元部
17 ミキシング部
18 出力部
101 ヴォーカル旋律データベース
102 演奏音データベース
200 歌唱システム

Claims (12)

  1.  ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
     前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
     を備え、
     前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出し、
     前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させるものであり、
     前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理として、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる、
     音声補正装置。
  2.  ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
     前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
     を備え、
     前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
     前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとする、
     音声補正装置。
  3.  ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
     前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
     を備え、
     前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
     前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとする、
     音声補正装置。
  4.  前記参照ヴォーカル旋律のデータを、楽曲を識別するための曲IDと関連付ける形で記憶するヴォーカル旋律データベース、
     をさらに備え、
     前記ヴォーカル周波数データは、前記曲IDと関連付けられており、
     前記旋律チューニング部は、前記曲IDに基づいて前記ヴォーカル旋律データベースに記憶されている前記参照ヴォーカル旋律のデータを参照する、
     請求項1から3までのいずれか一項に記載の音声補正装置。
  5.  前記ヴォーカル音声の信号波形を表すヴォーカル音声データを基に、前記ヴォーカル周波数データを抽出して、抽出した前記ヴォーカル周波数データを前記ヴォーカル旋律抽出部に渡すヴォーカル周波数データ抽出部と、
     前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成するヴォーカル音声データ復元部と、
     をさらに備える請求項1から4までのいずれか一項に記載の音声補正装置。
  6.  前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成するミキシング部、
     をさらに備える請求項5に記載の音声補正装置。
  7.  前記チューニング後ヴォーカル音声データは、楽曲を識別するための曲IDと関連付けられており、
     前記演奏音データは、前記曲IDと関連付ける形で予め演奏音データベースに記録されている、
     請求項6に記載の音声補正装置。
  8.  ヴォーカル音声データを送信するユーザー端末装置と、
     前記ヴォーカル音声データを受信する請求項1から4までのいずれか一項に記載の音声補正装置と、
     を備える歌唱システムであって、
     前記音声補正装置は、
     ヴォーカル音声の信号波形を表す前記ヴォーカル音声データを基に、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを抽出するヴォーカル周波数データ抽出部と、
     前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成するヴォーカル音声データ復元部と、
     前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成するミキシング部と、
     前記完成音声データを前記ユーザー端末装置に送信する出力部と、
     をさらに備え、
     前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ抽出部が抽出した前記ヴォーカル周波数データを基に前記ヴォーカル旋律データを抽出するものであり、
     前記ユーザー端末装置は、送信した前記ヴォーカル音声データに対応して、前記音声補正装置から前記完成音声データを受信する、
     歌唱システム。
  9.  ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
     前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
     を含み、
     前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出し、
     前記旋律チューニング過程は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させるものであり、
     前記旋律チューニング過程は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理として、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる、
     音声補正方法。
  10.  ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
     前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
     を含み、
     前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
     前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとする、
     音声補正方法。
  11.  ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
     前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
     を含み、
     前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
     前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとする、
     音声補正方法。
  12.  コンピューターを、
     請求項1から7までのいずれか一項に記載の音声補正装置、
     として機能させるためのプログラム。
PCT/JP2021/003941 2020-02-04 2021-02-03 音声補正装置、歌唱システム、音声補正方法、およびプログラム WO2021157615A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020017438A JP6793422B1 (ja) 2020-02-04 2020-02-04 音声補正装置、歌唱システム、音声補正方法、およびプログラム
JP2020-017438 2020-02-04

Publications (1)

Publication Number Publication Date
WO2021157615A1 true WO2021157615A1 (ja) 2021-08-12

Family

ID=73544783

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003941 WO2021157615A1 (ja) 2020-02-04 2021-02-03 音声補正装置、歌唱システム、音声補正方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP6793422B1 (ja)
WO (1) WO2021157615A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0481880A (ja) * 1990-07-25 1992-03-16 Sony Corp カラオケ装置及びカラオケ装置における歌い手の歌唱の補正方法
JPH08227296A (ja) * 1995-11-21 1996-09-03 Yamaha Corp 音声信号処理装置
JP2008015195A (ja) * 2006-07-05 2008-01-24 Yamaha Corp 楽曲練習支援装置
JP2015184448A (ja) * 2014-03-24 2015-10-22 ブラザー工業株式会社 プログラム,情報処理装置,及び評価方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0481880A (ja) * 1990-07-25 1992-03-16 Sony Corp カラオケ装置及びカラオケ装置における歌い手の歌唱の補正方法
JPH08227296A (ja) * 1995-11-21 1996-09-03 Yamaha Corp 音声信号処理装置
JP2008015195A (ja) * 2006-07-05 2008-01-24 Yamaha Corp 楽曲練習支援装置
JP2015184448A (ja) * 2014-03-24 2015-10-22 ブラザー工業株式会社 プログラム,情報処理装置,及び評価方法

Also Published As

Publication number Publication date
JP2021124588A (ja) 2021-08-30
JP6793422B1 (ja) 2020-12-02

Similar Documents

Publication Publication Date Title
US9847078B2 (en) Music performance system and method thereof
EP1688912B1 (en) Voice synthesizer of multi sounds
US20100145708A1 (en) System and method for identifying original music
US9892758B2 (en) Audio information processing
WO2009003347A1 (fr) Appareil de karaoké
US11087727B2 (en) Auto-generated accompaniment from singing a melody
CN110675886A (zh) 音频信号处理方法、装置、电子设备及存储介质
CN110459196A (zh) 一种调整歌曲演唱难度的方法、装置及系统
Müller et al. Interactive fundamental frequency estimation with applications to ethnomusicological research
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
WO2021157615A1 (ja) 音声補正装置、歌唱システム、音声補正方法、およびプログラム
RU2393548C1 (ru) Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом
KR20150018194A (ko) 모창 평가 방법 및 시스템
CN111667803B (zh) 一种音频处理方法及相关产品
JP6260565B2 (ja) 音声合成装置、及びプログラム
CN114664277A (zh) 音频评估方法及装置
JP3540159B2 (ja) 音声変換装置及び音声変換方法
Driedger Time-scale modification algorithms for music audio signals
Tang et al. Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant.
JP2017138359A (ja) カラオケ装置,及びプログラム
CN114005461A (zh) 音乐伴奏的分离方法和装置
JP2000003200A (ja) 音声信号処理装置及び音声信号処理方法
Santacruz et al. VOICE2TUBA: transforming singing voice into a musical instrument
Molina et al. Dissonance reduction in polyphonic audio using harmonic reorganization
Saranya et al. Orchestrate-A GAN Architectural-Based Pipeline for Musical Instrument Chord Conversion

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21750439

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 09.11.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 21750439

Country of ref document: EP

Kind code of ref document: A1