JPWO2020208811A1

JPWO2020208811A1 - 再生制御装置、プログラムおよび再生制御方法

Info

Publication number: JPWO2020208811A1
Application number: JP2021513138A
Authority: JP
Inventors: 貫太香田; 明秀長谷川; 実渡辺; 祐多石井; 英輝宮田
Original assignee: AlphaTheta Corp
Current assignee: AlphaTheta Corp
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2021-12-16
Anticipated expiration: 2039-04-12
Also published as: WO2020208811A1; JP7197688B2

Abstract

再生制御装置（１００）は、楽曲の再生位置情報（１１１Ｔ）に対応付けられた歌詞データ（１１１）に基づいて、楽曲の歌詞に含まれる特定の単語またはフレーズに対応する楽曲内の音声加工区間を決定する音声加工区間決定部（１２０）と、楽曲の音声データ（１３１）を再生するときに、音声加工区間において楽曲の音声を加工する音声加工部（１５０）とを備える。

Description

本発明は、再生制御装置、プログラムおよび再生制御方法に関する。

楽曲の歌詞をテキストデータとして提供することは一般的である。歌詞のテキストデータは、例えば楽曲の再生に同期して当該楽曲の歌詞を表示させるために用いられる。このような技術の例として、特許文献１には、オーディオファイルの再生時にテキストを同期化させて出力できるようにするための同期信号をオーディオファイルに埋め込むことによって、楽曲の再生に同期した歌詞の表示を可能にする技術が記載されている。また、特許文献２には、クライアントが既に音楽ファイルを所有している場合に音楽データの取得費用が重複して発生することのない同期歌詞配信システムが記載されている。

特開２００４−３１８１６２号公報特開２００８−１１２１５８号公報

上記のような技術は、専ら楽曲の再生時に歌詞を表示するために用いられる。その一方で、楽曲が再生される状況によって、特定の歌詞が再生に適さないことがありうる。具体的には、プライベートな場で再生する場合には問題がない歌詞であっても、公共の場で再生するのには適さない場合がある。また、ある国や地域では問題がない歌詞であっても、他の国や地域で再生するのには適さない場合がある。例えば放送局で楽曲を再生する場合には、編集機材を用いて予め楽曲の音声を加工して問題のある歌詞を聴取不能にすることができるが、例えばＤＪ（Disc Jockey）がリアルタイムで楽曲を再生する場合、上記のような対処は困難である。

そこで、本発明は、楽曲に対応付けられた歌詞データを用いて不適切な単語またはフレーズが聴取されないようにすることが可能な再生制御装置、プログラムおよび再生制御方法を提供することを目的とする。

本発明のある観点によれば、楽曲の再生位置情報に対応付けられた歌詞データに基づいて、楽曲の歌詞に含まれる特定の単語またはフレーズに対応する楽曲内の音声加工区間を決定する音声加工区間決定部と、楽曲の音声データを再生するときに、音声加工区間において楽曲の音声を加工する音声加工部とを備える再生制御装置が提供される。

本発明の別の観点によれば、上記の再生制御装置としてコンピュータを機能させるように構成されたプログラムが提供される。

本発明のさらに別の観点によれば、楽曲の再生位置情報に対応付けられた歌詞データに基づいて、楽曲の歌詞に含まれる特定の単語またはフレーズに対応する楽曲内の音声加工区間を決定するステップと、楽曲の音声データを再生するときに、音声加工区間において楽曲の音声を加工するステップとを含む再生制御方法が提供される。

本発明の第１の実施形態に係る再生制御装置の概略的な機能構成を示すブロック図である。図１に示す再生制御装置による音声加工区間の特定の第１の例を示す図である。図１に示す再生制御装置による音声加工区間の特定の第２の例を示す図である。本発明の第２の実施形態に係る再生制御装置の概略的な機能構成を示すブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る再生制御装置の概略的な機能構成を示すブロック図である。図１に示されるように、再生制御装置１００は、歌詞データ取得部１１０と、音声加工区間決定部１２０と、音声データ取得部１３０と、音声再生部１４０と、音声加工部１５０とを含む。上記の各部の機能は、例えばコンピュータのハードウェア構成を備える再生制御装置において、プロセッサがプログラムに従って動作することによって実現される。以下、各部の機能についてさらに説明する。

歌詞データ取得部１１０は、楽曲の歌詞データ１１１を取得する。より具体的には、歌詞データ取得部１１０は、記憶装置から歌詞データ１１１を読み込む。記憶装置は外部装置に備えられていてもよく、その場合、歌詞データ取得部１１０は有線または無線の通信によって歌詞データ１１１を受信する。歌詞データ１１１は、例えば歌詞をテキストとして記述したデータであり、単語単位またはフレーズ単位で楽曲の再生位置情報１１１Ｔに対応付けられている。なお、歌詞に含まれる単語またはフレーズを識別することが可能であれば、歌詞データ１１１の形式は特に限定されない。

音声加工区間決定部１２０は、歌詞データ１１１に基づいて、楽曲の歌詞に含まれる特定の単語またはフレーズに対応する楽曲内の音声加工区間を決定する。より具体的には、本実施形態において、音声加工区間決定部１２０は、予め定義された不適切用語リスト１２１を参照することによって音声加工区間を決定する。不適切用語リスト１２１は、ユーザーにより任意の単語を追加または削除することが可能であってもよい。不適切用語リスト１２１には、例えば公共の場で再生するのには適さない単語やフレーズが規定されている。音声加工区間決定部１２０は、歌詞の中に不適切用語リスト１２１に含まれる単語またはフレーズが検出された場合に、当該単語またはフレーズに対応付けられた再生位置情報１１１Ｔに基づいて、楽曲内の音声加工区間を決定する。

音声データ取得部１３０は、楽曲の音声データ１３１を取得する。より具体的には、音声データ取得部１３０は、記憶装置から音声データ１３１読み込む。歌詞データ１１１と同様に、記憶装置は外部装置に備えられていてもよく、その場合、音声データ取得部１３０は有線または無線の通信によって音声データ１３１を受信する。なお、歌詞データ１１１と音声データ１３１とは、それぞれ異なる記憶装置に格納されていてもよい。例えば、歌詞データ取得部１１０が歌詞データ１１１を外部装置から受信し、音声データ取得部１３０が再生制御装置１００の記憶装置から音声データ１３１を読み込んでもよい。

音声再生部１４０は、楽曲の音声データ１３１を再生する。具体的には、音声再生部は、音声データ１３１に基づいて音声信号を合成し、合成された音声信号をスピーカーなどの出力装置１４１に出力する。出力装置１４１は外部装置に備えられていてもよく、その場合、音声再生部１４０が出力した音声信号は有線または無線の通信によって出力装置１４１に送信される。

音声加工部１５０は、音声再生部１４０が音声データ１３１を再生するときに、音声加工区間決定部１２０によって特定された音声加工区間において楽曲の音声を加工する。本実施形態において、音声加工部１５０は、音声加工区間に含まれる歌詞の単語やフレーズ（すなわち、不適切用語リスト１２１に含まれる単語またはフレーズ）が聴き取れないように、楽曲の音声を加工する。例えば、ヴォーカルの周波数帯域をカットするフィルタをかけたり、または歌詞が聴き取れない程度に強く残響音を付加したり、楽曲の音声を別の音声に差し替えたりすることによって、単語やフレーズが聴き取れないように音声を加工することができる。音声再生部１４０は、例えば音声加工区間の長さに応じて、上記のような音声の加工の種類を選択してもよい。

図２は、図１に示す再生制御装置による音声加工区間の特定の第１の例を示す図である。図示された例において、歌詞データ１１１が対応付けられる楽曲の再生位置情報１１１Ｔは、楽曲の再生区間を分割したセグメントのＩＤと、各セグメントの始点のタイムスタンプとを含む。歌詞データ１１１に含まれる単語またはフレーズは、いずれかのセグメントに対応付けられている。楽曲の歌詞がない部分では、単語またはフレーズに対応付けられないセグメントがあってもよい。図示された例では、「What the hell is this?」という歌詞を含む歌詞データ１１１に対応付けられる再生位置情報１１１Ｔは、単語「What」に対応付けられるセグメントＳ１（始点はタイムスタンプ「００’０９”３０」）と、フレーズ「the hell」に対応付けられるセグメントＳ２（始点はタイムスタンプ「００’１０”００」）、単語またはフレーズに対応付けられないセグメントＳ３（始点はタイムスタンプ「００’１０”５０」）と、フレーズ「is this?」に対応付けられるセグメントＳ４（始点はタイムスタンプ「００’１３”１０」）とを含む。

ここで、例えば、図１に示した不適切用語リスト１２１に「hell」という単語が含まれていたとする。この場合、音声加工区間決定部１２０は、不適切用語リスト１２１を参照した検索によって歌詞データ１１１に含まれる単語「hell」を検出し、さらに再生位置情報１１１Ｔにおいて「hell」を含むフレーズ「the hell」に対応付けられたセグメントＳ２を音声加工区間として特定する。音声加工部１５０は、音声再生部１４０が楽曲の音声データ１３１を再生するときに、セグメントＳ２、すなわちタイムスタンプ「００’１０”００」から「００’１０”５０」までの区間において楽曲の音声を加工する（「ＥＦＦＥＣＴ」として図示）。

図３は、図１に示す再生制御装置による音声加工区間の特定の第２の例を示す図である。図示された例において、歌詞データ１１１が対応付けられる楽曲の再生位置情報１１１Ｔは、歌詞に含まれる単語またはフレーズの始点のタイムスタンプを含む。図示された例では、「What the hell is this?」という歌詞を含む歌詞データ１１１に対応付けられる再生位置情報１１１Ｔは、単語「What」に対応付けられるタイムスタンプ「００’０９”３０」と、フレーズ「the hell」に対応付けられるタイムスタンプ「００’１０”００」と、フレーズ「is this?」に対応付けられるタイムスタンプ「００’１３”１０」とを含む。

ここで、例えば、上記の例と同様に、不適切用語リスト１２１に「hell」という単語が含まれていたとする。この場合、音声加工区間決定部１２０は、不適切用語リスト１２１を参照した検索によって歌詞データ１１１に含まれる単語「hell」を検出し、さらに再生位置情報１１１Ｔにおいて「hell」を含むフレーズ「the hell」に対応付けられたタイムスタンプ「００’１０”００」を始点とする音声加工区間を決定する。ここで、図３の例の再生位置情報１１１Ｔでは単語またはフレーズに対応する区間の終点が明示されていないため、例えば音声加工区間決定部１２０は、タイムスタンプによって特定される始点から所定の継続時間（Duration：図示された例では０”５０）の音声加工区間を決定する。継続時間は、始点のタイムスタンプに対応付けられるのが単語の場合よりもフレーズの場合に長く設定されてもよい。また、継続時間は、フレーズに含まれる語数に応じて長くなるように設定されてもよい。音声加工部１５０は、音声再生部１４０が楽曲の音声データ１３１を再生するときに、タイムスタンプ「００’１０”００」から０”５０後、すなわち「００’１０”５０」までの区間において楽曲の音声を加工する（「ＥＦＦＥＣＴ」として図示）。

なお、図３に示した例のように音声加工区間決定部１２０が始点のタイムスタンプから所定の継続時間の音声加工区間を決定する場合、例えば歌詞が長く引き伸ばされて発音されていると、音声加工区間は必ずしも単語またはフレーズの全体を含まない。しかしながら、そのような場合においても、例えば単語またはフレーズの一部分が聴き取れなければ、全体として単語またはフレーズの意味は把握されにくいため、不適切な単語またはフレーズが聴取されないようにするという効果を得ることができる。

（第２の実施形態）
図４は、本発明の第２の実施形態に係る再生制御装置の概略的な機能構成を示すブロック図である。図４に示される再生制御装置２００は、上記の第１の実施形態と同様の歌詞データ取得部１１０と、音声データ取得部１３０と、音声再生部１４０と、音声加工部１５０とを含む。第１の実施形態との相違として、再生制御装置２００において、音声加工区間決定部２２０は、タッチスクリーンディスプレイ２２１で取得される、単語またはフレーズを指定する操作に従って音声加工区間を決定する。ここで、タッチスクリーンディスプレイ２２１は、歌詞データ取得部１１０が取得した歌詞データ１１１に基づいて楽曲の歌詞を表示する歌詞表示部、および表示された歌詞に含まれる単語またはフレーズを指定する操作を受け付ける操作部の例である。

本実施形態の場合、音声加工区間決定部２２０は、第１の実施形態のように予め定義されたリストを参照する代わりに、歌詞を表示する画像を参照したユーザーが歌詞に含まれる単語またはフレーズを指定する操作に従って音声加工区間を決定する。従って、予めリストを定義する必要がなく、また楽曲が再生される状況により細かく対応した歌詞の制御が可能である。

なお、他の例では、上記の第１の実施形態と第２の実施形態とを組み合わせ、音声加工区間決定部が、予め定義されたリストを参照するとともにユーザーの操作に従って音声加工区間を決定してもよい。この場合、例えば、リストにはない単語またはフレーズを追加で聴取されないようにしたり、リストにある単語またはフレーズであっても状況によっては聴取を可能にしたりすることができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範囲内において、各種の変形例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１００，２００，３００…再生制御装置、１１０…歌詞データ取得部、１１１…歌詞データ、１１１Ｔ…再生位置情報、１２０，２２０…音声加工区間決定部、１２１…不適切用語リスト、１３０…音声データ取得部、１３１…音声データ、１４０…音声再生部、１４１…出力装置、１５０…音声加工部、２２１…タッチスクリーンディスプレイ、３５０…歌詞画像生成部、３５１…出力装置、３６０…歌詞画像加工部。

Claims

楽曲の再生位置情報に対応付けられた歌詞データに基づいて、前記楽曲の歌詞に含まれる特定の単語またはフレーズに対応する前記楽曲内の音声加工区間を決定する音声加工区間決定部と、
前記楽曲の音声データを再生するときに、前記音声加工区間において前記楽曲の音声を加工する音声加工部と
を備える再生制御装置。
前記音声加工区間決定部は、予め定義された単語またはフレーズのリストを参照することによって前記音声加工区間を決定する、請求項１に記載の再生制御装置。
前記予め定義された単語またはフレーズのリストは、ユーザーにより追加または削除することが可能である、請求項２に記載の再生制御装置。
前記音声加工区間決定部は、前記歌詞データに基づいて表示された前記歌詞に含まれる単語またはフレーズを指定する操作に従って前記音声加工区間を決定する、請求項１に記載の再生制御装置。
前記再生位置情報は、前記楽曲の再生区間を分割したセグメントのＩＤを含み、
前記音声加工区間決定部は、前記特定の単語またはフレーズに対応付けられた前記セグメントを前記音声加工区間として特定する、請求項１から請求項４のいずれか１項に記載の再生制御装置。
前記再生位置情報は、前記歌詞に含まれる単語またはフレーズに対応付けられたタイムスタンプを含み、
前記音声加工区間決定部は、前記特定の単語またはフレーズに対応付けられた前記タイムスタンプを始点とする所定の継続時間の前記音声加工区間を決定する、請求項１から請求項４のいずれか１項に記載の再生制御装置。
前記音声加工部は、前記音声加工区間の長さに応じて加工の種類を選択する、請求項１から請求項６のいずれか１項に記載の再生制御装置。
請求項１から請求項７のいずれか１項に記載の再生制御装置としてコンピュータを機能させるように構成されたプログラム。
楽曲の再生位置情報に対応付けられた歌詞データに基づいて、前記楽曲の歌詞に含まれる特定の単語またはフレーズに対応する前記楽曲内の音声加工区間を決定するステップと、
前記楽曲の音声データを再生するときに、前記音声加工区間において前記楽曲の音声を加工するステップと
を含む再生制御方法。