JPWO2013183078A1 - 自動記録装置 - Google Patents

自動記録装置 Download PDF

Info

Publication number
JPWO2013183078A1
JPWO2013183078A1 JP2014519697A JP2014519697A JPWO2013183078A1 JP WO2013183078 A1 JPWO2013183078 A1 JP WO2013183078A1 JP 2014519697 A JP2014519697 A JP 2014519697A JP 2014519697 A JP2014519697 A JP 2014519697A JP WO2013183078 A1 JPWO2013183078 A1 JP WO2013183078A1
Authority
JP
Japan
Prior art keywords
content
unit
information storage
identification data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014519697A
Other languages
English (en)
Other versions
JP5591428B2 (ja
Inventor
裕生 山下
裕生 山下
知弘 岩崎
知弘 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5591428B2 publication Critical patent/JP5591428B2/ja
Publication of JPWO2013183078A1 publication Critical patent/JPWO2013183078A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

この発明の自動記録装置によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。

Description

この発明は、放送データを音声認識して得られた認識結果から情報を自動的に抽出して記録する自動記録装置に関するものである。
例えば特許文献1には、放送局より放送される放送データを分析して楽曲等のコンテンツデータと会話とに分類して抽出し、抽出したコンテンツデータを数値化して、その数値化されたコンテンツデータを外部機器に送信して照合し、そのコンテンツデータに対応するアーティスト名等の識別データを受信して、その受信した識別データを抽出したコンテンツデータに対応付けて保存するデータ処理装置が開示されている。
特開2008−27573号公報
しかしながら、例えば特許文献1のような従来のデータ処理装置は、コンテンツデータの識別を行うために、録音したコンテンツデータの特徴量を外部機器へ送信して識別データを受信する必要があり、外部機器との通信が確立しない場合にはデータ処理を行うことができない、という課題があった。また、新曲などの新規のコンテンツに対応するためには外部機器が持つデータベースを更新する必要があり、また、多くのコンテンツを識別可能とするためには、外部機器が持つコンテンツのデータ数を増やさなければいけない、という課題もあった。
この発明は、上記のような課題を解決するためになされたものであり、放送データから抽出されたコンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを取得し、当該識別データをコンテンツと対応付けて自動的に記録することのできる自動記録装置を提供することを目的とする。
上記目的を達成するため、この発明の自動記録装置は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する音声取得部と、前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存することを特徴とする。
この発明の自動記録装置によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。
実施の形態1による自動記録装置の一例を示すブロック図である。 定型文記憶部に記憶されている曲紹介文言の一例を示す図である。 情報記憶部に記憶されている曲名・アーティスト名および楽曲が対応付けられているデータの一例を示す図である。 実施の形態1における自動記録装置の動作を示すフローチャートである。 実施の形態2による自動記録装置の一例を示すブロック図である。 情報記憶部に記憶されている曲名・アーティスト名、楽曲および取得回数が対応付けられている情報の一例を示す図である。 実施の形態2における自動記録装置の動作を示すフローチャートである。 実施の形態3における自動記録装置の動作を示すフローチャートである。 実施の形態4による自動記録装置の一例を示すブロック図である。 実施の形態4における自動記録装置の動作を示すフローチャートである。 実施の形態5による自動記録装置の一例を示すブロック図である。 実施の形態5における自動記録装置の動作を示すフローチャートである。 実施の形態6による自動記録装置の一例を示すブロック図である。 実施の形態6による自動記録装置の別の一例を示すブロック図である。 実施の形態6における自動記録装置の動作を示すフローチャートである。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
図1は、この発明の実施の形態1による自動記録装置の一例を示すブロック図である。この実施の形態では、ラジオ、テレビなどで放送される放送データから、コンテンツおよび当該コンテンツの識別データを音声取得、音声認識して記録する自動記録装置として、音楽コンテンツ(楽曲)とそのコンテンツ(楽曲)の識別データである曲名とアーティスト名を対応付けて保存する場合を例として説明する。なお、以下の実施の形態においても同様とする。
この自動記録装置は、音声取得部1、音声認識部2、定型文記憶部3、制御部4、情報記憶部5、コンテンツ区間検出部6、映像音声記録部7を備えている。また、この実施の形態1では図示は省略したが、この自動記録装置は、キーやタッチパネル等による入力信号を取得する入力部8や、データを表示または音声により出力する出力部9も備えている(後述する実施の形態4における図9参照)。
そして、この自動記録装置は、ラジオやテレビなどのオーディオ機器から出力される放送データから音声を取得して認識し、当該認識した結果から、放送されている楽曲(コンテンツ)の名称(曲名)やアーティストの名称(アーティスト名)などの識別データを抽出し、楽曲(コンテンツ)に対応付けて曲名やアーティスト名などの識別データを自動的に情報記憶部に記録するものである。
音声取得部1は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する。この際、オーディオ機器から出力される音声をライン入力などで取得する。アナログで取得した場合はA/D変換して、例えばPCM(Pulse Code Modulation)形式などのデジタル形式に変換して取得する。
音声認識部2は、認識辞書(図示せず)を有し、音声取得部1により取得された音声データを認識する。具体的には、搭乗者発話等の内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果を文字列で出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。また、音声認識部2は、後述のようにネットワーク上のサーバにあるものとしてもよい。
ここで利用する音声認識は予め認識辞書で登録した認識語彙を認識する構文型の音声認識と、「あ」「い」「う」「え」「お」などの一文字の音節を連続で認識することにより、任意の文字列を認識可能とする大語彙連続音声認識の両方を併用する。なお、認識全てを大語彙連続認識で行い、認識結果を形態素解析する方法をとってもよい。形態素解析については例えばHMM法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。
定型文記憶部3は、楽曲(コンテンツ)を紹介する際の文言として、例えば図2に示すように「次の曲は<アーティスト名>の<曲名>です」、「お聴きいただいたのは<アーティスト名>の<曲名>です」のようなディスクジョッキーやプレゼンテーターなどが曲を紹介する時によく使われる文言を記憶している。以下、これを曲紹介文言と呼ぶ。
そして前述の音声認識部2は、音声取得部1により取得された音声データを認識するとともに、定型文記憶部3を参照して、すなわち、音声データを認識した認識結果と定型文記憶部3に記憶されている文言とに基づいて、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を抽出して出力する。具体的な抽出方法としては、定型文記憶部3に記憶されている曲紹介文言については<アーティスト名>と<曲名>の部分を大語彙連続認識で認識して抽出し、それ以外の部分を構文型音声認識で認識する。
制御部4は、音声認識部2により出力された認識結果である曲名、アーティスト名など(識別データ)の文字列を入力とし、その楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を受け取った場合に、後述するコンテンツ区間検出部6へ動作開始の命令を出力、すなわち、楽曲(コンテンツ)の開始時点および終了時点を検知するよう指示を行う。
情報記憶部5は、例えば図3に示すように、少なくとも楽曲(コンテンツ)と、その楽曲(コンテンツ)のアーティスト名や曲名(識別データ)とを記憶している。なお、この図3に示すように、アーティスト名、曲名(識別データ)を楽曲(コンテンツ)に対応付けて保存するとともに、その楽曲(コンテンツ)を取得(録音)した取得日時なども関連付けて保存するようにしてもよい。また、図3(a)に示すように、曲名ごとのデータとしてもよいし、図3(b)に示すように、アーティストごとにまとめたデータであってもよい。なお、情報記憶部5は、ハードディスクでもよいし、SDカードなどであっても構わない。
コンテンツ区間検出部6は、制御部4からの指示にしたがって、音声取得部1により取得された音声データから楽曲(コンテンツ)の開始時点および終了時点を検知する。具体的には、音声取得部1から出力されるデジタル音声データを入力とし、入力されたデジタル音声データが持つ周波数の特徴量などを利用して、音声データの中の楽曲(コンテンツ)と会話(コンテンツ以外の部分)の境界区間を検知する。そして、楽曲の開始区間を検知すると、後述する映像音声記録部7に記録開始の命令を送り、楽曲の終了区間を検知すると、映像音声記録部7に記録終了の命令を送る。なお、開始区間や終了区間の検知には時間−周波数解析のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。
映像音声記録部7は、コンテンツ区間検出部6の命令により、すなわち、コンテンツ区間検出部6により検出された開始時点と終了時点の間のコンテンツ区間における楽曲(コンテンツ)部分のみを記録し、情報記憶部5に保存する。
そして前述の制御部4は、音声認識部2から受け取った曲名とアーティスト名(識別データ)を映像音声記録部7により記録された楽曲(コンテンツ)と対応付けて情報記憶部5に保存する。
次に、図4に示すフローチャートを用いて、実施の形態1の自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST11)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST12)。
制御部4は、音声認識部2から曲名・アーティスト名を受け取ると、コンテンツ区間検出部6を動作させる指示を行う。コンテンツ区間検出部6は、音声取得部1により取得されたオーディオ音声に対し信号処理技術を用いて周波数などの特徴量を抽出し、楽曲部分の開始区間を検知して(ステップST13)、映像音声記録部7に記録開始の命令を送る。
そして、映像音声記録部7は、コンテンツ区間検出部6からの命令を受けて、ステップST13で検知された楽曲の開始位置から楽曲の記録を開始する(ステップST14)。
また、コンテンツ区間検出部6は、取得されたオーディオ音声に対し信号処理技術を用いて特徴量を抽出し、楽曲部分の終了区間を検知して(ステップST15)、映像音声記録部7に記録終了の命令を送る。
そして、映像音声記録部7は、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止し(ステップST16)、その録音された楽曲を情報記憶部5に保存する(ステップST17)。
最後に、制御部4は、ステップST12で抽出されて音声認識部2から取得した曲名・アーティスト名を、ステップST17で保存された楽曲と関連付けて、情報記憶部5に保存する(ステップST18)。
この結果、例えば図3に示すような関連付けテーブルが保存される。
このようにして、ラジオやテレビなどの放送データだけに基づいて、大語彙連続音声認識を利用した音声認識を行うことにより、コンテンツの識別データを参照するための外部データベースが不要となり、当該外部データベースの作成、更新の手間も省くことができ、さらに、その外部データベースとの通信も不要となる。
また、識別データと、コンテンツ開始部分が抽出できたことを条件にコンテンツを記録するため、記憶媒体の容量を圧迫せずに曲部分のみを効率的に保存することができる。
以上のように、この実施の形態1によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。
実施の形態2.
図5は、この発明の実施の形態2による自動記録装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、制御部4が情報記憶部5に保存されている情報を参照することにより、ユーザの嗜好にあったコンテンツのみを記録するものである。
情報記憶部5には、例えば図6に示すような形式で、音声認識部2から出力されたアーティスト名、曲名(識別データ)が楽曲(コンテンツ)に対応付けて保存されているだけではなく、それぞれの楽曲(コンテンツ)やそのアーティストの楽曲(コンテンツ)が取得された回数を含むデータが保存されており、この情報記憶部5に記憶されているデータは制御部4より参照可能とする。
そして制御部4は、音声認識部2から出力された曲名、アーティスト名など(識別データ)の文字列を入力とし、当該曲名とアーティスト名(識別データ)を情報記憶部5に記録するとともに、情報記憶部5に記憶されている当該データ(取得回数を含む当該コンテンツに関する情報)を参照することにより、そのコンテンツを取得した回数が所定の回数以上である場合にのみ、コンテンツ区間検出部6へ動作開始の命令を出力する。
次に、図7に示すフローチャートを用いて実施の形態2における自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST21)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST22)。
制御部4は、音声認識部2から曲名・アーティスト名を取得すると、取得した曲名・アーティスト名について情報記憶部5に記憶されているデータを参照し、当該曲名・アーティスト名のコンテンツを取得した回数が所定の回数以上である場合(ステップST23のYESの場合)には、コンテンツ区間検出部6を動作させ、ステップST24〜ST29の処理を行う。
なお、ステップST24〜ST29の処理については、実施の形態1における図4に示したステップST13〜ST18の処理と同一であるため、説明を省略する。
一方、ステップST23において、ステップST22で抽出された曲名・アーティスト名の楽曲の取得回数が所定の回数未満である場合(ステップST23のNOの場合)には、制御部4は音声認識部2から出力された曲名・アーティスト名を、その取得回数を1回追加して情報記憶部5に保存する(ステップST30)。
このように、既に所定の回数以上取得している曲名・アーティスト名の楽曲、すなわち、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。
以上のように、この実施の形態2によれば、実施の形態1における効果に加え、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。
実施の形態3.
この発明の実施の形態3による自動記録装置の一例を示すブロック図は、実施の形態2の図5に示したブロック図と同じであるため、図示および説明を省略する。そして、以下に示す実施の形態3では、実施の形態2と比べると、楽曲(コンテンツ)の区間検出開始の命令を行うかどうかを、その楽曲(コンテンツ)がユーザの嗜好に合ったものであるか否かによるのではなく、音声認識の尤度によって決定するものである。
なお、この実施の形態3では、音声認識部2が認識結果を制御部4に出力する際に、その認識結果とともにその認識の尤度も出力する。
次に、図8に示すフローチャートを用いて実施の形態3における自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST31)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST32)。
また、音声認識部2により認識結果が出力される際に、音声認識部2において認識された音声の確からしさ(もっともらしさ)を示す尤度もともに出力され、制御部4は、その認識の尤度も同時に取得し、当該認識の尤度が所定の値以上である場合(ステップST33のYESの場合)にのみ、コンテンツ区間検出部6を動作させ、ステップST34〜ST39の処理を行う。
なお、ステップST34〜ST39の処理については、実施の形態1における図4に示したステップST13〜ST18の処理と同一であるため、説明を省略する。
一方、ステップST33において、音声認識の尤度が所定の値未満である場合(ステップST33のNOの場合)には、そのまま処理を終了する。
ここで、尤度の具体例について説明する。例えば、大語彙連続音声認識において、認識された音声一音ずつの確からしさ(もっともらしさ)は、放送データから聞こえてくる司会者などの滑舌の良さや雑音の少なさによって高くなるものであり、通常は60〜70%以上の尤度であれば、その音(文字)が出力されたと判断される。そこで、ステップST33における所定の値として、例えば80%を設定しておくことにより、正しく音声認識された場合にのみステップST34以降の処理に進むようにする。
また、例えば、定型文記憶部3に記憶されている曲紹介文言(図2)と比較した構文型音声認識において、一致する文言が何%あるかによって、認識された音声が曲紹介であるか否かという尤度を算出するようにしてもよい。この場合にも、ステップST33における所定の値としては、例えば80%と設定しておくことにより、曲紹介の構文が正しく音声認識された場合にのみステップST34以降の処理に進むようにする。
これにより、低い尤度の音声認識結果に基づいて、誤ってコンテンツ区間検出部6が動作することを防ぐことができるとともに、誤った曲名やアーティスト名(識別データ)を関連付けた楽曲(コンテンツ)を保存してしまうことを防ぐことができる。
以上のように、この実施の形態3によれば、実施の形態1における効果に加え、音声認識の尤度が所定の値以上である場合のみコンテンツの識別データとコンテンツとを記録することができるので、誤った識別データを関連付けたコンテンツを保存してしまい、記憶媒体の容量を圧迫するのを防ぐことができる。
実施の形態4.
図9は、この発明の実施の形態4による自動記録装置の一例を示すブロック図である。なお、実施の形態1〜3で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。この実施の形態4のブロック図には、実施の形態1〜3では図示を省略した、キーやタッチパネル等による入力信号を取得することによりユーザからの操作入力を受け付ける入力部8と、データを表示または音声出力することによりユーザにデータを提示する出力部9も図示されており、以下に示す実施の形態4では、これらの入力部8および出力部9を介して、ユーザが楽曲(コンテンツ)の保存の要否を選択することができるものである。
そして制御部4は、音声認識部2から出力された曲名、アーティスト名など(識別データ)の文字列を取得すると、それらの曲名、アーティスト名など(識別データ)を出力部9を介して提示することにより保存の要否をユーザに確認し、入力部8を介してユーザからの入力を受け付けることにより、楽曲(コンテンツ)の保存要否を判断する。具体的には、入力部を介して保存要である旨の入力を受け付けた場合には、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を楽曲(コンテンツ)に対応付けて情報記憶部5に保存し、保存否である旨の入力を受け付けた場合には、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)のみを保存する。
入力部8は、ユーザの意思を入力するものであり、例えばボタンやタッチディスプレイなどでもよいし、マイク等による音声認識を用いた音声入力や、ジェスチャー入力によるものでもよい。また、それらを組み合わせたものであっても構わない。
出力部9は、制御部4により出力された曲名、アーティスト名(識別データ)を、例えば合成音声を利用して出力するものでもよいし、ディスプレイ画面に文字を表示するものでもよい。また、それら両方に出力しても構わない。
次に、図10に示すフローチャートを用いて実施の形態4における自動記録装置の動作を説明する。
ステップST41〜ST46の処理については、実施の形態1における図4に示したステップST11〜ST16の処理と同一であるため、説明を省略する。
そして、ステップST46において、映像音声記録部7が、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止した後、制御部4は、出力部9に対して曲名・アーティスト名を出力するよう指示を行い、ユーザにその楽曲の保存をするかどうか確認を求める(ステップST47)。
ユーザが、入力部8を介して曲名・アーティスト名が示された楽曲について保存要の選択をした場合、すなわち、入力部8が楽曲の保存要否について保存要である旨のユーザの入力を受け付けると(ステップST48のYESの場合)、映像音声記録部7に録音された楽曲を情報記憶部5に保存し(ステップST49)、曲名・アーティスト名をその楽曲と関連付けて情報記憶部5に保存する(ステップST50)。
一方、ステップST48において、ユーザが保存要の選択をしなかった場合、すなわち、入力部8が楽曲の保存要否について保存否である旨のユーザの入力を受け付けた場合(ステップST48のNOの場合)には、曲名・アーティスト名だけを情報記憶部5に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する(ステップST51)。
以上のように、この実施の形態4によれば、実施の形態1における効果に加え、コンテンツを記録した後でさらに、ユーザに対して保存要否の確認を行ってから必要な場合にだけ保存するようにしたので、ユーザが所望しないコンテンツの保存を防ぐことができる。
実施の形態5.
図11は、この発明の実施の形態5による自動記録装置の一例を示すブロック図である。なお、実施の形態1〜4で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態5では、実施の形態4と比べると、制御部4がコンテンツ区間検出部6による楽曲の終了区間検知時に映像音声記録部7で記録された楽曲と、情報記憶部5に保存されている楽曲とを比較して、既に同一の曲名・アーティスト名の楽曲が保存済みの場合には、音質の良い方を保存するようにしたものである。
制御部4は、コンテンツ区間検出部6による楽曲の終了区間検知時に映像音声記録部7で録音された楽曲を取得して、当該楽曲の音質の良さを数値化する。この時、音質の良さを数値化する方法としては、S/N比などの一般的な手法を用いればよいので、ここでは説明を省略する。なお、音質の良さの基準としては、録音時間を用いてもよいし、S/N比と録音時間とを組み合わせてもよい。
さらに制御部4は、情報記憶部5に記憶されているデータを参照することにより、音声認識部2において抽出されたコンテンツの識別データについて、同一のデータ(曲名、アーティスト名を持つ曲)が情報記憶部5に存在するか否かを判別し、存在する場合には、映像音声記録部7で録音された楽曲(コンテンツ)と、情報記憶部5に保存されている楽曲(コンテンツ)の音質とを比較し、新たに映像音声記録部7により録音された楽曲(コンテンツ)の方が既存の楽曲より音質が高い場合にのみ、自動的に情報記憶部5に保存されている楽曲(コンテンツ)に上書きして保存する。
次に、図12に示すフローチャートを用いて実施の形態5における自動記録装置の動作を説明する。
ステップST61〜ST66の処理については、実施の形態1における図4に示したステップST11〜ST16の処理と同一であるため、説明を省略する。
そして、ステップST66において、映像音声記録部7が、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止した後、制御部4は、ステップST62で音声認識部2により検出された曲名・アーティスト名と同一の楽曲が既に情報記憶部5に保存されているか否かを判別し(ステップST67)、既に同一の楽曲が保存済みである場合(ステップST67のYESの場合)には、さらにステップST64〜ST66において映像音声記録部7に録音された楽曲を取得して、当該楽曲の音質の良さを数値化した音質情報を、情報記憶部5に保存されている楽曲の音質と比較する(ステップST68)。
ステップST64〜ST66において映像音声記録部7に録音された楽曲の音質が既存の楽曲の音質より高い場合(ステップST68のYESの場合)、映像音声記録部7に録音された楽曲を情報記憶部5に保存し(ステップST69)、曲名・アーティスト名をその楽曲と関連付けて情報記憶部5に保存する(ステップST70)。
また、ステップST67の判断において、同一の楽曲が情報記憶部5に保存されていない場合(ステップST67のNOの場合)にも、上記ステップST69およびST70の処理を行う。
一方、ステップST68において、映像音声記録部7に録音された楽曲の音声津が既存の楽曲の音質以下だった場合(ステップST68のNOの場合)には、曲名・アーティスト名だけを情報記憶部5に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する(ステップST71)。
以上のように、この実施の形態5によれば、実施の形態1における効果に加え、既に取得している曲名・アーティスト名について、新しく取得した楽曲の音質が高い場合には、その楽曲(コンテンツ)を記録し、既存の楽曲の音質以下だった場合には、楽曲(コンテンツ)を上書きしないようにすることにより、常に音質の良いコンテンツに自動で更新することができる。
なお、この実施の形態5では、新たに録音された曲の音質が既存の曲の音質より高かった場合に、自動的に上書き保存を行うものとして説明したが、ユーザに上書き保存の要否を確認してから保存するようにしてもよい。
この場合には、既存の楽曲の音質以下だった場合には楽曲(コンテンツ)を上書きしないことに加え、既存の楽曲の音質より高かった場合であっても、ユーザの確認を得た上で上書き保存するようにしたので、ユーザの都合により、音質の良い方を保存するよう選択したり、音質は多少悪くても好みの録音状態の楽曲を残すように選択したりすることができる。
実施の形態6.
図13は、この発明の実施の形態6による自動記録装置の一例を示すブロック図である。なお、実施の形態1〜5で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態6では、実施の形態2と比べると、音声認識部2が複数の音声認識器21,22,23,・・・により構成されており、複数の言語ごとに認識辞書(図示せず)を有するものであり、それら言語ごとの複数の音声認識エンジンを使用して、複数の言語ごとに音声認識を行うようにしたものである。
一般的に、例えば日本語の音声認識エンジンは、外国語の音声認識には弱く、英語が発話された場合には、英語の音声認識エンジンを使用した方が認識精度が高い。そこで、日本語用の音声認識器2−1、英語用の音声認識器2−2、ドイツ語用の音声認識器2−3、・・・等のように、それぞれが各言語ごとの認識辞書を有する各言語ごとの音声認識器21,22,23,・・・を備えるようにした。ここでは、それら複数の音声認識器21,22,23,・・・を並列に接続した音声認識部2を使用する場合を例として説明する。
そして、音声認識部2が音声取得部1から出力された音声を認識する際に、複数の言語に対応する音声認識器21,22,23,・・・とそれぞれの認識辞書(図示せず)とを並列に動作させて、各音声認識器21,22,23,・・・により複数の言語ごとに音声認識を行い、その結果を制御部4に出力する。その時、各音声認識器21,22,23,・・・は、認識結果とともにその認識の尤度も出力する。
制御部4は、複数の音声認識器21,22,23,・・・により認識された結果の中で最も尤度の高い結果から認識された音声の言語を特定し、その認識の尤度が最も高い言語により抽出された楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を情報記憶部5に保存する。
なお、図13に示す音声認識部2に代えて、図14に示すように、1つの音声認識器20で複数の音声認識辞書20−1,20−2,20−3,・・・を切り替えて認識を行う音声認識部2を使用するようにしてもよい。
次に、図15に示すフローチャートを用いて実施の形態6における自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST81)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST82)。
制御部4は、音声認識部2においてに認識された各言語の音声の確からしさ(もっともらしさ)を示す尤度も同時に取得し、その認識の尤度に基づいて、曲名・アーティスト名の言語を決定する(ステップST83)。例えば、最も尤度の高い言語を、曲名・アーティスト名の言語であると特定する。これにより、多言語の音声認識辞書を用いて精度の低い音声認識が行われることを防ぎ、外国語の曲名・アーティスト名であっても正しく認識することができる。
さらに制御部4は、ステップST83で決定した言語の音声認識の尤度が所定の値以上である場合(ステップST84のYESの場合)には、コンテンツ区間検出部6を動作させ、ステップST85〜ST90の処理を行う。
なお、ステップST85〜ST90の処理については、実施の形態1における図4に示したステップST13〜ST18の処理と同一であるため、説明を省略する。
なお、ステップST83において、認識の尤度に基づいて曲名・アーティスト名の言語を特定する方法としては、音声認識辞書を備えている複数の言語すべてに対して音声認識を行い、それらの認識の尤度を比較して最も尤度の高いものを特定する方法や、認識の尤度の閾値を設定しておき、認識の尤度が設定された閾値以上であればその言語であると判断して残りの言語については音声認識を行わずに特定する方法など、様々な方法が考えられるが、それらのいずれを用いても構わない。
以上のように、この実施の形態6によれば、実施の形態1における効果に加え、各種言語の音声認識エンジンを用いた音声認識を行って、その認識の尤度に基づいて言語を決定することにより、外国語の曲名・アーティスト名であっても正しく認識して保存することができる。
なお、上記の実施の形態では、コンテンツが楽曲である場合、すなわち、音楽コンテンツの場合を例として説明したが、音楽コンテンツに限らず、例えばスポーツ中継のコンテンツについて区間を抽出、記録を行ってもよいし、トーク番組のコンテンツについて区間を抽出、記録を行ってもよいし、ドキュメンタリーのコンテンツについて区間を抽出、記録を行うようにしてもよい。
この発明の自動記録装置は、ラジオやテレビなどの放送データを受信することができる装置であれば、外部との通信手段を備えていない場合や、インターネットの接続状態が悪い環境であっても、適用することができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明の自動記録装置は、ラジオやテレビなどの放送データを受信することができる装置であれば、外部との通信手段を備えていない場合や、インターネットの接続状態が悪い環境であっても、適用することができる。
1 音声取得部、2 音声認識部、3 定型文記憶部、4 制御部、5 情報記憶部、6 コンテンツ区間検出部、7 映像音声記録部、8 入力部、9 出力部、20,21,22,23,・・・ 音声認識器、20−1,20−2,20−3,・・・ 認識辞書。

Claims (6)

  1. 放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する音声取得部と、
    前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、
    前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、
    前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、
    前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、
    前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、
    少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、
    前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存する
    ことを特徴とする自動記録装置。
  2. 前記情報記憶部に記憶されているデータは、前記コンテンツを取得した回数を含み、
    前記制御部は、前記情報記憶部に記憶されているデータを参照することにより、前記コンテンツを取得した回数が所定の回数以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
    ことを特徴とする請求項1記載の自動記録装置。
  3. 前記音声認識部は、前記認識結果とともに当該認識の尤度も出力し、
    前記制御部は、前記認識の尤度が所定の値以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
    ことを特徴とする請求項1記載の自動記録装置。
  4. ユーザからの操作入力を受け付ける入力部と、
    前記ユーザにデータを提示する出力部とをさらに備え、
    前記制御部は、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する際に、前記出力部を介して前記保存の要否を前記ユーザに確認し、前記入力部を介して保存要である旨の入力を受け付けた場合には、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存し、前記入力部を介して保存否である旨の入力を受け付けた場合には、前記コンテンツの識別データのみを前記情報記憶部に保存する
    ことを特徴とする請求項1記載の自動記録装置。
  5. 前記制御部は、前記情報記憶部に記憶されているデータを参照することにより、前記抽出されたコンテンツの識別データと同一のデータが前記情報記憶部に存在するか否かを判別し、存在する場合には、前記映像音声記録部により記録されたコンテンツと、前記情報記憶部に保存されているコンテンツの音質を比較し、前記映像音声記録部により記録されたコンテンツの方が音質が高い場合にのみ、当該映像音声記録部により記録されたコンテンツを前記情報記憶部に保存されているコンテンツに上書きして保存する
    ことを特徴とする請求項1記載の自動記録装置。
  6. 前記音声認識部は、複数の言語ごとに認識辞書を有するものであり、前記複数の言語ごとに音声認識を行い、その認識結果とともに当該認識の尤度も出力し、
    前記制御部は、前記認識の尤度に基づいて前記コンテンツの識別データの言語を特定し、当該特定された言語により抽出されたコンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
    ことを特徴とする請求項1記載の自動記録装置。
JP2014519697A 2012-06-04 2012-06-04 自動記録装置 Expired - Fee Related JP5591428B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/003652 WO2013183078A1 (ja) 2012-06-04 2012-06-04 自動記録装置

Publications (2)

Publication Number Publication Date
JP5591428B2 JP5591428B2 (ja) 2014-09-17
JPWO2013183078A1 true JPWO2013183078A1 (ja) 2016-01-21

Family

ID=49711508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014519697A Expired - Fee Related JP5591428B2 (ja) 2012-06-04 2012-06-04 自動記録装置

Country Status (3)

Country Link
JP (1) JP5591428B2 (ja)
CN (1) CN104350545B (ja)
WO (1) WO2013183078A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161632A (ja) * 2014-02-28 2015-09-07 富士通テン株式会社 画像表示システム、ヘッドアップディスプレイ装置、画像表示方法、及び、プログラム
US11328727B2 (en) * 2017-03-31 2022-05-10 Optim Corporation Speech detail recording system and method
JP2019200393A (ja) * 2018-05-18 2019-11-21 シャープ株式会社 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
JP7009338B2 (ja) * 2018-09-20 2022-01-25 Tvs Regza株式会社 情報処理装置、情報処理システム、および映像装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1054484C (zh) * 1993-12-21 2000-07-12 罗伊·J·曼科维茨 识别广播节目与存取其有关信息的装置和方法
JP2003085884A (ja) * 2001-09-14 2003-03-20 Pioneer Electronic Corp 情報記録装置
US20040143349A1 (en) * 2002-10-28 2004-07-22 Gracenote, Inc. Personal audio recording system
JP2007219178A (ja) * 2006-02-16 2007-08-30 Sony Corp 楽曲抽出プログラム、楽曲抽出装置及び楽曲抽出方法
JP4442585B2 (ja) * 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
GB0625178D0 (en) * 2006-12-18 2007-01-24 Ubc Media Group Plc Improvements relating to downloading data
JP2011043710A (ja) * 2009-08-21 2011-03-03 Sony Corp 音声処理装置、音声処理方法及びプログラム
JP2011223205A (ja) * 2010-04-07 2011-11-04 Onkyo Corp 放送記録装置およびそのプログラム

Also Published As

Publication number Publication date
JP5591428B2 (ja) 2014-09-17
WO2013183078A1 (ja) 2013-12-12
CN104350545A (zh) 2015-02-11
CN104350545B (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN105931644B (zh) 一种语音识别方法及移动终端
CN107305541B (zh) 语音识别文本分段方法及装置
US9798934B2 (en) Method and apparatus for providing combined-summary in imaging apparatus
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
US6332122B1 (en) Transcription system for multiple speakers, using and establishing identification
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
US8924853B2 (en) Apparatus, and associated method, for cognitively translating media to facilitate understanding
JP2002032213A (ja) ボイス・メール・メッセージを転記する方法およびシステム
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP5591428B2 (ja) 自動記録装置
JPWO2007069372A1 (ja) 音声認識装置
US7010485B1 (en) Method and system of audio file searching
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20150269930A1 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
JP2013088477A (ja) 音声認識システム
JP2004333738A (ja) 映像情報を用いた音声認識装置及び方法
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP4675691B2 (ja) コンテンツ情報提供装置
JP4639094B2 (ja) 音声認識システム、音声認識装置及び音声認識プログラム
CN110895938B (zh) 语音校正系统及语音校正方法
JP4175141B2 (ja) 音声認識機能を有する番組情報表示装置
JP7297266B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
JP4854030B2 (ja) 映像分類装置および受信装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140625

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140701

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140729

R150 Certificate of patent or registration of utility model

Ref document number: 5591428

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees