WO2010024426A1

WO2010024426A1 - 録音装置

Info

Publication number: WO2010024426A1
Application number: PCT/JP2009/065142
Authority: WO
Inventors: 紀行畑; 詠子小林
Original assignee: ヤマハ株式会社
Priority date: 2008-08-29
Filing date: 2009-08-25
Publication date: 2010-03-04
Also published as: JP2010054991A

Abstract

　録音データの発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供する。録音装置の録音端末（１）の解析部（１１）は、収音部（１０）が収音した音声を、会議出席者の発言ごとの区間および非発言区間に区分するとともに、各区間の情況を解析する。再生端末（２）は、発言区間および非発言区間をタイムチャート形式で表示するとともに、各区間の情況を示すマ一クを表示し、その表示に基づいてユーザが選択した任意の区間を再生する。

Description

録音装置

　この発明は、会議等の音声を録音し、録音音声を所望の録音部分から再生する録音装置に関する。

　従来より会議を録音する装置が提案されている。たとえば、特開２００７−２５６４９８号公報には、会議の音声を録音するだけでなく、録音した音声データを発言者ごとの区間に区切ってタイムチャート形式で一覧表示することにより、どの区間が誰の発言であるかが一見して判るようにした装置が提案されている。

　上記特開２００７−２５６４９８号公報の装置では、誰がいつ発言したかを一覧表示することができるが、それぞれの発言がどのような雰囲気やどのような情況でなされたものであったかを知ることはできず、録音を聴いてみなければわからなかった。

　また、会議においては、出席者が発言していない時間帯が存在し、このような時間帯は、録音データでは無音区間等の非発言区間となる。従来、非発言区間は議事録として意味のない区間であるとしてそのデータを削除していたが、会議の雰囲気等を知るためにはこのような非発言区間も意味を持つ場合がある。しかし、非発言区間での雰囲気や状況がどのようなものであったかは録音を聴いてみないとわからなかった。

　この発明は、発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供する。

　本発明は、音声データを記憶する音声データ記憶部と、該音声データを音声の発生源ごとの複数の区間に区分する区間情報を記憶する区間情報記憶部と、各区間の音声の情況を表す情況データを記憶する情況データ記憶部と、前記区間情報に基づき各区間の範囲を時間軸に沿って表示するとともに、前記情況データに基づき各区間の情況を示す情報を前記区間の範囲の表示に重ねて表示する表示部とを備えた録音装置を提供する。

　この発明では、音声データを音声の発生源ごとの複数の区間に区分する区間情報を記憶する。会議の場合、発言者が音声の発生源となる。なお、音声が存在しない時間帯（たとえば無音区間、発言以外の音が発生している区間等）も区間として分割される。これにより、どの音声区間がどの発言者に対応するのかを特定することができる。さらに、この発明では、各区間の音声の情況を表す情況データを記憶する。音声の情況とは、たとえば、明るい声、怒った声等の音声の種類やその場の雰囲気である。そして、区間情報および情況データに基づいて各区間とその情況を示す情報（たとえば図形）を表示する。これにより利用者は、一見して区間の分布とその雰囲気を知ることができる。

　本発明において、録音装置は、前記音声データに基づき各区間の情況を解析し、解析した各区間の情況を表す情況データを前記情況データ記憶部に書き込む情況解析部を備えることができる。

　前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析することができる。

　録音装置は、前記音声データをストリーム入力して前記音声データ記憶部および前記情況解析部に出力する音声データ入力部を備えることができ、前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析することができる。

　録音装置は、任意の区間を選択する操作、および、選択された区間の情況データを入力する操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えることができる。

　情況解析部は、バッチ処理で情況を解析し、あるいはリアルタイムで情況を解析することができる。また、情況解析部は、無音区間の情況はその前後の有音区間の情況に基づいて解析することができる。また、情況データ入力手段を用いて、操作者は、録音された音声データを聴きながら情況データを入力することができる。

　前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶することができ、前記区間情報記憶部は、前記音声データを各出席者の発言ごとの区間および発言でない区間に区分する区間情報を記憶することができる。

　前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶することができる。

　すなわち、本発明の録音装置は、会議の録音に適用するのが好適であり、その場合、出席者ごとに発言区間を区分するとともに、発言でない区間もその種類（たとえば笑い声、拍手、物音、無音）ごとに区分し、各区間の情況を解析することができる。

　録音装置は、前記表示部上で任意の区間を指定する操作を受け付ける操作部と、前記操作部で指定された区間の音声データを再生する再生部とを備えることができる。

　本発明では、各区間を音声の発生源、時間帯を示すたとえば帯状のエリアとして表示することができ、この表示エリアをマウスでクリックする等の操作で指定することにより、容易に所望の区間の再生が可能になる。

　本発明の特徴および利点は下記の詳細な説明および添付図面からより明らかになる。

　この発明によれば、音声データを会議の発言者等の音声の発生源ごとの複数の区間に区分し、各区間と共にその音声の情況を示す情報たとえば図形を表示することにより、音声データにおける発言者等の音声の発生源の分布を一覧で知ることができるとともに、各区間の情況を一見して知ることができる。

この発明の実施形態である議事記録システムの構成図である。同議事記録システムの機能を示すブロック図である。同議事記録システムの録音端末により記憶メディアに記録される議事録データの例を示す図である。録音端末の解析部による議事録データ処理結果の例を示す図である。同議事記録システムの再生装置による発言一覧の表示例を示す図である。再生装置の音声データ再生／状況データ修正動作を示すフローチャートである。

　図１はこの発明の実施形態である議事記録システムの構成図であり、図２は、同議事記録システムのブロック図である。この実施形態において、議事記録システムは、録音端末１、再生端末２および記録メディア３で構成されている。

　図１において、録音端末１は、たとえば会議室のテーブル４上に設置され、複数たとえば６人の出席者４１~４６の発言を収音して記録メディア３に音声データとして記録する。その際、録音端末１は、音声信号を解析して区間データ及び状況データを後述の如く取得し、両データを音声データとともに記録メディア３に記録する。このため、録音端末１は、図２に示すように、収音部１０、解析部１１、記録部１２を備えている。

　収音部１０は、複数の出席者（図１の例では出席者４１~４６）の音声を収音し、収音した音声をデジタル音声信号に変換して解析部１１および記録部１２に入力たとえばストリーム入力する。収音部１０は、必要数のマイクを備えている。マイクは、マイクアレイ、各出席者４１~４６に個別に向けられた複数の単一指向性マイク、全話者の音声を一括して収音する１または複数の単一指向性または無指向性マイクのいずれであってもよい。マイクアレイを用いる場合、狭指向性の収音ビームを複数形成して各出席者４１~４６の音声を別々に収音してもよく、広角の指向特性を持つ収音特性を持たせて複数の出席者４１~４６の音声を一括して収音するようにしてもよい。なお、収音ビームを形成して各出席者の音声を個別に収音する方式については、本出願人の特開２００７−２５６４９８号公報に詳細に記載されている。

　解析部１１は、収音部１０からストリーム入力されたデジタル音声信号をリアルタイムに解析して、各出席者の発言の区切りを検出することにより、発言区間および非発言区間を割り出す。さらに、各発言区間については、どの出席者の発言であるかの発言者を特定し、非発言区間については、その区間が無音区間、笑い区間、拍手区間、物音区間のいずれであるかを特定する。

　ここで、各出席者の発言は、音声波形を認識することによって識別することができる。また、各出席者に個別にマイクが設けられている場合や、マイクアレイを用いて各出席者に個別に収音ビームが向けられている場合には、どのマイクまたはどの収音ビームで収音されたかによって発言者を識別することができる。

　また、笑い区間とは、不特定の出席者の笑い声が収音された区間である。拍手区間とは、不特定の出席者の拍手が収音された区間である。また、物音区間とは、出席者の発言・笑い声・拍手以外の物音（たとえば書類を配布するときの紙の擦れる音など）が収音された区間である。また、無音区間とは、発言者が沈黙し、他の音も聴こえない区間である。

　上記の解析部１１による処理結果の例を図４に示す。上述のように、解析部１１は音声信号を解析して区間データを取得する。図４に示す例では、区間データは、発言区間及びその長さを表す発言区間識別情報と、非発言区間及びその長さを表す非発言区間識別情報とを含む。発言区間識別情報は、出席者４１~４６による発言及びその長さをそれぞれ表す発言者識別情報５１~５６を含む。そして、非発言区間識別情報は、無音区間、笑い区間、拍手区間および物音区間ならびにその長さをそれぞれ表す無音区間識別情報、笑い区間識別情報、拍手区間識別情報および物音区間識別情報を含む。

　図４では、それぞれの識別情報を縦軸に沿って示し、会議開始からの経過時間を横軸に沿って示す。また、それぞれの識別情報に対応する区間の長さを、識別情報に対応する帯の長さで示す。

　さらに、解析部１１は、各発言区間、非発言区間の情況を解析し、解析結果を情況データとして出力する。ここで、発言区間の情況とは、たとえば、発言者の語調等から割り出される発言区間の雰囲気であり、「怒っている」、「楽しい」、「無感情」等の雰囲気に分類される。また、非発言区間の状況も、前後の発言区間との関係で、その場の雰囲気を表すという点で意味を持つものがある。たとえば、無音区間の状況には、「話題が無くなってしまった沈黙」、「怒ったあとの沈黙」、「考え込んでいる沈黙」等がある。解析部１１は、前後の発言区間の情況を参照して非発言区間の情況を解析する。

　このため、解析部１１は、情況を解析するための解析エンジン、知識ベースを備えている。なお、この情況の解析は、たとえば、特開２００２−９１４８２号公報等に記載の技術を適用して実現することができる。この技術では、発言に含まれる感情を強度、テンポ、抑揚等に基づいて解析している。

　また、解析部１１は、情況を解析できなかった区間については、解析データに代えて解析不可であった旨を示す解析不可データを付加する。解析不可の区間は、図５に示す発言一覧表示（後述）において例えば「？」のマークで示すことができ、或いは、再生端末２の操作者がマニュアル操作でその様なマークを入力することができる。

　記録部１２は、記憶メディア３のスロットを有し、このスロットにセットされている記録メディア３に議事録データを記録する。議事録データは、会議中に録音した音声データと、図４に基づいて先に説明した区間データと、各発言区間・非発言区間の情況を解析して得た上述の情況データとからなる。なお、記憶メディア３としては、たとえばＳＤカードなどの半導体メディアが用いられる。

　図３に示す例では、記憶メディア３は音声データトラック３ａ、区間データトラック３ｂ及び状況データトラック３ｃを有している。音声データトラック３ａには、音声データがタイムコードを付されて時系列に書き込まれ、区間データトラック３ｂには、区間の開始タイミング、終了タイミングの時刻（タイムコード）およびその区間の発言者または非発言音声を表す識別情報が、各区間ごとに時系列に書き込まれる。情況データトラック３ｃには、各発言区間・非発言区間の情況解析結果を表す情況データが各区間に対応づけて書き込まれる。

　一方、再生端末２は、記憶メディア３に記録された議事録データを読み込んで、再生・編集するための装置であり、たとえばノートパソコンにプログラムを実行させて実現される。再生端末２は、記憶メディア３に記録されている議事録データに基づき、図５に示すような発言一覧を表示する。そして、ユーザ（図に符号４７で示す）の指定した区間を再生するとともに、再生端末２が再生した発言をユーザが聴いた結果、その発言の雰囲気が情況データと異なると判断して状況データを訂正した場合に、情況データの訂正を受け付ける。このため、再生端末２は、図２に示すように、機能的には記録管理部２０、表示部２１、再生部２２および操作部２３を備えている。

　記録管理部２０は、再生端末２（ノートパソコン）のメディアスロットに挿入された記憶メディア３（ＳＤカード）からの区間データ及び状況データの読み出しや訂正用状況データの書き込みを実行する。また、表示部２１は、たとえばノートパソコンのディスプレイであり、記憶メディア３から読み出した画像データ、情況データに基づき発言一覧を図５に示すように表示する。なお、表示部２１は各情況データに対応するマーク画像を記憶する画像メモリを含んでいる。再生部２２は、オーディオ回路・スピーカ等を含み、指定された区間の音声データを読み出して再生し、音響として放音する。

　操作部２３は、キーボードやマウスを含み、発言一覧（図５）の表示、発言区間・非発言区間の指定、音声データの再生／停止、発言区間・非発言区間の情況データの訂正などの操作を受け付ける。

　図５は、再生装置２の表示部２１の画面に表示される発言一覧を示す図である。この発言一覧は、出席者４１~４６のそれぞれを文字やアイコンで示す出席者情報（図５の例では出席者名６１~６６）および非発言音声の種類を表す情報（図５の例では文字「無音」、「笑い」、「拍手」、「物音」）を縦軸に沿って示し、データ再生開始時からの経過時間を横軸にとり、各発言区間、非発言区間をその長さに対応する長さの帯状エリアで表示するとともに、各区間の情況データに対応するマークをその区間の帯状エリアの上に表示したものである。

　たとえば、発言区間３１の表示は、出席者４１が、会議開始００時００分００秒から５０秒発言したこと、および、その発言情況はおおむね明るい口調であった旨を表示している。ここで、発言区間のマークとしては、たとえば、明るい口調を表す晴れマーク、暗い口調を表す雨マーク、やや暗い口調を表す曇りマーク、怒った口調を表す雷マークを用いることができる。発言区間３１のように１つの発言区間中で口調（情況データ）が変化したときには、発言区間内に複数のマークが付される場合もある。

　また、無音区間３３のマークは、重い沈黙を表すマークである。この情況は、たとえば、その直前の区間３２で話者４４が怒ったことに対応して会議の出席者全員が沈黙してしまったことによって発生した無音区間であると考えられるため、重い沈黙を表すマークが割り当てられる。

　また、笑い区間３５、３６および拍手区間３７には音符のマークが割り当てられる。これら笑い区間・拍手区間の情況データはその笑い・拍手の大きさを示しており、発言一覧の表示においては、音符の大きさで笑い・拍手の大きさが表現される。

　図６は、再生装置２の音声データ再生／状況データ修正動作を示すフローチャートである。この動作では、操作者４７の操作に応じて音声データを再生するとともに、操作者の操作に応じて操作対象区間に割り当てられているマーク（情況データ）を修正する。

　再生動作がスタートすると、再生装置２は、まず図５に示す発言一覧をディスプレイ（表示部２１の画面）に表示する（Ｓ１）。そして指定操作、再生操作、再生停止操作、マーク変更操作、または終了操作があるまで待機する。

　ここで、指定操作とは、ディスプレイに表示されている発言一覧（図５参照）のなかから、１つの区間を指定する操作である。この指定操作は、操作者がマウスで所望の区間の表示エリアをクリックすることで行われる。また、再生操作／再生停止操作は、音声データの再生の開始／停止を指示する操作であり、ディスプレイに表示される開始ボタン／停止ボタンのマウスクリック、または、キーボードの特定操作（たとえばＣｔｒｌ＋ａ／Ｃｔｒｌ＋ｚなど）によって行われる。また、マーク変更操作は、指定された（選択状態の）区間に割り当てられている情況データ（マーク）を変更する操作であり、ディスプレイに表示されるマーク変更ボタンのマウスクリックまたはキーボードの特定操作（たとえばＣｔｒｌ＋ｘなど）の操作によってディスプレイにマーク一覧をウィンドウを表示させ、そのウィンドウ内の所望のマークをマウスクリックすることによって行われる。また、終了操作は、この音声データ再生／状況データ修正動作の終了を指示する操作であり、発言一覧ウィンドウのクローズボタン「×」のマウスクリックまたはキーボードの特定操作（たとえばＣｔｒｌ＋ｑなど）によって行われる。

　指定操作が行われると（Ｓ２でＹＥＳ）、その指定された区間を選択状態とする（Ｓ１０）。選択状態とは、再生操作やマーク変更操作が行われたとき、その処理を行う対象となる区間として選択されている状態をいう。このときディスプレイのその区間の表示色を反転させる等、指定された区間が操作者に判るように表示形態を変更することができる。そして、現在音声データを再生中であるかを判定する（Ｓ１１）。音声データを再生中であれば（Ｓ１１でＹＥＳ）、指定された区間に再生位置をジャンプさせる（Ｓ１２）。再生中でないときは、Ｓ１にもどる。

　再生操作が行われると（Ｓ３でＹＥＳ）、選択状態の区間があるかを判断する（Ｓ１３）、選択状態の区間が存在すれば（Ｓ１３でＹＥＳ）、その区間から再生をスタートする（Ｓ１４）。選択状態の区間が存在しない場合には（Ｓ１３でＮＯ）、音声データの先頭から再生をスタートさせる（Ｓ１５）。なお、音声データの再生中は、その時点の再生位置が属する区間を選択状態とし、再生位置が進行してゆくのに伴って選択状態の区間も進行させてゆく。

　再生停止操作があった場合には（Ｓ４でＹＥＳ）、現在再生中であるか否かを判断する（Ｓ２０）。再生中の場合には（Ｓ２０でＹＥＳ）、再生を停止して（Ｓ２１）Ｓ１にもどる。なお、このとき、再生を停止した時点での再生位置が属する区間を選択状態にしておく。一方、再生中でなければ（Ｓ２０でＮＯ）、Ｓ１へもどる。

　マーク変更操作があると（Ｓ５でＹＥＳ）、現在選択状態の区間があるかを判断する（Ｓ２２）、選択状態の区間がない場合には（Ｓ２２でＮＯ）、Ｓ１にもどる。一方、選択状態の区間が存在する場合には（Ｓ２２でＹＥＳ）、操作にしたがって選択状態の区間の情況データを書き換える（Ｓ２３）とともに、ディスプレイに表示されている発言一覧（図５参照）中の対応する区間のマークを書き換える（Ｓ２４）。

　また、終了操作が行われた場合には（Ｓ６でＹＥＳ）、再生の停止・ディスプレイの消去等の終了処理を行ったのち（Ｓ２５）、音声データ再生／状況データ修正動作を終了する。

　なお、再生部２２に複数の効果音を記憶しておき、再生する区間の情況データに応じた効果音を音声データとともに再生するようにしてもよい。

　なお、この実施形態では、録音端末１に解析部１１を設け、収音されたデジタル音声信号に基づき情況（雰囲気）をリアルタイムに解析しているが、情況の解析は録音後にバッチ処理で行ってもよい。この場合、解析部を再生端末２側に設けてもよい。

　また、この実施形態では、本発明の録音装置を録音端末１、これと別体の再生端末２および記憶メディア３からなる議事記録システムで構成しているが、録音端末１と、これと一体の再生端末２と、記憶メディア３とで構成してもよい。あるいは、録音端末１、再生端末２および記憶メディア３を一体に構成しても良い。

　上記実施形態では、録音装置を会議に適用する例を示しているが、本発明の録音装置は会議以外にも適用することができる。たとえば、屋外録音に適用することも可能である。また、野鳥の鳴き声の録音に適用することも可能であり、鳥の種類ごとに区間を分割すれば利用者が所望の鳴き声を自由に再生することができる。

　以上、本発明を実施の形態に基づいて説明したが、本発明はこれに限定されない。特許請求の範囲は、種々の変形例および等価の構成、機能の全てを包括すると解すべきものである。

　この発明は、録音データ区間の区分表示および各区間の雰囲気の一覧表示に利用することができる。

Claims

　音声データを記憶する音声データ記憶部と、
　該音声データを音声の発生源ごとに複数の区間に区分する区間情報を記憶する区間情報記憶部と、
　各区間の音声の情況を表す情況データを記憶する情況データ記憶部と、
　前記区間情報に基づき各区間の範囲を時間軸に沿って表示するとともに、前記情況データに基づき各区間の情況を示す情報を前記区間の範囲の表示に重ねて表示する表示部と、
　を備えた録音装置。
　前記音声データに基づき各区間の情況を解析し、解析した各区間の情況を表す情況データを前記情況データ記憶部に書き込む情況解析部を備えた請求項１に記載の録音装置。
　前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析する請求項２に記載の録音装置。
　前記音声データをストリーム入力して前記音声データ記憶部及び前記情況解析部に出力する音声データ入力部を備え、
　前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析する請求項２に記載の録音装置。
　任意の区間を選択する操作、および、選択された区間の情況データを入力する操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えた請求項１に記載の録音装置。
　前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶し、
　前記区間情報記憶部は、前記音声データを各出席者の発言ごとの区間および発言でない区間に区分する区間情報を記憶する請求項１に記載の録音装置。
　前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶する請求項６に記載の録音装置。
　前記表示部上で任意の区間を指定する操作を受け付ける操作部と、
　前記操作部で指定された区間の音声データを再生する再生部とを備えた請求項１に記載の録音装置。