WO2021064886A1

WO2021064886A1 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: WO2021064886A1
Application number: PCT/JP2019/038878
Authority: WO
Inventors: 辰彦斉藤; 相川　勇之
Original assignee: 三菱電機株式会社
Priority date: 2019-10-02
Filing date: 2019-10-02
Publication date: 2021-04-08
Also published as: JP6991409B2; TW202115713A; JPWO2021064886A1

Abstract

発話された音声を含む音声データから、発話された音声を認識する音声認識部（１０３）と、認識された音声から、文字又は文字列と、その文字又は文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部（１０４）と、抽出された説明表現で説明されている文字又は文字列を、固有情報として確定する固有情報確定部（１０６）とを備える。

Description

情報処理装置、プログラム及び情報処理方法

　本発明は、情報処理装置、プログラム及び情報処理方法に関する。

　コールセンターシステムは、お客様であるユーザとオペレータとのやり取りを通して、様々な情報を取得する必要がある。ユーザの氏名、住所又は電話番号等は、その一例である。従来、オペレータが、復唱を交えながらこのような情報を確認して、確認された情報をコールセンターシステムに手入力しており、非常にコストがかかっていた。

　これに対し、例えば特許文献１には、音声認識を用いて、本人又はその他の確認項目の自動チェックを行うことで、オペレータの確認作業を支援するオペレータ本人確認支援システムが記載されている。

特開２０１４－１９７１４０号公報

　しかしながら、従来のオペレータ本人確認支援システムは、ユーザ及びオペレータの発話を音声認識し、認識された音声を示すテキストからキーワードを抽出しているが、音声だけでは氏名や住所等の漢字又は綴りといった文字又は文字列を特定することが難しいため、実際の通話から、音声だけで必要な情報を抽出することは難しかった。

　そこで、本発明は、文字又は文字列の説明を含む音声から、自動的に所望の情報を特定できるようにすることを目的とする。

　本発明の一態様に係る情報処理装置は、発話された音声を含む音声データから、前記発話された音声を認識する音声認識部と、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部と、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部と、を備えることを特徴とする。

　本発明の一態様に係るプログラムは、コンピュータを、発話された音声を含む音声データから、前記発話された音声を認識する音声認識部、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部、及び、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部、として機能させることを特徴とする。

　本発明の一態様に係る情報処理方法は、発話された音声を含む音声データから、前記発話された音声を認識し、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出し、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定することを特徴とする。

　本発明の一又は複数の態様によれば、文字又は文字列の説明を含む音声から、自動的に所望の情報を特定することができる。

実施の形態１に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。説明抽出ルールの第１の例を示す概略図である。説明抽出ルールの第２の例を示す概略図である。説明表現情報の第１の例を示す概略図である。説明表現情報の第２の例を示す概略図である。説明表現情報の第３の例を示す概略図である。説明表現情報の第４の例を示す概略図である。説明表現情報の第５の例を示す概略図である。実施の形態１に係る通話データ情報抽出装置のハードウェア構成図である。実施の形態１に係る通話データ情報抽出装置の動作を示すフローチャートである。実施の形態２に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。実施の形態２に係る通話データ情報抽出装置において、説明ＤＢに記憶されている説明表現情報を更新する動作を示すフローチャートである。実施の形態３に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。実施の形態３に係る通話データ情報抽出装置において、入力される音声信号から固有情報を確定する動作を示すフローチャートである。実施の形態４に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。

実施の形態１．
　図１は、実施の形態１に係る情報処理装置である通話データ情報抽出装置１００の構成を概略的に示すブロック図である。
　通話データ情報抽出装置１００は、音声入力部１０１と、音声取得部１０２と、音声認識部１０３と、説明部分抽出部１０４と、説明データベース（以下、説明ＤＢという）１０５と、固有情報確定部１０６とを備える。通話データ情報抽出装置１００は、以上の構成で、発話の音声認識を行い、説明ＤＢ１０５に基づいて、固有情報を確定する。

　音声入力部１０１は、抽出対象であるお客様の入力音声を示す音声信号の入力を受け付ける。入力された音声信号は、音声取得部１０２に与えられる。以下、お客様をユーザという。

　音声取得部１０２は、音声入力部１０１から与えられる音声信号を、例えばＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換することで、音声データを取得する。取得された音声データは、音声認識部１０３に与えられる。

　音声アナログ信号で示される入力音声は、予め一人分の話者の音声にしておく必要がある。例えば、コールセンターでの通話の場合には、ステレオで、ユーザと、オペレータとの音声を分離しておく必要がある。あるいは、モノラルで、複数話者の音声が混合している場合、事前に音声分離技術等で、話者毎の音声に分離しておく必要がある。

　ここでは、音声入力部１０１は、ユーザの入力音声を示す音声信号の入力を受けるものとするが、実施の形態１はこのような例に限定されない。例えば、音声取得部１０２において、公知の技術を用いて、入力された音声信号から、話者毎の入力音声を特定して、ユーザの入力音声を示す音声データが生成されてもよい。

　音声認識部１０３は、音声取得部１０２によりデジタル化された音声データから、発話された音声に該当する音声区間を検出して、その音声区間の音声の認識処理を行うことにより、発話された音声を認識して、その発話された音声に対応する発話内容を示すテキストのデータである音声テキストデータを生成する。生成された音声テキストデータは、説明部分抽出部１０４に与えられる。

　説明部分抽出部１０４は、音声認識部１０３から与えられた音声テキストデータで示される、ユーザの発話内容から、文字又は文字列と、その文字又は文字列の書き方を説明している説明表現とを含む部分である説明部分を抽出する。そして、説明部分抽出部１０４、抽出された説明部分を示す説明部分テキストデータを生成する。生成された説明部分テキストデータは、固有情報確定部１０６に与えられる。

　ここでいう説明部分は、氏名又は住所等、音だけでは漢字又は綴りといった文字又は文字列を確定することが難しい場合に、漢字又は綴りといった文字又は文字列を確定するための補足情報を述べている部分のことを表す。

　例えば、説明部分抽出部１０４は、音声テキストデータで示される発話内容が、例えば、図２又は図３に示されている説明抽出ルール情報で示されている説明抽出ルールに該当する場合に、そのルールで示されている一部を説明部分として抽出してもよい。
　ここで、説明抽出ルールは、認識された音声において、文字又は文字列の書き方を説明するために使用される表現のルールである。

　例えば、図２に示されている説明抽出ルール情報の一行目には、＜ＥＮＴＩＴＹ＞は＜ＤＥＳＣＲＩＰＴＩＯＮ＞の＜ＥＮＴＩＴＹ＞という説明抽出ルールが格納されている。
　発話内容が「フクシマは都道府県のフクシマ」である場合、「フクシマ」が＜ＥＮＴＩＴＹ＞となり、「都道府県」が＜ＤＥＳＣＲＩＰＴＩＯＮ＞となる。ここで、最初の「＜ＥＮＴＩＴＹ＞」に一致する部分が、説明される文字又は文字列となり、「＜ＤＥＳＣＲＩＰＴＩＯＮ＞の＜ＥＮＴＩＴＹ＞」に一致する部分が、説明表現となる。

　なお、説明部分抽出部１０４は、図２又は図３に示されている説明抽出ルール情報を用いて説明部分を抽出しているが、実施の形態１はこのような例に限定されない。例えば、説明部分抽出部１０４は、機械学習を行って、説明部分を抽出してもよい。例えば、説明部分抽出部１０４は、ＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）のような分類器を用いて、文又は文節単位で説明部分が含まれるかどうか分類してもよい。

　また、例えば、音声取得部１０２に、オペレータの入力音声を示す音声信号も入力して、音声データを生成し、その音声データから認識された音声テキストデータについても説明部分抽出部１０４に与えることで、説明部分抽出部１０４は、オペレータが「どのような漢字ですか？」といった予め定められた発話内容の発話をした後に、ユーザが発話する内容を説明部分として抽出してもよい。

　説明ＤＢ１０５は、音だけでは漢字又は綴りといった文字又は文字列を確定することが難しい場合に、それらを確定するための補足情報として述べられる説明表現を示す説明表現情報を記憶する説明表現情報記憶部である。説明表現情報は、説明表現と、その説明表現により書き方が説明される文字又は文字列とを対応付ける。

　ここで、図４～図８は、説明ＤＢ１０５に記憶されている説明表現情報の例を示す概略図である。
　図４は、固有情報が単数の漢字による名前である場合の説明表現情報の例である。図４に示されているように、説明表現に対して、一つ漢字が対応付けられている。

　図５は、固有情報が複数の漢字による名前である場合の説明表現情報の例である。図５に示されているように、説明表現に対して、複数の漢字が対応付けられている。

　図６は、固有情報が中国語の名前である場合の説明表現情報の例である。図６に示されているように、中国語の説明表現に対して、一つの漢字からなる中国語の名前が対応付けられている。
　図７は、固有情報が英語の名前である場合の説明表現情報の例である。図７に示されているように、英語の説明表現に対して、英語の名前が対応付けられている。

　図８は、固有情報が住所の例である。図８に示されているように、説明表現に対して、地名が対応付けられている。

　固有情報確定部１０６は、説明表現で説明されている文字又は文字列を、固有情報として確定する。例えば、固有情報確定部１０６は、説明ＤＢ１０５に記憶されている説明表現情報を参照することで、説明表現で説明されている文字又は文字列を確定する。

　具体的には、固有情報確定部１０６は、説明部分抽出部１０４から与えられる説明部分テキストデータで示される説明部分に、説明ＤＢ１０５に記憶されている説明表現情報で示される説明表現が含まれているか否かを判断する。そして、固有情報確定部１０６は、説明部分に説明表現が含まれている場合には、その説明表現に対応付けられている文字又は文字列を特定する。そして、固有情報確定部１０６は、特定された文字又は文字列を固有情報として確定する。固有情報確定部１０６は、確定された固有情報を示す固有情報データを別の装置（図示せず）又は後段の処理部（図示せず）に出力してもよい。

　ここでは、固有情報確定部１０６は、説明部分に説明表現が含まれているか否かの判断を、文字列の完全一致又は部分一致により行ってもよく、また、例えば、説明部分に含まれている表現と説明表現との類似度を公知の技術で計算し、その類似度が閾値以上であるか否かにより行ってもよい。この場合には、類似度が閾値以上である場合に、説明部分に説明表現が含まれていると判断される。

　図９は、実施の形態１に係る通話データ情報抽出装置１００のハードウェア構成図である。
　図９に示されているように、通話データ情報抽出装置１００は、メモリ１１と、プロセッサ１２と、音声インタフェース（以下、音声Ｉ／Ｆという）１３と、テキスト入力インタフェース（以下、テキスト入力Ｉ／Ｆという）１４と、ネットワークインタフェース（以下、ネットワークＩ／Ｆという）１５とを備えるコンピュータ１０で実現することができる。

　メモリ１１は、音声取得部１０２、音声認識部１０３、説明部分抽出部１０４、固有情報確定部１０６のプログラム及びその中間データを記憶する。
　また、メモリ１１は、説明表現情報を記憶することで、説明ＤＢ１０５として機能する。

　プロセッサ１２は、メモリ１１からプログラムを読み出し、そのプログラムを実行することで、音声取得部１０２、音声認識部１０３、説明部分抽出部１０４及び固有情報確定部１０６として機能する。プロセッサ１２は、例えば、プログラム処理を行うＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等の回路である。

　音声Ｉ／Ｆ１３は、音声信号の入力を受け付けるインタフェースである。また、音声Ｉ／Ｆ１３は、応答音声を示す信号である応答音声信号を出力するインタフェースである。

　テキスト入力Ｉ／Ｆ１４は、オペレータがテキストデータの入力を行うインタフェースである。

　ネットワークＩ／Ｆ１５は、ネットワーク（図示せず）と通信を行うインタフェースである。

　なお、図９において、必要なプログラム又はデータは、コンピュータ１０の内部のメモリ１１に記憶されているが、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の外部メモリを接続して、必要なプログラム又はデータ等をコンピュータ１０が読み込んでもよい。また、ネットワークＩ／Ｆ１５を介して、ネットワークに接続された他の装置から、必要なプログラム又はデータをコンピュータ１０が読み込んでもよい。

　次に動作について説明する。
　図１０は、実施の形態１に係る通話データ情報抽出装置１００の動作を示すフローチャートである。
　まず、音声入力部１０１は、ユーザが発話した音声を示す音声信号の入力を受ける（Ｓ１０）。

　次に、音声取得部１０２は、音声信号から、ユーザが発話した音声を、音声データとして取得する（Ｓ１１）。

　次に、音声認識部１０３は、音声データで示される音声を認識する音声認識処理を行い、認識された音声である発話内容を示す音声テキストデータを生成する（Ｓ１２）。
　音声認識処理は、パターン認識に限定されるものではなく、公知の如何なる音声認識処理を用いたものでも良い。公知の音声認識処理は、例えば、古井貞煕著、『音声情報処理』、森北出版、１９９８年、ｐｐ．７９－１３２等に記載されている。

　次に、説明部分抽出部１０４は、音声テキストデータで示される発話内容から、説明部分を抽出する処理を行い（Ｓ１３）、ユーザの発話内容に説明部分があるか否かを判断する（Ｓ１４）。説明部分がある場合（Ｓ１４でＹｅｓ）には、説明部分抽出部１０４は、抽出された説明部分を示す説明部分テキストデータを固有情報確定部１０６に与えて、処理はステップＳ１５に進む。説明部分がない場合（Ｓ１４でＮｏ）には、処理はステップＳ１３に戻る。

　ステップＳ１５では、固有情報確定部１０６は、説明ＤＢ１０５に記憶されている説明表現情報を参照することで、説明部分テキストデータで示される説明部分から固有情報を確定する。

　以上のように、実施の形態１に係る通話データ情報抽出装置１００は、ユーザの音声から発話部分を抽出し、説明表現情報を参照して固有情報を確定する。これによって、冗長な入力音声から自動的に固有情報を確定することができる。

実施の形態２．
　図１１は、実施の形態２に係る情報処理装置である通話データ情報抽出装置２００の構成を概略的に示すブロック図である。
　通話データ情報抽出装置２００は、音声入力部１０１と、音声取得部１０２と、音声認識部１０３と、説明部分抽出部２０４と、説明ＤＢ１０５と、固有情報確定部１０６と、入力受付部２０７と、伝票データ生成部２０８と、伝票データ記憶部２０９と、データベース更新部（以下、ＤＢ更新部という）２１０とを備える。

　実施の形態２に係る通話データ情報抽出装置２００の音声入力部１０１、音声取得部１０２、音声認識部１０３、説明ＤＢ１０５及び固有情報確定部１０６は、実施の形態１に係る通話データ情報抽出装置１００の音声入力部１０１、音声取得部１０２、音声認識部１０３、説明ＤＢ１０５及び固有情報確定部１０６と同様である。

　説明部分抽出部２０４は、実施の形態１における説明部分抽出部１０４と同様に、音声認識部１０３から与えられた音声テキストデータで示される、ユーザの発話内容から、説明部分を抽出し、抽出された説明部分を示す説明部分テキストデータを生成する。
　実施の形態２では、説明部分抽出部２０４は、生成された説明部分テキストデータを、固有情報確定部１０６に与えるとともに、伝票データ記憶部２０９に記憶する。

　入力受付部２０７は、オペレータからのテキストの入力を受け付ける。例えば、入力受付部２０７は、説明部分抽出部１０４で抽出された説明部分に含まれている説明表現で書き方が説明された文字又は文字列の入力を受け付ける。

　伝票データ生成部２０８は、入力受付部２０７を介して、オペレータから、伝票データ記憶部２０９に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現に対して正解となる漢字又は綴りといった文字又は文字列との入力を受ける。そして、伝票データ生成部２０８は、入力された文字又は文字列と、対応する説明表現とを示す伝票データを生成する。そして、伝票データ生成部２０８は、生成された伝票データを、伝票データ記憶部２０９に記憶させる。
　伝票データ記憶部２０９は、上述の伝票データを記憶する。

　ＤＢ更新部２１０は、伝票データ記憶部２０９に、伝票データが記憶されると、記憶された伝票データに基づいて、説明ＤＢ１０５に記憶されている説明表現情報を更新する更新部である。例えば、ＤＢ更新部２１０は、伝票データで示されている説明表現、及び、文字又は文字列を説明表現情報に追加する。

　以上に記載された入力受付部２０７は、図９に示されているテキスト入力Ｉ／Ｆ１４により実現可能である。
　また、伝票データ生成部２０８及びＤＢ更新部２１０は、プロセッサ１２が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ１１に記憶されているものとする。
　伝票データ記憶部２０９は、メモリ１１により実現可能である。

　次に動作について説明する。
　なお、実施の形態２においても、入力される音声信号から固有情報を確定する動作については、実施の形態１と同様である。
　図１２は、実施の形態２に係る通話データ情報抽出装置２００において、説明ＤＢ１０５に記憶されている説明表現情報を更新する動作を示すフローチャートである。
　まず、音声入力部１０１は、ユーザが発話した音声を示す音声信号の入力を受ける（Ｓ２０）。

　次に、音声取得部１０２は、音声信号から、ユーザが発話した音声を、音声データとして取得する（Ｓ２１）。

　次に、音声認識部１０３は、音声データで示される音声を認識する音声認識処理を行い、認識された音声による発話内容を示す音声テキストデータを生成する（Ｓ２２）。

　次に、説明部分抽出部１０４は、音声テキストデータで示される発話内容から、説明部分を抽出し、抽出された説明部分を示す説明部分テキストデータを生成して、生成された説明部分テキストデータを伝票データ記憶部２０９に記憶させる（Ｓ２３）。

　次に、伝票データ生成部２０８は、入力受付部２０７を介して、オペレータから、伝票データ記憶部２０９に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現で書き方が説明された文字又は文字列の入力を受けて、入力された文字又は文字列と、対応する説明表現とを示す伝票データを生成する（Ｓ２４）。そして、伝票データ生成部２０８は、生成された伝票データを、伝票データ記憶部２０９に記憶させる。

　次に、ＤＢ更新部２１０は、伝票データ記憶部２０９に、伝票データが記憶されると、記憶された伝票データに基づいて、説明ＤＢ１０５に記憶されている説明表現情報を更新する（Ｓ２５）。

　以上のように、実施の形態２によれば、通話データ情報抽出装置２００は、自動で説明ＤＢ１０５に記憶されている説明表現情報を更新することができる。
　ここで、伝票データには、氏名欄、住所欄等のユーザ情報をオペレータが記入するようになっている。すなわち、氏名を説明する発話と氏名欄に記入された氏名とを紐づけて登録することで、次から同様の説明発話がなされたとき、この正解データが発話されたものとして推定することが可能になる。

　説明ＤＢ１０５に記憶されている説明表現情報は、実際の通話を使って更新する以外に、例えば、漢字から説明表現情報を更新することもできる。即ち、漢字の部首、形を説明することも考えられるが、ＤＢ更新部２１０は、漢字の構造から自動的に説明表現を作成することもできる。

実施の形態３．
　図１３は、実施の形態３に係る情報処理装置である通話データ情報抽出装置３００の構成を概略的に示すブロック図である。
　通話データ情報抽出装置３００は、音声入力部１０１と、音声取得部１０２と、音声認識部３０３と、説明部分抽出部２０４と、説明ＤＢ１０５と、固有情報確定部３０６と、入力受付部２０７と、伝票データ生成部２０８と、伝票データ記憶部２０９と、ＤＢ更新部２１０と、音声認識結果修正部３１１とを備える。

　実施の形態３に係る通話データ情報抽出装置３００の音声入力部１０１、音声取得部１０２及び説明ＤＢ１０５は、実施の形態１に係る通話データ情報抽出装置１００の音声入力部１０１、音声取得部１０２及び説明ＤＢ１０５と同様である。
　また、実施の形態３に係る通話データ情報抽出装置３００の説明部分抽出部２０４、入力受付部２０７、伝票データ生成部２０８、伝票データ記憶部２０９及びＤＢ更新部２１０は、実施の形態２に係る通話データ情報抽出装置２００の説明部分抽出部２０４、入力受付部２０７、伝票データ生成部２０８、伝票データ記憶部２０９及びＤＢ更新部２１０と同様である。

　音声認識部３０３は、実施の形態１の音声認識部１０３と同様に音声テキストデータを生成する。
　実施の形態３では、音声認識部３０３は、生成された音声テキストデータを、説明部分抽出部２０４及び音声認識結果修正部３１１に与える。

　固有情報確定部３０６は、実施の形態１の固有情報確定部１０６と同様に、固有情報を確定する。
　実施の形態３では、固有情報確定部３０６は、確定された固有情報と、固有情報を確定した際に用いた説明部分とを示す修正用データを生成し、その修正用データを音声認識結果修正部３１１に与える。

　音声認識結果修正部３１１は、固有情報確定部３０６から与えられる修正用データを用いて、音声認識部３０３から与えられる音声テキストデータを修正する。例えば、音声認識結果修正部３１１は、音声テキストデータにおいて、固有情報確定部３０６で確定された固有情報に対応する部分を、その固有情報で置き換えることで、音声テキストデータを修正する。

　具体的には、音声認識結果修正部３１１は、修正用データで示されている説明部分を音声テキストデータから検索し、その説明部分に含まれている文字又は文字列に対応する部分のテキストを、固有情報に対応する部分と判断して、音声テキストデータの内、固有情報に対応する部分を、修正用データで示されている固有情報で置き換える。
　例えば、音声認識結果修正部３１１は、図２又は図３で示されている説明抽出ルールに従って、＜ＥＮＴＩＴＹ＞又は＜ＮＡＭＥ＞の部分のテキストを、固有情報に対応する部分と判断する。そして、音声認識結果修正部３１１は、音声テキストデータの内、その固有情報に対応する部分のテキストと一致する部分を、固有情報で置き換える。

　以上に記載された音声認識結果修正部３１１は、プロセッサ１２が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ１１に記憶されているものとする。

　次に動作について説明する。
　なお、実施の形態３においても、説明ＤＢ１０５に記憶されている説明表現情報を更新する動作については、実施の形態２と同様である。
　図１４は、実施の形態３に係る通話データ情報抽出装置３００において、入力される音声信号から固有情報を確定する動作を示すフローチャートである。

　図１４において、図１０に示されているフローチャートのステップの処理と同様の処理については、図１０と同様の符号を付すことで、詳細な説明を省略する。

　図１４のステップＳ１０～Ｓ１５までの処理は、図１０のステップＳ１０～１５までの処理と同様である。
　但し、図１４のステップＳ１２において、音声認識部３０３は、生成された音声テキストデータを、説明部分抽出部２０４及び音声認識結果修正部３１１に与える。
　また、図１４のステップＳ１５において、固有情報確定部３０６は、確定された固有情報と、固有情報を確定した際に用いた説明部分とを示す修正用データを生成し、その修正用データを音声認識結果修正部３１１に与える。そして、図１４のステップＳ１５の処理の後は、処理はステップＳ３６に進む。

　ステップＳ３６では、音声認識結果修正部３１１は、固有情報確定部３０６から与えられる修正用データを用いて、音声認識部３０３から与えられる音声テキストデータを修正する。
　なお、音声認識結果修正部３１１は、修正された音声テキストデータを別の装置（図示せず）又は後段の処理部（図示せず）に出力してもよい。

　以上のように、実施の形態３によれば、確定された固有情報によって、音声認識結果を修正することができる。

実施の形態４．
　図１５は、実施の形態４に係る情報処理装置である通話データ情報抽出装置４００の構成を概略的に示すブロック図である。
　通話データ情報抽出装置４００は、音声入力部１０１と、音声取得部１０２と、音声認識部４０３と、説明部分抽出部２０４と、説明ＤＢ４０５と、固有情報確定部３０６と、入力受付部２０７と、伝票データ生成部４０８と、伝票データ記憶部４０９と、ＤＢ更新部４１０と、音声認識結果修正部３１１と、応答生成部４１２と、応答出力部４１３とを備える。

　実施の形態４に係る通話データ情報抽出装置４００の音声入力部１０１及び音声取得部１０２は、実施の形態１に係る通話データ情報抽出装置１００の音声入力部１０１及び音声取得部１０２と同様である。
　また、実施の形態４に係る通話データ情報抽出装置４００の説明部分抽出部２０４及び入力受付部２０７は、実施の形態２に係る通話データ情報抽出装置２００の説明部分抽出部２０４及び入力受付部２０７と同様である。
　さらに、実施の形態４に係る通話データ情報抽出装置４００の固有情報確定部３０６及び音声認識結果修正部３１１は、実施の形態３に係る通話データ情報抽出装置３００の固有情報確定部３０６及び音声認識結果修正部３１１と同様である。

　音声認識部４０３は、実施の形態１の音声認識部１０３と同様に音声テキストデータを生成する。
　実施の形態４では、音声認識部４０３は、生成された音声テキストデータを、説明部分抽出部２０４、音声認識結果修正部３１１及び応答生成部４１２に与える。

　説明ＤＢ４０５は、説明表現と、その説明表現により書き方が説明される文字又は文字列と、その文字又は文字列の読みとを示す説明表現情報を記憶する。

　伝票データ生成部４０８は、入力受付部２０７を介して、オペレータから、伝票データ記憶部４０９に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現で書き方が説明された文字又は文字列と、その文字又は文字列の読み方との入力を受けて、対応する説明表現と、入力された文字又は文字列と、その読み方とを示す伝票データを生成する。そして、伝票データ生成部４０８は、生成された伝票データを、伝票データ記憶部４０９に記憶させる。

　ＤＢ更新部４１０は、伝票データ記憶部４０９に、伝票データが記憶されると、記憶された伝票データに基づいて、説明ＤＢ４０５に記憶されている説明表現情報を更新する。例えば、ＤＢ更新部４１０は、伝票データで示されている説明表現と、文字又は文字列と、その読み方とを説明表現情報に追加する。

　応答生成部４１２は、音声認識部４０３で認識された音声に含まれている文字又は文字列を特定し、説明ＤＢ４０５に記憶されている説明表現情報を参照することで、特定された文字又は特定された文字列を説明している説明表現から、特定された文字又は特定された文字列の書き方を問い合わせる疑問文を示す応答データを生成する。

　具体的には、応答生成部４１２は、音声テキストデータで示される発話内容に名前、住所等の特定の表現が含まれる場合に、説明ＤＢ４０５に記憶されている説明表現情報を参照することで、その特定の表現に対応する説明表現を取得する。
　そして、応答生成部４１２は、取得された説明表現を用いた疑問文を生成し、その疑問文を示す応答データを生成する。ここでは、応答データは、その疑問文を音声で示すデータとするが、画像又はテキストで示すデータであってもよい。生成された応答データは、応答出力部４１３に与えられる。

　応答出力部４１３は、応答生成部４１２から与えられる応答データを出力する。
　例えば、応答出力部４１３は、応答データが音声データである場合には、その音声データに基づいて疑問文の音声を出力する。
　なお、応答出力部４１３は、応答データが画像データ又はテキストデータである場合には、画像又はテキストを表示してもよい。

　実施の形態４によれば、音声認識された内容に、例えば、名前が含まれている場合に、「斉藤は、簡単な方の斉藤ですね？」、又は、「中村俊輔はサッカー選手の中村ですね？」といった、その名前の漢字又は綴りを確認する応答を行うことができる。

　以上に記載された応答生成部４１２は、プロセッサ１２が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ１１に記憶されているものとする。
　応答出力部４１３は、音声Ｉ／Ｆ１３により実現可能である。なお、応答出力部４１３は、図示されていないが、画像又はテキストを表示するための表示Ｉ／Ｆであってもよい。

　以上に記載された実施の形態１～４では、音声入力部１０１で音声信号の入力を受け付けて、音声取得部１０２で音声信号をデジタルの音声データに変換しているが、実施の形態１～４は、このような例に限定されない。例えば、通話データ情報抽出装置１００～４００は、図９に示されているネットワークＩ／Ｆ１５により実現される通信部（図示せず）を介して、デジタルの音声データを取得して、その音声データを音声認識部１０３に与えてもよい。また、通話データ情報抽出装置１００～４００は、図９に示されているメモリ１１により実現される記憶部（図示せず）に事前に、デジタルの音声データが記憶されており、その音声データを音声認識部１０３に与えてもよい。

　１００，２００，３００，４００　通話データ情報抽出装置、　１０１　音声入力部、　１０２　音声取得部、　１０３，３０３　音声認識部、　１０４，２０４　説明部分抽出部、　１０５，４０５　説明ＤＢ、　１０６，３０６　固有情報確定部、　２０７　入力受付部、　２０８，４０８　伝票データ生成部、　２０９，４０９　伝票データ記憶部、　２１０，４１０　ＤＢ更新部、　３１１　音声認識結果修正部、　４１２　応答生成部、　４１３　応答出力部。

Claims

　発話された音声を含む音声データから、前記発話された音声を認識する音声認識部と、
　前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部と、
　前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部と、を備えること
　を特徴とする情報処理装置。
　前記説明部分抽出部は、前記認識された音声において、前記文字又は前記文字列の書き方を説明するために使用される表現のルールである説明抽出ルールに一致する部分を前記説明部分として抽出すること
　を特徴とする請求項１に記載の情報処理装置。
　前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を記憶する説明表現情報記憶部をさらに備え、
　前記固有情報確定部は、前記説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を確定すること
　を特徴とする請求項１又は２に記載の情報処理装置。
　前記説明部分に含まれている前記説明表現で説明される前記文字又は前記文字列の入力を受け付ける入力受付部と、
　前記入力受付部に入力された前記文字又は前記文字列と、前記入力受付部に入力された前記文字又は前記文字列の書き方を説明する前記説明表現とを対応付けて前記説明表現情報の一部として前記説明表現情報記憶部に記憶する更新部と、をさらに備えること
　を特徴とする請求項３に記載の情報処理装置。
　前記音声認識部は、前記認識された音声を示すテキストのデータである音声テキストデータを生成し、
　前記音声テキストデータにおいて、前記固有情報確定部で確定された前記固有情報に対応する部分を、前記固有情報確定部で確定された前記固有情報で置き換えることで、前記音声テキストデータを修正する音声認識結果修正部をさらに備えること
　を特徴とする請求項１から４の何れか一項に記載の情報処理装置。
　前記認識された音声に含まれている前記文字又は前記文字列を特定し、前記説明表現情報を参照することで、前記特定された文字又は前記特定された文字列を説明している前記説明表現から、前記特定された文字又は前記特定された文字列の書き方を問い合わせる疑問文を示す応答データを生成する応答生成部をさらに備えること
　を特徴とする請求項３又は４に記載の情報処理装置。
　コンピュータを、
　発話された音声を含む音声データから、前記発話された音声を認識する音声認識部、
　前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部、及び、
　前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部、として機能させること
　を特徴とするプログラム。
　発話された音声を含む音声データから、前記発話された音声を認識し、
　前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出し、
　前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定すること
　を特徴とする情報処理方法。