WO2024018598A1

WO2024018598A1 - 情報処理システム、情報処理方法及びプログラム

Info

Publication number: WO2024018598A1
Application number: PCT/JP2022/028380
Authority: WO
Inventors: 采夏呉; 浩横井; 歩相名神山
Original assignee: Ｎｔｔテクノクロス株式会社
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2024-01-25

Abstract

本開示の一態様による情報処理システムは、複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択するように構成されている選択部と、前記選択部によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている音声認識部と、を有し、前記音声認識部は、前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている。

Description

情報処理システム、情報処理方法及びプログラム

　本開示は、情報処理システム、情報処理方法及びプログラムに関する。

　音声認識技術では、一般に、単語の表記、読み、並び方等が登録された音声認識辞書が用いられる。このような音声認識辞書には、音声認識の対象とする用途や言語等に応じて様々な種類の辞書が存在する。例えば、汎用的な用途の辞書、特定の業務に関わる専門用語が多く登録された辞書、特定の言語に特化した辞書、特定の方言に特化した辞書等が存在する。

　コンタクトセンタ（又は、コールセンタとも呼ばれる。）では、上記のような音声認識技術を実装した音声認識システムにより、通話中の音声をリアルタイムにテキストに変換し、そのテキストをオペレータに提示することが行われている（例えば、非特許文献１）。

ForeSight Voice Mining（フォーサイトボイスマイニング），インターネット＜ＵＲＬ：https://www.ntt-tx.co.jp/products/foresight_vm/＞

　しかしながら、従来では、複数の音声認識辞書が用意されていても、オペレータがその中から適切な辞書を選択することは困難であった。このため、オペレータに対して予め設定されている音声認識辞書（例えば、デフォルトとして設定されている汎用的な音声認識辞書）を用いて音声認識が行われ、その結果、十分な精度の音声認識結果が得られない場合があった。

　本開示は、上記の点に鑑みてなされたもので、精度の良い音声認識結果を得ることが可能な技術を提供することを目的とする。

　精度の良い音声認識結果を得ることが可能な技術が提供される。

本実施形態に係るコンタクトセンタシステムの全体構成の一例を示す図である。本実施形態に係るコンタクトセンタシステムの機能構成の一例を示す図である。本実施形態に係る応対支援処理の一例を示すシーケンス図である。音声認識の一例を説明するための図（その１）である。音声認識の一例を説明するための図（その２）である。音声認識の一例を説明するための図（その３）である。音声認識の一例を説明するための図（その４）である。音声認識の一例を説明するための図（その５）である。応対支援画面の一例を説明するための図（その１）である。応対支援画面の一例を説明するための図（その２）である。

　以下、本発明の一実施形態について説明する。以下、本実施形態では、コンタクトセンタを対象として、複数の音声認識辞書の中から自動又は手動で辞書の選択が可能な場合に、オペレータと顧客との間の通話の音声に関して精度の良い音声認識結果を得ることができるコンタクトセンタシステム１について説明する。ただし、コンタクトセンタは一例であって、例えば、オフィス等を対象として、複数の音声認識辞書の中から自動又は手動で辞書の選択が可能な場合に、担当者と顧客との間の通話の音声に関して精度の良い音声認識結果を得るときにも同様に適用することが可能である。

　＜コンタクトセンタシステム１の全体構成＞
　本実施形態に係るコンタクトセンタシステム１の全体構成例を図１に示す。図１に示すように、本実施形態に係るコンタクトセンタシステム１には、音声認識システム１０と、複数のユーザ端末２０と、複数の電話機３０と、ＰＢＸ（Private Branch eXchange）４０と、ＮＷスイッチ５０と、顧客端末６０とが含まれる。ここで、音声認識システム１０、ユーザ端末２０、電話機３０、ＰＢＸ４０、及びＮＷスイッチ５０は、コンタクトセンタのシステム環境であるコンタクトセンタ環境Ｅ内に設置されている。なお、コンタクトセンタ環境Ｅは同一の建物内のシステム環境に限られず、例えば、地理的に離れた複数の建物内のシステム環境であってもよい。

　音声認識システム１０は、ＮＷスイッチ５０から送信されたパケット（音声パケット）を用いて、オペレータと顧客との間の通話の音声を音声ファイルとして収録する。なお、音声認識システム１０はＮＷスイッチ５０から送信された音声パケットを受動的に取得してもよいし、ＮＷスイッチ５０を介してＰＢＸ４０に対して音声データを要求することで、能動的に音声データを取得してもよい。

　また、音声認識システム１０は、この音声ファイルに対して音声認識を行ってその音声認識結果を表すテキスト（以下、音声認識テキストともいう。）を生成する。このとき、音声認識システム１０は、音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、既に音声認識済みの音声ファイルに対しても再度音声認識を行う（つまり、変更前の音声認識辞書を用いて既に音声認識済みの音声も含めて音声認識を行う）。これにより、例えば、適切でない音声認識辞書から適切な音声認識辞書に変更された場合に、適切でない音声認識辞書により既に音声認識された音声を、適切な音声認識辞書により再度音声認識し、精度の良い音声認識結果を得ることが可能となる。なお、音声認識システム１０は、例えば、汎用サーバやサーバ群等により実現される。

　ユーザ端末２０は、ユーザ（オペレータ又はスーパバイザ）が利用するＰＣ（パーソナルコンピュータ）等の端末である。以下では、ユーザとして、主に、オペレータを想定するが、一部のユーザはスーパバイザであってもよい。なお、オペレータとは、顧客との電話応対等を主たる業務とする者である。一方で、スーパバイザとは、オペレータの通話を監視し、何等かの問題が発生しそうな場合やオペレータからの要請に応じてそのオペレータの電話応対業務を支援する者のことである。通常、数人～十数人程度のオペレータの通話が１人のスーパバイザにより監視されることが一般的である。

　ユーザ端末２０には、顧客との通話中の音声認識結果（音声認識テキスト）がリアルタイムに可視化される応対支援画面が表示される。オペレータは、この応対支援画面を参照することで、顧客との通話内容をテキストとしても確認することができる。

　電話機３０は、オペレータが利用するＩＰ（Internet Protocol）電話機（固定ＩＰ電話機又は携帯ＩＰ電話機等）である。

　ＰＢＸ４０は、電話交換機（ＩＰ－ＰＢＸ）であり、ＶｏＩＰ（Voice over Internet Protocol）網やＰＳＴＮ（Public Switched Telephone Network）を含む通信ネットワーク７０に接続されている。

　ＮＷスイッチ５０は、電話機３０とＰＢＸ４０との間でパケットを中継すると共に、そのパケットをキャプチャして音声認識システム１０に送信する。

　顧客端末６０は、顧客が利用するスマートフォンや携帯電話、固定電話等の各種端末である。

　なお、図１に示すコンタクトセンタシステム１の全体構成は一例であって、他の構成であってもよい。例えば、図１に示す例では、音声認識システム１０がコンタクトセンタ環境Ｅに含まれているが（つまり、音声認識システム１０はオンプレミス型であるが）、音声認識システム１０の全部又は一部の機能がクラウドサービス等により実現されていてもよい。同様に、図１に示す例では、ＰＢＸ４０はオンプレミス型の電話交換機であるが、クラウドサービスにより実現されていてもよい。また、ユーザ端末２０が電話機能を有している場合には、コンタクトセンタシステム１には電話機３０が含まれていなくてもよい。

　＜コンタクトセンタシステム１の機能構成＞
　本実施形態に係るコンタクトセンタシステム１に含まれる音声認識システム１０及びユーザ端末２０の機能構成例を図２に示す。

　　≪音声認識システム１０≫
　図２に示すように、本実施形態に係る音声認識システム１０は、音声収録部１０１と、辞書選択部１０２と、音声認識部１０３と、ＵＩ提供部１０４とを有する。これら各部は、例えば、音声認識システム１０にインストールされた１以上のプログラムが、ＣＰＵ（Central Processing Unit）等のプロセッサに実行させる処理により実現される。また、本実施形態に係る音声認識システム１０は、音声記憶部１０５と、辞書記憶部１０６と、通話履歴記憶部１０７とを有する。これら各部は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、フラッシュメモリ等の記憶装置により実現可能である。ただし、これら各部の少なくとも一部の記憶領域が、例えば、音声認識システム１０と通信可能に接続される記憶装置（データベースサーバ等）により実現されていてもよい。

　音声収録部１０１は、ＮＷスイッチ５０から送信されたパケット（音声パケット）が表す音声のデータを音声ファイルとして音声記憶部１０５に保存する。

　辞書選択部１０２は、辞書記憶部１０６に記憶されている複数の音声認識辞書５００の中から音声認識に用いられる音声認識辞書５００を選択する。音声認識辞書５００とは、例えば、単語の表記とその読み、単語の並び方等が登録された辞書情報である。音声認識辞書５００としては、例えば、汎用的な用途の音声認識辞書、特定の業務（例えば、金融、保険、情報通信等）に特化した音声認識辞書、特定の言語（例えば、日本語、英語、フランス語等）に特化した音声認識辞書、特定の方言（例えば、日本の〇〇地方の方言等）に特化した音声認識辞書等といった様々な種類の音声認識辞書が存在する。以下では、辞書選択部１０２によって選択された音声認識辞書５００を「選択中辞書５００」とも呼ぶ。

　音声認識部１０３は、辞書選択部１０２によって選択された選択中辞書５００を用いて、音声記憶部１０５に記憶されている音声ファイルに対して音声認識を行って、その音声認識結果である音声認識テキストを生成する。このとき、音声認識部１０３は、話者（オペレータ、顧客）毎にその音声の音声認識を行って、話者情報及び時刻情報付きの音声認識テキストを生成する。或る１文（１区切りの発話や１フレーズ等）の音声認識テキストは、例えば、（話者情報，時刻情報，音声認識テキスト）といった形式で表される。このような話者情報及び時刻情報付きの音声認識テキストは既知の音声認識技術により生成することが可能である。なお、話者情報とはその音声認識テキストに対応する音声を発話した話者（オペレータ又は顧客）を示す情報であり、時刻情報とはその音声認識テキストに対応する音声が発話された時刻（日時）を示す情報である。以下、音声認識テキストには話者情報及び時刻情報が付与されており、例えば、（話者情報，時刻情報，音声認識テキスト）といった形式で表されるものとする。

　また、音声認識部１０３は、選択中辞書５００が変更された場合、変更後の選択中辞書５００を用いて、既に音声認識済みの音声ファイルに対しても再度音声認識を行う。

　更に、音声認識部１０３は、例えば、オペレータと顧客との間の通話が終了した場合、その通話に関する音声認識テキストが含まれる通話履歴情報を通話履歴記憶部１０７に保存する。

　ＵＩ提供部１０４は、音声認識部１０３によって生成された音声認識テキストが可視化される応対支援画面の画面情報を提供する。なお、画面情報は、例えば、ＨＴＭＬ（Hypertext Markup Language）、ＣＳＳ（Cascading Style Sheets）、ＪａｖａＳｃｒｉｐｔ等といった情報で表される。

　音声記憶部１０５は、ＮＷスイッチ５０から送信されたパケット（音声パケット）が表す音声の音声ファイルを記憶する。

　辞書記憶部１０６は、複数の音声認識辞書５００を記憶する。これら複数の音声認識辞書５００の中にはデフォルト（標準）として選択される音声認識辞書５００（以下、「デフォルト辞書５００」と呼ぶ。）が存在するものとする。デフォルト辞書５００は、一般に、汎用的な用途の音声認識辞書である場合が多いが、例えば、コンタクトセンタで主に特定の業務の問い合せ対応を行っている場合にはその業務に特化した音声認識辞書をデフォルト辞書５００とする場合もある。又は、例えば、コンタクトセンタで主に特定の言語の顧客に対する問い合せ対応を行っている場合にはその言語に特化した音声認識辞書をデフォルト辞書５００とする場合もあるし、特定の地方の顧客に対する問い合せ対応を行っている場合にはその地方の方言に特化した音声認識辞書をデフォルト辞書５００とする場合もある。

　通話履歴記憶部１０７は、通話履歴情報を記憶する。通話履歴情報とは、例えば、通話ＩＤと、その通話ＩＤの通話に関する音声認識テキストとが少なくとも含まれる情報である。なお、通話履歴情報には、例えば、通話日時、通話時間、その通話に応対したオペレータのＩＤ、当該オペレータの内線番号、顧客の電話番号、その通話に関する何等かのメモ情報等といった各種情報が含まれていてもよい。

　　≪ユーザ端末２０≫
　図２に示すように、本実施形態に係るユーザ端末２０は、ＵＩ制御部２０１を有する。ＵＩ制御部２０１は、例えば、ユーザ端末２０にインストールされた１以上のプログラム（Ｗｅｂブラウザ等）が、ＣＰＵ等のプロセッサに実行させる処理により実現される。

　ＵＩ制御部２０１は、ユーザ端末２０のディスプレイ上に応対支援画面等を含む各種画面を表示する。また、ＵＩ制御部２０１は、これらの各種画面上におけるユーザの各種入力操作を受け付ける。

　＜応対支援処理＞
　以下、オペレータと顧客との間の通話中にその通話の音声に対して音声認識を行って、ユーザ端末２０の応対支援画面上にその音声認識結果を表示する処理（応対支援処理）について、図３を参照しながら説明する。

　オペレータと顧客との間の通話が開始された場合、音声認識システム１０の音声収録部１０１は、当該通話が開始されたことを示すパケット（開始パケット）を受信する（ステップＳ１０１）。

　次に、音声認識システム１０の辞書選択部１０２は、辞書記憶部１０６に記憶されている複数の音声認識辞書５００の中から音声認識に用いられる音声認識辞書５００を選択する（ステップＳ１０２）。ここで、辞書選択部１０２は、例えば、デフォルト辞書５００を選択してもよいし、どの音声認識辞書５００を用いるかをユーザ端末２０に問い合わせた上でこの問い合わせに対してユーザ（オペレータ）から指定された音声認識辞書５００を選択してもよい。また、どの音声認識辞書５００を用いるかをユーザ端末２０に問い合わせる場合、辞書選択部１０２は、例えば、数十秒程度の一定の猶予時間をユーザ（オペレータ）に与え、この猶予時間内に音声認識辞書５００の指定が無かったときにはデフォルト辞書５００を選択するようにしてもよい（この場合、当該猶予時間が経過するまでは音声認識は行われない。）。一般に、通話開始時にはどの音声認識辞書５００を用いればよいかをオペレータが判断することは困難なためである。又は、これ以外にも、例えば、オペレータから明示的に音声認識辞書５００が選択されるまで、デフォルト辞書５００が選択されたものとみなしてもよい。

　以下のステップＳ１０３～ステップＳ１０８は、オペレータと顧客との間の通話中に繰り返し実行される。

　音声認識システム１０の音声収録部１０１は、ＮＷスイッチ５０から送信されたパケット（音声パケット）を受信する（ステップＳ１０３）。

　次に、音声認識システム１０の音声収録部１０１は、当該パケットが表す音声のデータを音声ファイルとして音声記憶部１０５に保存する（ステップＳ１０４）。

　次に、音声認識システム１０の音声認識部１０３は、選択中辞書５００を用いて、音声記憶部１０５に記憶されている音声ファイルに対して音声認識を行って、その音声認識結果である音声認識テキストを生成する（ステップＳ１０５）。このとき、音声認識部１０３は、後述するステップＳ１０８で選択中辞書５００が変更された場合、変更後の選択中辞書５００を用いて、既に音声認識済みの音声ファイルに対しても再度音声認識を行う。なお、本ステップにおける音声認識の詳細については後述する。

　次に、音声認識システム１０のＵＩ提供部１０４は、上記のステップＳ１０５で生成された音声認識テキストとその音声認識テキストを可視化するための画面情報とをユーザ端末２０（例えば、当該通話を行っているオペレータが利用するユーザ端末２０）に送信する（ステップＳ１０６）。ここで、ＵＩ提供部１０４は、上記のステップＳ１０５で音声認識テキストが生成される都度その音声認識テキスト及び画面情報をユーザ端末２０に送信してもよいし、ユーザ端末２０からの要求に応じて音声認識テキスト及び画面情報を当該ユーザ端末２０に送信してもよい。なお、ＵＩ提供部１０４は、当該通話を行っているオペレータが利用するユーザ端末２０だけでなく、例えば、そのオペレータの通話を監視するスーパバイザが利用するユーザ端末２０に音声認識テキスト及び画面情報を送信してもよい。

　ユーザ端末２０のＵＩ制御部２０１は、音声認識テキスト及び画面情報を受信すると、この画面情報に基づいて、応対支援画面上に当該音声認識テキストを表示する（ステップＳ１０７）。なお、本ステップにおける応対支援画面の詳細については後述する。

　選択中辞書５００を変更する場合、音声認識システム１０の辞書選択部１０２は、複数の音声認識辞書５００の中のいずれかの音声認識辞書５００に選択中辞書５００を変更する（ステップＳ１０８）。ここで、辞書選択部１０２は、例えば、ユーザ（オペレータ）から音声認識辞書５００が指定された場合に、その音声認識辞書５００に選択中辞書５００を変更すればよい。或る程度の通話が行われた後には、どの音声認識辞書５００を用いればよいかをオペレータが判断可能なためである。

　ただし、これに限られず、辞書選択部１０２は、何らかの判断ロジックにより選択中辞書５００を変更するか否かを判断すると共にどの音声認識辞書５００に変更するかを決定してもよい。例えば、辞書選択部１０２は、既知の自然言語処理によりどのような言語で通話が行われているかを特定した上で、特定した言語に特化した音声認識辞書５００に選択中辞書５００を変更してもよい。同様に、例えば、辞書選択部１０２は、既知の自然言語処理により顧客の方言がどのような方言であるかを特定した上で、特定した方言に特化した音声認識辞書５００に選択中辞書５００を変更してもよい。又は、例えば、辞書選択部１０２は、機械学習等といった既知の推論技術により、これまでの音声認識テキスト（例えば、汎用的な用途の音声認識辞書５００であるデフォルト辞書５００を用いた音声認識結果）に含まれる特定の単語等の頻度から業務内容を推測した上で、その業務に特化した音声認識辞書５００に選択中辞書５００を変更してもよい。

　オペレータと顧客との間の通話が終了した場合、音声認識システム１０の音声認識部１０３は、その通話に関する音声認識テキストが含まれる通話履歴情報を作成し、当該通話履歴情報を通話履歴記憶部１０７に保存する（ステップＳ１０９）。なお、通話履歴情報は、例えば、顧客に対する応対品質を向上させるための各種分析やオペレータの評価等に用いられる。

　＜図３のステップＳ１０５における音声認識の詳細＞
　以下、図３のステップＳ１０５における音声認識の詳細について説明する。以下では、図３のステップＳ１０２でデフォルト辞書５００が選択されたものとする。

　・音声認識例その１：選択中辞書５００の変更がない場合
　図４に示すように、通話時間「００：３５」の時点で発話１００１～発話１００８の音声認識テキストがデフォルト辞書５００を用いた音声認識により得られているものとする。なお、発話１００１、発話１００３、発話１００５及び発話１００７はオペレータの発話、発話１００２、発話１００４、発話１００６及び発話１００８は顧客の発話である。

　このとき、本音声認識例では選択中辞書５００の変更がないため、通話時間「００：３８」におけるオペレータの発話１００９の音声認識テキスト、通話時間「００：４３」における顧客の発話１０１０の音声認識テキストは、いずれもデフォルト辞書５００を用いた音声認識により得られる。

　同様に、通話時間「００：４９」におけるオペレータの発話１０１１の音声認識テキスト、通話時間「００：５４」における顧客の発話１０１２の音声認識テキストは、いずれもデフォルト辞書５００を用いた音声認識により得られる。

　このように、選択中辞書５００の変更がない場合は、その選択中辞書５００を用いて通話中の音声（発話）が音声認識される。

　・音声認識例その２：選択中辞書５００が変更された場合
　図５に示すように、通話時間「００：３５」の時点で発話１００１～発話１００８の音声認識テキストがデフォルト辞書５００を用いた音声認識により得られているものとする。なお、発話１００１、発話１００３、発話１００５及び発話１００７はオペレータの発話、発話１００２、発話１００４、発話１００６及び発話１００８は顧客の発話である。

　このとき、通話時間「００：３５」以降かつ通話時間「００：３８」よりも前に選択中辞書５００が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書５００を用いて、既に音声認識済みの発話１００１～発話１００８が時刻順に音声認識される。一方で、選択中辞書５００の変更後の発話１００９～発話１０１２に関しては、発話１００１～発話１００８の音声認識が終了した後に、時刻順に音声認識される。

　図５に示す例では、通話時間「００：４５」の時点で発話１００１～発話１００３に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。また、通話時間「００：５５」の時点で発話１００１～発話１０１２に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。

　このように、選択中辞書５００が変更された場合、本音声認識例では、変更後の選択中辞書５００を用いてその変更が行われる前の発話を時刻順に再度音声認識した後、変更後の選択中辞書５００を用いてその変更が行われた後の発話を時刻順に音声認識する。以下、選択中辞書５００の変更が行われる前のオペレータ及び顧客の発話を「過去発話」、選択中辞書５００の変更が行われた後のオペレータ及び顧客の発話を「実時間発話」とも呼ぶことにする。また、過去発話の音声が収録された音声ファイルを「過去の音声ファイル」、実時間発話の音声が収録された音声ファイルを「実時間の音声ファイル」とも呼ぶことにする。なお、過去発話の音声と実時間発話の音声とが同一の音声ファイルに収録される場合は過去の音声ファイルと実時間の音声ファイルとは同一の音声ファイルであるが、過去発話の音声と実時間発話の音声とが異なる音声ファイルに収録されてもよい。この場合、過去の音声ファイルと実時間の音声ファイルは異なる音声ファイルとなる。

　・音声認識例その３：選択中辞書５００が変更された場合、かつ、過去の音声ファイルを発話区間単位に並列処理する場合
　上記の音声認識例その２では、変更後の選択中辞書５００を用いて過去発話を時刻順に再度音声認識している。これは、一般に、音声認識処理では、音声ファイルの先頭から順に音声認識を行う必要があるためである。一方で、音声ファイルに対して発話区間検出（ＶＡＤ：voice activity detection）と呼ばれる処理を実施することで、発話区間単位に並列に音声認識を行うことが可能となる。そこで、本音声認識例では、過去の音声ファイルに対して発話区間検出を行った上で、過去発話を並列に音声認識する。ただし、並列可能な音声認識数（以下、並列数ともいう。）は音声認識エンジン数等に依存し、予め決められた数である。

　図６に示すように、通話時間「００：３５」の時点で発話１００１～発話１００８の音声認識テキストがデフォルト辞書５００を用いた音声認識により得られているものとする。なお、発話１００１、発話１００３、発話１００５及び発話１００７はオペレータの発話、発話１００２、発話１００４、発話１００６及び発話１００８は顧客の発話である。

　このとき、通話時間「００：３５」以降かつ通話時間「００：３８」よりも前に選択中辞書５００が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書５００を用いて、既に音声認識済みの発話１００１～発話１００８が並列に音声認識される。一方で、選択中辞書５００の変更後の発話１００９～発話１０１２に関しては、発話１００１～発話１００８の音声認識が終了した後に、時刻順に音声認識される。

　図６に示す例では、通話時間「００：４５」の時点で発話１００１と発話１００４～発話１００５に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。この例は、並列数は２であり、発話１００１と、発話１００４～発話１００５とが並列に音声認識された場合である。また、通話時間「００：５５」の時点で発話１００１～発話１０１２に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。

　このように、選択中辞書５００が変更された場合、本音声認識例では、変更後の選択中辞書５００を用いてその変更が行われる前の発話を並列に再度音声認識した後、変更後の選択中辞書５００を用いてその変更が行われた後の発話を時刻順に音声認識する。これにより、例えば、過去発話に関しては優先度を付けて音声認識を行うことができる。例えば、過去発話のうち実時間に近い発話と、通話開始時に近い発話とを優先的に音声認識する、等といったことが可能となる。また、過去発話が並列に音声認識されるため、過去発話の音声認識を早く完了させることが可能である。

　なお、本音声認識例では、発話区間検出と呼ばれる処理により発話区間検出を行って発話区間単位に並列に音声認識を行ったが、これは一例であって、例えば、文やフレーズ等を検出し、文単位やフレーズ単位等に並列に音声認識を行ってもよい。

　・音声認識例その４：選択中辞書５００が変更された場合、かつ、過去の音声ファイルと実時間の音声ファイルとを並列処理する場合
　上記の音声認識例その２では、変更後の選択中辞書５００を用いてすべての過去発話を音声認識した後に、変更後の選択中辞書５００を用いて実時間発話を音声認識している。これに対して、過去発話と実時間発話とを異なる音声ファイルに収録することで、過去発話と実時間発話とを並列に音声認識することが可能である。そこで、本音声認識例では、過去発話と実時間発話とを異なる音声ファイルに収録し、過去発話と実時間発話とを並列に音声認識する。

　図７に示すように、通話時間「００：３５」の時点で発話１００１～発話１００８の音声認識テキストがデフォルト辞書５００を用いた音声認識により得られているものとする。なお、発話１００１、発話１００３、発話１００５及び発話１００７はオペレータの発話、発話１００２、発話１００４、発話１００６及び発話１００８は顧客の発話である。

　このとき、通話時間「００：３５」以降かつ通話時間「００：３８」よりも前に選択中辞書５００が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書５００を用いて、既に音声認識済みの発話１００１～発話１００８が時刻順に音声認識されると共に、発話１００９～発話１０１２も時刻順に音声認識される。すなわち、過去発話と実時間発話とが並列に、かつ、時刻順に音声認識される。

　図７に示す例では、通話時間「００：４５」の時点で発話１００１～発話１００２と発話１００９に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。この例は、過去発話である発話１００１～発話１００２と、実時間発話である発話１００９とが並列に音声認識された場合である。また、通話時間「００：５５」の時点で発話１００１～発話１０１２に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。

　このように、選択中辞書５００が変更された場合、本音声認識例では、変更後の選択中辞書５００を用いてその変更が行われる前の発話とその変更が行われた後の発話とを並列に、かつ、時刻順に音声認識する。これにより、例えば、過去発話も同時に音声認識しつつ、実時間発話の音声認識を行うことが可能となる。

　・音声認識例その５：選択中辞書５００が変更された場合、かつ、過去の音声ファイルを発話区間単位に並列処理すると共に、過去の音声ファイルと実時間の音声ファイルとを並列処理する場合
　本音声認識例は上記の音声認識例その３と音声認識例その４とを組み合わせたものである。すなわち、本音声認識例では、過去発話と実時間発話とを異なる音声ファイルに収録すると共に、過去の音声ファイルに対して発話区間検出を行った上で、過去発話と実時間発話とを並列に音声認識する共に、過去発話に関しても並列に音声認識する。ただし、過去発話に関する並列数は音声認識エンジン数等に依存し、予め決められた数である。

　図８に示すように、通話時間「００：３５」の時点で発話１００１～発話１００８の音声認識テキストがデフォルト辞書５００を用いた音声認識により得られているものとする。なお、発話１００１、発話１００３、発話１００５及び発話１００７はオペレータの発話、発話１００２、発話１００４、発話１００６及び発話１００８は顧客の発話である。

　このとき、通話時間「００：３５」以降かつ通話時間「００：３８」よりも前に選択中辞書５００が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書５００を用いて、既に音声認識済みの発話１００１～発話１００８と発話１００９～発話１０１２とが並列に音声認識されると共に、発話１００１～発話１００８に関しても並列に音声認識される。すなわち、過去発話と実時間発話とが並列に音声認識されると共に、過去発話自体も並列に音声認識される。

　図８に示す例では、通話時間「００：４５」の時点で発話１００１～発話１００２と発話１００５～発話１００６と発話１００９に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。この例は、並列数は３であり、過去発話と実時間発話とが並列に音声認識されると共に、過去発話内では発話１００１～発話１００２と発話１００５～発話１００６とが並列に音声認識された場合である。また、通話時間「００：５５」の時点で発話１００１～発話１０１２に関して変更後の選択中辞書５００を用いた音声認識の音声認識テキストが得られている。

　このように、選択中辞書５００が変更された場合、本音声認識例では、変更後の選択中辞書５００を用いてその変更が行われる前の発話とその変更が行われた後の発話とを並列に音声認識すると共に、その変更が行われる前の発話に関しても更に並列で音声認識する。これにより、例えば、過去発話も同時に音声認識しつつ、実時間発話の音声認識を行うことが可能となる。また、例えば、過去発話に関しては優先度を付けて音声認識を行うことができる。更に、過去発話が並列に音声認識されるため、過去発話の音声認識を早く完了させることが可能である。

　＜図３のステップＳ１０７における応対支援画面の詳細＞
　以下、図３のステップＳ１０７における応対支援画面の詳細について説明する。図３のステップＳ１０７では、応対支援画面として以下の応対支援画面例その１又は応対支援画面例その２のいずれかがユーザ端末２０に表示される。

　・応対支援画面例その１
　応対支援画面例その１では、画面上には常に最新の実時間発話の音声認識テキストが表示される。この場合、過去発話の音声認識テキストはバックグラウンドで可視化される。

　例えば、音声認識例その４又は音声認識例その５により音声認識が行われた場合における応対支援画面を図９に示す。図９に示すように、応対支援画面２０００の発話表示欄２１００には、最新の実時間発話（図９に示す例では発話１００９）の音声認識テキストが常に表示される。なお、新たに実時間発話が行われた場合、発話表示欄２１００が自動的にスクロールされ、その実時間発話の音声認識テキストが表示される。一方で、過去発話の音声認識テキストはバックグラウンド（つまり、発話表示欄２１００の非表示となっている部分）で可視化される。

　本応対支援画面例その１は、例えば、音声認識例その１、音声認識例その４又は音声認識例その５で用いられることが好ましい。

　・応対支援画面例その２
　応対支援画面例その２では、画面を二分割し、一方の画面には常に最新の実時間発話の音声認識テキストが表示され、他方の画面には過去発話の音声認識テキストが表示される。

　例えば、音声認識例その４又は音声認識例その５により音声認識が行われた場合における応対支援画面を図１０に示す。図１０に示すように、応対支援画面３０００の第１の発話表示欄３１００には最新の実時間発話（図１０に示す例では発話１００９）の音声認識テキストが常に表示され、第２の発話表示欄３２００には過去発話の音声認識テキストが表示される。なお、新たに実時間発話が行われた場合、第１の発話表示欄３１００が自動的にスクロールされ、その実時間発話の音声認識テキストが表示される。一方で、過去発話の音声認識テキスト（変更後の選択中辞書５００を用いて音声認識された音声認識テキストだけでなく、未だ変更後の選択中辞書５００を用いて音声認識されていない音声認識テキストも含む）は第２の発話表示欄３２００に表示される。

　本応対支援画面例その２は、例えば、音声認識例その１～音声認識例その５のいずれの音声認識例で用いられてもよい。

　なお、第２の発話表示欄３２００に表示される過去発話の音声認識テキストに関しても、例えば、変更後の選択中辞書５００を用いて音声認識された音声認識テキストのうち最新の音声認識テキストが表示されてもよい。また、例えば、変更後の選択中辞書５００を用いた過去発話の音声認識が完了した場合、第１の発話表示欄３１００のみが表示されてもよい（つまり、変更後の選択中辞書５００を用いた過去発話の音声認識が完了した場合、第２の発話表示欄３２００を非表示としてもよい。）。

　＜まとめ＞
　以上のように、本実施形態に係るコンタクトセンタシステム１では、オペレータと顧客との間の通話の音声（発話）の音声認識に用いられる音声認識辞書５００が変更された場合、その変更前の発話に関しても変更後の音声認識辞書５００により再度音声認識を行う。これにより、通話の開始時に適切な音声認識辞書５００が選択されなかった場合であっても、通話全体を適切な音声認識辞書５００により音声認識することが可能となる。このため、精度の良い音声認識結果を得ることが可能となり、その結果、例えば、応対品質の向上、各種分析の精度向上等に寄与することができる。

　＜その他：補足＞
　・上記の音声認識例その２～音声認識例その５では、選択中辞書５００が変更された場合には過去発話の音声認識が再度行われるため、通話終了までの時間が短い場合には音声認識が終了しない可能性がある。そこで、このような場合には、通話終了後も音声認識を継続する。これにより、通話全体の発話を適切な音声認識辞書５００により音声認識することができる。

　・選択中辞書５００が変更された場合に、上記の音声認識例その２～音声認識例その５のいずれにより音声認識を行うかは、予め固定的に設定されていてもよいし、ユーザ（管理者、スーパバイザ、オペレータ等）により変更可能に設定されていてもよい。すなわち、選択中辞書５００が変更された場合に、過去の音声ファイルを発話区間単位に並列処理するか否かと、過去の音声ファイルと実時間の音声ファイルとを並列処理するか否かとが予め固定的に設定されていてもよいし、ユーザにより変更可能に設定されていてもよい。

　＜変形例＞
　以下、本実施形態の変形例をいくつか説明する。

　・変形例１
　上記の実施形態では、音声認識辞書５００が変更された場合、その変更前の発話（過去発話）を変更後の音声認識辞書５００により再度音声認識したが、変更前の音声認識辞書５００と変更後の音声認識辞書５００との関係によっては過去発話を再度音声認識しなくてもよい。

　例えば、変更前の音声認識辞書５００が「金融業務に特化した音声認識辞書５００」、変更後の音声認識辞書５００が「保険業務に特化した音声認識辞書５００」である場合、過去発話を再度音声認識しなくてもよい。これは、１つの通話内で金融に関する問い合わせ対応が行われた後に保険に関する問い合わせ対応が行われたと考えられ、いずれの問い合わせ対応でも適切な音声認識辞書５００がオペレータにより選択されたものと考えられるためである。

　一方で、変更前の音声認識辞書５００が「汎用的な用途の音声認識辞書５００」、変更後の音声認識辞書５００が「特定の業務に特化した音声認識辞書５００」である場合、過去発話を再度音声認識する。これは、最初はオペレータが適切な音声認識辞書５００を選択できず、汎用的な用途の音声認識辞書５００がデフォルト辞書５００として選択され、その後、適切な音声認識辞書５００がオペレータにより選択されたものと考えられるためである。

　上記以外にも、例えば、問い合わせ内容や用件、その問い合わせの対象となる商品や技術等によっては、過去発話を再度音声認識しなくてもよい。例えば、問い合わせの対象となる商品が同種の保険の場合や対象が金融商品全般から保険に移った場合、同じ分野の技術や製品の場合等、変更前の音声認識辞書５００が用いる言語や語彙等が対応・包含している場合には、変更後の音声認識辞書５００によって再度音声認識をしなくてもよい。また、問合せの用件が共通又は類似していることが音声認識結果から判別できる場合等、変更前の音声認識辞書５００と変更後の音声認識辞書５００の両方で対応可能であることが音声認識辞書やその属性等からわかる場合には、変更後の音声認識辞書５００によって再度音声認識をしなくてもよい。

　・変形例２
　上記の実施形態では、音声認識辞書５００が変更された場合に変更後の音声認識辞書５００によりオペレータと顧客の両方の過去発話を再度音声認識したが、いずれか一方の過去発話のみ（顧客の過去発話のみ又はオペレータの過去発話のみ）を再度音声認識してもよい。例えば、顧客が方言を話す場合に、顧客の話す方言に応じて顧客の音声認識辞書５００のみを変更して、顧客の発話のみ再度音声認識してもよい。このように音声認識辞書５００をそれぞれ独立して持つことで、再音声認識の対象を限定し、再音声認識の負荷を低減できる。

　・変形例３
　上記の実施形態では、音声認識辞書５００は顧客及び全オペレータに共通のものを想定しているが、これに限られるものではない。オペレータが選択可能な音声認識辞書５００は、例えば、そのオペレータ個人の発話特性や業務分野等に応じて異なっていてもよい。すなわち、各オペレータは、例えば、自身の発話特性や業務分野に適した音声認識辞書５００を選択可能であってもよい。また、オペレータの音声認識辞書５００は、顧客に合わせて選択してもよい。例えば、顧客が方言を話す場合に、オペレータが顧客に合わせて方言を交えて話す際には、途中でオペレータの音声認識辞書５００を標準語のみに対応する辞書から、顧客の話す方言と標準語の両方に対応する音声認識辞書５００に変更してもよい。このとき、音声認識辞書５００が変更されたオペレータの過去発話のみを再音声認識対象とすればよく、上記の通り変更後の音声認識辞書５００が顧客の話す方言とオペレータの話す標準語の両方に対応可能であることが音声認識辞書の属性等からわかる場合には、再度音声認識しなくてもよい。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１　　　　コンタクトセンタシステム
　１０　　　音声認識システム
　２０　　　ユーザ端末
　３０　　　電話機
　４０　　　ＰＢＸ
　５０　　　ＮＷスイッチ
　６０　　　顧客端末
　７０　　　通信ネットワーク
　１０１　　音声収録部
　１０２　　辞書選択部
　１０３　　音声認識部
　１０４　　ＵＩ提供部
　１０５　　音声記憶部
　１０６　　辞書記憶部
　１０７　　通話履歴記憶部
　２０１　　ＵＩ制御部
　Ｅ　　　　コンタクトセンタ環境

Claims

　複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択するように構成されている選択部と、
　前記選択部によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている音声認識部と、
　を有し、
　前記音声認識部は、
　前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている、情報処理システム。
　前記音声認識部は、
　前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記変更が行われる前の複数の発話を前記音声認識によりテキスト化し、前記音声認識テキストを生成するように構成されている、請求項１に記載の情報処理システム。
　前記音声認識部は、
　前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記変更が行われる前の複数の発話のうち、前記顧客の発話のみを前記音声認識によりテキスト化し、前記音声認識テキストを生成するように構成されている、請求項１に記載の情報処理システム。
　前記音声認識部は、
　前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記変更が行われた後の発話も前記音声認識によりテキスト化し、前記音声認識テキストを生成するように構成されている、請求項１に記載の情報処理システム。
　前記音声認識部は、
　前記音声通話の開始後に所定の時間が経過するまで前記音声認識を実施せず、前記所定の時間が経過するまで前記選択部によって前記音声認識辞書が選択されなかった場合、予め決められた音声認識辞書を用いて、前記音声認識テキストを生成するように構成されている、請求項１に記載の情報処理システム。
　前記音声認識部は、
　前記選択部によって選択された音声認識辞書が変更された場合であっても、前記音声通話の言語、問い合わせ内容、前記音声通話の用件、又は前記音声通話で対象となる商品若しくは技術に応じて、前記変更が行われる前の発話は音声認識しないように構成されている、請求項１に記載の情報処理システム。
　複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択するように構成されている選択部と、
　前記選択部によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した第１の音声認識テキストを生成するように構成されている音声認識部と、
　前記第１の音声認識テキストを画面上に表示させるように構成されている表示部と、
　を有し、
　前記音声認識部は、
　前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話と、前記変更が行われた後の発話とを前記音声認識によりテキスト化した第２の音声認識テキストを生成するように構成されており、
　前記表示部は、
　前記選択部によって選択された音声認識辞書が変更された場合、前記第２の音声認識テキストを前記画面上に表示させるように構成されている、情報処理システム。
　前記表示部は、
　前記選択部によって選択された音声認識辞書が変更された場合、前記画面を第１の画面と第２の画面に分割し、前記変更が行われた後の発話を前記音声認識によりテキスト化した前記第２の音声認識テキストを前記第１の画面に表示し、前記変更が行われる前の発話を前記音声認識によりテキスト化した前記第１の音声認識テキスト又は前記第２の音声認識テキストを前記第２の画面に表示するように構成されている、請求項７に記載の情報処理システム。
　前記表示部は、
　前記変更が行われた後の最新の発話を逐次的に前記音声認識によりテキスト化した前記第２の音声認識テキストを前記第１の画面に表示するように構成されている、請求項８に記載の情報処理システム。
　前記表示部は、
　前記変更が行われる前の発話に対する前記音声認識が完了した場合、前記第２の画面を非表示とするように構成されている、請求項８又は９に記載の情報処理システム。
　複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択する選択手順と、
　前記選択手順によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成する音声認識手順と、
　をコンピュータが実行し、
　前記音声認識手順は、
　前記選択手順によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成する、情報処理方法。
　複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択する選択手順と、
　前記選択手順によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成する音声認識手順と、
　をコンピュータに実行させ、
　前記音声認識手順は、
　前記選択手順によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成する、プログラム。