JPWO2011093025A1

JPWO2011093025A1 - 入力支援システム、方法、およびプログラム

Info

Publication number: JPWO2011093025A1
Application number: JP2011551742A
Authority: JP
Inventors: 雅弘西光
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-01-29
Filing date: 2011-01-17
Publication date: 2013-05-30
Anticipated expiration: 2031-01-17
Also published as: WO2011093025A1; US20120330662A1; JP5796496B2

Abstract

入力支援システム（１）は、複数の項目に対するデータを蓄積するデータベース（１０）と、音声データ（Ｄ０）に音声認識処理を行った結果、得られた入力データと、データベース（１０）の項目に対するデータとを比較して、入力データに類似するデータをデータベースから抽出する抽出部（１０４）と、抽出されたデータをデータベース（１０）に登録する候補として提示する提示部（１０６）と、を備える。

Description

本発明は、入力支援システム、方法、およびプログラムに関し、特に、音声認識を用いたデータ入力を支援する入力支援システム、方法、およびプログラムに関する。

この種の音声認識を用いたデータ入力により営業活動で得られた情報処理を支援する営業支援システムの一例が特許文献１（特開２００５−２８４６０７号公報）に記載されている。特許文献１の営業支援システムは、通話機能と通信機能とを有するクライアント端末とインターネット網によって接続可能な、営業活動に関する営業情報ファイルを文書形式で保存するデータベースと、該データベース内において特定の営業情報ファイルを検索する処理を行う検索処理部と、を有する営業支援サーバと、前記クライアント端末と電話網によって接続可能な、音声データを認識し文書データに変換する音声認識機能を有する音声認識サーバと、から構成されている。

この構成により、利用者である例えば営業マンは、電話による会話形式で営業に関する報告をテキスト化して営業支援システムへ登録することができる。文字を大量にタイプしなければならない入力項目に対しては、営業支援システムから音声認識システムに切り替えることにより、文字入力が不自由なケースにおいても最終的に文字データとしてサーバ内に残すことができる。

特開２００５−２８４６０７号公報

上述した営業支援システムにおいては、音声認識における認識誤りは不可避であり、また、発話される音声には、言い間違いや「えーっと」といった冗長な表現が含まれるため、たとえ誤りなく音声認識処理が行えたとしても、認識結果そのものを入力データとして採用することが難しいという問題点があった。

本発明の目的は、上述した課題である音声認識によるデータ入力を適切に、精度および効率よく行う入力支援システム、方法、およびプログラムを提供することにある。

本発明の入力支援システムは、
複数の項目に対するデータを蓄積するデータベースと、
音声データに音声認識処理を行った結果、得られた入力データと、前記データベースに蓄積されている前記データとを比較して、前記入力データに類似するデータを前記データベースから抽出する抽出手段と、
抽出された前記データを前記データベースに登録する候補として提示する提示手段と、を備える。

本発明の入力支援装置のデータ処理方法は、
複数の項目に対するデータを蓄積するデータベースを備えた入力支援装置のデータ処理方法であって、
音声データに音声認識処理を行った結果、得られた入力データと、前記データベースに蓄積されている前記データとを比較して、前記入力データに類似するデータを前記データベースから抽出し、
抽出された前記データを前記データベースに登録する候補として提示する。

本発明のコンピュータプログラムは、
複数の項目に対するデータを蓄積するデータベースを備えた入力支援装置を実現するコンピュータに、
音声データに音声認識処理を行った結果、得られた入力データと、前記データベースに蓄積されている前記データとを比較して、前記入力データに類似するデータを前記データベースから抽出する手順と、
抽出された前記データを前記データベースに登録する候補として提示する手順と、を実行させるためのコンピュータプログラムである。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

また、本発明のデータ処理方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明のデータ処理方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。

さらに、本発明のデータ処理方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

本発明によれば、音声認識によるデータ入力を適切に、精度および効率よく行う入力支援システム、方法、およびプログラムが提供される。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本発明の実施の形態に係る入力支援システムの構成を示す機能ブロック図である。本発明の実施の形態の入力支援システムのデータベースの構造の一例を示す図である。本発明の実施の形態に係る入力支援システムの動作の一例を示すフローチャートである。本発明の実施の形態に係る入力支援システムの動作を説明するための図である。本発明の実施の形態に係る入力支援システムの構成を示す機能ブロック図である。本発明の実施の形態に係る入力支援システムの要部構成を示すブロック図である。本発明の実施の形態に係る入力支援システムの提示部に提示される画面の一例を示す図である。本発明の実施の形態に係る入力支援システムの動作の一例を示すフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第１の実施の形態）
図１は、本発明の実施の形態に係る入力支援システム１の構成を示す機能ブロック図である。
同図に示すように、本実施形態の入力支援システム１は、複数の項目に対するデータを蓄積するデータベース１０と、音声データＤ０に音声認識処理を行った結果、得られた入力データと、データベース１０に蓄積されているデータとを比較して、入力データに類似するデータをデータベース１０から抽出する抽出部１０４と、抽出されたデータをデータベースに登録する候補として提示する提示部１０６と、を備える。また、本実施形態の入力支援システム１において、提示部１０６が提示した候補の中から、項目に対して登録するデータの選択を受け付ける受付部１０８と、受け付けたデータを、データベース１０の対応する項目に登録する登録部１１０と、をさらに備える。

具体的には、入力支援システム１は、複数の項目に対するデータを蓄積するデータベース１０と、データベース１０へのデータ入力を支援する入力支援装置１００と、を備える。入力支援装置１００は、音声認識処理部１０２と、抽出部１０４と、提示部１０６と、受付部１０８と、登録部１１０と、を備える。

ここで、入力支援装置１００は、たとえば、図示しないＣＰＵ（Central Processing Unit）やメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、ＣＰＵが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニットの各機能を実現することができる。

なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
また、入力支援システム１の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。

本実施形態において、たとえば、営業活動を支援する営業支援システムにおいて、顧客の企業情報や商談の進捗、営業日報などをはじめとする営業業務情報に関する種々の入力項目が膨大な数、準備されているものとする。これらの営業業務情報は、入力支援システム１のデータベース１０に蓄積され、営業実績の分析、顧客や企業分析、営業マンの成績評価、将来の営業活動計画や経営戦略など様々に役立てられる。

データベース１０は、たとえば、顧客に関する顧客情報として、顧客属性、顧客の声、競合情報、顧客との接触履歴などを含むことができる。顧客属性は、顧客の基本情報(企業名、住所、電話番号、従業員数、業種名など)や、顧客の与信情報などを含むことができる。顧客の声には、戦略、ニーズ、要望、意見、およびクレームなどを含み、例えば、「顧客は「グローバル化」、「環境対応」に関するソリューションを求めている」といった情報を含むことができる。
また、競合情報は、競合取引先とその取引量・期間などに関する情報を含むことができる。顧客との接触履歴は、「いつ、誰が、誰に、どこで、何を、反応および結果は？」といった情報を含むことができる。

さらに、データベース１０は、商談（案件）の情報や営業パーソンの活動の情報などを含むことができる。たとえば、商談（案件）の情報は、見込み数、商談（案件）数、商談期間など、一顧客における商談数や商談に要する期間などの情報や、進捗状況（初回訪問→ヒアリング→提案→見積→稟議→受注）、案件受注の確度など、現在の進捗フェーズと受注できる確率などの情報や、予算、決裁者、ニーズ、タイミングなど、商談における予算取りの状況や決裁者、決裁のタイミングに関する情報などを含むことができる。

さらに、営業パーソンの活動の情報は、ＰＤＣＡサイクル（Plan-Do-Check-Act cycle）のＰＬＡＮ（計画）−ＤＯ（実行）など、担当顧客／商談数の把握と活動（訪問）計画などの情報や、情報の収集など、上記顧客情報に関する情報を確認しているかのチェックなどの情報や、ネクストアクション、期限など、次のアクションを具体化したものを入力した情報や、活動量、活動傾向など、これまでに費やした総工数（時間）や時間の使い方などの情報などを含むことができる。

図２に、本実施形態の入力支援システム１における、データベース１０の構造の一例を示す。本実施形態では、営業支援システムを例として説明する。図２では、説明を簡単にするために、データベース１０の蓄積データのうち、たとえば、日報データを含むデータ群を示しているが、データベース１０の構造は、これに限定されるものではなく、上述したように、様々な情報が互いに関連付けられて蓄積されているものとする。たとえば、図２のデータ項目の訪問先の社名、部署、担当者などの情報は、顧客情報の一部であり、顧客情報と互いに関連付けることができる。

図１に戻り、音声認識処理部１０２は、たとえば、ユーザが発話した音声を取得して生成された音声データＤ０を入力し、音声認識処理を行い、その結果を、入力データとして出力する。音声認識結果は、たとえば、音声データの音声特徴量や、音素、音節、単語などを含む。

なお、ユーザは、たとえば、営業先に出向いた後、携帯電話機などの携帯端末（不図示）からサーバ（不図示）に電話をかけ、音声にて営業報告を行い、サーバに音声データを記録させることができる。あるいは、ＩＣレコーダなどの録音装置（不図示）を用いてユーザの発話音声を録音した後、録音装置からサーバに音声データをアップロードしてもよい。あるいは、パーソナルコンピュータ（ＰＣ：Personal Computer）（不図示）に、マイク（不図示）を設け、マイクでユーザの発話音声を収録し、ＰＣからサーバにネットワークを介して音声データをアップロードしてもよい。これらのユーザが発話した音声データの取得手段や方法は、様々な形態が考えられ、本発明の本質に関わらないので、詳細な説明は省略する。

なお、上述したように、ユーザが外出先でユーザ端末（不図示）として、携帯電話機などを用いた場合、ＧＰＳ（Global Positioning System）機能を用いて出先の位置情報を取得したり、カメラによる撮像機能を用いて撮影した画像データを取得したり、ＩＣレコーダ機能を用いて、音声データを録音することもでき、これらの情報を入力支援システム１のサーバに無線通信機能を用いてネットワークを介して送信し、蓄積することもできる。

本実施形態のサーバは、たとえば、ウェブサーバであり、ユーザは、ユーザ端末のブラウザ機能を用いて、所定のＵＲＬアドレスにアクセスし、音声データを含む情報をアップロードすることで、サーバに情報を送信することができる。必要に応じて、サーバにはユーザ認証によりログインしてから、アクセスできるように、サーバにユーザ認識機能を備えてもよい。
また、本発明の入力支援システム１は、ＳａａＳ（Software As A Service）型のサービスとして、ユーザに提供することもできる。

あるいは、所定のメールアドレスに音声データを含む情報ファイルを添付してメール送信することで、サーバに情報を送信する構成としてもよい。以上のようにして音声データＤ０は、入力支援システム１に入力され、音声認識処理部１０２により音声認識処理され、テキストデータ化されて、入力データとして抽出部１０４に出力されることとなる。

抽出部１０４は、音声認識処理部１０２から得られた入力データと、データベース１０に蓄積されているデータとを比較して、入力データに類似するデータをデータベース１０から抽出する。ここで、音声認識処理部１０２による認識結果は、図示されない記憶部に記憶しておき、必要に応じて、抽出部１０４により読み出して、処理するようにしてもよい。音声認識結果と、データベース１０のデータとのマッチング処理方法は、様々なものが考えられ、本発明の本質には関わらないので、詳細な説明は省略する。

また、本実施形態では、抽出部１０４が、データベース１０から音声認識結果と「類似」するデータを抽出する構成としたが、たとえば、音声認識結果と完全に一致するデータのみを抽出するようにすることもできる。あるいは、抽出部１０４が、音声認識結果の確からしさの度合などに応じて、類似度を変更できるようにしてもよく、所定以上の類似度を有するものを抽出するようにしてもよい。

本実施形態では、抽出部１０４は、データベース１０に既に登録されているデータから抽出するので、「えーー」などの冗長な表現は、データベース１０に存在しないため、候補として抽出されることがない。また、音声認識処理部１０２により、認識間違いがあった場合にも、抽出部１０４では、データベース１０に存在する類似したデータが抽出されるので、抽出されたデータを確認することができ、正しいデータを選択することが可能になる。

なお、抽出部１０４における抽出処理において、音声認識処理部１０２から得られた結果の中に「えーー」などの冗長な表現が含まれている場合、これらの表現については抽出処理を行わないようにするのが好ましい。たとえば、これらの冗長な表現を除外対象として、データベース１０または入力支援装置１００の記憶部（不図示）に予め登録しておく。そして、音声認識処理部１０２により冗長な表現の認識結果が得られた場合には、抽出部１０４が、除外対象の冗長な表現か否かを記憶部を参照して確認し、冗長な表現を認識結果から除外する処理を行うようにしてもよい。

提示部１０６は、たとえば、入力支援装置１００が有する表示部（不図示）に、抽出部１０４が抽出したデータをデータベース１０に登録する候補として画面に表示させて、ユーザに提示する。あるいは、提示部１０６は、入力支援装置１００にネットワークを介して接続された入力支援装置１００とは別のユーザの端末の表示部（不図示）に、この画面を表示させてもよい。

提示部１０６は、たとえば、候補をプルダウン式のリストや、ラジオボタンやチェックボックス、あるいは、フリーテキスト入力欄などのユーザインタフェースで、ユーザに候補を提示するとともに、提示した候補を選択させる。

受付部１０８は、入力支援装置１００が有する操作部（不図示）をユーザに利用させて、提示部１０６が提示した候補の中から、各項目に対して登録するデータを選択させ、選択されたデータを項目に対応付けて受け付ける。また、上述したように、入力支援装置１００にネットワークを介して接続された入力支援装置１００とは別のユーザの端末の操作部（不図示）をユーザが用いた場合の操作を受け付けることもできる。提示部１０６によって提示された内容をユーザは確認しながら、適宜、プルダウンメニューやチェックボックスでデータを選択し直したり、テキストボックスの内容を修正および追加することができる。受付部１０８は、ユーザによって選択または入力されたデータを受け付ける。

登録部１１０は、受付部１０８が受け付けたデータを、データベース１０の新たなレコードとして対応する項目にそれぞれ登録する。

本実施形態のコンピュータプログラムは、上述した複数の項目に対するデータを蓄積するデータベース１０を備えた入力支援装置１００を実現するコンピュータに、音声データＤ０に音声認識処理を行った結果、得られた入力データと、データベース１０に蓄積されているデータとを比較して、入力データに類似するデータをデータベース１０から抽出する手順と、抽出されたデータをデータベース１０に登録する候補として提示する手順と、を実行させるように記述されている。

本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。

上述のような構成において、本実施の形態の入力支援システム１における入力支援装置１００のデータ処理方法を以下に説明する。図３は、本実施形態の入力支援システム１の動作の一例を示すフローチャートである。

本実施形態の入力支援装置のデータ処理方法は、複数の項目に対するデータを蓄積するデータベース１０を備えた入力支援装置のデータ処理方法であって、音声データＤ０に音声認識処理を行った結果、得られた入力データと、データベース１０に蓄積されているデータとを比較して、入力データに類似するデータをデータベース１０から抽出し、抽出されたデータをデータベース１０に登録する候補として提示する。

このように構成された本実施形態の入力支援システム１の動作について、以下に説明する。
以下、図１乃至図４を用いて説明する。
まず、ユーザは、営業活動の報告を作成するために、発話にて活動報告を行い、その音声データを収録する。上述したように、音声データの収録方法は、様々な方法があるが、ここでは、たとえば、ＩＣレコーダ（不図示）を用いて音声データを収録し、図１の入力支援装置１００にアップロードした音声データを入力支援装置１００の音声認識処理部１０２が受け付けるものとする（図３のステップＳ１０１）。音声認識処理部１０２が入力された音声データＤ０を音声認識処理し（図３のステップＳ１０３）、その結果を入力データとして抽出部１０４に受け渡す。

抽出部１０４が、音声認識処理部１０２から得られた入力データと、データベース１０に蓄積されたデータとを比較して、入力データに類似するデータをデータベース１０から抽出する（図３のステップＳ１０５）。そして、提示部１０６が、図３のステップＳ１０５で抽出されたデータをデータベース１０に登録する候補として、表示部に表示させて、ユーザに提示する（図３のステップＳ１０７）。そして、ユーザが候補の中から、項目毎に登録するデータを選択すると、受付部１０８が、候補の中から、項目毎に登録するデータの選択を受け付ける（図３のステップＳ１０９）。そして、登録部１１０が、受け付けたデータを、データベース１０の対応する項目に新規レコードとして登録する（図３のステップＳ１１１）。

より具体的には、たとえば、図４に示すように、音声データＤ０のような発話をユーザが行ったとすると、音声認識処理部１０２（図１）によって音声データＤ０の音声認識処理が行われ（図４のステップＳ１）、認識結果入力データＤ１として、たとえば、単語毎の複数のデータｄ１、ｄ２、・・・が得られる。図４では、単語毎にデータが区切られているが、これに限定されるものではなく、文節や文章毎などに区切ることもできる。また、図４では、説明を簡単にするために、一部のデータのみを示してある。

図４の認識結果入力データＤ１の各データは、データベース１０のデータと比較される（図４のステップＳ３）。ここで、たとえば、認識結果入力データＤ１のデータｄ５の「高梨さん」は「高橋さん」を誤認識した結果であり、この「高梨さん」に対するデータがデータベース１０に存在しない。抽出部１０４（図１）は、「高梨さん」に類似するデータとして、たとえば、担当者の項目１２の中からレコードＲ１、Ｒ２に対応する２つのデータ「高橋」と「田中」を含むデータを抽出する。また、図４の認識結果入力データＤ１のデータｄ１の「えーー」は、冗長な表現であり、データベース１０との比較で、該当するデータが存在しないため、類似データは抽出されないこととなる。

そして、提示部１０６（図１）が、抽出されたデータをデータベース１０に登録する候補として、表示部（不図示）に表示させて、ユーザに提示する（図４のステップＳ５）。たとえば、図４の画面１２０のように、抽出部１０４（図１）により抽出された２つのデータ「高橋」と「田中」を含む候補リスト１２２として提示部１０６が提示する。
たとえば、項目１２毎に、このような候補リスト１２２をそれぞれ設け、提示部１０６により抽出されたデータを候補リスト１２２として表示させ、各項目１２毎に、ユーザに登録するデータを選択させることができる。

もし、データベース１０の中に認識結果入力データＤ１に該当するデータがない場合、このように抽出部１０４によってデータベース１０から類似するデータが抽出されれば、認識結果入力データＤ１のデータの代わりに、その抽出されたデータが入力データの候補として採用されることとなる。
また、この例のように、認識結果の「高梨」と完全に一致するデータがなかった場合、抽出された類似データとともに、認識結果の「高梨」も、別途ユーザに提示して、確認できるようにしてもよい。

たとえば、図４では、データベース１０の項目１２のうち、担当者のデータを選択する場合の画面１２０の例を示している。図４の画面１２０の候補リスト１２２から「高橋」がユーザにより選択されると（図４の１２４）、受付部１０８（図１）がデータベース１０の担当者に登録するデータとして、「高橋」を受け付ける（図４のステップＳ７）。図４の画面１２０の登録ボタン１２６をユーザが操作すると、登録部１１０（図１）が、受け付けたデータを、新たな日報のレコードに含まれるデータのうち、データベース１０の項目１２の「担当者」に対するデータとして登録する。さらに、新たな日報のレコードに含まれる他の項目１２のデータも同様に各項目１２に対するデータがそれぞれ登録される。

このように、本実施形態の入力支援システム１によれば、音声データを認識した結果得られた図４の認識結果入力データＤ１の中から、冗長な表現であるデータｄ１の「えーー」は削除され、さらに誤認識されたデータｄ５の「高梨さん」は正しく「高橋」に変更されて、データベース１０の各項目１２に入力データを登録できることとなる。

以上説明したように、本発明の実施の形態に係る入力支援システム１によれば、音声認識によるデータ入力を適切に、精度および効率よく行うことができる。
この構成によれば、音声認識結果の中から、既にデータベース１０に蓄積されているデータから入力候補として提示できるので、音声認識結果の誤りによるデータの間違いや関係のない発言や言い間違いなどによる不適切なデータを排除できる。統一された表現で、データを蓄積していくことができるので、データを閲覧する時に見やすくなり、また、データの解析や活用がしやすくなる。入力時に、データの修正作業も大幅に削減でき、作業効率が向上する。
さらに、データベース１０から抽出されたデータをユーザに提示するので、ユーザに適切な表現を提示できる。そのため、ユーザはどのような表現がより適切なのかを見て覚えることができるので、より適切な統一された表現で発話するようになり、データの入力精度が向上する。

（第２の実施の形態）
図５は、本発明の実施の形態に係る入力支援システム２の構成を示す機能ブロック図である。
本実施形態の入力支援システム２は、上記実施の形態とは、入力データがデータベース１０のどの項目に対応するかを特定する点で相違する。

本実施形態の入力支援システム２は、上記実施形態の構成に加え、音声データの音声認識処理を行う音声認識処理部２０２と、複数の項目に対するデータ毎の音声特徴情報に基づいて、音声認識処理部２０２により音声データを音声認識処理して得られる入力データの中から、各項目に対応する部分をそれぞれ特定する特定部２０６と、をさらに備え、抽出部２０４は、データベース１０を参照し、特定された入力データの各部分と、各部分に対応する項目に対するデータベース１０のデータとを比較して、入力データの各部分に類似するデータをデータベース１０の対応する項目から抽出する。

また、本実施形態の入力支援システム２において、提示部１０６は、特定部２０６により特定された項目に、抽出部２０４により抽出された候補のデータを対応付けて提示する。

具体的には、同図に示すように、本実施形態の入力支援システム２は、図１の上記実施形態の入力支援システム１の入力支援装置１００に替えて、入力支援装置２００を備える。入力支援装置２００は、図１の上記実施形態の入力支援装置１００と同様な構成を有する、提示部１０６、受付部１０８、および登録部１１０に加え、さらに、音声認識処理部２０２と、抽出部２０４と、特定部２０６と、音声特徴情報記憶部（図中、「音声特徴情報」と示す）２１０と、を備える。

音声特徴情報記憶部２１０は、複数の項目に対するデータの音声特徴情報を記憶する。本実施形態において、音声特徴情報記憶部２１０は、たとえば、図６に示すように、複数の項目別言語モデル２１２（Ｍ１、Ｍ２、・・・、Ｍｎ）（ここで、ｎは自然数）を含む。すなわち、各項目に適した言語モデルが、それぞれ設けられる。ここで言う、言語モデルとは、音声認識用の単語辞書とその辞書に含まれる単語同士の繋がり易さを規定するものである。音声特徴情報記憶部２１０の各項目別言語モデル２１２は、音声特徴情報記憶部２１０に蓄積された各項目のデータに基づいて、各項目専用に構築することができる。なお、音声特徴情報記憶部２１０は、入力支援装置２００に含まれなくてもよく、他の記憶装置やデータベース１０に含まれてもよい。

本実施形態において、音声認識処理部２０２は、各項目別言語モデル２１２を用いて音声データＤ０を音声認識処理することができる。音声認識処理部２０２は、項目毎に適切な項目別言語モデル２１２を用いて音声認識処理を行うので、認識精度が向上する。

特定部２０６は、音声認識処理部２０２で、音声データの各部分をそれぞれ各項目別言語モデル２１２を用いて認識した結果の中から、得られた入力データの各部分について、認識の確からしさなどのスコアに基づいて、認識結果の良好な部分を採用し、採用されたデータ部分の音声認識処理に使用した項目別言語モデル２１２に対応する項目を、そのデータ部分の項目と特定する。

さらに、音声特徴情報記憶部２１０は、複数の項目にそれぞれ関連付けられた複数の発話表現情報を記憶する発話表現情報記憶部（不図示）を含んでもよい。具体的には、たとえば、音声特徴情報記憶部２１０の発話表現情報記憶部は、複数の項目に対応する音声データとその音声認識結果を関連付けて記憶する。

この場合、特定部２０６は、音声認識処理部２０２が音声認識した結果と音声データＤ０と発話表現情報に基づいて、項目に関連する発話表現に類似する表現部分を音声データＤ０から抽出し、抽出された表現部分を関連する項目のデータであると特定する。すなわち、特定部２０６は、発話表現情報記憶部を参照し、一連の音声データＤ０とその音声認識結果の中から、発話表現情報記憶部に記憶されている発話表現に類似している部分を抽出することで、各項目に対するデータ部分を特定することができる。

また、図６に示すように、本実施形態のデータベース１０は、複数の項目別データ群２２０（ＤＢ１、ＤＢ２、・・・、ＤＢｎ）（ここで、ｎは自然数）を含む。
抽出部２０４は、データベース１０を参照し、特定された入力データの各部分と、各部分に対応する項目に対する項目別データ群２２０の中のデータとを比較して、入力データの各部分に類似するデータを抽出する。上記実施形態のように、データベース１０内の全てのデータを検索する例に比較して、本実施形態では、データベース１０内の予め項目別に分けられたデータを含む項目別データ群２２０の中のデータを検索して、類似するデータを抽出することができるので、検索処理効率がよく、処理速度が速くなり、また抽出されるデータの正確さが増すこととなる。

本実施形態において、提示部１０６は、予め報告書の書式として記憶部（不図示）に登録されているフォーマットに従って、抽出部２０４が抽出した項目別のデータの候補を、日報に必要な項目の所定の位置にそれぞれ表示させることができる。本実施形態の入力支援システム２は、様々な書式を記憶部に登録することができるものとする。これらの報告書は、プリンタ（不図示）を用いて印字出力することができる。

図７に、提示部１０６に表示される営業活動の日報画面１５０の一例を示す。同図に示すように、抽出部２０４によって抽出された各データの候補が日報画面１５０に表示される。たとえば、営業活動をした日付、時刻、顧客名、先方担当などのデータは、プルダウンメニュー１５２で表示されている。また、対象商品などは、チェックボックス１５４で表示されている。また、メモ欄として、テキストボックス１５６などで、その他の情報、たとえば、音声認識結果そのものを全て表示してもよいし、各項目に当てはまらなかった認識結果のみを表示するなどしてもよい。また、提示部１０６は、入力支援装置２００にネットワークを介して接続された入力支援装置２００とは別のユーザの端末の表示部（不図示）に、この日報画面１５０を表示させてもよい。

図７の日報画面１５０にて、ユーザは内容を確認しながら、適宜、プルダウンメニュー１５２やチェックボックス１５４でデータを選択し直したり、テキストボックス１５６の内容を修正および追加することができる。

図５に戻り、登録部１１０は、受付部１０８が受け付けたデータを、データベース１０の対応する項目にそれぞれ登録する。たとえば、図７の日報画面１５０の確認ボタン１５８を操作することで、最終的な入力データを確認する画面（不図示）に移行させ、ユーザが内容を確認後に、登録部１１０に登録させる登録ボタン（不図示）の押下により、登録処理を行うようにしてもよい。

このように構成された本実施形態の入力支援システム２の動作について、以下に説明する。図８は、本実施形態の入力支援システム２の動作の一例を示すフローチャートである。以下、図５乃至８を用いて説明する。図８のフローチャートは、図３の上記実施形態のフローチャートと同様なステップＳ１０１とステップＳ１１１を含むとともに、さらに、ステップＳ２０３〜ステップＳ２０９を含む。

ユーザにより報告書作成のために発話した音声を収録された音声データを、図５の入力支援装置２００の音声認識処理部２０２が受け付ける（図８のステップＳ１０１）。音声認識処理部２０２が、各項目別言語モデル２１２を用いて音声データＤ０の音声認識処理を行うとともに、特定部２０６が音声認識処理部２０２で、音声データの各部分をそれぞれ各項目別言語モデル２１２を用いて認識した結果の中から、認識の確からしさなどのスコアに基づいて、認識結果の良好な部分を採用し、採用されたデータ部分の音声認識処理に使用した項目別言語モデル２１２に対応する項目を、そのデータ部分の項目と特定する（図８のステップＳ２０３）。

抽出部２０４が、音声認識処理部２０２から得られた入力データの各部分について、データベース１０の特定部２０６により特定された項目に対するデータとを比較して、入力データの各部分に類似するデータをデータベース１０の特定されたデータの中から抽出する（図８のステップＳ２０５）。そして、提示部１０６が、図８のステップＳ２０５で抽出された各項目のデータをデータベース１０の各項目に登録する候補として、たとえば、図７の日報画面１５０などを表示部に表示させて、ユーザに提示する（図８のステップＳ２０７）。

そして、受付部１０８が、候補の中から、項目毎に登録するデータの選択を受け付ける（図８のステップＳ２０９）。そして、登録部１１０が、受け付けたデータを、データベース１０の対応する項目に登録する（図８のステップＳ１１１）。たとえば、図２に示すように、データベース１０に新たなレコード（ＩＤ０００３）の各項目にデータがそれぞれ登録されることとなる。

以上説明したように、本発明の実施の形態に係る入力支援システム２によれば、上記実施形態と同様の効果を奏するとともに、項目毎の音声特徴情報に基づいて、一連の音声データから各項目に対応する部分を抽出して、項目を特定できる。これにより、入力データを各項目に対応付けて提示し、ユーザに選択させることができるので、より入力精度が向上する。また、ユーザは項目別に分類されたデータの中から該当するデータを選択することができるので、入力操作が楽になる。また、項目別言語モデル２１２を設けることで、音声認識精度が向上し、認識誤りを低減させることができる。また、所定の条件を満たせば、自動的に入力データを項目に登録することも可能になる。

また、図７の日報画面１５０のような定型の書式をユーザに提示することができるので、閲覧し易いという効果がある。さらに、定型の書式で、ユーザに適切な表現を提示できる。そのため、ユーザはどのような表現がより適切なのかを見て覚えることができるので、より適切な統一された表現で発話するようになり、さらに、入力精度が向上する。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、上記実施形態の入力支援システム２において、特定部２０６により特定された項目に、候補のデータを対応付け、所定の条件に基づいて候補の中からデータを選択して、データベース１０に自動的に登録する自動登録部（不図示）をさらに備えてもよい。

この構成によれば、自動的に各項目にデータを対応付けて登録することができるので、効率がよい。とくに、ユーザが発話表現を適切にできるようになり、音声認識結果の精度も向上した場合、自動的に登録されたデータの信頼性も向上することとなる。ここで、選択条件としては、たとえば、音声認識結果との類似度を高いものを優先的に選択する条件や、音声認識結果の確からしさが所定値より高く、かつ類似度が所定レベル以上とする条件、またはユーザによって予め設定された優先順位などである。

上記実施形態の入力支援システム１（または入力支援システム２）において、さらに、音声データに音声認識処理を行った結果、得られた入力データと、抽出部１０４（または抽出部２０４）により抽出された入力データに類似するデータと、に基づいて、項目に対する新たな入力データの候補を生成する生成部（不図示）を備えることができる。この構成において、提示部１０６は、生成部が生成した候補を項目に対するデータとして提示することができる。

この構成によれば、たとえば、入力データとデータベース１０に蓄積されているデータに基づいて、新たなデータを候補として生成して、ユーザに提示することができる。たとえば、「本日」とユーザが発話した場合、データベース１０に登録されている「日付」の項目に対するデータに基づいて、たとえば、音声データの録音日の情報などから、報告日の新たな入力データの候補として、「本日」と認識された結果を録音日の日付である「２０１０年１月１０日」に変化し、入力データの候補として生成することができる。

あるいは、「明日、再度、訪問します。」などの音声データが入力された場合、報告の日付、あるいは、音声データファイルのタイムスタンプなどが「２０１０年１月１１日」であれば、「明日」に対応する新たな入力データの候補として、「２０１０年１月１２日」を生成することができる。

また、ユーザが音声データとともに、訪問先などの位置情報を、たとえば、ユーザ端末のＧＰＳ機能を用いて入力支援装置１００（または入力支援装置２００）に送信してもよい。生成部は、抽出部１０４（または抽出部２０４）にこの位置情報に基づいて、データベース１０に登録されている顧客情報を検索させ、得られた情報に基づいて、訪問先の顧客を特定し、訪問先の顧客の情報の候補として生成することができる。

上記入力支援システムにおいて、生成部は、音声データに音声認識処理を行った結果、得られた入力データに対してアノテーション処理を行い、タグ情報を付与し、新たな項目の候補として生成することができる。
この構成によれば、音声データに対するタグ情報として、たとえば、タイトル、カテゴリ、備考などを新たに付与することができ、より入力の効率を向上することができる。

上記入力支援システムにおいて、互いに関連のある複数の音声データを時系列に受け付け、音声データの差分の部分を抽出する差分抽出部（不図示）をさらに備えてもよい。抽出部１０４または抽出部２０４は、差分抽出部により抽出された差分の部分について音声認識処理を行い、得られた入力データの差分と、データベース１０に蓄積されているデータとを比較して、入力データの差分に類似するデータをデータベース１０から抽出することができる。

この構成によれば、関連する音声データについて、時系列に並べて差分を求めることで、差分の部分についてのみ、データベース１０への登録を行うことができる。関連する案件に関する音声データなどで、変化があった部分のみをデータベース１０に登録でするので、無駄なデータを重複して登録することを防ぐことができる。これにより、データベース１０の記憶容量を大幅に削減できる。また、提示されたデータの確認を、差分以外の項目のデータについては省略して提示しなかったり、確認不要であることをユーザに通知する構成とすることができる。また、登録に関する処理の負荷を低減でき、処理速度も速くすることができる。

また、上記実施形態の提示部１０６は、たとえば、営業結果の成否を示す項目のデータについて、成功は丸「○」、不成功はバツ「×」などの記号で区別したり、あるいは、色分けしたり、強調表示や点滅表示など、視認効果のある表記方法を用いてユーザに提示するようにしてもよい。この構成によれば、一目で結果をユーザが区別して認識できるので視認性が向上し、選択ミスを防ぐことができる。また、作成された報告書を閲覧するユーザにとっても見やすさが向上するという効果がある。

さらに、上記実施形態の入力支援システムにおいて、報告書などに必要な項目のうち、音声データから得られなかったものをデータ不足項目として抽出する不足抽出部（不図示）と、抽出されたデータ不足をユーザに通知する通知部（不図示）と、をさらに備えてもよい。提示部１０６は、抽出されたデータ不足項目の候補を提示し、ユーザにデータの選択を促すことができる。この構成によれば、必要な情報を不足なく、適切な表現で入力されることができるので、データベース１０に蓄積されるデータの利用価値が上がるという効果を奏する。

また、上記実施形態の入力支援システムにおいて、さらに、提示部１０６によって提示した項目データの候補について、ユーザによる修正の指示を受け付け、データベース１０の対応する項目のデータとしてさらに登録または上書きによる更新処理を行う更新部を備えてもよい。さらに、音声認識処理された結果、得られた入力データを提示部１０６によりユーザに提示してもよい。提示された入力データの中から、一部を取り出し、新たな項目のデータとするユーザの指示を受け付け、データベース１０に新たな項目を作成し、取り出した一部のデータを登録する項目編集部をさらに備えてもよい。さらに、項目編集部は、既存の項目の削除や項目の変更指示を受け付け、データベース１０の項目を削除または変更する処理を行うこともできる。
これらの構成によれば、既存のデータベース１０のデータを更新したり、項目を新たに追加したり、削除、変更などを行うことができる。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。

この出願は、２０１０年１月２９日に出願された日本出願特願２０１０−０１８８４８号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

複数の項目に対するデータを蓄積するデータベースと、
音声データに音声認識処理を行った結果、得られた入力データと、前記データベースに蓄積されている前記データとを比較して、前記入力データに類似するデータを前記データベースから抽出する抽出手段と、
抽出された前記データを前記データベースに登録する候補として提示する提示手段と、を備える入力支援システム。
請求項１に記載の入力支援システムにおいて、
前記提示手段が提示した前記候補の中から、前記項目に対して登録するデータの選択を受け付ける受付手段と、
受け付けた前記データを、前記データベースの対応する前記項目に登録する登録手段と、をさらに備える入力支援システム。
請求項１または２に記載の入力支援システムにおいて、
前記音声データの音声認識処理を行う音声認識手段と、
複数の前記項目に対する前記データ毎の音声特徴情報に基づいて、前記音声認識手段により前記音声データを音声認識処理して得られる前記入力データの中から、各項目に対応する部分をそれぞれ特定する特定手段と、をさらに備え、
前記抽出手段は、前記データベースを参照し、特定された前記入力データの各部分と、前記各部分に対応する前記項目に対する前記データベースの前記データとを比較して、前記入力データの前記各部分に類似するデータを前記データベースの対応する前記項目から抽出する入力支援システム。
請求項３に記載の入力支援システムにおいて、
前記提示手段は、前記特定手段により特定された前記項目に、前記抽出手段により抽出された前記候補の前記データを対応付けて提示する入力支援システム。
請求項３または４に記載の入力支援システムにおいて、
前記特定手段により特定された前記項目に、前記候補の前記データを対応付け、所定の条件に基づいて前記候補の中からデータを選択して、前記データベースに自動的に登録する自動登録手段をさらに備える入力支援システム。
請求項３乃至５いずれかに記載の入力支援システムにおいて、
前記音声認識手段は、複数の前記項目毎に、複数の言語モデルを用いて前記音声データの音声認識処理を行い、
前記特定手段は、前記音声認識手段により、前記音声データの前記各部分について、それぞれ複数の前記言語モデルで音声認識処理を行った結果、得られた入力データの前記各部分について、認識の確からしさに基づいて、認識結果の良好なものが得られた言語モデルの項目を特定し、前記入力データの前記部分は、特定された項目のデータであると特定する入力支援システム。
請求項３乃至６いずれかに記載の入力支援システムにおいて、
複数の前記項目にそれぞれ関連付けられた複数の発話表現情報を記憶する表現記憶装置を備え、
前記特定手段は、前記音声認識手段が音声認識処理を行う時に、前記音声データと前記発話表現情報に基づいて、前記項目に関連する発話表現に類似する表現部分を前記音声データから抽出し、抽出された前記表現部分を関連する項目のデータであると特定する入力支援システム。
請求項１乃至７いずれかに記載の入力支援システムにおいて、
前記音声データに音声認識処理を行った結果、得られた前記入力データまたは前記抽出手段により抽出された前記入力データに類似するデータに基づいて、前記項目に対する入力データの新たな候補を生成する生成手段をさらに備え、
前記提示手段は、前記生成手段が生成した前記候補を前記項目に対するデータとして提示する入力支援システム。
請求項８に記載の入力支援システムにおいて、
前記生成手段は、前記音声データに音声認識処理を行った結果、得られた前記入力データに対してアノテーション処理を行い、タグ情報を付与し、新たな項目の候補として生成する入力支援システム。
請求項１乃至９いずれかに記載の入力支援システムにおいて、
互いに関連のある複数の前記音声データを時系列に受け付け、前記音声データの差分の部分を抽出する差分抽出手段をさらに備え、
前記抽出手段は、前記差分抽出手段により抽出された前記差分の前記部分について音声認識処理を行い、得られた入力データの前記差分と、前記データベースに蓄積されている前記データとを比較して、前記入力データの前記差分に類似するデータを前記データベースから抽出する入力支援システム。
複数の項目に対するデータを蓄積するデータベースを備えた入力支援装置のデータ処理方法であって、
音声データに音声認識処理を行った結果、得られた入力データと、前記データベースに蓄積されている前記データとを比較して、前記入力データに類似するデータを前記データベースから抽出し、
抽出された前記データを前記データベースに登録する候補として提示する入力支援装置のデータ処理方法。
複数の項目に対するデータを蓄積するデータベースを備えた入力支援装置を実現するコンピュータに、
音声データに音声認識処理を行った結果、得られた入力データと、前記データベースに蓄積されている前記データとを比較して、前記入力データに類似するデータを前記データベースから抽出する手順と、
抽出された前記データを前記データベースに登録する候補として提示する手順と、を実行させるためのコンピュータプログラム。