WO2011074180A1

WO2011074180A1 - 音声入力システムおよび音声入力プログラム

Info

Publication number: WO2011074180A1
Application number: PCT/JP2010/006666
Authority: WO
Inventors: 長友　健太郎
Original assignee: 日本電気株式会社
Priority date: 2009-12-17
Filing date: 2010-11-12
Publication date: 2011-06-23
Also published as: US20120258769A1; JP5652406B2; JPWO2011074180A1; US9215314B2

Abstract

音声入力システム（１００）は、音声認識処理依頼とともに、音声を入力するために発呼を受ける電話の識別情報を受け付ける処理受付部（１０４）と、処理受付部（１０４）が受け付けた電話の識別情報に基づき、発呼する発信処理部（１０６）と、発信処理部（１０６）の発呼に対して着呼があり、ユーザの音声が入力されると、当該音声の音声データを受け付ける音声データ受付部（１０８）と、音声データ受付部（１０８）が受け付けた音声データの音声認識結果のデータである結果データを、電話の識別情報に対応付けて記憶する音声認識結果記憶部（１２２）と、を含む。

Description

音声入力システムおよび音声入力プログラム

　本発明は、音声入力システムおよび音声入力プログラムに関する。

　近年、情報を音声で入力して、音声認識処理技術を用いて当該音声をテキストデータに変換する技術が開発されている。また、電話を用いて音声を入力して音声認識処理を行うことも試みられている。

　特許文献１（特開２００１－２６８２４１号公報）には、マイクとスピーカと表示画面とキー操作部が設けられ、音声通信機能及びパケット通信機能を有する無線携帯端末と、前記無線携帯端末がパケット通信を実行中に前記無線携帯端末との間で音声通信を行う音声制御部と、該音声制御部で受信した前記無線携帯端末からの音声信号を認識する音声認識部と、該音声認識部で認識された音声情報に対応する情報を検索する情報検索部と、該情報検索部で検索した情報の中で音声に変換可能な情報を音声信号に変換して前記音声制御部に出力する音声変換部と、前記情報検索部で検索した情報の中で画面に表示可能な情報をパケット通信を介して前記無線携帯端末に送信するパケット制御部とを有するセンターと、を備えていることを特徴とする無線携帯端末通信システムが記載されている。ここで、センターの音声制御部は、無線携帯端末の自局ＩＰアドレスと自局音声通信アドレスの対応テーブルを備えており、音声通信開始時の発信者番号通知機能による前記無線携帯端末の自局音声通信アドレスに基づいて前記対応テーブルを参照して得た前記自局ＩＰアドレスを前記パケット制御部に通知する機能を有する、と記載されている。これにより、情報検索語やデータを音声で入力可能にして無線携帯端末の操作性を向上するとともに、検索結果を画像や文字で確認できる、とされている。

　特許文献２（特開２００３－１２５１０９号公報）には、データ通信機能と音声通信機能を有する端末でネットワークコンテンツの閲覧中に、当該ネットワークコンテンツに対して音声による情報入力を支援する方法であって、端末からのコンテンツ配信要求をデータ通信路を介してコンテンツ提供装置で受付け、要求されたコンテンツが音声入力サービスと連携可能に設定されたコンテンツか否かを判定し、その判定結果に応じて、当該コンテンツに音声入力サービス提供装置へのリンク先情報を付加して要求元の端末に配信する第１のステップと、配信した端末における前記リンク先情報の選択操作によって当該端末と音声入力サービス提供装置との音声通信路を確立する第２のステップと、前記音声入力サービス提供装置において音声通信路を介した端末からの入力音声を認識し、その認識結果を前記コンテンツ提供装置に送信する第３のステップとを備えることを特徴とする音声入力サービス提供方法が記載されている。これにより、端末に表示されたコンテンツの情報入力欄に対する音声入力をコンテンツ表示と同期して実施可能にすることができる、とされている。

　特許文献３（特開２００５－１１００３４号公報）には、ＣＴＩサーバにインタフェースを有し、複数の内線電話を具備する構内交換機に着信した電話コールの客先情報を、ローカルエリアネットワークを介して該ＣＴＩサーバに接続された情報機器の画面に表示させることにより該電話コールに応対する応対者を支援する電話応対支援システムが記載されている。前記ＣＴＩサーバは、前記電話コールの発信者と該電話コールの応対者との間でやり取りされる通話の音声信号を認識して文字データを出力する音声認識手段と、前記音声認識手段から出力された文字データを格納する情報格納手段とを有し、前記情報機器は、前記音声認識手段から出力された文字データおよび前記情報格納手段に格納された文字データのうち何れか一方又は双方を画面に文字表示させる。

　特許文献４（特開２０００－１４８６７７号公報）には、以下の技術が記載されている。ウエブサーバに接続すると、ウエブ画面には、エージェント側に接続を要求するボタンを含むコンテンツが表示される。お客様情報のエントリに自分の電話番号を登録しておくと、カスタマがこのボタンをクリックすると、エージェント側からコールバックを受けることができる。また、カスタマは、希望により通常の外線電話、インターネットフォン、チャット等、エージェントとのコミュニケーション手段を選択でき、選択されたコミュニケーション手段によりコールバックを受けることができる。エージェントのスキルグループも選択できる。

特開２００１－２６８２４１号公報特開２００３－１２５１０９号公報特開２００５－１１００３４号公報特開２０００－１４８６７７号公報

　しかし、上記特許文献１から３に記載された技術では、たとえば特許文献１では無線携帯端末の自局ＩＰアドレスと自局音声通信アドレスとの対応テーブルが準備されている等、音声認識処理を行う際に、音声を入力するための端末と、結果のテキストデータを表示する装置とが予め固定された構成となっている。そのため、任意の端末を用いて音声を入力したり、任意の装置で結果のテキストデータを確認するという柔軟な対応を行うことができなかった。

　本発明の目的は、上述した課題である、音声認識処理を行う際に、任意の端末を用いて音声を入力したり、任意の装置で結果のデータを確認することができないという問題を解決する音声入力システムおよび音声入力プログラムを提供することにある。

　本発明によれば、
　音声認識処理依頼とともに、音声を入力するために発呼を受ける電話の識別情報を受け付ける処理依頼受付手段と、
　前記処理依頼受付手段が受け付けた前記電話の識別情報に基づき、発呼する発信手段と、
　前記発信手段の発呼に対して着呼があり、ユーザの音声が入力されると、当該音声の音声データを受け付ける音声データ受付手段と、
　前記音声データ受付手段が受け付けた前記音声データの音声認識結果のデータである結果データを、前記電話の識別情報に対応付けて記憶する音声認識結果記憶手段と、
を含む音声入力システムが提供される。

　本発明によれば、
　コンピュータを、
　音声認識処理依頼とともに、音声を入力するために発呼を受ける電話の識別情報を受け付ける処理依頼受付手段、
　前記処理依頼受付手段が受け付けた前記電話の識別情報に基づき、発呼する発信手段、
　前記発信手段の発呼に対して着呼があり、ユーザの音声が入力されると、当該音声の音声データを受け付ける音声データ受付手段、
　前記音声データ受付手段が受け付けた前記音声データの音声認識結果のデータを、前記電話の識別情報に対応付けて記憶する音声認識結果記憶手段、
として機能させる音声入力プログラムが提供される。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、音声認識処理を行う際に、任意の端末から音声を入力することができるとともに、任意の装置で結果のデータを確認することができる。

本発明の実施の形態における音声入力システムを含むネットワーク構造の一例を示すブロック図である。音声認識結果記憶部の内部構成の一例を示す図である。本発明の実施の形態における音声入力システムを含むネットワーク構造の処理手順の一例を示すフローチャートである。第１のユーザ端末装置の表示処理部により表示されるメッセージ入力ページ画面の一例を示す図である。第１のユーザ端末装置の表示処理部により表示されるメッセージ入力ページ画面の一例を示す図である。第２のユーザ端末装置の表示処理部により表示されるメッセージ確認ページ画面の一例を示す図である。第２のユーザ端末装置の表示処理部により表示されるメッセージ確認ページ画面の一例を示す図である。第２のユーザ端末装置の表示処理部により表示されるメッセージ確認ページ画面の一例を示す図である。本発明の実施の形態における音声入力システムを含むネットワーク構造の処理手順の他の例を示すフローチャートである。本発明の実施の形態における音声入力システムを含むネットワーク構造の一例を示すブロック図である。本発明の実施の形態における音声入力システムを含むネットワーク構造の処理手順の一例を示すフローチャートである。第１のユーザ端末装置の表示処理部により表示されるメッセージ入力ページ画面の一例を示す図である。第１のユーザ端末装置の表示処理部により表示されるメッセージ入力ページ画面の一例を示す図である。第１のユーザ端末装置の表示処理部により表示されるメッセージ入力ページ画面の一例を示す図である。テンプレート記憶部の内部構成の一例を示す図である。本発明の実施の形態における音声入力システムを含むネットワーク構造の他の例を示すブロック図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様の構成要素には同様の符号を付し、適宜説明を省略する。

　本実施の形態において、音声でメッセージ等を入力して、そのメッセージの音声認識結果のデータを取得したいユーザは、音声入力システムに、音声を入力するために発呼を受ける電話の識別情報を入力する。ここで、電話の識別情報は、たとえば発呼（コールバック）を受けたい電話端末の電話番号等の識別情報とすることができる。音声入力システムは、入力された電話の識別情報に基づき、発呼（コールバック）する。そして、当該発呼に応じてユーザが電話に出て、音声を入力すると、音声入力システムは、その音声の音声データに対して音声認識処理を行う。そして、音声入力システムは、その音声認識処理の結果を示すデータを、電話の識別情報に対応付けて記憶する。このような構成により、ユーザは、任意の端末装置から所定のウェブページにアクセスして、所望の任意の電話番号を入力するだけで、音声を入力して、音声認識結果のデータを得ることができる。また、後に、電話の識別情報を指定することにより、任意の端末装置から、音声認識結果のテキストデータを取得することができる。

（第１の実施の形態）
　図１は、本実施の形態における音声入力システムを含むネットワーク構造を示すブロック図である。
　図１に示したネットワーク構造は、音声入力システム１００と、音声入力システム１００にネットワーク１５０を介して接続された第１のユーザ端末装置２００（ユーザ端末装置１）および第２のユーザ端末装置２１０（ユーザ端末装置２）と、電話端末３００とを含む。ネットワーク１５０は、たとえばインターネットまたはイントラネット等とすることができる。

　音声入力システム１００は、ウェブアプリケーションを備える。第１のユーザ端末装置２００および第２のユーザ端末装置２１０は、ユーザのＰＣ等とすることができる。本実施の形態において、各ユーザ端末装置には、ブラウザがインストールされている。各ユーザは、各ユーザ端末装置のブラウザから音声入力システム１００のウェブアプリケーションにネットワーク１５０を介してアクセスし、ウェブアプリケーションを起動し、音声入力システム１００の機能を利用することができる。

　第１のユーザ端末装置２００は、入力受付部２０２および表示処理部２０４を含む。入力受付部２０２は、たとえばキーボード等の操作部を含む。第１のユーザ端末装置２００は、入力受付部２０２を介してユーザの指示を受け付ける。また、第１のユーザ端末装置２００の表示処理部２０４は、ディスプレイおよびブラウザを含み、音声入力システム１００の情報提供部１０２から提供されるウェブページをディスプレイに表示する。入力受付部２０２を介して入力されたユーザの指示は、ネットワーク１５０を介して音声入力システム１００の処理受付部１０４に提供される。

　第２のユーザ端末装置２１０も第１のユーザ端末装置２００と同様、入力受付部２１２および表示処理部２１４を含む。入力受付部２１２および表示処理部２１４は、第１のユーザ端末装置２００の入力受付部２０２および表示処理部２０４と同様の機能を有する。第１のユーザ端末装置２００および第２のユーザ端末装置２１０は、たとえばパーソナルコンピュータ等により構成することができる。

　音声入力システム１００は、情報提供部１０２と、処理受付部１０４と、発信処理部１０６と、音声データ受付部１０８と、データ管理部１１０と、メール送信部１１２と、テンプレート記憶部１２０と、音声認識結果記憶部１２２と、ユーザ情報記憶部１２４と、音声認識処理部１３０とを含む。本実施の形態において、情報提供部１０２および処理受付部１０４の機能は、ウェブアプリケーションにより実現することができる。

　情報提供部１０２（情報提供手段）は、ネットワーク１５０を介して接続された各ユーザ端末装置にウェブページを提供する。処理受付部１０４（処理依頼受付手段、提供依頼受付手段）は、ネットワーク１５０を介して接続された各ユーザ端末装置から、ウェブページを介して入力された指示を受け付ける。

　処理受付部１０４（処理依頼受付手段）は、ネットワーク１５０を介して接続されたユーザ端末装置から、音声認識処理依頼とともに、音声認識処理のために音声を入力したい電話の識別情報を受け付ける。本実施の形態において、電話の識別情報は、電話端末の電話番号とすることができる。以下、電話の識別情報が電話端末の電話番号である場合を例として説明する。

　発信処理部１０６（発信手段）は、処理受付部１０４が受け付けた電話端末の電話番号に基づき、当該電話端末に発呼する処理を行う。なお、発信処理部１０６の機能は、音声入力システム１００のウェブアプリケーションに含まれるClick-to-Callプラグインにより実現することができる。

　音声データ受付部１０８は、発信処理部１０６の発呼処理に対して着呼があり、当該電話端末からユーザの音声が入力されると、当該音声を音声データとして受け付ける。

　データ管理部１１０は、音声入力システム１００の各機能ブロックが処理するデータを、たとえば電話番号と対応付けて識別して、他の機能ブロックとの間でやり取りする処理を行う。データ管理部１１０は、音声データ受付部１０８が受け付けた音声データを音声認識処理部１３０に提供し、音声認識処理部１３０から当該音声データの音声認識結果のデータである結果データを取得する。

　音声認識処理部１３０は、データ管理部１１０から提供された音声データを音声認識し、当該音声認識の結果データをデータ管理部１１０に送信する。音声認識処理部１３０は、結果データを所定のデータ形式（例：テキストデータ）に変換後、変換後の結果データをデータ管理部１１０に送信することもできる。音声認識処理部１３０がデータ管理部１１０に送信する結果データのデータ形式は特段制限されない。なお、図１では、音声認識処理部１３０が音声入力システム１００に含まれる構成を示しているが、音声認識処理部１３０は、音声入力システム１００の他の機能ブロックとは異なる外部の端末に設けられた構成とすることができ、たとえばネットワーク１５０等を介して、音声入力システム１００と接続された構成とすることもできる。

　データ管理部１１０は、音声認識処理部１３０から取得した結果データを、電話番号に対応付けて音声認識結果記憶部１２２（音声認識結果記憶手段）に記憶する。データ管理部１１０は、音声データ受付部１０８が音声データを取得した時間も、音声認識処理部１３０から取得した結果データに対応付けて音声認識結果記憶部１２２に記憶することができる。また、データ管理部１１０は、音声データ受付部１０８が取得した音声データも、音声認識処理部１３０から取得した結果データに対応付けて音声認識結果記憶部１２２に記憶することができる。

　図２は、音声認識結果記憶部１２２の内部構成の一例を示す図である。
　音声認識結果記憶部１２２は、電話番号欄と、時間欄と、結果データ欄と、音声データ欄とを含む。電話番号欄には、発信処理部１０６が発呼を行った電話端末の電話番号が記憶される。時間欄には、音声データ受付部１０８が音声データを取得した時間（日時）が記憶される。結果データ欄には、音声認識処理部１３０が音声認識処理を行った結果のデータである結果データが記憶される。音声データ欄には、音声データ受付部１０８が取得した音声データが記憶される。

　図１に戻り、処理受付部１０４（提供依頼受付手段）は、ネットワーク１５０を介して接続されたユーザ端末装置から、電話端末の電話番号とともに結果データの提供依頼を受け付ける。本実施の形態において、このとき、処理受付部１０４は、ネットワーク１５０を介して接続されたユーザ端末装置から、当該ユーザ端末装置の識別情報も受け付けることができる。ここで、ユーザ端末装置の識別情報は、当該ユーザ端末装置の識別情報のＩＰアドレスとすることができる。なお、ユーザ端末装置の識別情報は、ユーザが入力するのではなく、当該ユーザ端末装置と音声入力システム１００との間での接続確立時に、ユーザ端末装置から音声入力システム１００に自動的に送信される構成とすることができる。

　データ管理部１１０は、処理受付部１０４が受け付けた電話端末の電話番号に基づき、当該電話番号をキーとして音声認識結果記憶部１２２から該当する結果データを抽出する。

　情報提供部１０２は、ユーザ端末装置の識別情報に基づき、データ管理部１１０が抽出した結果データを該当するユーザ端末装置に提供する。情報提供部１０２は、抽出した結果データを、所定のデータ形式に変換後、変換後の結果データを、該当するユーザ端末装置に提供することができる。例えば、情報提供部１０２は、結果データを、テキストデータで、ユーザ端末装置に提供することができる。その他、情報提供部１０２は、結果データを、発話時間、単語の読みや品詞などのマークアップ付きのデータ（ＳＧＭＬ、ＨＴＭＬ、ＴｅＸなど）で、ユーザ端末装置に提供することもできる。なお、予め、結果データを、例えば音声認識処理部１３０が所定のデータ形式に変換し、変換後の結果データを、音声認識結果記憶部１２２に記憶させている場合には、情報提供部１０２による上記データ形式の変換処理は不要となる。

　テンプレート記憶部１２０は、後述するように、音声入力システム１００を利用するユーザが、電話端末３００に入力する、たとえば伝言メッセージ等のテンプレート文章を記憶する。

　図１５は、テンプレート記憶部１２０の内部構成の一例を示す図である。
　テンプレート記憶部１２０は、テンプレート番号欄と、タイトル欄と、テンプレート文章欄と、特徴データ欄とを含む。このようなテンプレートは、音声入力システム１００の管理者が準備することもでき、また、音声入力システム１００のユーザが適宜設定することもできる。ここで、特徴データ欄には、たとえばテンプレート番号「１」の「テンプレート文章」のうちの穴埋め箇所、たとえば「○○様から・・・」の「○○」には人名が入ることや、「お電話番号○○○○に・・・」の「○○○○」には電話番号（数字）が入ること等が記憶される。このような構成のテンプレートを用いることにより、ユーザが自在にメッセージを入力する場合に比べて、音声認識精度を高めることができる。

　メール送信部１１２は、結果データを、ユーザが指定する所定のメールアドレスに送信する。ユーザは、結果データを表示して確認する際に、その結果データを送信するメールアドレスを指定することができる。

　また、本実施の形態において、音声入力システム１００が提供するウェブページにアクセスするユーザ端末装置のユーザは、予め音声入力システム１００が提供するサービスに登録しておくこともできる。このような場合、ユーザには、ＩＤとパスワードを付与しておくことができる。また、ユーザは、予め、メールを送信したい送信先のアドレスを登録しておくことができる。ユーザ情報記憶部１２４は、ユーザのＩＤおよびパスワード、ならびに当該ユーザが登録した所望の送信先等の情報を記憶する。ここで、ユーザが、音声入力システム１００が提供するウェブページにアクセスする際、ＩＤとパスワードを用いてログインすることにより、ユーザが認識されるので、当該ユーザに表示されるウェブページには、予め登録されているメールアドレスのリストを表示することができる。これにより、このサービスに登録しているユーザは、自分が登録したメッセージを、所望のメールアドレスに送信することができる。

　本実施の形態において、電話端末３００は、たとえば携帯電話端末（ＰＨＳ（Personal Handyphone System）も含む。）とすることもでき、またＩＰフォンやアナログ固定電話機等とすることもできる。本実施の形態において、ユーザは、電話端末３００から音声を入力する。そのため、第１のユーザ端末装置２００や第２のユーザ端末装置２１０には、音声を入力するためのマイク等を設けておく必要がない。

　次に、本実施の形態におけるネットワーク構造の処理手順を説明する。
　図３は、本実施の形態における音声入力システム１００を含むネットワーク構造の処理手順を示すフローチャートである。なお、ここでは、ユーザは、図１に示した電話端末３００にコールバックを受けるものとすることができる。

　まず、ユーザが、第１のユーザ端末装置２００から、コールバックを受けたい電話端末３００の電話番号を入力して音声認識処理依頼を行う（ステップＳ１２０）。具体的には、ユーザは、第１のユーザ端末装置２００から、音声入力システム１００から提供されるメッセージ入力ページ等のウェブページにアクセスして、当該ウェブページに電話端末３００の電話番号を入力するとともに音声認識処理依頼を行う。

　図４は、音声入力システム１００の情報提供部１０２から提供され、第１のユーザ端末装置２００の表示処理部２０４により表示されるメッセージ入力ページ画面４２０の一例を示す図である。メッセージ入力ページ画面４２０には、テンプレート選択ボックス４０２、テンプレート文章表示領域４０４、電話番号入力ボックス４０６、コールバック依頼ボタン４０８等が表示されている。

　ここで、テンプレート選択ボックス４０２には、音声入力システム１００のテンプレート記憶部１２０に記憶されたテンプレートのタイトルが表示されている。ここでは、選択可能なテンプレートとして、「コールバック依頼」、「かけ直します」、「伝言のみ」等が表示されている。たとえば、ユーザが「コールバック依頼」を選択すると、テンプレート文章表示領域４０４に、これに対応付けられたテンプレート文章である「○○様からお電話がありました　お電話番号○○○○にかけ直して下さい」が表示される。

　図５は、図４に示したメッセージ入力ページ画面４２０において、ユーザがテンプレート選択ボックス４０２の「かけ直します」を選択した場合の状態を示す図である。ここでは、テンプレート文章表示領域４０４には、「かけ直します」に対応付けられたテンプレート文章である「○○様からお電話がありました　またお電話されるそうです」が表示される。

　ユーザがテンプレート選択ボックス４０２でテンプレートを選択して、電話番号入力ボックス４０６に電話端末３００の電話番号、たとえば「０３－××××－××××」を入力して、コールバック依頼ボタン４０８を押すと、音声認識処理依頼および電話番号が音声入力システム１００に送信される。なお、テンプレートの選択は、コールバック依頼ボタン４０８を押してから電話端末３００に電話がかかってくるまでの間や電話端末３００に電話がかかってきた後等に行うこともできる。

　図３に戻り、第１のユーザ端末装置２００から音声認識処理依頼および電話番号が送信されると、処理受付部１０４は、それを受け付け、データ管理部１１０に通知する。データ管理部１１０は、発信処理部１０６に、当該電話番号に発呼する指示を行う。ついで、発信処理部１０６が送信された電話番号「０３－××××－××××」に電話する（ステップＳ１２２）。

　電話端末３００に電話がありユーザが応答すると、発信処理部１０６は、たとえば「メッセージを話して下さい」等の音声を流すことができる。これに対して、ユーザは、電話端末３００からメッセージを音声で入力する。なお、ユーザは、第１のユーザ端末装置２００の表示処理部２０４に表示されたメッセージ入力ページ画面４２０を見ながら音声を入力することができる。そのため、ユーザは、テンプレート文章表示領域４０４に表示されたテンプレート文章に沿ってメッセージを発声することができる。また、ユーザは、コールバック依頼ボタン４０８を押す前にテンプレート選択ボックス４０２の中から所望のテンプレートを選択して、テンプレート文章表示領域４０４にテンプレート文章を表示させておくことができる。これにより、ユーザが発話に詰まったりすることなく、メッセージを発話することができる。さらに、上述したように、テンプレートを用いることにより、ユーザが自在にメッセージを入力する場合に比べて、音声認識精度を高めることもできる。

　音声入力システム１００において、音声データ受付部１０８は、ユーザが電話端末３００から入力した音声の音声データを受け付け（ステップＳ１２４）、データ管理部１１０に通知する。データ管理部１１０は、音声認識処理部１３０に、入力された音声データの音声認識処理を行わせる。音声認識処理部１３０は、音声認識処理を行う（ステップＳ１２６）。なお、本実施の形態において、データ管理部１１０は、ユーザが用いたテンプレート番号を把握しておくことができ、そのテンプレート番号を音声認識処理部１３０に通知することができる。これにより、音声認識処理部１３０は、テンプレート記憶部１２０を参照して、該当するテンプレート番号のテンプレートの特徴データも考慮して音声認識処理を行うことができる。これにより、音声認識処理部１３０の音声認識処理の精度を高めることができる。

　なお、図示していないが、音声入力システム１００は、ステップＳ１２２で発信処理部１０６が発呼したにもかかわらずユーザが応答しない場合は、メッセージ入力ページ画面４２０にエラーメッセージを表示する等のエラー処理を行うことができる。

　音声認識処理部１３０の音声認識処理が終了すると、データ管理部１１０は、音声認識処理の結果データを、電話番号に対応付けて音声認識結果記憶部１２２に記憶する（ステップＳ１２８）。

　以上の処理受付部１０４が第１のユーザ端末装置２００から音声認識処理依頼を受けてから、音声認識処理部１３０に音声認識処理を行わせ、音声認識処理の結果データを音声認識結果記憶部１２２に記憶するまでの間、データ管理部１１０は、各機能ブロックが処理するデータを電話端末３００の電話番号と対応付けて管理している。

　以上で、音声入力システム１００に音声入力でメッセージを残す処理が終了する。これにより、特別に音声入力のためのマイク等を準備しなくても、簡単に音声認識処理により、音声でメッセージを残すことができる。また、ユーザは、任意の端末装置から所定のウェブページにアクセスして、所望の任意の電話番号を入力するだけで、音声を入力して、音声認識処理の結果データを得ることができる。

　この後、ユーザは、所望の任意の端末装置から所定のウェブページにアクセスして、電話番号を指定することにより、音声入力システム１００の音声認識結果記憶部１２２に記憶された結果データを見ることができる。

　ユーザは、たとえば、第１のユーザ端末装置２００とは別の第２のユーザ端末装置２１０から、電話端末３００の電話番号を入力して、音声認識結果の表示依頼を行う。本実施の形態において、このとき、電話端末３００の電話番号および音声認識結果の表示依頼とともに、第２のユーザ端末装置２１０のＩＰアドレスも音声入力システム１００に送信される（ステップＳ１３０）。

　具体的には、ユーザは、第２のユーザ端末装置２１０から、音声入力システム１００から提供されるメッセージ確認ページ画面等のウェブページにアクセスする。
　図６は、音声入力システム１００の情報提供部１０２から提供され、第２のユーザ端末装置２１０の表示処理部２１４により表示されるメッセージ確認ページ画面４３０の一例を示す図である。メッセージ確認ページ画面４３０には、電話番号入力ボックス４３２、メッセージ確認ボタン４３４、メッセージリスト表示領域４３６、メッセージ表示ボタン４３８、メッセージ表示領域４４０、メール送信先表示領域４１２、および送信ボタン４１４等が表示されている。なお、たとえばユーザが音声入力システム１００の提供するサービスに登録しており、ＩＤおよびパスワードを入力してログインしていた場合、この段階で、メール送信先表示領域４１２に、当該ユーザがメールを送信したいメールアドレスのリストを表示しておくことができる。

　ユーザが電話番号入力ボックス４３２に電話端末３００の電話番号、たとえば「０３－××××－××××」を入力して、メッセージ確認ボタン４３４を押すと、電話番号および音声認識結果表示依頼が音声入力システム１００に送信される。なお、このとき、電話番号および音声認識結果表示依頼とともに、第２のユーザ端末装置２１０のＩＰアドレスも第２のユーザ端末装置２１０から音声入力システム１００に送信される。

　図３に戻り、第２のユーザ端末装置２１０から音声認識結果表示依頼、電話番号、およびＩＰアドレスが入力されると、処理受付部１０４は、それを受け付け、データ管理部１１０に通知する。データ管理部１１０は、入力された電話番号をキーとして音声認識結果記憶部１２２から当該電話番号に対応付けて記憶された結果データを抽出する（ステップＳ１３２）。次いで、データ管理部１１０は、第２のユーザ端末装置２１０のＩＰアドレスに基づき、情報提供部１０２から第２のユーザ端末装置２１０に、ステップＳ１３２で抽出した結果データを送信する（ステップＳ１３４）。これにより、第２のユーザ端末装置２１０において、表示処理部２１４は、音声認識処理の結果データを表示する（ステップＳ１３６）。

　なお、本実施の形態において、メッセージ確認ページ画面４３０には、音声認識処理の結果データが表示される前に、キーとなった電話番号に対応付けられている結果データの項目がリストとして表示される。図７および図８を参照して説明する。

　図７は、電話番号入力ボックス４３２に電話番号が入力され、メッセージ確認ボタン４３４が押された後のメッセージ確認ページ画面４３０を示す図である。図７に示すように、メッセージリスト表示領域４３６には、音声入力システム１００の音声認識結果記憶部１２２において、電話番号入力ボックス４３２に入力された電話番号「０３－××××－××××」に対応付けられた結果データの時間（日時）が項目として表示される。また、他の例として、ユーザは、図４および図５に示したメッセージ入力ページ画面４２０において、音声で入力するメッセージのタイトル等を指定して入力することもできる。音声入力システム１００において、データ管理部１１０は、音声認識結果記憶部１２２に、結果データと、ユーザが指定していたタイトルとを対応付けて記憶することができる。この場合、メッセージリスト表示領域４３６に、ユーザが指定したタイトルのリストを表示することもできる。

　ユーザがメッセージリスト表示領域４３６のいずれかの項目を選択して、メッセージ表示ボタン４３８を押すと、当該時間が音声入力システム１００に送信される。
　図８は、図７に示したメッセージ確認ページ画面４３０において、ユーザがたとえばメッセージリスト表示領域４３６の「2009/11/01 15:21」を選択した後に、メッセージ表示ボタン４３８が押された後のメッセージ確認ページ画面４３０を示す図である。図８に示すように、メッセージ表示領域４４０には、音声入力システム１００の音声認識結果記憶部１２２において、時間「2009/11/01 15:21」に対応付けられた結果データが表示される。

　なお、ユーザは、第２のユーザ端末装置２１０の入力受付部２１２から、メッセージ表示領域４４０に表示されたメッセージを適宜修正することができる。ユーザが修正した場合、メッセージ表示領域４４０に表示されたメッセージが変更されるとともに、音声認識結果記憶部１２２に記憶された結果データも変更される構成とすることができる。

　音声入力システム１００において、データ管理部１１０は、処理受付部１０４が音声認識結果表示依頼を受け付けた後、キーとなった電話番号に対応付けられている結果データの項目や結果データが第２のユーザ端末装置２１０に提供され、また第２のユーザ端末装置２１０からの修正依頼等の処理が終わるまでの間、音声入力システム１００と第２のユーザ端末装置２１０とのデータのやり取りを管理しており、第２のユーザ端末装置２１０から既に送信されている電話番号および第２のユーザ端末装置２１０のＩＰアドレスに基づき、処理を行うことができる。データ管理部１１０は、このような管理情報を一時記憶部（不図示）に記憶して、管理を行うことができる。

　また、ユーザは、メール送信先表示領域４１２に表示されたメールアドレスから、所望の送信先を選んで、送信ボタン４１４を押すことにより、当該送信先に、メッセージ表示領域４４０に表示されたメッセージを送信することができる。また、ユーザは、新たなメール送信先を設定することもできる。メールの送信処理は、音声入力システム１００のメール送信部１１２により行われる。

　なお、以上の例では、ユーザが音声認識処理依頼を行う端末と、音声認識結果の表示依頼を行う端末とが異なる場合を例として説明したが、これらの端末は、同じものとすることもできる。図９にユーザが音声認識処理依頼を行う端末および音声認識結果の表示依頼を行う端末の両方が第１のユーザ端末装置２００である場合の処理手順を示す。この場合、ステップＳ１３０の音声認識結果表示依頼を行うユーザ端末が第１のユーザ端末装置２００となるので、ステップＳ１３０で、音声入力システム１００には、第１のユーザ端末装置２００のＩＰアドレスが送信される。そのため、ステップＳ１３４において、音声入力システム１００の情報提供部１０２は、第１のユーザ端末装置２００に結果データを送信する。

　以上のように、本実施の形態において、音声認識処理を行う際に、任意の電話端末を用いて音声を入力したり、任意の装置で音声認識処理の結果データを確認することができる。

　また、以上の構成によれば、電話端末３００を用いて音声を入力するので、ユーザがたとえばパーソナルコンピュータ等の端末から音声を入力する場合のようにマイクを準備する等の環境を設定する必要がない。これにより、パーソナルコンピュータ等の端末で音声認識処理や音声入力を頻繁に利用しないようなユーザでも、簡易に音声認識処理を利用することができる。

（第２の実施の形態）
　図１０は、音声入力システム１００の他の例を示すブロック図である。
　本実施の形態においても、音声入力システム１００は、図１に示した構成と同じである。
　本実施の形態において、音声入力と同時に、ユーザのユーザ端末装置に音声認識処理の結果データが表示される点で、第１の実施の形態に示した例と異なる。

　次に、本実施の形態におけるネットワーク構造の処理手順を説明する。図１１は、本実施の形態における音声入力システム１００を含むネットワーク構造の処理手順を示すフローチャートである。なお、ここでは、ユーザは、図１０に示した電話端末３００にコールバックを受けるものとすることができる。

　まず、ユーザが、第１のユーザ端末装置２００から、コールバックを受けたい電話端末３００の電話番号を入力して音声認識処理依頼を行う（ステップＳ１００）。具体的には、ユーザは、第１のユーザ端末装置２００から、音声入力システム１００から提供されるメッセージ入力ページ等のウェブページにアクセスして、当該ウェブページに電話端末３００の電話番号を入力するとともに音声認識処理依頼を行う。

　図１２は、音声入力システム１００の情報提供部１０２から提供され、第１のユーザ端末装置２００の表示処理部２０４により表示されるメッセージ入力ページ画面４００の一例を示す図である。メッセージ入力ページ画面４００には、テンプレート選択ボックス４０２、テンプレート文章表示領域４０４、電話番号入力ボックス４０６、コールバック依頼ボタン４０８、音声認識結果表示領域４１０、メール送信先表示領域４１２、送信ボタン４１４等が表示されている。

　テンプレート選択ボックス４０２、テンプレート文章表示領域４０４、電話番号入力ボックス４０６およびコールバック依頼ボタン４０８の構成は、図４および図５を参照して説明したのと同様とすることができる。

　ユーザがテンプレート選択ボックス４０２でテンプレートを選択して、電話番号入力ボックス４０６に電話端末３００の電話番号、たとえば「０３－××××－××××」を入力して、コールバック依頼ボタン４０８を押すと、音声認識処理依頼および電話番号が音声入力システム１００に送信される。本実施の形態において、このとき、音声認識結果表示依頼および電話番号とともに、第１のユーザ端末装置２００のＩＰアドレスも第１のユーザ端末装置２００から音声入力システム１００に送信される。なお、第１の実施の形態で説明したのと同様、ユーザ端末装置の識別情報は、ユーザが入力するのではなく、当該ユーザ端末装置と音声入力システム１００との間での接続確立時に、ユーザ端末装置から音声入力システム１００に自動的に送信される構成とすることができる。

　本実施の形態においても、音声入力システム１００のデータ管理部１１０は、処理受付部１０４が第１のユーザ端末装置２００から音声認識処理依頼を受けてから、音声認識処理部１３０に音声認識処理を行わせ、音声認識処理の結果データが第１のユーザ端末装置２００に送信されるまでの間、各機能ブロックが処理するデータを電話端末３００の電話番号と対応付けて管理している。

　図１１に戻り、第１のユーザ端末装置２００から音声認識処理依頼、電話番号およびＩＰアドレスが送信されると、処理受付部１０４は、それを受け付け、データ管理部１１０に通知する。データ管理部１１０は、発信処理部１０６に、当該電話番号に発呼する指示を行う。ついで、発信処理部１０６が送信された電話番号「０３－××××－××××」に電話する（ステップＳ１０２）。

　電話端末３００に電話があり、ユーザが応答すると、発信処理部１０６は、たとえば「メッセージを話して下さい」等の音声を流すことができる。これに対して、ユーザは、電話端末３００からメッセージを音声で入力する。なお、ユーザは、第１のユーザ端末装置２００の表示処理部２０４に表示されたメッセージ入力ページ画面４００を見ながら音声を入力することができ、テンプレート文章表示領域４０４に表示されたテンプレート文章に沿ってメッセージを発声することができる。

　音声入力システム１００において、音声データ受付部１０８は、ユーザが電話端末３００から入力した音声の音声データを受け付け（ステップＳ１０４）、データ管理部１１０に通知する。データ管理部１１０は、音声認識処理部１３０に、入力された音声データの音声認識処理を行わせる。音声認識処理部１３０は、音声認識処理を行う（ステップＳ１０６）。なお、本実施の形態において、音声認識処理部１３０が音声認識処理を行うと、音声入力システム１００は、略リアルタイムで、当該音声認識処理の結果データを第１のユーザ端末装置２００に送信することができる（ステップＳ１１０）。

　この手順を図１３および図１４を参照して説明する。
　ユーザが電話端末３００から音声を入力すると、音声入力システム１００で当該音声データの音声認識処理が行われ、その結果データが第１のユーザ端末装置２００に送信されて、メッセージ入力ページ画面４００の音声認識結果表示領域４１０に表示されていく。結果データを送信する第１のユーザ端末装置２００を特定する処理は、例えば、データ管理部１１０が管理している電話番号およびＩＰアドレスを対応付けた情報を利用し、実現することができる。なお、ユーザは、音声入力システム１００の入力受付部２０２から、音声認識結果表示領域４１０に表示されたメッセージを適宜修正することができる。ユーザが修正した場合、メッセージ表示領域４４０に表示されたメッセージが変更されるとともに、音声認識結果記憶部１２２に記憶された結果データも変更される構成とすることができる。

　なお、本実施の形態においても、第１の実施の形態で説明したように、音声認識処理の結果データを音声認識結果記憶部１２２に記憶される。これにより、後にユーザが任意のユーザ端末装置から、電話番号を指定することにより、結果データを確認できるようにすることができる。

　次に、第１の実施の形態における音声入力システム１００のまた他の例を説明する。
　以上の実施の形態においては、ユーザが、ネットワーク１５０を介して音声入力システム１００と接続された第１のユーザ端末装置２００や第２のユーザ端末装置２１０から音声認識処理依頼を行ったり、音声認識結果表示処理依頼を行う例を示した。しかし、ユーザが、音声入力システム１００に直接このような依頼を行う構成とすることもできる。

　図１６は、音声入力システム１００の他の例を示すブロック図である。
　音声入力システム１００は、図１に示した構成に加えて、入力受付部１１４および表示処理部１１６をさらに含む。入力受付部１１４は、たとえばキーボード等の操作部を含む。音声入力システム１００の処理受付部１０４は、入力受付部１１４を介してユーザの指示を受け付ける。また、表示処理部１１６は、ディスプレイおよびブラウザを含み、情報提供部１０２から提供されるウェブページをディスプレイに表示する。ここで、とくに限定されないが、音声入力システム１００は、たとえばロボット等とすることもできる。

　このような構成においても、ユーザが入力受付部１１４を介して所望の電話端末、たとえば電話端末３００の電話番号を入力することにより、電話端末３００にコールバックを受けることができ、音声認識処理の結果データを、電話端末３００の電話番号に対応付けて記憶しておくことができる。なお、ここではメール送信部１１２を図示していないが、本例においても、音声入力システム１００は、メール送信部１１２を有する構成とすることができる。

　以上の図で示した音声入力システム１００、第１のユーザ端末装置２００、第２のユーザ端末装置２１０の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。音声入力システム１００、第１のユーザ端末装置２００、第２のユーザ端末装置２１０の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　なお、以上の実施の形態では、音声でメッセージ等を入力して、そのメッセージの音声認識処理の結果データを取得したいユーザが携帯電話端末等の電話端末にコールバックを受ける例を説明した。しかし、ユーザは、たとえばパーソナルコンピュータ等にＰＣソフトフォンやＶｏＩＰ（Voice Over IP）クライアントの機能を持たせて、当該機能を用いて音声でメッセージ等を入力するようにすることもできる。この場合、電話の識別情報は、ＰＣソフトフォンやＶｏＩＰクライアントでユーザが発呼を受けるための、たとえばＳＩＰ（Session Initiation Protocol）アドレス等のユーザの識別情報とすることができる。また、この場合、図１に示した構成の電話端末３００の機能は、たとえば第１のユーザ端末装置２００内に設けることができる。
　本発明の構成によれば、ユーザが任意の端末において自分のＰＣソフトフォンやＶｏＩＰクライアントのユーザの識別情報への発呼を受けられる状態にして、音声認識処理依頼とともに当該ユーザの識別情報を指定することにより、当該ユーザの識別情報に発呼を受けることができる。これにより、ユーザがかかってきた電話に応答して音声を入力するだけで、ユーザの識別情報と音声認識処理の結果データとを対応付けて記憶しておくことができる。そのため、この場合も、ユーザは、後に他の端末からユーザの識別情報を指定することにより、音声認識処理の結果データを取得することができる。

　この出願は、２００９年１２月１７日に出願された日本特許出願特願２００９－２８６７７５号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　音声認識処理依頼とともに、音声を入力するために発呼を受ける電話の識別情報を受け付ける処理依頼受付手段と、
　前記処理依頼受付手段が受け付けた前記電話の識別情報に基づき、発呼する発信手段と、
　前記発信手段の発呼に対して着呼があり、ユーザの音声が入力されると、当該音声の音声データを受け付ける音声データ受付手段と、
　前記音声データ受付手段が受け付けた前記音声データの音声認識結果のデータである結果データを、前記電話の識別情報に対応付けて記憶する音声認識結果記憶手段と、
を含む音声入力システム。
　請求項１に記載の音声入力システムにおいて、
　電話の識別情報とともに前記結果データの提供依頼を受け付ける提供依頼受付手段と、
　前記提供依頼受付手段が前記結果データの提供依頼を受け付けると、前記電話の識別情報をキーとして前記音声認識結果記憶手段から該当する前記結果データを抽出して当該結果データを提供する情報提供手段と、
をさらに含む音声入力システム。
　請求項２に記載の音声入力システムにおいて、
　前記提供依頼受付手段は、他の第２の端末装置からネットワークを介して、電話の識別情報および前記結果データの提供依頼とともに、当該第２の端末装置の識別情報を受け付け、
　前記情報提供手段は、前記提供依頼受付手段が前記結果データの提供依頼を受け付けると、前記電話の識別情報をキーとして前記音声認識結果記憶手段から該当する前記結果データを抽出し、前記第２の端末装置の前記識別情報に基づき、当該第２の端末装置に、抽出した前記結果データを提供する音声入力システム。
　請求項３に記載の音声入力システムにおいて、
　前記第２の端末装置の識別情報は、当該第２の端末装置のＩＰアドレスである音声入力システム。
　請求項１から４いずれかに記載の音声入力システムにおいて、
　前記処理依頼受付手段は、他の第１の端末装置からネットワークを介して、音声認識処理依頼とともに前記電話の識別情報を受け付ける音声入力システム。
　請求項５に記載の音声入力システムにおいて、
　前記処理依頼受付手段は、前記他の第１の端末装置から前記ネットワークを介して、前記音声認識処理依頼および前記電話の識別情報とともに、当該第１の端末装置の識別情報とを受け付け、
　当該音声入力システムは、前記結果データを、前記第１の端末装置の前記識別情報に基づき、当該第１の端末装置に提供する情報提供手段をさらに含む音声入力システム。
　請求項６に記載の音声入力システムにおいて、
　前記第１の端末装置の識別情報は、当該第１の端末装置のＩＰアドレスである音声入力システム。
　請求項１から７いずれかに記載の音声入力システムにおいて、
　前記電話の識別情報は、電話端末の電話番号である音声入力システム。
　請求項１から８いずれかに記載の音声入力システムにおいて、
　前記処理依頼受付手段は、前記電話の識別情報の入力ボックスを含むウェブページを提供し、当該入力ボックスに入力された前記電話の識別情報を受け付ける音声入力システム。
　請求項９に記載の音声入力システムにおいて、
　前記処理依頼受付手段は、前記電話の識別情報の入力ボックスを含む前記ウェブページに、ユーザが電話で発話するメッセージのテンプレート文章を表示する音声入力システム。
　請求項１０に記載の音声入力システムにおいて、
　前記テンプレート文章の中で、ユーザが穴埋めで発言する内容の種類を記憶する特徴データを当該テンプレート文章に対応付けて記憶するとともに、音声認識処理手段に、当該特徴データを提供可能に構成されたテンプレート記憶手段をさらに含む音声入力システム。
　請求項１から１１いずれかに記載の音声入力システムにおいて、
　ユーザから、前記結果データの送信先のメールアドレスの指定を受け付け、当該メールアドレスに、前記結果データを送信するメール送信部をさらに含む音声入力システム。
　コンピュータを、
　音声認識処理依頼とともに、音声を入力するために発呼を受ける電話の識別情報を受け付ける処理依頼受付手段、
　前記処理依頼受付手段が受け付けた前記電話の識別情報に基づき、発呼する発信手段、
　前記発信手段の発呼に対して着呼があり、ユーザの音声が入力されると、当該音声の音声データを受け付ける音声データ受付手段、
　前記音声データ受付手段が受け付けた前記音声データの音声認識結果のデータを、前記電話の識別情報に対応付けて記憶する音声認識結果記憶手段、
として機能させる音声入力プログラム。