JPWO2008007688A1 - 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法 - Google Patents
音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法 Download PDFInfo
- Publication number
- JPWO2008007688A1 JPWO2008007688A1 JP2008524811A JP2008524811A JPWO2008007688A1 JP WO2008007688 A1 JPWO2008007688 A1 JP WO2008007688A1 JP 2008524811 A JP2008524811 A JP 2008524811A JP 2008524811 A JP2008524811 A JP 2008524811A JP WO2008007688 A1 JPWO2008007688 A1 JP WO2008007688A1
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- speech recognition
- dictionary data
- call
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 17
- 230000005540 biological transmission Effects 0.000 claims abstract description 21
- 238000012790 confirmation Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 241000283973 Oryctolagus cuniculus Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
通話端末間における音声認識用辞書を拡充するための簡便な手段を提供する。音声認識辞書の更新支援装置100は、通話端末200間の通話内容を音声認識するとともに、該音声認識結果から前記辞書データの提供元の音声認識辞書に含まれる単語を検出する音声認識処理部102と、辞書データの提供先となる通話端末200に対して、前記検出された単語に対応する辞書データを送信する許可単語送信部104と、を備える。通話端末200は、前記受け取った辞書データを登録するか否かをユーザに確認する追加確認部202を備え、登録操作が行われた場合にのみ、個人用認識辞書201に追加登録する。
Description
(関連出願)本願は、先の日本特許出願2006−193011号(2006年7月13日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声認識用の音声認識辞書を内蔵する通話端末、その音声認識辞書の更新支援装置及び更新方法に関する。
本発明は、音声認識用の音声認識辞書を内蔵する通話端末、その音声認識辞書の更新支援装置及び更新方法に関する。
音声認識に用いる音声認識辞書(以下、単に「辞書」ともいう。)の収録単語を増やしすぎると、認識処理の遅延やよく似た単語間での認識誤りが起こり、反対に、辞書の収録単語が少ない場合には該辞書に含まれない単語を認識することができず、認識精度が低下してしまうため、すべてのユーザに適用する共有辞書とは別に、個人辞書を持つ音声認識システムが知られている。
例えば、特開2005−128076号公報に、通話端末から発せられた音声を音声認識し、テキスト化して返す音声認識システムが開示されている。同公報の音声認識システムでは、すべての通話端末で共有する共有辞書の他に、ユーザ単位で汎用的でない語彙、文章を登録する個人辞書を備える構成が開示されている。また、この音声認識システムでは、通話端末から、語彙と読みを送信して、辞書データを追加することが可能となっている。
また、特開2004−072274号公報には、複数台の子機を有する親子電話機において、子機毎にカスタマイズ可能なユーザ辞書(読み付け用/認識用)を備え、入出力先となる子機のユーザ辞書を適用して音声処理(読み上げ、音声認識)を行う構成が開示されている。また、この親子電話機では、親機に子機毎に登録されているユーザ辞書の辞書データの使用を他の子機又は親機に許可するために、指定された辞書データ(同公報では「音声コマンド」)をコピーする機能を備えることが提案されている。
以上の特許文献1、2の開示事項は、本書に引用をもって繰り込み記載されているものとする。以下の分析は本発明により与えられる。
上記した各文献にも記載されているとおり、音声認識において良好な認識結果を得るためには、発話者毎に最適化された音声認識辞書を用意することが望ましい。しかしながら、音声認識辞書の収録データを簡便に増やす手段が無いのが実情である。例えば、特許文献1には、各個人が新規辞書データを登録する例(特許文献1の図2、図4参照)が示されているが、語彙と対応する読みを逐一入力するという煩雑な操作が必要となっている。
特許文献2に記載の方法によれば、ある子機のユーザ辞書を他の電話機に使用許可することが可能となっているが、当該許可により強制的に他のユーザ辞書が書き換えられてしまうという問題点がある。このような方法は、利用者が限られた親子電話機であるからこそ許容できるものであって、不特定の利用者によって使用される通話端末間では受け入れることができない。
また、特許文献2に記載の方法では、使用許可する辞書データを特定する手間があり、少数のコマンドではなく多くの単語を含む辞書を有する通話端末には向いていないという別の問題点もある。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、辞書データを簡便に選択し、他の通話端末に提供することが可能であり、しかも辞書が強制的に書き換えられてしまうことの無いシステム及び通話端末を提供することにある。
本発明の第1の視点によれば、ユーザ毎にカスタマイズ可能な音声認識辞書の更新支援装置であって、辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の通話端末の音声認識辞書に含まれる単語を検出する音声認識処理部と、辞書データの提供先となる通話端末の了解を得た上で、該提供先通話端末の音声認識辞書に前記検出された単語に対応する辞書データを登録する辞書データ登録部と、を備え、任意の単語を音声入力することにより任意の通話端末に対して辞書データを提供可能とする音声認識辞書の更新支援装置が提供される。
本発明の第2の視点によれば、音声認識機能を有する通話端末に保持された音声認識辞書の更新支援装置であって、辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の通話端末の音声認識辞書に含まれる単語を検出する音声認識処理部と、辞書データの提供先となる通話端末に対して、前記検出された単語に対応する辞書データを送信する辞書データ送信部と、を備え、任意の単語を音声入力することにより任意の通話端末に対して辞書データを送信することを可能とする音声認識辞書の更新支援装置及び該更新支援装置を介して辞書データを送受信可能な通話端末が提供される。
本発明の第3の視点によれば、入力音声を音声認識する機能と、前記音声認識に用いる辞書データの送信機能とを備えた通話端末であって、自機の音声認識辞書を用いて入力音声を音声認識するとともに、該音声認識結果から前記自機の音声認識辞書に含まれる単語を検出する音声認識処理部と、他の通話端末に対して、前記検出された単語に対応する辞書データを送信する辞書データ送信部と、前記辞書データを受信した際に、自機の音声認識辞書に追加するか否かを確認した上で登録する追加確認部と、を備え、音声入力された任意の単語に対応する辞書データを、任意の通話端末と送受信する通話端末が提供される。
本発明の第4の視点によれば、音声認識機能を有する通話端末毎に用意された(即ち、ユーザ毎にカスタマイズ可能な)音声認識辞書の更新方法であって、音声認識辞書の更新支援装置が、辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の音声認識辞書に含まれる単語を検出するステップと、前記音声認識辞書の更新支援装置が、辞書データの提供先となる通話端末に対して、該通話端末の音声認識辞書に前記検出された辞書データを追加して良いか否かを確認するステップと、前記音声認識辞書の更新支援装置が、前記確認結果に従って、前記提供先通話端末の音声認識辞書に、前記検出された単語に対応する辞書データを登録するステップと、を含む音声認識辞書の更新方法が提供される。
本発明の第5の視点によれば、音声認識機能を有する通話端末に保持された音声認識辞書の更新方法であって、音声認識辞書の更新支援装置が、辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の音声認識辞書に含まれる単語を検出するステップと、前記音声認識辞書の更新支援装置が、辞書データの提供先となる通話端末に対して、前記検出された単語に対応する辞書データを送信するステップと、前記辞書データを受信した通話端末が、ユーザの操作に従って、自機の音声認識辞書に、前記辞書データを追加するステップと、を含む音声認識辞書の更新方法が提供される。
本発明の第6の視点によれば、音声認識機能を有する通話端末に保持された音声認識辞書の更新方法であって、一の通話端末が、自機の音声認識辞書を用いて入力音声を音声認識するとともに、該音声認識結果から前記自機の音声認識辞書に含まれる単語を検出するステップと、前記一の通話端末が、他の通話端末に対して、前記検出された単語に対応する辞書データを送信するステップと、前記他の通話端末が、ユーザの操作に従って、自機の音声認識辞書に、前記辞書データを追加するステップと、を含む音声認識辞書の更新方法が提供される。
本発明によれば、他の通話端末に渡したい単語を発声するだけで、通話端末の辞書データを選択し、他の通話端末に分け与えることが可能となる。また、本発明によれば、辞書データを送信するのみであるので、受取側の通話端末の音声認識辞書が強制的に書き換えられてしまうことも無い。
続いて、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。
[第1の実施例]
図1は、本発明の第1の実施例のシステム構成を表した図である。図1を参照すると、複数の携帯電話端末(通話端末)200と、携帯電話端末200間の通話を中継する電話局内に配置された音声認識辞書の更新支援装置100とが示されている。
図1は、本発明の第1の実施例のシステム構成を表した図である。図1を参照すると、複数の携帯電話端末(通話端末)200と、携帯電話端末200間の通話を中継する電話局内に配置された音声認識辞書の更新支援装置100とが示されている。
音声認識辞書の更新支援装置100は、すべての携帯電話端末200の通話音声の認識処理に用いる共有認識辞書(共有音声認識辞書)101と、通話音声の認識処理を行う音声認識処理部102と、通話中に発話されることによって検出された他者への配布許可がなされた各携帯電話端末200の個人用認識辞書(ユーザ辞書)201内の単語を一時記憶する許可単語一時記憶部103と、通話終了時に許可単語一時記憶部103に保存されていた単語を携帯電話端末200に送信する許可単語送信部(辞書データ送信部)104と、を備えて構成される。
音声認識処理部102は、携帯電話端末200間での通話開始と同時に、通話を行う携帯電話端末200から個人用認識辞書201を受信する。音声認識処理部102は、前記各携帯電話端末200から受信した個人用認識辞書201と、共有認識辞書101を参照し、各携帯電話端末200間の通話音声の認識処理を行う。
音声認識処理部102は、前記通話音声の認識処理の結果、いずれかの携帯電話端末200から受信した個人用認識辞書201に登録されていた単語を検知すると、その単語を許可単語一時記憶部103に記録する。
そして、いずれかの携帯電話端末200で通話が終了すると、許可単語送信部(辞書データ送信部)104はその時点で許可単語一時記憶部103に保存されている単語(辞書データ)を、前記通話を終了した携帯電話端末200に対して送信する。
携帯電話端末200は、カスタマイズ可能な個人用認識辞書201と、所定の辞書データ提供モードで通話要求が行われた際に個人用認識辞書201を音声認識辞書の更新支援装置100に送信する制御部(図示省略)と、前記音声認識辞書の更新支援装置100の許可単語送信部104から渡される単語を個人用認識辞書201に加えるか否かをユーザに確認した上で、前記個人用認識辞書201への登録を行う追加確認部202と、を備えて構成される。
続いて、本実施例の動作について図面を参照して詳細に説明する。図2は、通話開始とともに音声認識辞書の更新支援装置100側で行われる動作を表したフローチャートである。図3は、通話終了後に携帯電話端末(通話端末)200側で行われる動作を表したフローチャートである。以下、図2、図3の順に、本実施例の動作を説明する。
図2に示すとおり、通話開始と同時に、携帯電話端末200から、各個人用認識辞書201が、音声認識辞書の更新支援装置100の音声認識処理部102へ送信される(ステップS101)。例えば、図1のように、3台の携帯電話端末200間で三者通話を行う場合は3つの個人用認識辞書201が音声認識処理部102にセットされることになる。
続いて、音声認識処理部102は、各携帯電話端末200から受け取った個人用認識辞書201の内容と、共有認識辞書101を用いて、携帯電話端末200からの発話に応じて随時音声認識を行う(ステップS102)。
ここで、音声認識処理部102は、この音声認識処理の間、随時認識結果を確認し、いずれかの携帯電話端末200の個人用認識辞書201に含まれる単語が音声認識されたことを確認すると(ステップS103のYES)、その単語を許可単語一時記憶部103に記録する(ステップS104)。
通話に参加していた携帯電話端末200のひとつが通話を終了すると(ステップS105のYES)、許可単語送信部104は、その時点で許可単語一時記憶部103に記録されたすべての単語を当該通話を終了した携帯電話端末200に送信する(ステップS106)。
すべての携帯電話端末200が通話を終了すると(ステップS107のYES)、図2のステップS106の単語(辞書データ)の送信動作を行った後、許可単語一時記憶部103の内容は消去される(ステップS108)。
音声認識辞書の更新支援装置100は、すべての携帯電話端末200の通話が終了するまで、上記処理を繰り返し実行し、通話内容から、各携帯電話端末200の個人用認識辞書201に登録された単語を検出し、許可単語一時記憶部103に記録する動作を繰り返す(ステップS107のNO)。
一方、携帯電話端末200において通話の終了を行うと、図3に示すとおり、携帯電話端末200は、音声認識辞書の更新支援装置100から送信された単語を受信する(ステップS201;図2のステップS106)。
前記単語を受信した携帯電話端末200は、追加確認部202を起動し、前記受信した単語を、個々にあるいは数個まとめてその表示部に表示し、個人用認識辞書201に追加するか否かを、ユーザに問い合わせる(ステップS202)。
ここで、ユーザにより所定の登録操作が行われた場合(ステップS203のYES)、追加確認部202は、前記登録操作が行われた単語を個人用認識辞書201に追加登録する(ステップS204)。
音声認識辞書の更新支援装置100から受信した単語で、登録するか否かを未確認の単語が無くなるまで、追加確認部202は、上記ステップS202からS204の動作を繰り返す(ステップS205)。
以上のように、本実施例に係る音声認識辞書の更新支援装置100によれば、個々人の携帯電話端末200内に含まれる個人用認識辞書201中に含まれる単語を、通話中にその単語に言及するだけで、通話相手の携帯電話端末200へ送信することが可能となっている。
一般に、通話中に任意の単語が用いられるということは、直接的ではないにしても、同時に、その単語の用例や意味の説明が行われているに等しい。従って、本実施例に係る音声認識辞書の更新支援装置100によれば、通常の言語コミュニケーションを行ううちに自然に、単語(辞書データ)を受け取る側にとってその単語(辞書データ)が有用かどうかの情報も伝達される。
また、本実施例に係る携帯電話端末(通話端末)200によれば、上記単語(辞書データ)の有用性に関する情報が得られるだけでなく、単語(辞書データ)が必要がどうかを判断してから、個人用認識辞書201に登録することが可能となっている。
また、一般に、音声認識辞書の収録単語数を増やし過ぎると、ユーザにとってなじみの無い単語が誤認識結果として現れる不都合があり、収録単語を厳選することが重要であるが、上記のとおり、本実施例に係る携帯電話端末(通話端末)200によれば、無用の単語(辞書データ)が登録されることは無いため、認識精度の劣化を抑止することが可能となっている。
なお、上記した実施例では、終話した携帯電話端末(通話端末)200に対して、検出した単語のすべてを送信するものとして説明したが、音声認識辞書の更新支援装置100側で、当該携帯電話端末(通話端末)200の個人用認識辞書201にすでに登録されているか否かの重複チェックを行うこととしてもよい。また、或いは、携帯電話端末(通話端末)200の追加確認部202で、個人用認識辞書201にすでに登録されているかを確認してから、ユーザに登録するか否かを問うものとすることも可能である。
続いて、本発明の具体の動作例を示して、本発明の効果をより端的に説明する。図4は、2台の携帯電話端末(通話端末)を用いて2者間(ユーザA、ユーザB)で通話を行い、単語(辞書データ)の追加を行った例を示している。
図4の最上段に示す通話前の状態において、携帯電話端末200A、携帯電話端末200Bは、それぞれ異なる単語を個人用認識辞書201A、201Bに保持している。ユーザAは国際的なスポーツイベントに関心があり、その携帯電話端末200Aの個人用認識辞書201Aには、「WBC」(=World Baseball Classic)、「トリノオリンピック」等といったキーワードが登録されている。一方、ユーザBは大相撲に関心があり、その携帯電話端末200Bの個人用認識辞書201Bには、「朝青龍」、「白鳳」といった力士名が登録されている。
図4の上から2段目に示すように、音声認識辞書の更新支援装置100を経由して、通話中にそれぞれが興味を持つ内容に言及することで、通話終了時には次段に示すように、それぞれ相手が言及した単語を個人用認識辞書201A、201Bに登録するか否かの確認メッセージが表示される。
例えば、ユーザAは、ユーザBとの会話により新たに力士「白鳳」に関心を持ち、今後自分が話題に挙げる可能性があると考え、個人用音声認識辞書201Aに追加することを選んでいる。これにより、携帯電話端末200Aで、その後「白鳳」を含む音声を入力し音声認識を行った場合、キーワード「白鳳」を含む個人用認識辞書201Aが参照され、的確に音声認識させることが可能となる。
一方、ユーザBは、ユーザAとの会話中に出てきたキーワードに関心を持たなかったので今後自分が話題に挙げる可能性は無いと考え、個人用音声認識辞書201Bに追加することを拒んでいる。これにより、携帯電話端末200Bで、その後「WBC」と誤認識されやすい単語を音声入力した場合であっても、個人用認識辞書201Bにはキーワード「WBC」が登録されていないため、「WBC」と誤認識されることを抑止できる。
以上の例にも示すように、本発明によれば、自然な通話を通して、音声認識辞書に追加する単語(辞書データ)を判別することが可能となり、各ユーザの音声認識辞書を、それぞれの嗜好に合った単語のみを収録した状態に保持することが可能となっている。
[第2の実施例]
続いて、上記第1の実施例に変更を加えた本発明の第2の実施例について説明する。
続いて、上記第1の実施例に変更を加えた本発明の第2の実施例について説明する。
図5は、本発明の第2の実施例のシステム構成を表した図である。図5を参照すると、許可単語送信部104に代えて、許可単語登録部(辞書データ登録部)105を備えている点と、個人用認識辞書106(図1の201)が音声認識辞書の更新支援装置100側に配置されている点の2点で、第1の実施例と相違している。
本実施例の動作も上記第1の実施例と略同様であり、音声認識処理部102が、共通認識辞書101及び個人用認識辞書106を参照して、音声認識を行う(図2のステップS102参照)。但し、本実施例においては、音声認識辞書の更新支援装置100側に個人用認識辞書106があるため、第1の実施例のような個人用認識辞書の送信は不要となる。
音声認識処理部102は、この音声認識処理の間、随時認識結果を確認し、いずれかの携帯電話端末200の個人用認識辞書106に含まれる単語が音声認識されたことを確認すると(図2のステップS103のYES参照)、その単語を許可単語一時記憶部103に記録する(図2のステップS104参照)。
そして、通話に参加していた携帯電話端末200のひとつが通話を終了すると(図2のステップS105のYES)、許可単語登録部(辞書データ登録部)105は、その時点で許可単語一時記憶部103に記録された単語を個人用認識辞書に登録するか否かを、当該通話を終了した携帯電話端末200に確認する。
ここで、肯定応答が得られたならば、許可単語登録部(辞書データ登録部)105は、当該携帯電話端末200の個人用認識辞書106に、前記確認が得られた単語(辞書データ)を登録する。反対に、否定応答であれば、許可単語登録部(辞書データ登録部)105は、当該単語(辞書データ)の登録は行わない。
すべての携帯電話端末200が通話を終了すると(図2のステップS107のYES参照)、前記辞書データの確認と登録動作を行った後、許可単語一時記憶部103の内容が消去される点は、上記第1の実施例と同様である。
本実施例の構成によっても上記第1の実施例と同様に、各ユーザの音声認識辞書の収録データを簡便に豊富化することが可能となる。
[第3の実施例]
続いて、上記音声認識辞書の更新支援装置100を用いず、携帯電話端末200のみで上記単語(辞書データ)の提供・交換を実現する本発明の第3の実施例について説明する。
続いて、上記音声認識辞書の更新支援装置100を用いず、携帯電話端末200のみで上記単語(辞書データ)の提供・交換を実現する本発明の第3の実施例について説明する。
図6は、本発明の第3の実施例に係る携帯電話端末の構成を表した図である。図6を参照すると、上記第1の実施例で説明した個人用認識辞書211、追加確認部212に加え、共有認識辞書(共有音声認識辞書)221、音声認識処理部222、許可単語一時記憶部223、許可単語送信部(辞書データ送信部)224を備えた携帯電話端末(通話端末)210が示されている。
上記共有認識辞書(共有音声認識辞書)221、音声認識処理部222、許可単語一時記憶部223、許可単語送信部(辞書データ送信部)224は、それぞれ、上記第1の実施例の音声認識辞書の更新支援装置100の共有認識辞書(共有音声認識辞書)101、音声認識処理部102、許可単語一時記憶部103と、許可単語送信部104に相当する。
共有認識辞書221は、携帯電話出荷時等に書き込まれる辞書であり、基本的に携帯電話端末210の機種が同一であれば同内容である。
音声認識処理部222は、所定の辞書データ提供モードが選択された状態での通話時において共有認識辞書221と個人用認識辞書211とを用いて、携帯電話端末210のレシーバ等から入力されるユーザの音声を認識する。また、音声認識処理部222は、前記音声認識の結果、自機の個人用認識辞書211に登録されていた単語を検知すると、その単語を許可単語一時記憶部223に記録する。
また、本実施例では、音声認識辞書の更新支援装置100を経由しないため、携帯電話端末210にそれぞれ備えられた許可単語送信部224が、適宜指定する携帯電話端末210に対して、許可単語一時記憶部223に保存されている単語(辞書データ)を送信する構成となっている。単語(辞書データ)の送信方法は、相手の携帯電話端末を特定できれば足り、携帯電話網を経由して送信しても良いし、あるいは、近距離無線通信や赤外線通信を用いて送信することとしても良い。
追加確認部212は、上記第1の実施例と同様に、許可単語送信部224より送信された単語(辞書データ)を個人用認識辞書211に登録するか否かの確認を行い、必要な場合のみ個人用認識辞書211に追加登録する。
本実施例も、上記第1の実施例と同様の動作にて、発話された内容に含まれる個人用認識辞書211の収録単語を、携帯電話端末210に送信することが可能となっている。
以上、本発明を実施するための好適な形態を説明したが、音声入力により送信すべき辞書データを特定し、他の通話端末に対して送信するという本発明の要旨を逸脱しない範囲で、各種の変形を加えることが可能であることはいうまでもない。例えば、上記した各実施例では、共有認識辞書と、個人用認識辞書とをそれぞれ持つ構成を例示して説明したが、本発明の原理に鑑みれば、斯かる構成のみならず、辞書データを追加可能な音声認識辞書を有する通信機器全般に適用可能である。
また例えば、上記した各実施例では、個人用認識辞書、共通認識辞書には、音声認識に使用する単語のみが記録されているものとして説明したが、収録単語を含んだフレーズ(句)、文といった使用例(コーパス)も収録した辞書を用いることも好ましい。これにより、音声認識における、認識率を向上させることができる。また、前記各辞書には、各収録単語の単独出現頻度、単独出現確率(ユニグラム確率)や、その単語を含む単語系列の出現回数、出現確率(n-gram確率)といった統計情報を含めることもできる。
この場合、これらの使用例も、辞書データとして送受信し、相手の通話端末の音声認識辞書に登録できるようにすることも可能である。例えば、通話相手から新たな単語を紹介され、その単語を個人用認識辞書に登録する操作をしたとき、その単語の使用例文、フレーズも受け取ることができ、より高精度な音声認識を実現することが可能となる。同様に、その単語に関する上記の統計情報もやり取りし、統計言語モデルに反映すれば、更に高精度な音声認識を実現することが可能となる。
また上記した各実施例では、通話端末として携帯電話端末を用いた例を挙げて説明したが、本発明は、その他構内電話や家庭内の親子電話機にも同様に適用可能である。
その他本発明の全開示(請求の範囲を含む)の枠内において、その基本的技術思想に基づいて、更なる変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。
また、本発明の更なる課題・目的及び展開形態は、本発明の請求の範囲を含む全開示事項からも明らかにされる。
Claims (16)
- ユーザ毎にカスタマイズ可能な音声認識辞書の更新支援装置であって、
辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の通話端末の音声認識辞書に含まれる単語を検出する音声認識処理部と、
辞書データの提供先となる通話端末からの了解を得た上で、該提供先通話端末の音声認識辞書に前記検出された単語に対応する辞書データを登録する辞書データ登録部と、を備え、
任意の単語を音声入力することにより任意の通話端末に対して辞書データを提供可能とする音声認識辞書の更新支援装置。 - 音声認識機能を有する通話端末に保持された音声認識辞書の更新支援装置であって、
辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の通話端末の音声認識辞書に含まれる単語を検出する音声認識処理部と、
辞書データの提供先となる通話端末に対して、前記検出された単語に対応する辞書データを送信する辞書データ送信部と、を備え、
任意の単語を音声入力することにより任意の通話端末に対して辞書データを提供可能とする音声認識辞書の更新支援装置。 - 前記音声認識処理部は、辞書データの提供先及び提供先の各通話端末間の通話内容を音声認識し、前記辞書データの提供元の通話端末の音声認識辞書に含まれる単語を検出すること、
を特徴とする請求項1又は2に記載の音声認識辞書の更新支援装置。 - 前記辞書データとは別に、前記音声認識処理部が、前記辞書データの提供先の通話端末に対して、音声認識結果を送信すること、
を特徴とする請求項1乃至3いずれか一に記載の音声認識辞書の更新支援装置。 - 前記音声認識辞書には、単語の使用例となる文又は句も保持されており、
前記音声認識処理部は、前記使用例も参照して音声認識を行い、
前記辞書データ登録部は、前記使用例を含んだ辞書データを登録すること、
を特徴とする請求項1、3、4いずれか一に記載の音声認識辞書の更新支援装置。 - 前記音声認識辞書には、単語の使用例となる文又は句も保持されており、
前記音声認識処理部は、前記使用例も参照して音声認識を行い、
前記辞書データ送信部は、前記使用例を含んだ辞書データを送信すること、
を特徴とする請求項2乃至4いずれか一に記載の音声認識辞書の更新支援装置。 - 複数の通話端末間の通話を中継する網側装置に組み込まれ、
前記音声認識処理部は、複数の通話端末より受信した音声認識辞書を用いて、前記複数の通話端末間の通話内容をテキスト化して前記各通話端末に送信するとともに、前記各音声認識辞書に含まれる単語を検出し、
前記辞書データ登録部は、前記通話を終了した端末の音声認識辞書に、前記検出した単語に対応する辞書データを登録すること、
を特徴とする請求項1、3、4、5いずれか一に記載の音声認識辞書の更新支援装置。 - 複数の通話端末間の通話を中継する網側装置に組み込まれ、
前記音声認識処理部は、複数の通話端末より受信した音声認識辞書を用いて、前記複数の通話端末間の通話内容をテキスト化して前記各通話端末に送信するとともに、前記各音声認識辞書に含まれる単語を検出し、
前記辞書データ送信部は、前記通話を終了した端末に対して、前記検出した単語に対応する辞書データを送信すること、
を特徴とする請求項2乃至4、6いずれか一に記載の音声認識辞書の更新支援装置。 - 請求項2乃至4、6、8いずれか一に記載の音声認識辞書の更新支援装置に対して、自機の音声認識辞書を送信するとともに、任意の単語を音声入力することにより、任意の通話端末に対して辞書データを送信することを可能とする通話端末。
- 請求項2乃至4、6、8いずれか一に記載の音声認識辞書の更新支援装置から、前記辞書データを受信した際に、自機の音声認識辞書に追加するか否かを確認した上で登録する追加確認部を備えたこと、
を特徴とする通話端末。 - 入力音声を音声認識する機能と、前記音声認識に用いる辞書データの送信機能とを備えた通話端末であって、
自機の音声認識辞書を用いて入力音声を音声認識するとともに、該音声認識結果から前記自機の音声認識辞書に含まれる単語を検出する音声認識処理部と、
他の通話端末に対して、前記検出された単語に対応する辞書データを送信する辞書データ送信部と、
前記辞書データを受信した際に、自機の音声認識辞書に追加するか否かを確認した上で登録する追加確認部と、を備え、
音声入力された任意の単語に対応する辞書データを、任意の通話端末と送受信可能としたこと、を特徴とする通話端末。 - 前記辞書データとは別に、前記音声認識処理部が、前記他の通話端末に対して、音声認識結果を送信すること、
を特徴とする請求項11に記載の通話端末。 - 前記音声認識辞書には、単語の使用例となる文又は句も保持されており、
前記音声認識処理部は、前記使用例も参照して音声認識を行い、
前記辞書データ送信部は、前記使用例を含んだ辞書データを送信すること、
を特徴とする請求項11又は12に記載の通話端末。 - ユーザ毎にカスタマイズ可能な音声認識辞書の更新方法であって、
音声認識辞書の更新支援装置が、辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の音声認識辞書に含まれる単語を検出するステップと、
前記音声認識辞書の更新支援装置が、辞書データの提供先となる通話端末に対して、該通話端末の音声認識辞書に前記検出された辞書データを追加して良いか否かを確認するステップと、
前記音声認識辞書の更新支援装置が、前記確認結果に従って、前記提供先通話端末の音声認識辞書に、前記検出された単語に対応する辞書データを登録するステップと、を含むこと、
を特徴とする音声認識辞書の更新方法。 - 音声認識機能を有する通話端末に保持された音声認識辞書の更新方法であって、
音声認識辞書の更新支援装置が、辞書データの提供元の通話端末の音声認識辞書を用いて、前記辞書データの提供元の通話端末から発せられた音声を音声認識するとともに、該音声認識結果から前記辞書データの提供元の音声認識辞書に含まれる単語を検出するステップと、
前記音声認識辞書の更新支援装置が、辞書データの提供先となる通話端末に対して、前記検出された単語に対応する辞書データを送信するステップと、
前記辞書データを受信した通話端末が、ユーザの操作に従って、自機の音声認識辞書に、前記辞書データを追加するステップと、を含むこと、
を特徴とする音声認識辞書の更新方法。 - 音声認識機能を有する通話端末に保持された音声認識辞書の更新方法であって、
一の通話端末が、自機の音声認識辞書を用いて入力音声を音声認識するとともに、該音声認識結果から前記自機の音声認識辞書に含まれる単語を検出するステップと、
前記一の通話端末が、他の通話端末に対して、前記検出された単語に対応する辞書データを送信するステップと、
前記他の通話端末が、ユーザの操作に従って、自機の音声認識辞書に、前記辞書データを追加するステップと、を含むこと、
を特徴とする音声認識辞書の更新方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006193011 | 2006-07-13 | ||
JP2006193011 | 2006-07-13 | ||
PCT/JP2007/063796 WO2008007688A1 (fr) | 2006-07-13 | 2007-07-11 | Terminal téléphonique ayant une fonction de reconnaissance vocale, dispositif de support de mise à jour de dictionnaire de reconnaissance vocale, et procédé de support associé |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2008007688A1 true JPWO2008007688A1 (ja) | 2009-12-10 |
Family
ID=38923244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008524811A Withdrawn JPWO2008007688A1 (ja) | 2006-07-13 | 2007-07-11 | 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090204392A1 (ja) |
JP (1) | JPWO2008007688A1 (ja) |
WO (1) | WO2008007688A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008114708A1 (ja) * | 2007-03-14 | 2008-09-25 | Nec Corporation | 音声認識システム、音声認識方法、および音声認識処理プログラム |
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
US8423353B2 (en) * | 2009-03-25 | 2013-04-16 | Microsoft Corporation | Sharable distributed dictionary for applications |
US9117448B2 (en) * | 2009-07-27 | 2015-08-25 | Cisco Technology, Inc. | Method and system for speech recognition using social networks |
US20120330662A1 (en) * | 2010-01-29 | 2012-12-27 | Nec Corporation | Input supporting system, method and program |
WO2011121649A1 (ja) * | 2010-03-30 | 2011-10-06 | 三菱電機株式会社 | 音声認識装置 |
US8532994B2 (en) | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
WO2013027360A1 (ja) * | 2011-08-19 | 2013-02-28 | 旭化成株式会社 | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 |
US9785628B2 (en) * | 2011-09-29 | 2017-10-10 | Microsoft Technology Licensing, Llc | System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication |
US9640175B2 (en) * | 2011-10-07 | 2017-05-02 | Microsoft Technology Licensing, Llc | Pronunciation learning from user correction |
JP5731998B2 (ja) * | 2012-03-21 | 2015-06-10 | 株式会社東芝 | 対話支援装置、対話支援方法および対話支援プログラム |
US20130325449A1 (en) * | 2012-05-31 | 2013-12-05 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US10431235B2 (en) | 2012-05-31 | 2019-10-01 | Elwha Llc | Methods and systems for speech adaptation data |
US9899040B2 (en) | 2012-05-31 | 2018-02-20 | Elwha, Llc | Methods and systems for managing adaptation data |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
JP6544693B2 (ja) * | 2014-12-25 | 2019-07-17 | エイディシーテクノロジー株式会社 | ロボット |
US9947313B2 (en) * | 2015-01-26 | 2018-04-17 | William Drewes | Method for substantial ongoing cumulative voice recognition error reduction |
US20160275942A1 (en) * | 2015-01-26 | 2016-09-22 | William Drewes | Method for Substantial Ongoing Cumulative Voice Recognition Error Reduction |
US20210193133A1 (en) * | 2016-04-11 | 2021-06-24 | Sony Corporation | Information processing device, information processing method, and program |
JP6883471B2 (ja) * | 2017-05-11 | 2021-06-09 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6414610B1 (en) * | 1997-02-24 | 2002-07-02 | Rodney J Smith | Data compression |
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
JP2001013985A (ja) * | 1999-07-01 | 2001-01-19 | Meidensha Corp | 音声認識システムの辞書管理方式 |
JP2002014693A (ja) * | 2000-06-30 | 2002-01-18 | Mitsubishi Electric Corp | 音声認識システム用辞書提供方法、および音声認識インタフェース |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
JP2003295893A (ja) * | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2005128076A (ja) * | 2003-10-21 | 2005-05-19 | Ntt Docomo Inc | 端末からの音声データを認識する音声認識システム及び方法 |
JP2005227510A (ja) * | 2004-02-12 | 2005-08-25 | Ntt Docomo Inc | 音声認識装置及び音声認識方法 |
JP2005229311A (ja) * | 2004-02-12 | 2005-08-25 | Ntt Docomo Inc | 通信端末機 |
-
2007
- 2007-07-11 US US12/309,246 patent/US20090204392A1/en not_active Abandoned
- 2007-07-11 WO PCT/JP2007/063796 patent/WO2008007688A1/ja active Application Filing
- 2007-07-11 JP JP2008524811A patent/JPWO2008007688A1/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US20090204392A1 (en) | 2009-08-13 |
WO2008007688A1 (fr) | 2008-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2008007688A1 (ja) | 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法 | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
US8032383B1 (en) | Speech controlled services and devices using internet | |
US8290775B2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
US8275618B2 (en) | Mobile dictation correction user interface | |
US8775189B2 (en) | Control center for a voice controlled wireless communication device system | |
CN103035240B (zh) | 用于使用上下文信息的语音识别修复的方法和系统 | |
RU2352979C2 (ru) | Синхронное понимание семантических объектов для высокоинтерактивного интерфейса | |
US20060149551A1 (en) | Mobile dictation correction user interface | |
US20120035923A1 (en) | In-vehicle text messaging experience engine | |
US20060247932A1 (en) | Conversation aid device | |
CN102292766A (zh) | 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品 | |
EP1851757A1 (en) | Selecting an order of elements for a speech synthesis | |
CN109326284A (zh) | 语音搜索的方法、装置和存储介质 | |
KR101367722B1 (ko) | 휴대단말기의 통화 서비스 방법 | |
JP2011253389A (ja) | 端末および擬似会話用返答情報作成プログラム | |
US9881611B2 (en) | System and method for providing voice communication from textual and pre-recorded responses | |
TWI277948B (en) | Method and system for template inquiry dialogue system | |
JP5510069B2 (ja) | 翻訳装置 | |
JP2003140690A (ja) | 情報システム、電子機器、プログラム | |
CN111274828B (zh) | 基于留言的语言翻译方法、系统、计算机程序和手持终端 | |
KR20010020871A (ko) | 개선된 어구 저장, 사용, 변환, 전달 및 인식을 갖춘 음성제어된 디바이스를 위한 방법 및 장치 | |
JP2001251429A (ja) | 携帯電話を使用した音声翻訳システムおよび携帯電話 | |
JP4049456B2 (ja) | 音声情報利用システム | |
JP2003141116A (ja) | 翻訳システム、翻訳方法、および、翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20101005 |