WO2017068826A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2017068826A1
WO2017068826A1 PCT/JP2016/071296 JP2016071296W WO2017068826A1 WO 2017068826 A1 WO2017068826 A1 WO 2017068826A1 JP 2016071296 W JP2016071296 W JP 2016071296W WO 2017068826 A1 WO2017068826 A1 WO 2017068826A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
utterance
unknown word
threshold
Prior art date
Application number
PCT/JP2016/071296
Other languages
English (en)
French (fr)
Inventor
亜由美 加藤
邦仁 澤井
真一 河野
祐平 滝
佑輔 中川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/523,880 priority Critical patent/US10714082B2/en
Priority to JP2017514726A priority patent/JP6747434B2/ja
Publication of WO2017068826A1 publication Critical patent/WO2017068826A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • a process for registering a computer identified as an unknown word from a user's utterance information using a predetermined utterance method as an unknown word and a process for registering the identified unknown word
  • a program is provided that is made to function as a processing unit to perform.
  • speech signals of words not registered in the database used for recognition of speech information are highly likely to be recognized in phrase segmentation or notation unintended by the user 3. .
  • the user 3 needs to re-input speech information etc. in order to correct a word recognized in an unintended expression to an intended expression, and the convenience of speech input is low.
  • FIG. 2 is a block diagram for explaining the functional configuration of the information processing apparatus 1 according to the present embodiment.
  • the processing unit 111 when a word similar to the registered unknown word is uttered, the processing unit 111 similarly determines that the word similar to the registered unknown word is also an unknown word, and registers the word in various databases. You may perform the process for doing. As a word similar to the registered unknown word, for example, a word in which a prefix or a suffix is added to the registered unknown word can be exemplified. In such a case, the processing unit 111 may confirm to the user 3 whether or not to perform processing for registering words similar to the registered unknown word in various databases.
  • the information processing device 1 calculates the speech rate of the user 3 when the unknown word is not included from the speech time for a predetermined character amount, and based on the speech rate of the user 3, "indicator start time” and “indicator The “recognition time” may be changed.
  • the user 3 can prevent an unintended word from being identified as an unknown word and being registered in the database due to a mistake or the like in the utterance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】未知語が登録されたデータベースを効率的に生成する情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、識別された前記未知語を登録するための処理を行う処理部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、音声認識技術の向上により、ユーザが音声によって文字を入力することが一般的になっている。ただし、ユーザが発する音声に含まれる発話情報には、略称、言い換え、および固有名詞等のデータベース(例えば、コーパスなど)に登録されていない未知語が含まれることが多い。
 そのため、ユーザの発話情報を適切な表記に変換するためには、ユーザの発話情報に含まれる未知語を適切に認識することが必要である。認識された未知語は、データベースに登録されるため、以後、適切な表記に変換されるようになる。
 このような技術としては、例えば、下記の特許文献1に開示されるように、ユーザ同士の連続した対話において、ユーザに登録モードを意識させることなく、対話内容から未知語を抽出し、所定のデータベースに登録する技術を例示することができる。
特開2003-271180号公報
 しかし、特許文献1に開示された技術では、所定のデータベースに登録されていない単語をすべて自動的に登録してしまうため、ユーザの使用頻度が低い単語も未知語として登録されてしまっていた。そのため、特許文献1に開示された技術によって生成されたデータベースは、登録された未知語に無駄が多く、効率が良くなかった。
 そこで、本開示では、未知語が登録されたデータベースを効率的に生成することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、識別された前記未知語を登録するための処理を行う処理部と、を備える、情報処理装置が提供される。
 また、本開示によれば、演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、識別された前記未知語を登録するための処理を行うことと、を含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータをユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、識別された前記未知語を登録するための処理を行う処理部と、として機能させる、プログラムが提供される。
 本開示によれば、ユーザに使用頻度の高い未知語を意識的に登録させることが可能である。
 以上説明したように本開示によれば、未知語が効率的に登録されたデータベースを生成することが可能である。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の概要を説明する説明図である。 同実施形態に係る情報処理装置の機能構成を説明するブロック図である。 同実施形態に係る情報処理装置の動作例を説明するフローチャート図である。 未知語が意図されない表記に変換された画像の一例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 第1の入力例における入力欄の画像例を示す説明図である。 登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。 所定の発話方法における閾値までの時間を示す閾値画像の設定例を示す説明図である。 第2の入力例における入力欄の画像例を示す説明図である。 第2の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 第3の入力例における入力欄の画像例を示す説明図である。 誤って未知語が識別された入力欄の画像例を示す説明図である。 変形例における入力欄の画像例を示す説明図である。 変形例における入力欄の画像例を示す説明図である。 変形例における入力欄の画像例を示す説明図である。 登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。 本開示の一実施形態に係る情報処理装置のハードウェア構成例を示したブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.情報処理装置の概要
 2.情報処理装置の構成例
 3.情報処理装置の動作例
 4.未知語の入力の具体例
  4.1.第1の入力例
  4.2.第2の入力例
  4.3.第3の入力例
  4.4.入力の修正例
  4.5.変形例
 5.ハードウェア構成例
 6.まとめ
 <1.情報処理装置の概要>
 まず、図1を参照して、本開示の一実施形態に係る情報処理装置の概要について説明する。図1は、本実施形態に係る情報処理装置1の概要を説明する説明図である。
 図1に示すように、情報処理装置1は、例えば、音声入力装置5、および表示装置9と接続される。また、情報処理装置1は、操作入力装置7と接続されていてもよい。
 情報処理装置1は、ユーザ3によって音声入力装置5を介して音声入力された発話情報を認識し、認識した発話情報を文字にて表示した発話画像91を生成する。具体的には、情報処理装置1は、音声入力装置5にて収音されたユーザ3の音声からユーザ3の発話情報を認識し、認識した発話情報を表示する発話画像91を生成する。なお、発話画像91は、例えば、表示装置9に表示されることによって、ユーザ3に視認されてもよい。
 ユーザ3は、音声入力装置5を用いて、発話情報を入力する。例えば、ユーザ3は、音声入力装置5を用いて音声チャットをしながら、操作入力装置7を用いて表示装置9に表示されるビデオゲーム等を遊ぶユーザであってもよい。
 音声入力装置5は、ユーザ3の音声を収音し、情報処理装置1に入力する。音声入力装置5は、例えば、表示装置9の前に設置されたマイクロフォンであってもよく、操作入力装置7に内蔵されたマイクロフォンであってもよく、またはユーザ3が装着したヘッドセットなどであってもよい。
 操作入力装置7は、ユーザ3からの音声以外の入力を受け付け、情報処理装置1に入力する。例えば、操作入力装置7は、表示装置9に表示されるビデオゲーム等を操作するためのコントローラであってもよい。
 表示装置9は、情報処理装置1等によって生成された画像を表示する。表示装置9は、例えば、CRT(Cathode Ray Tube)表示装置、液晶表示装置および有機エレクトロルミネッセンス表示装置などの表示装置を備えていれば、特に形態は限定されない。表示装置9は、例えば、表示装置を備えたパーソナルコンピュータ、テレビジョン装置、スマートフォン、表示装置を備えたウェアラブル装置、および透過型または遮蔽型のヘッドマウントディスプレイ装置などであってもよい。
 ここで、情報処理装置1の音声認識において、発話情報の認識に用いられるデータベースに登録されていない単語の音声信号は、ユーザ3が意図しない文節区切り、または表記にて認識される可能性が高い。このような場合、ユーザ3は、意図しない表記にて認識された単語を意図した表記に修正するために、発話情報の再入力等をする必要があり、音声入力の利便性が低かった。
 特に、ビデオゲームでは、該ビデオゲームにて特有の固有名詞が存在することが多い。このような固有名詞は、通常の発話情報の認識に用いられるデータベース(例えば、コーパスなど)に登録されていないことが多いため、ユーザ3が意図しない文節区切り、または表記にて認識される可能性が高い。
 また、該ビデオゲーム用の辞書データベースが用意されていた場合でも、音声チャットなどでは、略称、俗語、および独自の言い換えなどの口語的な表現が使用されることが多いため、データベースに登録されていない未知語がユーザによって生成されることもある。口語的な表現が多い音声チャットなどでは、ユーザ3によって新たな未知語が日々生成されていると考えられる。
 そのため、ユーザ3の発話情報に含まれる未知語を発話情報の認識に用いられるデータベースに効率的に登録することが求められていた。
 本実施形態に係る情報処理装置1では、ユーザ3の発話情報の中から、所定の条件を満たす単語を未知語として識別し、識別した未知語を発話情報の認識に用いるデータベースに登録するための処理を行う。
 ここで、所定の条件を満たす単語とは、ユーザ3が所定の発話方法にて発話した単語である。具体的には後述するが、例えば、情報処理装置1は、各文字の後に所定の無音区間を設けて発話された単語を未知語と識別してもよく、各文字を所定の長音として発話された単語を未知語と識別してもよく、所定の音量以上にて発話された単語を未知語と識別してもよい。さらに、情報処理装置1は、所定の語にて挟まれて発話された単語を未知語と識別してもよい。
 これにより、本実施形態に係る情報処理装置1は、ユーザに未知語を意識的に登録させることができるため、効率的に未知語をデータベースに登録することができる。また、所定の発話方法にて発話されたことを未知語の識別に用いる場合、ユーザ3の操作性および利便性を損なわずに、効率的に未知語を識別することが可能である。
 また、情報処理装置1は、登録された未知語を一単語と見なして優先的に文節区切りして、音声認識する。したがって、ユーザ3は意識的に未知語を登録することにより、未知語が意図しない文節区切り、または表記にて認識されることを少なくすることができる。よって、情報処理装置1は、ユーザ3の音声入力の利便性を向上させることができる。
 <2.情報処理装置の構成例>
 次に、図2を参照して、本実施形態に係る情報処理装置1の構成について説明する。図2は、本実施形態に係る情報処理装置1の機能構成を説明するブロック図である。
 図2に示すように、情報処理装置1は、音声取得部101と、発話認識部103と、識別部105と、識別制御部107と、画像生成部109と、処理部111と、データベース記憶部113とを備える。なお、データベース記憶部113は、情報処理装置1と接続された外部の記憶装置に備えられていてもよい。
 音声取得部101は、音声入力装置5からユーザ3が発した音声信号を取得する。具体的には、音声取得部101は、音声入力装置5からの信号の入力を受け取ることが可能な接続インタフェースであってもよい。例えば、音声取得部101は、USB(Universal Serial Bus)ポート、イーサネット(登録商標)ポート、IEEE802.11規格ポート、および光オーディオ端子等の有線または無線の接続ポートで構成された外部入力インタフェースであってもよい。
 発話認識部103は、ユーザ3が発した音声信号を音声認識することで、ユーザ3が発した音声信号を文字にて書き起こした発話情報に変換する。具体的には、発話認識部103は、ユーザ3が発した音声信号から特徴パラメータを抽出し、抽出された特徴パラメータに基づいて各種データベースを参照することで、入力された音声に最も近いと判断された単語列をユーザ3が発した発話情報であると認識する。
 なお、発話認識部103が音声信号の認識に用いる特徴パラメータとしては、例えば、スペクトル、基本周波数、フォルマント周波数、パワー線形予測係数、ケプストラム係数、線スペクトル対などを例示することができる。
 データベース記憶部113は、発話認識部103によって音声認識に用いられる各種データベースを記憶する。例えば、データベース記憶部113は、音響モデルデータベース、言語モデルデータベース、および辞書データベース等を記憶してもよい。
 例えば、音響モデルデータベースは、音声認識する音声の言語における個々の音韻および音節などの音響的な特徴を表す音響モデルを集積したデータベースである。なお、音響モデルとしては、例えば、隠れマルコフモデルなどを使用することができる。また、辞書データベースは、音声認識される各単語の発音に関する情報、および音韻および音節の連鎖関係に関する情報などを集積したデータベースであり、言語モデルデータベースは、辞書データベースに登録されている各単語が互いにどのように接続するのかに関する情報を集積したデータベースである。
 これらの各種データベースを参照することにより、発話認識部103は、ユーザ3が発した音声信号を認識し、認識した発話の内容を文字にて出力することができる。
 なお、これらの各種データベースは、ユーザ3ごとにそれぞれ用意されていてもよく、ユーザ3が参加するチャットルームまたはビデオゲーム等にて共通のデータベースが用意されていてもよい。
 識別部105は、ユーザ3の発話情報の中から、所定の条件を満たす単語を識別し、識別した単語を未知語であると判断する。具体的には、識別部105は、ユーザ3の発話情報の中に、所定の発話方法にて発話された単語が含まれるか否かを判断し、所定の発話方法にて発話された単語が含まれる場合、該単語を未知語として識別する。
 ここで、所定の発話方法とは、ユーザ3が意識的に行うことができる発話方法であれば、どのようなものであってもよい。ただし、ユーザ3の発話が意図せずに所定の発話方法となってしまうことを防止するために、所定の発話方法は、閾値が設定された発話方法であることが望ましい。情報処理装置1は、ユーザ3に対して閾値を示すことにより、発話の際に閾値を超えて所定の発話方法とするか否かをユーザ3が制御できるようにしてもよい。
 なお、上述した所定の発話方法としては、例えば、各文字の後に閾値以上の長さの無音区間を設けて単語を発話する方法、各文字を閾値以上の長さの長音にて単語を発話する方法、および各文字を閾値以上の大きさの音量にて発話する方法などを例示することができる。
 識別制御部107は、識別部105による未知語の識別を制御する。
 具体的には、識別制御部107は、識別部105によって未知語の識別を実行するか否かを制御してもよい。例えば、識別制御部107は、ユーザ3の視線情報を取得し、ユーザ3の視線が表示装置9に向いていない場合、未知語の識別を実行しないように識別部105を制御してもよい。これは、ユーザ3が表示装置9に視線を向けていない場合、ユーザ3が発話の内容に注意を向けていない可能性が高く、ユーザ3が意図していないにも関わらず、発話情報に含まれる単語が所定の条件を満たし、未知語と識別されることを防止するためである。
 また、識別制御部107は、識別部105による未知語の識別に用いられる所定の条件を制御してもよい。例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することである場合、識別制御部107は、無音区間の長さの閾値を変更してもよい。また、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することである場合、識別制御部107は、長音の長さの閾値を変更してもよい。さらに、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することである場合、識別制御部107は、音量の大きさの閾値を変更してもよい。
 このような未知語の識別に用いられる所定の条件の変更は、ユーザ3の入力に基づいて制御されてもよく、または、ユーザ3の状態に関する情報に基づいて制御されてもよい。具体的には、識別制御部107は、ユーザ3の入力に基づいて、未知語の識別に用いられる所定の条件、または所定の条件に設定されている閾値を変更してもよい。
 識別制御部107は、ユーザ3に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。
 具体的には、識別制御部107は、音声入力装置5および操作入力装置7に備えられた各種センサからユーザ3の生体情報を取得し、取得した生体情報から判断されるユーザ3の状態に基づいて、所定の条件に設定されている閾値を変更してもよい。各種センサから取得可能なユーザ3の生体情報としては、例えば、ユーザ3の心拍(脈拍)数、体温、発汗量、血圧、および呼吸数などを例示することができる。
 例えば、識別制御部107は、取得したユーザ3の生体情報から、ユーザ3が緊張または興奮状態、および集中度が高い状態であると判断される場合、当該ユーザ3の状態に応じて、所定の条件に設定されている閾値を増加または減少させてもよい。なお、識別制御部107が、ユーザ3の状態に応じて、所定の条件に設定されている閾値をどのように制御するのかについては、適宜、適切な制御が選択される。
 また、具体的には、識別制御部107は、ユーザ3の通常時の発話の様態に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつユーザ3の通常時の発話速度が速い場合、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。また、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつユーザ3の通常時の発話速度が速い場合、識別制御部107は、長音の長さの閾値を小さくしてもよい。さらに、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつユーザ3の通常時の発話の音量が大きい場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。このような場合、識別制御部107は、未知語を識別するための所定の条件をユーザ3ごとに最適化することができるため、未知語の登録に掛かるユーザ3の負担を低減することができる。
 識別制御部107は、ユーザ3からの発話情報が入力されるコンテンツに関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部107は、ユーザ3からの発話情報が入力されるコンテンツの種類に基づいて、所定の条件に設定されている閾値を変更してもよい。
 例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。また、発話情報が入力されるコンテンツがチャット等の即時的なものである場合、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。
 例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部107は、長音の長さの閾値を大きくしてもよい。また、発話情報が入力されるコンテンツがチャット等の即時的なものである場合、識別制御部107は、長音の長さの閾値を小さくしてもよい。
 例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつ発話情報が入力されるコンテンツがメーラーまたはテキストエディタ等である場合、識別制御部107は、音量の大きさの閾値を小さくしてもよい。また、発話情報が入力されるコンテンツがチャット等である場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。
 識別制御部107は、ユーザ3の周囲の環境に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部107は、ユーザ3の周囲の環境の照度、場所、状況、騒音レベル、時刻、高度、気温、風向き、および風量のうちの少なくともいずれかに基づいて、所定の条件に設定されている閾値を変更してもよい。
 例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつユーザ3の周囲の環境の騒音レベルが高い場合、ノイズの混入を避けるため、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。また、ユーザ3の周囲の環境の騒音レベルが高い場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。
 例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつユーザ3が屋外にいる場合、識別制御部107は、ユーザ3が短時間で入力を行うことができるように、長音の長さの閾値を小さくしてもよい。また、ユーザ3が屋内にいる場合、識別制御部107は、長音の長さの閾値を大きくしてもよい。
 例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつユーザ3の周囲の環境の騒音レベルが高い場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。また、ユーザ3の周囲の環境の騒音レベルが低い場合、識別制御部107は、音量の大きさの閾値を小さくしてもよい。
 識別制御部107は、発話情報を取得する音声入力装置に関する情報に基づいて、所定の条件に設定されている閾値を変更してもよい。具体的には、識別制御部107は、発話情報を取得する音声入力装置の音声認識の処理速度、入力感度、ノイズの入りやすさ、および指向性のうちの少なくともいずれかに基づいて、所定の条件に設定されている閾値を変更してもよい。
 例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ音声入力装置の音声認識の処理速度が遅い場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。また、音声入力装置の音声認識の処理速度が速い場合、識別制御部107は、無音区間の長さの閾値を小さくしてもよい。
 例えば、所定の条件が未知語の各文字の後に閾値以上の長さの無音区間を設けて発話することであり、かつ音声入力装置のノイズレベルが高い場合、識別制御部107は、誤検出を避けるため、無音区間の長さの閾値を小さくしてもよい。また、音声入力装置のノイズレベルが低い場合、識別制御部107は、無音区間の長さの閾値を大きくしてもよい。
 例えば、所定の条件が未知語の各文字を閾値以上の長さの長音にて発話することであり、かつ音声入力装置のノイズレベルが高い場合、識別制御部107は、誤検出を避けるため、長音の長さの閾値を小さくしてもよい。また、音声入力装置のノイズレベルが低い場合、識別制御部107は、長音の長さの閾値を大きくしてもよい。
 例えば、所定の条件が未知語の各文字を閾値以上の大きさの音量にて発話することであり、かつ音声入力装置の入力感度が高い場合、識別制御部107は、音量の大きさの閾値を大きくしてもよい。また、音声入力装置の入力感度が低い場合、識別制御部107は、音量の大きさの閾値を小さくしてもよい。
 以上の閾値の制御によれば、識別制御部107は、未知語を識別するための所定の条件をユーザ3ごとに最適化することができるため、未知語の登録に掛かるユーザ3の負担を低減することができる。ただし、識別制御部107による閾値の制御は、上述した例示に限定されない。例えば、識別制御部107は、上述した例示における閾値の制御方向と逆の方向に閾値を制御してもよい。
 画像生成部109は、ユーザ3の発話情報を文字にて表示した発話画像を生成する。具体的には、画像生成部109は、発話認識部103によって認識したユーザ3の発話情報を文字表記に変換して表示した発話画像を生成する。これにより、ユーザ3は、発話画像に表示された発話情報の文字表記を確認することによって、自身が発話した内容が情報処理装置1において正確に音声認識されているかを確認することができる。
 また、発話画像において、識別部105によって未知語であると識別された単語は、ひらがな、カタカナ、またはローマ字などの所定の表音文字にて表示されてもよい。これは、未知語では、ユーザ3が意図する漢字変換が不明であるため、漢字等の表意文字で表示するよりも表音文字にて表示することが適切であるためである。また、所定の表音文字にて未知語を表示することにより、未知語が文節区切りされない一単語であることを明示することができる。
 また、発話画像において、識別部105によって未知語であると識別された単語は、他の発話情報とは異なる表記にて表示されてもよい。例えば、未知語であると識別された単語は、他の発話情報とは異なる文字色、文字の大きさ、文字フォント、または修飾文字(例えば、太字、および斜体文字など)にて表示されてもよい。これにより、画像生成部109は、ユーザ3が発話したどの単語を未知語と識別したのかをユーザ3に明示することができる。
 さらに、画像生成部109は、ユーザ3の発話情報において、未知語を識別するための所定の条件が満たされているか否かを表示する画像を生成してもよい。具体的には、閾値が設定された所定の発話方法にて発話されたか否かによって未知語の識別が行われている場合、画像生成部109は、所定の発話方法における閾値、および発話方法が閾値を満たしているか否かを表示する閾値画像を生成してもよい。
 これによれば、ユーザ3は、自身の発話が未知語を識別するための所定の発話方法を満たしているか否かを確認することができる。そのため、ユーザ3は、意図しない単語が未知語として識別されたり、または未知語として登録したい単語が未知語と識別されなかったりすることを回避することができる。
 処理部111は、識別部105によって未知語と識別された単語を登録するための処理を行う。例えば、音声認識に用いる各種データベースがデータベース記憶部113に記憶されている場合、処理部111は、識別部105によって未知語と識別された単語をデータベース記憶部113に記憶された各種データベースに登録してもよい。また、音声認識に用いる各種データベースが情報処理装置1の外部の記憶装置に記憶されている場合、処理部111は、未知語と識別された単語を各種データベースに登録するために必要な情報を生成し、外部の記憶装置に出力してもよい。
 なお、処理部111は、ユーザ3によって発話情報が確定された場合に、未知語と識別された単語を登録するための処理を行う。例えば、ユーザ3が音声チャットを行っている場合、ユーザ3が発話した発話情報をメッセージとして相手先に送信した際に、処理部111は、発話情報が確定されたと判断し、未知語と識別された単語を登録するための処理を行ってもよい。
 ただし、処理部111によって未知語と識別された単語を登録するための処理が行われるタイミングは、上記に限定されない。例えば、発話情報の修正が少ないユーザ3については、処理部111は、ユーザ3が所定の条件を満たすように未知語を発話した時点で、当該未知語を各種データベースに登録するための処理を行ってもよい。また、所定の人数以上のユーザのデータベースに登録されている未知語については、処理部111は、ユーザ3が所定の条件を満たすように未知語を発話したされた時点で、当該未知語を各種データベースに登録するための処理を行ってもよい。
 また、処理部111は、登録された未知語と類似した単語が発話された場合、登録された未知語と類似した単語についても同様に未知語であると判断し、該単語を各種データベースに登録するための処理を行ってもよい。登録された未知語と類似した単語としては、例えば、登録された未知語に接頭語または接尾語が付加された単語を例示することができる。なお、このような場合、処理部111は、登録された未知語と類似した単語を各種データベースに登録するための処理を行うか否かをユーザ3に確認してもよい。
 <3.情報処理装置の動作例>
 続いて、図3を参照して、本実施形態に係る情報処理装置1の動作について説明する。図3は、本実施形態に係る情報処理装置1の動作例を説明するフローチャート図である。なお、以下で所定の条件を満たす単語とは、所定の発話方法によって発話された単語を表す。
 図3に示すように、音声取得部101は、音声入力装置5等からユーザ3の音声信号を取得する(S101)。次に、発話認識部103は、音声信号からユーザ3が発話している発話情報を認識する(S103)。続いて、識別部105は、発話認識部103によって認識された発話情報に所定の条件を満たす単語が含まれているか否かを判断する(S105)。発話情報に所定の条件を満たす単語が含まれる場合(S105/Yes)、識別部105は、所定の条件を満たす単語を未知語として識別する(S107)。また、画像生成部109は、識別された未知語を文節区切りせずに、所定の表音文字にて表示した発話画像を生成する(S109)。
 一方、発話情報に所定の条件を満たす単語が含まれない場合(S105/No)、画像生成部109は、発話認識部103にて認識された発話情報をそのまま表示した発話画像を生成する(S111)。
 ここで、音声取得部101は、ユーザ3による発話情報の修正があるか否かを確認し(S113)、発話情報の修正がある場合(S113/Yes)、発話情報の修正のための音声信号を取得する(S101)。一方、発話情報の修正がない場合(S113/No)、発話情報は、ユーザ3によって確定された後、送信される(S115)。未知語が識別されている場合、その後、処理部111は、識別した未知語に品詞等を与え、データベース記憶部113等に記憶された各種データベースに未知語を登録する。また、処理部111は、登録された未知語の変換の優先順位を高めてもよい(S117)。
 以上の構成および動作によれば、情報処理装置1は、より簡便な方法によってユーザ3に意識的に未知語を登録させることができる。したがって、情報処理装置1は、未知語が登録されたデータベースを効率的に生成することができる。
 また、所定の条件を満たして発話された未知語は、文節区切りされず一単語と見なされて音声認識されるため、情報処理装置1は、未知語がユーザ3の意図しない文節区切り、または表記にて表示されることを防止することができる。また、登録された未知語は、以降は、文節区切りされずに一単語として見なされるため、情報処理装置1は、ユーザ3の音声入力の利便性を向上させることができる。
 <4.未知語の入力の具体例>
 次に、図4~図12を参照して、本実施形態に係る情報処理装置1における未知語の入力の具体例について説明する。
 まず、図4を参照して、未知語が意図されない表記に変換された場合について説明する。図4は、未知語が意図されない表記に変換された画像の一例を示す説明図である。
 図4に示すように、表示装置9に表示されるビデオゲーム等の画像900において、ユーザ3が音声入力装置5を介して音声入力した発話情報は、下端の入力欄910に表示される。ユーザ3は、音声入力した発話情報が意図したとおり適切な表記になっている場合、送信ボタン920を押下することにより、音声入力した発話情報を音声チャットなどの相手先に送信することができる。なお、マイク画像930は、マイクロフォンの模式的な画像であり、入力欄910に表示される発話情報が音声入力によって入力されたものであることを示している。
 例えば、ユーザ3が「いま そこで ほるみに であったよー」と音声入力し、「ほるみ」が音声認識に用いられるデータベースに登録されていない未知語であったとする。ここで、音声入力された情報は、図4に示すように、データベースに登録されていない「ほるみ」が一単語として認識されず、「ほ」、「る」、「み」のそれぞれが文節区切りされて認識されてしまう。そのため、「ほ」、「る」、「み」のそれぞれが別個に漢字等に変換された結果、「帆留未」というユーザ3が意図しない表記にて入力欄910に入力されてしまう。このような場合、ユーザ3は、意図しない表記にて入力された「帆留未」という発話情報を再入力により修正したり、または音声入力に依らない方法にて修正したりする必要があり、音声入力の利便性を低下させていた。
 本実施形態に係る情報処理装置1では、所定の条件を満たすようにユーザ3が発話することにより、上記の未知語である「ほるみ」を所定の表音文字にて表記させることができる。また、未知語である「ほるみ」は、ユーザ3が所定の条件を満たすように発話することにより、データベースに登録される。データベース登録された「ほるみ」は、以降、通常の音声入力であっても文節区切り等されずに一単語として認識されるようになる。
 このような本実施形態に係る情報処理装置1における未知語の入力の具体例について第1~第3の入力例を例示して説明する。
 (4.1.第1の入力例)
 まず、図5A~図7を参照して、本実施形態に係る第1の未知語の入力例について説明する。図5A~図5Dは、第1の入力例における入力欄の画像例を示す説明図であり、図6は、登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。また、図7は、所定の発話方法における閾値までの時間を示す閾値画像の設定例を示す説明図である。
 第1の未知語の入力例において、各文字の後に閾値以上の長さの無音区間を設けて発話された場合、情報処理装置1は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ3が「ほるみ」を未知語として情報処理装置1に識別させたい場合、ユーザ3は「ほ」、「る」、「み」のそれぞれの後に閾値以上の無音区間を設けて発話すればよい。
 このような場合、図5Aに示すように、ユーザ3が「ほ」を発話してから無音区間を設けた場合、未知語として識別される閾値までの時間を示すインジケータである閾値画像941が入力欄911内に表示される。閾値画像941は、例えば、環状であり、閾値までの時間経過に伴い、環の表示色が時計回りに徐々に変化し、色が変化した領域が一周した際に時間経過が閾値に達するような画像であってもよい。また、閾値画像941は、横長の棒状であり、棒の表示色が左から徐々に変化し、色が変化した領域が棒の右に達した際に時間経過が閾値に達するような画像であってもよい。
 ユーザ3が未知語として「ほるみ」を登録したい場合、図5Bに示すように、ユーザ3は、「ほ」、「る」、「み」のそれぞれの文字を発話した後、閾値画像941の表示色が変化した領域が一周に達するまで(すなわち、無音区間の長さが閾値を超えるまで)無音区間を設けてから、次の文字を発話すればよい。このように情報処理装置1は、ユーザ3に対して、未知語として識別されるための発話方法を誘導することができるため、ユーザ3による未知語の登録を支援することができる。
 図5Cに示すように、「ほるみ」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ3は、閾値画像941の表示色が変化した領域が一周に達する前(すなわち、無音区間の長さが閾値を超える前)に、次の文字である「で」を発話する。これにより、情報処理装置1は、各文字の発話の後に閾値以上の無音区間が設けられた「ほるみ」を未知語であると識別することができる。
 未知語として識別された「ほるみ」は、例えば、図5Dに示すように、入力欄911において、所定の表音文字であるカタカナにて「ホルミ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。これにより、ユーザ3は、「ほるみ」が未知語として識別されたことを確認することができる。ユーザ3は、意図されたとおりに「ほるみ」が未知語として識別されたことを確認した場合、「今そこでホルミに出合ったよー」という発話情報を確定させることにより、未知語として識別された「ほるみ」をデータベースに登録することができる。
 図5A~図5Dに示した入力例により、「ほるみ」が未知語としてデータベースに登録された場合、図6に示すように、ユーザ3が所定の発話方法にて発話しなくとも「ほるみ」は、文節区切りされない一単語として認識され、入力欄910に表示されるようになる。この場合の「ほるみ」の表記は、所定の表音文字であるカタカナであってもよい。「ほるみ」の表記を別の表記に変化させたい場合、ユーザ3は、「ほるみ」の音声入力を所望の表記になるまで繰り返せばよい。
 なお、上述したように無音区間の長さの閾値は、未知語と識別される閾値までの時間を示すインジケータである閾値画像941の表示時間の設定を変更することによって、変更することができる。
 例えば、図7に示すように、閾値画像941には、未知語を発話してから閾値画像941が表示されるまでの時間である「インジケータ開始時間」、および表示色の変化が一周するまでの時間である「インジケータ認識時間」が設定される。すなわち、無音区間の長さの閾値は、「インジケータ開始時間」および「インジケータ認識時間」の和に等しい。ここで、未知語を発話してから閾値画像941が表示されるまでの時間が別途設定されているのは、通常の発話でも文字を発話するたびに閾値画像941が表示されることを防止するためである。
 「インジケータ開始時間」、および「インジケータ認識時間」は、ユーザ3によって変更されてもよいが、ユーザ3の通常の発話速度に基づいて情報処理装置1によって動的に変更されてもよい。
 例えば、情報処理装置1は、所定の文字量に対する発話時間から、未知語を含まない場合のユーザ3の発話速度を算出し、ユーザ3の発話速度に基づいて、「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。
 また、情報処理装置1は、無音区間の長さが閾値に達する前に次の語が発話された場合における閾値画像941の表示色が変化した領域の広さに応じて「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。この場合、情報処理装置1は、閾値画像941の表示色が変化した領域の広さが、おおよそ50%~60%程度になるように「インジケータ開始時間」および「インジケータ認識時間」を変更してもよい。
 また、情報処理装置1は、複数の「インジケータ開始時間」および「インジケータ認識時間」の組み合わせを有していてもよい。これは、緊張または興奮状態、集中度が高い状態、集中度が低い状態などのユーザ3の状態に応じて、情報処理装置1が適切な「インジケータ開始時間」および「インジケータ認識時間」の組み合わせを設定可能にするためである。
 ユーザ3の状態は、上述したように、音声入力装置5または操作入力装置7に備えられた各種センサから取得可能なユーザ3の心拍数、体温、発汗量、血圧、または呼吸数などを用いることで判断することができる。また、ユーザ3の状態は、操作入力装置7の操作の頻度、または強度などから判断されてもよい。
 (4.2.第2の入力例)
 次に、図8Aおよび図8Bを参照して、本実施形態に係る第2の未知語の入力例について説明する。図8Aおよび図8Bは、第2の入力例における入力欄の画像例を示す説明図である。
 第2の未知語の入力例において、各文字を閾値以上の音量にて発話された場合、情報処理装置1は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ3が「ほるみ」を未知語として情報処理装置1に識別させたい場合、ユーザ3は「ほ」、「る」、「み」のそれぞれの文字を閾値以上の音量にて発話すればよい。
 このような場合、図8Aに示すように、ユーザ3が「ほ」を発話した場合、ユーザ3の発話の音量を示すインジケータである閾値画像943が入力欄913内に表示される。例えば、閾値画像943は、ユーザ3の発話の音量の大きさを縦軸、時間を横軸に採用したグラフ状であり、音量の大きさの閾値が線として示された画像であってもよい。また、閾値画像943は、ユーザ3に発話の音量を示すために常時表示されているものを流用してもよい。
 ユーザ3が未知語として「ほるみ」を登録したい場合、図8Bに示すように、ユーザ3は、「ほ」、「る」、「み」のそれぞれの文字を音量のグラフが閾値の線を超えるように発話すればよい。また、「ほるみ」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ3は、発話の音量を小さくし、音量のグラフが閾値の線を超えないように発話すればよい。これにより、情報処理装置1は、ユーザ3に対して、未知語として識別されるための発話方法を誘導することができる。
 また、未知語として識別された「ほるみ」は、第1の未知語の入力例と同様に、入力欄913において、所定の表音文字であるカタカナにて「ホルミ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。
 第2の未知語の入力例では、未知語と識別される音量の大きさの閾値を変更することが可能である。このような場合、音量の大きさの閾値は、第1の未知語の入力例における「インジケータ開始時間」および「インジケータ認識時間」と同様に、ユーザ3によって変更されてもよく、ユーザ3の通常の発話音量に基づいて情報処理装置1によって動的に変更されてもよい。さらに、音量の大きさの閾値は、ユーザ3の状態に応じて、適宜、変更されてもよい。
 (4.3.第3の入力例)
 続いて、図9A~図9Dを参照して、本実施形態に係る第3の未知語の入力例について説明する。図9A~図9Dは、第3の入力例における入力欄の画像例を示す説明図である。
 第3の未知語の入力例において、各文字が閾値以上の長さの長音にて発話された場合、情報処理装置1は、これらの各文字からなる単語を未知語と識別する。したがって、例えば、ユーザ3が「あじーな」を未知語として情報処理装置1に識別させたい場合、ユーザ3は「あ」、「じー」、「な」のそれぞれを閾値以上の長さの長音にて発話すればよい。なお、「じー」は、未知語自体が長音であるため、「じ」の場合よりもさらに長い長音で発話する必要がある。
 このような場合、図9Aに示すように、ユーザ3が「あ」を長音にて発話した場合、未知語として識別される閾値までの時間を示すインジケータである閾値画像945が入力欄915内に表示される。閾値画像945は、例えば、環状であり、閾値までの時間経過に伴い、環の表示色が時計回りに徐々に変化し、色が変化した領域が一周した際に時間経過が閾値に達するような画像であってもよい。また、閾値画像945は、横長の棒状であり、棒の表示色が左から徐々に変化し、色が変化した領域が棒の右に達した際に時間経過が閾値に達するような画像であってもよい。
 ユーザ3が未知語として「あじーな」を登録したい場合、図9Aに示すように、ユーザ3は、「あ」、「じー」、「な」のそれぞれの文字を発話した後、閾値画像945の表示色が変化した領域が一周に達するまで(すなわち、長音の長さが閾値を超えるまで)長音を延ばしてから、次の文字を発話すればよい。これにより、情報処理装置1は、ユーザ3に対して、未知語として識別されるための発話方法を誘導することができる。
 なお、第3の未知語の入力例では、未知語自体が長音であるか否かを判断するために、未知語が長音であると識別される閾値までの時間を示すインジケータである長音判断画像946がさらに表示される。図9Bおよび図9Cに示すように、長音判断画像946は、未知語と識別される閾値までの時間を示すインジケータである閾値画像945が表示された後、続けて表示される。長音判断画像946は、閾値画像945と同様の画像であってもよいが、形状または色の少なくともいずれかを変更することにより、異なるインジケータであることが視認できる画像であってもよい。
 ユーザ3は、閾値画像945の表示色が変化した領域が一周に達するまで発話を延ばした後、さらに長音判断画像946の表示色が変化した領域が一周に達するまで(すなわち、長音の長さが長音であるか否かを識別する閾値を超えるまで)長音を延ばすことで、長音を含む未知語を入力することができる。なお、長音判断画像946の表示色が変化した領域が一周に達する前(すなわち、長音の長さが長音であるか否かを判断する閾値を超える前)に長音の延ばしが止められた場合、情報処理装置1は、未知語自体が長音ではないと判断する。
 さらに、「あじーな」を音声入力し終わった後、「に」を未知語に含めたくない場合、ユーザ3は、閾値画像945の表示色が変化した領域が一周に達する前(すなわち、長音の長さが閾値を超える前)に、「に」の長音の延ばしを止め、次の文字である「で」を発話する。これにより、情報処理装置1は、各文字が閾値以上の長音にて発話された「あじーな」を未知語であると識別することができる。
 未知語として識別された「あじーな」は、図9Dに示すように、入力欄915において、所定の表音文字であるカタカナにて「アジーナ」と表記され、さらに他の文字とは異なる修飾文字にて表示される。これにより、ユーザ3は、「あじーな」が未知語として識別されたことを確認することができる。ユーザ3は、意図されたとおりに「あじーな」が未知語として識別されたことを確認した場合、「今そこでアジーナに出合ったよー」という発話情報を確定させることにより、未知語として識別された「あじーな」をデータベースに登録することができる。
 なお、長音の長さの閾値は、第1の未知語の入力例と同様に、未知語と識別される閾値までの時間を示すインジケータである閾値画像945の表示時間の設定を変更することによって、変更することができる。また、未知語が長音であると識別される閾値までの時間を示すインジケータである長音判断画像946についても、閾値画像945と同様に、表示時間の設定を変更することが可能である。閾値画像945および長音判断画像946における「インジケータ開始時間」および「インジケータ認識時間」は、互いに独立して、ユーザ3によって変更されてもよく、ユーザ3の通常の発話速度に基づいて情報処理装置1によって動的に変更されてもよい。
 (4.4.入力の修正例)
 次に、図10を参照して、本実施形態に係る未知語の入力の修正例について説明する。図10は、誤って未知語が識別された入力欄の画像例を示す説明図である。
 図10で示すように、例えば、ユーザ3は、未知語として「ほるみ」を音声入力しようとしたものの、入力欄917では、未知語として「でほるみ」が識別されてしまった場合、ユーザ3は、入力欄917における未知語の入力をやり直す必要が生じる。
 このような場合、入力欄917に入力された発話情報を確定または送信する前であれば、ユーザ3は、再度、発話情報の全文または「でほるみ」を含む一部の音声入力をやり直すことで、識別された未知語を「でほるみ」から「ほるみ」に修正することができる。
 ここで、「でほるみ」から「ほるみ」に修正された後、入力欄917に入力された発話情報が確定または送信された場合、「でほるみ」ではなく「ほるみ」が未知語として登録されることになる。なお、ユーザ3が一部の音声入力をやり直した場合、発話認識部103は、パターンマッチング等によってユーザ3が音声入力をやり直した発話箇所を判断し、該当する箇所の発話情報を上書きしてもよい。
 これにより、ユーザ3は、発話のミス等によって、意図しない単語が未知語として識別されてデータベースに登録されてしまうことを防止することができる。
 (4.5.変形例)
 続いて、図11A~図12を参照して、本実施形態に係る未知語の入力の変形例について説明する。図11A~図11Cは、変形例における入力欄の画像例を示す説明図であり、図12は、登録後の未知語を通常の発話方法にて音声入力した際の画像の一例を示す説明図である。
 本実施形態に係る未知語の入力の変形例は、発話情報が英語等のアルファベットで表記される言語である場合において、未知語の識別および登録を行う例である。このような場合、ユーザ3は、所定の条件(例えば、所定の発話方法にて発話すること)を満たすように未知語を発話することに加えて、該未知語のアルファベット綴りおよび発音を発話することにより、情報処理装置1に未知語を識別させ、識別した未知語を登録させることができる。
 図11A~図11Cに示すように、例えば、ユーザ3が「Holme」を未知語として情報処理装置1に識別させたい場合、ユーザ3は、アルファベット綴りである「エイチ(H)」、「オー(O)」、「エル(L)」、「エム(M)」、「イー(E)」および発音である「ホォウム(houm)」を所定の条件を満たすように発話すればよい。
 具体的には、所定の条件が、第1の入力例と同様に、各文字の後に閾値以上の長さの無音区間を設けて発話されることである場合、ユーザ3は、「エイチ(H)」、「オー(O)」、「エル(L)」、「エム(M)」、「イー(E)」および「ホォウム(houm)」のそれぞれを閾値以上の長さの無音区間を設けて発話することにより、「Holme」を未知語として情報処理装置1に識別させることができる。
 このような場合、入力欄919には、第1の入力例と同様に、未知語として識別される閾値までの時間を示すインジケータである閾値画像949が表示されてもよい。また、未知語として識別された「Holme」は、図11Cに示すように、入力欄919において、他の文字とは異なる修飾文字にて表示されてもよい。
 図11A~図11Cに示した入力例により、「Holme」が未知語としてデータベースに登録された場合、図12に示すように、ユーザ3が所定の発話方法にて発話しなくとも「Holme」は、文節区切りされない一単語として認識されて入力欄919に表示されるようになる。また、ユーザ3は、「Send」ボタン929を押下することにより、音声入力した発話情報を確定させ、音声チャットなどの相手先に送信することができる。なお、マイク画像939は、マイクロフォンの模式的な画像であり、入力欄919に表示される発話情報が音声入力によって入力されたものであることを示す画像である。
 <5.ハードウェア構成例>
 以下では、図13を参照して、本実施形態に係る情報処理装置のハードウェア構成例について説明する。図13は、本実施形態に係る情報処理装置1のハードウェア構成例を示したブロック図である。なお、本実施形態に係る情報処理装置による情報処理は、ソフトウェアとハードウェアとの協働によって実現される。
 図13に示すように、情報処理装置1は、CPU(Central Processing Unit)151と、ROM(Read Only Memory)153と、RAM(Random Access Memory)155と、ブリッジ161と、内部バス157および159と、インタフェース163と、入力装置165と、出力装置167と、ストレージ装置169と、ドライブ171と、接続ポート173と、通信装置175と、を備える。
 CPU151は、演算処理装置および制御装置として機能し、ROM153等に記憶された各種プログラムに従って、情報処理装置1の動作全般を制御する。ROM153は、CPU151が使用するプログラム、演算パラメータを記憶し、RAM155は、CPU151の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。例えば、CPU151は、発話認識部103、識別部105、識別制御部107、画像生成部109、および処理部111等の機能を実行してもよい。
 これらCPU151、ROM153およびRAM155は、ブリッジ161、内部バス157および159等により相互に接続されている。また、CPU151、ROM153およびRAM155は、インタフェース163を介して入力装置165、出力装置167、ストレージ装置169、ドライブ171、接続ポート173および通信装置175とも接続されている。
 入力装置165は、タッチパネル、キーボード、ボタン、マイクロフォン、スイッチおよびレバーなどの情報が入力される入力装置を含む。また、入力装置165は、入力された情報に基づいて入力信号を生成し、CPU151に出力するための入力制御回路なども含む。
 出力装置167は、例えば、CRT表示装置、液晶表示装置、有機EL表示装置などの表示装置を含む。さらに、出力装置167は、スピーカおよびヘッドホンなどの音声出力装置を含んでもよい。
 ストレージ装置169は、情報処理装置1の記憶部の一例として構成されるデータ格納用の装置である。ストレージ装置169は、記憶媒体、記憶媒体にデータを記憶する記憶装置、記憶媒体からデータを読み出す読み出し装置、および記憶されたデータを削除する削除装置を含んでもよい。ストレージ装置169は、データベース記憶部113等の機能を実行してもよい。
 ドライブ171は、記憶媒体用リードライタであり、情報処理装置1に内蔵、または外付けされる。例えば、ドライブ171は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記憶されている情報を読み出し、RAM153に出力する。また、ドライブ171は、リムーバブル記憶媒体に情報を書き込むことも可能である。
 接続ポート173は、例えば、USBポート、イーサネット(登録商標)ポート、IEEE802.11規格ポート、および光オーディオ端子等のような外部接続機器を接続するための接続ポートで構成された接続インタフェースである。接続ポート173は、音声取得部101等の機能を実行してもよい。
 通信装置175は、例えば、公衆回線網または専用回線網などのネットワーク8に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置175は、有線または無線LAN対応通信装置であっても、有線によるケーブル通信を行うケーブル通信装置であってもよい。
 また、情報処理装置1に内蔵されるCPU、ROMおよびRAMなどのハードウェアを上述した本実施形態に係る情報処理装置の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
 <6.まとめ>
 以上にて説明したように、本実施形態に係る情報処理装置1によれば、より簡便な方法によってユーザ3に意識的に未知語を登録させることができるため、未知語が登録されたデータベースを効率的に生成することができる。
 また、所定の条件を満たして発話された未知語は、文節区切りされず一単語と見なされて音声認識されるため、情報処理装置1は、未知語がユーザ3の意図しない文節区切り、または表記にて表示されることを防止することができる。また、登録された未知語は、以降は、文節区切りされずに一単語として見なされるため、情報処理装置1は、ユーザ3の音声入力の利便性を向上させることができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
 識別された前記未知語を登録するための処理を行う処理部と、
を備える、情報処理装置。
(2)
 前記所定の発話方法は、各文字の後に閾値以上の長さの無音区間を設けて発話する方法である、前記(1)に記載の情報処理装置。
(3)
 前記所定の発話方法は、各文字を閾値以上の大きさの音量にて発話する方法である、前記(1)に記載の情報処理装置。
(4)
 前記所定の発話方法は、各文字を閾値以上の長さの長音にて発話する方法である、前記(1)に記載の情報処理装置。
(5)
 前記所定の発話方法における閾値は、前記ユーザに関する情報に基づいて制御される、前記(2)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記ユーザに関する情報は、前記ユーザの発話速度である、前記(5)に記載の情報処理装置。
(7)
 前記ユーザに関する情報、前記ユーザの生体に関する情報である、前記(5)に記載の情報処理装置。
(8)
 前記所定の発話方法における閾値は、前記発話情報が入力されるコンテンツに関する情報に基づいて制御される、前記(2)~(4)のいずれか一項に記載の情報処理装置。
(9)
 前記所定の発話方法における閾値は、前記ユーザの周囲の環境に関する情報に基づいて制御される、前記(2)~(4)のいずれか一項に記載の情報処理装置。
(10)
 前記所定の発話方法における閾値は、前記発話情報を取得する音声入力装置に関する情報に基づいて制御される、前記(2)~(4)のいずれか一項に記載の情報処理装置。
(11)
 認識した前記ユーザの発話情報を文字にて表示した発話画像を生成する画像生成部をさらに備える、前記(1)~(10)のいずれか一項に記載の情報処理装置。
(12)
 前記画像生成部は、前記所定の発話方法における閾値を表示した閾値画像をさらに生成する、前記(11)に記載の情報処理装置。
(13)
 前記発話画像において、前記未知語は、所定の表音文字にて表示される、前記(11)または(12)に記載の情報処理装置。
(14)
 前記発話画像において、前記未知語は、他の発話情報と異なる表記にて表示される、前記(11)~(13)のいずれか一項に記載の情報処理装置。
(15)
 前記ユーザの発話情報の言語がアルファベットで表記される言語である場合、
 前記所定の発話方法には、前記未知語のアルファベット綴りおよび発音を発話することがさらに含まれる、前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記発話情報は、前記ユーザが前記発話情報を発話し直した場合、発話し直した発話情報に修正される、前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記処理部は、前記ユーザが前記発話情報を確定させた場合、前記発話情報に含まれる前記未知語を登録するための処理を行う、前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
 登録された前記未知語は、文節区切りされない一単語と見なされる、前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
 演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、
 識別された前記未知語を登録するための処理を行うことと、
を含む、情報処理方法。
(20)
 コンピュータを
 ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
 識別された前記未知語を登録するための処理を行う処理部と、
として機能させる、プログラム。
 1    情報処理装置
 3    ユーザ
 5    音声入力装置
 7    操作入力装置
 9    表示装置
 101  音声取得部
 103  発話認識部
 105  識別部
 107  識別制御部
 109  画像生成部
 111  処理部
 113  データベース記憶部

Claims (20)

  1.  ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
     識別された前記未知語を登録するための処理を行う処理部と、
    を備える、情報処理装置。
  2.  前記所定の発話方法は、各文字の後に閾値以上の長さの無音区間を設けて発話する方法である、請求項1に記載の情報処理装置。
  3.  前記所定の発話方法は、各文字を閾値以上の大きさの音量にて発話する方法である、請求項1に記載の情報処理装置。
  4.  前記所定の発話方法は、各文字を閾値以上の長さの長音にて発話する方法である、請求項1に記載の情報処理装置。
  5.  前記所定の発話方法における閾値は、前記ユーザに関する情報に基づいて制御される、請求項2に記載の情報処理装置。
  6.  前記ユーザに関する情報は、前記ユーザの発話速度である、請求項5に記載の情報処理装置。
  7.  前記ユーザに関する情報は、前記ユーザの生体に関する情報である、請求項5に記載の情報処理装置。
  8.  前記所定の発話方法における閾値は、前記発話情報が入力されるコンテンツに関する情報に基づいて制御される、請求項2に記載の情報処理装置。
  9.  前記所定の発話方法における閾値は、前記ユーザの周囲の環境に関する情報に基づいて制御される、請求項2に記載の情報処理装置。
  10.  前記所定の発話方法における閾値は、前記発話情報を取得する音声入力装置に関する情報に基づいて制御される、請求項2に記載の情報処理装置。
  11.  認識した前記ユーザの発話情報を文字にて表示した発話画像を生成する画像生成部をさらに備える、請求項1に記載の情報処理装置。
  12.  前記画像生成部は、前記所定の発話方法における閾値を表示した閾値画像をさらに生成する、請求項11に記載の情報処理装置。
  13.  前記発話画像において、前記未知語は、所定の表音文字にて表示される、請求項11に記載の情報処理装置。
  14.  前記発話画像において、前記未知語は、他の発話情報と異なる表記にて表示される、請求項11に記載の情報処理装置。
  15.  前記ユーザの発話情報の言語がアルファベットで表記される言語である場合、
     前記所定の発話方法には、前記未知語のアルファベット綴りおよび発音を発話することがさらに含まれる、請求項1に記載の情報処理装置。
  16.  前記発話情報は、前記ユーザが前記発話情報を発話し直した場合、発話し直した発話情報に修正される、請求項1に記載の情報処理装置。
  17.  前記処理部は、前記ユーザが前記発話情報を確定させた場合、前記発話情報に含まれる前記未知語を登録するための処理を行う、請求項1に記載の情報処理装置。
  18.  登録された前記未知語は、文節区切りされない一単語と見なされる、請求項1に記載の情報処理装置。
  19.  演算処理装置によって、ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別することと、
     識別された前記未知語を登録するための処理を行うことと、
    を含む、情報処理方法。
  20.  コンピュータを
     ユーザの発話情報の中から、所定の発話方法によって発話された単語を未知語として識別する識別部と、
     識別された前記未知語を登録するための処理を行う処理部と、
    として機能させる、プログラム。
PCT/JP2016/071296 2015-10-23 2016-07-20 情報処理装置、情報処理方法、およびプログラム WO2017068826A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/523,880 US10714082B2 (en) 2015-10-23 2016-07-20 Information processing apparatus, information processing method, and program
JP2017514726A JP6747434B2 (ja) 2015-10-23 2016-07-20 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015208772 2015-10-23
JP2015-208772 2015-10-23

Publications (1)

Publication Number Publication Date
WO2017068826A1 true WO2017068826A1 (ja) 2017-04-27

Family

ID=58557260

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/071296 WO2017068826A1 (ja) 2015-10-23 2016-07-20 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US10714082B2 (ja)
JP (1) JP6747434B2 (ja)
WO (1) WO2017068826A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3396666A1 (en) * 2017-04-28 2018-10-31 Samsung Electronics Co., Ltd. Electronic device for providing speech recognition service and method thereof
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4220630A1 (en) * 2016-11-03 2023-08-02 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
KR102391298B1 (ko) * 2017-04-24 2022-04-28 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR20200013162A (ko) 2018-07-19 2020-02-06 삼성전자주식회사 전자 장치 및 그의 제어 방법
JP2021071632A (ja) * 2019-10-31 2021-05-06 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US11769323B2 (en) * 2021-02-02 2023-09-26 Google Llc Generating assistive indications based on detected characters

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343995A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体
JP2006058641A (ja) * 2004-08-20 2006-03-02 Nissan Motor Co Ltd 音声認識装置
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
JP2009103985A (ja) * 2007-10-24 2009-05-14 Nec Corp 音声認識システム、音声認識処理のための状況検知システム、状況検知方法および状況検知プログラム
JP2011154341A (ja) * 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US7292986B1 (en) * 1999-10-20 2007-11-06 Microsoft Corporation Method and apparatus for displaying speech recognition progress
US7143037B1 (en) * 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
US20060173680A1 (en) * 2005-01-12 2006-08-03 Jan Verhasselt Partial spelling in speech recognition
US8510103B2 (en) * 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343995A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体
JP2006058641A (ja) * 2004-08-20 2006-03-02 Nissan Motor Co Ltd 音声認識装置
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
JP2009103985A (ja) * 2007-10-24 2009-05-14 Nec Corp 音声認識システム、音声認識処理のための状況検知システム、状況検知方法および状況検知プログラム
JP2011154341A (ja) * 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3396666A1 (en) * 2017-04-28 2018-10-31 Samsung Electronics Co., Ltd. Electronic device for providing speech recognition service and method thereof
CN108806669A (zh) * 2017-04-28 2018-11-13 三星电子株式会社 用于提供语音识别服务的电子装置及其方法
EP3709294A1 (en) * 2017-04-28 2020-09-16 Samsung Electronics Co., Ltd. Electronic device for providing speech recognition service and method thereof
US10825453B2 (en) 2017-04-28 2020-11-03 Samsung Electronics Co., Ltd. Electronic device for providing speech recognition service and method thereof
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01
JP7416078B2 (ja) 2019-09-27 2024-01-17 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム

Also Published As

Publication number Publication date
US20170337919A1 (en) 2017-11-23
US10714082B2 (en) 2020-07-14
JP6747434B2 (ja) 2020-08-26
JPWO2017068826A1 (ja) 2018-08-16

Similar Documents

Publication Publication Date Title
WO2017068826A1 (ja) 情報処理装置、情報処理方法、およびプログラム
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
US20210366462A1 (en) Emotion classification information-based text-to-speech (tts) method and apparatus
KR101183310B1 (ko) 일반적인 철자 기억용 코드
EP3504709B1 (en) Determining phonetic relationships
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP2002244688A (ja) 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
TW201517015A (zh) 聲學模型的建立方法、語音辨識方法及其電子裝置
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP6897677B2 (ja) 情報処理装置及び情報処理方法
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JP2016521383A (ja) 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
JP2022133392A (ja) 音声合成方法、装置、電子機器及び記憶媒体
US20100185436A1 (en) Arabic poetry meter identification system and method
US20170116978A1 (en) Voice Synthesizing Apparatus, Voice Synthesizing Method, and Storage Medium Therefor
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
Hanifa et al. Malay speech recognition for different ethnic speakers: an exploratory study
Venkatagiri Speech recognition technology applications in communication disorders
US9437190B2 (en) Speech recognition apparatus for recognizing user's utterance
JP2006330060A (ja) 音声合成装置、音声処理装置、およびプログラム
JP7012935B1 (ja) プログラム、情報処理装置、方法
JP6897678B2 (ja) 情報処理装置及び情報処理方法
JP2000242295A (ja) 音声認識装置および音声対話装置
JP2008040197A (ja) 発話訓練装置

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2017514726

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16857144

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16857144

Country of ref document: EP

Kind code of ref document: A1