WO2015156011A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- WO2015156011A1 WO2015156011A1 PCT/JP2015/051570 JP2015051570W WO2015156011A1 WO 2015156011 A1 WO2015156011 A1 WO 2015156011A1 JP 2015051570 W JP2015051570 W JP 2015051570W WO 2015156011 A1 WO2015156011 A1 WO 2015156011A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- input
- text content
- text
- voice
- information processing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
1.音声入力の概要
2.情報処理装置の構成
3.音声入力処理
4.音声入力時のテキスト内容表示例
4.1.日本語による音声入力例
4.2.英語による音声入力例
4.3.グラスウェア端末でのテキスト内容表示例
5.ハードウェア構成例
6.まとめ
まず、図1を参照して、本開示の一実施形態に係る情報処理装置による音声入力時の表示処理の概要を説明する。図1は、本実施形態に係る音声入力時の一表示例を示す説明図である。
まず、図2に基づいて、本実施形態に係る情報処理装置100の機能構成について説明する。なお、図2は、本実施形態に係る情報処理装置100の機能構成を示す機能ブロック図である。情報処理装置100は、ユーザから入力情報を受け、入力情報の解析結果をユーザに提供する処理を行う。情報処理装置100は、例えばスマートフォンやタブレット端末、ヘッドマウントディスプレイやグラスウェア端末等のウェアラブル機器、テレビ、プロジェクタ装置等に用いられる処理装置である。
次に、図3に基づき、本実施形態に係る情報処理装置100による音声入力処理について説明する。なお、図3は、本実施形態に係る音声入力処理の一例を示すフローチャートである。
以下、図4~図11に基づいて、上述の情報処理装置100により音声入力を行った時のテキスト内容の表示例について説明する。以下では、表示部20とマイク30とを備える情報処理端末10の一機能である文字入力ソフトウェアに情報処理装置100を適用した場合について説明する。情報処理端末10の表示部20はタッチパネルとなっており、操作入力部110としての機能も備えている。
(A.第1入力)
まず、図4に、音声入力したい内容の例を示す。図4において、第1入力は、ユーザが最終的に入力したい文章に関連する単語や文等である。図4の例では、最終的に入力したい文章を入力するための参考となる単語や文を入力するとする。そして、第2入力は、例えばユーザが最終的に入力したい文章である。第2入力は、第1入力のテキスト内容を見ながら音声入力される。
第1入力のテキスト内容が第1テキスト表示領域43に表示されると、ユーザは、再びマイクアイコン41にタッチしてマイク30を音声取得状態にする。そして、ユーザは、第1テキスト表示領域43に表示されたテキスト内容を見ながら、ユーザが最終的に入力したい情報(すなわち、図4の第2入力の内容)を発話する。情報処理装置100は、第1入力のときと同様、音声を音声処理サーバ200に出力して音声認識処理を実行させ、その結果としてテキスト内容を取得する。テキスト内容を取得した情報処理装置100の情報処理部130は、例えば、図8に示すように、第2テキスト表示領域45にテキスト内容を表示する。
上述の音声入力処理の例は、言語に寄らず同様に行うことができる。例えば、図12に示すように、音声入力の言語が英語であっても、上述と同様に、ラフ入力として第1入力を行い、清書入力として第2入力を行うことができる。
上述の説明では、スマートフォンやタブレット端末等のような情報処理端末10におけるテキスト表示例について説明したが、他の機器においても同様に、入力された音声の音声認識処理の結果を表示することができる。例えば、図16に示すようなグラスウェア端末50において、表示部52には、図1に示したレイアウトのように、マイクアイコンや入力された音声の音声認識処理の結果を表示してもよい。この場合、マイクアイコンは、上述したように、視線やグラスウェア端末50の操作部、頭の動き等による操作入力により操作することができる。
上記実施形態に係る情報処理装置100による処理は、ハードウェアにより実行させることもでき、ソフトウェアによって実行させることもできる。この場合、情報処理装置100は、図17に示すように構成することもできる。以下、図17に基づいて、情報処理装置100のハードウェア構成例について説明する。
以上、本実施形態に係る情報処理装置100の構成とその機能について説明した。情報処理装置100は、音声入力の解析結果をテキスト表示させ、次の音声入力に活用できるようにすることで、音声認識しやすい音声で発話できる状態にユーザを導く。ユーザは音声入力の助けとなるテキストを見ながら発話可能であるため、入力したい内容を即座に整理しながら話すことができる。また、音声認識が期待通りの結果になりやすい状態を導くことができ、入力される音声から言いよどみや不要語を減らすことができる。結果として、間違いの少ない音声入力を誘導できる。
(1)入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、
前記処理部は、
第1の音声入力を受けて解析された第1のテキスト内容を取得して前記表示部に表示させ、
前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させ、
ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定する、情報処理装置。
(2)前記処理部は、前記第1のテキスト内容の解析途中結果を、前記第1のテキスト内容とともに前記表示部に表示させる、前記(1)に記載の情報処理装置。
(3)前記処理部は、前記第1のテキスト内容から予測される入力候補を、前記第1のテキスト内容とともに前記表示部に表示させる、前記(1)に記載の情報処理装置。
(4)前記処理部は、前記第1のテキスト内容と、前記第1のテキスト内容から予測される入力候補との対応関係を示す情報を前記表示部に表示させる、前記(3)に記載の情報処理装置。
(5)前記処理は、ユーザの操作入力に基づき、前記表示部に表示された前記第1のテキスト内容と前記入力候補とを入れ替えて表示させる、前記(3)または(4)に記載の情報処理装置。
(6)前記処理部は、前記第1のテキスト内容を、音声認識の確度に応じて強調して表示させる、前記(1)~(5)のいずれか1項に記載の情報処理装置。
(7)前記処理部は、入力された前記第1の音声入力のテキスト単位毎に応じて、前記第1のテキスト内容の表示テキスト単位を変更する、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)前記処理部は、前記第2のテキスト内容が入力テキストとして確定されなかった場合、ユーザの操作あるいは所定の条件に応じて入力テキストが確定されるまで、繰り返し音声入力の解析結果としてのテキスト内容を取得して前記表示部に表示させる、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
を含む、情報処理方法。
(10)コンピュータに、
第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
を含む処理を実行させるためのプログラム。
110 操作入力部
120 音声入力部
130 情報処理部
140 表示処理部
150 表示部
200 音声処理サーバ
210 音声認識処理部
Claims (10)
- 入力された音声の解析結果としてテキスト内容を取得し、表示部に表示させる処理部を備え、
前記処理部は、
第1の音声入力を受けて解析された第1のテキスト内容を取得して前記表示部に表示させ、
前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させ、
ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定する、情報処理装置。 - 前記処理部は、前記第1のテキスト内容の解析途中結果を、前記第1のテキスト内容とともに前記表示部に表示させる、請求項1に記載の情報処理装置。
- 前記処理部は、前記第1のテキスト内容から予測される入力候補を、前記第1のテキスト内容とともに前記表示部に表示させる、請求項1に記載の情報処理装置。
- 前記処理部は、前記第1のテキスト内容と、前記第1のテキスト内容から予測される入力補との対応関係を示す情報を前記表示部に表示させる、請求項3に記載の情報処理装置。
- 前記処理部は、ユーザの操作入力に基づき、前記表示部に表示された前記第1のテキスト内容と前記入力候補とを入れ替えて表示させる、請求項3に記載の情報処理装置。
- 前記処理部は、前記第1のテキスト内容を、音声認識の確度に応じて強調して表示させる、請求項1に記載の情報処理装置。
- 前記処理部は、入力された前記第1の音声入力のテキスト単位毎に応じて、前記第1のテキスト内容の表示テキスト単位を変更する、請求項1に記載の情報処理装置。
- 前記処理部は、前記第2のテキスト内容が入力テキストとして確定されなかった場合、ユーザの操作あるいは所定の条件に応じて入力テキストが確定されるまで、繰り返し音声入力の解析結果としてのテキスト内容を取得して前記表示部に表示させる、請求項1に記載の情報処理装置。
- 第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
を含む、情報処理方法。 - コンピュータに、
第1の音声入力の解析結果として第1のテキスト内容を取得して表示部に表示させること、
前記第1のテキスト内容が表示された状態で受け付けた第2の音声入力の解析結果としての第2のテキスト内容を取得して前記表示部に表示させること、
ユーザの操作あるいは所定の条件に応じて、前記第2のテキスト内容を入力テキストとして確定すること、
を含む処理を実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/120,371 US10074366B2 (en) | 2014-04-08 | 2015-01-21 | Information processing device, information processing method, and program |
EP15777401.9A EP3131093B1 (en) | 2014-04-08 | 2015-01-21 | Information processing device, information processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-079310 | 2014-04-08 | ||
JP2014079310 | 2014-04-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015156011A1 true WO2015156011A1 (ja) | 2015-10-15 |
Family
ID=54287593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/051570 WO2015156011A1 (ja) | 2014-04-08 | 2015-01-21 | 情報処理装置、情報処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10074366B2 (ja) |
EP (1) | EP3131093B1 (ja) |
WO (1) | WO2015156011A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USD738889S1 (en) | 2013-06-09 | 2015-09-15 | Apple Inc. | Display screen or portion thereof with animated graphical user interface |
US11157075B2 (en) * | 2018-05-01 | 2021-10-26 | Dell Products, L.P. | Gaze-activated voice services for interactive workspaces |
JP2020009395A (ja) * | 2018-07-05 | 2020-01-16 | 聡子 荻原 | タブレット |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1155614A (ja) * | 1997-08-04 | 1999-02-26 | Casio Comput Co Ltd | 音声認識画像処理装置 |
JP2001306091A (ja) * | 2000-04-26 | 2001-11-02 | Nec Software Kobe Ltd | 音声認識システムおよび単語検索方法 |
JP2005037615A (ja) * | 2003-07-18 | 2005-02-10 | Omron Corp | クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 |
JP2005228178A (ja) * | 2004-02-16 | 2005-08-25 | Nec Corp | 書き起こしテキスト作成支援システムおよびプログラム |
JP2009538444A (ja) * | 2006-05-25 | 2009-11-05 | マルチモダル テクノロジーズ,インク. | 音声認識方法 |
JP2010139826A (ja) * | 2008-12-12 | 2010-06-24 | Toyota Motor Corp | 音声認識システム |
JP2011002656A (ja) * | 2009-06-18 | 2011-01-06 | Nec Corp | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム |
JP2012226220A (ja) * | 2011-04-21 | 2012-11-15 | Ntt Docomo Inc | 音声認識装置、音声認識方法及び音声認識プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6937984B1 (en) * | 1998-12-17 | 2005-08-30 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with speech controlled display of recognized commands |
US9042867B2 (en) * | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
US9361883B2 (en) * | 2012-05-01 | 2016-06-07 | Microsoft Technology Licensing, Llc | Dictation with incremental recognition of speech |
KR20130135410A (ko) * | 2012-05-31 | 2013-12-11 | 삼성전자주식회사 | 음성 인식 기능을 제공하는 방법 및 그 전자 장치 |
KR101992191B1 (ko) * | 2012-11-01 | 2019-06-24 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
KR102023008B1 (ko) * | 2012-12-10 | 2019-09-19 | 엘지전자 주식회사 | 음성-텍스트 변환 디스플레이 장치 및 그 방법 |
JP6178198B2 (ja) * | 2013-09-30 | 2017-08-09 | 株式会社東芝 | 音声翻訳システム、方法およびプログラム |
US10389876B2 (en) * | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
WO2015178715A1 (en) * | 2014-05-23 | 2015-11-26 | Samsung Electronics Co., Ltd. | System and method of providing voice-message call service |
US10446143B2 (en) * | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
-
2015
- 2015-01-21 US US15/120,371 patent/US10074366B2/en active Active
- 2015-01-21 EP EP15777401.9A patent/EP3131093B1/en active Active
- 2015-01-21 WO PCT/JP2015/051570 patent/WO2015156011A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1155614A (ja) * | 1997-08-04 | 1999-02-26 | Casio Comput Co Ltd | 音声認識画像処理装置 |
JP2001306091A (ja) * | 2000-04-26 | 2001-11-02 | Nec Software Kobe Ltd | 音声認識システムおよび単語検索方法 |
JP2005037615A (ja) * | 2003-07-18 | 2005-02-10 | Omron Corp | クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体 |
JP2005228178A (ja) * | 2004-02-16 | 2005-08-25 | Nec Corp | 書き起こしテキスト作成支援システムおよびプログラム |
JP2009538444A (ja) * | 2006-05-25 | 2009-11-05 | マルチモダル テクノロジーズ,インク. | 音声認識方法 |
JP2010139826A (ja) * | 2008-12-12 | 2010-06-24 | Toyota Motor Corp | 音声認識システム |
JP2011002656A (ja) * | 2009-06-18 | 2011-01-06 | Nec Corp | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム |
JP2012226220A (ja) * | 2011-04-21 | 2012-11-15 | Ntt Docomo Inc | 音声認識装置、音声認識方法及び音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3131093A1 (en) | 2017-02-15 |
US20170069319A1 (en) | 2017-03-09 |
EP3131093B1 (en) | 2021-05-12 |
EP3131093A4 (en) | 2017-12-06 |
US10074366B2 (en) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6710740B2 (ja) | 提案される音声ベースのアクションクエリの提供 | |
US10551915B2 (en) | Gaze based text input systems and methods | |
EP3408733B1 (en) | Keyboard with a suggested search query region | |
US20170263248A1 (en) | Dictation that allows editing | |
JP6140668B2 (ja) | 携帯電話のタッチスクリーンとの使用等のためのマルチモーダルテキスト入力システム | |
US9691381B2 (en) | Voice command recognition method and related electronic device and computer-readable medium | |
US20090326938A1 (en) | Multiword text correction | |
US20160139877A1 (en) | Voice-controlled display device and method of voice control of display device | |
US20140207453A1 (en) | Method and apparatus for editing voice recognition results in portable device | |
US20140297276A1 (en) | Editing apparatus, editing method, and computer program product | |
JPWO2018055983A1 (ja) | 翻訳装置、翻訳システム、および評価サーバ | |
JPWO2014041607A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Ouyang et al. | Mobile keyboard input decoding with finite-state transducers | |
US11900931B2 (en) | Information processing apparatus and information processing method | |
US20170293678A1 (en) | Adaptive redo for trace text input | |
WO2015156011A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
WO2014158101A1 (en) | Methods, systems and devices for interacting with a computing device | |
KR101298926B1 (ko) | 수화 키보드 및 이를 이용한 수화 검색 장치 | |
JPWO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
US20140359434A1 (en) | Providing out-of-dictionary indicators for shape writing | |
US20060111916A1 (en) | Microphone feedback and control | |
CN113378530A (zh) | 语音编辑方法及装置、设备和介质 | |
JP2007066318A (ja) | キーボードレス入力装置とその方法及びこの方法の実行プログラムとその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15777401 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15120371 Country of ref document: US |
|
REEP | Request for entry into the european phase |
Ref document number: 2015777401 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2015777401 Country of ref document: EP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
NENP | Non-entry into the national phase |
Ref country code: JP |