JPWO2019030810A1 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JPWO2019030810A1 JPWO2019030810A1 JP2019535463A JP2019535463A JPWO2019030810A1 JP WO2019030810 A1 JPWO2019030810 A1 JP WO2019030810A1 JP 2019535463 A JP2019535463 A JP 2019535463A JP 2019535463 A JP2019535463 A JP 2019535463A JP WO2019030810 A1 JPWO2019030810 A1 JP WO2019030810A1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- vocabulary
- likelihood
- speech
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
<構成>
図1は、本発明の実施の形態1による音声認識装置1の構成の一例を示すブロック図である。なお、図1では、本実施の形態1による音声認識装置を構成する必要最小限の構成を示している。
図4は、音声認識装置6の動作の一例を示すフローチャートである。
上記では、例えば「show se」のように、音声区間特定部4が単語の途中で区切った音声区間を特定する場合について説明したが、これに限るものではない。音声区間特定部4は、音声区間を単語単位で特定してもよい。
<構成>
図7は、本発明の実施の形態2による音声認識装置12の構成の一例を示すブロック図である。なお、図7では、本実施の形態2による音声認識装置を構成する必要最小限の構成を示している。
図10は、音声認識装置17の動作の一例を示すフローチャートである。なお、図10のステップS21およびステップS22は、図4のステップS11およびステップS12に対応しているため、ここでは説明を省略する。以下では、ステップS23およびステップS24について説明する。
上記では、例えば「show se」のように、文字列特定部15が単語の途中で区切った文字列を特定する場合について説明したが、これに限るものではない。文字列特定部15は、文字列を単語単位で特定してもよい。
Claims (6)
- ユーザの音声を取得する音声取得部と、
前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、
前記音声区間特定部が特定した前記音声区間に対応する前記音声を出力する制御を行う音声出力制御部と、
を備える、音声認識装置。 - 前記音声区間特定部は、前記音声区間を単語単位で特定することを特徴とする、請求項1に記載の音声認識装置。
- ユーザの音声を取得する音声取得部と、
前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、
前記文字列特定部が特定した前記文字列を表示する制御を行う表示制御部と、
を備える、音声認識装置。 - 前記文字列特定部は、前記文字列を単語単位で特定することを特徴とする、請求項3に記載の音声認識装置。
- ユーザの音声を取得し、
前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、
前記特定した前記音声区間に対応する前記音声を出力する制御を行う、音声認識方法。 - ユーザの音声を取得し、
前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、
前記特定した前記文字列を表示する制御を行う、音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/028694 WO2019030810A1 (ja) | 2017-08-08 | 2017-08-08 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019030810A1 true JPWO2019030810A1 (ja) | 2019-11-14 |
JP6811865B2 JP6811865B2 (ja) | 2021-01-13 |
Family
ID=65272226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535463A Active JP6811865B2 (ja) | 2017-08-08 | 2017-08-08 | 音声認識装置および音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200168221A1 (ja) |
JP (1) | JP6811865B2 (ja) |
WO (1) | WO2019030810A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7151606B2 (ja) * | 2019-04-17 | 2022-10-12 | 日本電信電話株式会社 | コマンド解析装置、コマンド解析方法、プログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314320A (ja) * | 1992-05-08 | 1993-11-26 | Fujitsu Ltd | 認識距離の差と候補順を利用した認識結果の評価方式 |
JPH10207486A (ja) * | 1997-01-20 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 対話型音声認識方法およびこの方法を実施する装置 |
JP2005148342A (ja) * | 2003-11-14 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2012022069A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
JP2014013302A (ja) * | 2012-07-04 | 2014-01-23 | Seiko Epson Corp | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
JP2014206677A (ja) * | 2013-04-15 | 2014-10-30 | 株式会社アドバンスト・メディア | 音声認識装置および音声認識結果確定方法 |
JP2016048338A (ja) * | 2014-08-28 | 2016-04-07 | アルパイン株式会社 | 音声認識装置及びコンピュータプログラム |
-
2017
- 2017-08-08 JP JP2019535463A patent/JP6811865B2/ja active Active
- 2017-08-08 WO PCT/JP2017/028694 patent/WO2019030810A1/ja active Application Filing
- 2017-08-08 US US16/617,408 patent/US20200168221A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314320A (ja) * | 1992-05-08 | 1993-11-26 | Fujitsu Ltd | 認識距離の差と候補順を利用した認識結果の評価方式 |
JPH10207486A (ja) * | 1997-01-20 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 対話型音声認識方法およびこの方法を実施する装置 |
JP2005148342A (ja) * | 2003-11-14 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2012022069A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
JP2014013302A (ja) * | 2012-07-04 | 2014-01-23 | Seiko Epson Corp | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
JP2014206677A (ja) * | 2013-04-15 | 2014-10-30 | 株式会社アドバンスト・メディア | 音声認識装置および音声認識結果確定方法 |
JP2016048338A (ja) * | 2014-08-28 | 2016-04-07 | アルパイン株式会社 | 音声認識装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6811865B2 (ja) | 2021-01-13 |
WO2019030810A1 (ja) | 2019-02-14 |
US20200168221A1 (en) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9953632B2 (en) | Keyword model generation for detecting user-defined keyword | |
US10706853B2 (en) | Speech dialogue device and speech dialogue method | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
JP4657736B2 (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US7634401B2 (en) | Speech recognition method for determining missing speech | |
KR102443087B1 (ko) | 전자 기기 및 그의 음성 인식 방법 | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
WO2020044543A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
US11948550B2 (en) | Real-time accent conversion model | |
KR102417899B1 (ko) | 차량의 음성인식 시스템 및 방법 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP2015215503A (ja) | 音声認識方法、音声認識装置および音声認識プログラム | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
US20090254335A1 (en) | Multilingual weighted codebooks | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
KR102018110B1 (ko) | 음성파일 생성방법 및 장치 | |
KR102069693B1 (ko) | 자연어 대화체 음성을 인식하는 장치 및 방법 | |
JP2006337963A (ja) | 音声対話装置及び訂正発話認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6811865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |