JPWO2011007627A1 - 音声処理装置および方法ならびに記憶媒体 - Google Patents
音声処理装置および方法ならびに記憶媒体 Download PDFInfo
- Publication number
- JPWO2011007627A1 JPWO2011007627A1 JP2011522761A JP2011522761A JPWO2011007627A1 JP WO2011007627 A1 JPWO2011007627 A1 JP WO2011007627A1 JP 2011522761 A JP2011522761 A JP 2011522761A JP 2011522761 A JP2011522761 A JP 2011522761A JP WO2011007627 A1 JPWO2011007627 A1 JP WO2011007627A1
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- speech
- word
- recognition
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title description 51
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 description 94
- 238000004364 calculation method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
はじめに、本発明の実施の形態1について説明する。図1は、実施の形態1における音声処理装置の構成を示す構成図である。この音声処理装置は、まず、入力された音声を音声検出・分析して特徴量を出力する分析部101と、特徴量に基づいて音声認識を行って認識結果を出力する音声認識部102とを備える。加えて、音声認識部102は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定部103を備える。本音声処理装置では、句判定部103が判定した句境界による句の単位で、音声認識部102が認識結果を出力する。
次に、本発明における実施の形態2について説明する。図2は、実施の形態2における音声処理装置200の構成を示す構成図である。音声処理装置200は、分析部202,音声認識部203,音響モデル記憶部204,認識辞書記憶部205,翻訳辞書記憶部206,および翻訳部207を備える。
次に、本発明の実施の形態3について説明する。図4は、音声処理装置200を用いた実施の形態3における通話翻訳システムの構成を示す構成図である。本システムは、上述した実施の形態2における音声処理装置200に加え、受信部401,音声合成部408,出力部409,および通信ネットワーク420を備える。通信ネットワーク420は、例えば、公衆電話網である。なお、通信ネットワーク420は、インターネット通信網であってもよい。
次に、本発明の実施の形態4について説明する。図6は、実施の形態4における音声処理装置600の構成を示す構成図である。音声処理装置600は、分析部602,音声認識部603,音響モデル記憶部604,認識辞書記憶部605,翻訳辞書記憶部606,および翻訳部607を備える。
次に、本発明の実施の形態5について説明する。図8は、音声処理装置600を用いた実施の形態5における字幕生成システムの構成を示す構成図である。本システムは、上述した実施の形態4における音声処理装置600に加え、受信部801,整形部808,出力部809,および通信ネットワーク820を備える。
入力された音声を音声検出・分析して特徴量を出力する分析手段と、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段とを備え、前記音声認識手段は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で前記認識結果を出力することを特徴とする音声処理装置。
付記1記載の音声処理装置において、前記句判定手段は、前記句境界を表す単語の前記仮説の単語群における尤度に基づいて前記句境界を定めることを特徴とする音声処理装置。
付記2記載の音声処理装置において、前記句判定手段は、前記仮説の単語群の中における前記句境界を表す単語の占有率が設定されている閾値を超える場合に、前記句境界を判定することを特徴とする音声処理装置。
付記2記載の音声処理装置において、前記句判定手段は、前記句境界を表す単語仮説が全体の単語仮説の中で最尤であり、かつ、次に尤度の高い単語仮説との尤度差が、設定されている閾値を超える場合に、前記句境界を判定することを特徴とする音声処理装置。
付記1〜4のいずれか1項に記載の音声処理装置において、前記句判定手段は、入力された音声の区間情報を指定する区間指定手段をさらに備え、前記句判定手段は、前記区間指定手段に設定されている区間毎に、設定した区間内で前記閾値を一時変更することを特徴とする音声処理装置。
付記1〜5のいずれか1項に記載の音声処理装置において、前記句境界を表す単語は、句の先頭あるいは末尾に現れる句境界を表す単語であることを特徴とする音声処理装置。
付記6記載の音声処理装置において、前記句境界を表す単語は、前置詞または接続詞であり、単語の直前を句境界とすることを特徴とする音声処理装置。
入力された音声を音声検出・分析して特徴量を出力する分析ステップと、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップとを備え、前記音声認識ステップは、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で前記認識結果を出力することを特徴とする音声処理方法。
コンピュータに、入力された音声を音声検出・分析して特徴量を出力する分析機能と、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能とを備え、前記音声認識機能は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、前記音声認識機能は、前記句判定機能で判定した句境界による句の単位で前記認識結果を出力する機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。
この出願は、2009年7月17日に出願された日本出願特願2009−168764号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
Claims (9)
- 入力された音声を音声検出・分析して特徴量を出力する分析手段と、
前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段と
を備え、
前記音声認識手段は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で前記認識結果を出力する
ことを特徴とする音声処理装置。 - 請求項1記載の音声処理装置において、
前記句判定手段は、前記句境界を表す単語の前記仮説の単語群における尤度に基づいて前記句境界を定める
ことを特徴とする音声処理装置。 - 請求項2記載の音声処理装置において、
前記句判定手段は、前記仮説の単語群の中における前記句境界を表す単語の占有率が設定されている閾値を超える場合に、前記句境界を判定する
ことを特徴とする音声処理装置。 - 請求項2記載の音声処理装置において、
前記句判定手段は、前記句境界を表す単語仮説が全体の単語仮説の中で最尤であり、かつ、次に尤度の高い単語仮説との尤度差が、設定されている閾値を超える場合に、前記句境界を判定する
ことを特徴とする音声処理装置。 - 請求項1記載の音声処理装置において、
前記句判定手段は、入力された音声の区間情報を指定する区間指定手段をさらに備え、
前記句判定手段は、前記区間指定手段に設定されている区間毎に、設定した区間内で前記閾値を一時変更する
ことを特徴とする音声処理装置。 - 請求項1記載の音声処理装置において、
前記句境界を表す単語は、句の先頭あるいは末尾に現れる句境界を表す単語であることを特徴とする音声処理装置。 - 請求項6記載の音声処理装置において、
前記句境界を表す単語は、前置詞または接続詞であり、単語の直前を句境界とすることを特徴とする音声処理装置。 - 入力された音声を音声検出・分析して特徴量を出力する分析ステップと、
前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップと
を備え、
前記音声認識ステップは、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で前記認識結果を出力する
ことを特徴とする音声処理方法。 - コンピュータに、
入力された音声を音声検出・分析して特徴量を出力する分析機能と、
前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能と
を備え、
前記音声認識機能は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、
前記音声認識機能は、前記句判定機能で判定した句境界による句の単位で前記認識結果を出力する
機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011522761A JP5418596B2 (ja) | 2009-07-17 | 2010-06-04 | 音声処理装置および方法ならびに記憶媒体 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009168764 | 2009-07-17 | ||
JP2009168764 | 2009-07-17 | ||
PCT/JP2010/059515 WO2011007627A1 (ja) | 2009-07-17 | 2010-06-04 | 音声処理装置および方法ならびに記憶媒体 |
JP2011522761A JP5418596B2 (ja) | 2009-07-17 | 2010-06-04 | 音声処理装置および方法ならびに記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011007627A1 true JPWO2011007627A1 (ja) | 2012-12-27 |
JP5418596B2 JP5418596B2 (ja) | 2014-02-19 |
Family
ID=43449236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011522761A Expired - Fee Related JP5418596B2 (ja) | 2009-07-17 | 2010-06-04 | 音声処理装置および方法ならびに記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9583095B2 (ja) |
JP (1) | JP5418596B2 (ja) |
WO (1) | WO2011007627A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5418596B2 (ja) * | 2009-07-17 | 2014-02-19 | 日本電気株式会社 | 音声処理装置および方法ならびに記憶媒体 |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
JP6235280B2 (ja) | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US11158307B1 (en) * | 2019-03-25 | 2021-10-26 | Amazon Technologies, Inc. | Alternate utterance generation |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2764343B2 (ja) * | 1990-09-07 | 1998-06-11 | 富士通株式会社 | 節/句境界抽出方式 |
JP3766111B2 (ja) | 1991-08-13 | 2006-04-12 | 株式会社東芝 | 音声認識装置 |
JPH0695684A (ja) | 1992-09-17 | 1994-04-08 | Meidensha Corp | 音声認識システム |
JP3476237B2 (ja) * | 1993-12-28 | 2003-12-10 | 富士通株式会社 | 構文解析装置 |
JP2905686B2 (ja) * | 1994-03-22 | 1999-06-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
JP3403838B2 (ja) * | 1994-10-28 | 2003-05-06 | 三菱電機株式会社 | 句境界確率計算装置および句境界確率利用連続音声認識装置 |
JPH1011439A (ja) * | 1996-06-21 | 1998-01-16 | Oki Electric Ind Co Ltd | 英日機械翻訳システム |
JP3009642B2 (ja) | 1997-10-22 | 2000-02-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声言語処理単位変換装置 |
JPH11259474A (ja) * | 1998-03-10 | 1999-09-24 | Matsushita Electric Ind Co Ltd | 機械翻訳装置及び機械翻訳方法 |
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN1102271C (zh) * | 1998-10-07 | 2003-02-26 | 国际商业机器公司 | 具有习惯用语处理功能的电子词典 |
US6453292B2 (en) * | 1998-10-28 | 2002-09-17 | International Business Machines Corporation | Command boundary identifier for conversational natural language |
JP3834169B2 (ja) | 1999-09-22 | 2006-10-18 | 日本放送協会 | 連続音声認識装置および記録媒体 |
DE10018134A1 (de) * | 2000-04-12 | 2001-10-18 | Siemens Ag | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
JP2004012615A (ja) * | 2002-06-04 | 2004-01-15 | Sharp Corp | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
US8818793B1 (en) * | 2002-12-24 | 2014-08-26 | At&T Intellectual Property Ii, L.P. | System and method of extracting clauses for spoken language understanding |
JP3998668B2 (ja) * | 2004-07-14 | 2007-10-31 | 沖電気工業株式会社 | 形態素解析装置、方法及びプログラム |
EP1681670A1 (en) * | 2005-01-14 | 2006-07-19 | Dialog Semiconductor GmbH | Voice activation |
US20070192309A1 (en) * | 2005-10-12 | 2007-08-16 | Gordon Fischer | Method and system for identifying sentence boundaries |
US7908552B2 (en) * | 2007-04-13 | 2011-03-15 | A-Life Medical Inc. | Mere-parsing with boundary and semantic driven scoping |
JP2008269122A (ja) | 2007-04-18 | 2008-11-06 | National Institute Of Information & Communication Technology | 処理単位分割装置、処理単位分割方法、及びプログラム |
US8364485B2 (en) * | 2007-08-27 | 2013-01-29 | International Business Machines Corporation | Method for automatically identifying sentence boundaries in noisy conversational data |
EP2048656B1 (en) * | 2007-10-10 | 2010-02-10 | Harman/Becker Automotive Systems GmbH | Speaker recognition |
JP2010230695A (ja) * | 2007-10-22 | 2010-10-14 | Toshiba Corp | 音声の境界推定装置及び方法 |
JP5418596B2 (ja) * | 2009-07-17 | 2014-02-19 | 日本電気株式会社 | 音声処理装置および方法ならびに記憶媒体 |
-
2010
- 2010-06-04 JP JP2011522761A patent/JP5418596B2/ja not_active Expired - Fee Related
- 2010-06-04 US US13/383,527 patent/US9583095B2/en active Active
- 2010-06-04 WO PCT/JP2010/059515 patent/WO2011007627A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP5418596B2 (ja) | 2014-02-19 |
US20120116765A1 (en) | 2012-05-10 |
WO2011007627A1 (ja) | 2011-01-20 |
US9583095B2 (en) | 2017-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10643609B1 (en) | Selecting speech inputs | |
US9972318B1 (en) | Interpreting voice commands | |
US11061644B2 (en) | Maintaining context for voice processes | |
US8635070B2 (en) | Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types | |
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
US8571849B2 (en) | System and method for enriching spoken language translation with prosodic information | |
US10460034B2 (en) | Intention inference system and intention inference method | |
CN105632499B (zh) | 用于优化语音识别结果的方法和装置 | |
US9170994B2 (en) | Machine translation apparatus, method and computer readable medium | |
US20080077387A1 (en) | Machine translation apparatus, method, and computer program product | |
JP2019070799A (ja) | 自然言語の双方向確率的な書換えおよび選択 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
CN112420026A (zh) | 优化关键词检索系统 | |
US10152298B1 (en) | Confidence estimation based on frequency | |
JP5418596B2 (ja) | 音声処理装置および方法ならびに記憶媒体 | |
JP2010230695A (ja) | 音声の境界推定装置及び方法 | |
EP3739583A1 (en) | Dialog device, dialog method, and dialog computer program | |
JP4758758B2 (ja) | 辞書作成装置および辞書作成プログラム | |
KR101747873B1 (ko) | 음성인식을 위한 언어모델 생성 장치 및 방법 | |
KR20180127020A (ko) | 자연어 대화체 음성 인식 방법 및 장치 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2008241970A (ja) | 話者適応装置、話者適応方法及び話者適応プログラム | |
KR20200102309A (ko) | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
EP3718107B1 (en) | Speech signal processing and evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131022 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5418596 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |