JPWO2018179209A1 - 電子機器、音声制御方法、およびプログラム - Google Patents
電子機器、音声制御方法、およびプログラム Download PDFInfo
- Publication number
- JPWO2018179209A1 JPWO2018179209A1 JP2018564426A JP2018564426A JPWO2018179209A1 JP WO2018179209 A1 JPWO2018179209 A1 JP WO2018179209A1 JP 2018564426 A JP2018564426 A JP 2018564426A JP 2018564426 A JP2018564426 A JP 2018564426A JP WO2018179209 A1 JPWO2018179209 A1 JP WO2018179209A1
- Authority
- JP
- Japan
- Prior art keywords
- section
- reading speed
- reading
- speed
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims description 66
- 238000013459 approach Methods 0.000 claims 1
- 230000008602 contraction Effects 0.000 description 230
- 230000006870 function Effects 0.000 description 34
- 230000008859 change Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 238000004904 shortening Methods 0.000 description 16
- 230000006872 improvement Effects 0.000 description 11
- 230000033764 rhythmic process Effects 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 8
- 239000011295 pitch Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
まず、本実施の形態にかかるハードウェア構成について説明する。
コンテンツ生成プログラム131はプロセッサ110によって実行されるプログラムであり、コンテンツを生成する機能を有するソフトウェアである。ここでのコンテンツとは、例えば動画再生プログラム等により再生可能な、映像と音声が同期された動画音声データである。
参考文献2:特開2003−44073号公報
また、波形接続処理についても例えば参考文献3で開示されているPSOLA(Pitch-Synchronous Overlap and Add)法を用いて素片の基本周波数および継続時間長を変形させながら、素片を順次配置すればよい。また、波形の連続性を考慮し、先行する波形の端の形状と後続する波形の端の形状を考慮して配置位置を決めて(例えば、ピッチ単位の相関値が高くなる位置)、波形同士を重ねあわせる(加算して平均する)よう処理してもよい。
音声生成部202は、上述の方法で図6に示すサブシーン毎の読み上げ音声情報601を生成し、時間長算出部203に送信する機能を有している。
また、発話速度の速度調整と非発話区間の長さ調整の両方を実行するとしても良い。このように構成することで、文意の理解と音節の認識性を統合的に考慮して劣化の少ない音声読み上げの速度向上が可能となる。
次に、本発明の実施の形態2について説明する。
次に、本発明の実施の形態3について説明する。
次に、本発明の実施の形態4について説明する。
Claims (11)
- それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部と、
前記算出部の算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整する調整部と、
前記調整部で読み上げ速度の調整を実施した区間では前記調整部で調整した読み上げ速度の、前記調整部で読み上げ速度の調整を実施していない区間では前記算出部で算出された読み上げ速度の音声を生成する音声生成部と、を備えた電子機器。 - 前記調整部は、前記第2の区間の読み上げ速度を前記第1の読み上げ速度に一致させる請求項1記載の電子機器。
- 前記調整部は、読み上げ速度の許容差を規定した許容差情報に基づいて、前記第2の区間の読み上げ速度と前記第1の読み上げ速度との差が前記許容差に収まるように前記第2の区間の読み上げ速度を調整する請求項1記載の電子機器。
- 前記許容差情報には、3つ以上の区間の読み上げ速度の最大値と最小値の許容差が規定されており、
前記調整部は、前記許容差情報に基づいて読み上げ速度の最大値と最小値との差が、前記許容差内に収まるように、読み上げの速度が最小の区間の読み上げ速度を調整する請求項3記載の電子機器。 - 前記許容差情報には、隣り合う区間の読み上げの速度の許容差が規定されており、
前記調整部は、前記許容差情報に基づいて隣り合う区間の読み上げの速度の差が、前記許容差内に収まるように、前記隣り合う区間の内の読み上げ速度の遅い区間の読み上げ速度を調整する、請求項3又は請求項4のいずれか1項に記載の電子機器。 - 前記調整部は、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第3の区間の第3の読み上げ速度が、算出された第4の区間の前記第4の読み上げ速度より速い場合であって、前記第3の区間で読み上げられる音声が第1の文言を含んでいない場合、前記第4の区間の読み上げ速度を前記第3の区間の前記第3の読み上げ速度に近づける又は一致させる調整を実行し、
前記それぞれの区間の内の前記第3の区間の前記第3の読み上げ速度が、算出された前記第4の区間の前記第4の読み上げ速度より速い場合であって、前記第3の区間で読み上げられる音声が前記第1の文言を含んでいる場合、前記第4の区間の読み上げ速度を前記第3の区間の前記第3の読み上げ速度に近づける又は一致させる調整を実行しない請求項1から請求項5のいずれか1項に記載の電子機器。 - 前記調整部は、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第5の区間の第5の読み上げ速度が前記第1の区間の前記第1の読み上げ速度より遅い場合であって、前記第5の区間で読み上げられる音声が第2の文言を含んでいない場合、前記第5の区間の読み上げ速度を、前記第1の区間の前記第1の読み上げ速度に近づける又は一致させる調整を実行し、
前記それぞれの区間の内の前記第5の区間の前記第5の読み上げ速度が前記第1の区間の前記第1の読み上げ速度より遅い場合であって、前記第5の区間で読み上げられる音声が前記第2の文言を含む場合、前記第5の区間の読み上げ速度を、前記第1の区間の読み上げ速度に近づける又は一致させる調整を実行しない請求項1から請求項6のいずれか1項に記載の電子機器。 - それぞれが割り当てられた区間で表示される複数の映像を示す情報の入力を受け付け、それぞれの区間に割り当てられた映像と、それぞれの区間に割り当てられ、前記音声生成部で生成された音声とを同期させたコンテンツを生成するコンテンツ生成部を更に備えた請求項1から請求項7のいずれか1項に記載の電子機器。
- 前記コンテンツ生成部で生成されたコンテンツの映像を表示するディスプレイと、
前記コンテンツ生成部で生成されたコンテンツの音声を出力するスピーカと、を更に備えた請求項8に記載の電子機器。 - それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、
前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出し、
前記算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整し、
前記読み上げ速度の調整を実施した区間では調整した読み上げ速度の、前記読み上げ速度の調整を実施していない区間では前記算出された読み上げ速度の音声を生成する音声制御方法。 - 処理装置を有する電子機器で実行されるプログラムであって、前記処理装置に、
それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付けさせ、
前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出させ、
前記算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整させ、
前記読み上げ速度の調整を実施した区間では調整した読み上げ速度の、前記読み上げ速度の調整を実施していない区間では前記算出された読み上げ速度の音声を生成させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/013231 WO2018179209A1 (ja) | 2017-03-30 | 2017-03-30 | 電子機器、音声制御方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6486582B2 JP6486582B2 (ja) | 2019-03-20 |
JPWO2018179209A1 true JPWO2018179209A1 (ja) | 2019-04-11 |
Family
ID=63674458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018564426A Active JP6486582B2 (ja) | 2017-03-30 | 2017-03-30 | 電子機器、音声制御方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6486582B2 (ja) |
WO (1) | WO2018179209A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102318080B1 (ko) * | 2019-08-05 | 2021-10-27 | 엘지전자 주식회사 | 지능적인 tts 제공 방법 및 tts를 제공하는 지능형 컴퓨팅 디바이스 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005476A (ja) * | 1999-06-22 | 2001-01-12 | Matsushita Electric Ind Co Ltd | プレゼンテーション装置 |
JP2012078755A (ja) * | 2010-10-06 | 2012-04-19 | Nippon Hoso Kyokai <Nhk> | 話速調整装置、音声合成システム、およびプログラム |
-
2017
- 2017-03-30 JP JP2018564426A patent/JP6486582B2/ja active Active
- 2017-03-30 WO PCT/JP2017/013231 patent/WO2018179209A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005476A (ja) * | 1999-06-22 | 2001-01-12 | Matsushita Electric Ind Co Ltd | プレゼンテーション装置 |
JP2012078755A (ja) * | 2010-10-06 | 2012-04-19 | Nippon Hoso Kyokai <Nhk> | 話速調整装置、音声合成システム、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2018179209A1 (ja) | 2018-10-04 |
JP6486582B2 (ja) | 2019-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
JP5482042B2 (ja) | 合成音声テキスト入力装置及びプログラム | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
KR100240637B1 (ko) | 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 | |
CN110867177A (zh) | 音色可选的人声播放系统、其播放方法及可读记录介质 | |
JP2009506356A (ja) | サウンド及び手作業により転写されるテキストを同期させるシステム及び方法 | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
JPWO2011004579A1 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
KR20200142282A (ko) | 컨텐츠 번역 서비스를 제공하는 전자 장치 및 그 제어 방법 | |
CN115668358A (zh) | 用于文本到语音合成的用户接口适应的方法和系统 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
CN115171645A (zh) | 一种配音方法、装置、电子设备以及存储介质 | |
JPH0756494A (ja) | 発音訓練装置 | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
JP5164041B2 (ja) | 音声合成装置、音声合成方法、及びプログラム | |
JP2015102773A (ja) | 音声発生装置、音声変形装置及び方法 | |
JP2015052748A (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP2006139162A (ja) | 語学学習装置 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
CN114446304A (zh) | 语音交互方法、数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181206 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181206 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181213 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6486582 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |