JPWO2013031677A1 - 発音動作可視化装置および発音学習装置 - Google Patents
発音動作可視化装置および発音学習装置 Download PDFInfo
- Publication number
- JPWO2013031677A1 JPWO2013031677A1 JP2013531279A JP2013531279A JPWO2013031677A1 JP WO2013031677 A1 JPWO2013031677 A1 JP WO2013031677A1 JP 2013531279 A JP2013531279 A JP 2013531279A JP 2013531279 A JP2013531279 A JP 2013531279A JP WO2013031677 A1 JPWO2013031677 A1 JP WO2013031677A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- pronunciation
- vocal tract
- articulation
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012800 visualization Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 61
- 230000001755 vocal effect Effects 0.000 claims abstract description 55
- 210000000056 organ Anatomy 0.000 claims abstract description 47
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 3
- 230000033001 locomotion Effects 0.000 claims description 50
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 31
- 238000002595 magnetic resonance imaging Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 210000000214 mouth Anatomy 0.000 description 12
- 210000003254 palate Anatomy 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000012937 correction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 210000001584 soft palate Anatomy 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 210000001983 hard palate Anatomy 0.000 description 5
- 201000000615 hard palate cancer Diseases 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 210000003928 nasal cavity Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000001847 jaw Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000005182 tip of the tongue Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B23/00—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
- G09B23/28—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes for medicine
- G09B23/30—Anatomical models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
11 中央演算処理装置
12 記憶装置
13 外部記憶装置
14,15 通信インターフェース
16 入力装置
17 出力装置
18 記憶装置
19 操作部
21 音声取得手段
22 調音特徴抽出手段
24 調音運動記憶手段
25 調音特徴系列生成手段
26 声道パラメータ変換手段
27 声道モデル記憶部
28 座標ベクトル記憶部
29 座標ベクトル変換手段
30 音声合成部
31 音声出力手段
42 識別器(多層ニューラルネットワーク)
Claims (9)
- 入力音声を取得する音声取得手段と、
前記音声取得手段により取得した音声データを声道パラメータ系列に変換する声道パラメータ変換手段と、
前記声道パラメータ系列を調音器官の輪郭を示す座標ベクトル系列に変換する座標ベクトル系列変換手段と、
前記座標ベクトル系列から調音器官の動作の画像を生成する画像生成手段と、
前記画像生成手段により生成された画像を表示する画像表示手段と
を含むことを特徴とする発音動作可視化装置。 - 請求項1に記載の発音動作可視化装置であって、さらに、
前記音声取得手段により取得した音声から調音特徴系列を抽出する調音特徴抽出手段と、
予め複数話者の音声について、前記調音特徴抽出手段により抽出した調音特徴系列から計算した調音運動の状態遷移モデルを記憶する調音運動記憶手段と、
前記調音特徴抽出手段により抽出された入力音声に関する調音特徴系列と前記状態遷移モデルとを比較しつつ調音特徴系列を生成する調音特徴系列生成手段とを備え、
前記声道パラメータ変換手段は、前記調音特徴系列を声道パラメータ系列に変換するものであることを特徴とする発音動作可視化装置。 - 請求項1または2に記載の発音動作可視化装置であって、さらに、前記声道パラメータに基づき音声を合成する音声合成手段を備え、前記画像表示手段は、生成された画像を表示するとともに前記音声合成手段により合成された音声を出力するものであることを特徴とする発音動作可視化装置。
- 前記座標ベクトル系列変換手段は、予め複数話者の音声から抽出した声道パラメータを入力データとし、かつ、同時に発話状態の透視画像から前記声道パラメータに対応する透視画像中の調音器官の輪郭を示す座標ベクトル系列を教師データとするものであることを特徴とする請求項1ないし3のいずれかに記載の発音動作可視化装置。
- 前記画像生成手段は、座標ベクトルの時系列を非線形に平滑化する手段と、調音器官の輪郭を示す座標値を曲線補完する手段とを備えていることを特徴とする請求項1ないし4のいずれかに記載の発音動作可視化装置。
- 前記画像生成手段は、調音器官のうち音源部位を特徴ある状態の画像を生成するものであることを特徴とする請求項1ないし5のいずれかに記載の発音動作可視化装置。
- 請求項1ないし6のいずれかに記載の発音動作可視化装置を使用する発音学習装置であって、理想とすべき発音動作における座標ベクトル系列から目標画像を生成する目標画像生成手段を備え、前記画像生成手段により生成された学習者画像とともに画像表示手段に表示してなることを特徴とする発音学習装置。
- 前記画像生成手段は、前記学習者画像のうち、前記目標画像との間で調音器官の異なる部位を特徴ある状態で生成するものであることを特徴とする請求項7に記載の発音学習装置。
- 前記画像表示手段は、再生速度を可変としたものであることを特徴とする請求項7または8に記載の発音学習装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011184993 | 2011-08-26 | ||
JP2011184993 | 2011-08-26 | ||
PCT/JP2012/071418 WO2013031677A1 (ja) | 2011-08-26 | 2012-08-24 | 発音動作可視化装置および発音学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013031677A1 true JPWO2013031677A1 (ja) | 2015-03-23 |
JP6206960B2 JP6206960B2 (ja) | 2017-10-04 |
Family
ID=47756167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013531279A Active JP6206960B2 (ja) | 2011-08-26 | 2012-08-24 | 発音動作可視化装置および発音学習装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6206960B2 (ja) |
WO (1) | WO2013031677A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112840397A (zh) * | 2018-10-18 | 2021-05-25 | 索尼公司 | 信息处理装置及信息处理方法 |
CN110097610B (zh) * | 2019-04-08 | 2023-07-04 | 天津大学 | 基于超声与磁共振成像的语音合成系统和方法 |
WO2021166695A1 (ja) * | 2020-02-19 | 2021-08-26 | パナソニックIpマネジメント株式会社 | 口腔機能可視化システム、口腔機能可視化方法およびプログラム |
CN111554318B (zh) * | 2020-04-27 | 2023-12-05 | 天津大学 | 一种手机端发音可视化系统的实现方法 |
CN113079327A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 视频生成方法和装置、存储介质和电子设备 |
CN113035235A (zh) * | 2021-03-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 发音评价方法和装置,存储介质和电子设备 |
CN116012505A (zh) * | 2022-12-29 | 2023-04-25 | 上海师范大学天华学院 | 基于关键点自检测与风格迁徙的发音动画生成方法及系统 |
JP7425243B1 (ja) | 2023-05-08 | 2024-01-30 | ムーン クリエイティブ ラボ インク. | 情報処理装置及び情報処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06348297A (ja) * | 1993-06-10 | 1994-12-22 | Osaka Gas Co Ltd | 発音練習装置 |
JP2001249675A (ja) * | 2000-03-07 | 2001-09-14 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 |
JP2006146042A (ja) * | 2004-11-24 | 2006-06-08 | Nippon Telegr & Teleph Corp <Ntt> | 調音運動の正規化を用いた音声合成方法および装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08307841A (ja) * | 1995-05-10 | 1996-11-22 | Hitachi Ltd | 擬似動画tv電話装置 |
JP2003241776A (ja) * | 2002-02-18 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 |
JP2005134685A (ja) * | 2003-10-31 | 2005-05-26 | Advanced Telecommunication Research Institute International | 声道形状パラメータの推定装置、音声合成装置、及びコンピュータプログラム |
-
2012
- 2012-08-24 JP JP2013531279A patent/JP6206960B2/ja active Active
- 2012-08-24 WO PCT/JP2012/071418 patent/WO2013031677A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06348297A (ja) * | 1993-06-10 | 1994-12-22 | Osaka Gas Co Ltd | 発音練習装置 |
JP2001249675A (ja) * | 2000-03-07 | 2001-09-14 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 |
JP2006146042A (ja) * | 2004-11-24 | 2006-06-08 | Nippon Telegr & Teleph Corp <Ntt> | 調音運動の正規化を用いた音声合成方法および装置 |
Non-Patent Citations (1)
Title |
---|
鏑木時彦 他: ""音声生成過程の可視化"", 日本音響学会誌, vol. 64, no. 7, JPN6016040246, 1 July 2008 (2008-07-01), pages 412 - 417, ISSN: 0003619846 * |
Also Published As
Publication number | Publication date |
---|---|
JP6206960B2 (ja) | 2017-10-04 |
WO2013031677A1 (ja) | 2013-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6206960B2 (ja) | 発音動作可視化装置および発音学習装置 | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
WO2022048405A1 (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
Hueber et al. | Statistical conversion of silent articulation into audible speech using full-covariance HMM | |
Wang et al. | Phoneme-level articulatory animation in pronunciation training | |
Sargin et al. | Analysis of head gesture and prosody patterns for prosody-driven head-gesture animation | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
US20160321953A1 (en) | Pronunciation learning support system utilizing three-dimensional multimedia and pronunciation learning support method thereof | |
JPH02234285A (ja) | 画像合成方法及びその装置 | |
US20130238337A1 (en) | Voice quality conversion system, voice quality conversion device, voice quality conversion method, vocal tract information generation device, and vocal tract information generation method | |
Arias et al. | Realistic transformation of facial and vocal smiles in real-time audiovisual streams | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
Bozkurt et al. | Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
JP7124373B2 (ja) | 学習装置、音響生成装置、方法及びプログラム | |
WO2022194044A1 (zh) | 发音评价方法和装置、存储介质和电子设备 | |
Saleem et al. | E2E-V2SResNet: Deep residual convolutional neural networks for end-to-end video driven speech synthesis | |
Massaro et al. | A multilingual embodied conversational agent | |
Železný et al. | Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis | |
Brooke et al. | Two-and three-dimensional audio-visual speech synthesis | |
JP4011844B2 (ja) | 翻訳装置、翻訳方法および媒体 | |
Mattheyses et al. | On the importance of audiovisual coherence for the perceived quality of synthesized visual speech | |
Athanasopoulos et al. | 3D immersive karaoke for the learning of foreign language pronunciation | |
Fabre et al. | Automatic animation of an articulatory tongue model from ultrasound images using Gaussian mixture regression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6206960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |