WO2019208193A1 - 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム - Google Patents
発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- WO2019208193A1 WO2019208193A1 PCT/JP2019/015418 JP2019015418W WO2019208193A1 WO 2019208193 A1 WO2019208193 A1 WO 2019208193A1 JP 2019015418 W JP2019015418 W JP 2019015418W WO 2019208193 A1 WO2019208193 A1 WO 2019208193A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- signal
- pronunciation
- lpc
- speech
- pitch mark
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
ある言語の非母語話者である学習者が直感的にその言語の発音を改善することが可能なシステムを提供する。発音変換装置は、ある言語を母語とする第一話者が他の言語を発話した際に得られる第一音声信号に対応する第一特徴量を、他の言語を母語とする第二話者が他の言語を発話した際に得られる第二音声信号に対応する第二特徴量に近づくように変換する変換部を含み、第一特徴量及び第二特徴量は、発音の違いを表現可能な特徴量であり、変換後の第一特徴量から得られる音声信号は、第一話者に対して提示される。
Description
本発明は、ある言語を母語としない非母語話者が、その言語を発話する際の発音を学習する際に用いる発音変換装置、発音を変換する際に用いるピッチマーク時刻抽出装置、それらの方法、およびプログラムに関する。
非母語話者の発音の学習においては、学習者(非母語話者)がネイティブ(母語話者)の発音を聞き、それを真似て発話し、ネイティブが評価を行う、あるいはComputer-Assisted Language Learning (CALL)を用いて発音の評定を行ったり、発音の誤りを視覚的に理解することが一般的である。非特許文献1は、CALLの一例であって、フォルマント分析と音素認識による評価に基づいて、調音指示を行うシステムが開示されている。
坪田康、壇辻正剛、河原達也、「フォルマント構造推定による日本人用英語発音教示システム」、音声言語処理27-12, 1999年
非特許文献1の手法では、評価結果が視覚的にフィードバックされるが、どう誤っていてどのように修正すればよいかを学習者が直感的に理解することが難しく、発音の改善が難しいという問題がある。
この問題に鑑み、本発明では、学習者が直感的に発音を改善することが可能なシステムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、発音変換装置は、ある言語を母語とする第一話者が他の言語を発話した際に得られる第一音声信号に対応する第一特徴量を、他の言語を母語とする第二話者が他の言語を発話した際に得られる第二音声信号に対応する第二特徴量に近づくように変換する変換部を含み、第一特徴量及び第二特徴量は、発音の違いを表現可能な特徴量であり、変換後の第一特徴量から得られる音声信号は、第一話者に対して提示される。
上記の課題を解決するために、本発明の一態様によれば、ピッチマーク時刻抽出装置は、音声信号の音声区間を検出する音声区間検出部と、音声信号と音声区間とを用いて、LPC分析により音声区間の音声信号から得られるLPC係数aと、音声区間の第一音声信号とを用いて、LPC残差信号を求めるLPC分析部と、音声信号を用いて、EGG声門閉鎖時刻に対応するインパルス列を算出するピッチマーク分析部と、LPC残差信号とインパルス列との相互相関を推定することで、EGG声門閉鎖時刻に対するLPC残差信号の遅延を推定する相互相関推定部と、遅延とインパルス列とLPC残差信号とに基づき、ピッチマーク時刻を推定するピッチマーク時刻推定部と、有する。
本発明によれば、学習者が直感的に発音を改善できるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<本実施形態の基本原理>
本実施形態は、ある言語(例えば日本語)を母語とする話者が他の言語(例えば英語)を発話したときに、他の言語(例えば”had”などの英単語)の母音を他言語の正しい発音に直してリアルタイムにフィードバックすると、話者は無意識のうちに正しい発音に引きずられ発音が上手くなるという自然法則の発見に基づく。ここで、リアルタイムとは、話者に発音の変換による時間ずれに気づかれない範囲内で処理を行うことを意味し、20ミリ秒以下で処理を完了することが望ましいとされる。
本実施形態は、ある言語(例えば日本語)を母語とする話者が他の言語(例えば英語)を発話したときに、他の言語(例えば”had”などの英単語)の母音を他言語の正しい発音に直してリアルタイムにフィードバックすると、話者は無意識のうちに正しい発音に引きずられ発音が上手くなるという自然法則の発見に基づく。ここで、リアルタイムとは、話者に発音の変換による時間ずれに気づかれない範囲内で処理を行うことを意味し、20ミリ秒以下で処理を完了することが望ましいとされる。
この発見に基づき、本実施形態の発音変換装置は、学習者(発話者)の発音をネイティブの発音に近い形に変換した音を学習者にフィードバックすることで、学習者が直感的に発音を改善しやすいシステムを提供する。
<第一実施形態>
図1は第一実施形態に係る学習システムの機能ブロック図を、図2はその処理フローを示す。
図1は第一実施形態に係る学習システムの機能ブロック図を、図2はその処理フローを示す。
学習システム10は、収音装置91と発音変換装置100と再生装置92とを含む。さらに、発音変換装置100は、特徴量抽出部110と、変換部120とを含む。
学習システム10は、収音装置91で学習者の発話を収音し、発音変換装置100において収音した収音信号(以下、原音声信号ともいう)s(t)に含まれる学習者の発音をネイティブの発音に近い形に変換し、変換後の信号(以下、変換後音声信号ともいう)y(t)を再生装置92で再生し学習者に対して提示する。なお、tは時刻を示すインデックスである。
発音変換装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発音変換装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。発音変換装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。発音変換装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。発音変換装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも発音変換装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、発音変換装置の外部に備える構成としてもよい。
以下、発音変換装置100の各部について説明する。
<特徴量抽出部110>
特徴量抽出部110は、原音声信号s(t)を入力とし、原音声信号s(t)から、特徴量を抽出し(S110)、出力する。ここで抽出する特徴量は、原音声信号s(t)と目標(お手本)とする発音の音声信号(以下、目標音声信号ともいう)との発音の違いを表現可能な特徴量であり、例えば、フォルマント周波数若しくはフォルマント周波数のバンド幅である。
特徴量抽出部110は、原音声信号s(t)を入力とし、原音声信号s(t)から、特徴量を抽出し(S110)、出力する。ここで抽出する特徴量は、原音声信号s(t)と目標(お手本)とする発音の音声信号(以下、目標音声信号ともいう)との発音の違いを表現可能な特徴量であり、例えば、フォルマント周波数若しくはフォルマント周波数のバンド幅である。
フォルマント周波数の抽出方法としては、例えば、PEAR(phase equalization-based autoregressive exogenous model)と呼ばれるアルゴリズム(参考文献1参照)等の周知技術や、後述の第二実施形態で説明する手法を用いれば良い。
(参考文献1):Oohashi, H., Hiroya, S., and Mochida, T., "Real-time robust formant estimation system using a phase equalization-based autoregressive exogenous model", Acoustical Science and Technology, vol. 36, no. 6, pp. 478-488, 2015.
(参考文献1):Oohashi, H., Hiroya, S., and Mochida, T., "Real-time robust formant estimation system using a phase equalization-based autoregressive exogenous model", Acoustical Science and Technology, vol. 36, no. 6, pp. 478-488, 2015.
例えば、原音声信号s(t)をPEAR(もしくはLPC)分析して線形予測係数a1, …, aP(Pは予測次数)を求め、線形予測係数により得られる予測多項式の根z1, …, zPを求める。このとき虚根の角をθ1, …, θP、大きさをr1, …, rPとする。θpとフォルマント周波数Fpは以下の式(1)の関係にあるので、θpを逆変換するとフォルマント周波数Fpが求まる。各p(1≦p≦P)についてθpからフォルマント周波数Fpを求める。
ただし、fsはサンプリング周波数を表す。
フォルマント周波数のバンド幅を特徴量として用いる場合には、Bpをフォルマント周波数のバンド幅とすると、
の関係が成り立つので、大きさrpを逆変換することでバンド幅Bpを求めればよい。
<変換部120>
変換部120は、特徴量抽出部110で抽出した特徴量と、目標音声信号の特徴量とに基づいて、原音声信号s(t)を変換した変換後音声信号y(t)を求める。変換後音声信号y(t)は、再生装置92で学習者が知覚可能な形(聴こえる形)で再生される。
変換部120は、特徴量抽出部110で抽出した特徴量と、目標音声信号の特徴量とに基づいて、原音声信号s(t)を変換した変換後音声信号y(t)を求める。変換後音声信号y(t)は、再生装置92で学習者が知覚可能な形(聴こえる形)で再生される。
例えば、変換部120は、特徴量抽出部110で抽出した特徴量を入力とし、この特徴量を目標音声信号の特徴量に近づくように変換する(S120)。
(特徴量としてフォルマント周波数を用いる場合)
特徴量抽出部110で抽出したフォルマント周波数に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求め、出力する。ただし、zは線形予測係数により得られる予測多項式の根である。
(特徴量としてフォルマント周波数を用いる場合)
特徴量抽出部110で抽出したフォルマント周波数に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求め、出力する。ただし、zは線形予測係数により得られる予測多項式の根である。
より詳細には、原音声信号の声道スペクトルA(z)と目標音声信号の声道スペクトルA’(z)とから、以下の式(3)に従う変換フィルタF(z)を求め、変換フィルタF(z)に原音声信号S(z)を通すことにより、変換後音声信号Y(z)を求める。つまり、式(4)により変換後音声信号Y(z)を求める。ここで、S(z)は原音声信号s(t)の周波数領域表現である。声道スペクトルは通常の音声分析と同様に5~10ミリ秒毎に求める。したがって、変換フィルタも声道スペクトルに合わせてフレーム毎に更新する。
Y(z)=F(z)S(z) (4)
例えば、声道スペクトルA(z)及び声道スペクトルA'(z)は以下のように表される。
例えば、声道スペクトルA(z)及び声道スペクトルA'(z)は以下のように表される。
ここで、θ'pは目標音声信号のフォルマント周波数F'pから、下記式により求められる。
(特徴量としてフォルマント周波数のバンド幅を用いる場合)
特徴量抽出部110で抽出したフォルマント周波数のバンド幅に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数のバンド幅に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求める。式(3),(4),(5)については特徴量としてフォルマント周波数を用いる場合と同様である。
特徴量抽出部110で抽出したフォルマント周波数のバンド幅に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数のバンド幅に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求める。式(3),(4),(5)については特徴量としてフォルマント周波数を用いる場合と同様である。
この場合、声道スペクトルA'(z)は以下のように表される。
ここでrp'は、目標音声信号のフォルマント周波数F'pのバンド幅Bp'から下記式により求められる。
(特徴量としてフォルマント周波数とフォルマント周波数のバンド幅を用いる場合)
特徴量抽出部110で抽出したフォルマント周波数とそのバンド幅に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数とそのバンド幅に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求める。式(3),(4),(5)については特徴量としてフォルマント周波数を用いる場合と同様である。
特徴量抽出部110で抽出したフォルマント周波数とそのバンド幅に対応する声道スペクトルA(z)と、目標音声信号のフォルマント周波数とそのバンド幅に対応する声道スペクトルA’(z)とを用いて、変換後音声信号y(t)を求める。式(3),(4),(5)については特徴量としてフォルマント周波数を用いる場合と同様である。
この場合、声道スペクトルA'(z)は以下のように表される。
ここでθp',rp'は、上述の式(7),(9)から求められる。
なお、目標音声信号の特徴量(フォルマント周波数F'pおよびバンド幅B'p)または目標音声信号の声道スペクトルA’(z)は、発音変換に先立ち、予め外部から与えられるか、あるいは、図示しない記憶部に予め記憶されているものとする。例えば、原音声信号s(t)に対応する発話(単語単位、文単位、文章単位の何れであってもよく、適宜設定すればよい)をネイディブ(母語話者)が行い、その発話を収音して得られる音声信号から特徴量を得、得た特徴量から声道スペクトルA’(z)を求めておく。
さらに、変換部120は、変換後の音声信号(以下、変換後音声信号ともいう)Y(z)を時間領域に変換して、時間領域の変換後音声信号y(t)を得(参考文献4参照)、出力する。(参考文献4)Villacorta, V.M., Perkell, J.S., and Guenther, F.H., "Sensorimotor adaptation to feedback perturbations of vowel acoustics and its relation to perception", J. Acoust. Soc. Am., 2007, pp.2306--2319, 2007.
例えば、”had”という英単語の”a”のフォルマント周波数をネイティブのものに変換するためには、第1フォルマント周波数(F1)を862Hz、第2フォルマント周波数(F2)を1615Hzにすればよい。これらが目標とする音声信号のフォルマント周波数となる。なお、F1やF2は上述のP個のフォルマント周波数F1, …, FPの中から決定されるものとする。
<効果>
以上の構成により、変換後音声信号y(t)が再生装置92で再生され、学習者に提示される。再生音を聴きながら、学習者は無意識のうちに正しい発音に引きずられ発音が上手くなり、学習者は直感的に発音を改善しやすくなる。
以上の構成により、変換後音声信号y(t)が再生装置92で再生され、学習者に提示される。再生音を聴きながら、学習者は無意識のうちに正しい発音に引きずられ発音が上手くなり、学習者は直感的に発音を改善しやすくなる。
なお、従来のリアルタイムフォルマント周波数変換研究においては、人間のメカニズムの解明が目的であったため、フォルマント周波数を100Hzシフトさせるなどの処理が主であり、非母語話者の発音をよくするという観点はなく、この観点からフォルマント周波数を変換するという技術的思想は本願独自のものである。
日本語母語話者が”had”などの母音[ae](アッシュ)を含む英単語を発話する際、日本語の母音「あ」に置き換え、「ハド」と発話する。日本語母音「あ」のF1はおおよそ920Hz、F2は1500Hzである。英語母音[ae]の音を学習させるために、リアルタイムに母音のF1を862Hz、F2を1615Hzに変換した音声を日本語母語話者に聞かせると、話者はF1を862Hz、F2を1615Hzに近づけるように、F1を下げ、F2を上げて発話を行う。F1は舌の上下、F2は舌の前後の位置と対応していることから、フォルマント周波数が英語母音のそれに近づいたということは、舌の位置が英語母音のそれに近づいたということである。つまり、英語母音の正しい舌の位置とフォルマント周波数の関係を直感的に理解できることになる。
<変形例1>
変換部120では、特徴量抽出部110で抽出した特徴量と、目標音声信号の特徴量とに基づいて、原音声信号s(t)を変換したが、常に同じフォルマント周波数に変換されると不自然と感じることがある。
変換部120では、特徴量抽出部110で抽出した特徴量と、目標音声信号の特徴量とに基づいて、原音声信号s(t)を変換したが、常に同じフォルマント周波数に変換されると不自然と感じることがある。
そこで、不自然さを解消するため、変換部120で用いる目標音声信号の特徴量(以下、目標特徴量ともいう)として、予め与えられた目標音声信号の特徴量を補正したもの(以下、「補正目標特徴量」ともいう)を用いる。補正目標特徴量は、目標特徴量の近傍の値の中からランダムに選択される値とする。発話毎に変換部120で変換を行うとした場合に、時間的に連続する複数の発話の少なくとも一部において、異なる補正目標特徴量が用いられるようにすればよい。
このような処理を行うことで、変換部120は、目標特徴量に乱数を与えて、特徴量抽出部110で抽出した特徴量を、補正目標特徴量に近づくように変換することができ、不自然さを解消できる。
例えば、本変形例では、目標音声信号の特徴量が、発音変換に先立ち、予め外部から与えられるか、あるいは、図示しない記憶部に予め記憶されており、変換部120は、目標音声信号の特徴量を中心に発話毎に異なる乱数を与えて、乱数を与えた値(補正目標特徴量)から声道スペクトルA’(z)を求める。このような構成により、発話毎にばらつきを与えることができ、上述の不自然さを解消することができる。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態と異なる部分を中心に説明する。
第二実施形態は、第一実施形態の特徴量抽出部110の処理が第一実施形態とは異なる。
第一実施形態では、特徴量の計算は参考文献1等の従来技術を用いてもよいこととしていた。しかし、参考文献1に開示されているPEARでは、リアルタイムに精度よくフォルマント周波数を抽出することができるが、そのためにはEGG(Electroglottography)という装置を用いて声帯振動を計測し、ピッチマークを抽出する必要がある。ここで、EGGからピッチマークを抽出する方法としては特許文献2を用いれば良い。
(参考文献2)特開2016-133522号公報
ただし、利用の便を考えた場合、EGG等の装置を用いず、PEARにより、入力音声信号(原音声信号)のみから精度よくピッチマーク、そしてフォルマント周波数を抽出できるほうが好ましい。背景技術に記載した非特許文献1の技術においてもフォルマント分析が用いられているが、このフォルマント分析のためには、第一実施形態と同じくEGG等の装置が必要であり、簡便に利用することができないという問題がある。
(参考文献2)特開2016-133522号公報
ただし、利用の便を考えた場合、EGG等の装置を用いず、PEARにより、入力音声信号(原音声信号)のみから精度よくピッチマーク、そしてフォルマント周波数を抽出できるほうが好ましい。背景技術に記載した非特許文献1の技術においてもフォルマント分析が用いられているが、このフォルマント分析のためには、第一実施形態と同じくEGG等の装置が必要であり、簡便に利用することができないという問題がある。
そこで、第二実施形態の特徴量抽出部110は、EGGを利用せず、入力音声信号のみからフォルマント周波数を抽出することを特徴とする。特に、従来EGGが必要とされたのはピッチマーク時刻の抽出処理であるが、第二実施形態の特徴量抽出部110は、EGGを利用せず、入力音声信号のみからピッチマーク時刻を抽出することを特徴とする。これにより、第一実施形態よりも簡便な装置で、発話変換を実現することができる。なお、ピッチマーク時刻は、発話変換のみならず、音声合成、音声変換及び音声分析等の基盤技術となる特徴量である。つまり、第二実施形態の音声区間検出部111、LPC分析部112、ピッチマーク分析部113、相互相関推定部114、ピッチマーク時刻推定部115を切り出して、ピッチマーク時刻を抽出するピッチマーク時刻抽出装置として機能させ、抽出したピッチマークを音声合成や音声分析等に用いることも可能である。この場合も、EGG等の装置が不要で、簡便、かつ、精度良くピッチマーク時刻を抽出することが可能となる効果がある。
図3は第二実施形態の特徴量抽出部110の機能ブロック図を、図4はその処理フローの例を示す。
第二実施形態の特徴量抽出部110は、音声区間検出部111、LPC分析部112、ピッチマーク分析部113、相互相関推定部114、ピッチマーク時刻推定部115、抽出部116を含む。
以下、各部の処理内容を説明する。
<音声区間検出部111>
まず、音声区間検出部111は、原音声信号s(t)を受け取り、入力された原音声信号s(t)の音声区間を検出し、出力する(S111)。例えば、原音声信号s(t)のパワーを求め、そのパワーが所定の閾値よりも大きい場合に、音声区間として検出し、音声区間を表す情報(以下「音声区間情報」ともいう)を出力する。例えば、音声区間情報をu(t)とし、音声信号s(t)が音声区間であればu(t)=1とし、音声区間でなければu(t)=0とする。また、音声区間の開始時刻及び終了時刻(および/または、音声区間でない区間の開始時刻及び終了時刻)を音声区間情報として出力してもよい。音声区間として検出された音声信号s(t)を、そのまま音声区間情報として出力してもよい。要は、以下の処理において、音声区間が分かればよいので、どのような方法により、音声区間を検出し、音声区間情報を出力してもよい。以下の処理において、音声区間に対してのみ処理を行うことで、処理量を軽減することができる。なお、本実施形態では音声区間情報をu(t)とする。
まず、音声区間検出部111は、原音声信号s(t)を受け取り、入力された原音声信号s(t)の音声区間を検出し、出力する(S111)。例えば、原音声信号s(t)のパワーを求め、そのパワーが所定の閾値よりも大きい場合に、音声区間として検出し、音声区間を表す情報(以下「音声区間情報」ともいう)を出力する。例えば、音声区間情報をu(t)とし、音声信号s(t)が音声区間であればu(t)=1とし、音声区間でなければu(t)=0とする。また、音声区間の開始時刻及び終了時刻(および/または、音声区間でない区間の開始時刻及び終了時刻)を音声区間情報として出力してもよい。音声区間として検出された音声信号s(t)を、そのまま音声区間情報として出力してもよい。要は、以下の処理において、音声区間が分かればよいので、どのような方法により、音声区間を検出し、音声区間情報を出力してもよい。以下の処理において、音声区間に対してのみ処理を行うことで、処理量を軽減することができる。なお、本実施形態では音声区間情報をu(t)とする。
<LPC分析部112>
LPC分析部112は、原音声信号s(t)とその音声区間情報u(t)とを受け取り、LPC分析により音声区間の原音声信号s(t)から得られるLPC係数aと、音声区間の原音声信号s(t)とを用いて、LPC残差信号e(t)を求め(S112)、LPC分析の過程で得られる自己相関関数RSSと、LPC残差信号e(t)とを出力する。
LPC分析部112は、原音声信号s(t)とその音声区間情報u(t)とを受け取り、LPC分析により音声区間の原音声信号s(t)から得られるLPC係数aと、音声区間の原音声信号s(t)とを用いて、LPC残差信号e(t)を求め(S112)、LPC分析の過程で得られる自己相関関数RSSと、LPC残差信号e(t)とを出力する。
例えば、本実施形態では、LPC分析部112は、原音声信号s(t)に対して通常のLPC分析(例えば参考文献3参照)を行い、LPC係数aと、自己相関関数RSSとを求める。
(参考文献3)古井、「ディジタル音声処理」、東海大学出版会、1985年、pp.60-65.
(参考文献3)古井、「ディジタル音声処理」、東海大学出版会、1985年、pp.60-65.
最後に、原音声信号s(t),s(t-1),…,s(t-P)とLPC係数a={a(1),a(2),…,a(P)}とを用いて、次式によりLPC残差信号e(t)を求める。
なお、sp(t)は、原音声信号s(t)に対して音源スペクトルの傾斜特性を取り除くためにプリエンファシスを行って得られる原音声信号である。ただし、プリエンファシスを行った原音声信号sp(t)は次式により表される。
sp(t)=s(t)-αs(t-1) (12)
αは例えば0.98を用いる。なお、プリエンファシス(pre-emphasis)とは、伝送路固有の高周波数における減衰特性に応じて伝送信号の高域側を増幅して送信側から送出し、受信側で受ける信号の周波数特性を改善する変調技術である。
sp(t)=s(t)-αs(t-1) (12)
αは例えば0.98を用いる。なお、プリエンファシス(pre-emphasis)とは、伝送路固有の高周波数における減衰特性に応じて伝送信号の高域側を増幅して送信側から送出し、受信側で受ける信号の周波数特性を改善する変調技術である。
<ピッチマーク分析部113>
ピッチマーク分析部113は、原音声信号s(t)を受け取り、原音声信号s(t)を用いて、EGG声門閉鎖時刻{ti E}に対応する時刻において1を、それ以外の時刻において0を持つインパルス列δ(t,{ti E})を算出し(S113)、出力する。例えば、参考文献4のP997のSEDREAMSというアルゴリズムで音声信号から参考文献4の図3(b)のようなmean-based signal x(t)を作成する。なお、mean-based signal x(t)は次式により、求まる。
ピッチマーク分析部113は、原音声信号s(t)を受け取り、原音声信号s(t)を用いて、EGG声門閉鎖時刻{ti E}に対応する時刻において1を、それ以外の時刻において0を持つインパルス列δ(t,{ti E})を算出し(S113)、出力する。例えば、参考文献4のP997のSEDREAMSというアルゴリズムで音声信号から参考文献4の図3(b)のようなmean-based signal x(t)を作成する。なお、mean-based signal x(t)は次式により、求まる。
w(m)は窓長2N+1の窓関数(例えばハミング窓)である。この際、予め発話者(学習者)のおおよそのピッチラグ(基本周波数をサンプリング周波数で割ったもの)を求めておき、そのピッチラグを1.75倍した値を2N+1とする。あるいは、予め発話者のピッチラグを求めておくのではなく、LPC分析部112で求めた自己相関関数Rssの値を最大にするピッチラグをフレーム毎に用いてもよい。また、変形自己相関法など各種ピッチ分析により、ピッチラグをフレーム毎に求めてもよい。このmean-based signal x(t)はピッチラグの周期を持つ周期関数であり、最小値を持つ時刻、例えばx(t)-x(t-1)<0かつx(t)-x(t+1)<0となる時刻t、でパルスを立てたパルス列を前述のインパルス列δ(t,{ti
E})として生成する。
(参考文献4)T. Drugman, M. Thomas, J. Gudnason, P. Naylor, and T. Dutoit, “Detection of Glottal Closure Instants from Speech Signals: A Quantitative Review,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 3, pp. 994-1006, Mar. 2012.
(参考文献4)T. Drugman, M. Thomas, J. Gudnason, P. Naylor, and T. Dutoit, “Detection of Glottal Closure Instants from Speech Signals: A Quantitative Review,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 3, pp. 994-1006, Mar. 2012.
<相互相関推定部114>
相互相関推定部114は、LPC残差信号e(t)とインパルス列δ(t,{ti E})とを受け取り、次式により、LPC残差信号e(t)とインパルス列δ(t,{ti E})との相互相関を推定することで(S114)、EGG声門閉鎖時刻に対するLPC残差信号e(t)の遅延τを推定し、出力する。
相互相関推定部114は、LPC残差信号e(t)とインパルス列δ(t,{ti E})とを受け取り、次式により、LPC残差信号e(t)とインパルス列δ(t,{ti E})との相互相関を推定することで(S114)、EGG声門閉鎖時刻に対するLPC残差信号e(t)の遅延τを推定し、出力する。
なお、原音声信号s(t)とインパルス列δ(t,{ti
E})の相互相関を計算し、相互相関の値が最大となる値を遅延τとしてもよい。このとき、遅延推定部114は少なくとも相互相関の計算に必要となる値を求めるための構成を備えればよい。
<ピッチマーク時刻推定部115>
ピッチマーク時刻推定部115は、相互相関推定部114で求めた遅延τと、ピッチマーク分析部113で求めたインパルス列δ(t,{ti E})と、LPC残差信号e(t)とに基づき、ピッチマーク時刻ti Sを推定して(S115)出力する。
ピッチマーク時刻推定部115は、相互相関推定部114で求めた遅延τと、ピッチマーク分析部113で求めたインパルス列δ(t,{ti E})と、LPC残差信号e(t)とに基づき、ピッチマーク時刻ti Sを推定して(S115)出力する。
例えば、インパルス列δ(t,{ti
E})によってパルスが立つ(値が1となる)時刻tiに遅延τを加えた値ti+τの近傍の範囲(ti+τ±Δ)に含まれる時刻のうち、対応するLPC残差信号e(t)が最大または最小となる時刻をピッチマーク時刻ti
Sとして推定し、抽出部116に出力する。Δは、基本周期F0より小さい値であり、予め定めておくものとする。
なお、LPC残差信号とEGGの場合、多くの遅延τは正の値になるが、LPC残差信号とmean-based signalの場合、遅延τは負の値になることもある。
以上の処理により、原音声信号s(t)のみから精度よくピッチマーク時刻を抽出することができる。
<抽出部116>
特徴量抽出部110の抽出部116では、このようにして求めたピッチマーク時刻ti Sと原音声信号s(t)、LPC残差信号e(t)、自己相関関数Rssから特徴量(例えば、フォルマント周波数とフォルマント周波数のバンド幅との少なくとも何れか)を抽出し(S116、参考文献1参照)、出力する。
特徴量抽出部110の抽出部116では、このようにして求めたピッチマーク時刻ti Sと原音声信号s(t)、LPC残差信号e(t)、自己相関関数Rssから特徴量(例えば、フォルマント周波数とフォルマント周波数のバンド幅との少なくとも何れか)を抽出し(S116、参考文献1参照)、出力する。
例えば、抽出部116は、ピッチマーク時刻ti
Sと原音声信号s(t)、LPC残差信号e(t)、を用いて、次式により値V(p)を求める。
ただし、w(m)は前述の窓関数である。次に、抽出部116は、値V(p)と自己相関関数Rssとを用いて次式に基づきLPC係数^a(p)を得る。
さらに、LPC係数^a(p)からフォルマント周波数とフォルマント周波数のバンド幅との少なくとも何れかを求める。LPC係数^a(p)からフォルマント周波数Fp、バンド幅Bpを求める方法は第一実施形態で説明した通りである。つまり、LPC係数^a(p)により得られる予測多項式の根z1, …, zPを求める。このとき虚根の角をθ1, …, θP、大きさをr1, …, rPとする。角θpとフォルマント周波数Fpは上述の式(1)の関係にあるので、θpを逆変換するとフォルマント周波数Fpが求まる。また、大きさrpとバンド幅Bpは上述の式(2)の関係にあるので、大きさrpを逆変換することでバンド幅Bpを求めればよい。
<効果>
このような構成により、本実施形態ではEGG等の装置を用いずに、第一実施形態と同様の効果を得ることができる。
このような構成により、本実施形態ではEGG等の装置を用いずに、第一実施形態と同様の効果を得ることができる。
<変形例>
上述の第一実施形態、第二実施形態では、フォルマント抽出のためにPEARを用いたが、線形予測符号化(Linear Predictive Coding: LPC)を用いても良い。
上述の第一実施形態、第二実施形態では、フォルマント抽出のためにPEARを用いたが、線形予測符号化(Linear Predictive Coding: LPC)を用いても良い。
変換後音声信号をリアルタイムに発話者に返す(再生する)のではなく、少し時間が経ってから(例えば1秒後)発話者に返しても良い。このような場合にも、直後に正しい発音を確認することで、学習者は直感的に発音を改善できる。
変換後音声信号を発話者に返すと同時に、フォルマント周波数を視覚的に与えても良い。
上述の変換部120の例では、フォルマント周波数Fp’を862Hzなど目標とするフォルマント周波数を陽に与えているが、原音声信号s(t)のフォルマント周波数を目標音声信号のフォルマント周波数に変換するシフト量を与えても良い。例えば、シフト量をSpとした場合、Fp’=Fp+Spとなり、Fp’をθp’との関係式を用いてθp’に変換すれば、式(3),(4)を用いて音声信号の変換を行うことができる。シフト量Spは、例えば日本語母語話者のフォルマント周波数の平均-Fpと英語母語話者の平均-F'pの差分Sp=-F'p--Fpで求めることができる。
本実施例は、非母語話者の発音を母語話者のそれに変換するものであったが、母語話者の方言の発音を母語話者の標準語の発音に変換するなど、母語話者間での発音の変換であってもよいし、また非母語話者間の変換であってもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (9)
- ある言語を母語とする第一話者が他の言語を発話した際に得られる第一音声信号に対応する第一特徴量を、前記他の言語を母語とする第二話者が前記他の言語を発話した際に得られる第二音声信号に対応する第二特徴量に近づくように変換する変換部を含み、
前記第一特徴量及び前記第二特徴量は、発音の違いを表現可能な特徴量であり、
変換後の前記第一特徴量から得られる音声信号は、前記第一話者に対して提示される、
発音変換装置。 - 請求項1の発音変換装置であって、
前記第一音声信号の音声区間を検出する音声区間検出部と、
前記第一音声信号と前記音声区間とを用いて、LPC分析により前記音声区間の前記第一音声信号から得られるLPC係数aと、前記音声区間の前記第一音声信号とを用いて、LPC残差信号を求めるLPC分析部と、
前記第一音声信号を用いて、EGG声門閉鎖時刻に対応するインパルス列を算出するピッチマーク分析部と、
前記LPC残差信号と前記インパルス列との相互相関を推定することで、前記EGG声門閉鎖時刻に対する前記LPC残差信号の遅延を推定する相互相関推定部と、
前記遅延と前記インパルス列と前記LPC残差信号とに基づき、ピッチマーク時刻を推定するピッチマーク時刻推定部と、
前記ピッチマーク時刻と前記第一音声信号から前記第一特徴量を抽出する抽出部とを、有する、
発音変換装置。 - 請求項1から請求項4の何れかの発音変換装置であって、
前記変換部は、前記第二特徴量に乱数を与えて、前記第一特徴量を、乱数を与えた前記第二特徴量に近づくように変換する、
発音変換装置。 - 音声信号の音声区間を検出する音声区間検出部と、
前記音声信号と前記音声区間とを用いて、LPC分析により前記音声区間の前記音声信号から得られるLPC係数aと、前記音声区間の前記第一音声信号とを用いて、LPC残差信号を求めるLPC分析部と、
前記音声信号を用いて、EGG声門閉鎖時刻に対応するインパルス列を算出するピッチマーク分析部と、
前記LPC残差信号と前記インパルス列との相互相関を推定することで、前記EGG声門閉鎖時刻に対する前記LPC残差信号の遅延を推定する相互相関推定部と、
前記遅延と前記インパルス列と前記LPC残差信号とに基づき、ピッチマーク時刻を推定するピッチマーク時刻推定部と、有する、
ピッチマーク時刻抽出装置。 - 変換部が、ある言語を母語とする第一話者が他の言語を発話した際に得られる第一音声信号に対応する第一特徴量を、前記他の言語を母語とする第二話者が前記他の言語を発話した際に得られる第二音声信号に対応する第二特徴量に近づくように変換する変換ステップを含み、
前記第一特徴量及び前記第二特徴量は、発音の違いを表現可能な特徴量であり、
変換後の前記第一特徴量から得られる音声信号は、前記第一話者に対して提示される、
発音変換方法。 - 音声区間検出部が、音声信号の音声区間を検出する音声区間検出ステップと、
LPC分析部が、前記音声信号と前記音声区間とを用いて、LPC分析により前記音声区間の前記音声信号から得られるLPC係数aと、前記音声区間の前記第一音声信号とを用いて、LPC残差信号を求めるLPC分析ステップと、
ピッチマーク分析部が、前記音声信号を用いて、EGG声門閉鎖時刻に対応するインパルス列を算出するピッチマーク分析ステップと、
相互相関推定部が、前記LPC残差信号と前記インパルス列との相互相関を推定することで、前記EGG声門閉鎖時刻に対する前記LPC残差信号の遅延を推定する相互相関推定ステップと、
ピッチマーク時刻推定部が、前記遅延と前記インパルス列と前記LPC残差信号とに基づき、ピッチマーク時刻を推定するピッチマーク時刻推定ステップと、有する、
ピッチマーク時刻抽出方法。 - 請求項1から請求項5の何れかの発音変換装置または請求項6のピッチマーク時刻抽出装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/049,554 US11557287B2 (en) | 2018-04-25 | 2019-04-09 | Pronunciation conversion apparatus, pitch mark timing extraction apparatus, methods and programs for the same |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-084381 | 2018-04-25 | ||
JP2018084381A JP7040258B2 (ja) | 2018-04-25 | 2018-04-25 | 発音変換装置、その方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019208193A1 true WO2019208193A1 (ja) | 2019-10-31 |
Family
ID=68295366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/015418 WO2019208193A1 (ja) | 2018-04-25 | 2019-04-09 | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11557287B2 (ja) |
JP (1) | JP7040258B2 (ja) |
WO (1) | WO2019208193A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494434B2 (en) | 2019-07-31 | 2022-11-08 | Rovi Guides, Inc. | Systems and methods for managing voice queries using pronunciation information |
US11410656B2 (en) * | 2019-07-31 | 2022-08-09 | Rovi Guides, Inc. | Systems and methods for managing voice queries using pronunciation information |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013238819A (ja) * | 2012-05-17 | 2013-11-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム |
JP2016040571A (ja) * | 2014-08-12 | 2016-03-24 | 日本電信電話株式会社 | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム |
JP2016133522A (ja) * | 2015-01-15 | 2016-07-25 | 日本電信電話株式会社 | 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7502731B2 (en) * | 2003-08-11 | 2009-03-10 | Sony Corporation | System and method for performing speech recognition by utilizing a multi-language dictionary |
CN101399044B (zh) * | 2007-09-29 | 2013-09-04 | 纽奥斯通讯有限公司 | 语音转换方法和系统 |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
JP5665780B2 (ja) * | 2012-02-21 | 2015-02-04 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
-
2018
- 2018-04-25 JP JP2018084381A patent/JP7040258B2/ja active Active
-
2019
- 2019-04-09 WO PCT/JP2019/015418 patent/WO2019208193A1/ja active Application Filing
- 2019-04-09 US US17/049,554 patent/US11557287B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013238819A (ja) * | 2012-05-17 | 2013-11-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム |
JP2016040571A (ja) * | 2014-08-12 | 2016-03-24 | 日本電信電話株式会社 | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム |
JP2016133522A (ja) * | 2015-01-15 | 2016-07-25 | 日本電信電話株式会社 | 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
DRUGMAN, THOMAS ET AL.: "Glottal Closure and Opening Instant Detection from Speech Signals", PROCEEDINGS INTERSPEECH CONFERENCE, 30 September 2009 (2009-09-30), pages 2891 - 2894, XP055136924 * |
Also Published As
Publication number | Publication date |
---|---|
JP7040258B2 (ja) | 2022-03-23 |
US20210241754A1 (en) | 2021-08-05 |
JP2019191378A (ja) | 2019-10-31 |
US11557287B2 (en) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11322155B2 (en) | Method and apparatus for establishing voiceprint model, computer device, and storage medium | |
US11605371B2 (en) | Method and system for parametric speech synthesis | |
CN104081453A (zh) | 用于声学变换的系统和方法 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN102426834A (zh) | 测试英文口语韵律水平的方法 | |
KR20090065746A (ko) | 음성 인식기의 성능 평가 장치 및 그 방법 | |
WO2019208193A1 (ja) | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
US7805308B2 (en) | Hidden trajectory modeling with differential cepstra for speech recognition | |
RU2510954C2 (ru) | Способ переозвучивания аудиоматериалов и устройство для его осуществления | |
JP3973492B2 (ja) | 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 | |
EP3113180B1 (en) | Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal | |
Degottex et al. | Phase distortion statistics as a representation of the glottal source: Application to the classification of voice qualities | |
JP5706368B2 (ja) | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム | |
JP6285823B2 (ja) | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム | |
JP2010282239A (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
CN115312029B (zh) | 一种基于语音深度表征映射的语音翻译方法及系统 | |
JP5245962B2 (ja) | 音声合成装置、音声合成方法、プログラム及び記録媒体 | |
JPWO2009041402A1 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
KR20080065775A (ko) | 구화 교육용 발성 시각화 시스템 | |
JP2016133522A (ja) | 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム | |
Airaksinen et al. | Effects of training data variety in generating glottal pulses from acoustic features with DNNs | |
Hagelborn et al. | Interpolation of perceived gender in speech signals | |
US20220366895A1 (en) | Utterance evaluation apparatus, utterance evaluation, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19791836 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19791836 Country of ref document: EP Kind code of ref document: A1 |