JPWO2020089961A1 - 音声処理装置、およびプログラム - Google Patents
音声処理装置、およびプログラム Download PDFInfo
- Publication number
- JPWO2020089961A1 JPWO2020089961A1 JP2019527925A JP2019527925A JPWO2020089961A1 JP WO2020089961 A1 JPWO2020089961 A1 JP WO2020089961A1 JP 2019527925 A JP2019527925 A JP 2019527925A JP 2019527925 A JP2019527925 A JP 2019527925A JP WO2020089961 A1 JPWO2020089961 A1 JP WO2020089961A1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- generation
- settings
- network
- generation network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 67
- 230000008451 emotion Effects 0.000 claims abstract description 64
- 238000003384 imaging method Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims description 34
- 230000015572 biosynthetic process Effects 0.000 claims description 30
- 238000003786 synthesis reaction Methods 0.000 claims description 30
- 230000001815 facial effect Effects 0.000 claims description 17
- 230000002194 synthesizing effect Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 12
- 239000003086 colorant Substances 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims 1
- 230000002996 emotional effect Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 43
- 238000010801 machine learning Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
を含むことを特徴とする。
図1は、本発明の一実施形態による音声処理装置1のハードウェア構成例を示すブロック図である。音声処理装置1は、例えばスマートフォンである。音声処理装置1は、図1に示すように、制御部10、ユーザインタフェース部20,記憶部30、およびこれら構成要素間のデータ授受を仲介するバス40を有する。音声処理装置1は、図1に示す構成要素の他に、無線通信網の基地局と無線通信する無線通信部を有するが、無線通信部については本発明との関連が薄いため、図1では図示が省略されている。以下、本明細書においても、無線通信部についての詳細な説明は省略する。また、図1では、「ユーザインタフェース」は「UI」と略記されており、以下、本明細書においても同様の表記とする。
以上が、生成ネットワーク生成処理の処理内容である。
音声処理プログラム322にしたがって作動している制御部10は、操作部220に対する操作により音声合成処理の実行を指示されたことを契機として、音声合成処理を開始する。この音声合成処理は、ユーザにより指定された固定設定に対応する声質および同ユーザにより指定された流動設定に対応する発話内容および感情の音声を、上記記憶領域に記憶された第2の生成ネットワークを用いて合成する処理である。図8は、音声合成処理の流れを示すフローチャートである。図8に示すように、本実施形態の音声合成処理には、指定受付ステップSB100と音声合成ステップSB110の2つのステップが含まれている。これら2つのステップの各々において制御部10が実行する処理の内容は次の通りである。
(1)上記実施形態では、性別、年齢・・・アクセントの各ボコーダを順次作動させて音声を生成したが、各ボコーダを作動させる順序を入れ替えてもよい。但し、性別、年齢、体重、およびアクセントといった固定設定に関するボコーダを作動させた後に、流動設定に関するボコーダを作動させることが好ましい。
Claims (7)
- 発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出手段と、
前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を、対応するフレームの音声特徴データから生成するための第1の生成ネットワークを生成する第1の生成手段と、
各フレームから抽出した顔特徴点データを用いて前記第1の生成ネットワークの適否を第1の識別ネットワークにより評価する第1の評価手段と、
前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第1の評価手段により適切と評価された前記第1の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第2の生成ネットワークを生成する第2の生成手段と、
前記音声データを用いて前記第2の生成ネットワークの適否を第2の識別ネットワークにより評価する第2の評価手段と、
を有することを特徴とする音声処理装置。 - 合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付手段と、
前記第2の評価手段により適切と評価された前記第2の生成ネットワークを用いて、前記指定受付手段に対して指定された固定設定および流動設定に対応する音声を合成する音声合成手段と、
を有することを特徴とする請求項1に記載の音声処理装置。 - 前記指定受付手段は、感情毎に異なる色を対応付けたカラーマップを表示装置に表示し、色の指定により、合成対象の音声に込める感情をユーザに指定させることを特徴とする請求項2に記載の音声処理装置。
- 前記指定受付手段は、感情を示す情報の指定を、テキストの文字列長が長いほど多く受け付けることを特徴とする請求項2または請求項3に記載の音声処理装置。
- 前記第2の生成手段は、
前記複数種の固定設定および前記複数種の流動設定の設定毎に前記第2の生成ネットワークを生成するシングルネットワーク生成手段と、
前記複数種の固定設定および前記複数種の流動設定のうちの少なくとも1つの設定を除いた複数個の設定の組み合わせ毎に、前記複数個の設定の各々が他の設定に影響を与えないように前記第2の生成ネットワークを生成するマルチネットワーク生成手段と、
前記複数種の固定設定および前記複数種の流動設定の各々が他の設定影響を与えないように前記第2のネットワークを生成するオールネットワーク生成手段と、を含む
ことを特徴とする請求項1〜4の何れか1項に記載の音声処理装置。 - コンピュータに、
発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出ステップと、
前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を対応するフレームの音声特徴データから生成するための第1の生成ネットワークを生成する第1の生成ステップと、
各フレームから抽出した顔特徴点データを用いて前記第1の生成ネットワークの適否を第1の識別ネットワークにより評価する第1の評価ステップと、
前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第1の評価ステップにて適切と評価された前記第1の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第2の生成ネットワークを生成する第2の生成ステップと、
前記音声データを用いて前記第2の生成ネットワークの適否を第2の識別ネットワークにより評価する第2の評価ステップと、
を実行させることを特徴とするプログラム。 - 前記コンピュータに、
合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付ステップと、
前記第2の評価ステップにて適切と評価された前記第2の生成ネットワークを用いて、前記指定受付ステップにて受け付けた固定設定および流動設定に対応する音声を合成する音声合成ステップと、
を実行させることを特徴とする請求項5に記載のプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/040062 WO2020089961A1 (ja) | 2018-10-29 | 2018-10-29 | 音声処理装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6582157B1 JP6582157B1 (ja) | 2019-09-25 |
JPWO2020089961A1 true JPWO2020089961A1 (ja) | 2021-02-15 |
Family
ID=68053529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019527925A Active JP6582157B1 (ja) | 2018-10-29 | 2018-10-29 | 音声処理装置、およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10964308B2 (ja) |
EP (1) | EP3693957A4 (ja) |
JP (1) | JP6582157B1 (ja) |
WO (1) | WO2020089961A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210009596A (ko) * | 2019-07-17 | 2021-01-27 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0553595A (ja) | 1991-08-29 | 1993-03-05 | Canon Inc | 音声合成装置 |
JPH0772900A (ja) * | 1993-09-02 | 1995-03-17 | Nippon Hoso Kyokai <Nhk> | 音声合成の感情付与方法 |
JP3159242B2 (ja) * | 1997-03-13 | 2001-04-23 | 日本電気株式会社 | 感情生成装置およびその方法 |
JP2002244688A (ja) | 2001-02-15 | 2002-08-30 | Sony Computer Entertainment Inc | 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム |
JP2003248837A (ja) * | 2001-11-12 | 2003-09-05 | Mega Chips Corp | 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体 |
WO2008149547A1 (ja) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | 声質編集装置および声質編集方法 |
US20100332229A1 (en) * | 2009-06-30 | 2010-12-30 | Sony Corporation | Apparatus control based on visual lip share recognition |
JP2012003326A (ja) * | 2010-06-14 | 2012-01-05 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US9094576B1 (en) * | 2013-03-12 | 2015-07-28 | Amazon Technologies, Inc. | Rendered audiovisual communication |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
JP6483578B2 (ja) | 2015-09-14 | 2019-03-13 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US20190087734A1 (en) * | 2016-03-28 | 2019-03-21 | Sony Corporation | Information processing apparatus and information processing method |
US10586079B2 (en) * | 2016-12-23 | 2020-03-10 | Soundhound, Inc. | Parametric adaptation of voice synthesis |
WO2018168427A1 (ja) | 2017-03-13 | 2018-09-20 | ソニー株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
US10740391B2 (en) * | 2017-04-03 | 2020-08-11 | Wipro Limited | System and method for generation of human like video response for user queries |
US10614826B2 (en) * | 2017-05-24 | 2020-04-07 | Modulate, Inc. | System and method for voice-to-voice conversion |
-
2018
- 2018-10-29 US US16/759,817 patent/US10964308B2/en active Active
- 2018-10-29 WO PCT/JP2018/040062 patent/WO2020089961A1/ja unknown
- 2018-10-29 EP EP18937532.2A patent/EP3693957A4/en active Pending
- 2018-10-29 JP JP2019527925A patent/JP6582157B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2020089961A1 (ja) | 2020-05-07 |
US10964308B2 (en) | 2021-03-30 |
EP3693957A1 (en) | 2020-08-12 |
US20210027760A1 (en) | 2021-01-28 |
JP6582157B1 (ja) | 2019-09-25 |
EP3693957A4 (en) | 2021-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6336676B2 (ja) | 顔構造に基づいて声を合成する方法および装置 | |
CN110136692B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN110941954A (zh) | 文本播报方法、装置、电子设备及存储介质 | |
CN112669417B (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN111508511A (zh) | 实时变声方法及装置 | |
CN111583944A (zh) | 变声方法及装置 | |
CN110992989B (zh) | 语音采集方法、装置及计算机可读存储介质 | |
CN110148399A (zh) | 一种智能设备的控制方法、装置、设备及介质 | |
CN109819167B (zh) | 一种图像处理方法、装置和移动终端 | |
CN112652041B (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN109801618A (zh) | 一种音频信息的生成方法和装置 | |
CN110992927A (zh) | 音频生成方法、装置、计算机可读存储介质及计算设备 | |
WO2024088321A1 (zh) | 虚拟形象面部驱动方法、装置、电子设备及介质 | |
CN108319937A (zh) | 人脸检测方法及装置 | |
CN113538628A (zh) | 表情包生成方法、装置、电子设备及计算机可读存储介质 | |
CN115148185A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
CN110139021B (zh) | 辅助拍摄方法及终端设备 | |
JP2021086415A (ja) | 仮想人物対話システム、映像生成方法、映像生成プログラム | |
JP6582157B1 (ja) | 音声処理装置、およびプログラム | |
JP2004021121A (ja) | 音声対話制御装置 | |
US20230317054A1 (en) | Face image processing system, face image generation information providing apparatus, face image generation information providing method, and face image generation information providing program | |
CN114708849A (zh) | 语音处理方法、装置、计算机设备及计算机可读存储介质 | |
CN111091807B (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
JP6730651B1 (ja) | 音声変換装置、音声変換システム及びプログラム | |
KR102631621B1 (ko) | 목소리 정보를 처리하는 방법 및 디바이스 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190520 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190520 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6582157 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |