JPWO2018168427A1 - 学習装置、学習方法、音声合成装置、音声合成方法 - Google Patents

学習装置、学習方法、音声合成装置、音声合成方法 Download PDF

Info

Publication number
JPWO2018168427A1
JPWO2018168427A1 JP2019505839A JP2019505839A JPWO2018168427A1 JP WO2018168427 A1 JPWO2018168427 A1 JP WO2018168427A1 JP 2019505839 A JP2019505839 A JP 2019505839A JP 2019505839 A JP2019505839 A JP 2019505839A JP WO2018168427 A1 JPWO2018168427 A1 JP WO2018168427A1
Authority
JP
Japan
Prior art keywords
user
utterance
voice
speech
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019505839A
Other languages
English (en)
Other versions
JP7070544B2 (ja
Inventor
広 岩瀬
広 岩瀬
真里 斎藤
真里 斎藤
真一 河野
真一 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2018168427A1 publication Critical patent/JPWO2018168427A1/ja
Application granted granted Critical
Publication of JP7070544B2 publication Critical patent/JP7070544B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、発話先のユーザにとって内容が伝わりやすい音声で情報を提示することができるようにする学習装置、学習方法、音声合成装置、音声合成方法に関する。
本技術の一実施形態に係る学習装置は、複数のユーザの発話音声の音声認識を行い、発話時の状況を推定し、発話音声のデータと、音声認識の結果と、発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行うものである。また、音声合成装置は、状況を推定し、上記音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成するものである。本技術は、決まったユーザにより日常的に用いられ、音声によって情報を提示するエージェント機器に適用することができる。

Description

本技術は、学習装置、学習方法、音声合成装置、音声合成方法に関し、特に、発話先のユーザにとって内容が伝わりやすい音声で情報を提示することができるようにした学習装置、学習方法、音声合成装置、音声合成方法に関する。
近年、各種の情報の提示を音声により行うホームエージェント機器が普及してきている。例えば、天気予報、スケジュール、受信した電子メールの内容等の各種の情報の提示が、あたかも機器がユーザに対して話しかけるようにして行われる。
特開2011−186143号公報 特開2016−006541号公報
機器に組み込まれた音声合成(TTS(Text To Speech))による発話は、声質や口調が毎回同じで単調なため、ユーザにとって親しみが湧かず、発話への意識が向きにくい。
本技術はこのような状況に鑑みてなされたものであり、発話先のユーザにとって内容が伝わりやすい音声で情報を提示することができるようにするものである。
本技術の一側面の学習装置は、複数のユーザの発話音声の音声認識を行う音声認識部と、発話時の状況を推定する推定部と、前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行う学習部とを備える。
前記推定部には、前記音声認識の結果に基づいて、前記複数のユーザに含まれる発話ユーザと発話先ユーザの関係性を表す関係性データを生成させることができる。
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、発話時に検出された音声信号に基づいて音源の方向を検出する音声信号処理部とをさらに設けることができる。この場合、前記推定部には、前記音源の方向と前記画像に写る顔の方向に基づいて、前記発話ユーザを特定させることができる。
前記推定部には、前記発話ユーザによる発話に続けて発話を行ったユーザを、前記発話先ユーザとして特定させることができる。
前記音声信号処理部には、前記音声信号のうち、前記発話ユーザによる前記発話音声の音源方向以外の方向の成分を騒音成分として抽出させることができる。
前記画像認識部には、前記画像に顔が写る前記発話ユーザの感情を認識させることができる。
前記推定部には、前記発話時の状況として、前記発話ユーザの感情と騒音レベルを推定させることができる。
前記学習部には、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データを前記音声合成用データとして生成させることができる。
前記学習部には、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークを前記音声合成用データとして生成させることができる。
本技術の他の側面の音声合成装置は、状況を推定する推定部と、複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成する生成部とを備える。
前記生成部には、前記合成音声の発話先ユーザに応じたユーザを話者ユーザとした前記合成音声を生成させることができる。
前記音声認識の結果に基づいて学習時に生成された、前記複数のユーザに含まれる発話ユーザと発話先のユーザの関係性を表す関係性データに基づいて、前記話者ユーザを選択する制御部をさらに設けることができる。
前記制御部には、前記テキストデータの内容に基づいて前記発話先ユーザを選択させることができる。
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、検出された音声信号に基づいて音源の方向を検出し、所定のユーザによる発話音声の音源方向以外の方向の成分を騒音成分として抽出する音声信号処理部とをさらに設けることができる。
前記推定部には、前記テキストデータの内容に基づいて前記話者ユーザの感情を特定させ、前記話者ユーザの感情と騒音レベルを前記状況として推定させることができる。
前記音声合成用データは、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データであるようにすることができる。
前記音声合成用データは、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークであるようにすることができる。
本技術の一側面においては、複数のユーザの発話音声の音声認識が行われ、発話時の状況が推定され、前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習が行われる。
本技術の他の側面においては、状況が推定され、複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声が生成される。
本技術によれば、発話先のユーザにとって内容が伝わりやすい音声で情報を提示することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
音声合成用データの学習と音声合成の概要について示す図である。 音声合成辞書の学習と音声合成の流れの例を示す図である。 学習装置の構成例を示すブロック図である。 コンテキスト情報の例を示す図である。 学習装置の学習処理について説明するフローチャートである。 図5のステップS4において行われる発話検出・騒音量算出処理について説明するフローチャートである。 学習装置の周りにいるユーザの例を示す図である。 図5のステップS6において行われるコンテキスト情報生成処理について説明するフローチャートである。 図5のステップS7において行われるユーザ関係性判定処理について説明するフローチャートである。 ユーザ関係性データの例を示す図である。 図5のステップS8において行われる音声合成辞書生成処理について説明するフローチャートである。 音声合成辞書生成処理における辞書生成の例を示す図である。 音声合成装置の構成例を示すブロック図である。 音声合成装置の音声合成処理について説明するフローチャートである。 図14のステップS108において行われる辞書選択処理について説明するフローチャートである。 家庭内における学習時の例を示す図である。 システム発話の例を示す図である。 システム発話の例を示す図である。 システム発話の例を示す図である。 システム発話の例を示す図である。 学習装置のハードウェア構成例を示すブロック図である。 エージェント機器の構成例を示すブロック図である。 エージェント機器の使用状態を示す図である。 学習装置の他の構成例を示すブロック図である。 学習装置の学習処理について説明するフローチャートである。 音声合成装置の他の構成例を示すブロック図である。 音声合成用コンテキスト情報の例を示す図である。 音声合成装置の音声合成処理について説明するフローチャートである。 図28のステップS228において行われる音声合成用コンテキスト情報生成処理について説明するフローチャートである。 コンピュータの構成例を示すブロック図である。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.学習と音声合成の概要
2.第1の実施の形態(音声合成辞書を用いた例)
3.第2の実施の形態(音声合成ネットワークを用いた例)
<<学習と音声合成の概要>>
図1は、音声合成用データの学習と、音声合成用データを用いた音声合成の概要について示す図である。
本技術の一実施形態に係る学習装置と音声合成装置は、主に、家庭などの、複数の限られたユーザが日常的にいる環境で用いられる装置である。以下、学習装置と音声合成装置が、両親と子ども1人の、合わせて3人のユーザが住む家で用いられる場合について説明する。
なお、学習装置と音声合成装置は、それぞれ別々の装置として設けられるのではなく、後述するように1つの装置として設けられるようにすることが可能である。
学習装置は、家族間の日常的な会話による発話音声や家族が学習装置に向かって発した発話音声を検出し、検出した発話音声に基づいて、各ユーザの音声を真似た音声を音声合成によって生成するための音声合成用データを学習する。音声が、声質と口調から規定されるものとすると、あるユーザの音声を真似た音声は、そのユーザの音声と、声質と口調が似ている音声となる。
家族の発話音声に基づいて学習が行われることにより、父の音声を生成するための音声合成用データ、母の音声を生成するための音声合成用データ、および、子どもの音声を生成するための音声合成用データがそれぞれ生成される。
後述するように、音声合成装置においては、学習装置により生成された音声合成用データを用いてTTS(Text To Speech)が行われ、所定のテキストの内容が、家族の誰かの音声として提示される。
音声合成用データの学習は、図1の上段に示すように、発話音声のデータであるユーザ発話音声波形データと、発話音声を音声認識して得られたユーザ発話テキストに加えて、発話時の状況のセンシング結果を表すコンテキスト情報を用いて行われる。
例えば、発話時の状況として、発話を行ったユーザが誰であるのか、発話を行ったユーザの感情、発話時の騒音、発話先のユーザが誰であるのかが検出され、それらの情報が学習に用いられる。
このようにして生成された音声合成用データは、有線又は無線の通信により、あるいは記録媒体を介して音声合成装置に提供される。
一方、音声合成用データを用いた音声合成は、図1の下段に示すように、合成音声として提示する内容を表すテキストであるシステム発話テキストと、音声合成時の状況のセンシング結果を表すコンテキスト情報を入力として用いて行われる。音声合成用データを参照することにより、システム発話テキストとコンテキスト情報に応じた合成音声のデータであるシステム発話音声波形データが出力される(生成される)。
このように、学習装置における音声合成用データの学習と音声合成装置における音声合成は、それぞれのタイミングの状況を考慮して行われる。
通常、人の発話音声は、誰に対する発話であるのかや、そのときの感情、騒音などに応じて声質や口調が異なるものとなる。
上述したような状況を考慮して学習を行うことにより、各状況に応じた音声を音声合成によって得ることができる音声合成用データを生成することが可能になる。また、そのようにして生成された音声合成用データを用いて音声合成を行うことにより、各状況に応じた音声を生成することが可能になる。
以下、音声合成用データとして音声合成辞書を用いた場合の例と、ニューラルネットワークにより構成される音声合成ネットワークを用いた場合の例について説明する。
<<第1の実施の形態(音声合成辞書を用いた例)>>
図2は、音声合成用データとして音声合成辞書を用いた場合の学習と音声合成の流れの例を示す図である。
図2の上段に示すように、学習装置1は、家族のそれぞれを発話ユーザとする発話音声を検出し、ユーザ発話音声波形データと音声認識結果であるユーザ発話テキストを使用して、逐次、音声合成辞書を自動的に学習する。以下、適宜、音声合成辞書を単に辞書という。
ここで、学習時、学習装置1は、周囲の状況のセンシングを行うことによって得られたセンシング結果を用いて、発話ユーザが家族のうちの誰であるのかを特定し、ユーザ毎の、異なる声質や口調となる音声の辞書を生成する。また、学習装置1は、センシング結果を用いて、発話ユーザの感情、騒音、発話先などの状況を検出し、状況毎に、異なる声質や口調となる音声の辞書を生成する。
これにより、図1の白抜き矢印A1の先に示すように、音声合成辞書として、各ユーザの、各状況における音声の韻律と音素片のデータを格納する複数の辞書が生成される。韻律と音素片のデータにはユーザ発話テキストが対応付けられる。韻律は、イントネーション、リズム、ポーズなどの、口調を構成する要素である。
このような学習がユーザが発話する毎に逐次行われることにより、各ユーザの辞書であって、様々な感情、様々な騒音、様々な発話先に応じた辞書が生成されることになる。
一方、音声合成装置2は、図2の下段に示すように、家族の所定のユーザを発話先としたシステム発話を行う場合、家族の所定のユーザを話者として選択する。例えば、話者の選択は、システム発話テキストの内容や周囲の状況に基づいて、発話先のユーザにとって最も内容が伝わりやすいと期待される声質や口調の音声の主を選択するようにして行われる。家族のうち、例えば、発話先のユーザ以外のユーザが話者として選択される。
周囲の状況は、センシング結果に基づいて特定される。なお、システム発話は、音声合成装置2が合成音声を出力することをいう。システム発話テキストは、システム発話によってユーザに通知する内容を表すテキストデータである。
また、音声合成装置2は、選択した話者の音声合成辞書であって、システム発話テキストの内容や周囲の状況に応じた辞書を白抜き矢印A2の先に示すように選択し、システム発話テキストの音声合成を行う。音声合成装置2は、音声合成によって得られたシステム発話音声を出力することによって、システム発話テキストの内容を、発話先のユーザが誰であるのかや、周囲の状況に応じた声質や口調の合成音声によって通知する。
後に詳述するように、例えば、システム発話テキストの内容が、子どもに対する指示であるとする。この場合、発話先のユーザは“子ども”となり、普段から(学習時から)、子どもが母の言うことを聞かないが、父の言うことを聞いているときには、話者は“父”となる。また、“父”の発話音声を用いた学習によって生成された“父”の音声合成辞書のうち、システム発話テキストの内容や状況に応じた辞書が選択され、音声合成が行われる。
以上のような学習装置1による学習時の流れと音声合成装置2による音声合成時の流れの詳細についてはフローチャートを参照して後述する。
<音声合成辞書の学習>
[学習装置の構成例]
図3は、学習装置1の構成例を示すブロック図である。
学習装置1は、センサデバイス11、画像認識部12、音声入力デバイス13、音声信号処理部14、音声認識部15、コンテキスト推定部16、学習用データ記憶部17、関係性データ記憶部18、音声合成辞書学習部19、および音声合成用データ記憶部20から構成される。
センサデバイス11は、カメラにより構成される。センサデバイス11により撮像された画像は画像認識部12に供給される。
画像認識部12は、顔認識を行い、撮像された画像に写るユーザの顔を検出する。また、画像認識部12は、撮像された画像を解析し、ユーザを識別するとともに、ユーザの表情に基づいて感情を推定する。
画像認識部12は、顔を検出したユーザの情報として以下の情報を生成する。
・ユーザ方向
:画像内の顔の位置から算出された、学習装置1からみたユーザの方向を表す情報。
・個人識別情報(ユーザID)
:ユーザの識別に用いられる情報。家庭内での例においては、父、母、子どものいずれかを表す情報。
・感情
:平静、喜び、悲しみ、怒りなどの、推定された感情を表す情報。
撮像された画像に複数人のユーザが写っている場合(複数の顔が検出された場合)、画像認識部12は、ユーザ毎に、以上の情報を生成する。
画像認識部12は、各ユーザの方向の情報と個人識別情報を音声信号処理部14に出力する。また、画像認識部12は、各ユーザの方向、個人識別情報、および感情を表す情報をコンテキスト推定部16に出力する。
音声入力デバイス13は、複数のマイク(マイクアレイ)により構成される。音声入力デバイス13により、学習装置1の周りにいるユーザが発する音声と環境音が検出される。音声入力デバイス13により検出された音声の信号は入力音声信号として音声信号処理部14に供給される。
音声信号処理部14は、複数のマイクの入力音声信号に対して音源分離処理を行い、画像認識部12から供給された情報により表されるユーザの方向と同じ方向を音源方向として特定する。音声信号処理部14は、特定した音源方向の成分の音声信号を抽出する。
また、音声信号処理部14は、抽出した音声信号に対して音声区間検出処理を行い、ユーザが発話している区間の音声信号を検出する。音声信号処理部14により検出された音声区間の信号は、音声認識部15に供給されるとともに、学習用データ記憶部17に供給され、ユーザ発話音声波形データ#1として格納される。
音源方向の分離については、例えば参考文献1に開示されている。また、音声区間の検出については、例えば参考文献2に開示されている。
参考文献1「URL http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf」
参考文献2「URL https://julius.osdn.jp/juliusbook/ja/desc_vad.html」
なお、複数のユーザが画像認識部12により認識された場合、音声信号処理部14は、それぞれのユーザの方向について、音源分離処理と音声区間検出処理を行い、音声区間毎のスコアを算出する。ここでは、人の発話らしさを表すスコアである発話らしさスコアが算出される。音声信号処理部14は、発話らしさスコアが最も高い、すなわち、最も人の発話らしい方向の音声信号を、発話音声の音声信号として検出する。
ところで、音声信号処理部14に対しては、ユーザの発話による音声信号以外に、環境音の音声信号も入力される。音声信号処理部14は、音声区間検出処理によって発話音声(ユーザの発話音声)が検出された方向を除く方向成分の音を騒音とし、騒音量を求める。
騒音量は、例えば、発話音声が検出された方向を除く方向成分(非発話方向成分)の音声信号を音源分離処理によって抽出し、発話音声の時間区間における、非発話方向成分の音声信号(振幅値)の二乗平均平方根(RMS・実効値)を算出するようにして求められる。
音声信号処理部14は、騒音量とユーザの発話方向を表す情報をコンテキスト推定部16に出力する。
音声認識部15は、音声信号処理部14から供給された発話音声の音声信号に対して音声認識を行い、ユーザ発話テキストを生成する。音声認識部15により生成されたユーザ発話テキストは、コンテキスト推定部16に供給されるとともに、学習用データ記憶部17に供給され、ユーザ発話テキスト#2として格納される。
コンテキスト推定部16に対しては、各ブロックから以下の情報が入力されることになる。ここで、画像認識部12により検出されたユーザの人数をnとする。
画像認識部12からは、
ユーザの方向・個人識別情報・感情のセット(画像認識結果セット) × n人分
が入力される。
音声信号処理部14からは、
ユーザの発話方向・騒音量のセット
が入力される。
音声認識部15からは、
ユーザ発話テキスト
が入力される。
コンテキスト推定部16は、上記入力情報に基づいてコンテキスト情報#3を生成する。コンテキスト情報#3は、ユーザ発話音声波形データとユーザ発話テキストに対応付けられる情報である。コンテキスト情報#3は、図4に示すように、以下の情報から構成される。
・発話ユーザID
:n人分の画像認識結果セットのうち、それに含まれるユーザの方向が、ユーザの発話方向と一致する画像認識結果セットの個人識別情報。
・感情
:n人分の画像認識結果セットのうち、それに含まれるユーザの方向が、ユーザの発話方向と一致する画像認識結果セットの感情(例えば、平静、喜び、悲しみ、怒り)。
・騒音レベル
:音声信号処理部14から供給された騒音量を、閾値処理によって高・中・低の3段階に分類して得られるレベル。
・発話先ID
ユーザ同士の発話の時間の連続性から、誰に向けた発話であるのかを判定し、発話先となったユーザの個人識別情報。
例えば、発話ユーザIDを“母”とする発話が検出された直後(一定時間内)に、発話ユーザIDを“子ども”とする発話が検出された場合、発話ユーザIDを“母”とするその発話の発話先IDは“子ども”となる。母が学習装置1に向かって発話した場合などのように、母以外の発話が一定時間内に無いときには、発話先IDは“無し”となる。
このように、コンテキスト推定部16は、発話時の状況を推定する推定部として機能する。
また、コンテキスト推定部16は、ユーザ発話テキストと対応付けられた発話ユーザIDに基づいて、どのユーザによる依頼や指示を、どのユーザが受け入れているのかを判定する。コンテキスト推定部16は、そのような、各ユーザによる依頼や指示をどのユーザが受け入れているのかの程度をユーザ毎にスコア化した情報をユーザ関係性データ#4として生成する。コンテキスト推定部16は、ユーザ関係性データ#4を関係性データ記憶部18に出力し、格納させる。
例えば、発話ユーザを“母”とする、指示を意味する「早く寝なさい」の発話があった場合について説明する。「早く寝なさい」の発話の直後に、発話ユーザを“子ども”として、同意を意味する「うん」の発話があった場合、受け入れユーザである“子ども”の、依頼/指示ユーザである“母”に対する受け入れスコアが加算される。
逆に、「早く寝なさい」の発話の直後に、発話ユーザを“子ども”として、拒否を意味する「いや」の発話があった場合、受け入れユーザである“子ども”の、依頼/指示ユーザである“母”に対する受け入れスコアが減算される。
学習用データ記憶部17には、ユーザ発話音声波形データ#1、ユーザ発話テキスト#2、コンテキスト情報#3を対応付けた学習データセットが記憶される。学習データセットは、発話が検出される毎に蓄積される。
音声合成辞書学習部19は、学習データセットが一定量増加する毎に、すなわち、一定回数の発話が行われる毎に、辞書の学習を行う。辞書の学習は例えばバックグランド処理で行われる。音声合成辞書学習部19による学習によって生成された辞書は音声合成用データ記憶部20に供給され、格納される。音声合成用データ記憶部20には、辞書のデータベースである音声合成辞書DB#5が構成される。
[学習装置の動作]
図5のフローチャートを参照して、以上のような構成を有する学習装置1の学習処理について説明する。
ステップS1において、音声入力デバイス13は音声を検出する。ユーザの発話音声と環境音を含む入力音声信号は音声信号処理部14に供給される。
ステップS2において、センサデバイス11は撮像を行う。撮像によって得られた画像は画像認識部12に供給される。
ステップS3において、画像認識部12は、画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部12は、ユーザの表情に基づいて感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部14に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報は、画像認識結果セットとしてコンテキスト推定部16に供給される。
ステップS4において、音声信号処理部14は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理の詳細については図6のフローチャートを参照して後述する。
ステップS5において、音声認識部15は、音声信号処理部14から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。ユーザ発話テキストは学習用データ記憶部17に供給され、格納される。
ステップS6において、コンテキスト推定部16は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理の詳細については図8のフローチャートを参照して後述する。
ステップS7において、コンテキスト推定部16は、ユーザ関係性判定処理を行う。ユーザ関係性判定処理の詳細については図9のフローチャートを参照して後述する。
ステップS8において、音声合成辞書学習部19は、音声合成辞書生成処理を行う。音声合成辞書生成処理の詳細については図11のフローチャートを参照して後述する。
音声合成辞書生成処理により生成された辞書が音声合成用データ記憶部20に格納された後、一連の学習処理は終了される。以上の処理が、ユーザが発話を行ったときなどの所定のタイミングで繰り返し行われる。
・発話検出・騒音量算出処理
次に、図6のフローチャートを参照して、図5のステップS4において行われる発話検出・騒音量算出処理について説明する。
ここでは、図7に示すように、ユーザA,B,Cが学習装置1の周りにいてユーザAが発話を行っているものとする。ユーザA,B,Cは、それぞれ、父、母、子どもである。
ステップS21において、音声信号処理部14は、画像認識部12により認識されたユーザA,B,Cの方向の情報と個人識別情報を取得する。
ステップS22において、音声信号処理部14は、音声入力デバイス13から供給された入力音声信号に対して音源分離処理を行い、ユーザA,B,Cの各方向成分の音声信号を抽出する。
ステップS23において、音声信号処理部14は、抽出した音声信号に対して音声区間検出処理を行い、ユーザA,B,Cの各方向成分の音声信号の発話らしさスコアを算出する。
例えば、発話音声に現れる特徴が含まれており、入力された音声信号が発話音声の信号である確率が高い場合、発話らしさスコアとして高いスコアが割り当てられる。また、同じ音が続くなどして、入力された音声信号が発話音声の信号である確率が低い場合、発話らしさスコアとして低いスコアが割り当てられる。
ステップS24において、音声信号処理部14は、ユーザA,B,Cの各方向成分の音声信号のうち、発話らしさスコアが最も高い例えばユーザAの方向成分の音声信号を出力する。音声信号処理部14から出力された音声信号は、音声認識部15に供給されるとともに、学習用データ記憶部17に供給され、ユーザ発話音声波形データとして格納される。
ステップS25において、音声信号処理部14は、ユーザAの発話区間(時間)における、ユーザAの方向成分以外の方向成分を騒音成分とし、騒音量を算出する。図7において、斜線を付して示すユーザAの方向以外の方向(薄い色を付して示す部分)の音声信号の成分が、騒音成分として処理されることになる。
このようにして算出された騒音量とユーザの発話方向を表す情報は、コンテキスト推定部16に供給される。その後、図5のステップS4に戻り、それ以降の処理が行われる。
・コンテキスト情報生成処理
次に、図8のフローチャートを参照して、図5のステップS6において行われるコンテキスト情報生成処理について説明する。
ステップS31において、コンテキスト推定部16は、音声信号処理部14から入力された、ユーザの発話方向の情報と騒音量の情報を取得する。
ステップS32において、コンテキスト推定部16は、画像認識部12から供給された画像認識結果セットを取得する。画像認識結果セットには、画像を解析することにより認識された、各ユーザの方向の情報、個人識別情報、および感情の情報が含まれる。
ステップS33において、コンテキスト推定部16は、1つの画像認識結果セットに注目する。
ステップS34において、コンテキスト推定部16は、注目する画像認識結果セットに含まれる情報により表されるユーザの方向が、音声信号処理部14により検出されたユーザの発話方向と一致するか否かを判定する。
注目する画像認識結果セットに含まれる情報により表されるユーザの方向がユーザの発話方向と一致しないとステップS34において判定した場合、ステップS35において、コンテキスト推定部16は、全ての画像認識結果セットに注目したか否かを判定する。
全ての画像認識結果セットに注目していないとステップS35において判定した場合、コンテキスト推定部16は、ステップS33に戻り、次の画像認識結果セットに注目し、同様の処理を続ける。
蓄積された全ての画像認識結果セットに注目したとステップS35において判定した場合、ステップS36において、コンテキスト推定部16は、発話ユーザを特定できなかったため、コンテキスト情報の生成を行わずに処理を終了させる。この場合、発話が行われなかったことになる。その後、図5のステップS6に戻り、それ以降の処理が行われる。
ステップS34において、注目する画像認識結果セットに含まれる情報により表されるユーザの方向がユーザの発話方向と一致する判定された場合、処理はステップS37に進む。この場合、発話方向と一致する方向に写っているユーザが、発話ユーザとして特定されることになる。
ステップS37において、コンテキスト推定部16は、注目する画像認識結果セットに含まれる個人識別情報を発話ユーザIDとして設定する。
ステップS38において、コンテキスト推定部16は、注目する画像認識結果セットに含まれる情報により表される感情を、発話ユーザの感情として設定する。
ステップS39において、コンテキスト推定部16は、音声信号処理部14により検出された発話中の騒音量を閾値を用いて分類し、騒音レベルを求める。例えば、騒音レベルとして高レベル、中レベル、低レベルの3段階のレベルが設定されている場合、コンテキスト推定部16は、閾値と比較することによって、発話中の騒音量をいずれかのレベルに分類する。
ステップS40において、コンテキスト推定部16は、別のユーザによる発話が一定時間内に検出されたか否かを判定する。
別のユーザによる発話が一定時間内に検出されていないとステップS40において判定した場合、ステップS41において、コンテキスト推定部16は、発話先ID無しとして設定する。
一方、別のユーザによる発話が一定時間内に検出されたとステップS40において判定した場合、ステップS42において、コンテキスト推定部16は、その発話の発話ユーザIDを発話先IDとして設定する。
すなわち、いま注目されている画像認識結果セットは所定のユーザによる発話に対応するものである。その所定のユーザの発話より後の一定時間内に検出された発話に対応する画像認識結果セットであって、別のユーザが発話ユーザとして特定された画像認識結果セットがある場合、その別のユーザの個人識別情報が発話先IDとして設定されることになる。
ステップS41において発話先ID無しとして設定された場合、または、ステップS42において発話先IDが設定された場合、図5のステップS6に戻り、それ以降の処理が行われる。
以上の処理により、各発話に対して、その発話中の状況を表すコンテキスト情報が生成される。コンテキスト情報生成処理により生成されたコンテキスト情報は学習用データ記憶部17に供給され、格納される。
・ユーザ関係性判定処理
次に、図9のフローチャートを参照して、図5のステップS7において行われるユーザ関係性判定処理について説明する。
ここでは、図7のユーザAの発話が検出されたものとする。この場合、図8を参照して説明した処理により、発話ユーザIDとしてユーザAの個人識別情報(“A”)が設定されたコンテキスト情報が生成される。
ステップS51において、コンテキスト推定部16は、発話ユーザID=“A”の発話を検出する。
ステップS52において、コンテキスト推定部16は、発話ユーザID=“A”のユーザ発話テキストに対して自然言語処理と意味解析処理を行う。発話ユーザID=“A”の発話が検出された場合、音声認識部15からは、その発話の音声認識結果であるユーザ発話テキストが供給される。
ステップS53において、コンテキスト推定部16は、発話ユーザID=“A”のユーザ発話テキストが、他のユーザに対する依頼や指示を意味しているか否かを判定する。自然言語処理と意味解析処理が行われることにより、ユーザ発話テキストはその意味に応じて分類される。
発話ユーザID=“A”のユーザ発話テキストが他のユーザに対する依頼や指示を意味しているとステップS53において判定された場合、処理はステップS54に進む。
ステップS54において、コンテキスト推定部16は、発話ユーザID=“A”の発話に対応するコンテキスト情報を参照し、発話先IDが無しとして設定されているか否かを判定する。
発話先IDが無しとして設定されているとステップS54において判定した場合、ステップS55において、コンテキスト推定部16は、受け入れスコアを変化させずに処理を終了させる。発話ユーザID=“A”のユーザ発話テキストが他のユーザに対する依頼や指示を意味していないとステップS53において判定された場合も同様に、受け入れスコアは変化することなく処理は終了される。その後、図5のステップS7に戻り、それ以降の処理が行われる。
一方、発話先IDが無しとして設定されていない、すなわち、所定のユーザの個人識別情報が発話先IDとして設定されているとステップS54において判定された場合、処理はステップS56に進む。
この場合、発話ユーザID=“A”の発話は、他のユーザである母や子に対して、何かを依頼したり指示したりする内容の発話であったことになる。ここでは、発話ユーザID=“A”の発話は、ユーザBである母に対する依頼や指示の発話であり、それに対して、母が何かしらの返事の発話を行っていたものとする。発話ユーザID=“B”とする返事の発話も検出され、音声認識処理やコンテキスト情報の生成が行われている。
ステップS56において、コンテキスト推定部16は、発話ユーザID=“B”のユーザ発話テキストに対して自然言語処理と意味解析処理を行う。発話ユーザID=“B”の返事の発話が検出された場合、音声認識部15からは、その発話の音声認識結果であるユーザ発話テキストが供給される。
ステップS57において、コンテキスト推定部16は、発話ユーザID=“B”のユーザ発話テキストが、同意または拒否を意味しているか否かを判定する。
発話ユーザID=“B”のユーザ発話テキストが同意を意味しているとステップS57において判定した場合、ステップS58において、コンテキスト推定部16は、ユーザBの、ユーザAに対する受け入れスコアを加算する。
また、発話ユーザID=“B”のユーザ発話テキストが拒否を意味しているとステップS57において判定した場合、ステップS59において、コンテキスト推定部16は、ユーザBの、ユーザAに対する受け入れスコアを減算する。
ステップS58またはステップS59において受け入れスコアが更新された後、処理は終了され、図5のステップS7以降の処理が行われる。発話ユーザID=“B”のユーザ発話テキストが同意も拒否も意味していないとステップS57において判定した場合、ステップS55に進み、受け入れスコアの変化なしに処理が終了される。
図10は、ユーザ関係性データの例を示す図である。
最上段のA,B,Cは、依頼や指示を行ったユーザの個人識別情報を表し、左端列のA,B,Cは、依頼や指示を受けたユーザの個人識別情報を表す。それぞれの数字は上述したようにして求められる受け入れスコアを表す。
上述したようにユーザAがユーザBに対して何かを依頼したり指示したりする内容の発話を行っていて、ユーザBが同意または拒否の返事を行っていた場合、円で囲んで示す受け入れスコアが変化することになる。
図10の例においては、ユーザAの依頼や指示は、ユーザBには受け入れられやすいが、ユーザCには受け入れられにくいことを表す受け入れスコアが求められている。ユーザBの、ユーザAに対する受け入れスコアは5であり、ユーザCの、ユーザAに対する受け入れスコアは−1である。
このように、ユーザ関係性データは、あるユーザの依頼や指示に対する、それぞれの他のユーザの受け入れやすさの程度を表すスコアから構成される情報となる。ユーザ関係性判定処理により生成されたユーザ関係性データは関係性データ記憶部18に供給され、格納される。
この例においては、ユーザ関係性データがテーブル状の情報として示されているが、依頼や指示を行ったユーザと、依頼や指示を受けたユーザと、受け入れスコアを対応付けた情報であれば、どのような形態の情報であってもよい。ユーザ関係性データとしてニューラルネットワークを用いることも可能である。
・音声合成辞書生成処理
次に、図11のフローチャートを参照して、図5のステップS8において行われる音声合成辞書生成処理について説明する。
音声合成辞書生成処理は、図12に示すように、各発話に応じた学習データセットを、コンテキスト情報に含まれる発話ユーザID、騒音レベル、発話先ID、および感情の各情報で分類するようにして行われる。学習用データ記憶部17には、ユーザ発話音声波形データ、ユーザ発話テキスト、コンテキスト情報が学習データセットとして記憶されている。
ユーザの発話を学習していない初期状態では図12の最上段に示す標準話者合成辞書D0のみが存在する。初期状態でのシステム発話は、標準話者合成辞書D0を用いた音声合成によって行われる。
ステップS71において、音声合成辞書学習部19は、発話ユーザID毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。ここでの確認は、各学習データセットを構成するコンテキスト情報を参照することによって行われる。
ステップS72において、音声合成辞書学習部19は、辞書生成に必要な量の学習データセットが蓄積されている発話ユーザIDの辞書を生成する。ある発話ユーザIDの辞書は、その発話ユーザIDをコンテキスト情報に含む学習データセットの集合を用いて生成される。
図12の例においては、発話ユーザID=“A”,“B”,“C”の学習データセットが必要量蓄積されており、話者ID=“A”,“B”,“C”とする辞書D1〜D3が生成されている。以下、話者ID=“A”の辞書D1に属する辞書の生成についてのみ説明するが、話者ID=“B”の辞書D2、話者ID=“C”の辞書D3に属する辞書の生成についても同様にして行われる。
ステップS73において、音声合成辞書学習部19は、ステップS72において生成した全ての話者IDの辞書について、騒音レベル毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。
ステップS74において、音声合成辞書学習部19は、辞書生成に必要な量の学習データセットが蓄積されている騒音レベルの辞書を生成する。
図12の例においては、話者ID=“A”の辞書D1の生成に使用された学習データセットの集合に、騒音レベルが低レベルの学習データセットと高レベルの学習データセットが必要量蓄積されている。話者ID=“A”かつ騒音レベル=“低”の辞書D11と、話者ID=“A”かつ騒音レベル=“高”の辞書D12が生成されている。
辞書D11は、発話ユーザID=“A”と騒音レベル=“低”の両方をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。また、辞書D12は、発話ユーザID=“A”と騒音レベル=“高”の両方をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。
ステップS75において、音声合成辞書学習部19は、ステップS74までに生成した全ての辞書について、発話先ID毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。
ステップS76において、音声合成辞書学習部19は、辞書生成に必要な量の学習データセットが蓄積されている発話先IDの辞書を生成する。
図12の例においては、ステップS74までの処理によって、話者ID=“A”の辞書D1、話者ID=“A”かつ騒音レベル=“低”の辞書D11、および、話者ID=“A”かつ騒音レベル=“高”の辞書D12の3つの辞書が生成されている。
また、図12の例においては、発話先IDに応じた分類が行われることによって、上記3つの辞書のそれぞれの生成に用いられた学習データセットの集合について、発話先IDによる分類が行われ、新たな5つの辞書D21〜D25が生成されている。
例えば、辞書D21は、発話ユーザID=“A”、騒音レベル=“低”、および発話先ID=“B”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。また、辞書D25は、発話ユーザID=“A”、発話先ID=“C”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。
ステップS77において、音声合成辞書学習部19は、ステップS76までに生成した全ての辞書について、感情毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。
ステップS78において、音声合成辞書学習部19は、辞書生成に必要な量の学習データセットが蓄積されている感情の辞書を生成する。
図12の例においては、発話ユーザIDによる分類によって生成された辞書D1、騒音レベルによる分類によって生成された辞書D11,D12、発話先IDによる分類によって生成された辞書D21〜D25の8つの辞書がステップS76までに生成されている。
また、図12の例においては、感情に応じた分類が行われることによって、上記8つの辞書のそれぞれの生成に用いられた学習データセットの集合について、感情による分類が行われ、新たな9つの辞書D31〜D39が生成されている。
例えば、辞書D31は、発話ユーザID=“A”、騒音レベル=“低”、および発話先ID=“B”、感情=“喜び”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。また、辞書D39は、発話ユーザID=“A”、感情=“平静”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。
感情による分類によって辞書が生成された後、処理は終了される。その後、図5のステップS8に戻り、それ以降の処理が行われる。音声合成辞書生成処理によって生成された辞書は、順次、音声合成用データ記憶部20に供給され、格納される。
以上の処理が、学習データセットが一定量増加する毎(一定回数のユーザ発話が行われる毎)に行われる。これにより、ユーザが学習装置1を使い込んで発話が増えるほど、徐々に、各辞書の品質(どれだけ実際の発話に似ているか)が上がり、かつ、コンテキスト情報の種別による辞書の数、すなわち発話のバリエーションが増えていくことになる。
以上においては、学習データセットを発話ユーザID、騒音レベル、発話先ID、および感情により分類することによって辞書を生成する場合について説明したが、分類に用いる状況として、さらに多くの種類の状況を用いるようにしてもよい。この場合、さらに多くの種類の状況に関する情報を含むコンテキスト情報が生成される。
なお、学習データセット内のユーザ発話音声波形データと対応するユーザ発話テキストの集合から音声合成辞書を生成する方法については、例えば以下の参考文献に開示されている。
参考文献3「特開2016-006541」
参考文献4「URL https://www.nii.ac.jp/userdata/shimin/documents/H27/150729_1stlec.pdf」
参考文献5「URL http://www.toshiba.co.jp/tech/review/2013/09/68_09pdf/a04.pdf」
<音声合成辞書を用いた音声合成>
[音声合成装置の構成例]
図13は、音声合成装置2の構成例を示すブロック図である。
音声合成装置2は、センサデバイス51、画像認識部52、音声入力デバイス53、音声信号処理部54、音声認識部55、コンテキスト推定部56、音声合成制御部57、関係性データ記憶部58、システム発話テキスト取得部59、音声合成用データ記憶部60、音声合成部61、および音声再生デバイス62から構成される。
図13に示す音声合成装置2の構成のうち、センサデバイス51、画像認識部52、音声入力デバイス53、音声信号処理部54、音声認識部55、コンテキスト推定部56は、それぞれ、学習装置1のセンサデバイス11、画像認識部12、音声入力デバイス13、音声信号処理部14、音声認識部15、コンテキスト推定部16に対応し、基本的に同様の機能を有する。重複する説明については適宜省略する。
学習装置1により生成されたユーザ関係性データ#4は関係性データ記憶部58に記憶され、音声合成辞書DB#5は音声合成用データ記憶部60に記憶される。
センサデバイス51は、撮像を繰り返し行い、撮像によって得られた画像を画像認識部52に出力する。
画像認識部52は、顔認識を行い、撮像された画像に写るユーザの顔を検出する。また、画像認識部52は、画像に顔が写っている場合、撮像された画像を解析し、ユーザを識別するとともに、ユーザの表情に基づいて感情を推定する。画像認識部52により、周囲に誰がいるのかが検出される。
画像認識部52は、各ユーザの方向の情報と個人識別情報を音声信号処理部54に出力する。また、画像認識部52は、各ユーザの方向、個人識別情報、および感情を表す情報をコンテキスト推定部56に出力する。
音声入力デバイス53は、音声合成装置2の周りの音を検出し、入力音声信号を音声信号処理部54に出力する。ユーザが発話を行っている場合には、ユーザの発話音声が環境音とともに検出される。
音声信号処理部54は、複数のマイクの入力音声信号に対して音源分離処理を行い、画像認識部52から供給された情報により表されるユーザの方向と同じ方向を音源方向とする音声信号を抽出する。
また、音声信号処理部54は、抽出した音声信号に対して音声区間検出処理を行い、ユーザが発話している区間の音声信号を検出するとともに、騒音量を求める。音声信号処理部54は、ユーザが発話を行っている区間の音声信号を音声認識部55に出力し、騒音量とユーザの発話方向を表す情報をコンテキスト推定部56に出力する。
音声認識部55は、音声信号処理部54から供給された発話音声の信号に対して音声認識を行うことによってユーザ発話テキストを生成し、コンテキスト推定部56に出力する。
コンテキスト推定部56は、各部から供給された情報に基づいてコンテキスト情報#3を生成し、音声合成制御部57に出力する。コンテキスト情報#3には、発話ユーザID、感情、騒音レベル、および発話先IDが含まれる。コンテキスト推定部56により生成されるコンテキスト情報#3は、システム発話時における周囲の状況を表す情報となる。
音声合成制御部57に対しては、コンテキスト情報#3、関係性データ記憶部58に記憶されたユーザ関係性データ#4、および、システム発話テキスト取得部59により取得されたシステム発話テキスト#11が入力される。
音声合成制御部57は、コンテキスト情報#3、ユーザ関係性データ#4、および、システム発話テキスト#11の解析結果に基づいて、システム発話に使用する辞書を、音声合成辞書DB#5内の辞書から選択する。音声合成制御部57は、選択した辞書を指定する情報を音声合成部61に出力し、音声合成を行わせる。
システム発話テキスト取得部59は、システム発話テキストを取得し、音声合成制御部57と音声合成部61に出力する。システム発話テキストは、メッセージ、予め登録されたスケジュール、インターネット上の情報などの各種の情報に含まれるテキストデータである。
システム発話テキスト取得部59は、音声合成装置2自身が生成した情報や、音声合成装置2に対してユーザにより入力された情報を取得する。また、システム発話テキスト取得部59は、ユーザが携帯する携帯端末に格納されている情報、家庭内にある機器に格納されている情報、インターネット上のサーバに格納されている情報などの、システム音声によって通知する各種の情報を取得する。
音声合成部61は、音声合成制御部57により選択された音声合成辞書を用いて、システム発話テキストの音声合成を行う。音声合成部61は、音声合成を行うことによって得られたシステム発話音声波形データを音声再生デバイス62に出力する。音声合成部61は、システム発話テキストの内容を表し、システム発話時の状況等に応じた合成音声を生成する生成部として機能する。
音声再生デバイス62は、スピーカにより構成される。音声再生デバイス62は、音声合成部61により生成されたシステム発話音声波形データを再生し、システム発話音声を出力する。
[音声合成装置の動作]
図14のフローチャートを参照して、以上のような構成を有する音声合成装置2の音声合成処理について説明する。
図14に示すステップS102乃至S107の処理は、図5のステップS1乃至S6の処理と基本的に同様の処理である。重複する説明については適宜省略する。
ステップS101において、システム発話テキスト取得部59は、システム発話テキストを取得する。システム発話テキストは音声合成制御部57と音声合成部61に供給される。
ステップS102において、音声入力デバイス53は音声を検出する。
ステップS103において、センサデバイス51は撮像を行う。
ステップS104において、画像認識部52は、撮像された画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部52は、ユーザの感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部54に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報はコンテキスト推定部56に供給される。
ステップS105において、音声信号処理部54は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理により得られた音声信号は音声認識部55に供給され、騒音量とユーザの発話方向を表す情報はコンテキスト推定部56に供給される。
ステップS106において、音声認識部55は、音声信号処理部54から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。ユーザ発話テキストはコンテキスト推定部56に供給される。
ステップS107において、コンテキスト推定部56は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理により生成されたコンテキスト情報は音声合成制御部57に供給される。
ステップS108において、音声合成制御部57は、辞書選択処理を行う。辞書選択処理の詳細については図15のフローチャートを参照して後述する。
ステップS109において、音声合成部61は、音声合成制御部57により選択された辞書を用いてシステム発話テキストの音声合成を行い、システム発話音声波形データを音声再生デバイス62に出力する。
ステップS110において、音声再生デバイス62は、音声合成部61により生成されたシステム発話音声波形データを再生し、システム発話音声を出力する。その後、処理は終了される。
以上の処理が、例えばシステム発話のタイミング毎に行われる。
・辞書選択処理
次に、図15のフローチャートを参照して、図14のステップS108において行われる辞書選択処理について説明する。
ステップS121において、音声合成制御部57は、自然言語処理と意味解析処理を行い、システム発話テキストを解析する。
ステップS122において、音声合成制御部57は、システム発話に使用する話者IDの判定(話者とするユーザの判定)を行う。話者IDの判定は、例えば、コンテキスト情報の内容、システム発話テキストの内容、およびユーザ関係性データを用いて行われる。話者IDの判定については後述する。
ステップS123において、音声合成制御部57は、音声合成辞書DB#5内に、発話ユーザIDによる分類が、ステップS122において判定した話者IDと一致する辞書が存在するか否かを判定する。
上述したように、音声合成辞書の学習時、発話ユーザIDによる学習データセットの分類が行われ、分類に用いられた発話ユーザIDが、話者IDとして各辞書に設定される。ここでは、ステップS122において判定された話者IDと同じ話者IDが設定された辞書があるか否かが判定されることになる。
発話ユーザIDによる分類が、判定した話者IDと一致する辞書が存在しないとステップS123において判定した場合、ステップS124において、音声合成制御部57は、標準話者合成辞書を選択する。その後、図14のステップS108に戻り、それ以降の処理が行われる。
一方、発話ユーザIDによる分類が、判定した話者IDと一致する辞書が存在するとステップS123において判定した場合、ステップS125において、音声合成制御部57は、発話ユーザIDによる分類が、話者IDと一致する辞書の集合をスコア付与対象として選択する。
ステップS126において、音声合成制御部57は、システム発話の騒音レベルを判定する。騒音レベルの判定については後述する。
ステップS127において、音声合成制御部57は、スコア付与対象の辞書のうち、騒音レベルによる分類が、ステップS126において判定した騒音レベルと一致する辞書のスコアを上げる。
また、ステップS128において、音声合成制御部57は、スコア付与対象の辞書のうち、騒音レベルによる分類が、ステップS126において判定した騒音レベルと一致しない辞書のスコアを下げる。
音声合成辞書の学習時、騒音レベルによる学習データセットの分類が行われ、分類に用いられた騒音レベルが各辞書に設定される。ここでは、ステップS126において判定された騒音レベルと同じ騒音レベルが設定された辞書のスコアが加算され、異なる騒音レベルが設定された辞書のスコアが減算される。騒音レベルによる分類がされていない辞書のスコアは変化なしとして扱われる。
ステップS129において、音声合成制御部57は、システム発話の発話先IDを判定する。発話先IDの判定については後述する。
ステップS130において、音声合成制御部57は、スコア付与対象の辞書のうち、発話先IDによる分類が、ステップS129において判定した発話先IDと一致する辞書のスコアを上げる。
また、ステップS131において、音声合成制御部57は、スコア付与対象の辞書のうち、発話先IDによる分類が、ステップS129において判定した発話先IDと一致しない辞書のスコアを下げる。
音声合成辞書の学習時、発話先IDによる学習データセットの分類が行われ、分類に用いられた発話先IDが各辞書に設定される。ここでは、ステップS129において判定された発話先IDと同じ発話先IDが設定された辞書のスコアが加算され、異なる発話先IDが設定された辞書のスコアが減算される。発話先IDによる分類がされていない辞書のスコアは変化なしとして扱われる。
ステップS132において、音声合成制御部57は、システム発話の感情を判定する。感情の判定については後述する。
ステップS133において、音声合成制御部57は、スコア付与対象の辞書のうち、感情による分類が、ステップS132において判定した感情と一致する辞書のスコアを上げる。
また、ステップS134において、音声合成制御部57は、スコア付与対象の辞書のうち、感情による分類が、ステップS132において判定した感情と一致しない辞書のスコアを下げる。
音声合成辞書の学習時、感情による学習データセットの分類が行われ、分類に用いられた感情が各辞書に設定される。ここでは、ステップS132において判定された感情と同じ感情が設定された辞書のスコアが加算され、異なる感情が設定された辞書のスコアが減算される。感情による分類がされていない辞書のスコアは変化なしとして扱われる。
ステップS135において、音声合成制御部57は、スコア付与対象の辞書のうち、最も高いスコアが求められた辞書を、システム発話に使用する辞書として選択する。
例えば、話者ID=“A”、騒音レベル=“低”、および発話先ID=“B”、感情=“喜び”として判定された場合、図12の辞書D31が選択される。また、話者ID=“A”、感情=“平静”として判定された場合、辞書D39が選択される。
なお、最も高いスコアが求められた辞書が複数存在する場合、システム発話に新奇性を与えるため、最も高いスコアが求められた辞書のうちの1つがランダムに選択される。
その後、図14のステップS108に戻り、最も高いスコアが求められた辞書を用いて音声合成が行われる。
以上の処理により、音声合成辞書DB#5内に存在する辞書の中から、学習時にそれぞれの分類に用いられた条件(状況)に最も合致する辞書を選択することが可能となる。
なお、騒音レベル、発話先ID、感情の各分類に応じて加算または減算するスコアの値は、全て同じ値であってもよいし、各分類に応じて重みを調整した値としてもよい。
[システム発話の話者IDの判定例(図15のステップS122の処理の例)]
・判定例1
システム発話テキストの内容が依頼や指示である場合、音声合成制御部57は、ユーザ関係性データを参照し、システム発話の対象のユーザを受け入れユーザとしたときに、受け入れスコアが最も高い依頼/指示ユーザの個別識別情報を、話者IDとして判定する。
すなわち、ユーザ関係性データが図10に示すスコアを表すものである場合であって、システム発話の対象のユーザがユーザBである場合、受け入れスコアが最も高い依頼/指示ユーザであるユーザAの個別識別情報が、話者IDとして判定される。
これにより、依頼や指示のシステム発話を行うときに、最も受け入れられると考えられる声の主が話者として選択されることになる。この場合、発話先となるユーザが先に選択され、発話先のユーザに応じて、話者となるユーザが選択されることになる。図15の各ステップの処理は、適宜、順番を変えて行われる。
図16は、家庭内における学習時の例を示す図である。
例えば、日常生活において、母が子どもに「早く寝なさい」と言っても子どもが拒否する場合、そのようなやりとりに基づいて学習が行われることにより、図16のAの矢印に示すように、子どもの、母に対する受け入れスコアは低くなる。
一方、「早く寝なさい」と指示をするのが父である場合には子どもが同意するとき、そのようなやりとりに基づいて学習が行われることにより、図16のBの矢印に示すように、子どもの、父に対する受け入れスコアは高くなる。
ユーザ関係性データの学習がこのような形で行われており、子どもを対象として、「9時なので寝てください」のシステム発話を行う場合、話者ID=“父”が判定される。また、図17に示すように、話者ID=“父”が設定されている辞書を用いて音声合成が行われ、音声合成によって得られたシステム発話が子どもを対象として出力される。これにより、子どもの同意を得やすいシステム発話が可能になる。
このように、所定の行動をとるべきタイミングでの「〜の時間です」といった通知については、システム発話の対象となるユーザにとって受入れスコアが最も高いユーザを話者としてシステム発話が行われるようにすることができる。ここでは子どもが寝る時間の通知について説明したが、子どもが歯磨きをする時間、子どもが風呂に入る時間などの各種の通知も同様にして行われる。
・判定例2
システム発話テキストの内容がメールや伝言などの特定のユーザからのメッセージである場合、音声合成制御部57は、メッセージの発信元のユーザの個別識別情報を、話者IDとして判定する。
図18は、システム発話の例を示す図である。
例えば、図18の上段に示すように、「ごはん温めて食べておいてねと子どもに伝言」と母が音声合成装置2に対して発した場合、「ごはん温めて食べておいてね」のテキストデータがシステム発話テキストとして取得される。システム発話テキストは、伝言元が母であることを表す情報(発話ユーザID)とともに記憶される。
その後、子どもがいることが検出されたときなどの、システム発話を行うタイミングになった場合、話者ID=“母”が判定される。また、図18に示すように、母を話者として、話者ID=“母”の辞書を用いて音声合成が行われ、「ごはん温めて食べておいてね」のシステム発話が子どもを対象として出力される。
このように、「一日がんばってね」、「鍵持った?」などの伝言の通知については、伝言元のユーザを話者としてシステム発話が行われるようにすることが可能である。
『お父さんからのメールです。「今日は帰りが遅くなります。」』をシステム発話によって母や子どもに通知する場合、「お父さんからのメールです。」のシステム発話については標準話者合成辞書を用い、「今日は帰りが遅くなります。」のシステム発話については話者ID=“父”の辞書を用いて音声合成が行われるようにしてもよい。このように、システム発話毎に複数の辞書を組み合わせて用いるようにすることも可能である。
・判定例3
システム発話テキストの内容が緊急性の高い通知である場合、音声合成制御部57は、発話対象のユーザと同じ部屋にいるユーザや、発話対象のユーザと会話中のユーザの個別識別情報を話者IDとして判定する。発話対象のユーザと同じ部屋にいるユーザや、発話対象のユーザと会話中のユーザは、例えばコンテキスト情報により特定される。
同じ部屋にいるユーザや、発話対象のユーザと会話中のユーザの声には意識が向きやすいため、話者IDをそのように判定してシステム発話を行うことにより、発話対象のユーザの意識をシステム発話に向かせることが可能になる。
図19は、システム発話の例を示す図である。
発話対象を父として「会社にいく時間です。」をシステム発話によって通知する場合、子どもが同じ部屋にいて父と会話をしているときには、話者ID=“子ども”の辞書を用いて、「会社にいく時間です。」のシステム発話が出力される。
父からすれば、それまで会話をしていた子どもの声で「会社にいく時間です。」のシステム発話が行われるため、その通知に反応して意識を向けることになる。
・判定例4
システム発話テキストの内容が、参加者が登録されている予定の通知である場合、音声合成制御部57は、発話対象のユーザと一緒に参加するユーザの個別識別情報を話者IDとして判定する。
図20は、システム発話の例を示す図である。
図20の左端に示すように、父と子どもが一緒に出かける予定が登録されており、その内容をシステム発話によって通知する場合、父を発話対象とするときには、話者を子どもとして「今日は10時からお出かけです。」などのシステム発話が行われる。また、子どもを発話対象とするときには、話者を父として「今日は10時からお出かけです。」などのシステム発話が行われる。
このように、話者の判定は、システム発話テキストの内容、ユーザ間の関係性、状況などの、各種の条件に基づいて行われる。音声合成制御部57は、少なくともユーザ関係性データに基づいて話者となるユーザを選択する制御部として機能する。
家によく来る友人や、テレビに出てくるキャラクタなどの家族以外の声を用いて学習が行われている場合、それらの声の主が話者として選択されるようにしてもよい。
[システム発話の騒音レベルの判定例(図15のステップS126の処理の例)]
音声合成制御部57は、コンテキスト情報に基づいて、システム発話時における騒音レベル(高・中・低)を判定する。
環境毎に騒音が異なるため、学習によって得られる辞書は、個々の環境下で実際に生活している人が騒音に応じて発話する時のロンバード効果をも含めて学習して得られたものとなる。ロンバード効果は、騒音下で現れる、発話時の声質や口調の変化である。
ロンバード効果のあるシステム発話を行うことにより、聞き取りやすいシステム発話を行うことが可能になる。
[システム発話の発話先IDの判定例(図15のステップS129の処理の例)]
音声合成制御部57は、システム発話テキストの内容や状況から、発話対象とするユーザを明確に特定することができる場合、そのユーザの個別識別情報を発話先IDとして判定する。
例えば、特定のユーザに対するメッセージをシステム発話によって通知する場合、そのメッセージの送付先となるユーザの個別識別情報が発話先IDとして判定される。また、特定のユーザにより登録された予定をシステム発話によって通知する場合、その予定を登録したユーザの個別識別情報が発話先IDとして判定される。特定のユーザに対する依頼や指示をシステム発話によって通知する場合、その依頼や指示の対象となるユーザの個別識別情報が発話先IDとして判定される。
また、音声合成制御部57は、システム発話の内容が特定のユーザ向けたものではない場合、音声合成装置2の周囲にいることが画像認識により検出できたユーザの個人識別情報を発話先IDとして判定する。
例えば、ニュースや天気予報をシステム発話によって通知する場合、音声合成装置2の周囲にいるユーザの個人識別情報が発話先IDとして判定される。システムからのアラートの通知についても、音声合成装置2の周囲にいるユーザの個人識別情報が発話先IDとして判定される。
[システム発話の感情の判定例(図15のステップS132の処理の例)]
音声合成制御部57は、自然言語処理と意味解析処理を行うことによってシステム発話テキストの内容を解析し、ポジティブな内容である場合には“喜び”として判定し、ネガティブな内容である場合には“悲しみ”として判定する。音声合成制御部57は、ポジティブな内容でもネガティブな内容でもない場合、“平静”として判定する。
例えば、システム発話テキストが天気予報に関するものであり、その内容が「今日は一日晴れてすごしやすでしょう。」である場合は“喜び”として判定される。一方、「今日は午後から雪で寒さが強まるでしょう。」である場合は“悲しみ”として判定される。
また、音声合成制御部57は、システム発話テキストがメールなどのメッセージである場合、メッセージの内容に基づいて、“喜び”、“悲しみ”、“怒り”のいずれかの感情を判定する。
例えば、メッセージの内容が「誕生日、おめでとう」である場合は“喜び”として判定され、「電車が遅れて帰りが遅くなります」である場合は“悲しみ”として判定される。一方、「なんで教えてくれなかったの」である場合は“怒り”として判定される。
家庭内での例においては、台所などの、入ってはいけない場所に子どもが入ったことが検出された場合、子どもにとって受入れスコアが最も高い話者である父の個別識別情報が話者IDとして判定される。また、「そこに入ったらダメだよ」のシステム発話テキストの内容に基づいて“怒り”が感情として判定される。これにより、「そこに入ったらダメだよ」と父の声で注意するシステム発話が行われることになる。
依頼や指示を意味する同じシステム発話を繰り返して出力する場合、繰り返し回数が増える毎に、感情が“喜び”、“平静”、“怒り”の順に変化するようにしてもよい。例えば、朝、目覚めることを促すシステム発話を行う場合において、システム発話を行ったにもかかわらずユーザの反応が無い場合、同じシステム発話を繰り返すときに感情が変化することにより、徐々にきつい口調のシステム発話が行われることになる。
学習装置1と音声合成装置2による以上の一連の処理により、システム発話に対するユーザの意識と理解度を向上させることが可能になる。
すなわち、普段生活を共にしている人(例えば家庭内であれば家族)の声質や口調で発話が行われることにより、いわゆるカクテルパーティ効果が誘発され、発話先となったユーザは、システム発話に対して意識が向きやすくなる。また、ユーザは、システム発話の意図をくみ取って、発話内容をより理解することができるようになる。
また、以上の一連の処理により、ユーザの個別の状況に応じたシステム発話が可能になる。
すなわち、音声合成辞書の学習が、ユーザ毎に異なる生活環境等の場の状況に応じて、そこで生活している人の実際の発話を元にして行われる。これにより、個々の状況に合った最適な声質や口調でのシステム発話が可能になる。通常、家族間の会話においては、家庭毎に異なる騒音環境などの各種の状況に応じて声質や口調を変えて発話を行われるが、それを再現することが可能になる。
さらに、以上の一連の処理により、バリエーションの多いシステム発話が可能になる。
上述したように、音声合成辞書の学習は、ユーザの発話を逐次的に学習することにより行われる。従って、装置を使い込むほどに、システム発話の声質や口調がユーザに徐々に似る方向に変化することになる。また、発話の相手や状況によっても声質や口調が変化するため、システム発話のバリエーションが増え、新奇性が出ることになる。これにより、ユーザは、飽きや慣れを起こさずに使用し続けることができる。
<機器の構成例>
図21は、学習装置1のハードウェア構成例を示すブロック図である。
図3に示す構成のうちの少なくとも一部が、図21のCPU101により所定のプログラムが実行されることによって実現される。
CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103は、バス104により相互に接続される。
バス104には、マイク105、カメラ106、およびスピーカ107が接続される。マイク105は図3の音声入力デバイス13に対応し、カメラ106は図3のセンサデバイス11に対応する。マイク105により検出された発話音声と、カメラ106により撮像された画像に基づいて学習時の状況が検出され、音声合成用データの学習が行われる。
また、バス104には、記憶部108と通信部109も接続される。
記憶部108は、ハードディスクや不揮発性のメモリなどより構成される。記憶部108は、CPU101が実行するプログラムの他に、音声合成用データなどの各種のデータを記憶する。
通信部109は、ネットワークインタフェースなどより構成される。通信部109は、無線や有線による通信を介して、ユーザが持つ携帯端末、インターネット上のサーバなどの外部の機器と通信を行う。
図21に示す構成を音声合成装置2も有している。この場合、マイク105は図13の音声入力デバイス53に対応し、カメラ106は図13のセンサデバイス51に対応する。また、スピーカ107は図13の音声再生デバイス62に対応する。マイク105により検出された発話音声と、カメラ106により撮像された画像に基づいてシステム発話時の状況が検出される。また、システム発話音声がスピーカ107から出力される。
以上においては、学習装置1と音声合成装置2は、それぞれ別々の装置として設けられるものとしたが、それらの機能を有する1つのエージェント機器として設けられるようにすることが可能である。
図22は、エージェント機器151の構成例を示すブロック図である。
エージェント機器151も、図21に示すハードウェア構成と同じ構成を有する。エージェント機器151のCPU101により所定のプログラムが実行されることにより、エージェント機器151においては、図22に示すように、学習部161と音声合成部162が実現される。
学習部161は、図3に示す構成と基本的に同様の構成を有する。学習部161は、センサデバイス11(図21のマイク105)により検出された発話音声と音声入力デバイス13(図21のカメラ106)により撮像された画像に基づいて状況を検出し、音声合成用データの学習を逐次的に行う。学習部161は、音声合成用データを音声合成部162に出力する。
音声合成部162は、図13に示す構成と基本的に同様の構成を有する。音声合成部162は、音声入力デバイス53(図21のマイク105)により検出された発話音声とセンサデバイス51(図21のカメラ106)により撮像された画像に基づいて状況を検出する。音声合成部162は、学習部161により生成された音声合成用データを参照し、状況に応じたシステム発話音声を音声再生デバイス62(図21のスピーカ107)から出力する。
学習部161が有する図3に示す構成と、音声合成部162が有する図13に示す構成のうち、対応する構成については共通化して設けるようにすることも可能である。すなわち、センサデバイス11とセンサデバイス51、画像認識部12と画像認識部52、音声入力デバイス13と音声入力デバイス53、音声信号処理部14と音声信号処理部54、音声認識部15と音声認識部55、コンテキスト推定部16とコンテキスト推定部56は、それぞれ、一方のみが設けられるようにしてもよい。
エージェント機器151は、例えば図23に示すように、家庭内において、ユーザの発話を検出でき、かつユーザにシステム発話を聞かせることが可能な位置に設けられ、ホームエージェント機器として用いられる。
なお、ホームエージェント機器として用いられる機器の形態は、図23に示すような形態に限られるものではない。カメラ、マイク、スピーカを装備し、音声合成用データの学習と音声合成を行うことによってシステム発話を行うことが可能な各種の形態の機器に適用することが可能である。
スマートフォン、タブレット端末、PC、テレビジョン受像機、エアーコンディショナーや冷蔵庫などの白物家電、自動車などにおいて、上述したホームエージェント機器が実現されるようにすることが可能である。
音声合成用データの学習と、音声合成用データを用いた音声合成が、クライアント装置から送信されてきた情報に基づいてサーバにおいて行われるようにしてもよい。
この場合、クライアント装置からサーバに対しては、センサデバイス11により撮像された画像と音声入力デバイス13により検出された発話音声のデータが送信され、学習時には音声合成用データの学習に用いられ、音声合成時には音声合成に用いられる。音声合成によって得られたシステム発話音声波形データはサーバからクライアント装置に送信され、クライアント装置において再生され、システム発話音声が出力される。
このように、学習装置1と音声合成装置2の少なくとも一部の機能が、マイク、カメラ、スピーカを備えるクライアント装置とは別の装置において実現されるようにしてもよい。
<変形例1>
ユーザの発話時刻の情報がコンテキスト情報に含まれ、音声合成用データの学習に用いられるようにしてもよい。これにより、音声合成用データは、朝・昼・夜・深夜で変化するユーザの発話の口調を学習して得られたものになる。この場合、システム発話についても同様に、朝・昼・夜・深夜で口調が変化することになる。
このように、学習や音声合成に用いるコンテキスト情報として、発話ユーザID、感情、騒音量、発話先ID以外の、口調に変化を起こさせるような各種の状況が用いられるようにすることが可能である。例えば、天気、温度、湿度、位置などの、マイクやカメラ以外の各種のセンサにより検出可能であり、口調に変化を起こさせるような状況がコンテキスト情報に含められ、学習や音声合成に用いられるようにすることが可能である。
カメラにより撮影された画像を解析することによって、部屋に誰がいるか、ユーザの年齢、性別などが特定され、それらの情報がコンテキスト情報に含められるようにしてもよい。
伝言やメッセージのシステム発話時、システム発話の冒頭に、話者に応じた効果音やBGMが出力されるようにしてもよい。これにより、だれを話者としてシステム発話が行われるのかを分かりやすくすることができる。
ユーザ発話を用いた学習時に、ユーザがよく発話する冒頭の文言や最後の言い回しが学習されるようにしてもよい。これにより、システム発話時、話者に応じて冒頭に文言を追加したり最後の言い回しを変えたりしてシステム発話が行われることになる。
例えば、子どもが冒頭に「あのね」をつけてよく発話する場合、話者を子どもとしたシステム発話時に冒頭に「あのね」が追加される。また、子どもが最後に「だよ」という言い回しでよく発話する場合、話者を子どもとした「今日は9時からお出かけです」というシステム発話時に、「今日は9時からお出かけだよ」と最後の言い回しを変えたシステム発話が行われる。
<<第2の実施の形態(音声合成ネットワークを用いた例)>>
<音声合成ネットワークの学習>
以上においては、音声合成用データとして音声合成辞書を用いる場合について説明したが、ニューラルネットワークにより構成される音声合成ネットワークを用いることも可能である。
この場合、学習装置1においては、ユーザの発話音声のデータであるユーザ発話波形音声データと、発話音声の音声認識結果であるユーザ発話テキスト、および、コンテキスト情報を用いて音声合成ネットワークの生成が行われる。
また、音声合成装置2においては、システム発話テキストと、音声合成用のコンテキスト情報を音声合成ネットワークに入力することによって、システム発話音声波形データが出力される。音声合成ネットワークから出力されるシステム発話音声波形データは、上述したように、発話先のユーザや周囲の状況に応じたものとなる。
[学習装置の構成例]
図24は、音声合成用データとして音声合成ネットワークを用いる学習装置1の構成例を示すブロック図である。図24に示す構成のうち、図3の構成と同じ構成については同じ符号を付してある。重複する説明については適宜省略する。
図24に示す学習装置1の構成は、音声合成辞書学習部19に代えて音声合成ネットワーク学習部201が設けられている点で、図3に示す学習装置1の構成と異なる。学習装置1は、センサデバイス11、画像認識部12、音声入力デバイス13、音声信号処理部14、音声認識部15、コンテキスト推定部16、学習用データ記憶部17、関係性データ記憶部18、音声合成用データ記憶部20、および音声合成ネットワーク学習部201から構成される。
センサデバイス11は、撮像を行い、撮像によって得られた画像を画像認識部12に出力する。
画像認識部12は、顔認識を行い、撮像された画像に写るユーザの顔を検出する。また、画像認識部12は、撮像された画像を解析し、ユーザを識別するとともに、ユーザの表情に基づいて感情を推定する。
画像認識部12は、各ユーザの方向の情報と個人識別情報を音声信号処理部14に出力する。また、画像認識部12は、各ユーザの方向、個人識別情報、および感情を表す情報をコンテキスト推定部16に出力する。
音声入力デバイス13は、学習装置1の周りにいるユーザが発する音声と環境音を検出し、入力音声信号を音声信号処理部14に出力する。
音声信号処理部14は、入力音声信号に対して音源分離処理を行い、ユーザの方向と同じ方向を音源方向とする音声信号を抽出する。また、音声信号処理部14は、抽出した音声信号に対して音声区間検出処理を行い、ユーザが発話している区間の音声信号を検出する。
音声信号処理部14は、ユーザが発話を行っている区間の音声信号を出力し、騒音量とユーザの発話方向を表す情報をコンテキスト推定部16に出力する。音声信号処理部14から出力された音声信号はユーザ発話音声波形データ#1として学習用データ記憶部17に格納されるとともに、音声認識部15に供給される。
音声認識部15は、発話音声の音声信号に対して音声認識を行い、ユーザ発話テキスト#2を出力する。
コンテキスト推定部16は、入力された情報に基づいてコンテキスト情報#3を生成し、出力する。コンテキスト情報#3には、発話ユーザID、感情、騒音レベル、および発話先IDを表す情報が含まれる。また、コンテキスト推定部16は、ユーザ関係性データ#4を生成し、関係性データ記憶部18に格納させる。
音声合成ネットワーク学習部201は、学習用データ記憶部17に蓄積された学習データセットを用いて音声合成ネットワークの学習を行う。すなわち、音声合成ネットワーク学習部201は、音声合成ネットワーク#21の入力データとしてユーザ発話テキスト#2とコンテキスト情報#3を用い、対応するユーザ発話音声波形データを出力データとして用いて、音声合成ネットワーク#21の学習を行う。
[学習装置の動作]
図25のフローチャートを参照して、以上のような構成を有する学習装置1の学習処理について説明する。
ステップS201において、音声入力デバイス13は音声を検出する。ユーザの発話音声と環境音を含む入力音声信号は音声信号処理部14に供給される。
ステップS202において、センサデバイス11は撮像を行う。撮像によって得られた画像は画像認識部12に供給される。
ステップS203において、画像認識部12は、画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部12は、ユーザの表情に基づいて感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部14に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報は、画像認識結果セットとしてコンテキスト推定部16に供給される。
ステップS204において、音声信号処理部14は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理は、図6のフローチャートを参照して説明した処理と同様の処理である。
ステップS205において、音声認識部15は、音声信号処理部14から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。
ステップS206において、コンテキスト推定部16は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理は、図8のフローチャートを参照して説明した処理と同様の処理である。
ステップS207において、コンテキスト推定部16は、ユーザ関係性判定処理を行う。ユーザ関係性判定処理は、図9のフローチャートを参照して説明した処理と同様の処理である。
ステップS208において、音声合成ネットワーク学習部201は、入力データとしてユーザ発話テキストとコンテキスト情報を用い、対応するユーザ発話音声波形データを出力データとして用いて、音声合成ネットワークの学習を行う。
音声合成ネットワークの学習が行われた後、一連の学習処理は終了される。以上の処理が、ユーザが発話を行ったときなどの所定のタイミングで繰り返し行われる。
<音声合成ネットワークを用いた音声合成>
[音声合成装置の構成例]
図26は、音声合成用データとして音声合成ネットワークを用いる音声合成装置2の構成例を示すブロック図である。図26に示す構成のうち、図13の構成と同じ構成については同じ符号を付してある。重複する説明については適宜省略する。
音声合成装置2は、センサデバイス51、画像認識部52、音声入力デバイス53、音声信号処理部54、音声認識部55、コンテキスト推定部56、音声合成制御部57、関係性データ記憶部58、システム発話テキスト取得部59、音声合成用データ記憶部60、および音声再生デバイス62から構成される。図26に示す音声合成装置2の構成は、音声合成部61が設けられていない点で、図13に示す構成と異なる。
学習装置1により生成されたユーザ関係性データ#4は関係性データ記憶部58に記憶され、音声合成ネットワーク#21は音声合成用データ記憶部60に記憶される。
センサデバイス51は、撮像を繰り返し行い、撮像によって得られた画像を画像認識部52に出力する。
画像認識部52は、顔認識を行い、撮像された画像に写るユーザの顔を検出する。また、画像認識部52は、画像に顔が写っている場合、撮像された画像を解析し、ユーザを識別するとともに、ユーザの表情に基づいて感情を推定する。
画像認識部52は、各ユーザの方向の情報と個人識別情報を音声信号処理部54に出力する。また、画像認識部52は、各ユーザの方向、個人識別情報、および感情を表す情報をコンテキスト推定部56に出力する。
音声入力デバイス53は、音声合成装置2の周りの音を検出し、入力音声信号を音声信号処理部54に出力する。
音声信号処理部54は、複数のマイクの入力音声信号に対して音源分離処理を行い、画像認識部52から供給された情報により表されるユーザの方向と同じ方向を音源方向とする音声信号を抽出する。
また、音声信号処理部54は、抽出した音声信号に対して音声区間検出処理を行い、ユーザが発話している区間の音声信号を検出するとともに、騒音量を求める。音声信号処理部54は、ユーザが発話を行っている区間の音声信号を音声認識部55に出力し、騒音量とユーザの発話方向を表す情報をコンテキスト推定部56に出力する。
音声認識部55は、音声信号処理部54から供給された発話音声の音声信号に対して音声認識を行うことによってユーザ発話テキストを生成し、コンテキスト推定部56に出力する。
コンテキスト推定部56は、各部から供給された情報に基づいてコンテキスト情報を生成し、音声合成制御部57に出力する。コンテキスト情報には、発話ユーザID、感情、騒音レベル、および発話先IDを表す情報が含まれる。コンテキスト推定部56により生成されるコンテキスト情報は、システム発話時における周囲の状況を表す情報となる。
音声合成制御部57に対しては、コンテキスト情報#3、関係性データ記憶部58に記憶されたユーザ関係性データ#4、および、システム発話テキスト取得部59により取得されたシステム発話テキスト#11が入力される。
音声合成制御部57は、自然言語処理と意味解析処理を行うことによってシステム発話テキストの内容を解析する。音声合成制御部57は、コンテキスト情報#3、ユーザ関係性データ#4、およびシステム発話テキスト#11の解析結果に基づいて、上述したように、システム発話時の話者ID、騒音レベル、発話先ID、および感情を判定する。
音声合成制御部57は、話者ID、騒音レベル、発話先ID、および感情を表す情報からなる、図27に示すような音声合成用コンテキスト情報#22を生成する。音声合成制御部57は、システム発話テキスト取得部59が出力するシステム発話テキスト#11とともに、生成した音声合成用コンテキスト情報#22を音声合成ネットワーク#21に入力する。
システム発話テキスト#11と音声合成用コンテキスト情報#22が入力されることに応じて、音声合成ネットワーク#21からは、システム発話音声波形データ#23が出力される。音声合成ネットワーク#21は、システム発話テキストの内容を表し、システム発話時の状況等に応じた合成音声を生成する生成部として機能する。
システム発話テキスト取得部59は、システム発話テキスト#11を取得し、出力する。システム発話テキスト取得部59から出力されたシステム発話テキスト#11は、音声合成制御部57に供給されるとともに、音声合成ネットワーク#21に入力される。
音声再生デバイス62は、音声合成ネットワーク#21から出力されたシステム発話音声波形データ#23を再生し、システム発話音声を出力する。
[音声合成装置の動作]
図28のフローチャートを参照して、以上のような構成を有する音声合成装置2の音声合成処理について説明する。
ステップS221において、システム発話テキスト取得部59は、システム発話テキストを取得する。
ステップS222において、音声入力デバイス53は音声を検出する。
ステップS223において、センサデバイス51は撮像を行う。
ステップS224において、画像認識部52は、撮像された画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部52は、ユーザの感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部54に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報はコンテキスト推定部56に供給される。
ステップS225において、音声信号処理部54は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理により得られた発話音声の信号は音声認識部55に供給され、騒音量とユーザの発話方向を表す情報はコンテキスト推定部56に供給される。
ステップS226において、音声認識部55は、音声信号処理部54から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。ユーザ発話テキストはコンテキスト推定部56に供給される。
ステップS227において、コンテキスト推定部56は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理により生成されたコンテキスト情報は音声合成制御部57に供給される。
ステップS228において、音声合成制御部57は、音声合成用コンテキスト情報生成処理を行う。音声合成用コンテキスト情報生成処理の詳細については図29のフローチャートを参照して後述する。
ステップS229において、音声合成制御部57は、システム発話テキスト取得部59が出力するシステム発話テキストとともに、音声合成用コンテキスト情報を音声合成ネットワークに入力する。音声合成ネットワークからは、システム発話音声波形データが出力される。
ステップS230において、音声再生デバイス62は、音声合成ネットワークから出力されたシステム発話音声波形データを再生し、システム発話音声を出力する。その後、処理は終了される。
以上の処理が、例えばシステム発話のタイミング毎に行われる。
・音声合成用コンテキスト情報生成処理
次に、図29のフローチャートを参照して、図28のステップS228において行われる音声合成用コンテキスト情報生成処理について説明する。
図29に示すステップS251乃至S255の処理は、図15のステップS121,S122,S126,S129,S132の処理と同様の処理である。
ステップS251において、音声合成制御部57は、自然言語処理と意味解析処理を行い、システム発話テキストを解析する。
ステップS252において、音声合成制御部57は、コンテキスト情報の内容、システム発話テキストの内容、およびユーザ関係性データを用いて、システム発話に使用する話者IDの判定を行う。
ステップS253において、音声合成制御部57は、コンテキスト情報に基づいて、システム発話の騒音レベルを判定する。
ステップS254において、音声合成制御部57は、システム発話テキストの内容や状況等に基づいて、システム発話の発話先IDを判定する。
ステップS255において、音声合成制御部57は、システム発話テキストの内容に基づいて、システム発話の感情を判定する。
ステップS256において、音声合成制御部57は、以上の処理で判定した話者ID、騒音レベル、発話先ID、および感情を表す情報を含む音声合成用コンテキスト情報を生成し、出力する。その後、図28のステップS228に戻り、以上の処理が繰り返される。
以上のように、音声合成用データとして音声合成ネットワークを用いた場合であっても、システム発話に対するユーザの意識と理解度を向上させることが可能になる。また、ユーザの個別の状況に応じた、バリエーションの多いシステム発話が可能になる。
なお、音声合成用データとして音声合成ネットワークを用いる場合についても、学習装置1の機能と音声合成装置2の機能が1つのエージェント機器において実現されるようにすることが可能である。
<変形例2>
学習装置1、音声合成装置2、およびエージェント機器151が家庭内において用いられる場合について説明したが、学習時と音声合成時に同じユーザがいる様々な環境で用いられるようにすることが可能である。例えば、職場、学校の教室、飲食店などの店舗、公共の施設、自家用車の中、電車の中においてこれらの機器が用いられるようにしてもよい。
また、ユーザ間の関係性として、あるユーザの依頼や指示に対する、他のユーザの受け入れの程度が特定されるものとしたが、人と人の間にある各種の関係性が特定され、話者などの判定に用いられるようにしてもよい。例えば、画像から認識された体格の関係性、性別の関係性、ユーザの情報から認識された仕事の役職の関係性が話者などの判定に用いられるようにすることが可能である。
[コンピュータの構成例]
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図30は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005及びバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
[構成の組み合わせ例]
本技術は、以下のような構成をとることもできる。
(1)
複数のユーザの発話音声の音声認識を行う音声認識部と、
発話時の状況を推定する推定部と、
前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行う学習部と
を備える学習装置。
(2)
前記推定部は、前記音声認識の結果に基づいて、前記複数のユーザに含まれる発話ユーザと発話先ユーザの関係性を表す関係性データを生成する
前記(1)に記載の学習装置。
(3)
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
発話時に検出された音声信号に基づいて音源の方向を検出する音声信号処理部と
をさらに備え、
前記推定部は、前記音源の方向と前記画像に写る顔の方向に基づいて、前記発話ユーザを特定する
前記(2)に記載の学習装置。
(4)
前記推定部は、前記発話ユーザによる発話に続けて発話を行ったユーザを、前記発話先ユーザとして特定する
前記(3)に記載の学習装置。
(5)
前記音声信号処理部は、前記音声信号のうち、前記発話ユーザによる前記発話音声の音源方向以外の方向の成分を騒音成分として抽出する
前記(3)または(4)に記載の学習装置。
(6)
前記画像認識部は、前記画像に顔が写る前記発話ユーザの感情を認識する
前記(5)に記載の学習装置。
(7)
前記推定部は、前記発話時の状況として、前記発話ユーザの感情と騒音レベルを推定する
前記(6)に記載の学習装置。
(8)
前記学習部は、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データを前記音声合成用データとして生成する
前記(1)乃至(7)のいずれかに記載の学習装置。
(9)
前記学習部は、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークを前記音声合成用データとして生成する
前記(1)乃至(7)のいずれかに記載の学習装置。
(10)
複数のユーザの発話音声の音声認識を行い、
発話時の状況を推定し、
前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行う
ステップを含む学習方法。
(11)
状況を推定する推定部と、
複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成する生成部と
を備える音声合成装置。
(12)
前記生成部は、前記合成音声の発話先ユーザに応じたユーザを話者ユーザとした前記合成音声を生成する
前記(11)に記載の音声合成装置。
(13)
前記音声認識の結果に基づいて学習時に生成された、前記複数のユーザに含まれる発話ユーザと発話先のユーザの関係性を表す関係性データに基づいて、前記話者ユーザを選択する制御部をさらに備える
前記(12)に記載の音声合成装置。
(14)
前記制御部は、前記テキストデータの内容に基づいて前記発話先ユーザを選択する
前記(13)に記載の音声合成装置。
(15)
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
検出された音声信号に基づいて音源の方向を検出し、所定のユーザによる発話音声の音源方向以外の方向の成分を騒音成分として抽出する音声信号処理部と
をさらに備える前記(12)乃至(14)のいずれかに記載の音声合成装置。
(16)
前記推定部は、前記テキストデータの内容に基づいて前記話者ユーザの感情を特定し、前記話者ユーザの感情と騒音レベルを前記状況として推定する
前記(15)に記載の音声合成装置。
(17)
前記音声合成用データは、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データである
前記(11)乃至(16)のいずれかに記載の音声合成装置。
(18)
前記音声合成用データは、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークである
前記(11)乃至(16)のいずれかに記載の音声合成装置。
(19)
状況を推定し、
複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成する
ステップを含む音声合成方法。
1 学習装置, 2 音声合成装置, 11 センサデバイス, 12 画像認識部, 13 音声入力デバイス, 14 音声信号処理部, 15 音声認識部, 16 コンテキスト推定部, 17 学習用データ記憶部, 18 関係性データ記憶部, 19 音声合成辞書学習部, 20 音声合成用データ記憶部, 51 センサデバイス, 52 画像認識部, 53 音声入力デバイス, 54 音声信号処理部, 55 音声認識部, 56 コンテキスト推定部, 57 音声合成制御部, 58 関係性データ記憶部, 59 システム発話テキスト取得部, 60 音声合成用データ記憶部, 61 音声合成部, 62 音声再生デバイス

Claims (19)

  1. 複数のユーザの発話音声の音声認識を行う音声認識部と、
    発話時の状況を推定する推定部と、
    前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行う学習部と
    を備える学習装置。
  2. 前記推定部は、前記音声認識の結果に基づいて、前記複数のユーザに含まれる発話ユーザと発話先ユーザの関係性を表す関係性データを生成する
    請求項1に記載の学習装置。
  3. 撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
    発話時に検出された音声信号に基づいて音源の方向を検出する音声信号処理部と
    をさらに備え、
    前記推定部は、前記音源の方向と前記画像に写る顔の方向に基づいて、前記発話ユーザを特定する
    請求項2に記載の学習装置。
  4. 前記推定部は、前記発話ユーザによる発話に続けて発話を行ったユーザを、前記発話先ユーザとして特定する
    請求項3に記載の学習装置。
  5. 前記音声信号処理部は、前記音声信号のうち、前記発話ユーザによる前記発話音声の音源方向以外の方向の成分を騒音成分として抽出する
    請求項3に記載の学習装置。
  6. 前記画像認識部は、前記画像に顔が写る前記発話ユーザの感情を認識する
    請求項5に記載の学習装置。
  7. 前記推定部は、前記発話時の状況として、前記発話ユーザの感情と騒音レベルを推定する
    請求項6に記載の学習装置。
  8. 前記学習部は、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データを前記音声合成用データとして生成する
    請求項1に記載の学習装置。
  9. 前記学習部は、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークを前記音声合成用データとして生成する
    請求項1に記載の学習装置。
  10. 複数のユーザの発話音声の音声認識を行い、
    発話時の状況を推定し、
    前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行う
    ステップを含む学習方法。
  11. 状況を推定する推定部と、
    複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成する生成部と
    を備える音声合成装置。
  12. 前記生成部は、前記合成音声の発話先ユーザに応じたユーザを話者ユーザとした前記合成音声を生成する
    請求項11に記載の音声合成装置。
  13. 前記音声認識の結果に基づいて学習時に生成された、前記複数のユーザに含まれる発話ユーザと発話先のユーザの関係性を表す関係性データに基づいて、前記話者ユーザを選択する制御部をさらに備える
    請求項12に記載の音声合成装置。
  14. 前記制御部は、前記テキストデータの内容に基づいて前記発話先ユーザを選択する
    請求項13に記載の音声合成装置。
  15. 撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
    検出された音声信号に基づいて音源の方向を検出し、所定のユーザによる発話音声の音源方向以外の方向の成分を騒音成分として抽出する音声信号処理部と
    をさらに備える請求項12に記載の音声合成装置。
  16. 前記推定部は、前記テキストデータの内容に基づいて前記話者ユーザの感情を特定し、前記話者ユーザの感情と騒音レベルを前記状況として推定する
    請求項15に記載の音声合成装置。
  17. 前記音声合成用データは、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データである
    請求項11に記載の音声合成装置。
  18. 前記音声合成用データは、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークである
    請求項11に記載の音声合成装置。
  19. 状況を推定し、
    複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成する
    ステップを含む音声合成方法。
JP2019505839A 2017-03-13 2018-02-27 学習装置、学習方法、音声合成装置、音声合成方法 Active JP7070544B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017047497 2017-03-13
JP2017047497 2017-03-13
PCT/JP2018/007086 WO2018168427A1 (ja) 2017-03-13 2018-02-27 学習装置、学習方法、音声合成装置、音声合成方法

Publications (2)

Publication Number Publication Date
JPWO2018168427A1 true JPWO2018168427A1 (ja) 2020-01-09
JP7070544B2 JP7070544B2 (ja) 2022-05-18

Family

ID=63522386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019505839A Active JP7070544B2 (ja) 2017-03-13 2018-02-27 学習装置、学習方法、音声合成装置、音声合成方法

Country Status (4)

Country Link
US (1) US11335322B2 (ja)
EP (1) EP3598434A4 (ja)
JP (1) JP7070544B2 (ja)
WO (1) WO2018168427A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600911B (zh) 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
WO2020089961A1 (ja) * 2018-10-29 2020-05-07 健一 海沼 音声処理装置、およびプログラム
US10657968B1 (en) * 2018-11-19 2020-05-19 Google Llc Controlling device output according to a determined condition of a user
JP2020095428A (ja) 2018-12-12 2020-06-18 株式会社東芝 モデル学習システム、モデル学習方法、プログラム、及び記憶媒体
KR102615154B1 (ko) * 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
WO2021065098A1 (ja) * 2019-10-01 2021-04-08 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法
KR102663669B1 (ko) * 2019-11-01 2024-05-08 엘지전자 주식회사 소음 환경에서의 음성 합성
US11430424B2 (en) * 2019-11-13 2022-08-30 Meta Platforms Technologies, Llc Generating a voice model for a user
JP7123028B2 (ja) * 2019-11-27 2022-08-22 Tis株式会社 情報処理システム、情報処理方法、及びプログラム
CN115088033A (zh) * 2020-02-10 2022-09-20 谷歌有限责任公司 代表对话中的人参与者生成的合成语音音频数据
JP7405660B2 (ja) * 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
KR102429365B1 (ko) * 2020-11-09 2022-08-05 주식회사 스피랩 음성감성 분석 시스템 및 방법
JP6993034B1 (ja) 2021-05-14 2022-01-13 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム
CN114999440B (zh) * 2022-05-24 2024-07-26 北京百度网讯科技有限公司 虚拟形象生成方法、装置、设备、存储介质以及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
JP2009042910A (ja) * 2007-08-07 2009-02-26 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20090300041A1 (en) * 2006-09-08 2009-12-03 At&T Corp. Method and System for Training a Text-to-Speech Synthesis System Using a Specific Domain Speech Database
US20160140951A1 (en) * 2014-11-13 2016-05-19 Google Inc. Method and System for Building Text-to-Speech Voice from Diverse Recordings

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3673471B2 (ja) * 2000-12-28 2005-07-20 シャープ株式会社 テキスト音声合成装置およびプログラム記録媒体
US6967455B2 (en) * 2001-03-09 2005-11-22 Japan Science And Technology Agency Robot audiovisual system
US6988068B2 (en) * 2003-03-25 2006-01-17 International Business Machines Corporation Compensating for ambient noise levels in text-to-speech applications
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
JP2011186143A (ja) 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image
US9576190B2 (en) * 2015-03-18 2017-02-21 Snap Inc. Emotion recognition in video conferencing
JP6251219B2 (ja) 2015-09-04 2017-12-20 株式会社東芝 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
US20090300041A1 (en) * 2006-09-08 2009-12-03 At&T Corp. Method and System for Training a Text-to-Speech Synthesis System Using a Specific Domain Speech Database
JP2009042910A (ja) * 2007-08-07 2009-02-26 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20160140951A1 (en) * 2014-11-13 2016-05-19 Google Inc. Method and System for Building Text-to-Speech Voice from Diverse Recordings

Also Published As

Publication number Publication date
EP3598434A4 (en) 2020-04-22
JP7070544B2 (ja) 2022-05-18
US20200051545A1 (en) 2020-02-13
US11335322B2 (en) 2022-05-17
EP3598434A1 (en) 2020-01-22
WO2018168427A1 (ja) 2018-09-20

Similar Documents

Publication Publication Date Title
JP7070544B2 (ja) 学習装置、学習方法、音声合成装置、音声合成方法
US11004446B2 (en) Alias resolving intelligent assistant computing device
JP6267636B2 (ja) 音声応答装置
US20190370283A1 (en) Systems and methods for consolidating recorded content
KR20160100811A (ko) 정보 제공 방법 및 디바이스
EP4091161B1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
US20220084543A1 (en) Cognitive Assistant for Real-Time Emotion Detection from Human Speech
US11810585B2 (en) Systems and methods for filtering unwanted sounds from a conference call using voice synthesis
WO2022218027A1 (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
JP2023548157A (ja) 通話およびオーディオメッセージからのその他の話者の音声フィルタリング
US12073849B2 (en) Systems and methods for filtering unwanted sounds from a conference call
JP2019159060A (ja) 出力内容制御装置、出力内容制御方法、及び出力内容制御プログラム
JP2005352151A (ja) 人間の感情状態に応じた音楽出力装置及び音楽出力方法
WO2019138652A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11798538B1 (en) Answer prediction in a speech processing system
WO2019187543A1 (ja) 情報処理装置および情報処理方法
JP6516805B2 (ja) 決定装置、決定方法、及び決定プログラム
US20240203446A1 (en) Method of operating sound recognition device identifying speaker and electronic device having the same
JP2020086011A (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220418

R151 Written notification of patent or utility model registration

Ref document number: 7070544

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151