WO2019017033A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2019017033A1
WO2019017033A1 PCT/JP2018/016392 JP2018016392W WO2019017033A1 WO 2019017033 A1 WO2019017033 A1 WO 2019017033A1 JP 2018016392 W JP2018016392 W JP 2018016392W WO 2019017033 A1 WO2019017033 A1 WO 2019017033A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
external sound
information processing
information
notification
Prior art date
Application number
PCT/JP2018/016392
Other languages
English (en)
French (fr)
Inventor
亜由美 中川
貴宣 小俣
壮一郎 稲谷
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/629,967 priority Critical patent/US11170754B2/en
Priority to EP18836218.0A priority patent/EP3657495A1/en
Priority to CN201880045866.0A priority patent/CN110892475A/zh
Publication of WO2019017033A1 publication Critical patent/WO2019017033A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音を伴う情報の発信源をユーザに明確に把握させる。 【解決手段】音を用いた情報通知の出力を制御する出力制御部、を備え、前記出力制御部は、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、情報処理装置が提供される。また、プロセッサが、音を用いた情報通知の出力を制御すること、を含み、前記制御することは、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、音を用いてユーザに情報通知を行う種々の出力装置が普及している。また、音による情報通知に関し、ユーザの利便性を高めるための技術が多く開発されている。例えば、特許文献1には、保守点検の期日が近づくにつれ発話時の声質を変化させるロボットが開示されている。
特開2016-90724号公報
 ところで、周囲に他の音源が存在する状況で上記のような出力装置を利用する場合、他の音源が出力する音と出力装置が出力する音とが類似することも想定される。この場合、ユーザが、知覚した音の発信源を特定できない状況も生じ得る。
 そこで、本開示では、音を伴う情報の発信源をユーザに明確に把握させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、音を用いた情報通知の出力を制御する出力制御部、を備え、前記出力制御部は、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、音を用いた情報通知の出力を制御すること、を含み、前記制御することは、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させること、をさらに含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、音を用いた情報通知の出力を制御する出力制御部、を備え、前記出力制御部は、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、情報処理装置、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、音を伴う情報の発信源をユーザに明確に把握させることが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態の概要について説明するための図である。 同実施形態に係る情報処理システムのシステム構成例を示すブロック図である。 同実施形態に係る情報処理端末の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係る外部音源のバリエーションについて説明するための図である。 同実施形態に係る外部音源のバリエーションについて説明するための図である。 同実施形態に係る外部音源のバリエーションについて説明するための図である。 同実施形態に係る外部音源のバリエーションについて説明するための図である。 同実施形態に係る情報通知のカテゴリに基づく出力態様の変化タイミングの制御について説明するための図である。 同実施形態に係る情報通知の長さに基づく出力態様の変化タイミングの制御について説明するための図である。 同実施形態に係る出力態様の制御回数に基づく出力制御について説明するための図である。 同実施形態に係る外部音の出力傾向に基づく出力態様の制御について説明するための図である。 同実施形態に係る外部音源の制御について説明するための図である。 同実施形態に係る情報処理サーバによる外部音源データの蓄積の流れを示すフローチャートである。 同実施形態に係る情報処理サーバによる出力態様の制御の流れを示すフローチャートである。 本開示の一実施形態に係る情報処理端末と情報処理サーバに共通するハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.実施形態の概要
  1.2.システム構成例
  1.3.情報処理端末10の機能構成例
  1.4.情報処理サーバ20の機能構成例
  1.5.出力制御の詳細
  1.6.処理の流れ
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.実施形態の概要>>
 まず、本開示の一実施形態の概要について説明する。上述したとおり、近年では、音を用いて情報通知を行う種々の出力装置が普及している。上記のような出力装置は、例えば、音声を用いてユーザの問い合わせに回答を行う機能や、アラームなどの報知音によりユーザに時間を通知する機能などを有する。
 ユーザは、上記のような出力装置を利用することで、視線や行動を拘束されずに種々の情報を手軽に享受することができる。例えば、ユーザは、出力装置と対話を行うことで、料理を行いながらレシピなどに関する情報提示を受けることも可能である。
 このように、上記のような出力装置は、種々の状況において用いられ得る。しかし、出力装置が他の音源が存在する環境で用いられる場合、音の発信源を特定することが困難となる状況も想定される。
 例えば、出力装置と他の音源から類似する音が同時に出力される場合、ユーザは、知覚した音の発信源が出力装置であるのか、あるいは他の音源であるのかを特定することが困難である。また、音が同時に出力されない場合であっても、ユーザが出力装置と他の音源から出力される音が類似することを認識している場合、当該ユーザが知覚した音の発信源が特定できない場合がある。
 本開示に係る技術思想は、上記の点に着目して発想されたものであり、音を伴う情報の発信源をユーザに明確に把握させることを可能とする。このために、本開示の一実施形態に係る情報処理装置、情報処理方法、およびプログラムは、認識された外部音源に基づいて、当該外部音源が発し得る音とは類似しない出力態様で出力装置に情報通知を出力させること、を特徴の一つとする。
 図1は、本開示の一実施形態の概要について説明するための図である。図1には、音を用いた情報通知を行う情報処理端末10と、情報処理端末10による情報通知を受け取るユーザU1、および上述したその他の音源に該当する外部音源SSが示されている。
 また、図1には、情報処理端末10が出力する情報通知INと外部音源SSが発する外部音ESとが示されている。なお、本開示における図面では、情報通知INと外部音ESに係る文字装飾が音響的特徴の類似度を示すものとする。すなわち、情報通知INと外部音ESとが同一の文字装飾で表す場合には、情報通知INと外部音ESとが類似する音響的特徴を有することを示す。一方、情報通知INと外部音ESとが異なる文字装飾で表す場合には、情報通知INと外部音ESとが類似しない音響的特徴を有することを示す。
 また、本実施形態に係る外部音源SSとは、情報処理端末10が発する情報通知と拮抗する音を発し得る音源であってよい。図1に示す一例の場合、情報処理端末10は、人工音声によりユーザU1に情報通知を行う装置であることから、外部音源SSはユーザU1とは異なる人物として示されている。
 ここで、図1の上段に示すように、情報処理端末10が出力する情報通知INと、外部音源SSが発話する外部音ESとが類似した音響的特徴を有する場合、ユーザU1は、知覚した音が情報処理端末10により出力された情報通知INであるのか、あるいは外部音源SSが発話した外部音ESであるのかを判断することが困難な状況が生じ得る。上記のような状況は、ユーザU1が別の動作を行っている場合や、情報処理端末10や外部音源SSから視線を外している場合に、特に生じやすいことが想定される。
 このため、本開示の一実施形態に係る情報処理サーバ20は、情報処理端末10に予め設定された出力態様と外部音源SSが発し得る外部音ESとが類似した音響的特徴を有する場合、情報処理端末10に外部音ESとは類似しない出力態様で情報通知INを出力させることができる。より具体的には、情報処理サーバ20は、外部音ESと情報通知INに予め設定された出力態様との類似度が閾値を超える場合、外部音ESとは類似しない出力態様で情報処理端末10に情報通知INを出力させてよい。
 図1の下段には、本実施形態に係る情報処理サーバ20により出力態様が制御された情報通知INが示されている。ここで、図1の下段における情報通知INと外部音ESとを比較すると、情報通知INが外部音ESとは異なる文字装飾で表されていることがわかる。上述したように、本開示における図面では、文字装飾が音響的特徴の類似度を示す。すなわち、図1の下段には、情報処理サーバ20による制御により情報処理端末10が情報通知INを外部音ESとは類似しない出力態様で出力していることが示されている。
 本実施形態に係る情報処理サーバ20が有する上記の機能によれば、ユーザU1は、情報処理端末10が出力情報通知INと外部音源SSが発する外部音ESとを明確に区分して知覚することができ、それぞれが発信する情報を正しく受けることが可能となる。以下、本実施形態に係る情報処理サーバ20が有する上記の機能について詳細に説明する。
 <<1.2.システム構成例>>
 次に、本開示の一実施形態に係る情報処理システムのシステム構成例について説明する。図2は、本実施形態に係る情報処理システムのシステム構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20とは、互いに通信が行えるようにネットワーク30を介して接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザに対し音を用いた情報通知を行う装置である。なお、本実施形態に係る情報処理端末10は、アラームなどの報知音を用いた情報通知を行ってもよいし、人工音声を用いた音声通知を行ってもよい。
 本実施形態に係る情報処理端末10は、音響出力機能を有する種々の装置として実現され得る。本実施形態に係る情報処理端末10は、例えば、携帯電話、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、据え置き型または自律移動型の専用装置などであってもよい。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、情報処理端末10による情報通知の出力を制御する情報処理装置である。上述したように、上記の情報通知は、報知音や人工音声などを用いた種々の通知を含む。この際、本実施形態に係る情報処理サーバ20は、認識した外部音源に基づいて、情報処理端末10が出力する情報通知の出力態様を制御する機能を有する。具体的には、本実施形態に係る情報処理サーバ20は、外部音源が発し得る外部音とは類似しない出力態様で情報処理端末10に情報通知を出力させることができる。
 (ネットワーク30)
 ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムのシステム構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.3.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図3は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理端末10は、表示部110、音声出力部120、音声入力部130、撮像部140、制御部150、およびサーバ通信部160を備える。
 (表示部110)
 本実施形態に係る表示部110は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部110は、例えば、情報処理サーバ20による制御に基づいて、音による情報通知と関連した視覚情報を表示することができる。
 このために、本実施形態に係る表示部110は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部110は、プロジェクション機能により視覚情報を出力してもよい。
 (音声出力部120)
 本実施形態に係る音声出力部120は、報知音や人工音声などを用いた情報通知を出力する機能を有する。本実施形態に係る音声出力部120は、例えば、情報処理サーバ20による制御に基づいて、ユーザの問い合わせに対応する回答などを音声発話により出力することができる。また、音声出力部120は、予め設定されたユーザのスケジュールに基づいて、当該スケジュールに対応した時間に報知音などを出力してもよい。このために、本実施形態に係る音声出力部120は、スピーカやアンプなどの音声出力装置を備える。
 (音声入力部130)
 本実施形態に係る音声入力部130は、ユーザによる発話や、外部音源が発する外部音などの音情報を収集する機能を有する。音声入力部130が収集する音情報は、情報処理サーバ20による音声認識や外部音源の認識に用いられる。本実施形態に係る音声入力部130は、音情報を収集するためのマイクロフォンを備える。
 (撮像部140)
 本実施形態に係る撮像部140は、ユーザや外部音源を含む画像を撮像する機能を有する。撮像部140が撮像した画像は、情報処理サーバ20によるユーザ認識や外部音源の認識に用いられる。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (制御部150)
 本実施形態に係る制御部150は、情報処理端末10が備える各構成を制御する機能を有する。制御部150は、例えば、各構成の起動や停止を制御する。また、制御部150は、情報処理サーバ20により生成される制御信号を表示部110や音声出力部120に入力することができる。また、本実施形態に係る制御部150は、後述する情報処理サーバ20の出力制御部230と同等の機能を有してもよい。
 (サーバ通信部160)
 本実施形態に係るサーバ通信部160は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部160は、音声入力部130が収集した音情報や、撮像部140が撮像した画像情報を情報処理サーバ20に送信する。また、サーバ通信部160は、情報処理サーバ20から情報通知の出力に係る制御信号や人工音声を受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10は、図3に示す構成のすべてを必ずしも備えなくてもよい。情報処理端末10は、表示部110などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部150は、情報処理サーバ20の出力制御部230と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図4は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理サーバ20は、認識部210、判定部220、出力制御部230、音声合成部240、記憶部250、および端末通信部260を備える。また、記憶部250は、ユーザDB252、外部音源DB254、および出力態様DB256を備える。
 (認識部210)
 本実施形態に係る認識部210は、ユーザや外部音源を認識する機能を有する。認識部210は、例えば、情報処理端末10が収集したユーザの発話や画像と、ユーザDB252に予め記憶されるユーザの音響的特徴や画像とを比較することでユーザの認識を行うことができる。また、認識部210は、ユーザの音声や画像に基づいて、ユーザの視線や表情、状態、行動などを認識することができる。
 また、認識部210は、情報処理端末10が収集した音情報や画像と、外部音源DB254に記憶される外部音源の音響的特徴や構造的特徴とを比較することで、外部音源を認識することができる。なお、認識部210は、ネットワーク30を介して外部音源から識別情報を受信することで、外部音源を認識することもできる。
 また、収集された音情報や画像に対応するデータが外部音源DB254に記録されていない場合、認識部210は、上記の音情報や画像に基づいて、新たな外部音源に係るデータを外部音源DB254に記録する。
 また、認識部210は、情報処理端末10が収集したユーザの発話に基づく音声認識を行う。
 (判定部220)
 本実施形態に係る判定部220は、外部音源が発し得る外部音と情報通知に予め設定された出力態様との類似度を判定する機能を有する。判定部220は、例えば、外部音と情報通知に係る周波数、韻律、出力強度、声質(話者モデル)などの音響的特徴に基づいて、上記の類似度を判定してもよい。なお、上記の韻律には、音のリズム、強弱、長短などが含まれる。
 判定部220は、認識部210が外部音源を認識したことに基づいて、外部音源DB254から当該外部音源が発し得る外部音の音響的特徴を取得することで、上記の判定を行ってもよい。また、判定部220は、情報処理端末10が収集した外部音に係る音情報に基づいて、リアルタイムに類似度を判定することも可能である。
 また、本実施形態に係る判定部220は、認識部210が認識したユーザの表情や状態などに基づいて、ユーザが情報通知に係る発信源を特定できているか否かを判定する。本実施形態に係る出力制御部230は、判定部220による上記の判定に基づいて、出力態様の制御を実行してよい。
 (出力制御部230)
 本実施形態に係る出力制御部230は、情報処理端末10による音を用いた情報通知の出力を制御する機能を有する。この際、本実施形態に係る出力制御部230は、認識部210が認識した外部音源に基づいて、当該外部音源が発し得る外部音とは類似しない出力態様で情報処理端末10に情報通知を出力させることを特徴の一つとする。
 なお、本実施形態に係る出力態様には、上述したような周波数、韻律、出力強度、声質などが含まれる。すなわち、本実施形態に係る出力制御部230は、外部音と類似しないように、情報通知に係る上記のような音響的特徴を変化させることができる。
 例えば、情報処理端末10が音声を用いた音声通知を出力する機能を有する場合、出力制御部230は、外部音源が発し得る外部音とは類似しない声質で情報処理端末10に音声通知を出力させてもよい。この際、外部音源が50代の男性である場合には、出力制御部230は、情報通知に係る声質を20代の女性に設定してもよい。出力制御部230が有する上記の機能によれば、ユーザが情報通知と外部音とを容易に聞き分けることが可能となる。
 また、本実施形態に係る出力制御部230は、外部音と類似しないように情報通知に係る口調を変化させてもよい。例えば、外部音源がくだけた口調で話す人物である場合、出力制御部230は、情報通知を丁寧語で出力させてもよい。また、出力制御部230は、情報通知に係る音声の語尾などを変化させることで、外部音との差別化を行ってもよい。
 なお、上記の説明では、外部音源が主に人である場合を中心に述べたが、外部音源は係る例に限定されない。本実施形態に係る外部音源は、情報通知と拮抗する音を発し得る種々の音源であり得る。
 図5A~図5Dは、本実施形態に係る外部音源のバリエーションについて説明するための図である。図5Aには、外部音源SSが音声を用いた情報通知を行う装置である場合の例が示されている。図5Aに示す外部音源SSは、例えば、据え置き型の音声エージェントであってもよい。この際、本実施形態に係る出力制御部230は、外部音ESとは類似しない出力態様で情報処理端末10に情報通知INを出力させてよい。図5Aに示す一例の場合、出力制御部230は、外部音ESと類似しないように、情報通知INの声質や口調を制御している。出力制御部230が有する上記の機能によれば、情報処理端末10の他に音声による情報通知を行う装置が存在する場合であっても、ユーザが情報の発信源を明確に把握することが可能となる。
 また、図5Bには、外部音源SSが動画の再生機能を有する装置である場合の例が示されている。図5Bに示す外部音源SSは、例えば、テレビジョン装置であってもよい。この際、本実施形態に係る出力制御部230は、動画中に含まれる発話などの外部音ESとは類似しない出力態様で情報処理端末10に情報通知INを出力させてよい。図5Bに示す一例の場合、出力制御部230は、外部音ESと類似しないように、情報通知INの声質などを制御している。出力制御部230が有する上記の機能によれば、ユーザが動画を視聴している場合であっても、情報通知INの発信源が情報処理端末10であることを容易に知覚することが可能である。
 また、図5Cには、外部音源SSがペットなどの生物である場合の例が示されている。なお、図5Cにおける情報処理端末10は、ペット型エージェントであってよい。この際、本実施形態に係る出力制御部230は、外部音源SSの鳴き声である外部音ESとは類似しない出力態様で情報処理端末10に情報通知INを出力させてよい。図5Cに示す一例の場合、出力制御部230は、外部音ESと類似しないように、情報通知INの周波数や韻律などを制御している。出力制御部230が有する上記の機能によれば、ユーザが実際のペットを飼育している場合であっても、情報通知INの発信源がペット型エージェントである情報処理端末10であることを容易に知覚することが可能である。
 また、図5Dには、外部音源SSが報知音を出力する装置である場合の例が示されている。図5Dに示す外部音源SSは、例えば、電子レンジなどの家電機器であってもよい。この際、本実施形態に係る出力制御部230は、外部音源SSが発し得る外部音ESとは類似しない出力態様で情報処理端末10に情報通知INを出力させてよい。図5Dに示す一例の場合、出力制御部230は、外部音ESと類似しないように、情報通知INの周波数や韻律などを制御している。出力制御部230が有する上記の機能によれば、情報処理端末10の周囲に報知音を発する種々の装置が存在する場合であっても、ユーザが知覚した音の発信源を容易に特定することが可能となる。
 (音声合成部240)
 本実施形態に係る音声合成部240は、出力制御部230による制御に基づいて、情報処理端末10により出力される人工音声を合成する機能を有する。
 (記憶部250)
 本実施形態に係る記憶部250は、ユーザDB252、外部音源DB254、および出力態様DB256を備える。
 ((ユーザDB252))
 本実施形態に係るユーザDB252は、ユーザに関する種々の情報を記憶する。ユーザDB252は、例えば、ユーザの顔画像や音声特徴などを記憶する。また、ユーザDB252は、ユーザの性別、年齢、嗜好、傾向などの情報を記憶してもよい。
 ((外部音源DB254))
 本実施形態に係る外部音源DB254は、外部音源の構造的特徴や当該外部音源が発し得る外部音の音響的特徴を記憶する。本実施形態に係る判定部220は、外部音源DB254が記憶する情報に基づいて、上述した類似度を判定することができる。また、
 ((出力態様DB256))
 本実施形態に係る出力態様DB256は、情報通知に予め設定された出力態様を記憶する。出力態様DB256は、例えば、情報通知のカテゴリごとに設定された複数の出力態様を記憶してもよい。
 また、出力態様DB256は、所定の外部音源に対応する出力態様を記憶することもできる。出力態様DB256は、例えば、ユーザの家族である外部音源と対応した出力態様、すなわち家族の声とは類似しない出力態様を記憶してもよい。この場合、出力制御部230は、ユーザの家族である外部音源が認識されたことに基づいて、対応した出力態様を出力態様DB256から取得し、当該家族とは異なる声質で情報通知を出力させることもできる。
 (端末通信部260)
 本実施形態に係る端末通信部260は、ネットワーク30を介して、情報処理端末10との情報通信を行う機能を有する。具体的には、端末通信部260は、情報処理端末10からユーザの発話や外部音などの音情報、画像情報を受信する。また、端末通信部260は、出力制御部230が生成した制御信号や、音声合成部240が合成した人工音声を情報処理端末10に送信する。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、情報処理サーバ20は、必ずしも図4に示す構成のすべてを備えなくてもよい。認識部210、判定部220、音声合成部240、および記憶部250は、情報処理サーバ20とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.出力制御の詳細>>
 次に、本実施形態に係る出力制御部230による情報通知の出力制御について詳細に説明する。
 (出力態様の変化タイミングに係る制御)
 まず、本実施形態に係る出力態様の変化タイミングに係る制御について説明する。上述したように、本実施形態に係る出力制御部230は、認識部210が認識した外部音源に基づいて、情報処理端末10による情報通知の出力態様を変化させることができる。しかし、外部音源が認識されてすぐに情報通知の出力態様を変化させる場合、急送な変化にユーザが違和感を覚えることも想定される。このため、本実施形態に係る出力制御部230は、種々の出力コンテキストに基づいて出力態様を変化させるタイミングを制御することで、ユーザに違和感を与える可能性を効果的に低減することができる。
 ここで、上記の出力コンテキストは、例えば、情報通知のカテゴリを含む。本実施形態に係る出力制御部230は、情報通知のカテゴリが切り替わる際に、情報通知の出力態様を変化せてもよい。
 図6は、本実施形態に係る情報通知のカテゴリに基づく出力態様の変化タイミングの制御について説明するための図である。図6には、情報処理端末10の表示部110により表示される視覚情報VIが示されている。また、視覚情報VIには、話者キャラクターC1およびC2が示されている。ここで、話者キャラクターC1およびC2は、それぞれ異なる情報通知のカテゴリに対応付いたキャラクターである。
 例えば、話者キャラクターC1は天気予報に関する情報通知に対応付いたキャラクターであってよい。この際、話者キャラクターC1が天気予報に関する情報通知IN1を行っている状況で、話者キャラクターC1に設定された音声や口調と類似する音響的特徴を有する外部音源が認識された場合を想定する。この際、本実施形態に係る出力制御部230は、話者キャラクターC1による情報通知IN1の出力態様を変化させず、天気予報に関する情報通知IN1を通常通り完了させる。
 次に、出力制御部230は、異なるカテゴリであるスポーツニュースに関する情報通知IN2に出力が切り替わるタイミングで、話者キャラクターC1とは異なる声質や口調が設定された話者キャラクターC2を表示させ、話者キャラクターC2にスポーツニュースに関する情報通知IN2を提示させる。
 このように、本実施形態に係る出力制御部230は、情報通知のカテゴリが切り替わるタイミングで、出力態様と対応付けた複数の話者キャラクターを切り替えることができる。本実施形態に係る出力制御部230が有する上記の機能によれば、出力態様の変化に対するユーザの違和感を効果的に低減することが可能となる。なお、上述した情報通知のカテゴリは、情報通知の内容や、情報通知の生成元となるアプリケーションなどに基づいて適宜定められてよい。
 また、上記の出力コンテキストは、例えば、情報通知の長さを含む。本実施形態に係る出力制御部230は、情報通知の長さに基づいて出力態様を段階的に変化させてもよい。図7は、本実施形態に係る情報通知の長さに基づく出力態様の変化タイミングの制御について説明するための図である。図7には、情報処理端末10から出力される情報通知INが示されている。
 ここで、図7に示す情報通知INは、複数の文章から構成され、比較的長い出力時間を要する。このように、情報通知INが十分な長さを有する場合、本実施形態に係る出力制御部230は、例えば、情報通知INに含まれる文章ごとに段階的に出力態様を変化させてもよい。本実施形態に係る出力制御部230が有する上記の機能によれば、急激な出力態様の変化を回避することができ、ユーザの違和感を効果的に低減することが可能となる。
 また、上記の出力コンテキストは、例えば、情報通知の出力態様に係る制御回数を含む。上述したような情報通知のカテゴリや長さに基づく制御を行う場合であっても、短時間の間に何度も出力態様が変化する場合、ユーザが度重なる出力態様の変化に違和感を抱くことも想定される。このため、本実施形態に係る出力制御部230は、出力態様に係る制御回数に基づいて、情報通知に係る出力を制御してよい。より具体的には、本実施形態に係る出力制御部230は、所定時間内における出力態様の変化回数が閾値を超えないように制御を行ってよい。
 図8は、本実施形態に係る出力態様の制御回数に基づく出力制御について説明するための図である。図8の上段には、認識された外部音源SS1と、外部音源SS1が発し得る外部音と類似しないよう出力態様が制御された情報通知INが示されている。
 また、図8の下段には、図8上段の状態からさらに外部音源SS2が認識された状況が示されている。この際、本実施形態に係る出力制御部230は、情報通知の出力態様が短時間の間に複数回変化することを避け、例えば、図示するように、視覚情報VIを情報通知に代えて出力させてもよい。
 本実施形態に係る出力制御部230が有する上記の機能によれば、情報通知の出力態様が頻繁に変化することを防止することができ、ユーザの違和感を効果的に低減することが可能となる。
 (外部音の出力傾向に基づく制御)
 次に、本実施形態に係る外部音の出力傾向に基づく制御について説明する。例えば、情報処理端末10が家庭内に設置される場合、周囲には他の情報端末や家電機器、ユーザの家族などの種々の外部音源が存在することが想定される。一方、上記のような外部音源は、常に外部音を発しているとは限らない。また、上記のような外部音源による外部音の出力傾向は規則性を有する場合もある。このため、本実施形態に係る出力制御部230は、情報処理端末10の周囲に存在する外部音源による外部音の出力傾向に基づいて、情報通知の出力態様を制御してもよい。
 図9は、本実施形態に係る外部音の出力傾向に基づく出力態様の制御について説明するための図である。図9の上段には、18時における家庭内の状況が示されている。図9の上段に示す一例の場合、18時に近い時間帯では、ユーザU2は料理を行っており、ユーザU2の家族である外部音源SSはコンピュータの操作などを行っている様子が示されている。
 このように、例えば、時間帯などによっては、外部音源SSが外部音を発しない傾向が強い場合がある。このため、本実施形態に係る出力制御部230は、外部音源SSが外部音を発しない傾向が強い時間帯においては、予め設定された出力態様で情報処理端末10に情報通知INを出力させてよい。
 一方、図9の下段には、20時における家庭内の状況が示されている。図9の下段に示す一例の場合、20時に近い時間帯では、ユーザU2と外部音源SSは、共に食事を行っている様子が示されている。また、この際、外部音源SSは、ユーザU2との会話の一部である外部音ESを発している。
 このように、時間帯によっては、外部音源SSが外部音を発する傾向が強い場合がある。このため、本実施形態に係る出力制御部230は、外部音源SSが外部音ESを発する傾向が強い時間帯においては、外部音ESと類似しないように情報通知INの出力態様を変化させてよい。
 本実施形態に係る出力制御部230が有する上記の機能によれば、外部音ESが発生する可能性が高い状況でのみ情報通知の出力態様を制御することができ、出力態様の変化回数を抑えることでユーザの違和感を低減させると共に、処理コストを効果的に削減することが可能となる。
 なお、図9を用いた上記の説明においては、出力制御部230が外部音源であるユーザの発話傾向に基づいて情報通知の出力態様を制御する場合を例に述べたが、本実施形態に係る制御は係る例に限定されない。例えば、外部音源が家電機器である場合にも、報知音の出力には時間帯などに応じた傾向があることが想定される。この場合、本実施形態に係る出力制御部230は、時間帯に応じて報知音の出力態様を変化させることも可能である。
 (外部音源の制御)
 次に、本実施形態に係る外部音源の制御について説明する。上記の説明では、出力制御部230が、外部音と類似しないように情報処理端末10による情報通知の出力態様を制御する場合について述べた。一方、外部音源が音を出力する機能を有する音響出力装置である場合、本実施形態に係る出力制御部230は、外部音源による外部音の出力を制御することもできる。
 図10は、本実施形態に係る外部音源の制御について説明するための図である。図10の上段には、テレビジョン装置である外部音源SSと情報処理端末10とが示されている。また、図10の上段に示す一例では、外部音源SSが発する外部音ESと情報処理端末10が出力する情報通知との類似度が高い場合が示されている。
 この際、本実施形態に係る出力制御部230は、図10の下段に示すように、外部音源SSにより出力される外部音ESの出力態様を制御してもよい。図10の下段に示す一例の場合、出力制御部230は、情報通知INと類似しないように外部音ESの声質などを変化させている。出力制御部230は、例えば、任意の周波数フィルタなどを用いることで、上記の制御を行うことができる。また、出力制御部230は、外部音源SSによる本来の外部音ESの出力をミュートにし、音声合成部240が合成した人工音声を外部音源SSに出力させてもよい。
 本実施形態に係る出力制御部230が有する上記の機能によれば、例えば、情報処理端末10が重要な情報通知を行っている場合などに、当該情報通知の出力態様を維持することができ、ユーザの違和感をより効果的に低減することが可能となる。
 <<1.6.処理の流れ>>
 次に、本実施形態に係る情報処理サーバ20による処理の流れについて詳細に説明する。まず、本実施形態に係る情報処理サーバ20による外部音源データの蓄積について述べる。図11は、本実施形態に係る情報処理サーバ20による外部音源データの蓄積の流れを示すフローチャートである。
 図11を参照すると、まず、情報処理サーバ20の端末通信部260が情報処理端末10から収集情報を受信する(S1101)。ここで、上記の収集情報には、外部音源が発する外部音に係る音情報や、外部音源を含む画像情報が含まれる。
 次に、認識部210は、ステップS1101において受信された外部音源に係る画像情報に基づいて、外部音源の構造的特徴を解析する(S1102)。
 続いて、認識部210は、ステップS1101において受信された外部音に係る音情報に基づいて、外部音の音響的特徴を解析する(S1103)。
 続いて、認識部210は、ステップS1102において解析した外部音源の構造的特徴とステップS1103において解析した外部音の音響的特徴とを対応付けて外部音源DB254に記憶させる。
 次に、本実施形態に係る情報処理サーバ20による出力態様の制御の流れについて説明する。図12は、本実施形態に係る情報処理サーバ20による出力態様の制御の流れを示すフローチャートである。
 図12を参照すると、まず、情報処理サーバ20の端末通信部260が情報処理端末10から収集情報を受信する(S1201)。
 次に、認識部210は、ステップS1201において受信された収集情報に基づいて外部音源を認識する(S1202)。なお、ステップS1202において該当する外部音源のデータが外部音源DB254に存在しない場合、認識部210は、新たな外部音源として外部音源DB254にデータを追加してよい。
 次に、判定部220は、ステップS1202において認識された外部音源の外部音と情報通知に予め設定された出力態様との類似度が閾値以上か否かを判定する(S1203)。
 ここで、類似度が閾値未満である場合(S1203:No)、情報処理サーバ20は、出力態様の制御に係る処理を終了し、予め設定された出力態様で情報通知を出力させる。
 一方、類似度が閾値以上である場合(S1203:Yes)、続いて、判定部220は、ユーザが情報通知の発信源を特定できているか否かを判定する(S1204)。
 ここで、判定部220がユーザが情報通知の発信源を特定できていると判定した場合(S1204:Yes)、情報処理サーバ20は、出力態様の制御に係る処理を終了し、予め設定された出力態様で情報通知を出力させる。
 一方、判定部220がユーザが情報通知の発信源を特定できていないと判定した場合(S1204:No)、出力制御部230は、外部音と類似しないように情報通知の出力態様を制御する(S1205)。この際、出力制御部230は、種々の出力コンテキストに基づいて出力態様を変化させるタイミングを制御することができる。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図13は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図13を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (CPU871)
 CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理サーバ20は、認識された種々の外部音源に基づいて、当該外部音源が発し得る外部音とは類似しない出力態様で情報通知を出力させる機能を有する。係る構成によれば、音を伴う情報の発信源をユーザに明確に把握させることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 音を用いた情報通知の出力を制御する出力制御部、
 を備え、
 前記出力制御部は、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、
情報処理装置。
(2)
 前記情報通知の出力態様は、周波数、韻律、出力強度のうち少なくともいずれかを含む、
前記(1)に記載の情報処理装置。
(3)
 前記情報通知は、音声通知を含み、
 前記出力制御部は、前記外部音源が発し得る外部音とは類似しない出力態様で前記音声通知を出力させる、
前記(1)または(2)に記載の情報処理装置。
(4)
 前記出力制御部は、前記外部音源が発し得る外部音とは類似しない声質または口調で前記音声通知を出力させる、
前記(3)に記載の情報処理装置。
(5)
 前記外部音源は、人または音声出力装置を含む、
前記(3)または(4)に記載の情報処理装置。
(6)
 前記出力制御部は、前記音声通知に係る出力コンテキストに基づいて、前記音声通知の出力態様を変化させるタイミングを制御する、
前記(3)~(5)のいずれかに記載の情報処理装置。
(7)
 前記出力コンテキストは、前記音声通知のカテゴリを含み、
 前記出力制御部は、前記音声通知のカテゴリが切り替わった際に、前記音声通知の出力態様を変化させる、
前記(6)に記載の情報処理装置。
(8)
 前記出力制御部は、前記音声通知の出力態様と対応付けた複数の話者キャラクターを切り替えることで、前記音声通知の出力態様を変化させる、
前記(7)に記載の情報処理装置。
(9)
 前記出力コンテキストは、前記音声通知の長さを含み、
 前記出力制御部は、前記音声通知の長さに基づいて、前記音声通知の出力態様を段階的に変化させる、
前記(7)または(8)に記載の情報処理装置。
(10)
 前記出力コンテキストは、音声通知の出力態様に係る制御回数を含み、
 前記出力制御部は、前記制御回数に基づいて、前記音声通知の出力態様を制御する、
前記(7)~(9)のいずれかに記載の情報処理装置。
(11)
 前記出力制御部は、前記外部音源が発し得る外部音と前記情報通知に予め設定された出力態様との類似度に基づいて、前記情報通知の出力態様を制御する、
前記(1)~(10)のいずれかに記載の情報処理装置。
(12)
 前記出力制御部は、前記類似度が閾値以上である場合、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、
前記(11)に記載の情報処理装置。
(13)
 前記出力制御部は、発信源の特定に係るユーザの状態に基づいて、前記情報通知の出力態様を制御する、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
 前記外部音源は、音響出力装置であり、
 前記出力制御部は、前記音響出力装置による前記外部音の出力を制御する、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
 前記出力制御部は、前記外部音源による外部音の出力傾向に基づいて、前記情報通知の出力態様を制御する、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
 前記外部音源を認識する認識部、
 をさらに備える、
前記(1)~(15)のいずれかに記載の情報処理装置。
(17)
 前記類似度を判定する判定部、
 をさらに備える、
前記(11)または(12)に記載の情報処理装置。
(18)
 前記出力制御部による制御に基づいて前記情報通知を出力する音響出力部、
 をさらに備える、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 プロセッサが、音を用いた情報通知の出力を制御すること、
 を含み、
 前記制御することは、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させること、
 をさらに含む、
情報処理方法。
(20)
 コンピュータを、
 音を用いた情報通知の出力を制御する出力制御部、
 を備え、
 前記出力制御部は、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、
 情報処理装置、
として機能させるためのプログラム。
 10   情報処理端末
 110  表示部
 120  音声出力部
 130  音声入力部
 140  撮像部
 150  制御部
 160  サーバ通信部
 20   情報処理サーバ
 210  認識部
 220  判定部
 230  出力制御部
 240  音声合成部
 250  記憶部
 252  ユーザDB
 254  外部音源DB
 256  出力態様DB
 260  端末通信部

Claims (20)

  1.  音を用いた情報通知の出力を制御する出力制御部、
     を備え、
     前記出力制御部は、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、
    情報処理装置。
  2.  前記情報通知の出力態様は、周波数、韻律、出力強度のうち少なくともいずれかを含む、
    請求項1に記載の情報処理装置。
  3.  前記情報通知は、音声通知を含み、
     前記出力制御部は、前記外部音源が発し得る外部音とは類似しない出力態様で前記音声通知を出力させる、
    請求項1に記載の情報処理装置。
  4.  前記出力制御部は、前記外部音源が発し得る外部音とは類似しない声質または口調で前記音声通知を出力させる、
    請求項3に記載の情報処理装置。
  5.  前記外部音源は、人または音声出力装置を含む、
    請求項3に記載の情報処理装置。
  6.  前記出力制御部は、前記音声通知に係る出力コンテキストに基づいて、前記音声通知の出力態様を変化させるタイミングを制御する、
    請求項3に記載の情報処理装置。
  7.  前記出力コンテキストは、前記音声通知のカテゴリを含み、
     前記出力制御部は、前記音声通知のカテゴリが切り替わった際に、前記音声通知の出力態様を変化させる、
    請求項6に記載の情報処理装置。
  8.  前記出力制御部は、前記音声通知の出力態様と対応付けた複数の話者キャラクターを切り替えることで、前記音声通知の出力態様を変化させる、
    請求項7に記載の情報処理装置。
  9.  前記出力コンテキストは、前記音声通知の長さを含み、
     前記出力制御部は、前記音声通知の長さに基づいて、前記音声通知の出力態様を段階的に変化させる、
    請求項7に記載の情報処理装置。
  10.  前記出力コンテキストは、音声通知の出力態様に係る制御回数を含み、
     前記出力制御部は、前記制御回数に基づいて、前記音声通知の出力態様を制御する、
    請求項7に記載の情報処理装置。
  11.  前記出力制御部は、前記外部音源が発し得る外部音と前記情報通知に予め設定された出力態様との類似度に基づいて、前記情報通知の出力態様を制御する、
    請求項1に記載の情報処理装置。
  12.  前記出力制御部は、前記類似度が閾値以上である場合、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、
    請求項11に記載の情報処理装置。
  13.  前記出力制御部は、発信源の特定に係るユーザの状態に基づいて、前記情報通知の出力態様を制御する、
    請求項1に記載の情報処理装置。
  14.  前記外部音源は、音響出力装置であり、
     前記出力制御部は、前記音響出力装置による前記外部音の出力を制御する、
    請求項1に記載の情報処理装置。
  15.  前記出力制御部は、前記外部音源による外部音の出力傾向に基づいて、前記情報通知の出力態様を制御する、
    請求項1に記載の情報処理装置。
  16.  前記外部音源を認識する認識部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  17.  前記類似度を判定する判定部、
     をさらに備える、
    請求項11に記載の情報処理装置。
  18.  前記出力制御部による制御に基づいて前記情報通知を出力する音響出力部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  19.  プロセッサが、音を用いた情報通知の出力を制御すること、
     を含み、
     前記制御することは、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させること、
     をさらに含む、
    情報処理方法。
  20.  コンピュータを、
     音を用いた情報通知の出力を制御する出力制御部、
     を備え、
     前記出力制御部は、認識された外部音源に基づいて、前記外部音源が発し得る外部音とは類似しない出力態様で前記情報通知を出力させる、
     情報処理装置、
    として機能させるためのプログラム。
PCT/JP2018/016392 2017-07-19 2018-04-23 情報処理装置、情報処理方法、およびプログラム WO2019017033A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/629,967 US11170754B2 (en) 2017-07-19 2018-04-23 Information processor, information processing method, and program
EP18836218.0A EP3657495A1 (en) 2017-07-19 2018-04-23 Information processing device, information processing method, and program
CN201880045866.0A CN110892475A (zh) 2017-07-19 2018-04-23 信息处理装置、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017139856 2017-07-19
JP2017-139856 2017-07-19

Publications (1)

Publication Number Publication Date
WO2019017033A1 true WO2019017033A1 (ja) 2019-01-24

Family

ID=65015034

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/016392 WO2019017033A1 (ja) 2017-07-19 2018-04-23 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US11170754B2 (ja)
EP (1) EP3657495A1 (ja)
CN (1) CN110892475A (ja)
WO (1) WO2019017033A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020132195A (ja) * 2019-02-18 2020-08-31 ホシザキ株式会社 飲料供給装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268666A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 音声合成装置
JP2016090724A (ja) 2014-10-31 2016-05-23 シャープ株式会社 ロボット、音声出力制御方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3195279B2 (ja) * 1997-08-27 2001-08-06 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 音声出力システムおよびその方法
US6567503B2 (en) * 1997-09-08 2003-05-20 Ultratec, Inc. Real-time transcription correction system
US20030014253A1 (en) * 1999-11-24 2003-01-16 Conal P. Walsh Application of speed reading techiques in text-to-speech generation
US20030061049A1 (en) * 2001-08-30 2003-03-27 Clarity, Llc Synthesized speech intelligibility enhancement through environment awareness
US7305340B1 (en) * 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
US8326629B2 (en) * 2005-11-22 2012-12-04 Nuance Communications, Inc. Dynamically changing voice attributes during speech synthesis based upon parameter differentiation for dialog contexts
US20090043583A1 (en) * 2007-08-08 2009-02-12 International Business Machines Corporation Dynamic modification of voice selection based on user specific factors
US20170289766A1 (en) * 2016-03-29 2017-10-05 Microsoft Technology Licensing, Llc Digital Assistant Experience based on Presence Detection
US10586079B2 (en) * 2016-12-23 2020-03-10 Soundhound, Inc. Parametric adaptation of voice synthesis
WO2018211750A1 (ja) * 2017-05-16 2018-11-22 ソニー株式会社 情報処理装置および情報処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268666A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 音声合成装置
JP2016090724A (ja) 2014-10-31 2016-05-23 シャープ株式会社 ロボット、音声出力制御方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3657495A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020132195A (ja) * 2019-02-18 2020-08-31 ホシザキ株式会社 飲料供給装置

Also Published As

Publication number Publication date
EP3657495A4 (en) 2020-05-27
US20200160833A1 (en) 2020-05-21
CN110892475A (zh) 2020-03-17
US11170754B2 (en) 2021-11-09
EP3657495A1 (en) 2020-05-27

Similar Documents

Publication Publication Date Title
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6475386B2 (ja) 機器の制御方法、機器、及びプログラム
JP2017009867A (ja) 制御装置、その方法及びプログラム
JP2016012342A (ja) 行動制御システム及びプログラム
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
WO2020026850A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6973380B2 (ja) 情報処理装置、および情報処理方法
JP2021156907A (ja) 情報処理装置および情報処理方法
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2016189121A (ja) 情報処理装置、情報処理方法およびプログラム
JP7070546B2 (ja) 情報処理装置および情報処理方法
JPWO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019142420A1 (ja) 情報処理装置および情報処理方法
WO2020116001A1 (ja) 情報処理装置および情報処理方法
JP6927331B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220020368A1 (en) Output apparatus, output method and non-transitory computer-readable recording medium
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020017165A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020166173A1 (ja) 情報処理装置及び情報処理方法
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18836218

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018836218

Country of ref document: EP

Effective date: 20200219

NENP Non-entry into the national phase

Ref country code: JP