WO2023181404A1 - 印象形成制御装置、方法およびプログラム - Google Patents

印象形成制御装置、方法およびプログラム Download PDF

Info

Publication number
WO2023181404A1
WO2023181404A1 PCT/JP2022/014642 JP2022014642W WO2023181404A1 WO 2023181404 A1 WO2023181404 A1 WO 2023181404A1 JP 2022014642 W JP2022014642 W JP 2022014642W WO 2023181404 A1 WO2023181404 A1 WO 2023181404A1
Authority
WO
WIPO (PCT)
Prior art keywords
bias
control signal
processing unit
control
impression
Prior art date
Application number
PCT/JP2022/014642
Other languages
English (en)
French (fr)
Inventor
直紀 萩山
真奈 笹川
文香 佐野
俊一 瀬古
理香 望月
雄貴 蔵内
晴美 齋藤
隆二 山本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/014642 priority Critical patent/WO2023181404A1/ja
Publication of WO2023181404A1 publication Critical patent/WO2023181404A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • Non-Patent Document 1 if synthesized speech is used to control the impression formed by a listener toward the speaker as in Non-Patent Document 1, the speaker's intention may not be correctly conveyed to the listener because the voice features are altered. .
  • This invention has been made in view of the above-mentioned circumstances, and aims to provide a technology that allows the formation of impressions of a listener toward a speaker without changing the speaker's intentions.
  • one aspect of the impression formation control device or method according to the present invention is to acquire the speech audio signal of the speaker when controlling the impression formation of the receiver with respect to the speaker.
  • a voice feature quantity is extracted from the speech voice signal, and based on the extracted voice feature quantity, a bias with respect to the impression created by the speech voice signal on the receiver is determined, and the bias determination result and a preset value are determined.
  • generating a bias control signal for controlling the bias based on information indicating a control direction of the bias and generating a stimulation control signal for applying an external stimulus to the receiver according to the bias control signal. This is how it is output.
  • FIG. 1 is a diagram showing an example of the configuration of a system including an impression formation control device according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of an impression formation control device according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing an example of the software configuration of an impression formation control device according to an embodiment of the present invention.
  • FIG. 4 is a flowchart showing an example of the processing procedure and processing contents of the impression formation control process executed by the control unit of the impression formation control device shown in FIG.
  • FIG. 5 is a flowchart showing an example of the processing procedure and processing contents of the first embodiment of the bias determination processing among the processing steps shown in FIG. 4.
  • FIG. 4 is a flowchart showing an example of the processing procedure and processing contents of the first embodiment of the bias determination processing among the processing steps shown in FIG. 4.
  • FIG. 1 is a diagram showing an example of the configuration of a system including an impression formation control device SV according to an embodiment of the present invention.
  • a lecturer (hereinafter also referred to as a speaker) US1 at a lecture or seminar uses a lecture terminal TM1 equipped with a microphone MC, and a lecturer (hereinafter also referred to as a listener) US2
  • the uttered audio signal is transmitted to the terminal TM2 for the class to be used via the network NW and the impression formation control device SV.
  • the network NW consists of a wide area network including a public IP network such as the Internet.
  • the lecture terminal TM1 and the lecture terminal TM2 are both composed of, for example, a personal computer, and these terminals TM1 and TM2 are connected to the network NW via an access network such as a LAN (Local Area Network).
  • NW Local Area Network
  • the terminals TM1 and TM2 may be, for example, mobile terminals such as smartphones or tablet terminals, and a wireless LAN or a public mobile communication network may be used as the access network. Further, the microphone MC may be of an external type to the terminal TM1 or may be of a built-in type.
  • Impression formation control device SV 2 and 3 are block diagrams showing examples of the hardware and software configurations of the impression formation control device SV, respectively.
  • the impression formation control device SV is composed of a server computer placed on the cloud or the Web, for example, and includes a control section 1 using a hardware processor such as a central processing unit (CPU).
  • a storage unit having a program storage section 2 and a data storage section 3 and a communication interface (hereinafter referred to as I/F) section 4 are connected to the control section 1 via a bus 5. It has become.
  • the communication I/F unit 4 uses the communication protocol defined by the network NW to exchange audio data, etc. between the lecture terminal TM1 and the lecture terminal TM2. Send and receive.
  • the program storage unit 2 includes, as a storage medium, a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive) that can be written to and read at any time, and a non-volatile memory such as a ROM (Read Only Memory).
  • a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive) that can be written to and read at any time
  • a non-volatile memory such as a ROM (Read Only Memory).
  • middleware such as an OS (Operating System)
  • OS Operating System
  • the computer stores application programs necessary to execute various control processes according to an embodiment of the present invention.
  • the data storage unit 3 is, for example, a combination of a nonvolatile memory such as an HDD or an SSD that can be written to and read from at any time as a storage medium, and a volatile memory such as a RAM (Random Access Memory), and is a storage medium according to an embodiment.
  • the area includes an audio signal storage section 31 and a control direction setting information storage section 32.
  • the audio signal storage unit 31 temporarily stores the speaker's utterance audio signal transmitted from the lecture terminal TM1 for impression formation control processing.
  • the control unit 1 includes, as processing functions according to an embodiment of the present invention, a speech signal acquisition processing unit 11, a voice feature extraction processing unit 12, a bias determination processing unit 13, and a bias control signal generation processing unit 14. , and a presentation content determination processing section 15. These processing units 11 to 15 are all realized by causing the hardware processor of the control unit 1 to execute an application program stored in the program storage unit 2.
  • processing units 11 to 15 may be realized using hardware such as LSI (Large Scale Integration) or ASIC (Application Specific Integrated Circuit).
  • the utterance audio signal acquisition processing unit 11 receives the utterance audio signal of the speaker US1 transmitted from the lecture terminal TM1 via the communication I/F unit 4, and stores the received utterance audio signal in the audio signal storage unit 31. Temporarily save it to .
  • the bias determination processing section 13 inputs the audio feature amount of the uttered audio signal extracted by the audio feature amount extraction processing section 12, and determines, based on the audio feature amount of the uttered audio signal, if it occurs to the listener US2. Determine the estimated bias and output the bias determination result. An example of the determination process will be described in detail in the operation example.
  • the bias control signal generation processing unit 14 receives the bias determination result from the bias determination processing unit 13 as input, and reads control direction setting information from the control direction setting information storage unit 32 as input. Then, the bias control signal generation processing unit 14 generates and outputs a bias control signal for controlling the bias generated in the receiver US2, based on the bias determination result and the control direction setting information.
  • the presentation content determination processing unit 15 receives the bias control signal generated by the bias control signal generation processing unit 14 as input, and determines the content of the physical external stimulus to be given to the listener US2 based on the bias control signal. do.
  • the physical external stimulus for example, a tactile stimulus that changes temperature or hardness is used. Note that an example of the bias control signal generation process will also be described in detail in the operation example. Then, the presentation content determination processing unit 15 generates a stimulation control signal corresponding to the content of the external stimulation, and transmits the generated stimulation control signal from the communication I/F unit 4 to the terminal TM2 of the receiver US2.
  • tactile stimulation such as changes in temperature or hardness
  • physical external stimuli given to the receiver US2 include tactile stimulation such as wind pressure or vibration, visual stimulation such as changes in the presence or absence of light emission, strength or color of light emission, etc.
  • Olfactory stimulation such as the presence or absence of a scent or a change in scent may also be used.
  • These physical external stimuli can be given to the listener US2 by using, for example, an electric fan, a vibrator, a display, an aroma diffuser, etc. as the presentation device VB.
  • control unit 1 of the impression formation control device SV Prior to starting impression formation control, the control unit 1 of the impression formation control device SV performs a control direction setting process, for example, in response to input from a system administrator.
  • the control direction is used to set the control direction of the bias presented to the listener who is the student, and for example, three types are set: "positive", "negative", and "suppression".
  • the control unit 1 of the impression formation control device SV causes the control direction setting information storage unit 32 to store information representing the set control direction.
  • Examples of bias include trustworthiness, familiarity, likeability, and the like. For example, a positive bias means that trust deepens, intimacy means that intimacy deepens, likability means that likeability increases, and a negative bias means the opposite.
  • the acquisition timing of the uttered audio signal may be set arbitrarily, and the acquisition time length may be set to any length as long as the audio feature amount can be extracted.
  • the acquisition timing of the utterance audio signal may be a predetermined time determined based on the time when the speaker changes or the time it takes for the receiver to form an impression of the speaker, and the acquisition time length of the utterance audio signal may be It is preferable to set the time to be determined based on the time required by the listener to estimate the speaker's impression, for example, about 10 seconds.
  • the number of times the utterance audio signal is acquired may be one time, but it may be set to be acquired multiple times for each predetermined length during the lecture. If the utterance audio signal is periodically acquired multiple times, even if the audio features of the utterance audio signal of the speaker US1 change during the lecture and the impression given to the listener changes, the listener will be able to It becomes possible to recontrol the bias presented to US2.
  • the control unit 1 of the impression formation control device SV extracts the speech signal from the audio signal storage unit 31 under the control of the audio feature extraction processing unit 12 in step S3.
  • a spoken voice signal is read, and voice features are extracted from the read spoken voice signal.
  • the voice feature amount for example, at least one of fundamental frequency, speech rate, and intonation is extracted.
  • step S4 the control unit 1 of the impression formation control device SV uses the utterance audio signal of the speaker US1 based on the audio feature amount to determine whether the receiver is Determine the bias estimated to occur in US2.
  • FIG. 5 is a flowchart illustrating an example of the processing procedure and processing contents of the bias determination processing executed by the bias determination processing unit 13 when the audio feature amount is "fundamental frequency.”
  • the bias determination processing unit 13 receives the “fundamental frequency” extracted as the audio feature from the audio feature extraction processing unit 12, and determines whether the frequency occurs in the listener US2 based on the level of this fundamental frequency. Determine the estimated bias.
  • step S412 the bias determination processing unit 13 determines whether the fundamental frequency f B is, for example, 300 Hz or less, and in step S414, determines whether the fundamental frequency f B is, for example, 600 Hz or more. Determine.
  • the bias determination processing unit 13 determines in step S413 that the bias estimated to occur in the receiver US2 is "positive".
  • the bias determination processing unit 13 determines in step S415 that the bias estimated to occur in the listener US2 is "negative”. Note that if the fundamental frequency f B is higher than the above 300 Hz and less than the above 600 Hz, the bias determination processing unit 13 determines in step S416 that no bias occurs in the receiver US2, that is, there is no bias.
  • step S417 the bias determination processing unit 13 outputs the determination result obtained in step S413, S415, or S416 to the bias control signal generation processing unit 14.
  • FIG. 6 is a flowchart showing an example of the processing procedure and processing contents of the bias determination process executed by the bias determination processing unit 13 when the audio feature amount is "speech rate".
  • step S421 the bias determination processing unit 13 first receives the “speech rate” extracted as a voice feature quantity from the voice feature quantity extraction processing unit 12, and determines whether the speaker US2 Determine the bias that is estimated to occur. It is well known that there is a relationship between fast or slow speech rate and bias. For example, if the speaking speed is relatively fast, the evaluation of "diplomatic” tends to be high, whereas if the speaking speed is slow, the evaluation of "diplomatic” tends to be low. It is described in document 2.
  • the bias determination processing unit 13 determines whether the speech rate is, for example, 10.8 mora/sec or more, and in step S424, the bias determination processing unit 13 determines whether the speech rate is, for example, 6.96 mora/sec. Determine whether the following is true.
  • a mora is a unit that represents the number of the Japanese syllabary ⁇ kana'', ⁇ long sound'', ⁇ consonant'', and ⁇ choon''.
  • the bias determination processing unit 13 determines that the bias estimated to occur in the listener US2 is "positive.” On the other hand, if the standard deviation of the fundamental frequency is, for example, 20 Hz or less, the bias determination processing unit 13 determines that the bias estimated to occur in the receiver US2 is "negative". Note that if the standard deviation of the fundamental frequency is higher than the above 20 Hz and less than the above 40 Hz, the bias determination processing unit 13 determines that the receiver has "no bias".
  • step S6 the control unit 1 of the impression formation control device SV presents external stimuli to the listener US2 under the control of the presentation content determination processing unit 15.
  • the process of determining the content of and transmitting the stimulation control signal is executed as follows.
  • the presentation content determination processing unit 15 determines the presentation content of the external stimulus as follows.
  • the presentation content is set to "-10kPa", which is a hardness that people generally feel is soft.
  • the presentation content is set to "-30kPa,” which is a hardness that is lower than in the case of “positive” and that is perceived as hard by humans.
  • the bias control signal is "n-negative,” the presentation content is set to "-50kPa,” which is a hardness that is lower than the above-mentioned “n-positive” case and is a hardness that humans feel is hard.
  • the bias control signal is "negative”
  • the presentation content is set to "-70kPa", which is a hardness lower than the above-mentioned "n-negative” and a hardness that humans feel is hard.
  • the student terminal TM2 Upon receiving the stimulation control signal, the student terminal TM2 drives the presentation device VB in accordance with the received stimulation control signal to generate the hardness specified by the stimulation control signal. Therefore, if the listener US2 holds the balloon as the presentation device VB at this time, it is possible to give the listener US2 an external stimulus based on the above "hardness", and thereby the speaker US1, who is the lecturer, can receive an external stimulus. The effect of being able to control the impression of the user US2 can be expected.
  • the bias can be applied to the listener PS2 by external stimulation using temperature or hardness. By giving this information, it becomes possible to cancel or alleviate the negative impression that has arisen on the receiver PS2. Further, since the audio feature amount of the uttered audio signal emitted from the speaker PS1 is not modified, it is possible to accurately convey the intention of the speaker PS1 to the receiver PS2.
  • the present invention is not limited to this, and for example, the terminal TM1 for lectures or the terminal TM2 for lectures may be provided with the processing function of the impression formation control device SV. Furthermore, the processing functions of the impression formation control device SV may be distributed among the lecture terminal TM1, the lecture terminal TM2, and a server computer located on the cloud or the Web.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

この発明の一態様は、発話者に対する受話者の印象形成を制御する際に、前記発話者の発話音声信号を取得してこの発話音声信号から音声特徴量を抽出し、抽出された前記音声特徴量に基づいて、前記発話音声信号により前記受話者に生じる印象に対するバイアスを判定し、前記バイアスの判定結果と予め設定された前記バイアスの制御方向を表す情報とに基づいて、前記バイアスを制御するためのバイアス制御信号を生成し、前記バイアス制御信号に従い、前記受話者に対し外部刺激を与えるための刺激制御信号を生成し出力するようにしたものである。

Description

印象形成制御装置、方法およびプログラム
 この発明の一態様は、例えば発話者に対する受話者の印象形成を制御する印象形成制御装置、方法およびプログラムに関する。
 発話者の声は、当該発話者に対する信頼度や好感度といった受話者の印象形成に影響することが知られている。例えば非特許文献1では、発話者である政治家の印象形成に政治家の声の高さが関係することが報告されている。具体的には、政治家の音声の基本周波数が低いほど、政治家に対する好感度・信頼度を受話者がより高く評価(評価に正のバイアスが発生)し、政治家の音声の基本周波数が高いほど、政治家に対する好感度・信頼度を受話者がより低く評価(評価に負のバイアスが発生)することが報告されている。そして、非特許文献1には、音声合成技術を用いた声の操作によって、政治家に対する受話者の印象形成を制御可能であることが記載されている。
 ところが、非特許文献1のように合成音声を用いて発話者に対する受話者の印象形成を制御すると、音声特徴量が改変されるため、発話者の意図が受話者に正しく伝わらなくなる可能性がある。
 この発明は上記事情に着目してなされたもので、発話者の意図を改変することなく発話者に対する受話者の印象形成を制御できるようにする技術を提供しようとするものである。
 上記課題を解決するためにこの発明に係る印象形成制御装置又は方法の一態様は、発話者に対する受話者の印象形成を制御する際に、前記発話者の発話音声信号を取得し、取得された前記発話音声信号から音声特徴量を抽出し、抽出された前記音声特徴量に基づいて、前記発話音声信号により前記受話者に生じる印象に対するバイアスを判定し、前記バイアスの判定結果と、予め設定された前記バイアスの制御方向を表す情報とに基づいて、前記バイアスを制御するためのバイアス制御信号を生成し、前記バイアス制御信号に従い、前記受話者に対し外部刺激を与えるための刺激制御信号を生成し出力するようにしたものである。
 この発明の一態様によれば、発話者の意図を改変することなく発話者に対する受話者の印象形成を制御できるようにした技術を提供することができる。
図1は、この発明の一実施形態に係る印象形成制御装置を備えるシステムの構成の一例を示す図である。 図2は、この発明の一実施形態に係る印象形成制御装置のハードウェア構成の一例を示すブロック図である。 図3は、この発明の一実施形態に係る印象形成制御装置のソフトウェア構成の一例を示すブロック図である。 図4は、図3に示した印象形成制御装置の制御部が実行する印象形成制御処理の処理手順と処理内容の一例を示すフローチャートである。 図5は、図4に示した処理手順のうちバイアス判定処理の第1の実施例の処理手順と処理内容の一例を示すフローチャートである。 図6は、図4に示した処理手順のうちバイアス判定処理の第2の実施例の処理手順と処理内容の一例を示すフローチャートである。 図7は、図4に示した処理手順のうちバイアス制御信号生成処理の処理手順と処理内容の一例を示すフローチャートである。
 以下、図面を参照してこの発明に係わる実施形態を説明する。
 [一実施形態]
 (構成例)
 この発明の一実施形態では、講演会やセミナー等をネットワークを介して行う場合を例にとって説明を行う。
 (1)システム
 図1は、この発明の一実施形態に係る印象形成制御装置SVを備えるシステムの構成の一例を示す図である。
 一実施形態のシステムは、例えば、講演会またはセミナーにおける講師(以後発話者とも云う)US1が、マイクロフォンMCを備える講演用の端末TM1を使用して、受講者(以後受話者とも云う)US2が使用する受講用の端末TM2に向け、ネットワークNWおよび印象形成制御装置SVを介して発話音声信号を送信する。ネットワークNWは、インターネット等の公衆IPネットワークを備える広域ネットワークからなる。
 講演用の端末TM1および受講用の端末TM2は、いずれも例えばパーソナルコンピュータからなり、これらの端末TM1,TM2は例えばLAN(Local Area Network)等のアクセスネットワークを介してネットワークNWに接続される。
 なお、端末TM1,TM2は、例えばスマートフォンやタブレット型端末等の携帯端末であってもよく、またアクセスネットワークとしては無線LANや公衆移動通信ネットワークが用いられてもよい。また、マイクロフォンMCは、端末TM1に対し外付けのタイプでもよいし、内蔵タイプでもよい。
 (2)装置
 (2-1)印象形成制御装置SV
 図2および図3は、それぞれ印象形成制御装置SVのハードウェアおよびソフトウェアの構成の一例を示すブロック図である。
 印象形成制御装置SVは、例えばクラウド上またはWeb上に配置されるサーバコンピュータからなり、中央処理ユニット(Central Processing Unit:CPU)等のハードウェアプロセッサを使用した制御部1を備える。そして、この制御部1に対し、バス5を介して、プログラム記憶部2およびデータ記憶部3を有する記憶ユニットと、通信インタフェース(以後インタフェースをI/Fと略称する)部4を接続したものとなっている。
 通信I/F部4は、制御部1の制御の下、ネットワークNWにより定義される通信プロトコルを使用して、講演用の端末TM1および受講用の端末TM2との間で、それぞれ音声データ等の送受信を行う。
 プログラム記憶部2は、例えば、記憶媒体としてHDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとを組み合わせて構成したもので、OS(Operating System)等のミドルウェアに加えて、この発明の一実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムを格納する。
 データ記憶部3は、例えば、記憶媒体としてHDDまたはSSD等の随時書込みおよび読出しが可能な不揮発性メモリとRAM(Random Access Memory)等の揮発性メモリと組み合わせたもので、一実施形態に係る記憶領域として、音声信号記憶部31と、制御方向設定情報記憶部32とを備えている。
 音声信号記憶部31は、講演用の端末TM1から送信される発話者の発話音声信号を、印象形成制御処理のために一時保存する。
 制御方向設定情報記憶部32は、印象形成を制御する際のバイアス制御方向を設定する情報を記憶する。バイアスとは、講演を行っている発話者US1に対して受講側の受話者US2が感じる印象の物理量を表すもので、上記制御方向の設定情報は上記バイアスの制御方向を定義する情報である。
 制御部1は、この発明の一実施形態に係る処理機能として、発話音声信号取得処理部11と、音声特徴量抽出処理部12と、バイアス判定処理部13と、バイアス制御信号生成処理部14と、提示内容決定処理部15とを備えている。これらの処理部11~15は、何れもプログラム記憶部2に格納されたアプリケーション・プログラムを制御部1のハードウェアプロセッサに実行させることにより実現される。
 なお、上記処理部11~15の一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
 発話音声信号取得処理部11は、講演用の端末TM1から送信された発話者US1の発話音声信号を通信I/F部4を介して受信し、受信した上記発話音声信号を音声信号記憶部31に一時保存する。
 音声特徴量抽出処理部12は、上記音声信号記憶部31から上記発話音声信号を読み込んで入力とし、読み込んだ上記発話音声信号から音声特徴量を抽出し、出力する。音声特徴量としては、例えば基本周波数、発話速度および抑揚のうち少なくとも1つが抽出される。
 バイアス判定処理部13は、上記音声特徴量抽出処理部12により抽出された上記発話音声信号の音声特徴量を入力とし、上記発話音声信号の音声特徴量をもとに、受話者US2に生じると推定されるバイアスを判定し、バイアスの判定結果を出力する。判定処理の一例は動作例において詳しく説明する。
 バイアス制御信号生成処理部14は、上記バイアス判定処理部13から上記バイアスの判定結果を入力とすると共に、制御方向設定情報記憶部32から制御方向の設定情報を読み込んで入力とする。そして、バイアス制御信号生成処理部14は、上記バイアスの判定結果および上記制御方向の設定情報に基づいて、受話者US2に生じるバイアスを制御するためのバイアス制御信号を生成し、出力する。
 提示内容決定処理部15は、上記バイアス制御信号生成処理部14により生成された上記バイアス制御信号を入力とし、上記バイアス制御信号に基づいて、受話者US2に与える物理的な外部刺激の内容を決定する。物理的な外部刺激としては、例えば温度または硬度が変化する触覚刺激が用いられる。なお、バイアス制御信号の生成処理の一例についても動作例において詳しく説明する。
 そして、提示内容決定処理部15は、上記外部刺激の内容に対応する刺激制御信号を生成し、生成した上記刺激制御信号を通信I/F部4から受話者US2の端末TM2へ送信する。
 (2-2)受講側の端末TM2
 受講側の端末TM2には、受話者US2に対し物理的な外部刺激を与えるための提示デバイスVBが接続されている。提示デバイスVBとしては、例えば、ペルチェ素子を内蔵して温度の提示を可能にしたマウスや、伸縮により硬度の提示を可能にした弾性体等が用いられる。受講用の端末TM2は、受信した上記刺激制御信号を入力とし、上記刺激制御信号に応じて上記提示デバイスVBを駆動し、これにより例えば上記温度または硬度を変化させる。上記温度または硬度を変化させることによって、受話者US2に生じるバイアスを変化させる効果が期待できる。
 なお、受話者US2に与える物理的な外部刺激としては、上記温度または硬度の変化といった触覚刺激以外に、例えば風圧や振動が加わる触覚刺激、発光の有無や強弱または発光色の変化といった視覚刺激、香りの有無や変化といった嗅覚刺激等が用いられてもよい。これらの物理的な外部刺激は、提示デバイスVBとして、例えば扇風機、バイブレータ、ディスプレイ、アロマディフューザ等を用いることで、受話者US2に与えることができる。
 (動作例)
 次に、以上のように構成された印象形成制御装置SVの動作例を説明する。 
 図4は、印象形成制御装置SVの制御部1が実行する印象形成制御処理の処理手順と処理内容の一例を示すフローチャートである。
 (1)制御方向の設定
 印象形成制御の開始に先立ち、印象形成制御装置SVの制御部1は、例えばシステム管理者の入力に応じて制御方向の設定処理を行う。制御方向とは、受講者である受話者に提示するバイアスの制御方向を設定するもので、例えば、“正”、“負”、“抑制”の3種類が設定される。印象形成制御装置SVの制御部1は、設定した上記制御方向を表す情報を制御方向設定情報記憶部32に記憶させる。
 バイアスの例としては、信頼度、親密度、好感度等が挙げられる。バイアスが正の方向とは、例えば信頼度であれば信頼が深まる方向、親密度であれば親密さが深まる方向、好感度であれば好感度が高まる方向を表し、バイアスが負の方向は逆の方向を表す。バイアスを抑制する方向とは、バイアス自体が変化しないようにすることを表す。なお、以下でもバイアスとしては、信頼度、親密度、好感度、などの例で説明していくが、これらはあくまでもバイアスの一例である。バイアスとしては、物理的な外部刺激により影響を受けるものであれば何でもよく、信頼度、親密度、好感度に限るものではない。
 なお、制御方向は、講師である発話者により設定されるようにしてもよいし、受講者である受話者により設定されるようにしてもよい。
 (2)発話音声信号の取得
 講演会またはセミナーに参加する場合に、受講者である受話者US2は、例えば主催者から事前に通知されたサイトのURL(Uniform Resource Locator)に対しアクセスする。そうすると、例えば講演用の端末TM1と受講用の端末TM2との間に、印象形成制御装置SVを経由する回線が設定される。
 この状態で、印象形成制御装置SVの制御部1は、ステップS1において、講演用の端末TM1から送信される発話音声信号をもとに、講師である発話者US1の発話開始を判定する。そして、発話が開始されると印象形成制御装置SVの制御部1は、発話音声信号取得処理部11の制御の下、ステップS2において、以後講演用の端末TM1から送信される発話者US1の発話音声信号を通信I/F部4を介して受信し、受信した上記発話音声信号を音声信号記憶部31に一時保存させる。
 なお、発話音声信号の取得タイミングは任意に設定すればよく、また取得時間長についても、音声特徴量を抽出可能な長さであればどのような長さに設定してもよい。例えば、発話音声信号の取得タイミングは、発話者の切り替わり時や受話者が発話者の印象を形成するのにかかる時間に基づいて定まる所定時間としてもよいし、発話音声信号の取得時間長は、話者の印象推定に受話者が必要な時間に基づいて定める時間、例えば10秒程度に設定するとよい。
 また、発話音声信号の取得回数は1回でもよいが、講演中に所定長分ずつ複数回取得されるように設定してもよい。発話音声信号を定期的に複数回取得すると、講演中に発話者US1の発話音声信号の音声特徴量が変化して受話者に生じる印象が変化した場合でも、この印象の変化に応じて受話者US2に提示するバイアスを制御し直すことが可能となる。
 (3)音声特徴量の抽出
 発話音声信号が取得されると印象形成制御装置SVの制御部1は、ステップS3において、音声特徴量抽出処理部12の制御の下、音声信号記憶部31から上記発話音声信号を読み込み、読み込んだ上記発話音声信号から音声特徴量を抽出する。音声特徴量としては、例えば基本周波数、発話速度および抑揚のうち少なくとも1つが抽出される。
 なお、音声特徴量の抽出手法には、例えば以下の参考文献1に記載された周知の手法を用いることができるが、参考文献1に記載された手法に限定されるものではない。 
 [参考文献1] F. Eyben, M. Wo¨llmer, and B. Schuller, “OpenSMILE-The Munich versatile and fast open-source audio feature extractor,” MM’10-Proc. ACM Multimed. 2010 Int. Conf., pp. 1459-1462, 2010. 
 (4)バイアス判定
 印象形成制御装置SVの制御部1は、次にステップS4において、バイアス判定処理部13の制御の下、上記音声特徴量をもとに発話者US1の発話音声信号により受話者US2に生じると推定されるバイアスを判定する。
 バイアスの判定手法には、音声特徴量の種類に応じて以下のような手法が使用される。 
 (4-1)基本周波数の場合
 図5は、音声特徴量が「基本周波数」の場合に、バイアス判定処理部13が実行するバイアス判定処理の処理手順と処理内容の一例を示すフローチャートである。
 バイアス判定処理部13は、先ずステップS411により、上記音声特徴量抽出処理部12から音声特徴量として抽出された「基本周波数」を受け取り、この基本周波数の高低に基づいて、受話者US2に生じると推定されるバイアスを判定する。
 ここで、基本周波数の高低とバイアスとの関係は、非特許文献1に例示されるように、低い声は「信頼度」、「親密度」、「好感度」の評価が高く、逆に高い声は評価が低くなる傾向があることが知られている。
 そこで、バイアス判定処理部13は、ステップS412において、上記基本周波数fが例えば300Hz以下であるか否かを判定すると共に、ステップS414において、上記基本周波数fが例えば600Hz以上であるか否かを判定する。
 上記判定の結果、基本周波数fが300Hz以下であれば、バイアス判定処理部13はステップS413において、受話者US2に生じると推定されるバイアスは“正”と判定する。一方、基本周波数fが600Hz以上であれば、バイアス判定処理部13はステップS415において、受話者US2に生じると推定されるバイアスは“負”と判定する。なお、基本周波数fが上記300Hzより高く上記600Hz未満であれば、バイアス判定処理部13はステップS416により、受話者US2にバイアスは生じない、つまりバイアス“無”と判定する。
 なお、発話者US1と受話者US2との関係により「信頼度」、「親密度」、「好感度」の評価は異なる。このため、基本周波数fの高低を判定するしきい値は、上記300Hz、600Hzに限らず任意に設定できるようにすることが望ましい。
 バイアス判定処理部13は、最後にステップS417において、上記ステップS413、S415またはS416により得られた判定結果を、バイアス制御信号生成処理部14へ出力する。
 (4-2)発話速度の場合
 図6は、音声特徴量が「発話速度」の場合に、バイアス判定処理部13が実行するバイアス判定処理の処理手順と処理内容の一例を示すフローチャートである。
 バイアス判定処理部13は、先ずステップS421により、上記音声特徴量抽出処理部12から音声特徴量として抽出された「発話速度」を受け取り、この発話速度が速いか遅いかに基づいて、受話者US2に生じると推定されるバイアスを判定する。
 発話速度が速いか遅いかとバイアスとの間に関係があることは周知である。例えば、発話速度が比較的速いと「外交的」な評価が高くなる傾向があり、逆に発話速度が遅い場合は「外交的」な評価が低くなる傾向があるなどの知見は、以下の参考文献2に記載されている。
 [参考文献2] 内田照久, “音声の発話速度が話者の性格印象に与える影響”,心理学研究,vol.73,no.2,pp.131-139,2002.
 ここで、例えばバイアスを「信頼度」、「親密度」、「好感度」とすると、発話速度が比較的速い場合は「信頼度」、「親密度」、「好感度」の評価が高く、逆に発話速度が遅い場合は「信頼度」、「親密度」、「好感度」の評価が低くなる。
 そこで、バイアス判定処理部13は、ステップS422において、上記発話速度が例えば10.8モーラ/sec以上であるか否かを判定すると共に、ステップS424において、上記発話速度が例えば6.96モーラ/sec以下であるか否かを判定する。なお、モーラとは、五十音の「かな」と「長音」、「促音」、「撥音」の数を表す単位である。
 上記判定の結果、発話速度が10.8モーラ/sec以上であれば、バイアス判定処理部13はステップS423において、受話者US2に生じると推定されるバイアスは“正”と判定する。一方、発話速度が6.96モーラ/sec以下であれば、バイアス判定処理部13はステップS425において、受話者US2に生じると推定されるバイアスは“負”と判定する。なお、発話速度が上記6.96モーラ/secより高く上記10.8モーラ/sec未満であれば、バイアス判定処理部13はステップS426により、バイアス“無”と判定する。
 なお、この場合も、発話者US1と受話者US2との関係により「信頼度」、「親密度」、「好感度」は異なる。このため、発話速度を判定するしきい値は、上記10.8モーラ/sec、6.96モーラ/secに限らず任意に設定できるようにすることが望ましい。
 バイアス判定処理部13は、最後にステップS427において、上記ステップS423、S425またはS426により得られた判定結果を、バイアス制御信号生成処理部14へ出力する。
 (4-3)抑揚の場合
 一般に、発話の抑揚の大小とバイアスとの間に関係があることは周知である。例えば、抑揚が大きいと「外交的」な評価が高くなる傾向があり、逆に抑揚が小さいと「外交的」な評価が低くなる傾向があるなどの知見は、以下の参考文献3に記載されている。
 [参考文献3] 内田照久, “音声中の抑揚の大きさと変化パターンが話者の性格印象に与える影響”,心理学研究, vol.76,no.4,pp.382-390,2005.
 上記バイアスを「信頼度」、「親密度」、「好感度」とすると、抑揚が大きいと「信頼度」、「親密度」、「好感度」の評価が高く、逆に抑揚が小さいと「信頼度」、「親密度」、「好感度」の評価が低くなる。
 そこで、バイアス判定処理部13は、図5に示した基本周波数の判定処理手順と同様に、「抑揚」を表す基本周波数の標準偏差が例えば40Hz以上であるか否かを判定すると共に、上記基本周波数の標準偏差が例えば20Hz以下であるか否かを判定する。そして、この判定の結果、基本周波数の標準偏差が例えば40Hz以上であれば、バイアス判定処理部13は、受話者US2に生じると推定されるバイアスは“正”と判定する。一方、基本周波数の標準偏差が例えば20Hz以下であれば、バイアス判定処理部13は、受話者US2に生じると推定されるバイアスは“負”と判定する。なお、基本周波数の標準偏差が上記20Hzより高く上記40Hz未満であれば、バイアス判定処理部13は、受話者にバイアスは“無”と判定する。
 なお、この場合も、発話者US1と受話者US2との関係により「信頼度」、「親密度」、「好感度」の評価が異なるため、基本周波数の標準偏差を判定するしきい値は、上記40Hz、20Hzに限らず任意に設定するとよい。
 バイアス判定処理部13は、最後に上記判定結果をバイアス制御信号生成処理部14へ出力する。
 (5)バイアス制御信号の生成
 印象形成制御装置SVの制御部1は、次にステップS5において、バイアス制御信号生成処理部14の制御の下、受話者US2に対し物理的な外部刺激を提示するためのバイアス制御信号を生成する処理を、以下のように実行する。
 図7は、バイアス制御信号生成処理部14が実行するバイアス制御信号生成処理の処理手順と処理内容の一例を示すフローチャートである。
 バイアス制御信号生成処理部14は、先ずステップS51により制御方向設定情報記憶部32から制御方向の設定情報を読み込むと共に、ステップS52により上記バイアス判定処理部13からバイアスの判定結果を受け取る。
 バイアス制御信号生成処理部14は、次にステップS53において読み込まれた上記制御方向の設定情報が“正”、“負”、“抑制”のいずれであるかを判定する。この判定の結果、“正”であればステップS54において、受話者US2に“正”のバイアスを生じさせるためのバイアス制御信号「positive」を生成する。
 上記バイアス制御信号「positive」は、上記音声特徴量から判定されたバイアスの判定結果が“正”の場合に、この“正”のバイアスをさらに高めるための外部刺激を発生させる機能を有する。これにより受話者US2に生じる“正”のバイアスを増幅させる効果が期待できる。また、上記バイアス制御信号「positive」は、上記音声特徴量から判定されたバイアスの判定結果が“負”の場合に、この“負”のバイアスを打ち消すための外部刺激を発生させる機能を有する。これにより受話者US2に“正”のバイアスを生じさせる効果が期待できる。さらに、上記バイアス制御信号「positive」は、上記音声特徴量から判定されたバイアスの判定結果が“無”の場合に、受話者US2に“正”のバイアスを生じさせるための外部刺激を発生させる機能を有する。
 一方、上記ステップS53による制御方向の判定の結果、制御方向が“負”だったとする。この場合、バイアス制御信号生成処理部14は、ステップS55において、受話者US2に“負”のバイアスを生じせるためのバイアス制御信号「negative」を生成する。
 上記バイアス制御信号「negative」は、上記音声特徴量から判定されたバイアスの判定結果が“正”の場合に、この“正”のバイアスを打ち消すための外部刺激を発生させる機能を有する。これにより受話者US2に“負”のバイアスを生じさせる効果が期待できる。また、上記バイアス制御信号「negative」は、上記音声特徴量から判定されたバイアスの判定結果が“負”の場合に、この“負”のバイアスをさらに高めるための外部刺激を発生させる機能を有する。これにより受話者US2の“負”のバイアスを増幅させる効果が期待できる。さらに、上記バイアス制御信号「negative」は、上記音声特徴量から判定されたバイアスの判定結果が“無”の場合に、受話者US2に“負”のバイアスを生じさせるための外部刺激を発生させる機能を有する。
 最後に、上記ステップS53による制御方向の判定の結果、制御方向が“抑制”だったとする。この場合、バイアス制御信号生成処理部14は、ステップS56において、上記音声特徴量から判定されたバイアスの判定結果が“正”、“負”、“無”のいずれであるかを判定する。
 この判定の結果、上記音声特徴量から判定されたバイアスが“正”だったとする。この場合、バイアス制御信号生成処理部14は、ステップS57において、受話者US2に“正”のバイアスを打ち消すためのバイアス制御信号「n-negative」を生成する。このバイアス制御信号「n-negative」は、受話者US2のバイアスを“無”の方向に変化させるための外部刺激を発生させるための信号である。
 一方、上記ステップS56による判定の結果、音声特徴量から判定されたバイアスが“負”だったとする。この場合、バイアス制御信号生成処理部14は、ステップS58において、上記音声特徴量から判定された“負”のバイアスを“正”方向に変化させるためのバイアス制御信号「n-positive」を生成する。このバイアス制御信号「n-positive」は、受話者US2に対し“正”方向のバイアスを与えるように外部刺激を発生させるための信号である。受話者US2に対し“正”方向のバイアスを与えるように外部刺激を発生させることで受話者US2のバイアスを“無”の方向に変化させる効果が期待できる。
 また、上記ステップS56による判定の結果、音声特徴量から判定されたバイアスが“無”だったとする。この場合、バイアス制御信号生成処理部14は、バイアス制御信号を生成せずにそのままバイアス制御信号の生成処理を終了する。
 (6)提示内容の決定と刺激制御信号の送信
 印象形成制御装置SVの制御部1は、最後にステップS6において、提示内容決定処理部15の制御の下、受話者US2に対し提示する外部刺激の内容を決定して、刺激制御信号を送信する処理を、以下のように実行する。
 すなわち、提示内容決定処理部15は、上記バイアス制御信号生成処理部14から上記バイアス制御信号を受け取り、受け取った上記バイアス制御信号に基づいて、受話者US2に与える外部刺激の内容を決定する。そして、決定された上記外部刺激の内容に応じて、提示デバイスVBを動作させるための刺激制御信号を生成する。
 (6-1)外部刺激に「温度」を使用する場合
 一般に、人は、手に温かい物を持ったときや室内が温かいときのほうが、冷たい物を持ったときや室内が寒いときに比べて、知人や実験者との間柄を「近しい」と感じる傾向がある。この知見は、例えば参考文献4で報告されている。
 [参考文献4] H. Ijzerman and G. R. Semin, “The thermometer of social relations: Mapping social proximity on temperature: Research article,” Psychol. Sci., vol. 20, no. 10, pp. 1214-1220, 2009.
 そこで、例えば提示デバイスVBとして、温度提示が可能なペルチェ素子を内蔵したマウスを使用する。この場合提示内容決定処理部15は、外部刺激の提示内容を以下のように決定する。
 (1) バイアス制御信号が「positive」の場合には、提示内容を、一般的に人が温かいと感じる温度である「40度」に設定する。
 (2) バイアス制御信号が「n-positive」の場合には、提示内容を、上記「positive」の場合よりも低い温度でかつ人が温かいと感じる温度である「35度」に設定する。
 (3) バイアス制御信号が「n-negative」の場合には、提示内容を、上記「n-positive」の場合よりも低い温度でかつ人が冷たいと感じる温度である「30度」に設定する。
 (4) バイアス制御信号が「negative」の場合には、提示内容を、上記「n-negative」よりも低い温度でかつ人が冷たいと感じる温度である「25度」に設定する。
 なお、温度の提示内容は上記例に限ることはなく、受話者US2の温感の個人差等に応じて任意に設定できるようにするとよい。
 提示内容決定処理部15は、決定された上記提示内容の温度を提示デバイスVBに発生させるための刺激制御信号を生成する。そして、提示内容決定処理部15は、生成した上記刺激制御信号を通信I/F部4から、受話者が使用している受講用の端末TM2に向け送信する。
 受講用の端末TM2は、上記刺激制御信号を受信すると、受信した上記刺激制御信号に従い提示デバイスVBを駆動し、上記刺激制御信号により指定された温度を発生させる。従って、このとき受話者US2が上記提示デバイスVBとしてのマウスを把持していれば、受話者US2に対し上記「温度」による外部刺激を与えることができ、これにより講師である発話者US1に対する受話者US2の印象を制御することができるという効果が期待できる。
 (6-2)外部刺激に「硬度」を使用する場合
 一般に、人は固い物を触った場合、柔らかい物を触った場合と比べ、相手人物を厳しく非感情的と評価する傾向がある。この知見は、例えば以下の参考文献5で報告されている。
 [参考文献5] J. M. Ackerman, C. C. Nocera, and J. A. Bargh, “Incidental Haptic Sensations Influence Social Judgments and Decisions,” Science (80-. )., vol. 328, no. 5986, pp. 1712-1715, Jun. 2010.
 そこで、例えば圧力を加えることで硬度が変化する風船を提示デバイスVBとして使用する。この風船を用いて硬度を提示するデバイスについては、例えば以下の参考文献6に示されている。なお、風船の代わりに、例えば伸縮により硬度の提示を可能にした弾性体を使用することも可能である。
 [参考文献6] 笹川真奈, et al. “ジャミング転移による硬さおよび形状の提示が可能な食感提示システムの提案”,情報処理学会論文誌,vol.60,no.2,pp.376-384,2019.
 提示デバイスVBとして上記風船を使用する場合、提示内容決定処理部15は外部刺激の提示内容を以下のように決定する。
 (1) バイアス制御信号が「positive」の場合には、提示内容を、一般的に人が柔らかいと感じる硬度である「-10kPa」に設定する。
 (2) バイアス制御信号が「n-positive」の場合には、提示内容を、上記「positive」の場合よりも低い硬度でかつ人が硬いと感じる硬度である「-30kPa」に設定する。
 (3) バイアス制御信号が「n-negative」の場合には、提示内容を、上記「n-positive」の場合よりも低い硬度でかつ人が硬いと感じる硬度である「-50kPa」に設定する。
 (4) バイアス制御信号が「negative」の場合には、提示内容を、上記「n-negative」よりも低い硬度でかつ人が硬いと感じる硬度である「-70kPa」に設定する。
 なお、硬度の提示内容は上記例に限ることはなく、例えば受話者US2の硬さに対する感じ方の個人差に応じて任意に設定できるようにするとよい。
 提示内容決定処理部15は、決定した上記提示内容の硬度を提示デバイスVBに発生させるための刺激制御信号を生成する。そして、提示内容決定処理部15は、生成した上記刺激制御信号を通信I/F部4から、受話者が使用している受講用の端末TM2に向け送信する。
 受講用の端末TM2は、上記刺激制御信号を受信すると、受信した上記刺激制御信号に従い提示デバイスVBを駆動して、上記刺激制御信号により指定された硬度を発生させる。従って、このとき受話者US2が上記提示デバイスVBとしての風船を把持していれば、受話者US2に対し上記「硬度」による外部刺激を与えることができ、これにより講師である発話者US1に対する受話者US2の印象を制御することができるという効果が期待できる。
 (作用・効果)
 以上述べたように一実施形態では、印象形成制御装置SVにおいて、先ず講師である発話者US1の発話音声信号を取得してその音声特徴量を抽出し、抽出した上記音声特徴量をもとに受講者である受話者US2に生じると推定されるバイアスを判定する。次に、このバイアスの判定結果と、事前に設定されたバイアスの制御方向を表す情報とに基づいて、受話者US2に対し物理的な外部刺激を提示するためのバイアス制御信号を生成し、生成した上記バイアス制御信号に基づいて受話者US2に与える外部刺激の内容を決定して、この外部刺激の内容に対応する刺激制御信号を受話者US2の端末TM2へ送信する。そして、上記刺激制御信号により提示デバイスVBを駆動して上記受話者US2に対し物理的な外部刺激をバイアスとして与え、これにより発話者US1に対する受話者US2の印象を変化させるようにしている。
 従って、例えば受講者である受話者PS2が、講師である発話者PS1に対しその発話音声信号によりネガティブな印象を生じたとしても、受話者PS2に対し温度や硬度を用いた外部刺激によりバイアスを与えることで、受話者PS2に生じている上記ネガティブな印象を打ち消すかまたは緩和させることが可能となる。また、発話者PS1から発せられる発話音声信号の音声特徴量を改変しないので、受話者PS2に対し発話者PS1の意図を正確に伝えることが可能となる。
 [その他の実施形態]
 (1)前記一実施形態では、受講者たる受話者PS2が講師である発話者PS1の講演をネットワークを介して受講する場合を例にとって説明した。しかし、それに限らず、発話者PS1の講演を受話者PS2が対面で受講する場合にもこの発明は適用可能である。この場合も一実施形態と同様の構成により実施可能である。
 例えば、発話者PS1の発話音声信号を講演用の端末TM1から印象形成制御装置SVへ送信する。そして、印象形成制御装置SVにより、上記発話音声信号の音声特徴量から受話者PS2に生じると推定されるバイアスを判定し、その判定結果に基づいて受話者PS2のバイアスを制御するための制御信号を生成して受講用の端末TM2へ送信する。端末TM2は、上記制御信号に従い提示デバイスVBを駆動して受話者PS2に対し外部刺激を与え、これにより上記受話者PS2に生じるバイアスを制御することができるという効果が期待できる。
 (2)前記一実施形態では、クラウド上またはWeb上に配置されたサーバコンピュータに印象形成制御装置SVの処理機能を持たせた場合を例にとって説明した。しかし、これに限らず、例えば講演用の端末TM1或いは受講用の端末TM2に印象形成制御装置SVの処理機能を持たせるようにしてもよい。さらには、印象形成制御装置SVの処理機能を、講演用の端末TM1と、受講用の端末TM2と、クラウド上またはWeb上に配置されたサーバコンピュータに分散配置するようにしてもよい。
 (3)その他、印象形成制御装置SVの構成、処理手順と処理内容、外部刺激の発生タイミング、外部刺激の種類とその提示手段、印象形成制御装置SVの利用シーン等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
 以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
 SV…印象形成制御装置
 US1…発話者
 US2…受話者
 TM1…講演用の端末
 TM2…受講用の端末
 NW…ネットワーク
 MC…マイクロフォン
 VB…提示デバイス
 1…制御部
 2…プログラム記憶部
 3…データ記憶部
 4…通信I/F部
 5…バス
 11…発話音声信号取得処理部
 12…音声特徴量抽出処理部
 13…バイアス判定処理部
 14…バイアス制御信号生成処理部
 15…提示内容決定処理部
 31…音声信号記憶部
 32…制御方向設定情報記憶部

Claims (6)

  1.  発話者に対する受話者の印象形成を制御する印象形成制御装置であって、
     前記発話者の発話音声信号を取得する第1の処理部と、
     前記発話音声信号から音声特徴量を抽出する第2の処理部と、
     前記音声特徴量に基づいて、前記発話音声信号により前記受話者に生じる印象に対するバイアスを判定する第3の処理部と、
     前記バイアスの判定結果と、予め設定された前記バイアスの制御方向を表す情報とに基づいて、前記バイアスを制御するためのバイアス制御信号を生成する第4の処理部と、
     前記バイアス制御信号に従い、前記受話者に対し外部刺激を与えるための刺激制御信号を生成し、生成された前記刺激制御信号を出力する第5の処理部と
     を具備する印象形成制御装置。
  2.  前記第2の処理部は、前記音声特徴量として前記発話音声信号から基本周波数、発話速度および抑揚のうちの少なくとも1つを抽出し、
     前記第3の処理部は、抽出された前記音声特徴量を予め設定された判定条件と比較し、その比較結果に基づいて前記受話者に生じる前記バイアスを判定する、
     請求項1に記載の印象形成制御装置。
  3.  前記第4の処理部は、前記外部刺激が温度の場合に、前記バイアスの判定結果と、予め設定された前記バイアスの制御方向を表す情報とに基づいて、前記温度の制御方向と制御量を指定する前記バイアス制御信号を生成し、
     前記第5の処理部は、前記バイアス制御信号に従い、前記受話者に対し前記温度の変化による前記外部刺激を与えるための前記刺激制御信号を生成し、生成された前記刺激制御信号を出力する、
     請求項1に記載の印象形成制御装置。
  4.  前記第4の処理部は、前記外部刺激が硬度の場合に、前記バイアスの判定結果と、予め設定された前記バイアスの制御方向を表す情報とに基づいて、前記硬度の制御方向と制御量を指定する前記バイアス制御信号を生成し、
     前記第5の処理部は、前記バイアス制御信号に従い、前記受話者に対し前記硬度の変化による前記外部刺激を与えるための前記刺激制御信号を生成し、生成された前記刺激制御信号を出力する、
     請求項1に記載の印象形成制御装置。
  5.  情報処理装置により実行される、発話者に対する受話者の印象形成を制御する印象形成制御方法であって、
     前記発話者の発話音声信号を取得する過程と、
     前記発話音声信号から音声特徴量を抽出する過程と、
     前記音声特徴量に基づいて、前記発話音声信号により前記受話者に生じる印象に対するバイアスを判定する過程と、
     前記バイアスの判定結果と、予め設定された前記バイアスの制御方向を表す情報とに基づいて、前記バイアスを制御するためのバイアス制御信号を生成する過程と、
     前記バイアス制御信号に従い、前記受話者に対し外部刺激を与えるための刺激制御信号を生成し、生成された前記刺激制御信号を出力する過程と
     を具備する印象形成制御方法。
  6.  請求項1乃至請求項4のいずれかに記載の印象形成制御装置において、前記第1の処理部乃至前記第5の処理部の少なくとも1つの処理を、前記印象形成制御装置が備えるプロセッサに実行させるプログラム。
PCT/JP2022/014642 2022-03-25 2022-03-25 印象形成制御装置、方法およびプログラム WO2023181404A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/014642 WO2023181404A1 (ja) 2022-03-25 2022-03-25 印象形成制御装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/014642 WO2023181404A1 (ja) 2022-03-25 2022-03-25 印象形成制御装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2023181404A1 true WO2023181404A1 (ja) 2023-09-28

Family

ID=88100269

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/014642 WO2023181404A1 (ja) 2022-03-25 2022-03-25 印象形成制御装置、方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2023181404A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070214A (ja) * 2003-08-21 2005-03-17 Advanced Telecommunication Research Institute International 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム
JP2006330060A (ja) * 2005-05-23 2006-12-07 Univ Waseda 音声合成装置、音声処理装置、およびプログラム
US20100235170A1 (en) * 2009-03-12 2010-09-16 Rothenberg Enterprises Biofeedback system for correction of nasality
WO2019087646A1 (ja) * 2017-11-01 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070214A (ja) * 2003-08-21 2005-03-17 Advanced Telecommunication Research Institute International 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム
JP2006330060A (ja) * 2005-05-23 2006-12-07 Univ Waseda 音声合成装置、音声処理装置、およびプログラム
US20100235170A1 (en) * 2009-03-12 2010-09-16 Rothenberg Enterprises Biofeedback system for correction of nasality
WO2019087646A1 (ja) * 2017-11-01 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
CN107340991B (zh) 语音角色的切换方法、装置、设备以及存储介质
Zacharov Sensory evaluation of sound
JP6837866B2 (ja) 人工知能による書記素音素変換モデル生成方法及び装置
CN109785820A (zh) 一种处理方法、装置及设备
Merchel et al. The influence of vibrations on musical experience
JPWO2019026361A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN107170456A (zh) 语音处理方法及装置
KR20220140599A (ko) 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터
US20110264453A1 (en) Method and system for adapting communications
Pecknold “These stupid little sounds in her voice”: valuing and vilifying the new girl voice
JP2023548157A (ja) 通話およびオーディオメッセージからのその他の話者の音声フィルタリング
WO2023181404A1 (ja) 印象形成制御装置、方法およびプログラム
JP2007072511A (ja) チャットシステム,チャットサーバ,プログラム,およびメッセージ交換方法
EP3070709A1 (en) Sound masking apparatus and sound masking method
JP2003108502A (ja) 身体性メディア通信システム
WO2022215361A1 (ja) 情報処理装置及び情報処理方法
KR102605178B1 (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
Schmitz et al. Modelling personality in voices of talking products through prosodic parameters
CN112820265B (zh) 一种语音合成模型训练方法和相关装置
Matthews Activating Audiences: How spatial music can help us to listen
JP2008242363A (ja) カラオケ装置
JP5263595B2 (ja) ユーザ認証装置及び方法
McGregor et al. Using participatory visualisation of soundscapes to compare designers’ and listeners’ experiences of sound designs
JP2020067584A (ja) コミュニケーション装置およびコミュニケーション装置の制御プログラム
JPH11305985A (ja) 対話装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933541

Country of ref document: EP

Kind code of ref document: A1