WO2022224310A1 - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
WO2022224310A1
WO2022224310A1 PCT/JP2021/015884 JP2021015884W WO2022224310A1 WO 2022224310 A1 WO2022224310 A1 WO 2022224310A1 JP 2021015884 W JP2021015884 W JP 2021015884W WO 2022224310 A1 WO2022224310 A1 WO 2022224310A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
speaker
information
target value
vibration
Prior art date
Application number
PCT/JP2021/015884
Other languages
French (fr)
Japanese (ja)
Inventor
明日香 小野
充裕 後藤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/015884 priority Critical patent/WO2022224310A1/en
Publication of WO2022224310A1 publication Critical patent/WO2022224310A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/16Transforming into a non-visible representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • the input device 41, the output device 42, the microphone 43, and the vibration device 44 may be configured integrally or may be built into the presentation support device 1.
  • the control unit 10 includes a voice information acquisition unit 11, a non-verbal characteristic measurement unit 12, a determination unit 13, a vibration signal generation unit 14, and a vibration device drive unit 15 as functional units according to the first embodiment.
  • the vibration signal generator 14 calls up the vibration pattern data from the vibration pattern database 22 in response to the vibration signal call command and generates a vibration signal.
  • the generated vibration signal is an example of an instruction signal containing nonverbal information representing a target value of the nonverbal index.
  • the vibration signal generation unit 14 is an example of a generation unit that generates an instruction signal including nonverbal information representing a target value of a nonverbal index.
  • the vibration signal generator 14 can also integrate vibration signals for multiple non-verbal indicators.
  • the vibration signal generation unit 14 generates an integrated vibration signal by applying a sinusoidal vibration that guides speech speed as a carrier wave and applying an amplitude modulation filter that guides intonation to the carrier wave.
  • the integrated vibration signal can represent the target speech speed by vibration rhythm and the target intonation by vibration amplitude change.
  • the auxiliary storage device 54 includes, for example, a hard disk drive (HDD), solid state drive (SSD), semiconductor memory, or the like, and non-temporarily stores data necessary for the functions of the control unit 10 .
  • the auxiliary storage device 54 functions as the storage section 20 described above.
  • a part of the above program may be stored in the auxiliary storage device 54 .
  • the program may be provided to the presentation support device 1 while being stored in a computer-readable recording medium. In this case, for example, the presentation support device 1 has a drive that reads data from a recording medium, and acquires a program from the recording medium.
  • step S ⁇ b>101 the presentation support device 1 uses the voice information acquisition unit 11 under the control of the control unit 10 to acquire a voice signal related to the speaker's utterance from the microphone 43 .
  • the audio information acquisition section 11 also converts the audio signal into a digital signal at a predetermined sampling rate.
  • step S103 the presentation support device 1 causes the determination unit 13 to read the reference range of the nonverbal index from the nonverbal plan database 21, compare the measured value with the reference range for each time window, and record the comparison result. do.
  • the rhythm pattern SP that guides the speech speed includes sine wave intervals and pause intervals, and the rhythm is characterized by the number of consecutive waves and the length of the pause interval.
  • one beat includes a sine wave section with a wave number of 4 and a pause section, and the length of the pause section is set so that seven beats are included per second.
  • one beat includes a sine wave section with a wave number of 4 and a pause section, and the length of the pause section is set so that five beats are included per second.
  • the pattern SP2 guides a slower (lower) speech speed than the pattern SP1.
  • the pattern SP1 and the pattern SP2 can also be rephrased as those obtained by subjecting the fundamental carrier to ON/OFF modulation or amplitude modulation.
  • the number of waves in each sine wave section may be adjusted accordingly.
  • the number of waves in the sinusoidal section can be adjusted by frequency modulation on the fundamental carrier.
  • the rhythm pattern that guides the speech speed is not limited to the illustrated example, and may express rhythm in other manners.
  • step S306 the presentation supporting apparatus 2 uses the vibration device drive unit 109 to generate and output a drive signal based on the vibration signal, as in the first embodiment.

Abstract

Provided is a technology that makes it possible to present a target action to a speaker in a manner that causes little interference with language processing. According to the embodiments, an information processing device comprises a first acquisition unit that acquires a target value for a non-linguistic indicator for speech, a generation unit that generates an instruction signal that includes non-language information that represents the target value, and an output unit that outputs the instruction signal as a stimulus that can be perceived by the speaker. According to the first embodiment, the information processing device acquires a measured value for the non-linguistic indicator from voice information spoken by the speaker and outputs the instruction signal on the basis of comparison results for the measured value and an allowable range. According to the second embodiment, the information processing device associates the target value for the non-linguistic indicator with a word or phrase included in text information that represents the expected content of the speech of the speaker and outputs the instruction signal at the speaking timing of the word or phrase.

Description

情報処理装置、情報処理方法およびプログラムInformation processing device, information processing method and program
 本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。 Embodiments of the present invention relate to an information processing device, an information processing method, and a program.
 スピーチやプレゼンテーションなどのパブリックスピーキングのスキルは、学業の場においてもビジネスシーンにおいても重要である。パブリックスピーキングのスキル改善のため、目標とする行動(目標行動)を話者に提示することが考えられる。例えば、ウェアラブルデバイスに目標行動を言語表示する技術が提案されている。 Public speaking skills such as speeches and presentations are important in both academic and business settings. In order to improve public speaking skills, it is conceivable to present a target behavior (target behavior) to the speaker. For example, a technology has been proposed that displays a target behavior in a language on a wearable device.
 特許文献1には、ロボットなどのプレゼンテーション装置に実行させる動作の指示情報を生成する技術が提案されている。非特許文献1には、特許文献1の技術を活用して、話者の過去の行動をロボットで再現することにより、プレゼンテーションの自己レビューを可能にする技術が提案されている。 Patent Document 1 proposes a technique for generating instruction information for actions to be executed by a presentation device such as a robot. Non-Patent Document 1 proposes a technology that enables self-review of a presentation by using the technology of Patent Document 1 to reproduce the speaker's past actions with a robot.
 特許文献2には、コミュニケーションスキルの改善のため、目標行動と対象者の行動とを比較し、具体的な改善方法をアドバイス文として対象者に提示する技術が提案されている。 Patent Document 2 proposes a technology that compares a target behavior with a subject's behavior and presents a concrete improvement method to the subject as an advice sentence in order to improve communication skills.
日本国特開第2019-144732号明細書Japanese Patent Application Publication No. 2019-144732 日本国特開第2016-157388号明細書Japanese Patent Application Publication No. 2016-157388
 パブリックスピーキングの状況では、話者は、言語処理(例えば、原稿を読む、想起する、など)のために多くの認知資源を用いている。そのような言語処理を行っている状況で、さらに言語処理を要する態様で目標行動を提示すれば、パブリックスピーキング活動を阻害しかねない。また、パブリックスピーキングにおいては緊張により話者の認知機能が低下することが報告されている。話者の言語処理を妨げることなく、話者に目標行動を提示する技術が求められる。 In the context of public speaking, speakers use many cognitive resources for language processing (for example, reading manuscripts, recalling, etc.). In such a situation where language processing is being performed, if the target behavior is presented in a manner that requires further language processing, public speaking activities may be hindered. In public speaking, it has been reported that the speaker's cognitive function declines due to tension. There is a need for a technology that presents a target action to the speaker without interfering with the speaker's language processing.
 この発明は上記事情に着目してなされたもので、その目的とするところは、言語処理への干渉の少ない態様で話者に目標行動を提示可能とする技術を提供することにある。 The present invention has been made with a focus on the above circumstances, and its purpose is to provide a technology that enables presenting a target action to a speaker in a manner that causes little interference with language processing.
 上記課題を解決するためにこの発明の第1の態様は、情報処理装置にあって、発話における非言語的指標の目標値を取得する第1取得部と、上記目標値を表す非言語情報を含む指示信号を生成する生成部と、話者が知覚可能な刺激として上記指示信号を出力する出力部と、を備えるようにしたものである。 In order to solve the above problems, a first aspect of the present invention is an information processing apparatus comprising: a first acquisition unit that acquires a target value of a nonverbal index in speech; and an output unit for outputting the instruction signal as a stimulus perceivable by the speaker.
 この発明の第1の態様によれば、発話における非言語的指標の目標値を表す非言語情報を含む指示信号が生成され、話者が知覚可能な刺激として出力される。したがって、第1の態様の情報処理装置は、話者の言語処理への干渉の少ない非言語的な態様で、目標行動を伝達可能とする技術を提供することができる。刺激を受け取った話者は、直感的に、目標行動を認知することができる。 According to the first aspect of the present invention, an instruction signal including nonverbal information representing a target value of a nonverbal index in utterance is generated and output as a stimulus perceivable by the speaker. Therefore, the information processing apparatus of the first aspect can provide a technology that enables transmission of a target action in a non-verbal manner with little interference with the language processing of the speaker. A speaker who receives a stimulus can intuitively perceive the target behavior.
 すなわちこの発明によれば、言語処理への干渉の少ない態様で話者に目標行動を提示可能とする技術を提供することができる。 In other words, according to the present invention, it is possible to provide a technology that enables presenting a target action to a speaker in a manner that does not interfere with language processing.
図1は、第1実施形態に係る情報処理装置を備えるシステムの構成を示す図である。FIG. 1 is a diagram showing the configuration of a system including an information processing device according to the first embodiment. 図2は、第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。FIG. 2 is a block diagram showing the hardware configuration of the information processing device according to the first embodiment. 図3は、第1実施形態に係る情報処理装置による処理手順と処理内容を示すフローチャートである。FIG. 3 is a flow chart showing a processing procedure and processing contents by the information processing apparatus according to the first embodiment. 図4は、第1実施形態に係る情報処理装置によって生成されるバイブレーション信号の一例を示す図である。FIG. 4 is a diagram illustrating an example of a vibration signal generated by the information processing apparatus according to the first embodiment; 図5は、第2実施形態に係る情報処理装置を備えるシステムの構成を示す図である。FIG. 5 is a diagram showing the configuration of a system including an information processing device according to the second embodiment. 図6は、第2実施形態に係る情報処理装置による指示信号の生成に関する処理手順と処理内容を示すフローチャートである。FIG. 6 is a flowchart showing a processing procedure and processing details regarding generation of an instruction signal by the information processing apparatus according to the second embodiment. 図7は、第2実施形態に係る情報処理装置による指示信号の出力に関する処理手順と処理内容を示すフローチャートである。FIG. 7 is a flowchart showing a processing procedure and processing details regarding output of an instruction signal by the information processing apparatus according to the second embodiment.
 以下、図面を参照してこの発明に係わる実施形態を説明する。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。 Hereinafter, embodiments according to the present invention will be described with reference to the drawings. Elements that are the same as or similar to elements that have already been explained are denoted by the same or similar reference numerals, and overlapping explanations are basically omitted. For example, when there are a plurality of identical or similar elements, common reference numerals may be used to describe each element without distinction, and the common reference numerals may be used to distinguish and describe each element. In addition, branch numbers are sometimes used.
 [第1実施形態]
 (1)構成
 (1-1)システム構成
 図1は、第1実施形態に係る情報処理装置を備えるシステムの構成の一例を示す図である。このシステムは、発話における非言語的指標の目標値を表す非言語情報を含む指示信号を介して、話者に目標行動を提示する。目標行動は、理想的な発話方法と言い換えられてもよい。以下では、一例として話者が聴衆に向けてプレゼンテーションを行っている状況を想定して説明するが、これに限られない。このシステムは、1対多のパブリックスピーキングの状況に加え、1対1のコミュニケーションの状況にも適用可能である。また以下では、目標行動の提示方法として、振動(バイブレーション)により触覚的刺激を与える例を説明するが、やはりこれに限られず、画像表示による視覚的刺激、または音声出力による聴覚的刺激などが用いられてもよい。
[First embodiment]
(1) Configuration (1-1) System Configuration FIG. 1 is a diagram showing an example configuration of a system including an information processing apparatus according to the first embodiment. The system presents a target behavior to the speaker via instructional signals containing non-verbal information representing target values for non-verbal indicators in the utterance. A target behavior may be rephrased as an ideal speaking method. As an example, the following description assumes that the speaker is giving a presentation to an audience, but the present invention is not limited to this. The system is applicable to one-to-many public speaking situations as well as one-to-one communication situations. In the following, as a method of presenting the target action, an example of giving tactile stimulation by vibration will be explained, but this is not limited to this, and visual stimulation by image display, auditory stimulation by voice output, etc. can be used. may be
 図1のシステムは、第1実施形態に係る情報処理装置としてのプレゼンテーション支援装置1と、入力装置41、出力装置42、マイクロホン43、およびバイブレーションデバイス44を含む。 The system of FIG. 1 includes a presentation support device 1 as an information processing device according to the first embodiment, an input device 41, an output device 42, a microphone 43, and a vibration device 44.
 入力装置41は、例えば、キーボード、マウス、タッチスクリーンなど、プレゼンテーション支援装置1のユーザからの入力を受け付けるための装置である。ここでは、「ユーザ」は、話者、補助者、管理者またはオペレータ等であり得る。 The input device 41 is a device for receiving input from the user of the presentation support device 1, such as a keyboard, mouse, and touch screen. As used herein, a "user" may be a speaker, assistant, administrator or operator, or the like.
 出力装置42は、例えば、液晶表示装置、有機EL(Electro-Luminescence)ディスプレイ、スピーカなど、出力を行うための装置である。 The output device 42 is a device for outputting, such as a liquid crystal display device, an organic EL (Electro-Luminescence) display, a speaker, or the like.
 マイクロホン43は、例えば話者の近くに配置され、話者の音声を収集して電気信号に変換する。 The microphone 43 is placed, for example, near the speaker, collects the speaker's voice, and converts it into an electrical signal.
 バイブレーションデバイス44は、例えば、スマートウォッチ、他のウェアラブルデバイス、携帯端末、またはスマートフォンなど、振動素子を内蔵し、駆動信号に応じたバイブレーション刺激を出力可能なデバイスである。 The vibration device 44 is a device, such as a smart watch, other wearable device, mobile terminal, or smart phone, which incorporates a vibration element and can output vibration stimulation according to a drive signal.
 なお、入力装置41、出力装置42、マイクロホン43、およびバイブレーションデバイス44のうちの1または複数は、一体的に構成されてもよいし、プレゼンテーション支援装置1に内蔵されてもよい。 Note that one or more of the input device 41, the output device 42, the microphone 43, and the vibration device 44 may be configured integrally or may be built into the presentation support device 1.
 (1-2)プレゼンテーション支援装置の機能構成
 次いで、第1実施形態に係るプレゼンテーション支援装置1の機能について説明する。プレゼンテーション支援装置1は、例えば、パーソナルコンピュータによって構成される。図1に示すように、プレゼンテーション支援装置1は、制御部10と、記憶部20と、入出力インタフェース30と、を備える。
(1-2) Functional Configuration of Presentation Supporting Apparatus Next, functions of the presentation supporting apparatus 1 according to the first embodiment will be described. The presentation support device 1 is configured by, for example, a personal computer. As shown in FIG. 1 , the presentation support device 1 includes a control section 10 , a storage section 20 and an input/output interface 30 .
 入出力インタフェース30は、プレゼンテーション支援装置1と外部装置との間でデータの入出力を行う。例えば、入出力インタフェース30は、入力装置41からユーザが入力したデータを取り込み、制御部10によって生成された出力データを出力装置42に出力し、マイクロホン43から出力された音声信号を取り込み、またはバイブレーションデバイス44に駆動信号を出力する。入出力インタフェース30は、USB(Universal Serial Bus)ポート、ケーブル接続端子またはカードスロット等を備えており、上記の入力装置41、出力装置42、マイクロホン43、およびバイブレーションデバイス44との間でそれぞれ任意の方式によりデータのやり取りを行う。入出力インタフェース30は、有線または無線の通信インタフェースを含んでよい。有線通信インタフェースは、例えば有線LAN用のインタフェースであり、無線通信インタフェースは、例えば無線LANやBluetooth(登録商標)インタフェースである。プレゼンテーション支援装置1と、入力装置41、出力装置42、マイクロホン43、またはバイブレーションデバイス44との間のデータの送受信は、通信インタフェースを介して行われてもよい。 The input/output interface 30 inputs and outputs data between the presentation support device 1 and an external device. For example, the input/output interface 30 captures data input by the user from the input device 41, outputs output data generated by the control unit 10 to the output device 42, captures an audio signal output from the microphone 43, or vibrates A drive signal is output to the device 44 . The input/output interface 30 includes a USB (Universal Serial Bus) port, a cable connection terminal, a card slot, or the like, and can communicate with the input device 41, the output device 42, the microphone 43, and the vibration device 44 respectively. Data is exchanged according to the method. Input/output interface 30 may include a wired or wireless communication interface. The wired communication interface is, for example, a wired LAN interface, and the wireless communication interface is, for example, a wireless LAN or Bluetooth (registered trademark) interface. Transmission and reception of data between the presentation support device 1 and the input device 41, the output device 42, the microphone 43, or the vibration device 44 may be performed via a communication interface.
 記憶部20は、非言語計画データベース21およびバイブレーションパターンデータベース22を備える。 The storage unit 20 includes a non-language plan database 21 and a vibration pattern database 22.
 非言語計画データベース21は、パブリックスピーキングにおいて一般的に理想とされる発話音声の非言語的(「パラ言語的」と読み換えられてもよい)な指標データを格納する。ここでは、発話音声に含まれる情報に関して、言語は、テキストとして表現可能な情報を指し、非言語は、言語以外の情報(例えば、話速、声の大きさ、声の高さ、等)を指す。非言語情報をここでは「非言語的指標」とも呼ぶ。非言語計画データベース21に格納されるデータは、非言語的指標の理想的な基準範囲(上限値と下限値)に関する情報を含む。基準範囲は、例えば、最新の研究結果等をもとに聴衆の理解や注意を促すとされる数値として任意に設定され、または自動的に更新される。基準範囲は、話者への目標提示の要否を判定する際に使用され、許容範囲とも言い換えることができる。基準範囲は、目標値を含む。目標値は、目標を提示するための指示信号を生成する際に使用される。目標値は、例えば基準範囲の中央値であってもよいし、下限値、上限値、またはその他の値であってもよい。非言語計画データベース21には、例えば、聞き取りやすく流ちょうに聞こえる話速、フレーズ内での周期的な声量レベルの抑揚、フレーズ内での声の高さの大きな抑揚、単語もしくはフレーズの強調、またはフレーズごとの間(ま)(ポーズ)の挿入もしくは適切な時間長などに関する目標値および基準範囲の情報が格納される。なお、単語またはフレーズとは、説明の便宜上の表現にすぎず、1または複数の単語を含むひとかたまりの言語(語、句、節、または文)と読み替えられてよい。非言語的指標の基準範囲または目標値は、あらかじめ理想とする音声を収録し、収録された音声から一般的に使用されている音声分析ソフトウェアを用いて得られた計測結果に基づくものでもよい。 The non-verbal plan database 21 stores non-verbal (which may be read as "paralinguistic") index data of generally ideal speech in public speaking. Here, regarding the information contained in the spoken voice, language refers to information that can be expressed as text, and non-language refers to information other than language (for example, speech speed, volume of voice, pitch of voice, etc.). Point. Non-verbal information is also referred to herein as "non-verbal indicators". The data stored in the non-verbal plan database 21 includes information on ideal reference ranges (upper and lower limits) for non-verbal indicators. The reference range is arbitrarily set or automatically updated as a numerical value that prompts the audience's understanding and attention, for example, based on the latest research results. The reference range is used when determining whether or not to present the target to the speaker, and can also be called an allowable range. The reference range includes the target value. The target value is used in generating an instruction signal for presenting the target. The target value may be, for example, the median value of the reference range, the lower limit value, the upper limit value, or other values. The non-language plan database 21 includes, for example, an intelligible and fluent speech rate, periodic volume level inflection within a phrase, high pitch inflection within a phrase, word or phrase emphasis, or Information on target values and reference ranges regarding the insertion of a pause for each phrase or an appropriate length of time is stored. A word or a phrase is merely an expression for convenience of explanation, and may be read as a set of language (word, phrase, clause, or sentence) including one or more words. The reference range or target value of the nonverbal index may be based on measurement results obtained by pre-recording ideal speech and using commonly used speech analysis software from the recorded speech.
 バイブレーションパターンデータベース22は、話者の発話中に言語処理に干渉することなく発話方法をガイドすることが可能な刺激態様の一例として、バイブレーションパターンを格納する。バイブレーションパターンデータベース22に格納されるバイブレーションパターンは、例えば、話速をガイドするリズムパターン、周期的な抑揚をガイドする振幅変調、単語もしくはフレーズの強調をガイドする語頭のアクセント振動、または発話の区切りと開始をガイドするマーカ振動などを含む。 The vibration pattern database 22 stores vibration patterns as an example of a stimulus mode that can guide the speaking method during the speaker's speech without interfering with language processing. The vibration patterns stored in the vibration pattern database 22 are, for example, rhythm patterns that guide speech speed, amplitude modulation that guides periodic intonation, accent vibration at the beginning of words that guides emphasis of words or phrases, or breaks in speech. Including marker vibration etc. to guide the start.
 非言語計画データベース21およびバイブレーションパターンデータベース22は、プレゼンテーション支援装置1に内蔵される必要はなく、ネットワークを介してプレゼンテーション支援装置1に接続されてもよい。 The non-language plan database 21 and the vibration pattern database 22 do not have to be built into the presentation support device 1, and may be connected to the presentation support device 1 via a network.
 制御部10は、第1実施形態に係る機能部として、音声情報取得部11、非言語特性計測部12、判定部13、バイブレーション信号生成部14およびバイブレーションデバイス駆動部15を含む。 The control unit 10 includes a voice information acquisition unit 11, a non-verbal characteristic measurement unit 12, a determination unit 13, a vibration signal generation unit 14, and a vibration device drive unit 15 as functional units according to the first embodiment.
 音声情報取得部11は、マイクロホン43から出力された音声信号を、話者が発話する音声情報として取得する。音声情報取得部11は、話者が発話する音声情報を取得する第2取得部の一例である。 The voice information acquisition unit 11 acquires the voice signal output from the microphone 43 as voice information uttered by the speaker. The voice information acquisition unit 11 is an example of a second acquisition unit that acquires voice information uttered by a speaker.
 非言語特性計測部12は、話者の音声情報から、話速、声の大きさ、または声の高さなどの非言語的指標をX[ms]の窓長ごとに計測する。非言語特性計測部12は、音声情報から非言語的指標を計測し、計測値を取得する、計測部の一例である。 The non-verbal characteristic measurement unit 12 measures non-verbal indicators such as speech speed, voice volume, or pitch from the speaker's voice information for each window length of X [ms]. The non-verbal characteristic measuring unit 12 is an example of a measuring unit that measures a non-verbal index from voice information and obtains a measured value.
 判定部13は、非言語計画データベース21に格納された非言語的指標の基準範囲および目標値を読み出し、基準範囲と各時間窓における計測値とを比較し、比較結果を記録する。判定部13は、計測値と許容範囲とを比較し、比較結果をもとに目標提示の要否を判定する判定部の一例である。判定部13はまた、発話における非言語的指標の目標値を取得する第1取得部の一例でもある。判定部13は、話者の音声信号からの計測値が連続してY個の窓において基準範囲外と判定される場合、目標提示が必要と判定し、バイブレーション信号呼出指令を出力する。バイブレーション信号呼出指令は、目標提示が必要な非言語的指標の目標値の情報を含む。 The determination unit 13 reads the reference range and target value of the nonverbal index stored in the nonverbal plan database 21, compares the reference range with the measured values in each time window, and records the comparison results. The determination unit 13 is an example of a determination unit that compares the measured value and the allowable range, and determines whether or not to present the target based on the comparison result. The determination unit 13 is also an example of a first acquisition unit that acquires target values of nonverbal indicators in speech. When it is determined that the measurement value from the voice signal of the speaker is continuously out of the reference range in Y windows, the determination unit 13 determines that the target presentation is necessary, and outputs a vibration signal call command. The vibration signal calling command includes information on target values of nonverbal indicators that require target presentation.
 バイブレーション信号生成部14は、バイブレーション信号呼出指令に応答して、バイブレーションパターンデータベース22からバイブレーションパターンデータを呼び出し、バイブレーション信号を生成する。生成されるバイブレーション信号は、非言語的指標の目標値を表す非言語情報を含む指示信号の一例である。バイブレーション信号生成部14は、非言語的指標の目標値を表す非言語情報を含む指示信号を生成する生成部の一例である。バイブレーション信号生成部14はまた、複数の非言語的指標に関するバイブレーション信号を統合することができる。例えば、バイブレーション信号生成部14は、話速をガイドする正弦波振動を搬送波とし、この搬送波に対して抑揚をガイドする振幅変調フィルタをかけることにより、統合されたバイブレーション信号を生成する。この例では、統合されたバイブレーション信号は、目標とする話速を振動リズムで表し、目標とする抑揚を振動の振幅変化で表すことができる。 The vibration signal generator 14 calls up the vibration pattern data from the vibration pattern database 22 in response to the vibration signal call command and generates a vibration signal. The generated vibration signal is an example of an instruction signal containing nonverbal information representing a target value of the nonverbal index. The vibration signal generation unit 14 is an example of a generation unit that generates an instruction signal including nonverbal information representing a target value of a nonverbal index. The vibration signal generator 14 can also integrate vibration signals for multiple non-verbal indicators. For example, the vibration signal generation unit 14 generates an integrated vibration signal by applying a sinusoidal vibration that guides speech speed as a carrier wave and applying an amplitude modulation filter that guides intonation to the carrier wave. In this example, the integrated vibration signal can represent the target speech speed by vibration rhythm and the target intonation by vibration amplitude change.
 バイブレーションデバイス駆動部15は、生成されたバイブレーション信号をもとに、バイブレーションデバイス44を駆動する駆動信号を生成し出力する。駆動信号もまた、非言語的指標の目標値を表す非言語情報を含む指示信号の一例と言える。バイブレーションデバイス駆動部15は、話者が知覚可能な刺激として指示信号を出力する出力部の一例である。 The vibration device drive section 15 generates and outputs a drive signal for driving the vibration device 44 based on the generated vibration signal. The drive signal can also be said to be an example of an instruction signal that includes nonverbal information representing the target value of the nonverbal index. The vibration device drive unit 15 is an example of an output unit that outputs an instruction signal as a stimulus perceivable by the speaker.
 (1-3)ハードウェア構成
 図2は、プレゼンテーション支援装置1のハードウェア構成の一例を示すブロック図である。 
 プレゼンテーション支援装置1は、ハードウェアとして、CPU(Central Processing Unit)51、RAM(Random Access Memory)52、ROM(Read Only Memory)53、補助記憶装置54、および上述した入出力インタフェース30を備える。CPU51、RAM52、ROM53、補助記憶装置54、および入出力インタフェース30は、バス55を介して電気的に接続される。
(1-3) Hardware Configuration FIG. 2 is a block diagram showing an example of the hardware configuration of the presentation support device 1. As shown in FIG.
The presentation support device 1 includes, as hardware, a CPU (Central Processing Unit) 51, a RAM (Random Access Memory) 52, a ROM (Read Only Memory) 53, an auxiliary storage device 54, and the input/output interface 30 described above. The CPU 51 , RAM 52 , ROM 53 , auxiliary storage device 54 and input/output interface 30 are electrically connected via bus 55 .
 CPU51は、汎用ハードウェアプロセッサの一例であり、プレゼンテーション支援装置1の全体的な動作を制御する。RAM52は、CPU51によってワーキングメモリとして使用される。RAM52は、SDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。ROM53は、プレゼンテーション支援装置1に種々の機能を実行させるプログラムおよびプログラムを実行するために必要な設定データを非一時的に記憶する。ROM53に記憶されるプログラムは、コンピュータ実行可能命令を含む。CPU51は、ROM53に記憶されたプログラム(コンピュータ実行可能命令)をRAMに展開し、解釈および実行することによって、上記制御部10の機能を実現する。 The CPU 51 is an example of a general-purpose hardware processor, and controls the overall operation of the presentation support device 1. The RAM 52 is used by the CPU 51 as working memory. RAM 52 includes volatile memory such as SDRAM (Synchronous Dynamic Random Access Memory). The ROM 53 non-temporarily stores programs for causing the presentation support apparatus 1 to perform various functions and setting data necessary for executing the programs. The programs stored in ROM 53 include computer-executable instructions. The CPU 51 expands the program (computer-executable instructions) stored in the ROM 53 into the RAM, interprets and executes the program, thereby realizing the functions of the control section 10 .
 補助記憶装置54は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、または半導体メモリ等を含み、制御部10の機能に必要なデータを非一時的に記憶する。補助記憶装置54は、上記記憶部20として機能する。上記プログラムの一部が補助記憶装置54に記憶されてもよい。プログラムは、コンピュータで読み取り可能な記録媒体に記憶された状態でプレゼンテーション支援装置1に提供されてもよい。この場合、例えば、プレゼンテーション支援装置1は、記録媒体からデータを読み出すドライブを備え、記録媒体からプログラムを取得する。記録媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、及び半導体メモリを含む。また、プログラムをネットワーク上のサーバに格納し、プレゼンテーション支援装置1がサーバからプログラムをダウンロードするようにしてもよい。 The auxiliary storage device 54 includes, for example, a hard disk drive (HDD), solid state drive (SSD), semiconductor memory, or the like, and non-temporarily stores data necessary for the functions of the control unit 10 . The auxiliary storage device 54 functions as the storage section 20 described above. A part of the above program may be stored in the auxiliary storage device 54 . The program may be provided to the presentation support device 1 while being stored in a computer-readable recording medium. In this case, for example, the presentation support device 1 has a drive that reads data from a recording medium, and acquires a program from the recording medium. Examples of recording media include magnetic disks, optical disks (CD-ROM, CD-R, DVD-ROM, DVD-R, etc.), magneto-optical disks (MO, etc.), and semiconductor memories. Alternatively, the program may be stored in a server on the network, and the presentation supporting apparatus 1 may download the program from the server.
 プレゼンテーション支援装置1の具体的な機能構成またはハードウェア構成については、実施形態に応じて、適宜、構成要素の省略、置換および追加が可能である。例えば、CPU51は、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等に置き換えられてもよい。CPU51は、単一のCPU等であってもよいし、複数のCPU等を含んでもよい。 With respect to the specific functional configuration or hardware configuration of the presentation support device 1, it is possible to omit, replace, or add components as appropriate according to the embodiment. For example, the CPU 51 may be replaced with an MPU (Micro Processing Unit), GPU (Graphics Processing Unit), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), or the like. The CPU 51 may be a single CPU or the like, or may include a plurality of CPUs or the like.
 (2)動作
 次に、以上のように構成されたプレゼンテーション支援装置1による情報処理動作について説明する。 
 図3は、その処理手順と処理内容の一例を示すフローチャートである。非言語計画データベース21およびバイブレーションパターンデータベース22には、あらかじめ処理に必要なデータが格納されているものとする。
(2) Operation Next, an information processing operation by the presentation support apparatus 1 configured as described above will be described.
FIG. 3 is a flow chart showing an example of the processing procedure and processing contents. It is assumed that the non-language plan database 21 and the vibration pattern database 22 store data necessary for processing in advance.
 まずステップS101において、プレゼンテーション支援装置1は、制御部10の制御の下、音声情報取得部11により、マイクロホン43から話者の発話に係る音声信号を取得する。音声情報取得部11はまた、所定のサンプリングレートで音声信号をディジタル信号に変換する。 First, in step S<b>101 , the presentation support device 1 uses the voice information acquisition unit 11 under the control of the control unit 10 to acquire a voice signal related to the speaker's utterance from the microphone 43 . The audio information acquisition section 11 also converts the audio signal into a digital signal at a predetermined sampling rate.
 次いでステップS102において、プレゼンテーション支援装置1は、非言語特性計測部12により、ディジタル化された音声信号から非言語的指標を計測し、計測値を取得する。計測される非言語的指標は、例えば、話速(単位時間当たりのモーラ数(mora/s)、単語数(word/s)、音節数(syllable/s)またはそれらに準じるもの)、声の大きさ(例えばdB)、および声の高さ(例えばHz)等を含む。非言語的指標の計測には、一般的に用いられている音声分析ソフトウェアが使用されてよい。非言語特性計測部12は、所定の長さ(X[ms])の時間窓ごとに非言語的指標の計測を行う。窓長Xは、非言語的指標ごとに必要な長さに調整されてよい。計測対象とする非言語的指標の種類および数は、ユーザによって任意に選択されてよい。 Next, in step S102, the presentation support device 1 uses the non-linguistic characteristic measurement unit 12 to measure non-linguistic indicators from the digitized speech signal and acquire the measured values. Non-verbal indicators to be measured include, for example, speech speed (number of mora per unit time (mora/s), number of words (word/s), number of syllables (syllable/s), or similar), voice Including magnitude (eg dB), and pitch (eg Hz). Commonly used speech analysis software may be used to measure non-verbal indicators. The non-verbal characteristic measuring unit 12 measures a non-verbal index for each time window of a predetermined length (X [ms]). The window length X may be adjusted to the required length for each non-verbal indicator. The type and number of nonverbal indices to be measured may be arbitrarily selected by the user.
 ステップS103において、プレゼンテーション支援装置1は、判定部13により、非言語計画データベース21から非言語的指標の基準範囲を読み出し、時間窓ごとに計測値と基準範囲とを比較して、比較結果を記録する。 In step S103, the presentation support device 1 causes the determination unit 13 to read the reference range of the nonverbal index from the nonverbal plan database 21, compare the measured value with the reference range for each time window, and record the comparison result. do.
 非言語的指標が話速の場合、計測値は、例えば、単位時間当たりのモーラ数、単語数、音節数、またはそれらに準じるものとして計測される。ステップS103において判定部13は、読み出した基準範囲(上限値と下限値)と、計測値とを比較する。 When the non-verbal index is speech speed, the measured value is measured as, for example, the number of moras, the number of words, the number of syllables per unit time, or equivalent thereto. In step S103, the determination unit 13 compares the read reference range (upper limit and lower limit) with the measured value.
 非言語的指標が声量レベルの抑揚の場合、計測値は、例えば、単位時間中の音声の音圧レベルの極大値と極小値のうち、その音圧レベル差が基準値A(下限値)以上のものの出現回数、または音圧レベル差が基準値A(下限値)以上となる極大値と極小値の時間間隔の標準偏差、またはそれらに準じるものとして計測される。判定部13は、基準値Aをもとに設定された基準範囲B(上限値と下限値)を読み出し、その基準範囲Bと計測値とを比較する。 If the non-verbal index is the intonation of the volume level, the measured value is, for example, if the sound pressure level difference between the maximum and minimum values of the sound pressure level of the voice during the unit time is greater than or equal to the reference value A (lower limit). or the standard deviation of the time interval between the maximum and minimum values at which the sound pressure level difference is equal to or greater than the reference value A (lower limit), or equivalent thereto. The determination unit 13 reads a reference range B (upper limit and lower limit) set based on the reference value A, and compares the reference range B with the measured value.
 非言語的指標が声の高さの抑揚の場合、計測値は、例えば、単位時間中の音声の基本周波数の極大値と極小値のうちその周波数差が基準値C(下限値)以上のものの出現回数、または周波数差が基準値C(下限値)以上となる極大値と極小値の時間間隔の標準偏差、またはそれらに準じるものとして計測される。判定部13は、基準値Cをもとに設定された基準範囲D(上限値と下限値)を読み出し、その基準範囲Dと計測値とを比較する。 If the non-verbal index is the inflection of the pitch of the voice, the measured value is, for example, the frequency difference between the maximum and minimum values of the fundamental frequency of the voice in the unit time that is greater than or equal to the reference value C (lower limit). It is measured as the number of appearances, or the standard deviation of the time interval between the maximum value and the minimum value at which the frequency difference is equal to or greater than the reference value C (lower limit), or equivalent thereto. The determination unit 13 reads a reference range D (upper limit and lower limit) set based on the reference value C, and compares the reference range D with the measured value.
 非言語的指標が単語もしくはフレーズの強調の場合、計測値は、平均音圧レベルに対する強調したい単語区間もしくはフレーズ区間における音圧レベルの比率、または平均基本周波数に対する強調単語区間もしくはフレーズ区間における基本周波数の比率、またはそれらに準じるものとして計測される。判定部13は、基準範囲(上限値と下限値)を読み出し、基準範囲と計測値とを比較する。 If the nonverbal indicator is word or phrase stress, the measure is the ratio of the sound pressure level of the word or phrase segment to be stressed to the average sound pressure level, or the fundamental frequency of the stressed word or phrase segment to the average fundamental frequency. , or equivalent. The determination unit 13 reads the reference range (upper limit and lower limit) and compares the reference range with the measured value.
 非言語的指標が間(ポーズ)の場合、計測値は、例えば、音圧レベルまたはそれに準じるものとして計測される。判定部13は、基準範囲(上限値)を読み出し、基準範囲と計測値とを比較する。  When the non-verbal index is pause (pause), the measured value is measured as, for example, sound pressure level or equivalent. The determination unit 13 reads out the reference range (upper limit) and compares the reference range and the measured value.
 ステップS104において、プレゼンテーション支援装置1は、判定部13により、連続したY個の窓において計測値が基準範囲外であるかどうかを判定する。第1実施形態に係るプレゼンテーション支援装置1は、話者の音声から取得される計測値が連続したY個の窓において基準範囲外である場合、目標提示が必要と判定する。ステップS104において連続したY個の窓において計測値が基準範囲外と判定される場合(YES)、ステップS105に進む。連続したY個の窓において基準範囲外ではないと判定される場合(NO)、引き続き新たな計測値を用いて判定を行う。判定に用いられる窓の数Yは、話者の習熟度に応じて任意に調整されてよい。例えば、話者が初心者の場合、目標行動を提示されてもすぐに対応できないためYの値を小さくし、話者が熟練者の場合、より正確な判定のためにYの値を大きくするなどの調整が可能である。 In step S104, the presentation support device 1 uses the determination unit 13 to determine whether the measured values are outside the reference range in Y consecutive windows. The presentation support device 1 according to the first embodiment determines that target presentation is necessary when the measured values obtained from the speaker's voice are outside the reference range in Y consecutive windows. If it is determined in step S104 that the measured values are outside the reference range in Y consecutive windows (YES), the process proceeds to step S105. If it is determined that it is not outside the reference range in Y consecutive windows (NO), the determination is continued using new measured values. The number Y of windows used for determination may be arbitrarily adjusted according to the proficiency of the speaker. For example, if the speaker is a beginner, the value of Y is decreased because he/she cannot immediately respond to the presentation of the target action, and if the speaker is an expert, the value of Y is increased for more accurate judgment. can be adjusted.
 ステップS105において、プレゼンテーション支援装置1は、判定部13により、バイブレーション信号呼出指令をバイブレーション信号生成部14に出力する。バイブレーション信号呼出指令は、基準範囲から外れた(目標提示すべき)非言語的指標とその目標値とを示す情報を含む。 In step S<b>105 , the presentation support device 1 causes the determination unit 13 to output a vibration signal call command to the vibration signal generation unit 14 . The vibration signal calling command includes information indicating a non-verbal indicator (target should be presented) outside the reference range and its target value.
 ステップS106において、プレゼンテーション支援装置1は、バイブレーション信号生成部14により、バイブレーション信号呼出指令に応答して、目標提示が必要な非言語的指標の目標値に合致するバイブレーションパターンデータを判別し、バイブレーションパターンデータベース22から呼び出す。例えば、話速をガイドするリズムパターンは、正弦波区間と休止区間により構成され、連続する波数と休止期間の長さによってリズムが特徴づけられる。また例えば、抑揚をガイドする振幅変調は、値ゼロの開始点から、最大点を経て、値ゼロの終点まで、1単位の振幅変調フィルタで表現される。バイブレーション信号生成部14は、呼び出したバイブレーションパターンデータに基づいてバイブレーション信号を生成し、出力する。バイブレーション信号生成部14は、上述したように、また後述するように、複数の非言語的指標に関するバイブレーション信号を統合することができる。 In step S106, the presentation supporting apparatus 1 causes the vibration signal generation unit 14 to determine vibration pattern data that matches the target value of the nonverbal indicator that needs to be presented, in response to the vibration signal call command. Call from database 22 . For example, a rhythm pattern that guides speech speed is composed of sine wave intervals and pause intervals, and the rhythm is characterized by the number of consecutive waves and the length of the pause interval. Also, for example, the amplitude modulation that guides the intonation is represented by an amplitude modulation filter of 1 unit from a starting point with a value of zero, through a maximum point, to an end point with a value of zero. The vibration signal generator 14 generates and outputs a vibration signal based on the called vibration pattern data. The vibration signal generator 14 can integrate vibration signals relating to a plurality of non-verbal indicators, as described above and later.
 ステップS107において、プレゼンテーション支援装置1は、バイブレーションデバイス駆動部15により、バイブレーション信号生成部14によって生成されたバイブレーション信号をもとに、バイブレーションデバイス44を駆動する駆動信号を生成し出力する。バイブレーションデバイス44の一例が、話者の手首に装着されたスマートウォッチである。バイブレーションデバイス44は、例えば近距離無線通信を介してプレゼンテーション支援装置1から駆動信号を受信すると、駆動信号に従って内蔵する振動素子を駆動させ、話者の手首にバイブレーション刺激を出力する。バイブレーション刺激を出力する話者の身体部位は、手首に限られず、指、上腕、足、胴体など、他の部位であってもよい。 In step S107, the presentation supporting apparatus 1 uses the vibration device drive section 15 to generate and output a drive signal for driving the vibration device 44 based on the vibration signal generated by the vibration signal generation section 14. An example of a vibrating device 44 is a smartwatch worn on the wrist of the speaker. When the vibration device 44 receives a drive signal from the presentation support apparatus 1 via, for example, short-range wireless communication, the vibration device 44 drives a built-in vibration element according to the drive signal, and outputs a vibration stimulus to the wrist of the speaker. The part of the speaker's body that outputs the vibration stimulus is not limited to the wrist, and may be other parts such as fingers, upper arms, legs, and torso.
 図4は、バイブレーション信号生成部14により生成されるバイブレーション信号の一例を示す図である。図4では、話速をガイドするリズムパターンSPと、抑揚をガイドする振幅変調パターンFPと、が統合されて、話速と抑揚とをガイドするバイブレーション信号VSが生成される。 FIG. 4 is a diagram showing an example of the vibration signal generated by the vibration signal generator 14. FIG. In FIG. 4, the rhythm pattern SP that guides speech speed and the amplitude modulation pattern FP that guides intonation are integrated to generate a vibration signal VS that guides speech speed and intonation.
 話速をガイドするリズムパターンSPは、正弦波区間と休止区間とを含み、連続する波数と休止区間の長さとによってリズムが特徴付けられる。例えば、パターンSP1は、1拍が波数4の正弦波区間と休止区間とを含み、1秒当たり7拍が含まれるように休止区間の長さが設定されている。パターンSP2は、1拍が波数4の正弦波区間と休止区間とを含み、1秒当たり5拍が含まれるように休止区間の長さが設定されている。図示の例では、パターンSP1に比べてパターンSP2は、よりゆっくりした(低速の)話速をガイドする。パターンSP1およびパターンSP2は、基本搬送波に対してオン/オフ変調または振幅変調を行ったものと言い換えることもできる。各正弦波区間の波数は適宜調整されてよい。正弦波区間の波数は、基本搬送波に対する周波数変調によって調整可能である。話速をガイドするリズムパターンは図示の例に限られず、他の態様でリズムを表現するものであってもよい。 The rhythm pattern SP that guides the speech speed includes sine wave intervals and pause intervals, and the rhythm is characterized by the number of consecutive waves and the length of the pause interval. For example, in the pattern SP1, one beat includes a sine wave section with a wave number of 4 and a pause section, and the length of the pause section is set so that seven beats are included per second. In the pattern SP2, one beat includes a sine wave section with a wave number of 4 and a pause section, and the length of the pause section is set so that five beats are included per second. In the illustrated example, the pattern SP2 guides a slower (lower) speech speed than the pattern SP1. The pattern SP1 and the pattern SP2 can also be rephrased as those obtained by subjecting the fundamental carrier to ON/OFF modulation or amplitude modulation. The number of waves in each sine wave section may be adjusted accordingly. The number of waves in the sinusoidal section can be adjusted by frequency modulation on the fundamental carrier. The rhythm pattern that guides the speech speed is not limited to the illustrated example, and may express rhythm in other manners.
 抑揚をガイドする振幅変調パターンFPは、始点から終点までを1単位とする振幅変調フィルタで表現される。例えば、パターンFP1は、始点および終点の値がゼロで、始点から最大点まで値が線型に増加し、最大点から終点まで値が線型に減少する。パターンFP2は、極大点を3つ、極小点を2つ持ち、値ゼロの始点から、第1極大点、第1極小点、第2極大点、第2極小点、第3極大点を経て、値ゼロの終点まで、値を線型に増減させる。パターンFP1およびパターンFP2の値は、振幅値を表す。図示の例では、パターンFP1に比べてパターンFP2は、変化の多い抑揚をガイドする。各点の値や関数は、話者や言語の特性に応じて適宜調整されてよい。1単位の時間(Z秒)は任意に設定されてよい。振幅変調パターンFPは、ガイドする対象の単語またはフレーズの長さに応じて時間軸の長さを調整される。抑揚をガイドする振幅変調パターンもまた図示の例に限られず、他の態様で抑揚を表現するものであってもよい。 The amplitude modulation pattern FP that guides the intonation is represented by an amplitude modulation filter with one unit from the start point to the end point. For example, the pattern FP1 has zero values at the start and end points, linearly increases from the start point to the maximum point, and linearly decreases from the maximum point to the end point. The pattern FP2 has three local maximum points and two local minimum points. From the starting point with a value of zero, through the first local maximum point, the first local minimum point, the second local maximum point, the second local minimum point, and the third local maximum point, Increases or decreases the value linearly, up to an endpoint of zero value. The values of pattern FP1 and pattern FP2 represent amplitude values. In the example shown, pattern FP2 guides more varied intonations than pattern FP1. The value and function of each point may be appropriately adjusted according to the characteristics of the speaker and language. One unit of time (Z seconds) may be set arbitrarily. The amplitude modulation pattern FP has its time axis length adjusted according to the length of the word or phrase to be guided. The amplitude modulation pattern that guides intonation is also not limited to the illustrated example, and may express intonation in other manners.
 バイブレーション信号VSは、リズムパターンSP1を搬送波として用い、振幅変調パターンFP1を変調フィルタとして用いて統合された波形イメージの一例である。バイブレーション信号VSは、話速と抑揚の両方を非言語的な刺激を介して同時にガイドすることができる。 The vibration signal VS is an example of a waveform image integrated using the rhythm pattern SP1 as a carrier wave and the amplitude modulation pattern FP1 as a modulation filter. The vibration signal VS can simultaneously guide both speech rate and intonation via non-verbal stimuli.
 図4は一例にすぎず、リズムパターンSPだけまたは振幅変調パターンFPだけを含む指示信号が生成されてもよいし、バイブレーション信号VSにさらにアクセント振動またはマーカ振動が統合されてもよい。話者の発話開始から1分間は、話速だけを監視およびガイドし、発話開始から1分経過後は話速と振幅の両方を監視およびガイドする、といった設計も可能である。 FIG. 4 is only an example, and an instruction signal including only the rhythm pattern SP or only the amplitude modulation pattern FP may be generated, or the vibration signal VS may be further integrated with accent vibration or marker vibration. A design is also possible in which only the speech rate is monitored and guided for one minute from the start of the speaker's speech, and both the speech rate and amplitude are monitored and guided after one minute has elapsed from the start of speech.
 (3)効果
 以上詳述したように、発明の第1実施形態に係る情報処理装置は、プレゼンテーション等を行っている話者に対し、話者の音声信号から計測される非言語的指標の計測値が理想的な発話における非言語的指標の基準範囲から外れる場合に、目標値を表す非言語情報を含む指示信号を出力する。指示信号は、話者が知覚可能な非言語的な刺激として、話者の音声信号から計測される計測値を理想的な値に導くようにガイドする。話者は、発話しながら非言語的なフィードバックをリアルタイムで受け取ることができ、目標行動を直感的に理解し、スキル改善を図ることができる。
(3) Effect As described in detail above, the information processing apparatus according to the first embodiment of the present invention measures a non-verbal index measured from the speech signal of the speaker who is giving a presentation or the like. An indication signal containing non-verbal information representing a target value is output when the value falls outside the reference range for non-verbal indicators in ideal speech. The instruction signal is a non-verbal stimulus perceivable by the speaker and guides the measured value measured from the speaker's speech signal to an ideal value. The speaker can receive non-verbal feedback in real time while speaking, intuitively understand the target behavior, and improve the skill.
 したがって、この発明の第1実施形態では、言語処理に多くの認知資源を費やしている話者に対し、言語処理への干渉の少ない態様で目標行動(理想的な発話方法)を伝えることができる。 Therefore, in the first embodiment of the present invention, it is possible to convey the target behavior (ideal utterance method) to a speaker who spends a lot of cognitive resources on language processing in a manner that does not interfere with language processing. .
 [第2実施形態]
 次に、第2実施形態について、主に第1実施形態と相違する構成および動作について説明する。
[Second embodiment]
Next, the configuration and operation of the second embodiment, which are mainly different from those of the first embodiment, will be described.
 (1)構成
 (1-1)システム構成
 図5は、第2実施形態に係る情報処理装置を備えるシステムの構成の一例を示す図である。このシステムもまた、発話における非言語的指標の目標値を表す非言語情報を含む指示信号を介して、話者に目標行動を提示する。目標行動は、理想的な発話方法と言い換えられてもよい。第1実施形態とは異なり、第2実施形態では、システムは、あらかじめ、話者の発話予定内容を表すテキストデータに非言語的指標を関連付け、発話タイミングに合わせて指示信号を出力する。第1実施形態と同様に、以下では話者が聴衆に向けてプレゼンテーションを行う状況を想定して説明するが、これに限られない。このシステムは、1対多のパブリックスピーキングの状況に加え、1対1のコミュニケーションの状況にも適用可能である。また以下では、目標行動の提示方法として、振動(バイブレーション)により触覚的刺激を与える例を説明するが、やはりこれに限られず、画像表示による視覚的刺激、または音声出力による聴覚的刺激などが用いられてもよい。
(1) Configuration (1-1) System Configuration FIG. 5 is a diagram showing an example of the configuration of a system including an information processing device according to the second embodiment. This system also presents a target behavior to the speaker via instructional signals containing non-verbal information representing target values for non-verbal indicators in the utterance. A target behavior may be rephrased as an ideal speaking method. Unlike the first embodiment, in the second embodiment, the system associates non-verbal indicators in advance with the text data representing the contents of the speaker's planned utterance, and outputs an instruction signal in accordance with the utterance timing. Similar to the first embodiment, the following description assumes a situation in which a speaker gives a presentation to an audience, but the present invention is not limited to this. The system is applicable to one-to-many public speaking situations as well as one-to-one communication situations. In the following, as a method of presenting the target action, an example of giving tactile stimulation by vibration will be explained, but this is not limited to this, and visual stimulation by image display, auditory stimulation by voice output, etc. can be used. may be
 図5のシステムは、第2実施形態に係る情報処理装置としてのプレゼンテーション支援装置2と、入力装置41、出力装置42、マイクロホン43、バイブレーションデバイス44、およびプレゼンテーション装置(プレゼン装置)45を含む。入力装置41、出力装置42、マイクロホン43およびバイブレーションデバイス44は、第1実施形態で説明したのと同様であるので、詳細な説明は省略する。 The system of FIG. 5 includes a presentation support device 2 as an information processing device according to the second embodiment, an input device 41, an output device 42, a microphone 43, a vibration device 44, and a presentation device (presentation device) 45. Since the input device 41, the output device 42, the microphone 43 and the vibration device 44 are the same as those described in the first embodiment, detailed description thereof will be omitted.
 プレゼン装置45は、例えばパーソナルコンピュータであり、プレゼンテーションに際して話者または補助者等により使用される。プレゼン装置45には、例えばスライド再生用のソフトウェアがインストールされており、スライド資料に含まれる画像または音声を出力する。プレゼン装置45は、スライド番号、スライド切替情報、アニメーション表示情報など、プレゼンテーションの進行に関する情報を取得し、出力することができる。 The presentation device 45 is, for example, a personal computer, and is used by the speaker or an assistant during the presentation. The presentation device 45 is installed with, for example, software for reproducing slides, and outputs images or sounds included in the slide materials. The presentation device 45 can acquire and output information regarding the progress of the presentation, such as slide numbers, slide switching information, and animation display information.
 なお、入力装置41、出力装置42、マイクロホン43、バイブレーションデバイス44、およびプレゼン装置45のうちの1または複数は、一体的に構成されてもよいし、プレゼンテーション支援装置2に内蔵されてもよい。 One or more of the input device 41, the output device 42, the microphone 43, the vibration device 44, and the presentation device 45 may be configured integrally or may be built into the presentation support device 2.
 (1-2)プレゼンテーション支援装置の機能構成
 次いで、プレゼンテーション支援装置2の機能について説明する。プレゼンテーション支援装置2は、例えば、パーソナルコンピュータによって構成される。図5に示すように、プレゼンテーション支援装置2は、制御部10と、記憶部20と、入出力インタフェース30と、を備える。
(1-2) Functional Configuration of Presentation Support Device Next, functions of the presentation support device 2 will be described. The presentation support device 2 is configured by, for example, a personal computer. As shown in FIG. 5 , the presentation support device 2 includes a control section 10 , a storage section 20 and an input/output interface 30 .
 入出力インタフェース30は、第1実施形態でプレゼンテーション支援装置1に関して説明したのと同様に、プレゼンテーション支援装置2と外部装置との間でデータの入出力を行う。入出力インタフェース30は、USBポート、ケーブル接続端子、カードスロット、または通信インタフェース等を介してプレゼン装置45に接続され、プレゼン装置45から出力されたスライド番号等のプレゼンテーションの進行に関する情報を取り込むことができる。 The input/output interface 30 inputs and outputs data between the presentation support device 2 and an external device in the same manner as the presentation support device 1 in the first embodiment. The input/output interface 30 is connected to the presentation device 45 via a USB port, a cable connection terminal, a card slot, a communication interface, or the like, and can capture information relating to the progress of the presentation, such as slide numbers, output from the presentation device 45 . can.
 記憶部20は、非言語計画データベース21、バイブレーションパターンデータベース22およびバイブレーション信号記憶部23を備える。 
 非言語計画データベース21およびバイブレーションパターンデータベース22は、第1実施形態でプレゼンテーション支援装置1に関して説明したのと同様であるので、詳細な説明は省略する。
The storage unit 20 includes a non-language plan database 21 , a vibration pattern database 22 and a vibration signal storage unit 23 .
The non-language plan database 21 and the vibration pattern database 22 are the same as those described with respect to the presentation support device 1 in the first embodiment, so detailed description thereof will be omitted.
 バイブレーション信号記憶部23は、バイブレーション信号生成部105によって生成されたバイブレーション信号を、話者の発話予定内容を表すテキストデータに含まれる単語またはフレーズに関連付けて記憶する。バイブレーション信号記憶部23もまた、プレゼンテーション支援装置2に内蔵される必要はなく、ネットワークを介してプレゼンテーション支援装置2に接続されてもよい。 The vibration signal storage unit 23 stores the vibration signal generated by the vibration signal generation unit 105 in association with the words or phrases included in the text data representing the planned utterance content of the speaker. The vibration signal storage unit 23 also need not be built in the presentation support device 2, and may be connected to the presentation support device 2 via a network.
 制御部10は、第2実施形態に係る機能部として、言語計画取得部101、非言語計画合成部102、非言語計画提示部103、操作受付部104、バイブレーション信号生成部105、進行トラッキング部106、タイミング計算部107、信号呼出部108およびバイブレーションデバイス駆動部109を含む。 The control unit 10 includes, as functional units according to the second embodiment, a language plan acquisition unit 101, a non-language plan synthesis unit 102, a non-language plan presentation unit 103, an operation reception unit 104, a vibration signal generation unit 105, and a progress tracking unit 106. , a timing calculator 107 , a signal caller 108 and a vibration device driver 109 .
 言語計画取得部101は、入力装置41またはプレゼン装置45から、入出力インタフェース30を介して、話者の言語計画を取得する。言語計画は、ここでは、発話予定内容を表すテキスト情報(テキストデータ)を指す。言語計画取得部101は、話者の発話予定内容を表すテキスト情報を取得する第3取得部の一例である。 The language plan acquisition unit 101 acquires the speaker's language plan from the input device 41 or the presentation device 45 via the input/output interface 30 . The language plan here refers to text information (text data) representing scheduled utterance contents. The language plan acquisition unit 101 is an example of a third acquisition unit that acquires text information representing the planned utterance contents of the speaker.
 非言語計画合成部102は、非言語計画データベース21からパブリックスピーキングにおいて一般的に理想とされる音声の非言語的指標の目標値を読み出し、非言語計画として、テキスト情報に含まれる単語またはフレーズに関連付ける処理を行う。ここではこのように言語計画に非言語計画を関連付ける処理を合成と呼ぶ。非言語計画は、ここでは言語計画に関連付けられる非言語的指標またはその目標値を指す。非言語計画合成部102は、テキスト情報に含まれる単語またはフレーズに対して目標値を関連付ける合成部の一例である。非言語計画合成部102はまた、発話における非言語的指標の目標値を取得する第1取得部の一例でもある。テキスト情報において、非言語的指標の目標値を関連付けられる単語またはフレーズは、複数存在してもよいし、重複があってもよい。また、1つの単語に対して複数種類の非言語的指標の目標値が関連付けられてもよい。例えば、単語Aに対して強調の目標値が関連付けられ、さらに単語Aを包含するフレーズBに対して話速の目標値が関連付けられてもよい。なお、第1実施形態と同様、単語またはフレーズは、説明の便宜上の表現にすぎず、1または複数の単語を含むひとかたまりの言語(語、句、節、文)と読み替えられてもよい。 The non-language plan synthesizing unit 102 reads target values of non-verbal indicators of speech that are generally ideal in public speaking from the non-language plan database 21, and converts them into words or phrases included in the text information as non-language plans. Perform the process of associating. Here, the process of associating a language plan with a non-language plan is called synthesis. A non-verbal plan here refers to the non-verbal indicators associated with the language plan or their target values. The non-language plan synthesizing unit 102 is an example of a synthesizing unit that associates target values with words or phrases included in text information. The non-verbal plan synthesizing unit 102 is also an example of a first acquisition unit that acquires target values of non-verbal indicators in speech. In the text information, there may be multiple words or phrases associated with the target value of the non-linguistic index, or there may be overlaps. Also, one word may be associated with target values of multiple types of non-verbal indices. For example, a word A may be associated with an emphasis target value, and a phrase B including the word A may be associated with a speaking speed target value. As in the first embodiment, the word or phrase is merely an expression for convenience of explanation, and may be read as a group of language (word, phrase, clause, sentence) including one or more words.
 非言語計画提示部103は、言語計画に対して関連付けられた非言語計画を初期設定としてユーザに提示する。非言語計画提示部103は、テキスト情報に含まれる単語またはフレーズに対して関連付けられた非言語的指標またはその目標値を提示する、提示部の一例である。 The non-language plan presentation unit 103 presents the non-language plan associated with the language plan to the user as an initial setting. The non-verbal plan presenting unit 103 is an example of a presenting unit that presents non-verbal indicators or their target values associated with words or phrases included in text information.
 操作受付部104は、非言語計画の初期設定に対するユーザの操作を受け付ける。操作受付部104は、目標値の変更要求を受け付ける受付部の一例である。ユーザの操作は、目標値の変更要求を含む。操作受付部104は、ユーザの操作を反映した、言語計画と非言語計画の関連付けを含む設定データを生成する。 The operation reception unit 104 receives user's operations for the initial settings of the non-language plan. The operation reception unit 104 is an example of a reception unit that receives a change request for the target value. The user's operation includes a request to change the target value. The operation reception unit 104 generates setting data that reflects the user's operation and includes an association between the language plan and the non-language plan.
 バイブレーション信号生成部105は、設定データに基づき、非言語的指標の目標値を表す非言語情報を含むバイブレーション信号を生成する。バイブレーション信号生成部105は、非言語的指標の目標値を表す非言語情報を含む指示信号を生成する生成部の一例である。バイブレーション信号生成部105は、生成したバイブレーション信号をバイブレーション信号記憶部23に保存する。 The vibration signal generation unit 105 generates a vibration signal including nonverbal information representing the target value of the nonverbal index based on the setting data. The vibration signal generation unit 105 is an example of a generation unit that generates an instruction signal including nonverbal information representing the target value of the nonverbal index. The vibration signal generation unit 105 saves the generated vibration signal in the vibration signal storage unit 23 .
 進行トラッキング部106は、マイクロホン43から取得される話者の発話に係る音声情報を音声認識によりテキストデータに変換し、言語計画として取得したテキストデータと対比して、プレゼンテーションの進行状況を判定(トラッキング)する。進行トラッキング部106は、補足的に、または代替的に、プレゼン装置45から取得されるスライド番号等の情報を用いることもできる。 The progress tracking unit 106 converts the voice information related to the speaker's utterance acquired from the microphone 43 into text data by voice recognition, compares it with the text data acquired as the language plan, and judges the progress of the presentation (tracking data). )do. Progress tracking unit 106 may additionally or alternatively use information such as slide numbers obtained from presentation device 45 .
 タイミング計算部107は、音声認識により得られたテキストデータと言語計画とを照合し、指示信号を出力すべき指示タイミングを計算する。指示タイミングは、非言語計画を関連付けられた単語またはフレーズが発話される発話タイミングと読み換えられてもよい。タイミング計算部107は、話者の発話において目標値が関連付けられた単語またはフレーズの発話タイミングを計算する、計算部の一例である。タイミング計算部107は、指示タイミングに関する情報を含むバイブレーション信号呼出指令を出力する。 The timing calculation unit 107 compares the text data obtained by speech recognition with the language plan, and calculates the instruction timing for outputting the instruction signal. Instruction timing may be translated as speech timing at which the word or phrase associated with the non-verbal plan is spoken. The timing calculator 107 is an example of a calculator that calculates the utterance timing of a word or phrase associated with a target value in the utterance of the speaker. Timing calculation unit 107 outputs a vibration signal call command including information about command timing.
 信号呼出部108は、バイブレーション信号呼出指令に応答して、バイブレーション信号記憶部23から必要なバイブレーション信号を呼び出し、統合し、出力する。 The signal calling unit 108 calls, integrates, and outputs the necessary vibration signals from the vibration signal storage unit 23 in response to the vibration signal calling command.
 バイブレーションデバイス駆動部109は、バイブレーションデバイス駆動部15と同様に、バイブレーション信号に基づく駆動信号を生成し、出力する。バイブレーションデバイス駆動部109は、指示タイミングに関連して(例えば、指示タイミングにおいてまたは指示タイミングよりも所定の時間前に)駆動信号を出力する。駆動信号もまた、非言語的指標の目標値を表す非言語情報を含むので、指示信号の一例と言うことができる。バイブレーションデバイス駆動部109は、話者が知覚可能な刺激として指示信号を出力する出力部の一例である。 The vibration device drive section 109, like the vibration device drive section 15, generates and outputs a drive signal based on the vibration signal. The vibration device driving section 109 outputs a drive signal in relation to the instruction timing (for example, at the instruction timing or a predetermined time before the instruction timing). The drive signal also includes non-verbal information representing the target value of the non-verbal indicator, and thus can be said to be an example of the instruction signal. The vibration device drive unit 109 is an example of an output unit that outputs an instruction signal as a stimulus perceivable by the speaker.
 (1-3)ハードウェア構成
 第2実施形態に係るプレゼンテーション支援装置2は、第1実施形態でプレゼンテーション支援装置1に関して説明したのと同様のハードウェア構成を備えることができる。
(1-3) Hardware Configuration The presentation support device 2 according to the second embodiment can have the same hardware configuration as explained for the presentation support device 1 in the first embodiment.
 (2)動作
 次に、以上のように構成されたプレゼンテーション支援装置2による情報処理動作について説明する。プレゼンテーション支援装置2による動作は、プレゼンテーション前にあらかじめ指示信号を生成する動作と、保存された指示信号をプレゼンテーション中に出力する動作と、を含む。
(2) Operation Next, an information processing operation by the presentation support device 2 configured as described above will be described. The operation by the presentation support device 2 includes an operation of generating an instruction signal in advance before the presentation and an operation of outputting the saved instruction signal during the presentation.
 (2-1)指示信号の生成
 図6は、プレゼンテーション支援装置2による指示信号の生成に関連する処理の一例を示すフローチャートである。非言語計画データベース21およびバイブレーションパターンデータベース22には、あらかじめ処理に必要なデータが格納されているものとする。
(2-1) Generation of Instruction Signal FIG. 6 is a flow chart showing an example of processing related to generation of an instruction signal by the presentation support device 2 . It is assumed that the non-language plan database 21 and the vibration pattern database 22 store data necessary for processing in advance.
 まずステップS201において、プレゼンテーション支援装置2は、制御部10の制御の下、言語計画取得部101により、言語計画を取得する。言語計画取得部101は、例えば、話者等のユーザにより入力装置41またはプレゼン装置45に入力されたテキストデータを、入出力インタフェース30を介して受け取ることにより、言語計画(テキスト情報)を取得する。 First, in step S201, the presentation support device 2 acquires a language plan using the language plan acquisition section 101 under the control of the control section 10. The language plan acquisition unit 101 acquires a language plan (text information) by, for example, receiving text data input to the input device 41 or the presentation device 45 by a user such as a speaker via the input/output interface 30. .
 ステップS202において、プレゼンテーション支援装置2は、非言語計画合成部102により、言語計画に非言語計画を合成する。例えば、非言語計画合成部102は、テキストデータに含まれる文章の構造を解析し、非言語計画データベース21に蓄積された情報をもとに、非言語計画を関連付けるべき単語またはフレーズを特定して、非言語計画データベース21から読み出した非言語的指標の目標値を関連付ける。文章構造の解析には、一般に知られている技術が使用されてよい。非言語計画を関連付けるべき単語またはフレーズとしては、例えば、文章構造上、重要な単語またはフレーズ、特定の固有名詞、話題転換や結論を示唆するフレーズ等が含まれる。非言語計画合成部102は、ステップS202の合成処理として、例えば、この単語は強調して発話する(例えば、単語区間Pは平均音圧レベルに対して比率Q以上の音圧レベル)、このフレーズはゆっくり発話する(例えば、単位時間当たりのモーラ数R以下)、といった非言語的指標の目標値がテキストデータに関連付けられた、初期設定データを作成する。 In step S202, the presentation support device 2 synthesizes the language plan with the non-language plan using the non-language plan synthesizing unit 102 . For example, the non-language plan synthesizing unit 102 analyzes the structure of sentences included in the text data, and based on the information accumulated in the non-language plan database 21, identifies words or phrases to which the non-language plan should be associated. , target values of the non-verbal indicators read from the non-verbal plan database 21 are associated. A generally known technique may be used to analyze the sentence structure. Words or phrases to which the non-verbal plan should be associated include, for example, structurally important words or phrases, specific proper nouns, phrases suggesting a change of topic or a conclusion, and the like. In the synthesis process of step S202, the non-language plan synthesizing unit 102, for example, emphasizes this word and utters it (for example, the word section P has a sound pressure level equal to or greater than the ratio Q to the average sound pressure level), and this phrase Creates initial setting data in which a target value of a nonverbal index such as speaking slowly (for example, the number of moras per unit time is R or less) is associated with text data.
 ステップS203において、プレゼンテーション支援装置2は、非言語計画提示部103により、初期設定データをもとに表示データを生成し、出力装置42に出力する。例えば、非言語計画提示部103は、話者の発話予定内容を表すテキストデータと、関連付けられた非言語的指標またはその目標値と、の関係を視覚的に表示する表示データを生成し、ディスプレイ等のユーザインタフェースを通じてユーザに提示する。ユーザへの提示方法は、視覚的表示に限定されない。追加的にまたは代替的に、非言語計画提示部103は、初期設定データをもとに、非言語的指標の目標値を反映した発話予定内容の合成音声を生成し、スピーカ等から出力してもよい。 In step S<b>203 , the presentation support device 2 uses the non-language plan presentation unit 103 to generate display data based on the initial setting data, and outputs the display data to the output device 42 . For example, the non-verbal plan presenting unit 103 generates display data that visually displays the relationship between text data representing the planned utterance content of the speaker and the associated non-verbal index or its target value, and displays Presented to the user through a user interface such as The presentation method to the user is not limited to visual display. Additionally or alternatively, the non-verbal plan presenting unit 103 generates synthesized speech of scheduled utterance contents reflecting target values of non-verbal indicators based on the initial setting data, and outputs the synthesized speech from a speaker or the like. good too.
 ステップS204において、プレゼンテーション支援装置2は、操作受付部104により、ユーザの操作を受け付ける。ユーザの操作は、初期設定データに含まれる単語またはフレーズと非言語的指標との関連付けについて、例えば、ユーザが1つ1つ採否を決定する、関連付けを破棄する、関連付けを追加する、関連付けの対応関係を変更する、または具体的な目標値を変更する、等の処理を含む。ステップS204の処理は、プレゼンテーション支援装置2が作成した、言語計画と非言語計画の関連付けの初期設定に対して、ユーザの変更要求を受け付ける処理と言い換えることができる。ステップS204の処理は、初期設定を変更なしにそのまま採用するというユーザの指示を受け付けるものでもよい。操作受付部104は、キーボードまたはマウス等の入力装置41を介して、ユーザの操作を受け付ける。操作受付部104はまた、マイクロホン43を介して入力された音声コマンドを介してユーザの操作を受け付けてもよい。操作受付部104は、言語計画と非言語計画とを関連付ける初期設定データに対してユーザから受け付けた操作を反映し、反映後の設定データをバイブレーション信号生成部105に渡す。 In step S204, the presentation support device 2 receives the user's operation through the operation reception unit 104. User operations include, for example, the user deciding whether to adopt each word or phrase included in the initial setting data and the non-linguistic index, discarding the association, adding an association, and responding to the association. This includes processing such as changing relationships or changing specific target values. The process of step S204 can be rephrased as a process of receiving a change request from the user for the initial setting of the association between the language plan and the non-language plan created by the presentation support device 2 . The process of step S204 may accept a user's instruction to adopt the initial settings without change. The operation reception unit 104 receives a user's operation via the input device 41 such as a keyboard or mouse. The operation accepting unit 104 may also accept user operations via voice commands input via the microphone 43 . The operation reception unit 104 reflects the operation received from the user on the initial setting data that associates the language plan and the non-language plan, and passes the reflected setting data to the vibration signal generation unit 105 .
 ステップS205において、プレゼンテーション支援装置2は、バイブレーション信号生成部105により、受け取った設定データに含まれる非言語指標の目標値に基づき、バイブレーションパターンデータベース22から必要なバイブレーションパターンデータを呼び出し、バイブレーション信号を生成する。例えば、バイブレーション信号生成部105は、設定データに含まれる非言語的指標の目標値に合致するバイブレーションパターンデータを判別し、バイブレーションパターンデータベース22から呼び出す。バイブレーション信号生成部105はまた、呼び出したバイブレーションパターンデータを、各単語または各フレーズのモーラ数に合わせて調整し、バイブレーション信号を生成する。生成されるバイブレーション信号は、非言語的指標の目標値を表す非言語情報を含む指示信号の一例である。バイブレーション信号生成部105は、生成したバイブレーション信号を、言語計画中の単語またはフレーズに関連付けてバイブレーション信号記憶部23に保存する。 In step S205, the presentation support device 2 causes the vibration signal generation unit 105 to call up necessary vibration pattern data from the vibration pattern database 22 based on the target value of the non-verbal index included in the received setting data, and generate a vibration signal. do. For example, the vibration signal generator 105 determines vibration pattern data that matches the target value of the non-verbal index included in the setting data, and calls it from the vibration pattern database 22 . The vibration signal generation unit 105 also adjusts the called vibration pattern data according to the number of moras of each word or each phrase to generate a vibration signal. The generated vibration signal is an example of an instruction signal containing nonverbal information representing a target value of the nonverbal index. The vibration signal generation unit 105 stores the generated vibration signal in the vibration signal storage unit 23 in association with the word or phrase in language planning.
 (2-2)指示信号の出力
 図7は、プレゼンテーション支援装置2による指示信号の出力に関連する処理の一例を示すフローチャートである。バイブレーション信号記憶部23には、言語計画に関連付けられたバイブレーション信号が保存されており、言語計画に基づくプレゼンテーションが話者により進行されているものとする。 
 まずステップS301において、プレゼンテーション支援装置2は、制御部10の制御の下、進行トラッキング部106により、プレゼンテーションの進行状況をトラッキングする。進行トラッキング部106は、マイクロホン43から取得した話者の発話に係る音声信号を、例えば既存の音声認識ソフトウェア等を用いてテキストデータに変換し、あらかじめ取得した発話予定内容を表すテキストデータと対比することによって、プレゼンテーションの進行状況を判定する。追加的にまたは代替的に、進行トラッキング部106は、プレゼン装置45から出力されたスライド番号、スライド切替情報、アニメーション表示情報など、プレゼンテーションの進行に関する情報に基づき、プレゼンテーションの進行状況を判定することができる。
(2-2) Output of Instruction Signal FIG. 7 is a flow chart showing an example of processing related to the output of an instruction signal by the presentation support device 2 . It is assumed that the vibration signal storage unit 23 stores a vibration signal associated with the language plan, and that the speaker is making a presentation based on the language plan.
First, in step S<b>301 , the presentation support device 2 tracks the progress of the presentation using the progress tracking unit 106 under the control of the control unit 10 . The progress tracking unit 106 converts the speech signal related to the speaker's utterance obtained from the microphone 43 into text data using, for example, existing speech recognition software, and compares it with the text data representing the scheduled speech content obtained in advance. By doing so, the progress of the presentation is determined. Additionally or alternatively, the progress tracking unit 106 may determine the progress of the presentation based on information relating to the progress of the presentation output from the presentation device 45, such as slide numbers, slide switching information, animation display information, and the like. can.
 ステップS302において、プレゼンテーション支援装置2は、タイミング計算部107により、言語計画(テキストデータ)と音声認識されたテキストデータとを照合し、指示信号を出力すべき指示タイミングを計算する。タイミング計算部107は、マイクロホン43を介して取得される話者の発話音声から、話者の話速を計測し、補足的に話速に基づいて指示タイミングを計算してもよい。 In step S302, the presentation support device 2 uses the timing calculation unit 107 to compare the language plan (text data) with the speech-recognized text data, and calculates the instruction timing for outputting the instruction signal. The timing calculation unit 107 may measure the speech speed of the speaker from the speech voice of the speaker acquired via the microphone 43, and additionally calculate the instruction timing based on the speech speed.
 ステップS303において、プレゼンテーション支援装置2は、タイミング計算部107により、プレゼンテーションの進行を監視し、非言語的指標の目標値が関連付けられた単語またはフレーズの指示タイミングを検知すると(YES)、ステップS304に進む。タイミング計算部107は、指示タイミングが検知されるまで(NO)、引き続き進行を監視する。 In step S303, the presentation supporting apparatus 2 monitors the progress of the presentation by means of the timing calculation unit 107, and upon detecting the instruction timing of the word or phrase associated with the target value of the non-verbal index (YES), proceeds to step S304. move on. The timing calculator 107 continues to monitor the progress until the instruction timing is detected (NO).
 ステップS304において、プレゼンテーション支援装置2は、タイミング計算部107により、信号呼出部108に対してバイブレーション信号呼出指令を出力する。バイブレーション信号呼出指令は、検知された指示タイミングの対象である、言語計画中の単語またはフレーズを指定する情報を含む。 In step S304, the presentation support device 2 uses the timing calculation unit 107 to output a vibration signal call command to the signal call unit . The vibration signal call command contains information specifying the word or phrase in the language plan that is the subject of the sensed command timing.
 ステップS305において、プレゼンテーション支援装置2は、信号呼出部108により、バイブレーション信号記憶部23から、バイブレーション信号呼出指令において指定された単語またはフレーズに関連付けられたバイブレーション信号を呼び出し、出力する。信号呼出部108はまた、複数の非言語的指標に関するバイブレーション信号を統合して出力することができる。信号呼出部108は、第1実施形態においてバイブレーション信号生成部14に関して説明したのと同様に、例えば、話速をガイドする正弦波振動を搬送波とし、この搬送波に対して抑揚をガイドする振幅変調フィルタをかけることにより、バイブレーション信号を統合し、出力する。統合処理は、図6のステップS205においてバイブレーション信号生成部105によって実行されてもよい。この場合、統合されたバイブレーション信号がバイブレーション信号記憶部23に格納される。 In step S305, the presentation support device 2 causes the signal calling unit 108 to call the vibration signal associated with the word or phrase specified in the vibration signal call command from the vibration signal storage unit 23 and output it. The signal calling unit 108 can also integrate and output vibration signals related to a plurality of nonverbal indicators. The signal calling unit 108 uses, for example, a sinusoidal vibration that guides the speed of speech as a carrier wave, and an amplitude modulation filter that guides intonation for this carrier wave, in the same manner as the vibration signal generation unit 14 in the first embodiment. By applying , the vibration signal is integrated and output. The integration process may be performed by the vibration signal generator 105 in step S205 of FIG. In this case, the integrated vibration signal is stored in the vibration signal storage unit 23 .
 ステップS306において、プレゼンテーション支援装置2は、バイブレーションデバイス駆動部109により、第1実施形態と同様に、バイブレーション信号に基づく駆動信号を生成し、出力する。 In step S306, the presentation supporting apparatus 2 uses the vibration device drive unit 109 to generate and output a drive signal based on the vibration signal, as in the first embodiment.
 1または複数の種類の非言語的指標が言語計画(テキスト情報)に対して関連付けられてよい。また、単語またはフレーズごとに異なる非言語的指標が関連付けられてよい。例えば、言語計画全体にわたってある特定の単語について所定のアクセントをガイドする、言語計画の開始部分では話速をガイドする、言語計画の結論部分では抑揚をガイドする、またはこれらを組み合わせる、といった自由な設計が可能である。 One or more types of non-verbal indicators may be associated with the language plan (textual information). Also, different non-verbal indicators may be associated with each word or phrase. Free design, e.g. guiding a given accent for a particular word throughout the language plan, guiding speech rate at the beginning of the language plan, guiding intonation at the conclusion of the language plan, or a combination of these. is possible.
 (3)効果
 以上詳述したように、発明の第2実施形態では、発話予定内容を表すテキストデータに対して非言語的指標の目標値を関連付け、ユーザからの変更要求を反映した上で、目標値を表す非言語情報を含む指示信号をあらかじめ生成しておき、プレゼンテーション等を行っている話者に対して指示信号を適切なタイミングで出力することによって、目標行動を提示する。指示信号は、非言語的な態様で、プレゼンテーション等を行っている話者の発話方法を理想的な値に導くようにガイドする。話者は、発話予定内容に基づいてあらかじめ生成された指示信号を、実際の発話中に受け取ることができ、目標行動を直感的に理解し、理想的な発話の実現に努めることができる。
(3) Effect As described in detail above, in the second embodiment of the invention, after associating the target value of the non-verbal index with the text data representing the scheduled utterance content and reflecting the change request from the user, A command signal containing non-verbal information representing a target value is generated in advance, and the target behavior is presented by outputting the command signal at an appropriate timing to a speaker who is giving a presentation or the like. The instruction signal guides, in a non-verbal manner, the speaking method of the speaker who is giving a presentation or the like to an ideal value. The speaker can receive an instruction signal generated in advance based on the planned speech content during the actual speech, intuitively understand the target behavior, and strive to realize the ideal speech.
 したがって、この発明の第2実施形態では、言語処理に多くの認知資源を費やしている話者に対し、言語処理への干渉の少ない態様で目標行動(理想的な発話方法)を伝えることができる。 Therefore, in the second embodiment of the present invention, it is possible to convey the target behavior (ideal utterance method) to a speaker who spends a lot of cognitive resources on language processing in a manner that does not interfere with language processing. .
 [他の実施形態]
 なお、この発明は上記実施形態に限定されるものではない。 
 例えば、話者に目標行動を提示するための指示信号として、手首に装着されたスマートウォッチを介して話者にバイブレーション刺激を与える例を挙げて記載した。上述したように、バイブレーション刺激を与える身体の部位は、手首に限られず、指、上腕、足、胴体など、他の部位でもよい。またバイブレーションデバイス44は、スマートウォッチに限られず、他の携帯デバイスであってもよい。
[Other embodiments]
In addition, this invention is not limited to the said embodiment.
For example, as an instruction signal for presenting a target action to a speaker, an example of giving a vibration stimulus to the speaker via a smartwatch worn on the wrist has been described. As described above, the part of the body to which the vibration stimulus is applied is not limited to the wrist, but may be other parts such as the fingers, upper arm, leg, and torso. Also, the vibration device 44 is not limited to a smart watch, and may be another portable device.
 上述したように、指示信号は、バイブレーション刺激に限られず、話者が知覚可能な態様で出力されればよい。例えば、図4に例示したようなバイブレーションパターンまたはバイブレーション信号波形は、視覚的刺激または聴覚的刺激にも適用可能である。一例として、話者が発話中に視認可能なオブジェクトを小型モニタやスマートグラス等のディスプレイに表示し、バイブレーション信号VSの波形に従って表示オブジェクトの色、明るさ、大きさ、または形状等を変化させてもよい。他の例として、話者が発話中に聴取可能な音をイヤホン、ヘッドホン、または小型の指向性スピーカ等から出力し、バイブレーション信号VSの波形に従って音の高さまたは大きさ等を変化させてもよい。あるいはバイブレーション信号VSの波形そのものを画像表示させてもよい。またこのような視覚的刺激、聴覚的刺激および触覚的刺激は、組み合わせて用いられてもよい。 As described above, the instruction signal is not limited to vibration stimulation, and may be output in a manner perceivable by the speaker. For example, the vibration patterns or vibration signal waveforms illustrated in FIG. 4 are also applicable to visual or auditory stimuli. As an example, an object visible to the speaker while speaking is displayed on a display such as a small monitor or smart glasses, and the color, brightness, size, shape, etc. of the displayed object are changed according to the waveform of the vibration signal VS. good too. As another example, audible sounds may be output from earphones, headphones, or a small directional speaker while the speaker is speaking, and the pitch or volume of the sound may be changed according to the waveform of the vibration signal VS. good. Alternatively, the waveform of the vibration signal VS itself may be displayed as an image. Also, such visual, auditory and tactile stimuli may be used in combination.
 プレゼンテーション支援装置1または2が備える機能部を複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。 The functional units included in the presentation support device 1 or 2 may be distributed to a plurality of devices, and these devices may cooperate with each other to perform processing. Also, each functional unit may be realized by using a circuit. A circuit may be a dedicated circuit that implements a specific function, or it may be a general-purpose circuit such as a processor.
 さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてよい。 Furthermore, the flow of each process described above is not limited to the described procedures, and the order of some steps may be changed, and some steps may be performed in parallel. . Also, the series of processes described above need not be executed consecutively in terms of time, and each step may be executed at any timing.
 以上で記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体(記憶媒体)に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブル、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。上記装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。 The method described above can be executed by a computer (computer) as a program (software means), such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, MO, etc.) , semiconductor memory (ROM, RAM, flash memory, etc.) or other recording medium (storage medium), or can be transmitted and distributed via a communication medium. The programs stored on the medium also include a setting program for configuring software means (including not only execution programs but also tables and data structures) to be executed by the computer. A computer that realizes the above apparatus reads a program recorded on a recording medium, and in some cases, builds software means by a setting program, and executes the above-described processes by controlling the operation of the software means. The term "recording medium" as used herein is not limited to those for distribution, and includes storage media such as magnetic disks, semiconductor memories, etc. provided in computers or devices connected via a network.
 なお、この発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 It should be noted that the present invention is not limited to the above-described embodiments, and various modifications can be made in the implementation stage without departing from the gist of the invention. Further, each embodiment may be implemented in combination as appropriate, in which case the combined effect can be obtained. Furthermore, various inventions are included in the above embodiments, and various inventions can be extracted by combinations selected from a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiments, if the problem can be solved and effects can be obtained, the configuration with the constituent elements deleted can be extracted as an invention.
 1…プレゼンテーション支援装置、
10…制御部、
20…記憶部、
30…入出力インタフェース、
11…音声情報取得部、
12…非言語特性計測部、
13…判定部、
14…バイブレーション信号生成部、
15…バイブレーションデバイス駆動部、
21…非言語計画データベース、
22…バイブレーションパターンデータベース、
41…入力装置、
42…出力装置、
43…マイクロホン、
44…バイブレーションデバイス、
 2…プレゼンテーション支援装置、
23…バイブレーション信号記憶部、
45…プレゼン装置、
101…言語計画取得部、
102…非言語計画合成部、
103…非言語計画提示部、
104…操作受付部、
105…バイブレーション信号生成部、
106…進行トラッキング部、
107…タイミング計算部、
108…信号呼出部、
109…バイブレーションデバイス駆動部。
1 ... presentation support device,
10... control unit,
20... Storage unit,
30 ... input/output interface,
11 ... voice information acquisition unit,
12 ... Non-verbal characteristic measurement unit,
13 ... determination unit,
14 Vibration signal generator,
15... Vibration device drive unit,
21... non-verbal planning database,
22 Vibration pattern database,
41 ... input device,
42 ... output device,
43 ... microphone,
44... Vibration device,
2 ... presentation support device,
23 ... vibration signal storage unit,
45 ... presentation device,
101 ... language plan acquisition unit,
102 ... non-language plan synthesis unit,
103 ... non-verbal plan presentation unit,
104 ... operation reception unit,
105... Vibration signal generator,
106 ... progress tracking unit,
107... Timing calculation unit,
108... signal calling unit,
109... Vibration device drive unit.

Claims (8)

  1.  発話における非言語的指標の目標値を取得する第1取得部と、
     前記目標値を表す非言語情報を含む指示信号を生成する生成部と、
     話者が知覚可能な刺激として前記指示信号を出力する出力部と、
     を備える、情報処理装置。
    a first acquisition unit that acquires a target value of a nonverbal index in an utterance;
    a generation unit that generates an instruction signal including non-verbal information representing the target value;
    an output unit that outputs the instruction signal as a stimulus perceivable by a speaker;
    An information processing device.
  2.  前記話者が発話する音声情報を取得する第2取得部と、
     前記音声情報から前記非言語的指標を計測し、計測値を取得する、計測部と、
     前記計測値と、前記目標値を含む所定の許容範囲と、を比較し、比較結果をもとに目標提示の要否を判定する判定部と
     をさらに備え、
     前記出力部は、前記目標提示が必要と判定された場合に前記指示信号を出力する、
     請求項1に記載の情報処理装置。
    a second acquisition unit that acquires voice information uttered by the speaker;
    a measurement unit that measures the nonverbal index from the voice information and obtains a measured value;
    A determination unit that compares the measured value with a predetermined allowable range including the target value, and determines whether or not to present the target based on the comparison result,
    The output unit outputs the instruction signal when it is determined that the target presentation is necessary.
    The information processing device according to claim 1 .
  3.  前記計測部は、所定の長さの時間窓ごとに前記音声情報から前記非言語的指標の計測値を取得し、
     前記判定部は、各時間窓で前記計測値と前記許容範囲とを比較し、連続する所定の数の前記時間窓にわたって前記計測値が前記目標値から乖離すると判定される場合に、前記目標提示が必要と判定する、
     請求項2に記載の情報処理装置。
    The measurement unit obtains a measurement value of the nonverbal index from the speech information for each time window of a predetermined length,
    The determination unit compares the measured value with the allowable range in each time window, and when it is determined that the measured value deviates from the target value over a predetermined number of continuous time windows, the target is presented. deems necessary,
    The information processing apparatus according to claim 2.
  4.  前記話者の発話予定内容を表すテキスト情報を取得する第3取得部と、
     前記テキスト情報に含まれる単語またはフレーズに対して前記目標値を関連付ける合成部と、
     前記話者の発話において前記目標値が関連付けられた前記単語またはフレーズの発話タイミングを計算する計算部と
     をさらに備え、
     前記出力部は、前記発話タイミングに関連して前記指示信号を出力する、
     請求項1に記載の情報処理装置。
    a third acquisition unit that acquires text information representing the scheduled utterance content of the speaker;
    a synthesizing unit that associates the target value with a word or phrase included in the text information;
    a calculation unit that calculates the utterance timing of the word or phrase associated with the target value in the utterance of the speaker;
    The output unit outputs the instruction signal in relation to the speech timing.
    The information processing device according to claim 1 .
  5.  前記合成部により前記単語またはフレーズに対して関連付けられた前記目標値を提示する提示部と、
     前記目標値の変更要求を受け付ける受付部と、
     をさらに備え、
     前記生成部は、前記受け付けた変更要求を反映して前記指示信号を生成する、
     請求項4に記載の情報処理装置。
    a presenting unit that presents the target value associated with the word or phrase by the synthesizing unit;
    a reception unit that receives a change request for the target value;
    further comprising
    The generation unit generates the instruction signal by reflecting the received change request.
    The information processing apparatus according to claim 4.
  6.  生成部は、基本搬送波に対し、オン/オフ変調、振幅変調または周波数変調のうちの少なくとも1つで変調することによって前記指示信号を生成する、
     請求項1乃至5のいずれか一項に記載の情報処理装置。
    the generating unit generates the indication signal by modulating a fundamental carrier with at least one of on/off modulation, amplitude modulation or frequency modulation;
    The information processing apparatus according to any one of claims 1 to 5.
  7.  発話における非言語的指標の目標値を取得することと、
     前記目標値を表す非言語情報を含む指示信号を生成することと、
     話者が知覚可能な刺激として前記指示信号を出力することと、
     を備える、情報処理方法。
    obtaining a target value for a non-verbal indicator in the utterance;
    generating an indication signal including non-verbal information representing the target value;
    outputting the indicator signal as a stimulus perceivable by a speaker;
    A method of processing information, comprising:
  8.  請求項1乃至6のいずれか一項に記載の情報処理装置の各部による処理をコンピュータに実行させるプログラム。
     
    A program that causes a computer to execute processing by each unit of the information processing apparatus according to any one of claims 1 to 6.
PCT/JP2021/015884 2021-04-19 2021-04-19 Information processing device, information processing method, and program WO2022224310A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015884 WO2022224310A1 (en) 2021-04-19 2021-04-19 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015884 WO2022224310A1 (en) 2021-04-19 2021-04-19 Information processing device, information processing method, and program

Publications (1)

Publication Number Publication Date
WO2022224310A1 true WO2022224310A1 (en) 2022-10-27

Family

ID=83722081

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015884 WO2022224310A1 (en) 2021-04-19 2021-04-19 Information processing device, information processing method, and program

Country Status (1)

Country Link
WO (1) WO2022224310A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008139762A (en) * 2006-12-05 2008-06-19 Univ Of Tokyo Presentation support device, method, and program
US20160049094A1 (en) * 2014-08-13 2016-02-18 Pitchvantage Llc Public Speaking Trainer With 3-D Simulation and Real-Time Feedback
WO2019093392A1 (en) * 2017-11-10 2019-05-16 日本電信電話株式会社 Communication skill evaluation system, device, method, and program
JP2019144732A (en) * 2018-02-19 2019-08-29 日本電信電話株式会社 Operation instruction generating system, method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008139762A (en) * 2006-12-05 2008-06-19 Univ Of Tokyo Presentation support device, method, and program
US20160049094A1 (en) * 2014-08-13 2016-02-18 Pitchvantage Llc Public Speaking Trainer With 3-D Simulation and Real-Time Feedback
WO2019093392A1 (en) * 2017-11-10 2019-05-16 日本電信電話株式会社 Communication skill evaluation system, device, method, and program
JP2019144732A (en) * 2018-02-19 2019-08-29 日本電信電話株式会社 Operation instruction generating system, method and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KURIHARA KAZUTAKA, IGARASHI TAKEO, GOTO MASATAKA, OGATA JUN, MATSUSAKA YOSUKE: "A Presentation Training System using Speech and Image Processing", 14TH WORKSHOP ON INTERACTIVE SYSTEM AND SOFTWARE, 1 January 2006 (2006-01-01), pages 6pp, XP093000585, Retrieved from the Internet <URL:http://www.wiss.org/WISS2006Proceedings/papers/A_Presentation_Training_System_using/presensensei_cameraready_color.pdf> [retrieved on 20221122] *

Similar Documents

Publication Publication Date Title
RU2632424C2 (en) Method and server for speech synthesis in text
KR102057926B1 (en) Apparatus for synthesizing speech and method thereof
Styler Using Praat for linguistic research
JP6078964B2 (en) Spoken dialogue system and program
KR101521451B1 (en) Display control apparatus and method
Shen et al. On-line perception of Mandarin Tones 2 and 3: Evidence from eye movements
EP2779159A1 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
EP3321927A1 (en) Voice interaction method and voice interaction device
JP4587854B2 (en) Emotion analysis device, emotion analysis program, program storage medium
JP2006267465A (en) Uttering condition evaluating device, uttering condition evaluating program, and program storage medium
Daudet et al. Portable mTBI assessment using temporal and frequency analysis of speech
US20230122824A1 (en) Method and system for user-interface adaptation of text-to-speech synthesis
Kreiman et al. Integrated software for analysis and synthesis of voice quality
CN112382270A (en) Speech synthesis method, apparatus, device and storage medium
CN112382267A (en) Method, apparatus, device and storage medium for converting accents
JP2013072903A (en) Synthesis dictionary creation device and synthesis dictionary creation method
US10224021B2 (en) Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
WO2022224310A1 (en) Information processing device, information processing method, and program
KR20080049813A (en) Speech dialog method and device
JP2844817B2 (en) Speech synthesis method for utterance practice
WO2022154217A1 (en) Voice self-training method and user terminal device for voice impaired patient
JP2011242470A (en) Voice text set creating method, voice text set creating device and voice text set creating program
JP6251219B2 (en) Synthetic dictionary creation device, synthetic dictionary creation method, and synthetic dictionary creation program
Astrinaki et al. Mage-Reactive articulatory feature control of HMM-based parametric speech synthesis
Xie et al. Visual Timing Information in Audiovisual Speech Perception: Evidence from Lexical Tone Contour.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21937809

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21937809

Country of ref document: EP

Kind code of ref document: A1