WO2023243009A1 - Information presenting device, information presenting method, and program - Google Patents

Information presenting device, information presenting method, and program Download PDF

Info

Publication number
WO2023243009A1
WO2023243009A1 PCT/JP2022/023998 JP2022023998W WO2023243009A1 WO 2023243009 A1 WO2023243009 A1 WO 2023243009A1 JP 2022023998 W JP2022023998 W JP 2022023998W WO 2023243009 A1 WO2023243009 A1 WO 2023243009A1
Authority
WO
WIPO (PCT)
Prior art keywords
participant
processor
state
information
auditory information
Prior art date
Application number
PCT/JP2022/023998
Other languages
French (fr)
Japanese (ja)
Inventor
充裕 後藤
聡一郎 内田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/023998 priority Critical patent/WO2023243009A1/en
Publication of WO2023243009A1 publication Critical patent/WO2023243009A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • One aspect of the present invention relates to, for example, an information presentation device, an information presentation method, and a program in an online communication environment using a network.
  • Non-Patent Document 1 reports the results of a psychological experiment in which the space near the body expands forward when there is a sensation of forward movement (expansion of the space near the body). Furthermore, Non-Patent Document 2 reports that presenting sounds from the front can induce the sensation of moving forward, and presenting sounds from the rear can induce the sensation of moving backwards. (self-motion sensation caused by sound).
  • An information presentation device includes a user information acquisition section, a determination section, and an output section.
  • the user information acquisition unit is configured to acquire utterance audio data of a first participant and utterance audio data of a second participant in a two-way telecommunication environment between at least a first participant and a second participant each wearing an acoustic device. get.
  • the determination unit determines the state of communication between the first participant and the second participant based on the utterance audio data of the first participant and the utterance audio data of the second participant.
  • the output unit causes the first participant's acoustic device to output auditory information according to the determined state.
  • FIG. 1 is a diagram for explaining elemental technology of a web conference system according to an embodiment.
  • FIG. 2 is a functional block diagram showing an example of the information presentation device 1 shown in FIG. 1.
  • FIG. 3 is a diagram for explaining the status data 12a shown in FIG. 2.
  • FIG. 4 is a diagram for explaining the threshold value 12b shown in FIG. 2.
  • FIG. 5 is a diagram for explaining the presentation content 12c shown in FIG. 2.
  • FIG. 6 is a flowchart showing an example of the processing procedure of the information presentation device 1 having the above configuration.
  • FIG. 7 is a flowchart showing an example of the processing procedure in step S10 of FIG.
  • FIG. 8 is a flowchart showing an example of the processing procedure in step S11 of FIG. FIG.
  • FIG. 9 is a diagram illustrating an example of the association between determined communication states and presentation contents.
  • FIG. 10 is a diagram for explaining that psychological distance can be controlled by auditory information.
  • FIG. 11 is a flowchart showing an example of the processing procedure in step S13 of FIG.
  • FIG. 12 is a diagram for explaining a series of processing procedures in the information presentation device 1 of the embodiment.
  • FIG. 13 is a diagram for explaining the effects obtained by the embodiment.
  • a web conference is established by the participation of at least two users (referred to as a first user and a second user), so for the sake of simplicity, the following description assumes only the first user and the second user. Of course, the same argument can be made in a web conference in which three or more users participate.
  • the storage 12 is a nonvolatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores basic software such as an OS (Operating System) and programs for realizing the processing according to the embodiment.
  • OS Operating System
  • the storage 12 also stores state data 12a, threshold values 12b, and presentation contents 12c.
  • examples of the index indicating a sense of psychological distance include the average silent time ratio, the average spontaneous speech time ratio, and the average partner's speaking time ratio. These indicators can be viewed as indicators that reflect the state of telecommunications. The calculation will be described later.
  • the processor 11 selectively acquires presentation content (auditory information) from the storage 12 based on the determined communication state so that the index falls within a certain range. That is, for example, when the index indicates that the psychological distance is too far, the processor 11 acquires a sound file of forward moving sound. Further, when the index indicates that the psychological distance is too close, the processor 11 acquires a sound file of backward moving sound. Then, the processor 11 transmits the acquired sound information to the second user's acoustic device and presents the auditory information (step S13).
  • the processor 11 calculates the silent interval time l s , the own speaking interval time l us , and the other party's speaking interval time l ur from the spoken voice data (step S24).
  • the subscript s is (silent ), the subscript us indicates (utterance_sender), and the subscript ur indicates (utterance_receiver).
  • the processor 11 calculates the silent interval time ratio R s , the own utterance interval time ratio R us , and the other party's utterance interval time ratio R ur using, for example, equation (1) (step S25).
  • the processor 11 records these calculated amounts in the storage 12 (step S26).
  • FIG. 9 is a diagram showing an example of the association between the determined communication state and the presentation content.
  • the auditory information to be presented to the user is selected depending on the item to be improved during the speaking operation. That is, when it is determined that there is no sound, auditory information (forward moving sound) that gives the sensation of moving forward is selected. Furthermore, if the speaker is biased, auditory information (backward moving sound) that gives the sensation of moving backwards (relative to the speaker who is biased in speaking) is selected.
  • FIG. 10 is a diagram for explaining that psychological distance can be controlled using auditory information.
  • the psychological distance between the user and the communication partner is involuntarily controlled by presenting auditory information. That is, by using the technique of Non-Patent Document 1 (expansion of the space near the body in the direction of self-kinesthetic sense), it is possible to control the sense of distance between oneself and the other party.
  • Non-Patent Document 2 Keraton based on auditory information
  • it is possible to induce a sense of self-kinesia by presenting a noise sound to the auditory senses, thereby controlling the space near the body. By combining these effects, psychological distance can be controlled.
  • FIG. 12 is a diagram for explaining a series of processing procedures in the information presentation device 1 of the embodiment.
  • the processor 11 of the embodiment determines the current state of communication based on the content of utterances up to now (step S100: communication state determination), and selects appropriate presentation information according to the determined state (step S200: state selection of presented information according to the situation). Then, the processor 11 presents the generated information to the auditory senses and urges the user to improve the motion (step S300: auditory presentation of information encouraging improvement).
  • FIG. 13 is a diagram for explaining the effects obtained by the embodiment.
  • the sense of distance between speakers is controlled by auditory information so that when the sense of psychological distance is far, the distance is shortened, and when the sense of psychological distance is close, the distance is increased.
  • auditory information By feeding back auditory information according to the state of communication, it is possible to guide each person to the ideal state as shown in Figure 13 (b), and to maintain a sense of distance that makes it easy to communicate, while increasing the level of interaction satisfaction. It is possible to promote the improvement of
  • the sense of distance in a conversation changes depending on auditory information, and the sense of distance is made appropriate by presenting the auditory information. Furthermore, depending on the state of the conversation, it is determined whether the sense of distance is close or far, and auditory information is presented so that the sense of distance is appropriate. For these reasons, according to the embodiment, it is possible to provide a technology that can encourage comfortable communication even in a remote environment.
  • the embodiment assumes general communication via online communication tools that involve audio, such as web conferences.
  • the technology disclosed in the embodiments is not limited to this, and can also be implemented in the form of a smartphone app that can record and analyze the user's speaking behavior during face-to-face communication.
  • the present invention can be embodied by modifying the constituent elements within the scope of the invention at the implementation stage.
  • various inventions can be formed by appropriately combining the plurality of components disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiments. Furthermore, components from different embodiments may be combined as appropriate.

Abstract

An information presenting device according to an embodiment of the present invention comprises a user information acquiring unit, a determination unit, and an output unit. The user information acquiring unit acquires uttered speech data of a first participant and uttered speed data of a second participant in an environment of bidirectional telecommunication by at least the first participant and the second participant, each of whom is wearing an acoustic device. The determination unit determines the state of communication between the first participant and the second participant on the basis of the uttered speech data of the first participant and the uttered speech data of the second participant. The output unit causes auditory information that corresponds to the determined state to be output to the acoustic device of the first participant.

Description

情報提示装置、情報提示方法、およびプログラムInformation presentation device, information presentation method, and program
 この発明の一態様は、例えば、ネットワークを利用したオンラインコミュニケーション環境での情報提示装置、情報提示方法、およびプログラムに関する。 One aspect of the present invention relates to, for example, an information presentation device, an information presentation method, and a program in an online communication environment using a network.
 人同士がコミュニケーションするとき、自分と他者との物理的、あるいは心理的な距離感を無意識に計っている。ときに、距離感は間合いともいわれ、コミュニケーション能力の高い人は間合いを計ることが上手である。 
 近年の社会情勢から、Web会議のような、オンライン環境での音声コミュニケーションがメインストリームになりつつある。このような環境では、直接相対するのに比べて非言語要素の伝達が制約され、画一的な情報提示環境でのコミュニケーションになりがちである。つまり、意思の疎通がしにくい。対面では、他者の状態を把握して相互の距離感を制御できるが、オンライン環境では距離感のコントロールが難しく、自分も他者も心地よいと感じる間合いを保ちにくい。
When people communicate with each other, they unconsciously measure the physical or psychological distance between themselves and others. The sense of distance is sometimes referred to as distance, and people with good communication skills are good at measuring distance.
Due to recent social conditions, voice communication in an online environment such as web conferencing is becoming mainstream. In such an environment, the communication of nonverbal elements is more restricted than in direct interaction, and communication tends to occur in a uniform information presentation environment. In other words, it is difficult to communicate. In a face-to-face meeting, it is possible to grasp the other person's condition and control the distance between them, but in an online environment, it is difficult to control the sense of distance, and it is difficult to maintain a distance that feels comfortable for both oneself and the other person.
 ところで、非特許文献1に、前方への運動感があると身体近傍空間が前方へ広がるという、心理実験の結果が報告されている(身体近傍空間の拡張)。また、非特許文献2に、前方からの音を提示することで前に移動している感覚を、後方からの音を提示することで後に移動している感覚を誘起させられることが報告されている(音による自己運動感覚)。 By the way, Non-Patent Document 1 reports the results of a psychological experiment in which the space near the body expands forward when there is a sensation of forward movement (expansion of the space near the body). Furthermore, Non-Patent Document 2 reports that presenting sounds from the front can induce the sensation of moving forward, and presenting sounds from the rear can induce the sensation of moving backwards. (self-motion sensation caused by sound).
 情報の与え方を工夫することで、人の感じる身体近傍空間を拡張したり、自己運動感覚を誘起できることが知られている。このような現象を利用すれば、オンラインでのコミュニケーションをより円滑に行える可能性がある。
 この発明は上記事情に着目してなされたもので、その目的は、リモート環境においても心地良いコミュニケーションを促すことのできる技術を提供することにある。
It is known that by devising the way information is provided, it is possible to expand the perceived space near the body and induce a sense of self-motion. By exploiting this phenomenon, it is possible to make online communication smoother.
This invention was made in view of the above circumstances, and its purpose is to provide a technology that can encourage comfortable communication even in a remote environment.
 この発明の一態様に係る情報提示装置は、ユーザ情報取得部と、判定部と、出力部とを具備する。ユーザ情報取得部は、それぞれ音響デバイスを装着した少なくとも第1参加者と第2参加者による双方向のテレコミュニケーション環境における、第1参加者の発話音声データと、第2参加者の発話音声データとを取得する。判定部は、第1参加者の発話音声データと、第2参加者の発話音声データとに基づいて、第1参加者と第2参加者とのコミュニケーションの状態を判定する。出力部は、判定された状態に応じた聴覚情報を第1参加者の音響デバイスに出力させる。 An information presentation device according to one aspect of the present invention includes a user information acquisition section, a determination section, and an output section. The user information acquisition unit is configured to acquire utterance audio data of a first participant and utterance audio data of a second participant in a two-way telecommunication environment between at least a first participant and a second participant each wearing an acoustic device. get. The determination unit determines the state of communication between the first participant and the second participant based on the utterance audio data of the first participant and the utterance audio data of the second participant. The output unit causes the first participant's acoustic device to output auditory information according to the determined state.
 この発明の一態様によれば、リモート環境においても心地良いコミュニケーションを促すことのできる技術を提供することができる。 According to one aspect of the present invention, it is possible to provide a technology that can encourage comfortable communication even in a remote environment.
図1は、実施形態に係わるWeb会議システムの要素技術について説明するための図である。FIG. 1 is a diagram for explaining elemental technology of a web conference system according to an embodiment. 図2は、図1に示される情報提示装置1の一例を示す機能ブロック図である。FIG. 2 is a functional block diagram showing an example of the information presentation device 1 shown in FIG. 1. As shown in FIG. 図3は、図2に示される状態データ12aについて説明するための図である。FIG. 3 is a diagram for explaining the status data 12a shown in FIG. 2. 図4は、図2に示されるしきい値12bについて説明するための図である。FIG. 4 is a diagram for explaining the threshold value 12b shown in FIG. 2. 図5は、図2に示される提示内容12cについて説明するための図である。FIG. 5 is a diagram for explaining the presentation content 12c shown in FIG. 2. 図6は、上記構成の情報提示装置1の処理手順の一例を示すフローチャートである。FIG. 6 is a flowchart showing an example of the processing procedure of the information presentation device 1 having the above configuration. 図7は、図6のステップS10における処理手順の一例を示すフローチャートである。FIG. 7 is a flowchart showing an example of the processing procedure in step S10 of FIG. 図8は、図6のステップS11における処理手順の一例を示すフローチャートである。FIG. 8 is a flowchart showing an example of the processing procedure in step S11 of FIG. 図9は、判定されたコミュニケーション状態と提示内容との対応付けの例を示す図である。FIG. 9 is a diagram illustrating an example of the association between determined communication states and presentation contents. 図10は、聴覚情報により心理的距離感をコントロールし得ることを説明するための図である。FIG. 10 is a diagram for explaining that psychological distance can be controlled by auditory information. 図11は、図6のステップS13における処理手順の一例を示すフローチャートである。FIG. 11 is a flowchart showing an example of the processing procedure in step S13 of FIG. 図12は、実施形態の情報提示装置1における一連の処理手順を説明するための図である。FIG. 12 is a diagram for explaining a series of processing procedures in the information presentation device 1 of the embodiment. 図13は、実施形態により得られる効果を説明するための図である。FIG. 13 is a diagram for explaining the effects obtained by the embodiment.
 以下、図面を参照してこの発明に係わる実施形態を説明する。実施形態では、ネットワークを利用した双方向のテレコミュニケーション(オンラインコミュニケーション)において、参加者(ユーザ)同士が対話しやすい間合いを構築するための技術について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the embodiment, a technique for creating a space in which participants (users) can easily interact with each other in two-way telecommunications (online communication) using a network will be described.
 Web会議は、少なくとも2名のユーザ(第1ユーザ、第2ユーザとする)の参加により成立するので、簡単のために、以下では第1ユーザおよび第2ユーザのみを想定して説明する。もちろん、3名以上のユーザが参加するWeb会議においても同様の議論が成り立つ。 A web conference is established by the participation of at least two users (referred to as a first user and a second user), so for the sake of simplicity, the following description assumes only the first user and the second user. Of course, the same argument can be made in a web conference in which three or more users participate.
 図1は、実施形態に係わるWeb会議システムの要素技術について説明するための図である。図1において、Web会議の参加者の会議設備2は、いわゆるインターネットであるネットワーク100を介して、例えばVPN(Virtual Private Network)経由で情報提示装置1と相互に通信する。情報提示装置1は、マイク30で取得されたユーザの発話音声データをネットワーク100経由で取得し、Web会議の参加者同士のコミュニケーションの状態を判定する。情報提示装置1は、判定の結果に応じた聴覚情報を、参加者の装着する音響デバイスに送信して出力させる。参加者は、音響デバイスとして通常のイヤフォン41だけを装着しても良いし、あるいはイヤフォン41と骨伝導イヤフォン42との双方を装着しても良い。ここで、イヤフォン41は、会話音声を再生する第1デバイスの一例であり、骨伝導イヤフォン42は、会話音声とは異なる音響情報を再生する第2デバイスの一例である。 FIG. 1 is a diagram for explaining the elemental technology of the web conference system according to the embodiment. In FIG. 1, conference equipment 2 of participants in a web conference communicates with an information presentation device 1 via a network 100, which is the so-called Internet, for example, via a VPN (Virtual Private Network). The information presentation device 1 acquires the user's utterance audio data acquired by the microphone 30 via the network 100, and determines the state of communication between the participants of the web conference. The information presentation device 1 transmits auditory information according to the determination result to the audio device worn by the participant, and causes the audio device to output it. The participant may wear only regular earphones 41 as an acoustic device, or may wear both earphones 41 and bone conduction earphones 42. Here, the earphone 41 is an example of a first device that reproduces conversational audio, and the bone conduction earphone 42 is an example of a second device that reproduces acoustic information different from the conversational audio.
 <構成>
 図2は、図1に示される情報提示装置1の一例を示す機能ブロック図である。ネットワーク100に、複数の参加者の会議設備2が接続され、これらは情報提示装置1と共通のプロトコルで相互に通信し合う。
<Configuration>
FIG. 2 is a functional block diagram showing an example of the information presentation device 1 shown in FIG. 1. As shown in FIG. Conference equipment 2 of a plurality of participants is connected to the network 100, and these communicate with the information presentation device 1 using a common protocol.
 情報提示装置1は、インタフェース部13、プロセッサ11、ストレージ12およびメモリ14を備える、コンピュータである。インタフェース部13は、ネットワーク100とそれぞれの会議設備2との間に通信リンクを設定し、各種のデータを授受する。 The information presentation device 1 is a computer that includes an interface section 13, a processor 11, a storage 12, and a memory 14. The interface section 13 sets up a communication link between the network 100 and each conference facility 2, and exchanges various data.
 プロセッサ11は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの演算デバイスであり、ストレージ12からメモリ14にロードされたプログラム14aに従って、実施形態の処理機能を実現する。メモリ14は、ROM(Read Only Memory)やRAM(Random Access Memory)等の半導体メモリである。 The processor 11 is an arithmetic device such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit), and implements the processing functions of the embodiment according to a program 14a loaded from the storage 12 to the memory 14. The memory 14 is a semiconductor memory such as ROM (Read Only Memory) or RAM (Random Access Memory).
 ストレージ12は、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)等の不揮発性メモリであり、OS(Operating System)等の基本ソフトウェアと、実施形態に係る処理を実現するためのプログラムとを記憶する。すなわちプログラムは、情報提示装置1にインストールされることが可能である。 
 また、ストレージ12は、状態データ12aと、しきい値12bと、提示内容12cとを記憶する。
The storage 12 is a nonvolatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores basic software such as an OS (Operating System) and programs for realizing the processing according to the embodiment. Remember. That is, the program can be installed on the information presentation device 1.
The storage 12 also stores state data 12a, threshold values 12b, and presentation contents 12c.
 プロセッサ11は、この発明の一実施形態に係る処理機能として、ユーザ情報取得部111、状態データ計算部112、状態判定部113、提示内容取得部114、および、出力部115を備える。ユーザ情報取得部111、状態データ計算部112、状態判定部113、提示内容取得部114、および、出力部115は、メモリ14にロードされたプログラム14aをプロセッサ11が実行することで実現される。 The processor 11 includes a user information acquisition section 111, a state data calculation section 112, a state determination section 113, a presentation content acquisition section 114, and an output section 115 as processing functions according to an embodiment of the present invention. The user information acquisition section 111, the state data calculation section 112, the state determination section 113, the presentation content acquisition section 114, and the output section 115 are realized by the processor 11 executing the program 14a loaded into the memory 14.
 つまりプログラム14aは、プロセッサ11を、ユーザ情報取得部111として機能させる命令と、状態データ計算部112として機能させる命令と、状態判定部113として機能させる命令と、提示内容取得部114として機能させる命令と、出力部115として機能させる命令とを含む。 In other words, the program 14a includes instructions for causing the processor 11 to function as the user information acquisition section 111, instructions for functioning as the status data calculation section 112, instructions for causing the processor 11 to function as the status determination section 113, and instructions for causing the processor 11 to function as the presentation content acquisition section 114. and an instruction for causing the output unit 115 to function.
 ユーザ情報取得部111は、Web会議に参加する第1ユーザの発話音声データと、第2ユーザの発話音声データとをネットワーク100経由で取得する。 
 状態データ計算部112は、取得された発話音声データに基づいて、テレコミュニケーションの状態を反映する状態データを計算する。
The user information acquisition unit 111 acquires utterance audio data of a first user participating in the web conference and utterance audio data of a second user via the network 100.
The state data calculation unit 112 calculates state data that reflects the state of telecommunications based on the acquired uttered audio data.
 図3は、状態データ12aについて説明するための図である。状態データ12aは、例えば、会話における無音区間時間割合、自分(第1ユーザとする)の発話区間の時間割合、および、相手(第2ユーザ)の発話区間の時間割合を含む。状態データ12aは、例えば時刻に対応する記録ID(IDentification)ごとに、各エントリの数値を対応付けてストレージ12に記憶される。記録IDは時間の経過とともに増加して良いが、エントリ数が既定値に達すれば古いものから順に消去され、新しい行が追加されるようにしても良い。 FIG. 3 is a diagram for explaining the status data 12a. The state data 12a includes, for example, the time ratio of silent periods in a conversation, the time ratio of one's (the first user) utterance period, and the time ratio of the other party's (second user) utterance period. The status data 12a is stored in the storage 12 in association with the numerical value of each entry, for example, for each record ID (IDentification) corresponding to the time. The record ID may increase over time, but when the number of entries reaches a predetermined value, the oldest entries may be deleted and new rows may be added.
 図2に戻って再び説明を続ける。 
 状態判定部113は、取得された発話音声データから計算された状態データ12aに基づいて、第1ユーザと第2ユーザとのコミュニケーションの状態を判定する。状態判定部113は、状態データ12aに基づいて、第1ユーザと第2ユーザとの心理的距離感を示す指標を算出する。
Returning to FIG. 2, the explanation will be continued again.
The state determining unit 113 determines the state of communication between the first user and the second user based on the state data 12a calculated from the acquired uttered audio data. The state determining unit 113 calculates an index indicating the psychological distance between the first user and the second user based on the state data 12a.
 ここで、心理的距離感を示す指標とは、例えば平均無音時間割合、平均自発話時間割合、および、平均相手発話時間割合などを挙げることができる。これらの指標は、テレコミュニケーションの状態を反映する指標と捉えることができる。その計算については後述する。 Here, examples of the index indicating a sense of psychological distance include the average silent time ratio, the average spontaneous speech time ratio, and the average partner's speaking time ratio. These indicators can be viewed as indicators that reflect the state of telecommunications. The calculation will be described later.
 状態判定部113は、さらに、計算された上記指標と既定のしきい値との比較に基づいて、第1ユーザと第2ユーザとのコミュニケーションの状態を判定する。 The state determining unit 113 further determines the state of communication between the first user and the second user based on a comparison between the calculated index and a predetermined threshold.
 図4は、しきい値12bについて説明するための図である。例えば、無音状態を判定するためのしきい値Sth、偏り状態を判定するためのしきい値Bthなどが予め定義されてストレージ12に記憶される。これらのしきい値と、平均無音時間割合、平均自発話時間割合、および、平均相手発話時間割合とを用いて、Web会議の参加者の相互のコミュニケーションの状態を判定することができる。その計算については後述する。 FIG. 4 is a diagram for explaining the threshold value 12b. For example, a threshold value S th for determining a silent state, a threshold value B th for determining a biased state, etc. are defined in advance and stored in the storage 12 . Using these thresholds, the average silent time percentage, the average spontaneous speech time percentage, and the average partner speech time percentage, it is possible to determine the mutual communication state of the participants in the web conference. The calculation will be described later.
 図2に戻って再び説明を続ける。 
 提示内容取得部114は、状態判定部113により判定されたコミュニケーションの状態に応じた聴覚情報をストレージ12から取得する。出力部115は、提示内容取得部114により取得された聴覚情報を、宛先のユーザの音響デバイスに送信して出力させる。提示内容取得部114は、例えば、第1ユーザと第2ユーザとの相互の心理的な距離感に応じて、第2ユーザのイヤフォン41,42に聴覚情報を送信する。聴覚情報は、各参加者に提示するための具体的なコンテンツ(提示内容)としてストレージ12に記憶される。
Returning to FIG. 2, the explanation will be continued again.
The presentation content acquisition unit 114 acquires auditory information according to the communication state determined by the state determination unit 113 from the storage 12 . The output unit 115 transmits the auditory information acquired by the presentation content acquisition unit 114 to the destination user's acoustic device and causes the audio device to output it. The presentation content acquisition unit 114 transmits auditory information to the second user's earphones 41 and 42, for example, depending on the psychological distance between the first user and the second user. The auditory information is stored in the storage 12 as specific content (presentation content) to be presented to each participant.
 図5は、提示内容12cについて説明するための図である。提示内容12cは、複数のコミュニケーション状態に対応するエントリごとに、当該コミュニケーション状態を改善するための音源の種類、音ファイル、および指定再生時間が対応付けられたテーブルである。ここで、音源の種類、音ファイルは、自己運動感覚を誘起し得る聴覚情報の例であり、例えば会話を妨げない程度のノイズ音を利用することができる。 FIG. 5 is a diagram for explaining the presentation content 12c. The presentation content 12c is a table in which types of sound sources, sound files, and designated playback times for improving the communication states are associated with each entry corresponding to a plurality of communication states. Here, the type of sound source and the sound file are examples of auditory information that can induce a sense of self-motion, and for example, noise that does not interfere with conversation can be used.
 提示内容12cは、コミュニケーション状態に予め対応付けられた、自己運動感覚を誘起する聴覚情報を管理するテーブルである。提示内容12cにおいて、コミュニケーション状態に応じて提示する音源と実際の音声ファイル、指定再生時間が記録される。例えば、「偏り改善」状態では、しきい値により偏りを判定された発話者に対して聴覚情報を提示する。なお、1つの状態に応じて、複数の音声ファイルを用意しても良く、その場合には、提示内容12cの複数の音声ファイルからランダムにひとつ選択する。
 既に知られているように、前方移動音(後ろから前へと移動するような音)を聴取させることで、自分が前に移動する自己運動感覚や、前方の空間が広がるような感覚を感じさせることができる。逆に、後方移動音(前から後ろへと移動するような音)は自分が後ろに移動したような錯覚をもたらす。実施形態では、この効果を利用して、Web会議に参加するユーザ同士の心理的距離感を縮めたり、長くしたりする。
The presentation content 12c is a table for managing auditory information that induces a sense of self-kinesis and is associated in advance with a communication state. In the presentation content 12c, the sound source to be presented according to the communication state, the actual audio file, and the designated playback time are recorded. For example, in the "bias improvement" state, auditory information is presented to the speaker whose bias is determined by the threshold value. Note that a plurality of audio files may be prepared depending on one state, and in that case, one is randomly selected from the plurality of audio files of the presentation content 12c.
As is already known, by listening to forward movement sounds (sounds that sound like moving from behind to front), children can feel a sense of self-motion as they move forward, and a sensation as if the space in front of them is expanding. can be done. On the other hand, backward movement sounds (sounds that sound like moving from front to back) create the illusion that you have moved backwards. In the embodiment, this effect is utilized to shorten or lengthen the psychological distance between users participating in a web conference.
 <作用>
 次に、上記構成における作用を説明する。 
 図6は、上記構成の情報提示装置1の処理手順の一例を示すフローチャートである。図6において、プロセッサ11は、例えば一定の間隔で各ユーザの発話音声データを取得し、ストレージ12に記憶する(ステップS10)。次に、プロセッサ11は、取得した発話音声データから状態データを計算し、第1ユーザと第2ユーザとの心理的距離感を示す指標を算出する。この指標に基づいて、プロセッサ11は、第1ユーザと第2ユーザとのコミュニケーションの状態を判定する(ステップS11)。
<Effect>
Next, the operation of the above configuration will be explained.
FIG. 6 is a flowchart showing an example of the processing procedure of the information presentation device 1 having the above configuration. In FIG. 6, the processor 11 acquires speech data of each user at regular intervals, for example, and stores it in the storage 12 (step S10). Next, the processor 11 calculates state data from the acquired speech sound data, and calculates an index indicating the psychological distance between the first user and the second user. Based on this index, the processor 11 determines the state of communication between the first user and the second user (step S11).
 次に、プロセッサ11は、判定したコミュニケーションの状態に基づいて、上記指標が一定の範囲に収まるように、提示内容(聴覚情報)をストレージ12から選択的に取得する。つまり、例えば、心理的距離感が遠すぎることを指標が示す場合に、プロセッサ11は、前方移動音の音ファイルを取得する。また、指標が、心理的距離感が近すぎることを示す場合に、プロセッサ11は、後方移動音の音ファイルを取得する。そして、プロセッサ11は、取得した音情報を第2ユーザの音響デバイスに送信し、聴覚情報を提示する(ステップS13)。 Next, the processor 11 selectively acquires presentation content (auditory information) from the storage 12 based on the determined communication state so that the index falls within a certain range. That is, for example, when the index indicates that the psychological distance is too far, the processor 11 acquires a sound file of forward moving sound. Further, when the index indicates that the psychological distance is too close, the processor 11 acquires a sound file of backward moving sound. Then, the processor 11 transmits the acquired sound information to the second user's acoustic device and presents the auditory information (step S13).
 図7は、図6のステップS10における処理手順の一例を示すフローチャートである。図7において、プロセッサ11は、ユーザの発話を一定間隔(T)で録音し(ステップS21)、録音したデータを分析して(ステップS22)、話者分離を行う(ステップS23)。周知のように、音声データから話者を分離するには、例えばAI(Artificial Intelligence)テクノロジーを用いたデータ分類処理を適用すればよい。 FIG. 7 is a flowchart illustrating an example of the processing procedure in step S10 of FIG. 6. In FIG. 7, the processor 11 records the user's utterances at regular intervals (T) (step S21), analyzes the recorded data (step S22), and performs speaker separation (step S23). As is well known, in order to separate speakers from voice data, data classification processing using, for example, AI (Artificial Intelligence) technology may be applied.
 次に、プロセッサ11は、発話音声データから無音区間時間l、自分の発話区間時間lus、および、相手の発話区間時間lurを計算する(ステップS24)。添え字sは(silent
)を、添え字usは(utterance_sender)を、添え字urは(utterance_receiver)を示す。
Next, the processor 11 calculates the silent interval time l s , the own speaking interval time l us , and the other party's speaking interval time l ur from the spoken voice data (step S24). The subscript s is (silent
), the subscript us indicates (utterance_sender), and the subscript ur indicates (utterance_receiver).
 次に、プロセッサ11は、例えば式(1)により無音区間時間割合R、自分の発話区間時間割合Rus、および、相手の発話区間時間割合Rurを計算する(ステップS25)。  Next, the processor 11 calculates the silent interval time ratio R s , the own utterance interval time ratio R us , and the other party's utterance interval time ratio R ur using, for example, equation (1) (step S25).
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001
 そして、プロセッサ11は、算出したこれらの量をストレージ12に記録する(ステップS26)。 Then, the processor 11 records these calculated amounts in the storage 12 (step S26).
 図8は、図6のステップS11における処理手順の一例を示すフローチャートである。図8において、プロセッサ11は、ストレージ12の状態データ12aに記録されたRus,Rur,R(図3)の最新のM行分を読み出す(ステップS31)。なお、読み出しの範囲Mは事前に設定しておくとよい。 FIG. 8 is a flowchart showing an example of the processing procedure in step S11 of FIG. In FIG. 8, the processor 11 reads the latest M rows of R us , R ur , R s (FIG. 3) recorded in the state data 12a of the storage 12 (step S31). Note that the reading range M is preferably set in advance.
 次に、プロセッサ11は、読み出した情報から、平均無音時間割合Rs_ave、平均自発話時間割合Rus_ave、および、平均相手発話時間割合Rur_aveを式(2)を用いて計算する(ステップS32)。  Next, the processor 11 calculates the average silent time ratio R s_ave , the average spontaneous speech time ratio R us_ave , and the average partner's speech time ratio R ur_ave from the read information using equation (2) (step S32). .
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002
 次に、プロセッサ11は、ストレージ12から、無音状態のしきい値Sthと、偏り状態のしきい値Bthとを読み出す(ステップS33)。 
 次に、プロセッサ11は、平均無音時間割合Rs_aveとSthとを比較し(ステップS34)、もしRs_ave>Sthならば、自分と相手とのコミュニケーション状態を[無音状態]と判定する(ステップS35)。ステップS34でNoであれば、プロセッサ11は、平均自発話時間割合Rus_aveとBthとを比較し(ステップS36)、もしRus_ave>Bthならば、自分と相手とのコミュニケーション状態を[自分の偏り状態]と判定する(ステップS37)。
Next, the processor 11 reads the silent state threshold value S th and the biased state threshold value B th from the storage 12 (step S33).
Next, the processor 11 compares the average silent time ratio R s_ave and S th (step S34), and if R s_ave > S th , the processor 11 determines that the communication state between itself and the other party is [silent state] ( Step S35). If No in step S34, the processor 11 compares the average spontaneous speech time ratio R us_ave and B th (step S36), and if R us_ave > B th , the processor 11 compares the communication state between itself and the other party to bias state] (step S37).
 ステップS36でNoであれば、プロセッサ11は、平均相手発話時間割合Rur_aveとBthとを比較し(ステップS36)、もしRur_ave>Bthならば、自分と相手とのコミュニケーション状態を[相手の偏り状態]と判定する(ステップS39)。ステップS38でNoであれば、プロセッサ11は、自分と相手とのコミュニケーション状態を[改善不要]と結論付ける(ステップS40)。 If No in step S36, the processor 11 compares the average other party's speaking time ratio R ur_ave and B th (step S36), and if R ur_ave > B th , the processor 11 determines the communication state between itself and the other party. bias state] (step S39). If No in step S38, the processor 11 concludes that the communication state between itself and the other party does not require improvement (step S40).
 図9は、判定されたコミュニケーション状態と提示内容との対応付けの例を示す図である。実施形態では、発話動作中の改善すべき項目に応じて、ユーザに提示する聴覚情報が選択される。つまり、無音状態と判定されると、前方へ移動している感覚を与える聴覚情報(前方移動音)が選択される。また、話者に偏りがある場合には、(偏って発話している話者に対して)後方へ移動している感覚を与える聴覚情報(後方移動音)が選択される。 FIG. 9 is a diagram showing an example of the association between the determined communication state and the presentation content. In the embodiment, the auditory information to be presented to the user is selected depending on the item to be improved during the speaking operation. That is, when it is determined that there is no sound, auditory information (forward moving sound) that gives the sensation of moving forward is selected. Furthermore, if the speaker is biased, auditory information (backward moving sound) that gives the sensation of moving backwards (relative to the speaker who is biased in speaking) is selected.
 図10は、聴覚情報により心理的距離感をコントロールし得ることを説明するための図である。図10に示されるように、実施形態では、ユーザのコミュニケーション相手との心理的距離感を、聴覚情報提示により不随意的に制御する。すなわち、非特許文献1の技術(自己運動感覚方向への身体近傍空間の拡張)により、自らと相手との距離感を制御することができる。また、非特許文献2の技術(聴覚情報による運動感覚)により、聴覚へのノイズ音提示により自己運動感覚を誘起させ、身体近傍空間を制御することができる。これらの効果を合わせることで、心理的距離感を制御することができる。 FIG. 10 is a diagram for explaining that psychological distance can be controlled using auditory information. As shown in FIG. 10, in the embodiment, the psychological distance between the user and the communication partner is involuntarily controlled by presenting auditory information. That is, by using the technique of Non-Patent Document 1 (expansion of the space near the body in the direction of self-kinesthetic sense), it is possible to control the sense of distance between oneself and the other party. Furthermore, with the technology of Non-Patent Document 2 (kinesthesis based on auditory information), it is possible to induce a sense of self-kinesia by presenting a noise sound to the auditory senses, thereby controlling the space near the body. By combining these effects, psychological distance can be controlled.
 すなわち、図9(a)のように、身体近傍空間を前方に拡張することで、相手との心理的距離感を縮めることができる。また、図9(b)のように、身体近傍空間を後方に縮小することで、相手との心理的距離感を遠ざけることができる。ここで、身体近傍空間(peri-personalspace)とは、手が届く範囲の身体周辺の空間を意味する概念である。 That is, by expanding the space near the body forward as shown in FIG. 9(a), it is possible to reduce the psychological distance from the other party. Further, as shown in FIG. 9(b), by reducing the space near the body backward, it is possible to distance the user from the other party. Here, the peri-personal space is a concept that means the space around the body that is within reach.
 実際の運動が伴えば、運動の方向に近傍空間が拡張・縮小される。実施形態では聴覚的効果により、聴覚への情報提示のみで自己運動感覚を誘起して、前に移動している感覚や後ろに移動している感覚をユーザに感じさせる。これを利用して、相手との距離感を縮めたり、遠ざけたりすることが、ユーザの意思とは別に、不随意的に実現することができる。 If there is actual movement, the nearby space will expand or contract in the direction of the movement. In the embodiment, the auditory effect induces a sense of self-motion just by presenting information to the auditory sense, making the user feel the sensation of moving forward or backward. Utilizing this, it is possible to reduce the distance between the user and the other party or to move them away from the other party involuntarily, regardless of the user's intention.
 図11は、図6のステップS13における処理手順の一例を示すフローチャートである。図11において、プロセッサ11は、ユーザの会議設備2と通信して、対象のユーザが装着している音響デバイスの数を取得する(ステップS51)。ユーザが、例えばイヤフォン41と骨伝導イヤフォン42との2つを装着しているならば、複数のデバイスを装着していることが判定される(ステップS52でYes)。この場合、プロセッサ11は、提示情報(聴覚情報)を他の話者の音声にマージ(重畳)して再生する(ステップS53)。 FIG. 11 is a flowchart illustrating an example of the processing procedure in step S13 of FIG. 6. In FIG. 11, the processor 11 communicates with the user's conference equipment 2 to obtain the number of audio devices worn by the target user (step S51). If the user is wearing, for example, two earphones 41 and bone conduction earphones 42, it is determined that the user is wearing a plurality of devices (Yes in step S52). In this case, the processor 11 merges (superimposes) the presentation information (auditory information) onto the other speaker's voice and reproduces it (step S53).
 ステップS52でNo、つまりユーザがイヤフォン41または骨伝導イヤフォン42のどちらか一方だけを装着しているならば、プロセッサ11は、他話者音声を流していないデバイスに提示情報を再生させる(ステップS54)。つまり出力部115は、聴覚情報を第2デバイスとしての骨伝導イヤフォン42宛てに送信する。送信宛先の振り分けは、IP(Internet Protocol)ベースの通信であれば例えばポート番号で区別すればよい。 If the answer in step S52 is No, that is, if the user is wearing only one of the earphones 41 or bone conduction earphones 42, the processor 11 causes the device that is not playing the other speaker's voice to play the presentation information (step S54). ). That is, the output unit 115 transmits the auditory information to the bone conduction earphone 42 as the second device. In the case of IP (Internet Protocol)-based communication, transmission destinations may be distinguished by, for example, port numbers.
 ステップS52,S53,S54は、短い音声ファイルでも一定時間再生できるように、指定再生時間分の再生が終了するまで繰り返される。すなわち、指定再生時間にわたる再生が完了するまで(ステップS55でYes)、音響情報の再生が繰り返される。 Steps S52, S53, and S54 are repeated until the specified playback time is finished so that even short audio files can be played back for a certain period of time. That is, the reproduction of the audio information is repeated until the reproduction for the designated reproduction time is completed (Yes in step S55).
 図12は、実施形態の情報提示装置1における一連の処理手順を説明するための図である。実施形態のプロセッサ11は、今までの発話内容に基づいてコミュニケーションの現状態を判定し(ステップS100:コミュニケーション状態の判定)、判定した状態に応じて適切な提示情報を選択する(ステップS200:状態に応じた提示情報の選択)。そうして、プロセッサ11は、聴覚に対して生成した情報を提示し、動作改善を促す(ステップS300:改善を促す情報の聴覚提示)。 FIG. 12 is a diagram for explaining a series of processing procedures in the information presentation device 1 of the embodiment. The processor 11 of the embodiment determines the current state of communication based on the content of utterances up to now (step S100: communication state determination), and selects appropriate presentation information according to the determined state (step S200: state selection of presented information according to the situation). Then, the processor 11 presents the generated information to the auditory senses and urges the user to improve the motion (step S300: auditory presentation of information encouraging improvement).
 <効果>
 以上述べたように、実施形態では、情報提示装置1が、Web会議におけるユーザの発話動作を取得し、過去の取得履歴を考慮しながら動作改善が必要かを判定する。そのため、発話動作を録音し、発話の継続時間を判定する。また、ユーザごとに、自らと対話相手毎の発話の発生を判定する。これらの処理を任意のサンプリング間隔で実行し、予め設定したしきい値と比較して「無音状態」や「話者の偏り」といった不適切な状態であるかを判定するようにした。
<Effect>
As described above, in the embodiment, the information presentation device 1 acquires the user's speaking behavior in a web conference, and determines whether or not the behavior needs to be improved while considering the past acquisition history. Therefore, the speech action is recorded and the duration of the speech is determined. Furthermore, for each user, the occurrence of utterances by the user and each conversation partner is determined. These processes are executed at arbitrary sampling intervals and compared with a preset threshold value to determine whether an inappropriate state such as "silence" or "biased speaker" exists.
 図13は、実施形態により得られる効果を説明するための図である。図13(a)に示されるように、心理的距離感が遠い場合は距離を詰め、近い場合は距離を取るように、聴覚情報によって話者間の距離感を制御する。このように、コミュニケーションの状態に応じて聴覚情報をフィードバックすることで、図13(b)のように、それぞれを理想状態へと導くことができ、対話しやすい距離感を保ちつつ、対話満足度の向上を促進することができる。 FIG. 13 is a diagram for explaining the effects obtained by the embodiment. As shown in FIG. 13(a), the sense of distance between speakers is controlled by auditory information so that when the sense of psychological distance is far, the distance is shortened, and when the sense of psychological distance is close, the distance is increased. In this way, by feeding back auditory information according to the state of communication, it is possible to guide each person to the ideal state as shown in Figure 13 (b), and to maintain a sense of distance that makes it easy to communicate, while increasing the level of interaction satisfaction. It is possible to promote the improvement of
 すなわち実施形態では、聴覚情報により会話の距離感が変化する点に着目し、聴覚情報を提示して距離感を適正にする。また、会話状態によって、距離感が近い/遠いを判定し、距離感を適正とするように聴覚情報を提示するようにした。これらのことから実施形態によれば、リモート環境においても心地良いコミュニケーションを促すことのできる技術を提供することが可能になる。 That is, in the embodiment, attention is paid to the fact that the sense of distance in a conversation changes depending on auditory information, and the sense of distance is made appropriate by presenting the auditory information. Furthermore, depending on the state of the conversation, it is determined whether the sense of distance is close or far, and auditory information is presented so that the sense of distance is appropriate. For these reasons, according to the embodiment, it is possible to provide a technology that can encourage comfortable communication even in a remote environment.
 なお、この発明は実施形態の記載に限定されるものではない。例えば、実施形態では、Web会議のような音声を伴うオンラインコミュニケーションツールを介したコミュニケーション全般を想定した。これに限らず、実施形態で開示した技術は、対面コミュニケーションでもユーザの発話動作を記録し、分析できるスマホアプリのような形態でも実現することができる。 Note that this invention is not limited to the description of the embodiments. For example, the embodiment assumes general communication via online communication tools that involve audio, such as web conferences. The technology disclosed in the embodiments is not limited to this, and can also be implemented in the form of a smartphone app that can record and analyze the user's speaking behavior during face-to-face communication.
 また、Web会議の話者数は2以上となっても良く、このようなケースでは、各話者の発話区間時間を算出し、偏っている話者を判定してもよい。また、聴覚情報の提示では、一定時間再生して提示を終了するだけでなく、リアルタイムに状態判定を進めながら、動作改善が必要なユーザ状態となった場合に、適宜提示しても良い。 
 また、単位時間における発言回数や、無音状態の継続時間なども、心理的距離感を示す指標として利用することができる。
Further, the number of speakers in the web conference may be two or more, and in such a case, the utterance interval time of each speaker may be calculated to determine which speakers are biased. In addition, when presenting auditory information, the presentation may not only be ended after being played for a certain period of time, but also may be presented as appropriate when the user's state is in a state that requires improvement while proceeding with state determination in real time.
Furthermore, the number of utterances per unit time and the duration of silence can also be used as indicators of psychological distance.
 さらに、本発明は、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。さらに、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 Furthermore, the present invention can be embodied by modifying the constituent elements within the scope of the invention at the implementation stage. Furthermore, various inventions can be formed by appropriately combining the plurality of components disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiments. Furthermore, components from different embodiments may be combined as appropriate.
  1…情報提示装置
  2…会議設備
  11…プロセッサ
  12…ストレージ
  12a…状態データ
  12b…しきい値
  12c…提示内容
  13…インタフェース部
  14…メモリ
  14a…プログラム
  30…マイク
  41…イヤフォン
  42…骨伝導イヤフォン
  100…ネットワーク
  111…ユーザ情報取得部
  112…状態データ計算部
  113…状態判定部
  114…提示内容取得部
  115…出力部。

 
1... Information presentation device 2... Conference equipment 11... Processor 12... Storage 12a... Status data 12b... Threshold value 12c... Presentation content 13... Interface section 14... Memory 14a... Program 30... Microphone 41... Earphone 42... Bone conduction earphone 100 ...Network 111...User information acquisition section 112...Status data calculation section 113...Status determination section 114...Presentation content acquisition section 115...Output section.

Claims (8)

  1.  それぞれ音響デバイスを装着した少なくとも第1参加者と第2参加者による双方向のテレコミュニケーション環境における、前記第1参加者の発話音声データと、前記第2参加者の発話音声データとを取得するユーザ情報取得部と、
     前記第1参加者の発話音声データと、前記第2参加者の発話音声データとに基づいて、前記第1参加者と前記第2参加者とのコミュニケーションの状態を判定する判定部と、
     前記判定された状態に応じた聴覚情報を前記第1参加者の前記音響デバイスに出力させる出力部とを具備する、情報提示装置。
    A user who obtains utterance audio data of the first participant and utterance audio data of the second participant in a two-way telecommunication environment between at least a first participant and a second participant each wearing an acoustic device. Information acquisition department;
    a determination unit that determines the state of communication between the first participant and the second participant based on the utterance audio data of the first participant and the utterance audio data of the second participant;
    An information presentation device comprising: an output unit that causes the acoustic device of the first participant to output auditory information according to the determined state.
  2.  自己運動感覚を誘起し得る聴覚情報を記憶する記憶部と、
     前記記憶部から前記聴覚情報を取得する聴覚情報取得部とをさらに具備し、
     前記判定部は、前記第1参加者と前記第2参加者との心理的距離感を示す指標に基づいて前記状態を判定し、
     前記聴覚情報取得部は、前記状態に予め対応付けられた自己運動感覚を誘起する聴覚情報を前記記憶部から取得し、
     前記出力部は、前記取得された聴覚情報を前記第1参加者の前記音響デバイスに送信する、請求項1に記載の情報提示装置。
    a memory unit that stores auditory information that can induce self-motion sensation;
    further comprising an auditory information acquisition unit that acquires the auditory information from the storage unit,
    The determination unit determines the state based on an index indicating a psychological distance between the first participant and the second participant,
    The auditory information acquisition unit acquires auditory information that induces a sense of self-motion associated with the state in advance from the storage unit,
    The information presentation device according to claim 1, wherein the output unit transmits the acquired auditory information to the acoustic device of the first participant.
  3.  前記聴覚情報取得部は、前記指標が一定の範囲に収まるように、前記聴覚情報を前記記憶部から選択的に取得する、請求項2に記載の情報提示装置。 The information presentation device according to claim 2, wherein the auditory information acquisition unit selectively acquires the auditory information from the storage unit so that the index falls within a certain range.
  4.  前記記憶部は、前方移動音と、後方移動音とを記憶し、
      前記聴覚情報取得部は、
     前記心理的距離感が遠すぎることを前記指標が示す場合に、前記前方移動音を取得し、
     前記心理的距離感が近すぎることを前記指標が示す場合に、前記後方移動音を取得する、請求項3に記載の情報提示装置。
    The storage unit stores a forward movement sound and a backward movement sound,
    The auditory information acquisition unit includes:
    acquiring the forward moving sound when the index indicates that the psychological distance is too far;
    The information presentation device according to claim 3, wherein the backward moving sound is acquired when the index indicates that the psychological distance is too close.
  5.  前記判定部は、単位時間における発言回数、または、無音状態の継続時間のいずれかを、前記心理的距離感を示す指標とする、請求項2乃至4のいずれか1項に記載の情報提示装置。 The information presentation device according to any one of claims 2 to 4, wherein the determination unit uses either the number of utterances in a unit time or the duration of a silent state as an index indicating the psychological distance. .
  6.  前記音響デバイスが、会話音声を再生する第1デバイスと、前記会話音声とは異なる音響情報を再生する第2デバイスとを含む場合に、
     前記出力部は、前記聴覚情報を前記第2デバイス宛てに送信する、請求項1に記載の情報提示装置。
    When the acoustic device includes a first device that reproduces conversational audio and a second device that reproduces acoustic information different from the conversational audio,
    The information presentation apparatus according to claim 1, wherein the output unit transmits the auditory information to the second device.
  7.  プロセッサと記憶部とを具備するコンピュータの前記プロセッサにより実行される情報提示方法において、
     前記プロセッサが、それぞれ音響デバイスを装着した少なくとも第1参加者と第2参加者による双方向のテレコミュニケーション環境における、前記第1参加者の発話音声データと、前記第2参加者の発話音声データとを取得する過程と、
     前記プロセッサが、前記第1参加者の発話音声データと、前記第2参加者の発話音声データとに基づいて、前記第1参加者と前記第2参加者とのコミュニケーションの状態を判定する過程と、
     前記プロセッサが、前記判定された状態に応じた聴覚情報を前記第1参加者の前記音響デバイスに出力させる過程とを具備する、情報提示方法。
    In an information presentation method executed by the processor of a computer comprising a processor and a storage unit,
    The processor is configured to process audio data uttered by the first participant and audio data uttered by the second participant in a two-way telecommunications environment between at least a first participant and a second participant each wearing an audio device. the process of obtaining
    a step in which the processor determines a state of communication between the first participant and the second participant based on speech data of the first participant and speech data of the second participant; ,
    An information presentation method comprising: the processor causing the acoustic device of the first participant to output auditory information according to the determined state.
  8.  プロセッサと記憶部とを具備するコンピュータの前記プロセッサに実行させるための命令を含むプログラムにおいて、
     前記プロセッサに、それぞれ音響デバイスを装着した少なくとも第1参加者と第2参加者による双方向のテレコミュニケーション環境における、前記第1参加者の発話音声データと、前記第2参加者の発話音声データとを取得する過程を実行させる命令と、
     前記プロセッサに、前記第1参加者の発話音声データと、前記第2参加者の発話音声データとに基づいて、前記第1参加者と前記第2参加者とのコミュニケーションの状態を判定する過程を実行させる命令と、
     前記プロセッサに、前記判定された状態に応じた聴覚情報を前記第1参加者の前記音響デバイスに出力させる過程を実行させる命令とを含む、プログラム。
    A program including instructions to be executed by the processor of a computer including a processor and a storage unit,
    Speech audio data of the first participant and utterance audio data of the second participant in a two-way telecommunication environment between at least a first participant and a second participant each equipped with an acoustic device in the processor; an instruction to execute the process of acquiring the
    The processor is provided with a step of determining a state of communication between the first participant and the second participant based on the utterance audio data of the first participant and the utterance audio data of the second participant. an instruction to execute,
    A program comprising: an instruction for causing the processor to cause the acoustic device of the first participant to output auditory information according to the determined state.
PCT/JP2022/023998 2022-06-15 2022-06-15 Information presenting device, information presenting method, and program WO2023243009A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023998 WO2023243009A1 (en) 2022-06-15 2022-06-15 Information presenting device, information presenting method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023998 WO2023243009A1 (en) 2022-06-15 2022-06-15 Information presenting device, information presenting method, and program

Publications (1)

Publication Number Publication Date
WO2023243009A1 true WO2023243009A1 (en) 2023-12-21

Family

ID=89192451

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023998 WO2023243009A1 (en) 2022-06-15 2022-06-15 Information presenting device, information presenting method, and program

Country Status (1)

Country Link
WO (1) WO2023243009A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006140595A (en) * 2004-11-10 2006-06-01 Sony Corp Information conversion apparatus and information conversion method, and communication apparatus and communication method
JP2019184800A (en) * 2018-04-09 2019-10-24 富士ゼロックス株式会社 Information processor, program, and information processing system
JP2020113197A (en) * 2019-01-16 2020-07-27 オムロン株式会社 Information processing apparatus, information processing method, and information processing program
JP2021069099A (en) * 2019-10-28 2021-04-30 株式会社リコー Communication system, terminal device, communication method, and program
JP2021140240A (en) * 2020-03-02 2021-09-16 コニカミノルタ株式会社 Interaction support system, interaction support method, and interaction support program
JP2022028539A (en) * 2020-08-03 2022-02-16 富士通株式会社 Information processing program, information processing method, and information processing apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006140595A (en) * 2004-11-10 2006-06-01 Sony Corp Information conversion apparatus and information conversion method, and communication apparatus and communication method
JP2019184800A (en) * 2018-04-09 2019-10-24 富士ゼロックス株式会社 Information processor, program, and information processing system
JP2020113197A (en) * 2019-01-16 2020-07-27 オムロン株式会社 Information processing apparatus, information processing method, and information processing program
JP2021069099A (en) * 2019-10-28 2021-04-30 株式会社リコー Communication system, terminal device, communication method, and program
JP2021140240A (en) * 2020-03-02 2021-09-16 コニカミノルタ株式会社 Interaction support system, interaction support method, and interaction support program
JP2022028539A (en) * 2020-08-03 2022-02-16 富士通株式会社 Information processing program, information processing method, and information processing apparatus

Similar Documents

Publication Publication Date Title
US11282532B1 (en) Participant-individualized audio volume control and host-customized audio volume control of streaming audio for a plurality of participants who are each receiving the streaming audio from a host within a videoconferencing platform, and who are also simultaneously engaged in remote audio communications with each other within the same videoconferencing platform
US8340267B2 (en) Audio transforms in connection with multiparty communication
CN106162413B (en) The Headphone device of specific environment sound prompting mode
JP6535681B2 (en) Presenter Display During Video Conference
JP2011512694A (en) Method for controlling communication between at least two users of a communication system
JP4280901B2 (en) Voice chat system
US6935959B2 (en) Use of multiple player real-time voice communications on a gaming device
TW200538193A (en) Sip based voip multiplayer network games
JP5122645B2 (en) Providing the audio item selected by the sender to the conversation participant
US8504605B2 (en) Proximity filtering of multiparty VoIP communications
WO2021235148A1 (en) Online conference system
US11521636B1 (en) Method and apparatus for using a test audio pattern to generate an audio signal transform for use in performing acoustic echo cancellation
CN109120947A (en) A kind of the voice private chat method and client of direct broadcasting room
US11212651B1 (en) Complex computing network for handling audio messages during an audio conversation on a mobile application
WO2021207156A1 (en) Integration of remote audio into a performance venue
US9352219B2 (en) Incorporating player-generated audio in an electronic game
WO2023243009A1 (en) Information presenting device, information presenting method, and program
WO2013061389A1 (en) Conference-call system, content-display system, and digest-content playback method and program
EP2216975A1 (en) Telecommunication device
JP7471752B2 (en) Server device
WO2023286320A1 (en) Information processing device and method, and program
JP2022038891A (en) Server device
JP7143874B2 (en) Information processing device, information processing method and program
JP5602688B2 (en) Sound image localization control system, communication server, multipoint connection device, and sound image localization control method
JP7062126B1 (en) Terminals, information processing methods, programs, and recording media

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22946828

Country of ref document: EP

Kind code of ref document: A1