WO2024089887A1 - 情報提示装置、情報提示方法及び情報提示プログラム - Google Patents

情報提示装置、情報提示方法及び情報提示プログラム Download PDF

Info

Publication number
WO2024089887A1
WO2024089887A1 PCT/JP2022/040456 JP2022040456W WO2024089887A1 WO 2024089887 A1 WO2024089887 A1 WO 2024089887A1 JP 2022040456 W JP2022040456 W JP 2022040456W WO 2024089887 A1 WO2024089887 A1 WO 2024089887A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
participant
sound source
dialogue
sound
Prior art date
Application number
PCT/JP2022/040456
Other languages
English (en)
French (fr)
Inventor
聡一郎 内田
充裕 後藤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/040456 priority Critical patent/WO2024089887A1/ja
Publication of WO2024089887A1 publication Critical patent/WO2024089887A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • One aspect of the present invention relates to an information presentation device, an information presentation method, and an information presentation program.
  • each participant In face-to-face communication, it is common for each participant to maintain a certain distance from each of the other participants depending on their relationship with each other. This distance is called personal space or F-formation, and is an important factor in achieving a comfortable conversation. For example, by distancing oneself from an overbearing boss and moving to a position closer to a cooperative colleague, it is possible to reduce discomfort during the conversation to some extent.
  • each participant in online communication, it is necessary for each participant to maintain an appropriate sense of distance from each interlocutor based on their relationship with one or more other participants (each interlocutor).
  • video display is given a lower priority in business use, so you can pay particular attention to methods of expressing distance through audio.
  • Apple's FaceTime (registered trademark), for example, has implemented a function that uses 3D sound technology to form a spatial sound image, making the sound seem to come from the position of the person you are speaking to on screen, enhancing the sense of realism.
  • this function is limited to the context of recreating reality, which is to ensure consistency between video and audio, and it is not clear whether the volume and direction of the sound being played are appropriate in terms of reducing discomfort for participants.
  • Non-Patent Document 1 also proposes a technique using stereophonic technology to intentionally space the sound source positions of each participant to increase ease of hearing. However, this only equally spaces the sound sources of each participant according to mechanical rules, and does not take into account the relationships between the participants. In other words, no particular consideration is given to reducing the discomfort that participants may feel towards other participants.
  • This invention was made with the above in mind, and aims to provide an information presentation technology that can give the target participant a sense of appropriate distance based on the relationship between the target participant and each of the other participants with whom the target participant will have a conversation.
  • an information presentation device that presents, via a network, a plurality of pieces of audio information acquired from one or more first participant terminals among a plurality of participant terminals participating in online communication, to a second participant terminal among the plurality of participant terminals, and includes a sound source position determination unit and an audio presentation unit.
  • the sound source position determination unit determines the sound source position of each of the dialogue partners based on psychological distance information that is set for each of one or more dialogue partners using one or more first participant terminals and indicates the psychological distance of each of the dialogue partners as seen by a subject using a second participant terminal.
  • the audio presentation unit generates sound field information that localizes the audio information from the one or more first participant terminals based on the sound source position of each of the one or more dialogue partners, and transmits the information to the second participant terminal.
  • FIG. 1 is a diagram showing an example of the configuration of an information presentation system according to a first embodiment of the present invention.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of a communication server as a first embodiment of an information presentation device according to the present invention.
  • FIG. 3 is a block diagram showing an example of the software configuration of the communication server.
  • FIG. 4 is a diagram showing an example of the contents stored in the participant information database of the communication server.
  • FIG. 5 is a flowchart showing an example of the processing procedure and processing contents of the preparation processing executed by the control unit of the communication server.
  • FIG. 6 is a schematic diagram showing an example of the difference in status between each conversation partner.
  • FIG. 7 is a schematic diagram showing an example of the intimacy degree with each conversation partner.
  • FIG. 1 is a diagram showing an example of the configuration of an information presentation system according to a first embodiment of the present invention.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of a communication server as a first
  • FIG. 8 is a diagram showing a sound source coordinate system that defines the sound source position according to the difference in status and the degree of intimacy.
  • FIG. 9 is a schematic diagram showing the sound source positions of the conversation partners according to the difference in their positions.
  • FIG. 10 is a schematic diagram showing the sound source positions of each conversation partner according to the degree of intimacy.
  • FIG. 11 is a schematic diagram showing the sound source positions of multiple conversation partners who have the same level of intimacy and difference in status.
  • FIG. 12 is a flowchart showing an example of the procedure and contents of the dialogue processing executed by the control unit of the communication server.
  • FIG. 13 is a schematic diagram showing an example of a display screen of a participant terminal of a target participant.
  • FIG. 14 is a block diagram showing an example of the software configuration of a communication server as the second embodiment of the information presentation device of the present invention.
  • FIG. 15 is a flowchart showing an example of a processing procedure and processing contents of a dialogue processing executed by a control unit of a communication server in the second embodiment.
  • FIG. 16A is a schematic diagram showing an example of a face area of each conversation partner in an input video of each conversation partner.
  • FIG. 16B is a schematic diagram showing an example of the leveled images of each conversation partner.
  • FIG. 1 is a diagram showing an example of the configuration of an information presentation system according to a first embodiment of the present invention.
  • the information presentation system of this embodiment has, as its main component, a communication server CS as a first embodiment of the information presentation device of this invention.
  • the information presentation system enables information data to be transmitted via a network NW between this communication server CS and multiple participant terminals PT used by multiple participants who take part in online communication with a large number of people.
  • the information presentation system treats the participant as a target and the other participants as conversation partners of the target, and causes the communication server CS to present information acquired at the conversation partner's participant terminal PT to the target's participant terminal PT.
  • the communication server CS treats each participant terminal PT as both the target's participant terminal PT and the conversation partner's participant terminal PT.
  • the network NW is the Internet.
  • the network NW can be any network, such as a LAN (Local Area Network), that is capable of transmitting the above information data.
  • LAN Local Area Network
  • Online communication with many people refers to all online communication involving voice. Because there are many opportunities for interlocutors with different psychological distances to participate, it is primarily intended for use in business situations such as meetings, business negotiations, and exhibitions. Of course, it can also be used in conversations between private connections such as family and friends.
  • participant terminal PT is not limited to any particular type as long as it can output audio and video, such as a PC (Personal Computer), a smartphone, or a glass-type device, and can remotely converse with others via a network NW such as the Internet.
  • PC Personal Computer
  • NW Network
  • Communication Server CS 2 and 3 are block diagrams showing an example of the hardware and software configurations of the communication server CS.
  • the communication server CS is, for example, a server computer installed on the web or in the cloud.
  • the communication server CS may also be a PC that is one of the multiple participant terminals PT.
  • the communication server CS has a control unit 1, to which a storage unit having a program storage unit 2 and a data storage unit 3, and a communication interface unit 4 are connected via a bus 5. Note that in Figures 2 and 3, the interface is written as I/F.
  • the control unit 1 is a hardware processor such as a CPU (Central Processing Unit).
  • the CPU can execute multiple information processes simultaneously by using a multi-core and multi-threaded one.
  • the control unit 1 may be equipped with multiple hardware processors.
  • the communication interface unit 4 transmits and receives information data to and from each participant terminal PT under the control of the control unit 1.
  • the program storage unit 2 is configured, for example, by combining a non-volatile memory such as a HDD (Hard Disk Drive) or SSD (Solid State Drive) that can be written to and read from at any time as a storage medium, and a non-volatile memory such as a ROM (Read Only Memory).
  • a non-volatile memory such as a HDD (Hard Disk Drive) or SSD (Solid State Drive) that can be written to and read from at any time as a storage medium
  • a non-volatile memory such as a ROM (Read Only Memory).
  • middleware such as an OS (Operating System)
  • the program storage unit 2 stores application programs required for inputting the above-mentioned information required for presenting information in the first embodiment and for sending a request to register the information.
  • the OS and each application program will be collectively referred to as the program.
  • the data storage unit 3 is, for example, a combination of a non-volatile memory such as an HDD or SSD, which can be written to and read from at any time, as a storage medium, and a volatile memory such as a RAM (Random Access Memory).
  • the data storage unit 3 has, in its storage area, a conference information database 31, a participant information database 32, and a sound field information database 33, which are the main storage units required to implement the first embodiment of the present invention.
  • the database is referred to as DB.
  • the conference information database 31 stores conference information about each online communication with multiple people, such as the date and time of the event and user information of the participants, in association with a conference ID for distinguishing the online communication.
  • the user information includes login information such as a user ID and password, name, etc.
  • the conference information can be set from the participant terminal PT used by the participant who will be the host of the online communication.
  • the participant information database 32 stores participant information for each of the other participants, who are dialogue partners, that is set by the participant who participates in each online communication from his/her own participant terminal PT.
  • the participant information includes, for example, information indicating the difference in status with the dialogue partner and the degree of intimacy.
  • the sound field information database 33 stores sound field information for each target person, where the audio information acquired from each participant terminal PT of the participants participating in online communication is localized based on the sound field information for each of the target person's interlocutors.
  • the sound field information is information for outputting the audio information as a spatial sound image using stereophonic technology.
  • the sound field information database 33 stores video information of the display screen for each target person, where the display position and display size are adjusted based on the sound field information for the video information acquired from each participant terminal PT.
  • the control unit 1 also includes, as processing function units necessary for implementing the first embodiment, a conference information registration unit 11, a psychological distance stage setting unit 12, a psychological distance setting unit 13, a sound source position determination unit 14, an input information acquisition unit 15, a sound field position reflection unit 16, an audio output unit 17, and a video output unit 18. All of these processing function units are realized by causing the hardware processor of the control unit 1 to execute application programs stored in the program storage unit 2.
  • At least one, or at least a part of, the processing functions of the processing function units may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit), a DSP (Digital Signal Processor), an FPGA (field-programmable gate array), or a GPU (Graphics Processing Unit), instead of being realized by an application program and a hardware processor of the control unit 1.
  • ASIC Application Specific Integrated Circuit
  • DSP Digital Signal Processor
  • FPGA field-programmable gate array
  • GPU Graphics Processing Unit
  • the conference information registration unit 11 communicates with the participant terminal PT of the participant who will be the organizer of the online communication via the network NW using the communication interface unit 4, accepts conference information from the participant terminal PT, assigns a unique conference ID to the conference information, and stores it in the conference information database 31.
  • the psychological distance stage setting unit 12 communicates with each participant terminal PT of the participants participating in the online communication stored in the conference information database 31 via the network NW using the communication interface unit 4, and presents the contents of the conference information to the participant terminal PT.
  • the participant at each participant terminal PT sets the possible stages of difference in status and intimacy depending on the number of conversation partners seen from the participant's perspective in the presented online communication, as a psychological distance stage.
  • the psychological distance stage setting unit 12 accepts the psychological distance stage set from the participant terminal PT via the network NW using the communication interface unit 4, and transmits it to the psychological distance setting unit 13.
  • the psychological distance setting unit 13 communicates with each participant terminal PT of the participants participating in the online communication stored in the conference information database 31 via the network NW through the communication interface unit 4, and accepts from the participant terminal PT the setting of the psychological distance indicated by the psychological distance stage for each dialogue partner who is another participant.
  • the psychological distance setting unit 13 stores the information of the set psychological distance in the participant information database 32.
  • the difference in status refers to the objective roles of each participant in a given conversation and the hierarchical relationship that results from them.
  • the difference in status can be between a boss and a subordinate in a company, a professor and a student in a university research lab, a customer and a staff member in customer support, etc.
  • Intimacy indicates the degree of favoritism that participants have towards each other. For example, intimacy can be between a close senior colleague in a company (high intimacy) and a distant junior colleague (low intimacy).
  • the sound source position determination unit 14 determines the sound source positions of other participants who are dialogue partners with respect to the target person, based on the psychological distance information of each dialogue partner of the participant.
  • the sound source position determination unit 14 stores information on the sound source position for each of the determined dialogue partners in the participant information database 32. The method for determining the sound source position will be explained in detail in the explanation of the operation.
  • FIG 4 is a diagram showing an example of the contents stored in the participant information database 32.
  • the participant information database 32 has psychological distance information for determining the sound source positions of other participants who are conversation partners (a, b, c, ...) as seen from the participant who is the target person (n). Specifically, the participant information database 32 associates the user ID of the target person as a participant ID and the user IDs of each conversation partner as other participant IDs, and stores psychological distance information for each conversation partner set by the psychological distance setting unit 13, that is, position information which is a value indicating the level of difference in position, and intimacy information which is a value indicating the level of intimacy. Furthermore, in addition to the psychological distance information, the participant information database 32 stores the sound source coordinate values of other participants indicating the sound source positions determined by the sound source position determination unit 14.
  • the conference information registration unit 11, the psychological distance stage setting unit 12, the psychological distance setting unit 13, and the sound source position determination unit 14 basically operate at any time before online communication is held.
  • the intimacy level may change depending on the content of the dialogue during online communication. Therefore, each processing function unit other than the conference information registration unit 11, that is, the psychological distance stage setting unit 12, the psychological distance setting unit 13, and the sound source position determination unit 14, may operate even during online communication.
  • the participant information database 32 can also store a conference ID for distinguishing between online communications, in consideration of the possibility that the intimacy level may change depending on the content of the dialogue, so that the intimacy level value can be changed for each online communication.
  • the input information acquisition unit 15, the sound field position reflection unit 16, the audio output unit 17, and the video output unit 18 operate during online communication.
  • the input information acquisition unit 15 communicates with the participant terminals PT of the participants participating in the online communication stored in the conference information database 31 via the network NW using the communication interface unit 4, and acquires audio information and video information from each of the participant terminals PT.
  • the input information acquisition unit 15 transmits the acquired audio information and video information to the sound field position reflection unit 16.
  • the sound field position reflection unit 16 For each participant participating in online communication stored in the conference information database 31, the sound field position reflection unit 16 generates sound field information for each dialogue partner based on the sound source coordinate values of each dialogue partner for the target person stored in the participant information database 32, with the participant as the target. The sound field position reflection unit 16 then applies the voice information of each dialogue partner to the generated sound field information for each dialogue partner for each target person. That is, the sound field position reflection unit 16 generates sound field information in which the voice information of each dialogue partner is localized as a sound image. This sound field information in which the sound image is localized is audio information for reproducing the voice of each dialogue partner in stereophonic sound in accordance with the sound field generated based on the psychological distance information of each target person. The sound field position reflection unit 16 stores the generated sound field information in which the sound image is localized for each target person in the sound field information database 33.
  • the sound field position reflection unit 16 generates display video information, which is information on the display screen in which the display position and display size of the video information of each dialogue partner are adjusted for each subject, based on the generated sound field information for each dialogue partner for each subject, and stores this information in the sound field information database 33.
  • the audio output unit 17 transmits, for each participant taking part in the online communication stored in the conference information database 31, sound field information in which the sound image corresponding to that participant is localized and stored in the sound field information database 33, via the communication interface unit 4 and the network NW to the participant terminal PT of that participant.
  • the video output unit 18 For each participant taking part in the online communication stored in the conference information database 31, the video output unit 18 transmits the display video information corresponding to that participant stored in the sound field information database 33 to the participant terminal PT of that participant via the network NW via the communication interface unit 4.
  • Example of operation Next, an example of the operation of the communication server CS configured as above will be described. Note that the explanation of basic operations such as logging in from the participant terminal PT will be omitted. Also, the operation of registering the conference information of the online communication in the conference information database 31 by the conference information registration unit 11 is a general operation, so a detailed explanation of it will be omitted here.
  • the control unit 1 of the communication server CS executes a program stored in the program storage unit 2 to execute the preparation processing as shown in this flowchart. Note that even at any time during the online communication, the control unit 1 can similarly execute the preparation processing as shown in the flowchart when a preparation request is received from the participant terminal PT of a participant who is participating in the online communication.
  • FIG. 5 is a flowchart showing an example of the processing procedure and processing contents of the preparation processing executed by the control unit 1 of the communication server CS.
  • the control unit 1 starts this preparation processing when it receives a preparation request transmitted from a participant terminal PT via the network NW through the communication interface unit 4.
  • the preparation processing is basically processing between the requesting participant terminal PT, and nothing is carried out between other participant terminals PT.
  • the control unit 1 When the preparation process starts, the control unit 1 operates as the psychological distance stage setting unit 12 and accepts the designation of the online communication to be set from the requesting participant terminal PT (step S101). Specifically, the control unit 1 searches for online communications in which the participant's user ID is registered as a participant among online communications that have not yet ended and are registered in the conference information database 31, communicates with the participant terminal PT via the network NW using the communication interface unit 4, presents the search results to the participant, and determines the online communication to be set. Alternatively, the preparation request sent from the participant terminal PT may include information specifying the online communication to be set.
  • control unit 1 operates as the psychological distance stage setting unit 12 and performs a process of setting the psychological distance stage (step S102). Specifically, the control unit 1 acquires the psychological distance stage, which is a possible stage in terms of the difference in status and intimacy level, input by the participant of the requesting participant terminal PT according to the number of conversation partners as seen from the participant's perspective, via the network NW through the communication interface unit 4.
  • control unit 1 operates as the psychological distance setting unit 13 and performs a process of setting the psychological distance for each of the other participants who are the dialogue partners of the online communication to be set and who are registered in the conference information database 31 (step S103). Specifically, the control unit 1 presents options for the psychological distance that can be taken for each dialogue partner to the requesting participant terminal PT via the network NW via the communication interface unit 4 in accordance with the psychological distance stage set in step S102 above, and accepts the selection of the psychological distance. Then, the control unit 1 stores the selected psychological distance for each dialogue partner in the participant information database 32.
  • Figure 6 is a schematic diagram showing an example of the difference in status with each dialogue partner. If, for example, three levels are set as the possible levels of difference in status, the difference in status can be assigned to each dialogue partner from three options: higher, same rank, or lower, based on the target participant himself. As a specific example, if the online communication is a company meeting, superiors and seniors would be higher, colleagues would be same rank, and subordinates and juniors would be lower. Note that in the example of Figure 6, there are three possible levels of difference in status, but if there are a large number of dialogue partners or a large variety of positions, this can be increased to four or more levels.
  • the control unit 1 stores in the participant information database 32 the position information, which is a value indicating the level of the difference in position, as "0" when “same rank” is selected, "1" when “higher rank” is selected, and "-1” when “lower rank” is selected.
  • the user ID of the dialogue partner Ca who is the superior, is "a”
  • the user ID of the dialogue partner Cb who is a colleague
  • the user ID of the dialogue partner Cc who is a subordinate
  • the user ID of the target person who is a participant of the participant terminal PT that originated the request, is "n”.
  • the participant information database 32 stores "1" in the position difference field of the record of the participant ID "n” and the other participant ID "a", "0” in the position difference field of the record of the participant ID "n” and the other participant ID "b", and "-1" in the position difference field of the record of the participant ID "n” and the other participant ID "c".
  • FIG. 7 is a schematic diagram showing an example of the intimacy level with each dialogue partner. If seven levels are set as the possible levels of intimacy, then each dialogue partner can be assigned one of the seven levels, for example from “-3 (low)” to "3 (high)” with "0 (medium)” as the standard. As a specific example, if the online communication is a company meeting, a friendly subordinate can be assigned a level of "3,” a distant colleague a level of "0,” and a boss with whom one does not get along a level of "-2.” The number of levels of intimacy can also be increased or decreased depending on the number of dialogue partners, etc.
  • the control unit 1 stores the value selected as the intimacy level as intimacy level information in the participant information database 32.
  • the intimacy level information of "-2” is stored in the intimacy level field of the record for participant ID "n” and other participant ID "a”
  • the intimacy level information of "0” is stored in the intimacy level field of the record for participant ID "n” and other participant ID "b”
  • the intimacy level information of "3” is stored in the intimacy level field of the record for participant ID "n” and other participant ID "c.”
  • control unit 1 then operates as the sound source position determination unit 14 to perform a process of determining the sound source position of each participant (step S104). That is, for each online communication identified by a conference ID stored in the participant information database 32, the control unit 1 determines the sound source position of each of the other participants who are the conversation partners of each target person identified by the participant ID. Specifically, the control unit 1 determines the sound source position according to the position information and intimacy information stored in the participant information database 32, and stores the coordinates of the determined sound source position in the sound source coordinates item of the corresponding other participant in the participant information database 32.
  • FIG. 8 shows a sound source coordinate system that defines the sound source position according to the difference in position and intimacy.
  • the difference in position indicated by the position information is assigned to a position (Y coordinate) in the vertical direction (Y axis direction) of the sound source, and the difference in position is represented by its up or down position.
  • the intimacy indicated by the intimacy information is assigned to a position (Z coordinate) in the depth direction of the sound source (Z axis direction), and the intimacy is represented by its perspective position.
  • the difference in position can be reproduced as the up or down position of the sound field reproduced and output on the display screen of the participant terminal PT of the target person. Therefore, the control unit 1 determines the Y coordinate in the vertical direction of the sound source for each position with the aim of leveling out the difference in position. Specifically, with the aim of reducing the sense of intimidation due to the difference in position, the height of the position is inversely proportional to the height of the Y coordinate. In other words, the control unit 1 determines the vertical position of the sound source so that the dialogue partner with a higher position information is located at a lower position on the display screen of the target person. This allows the remarks of the participant with a higher position to be reproduced from a lower position, reducing the sense of intimidation.
  • Fig. 9 is a schematic diagram showing the sound source positions of each dialogue partner according to the difference in position.
  • the position information of the dialogue partner Ca who is the superior is set to "1”
  • the dialogue partner Cb who is the colleague is set to "0”
  • the dialogue partner Cc who is the subordinate is set to "-1”. Therefore, as shown in Fig.
  • the control unit 1 determines the Y coordinate of the dialogue partner Cb who is the colleague to "0", the Y coordinate of the dialogue partner Ca who is the superior to "y na ", and the Y coordinate of the dialogue partner Cc who is the subordinate to "y nc " (where y nc > 0 > y na ) based on the Y coordinate "0" of the target "n".
  • This makes it possible to make the voice of the superior who is in a higher position sound from below and the voice of the subordinate who is in a lower position sound from above on the display screen of the participant terminal PT of the target "n".
  • the degree of intimacy can be reproduced as the distance of the sound source in the sound field reproduced and output on the display screen of the participant terminal PT of the target person. Therefore, the control unit 1 determines the distance (L) of the sound source according to the degree of intimacy in order to reflect the degree of intimacy. Specifically, based on the knowledge that "the relationship with the conversation partner affects the distance during the conversation" such as in the F formation, the level of intimacy is inversely proportional to the distance. The distance is basically realized by changing the Z coordinate, which is the value in the depth direction (Z-axis direction). In other words, the control unit 1 determines the depth direction position so that the closer the conversation partner is on the display screen of the target person, the higher the intimacy information indicates.
  • FIG. 10 is a schematic diagram showing the sound source position of each conversation partner according to the intimacy level.
  • the intimacy level information is set to "2" for the conversation partner Ca who is the superior, "4" for the conversation partner Cb who is the colleague, and "7" for the conversation partner Cc who is the subordinate. Therefore, as shown in FIG. 10, the control unit 1 determines the distance of the conversation partner Ca who is the superior from the target "n" as "l na ", the distance of the conversation partner Cb who is the colleague as "l nb ", and the distance of the conversation partner Cc who is the subordinate as "l nc ". For example, the control unit 1 obtains each distance l as follows. This makes it possible to make the voice of the superior who has a low intimacy level sound from a distance and the voice of the subordinate who has a high intimacy level sound from nearby on the display screen of the participant terminal PT of the target "n".
  • the control unit 1 changes the horizontal (X-axis) position (X coordinate) of the sound source. Specifically, the control unit 1 aligns the X coordinates of the corresponding dialogue partners evenly to the left and right.
  • FIG. 11 is a schematic diagram showing the sound source positions of multiple dialogue partners with the same level of intimacy and difference in position.
  • the control unit 1 changes the X coordinate to xnc , xnc ', xnc ". Note that changing the value of the horizontal sound source in this way changes the distance l of the changed dialogue partner. Therefore, when the value of the horizontal sound source is changed, the control unit 1 corrects the value in the depth direction so that the distance does not change. That is, the control unit 1 sets the Z coordinate to znc , znc ', znc ".
  • this X coordinate may be the same.
  • the control unit 1 multiplies the value of the difference in position stored as position information in the participant information database 32 by an arbitrary variable to determine the y coordinate of the sound source of each dialogue partner. For example, it divides into three levels, higher, same level, and lower, and assigns the vertical width of the display screen of the participant terminal PT to "40", the bottom edge of the display screen to "-20”, and changes the coordinate by "10" for each level, with the y coordinate of the higher dialogue partner being "-10", the y coordinate of the same level dialogue partner being "0", and the y coordinate of the lower dialogue partner being "10".
  • the control unit 1 multiplies the intimacy value stored as intimacy information in the participant information database 32 by an arbitrary variable to determine the distance l between the target person and the sound source of each conversation partner. For example, it assigns seven levels from “-3" to “3”, sets the possible distance range to “10” to “70”, changes the distance by "10” for each level, and sets the distance l at "10” for the highest intimacy level ("3") and "70” for the lowest intimacy level ("-3").
  • control unit 1 distributes the x coordinates of the corresponding sound sources. For example, if three people are in the same position and the width of the display screen is "80", the left edge of the display screen is "-40", and the respective x coordinates are "-30", "0", and "30".
  • the control unit 1 corrects the z coordinate so that the distance l is satisfied. That is, the calculation is performed in the same way as in the case of x ⁇ 0 in iii. above.
  • control unit 1 judges whether or not to end this preparation process (step S105). For example, the control unit 1 ends this preparation process when it receives an end instruction transmitted from the participant terminal PT via the network NW through the communication interface unit 4. If it determines that the preparation process is not yet ended, the control unit 1 proceeds to the process of step S101 above.
  • Dialogue Processing Fig. 12 is a flowchart showing an example of the procedure and processing contents of the dialogue processing executed by the control unit 1.
  • the control unit 1 executes the dialogue processing shown in this flowchart for each participant by executing a program stored in the program storage unit 2 for each online communication.
  • the control unit 1 can execute the processing shown in this flowchart in parallel for multiple online communications held simultaneously.
  • the control unit 1 When the communication interface unit 4 receives a command to start online communication from the participant terminal PT of the target person via the network NW, the control unit 1 starts this dialogue processing for that online communication.
  • the control unit 1 then operates as the input information acquisition unit 15 and determines whether or not it has acquired input information, that is, whether or not it has received audio information and video information transmitted via the network NW from the participant terminal PT of another participant who is the dialogue partner of the target person (step S111). At this time, the control unit 1 can distinguish between the participant terminal PT of the target person and the participant terminal PT of the dialogue partner of the participant based on the conference information of the online communication registered in the conference information database 31. The control unit 1 repeats the processing of step S111 until it acquires input information.
  • the control unit 1 operates as the sound field position reflecting unit 16 and generates a sound field obtained by the subject based on the positional relationship between the subject and each dialogue partner (step S112). Specifically, the control unit 1 distinguishes between the subject and the dialogue partners based on the conference information of the online communication registered in the conference information database 31, and generates sound field information for each dialogue partner obtained by the subject based on the sound source coordinates stored in the participant information database 32, which take into account the positional relationship between the subject and each dialogue partner. The control unit 1 then applies the acquired voice information to the sound field information of the dialogue partner that is the sender of the voice information acquired in step S111, among the sound field information for each dialogue partner generated.
  • control unit 1 generates sound field information in which the acquired voice information of the dialogue partner is sound image localized.
  • the control unit 1 stores the generated sound field information in the sound field information database 33.
  • control unit 1 generates display video information, which is information to be displayed on the display screen of the participant terminal PT of the target person, with the display position and display size of the video information of the conversation partner adjusted based on the generated sound field information, and stores it in the sound field information database 33.
  • control unit 1 operates as the audio output unit 17 to output audio (step S113), and also operates as the video output unit 18 to output video (step S114).
  • control unit 1 identifies the participant terminal PT of the target person based on the conference information of the online communication registered in the conference information database 31, and transmits the sound field information of each dialogue partner with sound image localization corresponding to the target person stored in the sound field information database 33 to the identified participant terminal PT via the network NW by the communication interface unit 4.
  • the control unit 1 also transmits the display video information corresponding to the target person stored in the sound field information database 33 to the identified participant terminal PT via the network NW by the communication interface unit 4. This allows the participant terminal PT of the target person to play back the voice of each dialogue partner in accordance with the sound field information of each dialogue partner in stereophonic sound, while simultaneously arranging and playing back the video of each dialogue partner on the display screen.
  • control unit 1 judges whether or not to end this dialogue process (step S115). For example, the control unit 1 ends this dialogue process when it receives an end instruction transmitted from the participant terminal PT of the target person via the network NW through the communication interface unit 4. If it judges that the dialogue process is not yet ended, the control unit 1 proceeds to the process of step S111 above.
  • FIG. 13 is a schematic diagram showing an example of a display screen SC of the participant terminal PT of the target participant.
  • the control unit 1 operates as a sound field position reflecting unit 16 to generate display video information in which the video information CV of the conversation partner is drawn on the display screen SC based on the sound source coordinates of each defined conversation partner.
  • the display video information includes image information of a depth design indicating depth as the background of the display screen SC, and the video information CV of the conversation partner is arranged on this depth design.
  • the depth design can be expressed, for example, by perspective lines PL or color shading according to the perspective projection method. Note that it is not essential to provide a depth design as the background of this display screen SC, and it is of course not necessary to arrange a special image, such as by displaying in a single color.
  • the size of the video information CV of the conversation partner is changed in proportion to the distance from the sound source indicated by the sound field information, and the closer the distance, the larger it is drawn.
  • FIG. 13 is an example in which the size of the video information CV of the conversation partner at the closest distance l nc is drawn the largest.
  • the coordinates of the sound source position may be the center of the video information CV, or may be near the mouth of the person speaking in the arranged video information CV by extracting a face area from the video information CV using OpenCV or the like.
  • the communication server CS functions as an information presentation device that presents, via the network NW, a plurality of pieces of voice information acquired from one or more first participant terminals PT used by one or more participants who are conversation partners among a plurality of participant terminals PT participating in online communication via the network NW to a second participant terminal PT used by a target participant among the plurality of participant terminals PT.
  • the communication server CS includes a sound source position definition unit 14 that defines the sound source position of each conversation partner based on psychological distance information that is set for each of one or more conversation partners using one or more first participant terminals and represents a psychological distance for each conversation partner as seen from a target person using a second participant terminal, a sound field position reflection unit 16 that serves as a voice presentation unit that generates sound field information in which sound images are localized for the voice information from one or more first participant terminals based on the sound source position of each of the one or more conversation partners, and transmits the sound field information to the second participant terminal, a sound field information database 33, and a voice output unit 17.
  • a sound source position definition unit 14 that defines the sound source position of each conversation partner based on psychological distance information that is set for each of one or more conversation partners using one or more first participant terminals and represents a psychological distance for each conversation partner as seen from a target person using a second participant terminal
  • a sound field position reflection unit 16 serves as a voice presentation unit that generates sound field information in which sound images
  • psychological distance information for each dialogue partner is obtained, the sound source position is determined according to the psychological distance information, and the voice of each dialogue partner is output according to the determined sound source position, thereby providing an information presentation technology that can give the subject an appropriate sense of distance based on the relationship between the subject and each dialogue partner.
  • the psychological distance information includes position information indicating the position of the dialogue partner from the perspective of the target person
  • the sound source position determination unit 14 determines the vertical (Y-axis) position of the sound source so that the dialogue partner with a higher position information is positioned lower on the display screen SC of the second participant terminal PT. Therefore, according to the first embodiment, it is possible to provide an information presentation technique that can give the subject a sense of appropriate distance based on the position of the conversation partner from the subject's perspective. In other words, the lower the position of the person, the more comfortable the conversation can be realized by outputting audio in stereophonic form from the upper part of the display screen SC.
  • the psychological distance information includes intimacy information indicating the intimacy of the conversation partner from the perspective of the target person
  • the sound source position determination unit 14 determines the sound source depth direction (Z axis direction) position so that the conversation partner indicating the higher intimacy information is at a closer depth position on the display screen SC of the second participant terminal PT. Therefore, according to the first embodiment, it is possible to provide an information presentation technique that can give the subject a sense of appropriate distance based on the intimacy of the conversation partner from the subject's perspective. That is, the closer a person is to the person, the closer the person is to the person, and audio is output in stereophonic sound, realizing a comfortable conversation.
  • the sound source position determination unit determines the horizontal (X-axis) position of the sound source so that conversation partners with the same position and intimacy level have the same vertical sound source position on the display screen SC of the second participant terminal PT, but different left and right positions on the display screen SC. Therefore, according to the first embodiment, dialogue partners with the same position and intimacy level can be presented side by side on the display screen SC, making it possible to provide an information presentation technology that can give the target person an appropriate sense of distance even when there are multiple dialogue partners.
  • the system further includes a sound field position reflection unit 16, a sound field information database 33, and a video output unit 18 which generate display video information that displays video information from the first participant terminal PT at the sound source vertical position and sound source horizontal position determined by the sound source position determination unit 14, in a size proportional to the sound source depth position determined by the sound source position determination unit 14, and transmits the display video information to the second participant terminal PT, and the size is larger for the closer depth position.
  • the first embodiment by presenting, in addition to audio, an image of each interlocutor based on the relationship between the subject and each interlocutor, it is possible to provide an information presentation technology that can give the subject a more appropriate sense of distance.
  • (Configuration example) 14 is a block diagram showing an example of a software configuration of a communication server CS as a second embodiment of the information presentation device of the present invention.
  • the control unit 1 of the communication server CS includes an input information leveling unit 19 as a processing function unit required to implement the second embodiment, in addition to the conference information registration unit 11, the psychological distance stage setting unit 12, the psychological distance setting unit 13, the sound source position determination unit 14, the input information acquisition unit 15, the sound field position reflection unit 16, the audio output unit 17, and the video output unit 18 similar to those in the first embodiment.
  • the input information leveling unit 19 levels the input information, that is, the video information and audio information acquired by the input information acquisition unit 15 from the participant terminals PT of each dialogue partner via the network NW, to generate leveled video information and leveled audio information, and supplies them to the sound field position reflection unit 16. This input information leveling method will be described in detail in the explanation of the operation.
  • Example of operation 15 is a flowchart showing an example of the processing procedure and processing contents of the dialogue processing executed by the control unit 1 in the second embodiment.
  • the control unit 1 when it is determined in the above step S111 that input information from the participant terminal PT of another participant who is the dialogue partner of the target person has been acquired, the control unit 1 operates as the input information leveling unit 19 and levels the acquired input information (step S116). Specifically, the control unit 1 corrects the acquired video information and audio information so that, for example, the face size in the video information of each dialogue partner, the voice volume in the audio information of each dialogue partner, etc. become equal. Then, the control unit 1 executes the processing of the above step S112 using the leveled video information and leveled audio information obtained by these corrections as information to be processed.
  • the sense of distance cannot be properly expressed when the video and audio of each conversation partner are output to the participant terminal PT of the target person.
  • the voice of the conversation partner with a low level of intimacy will sound loud on the participant terminal PT of the target person, even if a sound field is generated to move the coordinates of the sound source farther away based on the intimacy information.
  • the way the video appears (size and position of the face) and the way the audio is heard (volume) are averaged in advance.
  • the facial area is extracted from the video information of each conversation partner using OpenCV or similar, and the video of the other conversation partners is trimmed and drawn to align with the conversation partner that occupies the largest area within the video.
  • FIG. 16A is a schematic diagram showing an example of the face area of each conversation partner in the input video information of each conversation partner
  • FIG. 16B is a schematic diagram showing an example of the leveled video information of each conversation partner.
  • the input video information IVb of conversation partner Cb who is a colleague
  • the input video information IVc of conversation partner Cc who is a subordinate
  • the control unit 1 does not make any corrections to the input video information LIa for conversation partner Ca, who is a superior and has the largest face and the face area FA positioned in the center.
  • the control unit 1 performs corrections to enlarge the input video information IVb to match the face size in the input video information IVa of conversation partner Ca, who is a superior and has the largest face, to generate leveled video information LIb.
  • the control unit 1 performs a trimming correction to center the face position within a correctable range, thereby generating leveled video information LIc.
  • control unit 1 As for volume equalization, the control unit 1 generates equalized voice information by performing a correction to match the volume of the conversation partner who has the quietest voice, similar to the face size. Alternatively, the control unit 1 generates equalized voice information by performing a correction to amplify quiet voices and attenuate loud voices so as to match the average volume of all conversation partners.
  • the second embodiment is equipped with an input information leveling unit 19 that levels out the size and position of the face of the conversation partner in video information from one or more first participant terminals PT and supplies it to the video presentation unit, and/or levels out the volume of audio information from one or more first participant terminals PT and supplies it to the audio presentation unit. Therefore, according to the second embodiment, it is possible to provide an information presentation technique that can give the target person an appropriate sense of distance even if there is variation in the input information from each conversation partner.
  • the communication server CS as the first or second embodiment of the information presentation device may cooperate with another system to automatically acquire the psychological distance. That is, the psychological distance setting unit 13 of the control unit 1 of the communication server CS automatically inputs the "difference in status" and "degree of intimacy" with each conversation partner by cooperating with the other system without receiving settings from the participant terminal PT of the target participant.
  • the psychological distance setting unit 13 can acquire job title information of each interlocutor from a system that manages employee information and set the difference in status.
  • the psychological distance setting unit 13 can estimate and set the degree of intimacy from the content of the target person's conversation with each interlocutor on a chat tool.
  • the psychological distance setting unit 13 uses a score to indicate the degree of intimacy based on the conversation history, as disclosed in Reference 1 below.
  • the communication server CS by configuring the communication server CS to work with other systems to automatically obtain the psychological distance, it is possible to omit the task of setting the psychological distance of the target person.
  • the communication server CS as the first or second embodiment of the information presentation device may be configured to dynamically change the sound source position during a conversation. That is, the sound source position determination unit 14 of the control unit 1 of the communication server CS dynamically changes the sound source position determined in the preparation process during the conversation.
  • the coordinates of the sound source can be changed by updating that value. For example, if a person opens up to a superior with whom they previously did not get along, the level of intimacy with the superior may increase, and the sound source may be brought closer to that degree.
  • the psychological distance stage setting unit 12, psychological distance setting unit 13, and sound source position determination unit 14 operate even during a conversation, making it possible for the target person to manually set and update the sound source position.
  • the sound source position determination unit 14 has a function for estimating the emotions of both the target person and the conversation partner, and temporarily changes the coordinates of the sound source according to the degree of intimacy and emotions.
  • the sound sources of all of the subjects are moved closer together.
  • the sound source of the junior is temporarily moved farther away.
  • the sound source position determination unit 14 estimates emotions from the voice alone and also from facial expressions in the video, as disclosed in Reference 2 below.
  • the communication server CS by configuring the communication server CS to dynamically change the sound source position during a conversation, it is possible to provide an information presentation technology that can give an appropriate sense of distance depending on the psychological distance of the target person at that time.
  • the communication server CS as the second embodiment of the information presentation device may personalize the leveling items. That is, the input information leveling unit 19 of the control unit 1 of the communication server CS changes or adds target items when implementing leveling according to the type of dialogue or the preference of the target person.
  • the emphasis is placed on expressing distance, and so the basic items are face size and voice volume.
  • the input information leveling unit 19 also levels factors such as voice quality and speaking style as additional targets for leveling.
  • the input information leveling unit 19 brings the pitch of the two voices closer together.
  • the input information leveling unit 19 extracts features of the voice and replaces them with a similar synthetic voice that is closer to the average, as disclosed in Reference 3 below.
  • the sound source coordinates of other participants are determined by the sound source position determination unit 14 and stored in the participant information database 32.
  • the sound source position determination unit 14 may calculate the sound source coordinates of other participants each time during the conversation based on the psychological distance information, i.e., the difference in position and the value of intimacy, stored in the participant information database 32, and transmit them to the sound field position reflection unit 16.
  • the present invention can be applied not only to online communication, but also to some real-world (offline) use.
  • it can be applied to a scene in which each participant wears noise-canceling earphones and an intercom, and the position of the sound source is set to coordinates different from the actual one depending on the level of intimacy with each interlocutor, and audio is played from there.
  • a visual application is also conceivable in which each participant wears MR (Mixed Reality) glasses with a camera facing forward, and after cutting out an image of each actual interlocutor, the image is relocated to the coordinates of the sound source specified by this information presentation system.
  • MR Mated Reality
  • each embodiment shows a case where the information presentation device is configured with one communication server CS, it may be configured with multiple servers.
  • a server that performs preparatory processing and a server that performs interactive processing may be separated, or the server that performs interactive processing may be divided according to the number of online communications held simultaneously or the number of participants.
  • the program may be transferred in a state where it is stored in an electronic device, or in a state where it is not stored in an electronic device. In the latter case, the program may be transferred via a network, or in a state where it is recorded on a recording medium.
  • the recording medium is a non-transitory tangible medium.
  • the recording medium is a computer-readable medium.
  • the recording medium may be in any form, such as a CD-ROM or memory card, as long as it is capable of storing the program and is computer-readable.
  • this invention is not limited to the above-mentioned embodiment as it is, and in the implementation stage, the components can be modified and embodied without departing from the gist of the invention.
  • various inventions can be formed by appropriately combining multiple components disclosed in the above-mentioned embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, components from different embodiments may be appropriately combined.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

この発明の一態様の情報提示装置は、ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の1以上の第1の参加者端末からそれぞれ取得した複数の音声情報を、複数の参加者端末の内の第2の参加者端末に前記ネットワークを介して提示する情報提示装置であって、音源位置規定部と、音声提示部と、を備える。音源位置規定部は、1以上の第1の参加者端末を使用する1以上の対話相手それぞれに対して設定された、第2の参加者端末を使用する対象者から見た対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、対話相手それぞれの音源位置を規定する。音声提示部は、1以上の対話相手それぞれの音源位置に基づいて、1以上の第1の参加者端末からの音声情報を音像定位させた音場情報を生成して、第2の参加者端末に送信する。

Description

情報提示装置、情報提示方法及び情報提示プログラム
 この発明の一態様は、情報提示装置、情報提示方法及び情報提示プログラムに関する。
 現状のオンラインコミュニケーションは、映像及び音声を用いたビデオ通話が主流である。但し、会議、商談、展示会等のビジネスユースでは、資料(スライド)を閲覧しながら対話するケースも多く有り、その場合、映像を表示せずに音声のみで対話が進行することも有る。
 対面でのコミュニケーションでは、そのコミュニケーションに参加するそれぞれの参加者は、その他の参加者である対話相手それぞれとの関係性に応じて、各対話相手と一定の距離を保ちながら、各対話相手と対話することが一般的である。この距離は、パーソナルスペースやF陣形と呼ばれ、快適な対話を実現する上で重要な要素である。例えば、高圧的な上司から距離を取り、協力的な同僚の近くに立ち位置を移すことで、対話時の不快感をある程度軽減することができる。
 これに対して、オンラインコミュニケーションにおける対話では、1つの画面とスピーカに、全対話相手の映像及び音声が集約されてしまう。
 そのため、聞く側が各対話相手の見え方(顔の大きさや位置等)や聞こえ方(音量や方向等)を個別に調節することが難しい。その結果、各対話相手の見え方や聞こえ方を調節できず、心理的に抵抗が有る対話相手との対話を、その不快感を軽減できぬまま強いられる状況に陥り易い。
 反対に、話す側の視点に立っても、聞く側の視聴環境を認識できず、自身の適切な見え方や聞こえ方を把握し難い。その結果、意図せずに聞く側に高圧的な態度と捉えられ、不必要に不快感を与えてしまう危険性も有る。
 以上を踏まえ、オンラインコミュニケーションでは、参加者それぞれについて、当該参加者とは別の1以上の参加者(各対話相手)との関係性に基づいて、各対話相手に対する適切な距離感を与えることが必要になる。
 そこで、参加者と各対話相手との距離を表現する取り組みが、研究・実用サービスの両面で行われている。
 例えば、前述した通り、ビジネスユースでは映像の表示優先度が下がるため、特に音声による距離感の表現手法に着目することができる。
 従来、例えば、Apple社のFaceTime(登録商標)では、立体音響技術による空間的な音像を形成し、画面上で対話相手の映った位置から音声が聞こえてくるような、臨場感を高める機能が実装されている。しかしながら、この機能は、映像と音声との整合性を取る、いわゆる現実再現の文脈に留まっており、参加者の不快感を軽減するという観点で、再生される音声の音量や方向が適切かは明確でない。
 また、非特許文献1は、同じく立体音響技術で、各参加者の音源位置を意図的に離し、聞き取り易さを高める技術を提案している。しかしながら、これは、各参加者の音源を機械的なルールに則って均等に離すだけであり、参加者間の関係性は考慮されていない。即ち、参加者が他の参加者に抱く不快感を軽減するという観点では、特に検討がなされていない。
M. Wong.、R. Duraiswami、「SharedSpace: Spatial Audio and Video Layouts for Videoconferencing in a Virtual Room」、2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA)、2021年9月、DOI: 10.1109/I3DA48870.2021.9610974
 この発明は上記事情に着目してなされたもので、対象者である参加者と対象者の各対話相手となる他の参加者それぞれとの関係性に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供しようとするものである。
 上記課題を解決するためにこの発明の一態様の情報提示装置は、ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の1以上の第1の参加者端末からそれぞれ取得した複数の音声情報を、複数の参加者端末の内の第2の参加者端末に前記ネットワークを介して提示する情報提示装置であって、音源位置規定部と、音声提示部と、を備える。音源位置規定部は、1以上の第1の参加者端末を使用する1以上の対話相手それぞれに対して設定された、第2の参加者端末を使用する対象者から見た対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、対話相手それぞれの音源位置を規定する。音声提示部は、1以上の対話相手それぞれの音源位置に基づいて、1以上の第1の参加者端末からの音声情報を音像定位させた音場情報を生成して、第2の参加者端末に送信する。
 すなわちこの発明の一態様によれば、対象者と各対話相手との関係性に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。
図1は、この発明の第1実施形態における情報提示システムの構成の一例を示す図である。 図2は、この発明の情報提示装置の第1実施形態としてのコミュニケーションサーバのハードウェア構成の一例を示すブロック図である。 図3は、コミュニケーションサーバのソフトウェア構成の一例を示すブロック図である。 図4は、コミュニケーションサーバの参加者情報データベースの記憶内容の一例を示す図である。 図5は、コミュニケーションサーバの制御部が実行する準備処理の処理手順と処理内容の一例を示すフローチャートである。 図6は、各対話相手との立場の差の一例を示す模式図である。 図7は、各対話相手との親密度の一例を示す模式図である。 図8は、立場の差及び親密度に応じた音源位置を規定する音源座標系を示す図である。 図9は、立場の差に応じた各対話相手の音源位置を表す模式図である。 図10は、親密度に応じた各対話相手の音源位置を表す模式図である。 図11は、立場の差及び親密度が同位の複数対話相手の音源位置を表す模式図である。 図12は、コミュニケーションサーバの制御部が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。 図13は、対象者となる参加者の参加者端末の表示画面の一例を示す模式図である。 図14は、この発明の情報提示装置の第2実施形態としてのコミュニケーションサーバのソフトウェア構成の一例を示すブロック図である。 図15は、第2実施形態におけるコミュニケーションサーバの制御部が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。 図16Aは、各対話相手の入力映像における各対話相手の顔エリアの一例を示す模式図である。 図16Bは、平準化した各対話相手の平準化映像の一例を示す模式図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。
 [第1実施形態]
 (構成例)
 (1)システム
 図1は、この発明の第1実施形態における情報提示システムの構成の一例を示す図である。
 本実施形態の情報提示システムは、その主体的な構成要素として、この発明の情報提示装置の第1実施形態としてのコミュニケーションサーバCSを備える。情報提示システムは、このコミュニケーションサーバCSと、多人数でのオンラインコミュニケーションに参加する複数の参加者が使用する複数の参加者端末PTとの間で、ネットワークNWを介して情報データの伝送を行えるようにしたものである。情報提示システムは、参加者毎に、当該参加者を対象者、他の参加者を当該対象者の対話相手として、コミュニケーションサーバCSにより、対話相手の参加者端末PTで取得した情報を対象者の参加者端末PTに提示させる。即ち、コミュニケーションサーバCSは、参加者端末PTのそれぞれを、対象者の参加者端末PTとして扱うと共に対話相手の参加者端末PTとしても扱う。
 ネットワークNWは、インターネットである。勿論、ネットワークNWは、LAN(Local Area Network)等、上記情報データの伝送が可能なものであれば、どのようなネットワークであっても良い。
 多人数でのオンラインコミュニケーションは、音声を伴うオンラインコミュニケーション全般を想定する。心理的な距離が異なる対話相手が参加する機会が多いことを理由に、基本的には、会議、商談、展示会、等のビジネスシーンでの適用を想定する。勿論、家族や友人等のプライベートな繋がりの会話においても適用が可能である。
 (2)装置
 (2-1)参加者端末PT
 参加者端末PTは、PC(Personal Computer)、スマートフォン、グラス型デバイス、等の音声と映像を出力でき、インターネット等のネットワークNWを経由して他者と遠隔で会話できるものであれば制限しない。
 (2-2)コミュニケーションサーバCS
 図2及び図3は、コミュニケーションサーバCSのハードウェア構成及びソフトウェア構成の一例を示すブロック図である。
 コミュニケーションサーバCSは、例えば、ウェブ上又はクラウド上に設置されるサーバコンピュータからなる。なお、コミュニケーションサーバCSは、複数の参加者端末PTの一つであるPCが兼用されても良い。
 コミュニケーションサーバCSは、制御部1を備え、この制御部1に対し、プログラム記憶部2及びデータ記憶部3を有する記憶ユニットと、通信インタフェース部4とを、バス5を介して接続したものとなっている。なお、図2及び図3では、インタフェースをI/Fと記している。
 制御部1は、CPU(Central Processing Unit)等のハードウェアプロセッサである。例えばCPUは、マルチコア及びマルチスレッドのものを用いることで、同時に複数の情報処理を実行することができる。制御部1は、複数のハードウェアプロセッサを備えていても良い。
 通信インタフェース部4は、制御部1の制御の下、各参加者端末PTとの間でそれぞれ情報データの送受信を行う。
 プログラム記憶部2は、例えば、記憶媒体としてHDD(Hard Disk Drive)やSSD(Solid State Drive)等の随時書込み及び読み出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとを組み合わせて構成したものである。プログラム記憶部2は、OS(Operating System)等のミドルウェアに加えて、第1実施形態の情報提示に必要な上記各情報の入力及びその登録要求を送信するために必要なアプリケーション・プログラムを格納する。なお、以後、OSと各アプリケーション・プログラムとをまとめてプログラムと称する。
 データ記憶部3は、例えば、記憶媒体として、HDDやSSD等の随時書込み及び読み出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリと組み合わせたものである。データ記憶部3は、その記憶領域に、この発明の第1実施形態を実施するために必要な主たる記憶部として、会議情報データベース31と、参加者情報データベース32と、音場情報データベース33と、を備える。なお、図3では、データベースをDBと記している。
 会議情報データベース31は、多人数でのオンラインコミュニケーションそれぞれについての情報である会議情報として、オンラインコミュニケーションを区別するための会議IDに対応付けて、開催日時や参加する参加者のユーザ情報を記憶する。ユーザ情報は、ユーザID、パスワード等のログイン情報、氏名、等を含む。会議情報は、オンラインコミュニケーションの開催者となる参加者が使用する参加者端末PTから設定することができる。
 参加者情報データベース32は、各オンラインコミュニケーションに参加する参加者が自身の参加者端末PTから設定した、他の参加者である対話相手それぞれについての参加者情報を記憶する。参加者情報は、例えば、当該対話相手との立場の差や親密度を示す情報を含む。
 音場情報データベース33は、オンラインコミュニケーションに参加する参加者の参加者端末PTそれぞれから取得した音声情報を、対象者毎に、当該対象者の対話相手それぞれについての音場情報に基づいて定位させた音場情報を記憶する。音場情報は、音声情報を立体音響技術による空間的な音像として出力するための情報である。更に、音場情報データベース33は、同じく参加者端末PTそれぞれから取得した映像情報に対して、対象者毎に、音場情報に基づく表示位置及び表示サイズを調整した表示画面の映像情報を記憶する。
 また、制御部1は、第1実施形態を実施するために必要な処理機能部として、会議情報登録部11、心理的距離段階設定部12、心理的距離設定部13、音源位置規定部14、入力情報取得部15、音場位置反映部16、音声出力部17及び映像出力部18を備える。これらの処理機能部は、何れも、プログラム記憶部2に格納されたアプリケーション・プログラムを制御部1のハードウェアプロセッサに実行させることにより実現される。
 なお、処理機能部の内の少なくとも一つの、少なくとも一部の処理機能については、アプリケーション・プログラムと制御部1のハードウェアプロセッサにより実現する代わりに、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(field-programmable gate array)、GPU(Graphics Processing Unit)、等の集積回路により実現するようにしても良い。
 会議情報登録部11は、通信インタフェース部4によりネットワークNWを介してオンラインコミュニケーションの開催者となる参加者の参加者端末PTと通信して、当該参加者端末PTから会議情報を受け付け、その会議情報に一意の会議IDを割り当てて、会議情報データベース31に記憶させる。
 心理的距離段階設定部12は、通信インタフェース部4によりネットワークNWを介して、会議情報データベース31に記憶されたオンラインコミュニケーションに参加する参加者の各参加者端末PTと通信して、その参加者端末PTに会議情報の内容を提示する。各参加者端末PTの参加者は、提示されたオンラインコミュニケーションにおける自身から見た対話相手の人数等に応じて、立場の差及び親密度における取り得る段階を、心理的距離段階として設定する。心理的距離段階設定部12は、通信インタフェース部4によりネットワークNWを介して、参加者端末PTから設定された心理的距離段階を受け付け、それを心理的距離設定部13に伝達する。
 心理的距離設定部13は、通信インタフェース部4によりネットワークNWを介して、会議情報データベース31に記憶されたオンラインコミュニケーションに参加する参加者の各参加者端末PTと通信して、参加者端末PTから他の参加者である各対話相手についての、心理的距離段階で示される心理的距離の設定を受け付ける。心理的距離設定部13は、その設定された心理的距離の情報を参加者情報データベース32に記憶させる。
 心理的距離を構成する要素として、本実施形態では、具体的には、立場の差と親密度との2つを想定する。
 立場の差とは、任意の対話における各参加者の客観的な役割と、それに基づく上下関係を示す。例えば、立場の差は、会社内での上司と部下、大学研究室での教授と学生、カスタマーサポートでの客とスタッフ、等である。
 親密度とは、参加者が他の各参加者に抱く好意の度合いを示す。例えば、親密度は、会社における仲の良い先輩(親密度高)と疎遠な後輩(親密度低)、等である。
 音源位置規定部14は、参加者情報データベース32に記憶された各参加者について、当該参加者における各対話相手の心理的距離情報に基づいて、対象者を基準とした、対話相手である他の参加者の音源位置を確定する。音源位置規定部14は、確定した対話相手それぞれについての音源位置の情報を参加者情報データベース32に記憶させる。この音源位置の確定手法については、動作の説明において、詳細に説明する。
 図4は、参加者情報データベース32の記憶内容の一例を示す図である。参加者情報データベース32は、対象者(n)である参加者から見た対話相手(a,b,c,…)である他参加者の音源位置を規定するための心理的距離情報を持つ。具体的には、参加者情報データベース32は、対象者のユーザIDを参加者ID、各対話相手のユーザIDを他参加者IDとして、それらに対応付けて、心理的距離設定部13により設定された各対話相手についての心理的距離情報、つまり、立場の差の段階を表す値である立場情報と、親密度の段階を表す値である親密度情報と、を保持する。更に、参加者情報データベース32は、心理的距離情報に加えて、音源位置規定部14により確定された音源位置を示す他参加者の音源座標の値を保持する。
 なお、会議情報登録部11、心理的距離段階設定部12、心理的距離設定部13及び音源位置規定部14は、基本的には、オンラインコミュニケーションの開催前の任意の時点において動作する。しかしながら、オンラインコミュニケーションの開催中に、対話内容により親密度が変わる可能性が存在する。よって、会議情報登録部11を除く各処理機能部、つまり、心理的距離段階設定部12、心理的距離設定部13及び音源位置規定部14は、オンラインコミュニケーションの開催中にも動作して良い。
 参加者情報データベース32は、この対話内容により親密度が変わる可能性を踏まえ、オンラインコミュニケーション毎に親密度の値を変更できるようにするべく、オンラインコミュニケーションを区別するための会議IDも合わせて保持することができる。
 入力情報取得部15、音場位置反映部16、音声出力部17及び映像出力部18は、オンラインコミュニケーションの開催中に動作する。
 入力情報取得部15は、通信インタフェース部4によりネットワークNWを介して、会議情報データベース31に記憶されたオンラインコミュニケーションに参加している参加者の参加者端末PTと通信し、それら参加者端末PTのそれぞれから音声情報及び映像情報を取得する。入力情報取得部15は、取得した音声情報及び映像情報を音場位置反映部16に伝達する。
 音場位置反映部16は、会議情報データベース31に記憶されたオンラインコミュニケーションに参加している参加者毎に、当該参加者を対象者として、参加者情報データベース32に記憶された対象者に対する各対話相手の音源座標の値に基づいて、各対話相手用の音場情報を生成する。そして、音場位置反映部16は、この生成した対象者毎の各対話相手用の音場情報に、各対話相手の音声情報を適用する。即ち、音場位置反映部16は、各対話相手の音声情報を音像定位させた音場情報を生成する。この音像定位させた音場情報は、各対象者の心理的距離情報に基づいて生成した音場に則り各対話相手の音声を立体音響で再生するための音声情報である。音場位置反映部16は、この生成した対象者毎の音像定位させた音場情報を音場情報データベース33に記憶させる。
 また、音場位置反映部16は、生成した対象者毎の各対話相手用の音場情報に基づいて、対象者毎に、各対話相手の映像情報の表示位置及び表示サイズを調整した表示画面の情報である表示映像情報を生成して、音場情報データベース33に記憶させる。
 音声出力部17は、会議情報データベース31に記憶されたオンラインコミュニケーションに参加している各参加者毎に、音場情報データベース33に記憶されている当該参加者に対応する音像定位させた音場情報を、通信インタフェース部4によりネットワークNWを介して、当該参加者の参加者端末PTへ送信する。
 映像出力部18は、会議情報データベース31に記憶されたオンラインコミュニケーションに参加している各参加者毎に、音場情報データベース33に記憶されている当該参加者に対応する表示映像情報を、通信インタフェース部4によりネットワークNWを介して、当該参加者の参加者端末PTへ送信する。
 (動作例)
 次に、以上のように構成されたコミュニケーションサーバCSの動作例を説明する。なお、参加者端末PTからのログイン等の基礎的な動作については、その説明を省略する。また、会議情報登録部11による会議情報データベース31へのオンラインコミュニケーションの会議情報の登録動作についても、一般的な動作であるので、ここではその詳細説明は省略する。
 (1)準備処理
 そして、オンラインコミュニケーションの開催前の任意の時点に、そのオンラインコミュニケーションに参加しようとする参加者の参加者端末PTからの準備要求に応じて、コミュニケーションサーバCSの制御部1は、プログラム記憶部2に記憶されたプログラムを実行することで、このフローチャートに示す以下のような準備処理を実行する。なお、オンラインコミュニケーションの開催中の任意の時点においても、そのオンラインコミュニケーションに参加している参加者の参加者端末PTから準備要求を受けた場合も、同様に、制御部1は、以下のような準備処理を実行することができる。
 図5は、コミュニケーションサーバCSの制御部1が実行する準備処理の処理手順と処理内容の一例を示すフローチャートである。例えば、制御部1は、通信インタフェース部4により、ネットワークNWを介して参加者端末PTから送信されてくる準備要求を受けたときに、この準備処理を開始する。準備処理は、基本的に、その要求元の参加者端末PTとの間の処理であり、他の参加者端末PTとの間では何も実施しない。
 準備処理を開始すると、制御部1は、心理的距離段階設定部12として動作して、要求元の参加者端末PTから、設定対象のオンラインコミュニケーションの指定を受け付ける(ステップS101)。具体的には、制御部1は、会議情報データベース31に登録されている、現時点で終了していないオンラインコミュニケーションの内、当該参加者のユーザIDが参加者として登録されているオンラインコミュニケーションを検索し、通信インタフェース部4によりネットワークNWを介して参加者端末PTと通信して、その検索結果を参加者に提示して、設定対象のオンラインコミュニケーションを判別する。或いは、参加者端末PTから送信されてくる準備要求に、設定対象のオンラインコミュニケーションを指定する情報が含まれていても良い。
 次に、制御部1は、心理的距離段階設定部12として動作して、心理的距離段階を設定する処理を実施する(ステップS102)。具体的には、制御部1は、要求元の参加者端末PTの参加者が自身から見た対話相手の人数等に応じて入力した、立場の差及び親密度における取り得る段階である心理的距離段階を、通信インタフェース部4によりネットワークNWを介して取得する。
 そして、制御部1は、心理的距離設定部13として動作して、会議情報データベース31に登録されている設定対象のオンラインコミュニケーションの対話相手である他の参加者それぞれについての心理的距離を設定する処理を実施する(ステップS103)。具体的には、制御部1は、上記ステップS102で設定した心理的距離段階に従って、通信インタフェース部4によりネットワークNWを介して、各対話相手に対して取り得る心理的距離の選択肢を要求元の参加者端末PTに提示して心理的距離の選択を受け付ける。そして、制御部1は、選択された各対話相手の心理的距離を、参加者情報データベース32に記憶させる。
 図6は、各対話相手との立場の差の一例を示す模式図である。立場の差として取り得る段階として例えば3段階が設定されたとすると、立場の差は、対象者である参加者自身を基準に上位、同位、下位の3段階を選択肢として、各対話相手に何れかの段階を割り当てることができる。具体例としては、オンラインコミュニケーションが会社の会議であるとすれば、上司や先輩が上位、同僚が同位、部下や後輩が下位となる。なお、図6の例では、立場の差として取り得る段階を3段階としているが、対話相手の人数や立場の種類が多い場合には4段階以上に増やすことができる。
 制御部1は、立場の差の段階を表す値である立場情報として、同位が選択された場合は「0」、上位が選択された場合は「1」、下位が選択された場合は「-1」を、参加者情報データベース32に記憶させる。ここで、図6の例において、上司である対話相手CaのユーザIDを「a」、同僚である対話相手CbのユーザIDを「b」、部下である対話相手CcのユーザIDを「c」とし、要求元の参加者端末PTの参加者である対象者のユーザIDを「n」とする。この場合、参加者情報データベース32には、図4に示すように、参加者ID「n」、他参加者ID「a」のレコードの立場の差の項目には「1」、参加者ID「n」、他参加者ID「b」のレコードの立場の差の項目には「0」、参加者ID「n」、他参加者ID「c」のレコードの立場の差の項目には「-1」、がそれぞれ記憶されることになる。
 図7は、各対話相手との親密度の一例を示す模式図である。親密度として取り得る段階として例えば7段階が設定されたとすると、親密度は、例えば「0(中間)」を基準とする「-3(低)」~「3(高)」の7段階を選択肢として、各対話相手に何れかの段階を割り当てることができる。具体例としては、オンラインコミュニケーションが会社の会議であるとすれば、仲の良い部下を「3」、疎遠な同期を「0」、反りの合わない上司を「-2」、のように選択することができる。なお、この親密度の段階も、対話相手の人数等に応じて、段階数を増減させることができる。
 制御部1は、親密度として選択された値を親密度情報として参加者情報データベース32に記憶させる。ここで、図7の例に示すように、対話相手Caの親密度として「-2」、対話相手Cbの親密度として「0」、対話相手Ccの親密度として「3」が選択されたとすると、参加者情報データベース32には、図4に示すように、参加者ID「n」、他参加者ID「a」のレコードの親密度の項目には「-2」の親密度情報、参加者ID「n」、他参加者ID「b」のレコードの親密度の項目には「0」の親密度情報、参加者ID「n」、他参加者ID「c」のレコードの親密度の項目には「3」の親密度情報、がそれぞれ記憶されることになる。
 図5の説明に戻り、制御部1は、次に、音源位置規定部14として動作して、各参加者の音源位置を規定する処理を実施する(ステップS104)。即ち、制御部1は、参加者情報データベース32に記憶された会議IDで特定されるオンラインコミュニケーション毎に、参加者IDで特定される各対象者について、当該対象者の対話相手である他の参加者それぞれの音源位置を規定する。具体的には、制御部1は、参加者情報データベース32に記憶された立場情報及び親密度情報に従って音源位置を規定し、規定した音源位置の座標を、参加者情報データベース32の該当する他参加者の音源座標の項目に記憶させる。
 図8は、立場の差及び親密度に応じた音源位置を規定する音源座標系を示す図である。音源座標系において、立場情報で示される立場の差は、音源垂直方向(Y軸方向)の位置(Y座標)に割り当てられ、その上下位置によって立場の差が表されるようにする。また、親密度情報で示される親密度は、音源奥行き方向(Z軸方向)の位置(Z座標)に割り当てられ、その遠近位置によって親密度が表されるようにする。同じ立場、同じ親密度の対話相手がいて、YZ座標が重複する場合が有り、そのような場合には、音源水平方向(X軸方向)の位置(X座標)を異ならせる。
 立場の差は、対象者の参加者端末PTの表示画面において再生出力される音場の上下位置として再現され得る。そこで、制御部1は、立場の差を平準化することを目的に、立場毎に音源垂直方向のY座標を決定する。具体的には、立場差による威圧感軽減を目的に、立場の高低とY座標の高低とを反比例させる。即ち、制御部1は、立場情報が高い立場を示す対話相手程、対象者の表示画面において下の位置となるように、音源垂直方向位置を決定する。これにより、立場が上位の参加者の発言を低い位置から再生することとなり、威圧感を緩和することができる。
 図9は、立場の差に応じた各対話相手の音源位置を表す模式図である。図6の例では、前述したように、上司である対話相手Caには「1」、同僚である対話相手Cbには「0」、部下である対話相手Ccには「-1」の立場情報が設定されている。よって、図9に示されるように、制御部1は、対象者「n」のY座標「0」を基準に、同僚である対話相手CbのY座標を「0」、上司である対話相手CaのY座標を「yna」、部下である対話相手CcのY座標を「ync」(但し、ync>0>yna)と決定する。これにより、対象者「n」の参加者端末PTの表示画面において、立場が上位である上司の声が下から、下位である部下の声が上から聞こえてくるようにすることができる。
 親密度は、対象者の参加者端末PTの表示画面において再生出力される音場の遠近位置として再現され得る。そこで、制御部1は、親密度の反映を目的に、親密度の度合いに応じて音源の距離(L)を決定する。具体的には、F陣形等の「対話相手との関係性が対話時の間合いに影響する」という知見を踏まえ、親密度の高低と遠近を反比例させる。距離は、基本的には奥行き方向(Z軸方向)の値であるZ座標を変えることで実現する。即ち、制御部1は、親密度情報が高い親密度を示す対話相手程、対象者の表示画面において近い距離となるように、奥行き方向位置を決定する。
 図10は、親密度に応じた各対話相手の音源位置を表す模式図である。図7の例では、前述したように、上司である対話相手Caには「2」、同僚である対話相手Cbには「4」、部下である対話相手Ccには「7」の親密度情報が設定されている。よって、図10に示されるように、制御部1は、上司である対話相手Caの対象者「n」からの距離を「lna」、同僚である対話相手Cbの距離を「lnb」、部下である対話相手Ccの距離を「lnc」と決定する。制御部1は、例えば、各距離lを以下のようにして求める。これにより、対象者「n」の参加者端末PTの表示画面において、親密度の低い上司の声が遠くから、親密度か高い部下の声が近くから聞こえてくるようにすることができる。
Figure JPOXMLDOC01-appb-M000001
 前述したように、同じ立場、親密度の対話相手がいて、YZ座標が重複する場合には、制御部1は、音源水平方向(X軸方向)の位置(X座標)を変更する。具体的には、制御部1は、該当する各対話相手のX座標を、均等に左右に並べる。
 図11は、立場の差及び親密度が同位の複数対話相手の音源位置を表す模式図である。図11に示されるように、立場及び親密度が同じ対話相手Cc,Cc’,Cc”が存在する場合、それらの座標は同じ(xnc,ync,znc)となるべきであるが、制御部1は、X座標を変更して、xnc,xnc’,xnc”とする。なお、このように音源水平方向の値を変更すると、変更した対話相手の距離lが変化してしまう。そこで、音源水平方向の値を変更した場合は、距離が変化しないように、制御部1は、奥行き方向の値を修正する。即ち、制御部1は、Z座標をznc,znc’,znc”とする。
 なお、対象者の参加者端末PTの表示画面に他の参加者である対話相手の映像を表示せず音声のみ再生する場合には、このX座標は同一であっても構わない。
 ここで、制御部1による具体的な座標規定手順の一例を説明する。本例では、対象者の座標(0,0,0)を原点とする。
 i.制御部1は、参加者情報データベース32に立場情報として記憶された立場の差の値に任意の変数を乗算して、各対話相手の音源のy座標を決定する。例えば、上位・同位・下位の3段階に分けて割り振り、参加者端末PTの表示画面の縦幅を「40」、表示画面の下端を「-20」として、段階毎に「10」ずつ座標を変化させ、上位の対話相手のy座標を「-10」、同位の対話相手のY座標を「0」、下位の対話相手のy座標を「10」とする。
 ii.制御部1は、参加者情報データベース32に親密度情報として記憶された親密度の値に任意の変数を乗算して、対象者と各対話相手の音源との距離lを決定する。例えば、「-3」~「3」の7段階に分けて割り振り、取り得る距離の範囲を「10」~「70」として、段階毎に「10」ずつ距離を変化させ、最も親密度が高い時(「3」)の距離lを「10」、最も低い時(「-3」)の距離lを「70」とする。
 iii.制御部1は、距離lを満たすようにz座標を算出する。例えば、y=30、l=50の時、z2=502-302であり、z=40(x=0とする場合)となる。この時、x=0とせずに任意の±の範囲で値を揺らがせて距離計算しても良い。
 iv.同じ立場、親密度の音源が複数有る場合、制御部1は、該当する音源のx座標を分散する。例えば、3人が該当して、表示画面の横幅を「80」とすると、表示画面の左端を「-40」として、それぞれのx座標を「-30」,「0」,「30」とする。
 v.距離lを満たすように、制御部1は、z座標を修正する。即ち、上記iii.のx≠0の場合と同様に算出する。
 図5の説明に戻り、制御部1は、この準備処理を終了するか否か判断する(ステップS105)。例えば、制御部1は、通信インタフェース部4により、ネットワークNWを介して参加者端末PTから送信されてくる終了指示を受けたときに、この準備処理を終了する。未だ終了しないと判断した場合には、制御部1は、上記ステップS101の処理に移行する。
 (2)対話処理
 図12は、制御部1が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。制御部1は、オンラインコミュニケーションのそれぞれについて、プログラム記憶部2に記憶されたプログラムを実行することで、各参加者を対象者として、このフローチャートに示す対話処理を実行する。制御部1は、同時に開催される複数のオンラインコミュニケーションに対するこのフローチャートに示す処理を並行して実施することができる。
 通信インタフェース部4により、ネットワークNWを介して、対象者となる参加者端末PTからオンラインコミュニケーションの開始指令を受信すると、制御部1は、当該オンラインコミュニケーションについて、この対話処理を開始する。そうすると、制御部1は、入力情報取得部15として動作して、入力情報を取得したか否か、つまり、当該対象者の対話相手となる他の参加者の参加者端末PTからネットワークNWを介して送信されてくる音声情報及び映像情報を受信したか否か判断する(ステップS111)。このとき、制御部1は、会議情報データベース31に登録されているオンラインコミュニケーションの会議情報に基づいて、対象者の参加者端末PTと当該参加者に対する対話相手の参加者端末PTとを判別することができる。入力情報を取得するまで、制御部1は、このステップS111の処理を繰り返す。
 入力情報を取得したならば、制御部1は、音場位置反映部16として動作して、対象者と各対話相手の位置関係を踏まえて、対象者が得る音場を生成する(ステップS112)。具体的には、制御部1は、会議情報データベース31に登録されているオンラインコミュニケーションの会議情報に基づいて対象者と対話相手とを判別し、参加者情報データベース32に格納された対象者と各対話相手の位置関係を踏まえた音源座標に基づいて、対象者が得る各対話相手用の音場情報を生成する。そして、制御部1は、この生成した各対話相手用の音場情報の内、上記ステップS111で取得した音声情報の送信元である対話相手の音場情報にその取得した音声情報を適用する。即ち、制御部1は、取得した対話相手の音声情報を音像定位させた音場情報を生成する。制御部1は、この生成した音場情報を音場情報データベース33に記憶させる。また、制御部1は、生成した音場情報に基づいて、その対話相手の映像情報の表示位置及び表示サイズを調整した、対象者の参加者端末PTの表示画面に表示させる情報である表示映像情報を生成して、それを音場情報データベース33に記憶させる。
 そして、制御部1は、音声出力部17として動作して音声を出力する(ステップS113)と共に、映像出力部18として動作して映像を出力する(ステップS114)。
 具体的には、制御部1は、会議情報データベース31に登録されているオンラインコミュニケーションの会議情報に基づいて対象者の参加者端末PTを特定し、音場情報データベース33に記憶されている当該対象者に対応する音像定位させた各対話相手の音場情報を、通信インタフェース部4によりネットワークNWを介して特定した参加者端末PTへ送信する。また、制御部1は、音場情報データベース33に記憶されている当該対象者に対応する表示映像情報を、通信インタフェース部4によりネットワークNWを介して特定した参加者端末PTへ送信する。これにより、対象者の参加者端末PTでは、各対話相手の音場情報に則った各対話相手の音声を立体音響で再生すると同時に、各対話相手の映像を表示画面上に配置して再生することができる。
 その後、制御部1は、この対話処理を終了するか否か判断する(ステップS115)。例えば、制御部1は、通信インタフェース部4により、ネットワークNWを介して対象者の参加者端末PTから送信されてくる終了指示を受けたときに、この対話処理を終了する。未だ終了しないと判断した場合には、制御部1は、上記ステップS111の処理に移行する。
 図13は、対象者となる参加者の参加者端末PTの表示画面SCの一例を示す模式図である。制御部1は音場位置反映部16として動作して、規定した各対話相手の音源座標に基づいて表示画面SC上に対話相手の映像情報CVを描画した表示映像情報を生成する。表示映像情報は、表示画面SCの背景として、奥行きを示す奥行きデザインの画像情報を含み、この奥行きデザイン上に対話相手の映像情報CVを配置したものとなる。奥行きデザインとしては、例えば透視図法に則ったパース線PLや色の濃淡で表現することができる。なお、この表示画面SCの背景として、奥行きデザインを設けることは必須ではなく、単色表示とする等、特別な画像を配置しなくても良いことは勿論である。また、対話相手の映像情報CVのサイズは、音場情報で示される音源との距離と比例して変更し、距離が近いほど大きく描画する。図13は、最も近い距離lncの対話相手の映像情報CVのサイズが最も大きく描画されている例である。音源位置の座標は、映像情報CVの中央としても良いし、映像情報CVからOpenCV等で顔エリアを抽出することで、配置した映像情報CVにおける対話相手の口元付近としても良い。
 (作用・効果)
 以上述べたように第1実施形態では、コミュニケーションサーバCSは、ネットワークNWを介してオンラインコミュニケーションに参加する複数の参加者端末PTの内の対話相手となる1以上の参加者が使用する1以上の第1の参加者端末PTからそれぞれ取得した複数の音声情報を、複数の参加者端末PTの内の対象者となる参加者が使用する第2の参加者端末PTにネットワークNWを介して提示する情報提示装置として機能する。そして、コミュニケーションサーバCSは、1以上の第1の参加者端末を使用する1以上の対話相手それぞれに対して設定された、第2の参加者端末を使用する対象者から見た対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、対話相手それぞれの音源位置を規定する音源位置規定部14と、1以上の対話相手それぞれの音源位置に基づいて、1以上の第1の参加者端末からの音声情報を音像定位させた音場情報を生成して、第2の参加者端末に送信する音声提示部となる音場位置反映部16、音場情報データベース33及び音声出力部17と、を備える。 
 従って、第1実施形態によれば、各対話相手についての心理的距離情報を取得して、その心理的距離情報に応じて音源位置を規定し、規定した音源位置に従って各対話相手の音声を出力するようにしているので、対象者と各対話相手との関係性に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。
 また、第1実施形態では、心理的距離情報は、対象者から見た対話相手の立場を示す立場情報を含み、音源位置規定部14は、立場情報が高い立場を示す対話相手程、第2の参加者端末PTの表示画面SCにおいて下の位置となるように、音源垂直方向(Y軸方向)位置を決定する。 
 従って、第1実施形態によれば、対象者から見た対話相手の立場に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。即ち、立場が低い人程、表示画面SCの上部から音声が立体音響で出力されることで、心地良い対話を実現することができる。
 また、第1実施形態では、心理的距離情報は、対象者から見た対話相手の親密度を示す親密度情報を含み、音源位置規定部14は、親密度情報が高い親密度を示す対話相手程、第2の参加者端末PTの表示画面SCにおいて近い奥行き位置となるように、音源奥行き方向(Z軸方向)位置を決定する。
 従って、第1実施形態によれば、対象者から見た対話相手の親密度に基づいて、対象者に適切な距離感を与え得る情報提示技術を提供することができる。即ち、親密と感じる人ほど近くから音声が立体音響で出力されることで、心地良い対話を実現することができる。特に、立場の差と親密度との2つの要素に着目して、「立場の差」を均しつつ「親密度」による補正を行うことで、対話相手の上下関係による圧迫感や、親しくない対話相手に囲まれる緊張感を緩和し、対象者における対話時の不快感を軽減させることができる。
 また、第1実施形態では、音源位置規定部は、立場と親密度とが同一の対話相手は、第2の参加者端末PTの表示画面SCにおいて同一の音源垂直方向位置であるが、表示画面SCにおいて異なる左右位置となるように、音源水平方向(X軸方向)位置を決定する。 
 従って、第1実施形態によれば、立場と親密度とが同一の対話相手を表示画面SCにおいて左右に並べて提示できるので、多数の対話相手がいても、対象者に適切な距離感を与え得る情報提示技術を提供することができる。
 また、第1実施形態では、1以上の第2の参加者端末PT毎に、音源位置規定部14によって決定された音源垂直方向位置及び音源水平方向位置に、音源位置規定部14によって決定された音源奥行き方向位置に比例したサイズで、第1の参加者端末PTからの映像情報を表示させる表示映像情報を生成して、第2の参加者端末PTに送信する映像提示部となる音場位置反映部16、音場情報データベース33及び映像出力部18を更に具備し、サイズは、近い奥行き位置程、大きい。 
 従って、第1実施形態によれば、音声に加えて、対象者と各対話相手との関係性に基づいて各対話相手の映像を提示することで、より適切な距離感を対象者に与え得る情報提示技術を提供することができる。
 [第2実施形態]
 次に、第2実施形態を説明する。なお、第1実施形態と同様の部分については第1実施形態と同様の参照符号を付すことで、その説明を省略する。
 (構成例)
 図14は、この発明の情報提示装置の第2実施形態としてのコミュニケーションサーバCSのソフトウェア構成の一例を示すブロック図である。第2実施形態においては、コミュニケーションサーバCSの制御部1は、第1実施形態と同様の会議情報登録部11、心理的距離段階設定部12、心理的距離設定部13、音源位置規定部14、入力情報取得部15、音場位置反映部16、音声出力部17及び映像出力部18に加えて、第2実施形態を実施するために必要な処理機能部として、入力情報平準化部19を備える。
 入力情報平準化部19は、入力情報取得部15によってネットワークNWを介して各対話相手の参加者端末PTから取得した入力情報である映像情報及び音声情報を平準化して平準化映像情報及び平準化音声情報を生成し、それらを音場位置反映部16に供給する。この入力情報の平準化手法については、動作の説明において、詳細に説明する。
 (動作例)
 図15は、第2実施形態における制御部1が実行する対話処理の処理手順と処理内容の一例を示すフローチャートである。第2実施形態においては、上記ステップS111において、当該対象者の対話相手となる他の参加者の参加者端末PTからの入力情報を取得したと判断した場合、制御部1は、入力情報平準化部19として動作して、その取得した入力情報を平準化する(ステップS116)。具体的は、制御部1は、例えば、各対話相手の映像情報における顔の大きさ、各対話相手の音声情報における声の大きさ、等が同等になるように、取得した映像情報及び音声情報を補正する。そして、制御部1は、これらの補正により得られた平準化映像情報及び平準化音声情報を処理対象の情報として、上記ステップS112の処理を実行する。
 各対話相手の参加者端末PTにおいて入力される映像情報及び/又は音声情報にばらつきが有ると、対象者の参加者端末PTにおいて各対話相手の映像及び音声を出力した際に、距離感を適切に表現できなくなってしまう。例えば、親密度が低い対話相手の入力音量が相対的に大きかった場合、親密度情報に基づいて音源の座標を遠く離すように音場を生成したとしても、対象者の参加者端末PTでは、その親密度が低い対話相手の声が大きく聞こえてしまう。これを防ぐために、予め、映像の見え方(顔の大きさや位置)及び音声の聞こえ方(音量)を平準化する。
 顔の大きさや位置の平準化では、各対話相手の映像情報からOpenCV等で顔エリアを抽出し、映像内に占めるエリアが最も大きい対話相手に揃えて、他の対話相手の映像をトリミングして描画する。
 図16Aは、各対話相手の入力映像情報における各対話相手の顔エリアの一例を示す模式図であり、図16Bは、平準化した各対話相手の平準化映像情報の一例を示す模式図である。図16Aに示される例では、同僚である対話相手Cbの入力映像情報IVbは、カメラが遠く顔エリアFAの大きさが小さく、また、部下である対話相手Ccの入力映像情報IVcは、顔エリアFAの位置が右寄りとなっている。このような場合、制御部1は、図16Bに示されるように、顔の大きさが最も大きく且つ顔エリアFAの位置が中央に有る上司である対話相手Caについては、何ら補正を加えることなくそのまま、平準化映像情報LIaとする。これに対して、同僚である対話相手Cbの入力映像情報IVbについては、制御部1は、顔の大きさが最も大きい上司である対話相手Caの入力映像情報IVaにおける顔の大きさに揃えるように拡大する補正を行うことで、平準化映像情報LIbを生成する。また、部下である対話相手Ccの入力映像情報IVcについては、制御部1は、顔の位置が補正可能な範囲で中央に揃えるようにトリミングする補正を行うことで、平準化映像情報LIcを生成する。
 また、音量の平準化については、制御部1は、顔の大きさ同様に最も声が小さい対話相手の音量に揃える補正を行うことで、平準化音声情報を生成する。或いは、制御部1は、全対話相手の音量の平均値に揃えるように、小さい声は増幅し、大きい声は減衰する補正を行うことで、平準化音声情報を生成する。
 (作用・効果)
 以上述べたように第2実施形態では、1以上の第1の参加者端末PTからの映像情報における対話相手の顔の大きさ及び位置を平準化して映像提示部に供給する、及び/又は、1以上の第1の参加者端末PTからの音声情報における音量を平準化して音声提示部に供給する、入力情報平準化部19を具備する。 
 従って、第2実施形態によれば、各対話相手からの入力情報にばらつきが有ったとしても、対象者に適切な距離感を与え得る情報提示技術を提供することができる。
 [第3実施形態]
 情報提示装置の第1又は第2実施形態としてのコミュニケーションサーバCSは、他システムと連携して心理的距離を自動取得するようにしても良い。即ち、コミュニケーションサーバCSの制御部1の心理的距離設定部13は、対象者となる参加者の参加者端末PTからの設定を受けることなく、各対話相手との「立場の差」と「親密度」を、他システムと連携することで自動入力する。
 例えば、心理的距離設定部13は、社員情報を管理するシステムから各対話相手の役職情報を取得して、立場の差を設定することが可能である。或いは、心理的距離設定部13は、チャットツール上での、対象者の各対話相手との会話内容から、親密度を推定して設定することができる。
 実現方法の一例としては、心理的距離設定部13は、例えば、以下の参考文献1に開示されているように、会話履歴から親密度合いをスコア化して利用する。
 (参考文献1) 星川祐人、若林啓、佐藤哲司、「Twitterにおける会話内容を用いた親密度推定手法の評価」、第8回データ工学と情報マネジメントに関するフォーラム論文集、2016年3月。
 このように、第3実施形態によれば、他システムと連携して心理的距離を自動取得するようにコミュニケーションサーバCSを構成することで、対象者の心理的距離の設定作業を省略することが可能となる。
 [第4実施形態]
 情報提示装置の第1又は第2実施形態としてのコミュニケーションサーバCSは、対話中に音源位置を動的に変化させるようにしても良い。即ち、コミュニケーションサーバCSの制御部1の音源位置規定部14は、準備処理において規定した音源位置を、対話中に動的に変化させる。
 対話途中で特定の対話相手との親密度に変化が生じた場合、その値を更新することにより音源の座標を変更することができる。例えば、反りが合わなかった上司との対話により打ち解けたことで、その上司との親密度を上昇させ、その分音源を近づけることが考えられる。第1実施形態で説明したように、心理的距離段階設定部12、心理的距離設定部13及び音源位置規定部14が、対話中にも動作することで、対象者の手動設定による音源位置の更新を可能にしている。
 この第4実施形態では、この手動による更新の他、音源位置規定部14は、対象者と対話相手との双方の感情を推定する機能を備え、親密度合いや喜怒哀楽に応じて、一時的に音源の座標を変更する。
 例えば、対象者がリラックスしているので、対話相手全員の音源の距離を近づける。或いは、仲の良い後輩が怒りの感情を顕わにして怒鳴っているため、一時的にその後輩の音源の距離を遠ざける。
 実現方法の一例としては、音源位置規定部14は、例えば、以下の参考文献2に開示されているように、音声単体での感情推定や映像内の顔表情も利用して感情推定する。
 (参考文献2) 西田健次、山田亨、糸山克寿、中臺一博、「表情による感情推定と音声による感情推定手法の検討」、第57回人工知能学会AIチャレンジ研究会発表抄録集、pp.52-57、2020年11月。
 このように、第4実施形態によれば、対話中に音源位置を動的に変化させるようにコミュニケーションサーバCSを構成することで、その時点での対象者の心理的距離に応じて適切な距離感を与え得る情報提示技術を提供することができる。
 [第5実施形態]
 情報提示装置の第2実施形態としてのコミュニケーションサーバCSは、平準化項目をパーソナライゼーションするようにしても良い。即ち、コミュニケーションサーバCSの制御部1の入力情報平準化部19は、平準化を実施する際の対象項目を、対話種別や対象者の好みに応じて変更又は追加する。
 第2実施形態では、距離の表現を重視することから、基礎的な項目として顔の大きさ及び声の音量を挙げたが、第5実施形態では、入力情報平準化部19は、例えば、声質や喋り方のような要素を追加で平準化の対象として、平準化する。
 例えば、甲高い声と低い声の対話相手が混在し聞き取り難い場合に、入力情報平準化部19は、両者の音程を近づける。
 実現例の一例としては、入力情報平準化部19は、例えば、以下の参考文献3に開示されているように、音声の特徴量を抽出して、より平均に近い類似の合成音声に置き換える。
 (参考文献3) D. Snyder、D. Garcia-Romero、G. Sell、D. Povey、S. Khudanpur、「X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION」、2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、PP. 5329-5333、2018年4月、DOI: 10.1109/ICASSP.2018.8461375。
 [その他の実施形態]
 前述の各実施形態では、準備処理において音源位置規定部14により各対話相手の音源位置を示す他参加者の音源座標を確定して、参加者情報データベース32に保持しておくものとしている。しかしながら、必ずしも、予め他参加者の音源座標を予め確定して参加者情報データベース32に保持しておくようにしなくても良い。即ち、音源位置規定部14は、対話中に、参加者情報データベース32に保持されている心理的距離情報つまり立場の差と親密度の値に基づいて他参加者の音源座標を都度算出して、音場位置反映部16に伝達するようにしても良い。
 なお、本発明は、オンラインコミュニケーションだけでなく、一部実世界(オフライン)での利用にも適用可能である。例えば、各参加者がノイズキャンセルイヤホンとインカムを装着した上で、各対話相手との親密度に応じて音源の位置を実際とは異なる座標に設定し、そこから音声を再生するシーンにも適用可能である。更には、そのようなシーンにおいて、各参加者が前方向にカメラが有るMR(Mixed Reality)グラスを装着し、実際の各対話相手の映像を切り抜いた上で、本情報提示システムが規定する音源の座標に、その映像を再配置するという視覚的な適用も考えられる。
 また、各実施形態では、情報提示装置が一つのコミュニケーションサーバCSで構成される場合を示したが、複数のサーバによって構成されても良い。例えば、準備処理を行うサーバと、対話処理を行うサーバとを分けたり、同時に開催されるオンラインコミュニケーションの数や参加人数に応じて対話処理を行うサーバを切り分けたりして良い。
 また、フローチャートを参照して説明した各処理の流れは、説明した手順に限定されるものではないことは言うまでも無い。
 プログラムは、電子機器に記憶された状態で譲渡されて良いし、電子機器に記憶されていない状態で譲渡されても良い。後者の場合は、プログラムは、ネットワークを介して譲渡されて良いし、記録媒体に記録された状態で譲渡されても良い。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、CD-ROM、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であれば良く、その形態は問わない。
 以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されても良い。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。更に、異なる実施形態に亘る構成要素を適宜組み合わせても良い。
  1…制御部
  2…プログラム記憶部
  3…データ記憶部
  4…通信インタフェース部
  5…バス
 11…会議情報登録部
 12…心理的距離段階設定部
 13…心理的距離設定部
 14…音源位置規定部
 15…入力情報取得部
 16…音場位置反映部
 17…音声出力部
 18…映像出力部
 19…入力情報平準化部
 31…会議情報データベース
 32…参加者情報データベース
 33…音場情報データベース
 Ca,Cb,Cc,Cc’,Cc…対話相手
 CS…コミュニケーションサーバ
 CV…映像情報
 FA…顔エリア
 IVa,IVb,IVc…入力映像情報
 LIa,LIb,LIc…平準化映像情報
 NW…ネットワーク
 PL…パース線
 PT…参加者端末
 SC…表示画面

 

Claims (8)

  1.  ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の1以上の第1の参加者端末からそれぞれ取得した複数の音声情報を、前記複数の参加者端末の内の第2の参加者端末に前記ネットワークを介して提示する情報提示装置であって、
     前記1以上の第1の参加者端末を使用する1以上の対話相手それぞれに対して設定された、前記第2の参加者端末を使用する対象者から見た前記対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、前記対話相手それぞれの音源位置を規定する音源位置規定部と、
     前記1以上の対話相手それぞれの前記音源位置に基づいて、前記1以上の第1の参加者端末からの前記音声情報を音像定位させた音場情報を生成して、前記第2の参加者端末に送信する音声提示部と、
     を具備する情報提示装置。
  2.  前記心理的距離情報は、前記対象者から見た前記対話相手の立場を示す立場情報を含み、
     前記音源位置規定部は、前記立場情報が高い立場を示す対話相手程、前記第2の参加者端末の表示画面において下の位置となるように、音源垂直方向位置を決定する、
     請求項1に記載の情報提示装置。
  3.  前記心理的距離情報は、前記対象者から見た前記対話相手の親密度を示す親密度情報を含み、
     前記音源位置規定部は、前記親密度情報が高い親密度を示す対話相手程、前記第2の参加者端末の表示画面において近い奥行き位置となるように、音源奥行き方向位置を決定する、
     請求項1又は2に記載の情報提示装置。
  4.  前記心理的距離情報は、前記対象者から見た前記対話相手の親密度を示す親密度情報を含み、
     前記音源位置規定部は、前記親密度情報が高い親密度を示す対話相手程、前記第2の参加者端末の表示画面において近い奥行き位置となるように、音源奥行き方向位置を決定し、
     前記音源位置規定部は、前記立場と前記親密度とが同一の対話相手は、前記第2の参加者端末の表示画面において同一の音源垂直方向位置であるが、前記表示画面において異なる左右位置となるように、音源水平方向位置を決定する、
     請求項2に記載の情報提示装置。
  5.  前記1以上の第2の参加者端末毎に、前記音源位置規定部によって決定された前記音源垂直方向位置及び前記音源水平方向位置に、前記音源位置規定部によって決定された前記音源奥行き方向位置に比例したサイズで、前記第1の参加者端末からの映像情報を表示させる表示映像情報を生成して、前記第2の参加者端末に送信する映像提示部を更に具備し、
     前記サイズは、近い奥行き位置程、大きい、
     請求項4に記載の情報提示装置。
  6.  前記1以上の第1の参加者端末からの前記音声情報における音量を平準化して前記音声提示部に供給する平準化部を更に具備する、
     請求項1に記載の情報提示装置。
  7.  プロセッサとメモリとを備え、ネットワークを介してオンラインコミュニケーションに参加する複数の参加者端末の内の1以上の第1の参加者端末からそれぞれ取得した複数の音声情報を、前記複数の参加者端末の内の第2の参加者端末に前記ネットワークを介して提示する情報提示装置が実行する情報提示方法であって、
     前記プロセッサが、前記1以上の第1の参加者端末を使用する1以上の対話相手それぞれに対して設定された、前記第2の参加者端末を使用する対象者から見た前記対話相手それぞれについての心理的な距離を表す心理的距離情報に基づいて、前記対話相手それぞれの音源位置を規定し、前記規定した前記対話相手それぞれの前記音源位置を前記メモリに記憶させることと、
     前記プロセッサが、前記1以上の対話相手それぞれの前記音源位置に基づいて、前記1以上の第1の参加者端末からの前記音声情報を音像定位させた音場情報を生成して、前記第2の参加者端末に送信することと、
     を含む情報提示方法。
  8.  請求項1に記載の情報提示装置の各部が行う処理を、前記情報提示装置が備えるプロセッサに実行させる情報提示プログラム。

     
PCT/JP2022/040456 2022-10-28 2022-10-28 情報提示装置、情報提示方法及び情報提示プログラム WO2024089887A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/040456 WO2024089887A1 (ja) 2022-10-28 2022-10-28 情報提示装置、情報提示方法及び情報提示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/040456 WO2024089887A1 (ja) 2022-10-28 2022-10-28 情報提示装置、情報提示方法及び情報提示プログラム

Publications (1)

Publication Number Publication Date
WO2024089887A1 true WO2024089887A1 (ja) 2024-05-02

Family

ID=90830366

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/040456 WO2024089887A1 (ja) 2022-10-28 2022-10-28 情報提示装置、情報提示方法及び情報提示プログラム

Country Status (1)

Country Link
WO (1) WO2024089887A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288645A (ja) * 1996-04-19 1997-11-04 Atsushi Matsushita 大部屋的仮想オフィスシステム
JP2014011509A (ja) * 2012-06-27 2014-01-20 Sharp Corp 音声出力制御装置、音声出力制御方法、プログラム及び記録媒体
US20150058102A1 (en) * 2013-08-21 2015-02-26 Jaunt Inc. Generating content for a virtual reality system
JP2022054192A (ja) * 2020-09-25 2022-04-06 大日本印刷株式会社 リモート会議システム、サーバ、写真撮影装置、音声出力方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288645A (ja) * 1996-04-19 1997-11-04 Atsushi Matsushita 大部屋的仮想オフィスシステム
JP2014011509A (ja) * 2012-06-27 2014-01-20 Sharp Corp 音声出力制御装置、音声出力制御方法、プログラム及び記録媒体
US20150058102A1 (en) * 2013-08-21 2015-02-26 Jaunt Inc. Generating content for a virtual reality system
JP2022054192A (ja) * 2020-09-25 2022-04-06 大日本印刷株式会社 リモート会議システム、サーバ、写真撮影装置、音声出力方法、及びプログラム

Similar Documents

Publication Publication Date Title
US11397507B2 (en) Voice-based virtual area navigation
US20210352244A1 (en) Simulating real-life social dynamics in a large group video chat
JP6535681B2 (ja) ビデオ会議中におけるプレゼンターの表示
US11386903B2 (en) Methods and systems for speech presentation based on simulated binaural audio signals
US10953332B2 (en) Online gaming platform voice communication system
TWI743669B (zh) 設定多使用者虛擬實境聊天環境的方法與裝置
US11716297B2 (en) Methods and systems for indicating location status and availability status within a communication interface
US11651541B2 (en) Integrated input/output (I/O) for a three-dimensional (3D) environment
US11700353B2 (en) Integration of remote audio into a performance venue
US20230017111A1 (en) Spatialized audio chat in a virtual metaverse
CN117321984A (zh) 基于内容类型或参与者角色的视频会议电话中的空间音频
CN117957834A (zh) 针对视频开会的建立的视角用户界面和用户体验
WO2011027475A1 (ja) テレビ会議装置
WO2024089887A1 (ja) 情報提示装置、情報提示方法及び情報提示プログラム
WO2023190344A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7160263B2 (ja) 情報処理システム、情報処理装置およびプログラム
WO2023243059A1 (ja) 情報提示装置、情報提示方法及び情報提示プログラム
US12073514B2 (en) Matchmaking system and method for a virtual event
US12056665B2 (en) Agenda driven control of user interface environments
US20240223625A1 (en) Access control of audio and video streams and control of representations for communication sessions
JP7062126B1 (ja) 端末、情報処理方法、プログラム、および記録媒体
JP7436319B2 (ja) サーバ装置
EP4141764A1 (en) Information processing system, information processing device, and program
US20240211093A1 (en) Artificial Reality Coworking Spaces for Two-Dimensional and Three-Dimensional Interfaces
JP2024022536A (ja) 固有のセキュアなディープリンクを介したビデオ会議ミーティングスロット

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22963534

Country of ref document: EP

Kind code of ref document: A1