WO2023243059A1 - 情報提示装置、情報提示方法及び情報提示プログラム - Google Patents

情報提示装置、情報提示方法及び情報提示プログラム Download PDF

Info

Publication number
WO2023243059A1
WO2023243059A1 PCT/JP2022/024206 JP2022024206W WO2023243059A1 WO 2023243059 A1 WO2023243059 A1 WO 2023243059A1 JP 2022024206 W JP2022024206 W JP 2022024206W WO 2023243059 A1 WO2023243059 A1 WO 2023243059A1
Authority
WO
WIPO (PCT)
Prior art keywords
participant
information
sound source
source position
terminals
Prior art date
Application number
PCT/JP2022/024206
Other languages
English (en)
French (fr)
Inventor
聡一郎 内田
充裕 後藤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/024206 priority Critical patent/WO2023243059A1/ja
Publication of WO2023243059A1 publication Critical patent/WO2023243059A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • One aspect of the present invention relates to an information presentation device, an information presentation method, and an information presentation program.
  • Non-Patent Document 1 proposes a technique for expressing it with an avatar. Furthermore, Non-Patent Document 2 proposes a technique using a robot.
  • these proposed techniques there is a limit to the number of people that can be visually displayed, and it is difficult to apply them to conversations with a large number of people.
  • Non-Patent Documents 1 and 2 cannot be applied to such uses.
  • This invention has been made in view of the above-mentioned circumstances, and aims to provide an information presentation technique that allows the user to perceive an appropriate sense of distance from the speaker without interfering with the visual information to be projected.
  • an information presentation device transmits audio information acquired from a first participant terminal among a plurality of participant terminals via a network to a first participant terminal via a network.
  • This information presentation device presents information to one or more second participant terminals different from the participant terminal, and includes a sound source position specifying section, an audio presentation section, and a visual effect presentation section.
  • the sound source position specifying unit determines, for each of the second participant terminals, the position of the second participant terminal, which is a participant of the second participant terminal, according to the role assigned to each participant who uses a plurality of participant terminals.
  • a sound source position is defined as the position of the first participant who is the participant of the first participant terminal, with reference to the position of the second participant.
  • the audio presentation unit generates, for each of the one or more second participant terminals, sound field information in which the audio information from the first participant terminal is localized as a sound image based on the sound source position of the first participant. and transmits it to each of the second participant terminals.
  • the visual effect presentation unit generates a visual effect based on the sound source position of the first participant for each of the one or more second participant terminals, and transmits the generated visual effect to each of the second participant terminals.
  • FIG. 1 is a diagram showing an example of the configuration of an information presentation system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of a communication server as an embodiment of the information presentation device of the present invention.
  • FIG. 3 is a block diagram showing an example of the software configuration of the communication server.
  • FIG. 4 is a flowchart illustrating an example of the procedure and contents of the preparation process executed by the control unit of the communication server.
  • FIG. 5 is a diagram showing an example of a preset data set stored in the conversation type database of the communication server.
  • FIG. 6 is a schematic diagram showing the positional relationship of participants indicated by the example preset data set of FIG. FIG.
  • FIG. 7 is a diagram showing an example of the contents of the participant assignment table stored in the participant information database of the communication server by the process of registering participant information and roles in the preparation process shown in FIG. 4.
  • FIG. 8 is a diagram illustrating an example of a participant prescribed data set stored in the prescribed information database of the communication server through the process of defining the sound source position of each participant in the preparation process shown in FIG. 4.
  • FIG. 9 is a schematic diagram showing the positional relationship of each participant based on the participant regulation data set of the example of FIG.
  • FIG. 10 is a schematic diagram showing the positional relationship with visitor A in the example of FIG. 9 as a reference.
  • FIG. 11 is a diagram showing an example of the contents of the sound source position regulation data table for visitor A stored in the regulation information database of the communication server through the process of defining the sound source position of each participant in the preparation process shown in FIG. It is.
  • FIG. 12 is a schematic diagram showing a virtual position of a slide in a positional relationship with visitor A as a reference.
  • FIG. 13 is a schematic diagram showing an example of how the slide of FIG. 12 appears on the display screen of visitor A at the virtual position.
  • FIG. 14 is a schematic diagram illustrating an example of what visitor A sees on the display screen when the reference position for depth representation is fixed at the virtual position of the slide.
  • FIG. 12 is a schematic diagram showing a virtual position of a slide in a positional relationship with visitor A as a reference.
  • FIG. 13 is a schematic diagram showing an example of how the slide of FIG. 12 appears on the display screen of visitor A at the virtual position.
  • FIG. 14 is a schematic diagram illustrating an example of what visitor A sees on
  • FIG. 15 is a schematic diagram illustrating an example of what the visitor A sees on the display screen when the reference position for depth expression is dynamically changed depending on the speaker.
  • FIG. 16 is a flowchart illustrating an example of the processing procedure and processing contents of conversation processing executed by the control unit of the communication server.
  • FIG. 17 is a diagram showing an example of a preset data set stored in the conversation type database in the first modification.
  • FIG. 18 is a schematic diagram showing omission of the Y-axis setting in the second modification.
  • FIG. 1 is a diagram showing an example of the configuration of an information presentation system in an embodiment of the present invention.
  • the information presentation system of this embodiment includes a communication server CS, which is an embodiment of the information presentation device of this invention, as its main component.
  • the information presentation system includes this communication server CS, an organizer terminal OT used by an organizer who holds online communication with a large number of people, and a plurality of participant terminals PT1 to PTn (n) used by participants participating in online communication. is an arbitrary integer) through the network NW.
  • the network NW is the Internet.
  • the network NW may be any network, such as a LAN (Local Area Network), as long as it is capable of transmitting the above information data.
  • LAN Local Area Network
  • Online communication among many people is a conversation that frequently takes place online, and the types of conversations include, for example, meetings, business negotiations, academic conferences, exhibitions, university lectures and discussions. Furthermore, online communication among a large number of people may be unidirectional as long as the conversation involves multiple roles. For example, such conversation types include panel discussions among experts, live sports commentary with player commentary, product sales, plays, and the like.
  • organizer terminal OT Although only one organizer terminal OT is shown in FIG. 1, it goes without saying that the information presentation system of this embodiment may include a plurality of organizer terminals OT. In FIG. 1, only one of them is shown as a representative.
  • Organizer terminal OT and participant terminals PT1 to PTn are devices that can output audio and video from PCs (Personal Computers), smartphones, glass-type devices, etc., and can converse with others via networks NW such as the Internet. No restrictions if there are any.
  • Communication server CS 2 and 3 are block diagrams showing an example of the hardware configuration and software configuration of the communication server CS.
  • the communication server CS consists of a server computer installed on the web or cloud, for example. Note that the communication server CS may be a PC that is one of the organizer terminal OT or participant terminals PT1 to PTn.
  • the communication server CS includes a control section 1, and a storage unit having a program storage section 2 and a data storage section 3, and a communication interface section 4 are connected to the control section 1 via a bus 5. ing. Note that in FIGS. 2 and 3, the interface is indicated as I/F.
  • the control unit 1 is a hardware processor such as a CPU (Central Processing Unit). For example, by using a multi-core and multi-threaded CPU, it is possible to simultaneously execute a plurality of information processes.
  • the control unit 1 may include multiple hardware processors.
  • the communication interface section 4 under the control of the control section 1, sends and receives information data between the organizer terminal OT and the participant terminals PT1 to PTn, respectively.
  • the program storage unit 2 includes, for example, non-volatile memories such as HDD (Hard Disk Drive) and SSD (Solid State Drive) that can be written and read at any time, and non-volatile memories such as ROM (Read Only Memory). It is constructed by combining.
  • the program storage unit 2 stores, in addition to middleware such as an OS (Operating System), application programs necessary for inputting each of the above-mentioned information necessary for information presentation in one embodiment and transmitting a registration request for the information.
  • middleware such as an OS (Operating System)
  • OS Operating System
  • the data storage unit 3 is, for example, a combination of a nonvolatile memory such as an HDD or an SSD that can be written to and read from at any time, and a volatile memory such as a RAM (Random Access Memory) as a storage medium.
  • the data storage unit 3 stores, in its storage area, a conversation type database 31, a participant information database 32, a regulation information database 33, and a generated information database as main storage units necessary for carrying out an embodiment of the present invention.
  • a database 34 is provided. Note that in FIGS. 2 and 3, the database is indicated as DB.
  • the conversation type database 31 stores preset data sets corresponding to each type of online communication with a large number of people, such as meetings, business negotiations, academic conferences, exhibitions, university lectures and discussions.
  • the preset data includes the role of the participant and the position and direction of the sound source for each role.
  • the conversation type database 31 can also store datasets edited from preset datasets by the organizer.
  • the participant information database 32 stores user information such as user ID, login information such as password, and name for all users who use this information presentation system. Furthermore, the participant information database 32 stores information on the role assigned by the organizer for each user who becomes a participant (the organizer can also be a participant) by selection from the user who becomes the organizer.
  • the regulation information database 33 is defined for each participant and stores information regarding the sound source positions of other participants.
  • the generated information database 34 stores sound field information and visual effect information generated for each participant.
  • the control unit 1 includes a conversation type setting unit 11, a conversation type editing unit 12, a participant information registration unit 13, a sound source position specifying unit 14, an audio acquisition unit 15, as processing function units necessary for implementing one embodiment. It includes a sound field generation section 16, an audio reproduction section 17, a visual effect generation section 18, and a visual effect expression section 19. All of these processing function units are realized by causing the hardware processor of the control unit 1 to execute an application program stored in the program storage unit 2.
  • processing function of the processing function unit is realized by an ASIC (Application Specific Integrated Circuit) or a DSP (Digital Signal It may be realized by an integrated circuit such as a FPGA (field-programmable gate array), a GPU (graphics processing unit), or the like.
  • ASIC Application Specific Integrated Circuit
  • DSP Digital Signal It may be realized by an integrated circuit such as a FPGA (field-programmable gate array), a GPU (graphics processing unit), or the like.
  • the conversation type setting unit 11 communicates with the organizer terminal OT via the network NW by the communication interface unit 4, and presents the list of conversation types stored as a preset data set in the conversation type database 31 to the organizer terminal OT. Then, the selection of the conversation type is accepted from the organizer terminal OT.
  • the conversation type setting unit 11 stores a preset data set of the conversation type selected by the organizer in the conversation type database 31 as a selected data set of the online communication to be held.
  • the conversation type editing unit 12 communicates with the organizer terminal OT via the network NW by the communication interface unit 4, presents the contents of the selected data set stored in the conversation type database 31 to the organizer terminal OT, and Editing of the selected data set is accepted from the terminal OT.
  • the conversation type editing unit 12 reflects the editing results in the selected data set stored in the conversation type database 31.
  • the participant information registration unit 13 communicates with the organizer terminal OT via the network NW using the communication interface unit 4, receives role assignments for each participant from the organizer terminal OT, and receives information on the assigned roles.
  • the information is stored in the participant information database 32.
  • the sound source position defining unit 14 determines the sound source position of each participant according to the role of each participant stored in the participant information database 32.
  • the sound source position specifying unit 14 stores information on the sound source position for each confirmed participant in the specified information database 33.
  • the sound source position defining unit 14 further determines the visual representation to be presented to each of the participant terminals PT1 to PTn based on the positional relationship of the sound source positions of each participant. This visual representation will be explained in detail in the explanation of the operation.
  • the sound source position specifying unit 14 stores the determined visual expression in the specifying information database 33.
  • the audio acquisition unit 15 communicates with the participant terminals PT1 to PTn of the participants participating in the online communication stored in the participant information database 32 via the network NW by the communication interface unit 4, and acquires the participant terminals. Audio information is acquired from each of PT1 to PTn.
  • the sound field generation unit 16 selects the participant whose terminal is the source of the audio information acquired by the audio acquisition unit 15 based on the information on the sound source position prescribed for each participant stored in the regulation information database 33. Determine the location of the sending participant relative to the location of each participant participating in the online communication in which the participant participates. Then, the sound field generation unit 16 generates sound field information to be provided to each participant other than the transmission source based on the determination result.
  • the sound field information is information for outputting audio information as a spatial sound image using stereophonic sound technology.
  • the sound field generation unit 16 causes the generated information database 34 to store the generated sound field information for each participant.
  • the audio reproduction unit 17 reproduces the audio information from each participant terminal other than the participant terminal that is the source of the audio information stored in the generated information database 34.
  • the acquired audio information is applied to the sound field information for the participant terminals. That is, the audio reproduction unit 17 generates sound field information in which the acquired audio information is localized as a sound image. Then, the audio reproduction unit 17 transmits the sound field information obtained by localizing the audio information to the participant terminals of each participant except for the participant terminal that is the source of the audio information via the network NW by the communication interface unit 4. Send to.
  • the visual effect generation unit 18 identifies the participant whose terminal is the source of the audio information acquired by the audio acquisition unit 15 based on the information on the sound source position prescribed for each participant stored in the regulation information database 33. Determine the location of the sending participant relative to the location of each participant participating in the online communication in which the participant participates. Then, based on the determination result, the visual effect generation unit 18 generates visual effect information to be provided to each participant according to the visual expression of each participant stored in the regulation information database 33.
  • Visual effect information is information regarding visual expressions presented when outputting audio information at participant terminals.
  • the visual effect generation unit 18 causes the generated information database 34 to store the generated visual effect information for each participant.
  • the visual effect generation unit 18 when the audio acquisition unit 15 acquires audio information from any of the participant terminals PT1 to PTn, the visual effect generation unit 18 generates a voice information from the participant terminal that is the source of the audio information stored in the generation information database 34. The acquired audio information is applied to the visual effect information for each participant terminal except for. That is, the visual effect generation unit 18 adds a visual effect representing the position of the acquired audio information to the visual effect information. Then, the visual effect generation unit 18 transmits the generated visual effect information to be provided to each participant to the visual effect expression unit 19.
  • the visual effect expression unit 19 communicates with the participant terminals PT1 to PTn via the network NW by the communication interface unit 4, and the visual effect expression unit 19 communicates with the participant terminals of each participant participating in online communication. Send generated visual effect information to each participant.
  • FIG. 4 is a flowchart showing an example of the procedure and contents of the preparation process executed by the control unit 1 of the communication server CS.
  • the control unit 1 starts this preparation process when the communication interface unit 4 receives a preparation request sent from an organizer terminal OT used by an organizer who intends to hold online communication via the network NW. do.
  • the preparation process is basically a process with the organizer terminal OT, and nothing is performed with the participant terminals PT1 to PTn.
  • the control unit 1 When the preparation process is started, the control unit 1 operates as the conversation type setting unit 11 and performs a process of setting a conversation type such as conference or exhibition from the organizer terminal OT (step S101). Specifically, the control unit 1 communicates with the organizer terminal OT via the network NW using the communication interface unit 4, and transmits the list of conversation types stored as a preset data set in the conversation type database 31 to the organizer terminal. The message is presented to the OT, and the selection of the conversation type is accepted from the organizer terminal OT.
  • a conversation type such as conference or exhibition from the organizer terminal OT
  • the preset data set is a list of the main roles in the conversation type, and the sound source position and direction for each role are set in advance.
  • FIG. 5 is a diagram showing an example of a preset data set 311 stored in the conversation type database 31.
  • the example shown in FIG. 5 is a preset data set 311 whose conversation type is "exhibition.” That is, in the preset data set for this "exhibition", there are participant roles such as "exhibitor EH”, “attendant AT”, “expert EP”, and "visitor VI”, and the sound source for each role is The position and orientation are set.
  • FIG. 6 is a schematic diagram showing the positional relationship of participants indicated by the example preset data set of FIG. Regarding the origin (0, 0, 0) of the sound source position, the coordinates of the sound source position of a visitor in any role such as Visitor VI may be set, or it may be set near the center between the four roles. good.
  • the conversation type setting unit 11 separately stores a preset data set of the conversation type selected by the organizer in the conversation type database 31 as a selected data set of the online communication to be held.
  • a preset data set of the conversation type selected by the organizer in the conversation type database 31 as a selected data set of the online communication to be held.
  • the control unit 1 operates as the conversation type editing unit 12 and executes processing to edit the role, sound source position, and direction from the organizer terminal OT (step S102).
  • the selected data set selected in step S101 and stored in the conversation type database 31 is in a general format, and may not conform to the online communication intended by the organizer. Therefore, the control unit 1 communicates with the organizer terminal OT via the network NW by the communication interface unit 4, presents the selected data set stored in the conversation type database 31 to the organizer terminal OT, and displays the selected data set. Accepts customization by the organizer. Then, the control unit 1 reflects the customization results in the selected data set stored in the conversation type database 31.
  • the process of step S102 can be skipped.
  • the control unit 1 operates as the participant information registration unit 13 and performs a process of registering participant information and roles (step S103). Specifically, the control unit 1 communicates with the organizer terminal OT via the network NW using the communication interface unit 4 to select users from among the users stored in the participant information database 32 to participate in the online communication to be held. accept participants' selections. Then, the control unit 1 accepts assignment of each participant to one of the roles constituting the conversation according to the selected conversation type. In this case, multiple participants may be assigned to each role. Then, the control unit 1 causes the participant information database 32 to store information on the role assigned by the organizer. Note that users who are not stored in the participant information database 32 may be newly registered from the organizer terminal OT.
  • FIG. 7 is a diagram showing an example of the contents of the participant assignment table 321 of the participant information database 32 that stores information on roles assigned in this way.
  • two users are assigned the roles of exhibitor EH, one user is assigned the role of attendant AT, one user is assigned the role of expert EP, and three users are assigned the roles of visitor VI.
  • the control unit 1 operates as the sound source position defining unit 14 and performs a process of defining the sound source position of each participant (step S104). Specifically, the control unit 1 assigns each participant according to the assigned role based on the preset data set 311 stored in the conversation type database 31 and the participant assignment table 321 stored in the participant information database 32. Determine the sound source position. At this time, the control unit 1 first determines the number of people in each role from the participant assignment table 321 stored in the participant information database 32, and assigns the number of participants to the preset data set 311 stored in the conversation type database 31. A participant regulation data set including information on the number of participants is created and stored in the regulation information database 33.
  • FIG. 8 is a diagram showing an example of the participant regulation data set 331 stored in the regulation information database 33.
  • the control unit 1 when multiple participants are assigned to one role, such as an exhibitor and a visitor, the control unit 1 simply places the sound source positions of those multiple participants on the same coordinates. can be placed in Alternatively, the control unit 1 may randomly arrange the sound source positions of the plurality of participants within a certain distance, centering on the sound source position stored in the participant specified data set 331, or distribute them uniformly. You may do so.
  • FIG. 9 shows how to define the sound source positions of multiple participants when multiple participants are assigned to one role based on the participant regulation data set 331 in the example of FIG. 8.
  • FIG. 3 is a schematic diagram showing the positional relationship.
  • the control unit 1 causes the regulation information database 33 to store information on the sound source position and direction for each of the participants thus defined.
  • control unit 1 creates a sound source position regulation data table based on the sound source position of each visitor based on the sound source position information for each participant, and stores it in the regulation information database 33.
  • FIG. 10 is a schematic diagram showing the positional relationship with visitor A in the example of FIG. 9 as a reference.
  • EH-A is exhibitor A
  • EH-B is exhibitor B
  • VI-A is visitor A
  • VI-B is visitor B
  • VI-C is visitor C.
  • Visitor A Based on VI-A exhibitors EH-A and EH-B are at a far distance in front
  • attendant AT is at a middle distance to the right
  • other visitors VI-B and VI-C are at a close distance
  • experts. EP is located near the front left.
  • FIG. 11 shows, as an example of the contents of the sound source position regulation data table 332 stored in the regulation information database 33, the sound source position for visitor A VI-A who is in the positional relationship as shown in FIG. 10 with respect to other participants.
  • 3 is a diagram showing a regulation data table 332.
  • the control unit 1 calculates the distance D between the sound source position of visitor A and the sound source position of each participant based on the information on the sound source position and direction for each participant stored in the regulation information database 33. , this distance D is stored in the sound source position definition data table 332. Further, the control unit 1 calculates an angle using the sound source position and direction of the visitor A and the sound source position of each participant, and stores this angle in the sound source position regulation data table 332 as the direction ⁇ .
  • the control unit 1 similarly creates a sound source position regulation data table for each of the other visitors, visitors VI-B and VI-C, exhibitors EH-A and EH-B, attendant AT, and expert EP. 332 is created and stored in the regulation information database 33.
  • control unit 1 determines a visual expression for each participant based on the sound source positional relationship of each participant stored in the regulation information database 33 of the regulation information database 33, and stores it in the regulation information database 33 (step S105). Specifically, the control unit 1 determines how to express each participant according to the distance from the sound source position of other participants, and how to express the expression according to the direction of the sound source position of other participants. Decide where on the screen each will be output.
  • FIG. 12 is a schematic diagram showing a virtual position SVP of a slide in a positional relationship with visitor A as a reference. The control unit 1 thus determines the reference position for depth representation for each participant.
  • FIG. 13 is a schematic diagram showing an example of how the slide in FIG. 12 appears on the display screen SC on the participant terminal of visitor A VIC-A at the virtual position SVP.
  • symbols SY such as ripples that represent the sound source position
  • the content of the slide SL is image analyzed and areas with a high amount of information (specifically, areas with small letters, areas with rapid color changes, etc.) are displayed. ) may be intentionally displayed while avoiding them, or the transparency during display may be temporarily increased to alleviate the difficulty of viewing the slide SL.
  • the control unit 1 determines a display form that expresses a sense of distance without interfering with the viewing of the slide SL, that is, a reference position and a distance from the reference position, using other design considerations.
  • composition improvement includes, for example, drawing a perspective line PL centered on the slide SL, either inside or outside the slide SL.
  • Contrived shading includes gradually darkening the shading SH from the edges and outside of the slide SL toward the center of the screen, or displaying light and dark alternately.
  • Size, brightness, and layer improvements include displaying the symbol SY in a larger size, brighter, or closer to the slide SL as the distance from the slide SL approaches.
  • “Focus modification” includes blurring the symbol SY as the distance from the slide SL increases.
  • the ⁇ animation technique'' includes increasing the number of ripples as the symbol SY as the volume increases.
  • the reference position BP for depth expression is made to be the brightest as a ⁇ shading technique'', and the symbol SY is displayed in a blurred manner as it moves away from the depth expression reference position BP as a ⁇ focus technique''. That's what I do. Note that in the case of pattern (2) shown in FIG. 15, it is desirable to determine the roles or priorities of participants so that they can be uniquely determined even when a plurality of participants speak at the same time.
  • the control unit 1 determines whether the communication interface unit 4 has received an instruction to end the preparation process from the organizer terminal OT via the network NW, that is, whether or not it has received a request to end the preparations. A judgment is made (step S106). If it is determined that the instruction to end the preparation process has not yet been given, the control unit 1 moves to step S101 described above and prepares for another online communication. Further, if it is determined that an instruction to end the preparation process has been received, the control unit 1 ends the preparation process.
  • FIG. 16 is a flowchart showing an example of the processing procedure and processing contents of conversation processing executed by the control unit 1.
  • the control unit 1 executes the conversation process shown in this flowchart for each online communication set by the organizer.
  • the control unit 1 can perform the processing shown in this flowchart in parallel for a plurality of online communications held at the same time.
  • the control unit 1 When the communication interface unit 4 receives a command to start online communication via the network NW, the control unit 1 starts this conversation processing for the online communication. Then, the control unit 1 determines whether there is a new participant (step S111). For example, when the control unit 1 receives an online communication start command, it determines that the participant at the participant terminal that sent the start command is a new participant. In addition, the control unit 1 may still store sound field information, etc. in the generated information database 34 among the participant terminals PT1 to PTn of the participants stored in the participant information database 32 as participants of the online communication. If a participation command is received from a participant terminal that does not exist, the participant of the participant terminal that is the source of the participation command is determined to be a new participant.
  • the control unit 1 operates as the sound field generation unit 16 and generates a sound field for the new participant, taking into consideration the positional relationship between the participants (step S112). Specifically, the control unit 1 controls the participation of other participants based on the positional relationship between the participants stored in the sound source position regulation data table 332 of the regulation information database 33 for the participant terminal of the participant. The system generates sound field information for localizing sound images from audio information transmitted from user terminals. The control unit 1 causes the generated information database 34 to store the generated sound field information for the new participant.
  • control unit 1 operates with the visual effect generation unit 18 to generate a visual effect for the new participant (step S113). Specifically, the control unit 1 controls the position of the new participant based on the position of the new participant stored in the sound source position regulation data table 332 of the regulation information database 33 and the visual representation stored in the regulation information database 33. Generate visual effect information for each participant's terminal. This visual effect information is, for example, the information shown in FIGS. 13 to 15 except for the symbol SY. The control unit 1 causes the generated information database 34 to store the generated visual effect information for the new participant.
  • control unit 1 operates as the visual effect expression unit 19 and provides the generated visual effect to the new participant via the network NW by the communication interface unit 4 (step S114). Specifically, the control unit 1 transmits the visual effect information generated in step S113 to the participant terminal of the new participant.
  • the control unit 1 operates as the audio playback unit 17, takes into account the positional relationship between the participants, and reproduces the audio information.
  • the audio is played back to other participants excluding the information transmission source (step S116).
  • the control unit 1 adds the input audio to the sound field information stored in the generation information database 34 for each of the participant terminals PT1 to PTn excluding the participant terminal PTi that is the source of the audio information. Apply the information. That is, the audio playback unit 17 generates sound field information for each of the other participants by localizing the sound image of the input audio information.
  • the control unit For the participant terminal PTa, sound field information is generated to localize the sound image of the sound based on the sound information at a position based on the distance D r4-a_r1-a and the direction ⁇ r4a_r1a .
  • the control unit 1 controls the participant terminals of the participants to whom the roles of Exhibitor B EH-B, Attendant AT, Expert EP, Visitor B VI-B, and Visitor C VI-C are assigned. Sound field information can be generated.
  • control unit 1 transmits the sound generated for each of the other participants via the communication interface unit 4 to the other participant terminals PT1 to PTn other than the participant terminal PTi that is the source of the audio information.
  • Send venue information
  • control unit 1 operates with the visual effect generation unit 18 to generate visual effects for other participants in consideration of the positional relationship between the participants (step S117). . Specifically, the control unit 1 inputs visual effect information stored in the generation information database 34 for each of the other participant terminals PT1 to PTn other than the participant terminal PTi that is the source of the audio information. Apply the audio information that was created, ie add the symbol SY as a visual effect.
  • control unit 1 determines whether there is a participant who leaves the online communication (step S119). If there is a person leaving, the control unit 1 deletes the sound field information and visual effect information for that person stored in the generated information database 34 (step S120).
  • a sound source position defining unit 14 that defines a sound source position that is the position of a first participant who is a participant of a first participant terminal with reference to the position of a second participant; For each participant terminal, based on the sound source position of the first participant, sound field information is generated by localizing the sound information from the first participant terminal, and is transmitted to each of the second participant terminals.
  • the sound field generation unit 16 and the audio playback unit 17, which function as an audio presentation unit for the first participant, generate a visual effect based on the sound source position of the first participant for each of one or more second participant terminals, and
  • a visual effect generation section 18 and a visual effect expression section 19 are provided, which function as a visual effect presentation section that transmits data to each of the participant terminals.
  • the sound image of each speaker is localized individually based on the role, and each sound image position is effectively visualized using visual effects, thereby preventing visual information to be projected. It is possible to provide an information presentation technique that allows the user to perceive an appropriate sense of distance from the speaker.
  • the sound source position defining unit visualizes a position corresponding to the sound image localization position on the display screen of each of the second participant terminals based on the positional relationship of the first and second participants.
  • the visual expression is determined, and the visual effect presenting section generates the visual effect according to the visual expression determined by the sound source position defining section. Therefore, according to one embodiment, by determining a visual expression for each participant based on the positional relationship with the speaker, it is possible to quickly generate a visual effect even if the speaker changes one after another. Therefore, it is possible to present visual effects without time lag, and it is possible to provide visual effects that do not make participants feel uncomfortable.
  • the visual representation includes a display form representing a reference position and a distance from the reference position. Therefore, according to one embodiment, by changing the visual expression used in the design, such as color shading or blurring, depending on the reference position or the distance from the reference position, the sense of distance in the depth direction can be achieved with a small amount of information. can be visualized. That is, the depth of the sound image can be expressed without interfering with existing visual information.
  • the conversation type database 31 functions as a first storage unit that stores sound source positions for each role, and a second storage unit that stores roles assigned to each participant. further comprising a participant information database 32 for identifying the second participant based on the sound source position stored in the first storage and the role stored in the second storage. Define each sound source position. Therefore, according to one embodiment, by preparing information necessary for defining the sound source position in advance, it is possible to easily define the sound source positions of multiple participants for an arbitrary participant.
  • the participant information registration unit 13 is further provided, which functions as a participant registration unit that assigns roles to each of the participants of the plurality of participant terminals and stores them in the second storage unit. Accordingly, according to one embodiment, roles can be arbitrarily assigned to participants. Note that the same role may be assigned to multiple participants.
  • a common positional relationship is used for all roles and all participants. However, it is not necessary that they be common, and the optimal positional relationship may be individually constructed for each. For example, in the case of ⁇ exhibition'' as a conversation type in online communication, participants who participate as ⁇ visitors'' want the ⁇ exhibitor'' to be far away in front of them. On the other hand, for participants who participate as "exhibitors,”"visitors" are expected to be close to the right. Furthermore, in discussions such as "meetings" as a type of conversation in online communication, participants have requests such as wanting people with similar ideas to be close to them.
  • FIG. 17 is a diagram showing an example of the preset data set 311 stored in the conversation type database 31 in this first modification.
  • the sound source position is represented by values on the X, Y, and Z axes. However, if the values of the X, Y, and Z axes of the sound source positions of all roles are the same, the setting of that axis may be omitted.
  • FIG. 18 is a schematic diagram showing omission of the Y-axis setting in the second modification.
  • the heights (Y-axis coordinates) of all the roles are the same, the two-dimensional coordinates of the XZ axes can be set.
  • Various types of processing based on the sound source position can also be performed based only on the coordinates of the XZ axes.
  • the control unit 1 may automatically assign roles to each participant without depending on settings from the organizer. For example, the control unit 1 can perform the assignment based on user affiliation information stored in the participant information database 32 in advance. Furthermore, by accumulating the past conversation content, conversation amount, and conversation timing of each user, the control unit 1 can infer the role based on the accumulated information. For example, in online communication with the conversation type "Exhibition," the control unit 1 determines the likelihood that a user will be assigned, such as a user who speaks a lot in the first half of the conversation is likely to be an "exhibitor.” A higher role can be assumed.
  • control unit 1 when determining the visual expression based on the positional relationship between the sound source positions, the control unit 1 does not need to use a common visual expression for all roles and all participants, and may change it for each. For example, in response to feedback from each participant during or after the conversation, the control unit 1 can adjust the type and degree of emphasis of the visual expression.
  • the control unit 1 may edit the visual representation determined by the control unit 1 from the host terminal OT, such as by intentionally moving the speaker's sound source position at any timing to change the sense of distance.
  • the organizer may choose to use visual expressions such as shortening the distance during explanations to make the voices sound familiar, or changing the distance when actors play multiple roles during a play. It may be possible to change it.
  • the present invention is applicable to all online communication involving audio, including conversation scenes as described in the embodiments, but it is also applicable not only to online communication but also to some real-world (offline) communication. It is also applicable to usage. For example, it can be applied to scenes such as audio guides at art museums, where the subject wears earphones or headphones and listens to the explanatory voice of an invisible speaker while viewing the content (stereoscopic sound only). In addition to this, by attaching AR (Augmented Reality) glasses, it can be applied to scenes that also express visual effects (stereophonic sound + visual effects).
  • the embodiment shows a case where the information presentation device is composed of one communication server CS, it may be composed of a plurality of servers.
  • a server that performs preparation processing and a server that performs conversation processing may be separated, or the servers may be separated according to the type of conversation.
  • the present invention is not limited to the above-described embodiments as they are, but can be embodied by modifying the constituent elements at the implementation stage without departing from the spirit of the invention.
  • various inventions can be formed by appropriately combining the plurality of components disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiments. Furthermore, components from different embodiments may be combined as appropriate.
  • Control unit 2 ... Program storage unit 3... Data storage unit 4... Communication interface unit 5... Bus 11... Conversation type setting unit 12... Conversation type editing unit 13... Participant information registration unit 14... Sound source position specifying unit 15... Audio Acquisition unit 16...Sound field generation unit 17...Audio reproduction unit 18...Visual effect generation unit 19...Visual effect expression unit 31...Conversation type database 32...Participant information database 33...Regulation information database 34...Generation information database 311...Preset data Set 321...Participant assignment table 331...Participant regulation data set 332...Sound source position regulation data table AT...Attendant BP...Reference position CS for depth expression...Communication server EH, EH-A, EH-B...Exhibitor EP...Expert NW...Network OT...Organizer terminal PL...Perspective line PT1 to PTn...Participant terminal SC...Display screen SH...Shading SL...Slide SVP...Slide virtual position SY...Symbols VI, VI-

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

この発明の一態様の情報提示装置は、ネットワークを介して複数の参加者端末の内の第1の参加者端末から取得した音声情報を、ネットワークを介して1以上の第2の参加者端末に提示する情報提示装置であって、音源位置規定部と、音声提示部と、視覚効果提示部と、を備える。音源位置規定部は、第2の参加者端末それぞれについて、複数の参加者端末を使用するそれぞれの参加者に対して割り当てられた役割に応じて、第2の参加者端末の第2の参加者の位置を基準とした、第1の参加者端末の第1の参加者の位置である音源位置を規定する。音声提示部は、第2の参加者端末毎に、第1の参加者の音源位置に基づいて、第1の参加者端末からの音声情報を音像定位させた音場情報を生成して、第2の参加者端末それぞれに送信する。視覚効果提示部は、第2の参加者端末毎に、第1の参加者の音源位置に基づく視覚効果を生成して、第2の参加者端末それぞれに送信する。

Description

情報提示装置、情報提示方法及び情報提示プログラム
 この発明の一態様は、情報提示装置、情報提示方法及び情報提示プログラムに関する。
 現状のオンラインコミュニケーションは、音声会話をベースとしたビデオ通話が主流である。
 このビデオ通話では、対面での会話と比べて、非言語要素の情報伝達が制限され、相手との距離感を掴めず画一的な会話になりがちである。そこで、立体音響技術により空間的な音像を形成する情報提示技術が提案されている。しかしながら、このような情報提示技術であっても、聴覚情報だけでは特に奥行き方向の聞き分けが難しく、適切に距離感を把握できない。また、話者の姿を映してその方向から話者の声が聞こえてくるような情報提示技術も提案されている。しかしながら、このような情報提示技術では、会話内容は加味されておらず、画面上の映った位置から音声が聞こえてくる、いわゆる現実再現の文脈に留まっており、必ずしも心地良い距離感で会話できるとは限らない。
 また、最近では、1対1に留まらず、数十名規模での会話が可能となっており、様々な立場や役割の人々と同時にオンラインで会話する機会が増えている。そのため、会話相手の非言語情報を提示できるようにすることが益々重要になってきている。
 会話相手の非言語情報を伝える技術として、非特許文献1はアバターで表現する技術が提案されている。また、非特許文献2はロボットを用いる技術を提案している。しかしながら、これら提案された技術では、視覚的に表示できる人数に限りがあり、大人数の会話には適用が難しい。
 また、多人数でのオンラインコミュニケーションは、雑談だけでなく、会議、商談、学会、展示会、などの明確な目的を持って利用されるケースが増えてきており、そもそも会話相手を視覚的に表現せず、資料(スライド)を中心に閲覧しながら進行する場合も多い。そのような用途には、非特許文献1及び2に提案されている技術を適用することができない。
伊藤冬子ら、「雰囲気の視覚化機能とアバターの利用による合意形成のためのオンライン会議システム」、人工知能学会全国大会論文集、Vol.JSAI06、pp.119-119、2006 長谷川孔明ら、「テレプレゼンスロボットによる無意識的身ぶりの表出が発話交替に与える影響」、日本機械学会論文集、Vol.80、No.819、p.DR0321、2014
 この発明は上記事情に着目してなされたもので、投影すべき視覚情報を妨げることなく話者との適切な距離感を知覚させ得る情報提示技術を提供しようとするものである。
 上記課題を解決するためにこの発明の一態様の情報提示装置は、ネットワークを介して複数の参加者端末の内の第1の参加者端末から取得した音声情報を、ネットワークを介して第1の参加者端末とは異なる1以上の第2の参加者端末に提示する情報提示装置であって、音源位置規定部と、音声提示部と、視覚効果提示部と、を備える。音源位置規定部は、第2の参加者端末それぞれについて、複数の参加者端末を使用するそれぞれの参加者に対して割り当てられた役割に応じて、第2の参加者端末の参加者である第2の参加者の位置を基準とした、第1の参加者端末の参加者である第1の参加者の位置である音源位置を規定する。音声提示部は、1以上の第2の参加者端末毎に、第1の参加者の音源位置に基づいて、第1の参加者端末からの音声情報を音像定位させた音場情報を生成して、第2の参加者端末それぞれに送信する。視覚効果提示部は、1以上の第2の参加者端末毎に、第1の参加者の音源位置に基づく視覚効果を生成して、第2の参加者端末それぞれに送信する。
 すなわちこの発明の一態様によれば、投影すべき視覚情報を妨げることなく話者との適切な距離感を知覚させ得る情報提示技術を提供することができる。
図1は、この発明の一実施形態における情報提示システムの構成の一例を示す図である。 図2は、この発明の情報提示装置の一実施形態としてのコミュニケーションサーバのハードウェア構成の一例を示すブロック図である。 図3は、コミュニケーションサーバのソフトウェア構成の一例を示すブロック図である。 図4は、コミュニケーションサーバの制御部が実行する準備処理の処理手順と処理内容の一例を示すフローチャートである。 図5は、コミュニケーションサーバの会話種別データベースが記憶するプリセットデータセットの一例を示す図である。 図6は、図5の例のプリセットデータセットが示す参加者の位置関係を表す模式図である。 図7は、図4に示した準備処理における参加者情報と役割を登録する処理によってコミュニケーションサーバの参加者情報データベースに記憶された参加者アサインテーブルの内容の一例を示す図である。 図8は、図4に示した準備処理における各参加者の音源位置を規定する処理によってコミュニケーションサーバの規定情報データベースに記憶された参加者規定データセットの一例を示す図である。 図9は、図8の例の参加者規定データセットに基づく各参加者の位置関係を表す模式図である。 図10は、図9の例における訪問者Aを基準とした位置関係を表す模式図である。 図11は、図4に示した準備処理における各参加者の音源位置を規定する処理によってコミュニケーションサーバの規定情報データベースに記憶された訪問者Aについての音源位置規定データテーブルの内容の一例を示す図である。 図12は、訪問者Aを基準とした位置関係におけるスライドの仮想位置を表す模式図である。 図13は、図12のスライドの仮想位置での訪問者Aの表示画面上の見え方の一例を示す模式図である。 図14は、奥行き表現の基準位置をスライドの仮想位置に固定した場合における訪問者Aの表示画面上の見え方の一例を示す模式図である。 図15は、奥行き表現の基準位置を話者に応じて動的に変化させる場合における訪問者Aの表示画面上の見え方の一例を示す模式図である。 図16は、コミュニケーションサーバの制御部が実行する会話処理の処理手順と処理内容の一例を示すフローチャートである。 図17は、第1変形例における会話種別データベースが記憶するプリセットデータセットの一例を示す図である。 図18は、第2変形例におけるY軸の設定の省略を表す模式図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。
 [実施形態]
 (構成例)
 (1)システム
 図1は、この発明の一実施形態における情報提示システムの構成の一例を示す図である。
 本実施形態の情報提示システムは、その主体的な構成要素として、この発明の情報提示装置の一実施形態としてのコミュニケーションサーバCSを備える。情報提示システムは、このコミュニケーションサーバCSと、多人数でのオンラインコミュニケーションを開催する開催者が使用する開催者端末OT及びオンラインコミュニケーションに参加する参加者が使用する複数の参加者端末PT1~PTn(nは任意の整数)との間で、ネットワークNWを介して情報データの伝送を行えるようにしたものである。
 ネットワークNWは、インターネットである。勿論、ネットワークNWは、LAN(Local Area Network)など、上記情報データの伝送が可能なものであれば、どのようなネットワークであっても良い。
 多人数でのオンラインコミュニケーションは、オンラインで相互に頻繁なやり取りが行われる会話であり、その会話種別としては、例えば、会議、商談、学会、展示会、大学の講義やディスカッション、などが含まれる。更に多人数でのオンラインコミュニケーションは、役割が複数有るような会話であれば一方向なものであっても良い。例えば、そのような会話種別としては、有識者同士でのパネルディスカッション、選手解説によるスポーツ実況、商品販売、演劇、などが含まれる。
 なお、図1では、開催者端末OTを一つしか示していないが、本実施形態の情報提示システムは、複数の開催者端末OTを含み得ることは勿論である。図1では、代表してその内の一つを示しているに過ぎない。
 (2)装置
 (2-1)開催者端末OT及び参加者端末PT1~PTn
 開催者端末OT及び参加者端末PT1~PTnは、PC(Personal Computer)、スマートフォン、グラス型デバイス、などの音声と映像を出力でき、インターネットなどのネットワークNWを経由して他者と会話できるものであれば制限しない。
 (2-2)コミュニケーションサーバCS
 図2及び図3は、コミュニケーションサーバCSのハードウェア構成及びソフトウェア構成の一例を示すブロック図である。
 コミュニケーションサーバCSは、例えば、ウェブ上又はクラウド上に設置されるサーバコンピュータからなる。なお、コミュニケーションサーバCSは、開催者端末OT又は参加者端末PT1~PTnの一つであるPCが兼用されても良い。
 コミュニケーションサーバCSは、制御部1を備え、この制御部1に対し、プログラム記憶部2及びデータ記憶部3を有する記憶ユニットと、通信インタフェース部4とを、バス5を介して接続したものとなっている。なお、図2及び図3では、インタフェースをI/Fと記している。
 制御部1は、CPU(Central Processing Unit)等のハードウェアプロセッサである。例えばCPUは、マルチコア及びマルチスレッドのものを用いることで、同時に複数の情報処理を実行することができる。制御部1は、複数のハードウェアプロセッサを備えていても良い。
 通信インタフェース部4は、制御部1の制御の下、開催者端末OT及び参加者端末PT1~PTnとの間でそれぞれ情報データの送受信を行う。
 プログラム記憶部2は、例えば、記憶媒体としてHDD(Hard Disk Drive)やSSD(Solid State Drive)等の随時書込み及び読み出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとを組み合わせて構成したものである。プログラム記憶部2は、OS(Operating System)等のミドルウェアに加えて、一実施形態の情報提示に必要な上記各情報の入力及びその登録要求を送信するために必要なアプリケーション・プログラムを格納する。なお、以後、OSと各アプリケーション・プログラムとをまとめてプログラムと称する。
 データ記憶部3は、例えば、記憶媒体として、HDDやSSD等の随時書込み及び読み出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリと組み合わせたものである。データ記憶部3は、その記憶領域に、この発明の一実施形態を実施するために必要な主たる記憶部として、会話種別データベース31と、参加者情報データベース32と、規定情報データベース33と、生成情報データベース34と、を備える。なお、図2及び図3では、データベースをDBと記している。
 会話種別データベース31は、会議、商談、学会、展示会、大学の講義やディスカッション、などの多人数でのオンラインコミュニケーションそれぞれの種別に応じたプリセットデータセットを記憶している。プリセットデータは、参加者の役割と、その役割毎の音源位置と向きとを含む。また、会話種別データベース31は、開催者によってプリセットデータセットから編集されたデータセットを記憶することができる。参加者情報データベース32は、この情報提示システムを利用する全てのユーザについて、ユーザID、パスワードなどのログイン情報、氏名、などのユーザ情報を記憶する。更に、参加者情報データベース32は、開催者となるユーザからの選択により参加者となるユーザそれぞれ(開催者も参加者となり得る)についての、開催者によって割り当てられた役割の情報を記憶する。規定情報データベース33は、参加者それぞれについて規定され他の参加者の音源位置に関する情報を記憶する。生成情報データベース34は、参加者それぞれについて生成された音場情報及び視覚効果情報を記憶する。
 制御部1は、一実施形態を実施するために必要な処理機能部として、会話種別設定部11、会話種別編集部12、参加者情報登録部13、音源位置規定部14、音声取得部15、音場生成部16、音声再生部17、視覚効果生成部18及び視覚効果表現部19を備える。これらの処理機能部は、何れも、プログラム記憶部2に格納されたアプリケーション・プログラムを制御部1のハードウェアプロセッサに実行させることにより実現される。
 なお、処理機能部の内の少なくとも一つの、少なくとも一部の処理機能については、アプリケーション・プログラムと制御部1のハードウェアプロセッサにより実現する代わりに、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(field-programmable gate array)、GPU(Graphics Processing Unit)、等の集積回路により実現するようにしても良い。
 会話種別設定部11は、通信インタフェース部4によりネットワークNWを介して開催者端末OTと通信して、会話種別データベース31にプリセットデータセットとして記憶されている会話種別のリストを開催者端末OTに提示し、開催者端末OTから会話種別の選択を受け付ける。会話種別設定部11は、開催者が選択した会話種別のプリセットデータセットを、開催するオンラインコミュニケーションの選択データセットとして、会話種別データベース31に記憶させる。
 会話種別編集部12は、通信インタフェース部4によりネットワークNWを介して開催者端末OTと通信して、開催者端末OTに会話種別データベース31に記憶された選択データセットの内容を提示し、開催者端末OTから選択データセットに対する編集を受け付ける。会話種別編集部12は、編集結果を会話種別データベース31に記憶された選択データセットに反映させる。
 参加者情報登録部13は、通信インタフェース部4によりネットワークNWを介して開催者端末OTと通信して、開催者端末OTから参加者それぞれについての役割の割り当てを受け付け、割り当てられた役割の情報を参加者情報データベース32に記憶させる。
 音源位置規定部14は、参加者情報データベース32に記憶された各参加者の役割に従って、各参加者の音源位置を確定する。音源位置規定部14は、確定した参加者それぞれについての音源位置の情報を規定情報データベース33に記憶させる。音源位置規定部14は、更に、各参加者の音源位置の位置関係に基づいて、参加者端末PT1~PTnそれぞれに提示する視覚表現を決定する。この視覚表現については、動作の説明において、詳細に説明する。音源位置規定部14は、決定した視覚表現を規定情報データベース33に記憶させる。
 音声取得部15は、通信インタフェース部4によりネットワークNWを介して、参加者情報データベース32に記憶されたオンラインコミュニケーションに参加している参加者の参加者端末PT1~PTnと通信して、参加者端末PT1~PTnそれぞれから音声情報を取得する。
 音場生成部16は、規定情報データベース33に記憶された参加者それぞれについて規定された音源位置の情報に基づいて、音声取得部15が取得した音声情報の送信元である参加者端末の参加者が参加するオンラインコミュニケーションに参加している各参加者の位置に対する送信元の参加者の位置を判別する。そして、音場生成部16は、その判別結果に基づいて、送信元以外の参加者それぞれに対して提供する音場情報を生成する。音場情報は、音声情報を立体音響技術による空間的な音像として出力するための情報である。音場生成部16は、生成した各参加者に対する音場情報を生成情報データベース34に記憶させる。
 音声再生部17は、音声取得部15が参加者端末PT1~PTnの何れかから音声情報を取得した際、生成情報データベース34に記憶されている、音声情報の送信元の参加者端末を除く各参加者端末に対する音場情報に、その取得した音声情報を適用する。即ち、音声再生部17は、取得した音声情報を音像定位させた音場情報を生成する。そして、音声再生部17は、その音声情報を音像定位させた音場情報を、通信インタフェース部4によりネットワークNWを介して、音声情報の送信元の参加者端末を除く各参加者の参加者端末へ送信する。
 視覚効果生成部18は、規定情報データベース33に記憶された参加者それぞれについて規定された音源位置の情報に基づいて、音声取得部15が取得した音声情報の送信元である参加者端末の参加者が参加するオンラインコミュニケーションに参加している各参加者の位置に対する送信元の参加者の位置を判別する。そして、視覚効果生成部18は、その判別結果に基づいて、規定情報データベース33に記憶された各参加者の視覚表現に従って、参加者それぞれに対して提供する視覚効果情報を生成する。視覚効果情報は、参加者端末で音声情報を出力する際に提示される視覚表現に関する情報である。視覚効果生成部18は、生成した各参加者に対する視覚効果情報を生成情報データベース34に記憶させる。また、視覚効果生成部18は、音声取得部15が参加者端末PT1~PTnの何れかから音声情報を取得した際、生成情報データベース34に記憶されている、音声情報の送信元の参加者端末を除く各参加者端末に対する視覚効果情報に、その取得した音声情報を適用する。即ち、視覚効果生成部18は、取得した音声情報の位置などを表す視覚効果を、視覚効果情報に追加する。そして、視覚効果生成部18は、生成した参加者それぞれに対して提供する視覚効果情報を、視覚効果表現部19へ送信する。
 視覚効果表現部19は、通信インタフェース部4によりネットワークNWを介して参加者端末PT1~PTnと通信して、オンラインコミュニケーションに参加している各参加者の参加者端末へ、視覚効果表現部19が生成した各参加者に対する視覚効果情報を送信する。
 (動作例)
 次に、以上のように構成されたコミュニケーションサーバCSの動作例を説明する。なお、開催者端末OT及び参加者端末PT1~PTnからのログイン等の基礎的な動作については、その説明を省略する。
 (1)準備処理
 図4は、コミュニケーションサーバCSの制御部1が実行する準備処理の処理手順と処理内容の一例を示すフローチャートである。制御部1は、通信インタフェース部4により、ネットワークNWを介してオンラインコミュニケーションを開催しようとする開催者が使用する開催者端末OTから送信されてくる準備要求を受けたときに、この準備処理を開始する。準備処理は、基本的に、開催者端末OTとの間の処理であり、参加者端末PT1~PTnとの間では何も実施しない。
 準備処理を開始すると、制御部1は、会話種別設定部11として動作して、開催者端末OTから、会議や展覧会と言った会話種別を設定する処理を実施する(ステップS101)。具体的には、制御部1は、通信インタフェース部4によりネットワークNWを介して開催者端末OTと通信して、会話種別データベース31にプリセットデータセットとして記憶されている会話種別のリストを開催者端末OTに提示し、開催者端末OTから会話種別の選択を受け付ける。
 プリセットデータセットは、当該会話種別における主な役割の一覧と、それら各役割についての音源位置及び向きが予め設定されたものである。図5は、会話種別データベース31が記憶するプリセットデータセット311の一例を示す図である。図5に示す例は、会話種別が「展覧会」のプリセットデータセット311である。即ち、この「展示会」のプリセットデータセットでは、参加者の役割として「展示員EH」、「アテンダントAT」、「有識者EP」、「訪問者VI」、などが存在し、各役割毎の音源位置と向きが設定されている。
 このプリセットデータセットにおける各役割間の位置関係は、例えば現実の会話での位置関係を模倣して設定されている。図6は、図5の例のプリセットデータセットが示す参加者の位置関係を表す模式図である。なお、音源位置の原点(0,0,0)については、訪問者VIなど任意の役割の訪問者の音源位置の座標を設定しても良いし、4つの役割間の中央付近に設けても良い。
 会話種別設定部11は、開催者が選択した会話種別のプリセットデータセットを、開催すべきオンラインコミュニケーションの選択データセットとして、会話種別データベース31に別途記憶させる。勿論、データ記憶部3に別のデータベースを別途構成して、この選択データセットをはじめとした、後述する開催するべきオンラインコミュニケーションに係わる情報を、そこに記憶するようにしても構わない。
 次に、制御部1は、会話種別編集部12として動作して、開催者端末OTから、役割、音源位置及び向きを編集する処理を実施する(ステップS102)。上記ステップS101で選択されて会話種別データベース31に記憶された選択データセットは、一般的なフォーマットであり、開催者が意図するオンラインコミュニケーションに沿わない場合が有る。よって、制御部1は、通信インタフェース部4によりネットワークNWを介して開催者端末OTと通信して、会話種別データベース31に記憶した、選択データセットを開催者端末OTに提示し、その選択データセットに対する開催者によるカスタマイズを受け付ける。そして、制御部1は、そのカスタマイズ結果を、会話種別データベース31に記憶された選択データセットに反映させる。勿論、開催者がデフォルトのプリセットデータセットの役割、音源位置及び向きに異存が無いならば、このステップS102の処理はスキップされることができる。
 次に、制御部1は、参加者情報登録部13として動作して、参加者情報と役割を登録する処理を実施する(ステップS103)。具体的には、制御部1は、通信インタフェース部4によりネットワークNWを介して開催者端末OTと通信して、参加者情報データベース32に記憶されているユーザの中から、開催するオンラインコミュニケーションに参加する参加者の選択を受け付ける。そして、制御部1は、個々の参加者についての、選択した会話種別に応じた、会話を構成する役割の何れかへの割り当てを受け付ける。この場合、各役割には、複数名の参加者を割り当てても良い。そして、制御部1は、開催者によって割り当てられた役割の情報を参加者情報データベース32に記憶させる。なお、参加者情報データベース32に記憶されていないユーザを、開催者端末OTから新たに登録できるようにしても良い。
 図7は、こうして割り当てられた役割の情報を記憶する参加者情報データベース32の参加者アサインテーブル321の内容の一例を示す図である。この例では、二人のユーザが展示員EH、一人のユーザがアテンダントAT、一人のユーザが有識者EP、三人のユーザが訪問者VI、の役割に割り当てられている。
 次に、制御部1は、音源位置規定部14として動作して、各参加者の音源位置を規定する処理を実施する(ステップS104)。具体的には、制御部1は、会話種別データベース31に記憶されたプリセットデータセット311と参加者情報データベース32に記憶された参加者アサインテーブル321とに基づいて、割り当てられた役割に従って各参加者の音源位置を確定する。この際、制御部1は、先ず、参加者情報データベース32に記憶された参加者アサインテーブル321から各役割の人数を判別し、会話種別データベース31に記憶されたプリセットデータセット311に対して、その人数の情報を加えた参加者規定データセットを作成し、規定情報データベース33に記憶させる。図8は、規定情報データベース33に記憶された参加者規定データセット331の一例を示す図である。
 参加者規定データセット331において、展示員及び訪問者のように、1つの役割に複数名の参加者が割り当てられた場合、制御部1は、それら複数人の音源位置を、単純に同座標上に配置することができる。或いは、制御部1は、例えば参加者規定データセット331に記憶された音源位置を中心として、それら複数の参加者の音源位置を、一定の距離内にランダムに配置したり、均一に分散させたりしても良い。図9は、図8の例の参加者規定データセット331に基づいて、1つの役割に複数名の参加者が割り当てられた場合に、複数の参加者の音源位置を規定した、各参加者の位置関係を表す模式図である。同様に、向きについても、単純に役割毎の向きを適用しても良いし、例えば全参加者の音源位置の平均座標(ここでは中央とする)を求め、その中央が正面になるように変更しても良い。制御部1は、こうして規定した参加者それぞれについての音源位置及び向きの情報を規定情報データベース33に記憶させる。
 そして更に、制御部1は、この参加者それぞれについての音源位置の情報に基づいて、各訪問者の音源位置を基準にした音源位置規定データテーブルをそれぞれ作成し、規定情報データベース33に記憶させる。
 図10は、図9の例における訪問者Aを基準とした位置関係を表す模式図である。図10において、EH-Aは展示員Aであり、EH-Bは展示員Bである。また、VI-Aは訪問者Aであり、VI-Bは訪問者Bであり、VI-Cは訪問者Cである。訪問者A VI-Aを基準としたとき、展示員EH-A,EH-Bは前方遠距離、アテンダントATは右前中距離、他の訪問者VI-B,VI-Cは周囲近距離、有識者EPは左前近距離に存在する。
 図11は、規定情報データベース33に記憶された音源位置規定データテーブル332の内容の一例として、他の参加者に対して図10のような位置関係にある訪問者A VI-Aについての音源位置規定データテーブル332を示す図である。制御部1は、規定情報データベース33に記憶した参加者それぞれについての音源位置及び向きの情報に基づいて、訪問者Aの音源位置と各参加者の音源位置との2点間の距離Dを求め、この距離Dを音源位置規定データテーブル332に記憶させる。また、制御部1は、訪問者Aの音源位置及び向きと各参加者の音源位置とを用いて角度を求め、この角度を向きθとして音源位置規定データテーブル332に記憶させる。
 制御部1は、他の訪問者である、訪問者VI-B,VI-C、展示員EH-A,EH-B、アテンダントAT、及び有識者EP、のそれぞれについて、同様に音源位置規定データテーブル332を作成して、規定情報データベース33に記憶させる。
 その後、制御部1は、規定情報データベース33の規定情報データベース33に記憶した各参加者の音源位置関係に基づいて、各参加者についての視覚表現を決定し、規定情報データベース33に記憶させる(ステップS105)。具体的には、制御部1は、各参加者に関して、他の参加者の音源位置からの距離に応じてどのように表現するか、その表現を他の参加者の音源位置の方向に応じて画面上のどの位置に出力するか、をそれぞれ決定する。
 視覚表現は、例えば、スライド(資料)を基準として奥行きや左右を表現しながら、音源位置を波紋等の記号で表示する。オフラインの対面会議や展示会などでは、スライドを見ながら会が進行する。そこで、オンラインコミュニケーションの展示会などにおいても、スライドの想定位置を決めて、それを奥行き表現の基準位置とする。図12は、訪問者Aを基準とした位置関係におけるスライドの仮想位置SVPを表す模式図である。制御部1は、このように、各参加者について、奥行き表現の基準位置を決定する。
 図13は、図12のスライドの仮想位置SVPでの訪問者A VIC-Aの参加者端末における表示画面SC上の見え方の一例を示す模式図である。音源位置を表す波紋等の記号SYを表示する際、スライドSLの中身を画像解析し、情報量が高い領域(具体的には小さい文字が書かれている領域、色の変化が激しい領域、など)を敢えて避けて表示したり、表示時の透明度を一時的に高くしたりすることで、スライドSLの見にくさを緩和しても良い。制御部1は、その他、デザイン上の工夫により、スライドSLの視聴を阻害せずに距離感を表現する、つまり、基準位置及びその基準位置からの距離を表現する表示形態を決定する。
 デザイン上の工夫としては、「構図の工夫」、「濃淡の工夫」、「大きさ,明度,レイヤの工夫」、「焦点の工夫」、「アニメーションの工夫」、などが採用可能である。「構図の工夫」は、例えば、スライドSLの内か外で、スライドSLを中心にパース線PLを引く、などである。「濃淡の工夫」は、濃淡SHを、スライドSLの縁や外を画面中央に向かい徐々に暗くしていったり明暗を交互に表示したりする、などである。「大きさ、明度、レイヤの工夫」は、スライドSLとの距離が近づくにつれ記号SYを大きく表示したり、明るく表示したり、手前に表示したりする、などである。「焦点の工夫」は、スライドSLとの距離が離れるにつれて記号SYをぼかす、などである。「アニメーションの工夫」は、音量が大きくなるにつれ記号SYとしての波紋の数が増える、などである。
 なお、奥行き表現の基準位置は、(1)上記のようにスライドSLを基準に固定するパターンに限らず、(2)話者に応じて動的に変化するパターン、及び、(3)開催者ないしは参加者が自由に変更するパターン、の3パターンの何れとしても良い。図14は、奥行き表現の基準位置BPをスライドSLの仮想位置に固定したパターンである(1)の場合における訪問者Aの表示画面SC上の見え方の一例を示す模式図である。また、図15は、奥行き表現の基準位置BPを話者に応じて動的に変化させるパターンである(2)の場合における訪問者Aの表示画面SC上の見え方の一例を示す模式図である。図14及び図15では、「濃淡の工夫」として、奥行き表現の基準位置BPが最も明るくなるようにし、「焦点の工夫」として、奥行き表現の基準位置BPから離れるほど記号SYぼかして表示されるようにしている。なお、図15に示すパターン(2)の場合、役割又は参加者の優先順位を決めて、複数の参加者が同時に発声した場合でも一意に定まるようにすることが望ましい。
 これらの視覚表現における工夫を行うことで、各参加者に、他の参加者との距離感を適切に知覚させることが可能となる。
 以上のような視覚表現を決定した後、制御部1は、通信インタフェース部4によりネットワークNWを介して開催者端末OTから準備処理の終了を指示された、つまり、準備終了要求を受けたか否か判断する(ステップS106)。未だ、準備処理の終了を指示されていないと判断した場合には、制御部1は、上記ステップS101に移行して、別のオンラインコミュニケーションについての準備を実施する。また、準備処理の終了を指示されたと判断した場合には、制御部1は、この準備処理を終了する。
 (2)会話処理
 図16は、制御部1が実行する会話処理の処理手順と処理内容の一例を示すフローチャートである。制御部1は、開催者によって設定されたオンラインコミュニケーションのそれぞれについて、このフローチャートに示す会話処理を実行する。制御部1は、同時に開催される複数のオンラインコミュニケーションに対するこのフローチャートに示す処理を並行して実施することができる。
 通信インタフェース部4により、ネットワークNWを介して、オンラインコミュニケーションの開始指令を受信すると、制御部1は、当該オンラインコミュニケーションについて、この会話処理を開始する。そうすると、制御部1は、新規参加者の有無を判断する(ステップS111)。例えば、制御部1は、オンラインコミュニケーションの開始指令を受信した場合、その開始指令の送信元の参加者端末の参加者を新規参加者と判定する。また、制御部1は、参加者情報データベース32に当該オンラインコミュニケーションの参加者として記憶されている参加者の参加者端末PT1~PTnの内、生成情報データベース34に音場情報などを未だ記憶していない参加者端末から、参加指令を受信した場合、その参加指令の送信元である参加者端末の参加者を新規参加者と判定する。
 新規参加者が有ると、制御部1は、音場生成部16として動作して、参加者同士の位置関係を考慮して当該新規参加者に対する音場を生成する(ステップS112)。具体的には、制御部1は、その参加者の参加者端末について、規定情報データベース33の音源位置規定データテーブル332に記憶された参加者同士の位置関係に基づいて、他の参加者の参加者端末から送信されてきた音声情報を音像定位させるための音場情報を生成する。制御部1は、生成した新規参加者に対する音場情報を生成情報データベース34に記憶させる。
 また、制御部1は、視覚効果生成部18と動作して、新規参加者に対する視覚効果を生成する(ステップS113)。具体的には、制御部1は、規定情報データベース33の音源位置規定データテーブル332に記憶された当該新規参加の位置と、規定情報データベース33に記憶された視覚表現とに基づいて、当該新規参加者の参加者端末に対する視覚効果情報を生成する。この視覚効果情報は、例えば、図13乃至図15に示した例における、記号SYを除いたものとなる。制御部1は、生成した新規参加者に対する視覚効果情報を生成情報データベース34に記憶させる。
 そして、制御部1は、視覚効果表現部19として動作して、通信インタフェース部4によりネットワークNWを介して当該新規参加者に対し、その生成した視覚効果を提供する(ステップS114)。具体的には、制御部1は、新規参加者の参加者端末に対して、上記ステップS113で生成した視覚効果情報を送信する。
 その後、或いは上記ステップS111において新規参加者は無いと判断した場合には、制御部1は、音声取得部15として動作して、通信インタフェース部4により、ネットワークNWを介して、当該オンラインコミュニケーションの参加者が使用する参加者端末PT1~PTnの何れかから音声情報が入力されたか否か判断する(ステップS115)。ここで、音声情報の入力が無い場合には、制御部1は、上記ステップS111の処理へ移行する。
 これに対して、参加者端末PT1~PTnの何れかから音声情報が入力されたならば、制御部1は、音声再生部17として動作して、参加者同士の位置関係を考慮して、音声情報の送信元を除く他参加者に対して音声を再生する(ステップS116)。具体的には、制御部1は、音声情報の送信元の参加者端末PTiを除いた参加者端末PT1~PTnのそれぞれに関して生成情報データベース34に記憶されている音場情報に、入力された音声情報を適用する。即ち、音声再生部17は、他参加者のそれぞれに対して、入力された音声情報を音像定位させた音場情報を生成する。例えば、展示員A EH-Aの役割が割り当てられた参加者の参加者端末PTiから音声情報が送信されてきた場合、制御部1は、訪問者A VI-Aの役割が割り当てられた参加者の参加者端末PTaに対して、距離Dr4-a_r1-a、方向θr4a_r1aに基づく位置に、その音声情報による音声の音像を定位させるような音場情報を生成する。同様にして、制御部1は、展示員B EH-B、アテンダントAT、有識者EP、訪問者B VI-B、訪問者C VI-Cの役割が割り当てられた参加者のそれぞれの参加者端末に対する音場情報を生成することができる。
 なお、この音場を生成する処理においては、例えば、発声者と当該参加者とが対面している時を基準として、定位位置が正面から傾くにつれて徐々に音量を減衰させていき、定位位置が当該参加者の背面となるような状態を音量の下限値とする、など、音像位置に応じて音量も調整するようにしても良い。
 そして、制御部1は、通信インタフェース部4により、ネットワークNWを介して音声情報の送信元の参加者端末PTiを除いた他参加者端末PT1~PTnへ、他参加者それぞれに対して生成した音場情報を送信する。
 また、制御部1は、上記ステップS116の処理と並行して、視覚効果生成部18と動作して、参加者同士の位置関係を考慮して他参加者に対する視覚効果を生成する(ステップS117)。具体的には、制御部1は、生成情報データベース34に記憶されている、音声情報の送信元の参加者端末PTiを除いた他参加者端末PT1~PTnのそれぞれに対する視覚効果情報に、入力された音声情報を適用する、即ち、視覚効果としての記号SYを追加する。
 そして、制御部1は、視覚効果表現部19として動作して、通信インタフェース部4により、ネットワークNWを介して各参加者に対して、音声情報の送信元に基づく記号SYを追加した視覚効果を提供する(ステップS118)。具体的には、制御部1は、発信元の参加者端末PTiを除いた参加者端末PT1~PTnに対して、上記ステップS117で生成したそれぞれの視覚効果情報を送信する。
 以上のようにして、話者の参加者端末とは異なる任意の参加者の参加者端末上で、話者の音源位置から音声を再生するとともに、合わせてその音源位置を視覚表現で提示したならば、制御部1は、当該オンラインコミュニケーションから抜ける参加者である退出者の有無を判断する(ステップS119)。退出者が有ったならば、制御部1は、生成情報データベース34に記憶されている、その退出者に対する音場情報及び視覚効果情報を消去する(ステップS120)。
 その後、或いは上記ステップS119において退出者は無いと判断した場合には、制御部1は、この会話処理を終了するか否か判断する(ステップS121)。具体的には、制御部1は、当該オンラインコミュニケーションに参加している参加者が未だ居るのか居ないのかを判断し、未だ居る場合には終了しない、居ない場合には終了すると判断する。例えば、制御部1は、生成情報データベース34に音場情報などが未だ記憶されているか否かにより、参加者の有無を判断することができる。終了しないと判断した場合には、制御部1は、上記ステップS111に移行して、未だ終了していない参加者端末に対する会話処理を継続する。また、終了すると判断した場合には、制御部1は、この会話処理を終了する。
 (作用・効果)
 以上述べたように一実施形態では、コミュニケーションサーバCSは、ネットワークをNW介して複数の参加者端末PT1~PTnの内の第1の参加者端末から取得した音声情報を、ネットワークNWを介して第1の参加者端末とは異なる1以上の第2の参加者端末に提示する情報提示装置として機能する。そして、コミュニケーションサーバCSは、第2の参加者端末それぞれについて、複数の参加者端末を使用するそれぞれの参加者に対して割り当てられた役割に応じて、第2の参加者端末の参加者である第2の参加者の位置を基準とした、第1の参加者端末の参加者である第1の参加者の位置である音源位置を規定する音源位置規定部14と、1以上の第2の参加者端末毎に、第1の参加者の音源位置に基づいて、第1の参加者端末からの音声情報を音像定位させた音場情報を生成して、第2の参加者端末それぞれに送信する音声提示部として機能する音場生成部16及び音声再生部17と、1以上の第2の参加者端末毎に、第1の参加者の音源位置に基づく視覚効果を生成して、第2の参加者端末それぞれに送信する視覚効果提示部として機能する視覚効果生成部18及び視覚効果表現部19と、を備える。 
 従って、一実施形態によれば、役割を踏まえて各話者の音像を個別に定位し、各音像位置を視覚効果を活用しながら効果的に可視化することで、投影すべき視覚情報を妨げることなく話者との適切な距離感を知覚させ得る情報提示技術を提供することができる。
 また、一実施形態では、音源位置規定部は、第1及び第2の参加者の位置関係に基づいて、第2の参加者端末それぞれの表示画面において音像定位の位置に対応する位置を可視化する視覚表現を決定し、視覚効果提示部は、音源位置規定部が決定した視覚表現に従って視覚効果を生成する。 
 従って、一実施形態によれば、話者との位置関係に基づく視覚表現を参加者毎に決定しておくことで、話者が次々と変わっても素早く視覚効果を生成することができ。よって、タイムラグ無く視覚効果を提示でき、参加者に違和感を与えない視覚効果を提供することができる。
 また、一実施形態では、視覚表現は、基準位置及びその基準位置からの距離を表現する表示形態を含む。 
 従って、一実施形態によれば、基準位置や基準位置からの距離に応じて、色の濃淡差やぼかしなどの、デザインで用いられる視覚表現を変えることで、少ない情報量で奥行き方向の距離感を可視化することができる。即ち、既存の視覚情報を邪魔せずに、音像の奥行きを表現することができる。
 また、一実施形態では、役割のそれぞれについての音源位置を記憶した第1の記憶部として機能する会話種別データベース31と、参加者のそれぞれについて割り当てられた役割を記憶した第2の記憶部として機能する参加者情報データベース32と、を更に備え、音源位置規定部は、第1の記憶部に記憶された音源位置と第2の記憶部に記憶された役割とに基づいて、第2の参加者それぞれの音源位置を規定する。 
 従って、一実施形態によれば、音源位置の規定に必要な情報を予め準備しておくことで、任意の参加者に対する多の参加者の音源位置を容易に規定することができる。
 また、一実施形態では、複数の参加者端末の参加者それぞれに対して役割を割り当てて、第2の記憶部に記憶させる参加者登録部として機能する参加者情報登録部13を更に備える。 
 従って、一実施形態によれば、参加者に任意に役割を割り当てることができる。なお、複数の参加者に同じ役割を割り当てても良い。
 [第1変形例]
 一実施形態では、全役割、全参加者で共通の位置関係を利用している。しかしながら、共通である必要は無く、それぞれで最適な位置関係を個別に構築しても良い。例えば、オンラインコミュニケーションの会話種別として「展覧会」では、「訪問者」として参加する参加者にとっては、「展示員」は前方遠距離にいて欲しい。これに対して、「展示員」として参加する参加者では、「訪問者」は右側近距離にいて欲しい。また、オンラインコミュニケーションの会話種別として「会議」などのディスカッションにおいては、参加者は、自身と近しい考えを持つ人には近距離にいて欲しい、などという要求も有る。
 そこで、会話種別データベース31には、役割のそれぞれについて、その役割の参加者を基準とした他の役割の参加者の音源位置を記憶する。図17は、この第1変形例における会話種別データベース31が記憶するプリセットデータセット311の一例を示す図である。
 図17に示すように、参加時の役割に対して、その他の役割(対象の役割)それぞれについて、音源位置と向きとを記憶しておくことで、音源位置規定部14は、当該参加者に対する他の参加者の音源位置を規定することができる。
 [第2変形例]
 一実施形態では、音源位置をX,Y,Z軸の値により表している。しかしながら、全役割の音源位置のX,Y,Z軸何れかの値が同値であれば、その軸の設定を省略しても良い。
 図18は、第2変形例におけるY軸の設定の省略を表す模式図である。このように、全役割の位置関係の高さ(Y軸の座標)が同値の場合には、XZ軸の二次元座標を設定することができる。音源位置に基づく各種の処理においても、このXZ軸の座標のみを元に行うことが可能である。
 [その他の実施形態]
 各参加者の役割の割り当ては、開催者側からの設定に依らずに、制御部1が自動的に行うようにしても良い。例えば、制御部1は、参加者情報データベース32に予め記憶されているユーザの所属情報に基づいて、割り当てを実施することができる。また、各ユーザの過去の会話内容、会話量、会話時期を蓄積しておくことで、制御部1は、それら蓄積された情報に基づいて役割を推測することができる。例えば、会話種別「展示会」のオンラインコミュニケーションにおいて、会話の前半で多く話しているユーザは「展示員」である可能性が高い、などのように、制御部1はユーザが割り当てられる可能性が高い役割を推測することができる。
 また、制御部1は、オンラインコミュニケーションを開催中、途中で参加人数が増えた場合に、その新規参加者に対して役割を自動割り当てするようにしても良い。例えば、会話種別「展示会」のオンラインコミュニケーションであれば、途中参加するのは「訪問者」である可能性が高く、よって、制御部1は、その途中参加者に自動的に「訪問者」の役割を割り当てることができる。
 また、音源位置同士の位置関係から視覚表現を決定する際において、制御部1は、全役割、全参加者で共通の視覚表現とする必要は無く、それぞれで変えるようにしても良い。例えば、各参加者の会話中又は会話後のフィードバックを受けて、制御部1は、視覚表現の種類や強調度合いを調整することができる。
 また、制御部1が決定した視覚表現に対して、任意のタイミングで意図的に話者の音源位置を移動させることで、距離感を変える、など、開催者端末OTから編集できるようにしても良い。例えば、説明中に敢えて身近な声として聞かせたいため距離を縮めようにしたり、演劇中に役者が複数の役を演じ分ける際に距離を変化させたりする、など、開催者が任意に視覚表現を変更できるようにしても良い。
 また、音声の再生についても、距離による音量の減衰とは別に、制御部1は、役割の重要度や割り当てられている人数に応じて音量を調整するようにしても良い。例えば、制御部1は、展示員のベースの音量を大きくし、訪問者のベースの音量を小さく設定することができる。また、例えば、訪問者に割り当てられる人数が多くなるにつれて、制御部1は、各訪問者のベースの音量を徐々に大きくするようなことをしても良い。
 なお、本発明は、実施形態で説明したような会話のシーンを含む、音声を伴うオンラインコミュニケーション全般に適用可能であるが、更には、オンラインコミュニケーションだけでなく、一部実世界(オフライン)での利用にも適用可能である。例えば、美術館での音声ガイドなど、対象者がイヤホンやヘッドホンを装着して姿の見えない話者の説明音声を聞きながらコンテンツを視聴するシーンに適用できる(立体音響のみ)。これに加え、AR(Augmented Reality)グラスを装着することで、視覚効果も表現するシーンにも適用可能である(立体音響+視覚効果)。
 また、前述した展示会や美術館での例のように、一方向での発話(情報提示)が多い会話種別においては、聞く側(情報提示を受ける側)の参加者が「あたかも会話しているかのような感覚」を得られさえすれば、必ずしもインタラクティブな会話である必要は無く、事前に集音した音声を用いても良い。
 なお、実施形態では、情報提示装置が一つのコミュニケーションサーバCSで構成される場合を示したが、複数のサーバによって構成されても良い。例えば、準備処理を行うサーバと、会話処理を行うサーバとを分けたり、会話種別に応じてサーバを切り分けたりして良い。
 また、フローチャートを参照して説明した各処理の流れは、説明した手順に限定されるものではないことは言うまでも無い。
 以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されても良い。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。更に、異なる実施形態に亘る構成要素を適宜組み合わせても良い。
 1…制御部
 2…プログラム記憶部
 3…データ記憶部
 4…通信インタフェース部
 5…バス
 11…会話種別設定部
 12…会話種別編集部
 13…参加者情報登録部
 14…音源位置規定部
 15…音声取得部
 16…音場生成部
 17…音声再生部
 18…視覚効果生成部
 19…視覚効果表現部
 31…会話種別データベース
 32…参加者情報データベース
 33…規定情報データベース
 34…生成情報データベース
311…プリセットデータセット
321…参加者アサインテーブル
331…参加者規定データセット
332…音源位置規定データテーブル
AT…アテンダント
BP…奥行き表現の基準位置
CS…コミュニケーションサーバ
EH,EH-A,EH-B…展示員
EP…有識者
NW…ネットワーク
OT…開催者端末
PL…パース線
PT1~PTn…参加者端末
SC…表示画面
SH…濃淡
SL…スライド
SVP…スライドの仮想位置
SY…記号
VI,VI-A,VI-B,VI-C…訪問者

 

Claims (7)

  1.  ネットワークを介して複数の参加者端末の内の第1の参加者端末から取得した音声情報を、前記ネットワークを介して前記第1の参加者端末とは異なる1以上の第2の参加者端末に提示する情報提示装置であって、
     前記第2の参加者端末それぞれについて、前記複数の参加者端末を使用するそれぞれの参加者に対して割り当てられた役割に応じて、前記第2の参加者端末の参加者である第2の参加者を基準とした、前記第1の参加者端末の参加者である第1の参加者の音源位置を規定する音源位置規定部と、
     前記1以上の第2の参加者端末毎に、前記第1の参加者の前記音源位置に基づいて、前記第1の参加者端末からの前記音声情報を音像定位させた音場情報を生成して、前記第2の参加者端末それぞれに送信する音声提示部と、
     前記1以上の第2の参加者端末毎に、前記第1の参加者の前記音源位置に基づく視覚効果を生成して、前記第2の参加者端末それぞれに送信する視覚効果提示部と、
     を具備する情報提示装置。
  2.  前記音源位置規定部は、前記第1及び第2の参加者の位置関係に基づいて、前記第2の参加者端末それぞれの表示画面において前記音像定位の位置に対応する位置を可視化する視覚表現を決定し、
     前記視覚効果提示部は、前記音源位置規定部が決定した前記視覚表現に従って前記視覚効果を生成する、
     請求項1に記載の情報提示装置。
  3.  前記視覚表現は、基準位置及び前記基準位置からの距離を表現する表示形態を含む、
     請求項2に記載の情報提示装置。
  4.  前記役割のそれぞれについての前記音源位置を記憶した第1の記憶部と、
     前記参加者のそれぞれについて割り当てられた前記役割を記憶した第2の記憶部と、
    を更に具備し、
     前記音源位置規定部は、前記第1の記憶部に記憶された前記音源位置と前記第2の記憶部に記憶された前記役割とに基づいて、前記第2の参加者それぞれの前記音源位置を規定する、
     請求項1乃至3の何れかに記載の情報提示装置。
  5.  前記複数の参加者端末の前記参加者それぞれに対して前記役割を割り当てて、前記第2の記憶部に記憶させる参加者登録部を更に具備する、
     請求項4に記載の情報提示装置。
  6.  プロセッサとメモリとを備え、ネットワークを介して複数の参加者端末の内の第1の参加者端末から取得した音声情報を、前記ネットワークを介して前記第1の参加者端末とは異なる1以上の第2の参加者端末に提示する情報提示装置が実行する情報提示方法であって、
     前記プロセッサが、前記第2の参加者端末それぞれについて、前記複数の参加者端末を使用するそれぞれの参加者に対して割り当てられた役割に応じて、前記第2の参加者端末の参加者である第2の参加者の位置を基準とした、前記第1の参加者端末の参加者である第1の参加者の位置である音源位置を規定し、前記規定した前記第2の参加者端末それぞれについての前記第1の参加者の前記音源位置を前記メモリに記憶させることと、
     前記プロセッサが、前記1以上の第2の参加者端末毎に、前記メモリに記憶した前記第1の参加者の前記音源位置に基づいて、前記第1の参加者端末からの前記音声情報を音像定位させた音場情報を生成して、前記第2の参加者端末それぞれに送信することと、
     前記プロセッサが、前記1以上の第2の参加者端末毎に、前記メモリに記憶した前記第1の参加者の前記音源位置に基づく視覚効果を生成して、前記第2の参加者端末それぞれに送信することと、
     を含む情報提示方法。
  7.  請求項1に記載の情報提示装置の各部が行う処理を、前記情報提示装置が備えるプロセッサに実行させる情報提示プログラム。

     
PCT/JP2022/024206 2022-06-16 2022-06-16 情報提示装置、情報提示方法及び情報提示プログラム WO2023243059A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024206 WO2023243059A1 (ja) 2022-06-16 2022-06-16 情報提示装置、情報提示方法及び情報提示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024206 WO2023243059A1 (ja) 2022-06-16 2022-06-16 情報提示装置、情報提示方法及び情報提示プログラム

Publications (1)

Publication Number Publication Date
WO2023243059A1 true WO2023243059A1 (ja) 2023-12-21

Family

ID=89192595

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/024206 WO2023243059A1 (ja) 2022-06-16 2022-06-16 情報提示装置、情報提示方法及び情報提示プログラム

Country Status (1)

Country Link
WO (1) WO2023243059A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012147420A (ja) * 2010-12-22 2012-08-02 Ricoh Co Ltd 画像処理装置、及び画像処理システム
CN111025233A (zh) * 2019-11-13 2020-04-17 阿里巴巴集团控股有限公司 一种声源方向定位方法和装置、语音设备和系统
WO2020240724A1 (ja) * 2019-05-29 2020-12-03 日本電気株式会社 光ファイバセンシングシステム、光ファイバセンシング機器及び音出力方法
JP2022054192A (ja) * 2020-09-25 2022-04-06 大日本印刷株式会社 リモート会議システム、サーバ、写真撮影装置、音声出力方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012147420A (ja) * 2010-12-22 2012-08-02 Ricoh Co Ltd 画像処理装置、及び画像処理システム
WO2020240724A1 (ja) * 2019-05-29 2020-12-03 日本電気株式会社 光ファイバセンシングシステム、光ファイバセンシング機器及び音出力方法
CN111025233A (zh) * 2019-11-13 2020-04-17 阿里巴巴集团控股有限公司 一种声源方向定位方法和装置、语音设备和系统
JP2022054192A (ja) * 2020-09-25 2022-04-06 大日本印刷株式会社 リモート会議システム、サーバ、写真撮影装置、音声出力方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP7464989B2 (ja) 仮想環境での相互作用を可能にするシステム及び方法
US11522925B2 (en) Systems and methods for teleconferencing virtual environments
US20220070241A1 (en) System and method enabling interactions in virtual environments with virtual presence
US11184362B1 (en) Securing private audio in a virtual conference, and applications thereof
CN114115519B (zh) 用于在虚拟环境中递送应用程序的系统和方法
US20220070236A1 (en) Graphical representation-based user authentication system and method
KR102580110B1 (ko) 내비게이션 가능한 아바타들이 있는 웹 기반 화상 회의 가상 환경 및 그 응용들
EP3962076B1 (en) System and method for virtually broadcasting from within a virtual environment
US11743430B2 (en) Providing awareness of who can hear audio in a virtual conference, and applications thereof
JP7492746B2 (ja) ユーザグラフィック表現間のアドホック仮想通信
EP3961396A1 (en) System and method to provision cloud computing-based virtual computing resources within a virtual environment
WO2023243059A1 (ja) 情報提示装置、情報提示方法及び情報提示プログラム
Leung et al. Networked intelligent collaborative environment (NetICE)
Sermon Reframing videotelephony through coexistence and empathy in the third space
WO2024089887A1 (ja) 情報提示装置、情報提示方法及び情報提示プログラム
JP7496139B2 (ja) 空間ビデオベースの仮想プレゼンスを可能にするシステム及び方法
JP2024022536A (ja) 固有のセキュアなディープリンクを介したビデオ会議ミーティングスロット
EP4309361A1 (en) Securing private audio in a virtual conference, and applications thereof
JP2024022535A (ja) 固有のセキュアなディープリンクを介したビデオ会議ミーティングスロット
WO2024059606A1 (en) Avatar background alteration
JP2024022537A (ja) 固有のセキュアなディープリンクを介したビデオ会議ミーティングスロット

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22946875

Country of ref document: EP

Kind code of ref document: A1