WO2012066734A1 - 音声コミュニケーション装置および音声コミュニケーション方法 - Google Patents

音声コミュニケーション装置および音声コミュニケーション方法 Download PDF

Info

Publication number
WO2012066734A1
WO2012066734A1 PCT/JP2011/006084 JP2011006084W WO2012066734A1 WO 2012066734 A1 WO2012066734 A1 WO 2012066734A1 JP 2011006084 W JP2011006084 W JP 2011006084W WO 2012066734 A1 WO2012066734 A1 WO 2012066734A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
terminal
conversation
voice communication
user
Prior art date
Application number
PCT/JP2011/006084
Other languages
English (en)
French (fr)
Inventor
信裕 神戸
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Publication of WO2012066734A1 publication Critical patent/WO2012066734A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit

Definitions

  • the present invention relates to a voice communication apparatus and a voice communication method for controlling voice output of terminals participating in a multipoint voice communication system.
  • Recent communication methods are diversified, such as video telephones and e-mails that are mainly visual, and telephones that are mainly auditory.
  • a communication means used in a mobile environment particularly during movement such as walking, a device using hearing is more suitable than a device using vision.
  • voice communication As a form of voice communication, there are not only one-on-one conversation but also so-called multipoint voice communication such as voice chat and telephone conference by a plurality of people. With recent developments in communication technology, it has become possible to transmit high-quality speech to more points, and it has become possible to receive and output a large number of spoken speech simultaneously. However, when a large number of uttered voices are output all at once, it is difficult to distinguish the uttered voices by distinguishing the utterers, and it is difficult to grasp the contents of the conversation.
  • Patent Documents 1 and 2 disclose a technique for arranging a sound source in a virtual space.
  • an icon of each speaker is moved on a screen simulating a chat room or the like in response to an operation with a mouse or a joystick.
  • the technique of patent document 1 and patent document 2 arrange
  • Patent Document 1 and Patent Document 2 control the sound output so that the sound is heard according to the direction and distance at the virtual sound source position. Further, the technique described in Patent Document 2 further detects who is speaking to who from the relationship between the sound source arrangement and the direction of the face of the speaker, and makes the utterance voice larger for the speaking partner. Output. According to these prior arts, since the uttered sound can be heard in different directions and volumes for each speaker, it is easy to hear the uttered sound by distinguishing the speakers, and it is possible to easily grasp the contents of the conversation.
  • An object of the present invention is to provide a voice communication device and a voice communication method capable of realizing a comfortable conversation environment even when a conversation group is fluid.
  • the voice communication apparatus of the present invention is a voice communication apparatus that controls at least one voice output among a plurality of terminals participating in a multipoint voice communication system, and a sound source arrangement when voices from other terminals are output And detecting a speaker and a conversation partner as a partner from the plurality of terminals, and detecting a conversation group based on the detected combination of the speaker and the conversation person
  • the voice placement unit changes the setting of the sound source placement according to the detected change in the conversation group.
  • a voice communication method of the present invention is a voice communication method for controlling at least one voice output among a plurality of terminals participating in a multi-point voice communication system, and includes a speaker and an opponent among the plurality of terminals. Detecting a conversation person, detecting a conversation group based on the detected combination of the speaker and the conversation person, and according to the detected change of the conversation group, a voice from another terminal is detected. And changing the setting of the sound source arrangement at the time of output.
  • a comfortable conversation environment can be realized even if the conversation group is fluid.
  • the block diagram which shows the structural example of the voice communication terminal containing the voice communication apparatus which concerns on one embodiment of this invention Schematic diagram for explaining the concept of direction in the present embodiment
  • the flowchart which shows an example of operation
  • Flowchart showing information transmission processing in the present embodiment The figure which shows an example of the structure of the transmission data in this Embodiment.
  • This embodiment is an example applied to a chat system in which an unspecified number of people can participate and arbitrarily form a conversation group.
  • FIG. 1 is a block diagram showing a configuration example of a voice communication terminal including a voice communication apparatus according to an embodiment of the present invention.
  • the voice communication terminal 100 includes a voice information transmission / reception unit 110, a voice input unit 120, a direction acquisition unit 130, a talker management unit 140, a voice placement unit 150, and a voice output unit 160.
  • the voice information transmitting / receiving unit 110 includes, for example, a network device for connecting to the Internet, and communicates with the voice communication server 300.
  • the voice communication server 300 is a server that transfers voice data among a plurality of voice communication terminals 100 disposed on the Internet, for example.
  • the voice communication server 300 when the voice communication server 300 receives voice data from a certain voice communication terminal 100, the voice communication server 300 transfers the received voice data to all other voice communication terminals 100.
  • the voice input unit 120 receives a voice electrical signal (hereinafter referred to as “voice signal”) including a user's voice from the voice input device 200 connected by wire or wirelessly.
  • voice signal a voice electrical signal
  • the audio input unit 120 converts the received audio signal into audio data of a digital signal by an A / D converter.
  • the voice input unit 120 transmits the voice data to the voice communication server 300 using the voice information transmission / reception unit 110.
  • the voice data generated by the voice input unit 120 is referred to as “own terminal voice data”.
  • the voice input unit 120 notifies the dialogue manager 140 of that fact. Note that whether or not voice data to be transmitted has been generated can be determined based on, for example, whether or not a user presses a button pressed during speech and whether or not the voltage of the voice signal exceeds a threshold value. it can.
  • the voice input device 200 is, for example, a headset microphone, and is a device that converts input voice into a voice signal.
  • the direction acquisition unit 130 includes, for example, a motion sensor, detects the user's movement, and calculates the orientation of the user's face when the user's basic posture is used as a reference. Then, the direction acquisition unit 130 outputs the calculated face orientation to the dialogue manager management unit 140 and the voice placement unit 150 as direction data each time a request is received from the dialogue manager management unit 140, for example.
  • the direction data is information indicating the direction of the face (for example, forward, left, right, etc.) based on the basic posture of the user.
  • the conversation manager 140 requests the direction acquisition unit 130 for direction data each time the voice input unit 120 receives a notification of generation of the own terminal voice data. Then, the conversation manager 140 determines the user's conversation partner (hereinafter referred to as “interactive person”) from the relationship between the direction data input from the direction acquisition unit 130 and the arrangement data described later held by the voice arrangement unit 150. Judge and generate dialogue information. Specifically, the conversation manager 140 identifies the direction in which the user is facing when the user is speaking, and determines the user of the terminal arranged in that direction as the conversation person.
  • Arrangement data is a set of positions set for each terminal.
  • the position refers to the terminal ID of the other voice communication terminal 100 (hereinafter referred to as “other terminal ID”), the position of the sound source set for the other terminal ID, and directivity information that is the direction of conversation of the other terminal.
  • Information consisting of a set.
  • the terminal ID is identification information set for each target whose sound source position should be distinguished, and may be, for example, a user ID, a device ID, or a network ID.
  • the position of the sound source set for the other terminal ID indicates, for example, forward, left, right.
  • the direction of conversation is information indicating which terminal the other terminal is talking to by the direction in the relative positional relationship of each sound source. The concept of direction in the present embodiment will be described later.
  • Talker information is information composed of a set of a transmission source ID that is a terminal ID of the voice communication terminal 100 and a talker's terminal ID (hereinafter referred to as “conversation pair” as appropriate). That is, the conversation pair is a set of a user who talks (voice communication terminal 100) and a user who talks (voice communication terminal 100).
  • the terminal ID of the voice communication terminal 100 is referred to as “own terminal ID”, and the other terminal ID of the conversation person is referred to as “interaction person terminal ID”.
  • the terminal indicated by the transmission source ID is referred to as “transmission source”, and the terminal indicated by the conversation person terminal ID is referred to as “interaction person terminal”.
  • the dialogue manager 140 transmits the generated dialogue information to the voice communication server 300 using the voice information transmission / reception unit 110 by adding it to the voice data transmitted by the voice input unit 120. That is, the dialogue manager 140 transmits the dialogue information to the other voice communication terminal 100 via the voice communication server 300.
  • the dialogue manager 140 receives the dialogue information transmitted together with the voice data from the other voice communication terminal 100 through the voice communication server 300 in the same manner, using the voice information transmission / reception unit 110. Then, the dialogue manager 140 holds the dialogue information generated by itself and the dialogue information from the other voice communication terminal 100 as dialogue data for a certain period from the generation time and the reception time.
  • the voice placement unit 150 calculates the position and orientation of each sound source based on the talker data held by the talker management unit 140. Specifically, the voice placement unit 150 determines placement based on the received talker information so that sound sources constituting the conversation group are gathered, and directivity that is the direction of the talker for each placed sound source. Is calculated. More specifically, the voice placement unit 150 determines the placement so that the positions of the conversation pairs in the received talker information are close. Then, the voice placement unit 150 generates placement data and outputs it to the talker management unit 140 every time a request is received from the talker management unit 140.
  • the voice placement unit 150 receives the voice data transmitted from the voice communication server 300 using the voice information transmission / reception unit 110.
  • the audio data received by the audio placement unit 150 is referred to as “other terminal audio data”.
  • the voice placement unit 150 processes the other terminal voice data based on the transmission source ID included in the talker information added to the voice data according to the direction data and the placement data. That is, the voice placement unit 150 processes the other-terminal voice data so that the sound sources are arranged three-dimensionally at the position and orientation of each sound source indicated by the placement data. Then, the voice placement unit 150 outputs the processed other terminal voice data to the voice output unit 160.
  • the audio output unit 160 converts the input other-terminal audio data into an audio signal by a D / A converter, and transmits the audio signal to the audio output device 400 connected by wire or wirelessly.
  • the audio output device 400 is, for example, a stereo headphone of a headset, and is a device that converts an input audio signal into audio.
  • FIG. 2 is a schematic diagram for explaining the concept of direction in the present embodiment.
  • the voice placement unit 150 places other terminal IDs “forward”, “left”, etc. with respect to the user 510 in a virtual space assumed around the user 510 with the basic posture of the user 510 as a reference. Further, the direction in which the uttered voice is heard varies depending on the direction of the face of the user 510 (that is, which other terminal is talking to).
  • the "front" of the user 510 has been set.
  • the arrangement of the sound output is controlled.
  • the user 510 in this state when face against the left so hear speech of a speaker 520 1 from the right ear side, the arrangement of the sound output is controlled.
  • the other speaker 520 located around easily determine the sound and speaker 520 1 located in front.
  • the speaker 520 As talking to another speaker 520 3, sets the audio directivity in the direction of the speaker 520 3 to speaker 520 2. That the user 510, sounds as speakers 520 2 of the right is speaking to the right of the speaker 520 3.
  • the user 510 naturally turns his head toward the person who wants to hear or talk to. Therefore, the orientation of the face of the user 510 is information indicating the direction of the conversation person.
  • the direction of the face and the direction of the sound source are defined by, for example, an azimuth angle and an elevation angle.
  • the elevation angle is 0 and only the azimuth angle is used as the face direction and the sound source direction. This is because, generally, identification in the left-right direction is easier than in the front-rear direction and the up-down direction.
  • Such a voice communication terminal 100 specifies a conversation person based on the orientation of each user's face, and acquires a conversation pair based on the conversation person information received from another voice communication terminal 100.
  • the voice communication terminal 100 detects when a conversation group (conversation combination) changes, and controls voice output so that the conversation group can be heard from a grouped direction. Thereby, since the voice communication terminal 100 can always arrange the sound source arrangement for each conversation group even if the conversation group is fluid, it is possible to easily grasp the contents of the conversation and to create a comfortable conversation environment. Can be realized.
  • FIG. 3 is a flowchart showing an example of the operation of the voice communication terminal 100.
  • step S1000 the voice input unit 120 determines whether or not there has been a request for termination of an operation by a user operation or the like in an operation interface (not shown). If there is no termination request (S1000: NO), the voice input unit 120 proceeds to step S2000.
  • step S2000 the voice input unit 120 determines whether or not a new voice signal has been received from the voice input device 200.
  • the voice input unit 120 determines that a voice signal is received, for example, when a voice signal having a voltage higher than a certain level is input or when the voice input switch is on. If the voice input unit 120 receives a voice signal (S2000: YES), the process proceeds to step S3000. If the voice input unit 120 has not received a voice signal (S2000: NO), the process proceeds to step S4000.
  • step S3000 the voice input unit 120 and the talker management unit 140 execute information transmission processing for transmitting the voice data of the terminal itself to the other voice communication terminal 100, and the process proceeds to step S4000. Details of the information transmission process will be described later.
  • step S4000 the interlocutor management unit 140 determines whether or not new other terminal voice data has been received from another voice communication terminal 100.
  • the talker management unit 140 proceeds to step S5000.
  • the conversation manager management unit 140 returns to step S1000.
  • step S5000 the conversation manager management unit 140, the voice placement unit 150, and the voice output unit 160 execute voice control processing for controlling voice output based on the received other terminal voice data, and the process returns to step S1000. Details of the voice control processing will be described later.
  • the voice input unit 120 terminates the series of operations.
  • FIG. 4 is a flowchart showing the information transmission process (step S3000 in FIG. 3).
  • step S3100 the voice input unit 120 converts the voice signal input from the voice input device 200 into its own terminal voice data. In addition, the voice input unit 120 notifies the dialog manager 140 that the own terminal voice data to be transmitted has been generated.
  • step S3200 the conversation manager management unit 140 receives the notification, acquires direction data from the direction acquisition unit 130, and acquires arrangement data from the voice arrangement unit 150.
  • step S3300 the dialogue manager 140 collates the direction data and the arrangement data. That is, the talker management unit 140 collates the direction of the user's face indicated by the direction data with the position (direction) set in the other terminal ID.
  • step S3400 the conversation manager management unit 140 determines whether or not the user has a conversation with someone from the collation result. That is, the dialogue manager 140 determines whether or not there is a user dialogue. This determination is made based on whether or not the position set in any of the terminal IDs is included within a predetermined angle range based on the direction of the user's face indicated by the direction data. If there is a dialog person (S3400: YES), the dialog manager 140 proceeds to step S3500. In addition, when there is no dialogue person (S3400: NO), the dialogue manager 140 proceeds to step S3600.
  • step S3500 the dialogue manager 140 generates dialogue information in which the corresponding other terminal ID is set as the dialogue terminal ID.
  • step S3600 the dialogue manager 140 generates dialogue information that makes the dialogue person indefinite.
  • step S3700 the dialog manager 140 transmits the self-terminal voice data to which the generated dialog information is added to the voice communication server 300. Thereby, the own terminal voice data and the talker information indicating the user and the current talker of the user are transmitted to the other voice communication terminal 100.
  • FIG. 5 is a diagram illustrating an example of a configuration of transmission data of the voice communication terminal 100.
  • the transmission data 610 includes a transmission source address 611 and a destination address 612 composed of an IP address, etc., dialoguer information 613, and voice data 614.
  • the conversation person information 613 includes the transmission source ID 615 and the conversation person terminal ID 616 as described above.
  • FIG. 6 is a flowchart showing the voice control process (step S5000 in FIG. 3).
  • step S5010 the talker management unit 140 obtains the talker terminal ID and the transmission source ID from the talker information of the received other terminal voice data, and outputs the obtained talker data to the voice placement unit 150 as the talker data.
  • step S5020 the voice placement unit 150 determines whether or not a position is set for the input dialogue terminal ID. If the position is not set for the talker terminal ID (S5020: NO), that is, when a new conversation group appears, the voice placement unit 150 proceeds to step S5030. In addition, when the position is set with respect to the talker terminal ID (S5020: YES), the voice placement unit 150 proceeds to step S5040.
  • step S5030 the voice placement unit 150 places the transmission source ID in a vacant position, and proceeds to step S5090. That is, the voice placement unit 150 sets a position that is not set for any terminal ID, for the transmission source ID. At that time, since the conversation person terminal ID is invalid, the conversation person terminal ID is changed to the transmission source ID so that the direction of the voice becomes omnidirectional.
  • step S5040 the voice placement unit 150 determines whether a position has already been set for the input source ID. If the position is not set for the transmission source ID (S5040: NO), that is, for example, when the transmission source user speaks for the first time, the voice placement unit 150 proceeds to step S5050. If the position is set with respect to the transmission source ID (S5040: YES), the voice placement unit 150 proceeds to step S5060.
  • step S5050 the voice placement unit 150 places the transmission source ID in the vicinity of the talker terminal ID, and proceeds to step S5090 to be described later. That is, the voice placement unit 150 sets a position that falls within a predetermined range from the placement of the talker terminal ID for the transmission source ID.
  • the voice placement unit 150 includes a conversation pair having a sender ID corresponding to the conversation person data held by the conversation person management unit 140, and a conversation pair having conversation person information received from another voice communication terminal 100. Compare Then, the voice placement unit 150 determines whether or not the conversation pair has changed. That is, as a result of the transmission source changing the conversation partner, the voice placement unit 150 determines that the conversation pair combination of the conversation person information received from the transmission source is the conversation pair of conversation person data held by the conversation person management unit 140. Judge whether the combination is different or not. If there is no change in the conversation pair (S5060: NO), the voice placement unit 150 proceeds to step S5070. If the conversation pair is changed (S5060: YES), the voice placement unit 150 proceeds to step S5080.
  • step S5070 the voice placement unit 150 determines whether the distance between the transmission source ID and the talker terminal ID of the talker data conversation pair received from the other voice communication terminal 100 is long. That is, the voice placement unit 150 determines whether or not the position currently set for the transmission source ID and the position currently set for the talker terminal ID are more than a predetermined distance, for example. to decide. If the distance between the conversation pairs is short (S5070: NO), the voice placement unit 150 proceeds to step S5100. If the distance between the conversation pairs is long (S5070: YES), the voice placement unit 150 proceeds to step S5080.
  • step S5080 the voice placement unit 150 rearranges the transmission source and the talker terminal in a state where the transmission source ID is close to the talker terminal ID, and proceeds to step S5090. That is, the voice placement unit 150 sets positions that are close to each other with respect to the transmission source ID and the talker terminal ID. In addition, the voice placement unit 150 sets the voice directivity in the direction from the position of the transmission source ID to the position of the talker terminal ID.
  • step S5090 the voice placement unit 150 outputs the changed placement data to the talker management unit 140, and proceeds to step S5110.
  • the sound placement unit 150 updates the placement data every time the content of the sound source placement changes.
  • step S5100 the voice placement unit 150 rearranges the transmission source ID and the talker terminal ID at the same position as the current one, and proceeds to step S5110. That is, the voice placement unit 150 sets the currently set position and direction for the transmission source ID and the talker terminal ID.
  • the audio arrangement unit 150 may hold the arrangement data once generated for a certain period.
  • step S5110 the voice placement unit 150 processes the other terminal voice data based on the currently set placement, and outputs the processed voice data to the voice output unit 160.
  • the audio output unit 160 of the terminal A processes the other terminal audio data based on the arrangement data 630 shown in FIG. 8, thereby realizing a stereophonic space as shown in FIG. 7 in the audio output device 400. .
  • step S5120 the voice output unit 160 converts the input other-terminal voice data after processing into a voice signal, transmits the voice signal to the voice output device 400, and ends the voice control process.
  • FIG. 7 is a diagram showing an example of the sound source arrangement set in the terminal A of the voice communication terminal 100.
  • the conversation group comprised by the terminal A, D, and E and the conversation group comprised by the terminal B and C exist is illustrated.
  • the sound placement unit 150 places each sound source corresponding to other users including the talker in a semicircular shape at a certain distance from the center with the position of the user who is the listener of the sound as the center. become.
  • the voice placement unit 150 places the sound sources so that the conversation groups are not divided, although the balance of the left and right placements is not necessarily equal. That is, the voice placement unit 150 is configured so that the sound source of the sound from the other terminal that does not constitute the conversation group is not located within the range of the sound source of the sound from the plurality of other terminals that constitute the same conversation group. Place.
  • FIG. 8 is a diagram showing an example of arrangement data generated by each voice communication terminal 100 when the voice communication terminal 100 having the sound source arrangement shown in FIG. 9 is set.
  • the arrangement data is individually generated for each voice communication terminal 100, but here, the arrangement data are collectively shown.
  • the directivity of each terminal is not shown.
  • each voice communication terminal 100 (indicated by a terminal ID) generates, as arrangement data 630, data describing an azimuth angle 632 indicating the direction of the set sound source in association with the other terminal ID 631.
  • the azimuth angle is represented by a value from ⁇ 180 degrees to 180 degrees, with the front angle being 0 degrees, the right rotation angle being positive, and the left rotation angle being negative.
  • the elevation angle is represented by a value from ⁇ 90 degrees to 90 degrees, for example, the horizontal is 0 degree, the upper is positive, and the lower is negative.
  • the voice communication terminal 100 rearranges the sound sources and changes the arrangement data so that the terminal F approaches the terminal C based on the conversation person information from the terminal F, for example.
  • FIG. 9 is a diagram illustrating an example of a change in the sound source arrangement, and corresponds to FIG.
  • the voice placement unit 150 moves the position of the terminal F closer to the terminal C. As a result, the positions of the terminals B, C, and F are gathered, and the first conversation group and the second conversation group do not cross each other. Thereby, it becomes easy to distinguish the voice of the conversation group. Then, as shown in FIG. 9B, the voice placement unit 150 adjusts the position of each terminal so that the intervals between the terminals B to F are equal. As a result, the voices in the conversation group can be easily distinguished.
  • FIG. 10 and 11 are diagrams showing an example of arrangement data when the sound source arrangement shown in FIG. 9 is changed, and corresponds to FIG. 10 is an example of arrangement data at the stage of FIG. 9A, and FIG. 11 is an example of arrangement data at the stage of FIG. 9B.
  • the arrangement data is changed stepwise according to a predetermined arrangement change rule.
  • the sound source arrangement shown in FIG. 9B is finally realized in the actual audio output.
  • the user of the terminal A can hear the voice of the conversation group 1 and the voice of the conversation group 2 from different directions, and each voice can be heard from different directions. Therefore, the user of terminal A can easily grasp who each utterance belongs to and which conversation group.
  • each voice communication terminal 100 the sound sources of the voice communication terminals 100 other than the self are virtually arranged in the vicinity so as to conform to the predetermined arrangement rule described above.
  • the voice communication terminal 100 can detect when the conversation group changes, and can control the voice output so that the conversation group can be heard from a grouped direction.
  • the audio arrangement unit 150 may change the arrangement data stepwise so that the position of each sound source moves smoothly. For example, when changing from the state shown in FIG. 7 to the state shown in FIG. 9A, the voice placement unit 150 moves the sound source position of the terminal F via the direction of the terminal E and the direction of the terminal D. It is sufficient to interpolate the position in the middle.
  • the voice communication terminal 100 detects a conversation group based on the orientation of the user's face, and changes the sound source arrangement setting according to the change of the conversation group.
  • this Embodiment can implement
  • the voice communication terminal 100 may perform voice recognition processing on its own terminal voice data, and may identify a conversation person from the name of another user included in the utterance. In this case, the voice communication terminal 100 stores the name of each user in association with each terminal by receiving and holding text data of the user name from other voice communication terminals 100 in advance. There is a need.
  • the voice communication terminal 100 may limit the target of the voice recognition process to only the first few seconds after the voice input is started, for example, in order to reduce the processing load.
  • the voice communication terminal 10 may limit the target of the voice recognition process only while the key switch is pressed by a user operation, for example.
  • the voice communication terminal 100 may accept designation of the direction of the sound source by a user operation such as a cross key on the remote controller. And the voice communication terminal 100 may specify the user of the other terminal set to the designated direction as a dialog person.
  • the voice communication terminal 100 may perform both of the user's face orientation and voice recognition processing, etc., and improve the accuracy of detecting the conversation partner.
  • the conversation group is extracted based on the conversation person information, but the present invention is not limited to this.
  • the voice communication terminal 100 may extract a conversation group (user's talker and conversation pair) based on a common keyword included in each user's speech.
  • the voice communication terminal 100 may perform both the extraction of the conversation group based on the orientation of the user's face and the extraction of the conversation group based on the keyword to improve the accuracy of the conversation group extraction.
  • the interrogator information can be identified by other information such as a transmission source address, the interrogator information does not necessarily include the transmission source ID.
  • the voice communication server 300 may have not only a function of transferring voice data but also a function of storing voice data in a database.
  • the network to which the present invention is applied may be a serverless network in which voice communication terminals 100 are directly connected to perform communication.
  • the voice communication terminal 100 may generate and transmit the talker information at a timing different from the voice input timing and the voice transmission timing.
  • the voice communication terminal 100 may periodically generate and transmit the speaker information from the accumulated time of the user's face orientation.
  • the process of transmitting the voice data and the process of generating and transmitting the talker information may be executed simultaneously in different threads. Further, the process of receiving audio data, the process of receiving interlocutor information, and the process of changing the arrangement may be executed simultaneously in different threads.
  • the arrangement of the sound sources is a semicircular distributed arrangement in the present embodiment, but is not limited to this.
  • the voice communication terminal 100 may disperse and arrange sound sources in the up-down direction and the front-rear direction, or group the sound source positions for each conversation group.
  • the voice communication terminal 100 may collect sound source positions for each conversation group. Further, the voice communication terminal 100 may hold the setting of a new sound source when these numbers further increase. Conversely, the voice communication terminal 100 may rearrange the sound sources so that the individual sound sources are distributed when the number of speakers or the number of conversation groups decreases after the sound source positions are collected.
  • the present invention is applied to the voice communication terminal 100 which is a user side device in the present embodiment, the present invention is not limited to this.
  • the present invention may be applied to, for example, a device that relays voice data between a plurality of terminals (for example, the voice communication server 300 of the present embodiment).
  • the present invention can be applied to various multipoint voice communication systems such as a telephone conference system in addition to the chat system in which the unspecified majority participates.
  • the present invention is useful as a voice communication apparatus and a voice communication method that can realize a comfortable conversation environment even if the conversation group is fluid.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 会話グループが流動的であっても、快適な会話環境を実現することができる音声出力装置。音声コミュニケーション端末(100)は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部(150)と、複数の端末の中から、発話者とその相手である対話者とを検出し、検出された発話者および対話者の組み合わせに基づいて会話グループを検出する対話者管理部(140)とを有し、音声配置部(150)は、検出された会話グループの変化に応じて音源配置の設定を変更する。

Description

音声コミュニケーション装置および音声コミュニケーション方法
 本発明は、多地点音声通信システムに参加する端末の音声出力を制御する、音声コミュニケーション装置および音声コミュニケーション方法に関する。
 近年のコミュニケーション手段は、テレビ電話や電子メール等の視覚を主体としたもの、電話等の聴覚を主体としたもの等、多種多様化している。モバイル環境、特に歩行時等の移動中に用いられるコミュニケーション手段には、視覚を用いるものよりも聴覚を用いるものの方が適している。
 音声コミュニケーションの形態としては、一対一の会話だけでなく、複数人による音声チャットや電話会議等のいわゆる多地点音声通信がある。近年の通信技術の発達により、高品質の音声をより多くの地点に送信することが可能となっており、大勢の発話音声を一斉に受信して出力することが可能となってきている。ところが、このように大勢の発話音声が一斉に出力される場合、発話者を区別して発話音声を聞き分けることが難しく、会話の内容を把握することが困難となる。
 そこで、音源を仮想空間に配置する技術が、例えば、特許文献1および特許文献2で知られている。特許文献1および特許文献2記載の技術は、マウスやジョイスティック等による操作を受けて、チャットルーム等を模した画面上で各発話者のアイコンを移動させる。そして、特許文献1および特許文献2記載の技術は、各発話者に対応する音源を、仮想空間における各アイコンの位置に基づいて立体的に配置する。
 特許文献1および特許文献2記載の技術は、仮想的な音源位置における方向や距離に応じた聞こえ方となるように、音声出力を制御する。また、特許文献2記載の技術は、更に、音源配置と発話者の顔の向きとの関係から、誰が誰に話し掛けているのかを検出し、話し掛けている相手に対しては発話音声を大きめに出力する。これらの従来技術によれば、発話者毎に発話音声が異なる方向および音量で聞こえるため、発話者を区別して発話音声を聞くことが容易となり、会話の内容を把握し易くすることができる。
特開2009-43274号公報 特開2001-274912号公報
 ところで、共通の話題の会話を構成する発話者の端末のグループ(以下「会話グループ」という)が存在しているにもかかわらず、音源が会話グループ毎にまとまって配置されていない場合がある。このような場合、ユーザは、個々の発話音声がどの会話グループに属するのかを把握し辛くなり、話題に追従することが難しくなる。会話グループが固定的である場合、通常、アイコン等の位置がまとまっている箇所で会話が行われるため、このような問題は生じない。
 しかしながら、多地点音声通信の適用の幅が広がると、会話の参加者が、複数の会話グループを切り替えながら会話の流れに乗って発言したいと望むことが考えられる。この場合、会話グループは流動的であることが望ましい。したがって、会話グループが流動的であっても、個々の発話音声がどの会話グループに属するかを把握でき、話題に追従することが容易であるような、快適な会話環境を得られることが求められる。
 本発明の目的は、会話グループが流動的であっても、快適な会話環境を実現することができる音声コミュニケーション装置および音声コミュニケーション方法を提供することである。
 本発明の音声コミュニケーション装置は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部と、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部とを有し、前記音声配置部は、検出された前記会話グループの変化に応じて前記音源配置の設定を変更する。
 本発明の音声コミュニケーション方法は、多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション方法であって、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップとを有する。
 本発明によれば、会話グループが流動的であっても快適な会話環境を実現することができる。
本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図 本実施の形態における方向の概念を説明するための模式図 本実施の形態に係る音声コミュニケーション端末の動作の一例を示すフローチャート 本実施の形態における情報送信処理を示すフローチャート 本実施の形態における送信データの構成の一例を示す図 本実施の形態における音声制御処理を示すフローチャート 本実施の形態における音源配置の一例を示す図 本実施の形態における配置データの一例を示す図 本実施の形態における音源配置の変更の様子の一例を示す図 本実施の形態における変更された配置データの一例を示す図 本実施の形態における変更された配置データの他の例を示す図 本実施の形態における各音声コミュニケーション端末に設定される音源配置の一例を示す図
 以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、不特定多数が参加して任意に会話グループを形成することができる、チャットシステムに適用した例である。
 図1は、本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図である。
 図1において、音声コミュニケーション端末100は、音声情報送受信部110、音声入力部120、方向取得部130、対話者管理部140、音声配置部150、および音声出力部160を有する。
 音声情報送受信部110は、例えば、インターネットに接続するためのネットワークデバイスを有し、音声コミュニケーションサーバ300と通信を行う。音声コミュニケーションサーバ300は、例えばインターネット上に配置された、複数の音声コミュニケーション端末100の間で音声データの転送を行うサーバである。
 本実施の形態において、音声コミュニケーションサーバ300は、ある音声コミュニケーション端末100から音声データを受信したとき、受信した音声データを、他の全ての音声コミュニケーション端末100へ転送するものとする。
 音声入力部120は、有線または無線により接続する音声入力装置200から、ユーザの発話音声を含む音声の電気信号(以下「音声信号」という)を受信する。音声入力部120は、受信した音声信号を、A/Dコンバータにより、デジタル信号の音声データへと変換する。そして、音声入力部120は、音声データを、音声情報送受信部110を用いて音声コミュニケーションサーバ300へ送信する。以下、音声入力部120が生成する音声データは、「自端末音声データ」という。
 また、音声入力部120は、送信すべき音声データが生成される毎に、その旨を、対話者管理部140へ通知する。なお、送信すべき音声データが生成されたか否かは、例えば、ユーザが発話時に押下するボタンの操作の有無や、音声信号の電圧が閾値を超えているか否かに基づいて、判断することができる。
 本実施の形態において、音声入力装置200は、例えば、ヘッドセットのマイクロフォンであり、入力された音声を音声信号に変換する装置である。
 方向取得部130は、例えば、モーションセンサを有し、ユーザの動きを感知して、ユーザの基本姿勢を基準としたときのユーザの顔の向きを算出する。そして、方向取得部130は、例えば対話者管理部140からの要求を受ける毎に、算出した顔の向きを、方向データとして、対話者管理部140および音声配置部150へ出力する。方向データは、つまり、ユーザの基本姿勢を基準とした顔の向き(例えば前方、左方、右方等)を示す情報である。
 対話者管理部140は、音声入力部120から自端末音声データ生成の通知を受ける毎に、方向取得部130に対して方向データを要求する。そして、対話者管理部140は、方向取得部130から入力される方向データと、音声配置部150が保持する後述の配置データとの関係から、ユーザの会話相手(以下「対話者」という)を判定し、対話者情報を生成する。具体的には、対話者管理部140は、ユーザが発話を行っているときにユーザが向いている方向を特定し、その方向に配置されている端末のユーザを、対話者と判定する。
 配置データとは、端末毎に設定された位置の集合である。位置とは、他の音声コミュニケーション端末100の端末ID(以下「他端末ID」という)と、他端末IDに対して設定された音源の位置と、他端末の会話の向きである指向性情報の組から成る情報である。端末IDは、音源位置を区別すべき対象毎に設定された識別情報であり、例えば、ユーザIDでもよいし、機器IDやネットワークIDでもよい。また、他端末IDに対して設定された音源の位置とは、例えば、前方、左方、右方等を示す。会話の向きとは、その他端末がどの端末に向いて会話を行っているかを、各音源の相対的な位置関係における向きで示す情報である。本実施の形態における方向の概念については後述する。
 対話者情報は、音声コミュニケーション端末100の端末IDである送信元IDと対話者の端末IDとの組(以下、適宜「会話ペア」という)から成る情報である。すなわち、会話ペアとは、話し掛ける側のユーザ(音声コミュニケーション端末100)と、話し掛けられる側のユーザ(音声コミュニケーション端末100)との組である。以下、音声コミュニケーション端末100の端末IDは「自端末ID」といい、対話者の他端末IDは、「対話者端末ID」という。また、送信元IDが示す端末は「送信元」といい、対話者端末IDが示す端末は「対話者端末」という。
 そして、対話者管理部140は、生成した対話者情報を、音声入力部120が送信する音声データに付加させることにより、音声情報送受信部110を用いて音声コミュニケーションサーバ300へ送信する。すなわち、対話者管理部140は、対話者情報を、音声コミュニケーションサーバ300を介して他の音声コミュニケーション端末100へ送信する。
 また、対話者管理部140は、他の音声コミュニケーション端末100から同様に音声コミュニケーションサーバ300を介して、音声データと共に送られてくる対話者情報を、音声情報送受信部110を用いて受信する。そして、対話者管理部140は、自己が生成した対話者情報と他の音声コミュニケーション端末100からの対話者情報とを、生成時刻および受信時刻から一定の期間、対話者データとして保持する。
 音声配置部150は、対話者管理部140が保持する対話者データに基づいて、各音源の位置および向きを算出する。具体的には、音声配置部150は、受信した対話者情報に基づいて、会話グループを構成する音源がまとまるように配置を決定するとともに、配置された音源ごとに対話者の方向となる指向性を算出する。より具体的には、音声配置部150は、受信した対話者情報の会話ペアの位置が近くなるように、配置を決定する。そして、音声配置部150は、配置データを生成し、対話者管理部140からの要求を受ける毎に、対話者管理部140へ出力する。
 また、音声配置部150は、音声コミュニケーションサーバ300から送られてくる音声データを、音声情報送受信部110を用いて受信する。以下、音声配置部150が受信する音声データは、「他端末音声データ」という。音声配置部150は、方向データおよび配置データに従い、音声データに付加された対話者情報に含まれる送信元IDに基づいて、他端末音声データを処理する。すなわち、音声配置部150は、配置データが示す各音源の位置および向きで立体的に音源が配置されるように、他端末音声データを処理する。そして、音声配置部150は、処理後の他端末音声データを、音声出力部160へ出力する。
 音声出力部160は、入力された他端末音声データを、D/Aコンバータにより音声信号に変換し、有線または無線により接続する音声出力装置400へ送信する。
 本実施の形態において、音声出力装置400は、例えばヘッドセットのステレオヘッドフォンであり、入力された音声信号を音声に変換する装置である。
 図2は、本実施の形態における方向の概念を説明するための模式図である。
 音声配置部150は、ユーザ510の基本姿勢を基準として、ユーザ510の周囲に想定した仮想的な空間に、他端末IDをユーザ510に対して「前方」や「左方」等に配置する。また、その発話音声が聞こえてくる方向は、ユーザ510の顔の向き(つまり、他のどの端末に話し掛けているか)により変化する。
 例えば、ある発話者520の他端末IDに対して、ユーザ510の「前方」が設定されたとする。この場合は、後述の通り、ユーザ510の基本姿勢における前方から発話者520の発話音声が聞こえるように、音声出力の配置が制御される。そして、例えば、この状態でユーザ510が顔を左に向けた場合、右耳側から発話者520の発話音声が聞こえるように、音声出力の配置が制御される。これにより、本実施の形態は、周辺に位置する他の発話者520と、前方に位置する発話者520との音声を判別しやすくなる。
 更に、ある発話者520は、別の発話者520に話しかけているように、発話者520に発話者520の方向への音声の指向性を設定する。すなわちユーザ510には、右前の発話者520が右の発話者520に向かって話しているように聴こえる。
 また、ユーザ510は、話を聞きたい相手や話し掛けたい相手の方向に、自然と頭を向ける。したがって、ユーザ510の顔の向きは、対話者の方向を示す情報となる。
 顔の向きおよび音源の方向は、例えば、方位角と仰伏角とで定義される。ここでは仰伏角は0とし、顔の向きおよび音源の方向として方位角のみが用いられるものとする。これは、一般的に、左右方向の方が、前後方向や上下方向に比べて識別が容易であるためである。
 このような音声コミュニケーション端末100は、各ユーザの顔の向きに基づいて対話者を特定すると共に、他の音声コミュニケーション端末100から受信した対話者情報に基づいて会話ペアを取得する。そして、音声コミュニケーション端末100は、会話グループ(会話の組み合わせ)が変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御する。これにより、音声コミュニケーション端末100は、会話グループが流動的であっても、常に音源配置を会話グループ毎にまとめることができるので、会話内容を容易に把握することを可能にし、快適な会話環境を実現することができる。
 次に、音声コミュニケーション端末100の動作について説明する。
 図3は、音声コミュニケーション端末100の動作の一例を示すフローチャートである。
 まず、ステップS1000において、音声入力部120は、操作インタフェース(図示せず)におけるユーザ操作等による動作の終了の要求があったか否かを判断する。音声入力部120は、終了の要求が無い場合(S1000:NO)、ステップS2000へ進む。
 ステップS2000において、音声入力部120は、音声入力装置200から新たに音声信号を受信したか否かを判断する。音声入力部120は、例えば、一定以上の電圧の音声信号が入力されているときや、音声入力スイッチがオンとなっている状態のときに、音声信号を受信していると判定する。音声入力部120は、音声信号を受信した場合(S2000:YES)、ステップS3000へ進む。また、音声入力部120は、音声信号を受信していない場合(S2000:NO)、ステップS4000へ進む。
 ステップS3000において、音声入力部120および対話者管理部140は、自端末音声データを他の音声コミュニケーション端末100へ送信する情報送信処理を実行して、ステップS4000へ進む。情報送信処理の詳細については後述する。
 ステップS4000において、対話者管理部140は、新たな他端末音声データを他の音声コミュニケーション端末100から受信したか否かを判断する。対話者管理部140は、他端末音声データを受信した場合(S4000:YES)、ステップS5000へ進む。また、対話者管理部140は、他端末音声データを受信していない場合(S4000:NO)、ステップS1000へ戻る。
 ステップS5000において、対話者管理部140、音声配置部150、および音声出力部160は、受信した他端末音声データに基づく音声出力を制御する音声制御処理を実行して、ステップS1000へ戻る。音声制御処理の詳細については後述する。
 そして、音声入力部120は、終了の要求があると(S1000:YES)、一連の動作を終了する。
 なお、情報送信処理および音声制御処理は、別のスレッドで同時に実行されてもよい。
 図4は、情報送信処理(図3のステップS3000)を示すフローチャートである。
 ステップS3100において、音声入力部120は、音声入力装置200から入力された音声信号を自端末音声データに変換する。また、音声入力部120は、送信すべき自端末音声データが生成された旨を、対話者管理部140へ通知する。
 そして、ステップS3200において、対話者管理部140は、通知を受けて、方向取得部130から方向データを取得し、音声配置部150から配置データを取得する。
 そして、ステップS3300において、対話者管理部140は、方向データと配置データとを照合する。すなわち、対話者管理部140は、方向データが示すユーザの顔の方向と、他端末IDに設定されている位置(方向)とを照合する。
 そして、ステップS3400において、対話者管理部140は、照合結果から、ユーザが誰かと会話をしているか否かを判断する。すなわち、対話者管理部140は、ユーザの対話者が存在するか否かを判断する。この判断は、いずれかの端末IDに設定された位置が、方向データが示すユーザの顔の方向を基準とする所定の角度範囲内に含まれているか否かに基づいて行われる。対話者管理部140は、対話者が存在する場合(S3400:YES)、ステップS3500へ進む。また、対話者管理部140は、対話者が存在しない場合(S3400:NO)、ステップS3600へ進む。
 ステップS3500において、対話者管理部140は、該当する他端末IDを対話者端末IDとして設定した対話者情報を生成する。
 また、ステップS3600において、対話者管理部140は、対話者を不定とする対話者情報を生成する。
 そして、ステップS3700において、対話者管理部140は、生成した対話者情報を付加した自端末音声データを、音声コミュニケーションサーバ300へ送信する。これにより、自端末音声データと、ユーザとユーザの現在の対話者とを示す対話者情報とが、他の音声コミュニケーション端末100へ送信されることになる。
 図5は、音声コミュニケーション端末100の送信データの構成の一例を示す図である。
 図5に示すように、送信データ610は、IPアドレス等から成る送信元アドレス611および宛先アドレス612と、対話者情報613と、音声データ614とから成る。対話者情報613は、上述の通り、送信元ID615および対話者端末ID616を含む。
 図6は、音声制御処理(図3のステップS5000)を示すフローチャートである。
 ステップS5010において、対話者管理部140は、受信した他端末音声データの対話者情報から、対話者端末IDおよび送信元IDを取得し、対話者データとして、音声配置部150へ出力する。
 そして、ステップS5020において、音声配置部150は、入力された対話者端末IDに対して位置が設定されているか否かを判断する。音声配置部150は、対話者端末IDに対して位置が設定されていない場合(S5020:NO)、つまり、新たな会話グループが出現したとき、ステップS5030へ進む。また、音声配置部150は、対話者端末IDに対して位置が設定されている場合(S5020:YES)、ステップS5040へ進む。
 ステップS5030において、音声配置部150は、空いている位置に、送信元IDを配置して、ステップS5090へ進む。すなわち、音声配置部150は、いずれの端末IDに対しても設定されていない位置を、送信元IDに対して設定する。その際、対話者端末IDが無効であることから、音声の向きが無指向性となるように、対話者端末IDを送信元IDに変更する。
 ステップS5040において、音声配置部150は、入力された送信元IDに対して既に位置が設定されているか否かを判断する。音声配置部150は、送信元IDに対して位置が設定されていない場合(S5040:NO)、つまり、例えば送信元のユーザが始めて話し掛けてきたとき、ステップS5050へ進む。また、音声配置部150は、送信元IDに対して位置が設定されている場合(S5040:YES)、ステップS5060へ進む。
 ステップS5050において、音声配置部150は、対話者端末IDの近辺に、送信元IDを配置して、後述のステップS5090へ進む。すなわち、音声配置部150は、対話者端末IDの配置から所定の範囲内となる位置を、送信元IDに対して設定する。
 一方、ステップS5060において、音声配置部150は、対話者管理部140が保持する対話者データに該当する送信元IDの会話ペアと、他の音声コミュニケーション端末100から受信した対話者情報の会話ペアとを比較する。そして、音声配置部150は、会話ペアに変化があったか否かを判断する。すなわち、音声配置部150は、送信元が会話相手を変えた結果として、その送信元から受信した対話者情報の会話ペアの組み合わせが、対話者管理部140の保持する対話者データの会話ペアの組み合わせと、異なるか否かを判断する。音声配置部150は、会話ペアに変化がない場合(S5060:NO)、ステップS5070へ進む。また、音声配置部150は、会話ペアに変化があった場合(S5060:YES)、ステップS5080へ進む。
 ステップS5070において、音声配置部150は、他の音声コミュニケーション端末100から受信した対話者データの会話ペアの、送信元IDと対話者端末IDとの距離が遠いか否かを判断する。すなわち、音声配置部150は、送信元IDに対して現在設定している位置と、対話者端末IDに対して現在設定している位置とが、例えば、所定の距離以上離れているか否かを判断する。音声配置部150は、会話ペアの距離が近い場合(S5070:NO)、ステップS5100へ進む。また、音声配置部150は、会話ペアの距離が遠い場合(S5070:YES)、ステップS5080へ進む。
 ステップS5080において、音声配置部150は、送信元IDを対話者端末IDに近付けた状態で、送信元および対話者端末を再配置して、ステップS5090へ進む。すなわち、音声配置部150は、送信元IDと対話者端末IDとに対して、互いに近くなるような位置を設定する。併せて、音声配置部150は、送信元IDの位置から対話者端末IDの位置に向かう方向へ、音声の指向性を設定する。
 ステップS5090において、音声配置部150は、変化後の配置データを、対話者管理部140へ出力して、ステップS5110へ進む。すなわち、音声配置部150は、音源配置の設定内容が変化する毎に、配置データを更新する。
 また、ステップS5100において、音声配置部150は、送信元IDおよび対話者端末IDを、現在と同じ位置に再配置して、ステップS5110へ進む。すなわち、音声配置部150は、送信元IDと対話者端末IDとに対して、現在設定されている位置と方向とを設定する。なお、同じ内容での再配置および配置データの生成を不要とするために、音声配置部150は、一旦生成した配置データを一定期間保持するようにしてもよい。
 そして、ステップS5110において、音声配置部150は、現在設定している配置に基づいて、他端末音声データを処理し、処理後の音声データを音声出力部160へ出力する。例えば、端末Aの音声出力部160は、図8に示す配置データ630に基づいて他端末音声データを処理することにより、音声出力装置400において、図7に示すような立体音響空間が実現される。
 そして、ステップS5120において、音声出力部160は、入力された処理後の他端末音声データを、音声信号に変換して、音声出力装置400へ送信し、音声制御処理を終了する。
 図7は、音声コミュニケーション端末100の端末Aに設定されている音源配置の一例を示す図である。ここでは、端末A、D、Eにより構成される会話グループと、端末B、Cにより構成される会話グループとが存在している場合を例示する。
 音声配置部150は、例えば、音声の聴取者となるユーザの位置を中心として、対話者を含む他のユーザに対応する各音源を、中心から一定の距離を置いて半円状に配置することになる。また、音声配置部150は、左右の配置のバランスは必ずしも均等としないが、各会話グループが分断されないように各音源を配置することになる。すなわち、音声配置部150は、同一の会話グループを構成する複数の他端末からの音声の音源の範囲内に、その会話グループを構成しない他端末からの音声の音源が位置しないように、各音源を配置する。
 図8は、図9に示す音源配置がある音声コミュニケーション端末100において設定されている場合に、各音声コミュニケーション端末100が生成する配置データの一例を示す図である。配置データは音声コミュニケーション端末100毎に個別に生成されるが、ここでは各配置データをまとめて示す。なお、各端末の指向性については図示していない。
 図8に示すように、各音声コミュニケーション端末100(端末IDで示す)は、配置データ630として、他端末ID631に対応付けて、設定された音源の方向を示す方位角632を記述するデータを生成する。ここでは、方位角が、正面を0度とし、右への回転角を正、左への回転角を負として-180度から180度までの値で示される場合を例示している。なお、仰伏角が用いられる場合は、仰伏角は、例えば、水平を0度とし、上を正、下を負として-90度から90度までの値で示される。
 ここで、図8の配置データが用いられている状態(図7に示す音源配置の状態)での端末Aのユーザの仮想空間において、端末Fのユーザが、端末Cのユーザに話し掛け、端末B、C、Fのユーザが会話を開始したものとする。この会話の開始により、端末A、D、Eは、1つの会話グループ(以下「第1の会話グループ」という)となる。また、端末B、C、Fは、別の会話グループ(以下「第2の会話グループ」という)となる。ところが、この場合、図7に示す音源配置のままでは、端末Fと端末Cとの距離は遠く、第1の会話グループと第2の会話グループとは交差した状態となる。したがって、音声コミュニケーション端末100は、例えば端末Fからの対話者情報に基づき、端末Fが端末Cに近付くように、音源の再配置を行い、配置データを変更する。
 図9は、音源配置の変更の様子の一例を示す図であり、図7に対応するものである。
 まず、図9(A)に示すように、音声配置部150は、端末Fの位置を端末Cの近くに移動させる。この結果、端末B、C、Fの位置はまとまり、第1の会話グループと第2の会話グループとが交差しなくなる。これにより、会話グループの音声が区別し易くなる。そして、図9(B)に示すように、音声配置部150は、端末B~Fの間隔が均等になるように、各端末の位置を調整する。この結果、会話グループ内の音声が区別し易くなる。
 図10および図11は、図9に示す音源配置の変更があった場合の配置データの一例を示す図であり、図8に対応するものである。図10は、図9(A)の段階における配置データの一例であり、図11は、図9(B)の段階における配置データの一例である。
 図10および図11に示すように、端末Fが第2の会話グループに参加した結果、所定の配置変更ルールに従って、配置データが段階的に変更される。この結果、最終的に、図9(B)に示す音源配置が、実際の音声出力において実現されることになる。そして、端末Aのユーザには、会話グループ1の音声と会話グループ2の音声とがそれぞれまとまった異なる方向から聞こえ、かつ、個々の音声は異なる方向から聞こえる。したがって、端末Aのユーザは、個々の発話が、誰のものであり、どの会話グループのものであるのかを容易に把握することができる。
 なお、各音声コミュニケーション端末100には、その音声コミュニケーション端末100を中心とした音源配置が設定される。
 図12は、各音声コミュニケーション端末100に設定される音源配置の一例を示す図である。図12(A)~図12(F)は、順に、端末A~Fに設定される配置データの内容を示す。
 図12に示すように、各音声コミュニケーション端末100では、上述の所定の配置ルールに適合するように、自己以外の音声コミュニケーション端末100の音源が周囲に仮想的に配置される。
 このような動作により、音声コミュニケーション端末100は、会話グループが変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御することができる。
 なお、音源の位置が急激に変化すると、ユーザが、不快感を覚えたり、誰の発話音声なのか、および、どの会話グループの会話なのかを把握し辛くなるおそれがある。
 したがって、音声配置部150は、配置を変更する際、各音源の位置が滑らかに移動するよう、配置データを段階的に変化させて出力してもよい。例えば、図7に示す状態から図9(A)に示す状態へと変化させる際、音声配置部150は、端末Fの音源位置を、端末Eの方向、端末Dの方向を経由して移動させる形で、途中の位置を補間すればよい。
 以上のように、本実施の形態に係る音声コミュニケーション端末100は、ユーザの顔の向きに基づいて会話グループを検出し、会話グループの変化に応じて音源配置の設定を変更する。これにより、本実施の形態は、会話グループが不特定であっても快適な会話環境を実現することができる。
 なお、対話者の特定は、本実施の形態ではユーザが発話するときのユーザの顔の向きに基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末100は、自端末音声データに対して音声認識処理を行い、発話に含まれる他のユーザの名称から、対話者を特定してもよい。この場合、音声コミュニケーション端末100は、予め他の音声コミュニケーション端末100からユーザの名称のテキストデータを受信して保持しておく等して、各端末に対応付けて各ユーザの名称を記憶しておく必要がある。
 なお、この際、音声コミュニケーション端末100は、処理負荷の軽減のため、例えば、音声認識処理の対象を、音声入力が開始されてから最初の数秒のみに限定してもよい。また、音声コミュニケーション端末10は、例えば、音声認識処理の対象を、ユーザ操作によりキースイッチが押下されている間のみに限定してもよい。
 また、例えば、音声コミュニケーション端末100は、リモートコントローラにおける十字キー等のユーザ操作により、音源の方向に対する指定を受け付けてもよい。そして、音声コミュニケーション端末100は、指定された方向に設定された他端末のユーザを、対話者として特定してもよい。
 また、音声コミュニケーション端末100は、ユーザの顔の向きと音声認識処理等の両方を行い、会話相手の検出の精度の向上を図るようにしてもよい。
 また、会話グループの抽出は、本実施の形態では対話者情報に基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末100は、各ユーザの発話音声に含まれる共通のキーワードに基づいて、会話グループ(ユーザの対話者および会話ペア)を抽出してもよい。また、音声コミュニケーション端末100は、ユーザの顔の向きに基づく会話グループの抽出とキーワードに基づく会話グループの抽出との両方を行い、会話グループの抽出の精度の向上を図ってもよい。
 また、対話者情報は、送信元アドレス等の他の情報によって対話者情報の送信元を特定可能である場合、必ずしも送信元IDを含まなくてもよい。
 また、音声コミュニケーションサーバ300は、音声データを転送する機能を有するだけでなく、データベースに音声データを蓄積する機能を有してもよい。また、本発明が適用されるネットワークは、音声コミュニケーション端末100同士で直接に接続して通信を行う、サーバレス構成のネットワークであってもよい。
 また、対話者情報は、本実施の形態では音声データと共に送信したが、これに限定されない。音声コミュニケーション端末100は、対話者情報を、音声の入力タイミングや音声の送信タイミングとは異なるタイミングで生成し、送信してもよい。例えば、音声コミュニケーション端末100は、ユーザの顔の向きの累積時間から、発話者情報を定期的に生成し、送信するようにしてもよい。
 このような場合、音声データを送信する処理および対話者情報を生成して送信する処理は、別のスレッドで同時に実行されてもよい。また、音声データを受信する処理、対話者情報を受信する処理、および配置変更を行う処理は、別のスレッドで同時に実行されてもよい。
 また、音源の配置は、本実施の形態では半円状の分散配置としたが、これに限定されない。例えば、音声コミュニケーション端末100は、上下方向や前後方向に音源を分散させて配置させたり、会話グループ毎の音源位置をまとめてもよい。
 音源位置をまとめた場合、一人の発話者以外が聴取者となって発話者が入れ替わりながら会話が進む通常の会話では、会話内容を把握することが可能である。すなわち、会話グループ毎に音源位置をまとめることは、話者の数が多い場合や会話グループの数が多い場合に好適である。
 したがって、音声コミュニケーション端末100は、話者の数や会話グループの数が所定の閾値に達したときには、会話グループ毎に音源位置をまとめるようにしてもよい。また、音声コミュニケーション端末100は、更にこれらの数が増大したときには、新たな音源の設定を保留するようにしてもよい。また、逆に、音声コミュニケーション端末100は、音源位置をまとめた後に話者の数や会話グループの数が減少したときには、個々の音源が分散されるように音源の再配置を行ってもよい。
 また、本発明は、本実施の形態ではユーザ側の装置である音声コミュニケーション端末100に適用したが、これに限定されない。本発明は、例えば、複数の端末の間で音声データの中継を行う装置(例えば、本実施の形態の音声コミュニケーションサーバ300)に適用してもよい。
 また、本発明は、上述の不特定多数が参加するチャットシステム以外にも、電話会議システム等、各種の多地点音声通信システムに適用することができる。
 2010年11月15日出願の特願2010-254801の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明は、会話グループが流動的であっても、快適な会話環境を実現することができる、音声コミュニケーション装置および音声コミュニケーション方法として有用である。
 100 音声コミュニケーション端末
 110 音声情報送受信部
 120 音声入力部
 130 方向取得部
 140 対話者管理部
 150 音声配置部
 160 音声出力部
 200 音声入力装置
 300 音声コミュニケーションサーバ
 400 音声出力装置

Claims (7)

  1.  多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション装置であって、
     他の端末からの音声が出力される際の音源配置を設定する音声配置部と、
     前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部と、を有し、
     前記音声配置部は、
     検出された前記会話グループの変化に応じて前記音源配置の設定を変更する、
     音声コミュニケーション装置。
  2.  前記対話者管理部は、
     前記複数の端末の複数のユーザのそれぞれの顔の向きに基づいて、前記対話者を検出する、
     請求項1記載の音声コミュニケーション装置。
  3.  前記音声配置部は、
     同一の前記会話グループを構成する複数の前記端末からの音声の音源の範囲内に、その会話グループを構成しない前記端末からの音声の音源が位置しないように、前記音源配置の設定を変更する、
     請求項2記載の音声コミュニケーション装置。
  4.  前記対話者管理部は、
     前記端末毎にそのユーザの顔の向きとその端末に設定された前記音源配置との関係から、前記対話者を検出する、
     請求項3記載の音声コミュニケーション装置。
  5.  前記制御の対象となる端末に設けられ、
     前記他の端末と通信を行う音声情報送受信部と、
     前記端末のユーザの発話音声を含む音声データを取得し、取得した音声データを、前記音声情報送受信部を用いて前記他の端末へ送信する音声入力部と、
     前記ユーザの顔の向きを取得する方向取得部と、
     前記音声情報送受信部を用いて、前記他の端末からその端末のユーザの発話音声を含む音声データを受信し、設定された前記音源配置に従って、受信された前記音声データに基づいて音声を出力する音声出力部と、を有し、
     前記対話者管理部は、
     取得された前記ユーザの顔の向きと設定された前記音源配置との関係から、前記ユーザの会話相手の端末を特定し、前記音声情報送受信部を用いて、特定した前記会話相手の端末を示す情報と前記制御の対象となる端末を示す情報とを、対話者情報として前記他の端末へ送信すると共に、前記他の端末から送信される前記対話者情報を受信し、受信した前記対話者情報に基づいて、前記会話グループを検出する、
     請求項4記載の音声コミュニケーション装置。
  6.  前記音声入力部が取得した前記音声データから、音声認識処理により、前記他の端末のユーザの名称を抽出する音声認識部、を更に有し、
     前記対話者管理部は、
     前記ユーザの顔の向きと前記音源配置との関係と、抽出された前記名称とから、前記会話グループを検出する、
     請求項1記載の音声コミュニケーション装置。
  7.  多地点音声通信システムに参加する複数の端末のうち少なくとも1つの音声出力を制御する音声コミュニケーション方法であって、
     前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、
     検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップと、を有する、
     音声コミュニケーション方法。
PCT/JP2011/006084 2010-11-15 2011-10-31 音声コミュニケーション装置および音声コミュニケーション方法 WO2012066734A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-254801 2010-11-15
JP2010254801A JP2012108587A (ja) 2010-11-15 2010-11-15 音声コミュニケーション装置および音声コミュニケーション方法

Publications (1)

Publication Number Publication Date
WO2012066734A1 true WO2012066734A1 (ja) 2012-05-24

Family

ID=46083687

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/006084 WO2012066734A1 (ja) 2010-11-15 2011-10-31 音声コミュニケーション装置および音声コミュニケーション方法

Country Status (2)

Country Link
JP (1) JP2012108587A (ja)
WO (1) WO2012066734A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105898666A (zh) * 2016-06-23 2016-08-24 乐视控股(北京)有限公司 声道数据匹配方法及装置
EP3716650A1 (en) * 2019-03-28 2020-09-30 Sonova AG Grouping of hearing device users based on spatial sensor input
JP2021033678A (ja) * 2019-08-26 2021-03-01 富士ゼロックス株式会社 情報処理装置及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11336706B1 (en) 2021-01-15 2022-05-17 International Business Machines Corporation Providing cognition of multiple ongoing meetings in an online conference system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001274912A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
JP2006211048A (ja) * 2005-01-25 2006-08-10 Matsushita Electric Ind Co Ltd 音声対話装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001274912A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
JP2006211048A (ja) * 2005-01-25 2006-08-10 Matsushita Electric Ind Co Ltd 音声対話装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105898666A (zh) * 2016-06-23 2016-08-24 乐视控股(北京)有限公司 声道数据匹配方法及装置
EP3716650A1 (en) * 2019-03-28 2020-09-30 Sonova AG Grouping of hearing device users based on spatial sensor input
US11128962B2 (en) 2019-03-28 2021-09-21 Sonova Ag Grouping of hearing device users based on spatial sensor input
JP2021033678A (ja) * 2019-08-26 2021-03-01 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7254346B2 (ja) 2019-08-26 2023-04-10 株式会社Agama-X 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP2012108587A (ja) 2012-06-07

Similar Documents

Publication Publication Date Title
US10499136B2 (en) Providing isolation from distractions
US6327567B1 (en) Method and system for providing spatialized audio in conference calls
US9253303B2 (en) Signal processing apparatus and storage medium
EP1869793B1 (en) A communication apparatus
JPWO2008105429A1 (ja) 通信端末およびその制御方法
CN110035250A (zh) 音频处理方法、处理设备、终端及计算机可读存储介质
EP1519553A1 (en) Wireless teleconferencing system
EP2643963A1 (en) Communication system and method for handling voice and/or video calls when multiple audio or video transducers are available
US20160088403A1 (en) Hearing assistive device and system
CN110708615A (zh) 一种基于tws耳机实现的对讲系统及对讲方法
CN113727318B (zh) 耳机通信方法、耳机设备及计算机可读存储介质
WO2012066734A1 (ja) 音声コミュニケーション装置および音声コミュニケーション方法
JP2006254064A (ja) 遠隔会議システム、音像位置割当方法および音質設定方法
JP5396603B2 (ja) 電話システム
US11128962B2 (en) Grouping of hearing device users based on spatial sensor input
JP5120020B2 (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
EP2216975A1 (en) Telecommunication device
KR20130132040A (ko) 이기종 단말기를 이용한 컨퍼런스 시스템 및 그 제어 방법
CN112822591A (zh) 通话数据传输方法、装置、电子设备和存储介质
JP2023155921A (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
US20180070184A1 (en) Sound collection equipment having a function of answering incoming calls and control method of sound collection
US20240080212A1 (en) Conference system, server, audio output method, and user terminal
JP2022092765A (ja) 音声チャット端末、及びその制御方法
EP3907978B1 (en) Computer-implemented method of controlling a plurality of communication devices and communication system
US20240357333A1 (en) Auditory device to auditory device communication linking

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11841666

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11841666

Country of ref document: EP

Kind code of ref document: A1