WO2020218094A1 - 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム - Google Patents

情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム Download PDF

Info

Publication number
WO2020218094A1
WO2020218094A1 PCT/JP2020/016480 JP2020016480W WO2020218094A1 WO 2020218094 A1 WO2020218094 A1 WO 2020218094A1 JP 2020016480 W JP2020016480 W JP 2020016480W WO 2020218094 A1 WO2020218094 A1 WO 2020218094A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
processing device
user
audio signal
unit
Prior art date
Application number
PCT/JP2020/016480
Other languages
English (en)
French (fr)
Inventor
徹 小木曽
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to CN202080029786.3A priority Critical patent/CN113710334B/zh
Priority to US17/602,857 priority patent/US20220161128A1/en
Priority to EP20795790.3A priority patent/EP3960259A4/en
Priority to JP2021516024A priority patent/JP7170851B2/ja
Publication of WO2020218094A1 publication Critical patent/WO2020218094A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/212Input arrangements for video game devices characterised by their sensors, purposes or types using sensors worn by the player, e.g. for measuring heart beat or leg activity
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Definitions

  • the present invention relates to an information processing system, an information processing device, a control method of the information processing device, and a program.
  • peripheral devices capable of voice input may be connected to information processing devices such as home-use game machines and personal computers for voice control and chat processing.
  • the voice uttered by one of the gathered players is not only collected by the voice input device (for example, a microphone) of the uttered player, but also to the voice input device of another player playing adjacently. May also be collected. In this case, if the sounds of each player are simply mixed, the sounds will be muffled or echoes will occur, resulting in a sound that is difficult to hear.
  • the voice input device for example, a microphone
  • the present invention has been made in view of the above circumstances, and provides an information processing system, an information processing device, a control method for the information processing device, and a program capable of controlling a plurality of voice input devices in consideration of the above circumstances. Providing is one of the purposes.
  • an information processing system including a peripheral device worn or gripped by a user and an information processing device, and at least one of the peripheral devices is
  • the information processing device is provided with a voice input means that collects surrounding sounds and outputs a voice signal representing the collected sound, and the information processing device is a voice signal output by at least one peripheral device worn or grasped by the user.
  • a selection means for selecting at least a part of the received voice signals based on a predetermined rule, and an audio signal selected by the selection means is output, and other voice signals are blocked. It is intended to include means to do so.
  • the present invention it is possible to control a plurality of voice input peripheral devices by preventing the voice from becoming muffled or echoing and making the sound difficult to hear.
  • the information processing system 1 includes an information processing device 10 such as a home-use game machine or a PC, and a controller 20.
  • an information processing device 10 such as a home-use game machine or a PC
  • a controller 20 there may be a plurality of controllers 20.
  • the information processing system 1 further includes a plurality of peripheral devices such as a chat controller 30, a headset 40, and a head-mounted display 50, each of which is provided with a voice input device, and is connected to the information processing device 10. You may.
  • the information processing device 10 includes a control unit 11, a storage unit 12, an operation control unit 13, an output control unit 14, a voice input control unit 15, and a communication unit 16. It is composed. Further, the controller 20 includes an operation unit 21, a microphone 22, a communication unit 23, a display unit 24, and an audio output unit 25. Further, the chat controller 30 includes an operation unit 31, a microphone 32, a communication unit 33, and a display unit 34.
  • the control unit 11 of the information processing device 10 is a program control device such as a CPU, and operates according to a program stored in the storage unit 12. In the present embodiment, it is assumed that the control unit 11 executes a plurality of application programs in parallel (so-called multitasking processing).
  • the control unit 11 executes various application programs such as a game application and a chat application for exchanging voice signals via a network. Further, the control unit 11 executes a system program, and as a process of the system program, executes a process of authenticating a user who uses the device for each device such as the controller 20 and the headset 40, and the controller. Information that identifies a user (for example, a user name) is associated and stored for each information that identifies each device, such as 20.
  • control unit 11 receives the operation information input from the operation control unit 13 together with the information specifying the controller 20, the control unit 11 selects the application to which the operation information is output from the running applications. For example, when the game application is running, in principle, the game application is selected, and the predetermined operation information is exceptionally processed by the system.
  • the conditions for selecting the output destination here are set in advance. It may be selected according to the conditions.
  • the control unit 11 executes processing using the information specifying the controller 20 and the operation information input from the operation control unit 13 as the processing of the application or system to which the operation information is output. Further, the control unit 11 determines the mixing volume of each audio signal when mixing each of the audio information received from the plurality of devices. The operation of these control units 11 will be described later.
  • the storage unit 12 is a memory device, a hard disk drive, or the like, and holds a program executed by the control unit 11.
  • the storage unit 12 also operates as a work memory of the control unit 11.
  • the operation control unit 13 is wirelessly or wiredly connected to the controller 20, receives operation information representing the content of the operation performed by the user on the controller 20 from the controller 20, and receives the operation information of the operation information. It is output to the control unit 11 together with the information that identifies the controller 20 that is the receiving source.
  • the operation control unit 13 sends a display control signal or the like to the instructed controller 20 in accordance with the instruction input from the control unit 11.
  • the output control unit 14 is connected to a display device such as a home television, a monitor, or a head-mounted display 50, and outputs signals such as audio and video to these display devices according to an instruction input from the control unit 11. Further, the output control unit 14 may output the video and audio signals to different devices. For example, the video may be output to the monitor, and the audio signal may be output to the controller 20 or the headset 40.
  • the voice input control unit 15 receives a voice signal from a peripheral device including a voice input device such as a controller 20, a chat controller 30, a headset 40, and a head-mounted display 50. Further, as illustrated in FIG. 2, the audio input control unit 15 is configured to include a mixer unit 151, a mute unit 152, a switch unit 153, and an output unit 154, and among the received audio signals in advance.
  • the mixer unit 151 synthesizes an audio signal input from a device other than the specified device (for example, the chat controller 30).
  • the mixer unit 151 determines the volume for each audio signal received from each device such as the controller 20, the headset 40, and the head-mounted display 50, and transmits the audio signal received from each device at the determined volume. Synthesize. In an example of this embodiment, the mixer unit 151 determines the volume of the audio signal received from each device according to an instruction input from the control unit 11.
  • the mixer unit 151 when the control unit 11 sets the volume of the audio signal from the headset 40 to "255" and the other volume to "0", the mixer unit 151 also functions as a selection means. In this example, the mixer unit 151 selectively outputs the audio signal from only the headset 40. In this case, even if there is an audio signal received from the controller 20 other than the headset 40, the head-mounted display 50, or the like, it is not included in the output of the mixer unit 151.
  • a plurality of controllers 20 may be connected to the information processing device 10. Also in this case, the mixer unit 151 determines the volume of the audio signal received from each controller 20 according to the instruction input from the control unit 11. For example, an instruction to set the volume of the audio signal received from the controller 20a used by the user A to "255" and the volume of the audio signal received from the controllers 20b and c used by the other users B and C to "0" is the control unit. When input from 11, the mixer unit 151 selectively outputs the audio signal received from the controller 20a.
  • the mute unit 152 switches whether to output the audio signal output by the mixer unit 151 as it is or not to output (mute) according to an instruction input from the control unit 11.
  • the mute unit 152 outputs the audio signal output by the mixer unit 151 as it is.
  • the mute unit 152 discards (mutes) the audio signal output by the mixer unit 151 without outputting it to the switch unit 153.
  • the switch unit 153 receives an audio signal from a device that has not been input to the mixer unit 151 (hereinafter, referred to as an interrupt audio signal.
  • the audio signal is received from the chat controller 30. Accepts input from (audio signal).
  • the switch unit 153 accepts the input of the audio signal.
  • the switch unit 153 selects and outputs either the audio signal (if any) received from the mute unit 152 or the interrupt audio signal (if any) according to an instruction input from the control unit 11.
  • the output unit 154 outputs the audio signal output by the switch unit 153 to the control unit 11.
  • the voice input control unit 15 receives the voice signal from each peripheral device provided with the voice input device, mixes it, or selects and outputs one of them, and the control unit 11 To be used for processing.
  • the communication unit 16 is a network interface or the like, and transmits various information via the network according to an instruction input from the control unit 11. Further, the communication unit 16 outputs the information received via the network to the control unit 11.
  • the operation unit 21 of the controller 20 includes buttons, a joystick, and the like, accepts the user's operation, and outputs operation information representing the content of the operation performed by the user to the communication unit 23. Further, the microphone 22 collects surrounding sounds and outputs a digital voice signal representing the collected sounds.
  • the communication unit 23 is, for example, a wireless communication means such as Bluetooth (registered trademark), and sends information (operation information) representing the content of the operation performed by the user in the operation unit 21 to the information processing device 10. Further, the communication unit 23 outputs the audio signal output by the microphone 22 to the information processing device 10. Further, the communication unit 23 outputs the display control signal output by the information processing device 10 to the display unit 24. Further, when the communication unit 23 receives the voice signal from the information processing device 10, the communication unit 23 outputs the received voice signal to the voice output unit 25.
  • a wireless communication means such as Bluetooth (registered trademark)
  • information operation information representing the content of the operation performed by the user in the operation unit 21
  • the communication unit 23 outputs the audio signal output by the microphone 22 to the information processing device 10. Further, the communication unit 23 outputs the display control signal output by the information processing device 10 to the display unit 24. Further, when the communication unit 23 receives the voice signal from the information processing device 10, the communication unit 23 outputs the received voice signal to the voice output unit 25.
  • the display unit 24 includes, for example, an LED or the like.
  • the display unit 24 receives an input of a display control signal from the communication unit 23 and turns on or off the LED.
  • the audio output unit 25 is a device provided with an oscillator such as a speaker, and sounds an audio based on an audio signal received from the information processing apparatus 10.
  • the chat controller 30 is a so-called push-to-talk device (PTT device) that accepts and outputs voice input only while the user is instructing voice input, and its operation unit 31 includes, for example, a button. .. Further, the microphone 32 collects surrounding sounds, converts them into voice signals, and outputs the sounds.
  • PTT device push-to-talk device
  • the communication unit 33 is, for example, a wireless communication means such as Bluetooth (registered trademark), and outputs an audio signal output by the microphone 32 to the information processing device 10 while the user presses a button on the operation unit 31. .. Further, when the user does not press the button of the operation unit 31, the communication unit 33 discards the audio signal output by the microphone 32 without outputting it to the information processing device 10. Further, the communication unit 33 outputs the display control signal output by the information processing device 10 to the display unit 34.
  • a wireless communication means such as Bluetooth (registered trademark)
  • the display unit 34 includes, for example, an LED or the like.
  • the display unit 34 receives an input of a display control signal from the communication unit 33 and turns on or off the LED.
  • the operation of the chat controller 30 will also be described later.
  • the headset 40 includes, for example, headphones, a microphone, and the like.
  • the headset 40 rings the speaker based on the voice signal output by the information processing device 10. Further, the headset 40 sends an audio signal collected by the microphone to the information processing device 10.
  • the head-mounted display 50 includes a display, a speaker, and a microphone.
  • the head-mounted display 50 receives a video signal or an audio signal output by the information processing device 10, displays the video on the display, and makes the speaker ring. Further, the head-mounted display 50 sends an audio signal collected by a microphone to the information processing device 10.
  • control unit 11 functionally includes a voice input processing unit 111, a mute processing unit 112, an interrupt processing unit 113, and a display processing unit, as illustrated in FIG. 3 as system processing. Includes 114 and.
  • control unit 11 defines one of the devices provided with the voice input device connected to the information processing device 10 as an interrupt device.
  • the voice input processing unit 111 performs the following processing on a device provided with a voice input device (when an interrupt device is defined, the interrupt device is excluded).
  • the voice input processing unit 111 determines the mixing volume for each target device connected to the information processing device 10 according to a predetermined rule.
  • This predetermined rule can be, for example, as follows. That is, the control unit 11 determines the priority for each target device in advance, and among the connected devices, the mixing volume of the audio signal received from the target device having the highest priority is greater than the predetermined 0. It is a value (not including 0). This value may be set to, for example, the maximum value or a different value for each target device depending on the type of the target device. Hereinafter, a value larger than 0 is referred to as an output value.
  • the mixing volume of the audio signal received from the target device other than the target device having the highest priority is set as the lowest value.
  • This minimum value may be, for example, a value representing the volume "0". This minimum value is hereinafter referred to as a cutoff value.
  • control unit 11 blocks the mixing volume of the audio signal received from the target device for the target device selected by the user at a predetermined output value, and the mixing volume of the audio signal received from the other target device. It may be a value.
  • the rules here may be as follows. That is, (1) As a general rule, one target device is selected for each user. (2) If the target device selected for each user is a target device that is predetermined to include a voice input device that makes it difficult to collect sounds other than the user's voice, the mixing volume of the target device is used as the output value. To do. (3) When the target device selected for each user is not a target device predetermined as having a voice input device that makes it difficult to collect sounds other than the user's voice (here, referred to as a wide sound collecting device for convenience).
  • the mixing volume of the selected target device for the selected user is used as the output value.
  • the mixing volume of the target device for which the mixing volume is not set as the output value in (2) and (3) is set as the blocking value.
  • the audio signal collected by the headset 40 can be used for processing as an application.
  • the controller 20 or the like which is a wide sound collecting device, which has a relatively weak microphone directionalness, as a voice input device
  • one user among the users who use the controller 20 as a voice input device operates. Only the voice signal collected by the controller 20 will be used in the processing as an application.
  • the mixing volume of the wide sound collecting device such as the controller 20 of the user is output.
  • the value is used, and the mixing volume of other wide sound collectors is used as the cutoff value.
  • the mute processing unit 112 outputs a mute instruction to the voice input control unit 15 when it receives the operation information to the effect that it should be muted as the operation information received from the controller 20 operated by the user.
  • the interrupt processing unit 113 outputs an instruction to select a voice signal received from the interrupt device to the voice input control unit 15 in accordance with an instruction input from a predetermined interrupt device (for example, an instruction requesting selection). May be good.
  • a predetermined interrupt device for example, an instruction requesting selection.
  • the control unit 11 gives an instruction to the voice input control unit 15 to select a voice signal received from a device other than the interrupt device. Output.
  • the display processing unit 114 outputs a display control signal to each device in response to the instructions output by the voice input processing unit 111, the mute processing unit 112, and the interrupt processing unit 113 in order to indicate the input state of the voice signal. .. A specific example of this display control signal will be described later.
  • the information processing system 1 of the present embodiment basically has the above-mentioned configuration, and operates as follows.
  • FIG. 4A an example (FIG. 4A) in which one information processing device 10 is shared by three users A, B, and C to play a game will be described.
  • each user A, B, C shall operate with their respective controllers 20a, b, c. That is, the information processing device 10 initially authenticates the user who operates each controller 20, associates it with the information that identifies each controller, and records the information that identifies the authenticated user. Further, it is assumed that the chat controller 30 as an interrupt device is connected to the information processing device 10.
  • the information processing apparatus 10 shall comply with the following rules as predetermined rules: (1) As a general rule, one target device is selected for each user. (2) If the target device selected for each user is a target device that is predetermined to include a voice input device that makes it difficult to collect sounds other than the user's voice, the mixing volume of the target device is output (2). In FIG. 4, it is referred to as “255”). (3) When the target device selected for each user is not a target device predetermined as having a voice input device that makes it difficult to collect sounds other than the user's voice (here, referred to as a wide sound collecting device for convenience).
  • the mixing volume of the selected target device for the selected user is used as the output value.
  • the mixing volume of the target device for which the mixing volume is not set as the output value in (2) and (3) is set as the blocking value.
  • the information processing device 10 determines the mixing volume for each of the target devices, with the controllers 20a, b, and c connected to the information processing device 10 as the target devices, in accordance with this rule.
  • the controller 20 is a wide sound collecting device.
  • the information processing device 10 receives, for example, the mixing volume of the first connected controller 20 (referred to as the controller 20a of the user A) from the output value and other target devices based on the above-mentioned predetermined rule.
  • the cutoff value is the mixing volume of the audio signal.
  • the voice signal collected by the controller 20a used by the user A and sent to the information processing device 10 is used for application processing.
  • the information processing device 10 will send a voice signal collected by the controller 20a and sent to the information processing device 10 to the chat partner. Further, the audio signal received from the other party is output to an output destination (for example, here, each controller 20a, b, c) determined by a predetermined method.
  • an output destination for example, here, each controller 20a, b, c
  • the voice signals transmitted by the controllers 20b and c are discarded by the operation of the voice input control unit 15 of the information processing device 10.
  • the sounds collected by the controllers 20a, b, and c are mixed, and it is possible to prevent the sound from being muffled or echoing.
  • the information processing device 10 authenticates the new device. Taking this as an opportunity, again according to the above rules, the controllers 20a, b, c connected to the information processing device 10 and the headset 40 used by the user C are set as the target devices, and the mixing volume of each of these target devices is set. To determine.
  • the information processing device 10 first sets the mixing volume of the headset 40 as the output value for the user C based on the above-mentioned predetermined rule.
  • the mixing volume of the first connected controller 20 (referred to as the controller 20a of the user A) is received from the output value and the other target devices (controller 20b of the user B).
  • the volume of mixing of the audio signal to be used is set as the cutoff value.
  • the voice uttered by user C is collected by the headset 40. Then, the audio signal collected by the controller 20a used by the user A and transmitted to the information processing device 10 and the audio signal transmitted by the headset 40 are mixed and used for application processing. ..
  • the voice signals transmitted by the controllers 20b and c are discarded by the operation of the voice input control unit 15 of the information processing device 10.
  • the sounds collected by the controllers 20a, b, and c are mixed, and it is possible to prevent the sound from being muffled or echoing.
  • the headset 40 has a relatively strong directivity, the voice of the user A included in the voice signal output by the headset 40 is sufficiently small. Therefore, even if the audio signal obtained by collecting the sound of the headset 40 is mixed with the audio signal transmitted by the controller 20a, the audio is not muffled or echo is not generated.
  • the information processing device 10 keeps the mixing volume of the headset 40 as the output value for the user C, and sets the mixing volume of the controller 20b that requests the input of the audio signal as the output value.
  • the mixing volume of the audio signal received from the target device (controller 20a of the user A) other than the above is set as the cutoff value.
  • the voice signals transmitted by the controllers 20a and 20c are discarded by the operation of the voice input control unit 15 of the information processing device 10.
  • the sounds collected by the controllers 20a, b, and c are mixed, and it is possible to prevent the sound from being muffled or echoing.
  • the information processing device 10 that processes this chat application outputs a voice signal received from the chat partner to each controller 20, and each controller 20 sounds the voice.
  • the voice signal from each device (excluding the interrupt device) including the voice input device is muted. That is, in one example of the present embodiment, when a mute instruction is given from any of the controllers 20 and the like, all voice inputs are blocked.
  • the information processing device 10 displays operation information indicating that the mute operation has been performed. Is sent to.
  • the information processing device 10 receives the operation information that the controller 20 should mute, and outputs the mute instruction to the voice input control unit 15. At this time, even if the mixer unit 151 of the audio input control unit 15 mixes the audio signals transmitted by each device at what volume setting, the mute unit 152 outputs the audio signals output by the mixer unit 151. Control not to output (mute).
  • the mute is performed as a whole by one operation of the user, and there is no need to set the mute for each device, and the operability of the mute is improved.
  • control unit 11 may control the output control unit 14 so as not to output an audio signal. Good (all mute). In this way, the audio output from the television, the headset, and the controller 20 is also stopped.
  • control unit 11 that receives the input of the voice signal from the voice input control unit 15 can normally use the input voice signal in any application being executed by the control unit 11.
  • the operation mode of the control unit 11 that performs this control is referred to as a shared mode for convenience.
  • the voice signal from the interrupt device may be used only by a specific application.
  • the application requires voice input, if it is in the muted state, voice input cannot be performed. Therefore, when the mute can be temporarily released at the request of the application side, the mute is temporarily performed. For the audio signal input in the unmuted state, the audio signal should be output exclusively to the requested application.
  • control unit 11 when a voice input is required in the processing of one application, the control unit 11 outputs a display indicating that the voice input is requested to a monitor or the like, and also provides information for identifying this application (with an application name). Good) is temporarily held.
  • the control unit 11 detects that the operation has been performed, and the operation is performed on the mixer unit 151 of the voice input control unit 15.
  • the mixing volume of the controller 20 is maximized (the mixing volume of the other controllers 20 and the like is set as the cutoff value).
  • the mixing volume may be maximized only for the controller 20 in which the unmute operation is performed earliest.
  • control unit 11 temporarily holds the audio signal received from the controller 20 until the user next performs the mute operation on the controller 20 or until a predetermined time elapses. Used for processing the application specified by the information (temporary unmute). This audio signal is set so that it cannot be used for other applications other than the application specified by the information.
  • the operation mode of the control unit 11 when this setting is made is called an exclusive mode for convenience.
  • the control unit 11 (1) A display control signal that turns off the LED of the display unit 24 when not muted. (2) A display control signal that lights the LED of the display unit 24 in the muted state. (3) In the case of all mute, the display control signal that blinks the LED of the display unit 24, Is output in each case.
  • a display control signal indicating whether or not the device is in the mute state is output from the information processing device 10, and the controller 20 or the like changes the display of the display unit 24 according to the display control signal (turns off, lights up). (By changing it to blinking, etc.), it is clearly indicated whether or not it is in the mute state, so that the user can easily understand whether or not it is in the state where voice input is possible.
  • control unit 11 For a device whose mixing volume is set as a cutoff value, a display control signal that blinks the LED of the display unit 24 in a manner distinguishable from the case of full mute may be output.
  • the blinking cycle may be made longer than in the case of full mute. According to this, it is possible to clearly indicate a case where voice input cannot be performed via the controller 20 owned by the user, such as when another person is performing voice input.
  • the display unit 24 is used as a liquid crystal display unit, for example, and the user is notified of the status by changing the color of the backlight of the liquid crystal display unit and the display content. May be.
  • 1 Information processing system 10 Information processing device, 11 Control unit, 12 Storage unit, 13 Operation control unit, 14 Output control unit, 15 Voice input control unit, 16 Communication unit, 20 Controller, 21 Operation unit, 22 Microphone, 23 Communication Unit, 24 display unit, 25 audio output unit, 30 chat controller, 31 operation unit, 32 microphone, 33 communication unit, 34 display unit, 40 headset, 50 head mount display, 111 audio input processing unit, 112 mute processing unit, 113 Interrupt processing unit, 114 display processing unit, 151 mixer unit, 152 mute unit, 153 switch unit, 154 output unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Cardiology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Optics & Photonics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ユーザが装着、あるいは把持して用いる周辺装置に接続される情報処理装置であって、上記周辺装置の少なくとも一つは、周囲の音声を集音し、当該集音した音声を表す音声信号を出力するデバイスを備え、情報処理装置が、当該ユーザが装着あるいは把持する周辺装置が出力する音声信号を受け入れ、受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択し、当該選択した音声信号を出力し、その他の音声信号を遮断する情報処理装置である。

Description

情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
 本発明は、情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。
 音声による制御やチャットの処理のため、近年では家庭用ゲーム機やパーソナルコンピュータ等の情報処理装置に対し、音声入力可能な周辺装置が複数接続される場合がある。
 しかしながら、このように複数の音声入力デバイスが存在する現場において、ユーザが発声した音声等を処理すると、各音声入力デバイスが同じ音を集音するタイミングのずれや各音声入力デバイスの特性の相違から、意図しない音声となってしまう場合がある。
 例えばネットワークを介して行われるゲームに参加する複数のプレイヤのうち、一部の数人のプレイヤが一箇所に集まっている場合、各プレイヤ間でチャットを行おうとするときには、次のような問題が生じる。
 すなわち、集まっているプレイヤの一人が発声した音声は、当該発声したプレイヤの音声入力デバイス(例えばマイク)により集音されるだけでなく、隣接してプレイしている別のプレイヤの音声入力デバイスにも集音されてしまう場合がある。この場合、各プレイヤの音声を単にミキシング処理したのでは、音声がこもってしまったり、エコーが生じるなどして、聞き取りにくい音となってしまう。
 本発明は上記実情に鑑みて為されたもので、上述のような事情に考慮した複数の音声入力デバイスの制御を実現できる情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラムを提供することを、その目的の一つとする。
 上記従来例の問題点を解決する本発明の一態様は、ユーザが装着、あるいは把持して用いる周辺装置と、情報処理装置とを含む情報処理システムであって、前記周辺装置の少なくとも一つは、周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備え、前記情報処理装置は、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、を含むこととしたものである。
 本発明によると、音声がこもったり、エコーが生じたりして、聞き取りにくい音となってしまうことを防止して、複数の音声入力周辺装置の制御を実現できる。
本発明の実施の形態に係る情報処理システムの構成例を表すブロック図である。 本発明の実施の形態に係る情報処理装置の音声入力制御部の構成例を表すブロック図である。 本発明の実施の形態に係る情報処理装置の制御部の例を表す機能ブロック図である。 本発明の実施の形態に係る情報処理システムの動作の例を表す説明図である。
 本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理システム1は、図1に例示するように、家庭用ゲーム機やPC等の情報処理装置10と、コントローラ20とを含んで構成される。ここでコントローラ20は複数あってもよい。またこの情報処理システム1には、チャットコントローラ30や、ヘッドセット40、あるいはヘッドマウントディスプレイ50等、それぞれが音声入力デバイスを備えた複数の周辺装置がさらに含まれ、情報処理装置10に接続されていてもよい。
 情報処理装置10は、図1に例示したように、制御部11と、記憶部12と、操作制御部13と、出力制御部14と、音声入力制御部15と、通信部16とを含んで構成される。またコントローラ20は、操作部21と、マイク22と、通信部23と、表示部24と、音声出力部25とを含む。さらにチャットコントローラ30は、操作部31と、マイク32と、通信部33と、表示部34とを含んでなる。
 情報処理装置10の制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、複数のアプリケーションプログラムを並列的に実行(いわゆるマルチタスキング処理を)しているものとする。
 具体的に情報処理装置10が家庭用ゲーム機である場合、制御部11は、ゲームのアプリケーションや、ネットワークを介して音声信号を授受するチャットアプリケーション等種々のアプリケーションプログラムを実行している。またこの制御部11は、システムプログラムを実行しており、このシステムプログラムの処理として、コントローラ20やヘッドセット40等、装置ごとに、当該装置を利用するユーザを認証する処理を実行して、コントローラ20等、各装置を特定する情報ごとに、ユーザを特定する情報(例えばユーザ名)を関連付けて記憶する。
 そして制御部11は、操作制御部13からコントローラ20を特定する情報とともに操作情報の入力を受けると、実行中のアプリケーションのうちから操作情報の出力先となるアプリケーションを選択する。例えばゲームアプリケーションが起動しているときには、原則としてゲームアプリケーションを選択し、所定の操作情報については例外的にシステムで処理する、などとしてここでの出力先の選択の条件を予め定めておき、当該条件に従って選択すればよい。
 制御部11は、操作情報の出力先のアプリケーションやシステムの処理として、操作制御部13から入力された、コントローラ20を特定する情報と操作情報とを用いた処理を実行する。またこの制御部11は、複数の装置から受信した音声情報の各々をミキシングする際の、各音声信号のミキシングの音量を決定する。これらの制御部11の動作については後に述べる。
 記憶部12は、メモリデバイスやハードディスクドライブ等であり、制御部11によって実行されるプログラムを保持する。またこの記憶部12は制御部11のワークメモリとしても動作する。
 操作制御部13は、コントローラ20との間で無線または有線にて通信可能に接続され、コントローラ20からコントローラ20にてユーザが行った操作の内容を表す操作情報を受信して、当該操作情報の受信元であるコントローラ20を特定する情報とともに制御部11に出力する。
 さらに本実施の形態では、この操作制御部13は、制御部11から入力される指示に従い、表示制御信号等を、指示されたコントローラ20に対して送出する。
 出力制御部14は、家庭用テレビや、モニタ、ヘッドマウントディスプレイ50等の表示デバイスに接続され、制御部11から入力される指示に従って、音声や映像等の信号をこれらの表示デバイスに出力する。またこの出力制御部14は、映像と音声信号とを異なる装置に対して出力してもよい。例えば映像についてはモニタに出力し、音声信号についてはコントローラ20やヘッドセット40に出力するようにしてもよい。
 音声入力制御部15は、コントローラ20やチャットコントローラ30、ヘッドセット40、ヘッドマウントディスプレイ50等、音声入力デバイスを備えた周辺装置から音声信号を受信する。またこの音声入力制御部15は、図2に例示するように、ミキサ部151と、ミュート部152と、スイッチ部153と、出力部154とを含んで構成され、受信した音声信号のうち、予め定められた装置(例えばチャットコントローラ30)以外の装置から入力された音声信号をミキサ部151にて合成する。
 具体的に、このミキサ部151は、コントローラ20やヘッドセット40、ヘッドマウントディスプレイ50等の各装置から受信した音声信号ごとに音量を定めて、当該定めた音量で各装置から受信した音声信号を合成する。本実施の形態のある例では、このミキサ部151は、制御部11から入力される指示に従って、各装置から受信した音声信号の音量を定める。
 また、例えば制御部11が、ヘッドセット40からの音声信号の音量を「255」、その他の音量を「0」とした場合は、このミキサ部151は選択手段としても機能する。この例ではミキサ部151は、ヘッドセット40のみからの音声信号を選択的に出力することとなる。そしてこの場合、ヘッドセット40以外のコントローラ20やヘッドマウントディスプレイ50等から受信した音声信号があっても、ミキサ部151の出力には含められない。
 さらに本実施の形態の一例では、この情報処理装置10には複数のコントローラ20が接続されることがあり得る。この場合も、ミキサ部151は、制御部11から入力される指示に従って各コントローラ20から受信した音声信号の音量を定める。例えばユーザAが利用するコントローラ20aから受信した音声信号の音量を「255」、その他のユーザB,Cが利用するコントローラ20b,cから受信した音声信号の音量を「0」とする指示が制御部11から入力された場合、ミキサ部151は、コントローラ20aから受信した音声信号を選択的に出力することとなる。
 ミュート部152は、ミキサ部151が出力する音声信号について、そのまま出力するか、あるいは出力しない(ミュートする)かを、制御部11から入力される指示に従って切り替える。このミュート部152は、制御部11がミュートしない旨の指示を出力しているときには、ミキサ部151が出力する音声信号をそのまま出力する。またこのミュート部152は、制御部11がミュートする旨の指示を出力しているときには、ミキサ部151が出力する音声信号をスイッチ部153に出力せず破棄する(ミュートする)。
 スイッチ部153は、情報処理装置10が受信した音声信号のうち、ミキサ部151に入力されていない装置からの音声信号(以下、割り込み音声信号と呼ぶ。ここでの例ではチャットコントローラ30から受信した音声信号)からの入力を受け入れる。またこのスイッチ部153は、ミュート部152が音声信号を出力するときには、当該音声信号の入力を受け入れる。スイッチ部153は、ミュート部152から受け入れた音声信号(あれば)と、割り込み音声信号(あれば)とのいずれかを、制御部11から入力される指示に従って選択して出力する。
 出力部154は、スイッチ部153が出力する音声信号を、制御部11に出力する。このように本実施の形態の一例に係る音声入力制御部15は、音声入力デバイスを備えた各周辺装置から音声信号を受信し、ミキシングし、あるいはいずれかを選択して出力し、制御部11の処理に供する。
 通信部16は、ネットワークインタフェース等であり、制御部11から入力される指示に従い、ネットワークを介して種々の情報を送信する。またこの通信部16はネットワークを介して受信した情報を制御部11に出力している。
 コントローラ20の操作部21は、ボタンやジョイスティック等を含み、ユーザの操作を受け入れて、当該ユーザが行った操作の内容を表す操作情報を、通信部23に出力する。またマイク22は、周囲の音声を集音し、当該集音した音声を表すディジタルの音声信号を出力している。
 通信部23は、例えばブルートゥース(登録商標)等の無線通信手段であり、操作部21にてユーザが行った操作の内容を表す情報(操作情報)を情報処理装置10に送出する。またこの通信部23は、マイク22が出力する音声信号を、情報処理装置10に出力する。またこの通信部23は、情報処理装置10が出力する表示制御信号を表示部24に出力する。さらにこの通信部23は、情報処理装置10から音声信号を受信すると、当該受信した音声信号を音声出力部25に出力する。
 表示部24は、例えばLED等を含む。この表示部24は、通信部23から表示制御信号の入力を受けて、LEDを点灯ないし消灯する。音声出力部25は、スピーカー等の振動子を備えたデバイスであり、情報処理装置10から受信した音声信号に基づいて音声を鳴動する。
 さらにチャットコントローラ30は、ユーザが音声入力を指示している間だけ音声の入力を受け入れて出力する、いわゆるプッシュ・トゥー・トーク装置(PTT装置)であり、その操作部31は、例えばボタンを含む。またマイク32は、周囲の音声を集音して音声信号に変換して出力している。
 通信部33は、例えばブルートゥース(登録商標)等の無線通信手段であり、ユーザが操作部31のボタンを押下している間に、マイク32が出力する音声信号を、情報処理装置10に出力する。またこの通信部33は、ユーザが操作部31のボタンを押下していないときには、マイク32が出力する音声信号を、情報処理装置10に出力することなく破棄する。さらにこの通信部33は、情報処理装置10が出力する表示制御信号を表示部34に出力する。
 表示部34は、例えばLED等を含む。この表示部34は、通信部33から表示制御信号の入力を受けて、LEDを点灯ないし消灯する。このチャットコントローラ30の動作についても後に述べる。
 ヘッドセット40は、例えばヘッドフォンやマイク等を備える。このヘッドセット40は、情報処理装置10が出力する音声信号に基づいてスピーカーを鳴動する。またこのヘッドセット40は、マイクにて集音した音声信号を、情報処理装置10に対して送出する。
 ヘッドマウントディスプレイ50は、ディスプレイとスピーカーとマイクとを含んで構成される。このヘッドマウントディスプレイ50は、情報処理装置10が出力する映像信号や音声信号を受け入れて、ディスプレイに映像を表示し、また、スピーカーを鳴動させる。またこのヘッドマウントディスプレイ50は、マイクにて集音した音声信号を、情報処理装置10に対して送出する。
 ここで情報処理装置10の制御部11の動作について説明する。本実施の形態では、この制御部11は、システムの処理として図3に例示するように、機能的に、音声入力処理部111と、ミュート処理部112と、割り込み処理部113と、表示処理部114とを含む。
 なお、本実施の形態の以下の例では、制御部11は、情報処理装置10に接続された、音声入力デバイスを備えた装置のうちの一つを、割り込み装置として定めておくものとする。
 音声入力処理部111は、音声入力デバイスを備えた装置(割り込み装置を定める場合、割り込み装置を除くこととする)を対象装置として、次の処理を行う。音声入力処理部111は、所定の規則に従って、情報処理装置10に接続されている、対象装置ごとのミキシングの音量を定める。この所定の規則は、例えば次のようなものとすることができる。すなわち、制御部11は、予め対象装置ごとに優先順位を定めておき、接続された装置のうち、優先順位の最も高い対象装置から受信する音声信号のミキシングの音量を予め定められた0より大きい値(0を含まない)とする。この値は例えば最大値、あるいは、対象装置ごとに、対象装置の種類に応じて異なった値が設定されてもよい、以下、この0より大きい値を出力値と呼ぶ。また、接続された装置のうち、優先順位の最も高い対象装置以外の対象装置から受信する音声信号のミキシングの音量を最低値とする。この最低値は、例えば音量「0」を表す値とすればよい。この最低値を、以下では遮断値と呼ぶ。
 なお、ここでの規則や音量の設定の例は一例であり、他にも種々の方法があり得る。例えば制御部11は、ユーザが選択した対象装置について、当該対象装置から受信する音声信号のミキシングの音量を予め定められた出力値、それ以外の対象装置から受信する音声信号のミキシングの音量を遮断値としてもよい。
 また複数のユーザが情報処理装置10を利用している場合を考慮して、ここでの規則は、次のようなものであってもよい。すなわち、
(1)原則としてユーザごとに一つの対象装置を選択する。
(2)ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置である場合は、当該対象装置のミキシングの音量を出力値とする。
(3)ユーザごとに選択した対象装置が、当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置でない(ここでは便宜的に広集音装置と呼ぶ)場合、選択された対象装置が広集音装置であるユーザについては、いずれかのユーザを一人選び、当該選ばれたユーザについて選択した対象装置のミキシングの音量を出力値とする。
(4)(2),(3)でミキシングの音量を出力値としていない対象装置についてのミキシングの音量を遮断値とする。
 この例によると、マイクの指向性が比較的強いヘッドセット40等を音声入力デバイスとして利用しているユーザについては、当該ヘッドセット40が集音した音声信号がアプリケーションとしての処理で利用可能となるとともに、マイクの指向性が比較的弱い、広集音装置であるコントローラ20等を音声入力デバイスとして利用しているユーザについては、コントローラ20を音声入力デバイスとするユーザのうち一人のユーザが操作するコントローラ20が集音した音声信号のみが、アプリケーションとしての処理で利用されるようになる。
 なお、いずれの場合も、広集音装置を利用しているユーザがコントローラ20を操作して、音声信号の入力を要求したときには、当該ユーザのコントローラ20等の広集音装置のミキシング音量を出力値とし、その他の広集音装置のミキシング音量を遮断値とする。
 ミュート処理部112は、ユーザが操作するコントローラ20から受信した操作情報として、ミュートをするべき旨の操作情報を受け入れたときに、音声入力制御部15に対してミュートの指示を出力する。
 割り込み処理部113は、予め定めた割り込み装置から入力される指示(例えば選択を要求する指示)に従い、当該割り込み装置から受信される音声信号を選択する指示を、音声入力制御部15に出力してもよい。また割り込み装置から、選択を解除するべき旨の指示が受信されると、制御部11は、この割り込み装置以外の装置から受信した音声信号を選択するべき旨の指示を、音声入力制御部15に出力する。
 表示処理部114は、音声信号の入力の状態を示すために、音声入力処理部111、ミュート処理部112、及び割り込み処理部113が出力する指示に応じて、各装置に対する表示制御信号を出力する。この表示制御信号の具体的な例については後に述べる。
[動作例]
 本実施の形態の情報処理システム1は以上のような構成を基本的に備えており、次のように動作する。以下では、1つの情報処理装置10をユーザA,B,Cの3人が共用してゲームを行う例(図4(a))について説明する。
 このとき、各ユーザA,B,Cはそれぞれのコントローラ20a,b,cを持って操作するものとする。すなわち、情報処理装置10は当初、各コントローラ20を操作するユーザを認証し、各コントローラを特定する情報に関連付けて、認証したユーザを特定する情報を記録する。またこの情報処理装置10には、割り込み装置としてのチャットコントローラ30が接続されているものとする。
 このとき情報処理装置10は、予め定めた規則として、次の規則に従うものとする:
(1)原則としてユーザごとに一つの対象装置を選択する。
(2)ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置である場合は、当該対象装置のミキシングの音量を出力値(図4では「255」)とする。
(3)ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置でない(ここでは便宜的に広集音装置と呼ぶ)場合、選択された対象装置が広集音装置であるユーザについては、いずれかのユーザを一人選び、当該選ばれたユーザについて選択した対象装置のミキシングの音量を出力値とする。
(4)(2),(3)でミキシングの音量を出力値としていない対象装置についてのミキシングの音量を遮断値とする。
 そして情報処理装置10は、この規則に従い、当該情報処理装置10に接続されているコントローラ20a,b,cを対象装置として、これら対象装置ごとのミキシングの音量を定める。ここではコントローラ20は広集音装置であるものとする。この例では、情報処理装置10は、上記所定の規則に基づき、例えば最初に接続されたコントローラ20(ユーザAのコントローラ20aとする)のミキシングの音量を出力値、それ以外の対象装置から受信する音声信号のミキシングの音量を遮断値とする。
 このため、情報処理装置10では、ユーザAが使用しているコントローラ20aが集音して情報処理装置10へ送出した音声信号がアプリケーションの処理に供されることとなる。
 例えばアプリケーションがチャットアプリケーションであれば、情報処理装置10は、コントローラ20aが集音して情報処理装置10へ送出した音声信号を、チャットの相手先へ送出することとなる。また相手先から受信した音声信号は、所定の方法で定めた出力先(例えばここでは各コントローラ20a,b,c)に出力する。
 このときコントローラ20b,cの送出した音声信号は情報処理装置10の音声入力制御部15の動作により破棄される。これにより、各コントローラ20a,b,cで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。
 またここでユーザCが、ヘッドセット40を装着し、ヘッドセット40のユーザとして情報処理装置10の認証を受けると(図4(b))、情報処理装置10は、新たな装置の認証を行ったことを契機として、再度、上記規則に従って、情報処理装置10に接続されているコントローラ20a,b,c、及びユーザCの利用するヘッドセット40を対象装置として、これら対象装置ごとのミキシングの音量を定める。
 ここでヘッドセット40は広集音装置でないものとすると、ここでは情報処理装置10は、上記所定の規則に基づき、まずユーザCについてはヘッドセット40のミキシングの音量を出力値とする。また、他のユーザA,Bについては、例えば最初に接続されたコントローラ20(ユーザAのコントローラ20aとする)のミキシングの音量を出力値、それ以外の対象装置(ユーザBのコントローラ20b)から受信する音声信号のミキシングの音量を遮断値とする。
 このときには、ユーザCの発声した声はヘッドセット40によって集音される。そしてユーザAが使用しているコントローラ20aが集音して情報処理装置10へ送出した音声信号と、このヘッドセット40が送出した音声信号とミキシングされて、アプリケーションの処理に供されることとなる。
 このときコントローラ20b,cの送出した音声信号は情報処理装置10の音声入力制御部15の動作により破棄される。これにより、各コントローラ20a,b,cで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。なお、ヘッドセット40は比較的指向性が強いため、ヘッドセット40が出力する音声信号に含まれるユーザAの音声は十分小さいものとなる。このため、ヘッドセット40が集音して得た音声信号がコントローラ20aが送出した音声信号とミキシングされても音声がこもってしまったり、エコーが生じてしまうことはない。
 さらにここでユーザBがコントローラ20bを操作して、音声信号の入力を要求する操作を行うと、当該操作の内容を表す情報が情報処理装置10に伝達される。情報処理装置10では、当該要求を受けて、ユーザCについてはヘッドセット40のミキシングの音量を出力値のままとし、ここで音声信号の入力を要求したコントローラ20bのミキシングの音量を出力値、それ以外の対象装置(ユーザAのコントローラ20a)から受信する音声信号のミキシングの音量を遮断値とする。
 このとき、コントローラ20a,cの送出した音声信号は情報処理装置10の音声入力制御部15の動作により破棄される。これにより、各コントローラ20a,b,cで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。
 またこのチャットアプリケーションの処理を行う情報処理装置10は、チャットの相手先から受信した音声信号を、各コントローラ20に出力して、各コントローラ20にて音声を鳴動させる。
[ミュート]
 また本実施の形態の一例では、いずれかのユーザがコントローラ20を操作してミュートの指示を行うと、音声入力デバイスを備える各装置(割り込み装置を除く)からの音声信号がミュートされる。つまり本実施の形態の一例では、いずれかのコントローラ20等からミュートの指示が行われると、すべての音声入力が遮断される。
 具体的にユーザA,B,Cのいずれかのユーザが自己の操作するコントローラ20を操作してミュートの指示を行うと、当該ミュートの操作が行われたことを表す操作情報が情報処理装置10に送出される。
 情報処理装置10では、コントローラ20からミュートをするべき旨の操作情報を受け入れて、音声入力制御部15に対してミュートの指示を出力する。このときには、音声入力制御部15のミキサ部151がどのような音量の設定で、各装置が送出する音声信号をミキシングしていたとしても、ミュート部152が、ミキサ部151が出力する音声信号を出力しない(ミュートする)よう制御する。
 これにより、ユーザの一つの操作によって、全体的にミュートが行われることとなり、装置ごとにミュートを設定する手間がなく、ミュートの操作性が向上する。
 またミュートの指示の内容によっては(例えばミュートを指示するためのボタンを長押しするなどした場合は)、制御部11は、出力制御部14の処理として、音声信号を出力しないよう制御してもよい(全ミュート)。このようにすると、テレビやヘッドセット、コントローラ20からの音声出力も停止される。
[音声入力デバイスを備える周辺装置側でのミュート]
 またここで、コントローラ20等、音声入力デバイスを備える周辺装置側で音声信号の送出をするか否かを制御可能な場合は、情報処理装置10は、いずれかのユーザがコントローラ20を操作してミュートの指示を行ったときには、このような装置に対して、音声信号の送出を停止するよう指示してもよい。
[出力モード]
 さらに本実施の形態では音声入力制御部15から音声信号の入力を受けた制御部11は、通常は当該入力された音声信号を、制御部11にて実行中の任意のアプリケーションで利用可能なように制御する。以下では、この制御を行う制御部11の動作モードを、便宜的に共有モードと呼ぶ。しかしながら本実施の形態のある例では、入力された音声信号を、特定のアプリケーションにのみ利用させることが好適な場合もある。
 具体的には、割り込み装置(ここでの例ではチャットコントローラ30)からの音声信号については特定のアプリケーションにのみ利用させることとしてもよい。
 また、アプリケーションが音声入力を求めているのに、ミュートされた状態にあると、音声入力ができないので、アプリケーション側からの要求により一時的にミュートを解除可能な状態としたときには、当該一時的にミュートを解除した状態で入力される音声信号については、専ら当該要求したアプリケーションに対して音声信号を出力すべきである。
 そこで制御部11は、一つのアプリケーションの処理において、音声入力の必要が生じると、音声入力が要求されている旨の表示をモニタ等に出力し、また、このアプリケーションを特定する情報(アプリケーション名でよい)を一時的に保持する。
 ここでユーザがコントローラ20にて所定のアンミュートの操作を行うと、制御部11は当該操作が為されたことを検出して、音声入力制御部15のミキサ部151に対して、当該操作が行われたコントローラ20のミキシング音量を最大とする(他のコントローラ20等についてはミキシング音量を遮断値とする)。なお、複数のコントローラ20にてアンミュートの操作が行われたときには、最も早くアンミュートの操作が行われたコントローラ20についてのみミキシング音量を最大としてもよい。
 そして制御部11は、次にユーザがコントローラ20にてミュートの操作を行うまでの間、あるいは所定の時間が経過するまでの間にコントローラ20から受信した音声信号を、先に一時的に保持した情報で特定されるアプリケーションの処理に供する(一時アンミュート)。この音声信号については、当該情報で特定されるアプリケーション以外の、他のアプリケーションに対しては利用不能に設定する。この設定を行ったときの制御部11の動作モードを、便宜的に排他モードと呼ぶ。
 このような排他モードの制御については、入力される情報を特定のアプリケーションのみの処理に供するための広く知られたオペレーティングシステムの動作と同様であるので、ここでの詳しい説明は省略する。
[ミュート状態等の表示]
 次に、表示処理部114による表示制御信号の例について説明する。本実施の形態の一例では、制御部11は、
(1)ミュートしていない状態では表示部24のLEDを消灯させる表示制御信号、
(2)ミュートしている状態では表示部24のLEDを点灯させる表示制御信号、
(3)全ミュートの場合は、表示部24のLEDを点滅させる表示制御信号、
をそれぞれの場合に出力する。
 これによると、ミュートの状態にあるか否かを表す表示制御信号が情報処理装置10から出力され、コントローラ20等が当該表示制御信号に応じて表示部24の表示を変化させて(消灯、点灯、点滅などと変化させることによって)、ミュートの状態にあるか否かを明示するので、ユーザは音声入力が可能な状態にあるか否かがわかりやすい。
 さらに本実施の形態では、制御部11は、
(4)ミキシング音量を遮断値としているデバイスに対しては、表示部24のLEDを全ミュートの場合とは区別可能な態様で点滅させる表示制御信号を出力してもよい。
 ここで区別可能な態様としては、点滅の周期を、全ミュートの場合に比べて長くするなどといったものでよい。これによると、他者が音声入力を行っている場合など、自分が所持するコントローラ20を介して音声入力ができない場合を明示できる。
 またここでは表示部24のLEDを制御するものとしたが、表示部24を例えば液晶表示部として、液晶表示部のバックライトの色や、表示内容を変更することでユーザに状態を通知することとしてもよい。
 1 情報処理システム、10 情報処理装置、11 制御部、12 記憶部、13 操作制御部、14 出力制御部、15 音声入力制御部、16 通信部、20 コントローラ、21 操作部、22 マイク、23 通信部、24 表示部、25 音声出力部、30 チャットコントローラ、31 操作部、32 マイク、33 通信部、34 表示部、40 ヘッドセット、50 ヘッドマウントディスプレイ、111 音声入力処理部、112 ミュート処理部、113 割り込み処理部、114 表示処理部、151 ミキサ部、152 ミュート部、153 スイッチ部、154 出力部。

 

Claims (7)

  1.  ユーザが装着、あるいは把持して用いられ、それぞれが周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備える複数の周辺装置に接続される情報処理装置であって、
     前記情報処理装置は、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、
     前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、
     前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、
    を有する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記選択手段は、
     ユーザの使用する周辺装置が、当該ユーザ以外の音声を集音しにくい周辺装置として予め定められた周辺装置であるときには、当該周辺装置を選択し、
     当該ユーザ以外の音声を集音しにくい周辺装置として予め定められた周辺装置でないユーザが使用する周辺装置については、当該周辺装置のうち一つを選択する
    情報処理装置。
  3.  請求項1または2に記載の情報処理装置であって、
     さらに、前記周辺装置のうち、出力する音声信号が遮断される周辺装置に対し、当該周辺装置を介した音声入力ができない状態にあることを表す表示を行うよう、表示制御信号を出力する情報処理装置。
  4.  請求項1から3のいずれか一項に記載の情報処理装置であって、
     前記出力された、前記選択手段により選択された音声信号が、チャットアプリケーションの処理に供される情報処理装置。
  5.  ユーザが装着、あるいは把持して用いる周辺装置と、情報処理装置とを含む情報処理システムであって、
     前記周辺装置の少なくとも一つは、周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備え、
     前記情報処理装置は、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、
     前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、
     前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、
     を含む情報処理システム。
  6.  ユーザが装着、あるいは把持して用いられ、それぞれが周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備える複数の周辺装置に接続される情報処理装置の制御方法であって、
     前記情報処理装置において、音声信号を受け入れる手段が、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる工程と、
     選択手段が、前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する工程と、
     音声信号の出力を制御する手段が、前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する工程と、
    を実行する情報処理装置の制御方法。
  7.  ユーザが装着、あるいは把持して用いられ、周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備える複数の周辺装置に接続される情報処理装置を、
     ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、
     前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、
     前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、
    として機能させるプログラム。

     
PCT/JP2020/016480 2019-04-26 2020-04-14 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム WO2020218094A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080029786.3A CN113710334B (zh) 2019-04-26 2020-04-14 信息处理系统、信息处理装置、信息处理装置的控制方法,以及程序
US17/602,857 US20220161128A1 (en) 2019-04-26 2020-04-14 Information processing system, information processing apparatus, control method for information processing apparatus, and program
EP20795790.3A EP3960259A4 (en) 2019-04-26 2020-04-14 INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE CONTROL METHOD, AND PROGRAM
JP2021516024A JP7170851B2 (ja) 2019-04-26 2020-04-14 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-086343 2019-04-26
JP2019086343 2019-04-26

Publications (1)

Publication Number Publication Date
WO2020218094A1 true WO2020218094A1 (ja) 2020-10-29

Family

ID=72941893

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/016480 WO2020218094A1 (ja) 2019-04-26 2020-04-14 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム

Country Status (5)

Country Link
US (1) US20220161128A1 (ja)
EP (1) EP3960259A4 (ja)
JP (1) JP7170851B2 (ja)
CN (1) CN113710334B (ja)
WO (1) WO2020218094A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016511594A (ja) * 2013-02-26 2016-04-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 音声信号を発生するための方法及び装置
JP2017047784A (ja) * 2015-09-02 2017-03-09 アルパイン株式会社 音声入力装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4202640B2 (ja) * 2001-12-25 2008-12-24 株式会社東芝 短距離無線通信用ヘッドセット、これを用いたコミュニケーションシステム、および短距離無線通信における音響処理方法
US7904188B2 (en) * 2004-10-26 2011-03-08 Panasonic Corporation Information outputting device, information output controlling method, and information output controlling program
CN101179693B (zh) * 2007-09-26 2011-02-02 深圳市迪威视讯股份有限公司 一种会议电视系统的混音处理方法
CN103917947B (zh) * 2011-11-09 2017-09-22 索尼电脑娱乐公司 信息处理装置、信息处理方法、程序和信息存储介质
US20150249736A1 (en) * 2014-02-28 2015-09-03 Plantronics, Inc. Notification of Muting During Voice Activity for Multiple Muters
WO2016047902A1 (ko) * 2014-09-23 2016-03-31 엘지전자 주식회사 이동 단말기 및 그 제어 방법
EP3285497B1 (en) * 2015-04-17 2021-10-27 Sony Group Corporation Signal processing device and signal processing method
CN108369476B (zh) * 2015-12-11 2021-12-28 索尼公司 信息处理设备、信息处理方法和计算机可读介质
US20170351476A1 (en) * 2016-06-03 2017-12-07 Avaya Inc. Create private interaction workspace

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016511594A (ja) * 2013-02-26 2016-04-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 音声信号を発生するための方法及び装置
JP2017047784A (ja) * 2015-09-02 2017-03-09 アルパイン株式会社 音声入力装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3960259A4 *

Also Published As

Publication number Publication date
JP7170851B2 (ja) 2022-11-14
EP3960259A4 (en) 2023-05-17
EP3960259A1 (en) 2022-03-02
CN113710334B (zh) 2024-06-18
CN113710334A (zh) 2021-11-26
JPWO2020218094A1 (ja) 2021-11-11
US20220161128A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
US8064972B2 (en) User interface for wireless headset on a gaming console
JP4685397B2 (ja) 現在の音声発話者の視覚的指示
US7931537B2 (en) Voice input in a multimedia console environment
US20030216183A1 (en) Banning verbal communication to and from a selected party in a game playing system
US10773165B2 (en) Gaming peripheral with intelligent audio control
WO2020218094A1 (ja) 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
WO2020218095A1 (ja) 情報処理システム、コントローラ、情報処理装置、情報処理装置の制御方法、及びプログラム
WO2020218096A1 (ja) 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
US20220406287A1 (en) Audio cancellation system and method
EP4105929A1 (en) Audio cancellation system and method
WO2019220758A1 (ja) 情報処理装置
JP2022063332A (ja) コントローラ装置、及びその制御方法
WO2022263861A1 (en) Transfer function generation system and method
US11524224B2 (en) Operating device
US11985494B2 (en) Apparatus for providing audio data to multiple audio logical devices
US20090103761A1 (en) Removable microphone
US20240135912A1 (en) Audio cancellation system and method
TW201907995A (zh) 遊戲控制器以及遊戲控制系統
US10904716B1 (en) Wireless audio and communication system
WO2022215025A1 (en) Apparatus for providing audio data to multiple audio logical devices
JP2024036087A (ja) 会議システム、サーバ、音声出力方法及びユーザ端末
JP2023097781A (ja) 音声処理システム及び音声処理方法
JP2024062812A (ja) プログラム、および仮想空間制御装置
JP2004236162A (ja) 電子機器および同機器のエラー報知方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20795790

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021516024

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020795790

Country of ref document: EP

Effective date: 20211126