WO2020218096A1 - 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム - Google Patents

情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム Download PDF

Info

Publication number
WO2020218096A1
WO2020218096A1 PCT/JP2020/016482 JP2020016482W WO2020218096A1 WO 2020218096 A1 WO2020218096 A1 WO 2020218096A1 JP 2020016482 W JP2020016482 W JP 2020016482W WO 2020218096 A1 WO2020218096 A1 WO 2020218096A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
audio signal
voice
unit
peripheral device
Prior art date
Application number
PCT/JP2020/016482
Other languages
English (en)
French (fr)
Inventor
徹 小木曽
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to JP2021516026A priority Critical patent/JP7189334B2/ja
Priority to EP20794447.1A priority patent/EP3961370A4/en
Priority to CN202080029825.XA priority patent/CN113711178A/zh
Priority to US17/602,870 priority patent/US11880633B2/en
Publication of WO2020218096A1 publication Critical patent/WO2020218096A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Definitions

  • the present invention relates to an information processing system, an information processing device, a control method of the information processing device, and a program.
  • Peripheral devices connected to information processing devices such as mobile phones, tablet terminals, personal computers, and home-use game machines are equipped with voice input devices such as microphones, and voice signals obtained by collecting sounds from the voice input devices. Is output to the information processing device.
  • mute processing is performed so that the voice signal is not processed. Is preferable.
  • the present invention has been made in view of the above circumstances, and one of its purposes is to provide an information processing system, an information processing device, a control method of the information processing device, and a program capable of improving the convenience of mute control. To do.
  • One aspect of the present invention that solves the problems of the conventional example is an information processing system including a peripheral device and an information processing device, and the peripheral device is a voice input that outputs a voice signal representing surrounding voice.
  • the information processing device includes means for receiving a voice signal output by the peripheral device and mute control means for blocking the voice signal received from the peripheral device, and the peripheral device provides the means.
  • the mute control means is made to accept the voice signal received from the peripheral device, and the predetermined application is received. It is decided to control so that it is used only for the processing of.
  • the convenience of mute control can be improved.
  • the information processing system 1 includes an information processing device 10 such as a home-use game machine or a PC, and a controller 20.
  • the information processing system 1 may further include a peripheral device including a voice input device such as a chat controller 30, a headset 40, or a head-mounted display 50, and may be connected to the information processing device 10.
  • the information processing device 10 includes a control unit 11, a storage unit 12, an operation control unit 13, an output control unit 14, a voice input control unit 15, and a communication unit 16. It is composed. Further, the controller 20 includes an operation unit 21, a microphone 22, a communication unit 23, a display unit 24, and an audio output unit 25. Further, the chat controller 30 includes an operation unit 31, a microphone 32, a communication unit 33, and a display unit 34.
  • the control unit 11 of the information processing device 10 is a program control device such as a CPU, and operates according to a program stored in the storage unit 12. In the present embodiment, it is assumed that the control unit 11 executes a plurality of application programs in parallel (so-called multitasking processing).
  • the control unit 11 executes various application programs such as a game application and a chat application for exchanging voice signals via a network. Further, the control unit 11 executes a system program, and as a process of the system program, executes a process of authenticating a user who uses the device for each device such as the controller 20 and the headset 40, and the controller. Information that identifies a user (for example, a user name) is associated and stored for each information that identifies each device, such as 20.
  • control unit 11 receives the operation information input from the operation control unit 13 together with the information specifying the controller 20, the control unit 11 selects the application to which the operation information is output from the running applications. For example, when the game application is running, in principle, the game application is selected, and the predetermined operation information is exceptionally processed by the system.
  • the conditions for selecting the output destination here are set in advance. It may be selected according to the conditions.
  • the control unit 11 executes processing using the information specifying the controller 20 and the operation information input from the operation control unit 13 as the processing of the application or system to which the operation information is output. Further, the control unit 11 determines the mixing volume of each audio signal when mixing each of the audio information received from the plurality of devices. The operation of these control units 11 will be described later.
  • the storage unit 12 is a memory device, a hard disk drive, or the like, and holds a program executed by the control unit 11.
  • the storage unit 12 also operates as a work memory of the control unit 11.
  • the operation control unit 13 is wirelessly or wiredly connected to the controller 20, receives operation information representing the content of the operation performed by the user on the controller 20 from the controller 20, and receives the operation information of the operation information. It is output to the control unit 11 together with the information that identifies the controller 20 that is the receiving source.
  • the operation control unit 13 sends a display control signal or the like to the instructed controller 20 in accordance with the instruction input from the control unit 11.
  • the output control unit 14 is connected to a display device such as a home television, a monitor, or a head-mounted display 50, and outputs signals such as audio and video to these display devices according to an instruction input from the control unit 11. Further, the output control unit 14 may output the video and audio signals to different devices. For example, the video may be output to the monitor, and the audio signal may be output to the controller 20 or the headset 40.
  • the voice input control unit 15 receives a voice signal from a peripheral device including a voice input device such as a controller 20, a chat controller 30, a headset 40, and a head-mounted display 50. Further, as illustrated in FIG. 2, the audio input control unit 15 is configured to include a mixer unit 151, a mute unit 152, a switch unit 153, and an output unit 154, and among the received audio signals in advance.
  • the mixer unit 151 synthesizes an audio signal input from a device other than the specified device (for example, the chat controller 30).
  • the mixer unit 151 determines the volume for each audio signal received from each device such as the controller 20, the headset 40, and the head-mounted display 50, and transmits the audio signal received from each device at the determined volume. It is done by synthesizing. In an example of this embodiment, the mixer unit 151 determines the volume of the audio signal received from each device according to an instruction input from the control unit 11.
  • the mixer unit 151 when the control unit 11 sets the volume of the audio signal from the headset 40 to "255" and the other volume to "0", the mixer unit 151 also functions as a selection means. In this example, the mixer unit 151 selectively outputs the audio signal from only the headset 40. In this case, even if there is an audio signal received from the controller 20 other than the headset 40, the head-mounted display 50, or the like, it is not included in the output of the mixer unit 151.
  • a plurality of controllers 20 may be connected to the information processing device 10. Also in this case, the mixer unit 151 determines the volume of the audio signal received from each controller 20 according to the instruction input from the control unit 11. For example, an instruction to set the volume of the audio signal received from the controller 20a used by the user A to "255" and the volume of the audio signal received from the controllers 20b and c used by the other users B and C to "0" is the control unit. When input from 11, the mixer unit 151 selectively outputs the audio signal received from the controller 20a.
  • the mute unit 152 switches whether to output the audio signal output by the mixer unit 151 as it is or not to output (mute) according to an instruction input from the control unit 11.
  • the mute unit 152 outputs the audio signal output by the mixer unit 151 as it is.
  • the mute unit 152 discards (mutes) the audio signal output by the mixer unit 151 without outputting it to the switch unit 153.
  • the switch unit 153 receives an audio signal from a device that has not been input to the mixer unit 151 (hereinafter, referred to as an interrupt audio signal.
  • the audio signal is received from the chat controller 30. Accepts input from (audio signal).
  • the switch unit 153 accepts the input of the audio signal.
  • the switch unit 153 selects and outputs either the audio signal (if any) received from the mute unit 152 or the interrupt audio signal (if any) according to an instruction input from the control unit 11.
  • the output unit 154 outputs the audio signal output by the switch unit 153 to the control unit 11.
  • the voice input control unit 15 receives the voice signal from each peripheral device provided with the voice input device, mixes it, or selects and outputs one of them, and the control unit 11 To be used for processing.
  • the communication unit 16 is a network interface or the like, and transmits various information via the network according to an instruction input from the control unit 11. Further, the communication unit 16 outputs the information received via the network to the control unit 11.
  • the operation unit 21 of the controller 20 includes buttons, a joystick, and the like, accepts the user's operation, and outputs operation information representing the content of the operation performed by the user to the communication unit 23. Further, the microphone 22 collects surrounding sounds and outputs a digital voice signal representing the collected sounds. Further, in the present embodiment, the operation unit 21 may be provided with a button for outputting an instruction to switch the mute state to the information processing device 10.
  • the communication unit 23 is, for example, a wireless communication means such as Bluetooth (registered trademark), and sends information (operation information) representing the content of the operation performed by the user in the operation unit 21 to the information processing device 10. Further, the communication unit 23 outputs the audio signal output by the microphone 22 to the information processing device 10. Further, the communication unit 23 outputs the display control signal output by the information processing device 10 to the display unit 24. Further, when the communication unit 23 receives the voice signal from the information processing device 10, the communication unit 23 outputs the received voice signal to the voice output unit 25.
  • a wireless communication means such as Bluetooth (registered trademark)
  • information operation information representing the content of the operation performed by the user in the operation unit 21
  • the communication unit 23 outputs the audio signal output by the microphone 22 to the information processing device 10. Further, the communication unit 23 outputs the display control signal output by the information processing device 10 to the display unit 24. Further, when the communication unit 23 receives the voice signal from the information processing device 10, the communication unit 23 outputs the received voice signal to the voice output unit 25.
  • the display unit 24 includes, for example, an LED or the like.
  • the display unit 24 receives an input of a display control signal from the communication unit 23 and turns on or off the LED.
  • the audio output unit 25 is a device provided with an oscillator such as a speaker, and sounds an audio based on an audio signal received from the information processing apparatus 10.
  • the chat controller 30 is a so-called push-to-talk device (PTT device) that accepts and outputs voice input only while the user is instructing voice input, and its operation unit 31 includes, for example, a button. .. Further, the microphone 32 collects surrounding sounds, converts them into voice signals, and outputs the sounds.
  • PTT device push-to-talk device
  • the communication unit 33 is, for example, a wireless communication means such as Bluetooth (registered trademark), and outputs an audio signal output by the microphone 32 to the information processing device 10 while the user presses a button on the operation unit 31. .. Further, when the user does not press the button of the operation unit 31, the communication unit 33 discards the audio signal output by the microphone 32 without outputting it to the information processing device 10. Further, the communication unit 33 outputs the display control signal output by the information processing device 10 to the display unit 34.
  • a wireless communication means such as Bluetooth (registered trademark)
  • the display unit 34 includes, for example, an LED or the like.
  • the display unit 34 receives an input of a display control signal from the communication unit 33 and turns on or off the LED.
  • the operation of the chat controller 30 will also be described later.
  • the headset 40 includes, for example, headphones, a microphone, and the like.
  • the headset 40 rings the speaker based on the voice signal output by the information processing device 10. Further, the headset 40 sends an audio signal collected by the microphone to the information processing device 10.
  • the head-mounted display 50 includes a display, a speaker, and a microphone.
  • the head-mounted display 50 receives a video signal or an audio signal output by the information processing device 10, displays the video on the display, and makes the speaker ring. Further, the head-mounted display 50 sends an audio signal collected by a microphone to the information processing device 10.
  • control unit 11 functionally includes a voice input processing unit 111, a mute processing unit 112, an interrupt processing unit 113, and a display processing unit, as illustrated in FIG. 3 as system processing. Includes 114 and.
  • control unit 11 defines one of the devices provided with the voice input device connected to the information processing device 10 as an interrupt device.
  • the voice input processing unit 111 performs the following processing on a device provided with a voice input device (when an interrupt device is defined, the interrupt device is excluded).
  • the voice input processing unit 111 determines the mixing volume for each target device connected to the information processing device 10 according to a predetermined rule.
  • This predetermined rule can be, for example, as follows. That is, the control unit 11 determines the priority for each target device in advance, and among the connected devices, the mixing volume of the audio signal received from the target device having the highest priority is greater than the predetermined 0. It is a value (not including 0). This value may be set to, for example, the maximum value or a different value for each target device depending on the type of the target device. Hereinafter, a value larger than 0 is referred to as an output value.
  • the mixing volume of the audio signal received from the target device other than the target device having the highest priority is set as the lowest value.
  • This minimum value may be, for example, a value representing the volume "0". This minimum value is referred to as a cutoff value below.
  • control unit 11 blocks the mixing volume of the audio signal received from the target device for the target device selected by the user at a predetermined output value, and the mixing volume of the audio signal received from the other target device. It may be a value.
  • the rules here may be as follows. That is, (1) As a general rule, one target device is selected for each user. (2) If the target device selected for each user is a target device that is predetermined to include a voice input device that makes it difficult to collect sounds other than the user's voice, the mixing volume of the target device is used as the output value. To do. (3) When the target device selected for each user is not a target device predetermined as having a voice input device that makes it difficult to collect sounds other than the user's voice (here, referred to as a wide sound collecting device for convenience).
  • the mixing volume of the selected target device for the selected user is used as the output value.
  • the mixing volume of the target device for which the mixing volume is not set as the output value in (2) and (3) is set as the blocking value.
  • the audio signal collected by the headset 40 can be used for processing as an application.
  • the controller 20 or the like which is a wide sound collecting device, which has a relatively weak microphone directionalness, as a voice input device
  • one user among the users who use the controller 20 as a voice input device operates. Only the voice signal collected by the controller 20 will be used in the processing as an application.
  • the mixing volume of the wide sound collecting device such as the controller 20 of the user is output.
  • the value is used, and the mixing volume of other wide sound collectors is used as the cutoff value.
  • the mute processing unit 112 holds mute state information indicating the current mute state.
  • the mute state information is initially set to a predetermined state (for example, an unmuted (unmuted) state.
  • the mute processing unit 112 sets the mute state as operation information received from the controller 20 operated by the user.
  • the operation information to switch is accepted (that is, when a mute instruction is received from the user, for example)
  • the mute state information is switched. That is, when the mute state information indicates an unmuted state, this is performed.
  • the mute processing unit 112 that has received the operation information sets the mute state information to indicate that it is in the muted state.
  • the mute processing unit 112 sets the mute state information to indicate that it is in the unmuted state, and when the mute processing unit 112 sets the mute state information to indicate that it is in the mute state, the voice is set.
  • a mute instruction is output to the input control unit 15.
  • the interrupt processing unit 113 outputs an instruction to select a voice signal received from the interrupt device to the voice input control unit 15 in accordance with an instruction input from a predetermined interrupt device (for example, an instruction requesting selection). May be good.
  • a predetermined interrupt device for example, an instruction requesting selection.
  • the control unit 11 gives an instruction to the voice input control unit 15 to select a voice signal received from a device other than the interrupt device. Output.
  • the display processing unit 114 outputs a display control signal to each device in response to the instructions output by the voice input processing unit 111, the mute processing unit 112, and the interrupt processing unit 113 in order to indicate the input state of the voice signal. .. A specific example of this display control signal will be described later.
  • the information processing system 1 of the present embodiment basically has the above-mentioned configuration, and operates as follows.
  • FIG. 4A an example (FIG. 4A) in which one information processing device 10 is shared by three users A, B, and C to play a game will be described.
  • each user A, B, C shall operate with their respective controllers 20a, b, c. That is, the information processing device 10 initially authenticates the user who operates each controller 20, associates it with the information that identifies each controller, and records the information that identifies the authenticated user. Further, it is assumed that the chat controller 30 as an interrupt device is connected to the information processing device 10.
  • the information processing apparatus 10 shall comply with the following rules as predetermined rules: (1) As a general rule, one target device is selected for each user. (2) If the target device selected for each user is a target device that is predetermined to include a voice input device that makes it difficult to collect sounds other than the user's voice, the mixing volume of the target device is output (2). In FIG. 4, it is referred to as “255”). (3) When the target device selected for each user is not a target device predetermined as having a voice input device that makes it difficult to collect sounds other than the user's voice (here, referred to as a wide sound collecting device for convenience).
  • the mixing volume of the selected target device for the selected user is used as the output value.
  • the mixing volume of the target device for which the mixing volume is not set as the output value in (2) and (3) is set as the blocking value.
  • the information processing device 10 determines the mixing volume for each of the target devices, with the controllers 20a, b, and c connected to the information processing device 10 as the target devices, in accordance with this rule.
  • the controller 20 is a wide sound collecting device.
  • the information processing device 10 receives, for example, the mixing volume of the first connected controller 20 (referred to as the controller 20a of the user A) from the output value and other target devices based on the above-mentioned predetermined rule.
  • the cutoff value is the mixing volume of the audio signal.
  • the voice signal collected by the controller 20a used by the user A and sent to the information processing device 10 is used for application processing.
  • the information processing device 10 will send a voice signal collected by the controller 20a and sent to the information processing device 10 to the chat partner. Further, the audio signal received from the other party is output to an output destination (for example, here, each controller 20a, b, c) determined by a predetermined method.
  • an output destination for example, here, each controller 20a, b, c
  • the voice signals transmitted by the controllers 20b and c are discarded by the operation of the voice input control unit 15 of the information processing device 10.
  • the sounds collected by the controllers 20a, b, and c are mixed, and it is possible to prevent the sound from being muffled or echoing.
  • the information processing device 10 authenticates the new device. Taking this as an opportunity, again according to the above rules, the controllers 20a, b, c connected to the information processing device 10 and the headset 40 used by the user C are set as the target devices, and the mixing volume of each of these target devices is set. To determine.
  • the information processing device 10 first sets the mixing volume of the headset 40 as the output value for the user C based on the above-mentioned predetermined rule.
  • the mixing volume of the first connected controller 20 (referred to as the controller 20a of the user A) is received from the output value and the other target devices (controller 20b of the user B).
  • the volume of mixing of the audio signal to be used is set as the cutoff value.
  • the voice uttered by user C is collected by the headset 40. Then, the audio signal collected by the controller 20a used by the user A and transmitted to the information processing device 10 and the audio signal transmitted by the headset 40 are mixed and used for application processing. ..
  • the voice signals transmitted by the controllers 20b and c are discarded by the operation of the voice input control unit 15 of the information processing device 10.
  • the sounds collected by the controllers 20a, b, and c are mixed, and it is possible to prevent the sound from being muffled or echoing.
  • the headset 40 has a relatively strong directivity, the voice of the user A included in the voice signal output by the headset 40 is sufficiently small. Therefore, even if the audio signal obtained by collecting the sound of the headset 40 is mixed with the audio signal transmitted by the controller 20a, the audio is not muffled or echo is not generated.
  • the information processing device 10 keeps the mixing volume of the headset 40 as the output value for the user C, and sets the mixing volume of the controller 20b that requests the input of the audio signal as the output value.
  • the mixing volume of the audio signal received from the target device (controller 20a of the user A) other than the above is set as the cutoff value.
  • the voice signals transmitted by the controllers 20a and 20c are discarded by the operation of the voice input control unit 15 of the information processing device 10.
  • the sounds collected by the controllers 20a, b, and c are mixed, and it is possible to prevent the sound from being muffled or echoing.
  • the information processing device 10 that processes this chat application outputs a voice signal received from the chat partner to each controller 20, and each controller 20 sounds the voice.
  • mute state information is muted.
  • the audio signal from each device (excluding the interrupt device) equipped with the audio input device is muted. That is, in one example of the present embodiment, when a mute instruction is given from any of the controllers 20 and the like, all voice inputs are blocked.
  • operation information indicating that the mute switching instruction has been performed is displayed. It is sent to the information processing device 10.
  • the information processing device 10 receives the operation information that the mute state should be switched from the controller 20, and switches the mute state information (information indicating whether or not to mute) at the time when the operation information is received. That is, when the mute state information represents the unmuted state at this point, the information processing device 10 that has received this operation information is set to indicate that the mute state information is in the muted state. A mute instruction is output to the voice input control unit 15.
  • the mute processing unit 112 that has received this operation information sets the mute state information to indicate that it is in the unmuted state. , Outputs an instruction to not mute (instruction to release mute) to the voice input control unit 15.
  • the mute unit 152 mixes the audio signals transmitted by each device regardless of the volume setting of the mixer unit 151. Control is performed so that the audio signal output by unit 151 is not output (muted).
  • the mute unit 152 When the instruction not to mute is output, the mute unit 152 outputs the audio signal output by the mixer unit 151 as it is.
  • mute switching is performed as a whole by one operation of the user, and there is no need to set mute for each device, and mute operability is improved.
  • the control unit 11 does not output an audio signal as a process of the output control unit 14. May be controlled (all mute). In this way, the audio output from the television, the headset, and the controller 20 is also stopped.
  • any user of the information processing device 10 operates the controller 20.
  • mute is performed by instructing to switch the mute state, such a device may be instructed to stop transmitting an audio signal.
  • the peripheral device controls to mute (stop the transmission of the audio signal) in this way, the information processing device 10 is temporarily unmuted as in the following example. Peripheral devices for inputting audio signals are instructed to resume transmission of audio signals.
  • control unit 11 that receives the input of the voice signal from the voice input control unit 15 can normally use the input voice signal in any application being executed by the control unit 11.
  • the operation mode of the control unit 11 that performs this control is referred to as a shared mode for convenience.
  • the information processing apparatus 10 outputs the audio signal that is input in the temporarily unmuted state only to the application that has requested the release of the mute.
  • control unit 11 when a voice input is required in the processing of one application, the control unit 11 outputs a display indicating that the voice input is requested to a monitor or the like, and also provides information for identifying this application (with an application name). Good) is temporarily held.
  • the control unit 11 detects that the operation has been performed, and the mixer unit of the voice input control unit 15.
  • the mixing volume of the controller 20 in which the operation is performed is set as an output value (for example, the maximum) (for other controllers 20 and the like, the mixing volume is set as a cutoff value).
  • the mixing volume may be set to the output value (for example, the maximum) only for the controller 20 in which the unmute operation is performed earliest.
  • control unit 11 receives an audio signal received from the controller 20 until the user next performs a mute operation (operation for switching the mute state) on the controller 20 or until a predetermined time elapses. , Used for processing the application specified by the information temporarily held earlier (temporary unmute). This audio signal is set so that it cannot be used for other applications other than the application specified by the information.
  • the operation mode of the control unit 11 when this setting is made is called an exclusive mode for convenience.
  • the information processing device 10 returns to the operation of controlling the mute unit 152 based on the mute state information.
  • the information processing device 10 while an application that requires voice input is operating, it is possible to output voice information only to the application even if a mute instruction is given.
  • the voice signal from the interrupt device may be used only by a specific application.
  • the information processing device 10 accepts a setting in which information for specifying an interrupt device and information for specifying an application that uses an audio signal received from the interrupt device are associated with each other in advance. That is, in this example, the device provided with the voice input device recorded in this setting is identified as the interrupt device.
  • chat controller 30 When the user operates the interrupt device (chat controller 30) to input the voice signal (for example, when the voice signal is input while pressing the button included in the operation unit 31 of the chat controller 30), the chat controller 30 Sends an audio signal to the information processing device 10. At this time, the chat controller 30 transmits information that identifies itself (information that identifies the interrupt device) to the information processing device 10.
  • the voice input control unit 15 of the information processing device 10 that has received the voice signal from the chat controller 30 does not input this voice signal (which becomes an interrupt voice signal) to the mixer unit 151, but inputs it to the switch unit 153, and the control unit 11 Instructs the switch unit 153 and the output unit 154 to output the interrupt voice signal to the control unit 11.
  • the switch unit 153 is arranged closer to the output unit 154 than the mute unit 152, this interrupt audio signal is output to the control unit 11 even in the mute state in the mute unit 152.
  • the control unit 11 refers to the information that identifies the interrupt device transmitted together with the voice signal, and finds the information that identifies the application associated with the information. Then, the control unit 11 starts the application specified by the found information, and causes the application to process the received interrupt voice signal. At this time, other applications are controlled so as to prohibit access to the received interrupt voice signal. Since such processing and control can be realized by various processing of widely known system software, detailed description here will be omitted.
  • the voice signal input while pressing the button of the operation unit 31 is transmitted from the chat controller 30 to the information processing device 10 as an interrupt voice signal, and the information processing device 10 A preset application (for example, a chat application) associated with the chat controller 30 is started to process the interrupt voice signal.
  • a preset application for example, a chat application
  • the control unit 11 (1) A display control signal that turns off the LED of the display unit 24 in a non-muted state (a state in which the mute state information indicates that the mute is unmuted). (2) A display control signal that lights the LED of the display unit 24 in the muted state (the state in which the mute state information indicates that the mute state information is muted).
  • the display unit 24 Display control signal that blinks the LED of Is output in each case.
  • a display control signal indicating whether or not the device is in the mute state is output from the information processing device 10, and the controller 20 or the like changes the display of the display unit 24 according to the display control signal (turns off, lights up). (By changing it to blinking, etc.), it is clearly indicated whether or not it is in the mute state, so that the user can easily understand whether or not it is in the state where voice input is possible.
  • control unit 11 For a device whose mixing volume is set as a cutoff value, a display control signal that blinks the LED of the display unit 24 in a manner distinguishable from the case of full mute may be output.
  • the blinking cycle may be made longer than in the case of full mute. According to this, it is possible to clearly indicate a case where voice input cannot be performed via the controller 20 owned by the user, such as when another person is performing voice input.
  • the display unit 24 is used as a liquid crystal display unit, for example, and the user is notified of the status by changing the color of the backlight of the liquid crystal display unit and the display content. May be.
  • 1 Information processing system 10 Information processing device, 11 Control unit, 12 Storage unit, 13 Operation control unit, 14 Output control unit, 15 Voice input control unit, 16 Communication unit, 20 Controller, 21 Operation unit, 22 Microphone, 23 Communication Unit, 24 display unit, 25 audio output unit, 30 chat controller, 31 operation unit, 32 microphone, 33 communication unit, 34 display unit, 40 headset, 50 head mount display, 111 audio input processing unit, 112 mute processing unit, 113 Interrupt processing unit, 114 display processing unit, 151 mixer unit, 152 mute unit, 153 switch unit, 154 output unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

周囲の音声を表す音声信号を出力する音声入力手段を備える周辺装置に接続される情報処理装置であって、当該周辺装置から受け入れた音声信号を遮断している状態で、予め定めたアプリケーションの処理において音声入力を求める場合は、上記周辺装置から受け入れた音声信号を受け入れ、上記予め定めたアプリケーションの処理にのみ供するよう制御する情報処理装置である。

Description

情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
 本発明は、情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。
 携帯電話機やタブレット端末、パーソナルコンピュータ、家庭用ゲーム機等の情報処理装置に接続される周辺装置には、マイク等の音声入力デバイスを備えて、当該音声入力デバイスが集音して得た音声信号を、情報処理装置に対して出力するものがある。
 しかし音声信号の入力が困難な場合や、音声信号の入力が好ましくない状況(例えば深夜などで音声の発声が憚られる場合など)では、音声信号の処理を行わせないよう、ミュートの処理を行うことが好ましい。
 ところが、このようなミュートの処理を行ってしまうと、アプリケーション側で音声信号の入力が必要な場合まで音声信号の入力が遮断されてしまい利便性が低い。一方で、このような場合は、音声信号の入力が必要なアプリケーションに限って音声信号を出力したい要望もある。
 本発明は上記実情に鑑みて為されたもので、ミュート制御の利便性を向上できる情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラムを提供することを、その目的の一つとする。
 上記従来例の問題点を解決する本発明の一態様は、周辺装置と、情報処理装置とを含む情報処理システムであって、前記周辺装置は、周囲の音声を表す音声信号を出力する音声入力手段を備え、前記情報処理装置は、前記周辺装置が出力する音声信号を受け入れる手段と、前記周辺装置から受け入れた音声信号を遮断するミュート制御手段と、を有し、前記ミュート制御手段により前記周辺装置から受け入れた音声信号を遮断している状態で、予め定めたアプリケーションの処理において音声入力を求める場合は、前記ミュート制御手段を、周辺装置から受け入れた音声信号を受け入れさせ、前記予め定めたアプリケーションの処理にのみ供するよう制御することとしたものである。
 本発明によると、ミュート制御の利便性を向上できる。
本発明の実施の形態に係る情報処理システムの構成例を表すブロック図である。 本発明の実施の形態に係る情報処理装置の音声入力制御部の構成例を表すブロック図である。 本発明の実施の形態に係る情報処理装置の制御部の例を表す機能ブロック図である。 本発明の実施の形態に係る情報処理システムの動作の例を表す説明図である。
 本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理システム1は、図1に例示するように、家庭用ゲーム機やPC等の情報処理装置10と、コントローラ20とを含んで構成される。ここでコントローラ20は複数あってもよい。またこの情報処理システム1には、チャットコントローラ30や、ヘッドセット40、あるいはヘッドマウントディスプレイ50等、音声入力デバイスを備えた周辺装置がさらに含まれ、情報処理装置10に接続されていてもよい。
 情報処理装置10は、図1に例示したように、制御部11と、記憶部12と、操作制御部13と、出力制御部14と、音声入力制御部15と、通信部16とを含んで構成される。またコントローラ20は、操作部21と、マイク22と、通信部23と、表示部24と、音声出力部25とを含む。さらにチャットコントローラ30は、操作部31と、マイク32と、通信部33と、表示部34とを含んでなる。
 情報処理装置10の制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、複数のアプリケーションプログラムを並列的に実行(いわゆるマルチタスキング処理を)しているものとする。
 具体的に情報処理装置10が家庭用ゲーム機である場合、制御部11は、ゲームのアプリケーションや、ネットワークを介して音声信号を授受するチャットアプリケーション等種々のアプリケーションプログラムを実行している。またこの制御部11は、システムプログラムを実行しており、このシステムプログラムの処理として、コントローラ20やヘッドセット40等、装置ごとに、当該装置を利用するユーザを認証する処理を実行して、コントローラ20等、各装置を特定する情報ごとに、ユーザを特定する情報(例えばユーザ名)を関連付けて記憶する。
 そして制御部11は、操作制御部13からコントローラ20を特定する情報とともに操作情報の入力を受けると、実行中のアプリケーションのうちから操作情報の出力先となるアプリケーションを選択する。例えばゲームアプリケーションが起動しているときには、原則としてゲームアプリケーションを選択し、所定の操作情報については例外的にシステムで処理する、などとしてここでの出力先の選択の条件を予め定めておき、当該条件に従って選択すればよい。
 制御部11は、操作情報の出力先のアプリケーションやシステムの処理として、操作制御部13から入力された、コントローラ20を特定する情報と操作情報とを用いた処理を実行する。またこの制御部11は、複数の装置から受信した音声情報の各々をミキシングする際の、各音声信号のミキシングの音量を決定する。これらの制御部11の動作については後に述べる。
 記憶部12は、メモリデバイスやハードディスクドライブ等であり、制御部11によって実行されるプログラムを保持する。またこの記憶部12は制御部11のワークメモリとしても動作する。
 操作制御部13は、コントローラ20との間で無線または有線にて通信可能に接続され、コントローラ20からコントローラ20にてユーザが行った操作の内容を表す操作情報を受信して、当該操作情報の受信元であるコントローラ20を特定する情報とともに制御部11に出力する。
 さらに本実施の形態では、この操作制御部13は、制御部11から入力される指示に従い、表示制御信号等を、指示されたコントローラ20に対して送出する。
 出力制御部14は、家庭用テレビや、モニタ、ヘッドマウントディスプレイ50等の表示デバイスに接続され、制御部11から入力される指示に従って、音声や映像等の信号をこれらの表示デバイスに出力する。またこの出力制御部14は、映像と音声信号とを異なる装置に対して出力してもよい。例えば映像についてはモニタに出力し、音声信号についてはコントローラ20やヘッドセット40に出力するようにしてもよい。
 音声入力制御部15は、コントローラ20やチャットコントローラ30、ヘッドセット40、ヘッドマウントディスプレイ50等、音声入力デバイスを備えた周辺装置から音声信号を受信する。またこの音声入力制御部15は、図2に例示するように、ミキサ部151と、ミュート部152と、スイッチ部153と、出力部154とを含んで構成され、受信した音声信号のうち、予め定められた装置(例えばチャットコントローラ30)以外の装置から入力された音声信号をミキサ部151にて合成する。
 具体的に、このミキサ部151は、コントローラ20やヘッドセット40、ヘッドマウントディスプレイ50等の各装置から受信した音声信号ごとに音量を定めて、当該定めた音量で各装置から受信した音声信号を合成することによって行う。本実施の形態のある例では、このミキサ部151は、制御部11から入力される指示に従って、各装置から受信した音声信号の音量を定める。
 また、例えば制御部11が、ヘッドセット40からの音声信号の音量を「255」、その他の音量を「0」とした場合は、このミキサ部151は選択手段としても機能する。この例では、ミキサ部151は、ヘッドセット40のみからの音声信号を選択的に出力することとなる。そしてこの場合、ヘッドセット40以外のコントローラ20やヘッドマウントディスプレイ50等から受信した音声信号があっても、ミキサ部151の出力には含められない。
 さらに本実施の形態の一例では、この情報処理装置10には複数のコントローラ20が接続されることがあり得る。この場合も、ミキサ部151は、制御部11から入力される指示に従って各コントローラ20から受信した音声信号の音量を定める。例えばユーザAが利用するコントローラ20aから受信した音声信号の音量を「255」、その他のユーザB,Cが利用するコントローラ20b,cから受信した音声信号の音量を「0」とする指示が制御部11から入力された場合、ミキサ部151は、コントローラ20aから受信した音声信号を選択的に出力することとなる。
 ミュート部152は、ミキサ部151が出力する音声信号について、そのまま出力するか、あるいは出力しない(ミュートする)かを、制御部11から入力される指示に従って切り替える。このミュート部152は、制御部11がミュートしない旨の指示を出力しているときには、ミキサ部151が出力する音声信号をそのまま出力する。またこのミュート部152は、制御部11がミュートする旨の指示を出力しているときには、ミキサ部151が出力する音声信号をスイッチ部153に出力せず破棄する(ミュートする)。
 スイッチ部153は、情報処理装置10が受信した音声信号のうち、ミキサ部151に入力されていない装置からの音声信号(以下、割り込み音声信号と呼ぶ。ここでの例ではチャットコントローラ30から受信した音声信号)からの入力を受け入れる。またこのスイッチ部153は、ミュート部152が音声信号を出力するときには、当該音声信号の入力を受け入れる。スイッチ部153は、ミュート部152から受け入れた音声信号(あれば)と、割り込み音声信号(あれば)とのいずれかを、制御部11から入力される指示に従って選択して出力する。
 出力部154は、スイッチ部153が出力する音声信号を、制御部11に出力する。このように本実施の形態の一例に係る音声入力制御部15は、音声入力デバイスを備えた各周辺装置から音声信号を受信し、ミキシングし、あるいはいずれかを選択して出力し、制御部11の処理に供する。
 通信部16は、ネットワークインタフェース等であり、制御部11から入力される指示に従い、ネットワークを介して種々の情報を送信する。またこの通信部16はネットワークを介して受信した情報を制御部11に出力している。
 コントローラ20の操作部21は、ボタンやジョイスティック等を含み、ユーザの操作を受け入れて、当該ユーザが行った操作の内容を表す操作情報を、通信部23に出力する。またマイク22は、周囲の音声を集音し、当該集音した音声を表すディジタルの音声信号を出力している。さらに本実施の形態では、この操作部21には、情報処理装置10に対してミュートの状態を切り替える旨の指示を出力するためのボタンが配されていてもよい。
 通信部23は、例えばブルートゥース(登録商標)等の無線通信手段であり、操作部21にてユーザが行った操作の内容を表す情報(操作情報)を情報処理装置10に送出する。またこの通信部23は、マイク22が出力する音声信号を、情報処理装置10に出力する。またこの通信部23は、情報処理装置10が出力する表示制御信号を表示部24に出力する。さらにこの通信部23は、情報処理装置10から音声信号を受信すると、当該受信した音声信号を音声出力部25に出力する。
 表示部24は、例えばLED等を含む。この表示部24は、通信部23から表示制御信号の入力を受けて、LEDを点灯ないし消灯する。音声出力部25は、スピーカー等の振動子を備えたデバイスであり、情報処理装置10から受信した音声信号に基づいて音声を鳴動する。
 さらにチャットコントローラ30は、ユーザが音声入力を指示している間だけ音声の入力を受け入れて出力する、いわゆるプッシュ・トゥー・トーク装置(PTT装置)であり、その操作部31は、例えばボタンを含む。またマイク32は、周囲の音声を集音して音声信号に変換して出力している。
 通信部33は、例えばブルートゥース(登録商標)等の無線通信手段であり、ユーザが操作部31のボタンを押下している間に、マイク32が出力する音声信号を、情報処理装置10に出力する。またこの通信部33は、ユーザが操作部31のボタンを押下していないときには、マイク32が出力する音声信号を、情報処理装置10に出力することなく破棄する。さらにこの通信部33は、情報処理装置10が出力する表示制御信号を表示部34に出力する。
 表示部34は、例えばLED等を含む。この表示部34は、通信部33から表示制御信号の入力を受けて、LEDを点灯ないし消灯する。このチャットコントローラ30の動作についても後に述べる。
 ヘッドセット40は、例えばヘッドフォンやマイク等を備える。このヘッドセット40は、情報処理装置10が出力する音声信号に基づいてスピーカーを鳴動する。またこのヘッドセット40は、マイクにて集音した音声信号を、情報処理装置10に対して送出する。
 ヘッドマウントディスプレイ50は、ディスプレイとスピーカーとマイクとを含んで構成される。このヘッドマウントディスプレイ50は、情報処理装置10が出力する映像信号や音声信号を受け入れて、ディスプレイに映像を表示し、また、スピーカーを鳴動させる。またこのヘッドマウントディスプレイ50は、マイクにて集音した音声信号を、情報処理装置10に対して送出する。
 ここで情報処理装置10の制御部11の動作について説明する。本実施の形態では、この制御部11は、システムの処理として図3に例示するように、機能的に、音声入力処理部111と、ミュート処理部112と、割り込み処理部113と、表示処理部114とを含む。
 なお、本実施の形態の以下の例では、制御部11は、情報処理装置10に接続された、音声入力デバイスを備えた装置のうちの一つを、割り込み装置として定めておくものとする。
 音声入力処理部111は、音声入力デバイスを備えた装置(割り込み装置を定める場合、割り込み装置を除くこととする)を対象装置として、次の処理を行う。音声入力処理部111は、所定の規則に従って、情報処理装置10に接続されている対象装置ごとのミキシングの音量を定める。この所定の規則は、例えば次のようなものとすることができる。すなわち、制御部11は、予め対象装置ごとに優先順位を定めておき、接続された装置のうち、優先順位の最も高い対象装置から受信する音声信号のミキシングの音量を予め定められた0より大きい値(0を含まない)とする。この値は例えば最大値、あるいは、対象装置ごとに、対象装置の種類に応じて異なった値が設定されてもよい、以下、この0より大きい値を出力値と呼ぶ。また、接続された装置のうち、優先順位の最も高い対象装置以外の対象装置から受信する音声信号のミキシングの音量を最低値とする。この最低値は、例えば音量「0」を表す値とすればよい。この最低値を以下では遮断値と呼ぶ。
 なお、ここでの規則や音量の設定の例は一例であり、他にも種々の方法があり得る。例えば制御部11は、ユーザが選択した対象装置について、当該対象装置から受信する音声信号のミキシングの音量を予め定められた出力値、それ以外の対象装置から受信する音声信号のミキシングの音量を遮断値としてもよい。
 また複数のユーザが情報処理装置10を利用している場合を考慮して、ここでの規則は、次のようなものであってもよい。すなわち、
(1)原則としてユーザごとに一つの対象装置を選択する。
(2)ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置である場合は、当該対象装置のミキシングの音量を出力値とする。
(3)ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置でない(ここでは便宜的に広集音装置と呼ぶ)場合、選択された対象装置が広集音装置であるユーザについては、いずれかのユーザを一人選び、当該選ばれたユーザについて選択した対象装置のミキシングの音量を出力値とする。
(4)(2),(3)でミキシングの音量を出力値としていない対象装置についてのミキシングの音量を遮断値とする。
 この例によると、マイクの指向性が比較的強いヘッドセット40等を音声入力デバイスとして利用しているユーザについては、当該ヘッドセット40が集音した音声信号がアプリケーションとしての処理で利用可能となるとともに、マイクの指向性が比較的弱い、広集音装置であるコントローラ20等を音声入力デバイスとして利用しているユーザについては、コントローラ20を音声入力デバイスとするユーザのうち一人のユーザが操作するコントローラ20が集音した音声信号のみが、アプリケーションとしての処理で利用されるようになる。
 なお、いずれの場合も、広集音装置を利用しているユーザがコントローラ20を操作して、音声信号の入力を要求したときには、当該ユーザのコントローラ20等の広集音装置のミキシング音量を出力値とし、その他の広集音装置のミキシング音量を遮断値とする。
 ミュート処理部112は、現在のミュートの状態を表すミュート状態情報を保持している。このミュート状態情報は当初は所定の状態(例えばミュートしていない(アンミュートの)状態としておく。そしてこのミュート処理部112は、ユーザが操作するコントローラ20から受信した操作情報として、ミュートの状態を切り替える旨の操作情報を受け入れたときに(つまり、例えばユーザからミュートの指示を受けたときに)、ミュート状態情報を切り替える。つまり、ミュート状態情報がアンミュート状態を表すものであったときには、この操作情報を受け入れたミュート処理部112は、ミュート状態情報をミュートした状態であることを表すものに設定する。またミュート状態情報がミュートした状態を表すものであったときには、この操作情報を受け入れたミュート処理部112は、ミュート状態情報をアンミュートの状態であることを表すものに設定する。そしてミュート処理部112は、ミュート状態情報をミュートした状態であることを表すものに設定したときには、音声入力制御部15に対してミュートの指示を出力する。
 割り込み処理部113は、予め定めた割り込み装置から入力される指示(例えば選択を要求する指示)に従い、当該割り込み装置から受信される音声信号を選択する指示を、音声入力制御部15に出力してもよい。また割り込み装置から、選択を解除するべき旨の指示が受信されると、制御部11は、この割り込み装置以外の装置から受信した音声信号を選択するべき旨の指示を、音声入力制御部15に出力する。
 表示処理部114は、音声信号の入力の状態を示すために、音声入力処理部111、ミュート処理部112、及び割り込み処理部113が出力する指示に応じて、各装置に対する表示制御信号を出力する。この表示制御信号の具体的な例については後に述べる。
[動作例]
 本実施の形態の情報処理システム1は以上のような構成を基本的に備えており、次のように動作する。以下では、1つの情報処理装置10をユーザA,B,Cの3人が共用してゲームを行う例(図4(a))について説明する。
 このとき、各ユーザA,B,Cはそれぞれのコントローラ20a,b,cを持って操作するものとする。すなわち、情報処理装置10は当初、各コントローラ20を操作するユーザを認証し、各コントローラを特定する情報に関連付けて、認証したユーザを特定する情報を記録する。またこの情報処理装置10には、割り込み装置としてのチャットコントローラ30が接続されているものとする。
 このとき情報処理装置10は、予め定めた規則として、次の規則に従うものとする:
(1)原則としてユーザごとに一つの対象装置を選択する。
(2)ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置である場合は、当該対象装置のミキシングの音量を出力値(図4では「255」)とする。
(3)ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置でない(ここでは便宜的に広集音装置と呼ぶ)場合、選択された対象装置が広集音装置であるユーザについては、いずれかのユーザを一人選び、当該選ばれたユーザについて選択した対象装置のミキシングの音量を出力値とする。
(4)(2),(3)でミキシングの音量を出力値としていない対象装置についてのミキシングの音量を遮断値とする。
 そして情報処理装置10は、この規則に従い、当該情報処理装置10に接続されているコントローラ20a,b,cを対象装置として、これら対象装置ごとのミキシングの音量を定める。ここではコントローラ20は広集音装置であるものとする。この例では、情報処理装置10は、上記所定の規則に基づき、例えば最初に接続されたコントローラ20(ユーザAのコントローラ20aとする)のミキシングの音量を出力値、それ以外の対象装置から受信する音声信号のミキシングの音量を遮断値とする。
 このため、情報処理装置10では、ユーザAが使用しているコントローラ20aが集音して情報処理装置10へ送出した音声信号がアプリケーションの処理に供されることとなる。
 例えばアプリケーションがチャットアプリケーションであれば、情報処理装置10は、コントローラ20aが集音して情報処理装置10へ送出した音声信号を、チャットの相手先へ送出することとなる。また相手先から受信した音声信号は、所定の方法で定めた出力先(例えばここでは各コントローラ20a,b,c)に出力する。
 このときコントローラ20b,cの送出した音声信号は情報処理装置10の音声入力制御部15の動作により破棄される。これにより、各コントローラ20a,b,cで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。
 またここでユーザCが、ヘッドセット40を装着し、ヘッドセット40のユーザとして情報処理装置10の認証を受けると(図4(b))、情報処理装置10は、新たな装置の認証を行ったことを契機として、再度、上記規則に従って、情報処理装置10に接続されているコントローラ20a,b,c、及びユーザCの利用するヘッドセット40を対象装置として、これら対象装置ごとのミキシングの音量を定める。
 ここでヘッドセット40は広集音装置でないものとすると、ここでは情報処理装置10は、上記所定の規則に基づき、まずユーザCについてはヘッドセット40のミキシングの音量を出力値とする。また、他のユーザA,Bについては、例えば最初に接続されたコントローラ20(ユーザAのコントローラ20aとする)のミキシングの音量を出力値、それ以外の対象装置(ユーザBのコントローラ20b)から受信する音声信号のミキシングの音量を遮断値とする。
 このときには、ユーザCの発声した声はヘッドセット40によって集音される。そしてユーザAが使用しているコントローラ20aが集音して情報処理装置10へ送出した音声信号と、このヘッドセット40が送出した音声信号とミキシングされて、アプリケーションの処理に供されることとなる。
 このときコントローラ20b,cの送出した音声信号は情報処理装置10の音声入力制御部15の動作により破棄される。これにより、各コントローラ20a,b,cで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。なお、ヘッドセット40は比較的指向性が強いため、ヘッドセット40が出力する音声信号に含まれるユーザAの音声は十分小さいものとなる。このため、ヘッドセット40が集音して得た音声信号がコントローラ20aが送出した音声信号とミキシングされても音声がこもってしまったり、エコーが生じてしまうことはない。
 さらにここでユーザBがコントローラ20bを操作して、音声信号の入力を要求する操作を行うと、当該操作の内容を表す情報が情報処理装置10に伝達される。情報処理装置10では、当該要求を受けて、ユーザCについてはヘッドセット40のミキシングの音量を出力値のままとし、ここで音声信号の入力を要求したコントローラ20bのミキシングの音量を出力値、それ以外の対象装置(ユーザAのコントローラ20a)から受信する音声信号のミキシングの音量を遮断値とする。
 このとき、コントローラ20a,cの送出した音声信号は情報処理装置10の音声入力制御部15の動作により破棄される。これにより、各コントローラ20a,b,cで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。
 またこのチャットアプリケーションの処理を行う情報処理装置10は、チャットの相手先から受信した音声信号を、各コントローラ20に出力して、各コントローラ20にて音声を鳴動させる。
[ミュート]
 また本実施の形態の一例では、いずれかのユーザがコントローラ20を操作してミュートの状態を切り替える指示を行い、制御部11がミュートする状態となったと判断すると(ミュート状態情報がミュートしている状態に設定されると)、音声入力デバイスを備える各装置(割り込み装置を除く)からの音声信号がミュートされる。つまり本実施の形態の一例では、いずれかのコントローラ20等からミュートの指示が行われると、すべての音声入力が遮断される。
 具体的にユーザA,B,Cのいずれかのユーザが自己の操作するコントローラ20を操作してミュートの切り替え指示を行うと、当該ミュートの切り替え指示の操作が行われたことを表す操作情報が情報処理装置10に送出される。
 情報処理装置10では、コントローラ20からミュートの状態を切り替えるべき旨の操作情報を受け入れて、当該操作情報を受け入れた時点でのミュート状態情報(ミュートするか否かを表す情報)を切り替える。つまり、この時点でミュート状態情報がアンミュート状態を表すものであったときには、この操作情報を受け入れた情報処理装置10は、ミュート状態情報をミュートした状態であることを表すものに設定して、音声入力制御部15に対してミュートの指示を出力する。
 一方、この時点でミュート状態情報がミュートした状態を表すものであったときには、この操作情報を受け入れたミュート処理部112は、ミュート状態情報をアンミュートの状態であることを表すものに設定して、音声入力制御部15に対してミュートしない旨の指示(ミュートを解除する指示)を出力する。
 そしてミュートの指示が出力されたときには、音声入力制御部15では、ミキサ部151がどのような音量の設定で、各装置が送出する音声信号をミキシングしていたとしても、ミュート部152が、ミキサ部151が出力する音声信号を出力しない(ミュートする)よう制御する。
 ミュートしない旨の指示が出力されているときには、ミュート部152は、ミキサ部151が出力する音声信号をそのまま出力する。
 これにより、ユーザの一つの操作によって、全体的にミュートの切り替えが行われることとなり、装置ごとにミュートを設定する手間がなく、ミュートの操作性が向上する。
 またミュートの切り替えの指示の内容によっては(例えばミュートを切り替える指示をするためのボタンを長押しするなどした場合は)、制御部11は、出力制御部14の処理として、音声信号を出力しないよう制御してもよい(全ミュート)。このようにすると、テレビやヘッドセット、コントローラ20からの音声出力も停止される。
[音声入力デバイスを備える周辺装置側でのミュート]
 またここで、コントローラ20等、音声入力デバイスを備える周辺装置側で音声信号の送出をするか否かを制御可能な場合は、情報処理装置10は、いずれかのユーザがコントローラ20を操作してミュートの状態を切り替える指示を行ってミュートをしたときには、このような装置に対して、音声信号の送出を停止するよう指示してもよい。
 このように周辺装置側でミュートする(音声信号の送出を停止する)制御を行う場合は、情報処理装置10は、以下の例のように(一時的に)アンミュートの状態とするときには、一時的に音声信号の入力を行わせる周辺装置に対して、音声信号の送出を再開するよう指示することとする。
[出力モード]
 さらに本実施の形態では音声入力制御部15から音声信号の入力を受けた制御部11は、通常は当該入力された音声信号を、制御部11にて実行中の任意のアプリケーションで利用可能なように制御する。以下では、この制御を行う制御部11の動作モードを、便宜的に共有モードと呼ぶ。しかしながら本実施の形態のある例では、入力された音声信号を、特定のアプリケーションにのみ利用させることが好適な場合もある。
 また、アプリケーションが音声入力を求めているのに、ミュートされた状態にあると、音声入力ができないので、アプリケーション側からの要求により一時的にミュートを解除可能な状態としてもよい。このときには、情報処理装置10は、当該一時的にミュートを解除した状態で入力される音声信号については、専ら当該ミュートの解除を要求したアプリケーションに対してのみ当該音声信号を出力する。
 そこで制御部11は、一つのアプリケーションの処理において、音声入力の必要が生じると、音声入力が要求されている旨の表示をモニタ等に出力し、また、このアプリケーションを特定する情報(アプリケーション名でよい)を一時的に保持する。
 ここでユーザがコントローラ20にて所定のアンミュートの操作(ミュートの状態を切り替える操作)を行うと、制御部11は当該操作が為されたことを検出して、音声入力制御部15のミキサ部151に対して、当該操作が行われたコントローラ20のミキシング音量を出力値(例えば最大)とする(他のコントローラ20等についてはミキシング音量を遮断値とする)。なお、複数のコントローラ20にてアンミュートの操作が行われたときには、最も早くアンミュートの操作が行われたコントローラ20についてのみミキシング音量を出力値(例えば最大)としてもよい。
 そして制御部11は、次にユーザがコントローラ20にてミュートの操作(ミュートの状態を切り替える操作)を行うまでの間、あるいは所定の時間が経過するまでの間にコントローラ20から受信した音声信号を、先に一時的に保持した情報で特定されるアプリケーションの処理に供する(一時アンミュート)。この音声信号については、当該情報で特定されるアプリケーション以外の、他のアプリケーションに対しては利用不能に設定する。この設定を行ったときの制御部11の動作モードを、便宜的に排他モードと呼ぶ。
 このような排他モードの制御については、入力される情報を特定のアプリケーションのみの処理に供するための広く知られたオペレーティングシステムの動作と同様であるので、ここでの詳しい説明は省略する。
[アプリケーションの起動・終了によるミュート状態の制御]
 さらに別の例では、音声入力が必要となるアプリケーションが起動されたときに、当該アプリケーション側からの要求によりミュートを解除可能な状態としてもよい。このときには、情報処理装置10は、当該ミュートを解除した状態で入力される音声信号については、専ら当該アプリケーションに対してのみ出力する。
 そしてこの場合は、当該アプリケーションを終了する操作をユーザが行ったときに、情報処理装置10は、ミュート状態情報に基づいてミュート部152を制御する動作に戻る。この例では、音声入力を必要とするアプリケーションが動作している間は、ミュートの指示がされていても当該アプリケーションに対してのみ、音声情報を出力させることが可能となる。
[アプリケーションと周辺装置との関連付け]
 さらに、割り込み装置(ここでの例ではチャットコントローラ30)からの音声信号については特定のアプリケーションにのみ利用させることとしてもよい。
 具体的には、情報処理装置10は、予め割り込み装置を特定する情報と、当該割り込み装置から受信する音声信号を利用するアプリケーションを特定する情報とを関連付けた設定を受け入れておく。つまりこの例では、この設定に記録されている、音声入力デバイスを備えた装置が割り込み装置として識別されることとなる。
 ユーザが割り込み装置(チャットコントローラ30)を操作して音声信号の入力を行うと(例えばチャットコントローラ30の操作部31に含まれるボタンを押下した状態で音声信号の入力を行うと)、チャットコントローラ30は、音声信号を情報処理装置10に送信する。またこのとき、チャットコントローラ30は、自己を特定する情報(割り込み装置を特定する情報)を、情報処理装置10に送信する。
 チャットコントローラ30から音声信号を受信した情報処理装置10の音声入力制御部15では、この音声信号(割り込み音声信号となる)をミキサ部151に入力せず、スイッチ部153に入力し、制御部11は、スイッチ部153及び出力部154に対して、当該割り込み音声信号を、制御部11に出力するよう指示する。ここではスイッチ部153は、ミュート部152よりも出力部154側に配されているので、ミュート部152においてミュートの状態にあっても、この割り込み音声信号は制御部11に出力される。
 制御部11は、音声信号とともに送信された割り込み装置を特定する情報を参照し、当該情報に関連付けられたアプリケーションを特定する情報を見出す。そして制御部11は、当該見出した情報で特定されるアプリケーションを起動し、当該アプリケーションに対して、受信した割り込み音声信号を処理させる。このとき、他のアプリケーションに対しては、受信した割り込み音声信号へのアクセスを禁止するよう制御する。このような処理及び制御は、広く知られたシステムソフトウエアの種々の処理によって実現できるので、ここでの詳しい説明は省略する。
 本実施の形態のこの例によると、操作部31のボタンを押下している間に入力された音声信号が割り込み音声信号として、チャットコントローラ30から情報処理装置10へ送信され、情報処理装置10では当該チャットコントローラ30に関連付けて予め設定されたアプリケーション(例えばチャットアプリケーション)を起動して、割り込み音声信号を処理させることとなる。
[ミュート状態等の表示]
 次に、表示処理部114による表示制御信号の例について説明する。本実施の形態の一例では、制御部11は、
(1)ミュートしていない状態(ミュート状態情報がアンミュートであることを表すものとなっている状態)では表示部24のLEDを消灯させる表示制御信号、
(2)ミュートしている状態(ミュート状態情報がミュートしていることを表すものとなっている状態)では表示部24のLEDを点灯させる表示制御信号、
(3)全ミュートの場合(ミュート状態情報がアンミュートであることを表すものとなっており、かつ情報処理装置10自身も音声信号の出力をしないよう制御している場合)は、表示部24のLEDを点滅させる表示制御信号、
をそれぞれの場合に出力する。
 これによると、ミュートの状態にあるか否かを表す表示制御信号が情報処理装置10から出力され、コントローラ20等が当該表示制御信号に応じて表示部24の表示を変化させて(消灯、点灯、点滅などと変化させることによって)、ミュートの状態にあるか否かを明示するので、ユーザは音声入力が可能な状態にあるか否かがわかりやすい。
 さらに本実施の形態では、制御部11は、
(4)ミキシング音量を遮断値としているデバイスに対しては、表示部24のLEDを全ミュートの場合とは区別可能な態様で点滅させる表示制御信号を出力してもよい。
 ここで区別可能な態様としては、点滅の周期を、全ミュートの場合に比べて長くするなどといったものでよい。これによると、他者が音声入力を行っている場合など、自分が所持するコントローラ20を介して音声入力ができない場合を明示できる。
 またここでは表示部24のLEDを制御するものとしたが、表示部24を例えば液晶表示部として、液晶表示部のバックライトの色や、表示内容を変更することでユーザに状態を通知することとしてもよい。
 1 情報処理システム、10 情報処理装置、11 制御部、12 記憶部、13 操作制御部、14 出力制御部、15 音声入力制御部、16 通信部、20 コントローラ、21 操作部、22 マイク、23 通信部、24 表示部、25 音声出力部、30 チャットコントローラ、31 操作部、32 マイク、33 通信部、34 表示部、40 ヘッドセット、50 ヘッドマウントディスプレイ、111 音声入力処理部、112 ミュート処理部、113 割り込み処理部、114 表示処理部、151 ミキサ部、152 ミュート部、153 スイッチ部、154 出力部。
 

Claims (7)

  1.  周囲の音声を表す音声信号を出力する音声入力手段を備える周辺装置に接続される情報処理装置であって、
     前記周辺装置が出力する音声信号を受け入れる手段と、
     前記周辺装置から受け入れた音声信号を遮断するミュート制御手段と、を有し、
     前記ミュート制御手段により前記周辺装置から受け入れた音声信号を遮断している状態で、予め定めたアプリケーションの処理において音声入力を求める場合は、前記ミュート制御手段を、周辺装置から受け入れた音声信号を受け入れさせ、前記予め定めたアプリケーションの処理にのみ供するよう制御する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     予め割り込み装置として定められた周辺装置から音声信号を受信したときに、前記ミュート制御手段により音声信号が遮断されているか否かに関わらず、当該音声信号を、予め定めたアプリケーションの処理に供するよう制御する情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記予め定めたアプリケーションは、前記割り込み装置を特定する情報に関連付けて予め設定されたアプリケーションである情報処理装置。
  4.  請求項3に記載の情報処理装置であって、
     前記割り込み装置を特定する情報に関連付けて予め設定されたアプリケーションは、チャットアプリケーションである情報処理装置。
  5.  周辺装置と、情報処理装置とを含む情報処理システムであって、
     前記周辺装置は、周囲の音声を表す音声信号を出力する音声入力手段を備え、
     前記情報処理装置は、前記周辺装置が出力する音声信号を受け入れる手段と、
     前記周辺装置から受け入れた音声信号を遮断するミュート制御手段と、を有し、
     前記ミュート制御手段により前記周辺装置から受け入れた音声信号を遮断している状態で、予め定めたアプリケーションの処理において音声入力を求める場合は、前記ミュート制御手段を、周辺装置から受け入れた音声信号を受け入れさせ、前記予め定めたアプリケーションの処理にのみ供するよう制御する情報処理システム。
  6.  周囲の音声を表す音声信号を出力する音声入力手段を備える周辺装置に接続される情報処理装置の制御方法であって、
     音声信号を受け入れる手段が、前記周辺装置が出力する音声信号を受け入れる工程と、
     ミュート制御手段が、前記周辺装置から受け入れた音声信号を遮断する工程と、
     制御手段が、前記ミュート制御手段により前記周辺装置から受け入れた音声信号を遮断している状態で、予め定めたアプリケーションの処理において音声入力を求める場合は、前記ミュート制御手段を、周辺装置から受け入れた音声信号を受け入れさせ、前記予め定めたアプリケーションの処理にのみ供するよう制御する工程と、
    を含む情報処理装置の制御方法。
  7.  周囲の音声を表す音声信号を出力する音声入力手段を備える周辺装置に接続される情報処理装置を、
     前記周辺装置が出力する音声信号を受け入れる手段と、
     前記周辺装置から受け入れた音声信号を遮断するミュート制御手段と、
     前記ミュート制御手段により前記周辺装置から受け入れた音声信号を遮断している状態で、予め定めたアプリケーションの処理において音声入力を求める場合は、前記ミュート制御手段を、周辺装置から受け入れた音声信号を受け入れさせ、前記予め定めたアプリケーションの処理にのみ供するよう制御する手段と、として機能させるプログラム。

     
PCT/JP2020/016482 2019-04-26 2020-04-14 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム WO2020218096A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021516026A JP7189334B2 (ja) 2019-04-26 2020-04-14 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
EP20794447.1A EP3961370A4 (en) 2019-04-26 2020-04-14 INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE CONTROL METHOD, AND PROGRAM
CN202080029825.XA CN113711178A (zh) 2019-04-26 2020-04-14 信息处理系统、信息处理装置、信息处理装置的控制方法以及程序
US17/602,870 US11880633B2 (en) 2019-04-26 2020-04-14 Information processing system, information processing apparatus, control method for information processing apparatus, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-086345 2019-04-26
JP2019086345 2019-04-26

Publications (1)

Publication Number Publication Date
WO2020218096A1 true WO2020218096A1 (ja) 2020-10-29

Family

ID=72941900

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/016482 WO2020218096A1 (ja) 2019-04-26 2020-04-14 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム

Country Status (5)

Country Link
US (1) US11880633B2 (ja)
EP (1) EP3961370A4 (ja)
JP (1) JP7189334B2 (ja)
CN (1) CN113711178A (ja)
WO (1) WO2020218096A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012147397A (ja) * 2011-01-14 2012-08-02 Lenovo Singapore Pte Ltd 情報処理装置、その音声設定方法、およびコンピュータが実行するためのプログラム
WO2013069396A1 (ja) * 2011-11-09 2013-05-16 株式会社ソニー・コンピュータエンタテインメント 情報処理装置、情報処理方法、プログラム及び情報記憶媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6935959B2 (en) * 2002-05-16 2005-08-30 Microsoft Corporation Use of multiple player real-time voice communications on a gaming device
US6905414B2 (en) 2002-05-16 2005-06-14 Microsoft Corporation Banning verbal communication to and from a selected party in a game playing system
CN1985497B (zh) 2004-10-26 2011-05-18 松下电器产业株式会社 信息输出装置和信息输出控制方法
US9374453B2 (en) 2007-12-31 2016-06-21 At&T Intellectual Property I, L.P. Audio processing for multi-participant communication systems
US20110111805A1 (en) * 2009-11-06 2011-05-12 Apple Inc. Synthesized audio message over communication links
US9094523B2 (en) * 2012-06-28 2015-07-28 Dolby Laboratories Licensing Corporation Metric for meeting commencement in a voice conferencing system
EP2962300B1 (en) 2013-02-26 2017-01-25 Koninklijke Philips N.V. Method and apparatus for generating a speech signal
US20150249736A1 (en) 2014-02-28 2015-09-03 Plantronics, Inc. Notification of Muting During Voice Activity for Multiple Muters
US10104218B2 (en) 2014-09-23 2018-10-16 Lg Electronics Inc. Mobile terminal and method for controlling same
US9940094B1 (en) 2015-05-19 2018-04-10 Orion Labs Dynamic muting audio transducer control for wearable personal communication nodes
JP2017047784A (ja) 2015-09-02 2017-03-09 アルパイン株式会社 音声入力装置
US9978366B2 (en) * 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
US9918042B2 (en) 2016-04-29 2018-03-13 Getgo, Inc. Performing electronic conferencing operations using electronic portals at different locations
US20170351476A1 (en) * 2016-06-03 2017-12-07 Avaya Inc. Create private interaction workspace
US11032675B2 (en) * 2016-06-23 2021-06-08 AINA Wireless Finland Oy Electronic accessory incorporating dynamic user-controlled audio muting capabilities, related methods and communications terminal
US10412565B2 (en) * 2016-12-19 2019-09-10 Qualcomm Incorporated Systems and methods for muting a wireless communication device
US11057702B1 (en) * 2019-12-20 2021-07-06 Microsoft Technology Licensing, Llc Method and system for reducing audio feedback

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012147397A (ja) * 2011-01-14 2012-08-02 Lenovo Singapore Pte Ltd 情報処理装置、その音声設定方法、およびコンピュータが実行するためのプログラム
WO2013069396A1 (ja) * 2011-11-09 2013-05-16 株式会社ソニー・コンピュータエンタテインメント 情報処理装置、情報処理方法、プログラム及び情報記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3961370A4 *

Also Published As

Publication number Publication date
JPWO2020218096A1 (ja) 2021-11-18
US11880633B2 (en) 2024-01-23
US20220164161A1 (en) 2022-05-26
JP7189334B2 (ja) 2022-12-13
CN113711178A (zh) 2021-11-26
EP3961370A1 (en) 2022-03-02
EP3961370A4 (en) 2023-01-25

Similar Documents

Publication Publication Date Title
EP1997346B1 (en) Audio headset
US8064972B2 (en) User interface for wireless headset on a gaming console
WO2008101407A1 (fr) Procédé et système d'entrée/sortie de flux de données audio
EP1443737A1 (en) Headset comprising a wireless communication device communicating with at least two remote devices
JP2004233793A (ja) 電子機器および同機器で用いられる遠隔制御方法
WO2022156662A1 (zh) 音频播放方式的切换方法、装置、电子设备和存储介质
WO2022237609A1 (zh) 通信控制方法、电子设备和耳机
JP2004274138A (ja) 電子機器および同機器で用いられる通信制御方法
WO2020218096A1 (ja) 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
WO2020218095A1 (ja) 情報処理システム、コントローラ、情報処理装置、情報処理装置の制御方法、及びプログラム
WO2020218094A1 (ja) 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム
CN113573195B (zh) 蓝牙耳机的模式控制方法、设备及计算机可读存储介质
JP2012248990A (ja) 電子機器及びテレビ電話方法
US11524224B2 (en) Operating device
WO2024119926A1 (zh) 耳机贴合度检测方法和耳机
JP4324134B2 (ja) 通信システムおよび通信端末装置
US10904716B1 (en) Wireless audio and communication system
JP2024036087A (ja) 会議システム、サーバ、音声出力方法及びユーザ端末
JP2016118610A (ja) 無線lan機能を備えた再生装置及び共聴システム
CN118175146A (zh) 一种语音对讲模式切换及控制的实现方法
JP2012175237A (ja) 音声切替装置、プログラム及び方法
JP2007110477A (ja) 音量認識トークバック装置
CN116074796A (zh) 音频播放控制方法及装置、耳机设备、存储介质
JP2004236162A (ja) 電子機器および同機器のエラー報知方法
JP2017163469A (ja) 電話会議システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20794447

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021516026

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020794447

Country of ref document: EP

Effective date: 20211126