WO2020026562A1 - 情報処理装置と情報処理方法およびプログラム - Google Patents

情報処理装置と情報処理方法およびプログラム Download PDF

Info

Publication number
WO2020026562A1
WO2020026562A1 PCT/JP2019/019513 JP2019019513W WO2020026562A1 WO 2020026562 A1 WO2020026562 A1 WO 2020026562A1 JP 2019019513 W JP2019019513 W JP 2019019513W WO 2020026562 A1 WO2020026562 A1 WO 2020026562A1
Authority
WO
WIPO (PCT)
Prior art keywords
background sound
signal
utterance
period
unit
Prior art date
Application number
PCT/JP2019/019513
Other languages
English (en)
French (fr)
Inventor
裕二 井手
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2020534071A priority Critical patent/JP7251549B2/ja
Priority to US17/250,435 priority patent/US20210320684A1/en
Publication of WO2020026562A1 publication Critical patent/WO2020026562A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • H04B1/401Circuits for selecting or indicating operating mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6058Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone
    • H04M1/6066Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone including a wireless connection

Definitions

  • This technology relates to an information processing apparatus, an information processing method, and a program so that a communication operation state can be easily determined.
  • a PTT (Push-to-Talk) function is provided, and when the PTT switch is on, a voice transmission state is set.
  • the wireless device is provided with a VOX (Voice Operation Transmission) function that turns on the PTT switch when an audio signal is detected so that the audio transmission state can be set even when the PTT switch cannot be operated. I have.
  • the PTT switch is in the ON state or the OFF state cannot be determined without touching or visually checking the PTT switch. Further, it cannot be determined whether the VOX function is operating unless the state of the switch and the setting state of the function are checked.
  • the first aspect of this technology is: An utterance detection unit that detects an utterance period based on an input voice signal; A background sound generation unit that generates a background sound signal according to the utterance period detection result of the utterance detection unit, A speech synthesis unit that performs a synthesis process using the background sound signal generated by the background sound generation unit and generates an output audio signal,
  • An information processing apparatus includes a control unit configured to set a detection period of the utterance detection unit and transmit the input voice signal based on an operation signal corresponding to a user operation.
  • the utterance detection unit detects the utterance period based on, for example, an input sound signal indicating sound collected by a headset microphone.
  • the background sound generation unit generates a background sound signal in accordance with the result of the detection of the utterance period by the utterance detection unit, generates an utterance background sound signal during the utterance period, and outputs a non-speech signal different from the utterance background sound signal during the non-speech period.
  • Generate an utterance background sound signal For example, the speech background sound signal and the non-speech background sound signal are different noise signals or melody sound signals or signals having different signal levels. Further, the utterance background sound signal may be generated by using the input sound signal.
  • the voice synthesis unit performs a synthesis process using the background sound signal generated by the background sound generation unit, and generates an output voice signal. For example, the voice synthesizing unit synthesizes the voice signal received by the communication unit that communicates the input voice signal with the background sound signal generated by the background sound generating unit, and outputs the synthesized signal to the speaker of the headset.
  • the control unit sets and inputs a detection period of the utterance detection unit based on an operation signal generated in response to a user operation in the input unit or an operation signal generated in response to the user operation with an operation switch provided in the headset. Performs audio signal transmission processing.
  • the control unit sets a PTT (Push-to-Talk) function to an ON state or an OFF state based on the operation signal, and sets a period of the ON state to a detection period in the utterance detection unit, a generation period of the background sound signal in the background sound generation unit, and a communication period in the communication unit.
  • This is a transmission operation period.
  • the background sound generation unit minimizes the utterance background sound signal to a signal level lower than the non-speech background sound signal, for example, the signal level.
  • the control unit sets a VOX (Voice Operation Transmission) function to an ON state or an OFF state based on the operation signal, and sets the ON state period as a detection period in the utterance detection unit and a background sound signal generation period in the background sound generation unit.
  • the utterance period detected by the utterance detection unit is defined as a transmission operation period in the communication unit.
  • the background sound generation unit sets the non-speech background sound signal to a signal level smaller than the speech background sound signal, for example, the signal level to a minimum.
  • the second aspect of this technology is: Detecting an utterance period by the utterance detection unit based on the input voice signal; A background sound signal is generated by a background sound generation unit according to the utterance period detection result of the utterance detection unit, Performing a synthesis process using the background sound signal generated by the background sound generation unit in the voice synthesis unit to generate an output audio signal,
  • An information processing method includes setting a detection period of the utterance detection unit and transmitting the input voice signal by a control unit based on an operation signal according to a user operation.
  • the third aspect of this technology is: A program for causing a computer to execute transmission control of an input audio signal, Detecting a speech period based on the input voice signal; A step of generating a background sound signal according to the detection result of the utterance period, Performing synthesis processing using the generated background sound signal, and generating an output audio signal;
  • the program causes the computer to execute a setting of a detection period for detecting the utterance period based on an operation signal according to a user operation and a procedure of transmitting the input voice signal.
  • the program of the present technology is, for example, provided to a general-purpose computer capable of executing various program codes, in a computer-readable format, such as a storage medium and a communication medium, such as an optical disk, a magnetic disk, and a storage medium such as a semiconductor memory.
  • the program can be provided by a medium or a communication medium such as a network.
  • the speech period is detected based on the input voice signal, and the background sound signal is generated according to the detection result of the speech period. Further, an output audio signal is generated by a synthesis process using the generated background sound signal. Further, a detection period for detecting an utterance period based on an operation signal corresponding to a user operation is set, and an input voice signal in the utterance period is transmitted from the communication unit. Therefore, it is possible to easily determine whether or not the apparatus is in the audio transmission state based on the background sound indicated by the output audio signal. It should be noted that the effects described in the present specification are merely examples and are not limited, and may have additional effects.
  • FIG. 1 is a diagram illustrating a configuration of a system.
  • FIG. 2 is a diagram illustrating a configuration of a first embodiment.
  • 5 is a flowchart illustrating an operation of the first embodiment.
  • FIG. 7 is a diagram illustrating an operation example of the first embodiment.
  • FIG. 6 is a diagram illustrating a configuration of a second embodiment. It is a flow chart which illustrated operation of the 2nd form.
  • FIG. 13 is a diagram illustrating an operation example of the second embodiment.
  • FIG. 2 is a diagram illustrating a display screen of an information processing device 20;
  • FIG. 1 illustrates a configuration of a system using the information processing device of the present technology.
  • the system 10 includes an information processing device 20 and a server 40, and the information processing device 20 and the server 40 are connected via a network 50. Further, a headset 30 can be connected to the information processing device 20.
  • the headset 30 is provided with a microphone 31, a speaker 32, and an operation switch 33.
  • the microphone 31 collects sound emitted by a user wearing the headset 30, converts the sound into a sound signal, and outputs the sound signal to the information processing device 20.
  • the speaker 32 converts the output audio signal supplied from the information processing device 20 into audio and outputs the audio.
  • the operation switch 33 outputs an operation signal according to a user operation to the information processing device 20 to turn on or off a function assigned to the operation switch 33. For example, when a push switch that performs a momentary operation is used as the operation switch 33, the information processing device 20 changes the assigned function from the off state to the on state or from the on state every time the operation switch 33 is operated. Switch to off state.
  • the information processing device 20 is, for example, a smartphone, and includes a communication unit 21, an imaging unit 22, an input unit 23, an output unit 24, a storage unit 25, and a control unit 26.
  • the communication unit 21 includes a wireless LAN unit for performing communication conforming to the wireless LAN standard, a public network connection unit for performing communication using a mobile phone line, and the like.
  • the communication unit 21 performs communication with the server 40 according to, for example, the Internet protocol.
  • the communication unit 21 transmits information generated by the information processing device 20, for example, an audio signal or the like supplied from the headset 30 to the server 40.
  • the communication unit 21 receives information transmitted from the server 40 and outputs the information to the output unit 24 and the storage unit 25.
  • the imaging unit 22 includes an imaging optical system including an imaging element and an imaging lens, an image signal processing unit, and the like.
  • an imaging optical system including an imaging element and an imaging lens, an image signal processing unit, and the like.
  • a CCD (Charge Coupled Device) image sensor or a CMOS (Complementary Metal Oxide Semiconductor) image sensor is used as the imaging device.
  • the image signal generated by the imaging unit 22 is output to the server 40 or the like via the output unit 24, the storage unit 25, or the communication unit 21.
  • the input unit 23 is configured using a touch panel, a microphone, and the like.
  • the input unit 23 generates an operation signal according to a user operation on the touch panel, for example, and outputs the operation signal to the control unit 26. Further, the input unit 23 obtains a voice from the user with a microphone. Further, the input unit 23 controls the reception of the audio signal supplied from the headset 30.
  • the output unit 24 is configured using a display element, a speaker, and the like.
  • a display element for example, an LCD (Liquid Crystal Display) or an OLED (Organic Light-Emitting Diode) is used.
  • the output unit 24 displays captured images, video contents, text information, menu screens, various setting information, and the like acquired by the imaging unit 22, and outputs audio such as audio content and conversation. Output.
  • the output unit 24 generates an output audio signal and outputs the output audio signal to the headset 30.
  • the storage unit 25 stores application programs, content data, and the like for performing various operations in the information processing device 20.
  • the control unit 26 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the ROM (Read Only Memory) stores various programs executed by the CPU (Central Processing Unit).
  • the RAM (Random Access Memory) stores information such as various parameters.
  • the CPU executes various programs stored in the ROM or the storage unit 25, and performs a desired operation in the information processing device 20 according to a user operation or the like based on the operation signal generated by the input unit 23. Each part is controlled.
  • control unit 26 uses the PTT (Push to Talk) function or the VOX (Voice Operation Transmission) function based on the operation signal to communicate with the communication unit 21 so as to perform voice communication with, for example, a desired information processing apparatus 20-x.
  • PTT Push to Talk
  • VOX Voice Operation Transmission
  • the server 40 mediates wired or wireless communication between the information processing apparatus 20 and another information processing apparatus 20-x connected via the network 50. For example, the server 40 transmits the audio signal transmitted from the information processing device 20 to the destination information processing device 20-x designated by the information processing device 20. In addition, the server 40 transmits the audio signal transmitted from the information processing device 20-x to the information processing device 20 that is the transmission destination specified by the information processing device 20-x.
  • FIG. 2 shows the configuration of the first embodiment of the information processing apparatus.
  • FIG. 2 illustrates the configuration of functional blocks related to voice communication using a PTT (Push to Talk) function in the information processing device 20.
  • PTT Push to Talk
  • the communication unit 21 includes a transmission unit 211 and a reception unit 212
  • the input unit 23 includes a microphone input control unit 231 and an utterance detection unit 232
  • the output unit 24 includes a background sound generation unit 241 and a speech synthesis unit 242.
  • the transmission unit 211 of the communication unit 21 transmits the audio signal supplied from the microphone input control unit 231 of the input unit 23 to the server 40, indicating the destination specified by the control signal from the control unit 26.
  • the receiving section 212 outputs the received voice signal to the voice synthesizing section 242 of the output section 24.
  • the microphone input control unit 231 of the input unit 23 controls, for example, reception of an audio signal supplied from the microphone 31 of the headset 30 based on a control signal from the control unit 26.
  • the microphone input control unit 231 When accepting an audio signal, the microphone input control unit 231 outputs the audio signal supplied from the microphone 31 to the utterance detection unit 232 and the transmission unit 211 of the communication unit 21.
  • the utterance detection unit 232 performs an utterance detection operation based on a control signal from the control unit 26, detects an utterance period using an audio signal supplied from the microphone 31, and outputs an utterance detection result to a background sound generation unit of the output unit 24. 241.
  • the background sound generation unit 241 of the output unit 24 performs a background sound generation operation based on the control signal from the control unit 26, and generates a background sound according to the utterance detection result.
  • the background sound generation unit 241 generates different background sound signals between the speech period and the non-speech period.
  • the background sound signal only needs to be a background sound signal that can be distinguished from a conversation sound, and for example, a noise sound or a melody sound signal is used.
  • the background sound signal different between the speech period and the non-speech period may be a signal of a different type of noise sound or a melody sound, or a signal of the same type but having a different signal level.
  • the audio signal supplied from the microphone 31 is used as the background sound signal during the speech period, it is possible to confirm what kind of sound is being transmitted.
  • the audio signal supplied from the microphone 31 is used as the background sound signal during the speech period, the sound signal may be processed so that the background sound is clearly identified as the background sound during the speech period.
  • different background sound signals in the present technology include a case where the signal level is “0” only in one of the speech period and the non-speech period.
  • the background sound generation unit 241 outputs the generated background sound signal to the speech synthesis unit 242.
  • the audio synthesis unit 242 generates an output audio signal by synthesizing the received audio signal supplied from the reception unit 212 and the background sound signal generated by the background sound generation unit 241.
  • the voice synthesizer 242 outputs the generated output voice signal to, for example, the speaker 32 of the headset 30.
  • the control unit 26 sets a PTT (Push-to-Talk) function to an ON state or an OFF state based on an operation signal from the operation switch 33 of the headset 30, and sets the ON state period to the detection period in the utterance detection unit and the background sound generation. And a transmission operation period in the communication unit. That is, while the PTT is in the ON state, the control unit 26 receives the audio signal supplied from the microphone 31 by the microphone input control unit 231 and supplies the audio signal to the transmission unit 211, and receives the audio signal by the microphone input control unit 231. The transmission destination of the audio signal is designated and transmitted to the server 40.
  • the control unit 26 operates the utterance detection unit 232 and the background sound generation unit 241 to generate different background sound signals between the utterance period and the non-speech period during the period in which the PTT is in the ON state. Output to
  • FIG. 3 is a flowchart illustrating the operation of the first embodiment.
  • the information processing apparatus determines whether a switch operation has been performed.
  • the control unit 26 of the information processing device 20 determines that the switch operation has been performed based on the operation signal from the operation switch 33 of the headset 30, the process proceeds to step ST2, and determines that the switch operation has not been performed. In this case, the process returns to step ST1.
  • step ST2 the information processing device starts the PTT function.
  • the control unit 26 of the information processing device 20 controls the microphone input control unit 231 to start receiving the audio signal supplied from the microphone 31. Further, the control unit 26 starts the detection operation of the utterance detection unit 232. Further, the control unit 26 controls the transmission unit 211 to start the transmission process, so that the audio signal supplied from the microphone input control unit 231 is transmitted to the server 40 while indicating the desired transmission destination. Proceed to ST3.
  • step ST3 the information processing device determines whether or not it is during the speech period.
  • the utterance detection unit 232 of the information processing device 20 detects whether or not the utterance period is present using the audio signal output from the microphone input control unit 231.
  • the utterance detection unit 232 outputs an audio signal from the microphone input control unit 231.
  • the speech period is started.
  • the utterance detection unit 232 ends the utterance period when the period during which no audio signal is output is longer than a predetermined period.
  • the utterance detection unit 232 proceeds to step ST4 when determining that it is during the utterance period, and proceeds to step ST5 when determining that it is not during the utterance period.
  • step ST4 the information processing device outputs the background sound during the utterance period.
  • the background sound generation unit 241 of the information processing device 20 generates an utterance period background sound signal and outputs the utterance period background sound signal to the speech synthesis unit 242 based on the utterance detection result from the utterance detection unit 232 when determining that the period is the utterance period.
  • the voice synthesis unit 242 performs voice synthesis using the background sound signal during the utterance period, generates an output voice signal, and outputs the output voice signal to the headset 30.
  • the speaker 32 of the headset 30 outputs the background sound during the utterance period based on the output audio signal, and proceeds to step ST6.
  • step ST5 the information processing device outputs the background sound during the non-speech period.
  • the background sound generation unit 241 of the information processing device 20 generates a non-speech period background sound signal and outputs the non-speech period background sound signal to the speech synthesis unit 242 based on the utterance detection result from the utterance detection unit 232 when determining that the period is a non-speech period. I do.
  • the voice synthesis unit 242 performs voice synthesis using the background voice signal during the non-speech period, generates an output voice signal, and outputs the output voice signal to the headset 30.
  • the speaker 32 of the headset 30 outputs the background sound during the non-speech period based on the output audio signal, and proceeds to step ST6.
  • step ST6 It is determined in step ST6 whether a switch operation has been performed.
  • the control unit 26 of the information processing device 20 determines that the switch operation has been performed based on the operation signal from the operation switch 33 of the headset 30, the process proceeds to step ST7, and determines that the switch operation has not been performed. In this case, the process returns to step ST3.
  • step ST7 the information processing device ends the PTT function.
  • the control unit 26 of the information processing device 20 controls the microphone input control unit 231 to terminate the reception of the audio signal supplied from the microphone 31. Further, the control unit 26 controls the utterance detection unit 232 to end the detection operation. The control unit 26 controls the background sound generation unit 241 to end the background sound generation operation. Further, the control unit 26 controls the transmission unit 211 to end the transmission processing, and returns to step ST1.
  • FIG. 4 shows an operation example of the first embodiment.
  • the push switch As the operation switch 33 of the headset 30, the push switch is used as described above, and every time the operation switch 33 is operated, the PTT function switches from the off state to the on state or from the on state to the off state. It is illustrated about the case where it is possible.
  • the operation switch 33 When the operation switch 33 is operated at time t1, the PTT function is turned on, and the input unit 23 starts accepting the audio signal supplied from the microphone 31 and starting the utterance detection operation.
  • the communication unit 21 a transmission operation for transmitting the audio signal received by the input unit 23 is started.
  • the background sound generation unit 241 since the utterance period is a period until the utterance is detected by the input unit 23, the background sound generation unit 241 generates the background sound signal during the non-speech period, and the speaker to which the output sound signal is supplied from the output unit 24. At 32, the background sound during the non-speech period is output. Therefore, the user can determine that the PTT function is on by the background sound during the non-speech period.
  • the background sound generation unit 241 generates the utterance period background sound signal. You. For this reason, the output of the speaker 32 to which the output audio signal is supplied from the output unit 24 is switched from the background sound during the non-speech period to the background sound during the speech period. Therefore, the user can determine from the utterance period background sound that sound is being transmitted.
  • the background sound generation unit 241 When the speech signal is no longer input to the input unit 23 and the end of the speech period is detected by the speech detection unit 232 at time t3 and the end of the speech period is determined, the background sound generation unit 241 generates a background sound signal during a non-speech period. . For this reason, the output of the speaker 32 to which the output audio signal is supplied from the output unit 24 is switched from the background sound during the speech period to the background sound during the non-speech period. Therefore, the user can determine that the transmission of the voice has ended based on the background sound during the non-speech period.
  • the output of the speaker 32 is changed from the non-utterance period background sound to the utterance period background. Can be switched to sound.
  • the speech signal is no longer input to the input unit 23 and the end of the speech period is detected by the speech detection unit 232 at time t5 and the end of the speech period is determined, the output of the speaker 32 is changed from the background sound of the speech period to the background of the non-speech period. Can be switched to sound.
  • the PTT function is turned off, and the input unit 23 terminates the reception of the audio signal supplied from the microphone 31 and the utterance detection operation.
  • the communication unit 21 the transmission operation of transmitting the audio signal received by the input unit 23 is terminated.
  • the background sound generation unit 241 ends the generation of the background sound signal. Therefore, the user can determine that the PTT function is off because neither the background sound during the speech period nor the background sound during the non-speech period is output.
  • the background sound during the utterance period or the background sound during the non-speech period is output. Therefore, it is possible to easily determine that the PTT function is on by the background sound without checking the operation position of the switch or the display screen of the output unit 24.
  • the utterance period since the utterance period background sound different from the non-utterance period background sound is output, it is possible to easily determine that the audio signal supplied from the microphone 31 is being transmitted based on the utterance period background sound.
  • the utterance background sound signal has a signal level lower than that of the non-utterance background sound signal, for example, if the signal level of the utterance background sound signal is minimized, the background sound signal supplied from the microphone 31 is transmitted. Can be distracted.
  • FIG. 5 shows the configuration of the second embodiment of the information processing apparatus.
  • FIG. 5 exemplifies a configuration of a functional block relating to voice communication using a VOX (Voice Operation Transmission) function in the information processing device 20.
  • VOX Voice Operation Transmission
  • the communication unit 21 includes a transmission unit 211 and a reception unit 212
  • the input unit 23 includes a microphone input control unit 231 and an utterance detection unit 232
  • the output unit 24 includes a background sound generation unit 241 and a speech synthesis unit 242.
  • the transmission unit 211 of the communication unit 21 instructs the audio signal supplied from the microphone input control unit 231 of the input unit 23 by the control signal from the control unit 26 during the utterance period detected by the utterance detection unit 232 of the input unit 23.
  • the transmission destination is indicated to the server 40 and transmitted.
  • the receiving section 212 outputs the received voice signal to the voice synthesizing section 242 of the output section 24.
  • the microphone input control unit 231 of the input unit 23 controls, for example, reception of an audio signal generated by the microphone 31 of the headset 30 based on a control signal from the control unit 26.
  • the microphone input control unit 231 When accepting an audio signal, the microphone input control unit 231 outputs the audio signal supplied from the microphone 31 to the utterance detection unit 232 and the transmission unit 211 of the communication unit 21.
  • the utterance detection unit 232 performs an utterance detection operation based on a control signal from the control unit 52, detects an utterance period using an audio signal supplied from the microphone 31, and transmits the utterance detection result to the transmission unit 211 of the communication unit 21. Output to the background sound generation unit 241 of the output unit 24.
  • the background sound generation unit 241 of the output unit 24 performs a background sound generation operation based on the control signal from the control unit 26, and generates a background sound according to the utterance detection result.
  • the background sound generation unit 241 generates different background sound signals between the speech period and the non-speech period.
  • the background sound signal only needs to be a background sound signal that can be distinguished from a conversation sound, and for example, a noise sound or a melody sound signal is used.
  • the background sound signal different between the speech period and the non-speech period may be a signal of a different type of noise sound or a melody sound, or a signal of the same type but having a different signal level.
  • the background sound generation unit 241 outputs the generated background sound signal to the speech synthesis unit 242.
  • the audio synthesis unit 242 generates an output audio signal by synthesizing the received audio signal supplied from the reception unit 212 and the background sound signal generated by the background sound generation unit 241.
  • the voice synthesizer 242 outputs the generated output voice signal to, for example, the speaker 32 of the headset 30.
  • the control unit 26 performs a voice communication control operation using a VOX (Voice Operation Transmission) function based on, for example, an operation signal from an operation switch 33 of the headset 30.
  • the control unit 26 is in an ON state.
  • the audio signal supplied from the microphone 31 is received by the microphone input control unit 231 and supplied to the transmission unit 211.
  • the control unit 26 controls the utterance detection unit 232 and the background sound while the VOX is in the ON state.
  • the control unit 26 operates the generation unit 241 to generate different background sound signals in the speech period and the non-speech period, and outputs the background sound signal to the speaker 32.
  • the control unit 26 controls the speech detection unit 232.
  • the transmission period of the transmission unit 211 is determined as the transmission period detected by the transmission unit 211.
  • the transmission destination of the audio signal received by the microphone input control unit 231 is specified during the transmission period. To be transmitted.
  • FIG. 6 is a flowchart showing the operation of the second embodiment.
  • the information processing device determines whether a switch operation has been performed.
  • the control unit 26 of the information processing device 20 determines that the switch operation has been performed based on the operation signal from the operation switch 33 of the headset 30, the process proceeds to step ST12, and determines that the switch operation has not been performed. In this case, the process returns to step ST11.
  • step ST12 the information processing device starts the VOX function.
  • the control unit 26 of the information processing device 20 controls the microphone input control unit 231 to start receiving the audio signal supplied from the microphone 31. Further, the control unit 26 starts the detection operation of the utterance detection unit 232 and proceeds to step ST13.
  • step ST13 the information processing device determines whether or not it is during the utterance period.
  • the utterance detection unit 232 of the information processing device 20 detects whether or not it is a utterance period using an audio signal output from the microphone input control unit 231.
  • the utterance detection unit 232 starts the utterance period when detecting that an audio signal is output from the microphone input control unit 231, and ends the utterance period when a period during which no audio signal is output is longer than a predetermined period.
  • step ST14 the process proceeds to step ST16.
  • step ST14 the information processing device transmits an audio signal.
  • the utterance detection unit 232 and the control unit 26 control the transmission unit 211 so that transmission processing is performed during the utterance period, and the audio signal supplied from the microphone input control unit 231 is transmitted to a desired transmission destination. Proceed to ST15.
  • step ST15 the information processing device outputs the background sound during the utterance period.
  • the background sound generation unit 241 of the information processing device 20 generates an utterance period background sound signal and outputs the utterance period background sound signal to the speech synthesis unit 242 based on the utterance detection result from the utterance detection unit 232 when determining that the period is the utterance period.
  • the voice synthesis unit 242 performs voice synthesis using the background sound signal during the utterance period, generates an output voice signal, and outputs the output voice signal to the headset 30.
  • the speaker 32 of the headset 30 outputs the background sound during the speech period based on the output audio signal, and proceeds to step ST17.
  • the information processing device outputs the background sound during the non-speech period.
  • the background sound generation unit 241 of the information processing device 20 generates a non-speech period background sound signal and outputs the non-speech period background sound signal to the speech synthesis unit 242 based on the utterance detection result from the utterance detection unit 232 when determining that the period is a non-speech period. I do.
  • the voice synthesis unit 242 performs voice synthesis using the background voice signal during the non-speech period, generates an output voice signal, and outputs the output voice signal to the headset 30.
  • the speaker 32 of the headset 30 outputs the background sound during the non-speech period based on the output audio signal, and proceeds to step ST17.
  • step ST17 It is determined in step ST17 whether a switch operation has been performed.
  • the control unit 26 of the information processing device 20 determines that the switch operation has been performed based on the operation signal from the operation switch 33 of the headset 30, the process proceeds to step ST18, and determines that the switch operation has not been performed. In this case, the process returns to step ST13.
  • step ST18 the information processing device ends the VOX function.
  • the control unit 26 of the information processing device 20 controls the microphone input control unit 231 to terminate the reception of the audio signal supplied from the microphone 31. Further, the control unit 26 controls the utterance detection unit 232 to end the detection operation. Further, the control unit 26 controls the background sound generation unit 241 to end the background sound generation operation, and returns to step ST11.
  • FIG. 7 shows an operation example of the second embodiment.
  • the operation switch 33 of the headset 30 a push switch is used as described above, and every time the operation switch 33 is operated, the VOX function switches from the off state to the on state or from the on state to the off state. It is illustrated about the case where it is possible.
  • the VOX function is turned on, and the input unit 23 starts accepting the audio signal supplied from the microphone 31 and starting the utterance detection operation. Further, since the utterance period is a period until the utterance is detected by the input unit 23, the background sound generation unit 241 generates the background sound signal during the non-speech period, and the output unit 24 supplies the output sound signal to the speaker. At 32, the background sound during the non-speech period is output. Therefore, the user can determine that the VOX function is on based on the background sound during the non-speech period.
  • a voice signal is input to the input unit 23, and when the utterance is detected by the utterance detection unit 232 at time t12 and the start of the utterance period is determined, the communication unit 21 transmits the voice signal received by the input unit 23. A transmission operation is started.
  • the background sound generation unit 241 generates an utterance period background sound signal. For this reason, the output of the speaker 32 to which the output audio signal is supplied from the output unit 24 is switched from the background sound during the non-speech period to the background sound during the speech period. Therefore, the user can determine from the utterance period background sound that sound is being transmitted.
  • the communication unit 21 ends the transmission operation and the background sound generation unit 241.
  • background sound signal is generated.
  • the output of the speaker 32 to which the output audio signal is supplied from the output unit 24 is switched from the background sound during the speech period to the background sound during the non-speech period. Therefore, the user can determine that the transmission of the voice has ended based on the background sound during the non-speech period.
  • the communication unit 21 starts the transmission operation of the voice signal,
  • the output of the speaker 32 is switched from the background sound during the non-speech period to the background sound during the speech period.
  • the communication unit 21 terminates the transmission operation, and The output is switched from the utterance period background sound to the non-utterance period background sound.
  • the VOX function When the operation switch 33 is operated at time t16, the VOX function is turned off, and the input unit 23 terminates the reception of the audio signal supplied from the microphone 31 and the utterance detection operation.
  • the background sound generation unit 241 ends the generation of the background sound signal. Therefore, the user can determine that the VOX function is in the OFF state because neither the background sound during the utterance period nor the background sound during the non-speech period is output.
  • the VOX function when the VOX function is on, the background sound of the speech period or the background sound of the non-speech period is output. , It is possible to easily determine that the VOX function is in the on state based on the background sound. In the utterance period, since the utterance period background sound different from the non-utterance period background sound is output, it is possible to easily determine that the audio signal supplied from the microphone 31 is being transmitted based on the utterance period background sound.
  • the background sound signal is superimposed on the received voice signal received by the receiver 212.
  • the influence of the background sound when listening to the received audio can be reduced.
  • the information processing apparatus has a PTT function and a VOX function. It may be selected and made available. In this case, the background sound during the non-speech period is different between the PTT function and the VOX function, so that it is possible to easily determine which function is used in the sound output from the speaker 32.
  • the utterance detection unit 232 detects the utterance period by detecting the utterance and the end of the utterance, but detects the ambient sound level of the user based on the audio signal from the microphone 31 accepted by the microphone input control unit 231 to obtain the background.
  • the sound generation unit 241 can make the background sound during the non-speech period a level that is easy to hear.
  • FIG. 8 illustrates a display screen of the information processing device 20.
  • the information processing device 20 is provided with, for example, a PTT button display DB on an application screen. Further, the PTT button display DB is displayed large, for example, at the center of the screen so that the position of the PTT button display can be touched without looking at the display screen.
  • the control unit 26 switches the PTT function from the off state to the on state or from the on state to the off state every time the position of the PTT button display is touched.
  • a VOX button display may be provided on the application screen, and the VOX function may be switched from the off state to the on state or from the on state to the off state each time the position of the VOX button display is touched.
  • the operation switching of the PTT function or the operation switching of the VOX function is performed in the information processing apparatus 20, the operation of the above-described embodiment can be performed even if a headset having no switch is used. be able to.
  • the information processing apparatus 20 is capable of adding an application program like a smartphone or the like, it is not limited to the case where the application program for performing the operation of the above-described embodiment is installed in advance. The operation of the above-described embodiment may be performed.
  • the information processing device 20 is not limited to a smartphone, and may be a feature phone, a wireless communication device, or the like.
  • a series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • a program in which a processing sequence is recorded is installed and executed in a memory in a computer built in dedicated hardware.
  • the program can be installed and executed on a general-purpose computer capable of executing various processes.
  • the program can be recorded in advance on a hard disk, a solid state drive (SSD), or a read only memory (ROM) as a recording medium.
  • the program is a flexible disk, CD-ROM (Compact Disc Only Memory), MO (Magneto Optical) disc, DVD (Digital Versatile Disc), BD (Blu-Ray Disc (registered trademark)), magnetic disk, semiconductor memory card Can be temporarily or permanently stored (recorded) in a removable recording medium such as.
  • a removable recording medium can be provided as so-called package software.
  • the program may be installed on the computer from a removable recording medium, or may be transferred from the download site to the computer wirelessly or by wire via a network such as a LAN (Local Area Network) or the Internet.
  • the computer can receive the program transferred in this way and install it on a recording medium such as a built-in hard disk.
  • the information processing device of the present technology can also have the following configuration.
  • an utterance detection unit that detects an utterance period based on an input voice signal
  • a background sound generation unit that generates a background sound signal according to the utterance period detection result of the utterance detection unit, Setting a detection period of the utterance detection unit based on an operation signal corresponding to a user operation and a voice synthesis unit that performs a synthesis process using the background sound signal generated by the background sound generation unit
  • An information processing apparatus comprising: a control unit that performs a transmission process of the input audio signal.
  • the information processing device according to any one of (3) to (5), wherein the utterance background sound signal is generated using the input voice signal.
  • the control unit sets a PTT (Push to Talk) function to an ON state or an OFF state based on the operation signal, and sets a period of the ON state to a detection period of the utterance detection unit and a background sound of the background sound generation unit.
  • the information processing apparatus according to any one of (2) to (6), wherein the signal generation period is a transmission operation period in a communication unit that communicates the input audio signal.
  • the background sound generation unit makes the utterance background sound signal lower in signal level than the non-speech background sound signal.
  • the information processing device (9) The information processing device according to (8), wherein the background sound generation unit minimizes a signal level of the utterance background sound signal. (10) The control unit sets a VOX (Voice Operation Transmission) function to an ON state or an OFF state based on the operation signal, and sets the ON state period to a detection period in the utterance detection unit and a background sound in the background sound generation unit.
  • the information processing apparatus according to any one of (2) to (6), wherein the utterance period detected by the utterance detection unit is a transmission operation period in a communication unit that communicates the input voice signal, as the signal generation period. .
  • the information processing device (11) The information processing device according to (10), wherein the background sound generation unit makes the signal level of the non-speech background sound signal smaller than that of the speech background sound signal. (12) The information processing device according to (11), wherein the background sound generation unit minimizes a signal level of the non-speech background sound signal. (13) The sound synthesizer generates an output sound signal by synthesizing the sound signal received by the communication unit with the background sound signal generated by the background sound generator. An information processing apparatus according to claim 1. (14) The input audio signal is a signal indicating audio collected by a microphone of a headset, The information processing device according to any one of (1) to (13), wherein the output audio signal is a signal supplied to a speaker of the headset. (15) The operation signal is a signal generated in response to the user operation in the input unit that receives the user operation or a signal generated in response to the user operation using an operation switch provided in the headset ( An information processing apparatus according to 14).
  • the speech period is detected based on the input voice signal, and the background sound signal is generated according to the detection result of the speech period. Further, an output audio signal is generated by a synthesis process using the generated background sound signal. Further, a detection period for detecting an utterance period based on an operation signal corresponding to a user operation is set, and an input voice signal in the utterance period is transmitted from the communication unit. For this reason, it is possible to easily determine whether or not the apparatus is in the audio transmission state based on the background sound indicated by the output audio signal. Therefore, the present invention is suitable for a device having a PTT function or a VOX function used in a situation where it is difficult to visually confirm the state of the switch and the setting state of the function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Transceivers (AREA)

Abstract

発話検知部232は、マイク31から供給された入力音声信号に基づき発話期間を発話検知部で検知する。背景音生成部241は、発話検知部の発話期間検知結果に応じて背景音信号を生成する。音声合成部242は、背景音生成部241で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成してスピーカ32へ出力する。制御部26は、操作スイッチ33で生成されたユーザ操作に応じた操作信号に基づき発話検知部232の検知期間を設定して、例えば発話期間の入力音声信号を通信部21の送信部211から送信させる。出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。

Description

情報処理装置と情報処理方法およびプログラム
 この技術は、情報処理装置と情報処理方法およびプログラムに関し、通信操作状態を容易に判別できるようにする。
 従来の無線機では、特許文献1に示すように、PTT(Push to Talk)機能を設けて、PTTスイッチがオン状態であるとき音声送信状態としている。また、PTTスイッチを操作できない場合でも音声送信状態とすることができるように、無線機には音声信号が検出されたときにPTTスイッチをオン状態とするVOX(Voice Operation Transmission)機能が設けられている。
特開2012-099999号公報
 ところで、PTTスイッチがオン状態とオフ状態のいずれであるかは、PTTスイッチに触れたり目視しなければ判別できない。また、VOX機能が動作しているかについても、スイッチの状態や機能の設定状態を確認しなければ判別できない。
 そこで、この技術では音声送信状態であるかを容易に判別できる情報処理装置と情報処理方法およびプログラムを提供することを目的とする。
 この技術の第1の側面は、
 入力音声信号に基づき発話期間を検知する発話検知部と、
 前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
 前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と、
 ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置にある。
 この技術において、発話検知部は、例えばヘッドセットのマイクで集音された音声を示す入力音声信号に基づき発話期間を検知される。背景音生成部は、発話検知部の発話期間検知結果に応じて背景音信号の生成を行い、発話期間中は発話背景音信号を生成して、非発話期間中は 発話背景音信号と異なる非発話背景音信号を生成する。例えば発話背景音信号と非発話背景音信号は、異なるノイズ信号またはメロディ音信号、あるいは信号レベルが異なる信号である。また、発話背景音信号は入力音声信号を利用して生成してもよい。音声合成部は、背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する。例えば音声合成部は、入力音声信号の通信を行う通信部で受信した音声信号に背景音生成部で生成された背景音信号を合成して、ヘッドセットのスピーカへ出力する。制御部は、入力部でユーザ操作に応じて生成された操作信号またはヘッドセットに設けられた操作スイッチでユーザ操作に応じて生成された操作信号に基づき、発話検知部の検知期間の設定と入力音声信号の送信処理を行う。
 制御部は、操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間および通信部における送信動作期間とする。この場合、背景音生成部は、発話背景音信号を非発話背景音信号よりも小さい信号レベル、例えば信号レベルを最小とする。また、制御部は、操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間として、発話検知部で検知された発話期間を通信部における送信動作期間とする。この場合、背景音生成部は、非発話背景音信号を発話背景音信号よりも小さい信号レベル、例えば信号レベルを最小とする。
 この技術の第2の側面は、
 入力音声信号に基づき発話期間を発話検知部で検知することと、
 前記発話検知部の発話期間検知結果に応じて背景音信号を背景音生成部で生成することと、
 前記背景音生成部で生成された背景音信号を用いた合成処理を音声合成部で行い出力音声信号を生成することと、
 ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を制御部で行わせること
を含む情報処理方法にある。
 この技術の第3の側面は、
 入力音声信号の送信制御をコンピュータで実行させるプログラムであって、
 前記入力音声信号に基づき発話期間を検知する手順と、
 前記発話期間の検知結果に応じて背景音信号を生成する手順と、
 前記生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する手順と、
 ユーザ操作に応じた操作信号に基づき、前記発話期間を検知する検知期間の設定と、前記入力音声信号の送信処理を行う手順と
を前記コンピュータで実行させるプログラムにある。
 なお、本技術のプログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。
 この技術によれば、入力音声信号に基づき発話期間が検知されて、発話期間の検知結果に応じて背景音信号の生成が行われる。また、生成された背景音信号を用いた合成処理によって出力音声信号が生成される。さらに、ユーザ操作に応じた操作信号に基づき発話期間を検知する検知期間が設定されて、発話期間の入力音声信号が通信部から送信される。したがって、出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また付加的な効果があってもよい。
システムの構成を例示した図である。 第1の形態の構成を例示した図である。 第1の形態の動作を例示したフローチャートである。 第1の実施の形態の動作例を示す図である。 第2の形態の構成を例示した図である。 第2の形態の動作を例示したフローチャートである。 第2の実施の形態の動作例を示す図である。 情報処理装置20の表示画面を例示した図である。
 以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
 1.システムの構成
 2.情報処理装置の第1の実施の形態の構成
 3.情報処理装置の第1の実施の形態の動作
 4.情報処理装置の第2の実施の形態の構成
 5.情報処理装置の第2の実施の形態の動作
 6.変形例
 <1.システムの構成>
 図1は、本技術の情報処理装置を用いたシステムの構成を例示している。システム10は、情報処理装置20とサーバ40を用いて構成されており、情報処理装置20とサーバ40はネットワーク50を介して接続されている。また、情報処理装置20には、ヘッドセット30が接続可能とされている。
 ヘッドセット30は、マイク31とスピーカ32および操作スイッチ33が設けられている。マイク31は、ヘッドセット30を装着しているユーザが発した音声を集音して音声信号に変換して情報処理装置20へ出力する。スピーカ32は情報処理装置20から供給された出力音声信号を音声に変換して出力する。操作スイッチ33は、ユーザ操作に応じた操作信号を情報処理装置20へ出力して、操作スイッチ33に割り当てられた機能をオン状態またはオフ状態とする。例えば、操作スイッチ33としてモーメンタリ動作を行うプッシュスイッチが用いられている場合、情報処理装置20は、操作スイッチ33が操作される毎に、割り当てられた機能をオフ状態からオン状態、またはオン状態からオフ状態に切り替える。
 情報処理装置20は例えばスマートフォンであり、通信部21、撮像部22、入力部23、出力部24、記憶部25及び制御部26を有している。
 通信部21は、無線LAN規格に適合した通信を行う無線LAN部、携帯電話回線を用いて通信を行う公衆網接続部等を有している。通信部21は、サーバ40と例えばインターネットプロトコルに準拠した通信を行う。通信部21は、情報処理装置20で生成した情報、例えばヘッドセット30から供給された音声信号等をサーバ40へ送信する。また、通信部21は、サーバ40から送信された情報を受信して出力部24や記憶部25に出力する。
 撮像部22は、撮像素子と撮像レンズを含む撮像光学系、および画像信号処理部等を含む。撮像素子としては、例えばCCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサが用いられる。撮像部22で生成された画像信号は、出力部24や記憶部25あるいは通信部21を介してサーバ40等に出力される。
 入力部23は、タッチパネルやマイク等を用いて構成されている。入力部23は、例えばタッチパネルに対するユーザ操作に応じた操作信号を生成して制御部26へ出力する。また、入力部23は、マイクでユーザからの音声を取得する。また、入力部23は、ヘッドセット30から供給された音声信号の受け入れ制御を行う。
 出力部24は、表示素子やスピーカ等を用いて構成されている。表示素子としては、例えばLCD(Liquid Crystal Display)またはOLED(Organic Light-Emitting Diode)等が用いられている。出力部24は、制御部26の制御のもとで、撮像部22で取得された撮像画,映像コンテンツ,テキスト情報,メニュー画面,各種設定情報等の表示や、音声コンテンツや会話等の音声を出力する。また、出力部24は、出力音声信号を生成してヘッドセット30に出力する。
 記憶部25は、情報処理装置20で各種動作を行うためのアプリケーションプログラムやコンテンツデータ等を記憶する。
 制御部26は、CPU(Central Processing Unit)やROM(Read Only Memory),RAM(Random Access Memory)等を有している。ROM(Read Only Memory)は、CPU(Central Processing Unit)により実行される各種プログラムを記憶する。RAM(Random Access Memory)は、各種パラメータ等の情報を記憶する。CPUは、ROMあるいは記憶部25に記憶されている各種プログラムを実行して、入力部23で生成された操作信号に基づき、ユーザ操作等に応じて所望の動作が情報処理装置20で行われるように各部を制御する。例えば、制御部26は、操作信号に基づきPTT(Push to Talk)機能やVOX(Voice Operation Transmission)機能を用いて、例えば所望の情報処理装置20-xと音声通信を行うように通信部21と入力部23と出力部24を制御する。
 サーバ40は、情報処理装置20とネットワーク50を介して接続されている他の情報処理装置20-xとの間での有線または無線による通信を仲介する。例えば、サーバ40は、情報処理装置20から送信された音声信号を、情報処理装置20で指定された送信先の情報処理装置20-xへ送信する。また、サーバ40は、情報処理装置20-xから送信された音声信号を、情報処理装置20-xで指定された送信先である情報処理装置20へ送信する。
 <2.情報処理装置の第1の形態の構成>
 図2は、情報処理装置の第1の形態の構成を示している。なお、図2では、情報処理装置20におけるPTT(Push to Talk)機能を用いた音声通信に関する機能ブロックの構成を例示している。
 通信部21は、送信部211と受信部212を有しており、入力部23は、マイク入力制御部231と発話検知部232を有している。また、出力部24は、背景音生成部241と音声合成部242を有している。
 通信部21の送信部211は、入力部23のマイク入力制御部231から供給された音声信号を、制御部26からの制御信号によって指示された送信先を示してサーバ40に送信する。受信部212は、受信音声信号を出力部24の音声合成部242へ出力する。
 入力部23のマイク入力制御部231は、制御部26からの制御信号に基づき、例えばヘッドセット30のマイク31から供給された音声信号の受け入れを制御する。マイク入力制御部231は、音声信号を受け入れる場合、マイク31から供給された音声信号を発話検知部232と通信部21の送信部211へ出力する。発話検知部232は、制御部26からの制御信号に基づき発話検知動作を行い、マイク31から供給された音声信号を用いて発話期間を検知して発話検知結果を出力部24の背景音生成部241へ出力する。
 出力部24の背景音生成部241は、制御部26からの制御信号に基づき背景音生成動作を行い、発話検知結果に応じて背景音を生成する。例えば背景音生成部241は、発話期間と非発話期間で異なる背景音信号を生成する。背景音信号は、会話音と区別が可能な背景音の信号あればよく、例えばノイズ音やメロディ音の信号等を用いる。また、発話期間と非発話期間で異なる背景音信号としては、異なる種類のノイズ音またはメロディ音の信号であってもよく、同じ種類の音であって信号レベルが異なる信号であってもよい。また、発話期間の背景音信号としてマイク31から供給された音声信号を利用すれば、どのような音声が送信されているか確認できるようになる。また、発話期間の背景音信号としてマイク31から供給された音声信号を利用する場合、発話期間背景音であることが明確となるように音声信号を加工して背景音信号を生成してもよい。なお、本技術における異なる背景音信号は、発話期間と非発話期間のいずれか一方の期間のみ信号レベルが「0」である場合を含む。背景音生成部241は、生成した背景音信号を音声合成部242へ出力する。音声合成部242は、受信部212から供給された受信音声信号と背景音生成部241で生成された背景音信号を合成して出力音声信号を生成する。音声合成部242は、生成した出力音声信号を、例えばヘッドセット30のスピーカ32へ出力する。
 制御部26は、例えばヘッドセット30の操作スイッチ33からの操作信号に基づき、PTT(Push to Talk)機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間および通信部における送信動作期間とする。すなわち、制御部26は、PTTがオン状態である期間中は、マイク31から供給された音声信号をマイク入力制御部231で受け入れて送信部211へ供給させて、マイク入力制御部231で受け入れた音声信号の送信先を指定してサーバ40へ送信させる。また、制御部26は、PTTがオン状態である期間中は、発話検知部232と背景音生成部241を動作させて、発話期間と非発話期間で異なる背景音信号を生成して、スピーカ32へ出力させる。
 <3.情報処理装置の第1の形態の動作>
 図3は、第1の実施の形態の動作を例示したフローチャートである。ステップST1で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST2に進み、スイッチ操作が行われていないと判別した場合にはステップST1に戻る。
 ステップST2で情報処理装置はPTT機能を開始する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを開始する。また、制御部26は発話検知部232の検知動作を開始する。さらに、制御部26は、送信部211を制御して送信処理を開始させることで、マイク入力制御部231から供給される音声信号を所望の送信先を示してサーバ40に送信するようにしてステップST3に進む。
 ステップST3で情報処理装置は発話期間であるか判別する。情報処理装置20の発話検知部232は、マイク入力制御部231から出力される音声信号を用いて発話期間であるか検出する、発話検知部232は、マイク入力制御部231から音声信号が出力されたことを検出したとき発話期間の開始とする。また、発話検知部232は、音声信号が出力されない期間が所定期間よりも長くなったとき発話期間の終了とする。発話検知部232は、発話期間であると判別したときステップST4に進み、発話期間でないと判別したときステップST5に進む。
 ステップST4で情報処理装置は発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、発話期間であると判別したときは発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき発話期間背景音を出力してステップST6に進む。
 ステップST5で情報処理装置は非発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、非発話期間であると判別したときは非発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、非発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき非発話期間背景音を出力させてステップST6に進む。
 ステップST6でスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST7に進み、スイッチ操作が行われていないと判別した場合にはステップST3に戻る。
 ステップST7で情報処理装置はPTT機能を終了する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを終了させる。また、制御部26は発話検知部232を制御して検知動作を終了させる。また、制御部26は背景音生成部241を制御して背景音生成動作を終了させる。さらに、制御部26は、送信部211を制御して送信処理を終了させてステップST1に戻る。
 図4は、第1の実施の形態の動作例を示している。なお、ヘッドセット30の操作スイッチ33は、上述のようにプッシュスイッチが用いられており、操作スイッチ33が操作される毎に、PTT機能がオフ状態からオン状態、またはオン状態からオフ状態に切り替えられる場合について例示している。
 時点t1で操作スイッチ33が操作されるとPTT機能はオン状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が開始される。また、通信部21では入力部23で受け付けた音声信号を送信する送信動作が開始される。さらに、入力部23で発話が検知されるまでは非発話期間であることから、背景音生成部241では非発話期間背景音信号が生成されて、出力部24から出力音声信号が供給されるスピーカ32では非発話期間背景音が出力される。したがって、ユーザは非発話期間背景音によってPTT機能がオン状態であることを判別できる。
 その後、音声信号が入力部23に入力されて、時点t2で発話検知部232によって発話が検知されて発話期間の開始と判別されると、背景音生成部241では発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。したがって、ユーザは発話期間背景音によって、音声の送信が行われていることを判別できる。
 音声信号が入力部23に入力されなくなり時点t3で発話検知部232によって終話が検知されて発話期間の終了と判別されると、背景音生成部241では非発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。したがって、ユーザは非発話期間背景音によって、音声の送信が終了したことを判別できる。
 その後、音声信号が入力部23に入力されて、時点t4で発話検知部232によって発話が検知されて発話期間の開始と判別されると、スピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。また、音声信号が入力部23に入力されなくなり時点t5で発話検知部232によって終話が検知されて発話期間の終了と判別されると、スピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。
 また、時点t6で操作スイッチ33が操作されるとPTT機能はオフ状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が終了される。また、通信部21では入力部23で受け付けた音声信号を送信する送信動作が終了される。さらに、背景音生成部241では背景音信号の生成が終了される。したがって、ユーザは発話期間背景音と非発話期間背景音のいずれも出力されないことからPTT機能がオフ状態であることを判別できる。
 このように、第1の実施の形態によれば、PTT機能がオン状態であるとき、発話期間背景音または非発話期間背景音が出力される。したがって、スイッチの操作位置や出力部24の表示画面を確認しなくとも、PTT機能がオン状態であることを背景音で容易に判別できるようになる。また、発話期間では、非発話期間背景音と異なる発話期間背景音が出力されるので、マイク31から供給された音声信号が送信されていることを発話期間背景音によって容易に判別できる。さらに、発話背景音信号を非発話背景音信号よりも信号レベルを小さく、例えば発話背景音信号の信号レベルを最小とすれば、マイク31から供給された音声信号が送信されているときに背景音が気にならないようにできる。
 <4.情報処理装置の第2の形態の構成>
 図5は、情報処理装置の第2の形態の構成を示している。なお、図5では、情報処理装置20におけるVOX((Voice Operation Transmission)機能を用いた音声通信に関する機能ブロックの構成を例示している。
 通信部21は、送信部211と受信部212を有しており、入力部23は、マイク入力制御部231と発話検知部232を有している。また、出力部24は、背景音生成部241と音声合成部242を有している。
 通信部21の送信部211は、入力部23の発話検知部232で検出された発話期間に入力部23のマイク入力制御部231から供給された音声信号を、制御部26からの制御信号によって指示された送信先を示してサーバ40に送信する。受信部212は、受信音声信号を出力部24の音声合成部242へ出力する。
 入力部23のマイク入力制御部231は、制御部26からの制御信号に基づき、例えばヘッドセット30のマイク31で生成された音声信号の受け入れを制御する。マイク入力制御部231は、音声信号を受け入れる場合、マイク31から供給された音声信号を発話検知部232と通信部21の送信部211へ出力する。発話検知部232は、制御部52からの制御信号に基づき発話検知動作を行い、マイク31から供給された音声信号を用いて発話期間を検知して発話検知結果を通信部21の送信部211と出力部24の背景音生成部241へ出力する。
 出力部24の背景音生成部241は、制御部26からの制御信号に基づき背景音生成動作を行い、発話検知結果に応じて背景音を生成する。例えば背景音生成部241は、発話期間と非発話期間で異なる背景音信号を生成する。背景音信号は、会話音と区別が可能な背景音の信号あればよく、例えばノイズ音やメロディ音の信号等を用いる。また、発話期間と非発話期間で異なる背景音信号としては、異なる種類のノイズ音またはメロディ音の信号であってもよく、同じ種類の音であって信号レベルが異なる信号であってもよい。なお、本技術における異なる背景音信号は、信号レベルが「0」である場合を含む。背景音生成部241は、生成した背景音信号を音声合成部242へ出力する。音声合成部242は、受信部212から供給された受信音声信号と背景音生成部241で生成された背景音信号を合成して出力音声信号を生成する。音声合成部242は、生成した出力音声信号を、例えばヘッドセット30のスピーカ32へ出力する。
 制御部26は、例えばヘッドセット30の操作スイッチ33からの操作信号に基づき、VOX((Voice Operation Transmission)機能を用いた音声通信の制御動作を行う。制御部26は、VOXがオン状態である期間中、マイク31から供給された音声信号をマイク入力制御部231で受け入れて送信部211へ供給させる。また、制御部26は、VOXがオン状態である期間中、発話検知部232と背景音生成部241を動作させて、発話期間と非発話期間で異なる背景音信号を生成して、スピーカ32へ出力させる。また、制御部26は、VOXがオン状態である期間は、発話検知部232で検知された発話期間を送信部211の送信動作期間として、発話期間にマイク入力制御部231で受け入れた音声信号の送信先を指定してサーバ40へ送信させる。
 <5.情報処理装置の第2の形態の動作>
 図6は、第2の実施の形態の動作を示すフローチャートである。ステップST11で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST12に進み、スイッチ操作が行われていないと判別した場合にはステップST11に戻る。
 ステップST12で情報処理装置はVOX機能を開始する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを開始する。また、制御部26は発話検知部232の検知動作を開始してステップST13に進む。
 ステップST13で情報処理装置は発話期間であるか判別する。情報処理装置20の発話検知部232は、マイク入力制御部231から出力される音声信号を用いて発話期間であるか検出する。発話検知部232は、マイク入力制御部231から音声信号が出力されたことを検出したとき発話期間の開始として、音声信号が出力されない期間が所定期間よりも長くなったとき発話期間の終了として、発話期間であると判別したときステップST14に進み、発話期間でないと判別したときステップST16に進む。
 ステップST14で情報処理装置は音声信号を送信する。発話検知部232と制御部26は、送信部211を制御して、発話期間は送信処理を行うようにして、マイク入力制御部231から供給される音声信号を所望の送信先に送信させてステップST15に進む。
 ステップST15で情報処理装置は発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、発話期間であると判別したときは発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき発話期間背景音を出力してステップST17に進む。
 ステップST16で情報処理装置は非発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、非発話期間であると判別したときは非発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、非発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき非発話期間背景音を出力させてステップST17に進む。
 ステップST17でスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST18に進み、スイッチ操作が行われていないと判別した場合にはステップST13に戻る。
 ステップST18で情報処理装置はVOX機能を終了する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを終了させる。また、制御部26は発話検知部232を制御して検知動作を終了させる。さらに、制御部26は、背景音生成部241を制御して背景音生成動作を終了させてステップST11に戻る。
 図7は、第2の実施の形態の動作例を示している。なお、ヘッドセット30の操作スイッチ33は、上述のようにプッシュスイッチが用いられており、操作スイッチ33が操作される毎に、VOX機能がオフ状態からオン状態、またはオン状態からオフ状態に切り替えられる場合について例示している。
 時点t11で操作スイッチ33が操作されるとVOX機能はオン状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が開始される。さらに、入力部23で発話が検知されるまでは非発話期間であることから、背景音生成部241では非発話期間背景音信号が生成されて、出力部24から出力音声信号が供給されるスピーカ32では非発話期間背景音が出力される。したがって、ユーザは非発話期間背景音によってVOX機能がオン状態であることを判別できる。
 その後、音声信号が入力部23に入力されて、時点t12で発話検知部232によって発話が検知されて発話期間の開始と判別されると、通信部21では入力部23で受け付けた音声信号を送信する送信動作が開始される。また、背景音生成部241では発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。したがって、ユーザは発話期間背景音によって、音声の送信が行われていることを判別できる。
 音声信号が入力部23に入力されなくなり時点t13で発話検知部232によって終話が検知されて発話期間の終了と判別されると、通信部21では送信動作が終了されて、背景音生成部241では非発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。したがって、ユーザは非発話期間背景音によって、音声の送信が終了したことを判別できる。
 その後、音声信号が入力部23に入力されて、時点t14で発話検知部232によって発話が検知されて発話期間の開始と判別されると、通信部21では音声信号の送信動作が開始されて、スピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。また、音声信号が入力部23に入力されなくなり時点t15で発話検知部232によって終話が検知されて発話期間の終了と判別されると、通信部21では送信動作が終了されて、スピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。
 また、時点t16で操作スイッチ33が操作されるとVOX機能はオフ状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が終了される。また、背景音生成部241では背景音信号の生成が終了される。したがって、ユーザは発話期間背景音と非発話期間背景音のいずれも出力されないことからVOX機能がオフ状態であることを判別できる。
 このように、第2の実施の形態によれば、VOX機能がオン状態であるとき、発話期間背景音または非発話期間背景音が出力されるので、スイッチの操作位置や出力部24の表示画面を確認しなくとも、VOX機能がオン状態であることを背景音で容易に判別できるようになる。また、発話期間では、非発話期間背景音と異なる発話期間背景音が出力されるので、マイク31から供給された音声信号が送信されていることを発話期間背景音によって容易に判別できる。さらに、非発話背景音信号を発話背景音信号よりも信号レベルを小さく、例えば非発話背景音信号の信号レベルを最小とすれば、受信部212で受信した受信音声信号に背景音信号を重畳して出力音声信号を生成する場合、受信音声を聞き取る際に背景音の影響を少なくできる。
 <6.変形例>
 上述の第1の実施の形態ではPTT機能を用いる場合、第2の実施の形態ではVOX機能を用いる場合について説明したが、情報処理装置はPTT機能とVOX機能を有しており、いずれかを選択して利用可能としてもよい。この場合、非発話期間背景音は、PTT機能とVOX機能とで異なる背景音とすることで、スピーカ32から出力される音声でいずれの機能が利用されているかを容易に判別できるようになる。
 発話検知部232では、発話と終話の検知動作を行い発話期間を検知したが、マイク入力制御部231で受け入れされたマイク31からの音声信号に基づきユーザの周囲音レベルを検出して、背景音生成部241は、周囲音レベルに応じて非発話期間背景音信号の信号レベルを調整すれば、非発話期間背景音を聞き取りやすいレベルにできる。
 また、上述の実施の形態では、PTT機能あるいはVOX機能をヘッドセット30に設けられた操作スイッチ33のスイッチ操作に応じて動作させたが、情報処理装置20の入力部23のタッチパネル等の操作に応じて動作させてもよい。図8は、情報処理装置20の表示画面を例示している。情報処理装置20は、例えばアプリ画面上にPTTボタン表示DBが設けられている。また、PTTボタン表示DBは、表示画面を見なくともPTTボタン表示の位置をタッチできるように、例えば画面中央に大きく表示されている。制御部26はPTTボタン表示の位置がタッチされる毎に、PTT機能をオフ状態からオン状態あるいはオン状態からオフ状態に切り替える。また、アプリ画面上にVOXボタン表示を設けて、VOXボタン表示の位置がタッチされる毎に、VOX機能をオフ状態からオン状態あるいはオン状態からオフ状態に切り替えてもよい。このように、情報処理装置20で、PTT機能の動作切り替えやVOX機能の動作切り替えを行うようにすれば、スイッチが設けられていないヘッドセットを使用しても上述の実施の形態の動作を行うことができる。
 また、情報処理装置20がスマートフォン等のようにアプリケーションプログラムの追加が可能である場合、上述の実施の形態の動作を行うアプリケーションプログラムが予めインストールされている場合に限らず、アプリケーションプログラムを追加して、上述の実施の形態の動作を行うことができるようにしてもよい。
 さらに、情報処理装置20の入力部23にマイク235が設けられており、出力部24にスピーカ245が設けられていれば、ヘッドセットを使用していない場合でも、情報処理装置20のマイク235とスピーカ245を使用して、上述の実施の形態と同様な動作を行うことができる。また、情報処理装置20はスマートフォンに限らず、フィーチャーフォンや無線通信装置等であってもよい。
 明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
 例えば、プログラムは記録媒体としてのハードディスクやSSD(Solid State Drive)、ROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、BD(Blu-Ray Disc(登録商標))、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからLAN(Local Area Network)やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。
 また、本技術の情報処理装置は以下のような構成も取ることができる。
 (1) 入力音声信号に基づき発話期間を検知する発話検知部と、
 前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
 前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と
 ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置。
 (2) 前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成する(1)に記載の情報処理装置。
 (3) 前記発話背景音信号と前記非発話背景音信号は、異なる背景音信号である(2)に記載の情報処理装置。
 (4) 前記異なる背景音信号は、異なるノイズ信号またはメロディ音信号である(3)に記載の情報処理装置。
 (5) 前記発話背景音信号と前記非発話背景音信号は、信号レベルが異なる(3)または(4)に記載の情報処理装置。
 (6) 前記発話背景音信号は、前記入力音声信号を利用して生成する(3)乃至(5)のいずれかに記載の情報処理装置。
 (7) 前記制御部は、前記操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とする(2)乃至(6)のいずれかに記載の情報処理装置。
 (8) 前記背景音生成部は、前記発話背景音信号を前記非発話背景音信号よりも信号レベルを小さくする(7)に記載の情報処理装置。
 (9) 前記背景音生成部は、前記発話背景音信号の信号レベルを最小とする(8)に記載の情報処理装置。
 (10) 前記制御部は、前記操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とする(2)乃至(6)のいずれかに記載の情報処理装置。
 (11) 前記背景音生成部は、前記非発話背景音信号を前記発話背景音信号よりも信号レベルを小さくする(10)に記載の情報処理装置。
 (12) 前記背景音生成部は、前記非発話背景音信号の信号レベルを最小とする(11)に記載の情報処理装置。
 (13) 前記音声合成部は、前記通信部で受信した音声信号に前記背景音生成部で生成された背景音信号を合成して出力音声信号を生成する(1)乃至(12)のいずれかに記載の情報処理装置。
 (14) 前記入力音声信号は、ヘッドセットのマイクで集音された音声を示す信号であり、
 前記出力音声信号は、前記ヘッドセットのスピーカに供給される信号である(1)乃至(13)のいずれかに記載の情報処理装置。
 (15) 前記操作信号は、前記ユーザ操作を受け付ける入力部で前記ユーザ操作に応じて生成された信号または前記ヘッドセットに設けられた操作スイッチで前記ユーザ操作に応じて生成された信号である(14)に記載の情報処理装置。
 この技術の情報処理装置と情報処理方法およびプログラムによれば、入力音声信号に基づき発話期間が検知されて、発話期間の検知結果に応じて背景音信号の生成が行われる。また、生成された背景音信号を用いた合成処理によって出力音声信号が生成される。さらに、ユーザ操作に応じた操作信号に基づき発話期間を検知する検知期間が設定されて、発話期間の入力音声信号が通信部から送信される。このため、出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。したがって、スイッチの状態や機能の設定状態を目視で確認することが困難な状況下で使用されるPTT機能やVOX機能を有した機器に適している。
 10・・・システム
 20,20-x・・・情報処理装置
 21・・・通信部
 22・・・撮像部
 23・・・入力部
 24・・・出力部
 25・・・記憶部
 26,52・・・制御部
 30・・・ヘッドセット
 31,235・・・マイク
 32,245・・・スピーカ
 33・・・操作スイッチ
 40・・・サーバ
 50・・・ネットワーク
 211・・・送信部
 212・・・受信部
 231・・・マイク入力制御部
 232・・・発話検知部
 241・・・背景音生成部
 242・・・音声合成部

Claims (20)

  1.  入力音声信号に基づき発話期間を検知する発話検知部と、
     前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
     前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と、
     ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
    を備える情報処理装置。
  2.  前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成する
    請求項1に記載の情報処理装置。
  3.  前記発話背景音信号と前記非発話背景音信号は、異なる背景音信号である
    請求項2に記載の情報処理装置。
  4.  前記異なる背景音信号は、異なるノイズ信号またはメロディ音信号である
    請求項3に記載の情報処理装置。
  5.  前記発話背景音信号と前記非発話背景音信号は、信号レベルが異なる
    請求項3に記載の情報処理装置。
  6.  前記発話背景音信号は、前記入力音声信号を利用して生成する
    請求項3に記載の情報処理装置。
  7.  前記制御部は、前記操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とする
    請求項2に記載の情報処理装置。
  8.  前記背景音生成部は、前記発話背景音信号を前記非発話背景音信号よりも信号レベルを小さくする
    請求項7に記載の情報処理装置。
  9.  前記背景音生成部は、前記発話背景音信号の信号レベルを最小とする
    請求項8に記載の情報処理装置。
  10.  前記制御部は、前記操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とする
    請求項2記載の情報処理装置。
  11.  前記背景音生成部は、前記非発話背景音信号を前記発話背景音信号よりも信号レベルを小さくする
    請求項10に記載の情報処理装置。
  12.  前記背景音生成部は、前記非発話背景音信号の信号レベルを最小とする
    請求項11に記載の情報処理装置。
  13.  前記音声合成部は、音声信号の通信を行う通信部で受信した音声信号に前記背景音生成部で生成された背景音信号を合成して出力音声信号を生成する
    請求項1に記載の情報処理装置。
  14.  前記入力音声信号は、ヘッドセットのマイクで集音された音声を示す信号であり、
     前記出力音声信号は、前記ヘッドセットのスピーカに供給される信号である
    請求項1に記載の情報処理装置。
  15.  前記操作信号は、前記ユーザ操作を受け付ける入力部で前記ユーザ操作に応じて生成された信号または前記ヘッドセットに設けられた操作スイッチで前記ユーザ操作に応じて生成された信号である
    請求項14に記載の情報処理装置。
  16.  入力音声信号に基づき発話期間を発話検知部で検知することと、
     前記発話検知部の発話期間検知結果に応じて背景音信号を背景音生成部で生成することと、
     前記背景音生成部で生成された背景音信号を用いた合成処理を音声合成部で行い出力音声信号を生成することと、
     ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を制御部で行わせること
    を含む情報処理方法。
  17.  前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成することをさらに含む
    請求項16に記載の情報処理方法。
  18.  前記制御部は、前記操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とすることをさらに含む
    請求項16に記載の情報処理方法。
  19.  前記制御部は、前記操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とすることをさらに含む
    請求項16記載の情報処理方法。
  20.  入力音声信号の送信制御をコンピュータで実行させるプログラムであって、
     前記入力音声信号に基づき発話期間を検知する手順と、
     前記発話期間の検知結果に応じて背景音信号を生成する手順と、
     前記生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する手順と、
     ユーザ操作に応じた操作信号に基づき、前記発話期間を検知する検知期間の設定と、前記入力音声信号の送信処理を行う手順と
    を前記コンピュータで実行させるプログラム。
PCT/JP2019/019513 2018-07-31 2019-05-16 情報処理装置と情報処理方法およびプログラム WO2020026562A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020534071A JP7251549B2 (ja) 2018-07-31 2019-05-16 情報処理装置と情報処理方法およびプログラム
US17/250,435 US20210320684A1 (en) 2018-07-31 2019-05-16 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018143764 2018-07-31
JP2018-143764 2018-07-31

Publications (1)

Publication Number Publication Date
WO2020026562A1 true WO2020026562A1 (ja) 2020-02-06

Family

ID=69232435

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/019513 WO2020026562A1 (ja) 2018-07-31 2019-05-16 情報処理装置と情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20210320684A1 (ja)
JP (1) JP7251549B2 (ja)
WO (1) WO2020026562A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002344378A (ja) * 2001-05-21 2002-11-29 Pioneer Electronic Corp 無線通信端末
JP2008060697A (ja) * 2006-08-29 2008-03-13 Matsushita Electric Ind Co Ltd 半二重通話装置
JP2012099999A (ja) * 2010-11-01 2012-05-24 Hitachi Kokusai Electric Inc Vox機能付き無線端末

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
JP4333369B2 (ja) * 2004-01-07 2009-09-16 株式会社デンソー 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
US20190007540A1 (en) * 2015-08-14 2019-01-03 Honeywell International Inc. Communication headset comprising wireless communication with personal protection equipment devices
CN111919253A (zh) * 2018-03-29 2020-11-10 3M创新有限公司 用于头戴式受话器的使用麦克风信号频域表示的声控声音编码
US20230110708A1 (en) * 2021-10-11 2023-04-13 Bitwave Pte Ltd Intelligent speech control for two way radio

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002344378A (ja) * 2001-05-21 2002-11-29 Pioneer Electronic Corp 無線通信端末
JP2008060697A (ja) * 2006-08-29 2008-03-13 Matsushita Electric Ind Co Ltd 半二重通話装置
JP2012099999A (ja) * 2010-11-01 2012-05-24 Hitachi Kokusai Electric Inc Vox機能付き無線端末

Also Published As

Publication number Publication date
JP7251549B2 (ja) 2023-04-04
JPWO2020026562A1 (ja) 2021-08-12
US20210320684A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
JP5910846B2 (ja) 制御装置、制御方法、及び、プログラム
US20120155657A1 (en) Communication device and communication methods
JP2013162325A (ja) 信号処理装置、信号処理方法、プログラム、信号処理システムおよび通信端末
JP5074766B2 (ja) 音響調整装置および音響調整方法
US10140086B2 (en) Electronic device and audio ouputting method thereof
US20120287262A1 (en) In-vehicle information apparatus
JP7467513B2 (ja) 端末、音声連携再生システム及びコンテンツ表示装置
JP2015162795A (ja) 車載装置、車載情報システム
JP2015197694A (ja) 携帯端末装置およびその制御方法
CN106303841A (zh) 一种音频播放方式的切换方法及移动终端
WO2020026562A1 (ja) 情報処理装置と情報処理方法およびプログラム
JP2015002394A (ja) 情報処理装置及びコンピュータプログラム
WO2022002218A1 (zh) 一种音频控制方法、系统及电子设备
JP2019028160A (ja) 電子装置および情報端末システム
JP4359246B2 (ja) 出力方法およびそれを利用した通信装置
JP7498597B2 (ja) 映像処理装置、テレビ受信機、及びプログラム
WO2019207867A1 (ja) 電子機器及び処理システム
JP2018084843A (ja) 入出力装置
JP6559051B2 (ja) 発声機能を備えたロボット装置、発声制御方法およびプログラム
JP2014202808A (ja) 入出力装置
WO2019054012A1 (ja) 情報処理装置、及びプログラム
JP6590221B2 (ja) 映像音声出力装置
KR102001314B1 (ko) 노래방 녹음 음질 개선 장치 및 방법
JP2022169658A (ja) 入出力装置
CN105554630A (zh) 受话器、音频播放方法及装置、电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19843491

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020534071

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19843491

Country of ref document: EP

Kind code of ref document: A1