WO2021192410A1 - 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム - Google Patents

音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム Download PDF

Info

Publication number
WO2021192410A1
WO2021192410A1 PCT/JP2020/043489 JP2020043489W WO2021192410A1 WO 2021192410 A1 WO2021192410 A1 WO 2021192410A1 JP 2020043489 W JP2020043489 W JP 2020043489W WO 2021192410 A1 WO2021192410 A1 WO 2021192410A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
ambient sound
state
unit
sound
Prior art date
Application number
PCT/JP2020/043489
Other languages
English (en)
French (fr)
Inventor
小林 建
利一 藤井
一夫 野村
達弘 ▲鮭▼川
真史 上村
丁珠 崔
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020054196A external-priority patent/JP7447602B2/ja
Priority claimed from JP2020054197A external-priority patent/JP7424156B2/ja
Priority claimed from JP2020054853A external-priority patent/JP7443877B2/ja
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Priority to CN202080093491.2A priority Critical patent/CN114981756A/zh
Publication of WO2021192410A1 publication Critical patent/WO2021192410A1/ja
Priority to US17/946,162 priority patent/US20230012555A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Definitions

  • the present invention relates to a voice output control device, a voice output system, a voice output control method, and a program.
  • Patent Document 1 A technology for outputting audio in addition to displaying the content on a display screen such as an electronic book or a game capable of outputting audio is known (see, for example, Patent Document 1).
  • the present invention has been made in view of the above, and an object of the present invention is to enable appropriate confirmation of ambient sounds.
  • the voice output control device has an orientation detection unit that detects the state of the orientation of the user's face and an ambient sound acquisition that acquires the ambient sound of the user.
  • the peripheral sound reduction processing unit that performs processing to reduce the ambient sound based on the peripheral sound acquired by the peripheral sound acquisition unit, and the orientation detection unit are in the first state of the user's face orientation.
  • the ambient sound reduction processing unit outputs a sound with the ambient sound reduced, and when the state of the user's face orientation changes from the first state to the second state, the peripheral sound reduction processing unit It is provided with an audio output control unit that makes it easier to hear the ambient sound than the state in which the ambient sound is reduced.
  • the user can use the content based on the detection results of the line-of-sight detection unit that detects the user's line-of-sight direction, the peripheral sound acquisition unit that acquires the user's peripheral sound, and the line-of-sight detection unit.
  • the gaze determination unit that determines whether or not the user is gazing at the display screen displaying the content, and the gaze determination unit that determines that the user is gazing at the display screen displaying the content, and the case where the user is not gazing.
  • a voice output control unit for changing the output state of the peripheral sound acquired by the peripheral sound acquisition unit and outputting the sound is provided.
  • the audio output system includes the above-mentioned audio output control device, a sound collecting unit that collects ambient sounds, and an audio output unit that outputs audio.
  • the voice output control method includes a step of detecting the state of the face orientation of the user using the voice output device, a step of acquiring the ambient sound of the user, and the state of the face orientation of the user. Is the first state, a voice with the ambient sound reduced based on the acquired ambient sound is output, and when the state of the user's face orientation changes from the first state to the second state, the ambient sound is output. Includes a step to make the ambient sound easier to hear than the reduced state.
  • the step of detecting the state of the face orientation of the user using the voice output device, the step of acquiring the ambient sound of the user, and the state of the face orientation of the user are first.
  • the sound with the peripheral sound reduced based on the acquired peripheral sound is output, and when the state of the user's face orientation changes from the first state to the second state, the peripheral sound is reduced.
  • the computer perform the steps to make the ambient sound easier to hear than the state.
  • the voice output control method is based on a step of detecting the line-of-sight direction of a user using a voice output device, a step of acquiring the ambient sound of the user, and a detection result of the line-of-sight direction.
  • the user displays the content based on the step of detecting the line-of-sight direction of the user using the voice output device, the step of acquiring the ambient sound of the user, and the detection result of the line-of-sight direction.
  • the step of determining whether or not the user is gazing at the displayed display screen, the case where it is determined that the user is gazing at the display screen displaying the content, and the case where it is determined that the user is not gazing at the ambient sound Have the computer perform the steps of changing the output state and outputting audio.
  • FIG. 1 is a block diagram showing an audio output device as an audio output system according to the first embodiment.
  • FIG. 2 is a schematic view illustrating the orientation of the audio output device.
  • FIG. 3 is a schematic view illustrating the orientation of the audio output device.
  • FIG. 4 is a flowchart showing an example of the processing flow in the audio output system according to the first embodiment.
  • FIG. 5 is a flowchart showing another example of the processing flow in the audio output system according to the first embodiment.
  • FIG. 6 is a schematic view of the audio output system according to the second embodiment.
  • FIG. 7 is a block diagram of the audio output system according to the second embodiment.
  • FIG. 8 is a block diagram of the audio output system according to the third embodiment.
  • FIG. 9 is a flowchart showing an example of a processing flow in the audio output system according to the third embodiment.
  • FIG. 10 is a block diagram showing a content output system according to the fourth embodiment.
  • FIG. 11 is a flowchart showing an example of a processing flow in the content output system according to the fourth embodiment.
  • FIG. 12 is a flowchart showing another example of the processing flow in the content output system according to the fourth embodiment.
  • FIG. 13 is a block diagram of the content output system according to the fifth embodiment.
  • FIG. 14 is a flowchart showing an example of a processing flow in the content output system according to the fifth embodiment.
  • FIG. 15 is a block diagram of the content output system according to the sixth embodiment.
  • FIG. 10 is a block diagram showing a content output system according to the fourth embodiment.
  • FIG. 11 is a flowchart showing an example of a processing flow in the content output system according to the fourth embodiment.
  • FIG. 12 is a flowchart showing another example of the processing flow in the content
  • FIG. 16 is a flowchart showing an example of a processing flow in the content output system according to the sixth embodiment.
  • FIG. 17 is a block diagram showing a content output system according to the seventh embodiment.
  • FIG. 18 is a flowchart showing an example of a processing flow in the content output system according to the seventh embodiment.
  • FIG. 19 is a flowchart showing another example of the processing flow in the content output system according to the seventh embodiment.
  • FIG. 20 is a block diagram of the content output system according to the eighth embodiment.
  • FIG. 21 is a flowchart showing an example of a processing flow in the content output system according to the eighth embodiment.
  • FIG. 22 is a block diagram of the content output system according to the ninth embodiment.
  • FIG. 23 is a flowchart showing an example of the processing flow in the content output system according to the ninth embodiment.
  • FIG. 1 is a block diagram showing an audio output device 10 as an audio output system 1 according to the first embodiment.
  • the audio output device is, for example, headphones 10.
  • the audio output system 1 is composed of the headphones 10 alone.
  • the headphone 10 outputs sound and cancels noise of surrounding sound.
  • the headphones 10 are, for example, an overhead type and are worn on the user's head.
  • the headphones 10 output audio based on the audio data output from the audio output control device 20.
  • the headphones 10 can cancel ambient noise based on the control signal output from the audio output control device 20.
  • the headphone 10 has a built-in voice output control device 20.
  • the headphones 10 include a left audio output unit 11, a right audio output unit 12, an audio input unit 13, a left microphone 14, a right microphone 15, a sensor 16, and an audio output control device 20.
  • the left audio output unit 11 is an audio output unit for the left ear.
  • the left audio output unit 11 has a housing that covers the left ear.
  • the left audio output unit 11 outputs audio to be viewed by the left ear.
  • the left audio output unit 11 acquires audio data from the audio output control device 20.
  • the left audio output unit 11 outputs the left channel data of the audio data.
  • the left audio output unit 11 converts the left channel data of the audio data into D / A and outputs the electric signal obtained by converting it into sound.
  • the right audio output unit 12 is an audio output unit for the right ear.
  • the right audio output unit 12 outputs audio to be viewed by the right ear.
  • the right audio output unit 12 acquires audio data from the audio output control device 20.
  • the right audio output unit 12 outputs the right channel data of the audio data.
  • the right audio output unit 12 converts the right channel data of the audio data into D / A and outputs the electric signal obtained by converting it into sound.
  • the audio input unit 13 inputs audio data of content such as music or video.
  • the voice input unit 13 may input voice data stored in a storage unit (not shown).
  • the voice input unit 13 may input voice data by wire or wirelessly from an electronic device such as an electronic book terminal, a smartphone, a tablet terminal, a portable music playback device, and a portable game machine (not shown).
  • the left microphone 14 is arranged in the housing of the left audio output unit 11.
  • the left microphone 14 acquires ambient sound.
  • the ambient sound is an environmental sound including, for example, the voice of a third party and the noise of a vehicle.
  • the left microphone 14 outputs the acquired voice to the peripheral sound acquisition unit 24.
  • the right microphone 15 is arranged in the housing of the right audio output unit 12.
  • the right microphone 15 acquires ambient sound.
  • the right microphone 15 outputs the acquired voice to the peripheral sound acquisition unit 24.
  • the sensor 16 detects the posture of the headphones 10, in other words, the orientation of the headphones 10. In other words, the sensor 16 detects the orientation of the face of the user wearing the headphones 10.
  • the sensor 16 detects the posture of the headphones 10 by using various sensors such as a three-axis acceleration sensor. Any known method may be used for calculating the posture from various sensors.
  • the sensor 16 outputs the detection result to the orientation detection unit 21. It is preferable that the sensor 16 is arranged in the housing of the left audio output unit 11 and the housing of the right audio output unit 12, respectively. As a result, the posture of the headphones 10 can be detected with high accuracy.
  • the audio output control device 20 outputs audio from the headphones 10 and cancels ambient noise.
  • the voice output control device 20 outputs a voice with reduced peripheral sounds according to the direction of the user's face, or makes the peripheral sounds easier to hear than the state with reduced peripheral sounds.
  • the voice output control device 20 is, for example, an arithmetic processing unit (control unit) composed of a CPU (Central Processing Unit), a voice processing processor, or the like.
  • the voice output control device 20 loads a program stored in a storage unit (not shown) into the memory and executes an instruction included in the program.
  • the voice output control device 20 includes an orientation detection unit 21, a voice processing unit 22, and a storage unit that is an internal memory.
  • the voice processing unit 22 includes a voice acquisition unit 23, an ambient sound acquisition unit 24, an ambient sound reduction processing unit 25, and a voice output control unit 26.
  • the audio output control device 20 may be composed of one or a plurality of devices.
  • the orientation detection unit 21 detects the posture of the headphones 10, in other words, the orientation of the headphones 10 from the detection result of the sensor 16. As a result, the orientation detection unit 21 detects the orientation of the face of the user wearing the headphones 10. More specifically, the orientation detection unit 21 detects that the orientation of the user's face is in the first state and that the orientation of the user's face is in a second state different from the first state. The orientation detection unit 21 detects, for example, that the user's face is facing downward and that the user's face is not facing downward. The orientation detection unit 21 can detect, for example, that the acceleration generated by the change in the orientation of the user's face is smaller than the threshold value and that the acceleration generated by the change in the orientation of the user's face is equal to or greater than the threshold value.
  • FIG. 2 and 3 are schematic views showing the orientation of the headphones when the user wears the headband 101 of the headphones 10 over the top of the user's head.
  • FIG. 2 is a diagram showing a posture when the headphones 10 are viewed from the side of the right audio output unit 12 in the lateral direction, specifically, in the right lateral direction when the user is wearing the headphones 10. In this case, the face of the user wearing the headphones 10 is facing in the + Y direction, and is facing forward rather than downward.
  • FIG. 3 is a diagram showing a posture when the headphones 10 are viewed from the lateral direction, specifically, from the right lateral direction in a state where the user is wearing the headphones 10, as in FIG. 2. In this case, the face of the user wearing the headphones 10 faces downward in the + Y direction.
  • the orientation of the face of the user wearing the headphones 10 is defined by the inclination of the headphones 10 in the Y-axis direction and the Z-axis direction with respect to the direction in which the gravitational acceleration G is detected.
  • the headphone 10 when the headphone 10 is worn on the user's head, it is determined from the angle of the headphone 10 whether or not the user's face is facing downward. For example, as in the state shown in FIG. 2, when the direction in which the gravitational acceleration G is detected is within ⁇ 20 degrees from the ⁇ Z direction, the user's face is not facing downward but facing forward. Judge that Further, as in the state shown in FIG. 3, when the direction in which the gravitational acceleration G is detected is ⁇ 20 degrees or more from ⁇ Z, it is determined that the direction of the user's face is downward.
  • the Z-axis is not limited, and a Y-axis or a composite vector of the Z-axis and the Y-axis may be used.
  • Whether or not the headphones 10 are worn on the user's head can be determined from the detection result of the sensor 16. If the detection result of the sensor 16 in the X-axis direction is almost horizontal and the gravitational acceleration is not detected within, for example, ⁇ 10 degrees from the + Y-axis direction or the ⁇ Y-axis direction, the headphone 10 is worn on the user's head. Judge that Further, other sensors that detect, for example, the degree of opening of the headband 101 or the pressure on the ear pads may be used.
  • the voice acquisition unit 23 acquires voice data for output from the left voice output unit 11 and the right voice output unit 12 from the voice input unit 13.
  • the ambient sound acquisition unit 24 acquires the user's ambient sound from the left microphone 14 and the right microphone 15.
  • the ambient sound reduction processing unit 25 reduces the ambient sound by canceling the noise of the ambient sound based on the ambient sound acquired by the ambient sound acquisition unit 24.
  • a noise canceling method a known method can be applied, and a signal in which the phase of the ambient sound is reversed is combined with the voice data acquired by the voice input unit 13 and output to the voice output control unit 26.
  • the voice output control unit 26 controls to output voice data as sound from the headphones 10. More specifically, the audio output control unit 26 D / A-converts the left channel data of the audio data and outputs the amplified signal from the left audio output unit 11. The audio output control unit 26 D / A-converts the right channel data of the audio data and outputs the amplified signal from the right audio output unit 12.
  • the voice output control unit 26 When the orientation detection unit 21 is in the first state of the user's face orientation, the voice output control unit 26 outputs the voice with the ambient sound reduced by the ambient sound reduction processing unit 25, and the orientation of the user's face is changed.
  • the state changes from the first state to the second state the ambient sound is made easier to hear than the state in which the ambient sound is reduced by the ambient sound reduction processing unit 25.
  • the voice output control unit 26 When the user's face is facing downward, the voice output control unit 26 outputs the sound with the ambient sound reduced by the ambient sound reduction processing unit 25, and the user's face is facing downward.
  • the peripheral sound is made easier to hear than the state in which the peripheral sound is reduced by the peripheral sound reduction processing unit 25.
  • the voice output control unit 26 When the acceleration generated by the change in the orientation of the user's face is smaller than the threshold value, the voice output control unit 26 outputs the voice with the ambient sound reduced by the ambient sound reduction processing unit 25, and outputs the voice with the ambient sound reduced, and the voice output control unit 26 outputs the voice of the orientation of the user's face.
  • the acceleration generated by the change changes to a state of being equal to or higher than the threshold value, the ambient sound is made easier to hear than the state in which the ambient sound is reduced by the ambient sound reduction processing unit 25.
  • the audio output control unit 26 may not perform the ambient sound reduction processing by the ambient sound reduction processing unit 25 so that the ambient sound can be heard more easily than the state in which the ambient sound is reduced by the ambient sound reduction processing unit 25. In this case, the audio output control unit 26 turns off noise cancellation. This makes it easier for the user wearing the headphones 10 to hear the ambient sound.
  • the audio output control unit 26 does not perform the peripheral sound reduction processing by the peripheral sound reduction processing unit 25, and the peripheral sound acquisition unit 24 does not perform the peripheral sound reduction processing as a state in which the peripheral sound is easier to hear than the state in which the peripheral sound is reduced by the peripheral sound reduction processing unit 25.
  • the ambient sound acquired by is may be output from the left audio output unit 11 and the right audio output unit 12. As a result, the user wearing the headphones 10 can hear the ambient sound from the left audio output unit 11 and the right audio output unit 12.
  • FIG. 4 is a flowchart showing an example of the processing flow in the audio output system 1 according to the first embodiment.
  • FIG. 5 is a flowchart showing another example of the processing flow in the audio output system 1 according to the first embodiment.
  • the voice output control device 20 determines whether or not the state of the user's face orientation has changed (step S101). More specifically, the orientation detection unit 21 detects the posture of the headphone 10, in other words, the orientation of the headphone 10 from the detection result of the sensor 16, and determines whether or not the orientation of the headphone 10 has changed. When the orientation detection unit 21 determines that the state of the orientation of the user's face has changed (Yes in step S101), the process proceeds to step S102. If the orientation detection unit 21 does not determine that the orientation of the user's face has changed (No in step S101), the process proceeds to step S104.
  • the presence or absence of a change in the state of the user's face orientation determined in step S101 means that the orientation of the user's face is at least one of the X-axis direction, the Y-axis direction, and the Z-axis direction, for example, a change of 10 degrees or more. If so, it is determined that the state of the user's face orientation has changed.
  • the presence or absence of a change in the state of the user's face orientation determined in step S101 means that the state of the user's face orientation changes when the acceleration when the user's face orientation changes is equal to or greater than the threshold value. It is determined that there was.
  • the threshold value in this case is a threshold value for detecting the acceleration that occurs when the user's face suddenly turns in a different direction.
  • the voice output control device 20 changes the state of the user's face orientation detected in step S101 from the first state. It is determined whether or not the change is to the second state (step S102). More specifically, in the voice output control unit 26, the change in the orientation state of the user's face detected in step S101 is such that the user's face is facing downward from the first state in which the user's face is facing downward. Determine if there is a change to the second state.
  • the voice output control unit 26 changes the orientation of the user's face from the first state in which the change in the orientation of the user's face detected in step S101 has an acceleration smaller than the threshold value caused by the change in the orientation of the user's face. It is determined whether or not the acceleration caused by the change of is a change to the second state larger than the threshold value.
  • step S102 When it is determined that the change in the face orientation state of the user is a change from the first state to the second state (Yes in step S102), the voice output control device 20 proceeds to step S103. If it is not determined that the change in the face orientation state of the user is a change from the first state to the second state (No in step S102), the voice output control device 20 proceeds to step S104.
  • the voice output control device 20 turns off noise cancellation (step S103). ). More specifically, the audio output control unit 26 turns off the noise cancellation by the ambient sound reduction processing unit 25. The audio output control unit 26 may output the audio of the content from the left audio output unit 11 and the right audio output unit 12. In this state, the audio of the content is output from the left audio output unit 11 and the right audio output unit 12 in a state where the surrounding audio can be easily heard. The audio output control device 20 proceeds to step S104.
  • the voice output control device 20 determines whether or not to end the use of the headphones 10 (step S104). For example, when the power of the headphone 10 is turned off, when the headphone 10 is removed from the user's head, when the sound output from the headphone 10 is stopped, or when the sound output control process is terminated. For example, it is determined that the use is terminated (Yes in step S104), and the process is terminated. If the above does not apply, the audio output control device 20 proceeds to step S105 without determining that the use is terminated (No in step S104).
  • step S105 determines whether or not a predetermined period has elapsed. More specifically, the audio output control unit 26 determines whether or not a preset period of, for example, about 30 seconds to 1 minute has elapsed since the noise cancellation was turned off in step S103. The predetermined period in this case is an appropriate period for the user to confirm the ambient sound. If the audio output control unit 26 does not determine that the predetermined period has elapsed (No in step S105), the determination in step S105 is performed again, and if it is determined that the predetermined period has elapsed (Yes in step S105), the process proceeds to step S106.
  • step S105 If it is determined in step S105 that the predetermined period has elapsed (Yes in step S105), the voice output control device 20 turns on noise cancellation (step S106) and proceeds to step S101.
  • Steps S111, S112, S114, and 115 of the flowchart shown in FIG. 5 perform the same processing as steps S102, S102, S104, and S105 of the flowchart shown in FIG.
  • the voice output control device 20 turns off noise cancellation and outputs ambient sound.
  • Step S113 More specifically, the audio output control unit 26 turns off the noise cancellation by the ambient sound reduction processing unit 25, and outputs the ambient sound acquired by the ambient sound acquisition unit 24 from the left audio output unit 11 and the right audio output unit 12. do.
  • the audio output control unit 26 may output the audio of the content from the left audio output unit 11 and the right audio output unit 12. In this state, the ambient sound is output from the left audio output unit 11 and the right audio output unit 12 together with the audio of the content in a state where the surrounding audio can be easily heard.
  • the audio output control device 20 proceeds to step S114.
  • step S115 If it is determined in step S115 that the predetermined period has elapsed (Yes in step S115), the audio output control device 20 turns on noise cancellation, stops the output of ambient sound (step S116), and proceeds to step S111. ..
  • the face orientation state of the user wearing the headphones 10 changes from the first state to the second state
  • the user's face orientation does not face downward from the downward facing state.
  • the peripheral sound is made easier to hear than the state in which the peripheral sound is reduced.
  • the user's face orientation when the state of the user's face orientation changes from the first state to the second state, the user's face orientation changes from a downward facing state to a non-downward facing state.
  • the change occurs, or when the acceleration generated by the change in the direction of the user's face is equal to or greater than the threshold value, the ambient sound can be heard more easily than in the state where the ambient sound is reduced.
  • the peripheral sounds when the user is in a state where it is presumed that the user has paid attention to the surroundings, the peripheral sounds can be appropriately confirmed from the state in which the ambient sounds are noise-cancelled. In this way, according to the present embodiment, when the user wants to hear the ambient sound, the ambient sound can be appropriately confirmed.
  • the user's face orientation changes from the first state to the second state, the user's face orientation changes from a downward facing state to a non-downward facing state, or ,
  • the acceleration generated by the change in the direction of the user's face is equal to or more than the threshold value, the ambient sound is made easier to hear than the state in which the ambient sound is reduced.
  • the noise canceling function can be turned off to make the surrounding sounds easier to hear.
  • the ambient sound is more easily heard than the state in which the ambient sound is reduced, and the ambient sound reduction processing unit 25 does not perform the ambient sound reduction processing, or the ambient sound reduction processing is not performed and the ambient sound acquisition unit.
  • the peripheral sound acquired by 24 is output from the left audio output unit 11 and the right audio output unit 12. According to this embodiment, the ambient sound can be easily heard.
  • the state of the user's face changes from the first state to the second state
  • the user is seated in a transportation seat while listening to music or the like with headphones 10 and is facing downward.
  • the user wants to know information such as a stop station by broadcasting in the transportation system, and performs an action of raising his face.
  • the state of the user's face orientation changes from the first state to the second state.
  • FIG. 6 is a schematic view of the audio output system 1A according to the second embodiment.
  • FIG. 7 is a block diagram of the audio output system 1A according to the second embodiment.
  • the audio output system 1A includes headphones 10A as an audio output device, and, for example, an electronic book terminal, a smartphone, a tablet terminal, a portable music playback device, and an electronic device 30A such as a portable game machine.
  • the audio output system 1A is a combination of headphones 10A as an audio output device and an electronic device 30A.
  • the headphones 10A are connected to the electronic device 30A so as to be able to transmit and receive data by wire or wirelessly.
  • the headphones 10A output an audio signal output from the electronic device 30A.
  • the electronic device 30A includes a voice input unit 31A having the same function as the voice input unit 13, and a voice output control device 40A having the same function as the voice output control device 20.
  • the configuration of the headphone 10A in FIG. 7 is equivalent to the configuration included in the configuration of the headphone 10 shown in FIG.
  • the audio output control device 40A corresponds to the audio output control device 20 and the audio processing unit 42A performs audio processing with respect to the configuration included in the configuration of the headphones 10 shown in FIG. Corresponds to part 22.
  • the audio acquisition unit 43A corresponds to the audio acquisition unit 23
  • the ambient sound acquisition unit 44A corresponds to the ambient sound acquisition unit
  • the ambient sound reduction processing unit 45A corresponds to the ambient sound reduction processing unit 25, and the audio is output.
  • the control unit 46A corresponds to the audio output control unit 26, and the orientation detection unit 41A corresponds to the orientation detection unit 21, and each has the same configuration.
  • the ambient sound can be appropriately confirmed as in the first embodiment.
  • FIG. 8 is a block diagram of the audio output system 1B according to the third embodiment.
  • FIG. 9 is a flowchart showing an example of the processing flow in the audio output system 1B according to the third embodiment.
  • the basic configuration of the audio output system 1B is the same as that of the audio output system 1A of the second embodiment.
  • the electronic device 30B has a GNSS (Global Navigation Satellite System) receiving unit 32B, a position information calculation unit 47B, and a determination unit 48B.
  • GNSS Global Navigation Satellite System
  • the GNSS receiver 32B is composed of a GNSS receiver or the like that receives a GNSS signal from a GNSS satellite.
  • the GNSS receiving unit 32B outputs the received GNSS signal to the position information calculation unit 47B.
  • the position information calculation unit 47B receives the GNSS signal from the GNSS reception unit 32B.
  • the position information calculation unit 47B calculates the current position information based on the GNSS signal.
  • the position information calculation unit 47B and the GNSS reception unit 32B are not limited to the GNSS signal, and may be compatible with other types of positioning satellite systems.
  • Judgment unit 48B determines whether or not the user is using transportation. For example, in the determination unit 48B, when the current position of the user wearing the headphones 10B corresponds to the position information of the transportation means of the map information (not shown) based on the position information calculated by the position information calculation unit 47B, or the movement history. You may judge that you are using transportation based on the speed of movement.
  • the method for determining whether the determination unit 48B is using transportation is not limited, and the determination unit 48B may be determined by another method such as utilizing noise or vibration around the headphones 10B.
  • Steps S122 to S124, S126 and S127 of the flowchart shown in FIG. 9 perform the same processing as steps S101 to S103, S105 and S106 of the flowchart shown in FIG.
  • the voice output control device 40B determines whether or not the vehicle is using transportation (step S121). More specifically, based on the position information calculated by the position information calculation unit 47B by the judgment unit 48B, the transportation means based on the judgment result such as when the user's current position corresponds to the position information of the transportation means in the map information. Judge that you are using.
  • the determination unit 48B determines that the transportation system is being used (Yes in step S121)
  • the process proceeds to step S122.
  • the determination unit 48B does not determine that the transportation system is being used (No in step S121)
  • the process ends.
  • the voice output control device 40B determines whether or not to end the use of transportation (step S125). More specifically, when the user's current position deviates from the location information of the transportation means in the map information based on the position information calculated by the position information calculation unit 47B by the judgment unit 48B, the use of the transportation means is terminated. By detecting the presence, it is judged that the use of transportation will be terminated. When the determination unit 48B determines that the use of transportation is to be terminated (Yes in step S125), the process is terminated. If the determination unit 48B does not determine that the use of transportation is to be terminated (No in step S125), the process proceeds to step S126.
  • ⁇ Effect> As described above, in the present embodiment, when the user wearing the headphones 10B is using transportation, and the orientation of the user's face changes from the first state to the second state, the user's face When the direction of the headphone changes from a downward facing state to a non-downward facing state, or when the acceleration caused by the change in the user's face orientation is equal to or higher than the threshold value, it is better than the state in which the ambient sound is reduced. Surrounding sounds can be heard easily. According to the present embodiment, when a user wearing the headphones 10B raises his / her face to hear an announcement or the like while using transportation, it is possible to easily hear the ambient sound such as the announcement. According to this embodiment, it is possible to prevent the noise cancellation from being inadvertently turned off.
  • FIG. 10 is a block diagram showing the content output system 1T according to the fourth embodiment.
  • the content output control device 40T which is an embodiment of the audio output control device
  • the content output system 1T is an embodiment of an audio output system.
  • the content output control device 40T corresponds to the audio output control device
  • the content output system 1T corresponds to the audio output system.
  • the same components as the audio output system and the audio output control device of the first to third embodiments are designated by the same reference numerals or corresponding reference numerals, and correspondence relationships are described. Therefore, the detailed description thereof will be omitted.
  • the content output system 1T reproduces content composed of video and audio, such as headphones 10T as an audio output device, an electronic book terminal, a smartphone, a tablet terminal, a portable music playback device, and a portable game machine. And electronic device 30T for displaying and displaying.
  • the content output system 1T is a combination of headphones 10T as an audio output device and an electronic device 30T.
  • the content output system 1T outputs audio from the headphones 10T or cancels noise of surrounding audio according to the direction of the user's line of sight.
  • the headphones 10T output audio related to the content displayed on the display screen 36 based on the audio data output from the content output control device 40T of the electronic device 30T.
  • the headphones 10T can cancel ambient noise based on the control signal output from the content output control device 40T.
  • the headphones 10T are connected to the electronic device 30T so as to be able to transmit and receive data by wire or wirelessly.
  • the headphone 10T includes a left audio output unit 11, a right audio output unit 12, a left microphone 14, a right microphone 15, and a content output control device 40T.
  • the headphone 10T is configured in the same manner as the headphone 10A of the second embodiment, and differs in that it does not have a sensor.
  • the electronic device 30T includes a content input unit 31T, a display unit 32T (see FIG. 6), a line-of-sight sensor 33T, and a content output control device 40T.
  • the content input unit 31T corresponds to the voice input unit 31A of the second embodiment.
  • the content data input to the content input unit 31T is, for example, content data accompanied by audio output, such as video content, game content, and WEB content.
  • Content data includes video data and audio data related to the content.
  • the video data related to the content is the video data of the content to be displayed on the display screen 36.
  • the audio data related to the content is audio audio data of the audio output corresponding to the video data of the content displayed on the display screen 36.
  • the voice data related to the content may be, for example, a text-to-speech voice of an electronic book, a text-to-speech voice of a WEB page, a commentary voice, or the like.
  • the line-of-sight sensor 33T is arranged so as to face the same direction as the display screen 36 of the electronic device 30T.
  • the line-of-sight sensor 33T is a sensor that detects the line of sight of a person facing the display screen 36 of the electronic device 30T.
  • the line-of-sight sensor 33T is arranged at a position facing the user's face when the user is visually recognizing the display screen 36.
  • the line-of-sight sensor 33T is arranged, for example, on the upper part of the display screen 36 of the electronic device 30T.
  • the line-of-sight sensor 33T outputs the shot data to the line-of-sight detection unit 43T of the content output control device 40T.
  • the line-of-sight sensor 33T includes, for example, an infrared light emitting unit composed of an infrared LED group and a pair of infrared cameras.
  • the line-of-sight sensor 33T irradiates infrared light toward the user's face with a pair of infrared light emitting units, and takes a picture with an infrared camera. From the image captured by the infrared camera in this way, the line-of-sight detection unit 43T, which will be described later, determines whether or not the user's line of sight is facing the display screen 36 based on the position of the user's pupil and the corneal reflex. ..
  • the position of the user's line of sight on the display screen 36 is determined based on the position of the user's pupil and the corneal reflex.
  • the line-of-sight sensor 33T may have another configuration having a similar function, such as a visible light camera.
  • the display unit 32T displays the video of the content input to the content input unit 31T.
  • the display unit 32T is a display including a liquid crystal display (LCD: Liquid Crystal Display) or an organic EL (Organic Electro-Luminence) display.
  • the display unit 32T displays a video of the content based on the display data output from the display control unit 42T.
  • the display unit 32T includes a display screen 36 on which an image is displayed.
  • the headphone 10T may be provided with a sensor that detects whether or not the headphone 10T is worn on the user's head. Specifically, the headphone 10T is provided with a three-axis acceleration sensor, and it is determined that the headphone 10T is worn on the user's head based on the direction in which the gravitational acceleration is detected. Further, other sensors may be used to detect, for example, the degree of opening of the headband or the pressure on the ear pads. The sensor may have the same configuration as the sensor 16 of the second embodiment, for example.
  • the content output control device 40T outputs audio from the headphones 10T and cancels ambient noise.
  • the content output control device 40T outputs a sound with reduced peripheral sounds according to the direction of the user's line of sight, or makes the peripheral sounds easier to hear than the state with reduced peripheral sounds.
  • the content output control device 40T includes a video acquisition unit 41T, a display control unit 42T, a line-of-sight detection unit 43T, a gaze determination unit 44T, an audio processing unit 50T, and a storage unit that is an internal memory.
  • the voice processing unit 50T corresponds to the voice processing unit 22 of the first embodiment.
  • the content output control device 40T may be composed of one or a plurality of devices.
  • the video acquisition unit 41T acquires the video data of the content to be output to the display screen 36 of the display unit 32T from the content input unit 31T.
  • the display control unit 42T displays the video data of the content acquired by the video acquisition unit 41T on the display screen 36 of the display unit 32T.
  • the line-of-sight detection unit 43T detects the user's line-of-sight direction based on the shooting data captured by the line-of-sight sensor 33T.
  • the method of detecting the line of sight is not limited, but in the present embodiment, the line of sight is detected by the corneal reflex.
  • the gaze determination unit 44T determines whether or not the user is gazing at the display screen 36 of the electronic device 30T displaying the content based on the detection result of the gaze detection unit 43T. Gaze at the display screen 36 means that the display screen 36 is positioned in the line-of-sight direction of the user, in other words, the state in which the line-of-sight direction of the user and the display screen 36 intersect continues for the first predetermined period or longer. To say.
  • the first predetermined period is, for example, about 5 seconds.
  • the second predetermined period is, for example, about 5 seconds.
  • the ambient sound reduction processing unit 54T has a peripheral sound with respect to the sound output by the left sound output unit 11 and the right sound output unit 12 that output sound to the user based on the peripheral sound acquired by the peripheral sound acquisition unit 52. Perform processing to reduce.
  • the ambient sound reduction processing unit 54T reduces the ambient sound by canceling the noise of the ambient sound based on the ambient sound acquired by the ambient sound acquisition unit 52.
  • a noise canceling method a known method can be applied, and a signal in which the phase of the ambient sound is reversed is output to the voice output control unit 26.
  • the audio output control unit 53T determines that the gaze determination unit 44T is gazing at the display screen 36 on which the content is displayed, and the ambient sound acquisition unit 52 determines that the user is not gazing at the display screen 36. The output status of the acquired ambient sound is changed and the sound is output.
  • the ambient sound reduction processing unit 54T reduces the ambient sound. Is output, and when it is determined that the user is not gazing at the display screen 36 displaying the content, the peripheral sound is made easier to hear than the state in which the peripheral sound is reduced by the peripheral sound reduction processing unit 54T.
  • FIG. 11 is a flowchart showing an example of the processing flow in the content output system 1T according to the fourth embodiment.
  • FIG. 12 is a flowchart showing another example of the processing flow in the content output system 1T according to the fourth embodiment. For example, when the power of the headphone 10T is turned on, when the headphone 10T is worn on the user's head, when the audio output is started from the headphone 10T, or when the content output control process is started. And so on, the processing of the flowchart shown in FIGS. 11 and 12 is executed.
  • the content output control device 40T determines whether or not the content accompanied by the audio output is displayed on the display unit 32T (step ST101). More specifically, it is determined whether or not the content composed of audio and video input to the content input unit 31T is reproduced, the video of the content is displayed on the display unit 32T, and the audio of the content is output to the headphones 10T. .. In other words, it is determined whether or not the content consisting of audio and video is being played.
  • the state in which the content accompanied by the audio output is displayed on the display unit 32T is a state in which the video of the content is displayed on the display unit 32T and the audio of the content is output to the headphones 10T, and these outputs are the content. It continues until the playback of is finished.
  • step ST101 When it is determined that the content accompanied by the audio output is displayed on the display unit 32T (Yes in step ST101), the process proceeds to step ST102. If it is not determined that the content accompanied by the audio output is displayed on the display unit 32T (No in step ST101), this process ends.
  • it is determined that the content accompanied by the audio output is displayed on the display unit 32T Yes in step ST101
  • it is determined whether or not the user is gazing at the display screen 36 step ST102. More specifically, the gaze determination unit 44T determines from the detection result of the gaze detection unit 43T whether or not the user is gazing at the display screen 36 of the electronic device 30T displaying the content.
  • step ST102 determines that the user is gaze at the display screen 36 (Yes in step ST102). If the gaze determination unit 44T does not determine that the user is gaze at the display screen 36 (No in step ST102), the process proceeds to step ST104.
  • the content output control device 40T turns on noise cancellation (step ST102). More specifically, the audio output control unit 53T cancels noise by the ambient sound reduction processing unit 54T.
  • the audio output control unit 53T may output the audio of the content from the left audio output unit 11 and the right audio output unit 12. In this state, the audio of the content is output from the left audio output unit 11 and the right audio output unit 12.
  • the content output control device 40T proceeds to step ST105.
  • step ST103 if noise cancellation is already ON at the time of Yes in step ST101, the noise cancellation continues to be ON, and if noise cancellation is OFF at the time of Yes in step ST101. Turns on noise cancellation.
  • the content output control device 40T turns off noise cancellation (step ST104). More specifically, the audio output control unit 53T turns off the noise cancellation by the ambient sound reduction processing unit 54T.
  • the audio output control unit 53T may output the audio of the content from the left audio output unit 11 and the right audio output unit 12. In this state, the audio of the content is output from the left audio output unit 11 and the right audio output unit 12 in a state where the surrounding audio can be easily heard.
  • the content output control device 40T proceeds to step ST105.
  • step ST104 if the noise cancellation is already ON at the time of Yes in the step ST101, the noise cancellation is turned off, and if the noise cancellation is OFF at the time of Yes in the step ST101, the noise cancellation is turned off. The OFF state is continued.
  • the content output control device 40T determines whether or not to end the use of the content output system 1T such as the headphones 10T and the electronic device 30T (step ST105). For example, when the power of the headphone 10T or the electronic device 30T is turned off, the headphone 10T is removed from the user's head, the audio output to the headphone 10T is stopped, or the content output control process is terminated. When an operation is performed, it is determined that the use is terminated (Yes in step ST105), and the process is terminated. If the above does not apply, the content output control device 40T re-executes the process of step ST101 without determining that the use is terminated (No in step ST105).
  • Step ST111, step ST112, step ST113, and step ST115 of the flowchart shown in FIG. 12 perform the same processing as steps ST101, step ST102, step ST103, and step ST105 of the flowchart shown in FIG.
  • the content output control device 40T turns off noise cancellation and outputs ambient sound (step ST114). More specifically, the audio output control unit 53T turns off the noise cancellation by the ambient sound reduction processing unit 54T, and outputs the ambient sound acquired by the peripheral sound acquisition unit 52 from the left audio output unit 11 and the right audio output unit 12. do.
  • the audio output control unit 53T may output the audio of the content from the left audio output unit 11 and the right audio output unit 12. In this state, the ambient sound is output from the left audio output unit 11 and the right audio output unit 12 together with the audio of the content in a state where the surrounding audio can be easily heard.
  • the content output control device 40T proceeds to step ST115.
  • step ST113 if the noise cancellation is already ON at the time of Yes in step ST111, the noise cancellation remains ON, and at the time of Yes in step ST111, the noise cancellation is OFF and the ambient sound is heard. If it is in the output state, turn on noise cancellation and stop the output of ambient sound.
  • step ST114 if the noise cancellation is already ON at the time of Yes in step ST111, the noise cancellation is turned OFF and the ambient sound is output. If is in the output state, the noise canceling state is continued and the ambient sound output is continued.
  • the present embodiment reduces the ambient sound when the user wearing the headphones 10T is gazing at the display screen 36, and reduces the ambient sound when the user is not gazing at the display screen 36. Surrounding sounds can be heard more easily than in the reduced state.
  • the ambient sound when the user interrupts the gaze of the display screen 36 and the user is in a state where it is presumed that the user pays attention to the surroundings, the ambient sound is more appropriate than the noise-cancelled state. You can check the ambient sound. In this way, according to the present embodiment, when the user wants to hear the ambient sound, the ambient sound can be appropriately confirmed without the user performing an operation.
  • the ambient sound reduction processing unit 54T does not perform the ambient sound reduction processing, or the ambient sound reduction processing is not performed and the ambient sound acquisition unit.
  • the peripheral sound acquired by 52 is output from the left audio output unit 11 and the right audio output unit 12. According to this embodiment, the ambient sound can be easily heard.
  • FIG. 13 is a block diagram of the content output system 1TA according to the fifth embodiment.
  • FIG. 14 is a flowchart showing an example of the processing flow in the content output system 1TA according to the fifth embodiment.
  • the basic configuration of the content output system 1TA is the same as that of the content output system 1T of the fourth embodiment.
  • the same components as those of the content output system 1T are designated by the same reference numerals or corresponding reference numerals, and detailed description thereof will be omitted.
  • the electronic device 30TA has a photographing unit 33TA and a face detection unit 48TA of the content output control device 40TA, and the processing in the audio output control unit 53TA is different from the fourth embodiment.
  • the photographing unit 33TA is a visible light camera that photographs a person facing the display screen 36 of the electronic device 30TA.
  • the photographing unit 33TA photographs the user's face.
  • the photographing unit 33TA is arranged at a position where the user's face can be photographed while the user is visually recognizing the display screen 36.
  • the photographing unit 33TA is arranged at the upper part of the display screen 36 of the electronic device 30TA, for example.
  • the photographing unit 33TA outputs the photographed shooting data to the face detection unit 48TA of the content output control device 40TA.
  • the photographing unit 33TA and the line-of-sight sensor 33T may be the same visible light camera.
  • the face detection unit 48TA recognizes the user's face from the shooting data taken by the shooting unit 33TA, and detects the direction of the recognized face. More specifically, the face detection unit 48TA detects whether or not the face orientation detected by the face detection unit 48TA is the orientation facing the display screen 36. For example, when the user is gazing at the display screen 36 on which the content is displayed, the orientation of the user's face is the orientation facing the display screen 36. For example, when the user pays attention to the surroundings and looks around, the orientation of the user's face is not the orientation facing the display screen 36.
  • the orientation facing the display screen 36 is the orientation in which the user can visually recognize the image of the content displayed on the display screen 36.
  • the direction facing the display screen 36 is, for example, the angle at which the straight line extending in front of the user and the display screen 36 intersecting the center of both eyes of the user in the vertical view and the horizontal view is, for example. , 90 ° ⁇ 30 °, etc., the direction in which the user is clearly looking at the display screen 36 may be defined.
  • the voice output control unit 53TA determines that the user is gazing at the display screen 36 displaying the content by the gaze determination unit 44T, and the face orientation detected by the face detection unit 48TA is displayed on the display screen 36.
  • the ambient sound reduction processing unit 54T outputs the sound with the ambient sound reduced.
  • the face orientation detected by the face detection unit 48TA is displayed on the display screen 36.
  • the ambient sound is more easily heard than the state in which the ambient sound is reduced by the ambient sound reduction processing unit 54T.
  • Steps ST121, ST122, and ST124 to ST126 of the flowchart shown in FIG. 14 perform the same processing as steps ST101, ST102, and ST103 to ST105 of the flowchart shown in FIG.
  • the content output control device 40TA determines whether or not the user's face is facing each other (step ST123). More specifically, when the face orientation detected by the face detection unit 48TA is the orientation facing the display screen 36 (Yes in step ST123), the process proceeds to step ST124. If the face orientation detected by the face detection unit 48TA is not the orientation facing the display screen 36 (No in step ST123), the process proceeds to step ST125.
  • ⁇ Effect> As described above, in the present embodiment, when the user gazes at the display screen 36 and the direction of the user's face faces the display screen 36, the ambient sound is reduced and the user uses the display screen 36. When the user's face is not oriented toward the display screen 36, the ambient sound can be heard more easily than when the ambient sound is reduced. According to the present embodiment, when the user turns his / her face so as not to face the display screen 36 and the user pays attention to the surroundings, the ambient sound can be appropriately confirmed.
  • FIG. 15 is a block diagram of the content output system 1TB according to the sixth embodiment.
  • FIG. 16 is a flowchart showing an example of a processing flow in the content output system 1TB according to the sixth embodiment.
  • the basic configuration of the content output system 1TB is the same as that of the content output system 1TA of the fifth embodiment shown in FIG.
  • the electronic device 30TB has a GNSS receiving unit 34TB, a position information calculation unit 49TB and a determination unit 50TB of the content output control device 40TB, and the processing in the audio output control unit 53TB is the fourth embodiment. different.
  • the GNSS receiving unit 34TB is configured in the same manner as the GNSS receiving unit 32B of the third embodiment.
  • the position information calculation unit 49TB is configured in the same manner as the position information calculation unit 47B of the third embodiment.
  • the determination unit 50TB is configured in the same manner as the determination unit 48B of the third embodiment.
  • the ambient sound reduction processing unit 54T reduces the ambient sound.
  • the peripheral sound is made easier to hear than the state in which the peripheral sound is reduced by the peripheral sound reduction processing unit 54T.
  • Steps ST131 and ST136 of the flowchart shown in FIG. 16 perform the same processing as steps S121 and S125 of the flowchart shown in FIG.
  • Steps ST132 to ST135 of the flowchart shown in FIG. 16 perform the same processing as steps ST101 to ST104 of the flowchart shown in FIG.
  • ⁇ Effect> As described above, in the present embodiment, when the user wearing the headphones 10T is using transportation, and the user is gazing at the display screen 36, the ambient sound is reduced and the user When is not gazing at the display screen 36, the ambient sound can be heard more easily than in the state where the ambient sound is reduced. According to the present embodiment, when a user wearing headphones 10T changes the direction of his / her face from the direction facing the display screen 36 in order to hear an announcement or the like while using transportation, an ambient sound such as an announcement or the like is heard. Can be easily heard. According to this embodiment, it is possible to prevent the noise cancellation from being inadvertently turned off.
  • FIG. 17 is a block diagram showing a content output system 1U according to the seventh embodiment.
  • the content output system 1U outputs audio related to the content displayed on the display screen 36 from the headphones 10U or outputs peripheral audio depending on whether or not the user is gazing at the display screen 36.
  • the audio processing unit 50U of the content output control device 40U is different from the fourth embodiment.
  • the content output control device 40U outputs audio related to the content or outputs ambient sound from the headphones 10U depending on whether or not the user is gazing at the display screen 36.
  • the voice processing unit 50U includes a voice acquisition unit 51, an ambient sound acquisition unit 52, and a voice output control unit 53U, which are configured in the same manner as in the fourth embodiment.
  • the audio output control unit 53U determines that the gaze determination unit 44U is gazing at the display screen 36 on which the content is displayed, and the ambient sound acquisition unit 52 determines that the user is not gazing at the display screen 36. The output status of the acquired ambient sound is changed and the sound is output.
  • the voice output control unit 53U outputs the sound related to the content acquired by the voice acquisition unit 51. If it is determined that the user is not gazing at the display screen 36 displaying the content, the peripheral sound acquisition unit 52 outputs the acquired peripheral sound.
  • the audio output control unit 53U determines that the gaze determination unit 44U is not gazing at the display screen 36 displaying the content
  • the audio output control unit 53U acquires ambient sound in addition to the audio related to the content acquired by the audio acquisition unit 51.
  • Peripheral sound acquired by unit 52 may be output. In this case, the peripheral sound is output from the headphones 10U together with the sound related to the content.
  • FIG. 18 is a flowchart showing an example of the processing flow in the content output system 1U according to the seventh embodiment.
  • FIG. 19 is a flowchart showing another example of the processing flow in the content output system 1U according to the seventh embodiment.
  • the processing of the flowchart shown in FIGS. 18 and 19 is executed.
  • Step SU101, step SU102, and step SU105 of the flowchart shown in FIG. 18 perform the same processing as steps ST101, ST102, and ST105 of the flowchart shown in FIG.
  • the content output control device 40U When it is determined that the user is gazing at the display screen 36 (Yes in step SU102), the content output control device 40U outputs the audio of the content (step SU103). More specifically, the audio output control unit 53U outputs the audio related to the content acquired by the audio acquisition unit 51 from the headphones 10U. As a result, the audio of the content is output from the left audio output unit 11 and the right audio output unit 12 of the headphones 10U. The content output control device 40U proceeds to step SU105.
  • step SU103 if the ambient sound is not output when Yes in step SU101, the output of the content sound is continued in the state where the ambient sound is not output, and the ambient sound is output when Yes in step SU101. If is being output, the output of the content sound is continued and the output of the ambient sound is stopped.
  • the content output control device 40U When it is not determined that the user is gazing at the display screen 36 (No in step SU102), the content output control device 40U outputs an ambient sound (step SU104). More specifically, the voice output control unit 53U outputs the peripheral sound acquired by the peripheral sound acquisition unit 52. As a result, ambient sound is output from the left audio output unit 11 and the right audio output unit 12 of the headphones 10U. The content output control device 40U proceeds to step SU105.
  • step SU104 starts the output of the ambient sound when the ambient sound is not output when Yes in step SU101, and when the ambient sound is output when Yes in step SU101. Maintain the output of ambient sound.
  • Step SU111, step SU112, step SU113, and step SU115 of the flowchart shown in FIG. 19 perform the same processing as step SU101, step SU102, step SU103, and step SU105 of the flowchart shown in FIG.
  • the content output control device 40U When it is not determined that the user is gazing at the display screen 36 (No in step SU112), the content output control device 40U outputs ambient sound together with the sound related to the content (step SU114). More specifically, the peripheral sound acquired by the peripheral sound acquisition unit 52 is output from the left audio output unit 11 and the right audio output unit 12 of the headphones 10U together with the sound related to the content acquired by the sound acquisition unit 51. The content output control device 40U proceeds to step SU115.
  • step SU113 if the ambient sound is not output when Yes in step SU111, the output of the content sound is continued in the state where the ambient sound is not output, and the content sound is output when Yes in step SU111. If the ambient sound is being output, the content sound output is continued and the ambient sound output is stopped.
  • step SU114 if the content sound is output and the ambient sound is not output when Yes in step SU111, the output of the peripheral sound is started while maintaining the output of the content sound, and Yes in step SU111. If the content sound and ambient sound are being output at the time, the output of the content sound and ambient sound is maintained.
  • the volume of the content sound may be in the state of the volume set by the user, and the user sets the volume of the content sound during the period during which the ambient sound is being output. It may be lower than the volume of the sound.
  • ⁇ Effect> As described above, in the present embodiment, when the user wearing the headphones 10U is gazing at the display screen 36, the sound of the content is output, and when the user is not gazing at the display screen 36, the ambient sound is output. Can be output. According to the present embodiment, when the user interrupts the gaze of the display screen 36 and the user is in a state where it is presumed that the user has paid attention to the surroundings, the ambient sound can be appropriately confirmed. In this way, according to the present embodiment, when the user wants to hear the ambient sound, the ambient sound can be appropriately confirmed without the user performing an operation.
  • the ambient sound when the user is not watching the display screen 36, the ambient sound can be output together with the sound of the content. According to this embodiment, the ambient sound can be confirmed while continuing to view the content.
  • FIG. 20 is a block diagram of the content output system 1UA according to the eighth embodiment.
  • FIG. 21 is a flowchart showing an example of a processing flow in the content output system 1UA according to the eighth embodiment.
  • the basic configuration of the content output system 1UA is the same as that of the content output system 1U of the seventh embodiment.
  • the same components as those of the content output system 1U are designated by the same reference numerals or corresponding reference numerals, and detailed description thereof will be omitted.
  • the electronic device 30UA has a GNSS receiving unit 34UA, a position information calculation unit 45UA of the content output control device 40UA, and a determination unit 46AU, and processing by the audio output control unit 53UA. Different from.
  • the GNSS receiving unit 34UA is configured in the same manner as the GNSS receiving unit 32B of the third embodiment.
  • the position information calculation unit 45UA is configured in the same manner as the position information calculation unit 47B of the third embodiment.
  • the determination unit 46UA is configured in the same manner as the determination unit 48B of the third embodiment.
  • the voice output control unit 53UA determines that the user is gazing at the display screen 36 on which the content is displayed when the user is using transportation, the voice output control unit 53UA outputs the voice related to the content acquired by the voice acquisition unit 51.
  • the peripheral sound acquired by the peripheral sound acquisition unit 52 is output.
  • Step SU121 and step SU126 of the flowchart shown in FIG. 21 perform the same processing as steps S121 and S125 of the flowchart shown in FIG. Step SU122 to step SU125 of the flowchart shown in FIG. 21 perform the same processing as steps SU101 to SU104 of the flowchart shown in FIG.
  • the ambient sound is output.
  • the headphone 10U when a user wearing the headphone 10U stops paying attention to the content display screen 36 in order to hear an announcement or the like while using transportation, the headphone 10U makes an ambient sound such as an announcement. You can listen to it at. According to this embodiment, it is possible to suppress the careless output of ambient sound.
  • FIG. 22 is a block diagram of the content output system 1UB according to the ninth embodiment.
  • FIG. 23 is a flowchart showing an example of the processing flow in the content output system 1UB according to the ninth embodiment.
  • the basic configuration of the content output system 1UB is the same as that of the content output system 1U of the seventh embodiment.
  • the electronic device 30UB has a photographing unit 35UB and a face detection unit 47UB of the content output control device 40UB, and the processing in the audio output control unit 53UB is different from the seventh embodiment.
  • the photographing unit 35UB is configured in the same manner as the photographing unit 33TA of the fifth embodiment.
  • the face detection unit 47UB is configured in the same manner as the face detection unit 48TA of the fifth embodiment.
  • the voice output control unit 53UB determines that the user is gazing at the display screen 36 displaying the content by the gaze determination unit 44U, and the face orientation detected by the face detection unit 47UB is displayed on the display screen 36. When the orientations are opposite to each other, the voice acquisition unit 51 outputs the voice related to the acquired content. The voice output control unit 53UB determines that the user is not gazing at the display screen 36 on which the content is displayed by the gaze determination unit 44U, and the face orientation detected by the face detection unit 47UB is displayed on the display screen 36. When the directions are not opposite to each other, the peripheral sound acquired by the peripheral sound acquisition unit 52 is output.
  • Step SU131, step SU132, step SU134 to step SU136 of the flowchart shown in FIG. 23 perform the same processing as step SU101, step SU102, step SU103 to step SU105 of the flowchart shown in FIG.
  • Step SU133 of the flowchart shown in FIG. 23 performs the same processing as step ST123 of the flowchart shown in FIG.
  • ⁇ Effect> As described above, in the present embodiment, when the user gazes at the display screen 36 and the direction of the user's face faces the display screen 36, the sound of the content is output and the user outputs the sound of the content. When the user's face is not oriented toward the display screen 36, the peripheral sound acquired by the peripheral sound acquisition unit 52 can be output. According to the present embodiment, when the user turns his / her face so as not to face the display screen 36 and the user pays attention to the surroundings, the ambient sound can be appropriately confirmed.
  • Each component of the illustrated audio output system 1 is a functional concept and does not necessarily have to be physically configured as shown in the diagram. That is, the specific form of each device is not limited to the one shown in the figure, and all or part of each device is functionally or physically dispersed or integrated in an arbitrary unit according to the processing load and usage status of each device. You may.
  • the configuration of the audio output system 1 is realized by, for example, a program loaded in a memory as software.
  • a program loaded in a memory as software.
  • it has been described as a functional block realized by cooperation of these hardware or software. That is, these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.
  • the ambient sound reduction level may be lowered, that is, the effect of the noise canceling level may be reduced. Further, as another example, the ambient sound may be output while reducing the effect of the noise canceling level.
  • the process of lowering the ambient sound reduction level is to reverse the phases of the ambient sounds acquired from the left microphone 14 and the right microphone 15, and synthesize the signal whose sound pressure level is lowered into the audio data acquired by the audio input unit 13. Then, the sound output control unit 26 is made to output.
  • the process of making the ambient sound easy to hear was performed on the left audio output unit 11 and the right audio output unit 12, but any one of the left audio output unit 11 and the right audio output unit 12. It may be done for one side.
  • the audio output unit used by the user with his / her dominant ear may be set to be processed so that the ambient sound can be easily heard.
  • the headphone 10 has been described as an example of the audio output device, but the present invention is not limited to this.
  • the audio output device may be, for example, an earphone and a neck-mounted speaker.
  • the voice output device can also be applied to an electronic earplug device that does not have a voice input unit 13 and has only a noise canceling function.
  • Audio output system 10 Headphones (audio output device) 11 Left audio output unit 12 Right audio output unit 13 Audio input unit 14 Left microphone 15 Right microphone 16 Sensor 20 Audio output control device 21 Direction detection unit 22 Audio processing unit 23 Audio acquisition unit 24 Peripheral sound acquisition unit 25 Peripheral sound reduction processing unit 26 Audio output control unit

Abstract

音声出力制御装置20は、ユーザの顔の向きの状態を検出する向き検出部21と、周辺音を取得する周辺音取得部24と、周辺音取得部24が取得した周辺音に基づき、周辺音を低減する処理を行う周辺音低減処理部25と、向き検出部21が、ユーザの顔の向きの状態が第一状態である場合は、周辺音低減処理部25による周辺音を低減した音声を出力し、ユーザの顔の向きの状態が第一状態から第二状態に変化した場合は、周辺音低減処理部25による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする音声出力制御部26と、を備える。

Description

音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
 本発明は、音声出力制御装置、音声出力システム、音声出力制御方法およびプログラムに関する。
 音声出力可能な電子書籍やゲームなど、表示画面にコンテンツ内容を表示することに加えて、音声を出力する技術が知られている(例えば、特許文献1参照)。
特開2016-192211号公報
 ところが、このような装置を、例えば公共交通機関などの乗車時に利用している場合、車内放送などの周辺音が聞き取りにくい場合などがある。
 本発明は、上記に鑑みてなされたものであって、適切に周辺音の確認を可能にすることを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る音声出力制御装置は、ユーザの顔の向きの状態を検出する向き検出部と、前記ユーザの周辺音を取得する周辺音取得部と、前記周辺音取得部が取得した周辺音に基づき、周辺音を低減する処理を行う周辺音低減処理部と、前記向き検出部が、前記ユーザの顔の向きの状態が第一状態である場合は、前記周辺音低減処理部による周辺音を低減した音声を出力し、前記ユーザの顔の向きの状態が前記第一状態から第二状態に変化した場合は、前記周辺音低減処理部による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする音声出力制御部と、を備える。
 本発明に係る音声出力制御装置は、ユーザの視線方向を検出する視線検出部と、前記ユーザの周辺音を取得する周辺音取得部と、前記視線検出部の検出結果に基づき、前記ユーザがコンテンツを表示した表示画面を注視しているか否かを判断する注視判断部と、前記注視判断部が、前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合と、注視していないと判断した場合とで、前記周辺音取得部が取得した周辺音の出力の状態を変更して音声を出力する音声出力制御部と、を備える。
 本発明に係る音声出力システムは、上記の音声出力制御装置と、周辺音を収音する収音部と、音声を出力する音声出力部と、を備える。
 本発明に係る音声出力制御方法は、音声出力装置を利用しているユーザの顔の向きの状態を検出するステップと、前記ユーザの周辺音を取得するステップと、前記ユーザの顔の向きの状態が第一状態である場合は、取得した周辺音に基づき周辺音を低減した音声を出力し、前記ユーザの顔の向きの状態が前記第一状態から第二状態に変化した場合は、周辺音を低減した状態よりは周辺音が聞こえやすい状態とするステップと、を含む。
 本発明に係るプログラムは、音声出力装置を利用しているユーザの顔の向きの状態を検出するステップと、前記ユーザの周辺音を取得するステップと、前記ユーザの顔の向きの状態が第一状態である場合は、取得した周辺音に基づき周辺音を低減した音声を出力し、前記ユーザの顔の向きの状態が前記第一状態から第二状態に変化した場合は、周辺音を低減した状態よりは周辺音が聞こえやすい状態とするステップと、をコンピュータに実行させる。
 本発明に係る音声出力制御方法は、音声出力装置を利用しているユーザの視線方向を検出するステップと、前記ユーザの周辺音を取得するステップと、視線方向の検出結果に基づき、前記ユーザがコンテンツを表示した表示画面を注視しているか否かを判断するステップと、前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合と、注視していないと判断した場合とで、周辺音の出力の状態を変更して音声を出力するステップと、を含む。
 本発明に係るプログラムは、音声出力装置を利用しているユーザの視線方向を検出するステップと、前記ユーザの周辺音を取得するステップと、視線方向の検出結果に基づき、前記ユーザがコンテンツを表示した表示画面を注視しているか否かを判断するステップと、前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合と、注視していないと判断した場合とで、周辺音の出力の状態を変更して音声を出力するステップと、をコンピュータに実行させる。
 本発明によれば、適切に周辺音の確認できるという効果を奏する。
図1は、第一実施形態に係る音声出力システムとしての音声出力装置を示すブロック図である。 図2は、音声出力装置の向きを説明する概略図である。 図3は、音声出力装置の向きを説明する概略図である。 図4は、第一実施形態に係る音声出力システムにおける処理の流れの一例を示すフローチャートである。 図5は、第一実施形態に係る音声出力システムにおける処理の流れの他の例を示すフローチャートである。 図6は、第二実施形態に係る音声出力システムの概略図である。 図7は、第二実施形態に係る音声出力システムのブロック図である。 図8は、第三実施形態に係る音声出力システムのブロック図である。 図9は、第三実施形態に係る音声出力システムにおける処理の流れの一例を示すフローチャートである。 図10は、第四実施形態に係るコンテンツ出力システムを示すブロック図である。 図11は、第四実施形態に係るコンテンツ出力システムにおける処理の流れの一例を示すフローチャートである。 図12は、第四実施形態に係るコンテンツ出力システムにおける処理の流れの他の例を示すフローチャートである。 図13は、第五実施形態に係るコンテンツ出力システムのブロック図である。 図14は、第五実施形態に係るコンテンツ出力システムにおける処理の流れの一例を示すフローチャートである。 図15は、第六実施形態に係るコンテンツ出力システムのブロック図である。 図16は、第六実施形態に係るコンテンツ出力システムにおける処理の流れの一例を示すフローチャートである。 図17は、第七実施形態に係るコンテンツ出力システムを示すブロック図である。 図18は、第七実施形態に係るコンテンツ出力システムにおける処理の流れの一例を示すフローチャートである。 図19は、第七実施形態に係るコンテンツ出力システムにおける処理の流れの他の例を示すフローチャートである。 図20は、第八実施形態に係るコンテンツ出力システムのブロック図である。 図21は、第八実施形態に係るコンテンツ出力システムにおける処理の流れの一例を示すフローチャートである。 図22は、第九実施形態に係るコンテンツ出力システムのブロック図である。 図23は、第九実施形態に係るコンテンツ出力システムにおける処理の流れの一例を示すフローチャートである。
 以下に添付図面を参照して、本発明に係る音声出力システム1の実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
[第一実施形態]
<音声出力システム>
 図1は、第一実施形態に係る音声出力システム1としての音声出力装置10を示すブロック図である。音声出力装置は、例えば、ヘッドホン10である。本実施形態では、音声出力システム1は、ヘッドホン10単体で構成される。
<ヘッドホン>
 ヘッドホン10は、音声を出力したり、周辺の音声のノイズをキャンセルしたりする。ヘッドホン10は、例えばオーバーヘッド式で、ユーザの頭に装着する。ヘッドホン10は、音声出力制御装置20から出力される音声データに基づいて、音声を出力する。ヘッドホン10は、音声出力制御装置20から出力される制御信号に基づいて、周辺のノイズをキャンセル可能である。ヘッドホン10は、音声出力制御装置20を内蔵している。ヘッドホン10は、左音声出力部11と右音声出力部12と音声入力部13と左マイクロフォン14と右マイクロフォン15とセンサ16と音声出力制御装置20とを有する。
 左音声出力部11は、左耳用の音声出力部である。左音声出力部11は、左耳を覆う筐体を有する。左音声出力部11は、左耳において視聴させる音声を出力する。左音声出力部11は、音声出力制御装置20から音声データを取得する。左音声出力部11は、音声データの左チャンネルデータを出力する。左音声出力部11は、音声データの左チャンネルデータをD/A変換して得られた電気信号を音に変換して出力する。
 右音声出力部12は、右耳用の音声出力部である。右音声出力部12は、右耳において視聴させる音声を出力する。右音声出力部12は、音声出力制御装置20から音声データを取得する。右音声出力部12は、音声データの右チャンネルデータを出力する。右音声出力部12は、音声データの右チャンネルデータをD/A変換して得られた電気信号を音に変換して出力する。
 音声入力部13は、例えば音楽または映像などのコンテンツの音声データが入力される。音声入力部13は、例えば図示しない記憶部に記憶された音声データが入力されてもよい。音声入力部13は、例えば図示しない電子書籍端末、スマートフォン、タブレット端末、携帯用音楽再生装置、および、携帯用ゲーム機などの電子機器から、有線または無線で音声データが入力されてもよい。
 左マイクロフォン14は、左音声出力部11の筐体に配置されている。左マイクロフォン14は、周辺音を取得する。周辺音は、例えば第三者の話し声および乗物の騒音などを含む環境音である。左マイクロフォン14は、取得した音声を周辺音取得部24に出力する。
 右マイクロフォン15は、右音声出力部12の筐体に配置されている。右マイクロフォン15は、周辺音を取得する。右マイクロフォン15は、取得した音声を周辺音取得部24に出力する。
 センサ16は、ヘッドホン10の姿勢、言い換えると、ヘッドホン10の向きを検出する。言い換えると、センサ16は、ヘッドホン10を装着したユーザの顔の向きを検出する。センサ16は、例えば3軸の加速度センサなどの各種センサを利用してヘッドホン10の姿勢を検出する。各種センサから姿勢を算出する方法は、公知のいずれの方法を使用してもよい。センサ16は、検出結果を向き検出部21へ出力する。センサ16は、左音声出力部11の筐体および右音声出力部12の筐体にそれぞれ配置されることが好ましい。これにより、高精度にヘッドホン10の姿勢を検出可能である。
<音声出力制御装置>
 音声出力制御装置20は、ヘッドホン10から音声を出力したり、周辺のノイズをキャンセルしたりする。音声出力制御装置20は、ユーザの顔の向きに応じて、周辺音を低減した音声を出力したり、周辺音を低減した状態よりは周辺音が聞こえやすい状態としたりする。音声出力制御装置20は、例えば、CPU(Central Processing Unit)または音声処理用プロセッサなどで構成された演算処理装置(制御部)である。音声出力制御装置20は、図示しない記憶部に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。音声出力制御装置20は、向き検出部21と音声処理部22と内部メモリである記憶部とが含まれる。音声処理部22は、音声取得部23と周辺音取得部24と周辺音低減処理部25と音声出力制御部26とを有する。音声出力制御装置20は、一または複数の装置で構成されていてもよい。
 向き検出部21は、センサ16の検出結果から、ヘッドホン10の姿勢、言い換えると、ヘッドホン10の向きを検出する。これにより、向き検出部21は、ヘッドホン10を装着したユーザの顔の向きを検出する。より詳しくは、向き検出部21は、ユーザの顔の向きが第一状態であること、ユーザの顔の向きが第一状態と異なる第二状態であることを検出する。向き検出部21は、例えばユーザの顔の向きが下方を向いている状態であること、ユーザの顔の向きが下方を向いていない状態であることを検出する。向き検出部21は、例えばユーザの顔の向きの変化によって生じる加速度が閾値より小さいこと、ユーザの顔の向きの変化によって生じる加速度が閾値以上であることを検出可能である。
 ユーザの顔の向きが第一状態から第二状態に変わった場合、ユーザが周辺を見回すなど、ユーザの注意が周辺に向いた可能性が高い。ユーザの顔の向きが下方を向いている状態から下方を向いていない状態に変わった場合、ユーザが顔を上げて周辺を確認するなど、ユーザの注意が周辺に向いた可能性が高い。ユーザの顔の向きの変化によって生じる加速度が閾値以上である場合、ユーザが顔の向きを急激に変化させたことを示し、ユーザの注意が周辺に向いた可能性が高い。このように、ユーザの注意が周辺に向いた可能性が高い場合には、周辺音を低減するノイズキャンセルの機能をOFFにして、周辺音を聞きやすい状態にすることが好ましい。
 図2および図3は、ユーザがヘッドホン10のヘッドバンド101をユーザの頭頂部にかけて装着している場合のヘッドホンの向きを示す概略図である。図2は、ヘッドホン10を横方向、具体的には、ユーザがヘッドホン10を装着している状態の右横方向の右音声出力部12側から見た場合の姿勢を示す図である。この場合、ヘッドホン10を装着しているユーザの顔は、+Y方向を向いており、下方ではなく前方を向いている。図3は、ヘッドホン10を横方向、具体的には図2と同様に、ユーザがヘッドホン10を装着している状態の右横方向から見た場合の姿勢を示す図である。この場合、ヘッドホン10を装着しているユーザの顔は、+Y方向である下方を向く。
 図2および図3に示すように、ヘッドホン10を装着したユーザの顔の向きは、重力加速度Gが検出される方向に対するヘッドホン10のY軸方向およびZ軸方向の傾きによって規定される。ヘッドホン10を装着したユーザがまっすぐ前を向いている状態から、下方を向いた状態になると、ヘッドホン10は、図2に示す状態から図3に示す状態のように姿勢が変化する。
 例えば、ヘッドホン10がユーザの頭に装着されている状態において、ヘッドホン10の角度から、ユーザの顔が下を向いているか否かを判断する。例えば、図2に示す状態のように、重力加速度Gが検出される方向が、-Z方向から±20度以内であるときは、ユーザの顔の向きが下方を向いておらず、前方を向いていると判断する。また、図3に示す状態のように、重力加速度Gが検出される方向が、-Zから±20度以上であるときは、ユーザの顔の向きが下方を向いていると判断する。なお、Z軸に限定されず、Y軸またはZ軸とY軸との合成ベクトルなどを使用してもよい。
 ヘッドホン10がユーザの頭に装着されているか否かは、センサ16の検出結果によって判断可能である。センサ16のX軸方向の検出結果がほぼ水平を示しており、+Y軸方向または-Y軸方向から例えば±10度以内に重力加速度が検出されていない場合、ヘッドホン10がユーザの頭に装着されていると判断する。さらに、例えばヘッドバンド101の開き具合またはイヤーパッドへの圧力などを検出する他のセンサを使用してもよい。
 音声取得部23は、左音声出力部11と右音声出力部12とから出力するための音声データを音声入力部13から取得する。
 周辺音取得部24は、左マイクロフォン14と右マイクロフォン15とから、ユーザの周辺音を取得する。
 周辺音低減処理部25は、周辺音取得部24が取得した周辺音に基づいて、周辺音のノイズキャンセルを行って周辺音を低減する。ノイズキャンセルの方法は、公知の方法を適用可能であり、周辺音の位相を逆にした信号を、音声入力部13が取得した音声データに合成して、音声出力制御部26に出力させる。
 音声出力制御部26は、ヘッドホン10から音声データを音として出力する制御を行う。より詳しくは、音声出力制御部26は、音声データの左チャンネルデータをD/A変換して増幅した信号を左音声出力部11から出力させる。音声出力制御部26は、音声データの右チャンネルデータをD/A変換して増幅した信号を右音声出力部12から出力させる。
 音声出力制御部26は、向き検出部21が、ユーザの顔の向きが第一状態である場合は、周辺音低減処理部25による周辺音を低減した音声を出力し、ユーザの顔の向きが第一状態から第二状態に変化した場合は、周辺音低減処理部25による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。
 音声出力制御部26は、ユーザの顔の向きが下方を向いている状態である場合は、周辺音低減処理部25による周辺音を低減した音声を出力し、ユーザの顔の向きが下方を向いている状態から下方を向いていない状態に変化した場合は、周辺音低減処理部25による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。
 音声出力制御部26は、ユーザの顔の向きの変化によって生じる加速度が閾値より小さい状態である場合は、周辺音低減処理部25による周辺音を低減した音声を出力し、ユーザの顔の向きの変化によって生じる加速度が閾値以上である状態に変化した場合は、周辺音低減処理部25による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。
 音声出力制御部26は、周辺音低減処理部25による周辺音を低減した状態よりは周辺音が聞こえやすい状態として、周辺音低減処理部25による周辺音低減処理を行わないとしてもよい。この場合、音声出力制御部26は、ノイズキャンセルをOFFにする。これにより、ヘッドホン10を装着しているユーザが、周辺音を聞きやすくなる。
 音声出力制御部26は、周辺音低減処理部25による周辺音を低減した状態よりは周辺音が聞こえやすい状態として、周辺音低減処理部25による周辺音低減処理を行なわず、周辺音取得部24が取得した周辺音を左音声出力部11と右音声出力部12とから出力してもよい。これにより、ヘッドホン10を装着しているユーザが、左音声出力部11と右音声出力部12とから周辺音を聞けるようになる。
 次に、図4、図5を用いて、ヘッドホン10における情報処理について説明する。図4は、第一実施形態に係る音声出力システム1における処理の流れの一例を示すフローチャートである。図5は、第一実施形態に係る音声出力システム1における処理の流れの他の例を示すフローチャートである。例えば、ヘッドホン10の電源がONになった場合、ヘッドホン10がユーザの頭に装着された場合、ヘッドホン10がコンテンツの音声を出力する機能を備えている場合、ヘッドホン10から音声の出力が開始された場合、または、音声出力制御処理の開始操作がされた場合などに、図4、図5に示すフローチャートの処理が実行される。また、図4、図5に示すフローチャートの処理の開始時は、ノイズキャンセル処理が行われていることが前提である。
 まず、図4に示す処理について説明する。音声出力制御装置20は、ユーザの顔の向きの状態が変化したか否かを判定する(ステップS101)。より詳しくは、向き検出部21は、センサ16の検出結果から、ヘッドホン10の姿勢、言い換えると、ヘッドホン10の向きを検出し、ヘッドホン10の向きが変化したか否かを判定する。向き検出部21によって、ユーザの顔の向きの状態に変化があったと判定する場合(ステップS101でYes)、ステップS102へ進む。向き検出部21によって、ユーザの顔の向きの状態に変化があったと判定しない場合(ステップS101でNo)、ステップS104へ進む。ステップS101で判定するユーザの顔の向きの状態の変化の有無とは、ユーザの顔の向きが、X軸方向、Y軸方向またはZ軸方向の少なくともいずれかで、例えば10度以上の変化があった場合に、ユーザの顔の向きの状態に変化があったと判定する。または、ステップS101で判定するユーザの顔の向きの状態の変化の有無とは、ユーザの顔の向きが変わったときの加速度が閾値以上であった場合に、ユーザの顔の向きの状態に変化があったと判定する。この場合の閾値とは、ユーザの顔が急に異なる方向を向いたときに発生するような加速度を検出するような閾値である。
 ユーザの顔の向きの状態に変化があったと判定する場合(ステップS101でYes)、音声出力制御装置20は、ステップS101で検出されたユーザの顔の向きの状態の変化が、第一状態から第二状態への変化であるか否かを判定する(ステップS102)。より詳しくは、音声出力制御部26は、ステップS101で検出されたユーザの顔の向きの状態の変化が、ユーザの顔が下方を向いている第一状態から、ユーザの顔が下方を向いていない第二状態への変化であるか否かを判定する。または、音声出力制御部26は、ステップS101で検出されたユーザの顔の向きの状態の変化が、ユーザの顔の向きの変化によって生じる加速度が閾値より小さい第一状態から、ユーザの顔の向きの変化によって生じる加速度が閾値より大きい第二状態への変化であるか否かを判定する。
 ユーザの顔の向きの状態の変化が、第一状態から第二状態への変化であると判定する場合(ステップS102でYes)、音声出力制御装置20は、ステップS103へ進む。ユーザの顔の向きの状態の変化が、第一状態から第二状態への変化であると判定しない場合(ステップS102でNo)、音声出力制御装置20は、ステップS104へ進む。
 ユーザの顔の向きの状態の変化が、第一状態から第二状態への変化であると判定する場合(ステップS102でYes)、音声出力制御装置20は、ノイズキャンセルをOFFにする(ステップS103)。より詳しくは、音声出力制御部26は、周辺音低減処理部25によるノイズキャンセルをOFFにする。なお、音声出力制御部26は、コンテンツの音声を左音声出力部11と右音声出力部12とから出力してもよい。この状態では、周囲の音声が聞こえやすい状態で、左音声出力部11と右音声出力部12とからコンテンツの音声が出力される。音声出力制御装置20は、ステップS104へ進む。
 音声出力制御装置20は、ヘッドホン10の利用を終了するか否かを判定する(ステップS104)。例えば、ヘッドホン10の電源がOFFになった場合、ヘッドホン10がユーザの頭から取り外された場合、ヘッドホン10から音声の出力が停止された場合、または、音声出力制御処理の終了操作がされた場合などに、利用を終了すると判定して(ステップS104でYes)、処理を終了する。音声出力制御装置20は、上記に該当しない場合、利用を終了すると判定せずに(ステップS104でNo)、ステップS105へ進む。
 音声出力制御装置20は、利用を終了すると判定しない場合(ステップS104でNo)、所定期間経過したか否かを判定する(ステップS105)。より詳しくは、音声出力制御部26は、ステップS103でノイズキャンセルがOFFとなってから、例えば30秒間から1分間程度の予め設定された期間が経過したか否かを判定する。この場合の所定期間とは、ユーザが周辺音を確認するために適切な期間である。音声出力制御部26によって、所定期間経過したと判定しない場合(ステップS105でNo)、再度ステップS105の判定を行い、所定期間経過したと判定した場合(ステップS105でYes)、ステップS106へ進む。
 ステップS105で、所定期間経過したと判定した場合(ステップS105でYes)、音声出力制御装置20は、ノイズキャンセルをONとして(ステップS106)、ステップS101へ進む。
 つづいて、図5に示す処理について説明する。図5に示すフローチャートのステップS111、ステップS112、ステップS114、ステップ115は、図4に示すフローチャートのステップS102、ステップS102、ステップS104、ステップS105と同様の処理を行う。
 ユーザの顔の向きの状態が、第一状態から第二状態への変化であると判定する場合(ステップS112でYes)、音声出力制御装置20は、ノイズキャンセルをOFFにして、周辺音を出力する(ステップS113)。より詳しくは、音声出力制御部26は、周辺音低減処理部25によるノイズキャンセルをOFFにして、周辺音取得部24が取得した周辺音を左音声出力部11と右音声出力部12とから出力する。なお、音声出力制御部26は、コンテンツの音声を左音声出力部11と右音声出力部12とから出力してもよい。この状態では、周囲の音声が聞こえやすい状態で、左音声出力部11と右音声出力部12とからコンテンツの音声とともに、周辺音が出力される。音声出力制御装置20は、ステップS114へ進む。
 ステップS115で、所定期間経過したと判定した場合(ステップS115でYes)、音声出力制御装置20は、ノイズキャンセルをONにするとともに、周辺音の出力を停止し(ステップS116)、ステップS111へ進む。
 このようにして、ヘッドホン10を装着しているユーザの顔の向きの状態が第一状態から第二状態に変わった場合、ユーザの顔の向きが下方を向いている状態から下方を向いていない状態に変わった場合、または、ユーザの顔の向きの変化によって生じる加速度が閾値以上である場合、周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。
<効果>
 上述したように、本実施形態は、ユーザの顔の向きの状態が第一状態から第二状態に変わった場合、ユーザの顔の向きが下方を向いている状態から下方を向いていない状態に変わった場合、または、ユーザの顔の向きの変化によって生じる加速度が閾値以上である場合、周辺音を低減した状態よりは周辺音が聞こえやすくできる。本実施形態によれば、ユーザが周辺に注意を向けたと推定される状態となった場合に、周辺音がノイズキャンセルされた状態より、適切に周辺音を確認できる。このようにして、本実施形態によれば、ユーザが周辺音を聞きたいときに、適切に周辺音を確認できる。
 本実施形態では、ユーザの顔の向きの状態が第一状態から第二状態に変わった場合、ユーザの顔の向きが下方を向いている状態から下方を向いていない状態に変わった場合、または、ユーザの顔の向きの変化によって生じる加速度が閾値以上である場合、周辺音を低減した状態よりは周辺音が聞こえやすくする。これらの場合は、いずれもユーザの注意が周辺に向いた可能性が高い。本実施形態によれば、ユーザの注意が周辺に向いた可能性が高い場合に、ノイズキャンセルの機能をOFFにして、周辺音を聞きやすい状態にできる。
 本実施形態では、周辺音を低減した状態よりは周辺音が聞こえやすい状態として、周辺音低減処理部25による周辺音低減処理を行わない、または、周辺音低減処理を行なわず、周辺音取得部24が取得した周辺音を左音声出力部11と右音声出力部12とから出力する。本実施形態によれば、周辺音を聞こえやすくできる。
 ユーザの顔の向きの状態が第一状態から第二状態に変わる場合とは、例えば、ユーザがヘッドホン10で音楽等を聴きながら、交通機関の座席に着座し、下方を向いている状態で、ユーザが交通機関内の放送により停車駅などの情報を知りたく、顔を上げる動作を行う。このような動作を行うことで、ユーザの顔の向きの状態が第一状態から第二状態に変わる。
[第二実施形態]
 図6は、第二実施形態に係る音声出力システム1Aの概略図である。図7は、第二実施形態に係る音声出力システム1Aのブロック図である。音声出力システム1Aは、音声出力装置としてのヘッドホン10Aと、例えば、電子書籍端末、スマートフォン、タブレット端末、携帯用音楽再生装置、および、携帯用ゲーム機などの電子機器30Aとを含む。言い換えると、音声出力システム1Aは、音声出力装置としてのヘッドホン10Aと電子機器30Aとの組み合わせである。
 ヘッドホン10Aは、電子機器30Aと有線または無線でデータを送受信可能に接続されている。ヘッドホン10Aは、電子機器30Aから出力される音声信号を出力する。
 電子機器30Aは、音声入力部13と同様の機能を有する音声入力部31Aと、音声出力制御装置20と同様の機能を有する音声出力制御装置40Aとを有する。
 図7におけるヘッドホン10Aの構成は、図1に示すヘッドホン10の構成に含まれる構成と同等である。また、図7における電子機器30Aの構成は、図1に示すヘッドホン10の構成に含まれる構成に対して、音声出力制御装置40Aが音声出力制御装置20に対応し、音声処理部42Aが音声処理部22に対応する。同様に、音声取得部43Aが音声取得部23に対応し、周辺音取得部44Aが周辺音取得部24に対応し、周辺音低減処理部45Aが周辺音低減処理部25に対応し、音声出力制御部46Aが音声出力制御部26に対応し、向き検出部41Aが向き検出部21に対応して、各々同等の構成である。
 上述したように、本実施形態のように音声出力装置としてのヘッドホン10Aと電子機器30Aとの組み合わせても、第一実施形態と同様に適切に周辺音を確認できる。
[第三実施形態]
 図8、図9を参照しながら、本実施形態に係る音声出力システム1Bについて説明する。図8は、第三実施形態に係る音声出力システム1Bのブロック図である。図9は、第三実施形態に係る音声出力システム1Bにおける処理の流れの一例を示すフローチャートである。音声出力システム1Bは、基本的な構成は第二実施形態の音声出力システム1Aと同様である。本実施形態では、電子機器30Bは、GNSS(Global Navigation Satellite System)受信部32Bと位置情報算出部47Bと判断部48Bとを有する。
 GNSS受信部32Bは、GNSS衛星からのGNSS信号を受信するGNSS受信機などで構成される。GNSS受信部32Bは、受信したGNSS信号を位置情報算出部47Bに出力する。
 位置情報算出部47Bは、GNSS受信部32BからGNSS信号を受け付ける。位置情報算出部47Bは、GNSS信号に基づいて、現在位置情報を算出する。位置情報算出部47BおよびGNSS受信部32Bは、GNSS信号に限らず、他の方式の測位衛星システムに対応していてもよい。
 判断部48Bは、ユーザが交通機関を利用しているか否かを判断する。例えば、判断部48Bは、位置情報算出部47Bが算出した位置情報に基づいて、ヘッドホン10Bを装着したユーザの現在位置が、図示しない地図情報の交通機関の位置情報に該当する場合や、移動履歴や移動速度に基づいて、交通機関を利用していると判断してもよい。判断部48Bは、交通機関を利用しているかを判断する方法は限定されず、例えば、ヘッドホン10Bの周辺のノイズまたは振動を利用するような他の方法によって判断されてもよい。
 次に、図9を用いて、音声出力システム1Bにおける情報処理について説明する。図9に示すフローチャートのステップS122ないしステップS124、ステップS126およびステップS127は、図4に示すフローチャートのステップS101ないしステップS103、ステップS105およびステップS106と同様の処理を行う。
 音声出力制御装置40Bは、交通機関を利用しているか否かを判断する(ステップS121)。より詳しくは、判断部48Bによって、位置情報算出部47Bが算出した位置情報に基づいて、ユーザの現在位置が、地図情報の交通機関の位置情報に該当する場合などの判断結果に基づき、交通機関を利用していると判断する。判断部48Bによって、交通機関を利用していると判断する場合(ステップS121でYes)、ステップS122へ進む。判断部48Bによって、交通機関を利用していると判断しない場合(ステップS121でNo)、処理を終了する。
 ステップS125における利用終了の判断は、ヘッドホン10Bまたは電子機器30Bの利用終了の判断に加えて、音声出力制御装置40Bは、交通機関の利用を終了するか否かも判断する(ステップS125)。より詳しくは、判断部48Bによって、位置情報算出部47Bが算出した位置情報に基づいて、ユーザの現在位置が、地図情報の交通機関の位置情報から外れる場合など、交通機関の利用が終了していることの検出によって、交通機関の利用を終了すると判断する。判断部48Bによって、交通機関の利用を終了すると判断する場合(ステップS125でYes)、処理を終了する。判断部48Bによって、交通機関の利用を終了すると判断しない場合(ステップS125でNo)、ステップS126へ進む。
<効果>
 上述したように、本実施形態は、ヘッドホン10Bを装着したユーザが交通機関を利用している場合であって、ユーザの顔の向きが第一状態から第二状態に変わった場合、ユーザの顔の向きが下方を向いている状態から下方を向いていない状態に変わった場合、または、ユーザの顔の向きの変化によって生じる加速度が閾値以上である場合には、周辺音を低減した状態よりは周辺音が聞こえやすくできる。本実施形態によれば、ヘッドホン10Bを装着したユーザが交通機関の利用中に、アナウンスなどを聞くために顔を上げた場合などに、アナウンスなどの周辺音を聞きやすくできる。本実施形態によれば、不用意にノイズキャンセルがOFFされることを抑制できる。
[第四実施形態]
<コンテンツ出力システム>
 図10は、第四実施形態に係るコンテンツ出力システム1Tを示すブロック図である。本実施形態では、音声出力制御装置の一実施形態であるコンテンツ出力制御装置40Tについて説明する。コンテンツ出力システム1Tは、音声出力システムの一実施形態である。以下の実施形態においても同様である。コンテンツ出力制御装置40Tが、音声出力制御装置に対応し、コンテンツ出力システム1Tが、音声出力システムに対応する。以下の説明においては、第一実施形態ないし第三実施形態の音声出力システム及び音声出力制御装置と同様の構成要素には、同一の符号または対応する符号を付したり、対応関係を記載したりして、その詳細な説明は省略する。コンテンツ出力システム1Tは、音声出力装置としてのヘッドホン10Tと、例えば、電子書籍端末、スマートフォン、タブレット端末、携帯用音楽再生装置、および、携帯用ゲーム機など、映像および音声で構成されるコンテンツの再生や表示等を行う電子機器30Tとを含む。言い換えると、コンテンツ出力システム1Tは、音声出力装置としてのヘッドホン10Tと電子機器30Tとの組み合わせである。コンテンツ出力システム1Tは、ユーザの視線方向に応じて、ヘッドホン10Tから音声を出力したり、周辺の音声のノイズをキャンセルしたりする。
<ヘッドホン>
 ヘッドホン10Tは、電子機器30Tのコンテンツ出力制御装置40Tから出力される音声データに基づいて、表示画面36に表示したコンテンツに関する音声を出力する。ヘッドホン10Tは、コンテンツ出力制御装置40Tから出力される制御信号に基づいて、周辺のノイズをキャンセル可能である。ヘッドホン10Tは、電子機器30Tと有線または無線でデータを送受信可能に接続されている。ヘッドホン10Tは、左音声出力部11と右音声出力部12と左マイクロフォン14と右マイクロフォン15とコンテンツ出力制御装置40Tとを有する。ヘッドホン10Tは、第二実施形態のヘッドホン10Aと同様に構成され、センサを有していない点で異なる。
<電子機器>
 電子機器30Tは、コンテンツ入力部31Tと、表示部32T(図6参照)と、視線センサ33Tと、コンテンツ出力制御装置40Tとを有する。
 コンテンツ入力部31Tは、第二実施形態の音声入力部31Aに対応する。コンテンツ入力部31Tに入力されるコンテンツデータは、例えば、音声出力を伴うコンテンツデータであり、動画コンテンツ、ゲームコンテンツ、WEBコンテンツなどである。
 コンテンツデータには、コンテンツに関する映像データと音声データとを含む。コンテンツに関する映像データとは、表示画面36に表示するコンテンツの映像データである。コンテンツに関する音声データとは、表示画面36に表示されたコンテンツの映像データに対応して出力する音声の音声データである。コンテンツに関する音声データとは、例えば、電子書籍のテキスト読み上げの音声、WEBページのテキスト読み上げ音声および解説音声などでもよい。
 視線センサ33Tは、電子機器30Tの表示画面36と同じ方向を向いて配置されている。視線センサ33Tは、電子機器30Tの表示画面36と対面している人物の視線を検出するセンサである。視線センサ33Tは、ユーザが表示画面36を視認している状態では、ユーザの顔と向かい合う位置に配置されている。視線センサ33Tは、例えば、電子機器30Tの表示画面36の上部に配置されている。視線センサ33Tは、撮影した撮影データをコンテンツ出力制御装置40Tの視線検出部43Tへ出力する。
 視線センサ33Tは、例えば、赤外LED群で構成された赤外光発光部と、一対の赤外線カメラとを含む。本実施形態では、視線センサ33Tは、一対の赤外光発光部でユーザの顔方向に赤外光を照射し、赤外線カメラで撮影する。このようにして赤外線カメラで撮影した撮影映像から、後述する視線検出部43Tが、ユーザの瞳孔と角膜反射の位置とに基づいて、ユーザの視線が表示画面36を向いているか否かを判断する。さらに、ユーザの瞳孔と角膜反射の位置とに基づいて、表示画面36におけるユーザの視線の位置が判断される。視線センサ33Tは、可視光カメラなど、同様の機能を有する他の構成であってもよい。
 表示部32Tは、コンテンツ入力部31Tに入力されたコンテンツの映像を表示する。表示部32Tは、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機EL(Organic Electro-Luminescence)ディスプレイなどを含むディスプレイである。表示部32Tは、表示制御部42Tから出力された表示データに基づいて、コンテンツの映像を表示する。表示部32Tは、映像が表示される表示画面36を備える。
 ヘッドホン10Tには、ヘッドホン10Tがユーザの頭に装着されているか否かを検出するセンサが備えられていてもよい。具体的には、ヘッドホン10Tには3軸の加速度センサが備えられ、重力加速度が検出されている方向に基づいて、ヘッドホン10Tがユーザの頭に装着されていると判断する。さらに、例えばヘッドバンドの開き具合またはイヤーパッドへの圧力などを検出する他のセンサを使用してもよい。センサは、例えば第二実施形態のセンサ16と同様の構成でもよい。
<コンテンツ出力制御装置>
 コンテンツ出力制御装置40Tは、ヘッドホン10Tから音声を出力したり、周辺のノイズをキャンセルしたりする。コンテンツ出力制御装置40Tは、ユーザの視線方向に応じて、周辺音を低減した音声を出力したり、周辺音を低減した状態よりは周辺音が聞こえやすい状態としたりする。コンテンツ出力制御装置40Tは、映像取得部41Tと表示制御部42Tと視線検出部43Tと注視判断部44Tと音声処理部50Tと内部メモリである記憶部とが含まれる。音声処理部50Tは、第一実施形態の音声処理部22に対応する。コンテンツ出力制御装置40Tは、一または複数の装置で構成されていてもよい。
 映像取得部41Tは、表示部32Tの表示画面36に出力するためのコンテンツの映像データをコンテンツ入力部31Tから取得する。
 表示制御部42Tは、映像取得部41Tが取得したコンテンツの映像データを表示部32Tの表示画面36に表示させる。
 視線検出部43Tは、視線センサ33Tが撮影した撮影データに基づいて、ユーザの視線方向を検出する。視線を検出する方法は限定されないが、本実施形態では、角膜反射によって視線を検出する。
 注視判断部44Tは、視線検出部43Tの検出結果に基づき、ユーザがコンテンツを表示した電子機器30Tの表示画面36を注視しているか否かを判断する。表示画面36を注視しているとは、ユーザの視線方向に表示画面36が位置した状態、言い換えると、ユーザの視線方向と表示画面36とが交差する状態が、第一所定期間以上継続することをいう。第一所定期間とは、例えば5秒程度である。表示画面36を注視していないとは、ユーザの視線方向が表示画面36と異なる方向に向いている状態、言い換えると、ユーザの視線方向と表示画面36とが交差しない状態が、第二所定期間以上継続することをいう。第二所定期間とは、例えば5秒程度である。
 周辺音低減処理部54Tは、周辺音取得部52が取得した周辺音に基づき、ユーザに対して音声を出力する左音声出力部11と右音声出力部12とが出力する音声に対して周辺音を低減する処理を行う。周辺音低減処理部54Tは、周辺音取得部52が取得した周辺音に基づいて、周辺音のノイズキャンセルを行って周辺音を低減する。ノイズキャンセルの方法は、公知の方法を適用可能であり、周辺音の位相を逆にした信号を、音声出力制御部26に出力させる。
 音声出力制御部53Tは、注視判断部44Tが、ユーザがコンテンツを表示した表示画面36を注視していると判断した場合と、注視していないと判断した場合とで、周辺音取得部52が取得した周辺音の出力の状態を変更して音声を出力する。本実施形態では、音声出力制御部53Tは、注視判断部44Tによってユーザがコンテンツを表示した表示画面36を注視していると判断した場合は、周辺音低減処理部54Tによる周辺音を低減した音声を出力し、ユーザがコンテンツを表示した表示画面36を注視していないと判断した場合は、周辺音低減処理部54Tによる周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。
 次に、図11、図12を用いて、ヘッドホン10Tにおける情報処理について説明する。図11は、第四実施形態に係るコンテンツ出力システム1Tにおける処理の流れの一例を示すフローチャートである。図12は、第四実施形態に係るコンテンツ出力システム1Tにおける処理の流れの他の例を示すフローチャートである。例えば、ヘッドホン10Tの電源がONになった場合、ヘッドホン10Tがユーザの頭に装着された場合、ヘッドホン10Tから音声の出力が開始された場合、または、コンテンツ出力制御処理の開始操作がされた場合などに、図11、図12に示すフローチャートの処理が実行される。
 まず、図11に示す処理について説明する。コンテンツ出力制御装置40Tは、音声出力を伴うコンテンツが表示部32Tに表示されているか否かを判断する(ステップST101)。より詳しくは、コンテンツ入力部31Tに入力された、音声および映像からなるコンテンツが再生され、コンテンツの映像が表示部32Tに表示され、コンテンツの音声がヘッドホン10Tに出力されているか否かを判断する。言い換えると、音声および映像からなるコンテンツが再生されているか否かを判断する。音声出力を伴うコンテンツが表示部32Tに表示されている状態とは、表示部32Tにコンテンツの映像が表示され、コンテンツの音声がヘッドホン10Tに出力されている状態であり、これらの出力は、コンテンツの再生が終了するまで継続される。
 音声出力を伴うコンテンツが表示部32Tに表示されていると判断する場合(ステップST101でYes)、ステップST102へ進む。音声出力を伴うコンテンツが表示部32Tに表示されていると判断しない場合(ステップST101でNo)、本処理を終了する。音声出力を伴うコンテンツが表示部32Tに表示されていると判断する場合(ステップST101でYes)、ユーザが表示画面36を注視しているか否かを判断する(ステップST102)。より詳しくは、注視判断部44Tによって、視線検出部43Tの検出結果から、ユーザがコンテンツを表示した電子機器30Tの表示画面36を注視しているか否かを判断する。注視判断部44Tによって、ユーザが表示画面36を注視していると判断する場合(ステップST102でYes)、ステップST103へ進む。注視判断部44Tによって、ユーザが表示画面36を注視していると判断しない場合(ステップST102でNo)、ステップST104へ進む。
 ユーザが表示画面36を注視していると判断する場合(ステップST102でYes)、コンテンツ出力制御装置40Tは、ノイズキャンセルをONにする(ステップST102)。より詳しくは、音声出力制御部53Tは、周辺音低減処理部54Tによるノイズキャンセルを行う。なお、音声出力制御部53Tは、コンテンツの音声を左音声出力部11と右音声出力部12とから出力してもよい。この状態では、左音声出力部11と右音声出力部12とからコンテンツの音声が出力される。コンテンツ出力制御装置40Tは、ステップST105へ進む。
 ステップST103の処理は、ステップST101でYesのときにノイズキャンセルが既にONとなっていた場合はノイズキャンセルがONの状態を継続し、ステップST101でYesのときにノイズキャンセルがOFFとなっていた場合はノイズキャンセルをONとする。
 ユーザが表示画面36を注視していると判断しない場合(ステップST102でNo)、コンテンツ出力制御装置40Tは、ノイズキャンセルをOFFにする(ステップST104)。より詳しくは、音声出力制御部53Tは、周辺音低減処理部54TによるノイズキャンセルをOFFにする。なお、音声出力制御部53Tは、コンテンツの音声を左音声出力部11と右音声出力部12とから出力してもよい。この状態では、周囲の音声が聞こえやすい状態で、左音声出力部11と右音声出力部12とからコンテンツの音声が出力される。コンテンツ出力制御装置40Tは、ステップST105へ進む。
 ステップST104の処理は、ステップST101でYesのときにノイズキャンセルが既にONとなっていた場合はノイズキャンセルをOFFとし、ステップST101でYesのときにノイズキャンセルがOFFとなっていた場合はノイズキャンセルがOFFの状態を継続する。
 コンテンツ出力制御装置40Tは、ヘッドホン10Tや電子機器30Tなどのコンテンツ出力システム1Tの利用を終了するか否かを判断する(ステップST105)。例えば、ヘッドホン10Tや電子機器30Tの電源がOFFになった場合、ヘッドホン10Tがユーザの頭から取り外された場合、ヘッドホン10Tへの音声の出力が停止された場合、または、コンテンツ出力制御処理の終了操作がされた場合などに、利用を終了すると判断して(ステップST105でYes)、処理を終了する。コンテンツ出力制御装置40Tは、上記に該当しない場合、利用を終了すると判断せずに(ステップST105でNo)、ステップST101の処理を再度実行する。
 つづいて、図12に示す処理について説明する。図12に示すフローチャートのステップST111、ステップST112、ステップST113、ステップST115は、図11に示すフローチャートのステップST101、ステップST102、ステップST103、ステップST105と同様の処理を行う。
 ユーザが表示画面36を注視していると判断しない場合(ステップST112でNo)、コンテンツ出力制御装置40Tは、ノイズキャンセルをOFFにして、周辺音を出力する(ステップST114)。より詳しくは、音声出力制御部53Tは、周辺音低減処理部54TによるノイズキャンセルをOFFにして、周辺音取得部52が取得した周辺音を左音声出力部11と右音声出力部12とから出力する。なお、音声出力制御部53Tは、コンテンツの音声を左音声出力部11と右音声出力部12とから出力してもよい。この状態では、周囲の音声が聞こえやすい状態で、左音声出力部11と右音声出力部12とからコンテンツの音声とともに、周辺音が出力される。コンテンツ出力制御装置40Tは、ステップST115へ進む。
 ステップST113の処理は、ステップST111でYesのときにノイズキャンセルが既にONとなっていた場合はノイズキャンセルがONの状態を継続し、ステップST111でYesのときにノイズキャンセルがOFFであり周辺音が出力されている状態となっていた場合はノイズキャンセルをONとして周辺音の出力を停止する。
 ステップST114の処理は、ステップST111でYesのときにノイズキャンセルが既にONとなっていた場合はノイズキャンセルをOFFとして周辺音を出力し、ステップST111でYesのときにノイズキャンセルがOFFであり周辺音が出力されている状態となっていた場合はノイズキャンセルがOFFの状態と周辺音の出力とを継続する。
 このようにして、ヘッドホン10Tを装着しているユーザが表示画面36を注視している場合、周辺音を低減し、ヘッドホン10Tを装着しているユーザが表示画面36を注視していない場合、周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。
<効果>
 上述したように、本実施形態は、ヘッドホン10Tを装着しているユーザが表示画面36を注視している場合、周辺音を低減し、ユーザが表示画面36を注視していない場合、周辺音を低減した状態よりは周辺音が聞こえやすくできる。本実施形態によれば、ユーザが表示画面36を注視することを中断して、ユーザが周辺に注意を向けたと推定される状態となった場合に、周辺音がノイズキャンセルされた状態より、適切に周辺音を確認できる。このようにして、本実施形態によれば、ユーザが周辺音を聞きたいときに、ユーザが操作をしなくても、適切に周辺音を確認できる。
 本実施形態では、周辺音を低減した状態よりは周辺音が聞こえやすい状態として、周辺音低減処理部54Tによる周辺音低減処理を行わない、または、周辺音低減処理を行なわず、周辺音取得部52が取得した周辺音を左音声出力部11と右音声出力部12とから出力する。本実施形態によれば、周辺音を聞こえやすくできる。
[第五実施形態]
 図13、図14を参照しながら、本実施形態に係るコンテンツ出力システム1TAについて説明する。図13は、第五実施形態に係るコンテンツ出力システム1TAのブロック図である。図14は、第五実施形態に係るコンテンツ出力システム1TAにおける処理の流れの一例を示すフローチャートである。コンテンツ出力システム1TAは、基本的な構成は第四実施形態のコンテンツ出力システム1Tと同様である。以下の説明においては、コンテンツ出力システム1Tと同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態では、電子機器30TAは、撮影部33TAと、コンテンツ出力制御装置40TAの顔検出部48TAとを有する点と、音声出力制御部53TAにおける処理とが、第四実施形態と異なる。
 撮影部33TAは、電子機器30TAの表示画面36と対面している人物を撮影する可視光カメラである。撮影部33TAは、ユーザの顔を撮影する。撮影部33TAは、ユーザが表示画面36を視認している状態では、ユーザの顔を撮影可能な位置に配置されている。撮影部33TAは、例えば、電子機器30TAの表示画面36の上部に配置されている。撮影部33TAは、撮影した撮影データをコンテンツ出力制御装置40TAの顔検出部48TAへ出力する。撮影部33TAと視線センサ33Tとは、同一の可視光カメラであってもよい。
 顔検出部48TAは、撮影部33TAが撮影した撮影データからユーザの顔を認識し、認識した顔の向きを検出する。より詳しくは、顔検出部48TAは、顔検出部48TAが検出した顔の向きが、表示画面36に対して対向する向きであるか否かを検出する。例えばユーザがコンテンツが表示された表示画面36を注視している場合には、ユーザの顔の向きは表示画面36に対して対向する向きである。例えばユーザが周辺に注意を向けて周りを見回すような場合には、ユーザの顔の向きは表示画面36に対して対向する向きではない。
 表示画面36に対して対向する向きとは、ユーザが表示画面36に表示されたコンテンツの画像などを視認可能な向きのことである。表示画面36に対して対向する向きとは、例えば、上下方向視および左右方向視において、ユーザの両眼の中心を通り、ユーザの前方に延びる直線と、表示画面36とが交差する角度が例えば、90°±30°程度の範囲など、明らかにユーザが表示画面36を見ているとされる向きが定義されればよい。
 音声出力制御部53TAは、注視判断部44Tによってユーザがコンテンツを表示した表示画面36を注視していると判断したことに加えて、顔検出部48TAが検出した顔の向きが、表示画面36に対して対向する向きである場合に、周辺音低減処理部54Tによる周辺音を低減した音声を出力する。音声出力制御部53TAは、注視判断部44Tによってユーザがコンテンツを表示した表示画面36を注視していないと判断したことに加えて、顔検出部48TAが検出した顔の向きが、表示画面36に対して対向する向きではない場合に、周辺音低減処理部54Tによる周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。ユーザがコンテンツを表示した表示画面36を注視していない場合でも、ユーザの顔の向きが表示画面36に対して対向する場合、ユーザがコンテンツの視聴を継続する意思があると推定される。この場合、周辺音の低減を継続することが好ましい。これに対して、ユーザがコンテンツを表示した表示画面36を注視しておらず、かつ、ユーザの顔の向きが表示画面36に対して対向していない場合、ユーザは周辺に高い注意を払っていると推定される。この場合、周辺音を確認可能にすることが好ましい。
 次に、図14を用いて、コンテンツ出力システム1TAにおける情報処理について説明する。図14に示すフローチャートのステップST121、ステップST122、ステップST124ないしステップST126は、図11に示すフローチャートのステップST101、ステップST102、ステップST103ないしステップST105と同様の処理を行う。
 コンテンツ出力制御装置40TAは、ユーザの顔は対向しているか否かを判断する(ステップST123)。より詳しくは、顔検出部48TAが検出した顔の向きが、表示画面36に対して対向する向きである場合(ステップST123でYes)、ステップST124へ進む。顔検出部48TAが検出した顔の向きが、表示画面36に対して対向する向きではない場合(ステップST123でNo)、ステップST125へ進む。
<効果>
 上述したように、本実施形態は、ユーザが表示画面36を注視して、かつ、ユーザの顔の向きが表示画面36に対して対向する場合、周辺音を低減して、ユーザが表示画面36を注視していないで、かつ、ユーザの顔の向きが表示画面36に対して対向する向きではない場合、周辺音を低減した状態よりは周辺音が聞こえやすくできる。本実施形態によれば、ユーザが顔の向きを表示画面36に対向しない向きにして、ユーザが周辺に注意を向けたと状態されるときに、適切に周辺音を確認できる。
[第六実施形態]
 図15、図16を参照しながら、本実施形態に係るコンテンツ出力システム1TBについて説明する。図15は、第六実施形態に係るコンテンツ出力システム1TBのブロック図である。図16は、第六実施形態に係るコンテンツ出力システム1TBにおける処理の流れの一例を示すフローチャートである。コンテンツ出力システム1TBは、基本的な構成は図13に示す第五実施形態のコンテンツ出力システム1TAと同様である。本実施形態では、電子機器30TBは、GNSS受信部34TBとコンテンツ出力制御装置40TBの位置情報算出部49TBと判断部50TBとを有する点と音声出力制御部53TBにおける処理とが、第四実施形態と異なる。
 GNSS受信部34TBは、第三実施形態のGNSS受信部32Bと同様に構成されている。
 位置情報算出部49TBは、第三実施形態の位置情報算出部47Bと同様に構成されている。
 判断部50TBは、第三実施形態の判断部48Bと同様に構成されている。
 音声出力制御部53TBは、ユーザが交通機関を利用している場合に、ユーザがコンテンツを表示した表示画面36を注視していると判断した場合は、周辺音低減処理部54Tによる周辺音を低減した音声を出力し、ユーザがコンテンツを表示した表示画面36を注視していないと判断した場合は、周辺音低減処理部54Tによる周辺音を低減した状態よりは周辺音が聞こえやすい状態とする。
 次に、図16を用いて、コンテンツ出力システム1TBにおける情報処理について説明する。図16に示すフローチャートのステップST131、ステップST136は、図9に示すフローチャートのステップS121、ステップS125と同様の処理を行う。図16に示すフローチャートのステップST132ないしステップST135、は、図11に示すフローチャートのステップST101ないしステップST104と同様の処理を行う。
<効果>
 上述したように、本実施形態は、ヘッドホン10Tを装着したユーザが交通機関を利用している場合であって、ユーザが表示画面36を注視している場合には、周辺音を低減し、ユーザが表示画面36を注視していない場合には、周辺音を低減した状態よりは周辺音が聞こえやすくできる。本実施形態によれば、ヘッドホン10Tを装着したユーザが交通機関の利用中に、アナウンスなどを聞くために顔の向きを表示画面36と対向する向きから変えた場合などに、アナウンスなどの周辺音を聞きやすくできる。本実施形態によれば、不用意にノイズキャンセルがOFFされることを抑制できる。
[第七実施形態]
<コンテンツ出力システム>
 図17は、第七実施形態に係るコンテンツ出力システム1Uを示すブロック図である。コンテンツ出力システム1Uは、ユーザが表示画面36を注視しているか否かに応じて、ヘッドホン10Uから表示画面36に表示したコンテンツに関する音声を出力したり、周辺の音声を出力したりする。コンテンツ出力システム1Uは、コンテンツ出力制御装置40Uの音声処理部50Uが、第四実施形態と異なる。
<コンテンツ出力制御装置>
 コンテンツ出力制御装置40Uは、ユーザが表示画面36を注視しているか否かに応じて、ヘッドホン10Uからコンテンツに関する音声を出力したり、周辺音を出力したりする。 
 音声処理部50Uは、第四実施形態と同様に構成された音声取得部51と周辺音取得部52と、音声出力制御部53Uとを有する。
 音声出力制御部53Uは、注視判断部44Uが、ユーザがコンテンツを表示した表示画面36を注視していると判断した場合と、注視していないと判断した場合とで、周辺音取得部52が取得した周辺音の出力の状態を変更して音声を出力する。本実施形態では、音声出力制御部53Uは、注視判断部44Uが、ユーザがコンテンツを表示した表示画面36を注視していると判断した場合は、音声取得部51が取得したコンテンツに関する音声を出力し、ユーザがコンテンツを表示した表示画面36を注視していないと判断した場合は、周辺音取得部52が取得した周辺音を出力する。
 音声出力制御部53Uは、注視判断部44Uが、ユーザがコンテンツを表示した表示画面36を注視していないと判断した場合は、音声取得部51が取得したコンテンツに関する音声に加えて、周辺音取得部52が取得した周辺音を出力してもよい。この場合は、コンテンツに関する音声とともに周辺音がヘッドホン10Uから出力される。
 次に、図18、図19を用いて、ヘッドホン10Uにおける情報処理について説明する。図18は、第七実施形態に係るコンテンツ出力システム1Uにおける処理の流れの一例を示すフローチャートである。図19は、第七実施形態に係るコンテンツ出力システム1Uにおける処理の流れの他の例を示すフローチャートである。例えば、ヘッドホン10Uの電源がONになった場合、ヘッドホン10Uがユーザの頭に装着された場合、ヘッドホン10Uから音声の出力が開始された場合、または、コンテンツ出力制御処理の開始操作がされた場合などに、図18、図19に示すフローチャートの処理が実行される。図18に示すフローチャートのステップSU101、ステップSU102、ステップSU105は、図11に示すフローチャートのステップST101、ステップST102、ステップST105と同様の処理を行う。
 ユーザが表示画面36を注視していると判断する場合(ステップSU102でYes)、コンテンツ出力制御装置40Uは、コンテンツの音声を出力する(ステップSU103)。より詳しくは、音声出力制御部53Uは、音声取得部51が取得した、コンテンツに関する音声をヘッドホン10Uから出力する。これにより、ヘッドホン10Uの左音声出力部11と右音声出力部12とからコンテンツの音声が出力される。コンテンツ出力制御装置40Uは、ステップSU105へ進む。
 ステップSU103の処理は、ステップSU101でYesのときに周辺音が出力されていない状態の場合は周辺音が出力されていない状態でコンテンツ音の出力を継続し、ステップSU101でYesのときに周辺音が出力されている状態の場合はコンテンツ音の出力を継続し周辺音の出力を停止する。
 ユーザが表示画面36を注視していると判断しない場合(ステップSU102でNo)、コンテンツ出力制御装置40Uは、周辺音を出力する(ステップSU104)。より詳しくは、音声出力制御部53Uは、周辺音取得部52が取得した周辺音を出力する。これにより、ヘッドホン10Uの左音声出力部11と右音声出力部12とから周辺音が出力される。コンテンツ出力制御装置40Uは、ステップSU105へ進む。
 ステップSU104の処理は、ステップSU101でYesのときに周辺音が出力されていない状態の場合は周辺音の出力を開始し、ステップSU101でYesのときに周辺音が出力されている状態の場合は周辺音の出力を維持する。
 つづいて、図19に示す処理について説明する。図19に示すフローチャートのステップSU111、ステップSU112、ステップSU113、ステップSU115は、図18に示すフローチャートのステップSU101、ステップSU102、ステップSU103、ステップSU105と同様の処理を行う。
 ユーザが表示画面36を注視していると判断しない場合(ステップSU112でNo)、コンテンツ出力制御装置40Uは、コンテンツに関する音声とともに、周辺音を出力する(ステップSU114)。より詳しくは、音声取得部51が取得したコンテンツに関する音声とともに、周辺音取得部52が取得した周辺音をヘッドホン10Uの左音声出力部11と右音声出力部12とから出力する。コンテンツ出力制御装置40Uは、ステップSU115へ進む。
 ステップSU113の処理は、ステップSU111でYesのときに周辺音が出力されていない状態の場合は周辺音が出力されていない状態でコンテンツ音の出力を継続し、ステップSU111でYesのときにコンテンツ音と周辺音が出力されている状態の場合はコンテンツ音の出力を継続し周辺音の出力を停止する。
 ステップSU114の処理は、ステップSU111でYesのときにコンテンツ音が出力され周辺音が出力されていない状態の場合はコンテンツ音の出力を維持した状態で周辺音の出力を開始し、ステップSU111でYesのときにコンテンツ音と周辺音が出力されている状態の場合はコンテンツ音と周辺音の出力を維持する。
 ステップSU114で、コンテンツ音とともに周辺音を出力する場合は、コンテンツ音の音量はユーザが設定した音量の状態であってもよく、周辺音を出力している期間のコンテンツ音の音量をユーザが設定した音量より低くしてもよい。
 このようにして、ヘッドホン10Uを装着しているユーザが表示画面36を注視している場合、コンテンツに関する音声を出力し、ユーザが表示画面36を注視していない場合、周辺音を出力する。
<効果>
 上述したように、本実施形態は、ヘッドホン10Uを装着しているユーザが表示画面36を注視している場合、コンテンツの音声を出力し、ユーザが表示画面36を注視していない場合、周辺音を出力できる。本実施形態によれば、ユーザが表示画面36を注視することを中断して、ユーザが周辺に注意を向けたと推定される状態となった場合に、適切に周辺音を確認できる。このようにして、本実施形態によれば、ユーザが周辺音を聞きたいときに、ユーザが操作をしなくても、適切に周辺音を確認できる。
 本実施形態では、ユーザが表示画面36を注視していない場合、コンテンツの音声とともに周辺音を出力できる。本実施形態によれば、コンテンツの視聴を継続しながら、周辺音を確認できる。
[第八実施形態]
 図20、図21を参照しながら、本実施形態に係るコンテンツ出力システム1UAについて説明する。図20は、第八実施形態に係るコンテンツ出力システム1UAのブロック図である。図21は、第八実施形態に係るコンテンツ出力システム1UAにおける処理の流れの一例を示すフローチャートである。コンテンツ出力システム1UAは、基本的な構成は第七実施形態のコンテンツ出力システム1Uと同様である。以下の説明においては、コンテンツ出力システム1Uと同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態では、電子機器30UAは、GNSS受信部34UAとコンテンツ出力制御装置40UAの位置情報算出部45UAと判断部46AUとを有する点と、音声出力制御部53UAにおける処理とが、第七実施形態と異なる。
 GNSS受信部34UAは、第三実施形態のGNSS受信部32Bと同様に構成されている。
 位置情報算出部45UAは、第三実施形態の位置情報算出部47Bと同様に構成されている。
 判断部46UAは、第三実施形態の判断部48Bと同様に構成されている。
 音声出力制御部53UAは、ユーザが交通機関を利用している場合に、ユーザがコンテンツを表示した表示画面36を注視していると判断した場合は、音声取得部51が取得したコンテンツに関する音声を出力し、ユーザがコンテンツを表示した表示画面36を注視していないと判断した場合は、周辺音取得部52が取得した周辺音を出力する。
 次に、図21を用いて、コンテンツ出力システム1UAにおける情報処理について説明する。図21に示すフローチャートのステップSU121、ステップSU126は、図9に示すフローチャートのステップS121、ステップS125と同様の処理を行う。図21に示すフローチャートのステップSU122ないしステップSU125、は、図18に示すフローチャートのステップSU101ないしステップSU104と同様の処理を行う。
<効果>
 上述したように、本実施形態は、ヘッドホン10Uを装着したユーザが交通機関を利用している場合であって、ユーザが表示画面36を注視していない場合には、周辺音を出力する。本実施形態によれば、ヘッドホン10Uを装着したユーザが交通機関の利用中に、アナウンスなどを聞くために、コンテンツの表示画面36を注視しなくなった場合などに、アナウンスなどの周辺音をヘッドホン10Uで聞くことができる。本実施形態によれば、不用意に周辺音が出力されることを抑制できる。
[第九実施形態]
 図22、図23を参照しながら、本実施形態に係るコンテンツ出力システム1UBについて説明する。図22は、第九実施形態に係るコンテンツ出力システム1UBのブロック図である。図23は、第九実施形態に係るコンテンツ出力システム1UBにおける処理の流れの一例を示すフローチャートである。コンテンツ出力システム1UBは、基本的な構成は第七実施形態のコンテンツ出力システム1Uと同様である。本実施形態では、電子機器30UBは、撮影部35UBと、コンテンツ出力制御装置40UBの顔検出部47UBとを有する点と、音声出力制御部53UBにおける処理とが、第七実施形態と異なる。
 撮影部35UBは、第五実施形態の撮影部33TAと同様に構成されている。
 顔検出部47UBは、第五実施形態の顔検出部48TAと同様に構成されている。
 音声出力制御部53UBは、注視判断部44Uによってユーザがコンテンツを表示した表示画面36を注視していると判断したことに加えて、顔検出部47UBが検出した顔の向きが、表示画面36に対して対向する向きである場合に、音声取得部51が取得したコンテンツに関する音声を出力する。音声出力制御部53UBは、注視判断部44Uによってユーザがコンテンツを表示した表示画面36を注視していないと判断したことに加えて、顔検出部47UBが検出した顔の向きが、表示画面36に対して対向する向きではない場合に、周辺音取得部52が取得した周辺音を出力する。ユーザがコンテンツを表示した表示画面36を注視していない場合でも、ユーザの顔の向きが表示画面36に対して対向する場合、ユーザがコンテンツの視聴を継続する意思があると推定される。この場合、コンテンツの視聴を継続させることが好ましい。これに対して、ユーザがコンテンツを表示した表示画面36を注視しておらず、かつ、ユーザの顔の向きが表示画面36に対して対向していない場合、ユーザは周辺に高い注意を払っていると推定される。この場合、周辺音を確認可能にすることが好ましい。
 次に、図23を用いて、コンテンツ出力システム1UBにおける情報処理について説明する。図23に示すフローチャートのステップSU131、ステップSU132、ステップSU134ないしステップSU136は、図18に示すフローチャートのステップSU101、ステップSU102、ステップSU103ないしステップSU105と同様の処理を行う。図23に示すフローチャートのステップSU133は、図14に示すフローチャートのステップST123と同様の処理を行う。
<効果>
 上述したように、本実施形態は、ユーザが表示画面36を注視して、かつ、ユーザの顔の向きが表示画面36に対して対向する場合、コンテンツの音声を出力し、ユーザが表示画面36を注視していないで、かつ、ユーザの顔の向きが表示画面36に対して対向する向きではない場合、周辺音取得部52が取得した周辺音を出力できる。本実施形態によれば、ユーザが顔の向きを表示画面36に対向しない向きにして、ユーザが周辺に注意を向けたと状態されるときに、適切に周辺音を確認できる。
 図示した音声出力システム1の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。
 音声出力システム1の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。
 上記に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記に記載した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。
 上記では、周辺音が聞こえやすい状態の例として、周辺音低減処理を行わない状態とする例と、周辺音低減処理を行わず周辺音を出力する例とを示した。周辺音が聞こえやすい状態の例として、上記以外に、周辺音低減レベルを下げる、つまりノイズキャンセルレベルの効果を低減させてもよい。また、他の例として、ノイズキャンセルレベルの効果を低減させつつ周辺音を出力することとしてもよい。周辺音低減レベルを下げる処理とは、左マイクロフォン14と右マイクロフォン15とから取得した周辺音の位相を逆にして、音圧レベルを下げた信号を、音声入力部13が取得した音声データに合成して、音声出力制御部26に出力させる。
 また、上記では、周辺音が聞こえやすい状態とする処理を、左音声出力部11と右音声出力部12とに対して行ったが、左音声出力部11と右音声出力部12とのいずれか一方に対して行うこととしてもよい。例えば、ユーザが自らの利き耳の方で用いる音声出力部に対して、周辺音が聞こえやすい状態とする処理が行われるように設定してもよい。
 上記では、音声出力装置の一例としてヘッドホン10について説明したが、これに限定されない。音声出力装置は、例えば、イヤホンおよび首掛け式のスピーカなどであってもよい。音声出力装置は、音声入力部13を備えない、ノイズキャンセル機能のみを有する電子耳栓装置にも適用可能である。
 1    音声出力システム
 10   ヘッドホン(音声出力装置)
 11   左音声出力部
 12   右音声出力部
 13   音声入力部
 14   左マイクロフォン
 15   右マイクロフォン
 16   センサ
 20   音声出力制御装置
 21   向き検出部
 22   音声処理部
 23   音声取得部
 24   周辺音取得部
 25   周辺音低減処理部
 26   音声出力制御部

Claims (17)

  1.  ユーザの顔の向きの状態を検出する向き検出部と、
     前記ユーザの周辺音を取得する周辺音取得部と、
     前記周辺音取得部が取得した周辺音に基づき、周辺音を低減する処理を行う周辺音低減処理部と、
     前記向き検出部が、前記ユーザの顔の向きの状態が第一状態である場合は、前記周辺音低減処理部による周辺音を低減した音声を出力し、前記ユーザの顔の向きの状態が前記第一状態から第二状態に変化した場合は、前記周辺音低減処理部による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする音声出力制御部と、
     を備える、音声出力制御装置。
  2.  前記第一状態は、前記ユーザの顔の向きが下方を向いている状態であり、
     前記第二状態は、前記ユーザの顔の向きが下方を向いていない状態である、
     請求項1に記載の音声出力制御装置。
  3.  前記第一状態は、前記ユーザの顔の向きの変化によって生じる加速度が閾値より小さい状態であり、
     前記第二状態は、前記ユーザの顔の向きの変化によって生じる加速度が閾値以上である状態である、
     請求項1に記載の音声出力制御装置。
  4.  前記ユーザが交通機関を利用していることを判断する判断部、をさらに備え、
     前記音声出力制御部は、前記ユーザが交通機関を利用している場合に、前記ユーザの顔の向きの状態が前記第一状態である場合は、前記周辺音低減処理部による周辺音を低減した音声を出力し、前記ユーザの顔の向きの状態が前記第一状態から前記第二状態に変化した場合は、前記周辺音低減処理部による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする、
     請求項1から3のいずれか1項に記載の音声出力制御装置。
  5.  ユーザの視線方向を検出する視線検出部と、
     前記ユーザの周辺音を取得する周辺音取得部と、
     前記視線検出部の検出結果に基づき、前記ユーザがコンテンツを表示した表示画面を注視しているか否かを判断する注視判断部と、
     前記注視判断部が、前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合と、注視していないと判断した場合とで、前記周辺音取得部が取得した周辺音の出力の状態を変更して音声を出力する音声出力制御部と、
     を備える、音声出力制御装置。
  6.  前記周辺音取得部が取得した周辺音に基づき、ユーザに対して音声を出力する音声出力部が出力する音声に対して周辺音を低減する処理を行う周辺音低減処理部、をさらに備え、
     前記音声出力制御部は、前記注視判断部が、前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合は、前記周辺音低減処理部による周辺音を低減した音声を出力し、前記ユーザがコンテンツを表示した表示画面を注視していないと判断した場合は、前記周辺音低減処理部による周辺音を低減した状態よりは周辺音が聞こえやすい状態とする音声出力制御部と、
     請求項5に記載の音声出力制御装置。
  7.  前記音声出力制御部は、前記周辺音低減処理部による周辺音を低減した状態よりは周辺音が聞こえやすい状態として、前記周辺音低減処理部による周辺音低減処理を行わない、
     請求項1から3、6のいずれか一項に記載の音声出力制御装置。
  8.  前記音声出力制御部は、前記周辺音低減処理部による周辺音を低減した状態よりは周辺音が聞こえやすい状態として、前記周辺音低減処理部による周辺音低減処理を行なわず、前記周辺音取得部が取得した周辺音を出力する、
     請求項1から3、6のいずれか一項に記載の音声出力制御装置。
  9.  前記コンテンツに関する音声を取得する音声取得部、をさらに備え、
     前記音声出力制御部は、前記注視判断部が、前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合は、前記音声取得部が取得した前記コンテンツに関する音声を出力し、前記ユーザがコンテンツを表示した表示画面を注視していないと判断した場合は、前記周辺音取得部が取得した周辺音を出力する、
     請求項5に記載の音声出力制御装置。
  10.  前記音声出力制御部は、前記ユーザがコンテンツを表示した表示画面を注視していないと判断した場合は、前記音声取得部が取得した前記コンテンツに関する音声に加えて、前記周辺音取得部が取得した周辺音を出力する、
     請求項9に記載の音声出力制御装置。
  11.  前記ユーザの顔を認識し、認識した顔の向きを検出する顔検出部、をさらに備え、
     前記音声出力制御部は、前記ユーザがコンテンツを表示した表示画面を注視していると判断したことに加えて、前記顔検出部が検出した顔の向きが、前記表示画面に対して対向する向きである場合と、前記ユーザがコンテンツを表示した表示画面を注視していないと判断したことに加えて、前記顔検出部が検出した顔の向きが、前記表示画面に対して対向する向きではない場合とで、前記周辺音取得部が取得した周辺音の出力の状態を変更して音声を出力する、
     請求項5から10のいずれか一項に記載の音声出力制御装置。
  12.  前記ユーザが交通機関を利用していることを判断する判断部、をさらに備え、
     前記音声出力制御部は、前記ユーザが交通機関を利用している場合に、前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合と、前記ユーザがコンテンツを表示した表示画面を注視していないと判断した場合とで、前記周辺音取得部が取得した周辺音の出力の状態を変更して音声を出力する、
     請求項5から11のいずれか一項に記載の音声出力制御装置。
  13.  請求項1から12のいずれか一項に記載の音声出力制御装置と、
     周辺音を収音する収音部と、
     音声を出力する音声出力部と、
     を備える、音声出力システム。
  14.  音声出力装置を利用しているユーザの顔の向きの状態を検出するステップと、
     前記ユーザの周辺音を取得するステップと、
     前記ユーザの顔の向きの状態が第一状態である場合は、取得した周辺音に基づき周辺音を低減した音声を出力し、前記ユーザの顔の向きの状態が前記第一状態から第二状態に変化した場合は、周辺音を低減した状態よりは周辺音が聞こえやすい状態とするステップと、
     を含む、音声出力制御装置が実行する音声出力制御方法。
  15.  音声出力装置を利用しているユーザの顔の向きの状態を検出するステップと、
     前記ユーザの周辺音を取得するステップと、
     前記ユーザの顔の向きの状態が第一状態である場合は、取得した周辺音に基づき周辺音を低減した音声を出力し、前記ユーザの顔の向きの状態が前記第一状態から第二状態に変化した場合は、周辺音を低減した状態よりは周辺音が聞こえやすい状態とするステップと、
     を含む、コンピュータが実行するプログラム。
  16.  音声出力装置を利用しているユーザの視線方向を検出するステップと、
     前記ユーザの周辺音を取得するステップと、
     視線方向の検出結果に基づき、前記ユーザがコンテンツを表示した表示画面を注視しているか否かを判断するステップと、
     前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合と、注視していないと判断した場合とで、周辺音の出力の状態を変更して音声を出力するステップと、
     を含む、音声出力制御方法。
  17.  音声出力装置を利用しているユーザの視線方向を検出するステップと、
     前記ユーザの周辺音を取得するステップと、
     視線方向の検出結果に基づき、前記ユーザがコンテンツを表示した表示画面を注視しているか否かを判断するステップと、
     前記ユーザがコンテンツを表示した表示画面を注視していると判断した場合と、注視していないと判断した場合とで、周辺音の出力の状態を変更して音声を出力するステップと、
     を含む、コンピュータが実行するプログラム。
PCT/JP2020/043489 2020-03-25 2020-11-20 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム WO2021192410A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080093491.2A CN114981756A (zh) 2020-03-25 2020-11-20 声音输出控制装置、声音输出系统、声音输出控制方法以及程序
US17/946,162 US20230012555A1 (en) 2020-03-25 2022-09-16 Sound output control device, sound output system, sound output control method, and computer-readable storage medium

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2020054196A JP7447602B2 (ja) 2020-03-25 2020-03-25 コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム
JP2020054197A JP7424156B2 (ja) 2020-03-25 2020-03-25 コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム
JP2020-054197 2020-03-25
JP2020-054196 2020-03-25
JP2020054853A JP7443877B2 (ja) 2020-03-25 2020-03-25 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
JP2020-054853 2020-03-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/946,162 Continuation US20230012555A1 (en) 2020-03-25 2022-09-16 Sound output control device, sound output system, sound output control method, and computer-readable storage medium

Publications (1)

Publication Number Publication Date
WO2021192410A1 true WO2021192410A1 (ja) 2021-09-30

Family

ID=77891313

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/043489 WO2021192410A1 (ja) 2020-03-25 2020-11-20 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム

Country Status (3)

Country Link
US (1) US20230012555A1 (ja)
CN (1) CN114981756A (ja)
WO (1) WO2021192410A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522797A (ja) * 1991-07-10 1993-01-29 New Japan Radio Co Ltd 補聴器
JP2011203654A (ja) * 2010-03-26 2011-10-13 Sony Corp 音声再生装置、音声再生方法およびプログラム
WO2012102130A1 (ja) * 2011-01-27 2012-08-02 株式会社ニコン 撮像装置、プログラム、記録媒体およびノイズ低減方法
WO2012165657A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 音声処理システム、音声処理装置、音声処理方法およびそのプログラム
JP2014033373A (ja) * 2012-08-03 2014-02-20 Ricoh Co Ltd 制御装置、プログラムおよび制御システム
WO2020031767A1 (ja) * 2018-08-09 2020-02-13 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020045328A1 (ja) * 2018-08-27 2020-03-05 日本精機株式会社 表示装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522797A (ja) * 1991-07-10 1993-01-29 New Japan Radio Co Ltd 補聴器
JP2011203654A (ja) * 2010-03-26 2011-10-13 Sony Corp 音声再生装置、音声再生方法およびプログラム
WO2012102130A1 (ja) * 2011-01-27 2012-08-02 株式会社ニコン 撮像装置、プログラム、記録媒体およびノイズ低減方法
WO2012165657A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 音声処理システム、音声処理装置、音声処理方法およびそのプログラム
JP2014033373A (ja) * 2012-08-03 2014-02-20 Ricoh Co Ltd 制御装置、プログラムおよび制御システム
WO2020031767A1 (ja) * 2018-08-09 2020-02-13 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020045328A1 (ja) * 2018-08-27 2020-03-05 日本精機株式会社 表示装置

Also Published As

Publication number Publication date
CN114981756A (zh) 2022-08-30
US20230012555A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
JP6743691B2 (ja) 表示制御装置、表示制御方法およびコンピュータプログラム
US10219571B1 (en) In helmet sensors providing blind spot awareness
EP2839675B1 (en) Auto detection of headphone orientation
JP6284331B2 (ja) 会話支援装置、会話支援方法及び会話支援プログラム
US10325614B2 (en) Voice-based realtime audio attenuation
CN112262360A (zh) 具有音频输出设备的显示系统
JP2018511212A (ja) 聴力を改善するためのシステムおよび方法
JP5851544B2 (ja) 非透過型ヘッドマウントディスプレイ及びプログラム
US10542357B2 (en) Earset, earset system, and earset control method
CN110708630B (zh) 控制耳机的方法、装置、设备及存储介质
US20120105572A1 (en) Automatically adjusting a video-capture device
CN110856152A (zh) 播放音频数据的方法、装置、电子设备及介质
WO2021192410A1 (ja) 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
JP7447602B2 (ja) コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム
US11037519B2 (en) Display device having display based on detection value, program, and method of controlling device
JP5055586B2 (ja) ウエアラブルディスプレイ
JP6891879B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7424156B2 (ja) コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム
JP7443877B2 (ja) 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
CN110010138B (zh) 头戴式显示器及其控制方法
JP2021157245A5 (ja)
CN112799504B (zh) 头部佩戴型显示装置、输入方式的切换方法及记录介质
WO2018135393A1 (ja) 情報処理装置およびゲーム画音生成方法
WO2023112120A1 (ja) 通信システム、通信装置、サーバ装置、通信方法、通信プログラム及び記憶媒体
JP2008070548A (ja) 頭部装着型ディスプレイ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20926792

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20926792

Country of ref document: EP

Kind code of ref document: A1