WO2018198792A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2018198792A1
WO2018198792A1 PCT/JP2018/015355 JP2018015355W WO2018198792A1 WO 2018198792 A1 WO2018198792 A1 WO 2018198792A1 JP 2018015355 W JP2018015355 W JP 2018015355W WO 2018198792 A1 WO2018198792 A1 WO 2018198792A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
user
destination
notification
detection unit
Prior art date
Application number
PCT/JP2018/015355
Other languages
English (en)
French (fr)
Inventor
真里 斎藤
広 岩瀬
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/485,789 priority Critical patent/US11081128B2/en
Priority to JP2019514370A priority patent/JP7078039B2/ja
Priority to EP18792060.8A priority patent/EP3618059A4/en
Publication of WO2018198792A1 publication Critical patent/WO2018198792A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17857Geometric disposition, e.g. placement of microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17873General system configurations using a reference signal without an error signal, e.g. pure feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/43Jamming having variable characteristics characterized by the control of the jamming power, signal-to-noise ratio or geographic coverage area
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/111Directivity control or beam pattern
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/12Rooms, e.g. ANC inside a room, office, concert hall or automobile cabin
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3055Transfer function of the acoustic system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/41Jamming having variable characteristics characterized by the control of the jamming activation or deactivation time
    • H04K3/415Jamming having variable characteristics characterized by the control of the jamming activation or deactivation time based on motion status or velocity, e.g. for disabling use of mobile phones in a vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/94Jamming or countermeasure characterized by its function related to allowing or preventing testing or assessing

Definitions

  • the present disclosure relates to a signal processing apparatus, method, and program, and more particularly, to a signal processing apparatus, method, and program that can naturally create a privacy-protected state.
  • Patent Document 1 proposes that when a patient information is recognized, an operation of a masking sound generation unit that generates a masking sound is started to make it difficult for the patient's conversation sound to be heard around.
  • Patent Document 1 it becomes unnatural by making a masking sound, and it has been noticed in an environment such as a living room.
  • the present disclosure has been made in view of such a situation, and makes it possible to naturally create a state in which privacy is protected.
  • a signal processing device includes a sound detection unit that detects surrounding sounds at a notification generation timing to a destination user, and a destination user and a user other than the destination at the notification generation timing.
  • the position detection unit for detecting the position and the surrounding sound detected by the sound detection unit at the timing when it is determined that the sound is a maskable sound that can be used for masking.
  • An output control unit configured to output-control a notification to the destination user when the destination user's position is within a predetermined area.
  • a movement detection unit that detects movements of the destination user and a user other than the destination, and when movement is detected by the movement detection unit, the position detection unit is estimated based on movement detected by the movement detection unit; The location of the destination user and the user other than the destination can also be detected.
  • the apparatus further includes a duration prediction unit that predicts a duration of the maskable sound, and the output control unit performs output control to end the continuation of the maskable sound predicted by the duration prediction unit. be able to.
  • the ambient sound is a steady sound emitted from the device in the room, a sound emitted from the device non-periodically in the room, a utterance sound from a person or an animal, or an environmental sound coming from outside the room.
  • the output control unit can output-control notifications to the destination user together with sounds in a frequency band that can be heard only by users other than the destination.
  • the output control unit can output and control notification to the destination user with a sound quality similar to the surrounding sound detected by the sound detection unit.
  • the output control unit can output and control notification to the destination user when the position of the user other than the destination detected by the position detection unit is not within a predetermined area.
  • the output control unit can output and control notification to the destination user when it is detected that a user other than the destination detected by the position detection unit is sleeping.
  • the output control unit can output and control notifications to the destination user when users other than the destination detected by the position detection unit are concentrated on a predetermined thing.
  • the predetermined area is an area where the destination user is often located.
  • the output control unit can notify the destination user that there is a notification.
  • the signal processing device detects surrounding sounds at the timing of notification to the destination user, and at the timing of the notification, the destination user and a user other than the destination.
  • the detected surrounding sound is determined to be a maskable sound that can be used for masking
  • the detected position of the destination user is within a predetermined area. And output control of the notification to the destination user.
  • a program includes a sound detection unit that detects surrounding sounds at a notification generation timing to a destination user, and positions of the destination user and users other than the destination at the notification generation timing.
  • the position detection unit to be detected and the surrounding sound detected by the sound detection unit at the timing when it is determined that the sound is a maskable sound that can be used for masking.
  • the computer is caused to function as an output control unit that outputs and controls notification to the destination user.
  • surrounding sounds are detected at the timing of notification to a destination user, and the positions of the destination user and users other than the destination are detected at the timing of notification generation.
  • the detected ambient sound is determined to be a maskable sound that can be used for masking and the detected location of the destination user is within a predetermined area,
  • the notification to the user is output-controlled.
  • the signal can be processed.
  • a privacy-protected state can be created naturally.
  • FIG. 20 is a block diagram illustrating a main configuration example of a computer.
  • the individual notification system is configured to include an agent 21 and a speaker 22, and a person (destination user) who wants to transmit a notification using ambient sounds (hereinafter referred to as ambient sounds).
  • the agent 21 speaks by detecting a timing that can only be heard.
  • ambient sounds means, for example, surrounding utterances (multi-person conversation other than the destination user or making noise between children, etc.), air purifiers, air conditioners, piano practice sounds, and surrounding vehicle traffic sounds. Is used to estimate the situation that cannot be heard.
  • the agent 21 is a signal processing device to which the present technology is applied, and is a physical agent such as a robot, or a software agent installed in a stationary device or a dedicated device such as a smart phone or a personal computer.
  • the speaker 22 is connected to the agent 21 by wireless communication or the like, and outputs a sound according to an instruction from the agent 21.
  • the agent 21 has a notification to the user 11, for example.
  • the agent 21 in FIG. 1 detects the position of the user 12 away from the speaker 22 (sound is detected) by detecting the sound from the television device 31 and the position of a user other than the user 11 (for example, the user 12). It is recognized that the program of the television device 31 at the position where notification is impossible) is being viewed.
  • the agent 21 detects that the user 11 has moved to an area where the sound from the speaker 22 can be notified, as indicated by the arrow, at the timing when the sound from the television device 31 is being played.
  • a notification 32 is output from the speaker 22 as “It is a surprise present proposal,”.
  • FIG. 2 is a diagram illustrating another operation of the individual notification system to which the present technology is applied.
  • the agent 21 has a notification to the user 11 as in the case of FIG.
  • the agent 21 in FIG. 2 detects the sound of the Booon from the electric fan 41 (noise) and the position of a user other than the user 11 (for example, the user 12), so that the user 12 is away from the speaker 22.
  • the position of the user 12 and the position of the speaker 22 recognize that the electric fan 41 is making noise.
  • the agent 21 confirms that the user 11 is located in an area where the sound from the speaker 22 can be notified, the agent 21 outputs a notification 32 “This is a surprise present proposal, but”. .
  • warning utterances and visual feedback may be performed in anticipation of the time that the detected disturbance sound will continue, for example, the fried food is about to end or the television program is about to end.
  • FIG. 3 is a block diagram showing a configuration example of the agent in FIG.
  • the agent 21 includes an image input unit 61, an image processing unit 62, a sound input unit 63, a sound processing unit 64, a sound state estimation unit 65, a user state estimation unit 66, a sound source identification information DB 67, a user identification information DB 68, and a state estimation.
  • the camera 51 inputs the captured subject image to the image input unit 61.
  • the microphone 52 collects ambient sounds such as sounds of the television apparatus 31 and the electric fan 41 and the voices of the users 11 and 12 and inputs the collected ambient sounds to the audio input unit 63.
  • the image input unit 61 supplies the image from the camera 51 to the image processing unit 62.
  • the image processing unit 62 performs predetermined image processing on the supplied image and supplies the processed image to the sound state estimation unit 65 and the user state estimation unit 66.
  • the sound input unit 63 supplies the ambient sound from the microphone 52 to the sound processing unit 64.
  • the sound processing unit 64 performs predetermined sound processing on the supplied sound, and supplies the sound processed sound to the sound state estimation unit 65 and the user state estimation unit 66.
  • the sound state estimation unit 65 refers to the information in the sound source identification information DB 67 from the image from the image processing unit 62 and the sound from the sound processing unit 64, for example, an indoor air purifier or an air conditioner. Environment that comes in from the outside, such as stationary sounds emitted from equipment, sounds generated irregularly from equipment such as television and piano sounds indoors, voices from people and animals, or traffic sounds of surrounding vehicles A masking material sound such as a sound is detected, and the detection result is supplied to the state estimation unit 69. In addition, the sound state estimation unit 65 estimates whether the detected masking material sound continues, and supplies the estimation result to the state estimation unit 69.
  • the user state estimation unit 66 refers to the information in the user identification information DB 68 from the image from the image processing unit 62 and the sound from the sound processing unit 64, and determines all the users such as a user who is a destination and a user other than the destination. The position is detected, and the detection result is supplied to the state estimation unit 69. Further, the user state estimation unit 66 detects the movement of all users and supplies the detection result to the state estimation unit 69. At this time, position prediction is performed for each user in consideration of the movement trajectory.
  • the sound source identification information DB 67 stores frequency / duration / volume characteristics for each sound source, appearance frequency information for each time zone, and the like.
  • the user identification information DB 68 stores user preferences and user daily behavior patterns (such as places that are easily communicated to the user and places that are frequently visited) as user information. With reference to this user identification information DB 68, the user state estimation unit 66 can predict the user's original behavior and present information so as not to hinder it.
  • the notification possible area may also be set with reference to the user identification information DB 68.
  • the state estimation unit 69 Based on the detection result and estimation result from the sound state estimation unit 65 and the detection result from the user state estimation unit 66, the state estimation unit 69 sets the detected material sound to the destination according to the material sound and the position of each user. It is determined whether or not masking is possible for other users, and if so, the notification management unit 70 is controlled to notify the destination user.
  • the notification management unit 70 manages notifications, that is, messages and messages that need to be notified. When a notification is generated, the notification management unit 70 notifies the state estimation unit 69 of the notification and causes the state estimation. In addition, the notification management unit 70 causes the output control unit 71 to output a message or a message at the control timing from the state estimation unit 69.
  • the output control unit 71 causes the voice output unit 72 to output a message or message under the control of the notification management unit 70.
  • the output control unit 71 controls the audio output unit 72 and, for example, the volume is similar to a masking material sound (voice quality of a person who is speaking on television) or a masking material sound (interactively speaking with surroundings). You may make it notify by sound quality and volume which are not conspicuous than those who are).
  • a frequency band sound that can be heard only by users other than the destination to use a frequency that is difficult to hear.
  • a frequency band sound that can be heard only by users other than the destination to use a frequency that is difficult to hear.
  • the mosquito sound may be used when the detected material sound cannot be masked or when the material sound is not detected.
  • the frequency is difficult to hear, the present invention is not limited to the frequency, and any sound that is difficult to hear, such as sound quality that is difficult to hear, can be used.
  • the voice output unit 72 outputs a message or message with a predetermined sound under the control of the output control unit 71.
  • FIG. 3 a configuration example of an example in which the notification of a message and a message is only voice is shown.
  • an individual notification system is used.
  • step S51 the notification management unit 70 stands by until it is determined that a notification to the destination has occurred. If it is determined in step S51 that a notification has occurred, the notification management unit 70 supplies a signal indicating that a notification has occurred to the state estimation unit 69, and the process proceeds to step S52.
  • step S52 the sound state estimation unit 65 and the user state estimation unit 66 perform state estimation processing under the control of the state estimation unit 69.
  • this state estimation process will be described later with reference to FIG. 5, the material sound detection result and the user state detection result are supplied to the state estimation unit 69 by the state estimation process in step S ⁇ b> 52.
  • the detection of the material sound and the detection of the user state may be performed at the same timing when the notification is generated, or may not be exactly the same or may be slightly different.
  • step S53 the state estimation unit 69 determines whether masking with the material sound is possible based on the detection result of the material sound and the detection result of the user state. That is, it is determined whether or not only the destination user can be notified by masking with the material sound. If it is determined in step S53 that masking is not possible, the process returns to step S52, and the subsequent processes are repeated.
  • step S53 If it is determined in step S53 that masking is possible, the process proceeds to step S54.
  • step S ⁇ b> 54 the notification management unit 70 causes the output control unit 71 to execute notification and output a message or message from the speaker 22 at the control timing of the state estimation unit 69.
  • step S52 in FIG. 4 will be described with reference to the flowchart in FIG.
  • the camera 51 inputs the captured subject image to the image input unit 61.
  • the microphone 52 collects ambient sounds such as sounds of the television device 31 and the electric fan 41 and the voices of the user 11 and the user 12 and inputs the collected ambient sounds to the audio input unit 63. .
  • the image input unit 61 supplies the image from the camera 51 to the image processing unit 62.
  • the image processing unit 62 performs predetermined image processing on the supplied image and supplies the processed image to the sound state estimation unit 65 and the user state estimation unit 66.
  • the user state estimation unit 66 detects the position of the user. That is, the user state estimation unit 66 refers to the information in the user identification information DB 68 from the image from the image processing unit 62 and the sound from the sound processing unit 64, and all the users such as a user who is a destination and a user other than the destination. The position of the user is detected, and the detection result is supplied to the state estimation unit 69.
  • step S72 the user state estimation unit 66 detects the movement of all users and supplies the detection result to the state estimation unit 69.
  • the sound state estimation unit 65 refers to the information in the sound source identification information DB 67 from the image from the image processing unit 62 and the sound from the sound processing unit 64, and the air purifier, the air conditioner, and the television.
  • the sound of the masking material such as the sound of the piano and the surrounding vehicle traffic is detected, and the detection result is supplied to the state estimation unit 69.
  • step S74 the sound state estimation unit 65 estimates whether the detected masking material sound continues and supplies the estimation result to the state estimation unit 69.
  • step S53 based on the detection result of the material sound and the detection result of the user state, it is determined whether the material sound can be masked.
  • the masking material sound is used to prevent the sound from being heard by anyone other than the destination user. However, when there is no attention, the sound cannot be heard by anyone other than the destination user. May be.
  • “When there is no attention” means, for example, when a person other than the destination user is focused on something (such as a television program or work) and the sound is not heard, for example, when the user is asleep (state And if you do n’t seem to hear people you do n’t want to tell,
  • content such as music and news that the user is interested in is played to a user other than the destination by using a function that automatically plays the content, etc. It is also possible to present the desired information.
  • the information provider is fed back to the notification provider that the information is presented to the destination user in the public space. You may do it. It may be fed back that the destination user confirms the content of the information.
  • the feedback method may be a gesture. This feedback is performed by, for example, the notification management unit 70 or the like.
  • multimodal may be used.
  • the contents of information may be transmitted by combining sound, visual, touch, and the like so that the contents cannot be transmitted only by sound or visual alone.
  • ⁇ Computer> The series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer that can execute various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 6 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 305 is also connected to the bus 304.
  • An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input / output interface 305.
  • the input unit 306 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 307 includes, for example, a display, a speaker, an output terminal, and the like.
  • the storage unit 308 includes, for example, a hard disk, a RAM disk, a nonvolatile memory, and the like.
  • the communication unit 309 includes a network interface, for example.
  • the drive 310 drives a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 301 loads the program stored in the storage unit 308 to the RAM 303 via the input / output interface 305 and the bus 304 and executes the program, for example. Is performed.
  • the RAM 303 also appropriately stores data necessary for the CPU 301 to execute various processes.
  • the program executed by the computer (CPU 301) can be recorded and applied to, for example, a removable medium 311 as a package medium or the like.
  • the program can be installed in the storage unit 308 via the input / output interface 310 by attaching the removable medium 311 to the drive 310.
  • This program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting. In that case, the program can be received by the communication unit 309 and installed in the storage unit 308.
  • this program can be installed in the ROM 302 or the storage unit 308 in advance.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be combined into a single device (or processing unit).
  • a configuration other than that described above may be added to the configuration of each device (or each processing unit).
  • a part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit). .
  • the present technology can take a configuration of cloud computing in which one function is shared and processed by a plurality of devices via a network.
  • the above-described program can be executed in an arbitrary device.
  • the device may have necessary functions (functional blocks and the like) so that necessary information can be obtained.
  • each step described in the above flowchart can be executed by one device or can be executed by a plurality of devices. Further, when a plurality of processes are included in one step, the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the program executed by the computer may be executed in a time series in the order described in this specification for the processing of the steps describing the program, or in parallel or called. It may be executed individually at a necessary timing. Furthermore, the processing of the steps describing this program may be executed in parallel with the processing of other programs, or may be executed in combination with the processing of other programs.
  • this technique can also take the following structures.
  • a sound detection unit that detects surrounding sounds at the timing of notification generation to a destination user;
  • a position detection unit that detects positions of the destination user and users other than the destination at the timing of the occurrence of the notification;
  • the surrounding sound detected by the sound detection unit is determined to be a maskable sound that can be used for masking
  • the position of the destination user detected by the position detection unit is a predetermined area.
  • an output control unit that outputs and controls notification to the destination user.
  • a movement detection unit that detects movement of the destination user and users other than the destination, When movement is detected by the movement detection unit, the position detection unit also detects the positions of the destination user and users other than the destination estimated by the movement detected by the movement detection unit.
  • the signal processing apparatus as described. (3) It further includes a duration prediction unit that predicts the duration of the maskable sound.
  • the ambient sound is a steady sound emitted from a device in a room, a sound emitted non-periodically from a device in a room, a utterance sound from a person or an animal, or an environmental sound that enters from the outside.
  • the signal processing device according to any one of 1) to (3).
  • the position of the destination user detected by the position detection unit is a predetermined value.
  • the output control unit When in the area, the output control unit outputs and controls a notification to the destination user together with a sound in a frequency band that can be heard only by a user other than the destination. Any one of (1) to (4) Signal processing equipment.
  • the output control unit outputs and controls notification to the destination user with sound quality similar to the surrounding sound detected by the sound detection unit. Any one of (1) to (5) The signal processing apparatus as described.
  • the output control unit outputs and controls notification to the destination user.
  • the signal processing device according to any one of 6).
  • the output control unit detects that a user other than the destination detected by the position detection unit is sleeping, the output control unit performs output control of a notification to the destination user.
  • the signal processing device according to any one of 6).
  • the output control unit When the user other than the destination detected by the position detection unit is concentrated on a predetermined thing, the output control unit outputs and controls notification to the destination user.
  • the signal processing device according to any one of (1) to (9), wherein the predetermined area is an area where the destination user is often used.
  • the signal processing device is A sound detector that detects surrounding sounds at the timing of notification to the destination user; A position detection unit that detects positions of the destination user and users other than the destination at the timing of the occurrence of the notification; When the surrounding sound detected by the sound detection unit is determined to be a maskable sound that can be used for masking, the position of the destination user detected by the position detection unit is a predetermined area. And a signal processing method for controlling output of notification to the destination user.
  • a sound detection unit that detects surrounding sounds at the timing of notification generation to the destination user;
  • a position detection unit that detects positions of the destination user and users other than the destination at the timing of the occurrence of the notification;
  • the surrounding sound detected by the sound detection unit is determined to be a maskable sound that can be used for masking
  • the position of the destination user detected by the position detection unit is a predetermined area.
  • a program that causes a computer to function as an output control unit that outputs and controls notification to the destination user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Emergency Alarm Devices (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示は、プライバシを保護した状態を自然に作り出すことができるようにする信号処理装置および方法、並びにプログラムに関する。 宛先のユーザへの通知発生のタイミングで、音状態推定部は、周囲の音を検出する。ユーザ状態推定部は、先のユーザへの通知発生のタイミングで、宛先のユーザおよび宛先以外のユーザの位置を検出する。音状態推定部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、ユーザ状態推定部により検出された宛先のユーザの位置が所定のエリア内にある場合、出力制御部は、宛先のユーザへの通知を出力制御する。本開示は、例えば、信号処理装置とスピーカを含む個別通知システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本開示は、信号処理装置および方法、並びにプログラムに関し、特に、プライバシを保護した状態を自然に作り出すことができるようにした信号処理装置および方法、並びにプログラムに関する。
 システムから特定のユーザにだけ伝えるべき時間があった場合、複数人がいる部屋では、システムからの通知があった場合、その場にいる人全員に伝わってしまい、プライバシが保護されていなかった。また、BFなど指向性が高い出力を行い、特定のユーザだけに聞かせることもできるが、そのために、専用のスピーカがあちこちに必要になった。
 そこで、特許文献1においては、患者情報を認識したときに、マスキング音を生成するマスキング音生成部の動作を開始させて、患者の会話音を周囲に聞こえ難くする提案がなされている。
特開2010-19935号公報
 しかしながら、特許文献1の提案では、マスキング音を鳴らすことで不自然な状態になり、リビングなどの環境では、かえって気付かれてしまっていた。
 本開示は、このような状況に鑑みてなされたものであり、プライバシを保護した状態を自然に作り出すことができるようにするものである。
 本技術の一側面の信号処理装置は、宛先のユーザへの通知発生のタイミングで、周囲の音を検出する音検出部と、前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する出力制御部とを備える。
 前記宛先のユーザおよび宛先以外のユーザの移動を検出する移動検出部をさらに備え、前記移動検出部により移動が検出された場合、前記位置検出部は、前記移動検出部により検出された移動により推定される前記宛先のユーザおよび宛先以外のユーザの位置も検出することができる。
 前記マスキング可能な音が継続する時間を予測する継続時間予測部をさらに備え、前記出力制御部は、前記継続時間予測部により予測された前記マスキング可能な音の継続が終了する旨を出力制御することができる。
 前記周囲の音は、室内で機器から発せられる定常音、室内で機器から非定期的に発せられる音、人や動物からの発声音、または室外から入ってくる環境音である。
 前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音でないと判定された場合、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にあるとき、前記出力制御部は、前記宛先以外のユーザだけに聞こえる周波数帯の音とともに、前記宛先のユーザへの通知を出力制御することができる。
 前記出力制御部は、前記音検出部により検出された周囲の音と似ている音質で、前記宛先のユーザへの通知を出力制御することができる。
 前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザの位置が所定のエリア内にない場合、前記宛先のユーザへの通知を出力制御することができる。
 前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザが寝ている状態と検出された場合、前記宛先のユーザへの通知を出力制御することができる。
 前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザが所定の事に集中している場合、前記宛先のユーザへの通知を出力制御することができる。
 前記所定のエリアは、前記宛先のユーザがよくいるエリアである。
 前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されなかった場合、または、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にない場合、前記出力制御部は、通知があることを前記宛先のユーザに通知することができる。
 前記宛先のユーザへの通知の発信者に対して、前記宛先のユーザへの通知済みをフィードバックするフィードバック部をさらに備えることができる。
 本技術の一側面の信号処理方法は、信号処理装置が、宛先のユーザへの通知発生のタイミングで、周囲の音を検出し、前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出し、検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する。
 本技術の一側面のプログラムは、宛先のユーザへの通知発生のタイミングで、周囲の音を検出する音検出部と、前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する出力制御部として、コンピュータを機能させる。
 本技術の一側面においては、宛先のユーザへの通知発生のタイミングで、周囲の音が検出され、前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置が検出される。そして、検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知が出力制御される。
 本開示によれば、信号を処理することができる。特に、プライバシを保護した状態を自然に作り出すことができる。
本技術を適用した個別通知システムの動作について説明する図である。 本技術を適用した個別通知システムの他の動作について説明する図である。 エージェントの構成例を示すブロック図である。 個別通知信号処理について説明するフローチャートである。 図4のステップS52の状態推定処理について説明するフローチャートである。 コンピュータの主な構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。
 まず、図1を参照して、本技術を適用した個別通知システムの動作について説明する。
 図1の例において、個別通知システムは、エージェント21とスピーカ22を含むように構成されており、周囲の音(以下、周囲音と称する)を利用して、通知を伝えたい人(宛先のユーザと称する)にしか聞こえないタイミングを検出して、エージェント21が発話するものである。
 ここで、周囲音を利用するとは、例えば、周囲の発話(宛先のユーザ以外の複数人対話や子ども同士で騒ぐなど)、空気清浄器、エアーコンディショナ、ピアノの練習音、周囲の車両通行音などが用いられて、聞こえない状況の推定を行うということである。
 エージェント21は、本技術を適用した信号処理装置であり、ロボットのような物理エージェント、または、スマートホンやパーソナルコンピュータなどの据え置き機器または専用機器にインストールされているソフトウエアエージェントなどである。スピーカ22は、エージェント21に無線通信などで接続されており、エージェント21の指示により音声を出力する。
 エージェント21は、例えば、ユーザ11に対する通知を有している。その際、図1のエージェント21は、テレビジョン装置31からの音とユーザ11以外のユーザ(例えば、ユーザ12)の位置を検出することで、ユーザ12が、スピーカ22から離れた位置(音声が通知不可能な位置)にあるテレビジョン装置31の番組を視聴していることを認識する。そして、テレビジョン装置31からの音がしているタイミングで、エージェント21は、矢印に示されるように、ユーザ11が、スピーカ22からの音声が通知可能なエリアに移動してきたのを検出したときに、スピーカ22より「サプライズのプレゼント案ですが、、、」と通知32を出力する。
 また、個別通知システムは、図2のようにも動作する。図2は、本技術を適用した個別通知システムの他の動作について説明する図である。
 エージェント21は、図1の場合と同様に、ユーザ11に対する通知を有している。その際、図2のエージェント21は、扇風機41からのBooonという音(騒音)とユーザ11以外のユーザ(例えば、ユーザ12)の位置を検出することで、ユーザ12が、スピーカ22から離れた位置(音声が通知不可能な位置)におり、ユーザ12の位置とスピーカ22の位置で、扇風機41が騒音を出していることを認識する。さらに、エージェント21は、ユーザ11が、スピーカ22からの音声が通知可能なエリアに位置することを確認したときに、スピーカ22より「サプライズのプレゼント案ですが、、、」と通知32を出力する。
 以上のように、図1および図2の個別通知システムにおいては、テレビジョン装置31の音がしているとき、あるいは、子どもが騒ぎ始めたら、など、一定以上の音がしている状況で、エージェント21近くにいる人に発話が行われるので、ユーザ12に聞こえないように、ユーザ11にだけ通知することができる。これにより、プライバシを保護した状態を自然につくり出すことができる。
 なお、これら以外に、例えば、そろそろ揚げ物が終わりそう、テレビジョンの番組が終わりそう、など、検知した妨害音が継続する時間を予測して、警告の発話や視覚フィードバックが行われてもよい。
 図3は、図1のエージェントの構成例を示すブロック図である。
 図3の例において、エージェント21には、スピーカ22の他、カメラ51およびマイクロホン52が接続されている。エージェント21は、画像入力部61、画像処理部62、音声入力部63、音声処理部64、音状態推定部65、ユーザ状態推定部66、音源識別用情報DB67、ユーザ識別用情報DB68、状態推定部69、通知管理部70、および出力制御部71を含むように構成されている。
 カメラ51は、撮像した被写体の画像を、画像入力部61に入力する。マイクロホン52は、上述したように、テレビジョン装置31や扇風機41などの音やユーザ11や12の音声などの周囲音を集音して、集音した周囲音を音声入力部63に入力する。
 画像入力部61は、カメラ51からの画像を、画像処理部62に供給する。画像処理部62は、供給された画像に対して、所定の画像処理を行い、画像処理済みの画像を、音状態推定部65およびユーザ状態推定部66に供給する。
 音声入力部63は、マイクロホン52からの周囲音を、音声処理部64に供給する。音声処理部64は、供給された音に対して、所定の音声処理を行い、音声処理済みの音を、音状態推定部65およびユーザ状態推定部66に供給する。
 音状態推定部65は、画像処理部62からの画像および音声処理部64からの音から、音源識別用情報DB67の情報を参照して、例えば、室内で空気清浄器、エアーコンディショナのような機器から発せられる定常音、室内でテレビジョン、ピアノの音のような機器から非定期的に発せられる音、人や動物からの発声音、または、周囲の車両通行音など室外から入ってくる環境音など、マスキング素材音を検出し、検出結果を状態推定部69に供給する。また、音状態推定部65は、検出されたマスキング素材音が継続するかを推定し、推定結果を状態推定部69に供給する。
 ユーザ状態推定部66は、画像処理部62からの画像および音声処理部64からの音から、ユーザ識別用情報DB68の情報を参照して、宛先であるユーザ、宛先以外のユーザなどすべてのユーザの位置を検出し、その検出結果を状態推定部69に供給する。また、ユーザ状態推定部66は、すべてのユーザの移動を検出して、検出結果を状態推定部69に供給する。このとき、それぞれのユーザに対して、移動軌跡を加味した位置予測が行われる。
 音源識別用情報DB67は、音源ごとの周波数・継続時間・音量特性、時間帯ごとの出現頻度情報などを記憶している。ユーザ識別用情報DB68には、ユーザの嗜好性、ユーザの一日の行動パターン(ユーザに伝わりやすい場所やよく行く場所についてなどのこと)が、ユーザ情報として記憶されている。このユーザ識別用情報DB68を参照して、ユーザ状態推定部66は、ユーザ本来の行動を予測して、それを阻害しないように情報提示するようにできる。通知可能エリアの設定も、ユーザ識別用情報DB68を参照して行われてもよい。
 状態推定部69は、音状態推定部65からの検出結果や推定結果、ユーザ状態推定部66からの検出結果に基づき、素材音や各ユーザの位置に応じて、検出された素材音が、宛先以外のユーザに対してマスキングが可能であるか否かを判定し、可能である場合、通知管理部70を制御し、宛先のユーザに対して通知を行わせる。
 通知管理部70は、通知、すなわち、通知する必要のある伝言やメッセージなどを管理しており、通知が発生した場合、状態推定部69にその旨を通知し、状態推定を行わせる。また、通知管理部70は、状態推定部69からの制御のタイミングで、出力制御部71に、伝言やメッセージを出力させる。
 出力制御部71は、通知管理部70からの制御のもと、伝言やメッセージを音声出力部72に出力させる。例えば、出力制御部71は、音声出力部72を制御し、例えば、マスキング素材音(テレビジョンで発話にしている人の声質)に似ている音量であったり、マスキング素材音(周囲で対話している人)よりも目立たない音質、音量で、通知させるようにしてもよい。
 また、聞こえにくい周波数の利用として、宛先以外のユーザだけに聞こえる周波数帯の音でメッセージすることも可能である。例えば、モスキート音をマスキング素材音としてメッセージを発生させることで、若者にはモスキートオンによりメッセージが聞こえない状況とすることができる。例えば、検出された素材音がマスキング不可能であったり、素材音が検出されなかった場合に、モスキート音が用いられるようにしてもよい。なお、聞こえにくい周波数としたが、周波数に限らず、聞こえにくい音質など聞こえにくい音であれば、利用可能である。
 音声出力部72は、出力制御部71の制御のもと、伝言やメッセージを所定の音で出力する。
 なお、図3の例においては、伝言やメッセージの通知は、音声のみにする例の構成例が示されているが、視覚による通知や、視覚および聴覚による通知を行うために、個別通知システムには、表示部を備えさせて、エージェントを、表示制御部を備えた構成とすることもできる。
 次に、図4のフローチャートを参照して、個別通知システムの個別通知信号処理について説明する。
 ステップS51において、通知管理部70は、宛先への通知が発生したと判定するまで待機している。ステップS51において、通知が発生したと判定された場合、通知管理部70は、状態推定部69に、通知が発生したことを示す信号を供給し、処理は、ステップS52に進む。
 ステップS52において、音状態推定部65およびユーザ状態推定部66は、状態推定部69の制御のもと、状態推定処理を行う。この状態推定処理は、図5を参照して後述されるが、ステップS52の状態推定処理により、素材音の検出結果とユーザ状態の検出結果とが状態推定部69に供給される。なお、素材音の検出とユーザ状態の検出は、通知が発生した同じタイミングで行われてもよいし、全く同じでなくても、多少違っていてもよい。
 ステップS53において、状態推定部69は、素材音の検出結果とユーザ状態の検出結果に基づいて、素材音によりマスキング可能であるか否かを判定する。すなわち、素材音でマスキングすることで、宛先のユーザだけに通知ができるかが判定される。ステップS53において、マスキング可能ではないと判定された場合、処理は、ステップS52に戻り、それ以降の処理が繰り返される。
 ステップS53において、マスキング可能であると判定された場合、処理は、ステップS54に進む。ステップS54において、通知管理部70は、状態推定部69の制御のタイミングで、出力制御部71に、通知を実行させ、スピーカ22から、伝言やメッセージを出力させる。
 次に、図5のフローチャートを参照して、図4のステップS52の状態推定処理について説明する。
 カメラ51は、撮像した被写体の画像を、画像入力部61に入力する。マイクロホン52は、上述したように、テレビジョン装置31や扇風機41などの音やユーザ11やユーザ12の音声などの周囲音を集音して、集音した周囲音を音声入力部63に入力する。
 画像入力部61は、カメラ51からの画像を、画像処理部62に供給する。画像処理部62は、供給された画像に対して、所定の画像処理を行い、画像処理済みの画像を、音状態推定部65およびユーザ状態推定部66に供給する。
 ステップS71において、ユーザ状態推定部66は、ユーザの位置を検出する。すなわち、ユーザ状態推定部66は、画像処理部62からの画像および音声処理部64からの音から、ユーザ識別用情報DB68の情報を参照して、宛先であるユーザ、宛先以外のユーザなどすべてのユーザの位置を検出し、その検出結果を状態推定部69に供給する。
 ステップS72において、ユーザ状態推定部66は、すべてのユーザの移動を検出して、検出結果を状態推定部69に供給する。
 ステップS73において、音状態推定部65は、画像処理部62からの画像および音声処理部64からの音から、音源識別用情報DB67の情報を参照して、空気清浄器、エアーコンディショナ、テレビジョン、ピアノの音や、周囲の車両通行音など、マスキング素材音を検出し、検出結果を状態推定部69に供給する。
 ステップS74において、音状態推定部65は、検出されたマスキング素材音が継続するかを推定し、推定結果を状態推定部69に供給する。
 その後、図4のステップS52に戻り、処理は、ステップS53に進む。そして、ステップS53において、これらの素材音の検出結果とユーザ状態の検出結果に基づいて、素材音によりマスキング可能であるか否かが判定される。
 以上のようにすることで、宛先のユーザだけに聞こえるように、伝言やメッセージを出力させることができる。すなわち、プライバシを保護した状態を自然に作り出すことができる。
 なお、上記説明においては、マスキング素材音を利用して、宛先のユーザ以外に聞こえないようにする例を説明してきたが、アテンションがないときを利用して、宛先のユーザ以外に聞こえないようにしてもよい。
 「アテンションがないとき」とは、例えば、宛先のユーザ以外が何かに集中していて(テレビジョンの番組や仕事など)、音が聞こえない状態であるとき、例えば、居眠り状態のとき(状態を検知して、伝えたくない人が聞こえなさそうであれば、通知を実行する)。
 さらに、例えば、自動でコンテンツなどを再生する機能などを用いて、宛先以外のユーザに対して、そのユーザが興味を持つ音楽、ニュースなどのコンテンツを再生し、その間に宛先のユーザに対して秘匿したい情報を提示することも可能である。
 なお、宛先であるユーザだけに聞こえるように、伝言やメッセージを出力させることができない場合、通知があることだけを宛先のユーザに指定したり、宛先の端末の表示部に提示したり、廊下やトイレなど宛先以外のユーザがいない場所への誘導を行うようにしてもよい。
 また、宛先であるユーザだけに聞こえるように、伝言やメッセージを出力させた後の確認方法としては、通知の提供者に対して、パブリックスペースにいる宛先のユーザに情報を提示したことをフィードバックするようにしてもよい。宛先のユーザが情報の内容を確認したこともフィードバックするようにしてもよい。フィードバック方法は、ジェスチャでもかまわない。このフィードバックは、例えば、通知管理部70などにより行われる。
 さらに、マルチモーダルを用いてもよい。すなわち、音とビジュアル、触覚などを組み合わせ、音だけ、ビジュアルだけでは内容が伝わらないような構成にして、両者を組み合わせることで、情報の内容が伝わるようにしてもよい。
 <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
 図6は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 図6に示されるコンピュータにおいて、CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303は、バス304を介して相互に接続されている。
 バス304にはまた、入出力インタフェース305も接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、およびドライブ310が接続されている。
 入力部306は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部307は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部308は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部309は、例えば、ネットワークインタフェースよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア311を駆動する。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305およびバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。RAM303にはまた、CPU301が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して適用することができる。その場合、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース310を介して、記憶部308にインストールすることができる。
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部309で受信し、記憶部308にインストールすることができる。
 その他、このプログラムは、ROM302や記憶部308に、あらかじめインストールしておくこともできる。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術を、他の実施の形態において説明した本技術と組み合わせて実施することもできる。また、上述した任意の本技術を、上述していない他の技術と併用して実施することもできる。
 なお、本技術は以下のような構成も取ることができる。
 (1) 宛先のユーザへの通知発生のタイミングで、周囲の音を検出する音検出部と、
 前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、
 前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する出力制御部と
 を備える信号処理装置。
 (2) 前記宛先のユーザおよび宛先以外のユーザの移動を検出する移動検出部を
 さらに備え、
 前記移動検出部により移動が検出された場合、前記位置検出部は、前記移動検出部により検出された移動により推定される前記宛先のユーザおよび宛先以外のユーザの位置も検出する
 前記(1)に記載の信号処理装置。
 (3) 前記マスキング可能な音が継続する時間を予測する継続時間予測部をさらに備え、
 前記出力制御部は、前記継続時間予測部により予測された前記マスキング可能な音の継続が終了する旨を出力制御する
 前記(1)または(2)に記載の信号処理装置。
 (4) 前記周囲の音は、室内で機器から発せられる定常音、室内で機器から非定期的に発せられる音、人や動物からの発声音、または室外から入ってくる環境音である
 前記(1)乃至(3)のいずれかに記載の信号処理装置。
 (5) 前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音でないと判定された場合、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にあるとき、前記出力制御部は、前記宛先以外のユーザだけに聞こえる周波数帯の音とともに、前記宛先のユーザへの通知を出力制御する
 前記(1)乃至(4)のいずれかに記載の信号処理装置。
 (6) 前記出力制御部は、前記音検出部により検出された周囲の音と似ている音質で、前記宛先のユーザへの通知を出力制御する
 前記(1)乃至(5)のいずれかに記載の信号処理装置。
 (7) 前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザの位置が所定のエリア内にない場合、前記宛先のユーザへの通知を出力制御する
 前記(1)乃至(6)のいずれかに記載の信号処理装置。
 (8) 前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザが寝ている状態と検出された場合、前記宛先のユーザへの通知を出力制御する
 前記(1)乃至(6)のいずれかに記載の信号処理装置。
 (9) 前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザが所定の事に集中している場合、前記宛先のユーザへの通知を出力制御する
 前記(1)乃至(6)のいずれかに記載の信号処理装置。
 (10) 前記所定のエリアは、前記宛先のユーザがよくいるエリアである
 前記(1)乃至(9)のいずれかに記載の信号処理装置。
 (11) 前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されなかった場合、または、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にない場合、前記出力制御部は、通知があることを前記宛先のユーザに通知する
 前記(1)乃至(10)のいずれかに記載の信号処理装置。
 (12) 前記宛先のユーザへの通知の発信者に対して、前記宛先のユーザへの通知済みをフィードバックするフィードバック部をさらに備える
 前記(1)乃至(11)のいずれかに記載の信号処理装置。
 (13) 信号処理装置が、
 宛先のユーザへの通知発生のタイミングで、周囲の音を検出する音検出部と、
 前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、
 前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する
 信号処理方法。
 (14) 宛先のユーザへの通知発生のタイミングで、周囲の音を検出する音検出部と、
 前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、
 前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する出力制御部と
 して、コンピュータを機能させるプログラム。
 21 エージェント, 22 スピーカ, 31 テレビジョン装置, 32 通知, 41 扇風機, 51 カメラ, 52 マイクロホン, 61 画像入力部, 62 画像処理部, 63 音声入力部, 64 音声処理部, 65 音状態推定部, 66 ユーザ状態推定部, 67 音源識別用情報DB, 68 ユーザ識別用情報DB, 69 状態推定部, 70 通知管理部, 71 出力制御部, 72 音声出力部

Claims (14)

  1.  宛先のユーザへの通知発生のタイミングで、周囲の音を検出する音検出部と、
     前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、
     前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する出力制御部と
     を備える信号処理装置。
  2.  前記宛先のユーザおよび宛先以外のユーザの移動を検出する移動検出部を
     さらに備え、
     前記移動検出部により移動が検出された場合、前記位置検出部は、前記移動検出部により検出された移動により推定される前記宛先のユーザおよび宛先以外のユーザの位置も検出する
     請求項1に記載の信号処理装置。
  3.  前記マスキング可能な音が継続する時間を予測する継続時間予測部をさらに備え、
     前記出力制御部は、前記継続時間予測部により予測された前記マスキング可能な音の継続が終了する旨を出力制御する
     請求項1に記載の信号処理装置。
  4.  前記周囲の音は、室内で機器から発せられる定常音、室内で機器から非定期的に発せられる音、人や動物からの発声音、または室外から入ってくる環境音である
     請求項1に記載の信号処理装置。
  5.  前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音でないと判定された場合、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にあるとき、前記出力制御部は、前記宛先以外のユーザだけに聞こえる音質の音とともに、前記宛先のユーザへの通知を出力制御する
     請求項1に記載の信号処理装置。
  6.  前記出力制御部は、前記音検出部により検出された周囲の音と似ている音質で、前記宛先のユーザへの通知を出力制御する
     請求項1に記載の信号処理装置。
  7.  前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザの位置が所定のエリア内にない場合、前記宛先のユーザへの通知を出力制御する
     請求項1に記載の信号処理装置。
  8.  前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザが寝ている状態と検出された場合、前記宛先のユーザへの通知を出力制御する
     請求項1に記載の信号処理装置。
  9.  前記出力制御部は、前記位置検出部により検出された前記宛先以外のユーザが所定の事に集中している場合、前記宛先のユーザへの通知を出力制御する
     請求項1に記載の信号処理装置。
  10.  前記所定のエリアは、前記宛先のユーザがよくいるエリアである
     請求項1に記載の信号処理装置。
  11.  前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されなかった場合、または、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にない場合、前記出力制御部は、通知があることを前記宛先のユーザに通知する
     請求項1に記載の信号処理装置。
  12.  前記宛先のユーザへの通知の発信者に対して、前記宛先のユーザへの通知済みをフィードバックするフィードバック部をさらに備える
     請求項1に記載の信号処理装置。
  13.  信号処理装置が、
     宛先のユーザへの通知がある場合、周囲の音を検出する音検出部と、
     前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、
     前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する
     信号処理方法。
  14.  宛先のユーザへの通知発生のタイミングで、周囲の音を検出する音検出部と、
     前記通知発生のタイミングで、前記宛先のユーザおよび宛先以外のユーザの位置を検出する位置検出部と、
     前記音検出部により検出された周囲の音が、マスキングに用いることができるマスキング可能な音であると判定されたタイミングで、前記位置検出部により検出された前記宛先のユーザの位置が所定のエリア内にある場合、前記宛先のユーザへの通知を出力制御する出力制御部と
     して、コンピュータを機能させるプログラム。
PCT/JP2018/015355 2017-04-26 2018-04-12 信号処理装置および方法、並びにプログラム WO2018198792A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/485,789 US11081128B2 (en) 2017-04-26 2018-04-12 Signal processing apparatus and method, and program
JP2019514370A JP7078039B2 (ja) 2017-04-26 2018-04-12 信号処理装置および方法、並びにプログラム
EP18792060.8A EP3618059A4 (en) 2017-04-26 2018-04-12 SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017086821 2017-04-26
JP2017-086821 2017-04-26

Publications (1)

Publication Number Publication Date
WO2018198792A1 true WO2018198792A1 (ja) 2018-11-01

Family

ID=63918217

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/015355 WO2018198792A1 (ja) 2017-04-26 2018-04-12 信号処理装置および方法、並びにプログラム

Country Status (4)

Country Link
US (1) US11081128B2 (ja)
EP (1) EP3618059A4 (ja)
JP (1) JP7078039B2 (ja)
WO (1) WO2018198792A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7043158B1 (ja) * 2022-01-31 2022-03-29 功憲 末次 音発生装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007013274A (ja) * 2005-06-28 2007-01-18 Field System Inc 情報提供システム
JP2008209703A (ja) * 2007-02-27 2008-09-11 Yamaha Corp カラオケ装置
JP2010019935A (ja) 2008-07-08 2010-01-28 Toshiba Corp スピーチプライバシー保護装置
JP2011033949A (ja) * 2009-08-04 2011-02-17 Yamaha Corp 会話漏洩防止装置
JP2015101332A (ja) * 2013-11-21 2015-06-04 ハーマン インターナショナル インダストリーズ, インコーポレイテッド 外部事象を車両乗員にアラートし、車内会話をマスクするための外部音響の使用

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865259B1 (en) * 1997-10-02 2005-03-08 Siemens Communications, Inc. Apparatus and method for forwarding a message waiting indicator
JP5732937B2 (ja) * 2010-09-08 2015-06-10 ヤマハ株式会社 サウンドマスキング装置
JP2012093705A (ja) * 2010-09-28 2012-05-17 Yamaha Corp 音声出力装置
JP5966326B2 (ja) * 2010-12-07 2016-08-10 ヤマハ株式会社 マスカ音出力装置、マスカ音出力システム、およびプログラム
EP2475138B1 (en) * 2011-01-06 2019-03-13 BlackBerry Limited Delivery and management of status notifications for group messaging
US20130259254A1 (en) * 2012-03-28 2013-10-03 Qualcomm Incorporated Systems, methods, and apparatus for producing a directional sound field
JP6025037B2 (ja) * 2012-10-25 2016-11-16 パナソニックIpマネジメント株式会社 音声エージェント装置、及びその制御方法
JP5958833B2 (ja) * 2013-06-24 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム
US9445190B2 (en) * 2013-12-20 2016-09-13 Plantronics, Inc. Masking open space noise using sound and corresponding visual
US9870762B2 (en) * 2015-09-11 2018-01-16 Plantronics, Inc. Steerable loudspeaker system for individualized sound masking
US11120821B2 (en) * 2016-08-08 2021-09-14 Plantronics, Inc. Vowel sensing voice activity detector
US10152959B2 (en) * 2016-11-30 2018-12-11 Plantronics, Inc. Locality based noise masking
US10074356B1 (en) * 2017-03-09 2018-09-11 Plantronics, Inc. Centralized control of multiple active noise cancellation devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007013274A (ja) * 2005-06-28 2007-01-18 Field System Inc 情報提供システム
JP2008209703A (ja) * 2007-02-27 2008-09-11 Yamaha Corp カラオケ装置
JP2010019935A (ja) 2008-07-08 2010-01-28 Toshiba Corp スピーチプライバシー保護装置
JP2011033949A (ja) * 2009-08-04 2011-02-17 Yamaha Corp 会話漏洩防止装置
JP2015101332A (ja) * 2013-11-21 2015-06-04 ハーマン インターナショナル インダストリーズ, インコーポレイテッド 外部事象を車両乗員にアラートし、車内会話をマスクするための外部音響の使用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3618059A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7043158B1 (ja) * 2022-01-31 2022-03-29 功憲 末次 音発生装置

Also Published As

Publication number Publication date
JP7078039B2 (ja) 2022-05-31
US20200051586A1 (en) 2020-02-13
EP3618059A1 (en) 2020-03-04
EP3618059A4 (en) 2020-04-22
JPWO2018198792A1 (ja) 2020-03-05
US11081128B2 (en) 2021-08-03

Similar Documents

Publication Publication Date Title
JP6600634B2 (ja) ユーザが制御可能な聴覚環境のカスタマイズのためのシステム及び方法
CN107210032A (zh) 在掩蔽语音区域中掩蔽再现语音的语音再现设备
CN112352441B (zh) 增强型环境意识系统
JP2017538341A (ja) 音量調節方法、システム、デバイス及びプログラム
KR102550030B1 (ko) 오디오 디바이스들의 조정
US11467666B2 (en) Hearing augmentation and wearable system with localized feedback
US11030879B2 (en) Environment-aware monitoring systems, methods, and computer program products for immersive environments
US11232781B2 (en) Information processing device, information processing method, voice output device, and voice output method
KR20190019078A (ko) 오디오 스트림에서의 변경에 대한 사용자에의 경고
CN112291672A (zh) 扬声器的控制方法、控制装置以及电子设备
WO2018198792A1 (ja) 信号処理装置および方法、並びにプログラム
EP3506058A1 (en) Information processing apparatus, information processing method, and program
US11302317B2 (en) Information processing apparatus and information processing method to attract interest of targets using voice utterance
WO2019171963A1 (ja) 信号処理システム、信号処理装置および方法、並びにプログラム
JP6855528B2 (ja) 制御装置、入出力装置、制御方法、および制御プログラム
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
US20150356212A1 (en) Senior assisted living method and system
JP2009080298A (ja) 補聴装置
KR20240142512A (ko) 보청기 귀내 고지들
CN117795986A (zh) 用于警报和其它声音的听觉辅助设备
JP2019091977A (ja) 音声出力システム及び音声出力方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18792060

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019514370

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018792060

Country of ref document: EP

Effective date: 20191126