WO2023058515A1 - 情報処理方法、情報処理システム、及びプログラム - Google Patents

情報処理方法、情報処理システム、及びプログラム Download PDF

Info

Publication number
WO2023058515A1
WO2023058515A1 PCT/JP2022/036130 JP2022036130W WO2023058515A1 WO 2023058515 A1 WO2023058515 A1 WO 2023058515A1 JP 2022036130 W JP2022036130 W JP 2022036130W WO 2023058515 A1 WO2023058515 A1 WO 2023058515A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
recognition
information
external sound
information processing
Prior art date
Application number
PCT/JP2022/036130
Other languages
English (en)
French (fr)
Inventor
健太郎 柴田
ミヒャエル ヘンチェル
寛 黒田
裕一郎 小山
匡伸 中村
浩明 小川
崇 澁谷
典子 戸塚
俊允 上坂
敬一 山田
衣未留 角尾
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023058515A1 publication Critical patent/WO2023058515A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • the present disclosure relates to an information processing method, an information processing system, and a program.
  • Sound output devices may have functions or structures to enhance the user's sense of immersion.
  • a sound output device may have a noise canceling function or may have a structure with high sound insulation.
  • Such a sound output device increases the sense of immersion for the user, it may reduce the user's convenience. For example, it is difficult for a user wearing headphones with a noise canceling function to notice the voices of people around him/her.
  • the present disclosure proposes an information processing method, an information processing system, and a program capable of realizing a highly convenient sound output device.
  • an information processing method includes an obtaining step of obtaining at least one of positional information and environmental information; It has a recognition step of performing control regarding recognition, and a control step of performing control regarding capture of external sound or control regarding notification of external sound based on the result of the sound recognition.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system according to an embodiment of the present disclosure
  • FIG. FIG. 10 is a diagram showing an example of a vocabulary weight table
  • FIG. FIG. 10 is a diagram showing an example of a speaker weight table
  • FIG. It is a figure which shows an example of a reliability weight table.
  • 1 is a functional block diagram of an information processing system according to a first operation example
  • FIG. 6 is a flowchart showing an external sound capturing process according to the first operation example
  • FIG. 10 is a diagram showing an example of a smartphone application for setting parameters for voice recognition sensitivity adjustment
  • FIG. 10 is a diagram showing an example of a smartphone application for setting parameters for voice recognition sensitivity adjustment
  • FIG. 10 is a diagram showing an example of a smartphone application for setting parameters for voice recognition sensitivity adjustment
  • FIG. 10 is a diagram showing an example of a smartphone application for setting parameters for voice recognition sensitivity adjustment
  • FIG. 10 is a diagram showing an example of a smartphone application for setting parameters for voice recognition sensitivity adjustment
  • FIG. 11 is a functional block diagram of an information processing system according to a second operation example
  • FIG. 10 is a diagram showing an example of a sound event weight table
  • FIG. 11 is a flow chart showing an external sound capturing process according to a third operation example
  • FIG. FIG. 11 is a functional block diagram of an information processing system according to a fourth operation example
  • FIG. 11 is a functional block diagram of an information processing system according to a fifth operation example
  • It is a figure which shows the example of a display of the external sound notification.
  • FIG. 14 is a flowchart showing external sound notification processing and external sound capturing processing according to a sixth operation example;
  • FIG. FIG. 3 is a diagram showing another configuration example of an information processing system according to an embodiment of the present disclosure;
  • FIG. 1 is a diagram illustrating a configuration example of an output device according to an embodiment of the present disclosure;
  • FIG. 1 is a diagram illustrating a configuration example of a terminal device according to an embodiment of the present disclosure;
  • Sound output devices may have features or structures to enhance user immersion.
  • a sound output device may have a noise canceling function or may have a structure with high sound insulation.
  • Such a sound output device increases the sense of immersion for the user, it may reduce the user's convenience. For example, a user working in an office wearing earphones with a high sound isolation structure may not be able to notice when a colleague talks to them. Also, a user who is listening to music wearing headphones with a noise-cancelling function dropped his handkerchief when getting off the train. Sometimes you can't notice it.
  • the sound output device is equipped with a voice recognition function.
  • a mechanism of informing is conceivable.
  • this mechanism it is unavoidable for this mechanism to respond to voices other than the call due to erroneous detection of voice recognition, or to respond to calls unrelated to the user.
  • the sound output device may miss the call because the voice recognition result is uncertain. When this happens, the sound output device gives stress to the user and reduces convenience.
  • the sound output device uses a microphone to detect surrounding sounds. Then, the sound output device performs sound recognition based on the detected voice, and detects an appeal to the user wearing the sound output device. At that time, the sound output device acquires location information (for example, home, office, etc.) and environmental information (for example, inside a train, outdoors, etc.) by analyzing GPS information and sound from the microphone input, and Adjust the accuracy of sound recognition (call detection) based on location information and environmental information. When a call to the user is detected, the sound output device performs control related to taking in external sound (control of a function for the user to listen to external sound) and control related to notification of external sound.
  • location information for example, home, office, etc.
  • environmental information for example, inside a train, outdoors, etc.
  • the sound output device performs control related to taking in external sound (control of a function for the user to listen to external sound) and control related to notification of external sound.
  • the sound output device turns on an external sound capturing function (for example, a function of reproducing external sound picked up by a microphone from a speaker) as control related to capturing of external sound.
  • the sound output device may stop the reproduction of music or lower the volume as a control related to taking in external sounds.
  • the sound output device may turn off or weaken the noise canceling function as a control related to taking in external sounds.
  • the sound output device may turn on or strengthen the hearing aid function as control related to taking in external sounds.
  • the sound output device may notify the user of the call by a notification sound or a vibration function.
  • FIG. 1 is a diagram showing a configuration example of an information processing system 1 according to an embodiment of the present disclosure.
  • the information processing system 1 is a system that enables control regarding capture of external sounds.
  • the information processing system 1 includes an information processing device 10 as shown in FIG.
  • the information processing device 10 is a computer that controls a sound output device.
  • the information processing device 10 may be the sound output device itself, or may be a device separate from the sound output device and connected to the sound output device through communication.
  • Sound output devices are typically headphones, headsets, or earphones.
  • the sound output device of this embodiment may have a function or structure for enhancing the user's sense of immersion.
  • the sound output device may have a noise canceling function so that the user's sense of immersion is enhanced.
  • the sound output device may have a structure with high sound insulation properties and may have an external sound capturing function.
  • the sound output device is not limited to headphones, headsets, or earphones.
  • the sound output device may be a neckband speaker.
  • the sound output device may be an xR device such as an AR (Augmented Reality) device, a VR (Virtual Reality) device, or an MR (Mixed Reality) device.
  • the xR device may be a glasses-type device such as AR glasses or MR glasses, or a head-mounted device such as a VR head-mounted display.
  • the sound output device is not limited to a wearable device, and may be, for example, a stationary speaker.
  • the sound output device may be a mobile terminal such as a personal computer, a mobile phone, a smart device (smartphone or tablet), a PDA (Personal Digital Assistant), or a notebook PC.
  • the sound output device may be a wearable device such as a smart watch.
  • the information processing device 10 may be a portable IoT (Internet of Things) device. Also, the information processing apparatus 10 may be a motorcycle, a mobile relay vehicle, or the like equipped with a communication device such as an FPU (Field Pickup Unit). Also, the information processing apparatus 10 may be an IoT (Internet of Things) device. Further, the information processing device 10 may be a server device such as a PC server, a midrange server, or a mainframe server. In addition, the information processing apparatus 10 can employ any form of computer.
  • the information processing device 10 includes a communication unit 11, a storage unit 12, a control unit 13, an output unit 14, a sensor unit 15, and an imaging unit 16, as shown in FIG.
  • the configuration shown in FIG. 1 is a functional configuration, and the hardware configuration may differ from this. Also, the functions of the information processing apparatus 10 may be distributed and implemented in a plurality of physically separated configurations.
  • the communication unit 11 is a communication interface for communicating with other devices.
  • the communication unit 11 is a LAN (Local Area Network) interface such as a NIC (Network Interface Card).
  • the communication unit 11 may be a device connection interface such as USB (Universal Serial Bus).
  • the communication unit 11 may be a wired interface or a wireless interface.
  • the communication unit 11 communicates with an external device under the control of the control unit 13 .
  • the storage unit 12 is a data readable/writable storage device such as a DRAM (Dynamic Random Access Memory), an SRAM (Static Random Access Memory), a flash memory, a hard disk, or the like.
  • the storage unit 12 functions as storage means of the information processing device 10 .
  • the storage unit 12 stores a vocabulary weight table, a speaker weight table, and a reliability weight table.
  • FIG. 2 is a diagram showing an example of a vocabulary weight table.
  • the vocabulary weight table is a table showing the weight for each position information and/or environment information for each of a plurality of vocabularies.
  • FIG. 3 is a diagram showing an example of a speaker weight table.
  • the speaker weight table is a table showing the weight for each location information and/or environment information for each of a plurality of speakers.
  • FIG. 4 is a diagram showing an example of a reliability weight table.
  • the reliability weight table is a table showing the weight of each piece of position information and/or environment information with respect to the reliability of the sound recognition result.
  • the weight table is an independent table for each vocabulary, speaker, and confidence level. There may be.
  • a default weight table may be stored in the storage unit 12 in advance. Further, the information processing system 1 may be configured so that the user can edit the weight table.
  • the control unit 13 is a controller that controls each unit of the information processing device 10 .
  • the control unit 13 is implemented by a processor such as a CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), or the like.
  • the control unit 13 is implemented by the processor executing various programs stored in the storage device inside the information processing apparatus 10 using a RAM (Random Access Memory) or the like as a work area.
  • the control unit 13 may be realized by an integrated circuit such as ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the control unit 13 includes an acquisition unit 131, a sound recognition control unit 132, and an external sound capture control unit 133.
  • Each block (acquisition unit 131 to external sound capture control unit 133) constituting the control unit 13 is a functional block indicating the function of the control unit 13 respectively.
  • These functional blocks may be software blocks or hardware blocks.
  • each of the functional blocks described above may be one software module realized by software (including microprograms), or may be one circuit block on a semiconductor chip (die). Of course, each functional block may be one processor or one integrated circuit.
  • the control unit 13 may be configured in functional units different from the functional blocks described above. The configuration method of the functional blocks is arbitrary.
  • control unit 13 may be configured in functional units different from the functional blocks described above. Also, some or all of the blocks (acquisition unit 131 to external sound capture control unit 133) that make up the control unit 13 may be performed by another device. Also, the names of the blocks described above can be replaced with other names. For example, the sound recognition control section can be rephrased as a recognition section. The operation of each block constituting the control unit 13 will be described later.
  • the output unit 14 is a device that performs various outputs such as sound, light, vibration, and images to the outside.
  • the output unit 14 is a speaker that outputs sound to the outside.
  • Various outputs are provided to the user under the control of the control unit 13 .
  • the output unit 14 may include a display device (display unit) that displays various types of information.
  • the display device is, for example, a liquid crystal display or an organic EL display.
  • the output unit 14 may be a touch panel display device. In this case, the output section 14 also functions as an input section.
  • the sensor unit 15 is a sensor that detects various information.
  • the sensor unit 15 is a sensor that detects sound (sensor that has a sound acquisition function).
  • sensor unit 15 is a microphone or a microphone array.
  • the sensor unit 15 may be a depth sensor (for example, LiDAR).
  • the sensor unit 15 may be a GNSS (Global Navigation Satellite System) sensor.
  • the GNSS sensor may be a GPS (Global Positioning System) sensor, a GLONASS sensor, a Galileo sensor, or a QZSS (Quasi-Zenith Satellite System) sensor.
  • the sensor unit 15 may be an acceleration sensor or an IMU (Inertial Measurement Unit).
  • the sensor unit 15 may be a geomagnetic sensor or a 3D sensor.
  • the sensor unit 15 may be a combination of these sensors.
  • the imaging unit 16 is a conversion unit that converts an optical image into an electrical signal.
  • the imaging unit 16 includes, for example, an image sensor and a signal processing circuit that processes analog pixel signals output from the image sensor, and converts light entering from the lens into digital data (image data).
  • image data digital data
  • the image captured by the imaging unit 16 is not limited to a video (moving image), and may be a still image. Note that the imaging unit 16 can be rephrased as a camera.
  • the information processing system 1 of the present embodiment is a system for detecting a calling voice to a user wearing a sound output device.
  • the information processing system 1 adjusts the accuracy (sensitivity) of speech recognition according to positional information or environmental information.
  • the information processing system 1 determines that the voice is a calling voice
  • the information processing system 1 performs control related to taking in external sound (control of a function for the user to listen to external sound) and control related to notification of external sound.
  • the information processing system 1 stops music, lowers the volume, or outputs external sounds picked up by a microphone from a speaker.
  • the information processing system 1 may notify the user of the calling by using a notification sound or a vibration function.
  • FIG. 5 is a functional block diagram of the information processing system 1 according to the first operation example. The functions of the information processing system 1 will be described below with reference to FIG.
  • the information processing system 1 captures external sound with a headset or a microphone (or a microphone array) of a mobile terminal.
  • the information processing system 1 inputs the voice to the voice recognition engine 132A of the sound recognition control section 132 . It is also conceivable to constantly capture external sounds and input them to the speech recognition engine 132A.
  • the information processing system 1 performs voice activity detection (VAD: Voice Activity Detection) on the input sound, and extracts only parts that are considered to be speech. It may be input to the recognition engine 132A.
  • VAD Voice Activity Detection
  • the acquisition unit 131 of the information processing system 1 acquires position information and/or environment information in advance or in parallel with speech recognition by the speech recognition engine 132A.
  • the acquisition unit 131 may generate position information and/or environment information based on information acquired by the sensor unit 15 or the imaging unit 16 (for example, sound information acquired by a microphone or a microphone array).
  • the positional information is, for example, location-level information such as a home or a train station that can be obtained from sensor information such as GNSS sensors or information from a mobile phone base station.
  • the environment information is, for example, information on the user's current environment estimated from environmental sounds obtained by a microphone.
  • environmental information is information such as inside an office or inside a train.
  • cameras and LiDAR sensors in terminal devices such as headphones, more detailed information such as the state of someone sitting next to you or the state of someone walking towards you can be captured as environmental information. It is also conceivable to use
  • the score calculation unit 132B of the sound recognition control unit 132 weights the output result of the voice recognition engine 132A according to the position information and/or the environment information, thereby increasing the possibility that the recognition result is the calling voice. calculate a score that indicates The information processing system 1 determines whether or not the user has been called out based on this score.
  • the simplest idea for realizing this embodiment is to use only the vocabulary (character strings) of the speech recognition results to calculate the score.
  • a "vocabulary weight table" is prepared for each location information and/or each environment information.
  • the score calculation unit 132B calculates the score by referring to the score corresponding to the vocabulary of the speech recognition result from the weight table.
  • the information processing system 1 regards the utterance as the calling voice when the score is equal to or higher than a certain value.
  • the output results of the speech recognition engine may include the "reliability” and "speaker information" of the recognition result of the speech recognition engine 132A.
  • the information processing system 1 holds in advance a "vocabulary weight table”, a “reliability weight table”, and a “speaker weight table” for each location information and/or each environment information.
  • the information processing system 1 multiplies the output results (vocabulary, reliability, speaker information) of the speech recognition engine 132A with weights corresponding to the position information and/or the environment information, and obtains the weighted sum. Calculate the audio score. Then, the information processing system 1 regards it as a calling voice if the score is equal to or higher than a certain value.
  • the acquisition unit 131 of the information processing system 1 acquires location information indicating that the user's current location is "home”.
  • vocabulary weighting table shown in FIG. 2 when the position information indicates "home”, vocabulary such as "father” and “rice” is heavily weighted, and other vocabulary weights are lightly weighted.
  • speaker weight table shown in FIG. 3 the speaker weight of family members (mother and child in the example of FIG. 3) is large, and the weight of speakers other than family members is zero.
  • the information processing system 1 When the speech recognition result is determined to be a calling voice, the information processing system 1 notifies the user that the calling has been made, and controls the capture of external sounds (control of functions for the user to hear external sounds). to do For example, the external sound capture control unit 133 of the information processing system 1 pauses music reproduction or lowers the volume. Alternatively, the external sound capture control unit 133 reproduces the external sound picked up by the microphone through the speaker, or turns off the noise canceling function. The external sound capture control unit 133 may notify the user of the call by using a notification sound or a vibration function. If the sound output device is a device having a hearing aid function, such as a hearing aid, the external sound capture control unit 133 may turn on or strengthen the hearing aid function when an appeal to the user is detected.
  • the external sound capture control unit 133 may notify the user of the call by using a notification sound or a vibration function. If the sound output device is a device having a hearing aid function, such as a hearing aid, the external sound capture control unit 133
  • FIG. 6 is a flowchart showing the external sound capturing process according to the first operation example.
  • the information processing system 1 starts the external sound capturing process.
  • the following processing is executed by the control unit 13 of the information processing device 10 .
  • the external sound capturing process will be described below with reference to FIG.
  • control unit 13 of the information processing device 10 acquires information on surrounding sounds from the sensor unit 15 (microphone or microphone array) (step S101). Also, the acquisition unit 131 of the information processing device 10 acquires position information and/or environment information (step S102).
  • the sound recognition control unit 132 of the information processing device 10 executes sound recognition of the voice acquired in step S101.
  • the sound recognition control unit 132 executes voice recognition (call recognition).
  • the sound recognition control unit 132 outputs at least one of vocabulary information and speaker information as a result of speech recognition.
  • the sound recognition control unit 132 may output reliability information as a result of voice recognition.
  • the sound recognition control unit 132 weights the output result of the voice recognition according to the positional information and/or the environmental information, thereby calculating a score indicating the likelihood that the recognition result is the calling voice. (Step 103).
  • control unit 13 of the information processing device 10 determines whether the score calculated in step S103 exceeds a predetermined threshold (step S104). If the score does not exceed the predetermined threshold (step S104: No), the control unit 13 terminates the external sound capturing process.
  • the external sound capture control unit 133 controls the external sound capture (control of the function for the user to listen to the external sound). (Step S105). For example, the external sound capture control unit 133 performs control related to the noise canceling function. In addition, the external sound capture control unit 133 may perform control related to the external sound capture function, or control related to the output volume of the sound output device. Further, the external sound capture control unit 133 may perform control related to the hearing aid function.
  • control unit 13 terminates the external sound capturing process.
  • the information processing system 1 may be configured such that a user can set parameters for adjusting the sensitivity of speech recognition according to position information and/or environmental information.
  • 7 to 10 are diagrams showing examples of smartphone applications for setting parameters for voice recognition sensitivity adjustment.
  • FIG. 7 is an example of a parameter setting screen that is applied when it is determined that the user is at home.
  • FIG. 8 is an example of a parameter setting screen that is applied when it is determined that the user is in the office.
  • FIG. 9 is an example of a parameter setting screen that is applied when it is determined that the user is out of the house.
  • FIG. 10 is an example of a setting screen used when the user rejects the call.
  • Figures 7 to 10 show an example of an application that allows the user to set the overall "vocabulary weight” and "speaker weight” for each location information and/or for each environment information.
  • more detailed settings such as making it possible to change the weight of a specific speaker among the speaker weights, and making it possible for the user to edit the weight of a specific vocabulary for each location.
  • setting the weight of a specific speaker to 0 makes it possible to implement a block list.
  • the object of detection is the call by voice, but the object of detection is not limited to the call by voice.
  • the information processing system 1 may be configured to recognize not only voice calls but also acoustic events, and control whether or not to notify the user of them based on location information and/or environment information. For example, the information processing system 1 makes it easier to detect the danger approaching the user by increasing the weight for the car horn sound and bicycle bell sound when the user is walking or running on the sidewalk. may be configured as follows. On the other hand, when the user is at home, these sounds are not considered to be of much concern to the user. may be weakened to make it difficult to detect these sounds.
  • FIG. 11 is a functional block diagram of the information processing system 1 according to the second operation example.
  • functions of the information processing system 1 according to the second operation example will be described with reference to FIG. 11 .
  • the information processing system 1 captures external sounds with a headset or a microphone (or a microphone array) of a mobile terminal.
  • the information processing system 1 inputs the voice to the voice recognition engine 132A and the acoustic event detection engine 132C of the sound recognition control unit 132 .
  • the acquisition unit 131 of the information processing system 1 acquires position information and/or environment information in advance or in parallel with speech recognition by the speech recognition engine 132A.
  • the score calculation section 132B of the sound recognition control section 132 acquires a plurality of weight tables including the acoustic event weight table from the storage section 12.
  • FIG. FIG. 12 is a diagram showing an example of a sound event weight table.
  • the sound event weight table is a table showing the weight for each position information and/or environment information for each of a plurality of sound events.
  • the score calculation unit 132B of the sound recognition control unit 132 weights the output results of the speech recognition engine 132A and the sound event detection engine 132C according to the position information and/or the environment information.
  • a score is calculated that indicates the likelihood that the recognition result is a greeting voice or an acoustic event. Based on this score, the information processing system 1 determines whether or not the user has been called out, or whether or not a predetermined sound event has occurred.
  • the information processing system 1 informs the user that the calling has been made, or performs a function related to capturing external sounds. control.
  • the information processing system 1 may be configured to automatically register speakers and vocabulary based on feedback as to whether or not the user has responded to the call. For example, assume that the information processing system 1 determines that a sound that seems to be calling is received from a specific position or environment. At this time, it is assumed that the information processing system 1 further detects that the user has turned his back using the gyro sensor and that the user has spoken using the voice recognition result from the microphone input. At this time, the information processing system 1 saves the speaker information of the voice in the speaker table. Alternatively, the information processing system 1 updates speaker weights at that location and/or environment.
  • FIG. 13 is a flowchart showing the external sound capturing process according to the third operation example.
  • the information processing system 1 starts the external sound capturing process.
  • the following processing is executed by the control unit 13 of the information processing device 10 .
  • the external sound capturing process will be described below with reference to FIG.
  • control unit 13 of the information processing device 10 acquires information on surrounding sounds from the sensor unit 15 (microphone or microphone array) (step S201). Also, the acquisition unit 131 of the information processing device 10 acquires position information and/or environment information (step S202).
  • the sound recognition control unit 132 of the information processing device 10 performs sound recognition of the voice acquired in step S201.
  • the sound recognition control unit 132 executes voice recognition (call recognition).
  • the sound recognition control unit 132 outputs at least one of vocabulary information and speaker information as a result of speech recognition.
  • the sound recognition control unit 132 may output reliability information as a result of voice recognition.
  • the sound recognition control unit 132 weights the output result of the voice recognition according to the positional information and/or the environmental information, thereby calculating a score indicating the likelihood that the recognition result is the calling voice. (Step 203).
  • step S204 determines whether the score calculated in step S203 exceeds a predetermined threshold. If the score does not exceed the predetermined threshold (step S204: No), the control unit 13 determines whether the user has responded to the conversation (call) (step S205). For example, the control unit 13 determines that the user has responded to the conversation when the user turns his back and has a conversation. Whether or not the user has turned backward can be detected by an acceleration sensor or a gyro sensor included in the sound output device. Further, it is possible to detect whether or not the user has had a conversation by recognizing voice input from the microphone. When the user responds to the conversation (step S205: Yes), the control unit 13 advances the process to step S208. When the user does not respond to the conversation (step S205: No), the control unit 13 terminates the external sound capturing process.
  • step S204 if the score exceeds the predetermined threshold (step S204: Yes), the external sound capture control unit 133 performs control related to external sound capture (function for allowing the user to listen to external sounds). control) is performed (step S206). For example, the external sound capture control unit 133 performs control related to the noise canceling function. In addition, the external sound capture control unit 133 may perform control related to the external sound capture function, or control related to the output volume of the sound output device. Further, the external sound capture control unit 133 may perform control related to the hearing aid function.
  • the control unit 13 determines whether the user has responded to the conversation (call) (step S207). If the user does not respond to the conversation (step S207: No), the control unit 13 terminates the external sound capturing process. When the user responds to the conversation (step S207: Yes), the control unit 13 updates the weight table (step S208). For example, the control unit stores the information of the speaker recognized in step S201 in the speaker table. The control unit 13 may update the speaker weight in the position and/or environment acquired in step S202.
  • control unit 13 terminates the external sound capturing process.
  • the information processing system 1 adjusts the sensitivity of call detection by applying weights based on position information and/or environment information to recognition results obtained by a speech recognition engine trained with general data. realized. However, the information processing system 1 implicitly adjusts the sensitivity of call detection according to the position and environment by giving position information and/or environment information in the form of label data or embedding vectors as feature values of the speech recognition engine. You may
  • FIG. 14 is a functional block diagram of the information processing system 1 according to the fourth operation example.
  • functions of the information processing system 1 according to the fourth operation example will be described with reference to FIG. 14 .
  • the information processing system 1 captures external sound with a headset or a microphone (or a microphone array) of a mobile terminal.
  • the information processing system 1 inputs the voice to the voice recognition engine 132 ⁇ /b>D of the sound recognition control section 132 .
  • the speech recognition engine 132D is an end-to-end speech recognition engine.
  • the speech recognition engine 132D is an end-to-end DNN (Deep Neural Network).
  • the acquisition unit 131 of the information processing system 1 acquires position information and/or environment information in advance or in parallel with speech recognition by the speech recognition engine 132D.
  • the score calculation unit 132B of the sound recognition control unit 132 calculates a score indicating the likelihood that the recognition result is the calling voice based on the output result of the voice recognition engine 132D.
  • the user does not need to explicitly configure the weight table.
  • the weight for each location information and/or for each environment information is implicitly included in the form of model parameters of an end-to-end type speech recognition engine.
  • the information processing system 1 determines whether or not the user has been called out based on this score.
  • the information processing system 1 informs the user that the calling has been made, or performs a function related to capturing external sounds. control.
  • the information processing system 1 adjusts the sensitivity of call detection by weighting the speech recognition result based on position information and/or environment information.
  • the information processing system 1 switches the weight of a weighted finite-state transducer (WFST) or the like in the voice recognition engine according to the position/environment, thereby performing call detection according to the position/environment.
  • Sensitivity may be explicitly adjusted.
  • the weight table is created explicitly, so that it can be edited by the designer or the user.
  • FIG. 15 is a functional block diagram of the information processing system 1 according to the fifth operation example.
  • functions of the information processing system 1 according to the fifth operation example will be described with reference to FIG. 15 .
  • the information processing system 1 captures external sound with a headset or a microphone (or a microphone array) of a mobile terminal.
  • the information processing system 1 inputs the voice to the voice recognition engine 132 ⁇ /b>D of the sound recognition control section 132 .
  • the speech recognition engine 132E is, for example, a DNN-HMM (Deep Neural Network-Hidden Markov model) hybrid speech recognition system.
  • the speech recognition engine 132E may be a GMM-HMM (Gaussian mixture model—Hidden Markov model) speech recognition system.
  • the information processing system 1 switches weights such as a weighted finite state transducer (WFST) in the speech recognition engine according to the position and/or the environment.
  • WFST weighted finite state transducer
  • the acquisition unit 131 of the information processing system 1 acquires position information and/or environment information in advance or in parallel with speech recognition by the speech recognition engine 132E.
  • the score calculation unit 132B of the sound recognition control unit 132 calculates a score indicating the likelihood that the recognition result is the calling voice based on the output result of the voice recognition engine 132E.
  • the information processing system 1 determines whether or not the user has been called out based on this score.
  • the information processing system 1 informs the user that the calling has been made, or performs a function related to capturing external sounds. control.
  • the information processing system 1 performed control related to capture of external sound based on the speech recognition result.
  • the information processing system 1 may perform control related to notification of external sound instead of control related to capture of external sound.
  • the control unit 13 of the information processing device 10 may control the calling notification and the sound event notification without performing the control related to capturing the external sound. good.
  • the information processing system 1 may perform control related to capture of external sound in addition to control related to notification of external sound.
  • the information processing system 1 may perform control related to external sound notification and control related to external sound capture at the same time, or may perform control related to external sound capture based on control related to external sound notification. good.
  • FIG. 16 is a diagram illustrating a display example of external sound notification.
  • an external sound notification message indicating that a call has been detected is displayed on the screen of the smartphone.
  • a notification message is displayed on the screen of the smartphone to the effect that the call has been detected.
  • the notification message may indicate who called you.
  • the notification message may include a GUI (Graphical User Interface) for instructing control related to taking in external sounds.
  • the notification message includes, as a GUI, a button for stopping music reproduction, a button for turning off the noise canceling function, a button for turning on the external sound capturing function, and the like.
  • the external sound capture control unit 133 performs control related to external sound capture based on the operated button.
  • the notification message may be output by voice, and in this case, it is conceivable that the user responds by speaking to the voice for instructing the control related to taking in the outside sound.
  • FIG. 17 is a flow chart showing external sound notification processing and external sound capturing processing according to the sixth operation example.
  • the information processing system 1 starts the external sound notification process and the external sound capture process.
  • the following processing is executed by the control unit 13 of the information processing device 10 .
  • the external sound notification process and the external sound capture process will be described below with reference to FIG. 17 .
  • control unit 13 of the information processing device 10 acquires information on surrounding sounds from the sensor unit 15 (microphone or microphone array) (step S301). Also, the acquisition unit 131 of the information processing device 10 acquires position information and/or environment information (step S302).
  • the sound recognition control unit 132 of the information processing device 10 executes sound recognition of the voice acquired in step S301.
  • the sound recognition control unit 132 executes voice recognition (call recognition).
  • the sound recognition control unit 132 outputs at least one of vocabulary information and speaker information as a result of speech recognition.
  • the sound recognition control unit 132 may output reliability information as a result of voice recognition.
  • the sound recognition control unit 132 weights the output result of the voice recognition according to the positional information and/or the environmental information, thereby calculating a score indicating the likelihood that the recognition result is the calling voice. (Step 303).
  • control unit 13 of the information processing device 10 determines whether the score calculated in step S303 exceeds a predetermined threshold (step S304). If the score does not exceed the predetermined threshold (step S304: No), the control unit 13 terminates the process.
  • the external sound capture control unit 133 performs control related to external sound notification (step S305). For example, the external sound capture control unit 133 performs control to present an external sound notification message as an image. Further, the external sound capture control unit 133 may perform control to present the external sound notification message as voice.
  • the external sound notification message includes information for instructing control related to capturing of external sound.
  • step S305 when the control related to notification of external sound and the control related to capturing external sound are performed simultaneously in step S305, when the control related to notification of external sound and the control related to capturing external sound are completed in step S305, the control unit 13 , the external sound notification process and the external sound capture process may be terminated without performing the processes after step S306.
  • the ambient sound capture control unit 133 determines whether or not there is an ambient sound capture instruction based on the information for instructing control related to ambient sound capture presented in step S305 (step S306). If there is no external sound capture instruction (step S306: No), the control unit 13 terminates the process.
  • step S306 If there is an external sound capture instruction (step S306: Yes), the external sound capture control unit 133 performs control related to external sound capture (a function for the user to listen to external sounds) based on the external sound capture instruction. control) is performed (step S307).
  • the external sound capture control unit 133 performs control related to the noise canceling function.
  • the external sound capture control unit 133 may perform control related to the external sound capture function, or control related to the output volume of the sound output device. Further, the external sound capture control unit 133 may perform control related to the hearing aid function.
  • control unit 13 terminates the external sound notification process and the external sound capturing process.
  • the information processing system 1 may be configured by one device, or may be configured by a plurality of devices.
  • FIG. 18 is a diagram showing another configuration example of the information processing system 1 according to the embodiment of the present disclosure.
  • the information processing system 1 includes an output device 20 and a terminal device 30 .
  • the output device 20 is a device that functions as a sound output device.
  • the output device 20 is, for example, headphones, a headset, or earphones.
  • the output device 20 has a sound acquisition function in addition to a sound output function.
  • the output device 20 has a function or structure for enhancing the user's sense of immersion.
  • the output device 20 may have a noise canceling function or an external sound capturing function.
  • the output device 20 is not limited to headphones, headsets, or earphones.
  • the output device 20 may be a hearing aid, a sound collector, or a neckband speaker.
  • the sound output device may be an xR device such as an AR device, a VR device, or an MR device.
  • the xR device may be a glasses-type device such as AR glasses or MR glasses, or a head-mounted device such as a VR head-mounted display.
  • the output device 20 is not limited to a wearable device, and may be, for example, a stationary speaker.
  • FIG. 19 is a diagram showing a configuration example of the output device 20 according to the embodiment of the present disclosure.
  • the output device 20 includes a communication unit 21, a storage unit 22, a control unit 23, an output unit 24, a sensor unit 25, and an imaging unit 26, as shown in FIG.
  • the configuration shown in FIG. 19 is a functional configuration, and the hardware configuration may differ from this. Also, the functions of the output device 20 may be distributed and implemented in a plurality of physically separated configurations.
  • the communication unit 21 is a communication interface for communicating with another device (for example, the terminal device 30).
  • the storage unit 22 is a data readable/writable storage device.
  • the control unit 23 is a controller that controls each unit of the output device 20 .
  • the output unit 24 is a device that performs various outputs to the outside.
  • the sensor unit 25 is a sensor that detects various information.
  • the imaging unit 26 is a conversion unit that converts an optical image into an electrical signal. The configurations of the communication unit 21 to the imaging unit 26 may be the same as those of the communication unit 11 to the imaging unit 16 of the information processing apparatus 10 shown in FIG.
  • the terminal device 30 is a computer that controls the output device 20 .
  • the terminal device 30 may be a mobile terminal such as a personal computer, mobile phone, smart device (smartphone or tablet), PDA, notebook PC, or the like. Also, the terminal device 30 may be a wearable device such as a smart watch.
  • the terminal device 30 may be a portable IoT (Internet of Things) device.
  • the terminal device 30 may be a motorcycle, a mobile relay vehicle, or the like equipped with a communication device such as an FPU (Field Pickup Unit).
  • the terminal device 30 may be an IoT (Internet of Things) device.
  • the terminal device 30 may be a server device such as a PC server, a midrange server, or a mainframe server. In addition, any form of computer can be employed as the terminal device 30 .
  • FIG. 20 is a diagram showing a configuration example of the terminal device 30 according to the embodiment of the present disclosure.
  • the terminal device 30 includes a communication unit 31, a storage unit 32, a control unit 33, an output unit 34, a sensor unit 35, and an imaging unit 36, as shown in FIG.
  • the configuration shown in FIG. 20 is a functional configuration, and the hardware configuration may differ from this. Also, the functions of the terminal device 30 may be distributed and implemented in a plurality of physically separated configurations.
  • the communication unit 31 is a communication interface for communicating with another device (for example, the output device 20).
  • the storage unit 32 is a data readable/writable storage device.
  • the control unit 33 is a controller that controls each unit of the output device 20 .
  • the output unit 34 is a device that performs various outputs to the outside.
  • the sensor unit 35 is a sensor that detects various information.
  • the imaging unit 36 is a conversion unit that converts an optical image into an electrical signal.
  • the control unit 33 includes an acquisition unit 331 , a sound recognition control unit 332 , and an external sound capture control unit 333 .
  • Each block (acquisition unit 331 to external sound capture control unit 333 ) constituting the control unit 33 is a functional block indicating the function of the control unit 33 .
  • These functional blocks may be software blocks or hardware blocks.
  • each of the functional blocks described above may be one software module realized by software (including microprograms), or may be one circuit block on a semiconductor chip (die).
  • each functional block may be one processor or one integrated circuit.
  • the control unit 33 may be configured in functional units different from the functional blocks described above. The configuration method of the functional blocks is arbitrary.
  • control unit 33 may be configured in functional units different from the functional blocks described above. Also, some or all of the blocks (acquisition unit 331 to external sound capture control unit 333) that make up the control unit 33 may be performed by another device. The operation of each block constituting the control unit 33 is the same as that of the acquisition unit 131 to the external sound capture control unit 133 of the information processing apparatus 10 shown in FIG. For example, the acquisition unit 331 generates position information and/or environment information based on sound information acquired by the output device 20 . In addition, each block that constitutes the control unit 33 may be configured to perform the operations shown in the above-described first to fifth operation examples.
  • the configurations of the communication unit 31 to the imaging unit 36 are the same as those of the communication unit 11 to the imaging unit 16 of the information processing apparatus 10 shown in FIG.
  • the processing shown in the above-described first to fifth operation examples may be performed by a server device on the Web connected to the user's sound output device via a network.
  • this embodiment can be applied even when the sound output device is not a wearable device, such as a stationary speaker.
  • the information processing device 10, the output device 20, or the terminal device 30 of this embodiment may be realized by a dedicated computer system or by a general-purpose computer system.
  • a communication program for executing the above operations is distributed by storing it in a computer-readable recording medium such as an optical disk, semiconductor memory, magnetic tape, or flexible disk.
  • the control device is configured by installing the program in a computer and executing the above-described processing.
  • the control device may be a device (for example, a personal computer) external to the information processing device 10, the output device 20, or the terminal device 30.
  • the control device may be a device inside the information processing device 10, the output device 20, or the terminal device 30 (for example, the control unit 13, the control unit 23, and the control unit 33).
  • the above communication program may be stored in a disk device provided in a server device on a network such as the Internet, so that it can be downloaded to a computer.
  • the functions described above may be realized through cooperation between an OS (Operating System) and application software.
  • the parts other than the OS may be stored in a medium and distributed, or the parts other than the OS may be stored in a server device so that they can be downloaded to a computer.
  • each component of each device illustrated is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Note that this distribution/integration configuration may be performed dynamically.
  • each step of one flowchart may be executed by one device, or may be executed by a plurality of devices.
  • the plurality of processes may be executed by one device, or may be shared by a plurality of devices.
  • a plurality of processes included in one step can also be executed as processes of a plurality of steps.
  • the processing described as multiple steps can also be collectively executed as one step.
  • a computer-executed program may be configured such that the processing of the steps described in the program is executed in chronological order according to the order described in this specification, in parallel, or when calls are executed. It may also be executed individually at necessary timings such as when it is interrupted. That is, as long as there is no contradiction, the processing of each step may be executed in an order different from the order described above. Furthermore, the processing of the steps describing this program may be executed in parallel with the processing of other programs, or may be executed in combination with the processing of other programs.
  • the present embodiment can be applied to any configuration that constitutes a device or system, such as a processor as a system LSI (Large Scale Integration), a module using a plurality of processors, a unit using a plurality of modules, etc. Furthermore, it can also be implemented as a set or the like (that is, a configuration of a part of the device) to which other functions are added.
  • a processor as a system LSI (Large Scale Integration)
  • module using a plurality of processors a unit using a plurality of modules, etc.
  • it can also be implemented as a set or the like (that is, a configuration of a part of the device) to which other functions are added.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • this embodiment can take a configuration of cloud computing in which one function is shared by a plurality of devices via a network and processed jointly.
  • the information processing system 1 performs sound recognition control based on at least one of position information and environment information. For example, the information processing system 1 adjusts the accuracy of sound recognition (for example, recognition of calls and sound events) based on at least one of positional information and environmental information. Then, the information processing system 1 performs control related to taking in external sounds and control related to notification of external sounds based on the result of sound recognition.
  • sound recognition for example, recognition of calls and sound events
  • the user can appropriately grasp the calling voice even when using a sound output device such as headphones.
  • a sound output device such as headphones.
  • the user's convenience is enhanced.
  • the present technology can also take the following configuration.
  • An information processing method comprising: (2) the recognizing step adjusts the accuracy of the sound recognition based on at least one of the location information and the environmental information; The information processing method according to (1) above.
  • the sound recognition includes at least call recognition; the recognition step adjusts accuracy of the call recognition based on at least one of the location information and the environmental information; The information processing method according to (2) above.
  • the recognition step performs speech recognition processing to recognize at least one of vocabulary and speaker, and adjusts the accuracy of the call recognition based on at least one of the location information and the environment information and the result of speech recognition. do, The information processing method according to (3) above.
  • the speech recognition process outputs at least information about the reliability of the result of speech recognition,
  • the recognition step adjusts the accuracy of the call recognition based on at least one of the location information and the environment information, and a voice recognition result including the reliability information.
  • the location information is information on the current location of the user estimated by a GNSS sensor;
  • the recognition step adjusts the accuracy of the call recognition based on the location information.
  • the environmental information is information on the user's current environment estimated from environmental sounds obtained by a microphone;
  • the recognition step adjusts the accuracy of the call recognition based on the environmental information.
  • (8) In the control step based on the result of the sound recognition, control for taking in the external sound and control for notification of the external sound are performed.
  • the control step includes an external sound notification control step of performing control regarding notification of the external sound based on the result of the sound recognition, further comprising an external sound capture control step of controlling the capture of the external sound based on the operation for the notification of the external sound;
  • said sound recognition includes at least recognition of acoustic events; the recognition step adjusts accuracy of recognition of the acoustic event based on at least one of the location information and the environmental information;
  • the sound event includes at least one of a car horn, a bicycle bell sound, and a bicycle brake sound;
  • the control step includes an external sound notification control step of performing control regarding notification of the external sound based on the result of the sound recognition, In the external sound capture control step, control related to a noise canceling function is performed as the control related to the capture of the external sound.
  • the control step includes an external sound notification control step of performing control regarding notification of the external sound based on the result of the sound recognition, In the external sound capture control step, the external sound capture function is controlled to be turned on or off as control related to the capture of the external sound.
  • the control step includes an external sound notification control step of performing control regarding notification of the external sound based on the result of the sound recognition, In the external sound capture control step, control regarding an output volume is performed as control regarding capture of the external sound.
  • the information processing method according to any one of (1) to (11) above.
  • the control step includes an external sound notification control step of performing control regarding notification of the external sound based on the result of the sound recognition, In the external sound capture control step, control related to a hearing aid function is performed as the control related to the capture of the external sound.
  • the obtaining step generates at least one of the position information and the environmental information based on sound information obtained by a microphone. The information processing method according to any one of (1) to (15) above.
  • an acquisition unit that acquires at least one of position information and environment information
  • a recognition control unit that controls sound recognition based on at least one of the position information and the environment information
  • an external sound capture control unit that performs control related to capturing external sound or control related to notification of external sound based on the result of the sound recognition
  • An information processing system comprising (18) The information processing system is a sound output device, The output device includes the acquisition unit, the recognition control unit, and the external sound capture control unit.
  • the information processing system is a terminal device including at least one of the acquisition unit, the recognition control unit, and the external sound capture control unit; A sound output device that is connected to the terminal device for communication and performs output based on control related to capturing of the external sound or control related to notification of the external sound;
  • the information processing system according to (17) above. (20) to the computer, acquire at least one of location information and environmental information; performing control related to sound recognition based on at least one of the position information and the environment information; Based on the result of the sound recognition, control for capturing external sound or control for notification of external sound is performed; program.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)

Abstract

情報処理方法は、位置情報及び環境情報の少なくとも一方を取得する取得ステップと、前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、を有する。

Description

情報処理方法、情報処理システム、及びプログラム
 本開示は、情報処理方法、情報処理システム、及びプログラムに関する。
 音出力装置(例えば、ヘッドホン、ヘッドセット、又はイヤホン)は、ユーザの没入感を高めるための機能又は構造を備えることがある。例えば、音出力装置は、ノイズキャンセリング機能を有していたり、遮音性の高い構造となっていたりすることがある。
特開2010-183451号公報
 このような音出力装置は、ユーザの没入感が高くなる反面、ユーザの利便性が低下することがある。例えば、ノイズキャンセリング機能付きのヘッドホンを装着しているユーザは、周りから呼びかけられてもその声に気付くことが難しい。
 そこで、本開示では、利便性が高い音出力装置を実現可能な情報処理方法、情報処理システム、及びプログラムを提案する。
 なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の1つに過ぎない。
 上記の課題を解決するために、本開示に係る一形態の情報処理方法は、位置情報及び環境情報の少なくとも一方を取得する取得ステップと、前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、を有する。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 語彙重みテーブルの一例を示す図である。 話者重みテーブルの一例を示す図である。 信頼度重みテーブルの一例を示す図である。 第1の動作例に係る情報処理システムの機能ブロック図である。 第1の動作例に係る外音取込処理を示すフローチャートである。 音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。 音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。 音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。 音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。 第2の動作例に係る情報処理システムの機能ブロック図である。 音響イベント重みテーブルの一例を示す図である。 第3の動作例に係る外音取込処理を示すフローチャートである。 第4の動作例に係る情報処理システムの機能ブロック図である。 第5の動作例に係る情報処理システムの機能ブロック図である。 外音通知の表示例を示す図である。 第6の動作例に係る外音通知処理及び外音取込処理を示すフローチャートである。 本開示の実施形態に係る情報処理システムの他の構成例を示す図である。 本開示の実施形態に係る出力装置の構成例を示す図である。 本開示の実施形態に係る端末装置の構成例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に説明される1又は複数の実施形態(実施例、変形例を含む)は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。
 また、以下に示す項目順序に従って本開示を説明する。
  1.概要
  2.システム構成
   2-1.情報処理装置
  3.第1の動作例
   3-1.機能構成
   3-2.フローチャート
   3-3.音声認識の感度調整
  4.第2の動作例
  5.第3の動作例
  6.第4の動作例
  7.第5の動作例
  8.第6の動作例
  9.システム構成の他の例
   9-1.出力装置
   9-2.端末装置
  10.変形例
  11.むすび
<<1.概要>>
 音出力装置(例えば、ヘッドホン、ヘッドセット、又はイヤホン)は、ユーザの没入感を高めるための機能又は構造を備えることがある。例えば、音出力装置は、ノイズキャンセリング機能を有していたり、遮音性の高い構造となっていたりすることがある。
 このような音出力装置は、ユーザの没入感が高くなる反面、ユーザの利便性が低下することがある。例えば、遮音性の高い構造のイヤホンを装着してオフィスで仕事中をしているユーザは、同僚に話しかけられても、それに気付くことができないことがある。また、ノイズキャンセリング機能付きのヘッドホンを装着して音楽を聴いているユーザは、電車から降りる際にハンカチを落として近くにいた人に「すみません。落としましたよ。」と呼びかけられても、それに気付くことができないことがある。
 この問題を解決する手段として、音出力装置に音声認識機能を搭載し、音声認識機能が「すみません。」等の呼びかけキーワードを検出した際に、音出力装置が外音取込機能等でユーザに知らせる、という仕組みが考えられる。しかし、実際の運用を考えると、この仕組みでは、音声認識の誤検出によって呼びかけ以外の音声に反応してしまうことや、ユーザに関係ない呼びかけに反応してしまうことは避けられない。また、逆に、音出力装置が音声認識結果に確信が持てずに呼びかけを取りこぼしてしまうことも想定される。こうなると、音出力装置は、ユーザにストレスを与えたり、利便性を低下させたりする。
 そこで、本実施形態では、以下の方法により、上記の問題を解決する。
 まず、音出力装置はマイクロフォンで周辺の音声を検出する。そして、音出力装置は、検出した音声を基に音認識を行い、音出力装置を装着するユーザに対する呼びかけを検出する。その際、音出力装置は、GPS情報やマイク入力からの音を解析することで、位置情報(例えば、自宅、オフィス等)や環境情報(例えば、電車内、屋外等)を取得して、その位置情報や環境情報を基に音認識(呼び掛け検出)の精度を調整する。音出力装置は、ユーザへの呼びかけが検出された場合、外音の取込に関する制御(外部の音をユーザが聞くための機能の制御)や外音の通知に関する制御を行う。例えば、音出力装置は、外音の取込に関する制御として外音取込機能(例えば、マイクで拾った外部の音をスピーカーから再生する機能)をオンにする。また、音出力装置は、外音の取込に関する制御として音楽の再生を停止したり、ボリュームを下げたりしてもよい。また、音出力装置は、外音の取込に関する制御としてノイズキャンセル機能をオフしたり、弱くしたりしてもよい。また、音出力装置が補聴機能を有しているのであれば、音出力装置は、外音の取込に関する制御として補聴機能をオンにしたり、強くしたりしてもよい。また、音出力装置は、通知音やバイブレーション機能で呼びかけがあったことをユーザに知らせてもよい。
 これにより、ユーザは、例えば、ノイズキャンセリング機能付きヘッドホン等を装着して耳が塞がれていたとしても、外部からの呼びかけを適切に把握することができる。また、呼びかけの誤検出や呼びかけ検出の頻繁な発生を減らすことができるので、ユーザのストレスを低減できる。また、呼びかけ検出の取りこぼしを減らすことができるので、ユーザの利便性が高まる。
 以上、本実施形態の概要を述べたが、以下、本実施形態の情報処理システム1を詳細に説明する。
<<2.システム構成>>
 図1は、本開示の実施形態に係る情報処理システム1の構成例を示す図である。情報処理システム1は、外音の取込に関する制御を可能にするシステムである。情報処理システム1は、図1に示すように、情報処理装置10を備える。
 情報処理装置10は、音出力装置を制御するコンピュータである。情報処理装置10は、音出力装置そのものであってもよいし、音出力装置と通信で接続される、音出力装置とは別体の装置であってもよい。
 音出力装置は、典型的には、ヘッドホン、ヘッドセット、又はイヤホンである。本実施形態の音出力装置は、ユーザの没入感を高めるための機能又は構造を備えていてもよい。例えば、音出力装置は、ユーザの没入感が高くなるよう、ノイズキャンセリング機能が付いていてもよい。また、音出力装置は、遮音性の高い構造を備え、外音取込機能を備えていてもよい。
 なお、音出力装置は、ヘッドホン、ヘッドセット、又はイヤホンに限られない。例えば、音出力装置は、ネックバンド式スピーカーであってもよい。また、音出力装置は、AR(Augmented Reality)デバイス、VR(Virtual Reality)デバイス、MR(Mixed Reality)デバイス等のxRデバイスであってもよい。このとき、xRデバイスは、ARグラス、MRグラス等のメガネ型デバイスであってもよいし、VRヘッドマウントディスプレイ等のヘッドマウント型デバイスであってもよい。
 また、音出力装置は、装着型の装置に限られず、例えば、据え置き型のスピーカーであってもよい。また、音出力装置は、パーソナルコンピュータ、携帯電話、スマートデバイス(スマートフォン、又はタブレット)、PDA(Personal Digital Assistant)、ノートPC等のモバイル端末であってもよい。また、音出力装置は、スマートウォッチ等のウェアラブルデバイスであってもよい。
 なお、情報処理装置10は、持ち運び可能なIoT(Internet of Things)デバイスであってもよい。また、情報処理装置10は、FPU(Field Pickup Unit)等の通信機器が搭載されたバイクや移動中継車等であってもよい。また、情報処理装置10は、IoT(Internet of Things)デバイスであってもよい。また、情報処理装置10は、PCサーバ、ミッドレンジサーバ、メインフレームサーバ等のサーバ装置であってもよい。その他、情報処理装置10には、あらゆる形態のコンピュータを採用可能である。
 情報処理装置10は、図1に示すように、通信部11と、記憶部12と、制御部13と、出力部14と、センサ部15と、撮像部16と、を備える。なお、図1に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、情報処理装置10の機能は、複数の物理的に分離された構成に分散して実装されてもよい。
 通信部11は、他の装置と通信するための通信インタフェースである。例えば、通信部11は、NIC(Network Interface Card)等のLAN(Local Area Network)インタフェースである。また、通信部11は、USB(Universal Serial Bus)等の機器接続インタフェースであってもよい。通信部11は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部11は、制御部13の制御に従って外部の装置と通信する。
 記憶部12は、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部12は、情報処理装置10の記憶手段として機能する。記憶部12は、語彙重みテーブルと、話者重みテーブルと、信頼度重みテーブルと、を記憶する。図2は、語彙重みテーブルの一例を示す図である。語彙重みテーブルは、複数の語彙それぞれに対する、位置情報及び/又は環境情報毎の重みを示したテーブルである。図3は、話者重みテーブルの一例を示す図である。話者重みテーブルは、複数の話者それぞれに対する、位置情報及び/又は環境情報毎の重みを示したテーブルである。図4は、信頼度重みテーブルの一例を示す図である。信頼度重みテーブルは、音認識結果の信頼度に対する、位置情報及び/又は環境情報毎の重みを示したテーブルである。
 なお、図2~図4の例では、重みテーブルは、語彙、話者、信頼度毎に独立したテーブルとなっているが、語彙、話者、信頼度の直積結合を取った一つのテーブルであってもよい。また、重みテーブルはデフォルトのものが予め記憶部12に保持されていてもよい。また、情報処理システム1は、ユーザが重みテーブルを編集できるよう構成されていてもよい。
 制御部13は、情報処理装置10の各部を制御するコントローラ(controller)である。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等のプロセッサにより実現される。例えば、制御部13は、情報処理装置10内部の記憶装置に記憶されている各種プログラムを、プロセッサがRAM(Random Access Memory)等を作業領域として実行することにより実現される。なお、制御部13は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。CPU、MPU、GPU、ASIC、及びFPGAは何れもコントローラとみなすことができる。
 制御部13は、取得部131と、音認識制御部132と、外音取込制御部133と、を備える。制御部13を構成する各ブロック(取得部131~外音取込制御部133)はそれぞれ制御部13の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア(マイクロプログラムを含む。)で実現される1つのソフトウェアモジュールであってもよいし、半導体チップ(ダイ)上の1つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ1つのプロセッサ又は1つの集積回路であってもよい。制御部13は上述の機能ブロックとは異なる機能単位で構成されていてもよい。機能ブロックの構成方法は任意である。
 なお、制御部13は上述の機能ブロックとは異なる機能単位で構成されていてもよい。また、制御部13を構成する各ブロック(取得部131~外音取込制御部133)の一部又は全部の動作を、他の装置が行ってもよい。また、上述の各ブロックの名称は他の名称に言い換えることができる。例えば、音認識制御部は認識部と言い換えることができる。制御部13を構成する各ブロックの動作は後述する。
 出力部14は、音、光、振動、画像等、外部に各種出力を行う装置である。例えば、出力部14は、外部に音を出力するスピーカーである。制御部13の制御に従って、ユーザに各種出力を行う。なお、出力部14は、各種情報を表示する表示装置(表示部)を備えていてもよい。表示装置は、例えば、液晶ディスプレイ、又は、有機ELディスプレイである。なお、出力部14は、タッチパネル式の表示装置であってもよい。この場合、出力部14は、入力部としても機能する。
 センサ部15は、各種情報を検出するセンサである。例えば、センサ部15は、音を検出するセンサ(音の取得機能となるセンサ)である。例えば、センサ部15は、マイクロフォン或いはマイクロフォンアレイである。また、センサ部15は、デプスセンサ(例えば、LiDAR)であってもよい。また、センサ部15は、GNSS(Global Navigation Satellite System)センサであってもよい。GNSSセンサは、GPS(Global Positioning System)センサであってもよいし、GLONASSセンサであってもよいし、Galileoセンサであってもよいし、QZSS(Quasi-Zenith Satellite System)センサであってもよい。その他、センサ部15は、加速度センサであってもよいし、IMU(Inertial Measurement Unit)であってもよい。また、センサ部15は、地磁気センサであってもよいし、3Dセンサであってもよい。また、センサ部15は、これら複数のセンサを組み合わせたものであってもよい。
 撮像部16は、光像を電気信号に変換する変換部である。撮像部16は、例えば、イメージセンサと、イメージセンサから出力されたアナログの画素信号の処理を行う信号処理回路等を備え、レンズから入ってきた光をデジタルデータ(画像データ)に変換する。なお、撮像部16が撮像する画像は、映像(動画)に限られず、静止画であってもよい。なお、撮像部16は、カメラと言い換えることができる。
 以上、情報処理システム1の構成を説明したが、次に、このような構成を有する情報処理システム1の動作を説明する。
<<3.第1の動作例>>
 まず、第1の動作例を説明する。
 本実施形態の情報処理システム1は、音出力装置を装着するユーザへの呼びかけ音声を検出するためのシステムである。情報処理システム1は、位置情報または環境情報に応じて音声認識の精度(感度)を調節する。情報処理システム1は、呼びかけ音声だと判断した場合には、外音の取込に関する制御(外部の音をユーザが聞くための機能の制御)や外音の通知に関する制御を行う。例えば、情報処理システム1は、音楽を止めたり、音量を下げたり、又は、マイクロフォンで拾った外部の音をスピーカーから出力したりする。また、情報処理システム1は、呼びかけ音声だと判断した場合には、通知音やバイブレーション機能で呼びかけがあったことをユーザに知らせてもよい。
<3-1.機能構成>
 図5は、第1の動作例に係る情報処理システム1の機能ブロック図である。以下、図5を参照しながら情報処理システム1が有する機能を説明する。
 (音声の取得)
 第1の動作例では、情報処理システム1は、ヘッドセットや携帯端末のマイクロホン(或いはマイクロフォンアレイ)で外音を取り込む。情報処理システム1は、その音声を音認識制御部132の音声認識エンジン132Aに入力する。外音を常に取り込み音声認識エンジン132Aに入力することも考えられる。しかしながら、計算資源の節約や音声以外に対する誤検出を減らすために、情報処理システム1は、入力音に対して音声区間検出(VAD:Voice Activity Detection)を行い、音声だと思われる部分だけを音声認識エンジン132Aに入力するようにしてもよい。
 (位置情報及び/又は環境情報の取得)
 情報処理システム1の取得部131は、予め、もしくは音声認識エンジン132Aの音声認識と並行して、位置情報及び/又は環境情報を取得する。取得部131は、センサ部15又は撮像部16で取得した情報(例えばマイクロフォン又はマイクロフォンアレイで取得した音の情報)に基づいて、位置情報及び/又は環境情報を生成してもよい。ここで位置情報とは、例えば、GNSSセンサ等のセンサ情報や携帯電話の基地局からの情報等によって取得可能な自宅や駅といった場所のレベルの情報である。また、環境情報は、例えば、マイクロフォンによって得られる環境音から推定されるユーザの現在環境の情報である。例えば、環境情報は、オフィス内、電車内といったような情報である。なお、ヘッドホン等の端末装置にカメラやLiDARセンサを搭載することで、隣に人が座っている状態やこちらに向かって歩いてくる人がいる状態といったような、さらに詳細な情報を環境情報として用いることも考えられる。
 (呼びかけ音声の検出)
 音認識制御部132のスコア算出部132Bは、音声認識エンジン132Aの出力結果に対して、位置情報及び/又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する。情報処理システム1は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否かを判断する。
 本実施形態を実現する最もシンプルなアイデアとしては、音声認識結果の語彙(文字列)のみをスコアを算出に用いることが考えられる。本実施形態では、位置情報ごとに及び/又は環境情報ごとに「語彙重みテーブル」が用意されている。スコア算出部132Bは、音声認識結果の語彙に対応するスコアを重みテーブルから参照することでスコアを算出する。情報処理システム1は、このスコアが一定値以上の場合、発話を呼びかけ音声だと見なす。
 音声認識エンジンの出力結果としては、「語彙(文字列)」の他に、音声認識エンジン132Aの認識結果の「信頼度」や「話者情報」が考えられる。本実施形態を実現する一例として、音声認識結果の「語彙」「信頼度」「話者情報」に、位置情報及び/又は環境情報に応じて異なった重み付けを行う方法も考えられる。この場合、情報処理システム1は、位置情報ごとに及び/又は環境情報ごとに「語彙重みテーブル」と「信頼度重みテーブル」と「話者重みテーブル」とを事前に保持する。そして、情報処理システム1は、音声認識エンジン132Aの出力結果(語彙、信頼度、話者情報)それぞれに、位置情報及び/又は環境情報に対応する重み掛け合わせ、重み付き和を取ることで呼びかけ音声スコアを計算する。そして、情報処理システム1は、スコアが一定以上であれば呼びかけ音声だとみなす。
 例えば、情報処理システム1の取得部131はユーザの現在位置が「自宅」であるとする位置情報を取得したとする。図2に示した語彙の重みテーブルでは、位置情報が「自宅」を示す場合、「お父さん」や「ご飯だよ」といった語彙の重みは大きく、その他の語彙の重みは小さくなっている。また、図3に示した話者重みテーブルでは、家族(図3の例では母、子)の話者重みが大きく、家族以外の話者の重みが0になっている。これら重みテーブルをスコアの算出に使用することで、情報処理システム1は、例えば、テレビからの音声による検出の湧き出しを抑えつつ、家族からの呼びかけに対する感度を上げることが可能となる。
 位置情報及び/又は環境情報とそれに対する動作として、以下の(1)~(4)に示す例が挙げられる。
 (1)ユーザが自宅にいるとき
 家庭においてユーザに話しかける可能性があるのは家族等に限られるので「お父さん」「ご飯だよ」といった語彙の重みを強くする。また、テレビ等の音に対して反応しないように、話者テーブルに家族の音声を登録し、重みを強くする。
 (2)ユーザが電車やバスに乗っている時
 公共の場でユーザに呼びかけがある場合、「すみません」や「落としましたよ」といった一般的なキーワードの可能性が高いため、これらの語彙の重みを強くする。また、呼びかける人が知人である可能性は低いため、話者情報の重みは極めて小さくする。
 (3)ユーザがオフィスにいるとき
 オフィスにおいては同僚が「山田さん、今いいですか」といったような呼びかけをしてくる可能性が高いので、「名前+さん」のキーワードの重みを強くする。また、話しかけてくる頻度の高い同僚の音声は話者テーブルに登録し、重みを強くする。また、オフィスでの呼びかけは取りこぼしを減らしたいので、信頼度重みを強くして、全体的に検出されやすくする。
 (4)ユーザがコンビニエンスストアやスーパーマーケットにいる時
 雑音が多く、音声認識の精度は低くなることが予測される。また、呼びかけられる頻度は少ないと想定される。そのため、誤検出の頻度を下げるために信頼度・話者の重みを小さくする。
 (呼びかけ検出時の対応)
 音声認識結果が呼びかけ音声であると判定された場合、情報処理システム1は呼びかけられたことをユーザに伝えたり、外音の取込に関する制御(外部の音をユーザが聞くための機能の制御)を行ったりする。例えば、情報処理システム1の外音取込制御部133は、音楽の再生を一時停止したり、音量を下げたりする。又は、外音取込制御部133は、マイクロフォンで拾った外部の音をスピーカーから再生したり、ノイズキャンセリング機能をOFFにしたりする。外音取込制御部133は、通知音やバイブレーション機能で呼びかけがあったことをユーザに知らせてもよい。なお、音出力装置が、例えば補聴器等、補聴機能を有するデバイスの場合、外音取込制御部133は、ユーザへの呼びかけが検出された時に、補聴機能をON又は強くしてもよい。
<3-2.フローチャート>
 図6は、第1の動作例に係る外音取込処理を示すフローチャートである。ユーザが、音出力装置の動作(例えば、音楽の再生)を開始すると、情報処理システム1は、外音取込処理を開始する。以下の処理は、情報処理装置10の制御部13で実行される。以下、図6を参照しながら外音取込処理を説明する。
 まず、情報処理装置10の制御部13は、センサ部15(マイクロフォン又はマイクロフォンアレイ)から周辺の音声の情報を取得する(ステップS101)。また、情報処理装置10の取得部131は、位置情報及び/又は環境情報を取得する(ステップS102)。
 次に、情報処理装置10の音認識制御部132は、ステップS101で取得した音声の音認識を実行する。第1の動作例では、音認識制御部132は、音声認識(呼びかけ認識)を実行する。そして、音認識制御部132は、音声認識の結果として、語彙情報及び話者情報の少なくとも1つを出力する。音認識制御部132は、音声認識の結果として、信頼度情報を出力してもよい。音認識制御部132は、音声認識の出力結果に対して、位置情報及び/又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する(ステップ103)。
 続いて、情報処理装置10の制御部13は、ステップS103で算出したスコアが所定の閾値を超えているか判別する(ステップS104)。スコアが所定の閾値を超えていない場合(ステップS104:No)、制御部13は、外音取込処理を終了する。
 一方、スコアが所定の閾値を超えている場合(ステップS104:Yes)、外音取込制御部133は、外音の取込に関する制御(外部の音をユーザが聞くための機能の制御)を行う(ステップS105)。例えば、外音取込制御部133は、ノイズキャンセル機能に関する制御を行う。また、外音取込制御部133は、外音の取込機能に関する制御を行ってもよいし、音出力装置の出力音量に関する制御を行ってもよい。また、外音取込制御部133は、補聴機能に関する制御を行ってもよい。
 外音の取込に関する制御が完了したら、制御部13は、外音取込処理を終了する。
<3-3.音声認識の感度調整>
 情報処理システム1は、位置情報及び/又は環境情報に応じた音声認識の感度調整のためのパラメータを、ユーザが設定できるよう構成されていてもよい。図7から図10は、音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。図7は、ユーザが自宅にいると判断されたときに適用されるパラメータの設定画面の例である。また、図8は、ユーザがオフィスにいると判断されたときに適用されるパラメータの設定画面の例である。また、図9は、ユーザが外出していると判断されたときに適用されるパラメータの設定画面の例である。また、図10は、ユーザが呼びかけを拒否する場合に使用する設定画面の例である。
 図7から図10では、位置情報ごとの、及び/又は、環境情報ごとの「語彙の重み」と「話者重み」全体をユーザが設定することを可能にするアプリの例を示している。この例の拡張として、より詳細な設定、例えば話者重みの中でも特定話者の重みを変更可能にする、場所ごとに特定の語彙の重みをユーザが編集可能にするといった実施例も考えられる。また、例えばオフィス等の特定の位置において、関わりたくない面倒な人からの呼びかけを無視したい場合など、特定話者の重みを0に設定することで、ブロックリストを実現することができる。
<<4.第2の動作例>>
 第1の動作例では、音声による呼びかけを検出対象としたが、検出対象は音声による呼びかけに限られない。情報処理システム1は、音声による呼びかけのみならず、音響イベントを認識し、それをユーザに伝えるか否かを位置情報及び/又は環境情報を基に制御するよう構成されていてもよい。例えば、情報処理システム1は、ユーザが歩道を歩いている又は走っている時の車のクラクション音や自転車のベル音に対しては重みを強くすることにより、ユーザに迫る危険を検出しやすくするよう構成されていてもよい。一方、ユーザが自宅にいるときはこれらの音はユーザにあまり関係ないと思われるので、情報処理システム1は、ユーザが自宅にいる時の車のクラクション音や自転車のベル音に対しては重みを弱くして、これらの音を検出し難く構成されていてもよい。
 図11は、第2の動作例に係る情報処理システム1の機能ブロック図である。以下、図11を参照しながら第2の動作例に係る情報処理システム1が有する機能を説明する。
 (音の取得)
 第2の動作例では、情報処理システム1は、ヘッドセットや携帯端末のマイクロホン(或いはマイクロフォンアレイ)で外音を取り込む。情報処理システム1は、その音声を音認識制御部132の音声認識エンジン132A及び音響イベント検出エンジン132Cに入力する。
 (位置情報及び/又は環境情報の取得)
 情報処理システム1の取得部131は、予め、もしくは音声認識エンジン132Aの音声認識と並行して、位置情報及び/又は環境情報を取得する。
 (呼びかけ音声の検出)
 音認識制御部132のスコア算出部132Bは、記憶部12から音響イベント重みテーブルを含む複数の重みテーブルを取得する。図12は、音響イベント重みテーブルの一例を示す図である。音響イベント重みテーブルは、複数の音響イベントそれぞれに対する、位置情報及び/又は環境情報毎の重みを示したテーブルである。図11に戻り、音認識制御部132のスコア算出部132Bは、音声認識エンジン132A及び音響イベント検出エンジン132Cの出力結果に対して、位置情報及び/又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声又は音響イベントである可能性の高さを示すスコアを算出する。情報処理システム1は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否か、或いは、所定の音響イベントが発生したか否か、を判断する。
 (呼びかけ検出時の対応)
 音声認識結果が呼びかけ音声であると判定された場合、或いは、所定の音響イベントが発生したと判定された場合、情報処理システム1は呼びかけられたことをユーザに伝えたり、外音の取込に関する制御を行ったりする。
<<5.第3の動作例>>
 情報処理システム1は、ユーザが呼びかけに応じたか否かのフィードバックを基に自動で話者や語彙を登録するよう構成されていてもよい。例えば、情報処理システム1が、特定の位置や環境において呼びかけらしい音声が入ってきたと判別したとする。そして、このとき、情報処理システム1が、さらに、ジャイロセンサを用いてユーザが後ろを向いたことと、マイク入力からの音声認識結果を用いてユーザが会話をしたことを検出したとする。このとき、情報処理システム1は、その音声の話者情報を話者テーブルに保存する。又は、情報処理システム1は、その位置及び/又は環境における話者重みを更新する。
 以下、この重みや話者情報を自動で登録する処理を説明する。図13は、第3の動作例に係る外音取込処理を示すフローチャートである。ユーザが、音出力装置の動作(例えば、音楽の再生)を開始すると、情報処理システム1は、外音取込処理を開始する。以下の処理は、情報処理装置10の制御部13で実行される。以下、図13を参照しながら外音取込処理を説明する。
 まず、情報処理装置10の制御部13は、センサ部15(マイクロフォン又はマイクロフォンアレイ)から周辺の音声の情報を取得する(ステップS201)。また、情報処理装置10の取得部131は、位置情報及び/又は環境情報を取得する(ステップS202)。
 次に、情報処理装置10の音認識制御部132は、ステップS201で取得した音声の音認識を実行する。第1の動作例では、音認識制御部132は、音声認識(呼びかけ認識)を実行する。そして、音認識制御部132は、音声認識の結果として、語彙情報及び話者情報の少なくとも1つを出力する。音認識制御部132は、音声認識の結果として、信頼度情報を出力してもよい。音認識制御部132は、音声認識の出力結果に対して、位置情報及び/又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する(ステップ203)。
 続いて、情報処理装置10の制御部13は、ステップS203で算出したスコアが所定の閾値を超えているか判別する(ステップS204)。スコアが所定の閾値を超えていない場合(ステップS204:No)、制御部13は、ユーザが会話(呼びかけ)に応じたか判別する(ステップS205)。例えば、制御部13は、ユーザが後ろを向き、ユーザが会話をした場合に、ユーザが会話に応じたと判別する。ユーザが後ろを向いたか否かは、音出力装置が備える加速度センサやジャイロセンサで検出可能である。また、ユーザが会話をしたか否かは、マイクロフォン入力を音声認識することで検出可能である。ユーザが会話に応じた場合(ステップS205:Yes)、制御部13は、ステップS208に処理を進める。ユーザが会話に応じていない場合(ステップS205:No)、制御部13は、外音取込処理を終了する。
 ステップS204に戻り、スコアが所定の閾値を超えている場合(ステップS204:Yes)、外音取込制御部133は、外音の取込に関する制御(外部の音をユーザが聞くための機能の制御)を行う(ステップS206)。例えば、外音取込制御部133は、ノイズキャンセル機能に関する制御を行う。また、外音取込制御部133は、外音の取込機能に関する制御を行ってもよいし、音出力装置の出力音量に関する制御を行ってもよい。また、外音取込制御部133は、補聴機能に関する制御を行ってもよい。
 外音の取込に関する制御が完了したら、制御部13は、ユーザが会話(呼びかけ)に応じたか判別する(ステップS207)。ユーザが会話に応じていない場合(ステップS207:No)、制御部13は、外音取込処理を終了する。ユーザが会話に応じた場合(ステップS207:Yes)、制御部13は、重みテーブルを更新する(ステップS208)。例えば、制御部は、ステップS201で認識した話者の情報を話者テーブルに保存する。制御部13は、ステップS202で取得した位置及び/又は環境における話者重みを更新してもよい。
 更新が完了したら、制御部13は、外音取込処理を終了する。
<<6.第4の動作例>>
 第1の動作例では、情報処理システム1は、一般的なデータで学習された音声認識エンジンによる認識結果に対して位置情報及び/又は環境情報に基づく重みをかけることで、呼びかけ検出の感度調整を実現した。しかしながら、情報処理システム1は、位置情報及び/又は環境情報をラベルデータやエンベディングベクトルといった形で音声認識エンジンの特徴量として与えることで、位置や環境に応じて呼びかけ検出の感度を暗示的に調節してもよい。
 図14は、第4の動作例に係る情報処理システム1の機能ブロック図である。以下、図14を参照しながら第4の動作例に係る情報処理システム1が有する機能を説明する。
 (音声の取得)
 第4の動作例では、情報処理システム1は、ヘッドセットや携帯端末のマイクロホン(或いはマイクロフォンアレイ)で外音を取り込む。情報処理システム1は、その音声を音認識制御部132の音声認識エンジン132Dに入力する。音声認識エンジン132Dは、End-to-End型の音声認識エンジンである。例えば、音声認識エンジン132Dは、End-to-End型のDNN(Deep Neural Network)である。
 (位置情報及び/又は環境情報の取得)
 情報処理システム1の取得部131は、予め、もしくは音声認識エンジン132Dの音声認識と並行して、位置情報及び/又は環境情報を取得する。
 (呼びかけ音声の検出)
 音認識制御部132のスコア算出部132Bは、音声認識エンジン132Dの出力結果に基づいて、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する。第4の動作例の場合、ユーザは、重みテーブルを明示的に構成する必要はない。位置情報毎の及び/又は環境情報毎の重みは、End-to-End型の音声認識エンジンのモデルパラメータ等の形で暗示的に含まれることになる。情報処理システム1は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否かを判断する。
 (呼びかけ検出時の対応)
 音声認識結果が呼びかけ音声であると判定された場合、或いは、所定の音響イベントが発生したと判定された場合、情報処理システム1は呼びかけられたことをユーザに伝えたり、外音の取込に関する制御を行ったりする。
<<7.第5の動作例>>
 第1の動作例では、情報処理システム1は、音声認識結果に対して位置情報及び/又は環境情報に基づく重みをかけることで、呼びかけ検出の感度を調整した。しかしながら、情報処理システム1は、音声認識エンジン内の重みつき有限状態トランスデューサ(WFST:Weighted Finite-State Transducer)等の重みを位置・環境に応じて切り替えることで、位置や環境に応じて呼びかけ検出の感度を明示的に調節してもよい。第5の動作例では、第4の動作例とは異なり、明示的に重みテーブルを作成するので設計者やユーザによる編集が可能である。
 図15は、第5の動作例に係る情報処理システム1の機能ブロック図である。以下、図15を参照しながら第5の動作例に係る情報処理システム1が有する機能を説明する。
 (音声の取得と音声認識)
 第4の動作例では、情報処理システム1は、ヘッドセットや携帯端末のマイクロホン(或いはマイクロフォンアレイ)で外音を取り込む。情報処理システム1は、その音声を音認識制御部132の音声認識エンジン132Dに入力する。音声認識エンジン132Eは、例えば、DNN-HMM(Deep Neural Network - Hidden Markov model)ハイブリッド音声認識システムである。音声認識エンジン132Eは、GMM-HMM(Gaussian mixture model - Hidden Markov model)音声認識システムであってもよい。第5の動作例の場合、情報処理システム1は、音声認識エンジン内の重みつき有限状態トランスデューサ(WFST)等の重みを位置及び/又は環境に応じて切り替える。
 (位置情報及び/又は環境情報の取得)
 情報処理システム1の取得部131は、予め、もしくは音声認識エンジン132Eの音声認識と並行して、位置情報及び/又は環境情報を取得する。
 (呼びかけ音声の検出)
 音認識制御部132のスコア算出部132Bは、音声認識エンジン132Eの出力結果に基づいて、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する。情報処理システム1は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否かを判断する。
 (呼びかけ検出時の対応)
 音声認識結果が呼びかけ音声であると判定された場合、或いは、所定の音響イベントが発生したと判定された場合、情報処理システム1は呼びかけられたことをユーザに伝えたり、外音の取込に関する制御を行ったりする。
<<8.第6の動作例>>
 第1の動作例では、情報処理システム1は、音声認識結果に基づいて外音の取込に関する制御を行った。しかしながら、情報処理システム1は、音声認識結果が呼びかけ音声や音響イベントであると判定された場合、外音の取込に関する制御に代えて外音の通知に関する制御を行ってもよい。具体的には、第1の動作例や第3の動作例において、情報処理装置10の制御部13は、外音の取込に関する制御を行わず呼びかけ通知や音響イベント通知の制御を行ってもよい。また、情報処理システム1は、音声認識結果が呼びかけ音声や音響イベントであると判定された場合、外音の通知に関する制御に加えて、外音の取込に関する制御を行ってもよい。例えば、情報処理システム1は、外音の通知に関する制御と外音の取込に関する制御を同時に行ってもよいし、外音の通知に関する制御に基づいて外音の取込に関する制御を行ってもよい。
 情報処理システム1は、音声認識結果が呼びかけ音声や音響イベントであると判定された場合、出力部14から音、振動、光等を出力することで、呼びかけ音声や音響イベントが検出されたことをユーザに伝える外音の通知に関する制御を行う。図16は、外音通知の表示例を示す図である。図16の例では、スマートフォンの画面上に、呼びかけが検出されたことを示す外音通知のメッセージが表示されている。
 図16では、スマートフォンの画面上に、呼びかけを検出した旨の通知メッセージが表示される。例えば、通知メッセージには、誰からの呼びかけがあったのかを表示してもよい。また、通知メッセージは、外音の取込に関する制御を指示するためのGUI(Graphical User Interface)を含んでいてもよい。例えば、通知メッセージには、音楽の再生を停止するためのボタン、ノイズキャンセル機能をオフにするためのボタン、外音取込機能をオンにするためのボタン等がGUIとして含まれる。外音取込制御部133は、操作されたボタンに基づいて外音の取込に関する制御を行う。また、通知メッセージは音声で出力されてもよく、この場合には、外音の取込に関する制御を指示するための音声に対して、ユーザが発話で応答することが考えられる。
 図17は、第6の動作例に係る外音通知処理及び外音取込処理を示すフローチャートである。ユーザが、音出力装置の動作(例えば、音楽の再生)を開始すると、情報処理システム1は、外音通知処理及び外音取込処理を開始する。以下の処理は、情報処理装置10の制御部13で実行される。以下、図17を参照しながら外音通知処理及び外音取込処理を説明する。
 まず、情報処理装置10の制御部13は、センサ部15(マイクロフォン又はマイクロフォンアレイ)から周辺の音声の情報を取得する(ステップS301)。また、情報処理装置10の取得部131は、位置情報及び/又は環境情報を取得する(ステップS302)。
 次に、情報処理装置10の音認識制御部132は、ステップS301で取得した音声の音認識を実行する。第1の動作例では、音認識制御部132は、音声認識(呼びかけ認識)を実行する。そして、音認識制御部132は、音声認識の結果として、語彙情報及び話者情報の少なくとも1つを出力する。音認識制御部132は、音声認識の結果として、信頼度情報を出力してもよい。音認識制御部132は、音声認識の出力結果に対して、位置情報及び/又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する(ステップ303)。
 続いて、情報処理装置10の制御部13は、ステップS303で算出したスコアが所定の閾値を超えているか判別する(ステップS304)。スコアが所定の閾値を超えていない場合(ステップS304:No)、制御部13は、処理を終了する。
 一方、スコアが所定の閾値を超えている場合(ステップS304:Yes)、外音取込制御部133は、外音の通知に関する制御を行う(ステップS305)。例えば、外音取込制御部133は、外音通知のメッセージを画像として提示する制御を行う。また、外音取込制御部133は、外音通知のメッセージを音声として提示する制御を行ってもよい。外音通知のメッセージは、外音の取込に関する制御を指示するための情報を含んでいる。なお、外音の通知に関する制御と外音の取込に関する制御をステップS305で同時に行う場合は、ステップS305で外音の通知に関する制御と外音の取込に関する制御が完了したら、制御部13は、ステップS306以降の処理は行わずに外音通知処理及び外音取込処理を終了してもよい。
 次に、外音取込制御部133は、ステップS305で提示した外音の取込に関する制御を指示するための情報に基づく外音取込指示があったか判別する(ステップS306)。外音取込指示がない場合(ステップS306:No)、制御部13は、処理を終了する。
 外音取込指示がある場合(ステップS306:Yes)、外音取込制御部133は、外音取込指示に基づいて外音の取込に関する制御(外部の音をユーザが聞くための機能の制御)を行う(ステップS307)。例えば、外音取込制御部133は、ノイズキャンセル機能に関する制御を行う。また、外音取込制御部133は、外音の取込機能に関する制御を行ってもよいし、音出力装置の出力音量に関する制御を行ってもよい。また、外音取込制御部133は、補聴機能に関する制御を行ってもよい。
 外音の取込に関する制御が完了したら、制御部13は、外音通知処理及び外音取込処理を終了する。
<<9.システム構成の他の例>>
 情報処理システム1は、1つの装置によって構成されていてもよいし、複数の装置によって構成されていてもよい。図18は、本開示の実施形態に係る情報処理システム1の他の構成例を示す図である。情報処理システム1は、出力装置20と、端末装置30と、を備える。
<9-1.出力装置>
 出力装置20は、音出力装置として機能するデバイスである。出力装置20は、例えば、ヘッドホン、ヘッドセット、又はイヤホンである。出力装置20は、音の出力機能に加えて、音の取得機能を備える。また、出力装置20は、ユーザの没入感を高めるための機能又は構造を備える。例えば、出力装置20は、ノイズキャンセリング機能を備えていてもよいし、外音取込機能を備えていてもよい。
 なお、出力装置20は、ヘッドホン、ヘッドセット、又はイヤホンに限られない。例えば、出力装置20は、補聴器や集音器、ネックバンド式スピーカーであってもよい。また、音出力装置は、ARデバイス、VRデバイス、MRデバイス等のxRデバイスであってもよい。このとき、xRデバイスは、ARグラス、MRグラス等のメガネ型デバイスであってもよいし、VRヘッドマウントディスプレイ等のヘッドマウント型デバイスであってもよい。また、出力装置20は、装着型の装置に限られず、例えば、据え置き型のスピーカーであってもよい。
 図19は、本開示の実施形態に係る出力装置20の構成例を示す図である。出力装置20は、図19に示すように、通信部21と、記憶部22と、制御部23と、出力部24と、センサ部25と、撮像部26と、を備える。なお、図19に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、出力装置20の機能は、複数の物理的に分離された構成に分散して実装されてもよい。
 通信部21は、他の装置(例えば、端末装置30)と通信するための通信インタフェースである。記憶部22はデータ読み書き可能な記憶装置である。制御部23は、出力装置20の各部を制御するコントローラである。出力部24は、外部に各種出力を行う装置である。センサ部25は、各種情報を検出するセンサである。撮像部26は、光像を電気信号に変換する変換部である。通信部21~撮像部26の構成は、図1に示す情報処理装置10の通信部11~撮像部16と同様であってもよい。
<9-2.端末装置>
 端末装置30は、出力装置20を制御するコンピュータである。端末装置30は、パーソナルコンピュータ、携帯電話、スマートデバイス(スマートフォン、又はタブレット)、PDA、ノートPC等のモバイル端末であってもよい。また、端末装置30は、スマートウォッチ等のウェアラブルデバイスであってもよい。
 また、端末装置30は、持ち運び可能なIoT(Internet of Things)デバイスであってもよい。また、端末装置30は、FPU(Field Pickup Unit)等の通信機器が搭載されたバイクや移動中継車等であってもよい。また、端末装置30は、IoT(Internet of Things)デバイスであってもよい。また、端末装置30は、PCサーバ、ミッドレンジサーバ、メインフレームサーバ等のサーバ装置であってもよい。その他、端末装置30には、あらゆる形態のコンピュータを採用可能である。
 図20は、本開示の実施形態に係る端末装置30の構成例を示す図である。端末装置30は、図20に示すように、通信部31と、記憶部32と、制御部33と、出力部34と、センサ部35と、撮像部36と、を備える。なお、図20に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、端末装置30の機能は、複数の物理的に分離された構成に分散して実装されてもよい。
 通信部31は、他の装置(例えば、出力装置20)と通信するための通信インタフェースである。記憶部32はデータ読み書き可能な記憶装置である。制御部33は、出力装置20の各部を制御するコントローラである。出力部34は、外部に各種出力を行う装置である。センサ部35は、各種情報を検出するセンサである。撮像部36は、光像を電気信号に変換する変換部である。
 制御部33は、取得部331と、音認識制御部332と、外音取込制御部333と、を備える。制御部33を構成する各ブロック(取得部331~外音取込制御部333)はそれぞれ制御部33の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア(マイクロプログラムを含む。)で実現される1つのソフトウェアモジュールであってもよいし、半導体チップ(ダイ)上の1つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ1つのプロセッサ又は1つの集積回路であってもよい。制御部33は上述の機能ブロックとは異なる機能単位で構成されていてもよい。機能ブロックの構成方法は任意である。
 なお、制御部33は上述の機能ブロックとは異なる機能単位で構成されていてもよい。また、制御部33を構成する各ブロック(取得部331~外音取込制御部333)の一部又は全部の動作を、他の装置が行ってもよい。制御部33を構成する各ブロックの動作は図1に示す情報処理装置10の取得部131~外音取込制御部133と同様である。例えば、取得部331は、出力装置20が取得した音の情報に基づいて、位置情報及び/又は環境情報を生成する。その他、制御部33を構成する各ブロックは、上述の第1の動作例から第5の動作例で示した動作を行うよう構成されていてもよい。
 その他、通信部31~撮像部36の構成は、図1に示す情報処理装置10の通信部11~撮像部16と同様である。
<<10.変形例>>
 上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。
 例えば、上述の第1の動作例から第5の動作例で示した処理は、ユーザが有する音出力装置とネットワークを介して接続されたWeb上のサーバ装置が行ってもよい。
 また、本実施形態は、音出力装置が、例えば据え置き型のスピーカー等、装着型の装置でない場合であっても適用可能である。
 本実施形態の情報処理装置10、出力装置20、又は端末装置30は、専用のコンピュータシステムにより実現してもよいし、汎用のコンピュータシステムによって実現してもよい。
 例えば、上述の動作を実行するための通信プログラムを、光ディスク、半導体メモリ、磁気テープ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に格納して配布する。そして、例えば、該プログラムをコンピュータにインストールし、上述の処理を実行することによって制御装置を構成する。このとき、制御装置は、情報処理装置10、出力装置20、又は端末装置30の外部の装置(例えば、パーソナルコンピュータ)であってもよい。また、制御装置は、情報処理装置10、出力装置20、又は端末装置30の内部の装置(例えば、制御部13、制御部23、制御部33)であってもよい。
 また、上記通信プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、OS(Operating System)とアプリケーションソフトとの協働により実現してもよい。この場合には、OS以外の部分を媒体に格納して配布してもよいし、OS以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。
 また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。
 また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、上述の実施形態のフローチャートに示された各ステップは、適宜順序を変更することが可能である。また、例えば、1つのフローチャートの各ステップを、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、1つのステップに複数の処理が含まれる場合、その複数の処理を、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 また、例えば、本実施形態は、装置またはシステムを構成するあらゆる構成、例えば、システムLSI(Large Scale Integration)等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等(すなわち、装置の一部の構成)として実施することもできる。
 なお、本実施形態において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 また、例えば、本実施形態は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
<<11.むすび>>
 以上説明したように、本実施形態によれば、情報処理システム1は、位置情報及び環境情報の少なくとも一方に基づいて音認識に関する制御を行う。例えば、情報処理システム1は、位置情報及び環境情報の少なくとも1つに基づいて音認識(例えば、呼びかけや音響イベントの認識)の精度を調整する。そして、情報処理システム1は、音認識の結果に基づいて外音の取込に関する制御や外音の通知に関する制御を行う。
 これにより、ユーザは、例えば、ヘッドホン等の音出力装置を使用していたとしても、呼びかけ音声を適切に把握することができる。また、呼びかけの誤検出や呼びかけ検出の頻繁な発生を減らすことができるので、ユーザのストレスを低減できる。また、呼びかけ検出の取りこぼしを減らすことができるので、ユーザの利便性が高まる。
 以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 位置情報及び環境情報の少なくとも一方を取得する取得ステップと、
 前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、
 前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、
 を有する情報処理方法。
(2)
 前記認識ステップは、前記位置情報及び前記環境情報の少なくとも1つに基づいて前記音認識の精度を調整する、
 前記(1)に記載の情報処理方法。
(3)
 前記音認識には、少なくとも呼びかけ認識が含まれ、
 前記認識ステップは、前記位置情報及び前記環境情報の少なくとも1つに基づいて前記呼びかけ認識の精度を調整する、
 前記(2)に記載の情報処理方法。
(4)
 前記認識ステップは、語彙及び話者の少なくとも1つを認識する音声認識処理を行い、前記位置情報及び前記環境情報の少なくとも1つと、音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
 前記(3)に記載の情報処理方法。
(5)
 前記音声認識処理は、少なくとも音声認識の結果の信頼度の情報を出力し、
 前記認識ステップは、前記位置情報及び前記環境情報の少なくとも1つと、前記信頼度の情報を含む音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
 前記(4)に記載の情報処理方法。
(6)
 前記位置情報は、GNSSセンサによって推定される、ユーザが現在いる場所の情報であり、
 前記認識ステップは、前記位置情報に基づいて前記呼びかけ認識の精度を調整する、
 前記(3)~(5)のいずれかに記載の情報処理方法。
(7)
 前記環境情報は、マイクロフォンによって得られる環境音から推定される、ユーザの現在環境の情報であり、
 前記認識ステップは、前記環境情報に基づいて前記呼びかけ認識の精度を調整する、
 前記(3)~(6)のいずれかに記載の情報処理方法。
(8)
 前記制御ステップでは、前記音認識の結果に基づいて、前記外音の取込に関する制御及び前記外音の通知に関する制御を行う、
 前記(1)~(7)のいずれかに記載の情報処理方法。
(9)
 前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
 前記外音の通知に対する操作に基づいて前記外音の取込に関する制御を行う外音取込制御ステップをさらに有する、
 前記(1)~(8)のいずれかに記載の情報処理方法。
(10)
 前記音認識には、少なくとも音響イベントの認識が含まれ、
 前記認識ステップは、前記位置情報及び前記環境情報の少なくとも一方に基づいて、前記音響イベントの認識の精度を調整する、
 前記(2)~(9)のいずれかに記載の情報処理方法。
(11)
 前記音響イベントには、車のクラクション、自転車のベル音、及び自転車のブレーキ音、の少なくとも1つが含まれる、
 前記(10)に記載の情報処理方法。
(12)
 前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
 前記外音取込制御ステップでは、前記外音の取込に関する制御として、ノイズキャンセル機能に関する制御を行う、
 前記(1)~(11)のいずれかに記載の情報処理方法。
(13)
 前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
 前記外音取込制御ステップでは、前記外音の取込に関する制御として、外音の取込機能のオン又はオフの制御を行う、
 前記(1)~(11)のいずれかに記載の情報処理方法。
(14)
 前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
 前記外音取込制御ステップでは、前記外音の取込に関する制御として、出力音量に関する制御を行う、
 前記(1)~(11)のいずれかに記載の情報処理方法。
(15)
 前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
 前記外音取込制御ステップでは、前記外音の取込に関する制御として、補聴機能に関する制御を行う、
 前記(1)~(11)のいずれかに記載の情報処理方法。
(16)
 前記取得ステップは、マイクロフォンで取得した音の情報に基づいて、前記位置情報及び前記環境情報の少なくとも一方を生成する、
 前記(1)~(15)のいずれかに記載の情報処理方法。
(17)
 位置情報及び環境情報の少なくとも一方を取得する取得部と、
 前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識制御部と、
 前記音認識の結果に基づいて、外音の取り込みに関する制御又は外音の通知に関する制御を行う外音取込制御部と、
 を備える情報処理システム。
(18)
 前記情報処理システムは、音の出力装置であり、
 前記出力装置は、前記取得部と、前記認識制御部と、前記外音取込制御部と、を備える、
 前記(17)に記載の情報処理システム。
(19)
 前記情報処理システムは、
 前記取得部、前記認識制御部及び前記外音取込制御部の少なくとも一つを備える端末装置と、
 前記端末装置と通信で接続され、前記外音の取り込みに関する制御又は前記外音の通知に関する制御に基づく出力を行う音の出力装置と、
 を備える前記(17)に記載の情報処理システム。
(20)
 コンピュータに、
 位置情報及び環境情報の少なくとも一方を取得させ、
 前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行わせ、
 前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御 を行わせる、
 プログラム。
 1 情報処理システム
 10 情報処理装置
 11、21、31 通信部
 12、22、32 記憶部
 13、23、33 制御部
 14、24、34 出力部
 15、25、35 センサ部
 16、26、36 撮像部
 20 出力装置
 30 端末装置
 131、331 取得部
 132、332 音認識制御部
 132A、132D、132E 音声認識エンジン
 132B スコア算出部
 132C 音響イベント検出エンジン
 133、333 外音取込制御部

Claims (20)

  1.  位置情報及び環境情報の少なくとも一方を取得する取得ステップと、
     前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、
     前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、
     を有する情報処理方法。
  2.  前記認識ステップは、前記位置情報及び前記環境情報の少なくとも1つに基づいて前記音認識の精度を調整する、
     請求項1に記載の情報処理方法。
  3.  前記音認識には、少なくとも呼びかけ認識が含まれ、
     前記認識ステップは、前記位置情報及び前記環境情報の少なくとも1つに基づいて前記呼びかけ認識の精度を調整する、
     請求項2に記載の情報処理方法。
  4.  前記認識ステップは、語彙及び話者の少なくとも1つを認識する音声認識処理を行い、前記位置情報及び前記環境情報の少なくとも1つと、音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
     請求項3に記載の情報処理方法。
  5.  前記音声認識処理は、少なくとも音声認識の結果の信頼度の情報を出力し、
     前記認識ステップは、前記位置情報及び前記環境情報の少なくとも1つと、前記信頼度の情報を含む音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
     請求項4に記載の情報処理方法。
  6.  前記位置情報は、GNSSセンサによって推定される、ユーザが現在いる場所の情報であり、
     前記認識ステップは、前記位置情報に基づいて前記呼びかけ認識の精度を調整する、
     請求項3に記載の情報処理方法。
  7.  前記環境情報は、マイクロフォンによって得られる環境音から推定される、ユーザの現在環境の情報であり、
     前記認識ステップは、前記環境情報に基づいて前記呼びかけ認識の精度を調整する、
     請求項3に記載の情報処理方法。
  8.  前記制御ステップでは、前記音認識の結果に基づいて、前記外音の取込に関する制御及び前記外音の通知に関する制御を行う、
     請求項1に記載の情報処理方法。
  9.  前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
     前記外音の通知に対する操作に基づいて前記外音の取込に関する制御を行う外音取込制御ステップをさらに有する、
     請求項1に記載の情報処理方法。
  10.  前記音認識には、少なくとも音響イベントの認識が含まれ、
     前記認識ステップは、前記位置情報及び前記環境情報の少なくとも一方に基づいて、前記音響イベントの認識の精度を調整する、
     請求項2に記載の情報処理方法。
  11.  前記音響イベントには、車のクラクション、自転車のベル音、及び自転車のブレーキ音、の少なくとも1つが含まれる、
     請求項10に記載の情報処理方法。
  12.  前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
     前記外音取込制御ステップでは、前記外音の取込に関する制御として、ノイズキャンセル機能に関する制御を行う、
     請求項1に記載の情報処理方法。
  13.  前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
     前記外音取込制御ステップでは、前記外音の取込に関する制御として、外音の取込機能のオン又はオフの制御を行う、
     請求項1に記載の情報処理方法。
  14.  前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
     前記外音取込制御ステップでは、前記外音の取込に関する制御として、出力音量に関する制御を行う、
     請求項1に記載の情報処理方法。
  15.  前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
     前記外音取込制御ステップでは、前記外音の取込に関する制御として、補聴機能に関する制御を行う、
     請求項1に記載の情報処理方法。
  16.  前記取得ステップは、マイクロフォンで取得した音の情報に基づいて、前記位置情報及び前記環境情報の少なくとも一方を生成する、
     請求項1に記載の情報処理方法。
  17.  位置情報及び環境情報の少なくとも一方を取得する取得部と、
     前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識制御部と、
     前記音認識の結果に基づいて、外音の取り込みに関する制御又は外音の通知に関する制御を行う外音取込制御部と、
     を備える情報処理システム。
  18.  前記情報処理システムは、音の出力装置であり、
     前記出力装置は、前記取得部と、前記認識制御部と、前記外音取込制御部と、を備える、
     請求項17に記載の情報処理システム。
  19.  前記情報処理システムは、
     前記取得部、前記認識制御部及び前記外音取込制御部の少なくとも一つを備える端末装置と、
     前記端末装置と通信で接続され、前記外音の取り込みに関する制御又は前記外音の通知に関する制御に基づく出力を行う音の出力装置と、
     を備える請求項17に記載の情報処理システム。
  20.  コンピュータに、
     位置情報及び環境情報の少なくとも一方を取得させ、
     前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行わせ、
     前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行わせる、
     プログラム。
PCT/JP2022/036130 2021-10-07 2022-09-28 情報処理方法、情報処理システム、及びプログラム WO2023058515A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-165725 2021-10-07
JP2021165725 2021-10-07

Publications (1)

Publication Number Publication Date
WO2023058515A1 true WO2023058515A1 (ja) 2023-04-13

Family

ID=85804245

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/036130 WO2023058515A1 (ja) 2021-10-07 2022-09-28 情報処理方法、情報処理システム、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023058515A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004013084A (ja) * 2002-06-11 2004-01-15 Sharp Corp 音量制御装置
JP2009147410A (ja) * 2007-12-11 2009-07-02 Sony Corp 再生装置、再生方法及び再生システム
WO2011030422A1 (ja) * 2009-09-10 2011-03-17 パイオニア株式会社 雑音低減装置
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
JP2014030254A (ja) * 2013-10-07 2014-02-13 Pioneer Electronic Corp ヘッドフォン
WO2021161722A1 (ja) * 2020-02-10 2021-08-19 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004013084A (ja) * 2002-06-11 2004-01-15 Sharp Corp 音量制御装置
JP2009147410A (ja) * 2007-12-11 2009-07-02 Sony Corp 再生装置、再生方法及び再生システム
WO2011030422A1 (ja) * 2009-09-10 2011-03-17 パイオニア株式会社 雑音低減装置
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
JP2014030254A (ja) * 2013-10-07 2014-02-13 Pioneer Electronic Corp ヘッドフォン
WO2021161722A1 (ja) * 2020-02-10 2021-08-19 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

Similar Documents

Publication Publication Date Title
US9830930B2 (en) Voice-enhanced awareness mode
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
WO2017152066A1 (en) Systems and methods for spatial audio adjustment
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
US11467666B2 (en) Hearing augmentation and wearable system with localized feedback
US20220066207A1 (en) Method and head-mounted unit for assisting a user
JP2004212641A (ja) 音声入力システム及び音声入力システムを備えた端末装置
CN111613213B (zh) 音频分类的方法、装置、设备以及存储介质
US20210090548A1 (en) Translation system
US20210266655A1 (en) Headset configuration management
WO2023058515A1 (ja) 情報処理方法、情報処理システム、及びプログラム
CN113409805A (zh) 人机交互方法、装置、存储介质及终端设备
US20190073183A1 (en) Information processing apparatus, information processing method, and program
WO2019207867A1 (ja) 電子機器及び処理システム
US20230035531A1 (en) Audio event data processing
US11689878B2 (en) Audio adjustment based on user electrical signals
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
US20240087597A1 (en) Source speech modification based on an input speech characteristic
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
TW202314684A (zh) 對來自多個麥克風的音訊信號的處理
WO2023010012A1 (en) Audio event data processing
CN118020313A (zh) 处理来自多个麦克风的音频信号
CN118020314A (zh) 音频事件数据处理
JP2023080604A (ja) 音声制御装置、および音声制御方法
CN117711410A (zh) 语音唤醒方法及相关设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22878385

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023552825

Country of ref document: JP