WO2020226001A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2020226001A1
WO2020226001A1 PCT/JP2020/014683 JP2020014683W WO2020226001A1 WO 2020226001 A1 WO2020226001 A1 WO 2020226001A1 JP 2020014683 W JP2020014683 W JP 2020014683W WO 2020226001 A1 WO2020226001 A1 WO 2020226001A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
voice
information
information processing
voice section
Prior art date
Application number
PCT/JP2020/014683
Other languages
English (en)
French (fr)
Inventor
泰成 橋本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/606,806 priority Critical patent/US20220208189A1/en
Publication of WO2020226001A1 publication Critical patent/WO2020226001A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Definitions

  • This technology relates to an information processing device and an information processing method, and more particularly to an information processing device and an information processing method that reduce the risk of missed hearing by the user.
  • Patent Document 1 proposes a technique of presenting a message from another user when the owner of the tablet terminal approaches, if the message is registered.
  • Patent Document 1 does not reduce the risk of missed hearing in an environment where important information is transmitted, such as an airport or a station.
  • the purpose of this technology is to reduce the risk of missed hearing by the user in an environment where important information is transmitted by voice.
  • a voice section detector that detects a voice section from environmental sounds
  • a user-related determination unit that determines whether the voice in the above voice section is related to the user
  • It is in an information processing device including a presentation control unit that controls the presentation of voice related to the user.
  • the voice section detection unit detects the voice section from the environmental sound.
  • the user-related determination unit determines whether the voice in the voice section is related to the user.
  • the presentation control unit controls the presentation of the voice associated with the user.
  • the presentation control unit may be configured to control the presentation of audio associated with the user when the user indicates a missed mode.
  • the user-related determination unit extracts a keyword related to an action from the voice of the voice section, and determines whether the voice of the voice section is related to the user based on the relationship of the extracted keyword with the user's behavior. It may be done. This makes it possible to satisfactorily determine whether or not the voice in the voice section is related to the user.
  • the user-related determination unit may use the extracted keyword after performing quality assurance processing.
  • quality assurance may be made to include compensation for missing information or correction of incorrect information.
  • the user-related determination unit may be configured to perform quality assurance processing of the extracted keywords based on the net information.
  • the user-related determination unit may be configured to estimate the user's behavior based on predetermined information including the user's behavior information.
  • the predetermined information may include the user's location information, the user's schedule information, the user's ticket purchase information, or the user's utterance information.
  • the present technology detects a voice section from the environmental sound, determines whether the voice in this voice section is related to the user, and controls to present the voice related to the user. Therefore, in an environment where important information is transmitted, it is possible to reduce the risk of missed hearing by the user.
  • FIG. 1 shows a state in which the voice agent 10 as an embodiment is attached to the user 20.
  • the voice agent 10 is attached to the user 20 in the form of earphones.
  • the voice agent 10 detects a voice section from the environmental sound, determines whether the voice in this voice section is related to the user 20, and presents the voice related to the user 20 to the user 20, so that the user 20 has a risk of overhearing. To reduce.
  • the example shown in the figure assumes that user 20 is at the airport, and the announcement is made that "the flight departing from XX hours to XX will be changed to boarding gate ⁇ ." For example, if the announcement voice is associated with the user 20, the announcement voice will be played back and presented to the user 20.
  • the voice agent 10 is attached to the user 20 in the form of earphones, but the attachment form of the voice agent 10 to the user 20 is not limited to this.
  • FIG. 2 shows a specific configuration example of the voice agent 10.
  • the voice agent 10 has a microphone 101 as an input interface, a speaker 102 as an output interface, and a processing main unit 103. It is also conceivable that the processing main body 103 is configured by a cloud server.
  • the processing main unit 103 includes a voice section detection unit 110, a voice storage unit 111, a voice recognition unit 112, a keyword extraction unit 113, a control unit 114, a voice synthesis unit 115, a user-related determination unit 116, and peripherals. It has an environment estimation unit 117, a quality assurance unit 118, and a network interface (network IF) 119.
  • the voice section detection unit 110 detects the voice section from the voice data of the environmental sound obtained by collecting the sound with the microphone 101. In this case, the voice data of the environmental sound is buffered, and the voice detection process is applied to the buffer to detect the voice section.
  • the voice storage unit 111 is composed of, for example, a semiconductor memory, and stores the voice data of the voice section detected by the voice section detection unit 110.
  • the voice recognition unit 112 performs voice recognition processing on the voice data of the voice section detected by the voice section detection unit 110, and converts the voice data into text data.
  • the keyword extraction unit 113 performs natural language processing on the text data obtained by the voice recognition unit 112 to extract keywords related to actions.
  • the keyword related to behavior is a keyword that affects the behavior of the user.
  • the keyword extraction unit 113 may be composed of a keyword extractor created by collecting a large amount of text data of announcements of airports and stations and a set of keywords to be extracted as training data and training them with DNN. Further, for example, the keyword extraction unit 113 may be configured by a rule-based keyword extractor that extracts keywords from grammatical rules.
  • FIG. 3 shows an example of keyword extraction.
  • the illustrated example shows an example of keyword extraction from the announcement voice saying "The flight departing from XX time to XX will be changed to boarding gate ⁇ .”
  • "XX hour departure”, “ ⁇ line”, “boarding gate ⁇ number”, and "change” are extracted as keywords related to actions.
  • the network interface 119 connects to the mobile device owned by the user 20, or the wearable device attached to the user 20, and further connects to various information providing sites via the Internet. It is a network interface for
  • the network interface 119 acquires the location information and schedule information (calendar information) of the user 20 from the mobile device or the wearable device. Further, the network interface 119 acquires various information (net information) via the Internet. This online information also includes airplane and rail operation information obtained from sites that provide airplane and rail operation information.
  • the surrounding environment estimation unit 117 estimates the surrounding environment in which the user 20 exists based on the position information of the user 20 acquired by the network interface 119.
  • the surrounding environment corresponds to airports, train stations, etc. It is also conceivable that the surrounding environment estimation unit 117 estimates the surrounding environment based on the environmental sound obtained by collecting the sound with the microphone 101 instead of the position information of the user 20. In this case, the environmental sound of the station and the environmental sound of the airport are given to the learner with the labels "station” and "airport", and by supervised learning, a discriminator that estimates the "environment” from the environmental sound is created. Can be used.
  • the quality assurance unit 118 guarantees the quality of the keywords related to the actions extracted by the keyword extraction unit 113. This quality assurance includes (1) compensation for missing information and (2) correction of incorrect information.
  • the quality assurance unit 118 performs quality assurance based on the net information acquired by the network interface 119. By performing quality assurance in this way, it is possible to improve the accuracy of determining whether or not the voice in the voice section described later is related to the user.
  • the quality assurance unit 118 is not always necessary, and a configuration in which the quality assurance unit 118 is not provided may be considered.
  • FIG. 4 shows an example of "(1) Compensation for missing information".
  • the keyword extraction unit 113 cannot acquire the information (keyword of the destination) of the “XX line” and is missing.
  • the destination information of the relevant airplane is acquired from the operation information site of the airplane by the network interface 119, and the keyword of the missing destination is compensated based on the destination information.
  • FIG. 5 shows an example of "(2) Correction of incorrect information".
  • "AMAXX flight is the boarding gate of ⁇ " is a statement of a person near the user 20, and it is assumed that the "boarding gate of ⁇ " is incorrect.
  • the boarding gate information of the relevant airplane is acquired from the flight information site on the network interface 119, and based on the boarding gate information, the error of " ⁇ boarding gate” is found and the keyword of the boarding gate is corrected correctly. Will be done.
  • the user-related determination unit 116 is extracted by the keyword extraction unit 113, and is the voice of the voice section related to the user based on the relationship between the keyword related to the quality-guaranteed behavior by the quality assurance unit 118 and the behavior of the user 20? judge.
  • the user-related determination unit 116 estimates the behavior of the user 20 based on predetermined information including the behavior information of the user 20.
  • the predetermined information includes the user's location information and the user's schedule information acquired from the mobile device and the wearable device by the network interface 119, the ticket purchase information acquired from the mobile device and the wearable device by the network interface 119, and the user 20. Includes speech information, etc.
  • the location information it is possible to determine where the current location is, for example, whether it is an airport or a station. This also corresponds to the surrounding environment information obtained by the surrounding environment estimation unit 117. Further, from the location information, for example, when the current location is a station, the route to the destination can be searched and the route name and the ascending / descending (outer loop / inner loop) can be extracted.
  • the destination can be extracted from the date and time of the schedule information, and if the current location is an airport, the flight number can also be extracted.
  • information on the user's behavior such as date, departure time, departure place, arrival time, destination, and flight number if the ticket is an airline ticket can be extracted from the ticket purchase information (for example, ticket purchase email).
  • the departure time, destination, etc. can be extracted from the user's utterance information.
  • FIG. 6 shows an example of a judgment outline of the user-related judgment unit 116 when the current location is an airport.
  • location information, schedule information, and ticket purchase information are used as predetermined information including the behavior information of the user 20.
  • ticket purchase information (email)
  • the keywords of "XX hour departure", “ ⁇ line”, “boarding gate ⁇ number”, and "change" are extracted.
  • the user-related determination unit 116 determines that the airport is located from the current location indicated by the location information. In addition, the user-related determination unit 116 extracts the destination from the date and time of the schedule information, and further extracts the flight number. In addition, the user-related determination unit 116 extracts the date, departure time, departure place, arrival time, destination, and flight number from the ticket purchase information. Then, the user-related determination unit 116 determines whether the voice of the voice section is related to the user based on whether the extracted keyword includes the flight number, departure time, and destination related to the user's behavior.
  • FIG. 7 shows an example of a judgment outline of the user-related judgment unit 116 when the current location is a station (Shinagawa station).
  • location information and schedule information are used as predetermined information including the behavior information of the user 20.
  • the keywords of " ⁇ line”, "XX hourly departure", " ⁇ line", and " ⁇ line” are extracted.
  • the user-related determination unit 116 extracts the destination from the date and time of the schedule information. In addition, the user-related determination unit 116 determines that the station (Shinagawa station) is located from the current location indicated by the location information, searches for a route from the current location to the destination, and extracts the route name and ascending / descending (outer loop / inner loop). To do. Then, the user-related determination unit 116 determines whether the voice of the voice section is related to the user based on whether the extracted keyword includes the route name, the departure time, and the destination related to the user's behavior.
  • the station Shinagawa station
  • the user-related determination unit 116 determines whether the voice of the voice section is related to the user based on whether the extracted keyword includes the route name, the departure time, and the destination related to the user's behavior.
  • control unit 114 controls the operation of each unit of the processing main unit 103. Further, the control unit 114 controls the presentation of the voice in the voice section based on the determination result of the user-related determination unit 116. In this case, when it is determined that the voice of the voice section is related to the user, the control unit 114 reads the voice data of the voice section stored in the voice storage unit 111 and supplies the voice data to the speaker 102. As a result, the sound of the voice section is output from the speaker 102.
  • the voice synthesis unit 115 is for translating and presenting the voice of the voice section into the operation language when the voice of the voice section is different from the operation language preset in the voice agent 10.
  • the voice synthesis unit 115 creates text data of the operation language from the extracted keywords, converts it into voice data, and supplies it to the speaker 102.
  • the voice data of the voice section stored in the voice storage unit 111 is read out, and the voice data is supplied to the speaker 102.
  • a configuration in which text data is created from the extracted keywords, converted into voice data, and supplied to the speaker 102 is also conceivable. In that case, the voice storage unit 111 that stores the voice data of the voice section becomes unnecessary.
  • the voice data of the voice section stored in the voice storage unit 111 is read out, and the voice data is supplied to the speaker 102.
  • the flowchart of FIG. 8 shows an example of the processing procedure of the processing main unit 103.
  • the processing main unit 103 starts processing in step ST1.
  • step ST2 the processing main unit 103 detects a voice section from the environmental sound obtained by collecting the sound with the microphone 101.
  • the processing main unit 103 stores the voice data of the detected voice section in the voice storage unit 111 in step ST3.
  • step ST4 the processing main unit 103 performs voice recognition processing on the voice data in the voice section by the voice recognition processing unit 112, and converts the voice data into text data.
  • step ST5 the processing main unit 103 causes the keyword extraction unit 113 to perform natural language processing on the text data obtained by the voice recognition unit 113 by the keyword extraction unit 113, and extracts keywords related to actions. ..
  • the processing main unit 103 determines in step ST6 whether or not a keyword related to the action has been extracted. When the keyword is not extracted, the processing main unit 103 returns to step ST2 and detects the next voice section. On the other hand, when the keyword is extracted, the processing main unit 103 proceeds to the processing of step ST7.
  • the processing main unit 103 acquires location information and schedule information from the mobile device and the wearable device by the network interface 119. In this case, further, predetermined information including ticket purchase information and other user behavior information may be acquired.
  • step ST8 the processing main unit 103 estimates the surrounding environment, that is, where the current location is (for example, an airport or a station), based on the position information acquired in step ST7.
  • the surrounding environment may be estimated from the environmental sound.
  • step ST9 the processing main unit 103 guarantees the quality of the keywords related to the actions extracted by the keyword extraction unit 113 in the quality assurance unit 118.
  • quality assurance is performed based on the net information acquired by the network interface 119. This quality assurance includes (1) compensation for missing information and (2) correction of incorrect information (see FIGS. 4 and 5). If quality assurance is not performed, the process of step ST9 is not performed.
  • the processing main unit 103 determines the relevance with the user of the voice in the voice section by the user-related determination unit 116. Specifically, it is determined whether the voice in the voice section is related to the user based on the relationship between the keyword related to the behavior extracted by the keyword extraction unit 113 and the quality assurance unit 118 and the behavior of the user 20. (See FIGS. 6 and 7). In this case, the behavior of the user 20 is estimated based on predetermined information including the behavior information of the user 20 (location information, schedule information, ticket purchase information, user utterance information, etc.).
  • step ST11 when the determination in step ST10 is "not related", the processing main unit 103 returns to step ST2 and detects the next voice section.
  • the processing main unit 103 reads out the voice data of the voice section from the voice storage unit 111 by the control unit 114 in step ST12, and causes the speaker 102. Supply. As a result, the voice of the voice section is output from the speaker 102, and the missed hearing of the user 20 is reduced.
  • step ST12 After the processing of step ST12, the processing main unit 103 returns to step ST2 and detects the next voice section.
  • the processing main unit 103 of the voice agent 10 shown in FIG. 2 detects a voice section from the environmental sound, determines whether the voice in this voice section is related to the user, and presents the voice related to the user. It controls to do so. Therefore, in an environment where important information is transmitted, it is possible to reduce the risk of missed hearing by the user.
  • the processing main unit 103 shown in FIG. 2 is used after performing quality assurance processing on keywords extracted from the voice of the voice section. Therefore, it is possible to improve the accuracy of determining whether or not the voice in the voice section is related to the user.
  • the processing main unit 103 of the voice agent 10 shows an example in which the voice of the voice section related to the user is presented regardless of the user's mode. However, it is also conceivable that the presentation of this voice is performed on condition that the user is in a mode of overhearing.
  • Whether or not the user 20 is in the missed mode can be determined based on the acceleration information acquired from the voice agent device (earphone) and the utterance information of the user 20, for example, as shown in FIG. ..
  • the movement information of the head of the user 20 (acceleration information of 6 axes) when the announcement is missed is prepared as training data, and the "missing mode" is learned by supervised learning to make a discriminator. ..
  • the utterance information of the user 20 may be learned together to create a discriminator.
  • the learning device may be created only with the utterance information of the user 20.
  • whether or not the user 20 is in the missed mode may be determined by using other information instead of using the movement information of the head of the user 20 and the utterance information. For example, it is conceivable to discriminate from biological information such as the pulse and brain waves of the user 20.
  • FIG. 10 shows an example of the processing procedure of the processing main unit 103 in the case where the presentation of the voice is performed on the condition that the user misses the listening.
  • the parts corresponding to those in FIG. 8 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • step ST13 it is determined whether or not the user is in the missed mode.
  • step ST14 when the determination in step ST13 is “not in the missed mode”, the processing main unit 103 returns to step ST2 and detects the next voice section.
  • step ST14 when the determination in step ST13 is "in the missed-listening mode", the processing main unit 103 proceeds to the processing in step ST12, and the control unit 114 advances the audio data in the audio section from the audio storage unit 111. Is read out and supplied to the speaker 102, and then the process returns to step ST2.
  • FIG. 11 is a block diagram showing a hardware configuration example of the computer 400 that executes the processing of the processing main unit 103 of the voice agent 10 described above by a program.
  • the computer 400 includes a CPU 401, a ROM 402, a RAM 403, a bus 404, an input / output interface 405, an input unit 406, an output unit 407, a storage unit 408, a drive 409, a connection port 410, and a communication unit 411.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
  • the CPU 401 functions as, for example, an arithmetic processing device or a control device, and controls all or a part of the operation of each component based on various programs recorded in the ROM 402, the RAM 403, the storage unit 408, or the removable recording medium 501. ..
  • the ROM 402 is a means for storing a program read into the CPU 401, data used for calculation, and the like.
  • the RAM 403 temporarily or permanently stores, for example, a program read into the CPU 401, various parameters that change as appropriate when the program is executed, and the like.
  • the CPU 401, ROM 402, and RAM 403 are connected to each other via the bus 404.
  • the bus 404 is connected to various components via the interface 405.
  • a mouse for example, a mouse, keyboard, touch panel, buttons, switches, levers, and the like are used.
  • a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL
  • an audio output device such as a speaker or a headphone, a printer, a mobile phone, a facsimile, or the like, etc. It is a device that can notify the user visually or audibly.
  • the storage unit 408 is a device for storing various types of data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like is used.
  • the drive 409 is a device that reads information recorded on a removable recording medium 501 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 501.
  • a removable recording medium 501 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 501 is, for example, a DVD media, a Blu-ray (registered trademark) media, an HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 501 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • the connection port 410 is a port for connecting an external connection device 502 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal.
  • an external connection device 502 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal.
  • the externally connected device 502 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication unit 411 is a communication device for connecting to the network 503, for example, a communication card for wired or wireless LAN, Bluetooth (registered trademark), or WUSB (Wireless USB), a router for optical communication, and ADSL (Asymmetric). A router for Digital Subscriber Line) or a modem for various communications.
  • the program executed by the computer may be a program that is processed in chronological order in the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the present technology can also have the following configurations.
  • a voice section detection unit that detects a voice section from environmental sounds
  • a user-related determination unit that determines whether the voice in the above voice section is related to the user
  • An information processing device including a presentation control unit that controls presentation of voice in the voice section related to the user.
  • the user-related determination unit extracts a keyword related to an action from the voice of the voice section, and based on the relationship between the extracted keyword and the action of the user, the voice of the voice section is the user.
  • the information processing apparatus according to (1) above.
  • the information processing device according to any one of (6) to (8) above, wherein the predetermined information includes ticket purchase information of the user.
  • the information processing device according to any one of (6) to (9) above, wherein the predetermined information includes speech information of the user.
  • the presentation control unit controls presentation of a voice related to the user when the user is in a missed mode.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

重要な情報が伝えられる環境においてユーザの聞き逃しリスクを低減する。 音声区間検出部により、環境音から音声区間を検出する。ユーザ関連判定部により、音声区間の音声がユーザと関連するか判定する。例えば、ユーザ関連判定部は、音声区間の音声から行動に関係するキーワードを抽出し、この抽出されたキーワードのユーザの行動との関連性に基づいて、音声区間の音声がユーザと関連するか判断する。提示制御部により、ユーザと関連する音声の提示を制御する。例えば、提示制御部は、ユーザが聞き逃しの態様にあるとき、ユーザと関連する音声の提示を制御する。

Description

情報処理装置および情報処理方法
 本技術は、情報処理装置および情報処理方法に関し、詳しくは、ユーザの聞き逃しリスクを低減する情報処理装置および情報処理方法に関する。
 例えば、特許文献1には、タブレット端末の所有者が近づいてきたとき、他ユーザからの伝言が登録されている場合にはその伝言を提示する技術が提案されている。
特開2014-186610号公報
 特許文献1に記載される技術では、例えば空港や駅など、重要な情報が伝えられる環境において聞き逃しリスクを低減するものではない。
 本技術の目的は、重要な情報が音声で伝えられる環境においてユーザの聞き逃しリスクを低減することにある。
 本技術の概念は、
 環境音から音声区間を検出する音声区間検出部と、
 上記音声区間の音声がユーザと関連するか判定するユーザ関連判定部と、
上記ユーザと関連する音声の提示を制御する提示制御部を備える
 情報処理装置にある。
 本技術において、音声区間検出部により、環境音から音声区間が検出される。ユーザ関連判定部により、音声区間の音声がユーザと関連するか判定される。そして、提示制御部により、ユーザと関連する音声の提示が制御される。例えば、提示制御部は、ユーザが聞き逃しの態様を示すとき、ユーザと関連する音声の提示を制御する、ようにされてもよい。
 例えば、ユーザ関連判定部は、音声区間の音声から行動に関係するキーワードを抽出し、この抽出されたキーワードのユーザの行動との関連性に基づいて、音声区間の音声がユーザと関連するか判断する、ようにされてもよい。これにより、音声区間の音声がユーザと関連するか否かの判断を良好に行うことが可能となる。
 この場合、例えば、ユーザ関連判定部は、抽出されたキーワードを、品質保証の処理を行った後に用いる、ようにされてもよい。例えば、品質保証は、欠損情報の補償あるいは誤った情報の訂正を含む、ようにされてもよい。また、例えば、ユーザ関連判定部は、抽出されたキーワードの品質保証の処理をネット情報に基づいて行う、ようにされてもよい。このように抽出されたキーワードを品質保証の処理を行った後に用いることで、音声区間の音声がユーザと関連するか否かの判定の精度を高めることが可能となる。
 また、例えば、ユーザ関連判定部は、ユーザの行動情報を含む所定の情報に基づいてユーザの行動を推定する、ようにされてもよい。これにより、ユーザの行動を良好に推定することが可能となる。この場合、例えば、所定の情報は、ユーザの位置情報、ユーザのスケジュール情報、ユーザのチケット購入情報あるいはユーザの発話情報を含む、ようにされてもよい。
 このように本技術は、環境音から音声区間を検出し、この音声区間の音声がユーザと関連するか判定し、ユーザと関連する音声を提示するように制御するものである。そのため、重要な情報が伝えられる環境において、ユーザの聞き逃しリスクを低減することが可能となる。
実施の形態としての音声エージェントがユーザに装着された状態を示す図である。 音声エージェントの具体的な構成例を示すブロック図である。 キーワード抽出の一例を示す図である。 品質保証としての欠損情報の補償の一例を示す図である。 品質保証としての誤った情報の訂正の一例を示す図である。 現在地が空港である場合におけるユーザ関連判定部の判定概要の一例を示す図である。 現在地が駅である場合におけるユーザ関連判定部の判定概要の一例を示す図である。 処理本体部の処理手順の一例を示すフローチャートである。 ユーザが聞き逃しの態様にあるか否かの判別方法について説明するための図である。 音声の提示をユーザが聞き逃しの態様にあることを条件として行う場合における処理本体部の処理手順の一例を示すフローチャートである。 音声エージェントの処理本体部の処理をプログラムにより実行するコンピュータのハードウエア構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [音声エージェント]
 図1は、実施の形態としての音声エージェント10がユーザ20に装着された状態を示している。音声エージェント10は、イヤホンの形態でユーザ20に装着されている。音声エージェント10は、環境音から音声区間を検出し、この音声区間の音声がユーザ20と関連するか判定し、ユーザ20と関連する音声をユーザ20に提示することで、ユーザ20の聞き逃しリスクを低減する。
 図示の例は、ユーザ20が空港にいる場合を想定しており、“××時発○○行の便は、搭乗口△△番に変更になります。”とのアナウンスがされている。例えば、このアナウンス音声がユーザ20と関連する場合には、このアナウンス音声が再生されて、ユーザ20に提示されることになる。なお、図示の例では、音声エージェント10はイヤホンの形態でユーザ20に装着されているが、音声エージェント10のユーザ20への装着形態はこれに限定されない。
 図2は、音声エージェント10の具体的な構成例を示している。この音声エージェント10は、入力インタフェースとしてのマイクロホン101と、出力インタフェースとしてのスピーカ102と、処理本体部103を有している。なお、処理本体部103の部分は、クラウド・サーバで構成することも考えられる。
 処理本体部103は、音声区間検出部110と、音声記憶部111と、音声認識部112と、キーワード抽出部113と、制御部114と、音声合成部115と、ユーザ関連判定部116と、周辺環境推定部117と、品質保証部118と、ネットワークインタフェース(ネットワークIF)119を有している。
 音声区間検出部110は、マイクロホン101で集音されて得られた環境音の音声データから音声区間を検出する。この場合、環境音の音声データがバファリングされ、それに対して音声検出処理が施されることで、音声区間が検出される。音声記憶部111は、例えば半導体メモリで構成され、音声区間検出部110で検出された音声区間の音声データを記憶する。
 音声認識部112は、音声区間検出部110で検出された音声区間の音声データに対して音声認識処理を施して、音声データをテキストデータに変換する。キーワード抽出部113は、音声認識部112で得られたテキストデータに対して自然言語処理を施して、行動に関するキーワードを抽出する。ここで、行動に関するキーワードとは、ユーザの振る舞いに影響を与えるようなキーワードである。
 例えば、キーワード抽出部113は、空港や駅のアナウンスのテキストデータと抽出すべきキーワードのセットを訓練データとして大量に集め、DNNで学習させることで作られたキーワード抽出器で構成されてもよい。また、例えば、キーワード抽出部113は、文法のルールからキーワードを抽出するルールベースのキーワード抽出器で構成されてもよい。
 図3は、キーワード抽出の一例を示している。図示の例は、“××時発○○行の便は、搭乗口△△番に変更になります。”とのアナウンス音声からのキーワード抽出例を示している。この場合、行動に関するキーワードとして、「××時発」、「○○行」、「搭乗口△△番」、「変更」が抽出されている。
 図2に戻って、ネットワークインタフェース119は、ユーザ20が持っているモバイル機器、あるはユーザ20に装着されているウェラブル機器に接続するため、さらには、インターネットを介して種々の情報提供サイトに接続するためのネットワークインタフェースである。
 ネットワークインタフェース119は、モバイル機器やウェラブル機器から、ユーザ20の位置情報やスケジュール情報(カレンダ情報)を取得する。また、ネットワークインタフェース119は、インターネットを介して種々の情報(ネット情報)を取得する。このネット情報には、飛行機や鉄道の運行情報を提供しているサイトから取得される飛行機や鉄道の運行情報も含まれる。
 周辺環境推定部117は、ネットワークインタフェース119で取得されたユーザ20の位置情報に基づいて、ユーザ20が存在する周辺環境を推定する。周辺環境としては、空港、駅などが該当する。なお、周辺環境推定部117は、ユーザ20の位置情報の代わりに、マイクロホン101で集音されて得られた環境音に基づいて、周辺環境を推定することも考えらえる。この場合、駅の環境音、空港の環境音を「駅」「空港」というラベル付きで学習器に与え、教師あり学習をさせることで、環境音から「環境」を推定する判別器を作って用いることができる。
 品質保証部118は、キーワード抽出部113で抽出された行動に関するキーワードの品質保証をする。この品質保証には、(1)欠損情報の補償、(2)誤った情報の訂正、が含まれる。品質保証部118は、ネットワークインタフェース119で取得されるネット情報に基づいて、品質保証をする。このように品質保証を行うことで、後述する音声区間の音声がユーザと関連するか否かの判定の精度を高めることが可能となる。なお、品質保証部118は必ずしも必要なものではなく、設けない構成も考えられる。
 図4は、「(1)欠損情報の補償」の一例を示している。図示の例の場合、キーワード抽出部113では「○○行」の情報(目的地のキーワード)が取得できずに欠損していることを想定している。この場合、ネットワークインタフェース119で飛行機の運航情報サイトから該当飛行機の目的地情報が取得され、その目的地情報に基づいて欠損していた目的地のキーワードが補償される。
 図5は、「(2)誤った情報の訂正」の一例を示している。図示の例の場合、「AMA××便は、△△番搭乗口だって。」は、ユーザ20の近くにいる人の発言であり、「△△番搭乗口」が誤っている場合を想定している。この場合、ネットワークインタフェース119で飛行機の運航情報サイトから該当飛行機の搭乗口情報が取得され、その搭乗口情報に基づいて、「△△番搭乗口」の誤りが分かり、搭乗口のキーワードが正しく訂正される。
 図2に戻って、音声区間の音声がユーザと関連するか判定する。ユーザ関連判定部116は、キーワード抽出部113で抽出され、品質保証部118で品質保証された行動に関するキーワードとユーザ20の行動との関連性に基づいて、音声区間の音声がユーザと関連するか判定する。
 ここで、ユーザ関連判定部116は、ユーザ20の行動情報を含む所定の情報に基づいて、ユーザ20の行動を推定する。所定の情報には、ネットワークインタフェース119でモバイル機器やウェラブル機器から取得されるユーザの位置情報やユーザのスケジュール情報、ネットワークインタフェース119でモバイル機器やウェラブル機器から取得されるチケット購入情報、あるいはユーザ20の発話情報等が含まれる。
 例えば、位置情報から、現在地がどこか、例えば空港か駅か等を判別することができる。これは、周辺環境推定部117で得られる周辺環境情報とも対応する。また、位置情報から、例えば、現在地が駅の場合、目的地までの経路を探索し、路線名と上り/下り(外回り/内回り)を抽出できる。
 また、スケジュール情報の日付と時刻から目的地を抽出でき、現在地が空港の場合、便名も抽出できる。また、チケット購入情報(例えばチケット購入のメール)から、日付、出発時刻、出発地、到着時刻、目的地、チケットが航空券の場合には便名など、ユーザの行動に関する情報を抽出できる。また、ユーザの発話情報から、出発時刻、目的地などを抽出できる。
 図6は、現在地が空港である場合におけるユーザ関連判定部116の判定概要の一例を示している。図示の例においては、ユーザ20の行動情報を含む所定の情報として、位置情報、スケジュール情報およびチケット購入情報(メール)が使用されている。また、図示の例においては、「××時発」、「○○行」、「搭乗口△△番」、「変更」のキーワードが抽出されている。
 この場合、ユーザ関連判定部116は、位置情報が示す現在地から空港であると判別する。また、ユーザ関連判定部116は、スケジュール情報の日付と時刻から目的地を抽出し、さらに便名も抽出する。また、ユーザ関連判定部116は、チケット購入情報から、日付、出発時刻、出発地、到着時刻、目的地、便名を抽出する。そして、ユーザ関連判定部116は、抽出したキーワードに、ユーザの行動に関連する便名、出発時刻、目的地が含まれるかどうかから、音声区間の音声がユーザと関連するか判定する。
 図7は、現在地が駅(品川駅)である場合におけるユーザ関連判定部116の判定概要の一例を示している。図示の例においては、ユーザ20の行動情報を含む所定の情報として、位置情報およびスケジュール情報が使用されている。また、図示の例においては、「□番線」、「××時発」、「△△線」、「○○行」のキーワードが抽出されている。
 この場合、ユーザ関連判定部116は、スケジュール情報の日付と時刻から目的地を抽出する。また、ユーザ関連判定部116は、位置情報が示す現在地から駅(品川駅)であると判別し、現在地から目的地までの経路を探索し、路線名と上り/下り(外回り/内回り)を抽出する。そして、ユーザ関連判定部116は、抽出したキーワードに、ユーザの行動に関連する路線名、出発時刻、目的地が含まれるかどうかから、音声区間の音声がユーザと関連するか判定する。
 図2に戻って、制御部114は、処理本体部103の各部の動作を制御する。また、この制御部114は、ユーザ関連判定部116の判定結果に基づいて、音声区間の音声の提示を制御する。この場合、音声区間の音声がユーザと関連すると判定された場合、制御部114は、音声記憶部111に記憶されている音声区間の音声データを読み出し、スピーカ102に供給する。これにより、スピーカ102からは、音声区間の音声が出力される。
 音声合成部115は、音声区間の音声が、ユーザが音声エージェント10に予め設定した操作言語と異なる場合に、その音声区間の音声を、操作言語に翻訳して提示するためのものです。この場合、音声合成部115は、抽出されたキーワードから当該操作言語のテキストデータを作成し、それを音声データに変換して、スピーカ102に供給する。
 なお、上述では、音声区間の音声を提示する際に、音声記憶部111に記憶されている音声区間の音声データを読み出し、その音声データをスピーカ102に供給するように説明した。しかし、抽出されたキーワードからテキストデータを作成し、それを音声データに変換して、スピーカ102に供給する構成も考えられる。その場合には、音声区間の音声データを記憶しておく音声記憶部111は不要となる。
 また、上述では、音声区間の音声を提示する際に、音声記憶部111に記憶されている音声区間の音声データを読み出し、その音声データをスピーカ102に供給するように説明した。しかし、抽出されたキーワードからテキストデータを作成し、そのテキストデータをディスプレイに供給して画面表示することも考えられる。つまり、音声区間の音声の提示を、画面表示で行うものである。
 図8のフローチャートは、処理本体部103の処理手順の一例を示している。処理本体部103は、ステップST1において、処理を開始する。次に、処理本体部103は、ステップST2において、マイクロホン101で集音されて得られた環境音から音声区間を検出する。次に、処理本体部103は、ステップST3において、検出された音声区間の音声データを音声記憶部111に記憶する。
 次に、処理本体部103は、ステップST4において、音声区間の音声データに対して音声認識処理部112で音声認識処理を施し、音声データをテキストデータに変換する。次に、処理本体部103は、ステップST5において、キーワード抽出部113に、音声認識部113で得られたテキストデータに対してキーワード抽出部113で自然言語処理を施させ、行動に関するキーワードを抽出する。
 次に、処理本体部103は、ステップST6において、行動に関するキーワードが抽出されたか否かを判定する。キーワードが抽出されなかったとき、処理本体部103は、ステップST2に戻り、次の音声区間の検出をする。一方、キーワードが抽出されたとき、処理本体部103は、ステップST7の処理に進む。
 このステップST7において、処理本体部103は、ネットワークインタフェース119で、モバイル機器やウェラブル機器から、位置情報やスケジュール情報を取得する。なお、この場合、さらに、チケット購入情報やその他のユーザの行動情報を含む所定の情報を取得するようにしてもよい。
 次に、処理本体部103は、ステップST8において、ステップST7で取得された位置情報に基づいて、周辺環境、つまり現在地がどこか(例えば空港か駅かなど)を推定する。なお、この場合、環境音から周辺環境を推定するようにしてもよい。
 次に、処理本体部103は、ステップST9において、品質保証部118において、キーワード抽出部113で抽出された行動に関するキーワードの品質保証をする。この場合、ネットワークインタフェース119で取得されるネット情報に基づいて、品質保証をする。この品質保証には、(1)欠損情報の補償、(2)誤った情報の訂正、が含まれる(図4、図5参照)。なお、品質保証を行わない場合には、このステップST9の処理は行わない。
 次に、処理本体部103は、ステップST10において、ユーザ関連判定部116で、音声区間の音声のユーザと関連性を判定する。具体的には、キーワード抽出部113で抽出され、品質保証部118で品質保証された行動に関するキーワードとユーザ20の行動との関連性に基づいて、音声区間の音声がユーザと関連するか判定する(図6、図7参照)。この場合、ユーザ20の行動は、ユーザ20の行動情報を含む所定の情報(位置情報、スケジュール情報、チケット購入情報、ユーザ発話情報など)に基づいて推定される。
 次に、処理本体部103は、ステップST11において、ステップST10の判定が「関連しない」であるとき、ステップST2に戻り、次の音声区間の検出をする。一方、処理本体部103は、ステップST11において、ステップST10の判定が「関連する」であるとき、ステップST12において、制御部114で、音声記憶部111から音声区間の音声データを読み出し、スピーカ102に供給する。これにより、スピーカ102からは、音声区間の音声が出力され、ユーザ20の聞き逃しが低減される。
 処理本体部103は、ステップST12の処理の後、ステップST2に戻り、次の音声区間の検出をする。
 以上説明したように、図2に示す音声エージェント10の処理本体部103は、環境音から音声区間を検出し、この音声区間の音声がユーザと関連するか判定し、ユーザと関連する音声を提示するように制御するものである。そのため、重要な情報が伝えられる環境において、ユーザの聞き逃しリスクを低減することができる。
 また、図2に示す処理本体部103は、音声区間の音声から抽出されたキーワードを品質保証の処理を行った後に用いるものである。そのため、音声区間の音声がユーザと関連するか否かの判定の精度を高めることができる。
 <2.変形例>
 なお、上述実施の形態においては、音声エージェント10の処理本体部103は、ユーザに関連する音声区間の音声の提示をユーザの態様によらずに行う例を示した。しかし、この音声の提示をユーザが聞き逃しの態様にあることを条件として行うことも考えられる。
 ユーザ20が聞き逃しの態様にあるか否かは、例えば、図9に示すように、音声エージェントデバイス(イヤホン)から取得した加速度情報やユーザ20の発話情報に基づいて判別することが可能である。この場合、アナウンスを聞き逃した際のユーザ20の頭部の動き情報(6軸の加速度情報)を訓練データとして用意し、教師あり学習で「聞き逃しの態様」を学習して判別器を作る。この際、ユーザ20の発話情報も一緒に学習して判別器を作ってもよい。あるいは、ユーザ20の発話情報のみで学習器を作ってもよい。音声エージェントデバイスから取得した加速度情報や環境音情報をこの判別器に与えることで、ユーザが聞き逃しの態様にあるか否かを判別する。
 なお、ユーザ20が聞き逃しの態様にあるか否かは、ユーザ20の頭部の動き情報や発話情報を用いて判別する代わりに、その他の情報を用いて判別してもよい。例えば、ユーザ20の脈拍や脳波などの生体情報から判別することも考えられる。
 図10のフローチャートは、音声の提示をユーザが聞き逃しの態様にあることを条件として行う場合における、処理本体部103の処理手順の一例を示している。この図10において、図8と対応する部分には同一符号を付し、その詳細説明は省略する。
 処理本体部103は、ステップST11で「関連する」であるとき、ステップST13において、ユーザが聞き逃し態様にあるか否かを判定する。次に、処理本体部103は、ステップST14において、ステップST13における判定が「聞き逃し態様にない」であるとき、ステップST2に戻り、次の音声区間の検出をする。一方、処理本体部103は、ステップST14において、ステップST13における判定が「聞き逃し態様にある」であるとき、ステップST12の処理に進み、制御部114で、音声記憶部111から音声区間の音声データを読み出し、スピーカ102に供給し、その後に、ステップST2に戻る。
 また、図11は、上述した音声エージェント10の処理本体部103の処理をプログラムにより実行するコンピュータ400のハードウエア構成例を示すブロック図である。
 コンピュータ400は、CPU401と、ROM402と、RAM403と、バス404と、入出力インタフェース405と、入力部406と、出力部407と、記憶部408と、ドライブ409と、接続ポート410と、通信部411を有している。なお、ここで示すハードウエア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 CPU401は、例えば、演算処理装置または制御装置として機能し、ROM402、RAM403、記憶部408、またはリムーバブル記録媒体501に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 ROM402は、CPU401に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM403には、例えば、CPU401に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的または永続的に格納される。
 CPU401、ROM402、RAM403は、バス404を介して相互に接続される。一方、バス404には、インタフェース405を介して種々の構成要素と接続される。
 入力部406には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部406としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
 出力部407には、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。
 記憶部408は、各種のデータを格納するための装置である。記憶部408としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等が用いられる。
 ドライブ409は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体501に記録された情報を読み出し、またはリムーバブル記録媒体501に情報を書き込む装置である。
リムーバブル記録媒体501は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体501は、例えば、非接触型ICチップを搭載したICカード、または電子機器等であってもよい。
 接続ポート410は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、または光オーディオ端子等のような外部接続機器502を接続するためのポートである。外部接続機器502は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、またはICレコーダ等である。
 通信部411は、ネットワーク503に接続するための通信デバイスであり、例えば、有線または無線LAN、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または各種通信用のモデム等である。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本技術は、以下のような構成を取ることもできる。
 (1)環境音から音声区間を検出する音声区間検出部と、
 上記音声区間の音声がユーザと関連するか判定するユーザ関連判定部と、
 上記ユーザと関連する上記音声区間の音声の提示を制御する提示制御部を備える
 情報処理装置。
 (2)上記ユーザ関連判定部は、上記音声区間の音声から行動に関係するキーワードを抽出し、該抽出されたキーワードの上記ユーザの行動との関連性に基づいて、上記音声区間の音声がユーザと関連するか判断する
 前記(1)に記載の情報処理装置。
 (3)上記ユーザ関連判定部は、上記抽出されたキーワードを、品質保証の処理を行った後に用いる
 前記(2)に記載の情報処理装置。
 (4)上記品質保証は、欠損情報の補償あるいは誤った情報の訂正を含む
 前記(3)に記載の情報処理装置。
 (5)上記ユーザ関連判定部は、上記抽出されたキーワードの品質保証の処理をネット情報に基づいて行う
 前記(3)または(4)に記載の情報処理装置。
 (6)上記ユーザ関連判定部は、上記ユーザの行動情報を含む所定の情報に基づいて上記ユーザの行動を推定する
 前記(2)から(5)のいずれかに記載の情報処理装置。
 (7)上記所定の情報は、上記ユーザの位置情報を含む
 前記(6)に記載の情報処理装置。
 (8)上記所定の情報は、上記ユーザのスケジュール情報を含む
 前記(6)または(7)に記載の情報処理装置。
 (9)上記所定情報は、上記ユーザのチケット購入情報を含む
 前記(6)から(8)のいずれかに記載の情報処理装置。
 (10)上記所定情報は、上記ユーザの発話情報を含む
 前記(6)から(9)のいずれかに記載の情報処理装置。
 (11)上記提示制御部は、上記ユーザが聞き逃しの態様にあるとき、上記ユーザと関連する音声の提示を制御する
 前記(1)から(10)のいずれかに記載の情報処理装置。
 (12)環境音から音声区間を検出する手順と、
 上記音声区間の音声がユーザと関連するか判定する手順と、
 上記ユーザと関連する上記音声区間の音声の提示を制御する手順を有する
 情報処理方法。
 10・・・音声エージェント
 20・・・ユーザ
 101・・・マイクロホン
 102・・・スピーカ
 103・・・処理本体部
 110・・・音声区間検出部
 111・・・音声記憶部
 112・・・音声認識部
 113・・・キーワード抽出部
 114・・・制御部
 115・・・音声合成部
 116・・・ユーザ関連判定部
 117・・・周辺環境推定部
 118・・・品質保証部
 119・・・ネットワークインタフェース

Claims (12)

  1.  環境音から音声区間を検出する音声区間検出部と、
     上記音声区間の音声がユーザと関連するか判定するユーザ関連判定部と、
     上記ユーザと関連する上記音声区間の音声の提示を制御する提示制御部を備える
     情報処理装置。
  2.  上記ユーザ関連判定部は、上記音声区間の音声から行動に関係するキーワードを抽出し、該抽出されたキーワードの上記ユーザの行動との関連性に基づいて、上記音声区間の音声がユーザと関連するか判断する
     請求項1に記載の情報処理装置。
  3.  上記ユーザ関連判定部は、上記抽出されたキーワードを、品質保証の処理を行った後に用いる
     請求項2に記載の情報処理装置。
  4.  上記品質保証は、欠損情報の補償あるいは誤った情報の訂正を含む
     請求項3に記載の情報処理装置。
  5.  上記ユーザ関連判定部は、上記抽出されたキーワードの品質保証の処理をネット情報に基づいて行う
     請求項3に記載の情報処理装置。
  6.  上記ユーザ関連判定部は、上記ユーザの行動情報を含む所定の情報に基づいて上記ユーザの行動を推定する
     請求項2に記載の情報処理装置。
  7.  上記所定の情報は、上記ユーザの位置情報を含む
     請求項6に記載の情報処理装置。
  8.  上記所定の情報は、上記ユーザのスケジュール情報を含む
     請求項6に記載の情報処理装置。
  9.  上記所定情報は、上記ユーザのチケット購入情報を含む
     請求項6に記載の情報処理装置。
  10.  上記所定情報は、上記ユーザの発話情報を含む
     請求項6に記載の情報処理装置。
  11.  上記提示制御部は、上記ユーザが聞き逃しの態様にあるとき、上記ユーザと関連する音声の提示を制御する
     請求項1に記載の情報処理装置。
  12.  環境音から音声区間を検出する手順と、
     上記音声区間の音声がユーザと関連するか判定する手順と、
     上記ユーザと関連する上記音声区間の音声の提示を制御する手順を有する
     情報処理方法。
PCT/JP2020/014683 2019-05-08 2020-03-30 情報処理装置および情報処理方法 WO2020226001A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/606,806 US20220208189A1 (en) 2019-05-08 2020-03-30 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-088059 2019-05-08
JP2019088059 2019-05-08

Publications (1)

Publication Number Publication Date
WO2020226001A1 true WO2020226001A1 (ja) 2020-11-12

Family

ID=73050717

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/014683 WO2020226001A1 (ja) 2019-05-08 2020-03-30 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US20220208189A1 (ja)
WO (1) WO2020226001A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006093792A (ja) * 2004-09-21 2006-04-06 Yamaha Corp 特定音声再生装置、及び特定音声再生ヘッドホン
WO2006080149A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音復元装置および音復元方法
US20170345270A1 (en) * 2016-05-27 2017-11-30 Jagadish Vasudeva Singh Environment-triggered user alerting

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483098B2 (en) * 2005-11-29 2013-07-09 Cisco Technology, Inc. Method and apparatus for conference spanning
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
US9129291B2 (en) * 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US20110276326A1 (en) * 2010-05-06 2011-11-10 Motorola, Inc. Method and system for operational improvements in dispatch console systems in a multi-source environment
EP3522570A3 (en) * 2012-03-14 2019-08-14 Nokia Technologies Oy Spatial audio signal filtering
US9191744B2 (en) * 2012-08-09 2015-11-17 Logitech Europe, S.A. Intelligent ambient sound monitoring system
US9785706B2 (en) * 2013-08-28 2017-10-10 Texas Instruments Incorporated Acoustic sound signature detection based on sparse features
DE102017209585A1 (de) * 2016-06-08 2017-12-14 Ford Global Technologies, Llc System und verfahren zur selektiven verstärkung eines akustischen signals
US10665223B2 (en) * 2017-09-29 2020-05-26 Udifi, Inc. Acoustic and other waveform event detection and correction systems and methods
US10339913B2 (en) * 2017-12-27 2019-07-02 Intel Corporation Context-based cancellation and amplification of acoustical signals in acoustical environments
CN112166350B (zh) * 2018-06-05 2023-12-05 谷歌有限责任公司 智能设备中的超声感测的系统和方法
US20200296510A1 (en) * 2019-03-14 2020-09-17 Microsoft Technology Licensing, Llc Intelligent information capturing in sound devices
US11474774B2 (en) * 2020-11-24 2022-10-18 Arm Limited Environmental control of audio passthrough amplification for wearable electronic audio device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006093792A (ja) * 2004-09-21 2006-04-06 Yamaha Corp 特定音声再生装置、及び特定音声再生ヘッドホン
WO2006080149A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音復元装置および音復元方法
US20170345270A1 (en) * 2016-05-27 2017-11-30 Jagadish Vasudeva Singh Environment-triggered user alerting

Also Published As

Publication number Publication date
US20220208189A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
US11930322B2 (en) Conditioning audio signals including overlapping voices
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
JP6751433B2 (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
US11979716B2 (en) Selectively conditioning audio signals based on an audioprint of an object
EP3127116B1 (en) Attention-based dynamic audio level adjustment
US10643620B2 (en) Speech recognition method and apparatus using device information
US10978061B2 (en) Voice command processing without a wake word
WO2020166896A1 (en) Electronic apparatus and controlling method thereof
US20200321002A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
WO2019031268A1 (ja) 情報処理装置、及び情報処理方法
WO2020091503A1 (en) Electronic apparatus and control method thereof
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
CN104240718A (zh) 转录支持设备和方法
US11183170B2 (en) Interaction control apparatus and method
US20210225363A1 (en) Information processing device and information processing method
US11250873B2 (en) Information processing device and information processing method
WO2018135303A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2015104883A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2020226001A1 (ja) 情報処理装置および情報処理方法
WO2018043137A1 (ja) 情報処理装置及び情報処理方法
US11688268B2 (en) Information processing apparatus and information processing method
WO2019202804A1 (ja) 音声処理装置および音声処理方法
JP7107228B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
US11430429B2 (en) Information processing apparatus and information processing method
JP2023027697A (ja) 端末装置、送信方法、送信プログラム及び情報処理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20802544

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20802544

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP