WO2018061839A1 - 送信装置、送信方法及び送信プログラム - Google Patents

送信装置、送信方法及び送信プログラム Download PDF

Info

Publication number
WO2018061839A1
WO2018061839A1 PCT/JP2017/033563 JP2017033563W WO2018061839A1 WO 2018061839 A1 WO2018061839 A1 WO 2018061839A1 JP 2017033563 W JP2017033563 W JP 2017033563W WO 2018061839 A1 WO2018061839 A1 WO 2018061839A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
keyword
unit
emotion
speech
Prior art date
Application number
PCT/JP2017/033563
Other languages
English (en)
French (fr)
Inventor
敬彦 山縣
晋平 笹野
昌治 板谷
健太郎 今川
善成 石橋
Original Assignee
株式会社村田製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社村田製作所 filed Critical 株式会社村田製作所
Priority to JP2018542405A priority Critical patent/JP6781961B2/ja
Publication of WO2018061839A1 publication Critical patent/WO2018061839A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to a transmission device, a transmission method, and a transmission program.
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-256183
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-256183
  • the above-described conventional information presentation device estimates the strength of the desire that the user currently has and the situation in which the user is currently located, and queries the database that describes the combination of these to present the user. Presents items that can satisfy both the user's desire and the situation in which the user is placed.
  • the above-described conventional information presentation device cannot estimate the information according to the user's needs because it only estimates the strength of the user's desire and the situation where the user is placed.
  • the present invention has been made in view of such circumstances, and an object thereof is to provide information according to user needs.
  • a transmission program includes a sound collection unit that collects sound and generates sound data indicating the sound, and a sound that extracts a sound keyword that is a keyword included in the sound from the sound data.
  • an emotion keyword selection unit that selects an emotion keyword corresponding to the extracted voice feature and a transmission unit that transmits the extracted voice keyword and the selected emotion keyword are realized.
  • a transmission apparatus includes a voice collection unit that collects voice and generates voice data indicating the voice, and voice keyword extraction that extracts a voice keyword that is a keyword included in the voice from the voice data.
  • a voice feature extraction unit that extracts voice features including at least one of voice strength, speed, and intonation from voice data, and a pre-stored emotion keyword group based on the voice features,
  • An emotion keyword selection unit that selects an emotion keyword corresponding to the extracted voice feature, and a transmission unit that transmits the extracted voice keyword and the selected emotion keyword.
  • a transmission method includes collecting sound to generate sound data indicating the sound, extracting a sound keyword that is a keyword included in sound from the sound data, and sound. Extracting voice features including at least one of voice strength, speed, and intonation from data, and extracting voice features from pre-stored emotion keyword groups based on the voice features Selecting a corresponding emotion keyword and transmitting the extracted speech keyword and the selected emotion keyword.
  • FIG. 4 is a flowchart illustrating an example of processing in the search system 100. It is a flowchart which shows a dictionary database update process.
  • FIG. 1 is a diagram illustrating a configuration of a search system 100 including a transmission device 110 according to an embodiment of the present invention.
  • the search system 100 includes a transmission device 110, a search device 120, and an output device 130.
  • the search system 100 according to the present embodiment performs a predetermined search based on a keyword extracted from the voice collected by the transmission device 110 and a keyword corresponding to the emotion or atmosphere extracted from the voice, and the search result Is a system that outputs.
  • the transmission device 110 is a computer that transmits a predetermined keyword to the search device 120 based on the voice collected at the place where the transmission device 110 is placed.
  • the transmission device 110 may be a computer installed in a facility or a store, or may be a computer (smart phone, tablet terminal, or the like) owned by a user who has visited the facility or store.
  • the transmission device includes a processor, a memory, and a communication interface.
  • the transmission device 110 can communicate with the search device 120 via, for example, a mobile phone communication network or the Internet.
  • the search device 120 is a computer (server) that provides information to the user of the output device 130 based on the keyword received from the transmission device 110.
  • the search device 120 includes a processor, a memory, a database, and a communication interface.
  • the search device 120 can communicate with the transmission device 110 and the output device 130 via the Internet, for example.
  • the output device 130 is a computer that outputs search results based on data (display data) provided from the search device 120.
  • the output device 130 outputs numerical values, characters, video (image), audio, and the like as search results to a display, a speaker, or the like.
  • the output device 130 is, for example, a smartphone, a tablet terminal, a personal computer, or the like.
  • the output device 130 includes a processor, a memory, and a communication interface.
  • the output device 130 can communicate with the search device 120 via, for example, a mobile phone communication network or the Internet.
  • the output device 130 may output a predetermined operation based on the search result.
  • the output device 130 may perform predetermined communication or control a motor, an actuator, a sensor, or the like based on a search result.
  • FIG. 2 is a diagram illustrating an example of functional blocks provided in the transmission device 110.
  • the transmission device 110 includes a voice collection unit 200, a voice keyword extraction unit 210, a dictionary database 220, a voice feature extraction unit 230, an emotion keyword selection unit 240, an emotion database 250, a transmission unit 260, and a dictionary database update. And an instruction creating unit 270.
  • a transmission program is stored in the memory of the transmission device 110, and each function of the transmission device 110 (voice collection unit 200, voice keyword extraction unit 210, A dictionary database 220, a voice feature extraction unit 230, an emotion keyword selection unit 240, an emotion database 250, a transmission unit 260, and a dictionary database update instruction creation unit 270) are realized.
  • the transmission program is read from a computer-readable recording medium into the memory of the transmission device 110 and executed by the processor of the transmission device 110.
  • the sound collection unit 200 collects sound emitted around the transmission device 110 and generates sound data indicating the sound. Specifically, the sound collection unit 200 converts sound collected by a microphone or the like into an electric signal, and generates sound data obtained by converting information indicated by the electric signal into digital data.
  • the voice collection unit 200 may include a storage unit that temporarily stores the generated voice data.
  • the storage unit is, for example, an existing storage that can be stored magnetically, electrically, or optically, such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, an optical disk, or a RAM (Random Access Memory).
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • RAM Random Access Memory
  • the sound collection unit 200 may be a built-in microphone of the transmission device 110 or an external microphone (an external wired microphone or a wireless microphone).
  • an external microphone an external wired microphone or a wireless microphone
  • a tablet terminal to which an external microphone is connected functions as the transmission device 110.
  • the transmission device 110 may include a plurality of sound collection units 200.
  • the transmission device 110 may detect the relative positions of the plurality of sound collection units 200.
  • the voice keyword extraction unit 210 extracts a keyword (hereinafter also referred to as “voice keyword”) included in the voice from the voice data generated by the voice collection unit 200. Specifically, the speech keyword extraction unit 210 first analyzes speech data and converts the speech into text data. Then, the speech keyword extraction unit 210 compares each word included in the text data with a word stored in the dictionary database 220 in advance. Then, when each word included in the text data matches a word stored in advance in the dictionary database 220, the speech keyword extraction unit 210 extracts the word as a speech keyword.
  • voice keyword a keyword
  • the audio feature extraction unit 230 extracts the audio features from the audio data generated by the audio collection unit 200.
  • the speech feature extraction unit 230 extracts at least one of the strength, speed, and inflection of the speech, and the strength, speed, or inflection, or a combination of two or more thereof. Extracted as a feature of the speech.
  • the voice feature extraction unit 230 extracts the strength of the voice based on the amplitude of the voice signal indicated by the voice data. For example, the audio feature extraction unit 230 extracts the average of the intensity of the audio in a predetermined unit period as the intensity of the audio. In addition, the voice feature extraction unit 230 may extract the average voice intensity including a predetermined number of characters, words, or sentences as the voice strength.
  • the voice feature extraction unit 230 extracts the speed of the voice based on the number of sounds of words included in the voice. For example, the voice feature extraction unit 230 extracts the number of sounds included in a predetermined unit period as the speed of the voice.
  • the voice feature extraction unit 230 may extract the number of characters, the number of words, or the number of sentences of the voice in a predetermined unit period as the speed of the voice.
  • the voice feature extraction unit 230 extracts the inflection of the voice based on the change in voice strength. For example, the voice feature extraction unit 230 divides the voice into a plurality of units, and extracts a change in strength within each unit and / or a change in strength between units as an inflection of the voice.
  • the unit of speech is, for example, a word or a clause that constitutes a sentence included in the speech.
  • the emotion keyword selection unit 240 converts the speaker's emotion or the atmosphere of the place indicated by the feature into a keyword based on the voice feature extracted by the voice feature extraction unit 230. For example, the emotion keyword selection unit 240 selects an emotion keyword corresponding to the voice feature extracted by the voice feature extraction unit 230 from the emotion keyword group stored in advance in the emotion database 250.
  • the emotion database 250 stores a large number of keywords related to emotions and atmospheres in association with voice features. Specifically, the emotion database 250 associates each value (or a predetermined range that the value can take) of the strength, speed, and intonation of the speech, and a combination pattern of the value or range with each keyword. Store.
  • the emotion keyword selection unit 240 then extracts the voice features extracted by the voice feature extraction unit 230, that is, the values of the strength, speed, and intonation of the voice (or a predetermined range that the value can take), Alternatively, a predetermined keyword is selected from a large number of keywords stored in the emotion database 250 based on a combination pattern of ranges.
  • the keyword stored in the emotion database 250 may be a keyword included in a so-called Russell emotion ring model as shown in FIG.
  • the emotion keyword selection unit 240 may select an emotion keyword based on the voice information extracted by the voice feature extraction unit 230 and further based on the biometric information of the speaker who has spoken the collected voice.
  • the emotion keyword selection unit 240 estimates the speaker's emotion based on biological information such as the speaker's body temperature, heartbeat, pulse, brain wave, skin conductance level, and selects a keyword corresponding to the estimated emotion, for example. May be.
  • the biometric information of the speaker may be acquired from a sensor connected to the transmission device 110, or may be acquired from an external device of the transmission device 110 through a network, for example.
  • the voice feature extraction unit 230 may extract an index related to the degree of affirmation or denial of speech from the waveform of the voice data.
  • the speech feature extraction unit 230 can extract an index regarding the degree of affirmation or denial of speech from the waveform of speech data, using Empath (registered trademark).
  • Empath analyzes the physical characteristics of the waveform of the audio data and calculates determination values in 50 stages for each item of normality, anger, joy, sadness, and spirit.
  • the voice feature extraction unit 230 can extract an index related to the degree of affirmation or denial of a comment based on the result thus calculated.
  • a technique for calculating a determination value related to emotion or mood from the waveform of voice data is called a voice mood analysis technique.
  • the emotion database 250 may store an index relating to the degree of affirmation or denial of speech in association with each emotion keyword.
  • the emotion keyword selection unit 240 may select an emotion keyword corresponding to the index related to the degree of affirmation or denial of the speech extracted by the voice feature extraction unit 230 from the emotion database 250.
  • the transmission unit 260 transmits the voice keyword extracted by the voice keyword extraction unit 210 and the emotion keyword selected by the emotion keyword selection unit 240 to the search device 120.
  • the transmission unit 260 may, for example, indicate that a predetermined period has elapsed since the voice collection unit 200 collected voice, that the strength of the voice extracted by the voice feature extraction unit 230 has exceeded a predetermined value,
  • the speech keyword extracted by the speech keyword extraction unit 210 and the emotion keyword selected by the emotion keyword selection unit 240 are transmitted to the search device 120.
  • the predetermined word is, for example, “search”.
  • the transmission unit 260 may further transmit environmental information or biological information to the search device 120 in addition to the voice keyword and the emotion keyword.
  • the environmental information is information regarding a place or space where the transmission device 110 is placed, such as position, temperature, humidity, illuminance, shaking, and the like.
  • the environmental information is acquired by a measuring device such as a GPS, a temperature sensor, a humidity sensor, an illuminance sensor, an acceleration sensor, or an infrared sensor.
  • the transmission unit 260 may acquire environment information and biological information directly from the measurement device, or may indirectly acquire the information through a network or the like.
  • the dictionary database update instruction creation unit 270 creates an instruction (dictionary database update instruction) for updating the dictionary database 220.
  • the dictionary database update instruction is created at a predetermined opportunity.
  • the predetermined opportunity may be a time when the hit rate of the dictionary database 220 falls below a predetermined threshold value, or may be a predetermined constant interval.
  • the hit rate means the ratio of keywords that have been determined to be included in the voice collected by the voice collection unit 200 among all the keywords registered in the dictionary database 220.
  • the transmission unit 260 transmits the dictionary database update instruction created by the dictionary database update instruction creation unit 270 to the search device 120.
  • FIG. 4 is a diagram illustrating an example of functional blocks provided in the search device 120.
  • the search device 120 includes a reception unit 300, a search execution unit 310, a database 320, a transmission unit 330, a keyword database 340, a guess unit 350, and a dictionary database creation unit 360.
  • the search device 120 is a search engine that searches information stored in the database 320 based on a predetermined keyword and transmits a search result to the output device 130.
  • the search device 120 may receive the voice keyword transmitted from the transmission device 110 and store it to perform a process of estimating a topic from the stored voice keyword. If the voice keyword is, for example, “steering wheel”, “brake”, “tire”, it can be inferred that a topic related to “car” is being made. The inferred topic is provided to, for example, an advertising agency.
  • the search device 120 also performs a process of updating the dictionary database 220 in response to a dictionary database update instruction from the transmission device 110.
  • the memory of the search device 120 stores a search program that causes the search device 120 to execute search processing based on the voice keyword and the emotion keyword, and the search device 120 cooperates with the hardware resource of the search device 120 and the search program.
  • 120 functions (reception unit 300, search execution unit 310, database 320, transmission unit 330, keyword database 340, estimation unit 350, and database creation unit 360) are realized.
  • the search program is read from a computer-readable recording medium into the memory of the search device 120 and executed by the processor of the search device 120.
  • the receiving unit 300 receives the voice keyword and the emotion keyword transmitted from the transmission device 110.
  • the receiving unit 300 may further receive environment information and biological information in addition to the voice keyword and the emotion keyword transmitted by the transmission device 110.
  • the receiving unit 300 receives the dictionary database update instruction transmitted by the transmission device 110.
  • the search execution unit 310 searches the database 320 based on the voice keyword and emotion keyword and / or environment information and / or biological information received by the receiving unit 300.
  • the speech keyword, emotion keyword, environment information, and biometric information are all text data
  • the search execution unit 310 uses, for example, the text data used for the search among the information stored in the database 320.
  • Information including any of the above is extracted as a search result.
  • the information is, for example, text data included in the website.
  • the transmission unit 330 transmits the search result extracted by the search execution unit 310 to the output device 130 through the network.
  • the transmission unit 330 transmits the URL of the website extracted by the search execution unit 310, text data, image data, and the like included in the website to the output device 130 as a search result.
  • the keyword database 340 stores voice keywords received through the receiving unit 300.
  • the estimation unit 350 estimates a related word of the speech keyword stored in the keyword database 340.
  • a related term of a speech keyword means a phrase that is frequently used simultaneously with the speech keyword, and such a phrase is also called a “co-occurrence word”.
  • Co-occurrence words do not necessarily mean synonyms.
  • the estimation unit 350 is a co-occurrence word search tool that applies artificial intelligence, for example.
  • a co-occurrence word search tool for example, a tool that performs morphological analysis on the content of a web page at the top of a search result such as Google or Yahoo and presents words frequently appearing in the same document as co-occurrence words is known. ing.
  • Morphological analysis is a sequence of morphemes (minimum units that have meaning in a language) based on information such as grammar of the target language and parts of speech of words called dictionaries from text data in natural language without grammatical information. It means the work of disassembling into parts and discriminating the part of speech of each morpheme.
  • the dictionary database creation unit 360 updates the dictionary database 220 in response to the dictionary database update instruction received through the receiving unit 300.
  • the dictionary database creation unit 360 creates the updated dictionary database 220 based on the speech keywords stored in the keyword database 340 and the related words estimated by the estimation unit 350.
  • the updated dictionary database 220 registers voice keywords that have been extracted from the voice collected by the voice collection unit 200 and related words as keywords.
  • the speech keywords that have not been extracted from the speech collected by the speech collection unit 200 are deleted from the updated dictionary database 220. By repeating such update processing, the hit rate of the dictionary database 220 can be increased.
  • the transmission unit 330 transmits the updated dictionary database 220 to the transmission device 110.
  • the transmission apparatus 110 that has received the updated dictionary database 220 replaces the dictionary database 220 before update with the updated dictionary database 220.
  • FIG. 5 is a diagram illustrating an example of functional blocks provided in the output device 130.
  • the output device 130 includes a search result receiving unit 400 and a search result output unit 410.
  • the search result receiving unit 400 receives the search result transmitted by the search result transmitting unit 330, and the search result output unit 410 displays the received search result as a numerical value, text, video (image), audio, etc. Is output through a display, a speaker, or the like.
  • An output program is stored in the memory of the output device 130, and each function of the output device 130 (a search result receiving unit 400 and a search result output unit) in cooperation with the hardware resource of the output device 130 and the output program. 410) is realized.
  • the output program is read from a computer-readable recording medium into the memory of the output device 130 and executed by the processor of the output device 130.
  • FIG. 6 is a flowchart showing an example of processing in the search system 100.
  • the voice collection unit 200 collects voices emitted around the transmission device 110, and generates voice data indicating the voices (S600). For example, the voice collecting unit 200 generates voice data when voices of “Today is hot” are collected from one or more speakers.
  • the voice keyword extraction unit 210 extracts a voice keyword from the voice data (S601). For example, the voice keyword extraction unit 210 extracts the word “hot” from the voice data “It is hot today” as a voice keyword.
  • the voice feature extraction unit 230 extracts the voice features from the voice data generated by the voice collection unit 200 (S602). The voice feature extraction unit 230 extracts, for example, the strength, speed, and intonation of the voice in the voice “It is hot today”.
  • the emotion keyword selection unit 240 selects an emotion keyword indicating the speaker's emotion and the atmosphere of the place based on the voice feature extracted by the voice feature extraction unit 230 (S603).
  • the emotion keyword selection unit 240 is stored in the emotion database 250 as an emotion keyword corresponding to a pattern that combines the strength, speed, and inflection value of the voice in the voice “It is hot today”, for example. Select “Irritation” that you had.
  • the transmission unit 260 transmits the speech keyword extracted by the speech keyword extraction unit 210 and the emotion keyword selected by the emotion keyword selection unit 240 to the search device 120 (S604).
  • the transmission unit 260 transmits “hot” and “irritated” to the search device 120 as voice keywords and emotion keywords, respectively.
  • the transmission unit 260 obtains location information indicating “outside of Nagaokakyo Station in Kamiashi 1-chome, Nagaokakyo City, Kyoto” where the transmission device 110 is placed, and “36 ° C.” which is the temperature at the location. And transmitted to the search device 120 as environment information.
  • the keyword receiving unit 300 receives the voice keyword, emotion keyword, and environment information transmitted by the transmission device 110 (S605).
  • the keyword receiving unit 300 uses, for example, “hot” and “irritated” as voice keywords and emotion keywords, respectively, and “location outside Nagaokakyo Station in Kamiashi 1-chome, Nagaokakyo, Kyoto” and temperature “36”. "C” is received as environmental information.
  • the search execution unit 310 searches the database 320 based on the voice keyword, emotion keyword, and environment information received by the keyword receiving unit 300 (S606).
  • the search execution unit 310 for example, based on these keywords and environmental information, the speaker who uttered the voice “Today is hot” says “Outside Nagaokakyo Station in Kamiashi 1-chome, Nagaokakyo City, Kyoto Prefecture”. , It is determined that the word “hot” is uttered with the feeling of “irritability” in the temperature “36 ° C.”. Then, the search execution unit 310 searches for “a store that provides a cold drink at a radius of 100 m in Nagaokakyo Station, 1-chome, Kamiashi, Nagaokakyo City, Kyoto Prefecture”.
  • the search result transmission unit 330 transmits the search result extracted by the search execution unit 310 to the output device 130 through the network (S607).
  • the search result transmission unit 330 outputs, for example, a list of websites of stores corresponding to “a store that provides a cold drink at a radius of 100 m in Nagaokakyo Station, Nagaokakyo City, Kyoto Prefecture” at a radius of 100 m as a search result. To device 130.
  • the search result receiving unit 400 receives the search result transmitted by the search result transmitting unit 330 (S608). Then, the search result output unit 410 outputs the received search result through a display, a speaker, or the like (S609).
  • the search result output unit 410 may display a list of websites of stores corresponding to “a store that provides a cold drink at a radius of 100 m in Nagaokakyo Station, Nagaokakyo City, Kyoto Prefecture” at a radius of 100 m. Display on the display.
  • the location information indicates “the building of 1-10-1 Higashi-Kamisashi, Nagaokakyo-shi, Kyoto” instead of “outside of Nagaokakyo station in 1-chome, Kamikaga, Nagaokakyo, Kyoto”, and the temperature is “36”.
  • the search execution unit 310 indicates that the speaker who uttered the sound “Today is hot” changes the word “hot” to the temperature “28 ° C.” in the building. It may be determined that it is accompanied by the feeling of “irritation”.
  • the search execution unit 310 may search for “that the temperature can be controlled in the building” and output that the air conditioning is controlled as a search result.
  • the search result output unit 410 outputs, for example, changing the set temperature of the air conditioning to “25 ° C.”.
  • the transmission device 110 creates a dictionary database update instruction at a predetermined opportunity (S700), and transmits this to the search device 120 (S701).
  • the search device 120 acquires a voice keyword from the keyword database 340 (S703), and estimates a related word of the voice keyword (S704).
  • the search device 120 creates an updated dictionary database 220 based on the voice keyword and its related words (S705), and transmits this to the transmission device 110 (S706).
  • the transmitting apparatus 110 updates the dictionary database 220 by replacing the updated dictionary database 220 with the updated dictionary database 220 (S708).
  • the voice is collected to generate voice data indicating the voice
  • the voice keyword that is a keyword included in the voice is extracted from the voice data
  • voice since it can search based on both the word and emotion extracted from the audio
  • keywords included in the Russell emotion ring model may be stored as a keyword group. Thereby, a speaker's emotion can be extracted more correctly.
  • the word when a word included in the voice matches any of the words stored in the dictionary database, the word may be extracted as a voice keyword.
  • the load of the algorithm which extracts a voice keyword can be reduced.
  • a predetermined period has elapsed since the voice collection unit collected the voice, the strength of the voice extracted by the voice feature extraction unit exceeded a predetermined value, or voice keyword extraction
  • the voice keyword and the selected emotion keyword may be transmitted. Thereby, the accuracy of the search can be further increased.
  • a search result by a predetermined search may be output.
  • the search result can be transmitted to the speaker or reflected in the environment where the speaker is placed.
  • the dictionary database 220 is updated by updating the dictionary database 220 based on the speech keywords extracted from the speech collected by the speech collection unit 200 and the related words as matching with the speech keywords registered in the dictionary database 220. Can increase the hit rate. Thereby, the dictionary database 220 can be optimized. By optimizing the dictionary database 220, based on the voice collected by the voice collection unit 200 (for example, voice actually spoken by the customer), it is appropriately determined whether the product or service is actually popular. be able to. In addition, since the voice collected by the voice collection unit 200 is actually collected at the place where the transmission device 110 is placed, the product or service is based on evaluation in the real world, not on the Internet. Can be determined whether or not is actually in fashion. Further, by repeating the update of the dictionary database 220, unnecessary keywords are deleted from the dictionary database 220, so the storage capacity of the dictionary database 220 may be small. As a result, the transmission device 110 can be reduced in size and power consumption.
  • each embodiment described above is for facilitating understanding of the present invention, and is not intended to limit the present invention.
  • the present invention can be changed / improved without departing from the spirit thereof, and the present invention includes equivalents thereof.
  • those obtained by appropriately modifying the design of each embodiment by those skilled in the art are also included in the scope of the present invention as long as they include the features of the present invention.
  • each element included in each embodiment and its arrangement, material, condition, shape, size, and the like are not limited to those illustrated, and can be changed as appropriate.
  • Each embodiment is an exemplification, and it is needless to say that a partial replacement or combination of configurations shown in different embodiments is possible, and these are also included in the scope of the present invention as long as they include the features of the present invention. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ニーズに応じた情報を提供する。 コンピュータに、音声を収集して当該音声を示す音声データを生成する音声収集部と、音声データから、音声に含まれるキーワードである音声キーワードを抽出する音声キーワード抽出部と、音声データから、音声の強さ、速度及び抑揚の少なくとも一つを含む、音声の特徴を抽出する音声特徴抽出部と、音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された音声の特徴に対応する感情キーワードを選択する感情キーワード選択部と、抽出された音声キーワード及び選択された感情キーワードを送信する送信部と、を実現させるための送信プログラム。

Description

送信装置、送信方法及び送信プログラム
 本発明は、送信装置、送信方法及び送信プログラムに関する。
 従来の情報提示装置として、特開2012-256183号公報(特許文献1)に記載されたものがある。上記従来の情報提示装置は、ユーザが現在有している欲求の強さと、ユーザが現在置かれている状況とを推定し、これらの組み合わせを記述したデータベースを照会することにより、ユーザが有している欲求とユーザが置かれている状況の双方を満たすことのできるアイテムを提示する。
特開2012-256183号公報
 しかしながら、上記従来の情報提示装置では、ユーザの欲求の強さとユーザが置かれている状況を推定しているに止まるため、必ずしもユーザのニーズに応じた情報を提示することができなかった。
 本発明はこのような事情に鑑みてなされたものであり、ユーザのニーズにより応じた情報を提供することを目的とする。
 本発明の一側面に係る送信プログラムは、コンピュータに、音声を収集して当該音声を示す音声データを生成する音声収集部と、音声データから、音声に含まれるキーワードである音声キーワードを抽出する音声キーワード抽出部と、音声データから、音声の強さ、速度及び抑揚の少なくとも一つを含む、音声の特徴を抽出する音声特徴抽出部と、音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された音声の特徴に対応する感情キーワードを選択する感情キーワード選択部と、抽出された音声キーワード及び選択された感情キーワードを送信する送信部とを実現させる。
 本発明の他の側面に係る送信装置は、音声を収集して当該音声を示す音声データを生成する音声収集部と、音声データから、音声に含まれるキーワードである音声キーワードを抽出する音声キーワード抽出部と、音声データから、音声の強さ、速度及び抑揚の少なくとも一つを含む、音声の特徴を抽出する音声特徴抽出部と、音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された音声の特徴に対応する感情キーワードを選択する感情キーワード選択部と、抽出された音声キーワード及び選択された感情キーワードを送信する送信部とを備える。
 本発明のさらに他の側面に係る送信方法は、音声を収集して当該音声を示す音声データを生成することと、音声データから、音声に含まれるキーワードである音声キーワードを抽出することと、音声データから、音声の強さ、速度及び抑揚の少なくとも一つを含む、音声の特徴を抽出することと、音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された音声の特徴に対応する感情キーワードを選択することと、抽出された音声キーワード及び選択された感情キーワードを送信することとを含む。
 本発明によれば、ユーザのニーズにより応じた情報を提供することが可能となる。
本発明の一実施形態に係る送信装置110を含む検索システム100の構成を示す図である。 送信装置110が備える機能ブロックの一例を示す図である。 ラッセルの感情円環モデル及びそれに含まれるキーワードを示す図である。 検索装置120が備える機能ブロックの一例を示す図である。 出力装置130が備える機能ブロックの一例を示す図である。 検索システム100における処理の一例を示すフローチャートである。 辞書データベース更新処理を示すフローチャートである。
 以下、添付の図面を参照して本発明の一実施形態について説明する。図1は、本発明の一実施形態に係る送信装置110を含む検索システム100の構成を示す図である。検索システム100は、送信装置110と、検索装置120と、出力装置130とを備える。本実施形態に係る検索システム100は、送信装置110が収集した音声から抽出されたキーワードと、当該音声から抽出された感情や雰囲気に対応するキーワードに基づいて、所定の検索を行い、その検索結果を出力するシステムである。
 送信装置110は、送信装置110が置かれている場所で収集した音声に基づいて、所定のキーワードを検索装置120に送信するコンピュータである。送信装置110は、施設や店舗に設置されたコンピュータであってもよいし、施設や店舗を訪問したユーザが所有するコンピュータ(スマートフォンやタブレット端末等)であってもよい。送信装置は、プロセッサ、メモリ及び通信インタフェースを備える。送信装置110は、例えば、携帯電話通信網やインターネットを経由して、検索装置120と通信を行うことができる。
 検索装置120は、送信装置110から受信したキーワードに基づいて、出力装置130のユーザに対して情報提供を行うコンピュータ(サーバ)である。検索装置120は、プロセッサ、メモリ、データベース及び通信インタフェースを備える。検索装置120は、例えば、インターネットを経由して、送信装置110及び出力装置130と通信を行うことができる。
 出力装置130は、検索装置120から提供されるデータ(表示データ)に基づいて、検索結果の出力を行うコンピュータである。出力装置130は、検索結果として、数値、文字、映像(画像)、音声等を、ディスプレイやスピーカ等に出力する。出力装置130は、例えば、スマートフォンやタブレット端末、パーソナルコンピュータ等である。出力装置130は、プロセッサ、メモリ及び通信インタフェースを備える。出力装置130は、例えば、携帯電話通信網やインターネットを経由して、検索装置120と通信を行うことができる。
 なお、出力装置130は、検索結果に基づいて、所定の動作を出力してもよい。出力装置130は、例えば、検索結果に基づいて、所定の通信を行ったり、モータ、アクチュエータ、センサ等を制御したりしてもよい。
 図2は、送信装置110が備える機能ブロックの一例を示す図である。送信装置110は、音声収集部200と、音声キーワード抽出部210と、辞書データベース220と、音声特徴抽出部230と、感情キーワード選択部240と、感情データベース250と、送信部260と、辞書データベース更新指示作成部270とを備える。
 送信装置110のメモリには、送信プログラムが格納されており、送信装置110のハードウェア資源と送信プログラムとの協働により、送信装置110の各機能(音声収集部200、音声キーワード抽出部210、辞書データベース220、音声特徴抽出部230、感情キーワード選択部240、感情データベース250、送信部260、及び辞書データベース更新指示作成部270)が実現される。送信プログラムは、コンピュータ読み取り可能な記録媒体から送信装置110のメモリに読み込まれて、送信装置110のプロセッサにより実行される。
 音声収集部200は、送信装置110の周囲で発せられた音声を収集し、当該音声を示す音声データを生成する。具体的には、音声収集部200は、マイク等によって収集した音声を電気信号に変換し、当該電気信号が示す情報をデジタルデータに変換した音声データを生成する。また、音声収集部200は、生成した音声データを一時的に記憶する記憶部を有してもよい。当該記憶部は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、光ディスク、又はRAM(Random Access Memory)などの磁気的、電気的又は光学的に記憶可能な既存の記憶装置又は記憶媒体である。音声収集部200は、送信装置110の内蔵マイクでもよく、或いは外付けマイク(外付け型の有線式マイク又は無線式のマイク)でもよい。例えば、外付けマイクが接続されたタブレット端末は、送信装置110として機能する。送信装置110は、複数の音声収集部200を備えてもよい。送信装置110は、複数の音声収集部200の相対位置を検出してもよい。
 音声キーワード抽出部210は、音声収集部200が生成した音声データから、当該音声に含まれるキーワード(以下「音声キーワード」とも呼ぶ。)を抽出する。具体的には、音声キーワード抽出部210は、まず、音声データを解析して、当該音声をテキストデータに変換する。そして、音声キーワード抽出部210は、当該テキストデータに含まれる各単語を、辞書データベース220に予め格納された単語と比較する。そして、音声キーワード抽出部210は、当該テキストデータに含まれる各単語が、辞書データベース220に予め格納された単語と一致した場合に、当該単語を音声キーワードとして抽出する。
 音声特徴抽出部230は、音声収集部200が生成した音声データから、当該音声の特徴を抽出する。本実施形態において、音声特徴抽出部230は、当該音声の強さ、速度及び抑揚の少なくとも一つを抽出し、そして、当該強さ、速度若しくは抑揚、又は、これらの2つ以上の組み合わせを、当該音声の特徴として抽出する。
 音声特徴抽出部230は、音声データが示す音声信号の振幅の大きさに基づいて、当該音声の強さを抽出する。音声特徴抽出部230は、例えば、所定の単位期間における音声の強度の平均を、当該音声の強さとして抽出する。また、音声特徴抽出部230は、所定の文字数、単語数又は文章数を含む音声の強度の平均を、当該音声の強さとして抽出してもよい。
 また、音声特徴抽出部230は、音声に含まれる言葉の音数に基づいて、当該音声の速さを抽出する。音声特徴抽出部230は、例えば、所定の単位期間の含まれる音数を、当該音声の速さとして抽出する。また、音声特徴抽出部230は、所定の単位期間における当該音声の文字数、単語数又は文章数を、当該音声の速さとして抽出してもよい。
 また、音声特徴抽出部230は、音声の強さの変化に基づいて、当該音声の抑揚を抽出する。音声特徴抽出部230は、例えば、音声を複数の単位に分割し、各単位内における強さの変化、及び/又は、単位間における強さの変化を、当該音声の抑揚として抽出する。音声の単位は、例えば、音声に含まれる文章を構成する単語や節である。
 感情キーワード選択部240は、音声特徴抽出部230が抽出した音声の特徴に基づいて、当該特徴が示す話者の感情や場の雰囲気をキーワードに変換する。感情キーワード選択部240は、例えば、感情データベース250に予め格納された感情キーワード群から、音声特徴抽出部230が抽出した音声の特徴に対応する感情キーワードを選択する。また、感情データベース250は、感情や雰囲気に関連する多数のキーワードを、音声の特徴と対応づけて格納する。具体的には、感情データベース250は、当該音声の強さ、速度及び抑揚のそれぞれの値(又は値が取り得る所定の範囲)や、当該値又は範囲の組み合わせのパターンを、各キーワードと対応づけて格納する。そして、感情キーワード選択部240は、音声特徴抽出部230が抽出した音声の特徴、すなわち、当該音声の強さ、速度及び抑揚のそれぞれの値(又は値が取り得る所定の範囲)や、当該値又は範囲の組み合わせのパターンに基づいて、感情データベース250に格納された多数のキーワードの中から、所定のキーワードを選択する。なお、感情データベース250に格納されるキーワードは、図3に示すような、いわゆるラッセルの感情円環モデルに含まれるキーワードであってもよい。
 感情キーワード選択部240は、音声特徴抽出部230が抽出した音声の特徴の他に、収集された音声の発した話者の生体情報にさらに基づいて、感情キーワードを選択してもよい。感情キーワード選択部240は、例えば、話者の体温、心拍、脈拍、脳波、皮膚コンダクタンスレベル等の生体情報に基づいて、当該話者の感情を推定し、推定された感情に対応するキーワードを選択してもよい。話者の生体情報は、送信装置110に接続されたセンサから取得されてもよいし、また、例えばネットワークを通じて送信装置110の外部装置から取得されてもよい。
 音声特徴抽出部230は、音声データの波形から発言の肯定又は否定の度合いに関する指標を抽出してもよい。例えば、音声特徴抽出部230は、Empath(登録商標)を用いて、音声データの波形から発言の肯定又は否定の度合いに関する指標を抽出することができる。Empathは、音声データの波形の物理的な特徴を解析し、平常、怒り、喜び、悲しみ及び元気度の各項目について50段階で判定値を算出する。音声特徴抽出部230は、このように算出された結果に基づいて、発言の肯定又は否定の度合いに関する指標を抽出することができる。このように、音声データの波形から感情や気分に関する判定値を算出する技術は、音声気分解析技術と呼ばれる。音声気分解析技術を用いて判定される項目は、平常、怒り、喜び、悲しみ及び元気度に限られるものではなく、感情に関わるあらゆる項目を含み得る。感情データベース250は、発言の肯定又は否定の度合いに関する指標を、各感情キーワードと対応付けて格納してもよい。感情キーワード選択部240は、音声特徴抽出部230が抽出した、発言の肯定又は否定の度合いに関する指標に対応する感情キーワードを感情データベース250から選択してもよい。
 送信部260は、音声キーワード抽出部210が抽出した音声キーワード、及び、感情キーワード選択部240が選択した感情キーワードを、検索装置120に送信する。送信部260は、例えば、音声収集部200が音声を収集してから所定の期間が経過したこと、音声特徴抽出部230が抽出した記音声の強さが所定の値を超えたこと、音声キーワード抽出部210が所定の単語を抽出したこと等に応答して、音声キーワード抽出部210が抽出した音声キーワード、及び、感情キーワード選択部240が選択した前記感情キーワードを、検索装置120に送信する。当該所定の単語は、例えば、「検索」等である。
 送信部260は、音声キーワード及び感情キーワードの他に、環境情報又は生体情報を、検索装置120にさらに送信してもよい。環境情報は、例えば、位置、温度、湿度、照度、揺れ等といった、送信装置110が置かれている場所や空間に関する情報である。環境情報は、GPS、温度センサ、湿度センサ、照度センサ、加速度センサ、赤外線センサ等の測定装置によって取得される。送信部260は、環境情報や生体情報を、測定装置から直接的に取得してもよいし、ネットワーク等を通じて間接的に取得してもよい。
 辞書データベース更新指示作成部270は、辞書データベース220を更新するための指示(辞書データベース更新指示)を作成する。辞書データベース更新指示は、所定の契機で作成される。ここで、所定の契機は、辞書データベース220のヒット率が予め定められた閾値を下回った時点でもよく、或いは、予め定められた一定間隔でもよい。ヒット率とは、辞書データベース220に登録されている全てのキーワードのうち、音声収集部200によって収集された音声に含まれているものと判定されたことのあるキーワードの割合を意味する。送信部260は、辞書データベース更新指示作成部270によって作成された辞書データベース更新指示を検索装置120に送信する。
 図4は、検索装置120が備える機能ブロックの一例を示す図である。検索装置120は、受信部300と、検索実行部310と、データベース320と、送信部330と、キーワードデータベース340と、推測部350と、辞書データベース作成部360とを備える。検索装置120は、所定のキーワードに基づいてデータベース320に格納された情報を検索し、検索結果を出力装置130に送信する検索エンジンである。検索装置120は、送信装置110から送信される音声キーワードを受信し、これを蓄積することにより、蓄積された音声キーワードから話題を推測する処理を行ってもよい。音声キーワードが、例えば、「ハンドル」、「ブレーキ」、「タイヤ」などである場合、「車」に関する話題がなされているものと推測できる。推測された話題は、例えば、広告業者に提供される。また、検索装置120は、送信装置110からの辞書データベース更新指示に応答して、辞書データベース220を更新する処理をも行う。
 検索装置120のメモリには、音声キーワード及び感情キーワードに基づく検索処理を検索装置120に実行させる検索プログラムが格納されており、検索装置120のハードウェア資源と検索プログラムとの協働により、検索装置120の各機能(受信部300、検索実行部310、データベース320、送信部330、キーワードデータベース340、推測部350、及びデータベース作成部360)が実現される。検索プログラムは、コンピュータ読み取り可能な記録媒体から検索装置120のメモリに読み込まれて、検索装置120のプロセッサにより実行される。
 受信部300は、送信装置110が送信した音声キーワード及び感情キーワードを受信する。また、受信部300は、送信装置110が送信した音声キーワード及び感情キーワードの他に、環境情報や生体情報をさらに受信してもよい。受信部300は、送信装置110が送信した辞書データベース更新指示を受信する。
 検索実行部310は、受信部300が受信した音声キーワード及び感情キーワード並びに/又は環境情報及び/若しくは生体情報に基づいて、データベース320を検索する。本実施形態において、音声キーワード、感情キーワード、環境情報及び生体情報は、いずれもテキストデータであり、検索実行部310は、例えば、データベース320に格納された情報のうち、検索に使われたテキストデータのいずれをも含む情報を、検索結果として抽出する。当該情報は、例えば、ウェブサイトに含まれるテキストデータ等である。
 送信部330は、検索実行部310が抽出した検索結果を、ネットワークを通じて出力装置130に送信する。送信部330は、例えば、検索実行部310が抽出したウェブサイトのURLや当該ウェブサイトに含まれるテキストデータや画像データ等を、検索結果として出力装置130に送信する。
 キーワードデータベース340は、受信部300を通じて受信された音声キーワードを格納する。推測部350は、受信部300を通じて受信された辞書データベース更新指示に応答して、キーワードデータベース340に格納されている音声キーワードの関連語を推測する。音声キーワードの関連語とは、音声キーワードと頻繁に同時に使われる語句を意味し、このような語句は、「共起語」とも呼ばれている。共起語は、同意語を必ずしも意味するものではない。推測部350は、例えば、人工知能を応用した共起語検索ツールである。このような共起語検索ツールとして、例えば、グーグルやヤフーなどの検索結果の上位となるウェブページのコンテンツで形態素解析を行い、同一文書に頻出する語句を共起語として提示するものが知られている。形態素解析とは、文法的な情報の注記のない自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞などの情報に基づき、形態素(言語で意味を持つ最小単位)の列に分解し、それぞれの形態素の品詞などを判別する作業を意味する。
 辞書データベース作成部360は、受信部300を通じて受信された辞書データベース更新指示に応答して、辞書データベース220を更新する。辞書データベース作成部360は、キーワードデータベース340に格納されている音声キーワードと、推測部350により推測された関連語とに基づいて、更新された辞書データベース220を作成する。更新された辞書データベース220は、音声収集部200によって収集された音声から抽出されたことのある音声キーワードとその関連語をキーワードとして登録している。更新前の辞書データベース220に登録されているキーワードのうち、音声収集部200によって収集された音声から抽出されたことのない音声キーワードは、更新後の辞書データベース220から削除される。このような更新処理を繰り返すことにより、辞書データベース220のヒット率を高めることができる。
 送信部330は、更新された辞書データベース220を送信装置110に送信する。更新された辞書データベース220を受信した送信装置110は、更新前の辞書データベース220を更新後の辞書データベース220に差し替える。
 図5は、出力装置130が備える機能ブロックの一例を示す図である。出力装置130は、検索結果受信部400と、検索結果出力部410とを備える。出力装置130において、検索結果受信部400は、検索結果送信部330が送信した検索結果を受信し、検索結果出力部410は、受信した検索結果を、数値、文字、映像(画像)、音声等として、ディスプレイやスピーカ等を通じて出力する。
 出力装置130のメモリには、出力プログラムが格納されており、出力装置130のハードウェア資源と出力プログラムとの協働により、出力装置130の各機能(検索結果受信部400、及び検索結果出力部410)が実現される。出力プログラムは、コンピュータ読み取り可能な記録媒体から出力装置130のメモリに読み込まれて、出力装置130のプロセッサにより実行される。
 図6は、検索システム100における処理の一例を示すフローチャートである。
 まず、音声収集部200は、送信装置110の周囲で発せられた音声を収集し、当該音声を示す音声データを生成する(S600)。音声収集部200は、例えば、一人又は複数の話者から「今日は暑いですね。」という音声を収集した場合に、この音声データを生成する。次に、音声キーワード抽出部210が、音声データから、音声キーワードを抽出する(S601)。音声キーワード抽出部210は、例えば、「今日は暑いですね。」という音声データから、「暑い」と単語を音声キーワードとして抽出する。次に、音声特徴抽出部230が、音声収集部200が生成した音声データから、当該音声の特徴を抽出する(S602)。音声特徴抽出部230は、例えば、「今日は暑いですね。」という音声における、音声の強さ、速さ、抑揚を抽出する。
 次に、感情キーワード選択部240が、音声特徴抽出部230が抽出した音声の特徴に基づいて、話者の感情や場の雰囲気を示す感情キーワードを選択する(S603)。感情キーワード選択部240は、例えば、「今日は暑いですね。」という音声における、当該音声の強さ、速さ、抑揚の値を組み合わせたパターンに対応する感情キーワードとして、感情データベース250に格納されていた「苛立ち」を選択する。次に、送信部260は、音声キーワード抽出部210が抽出した音声キーワード、及び、感情キーワード選択部240が選択した感情キーワードを、検索装置120に送信する(S604)。送信部260は、「暑い」及び「苛立ち」を、それぞれ音声キーワード及び感情キーワードとして、検索装置120に送信する。また、送信部260は、送信装置110が置かれている場所である「京都府長岡京市神足1丁目にある長岡京駅の外」を示す位置情報と、当該場所における気温である「36℃」を、環境情報として検索装置120に送信する。
 次に、キーワード受信部300は、送信装置110が送信した音声キーワード、感情キーワード及び環境情報を受信する(S605)。キーワード受信部300は、例えば、「暑い」及び「苛立ち」を、それぞれ音声キーワード及び感情キーワードとして、また、「京都府長岡京市神足1丁目にある長岡京駅の外」を示す位置情報と気温「36℃」を環境情報として受信する。次に、検索実行部310は、キーワード受信部300が受信した音声キーワード及び感情キーワード並びに環境情報に基づいて、データベース320を検索する(S606)。検索実行部310は、例えば、これらのキーワード及び環境情報に基づいて、「今日は暑いですね。」という音声を発した話者が、「京都府長岡京市神足1丁目にある長岡京駅の外」において、気温「36℃」の中で、「暑い」という単語を「苛立ち」という感情とともに発していると判断する。そして、検索実行部310は、「『京都府長岡京市神足1丁目にある長岡京駅』の半径100mにおいて、冷たい飲み物を提供する店舗」を検索する。次に、検索結果送信部330が、検索実行部310が抽出した検索結果を、ネットワークを通じて出力装置130に送信する(S607)。検索結果送信部330は、例えば、「『京都府長岡京市神足1丁目にある長岡京駅』の半径100mにおいて、冷たい飲み物を提供する店舗」に該当する店舗のウェブサイトの一覧を、検索結果として出力装置130に送信する。
 次に、検索結果受信部400が、検索結果送信部330が送信した検索結果を受信する(S608)。そして、検索結果出力部410は、受信した検索結果を、ディスプレイやスピーカ等を通じて出力する(S609)。検索結果出力部410は、例えば、「『京都府長岡京市神足1丁目にある長岡京駅』の半径100mにおいて、冷たい飲み物を提供する店舗」に該当する店舗のウェブサイトの一覧を、出力装置130が備えるディスプレイに表示する。なお、本例において、例えば、位置情報が「京都府長岡京市神足1丁目にある長岡京駅の外」ではなく「京都府長岡京市東神足1丁目10番1号の建物」を示し、気温が「36℃」ではなく「28℃」を示す場合、検索実行部310は、「今日は暑いですね。」という音声を発した話者が、当該建物において、「暑い」という単語を気温「28℃」の中で「苛立ち」という感情とともに発していると判断してもよい。この場合、検索実行部310は、「当該建物において気温を制御できること」を検索し、空調を制御することを、検索結果として出力してもよい。この場合、検索結果出力部410は、例えば、当該空調の設定温度を「25℃」に変更することを出力する。
 次に、図7を参照しながら、辞書データベース更新処理の流れについて説明する。
 送信装置110は、所定の契機で辞書データベース更新指示を作成し(S700)、これを検索装置120に送信する(S701)。検索装置120は、辞書データベース更新指示を受信すると(S702)、キーワードデータベース340から音声キーワードを取得し(S703)、音声キーワードの関連語を推測する(S704)。次に、検索装置120は、音声キーワードとその関連語に基づいて、更新された辞書データベース220を作成し(S705)、これを送信装置110に送信する(S706)。送信装置110は、更新後の辞書データベース220を受信すると(S707)、更新前の辞書データベース220を更新後の辞書データベース220に差し替えることにより、辞書データベース220を更新する(S708)。
 以上、本発明の例示的な実施形態について説明した。本実施形態によれば、音声を収集して当該音声を示す音声データを生成し、音声データから、音声に含まれるキーワードである音声キーワードを抽出し、音声データから、音声の強さ、速度及び抑揚の少なくとも一つを含む、音声の特徴を抽出し、音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された音声の特徴に対応する感情キーワードを選択し、抽出された音声キーワード及び選択された感情キーワードを送信する。これにより、音声から抽出された単語と感情の双方に基づいて検索することができるので、当該音声を発した話者のニーズにより応じた情報を提供することができる。
 また、本実施形態において、ラッセルの感情円環モデルに含まれるキーワードを、キーワード群として格納してもよい。これにより、話者の感情をより的確に抽出することができる。
 また、本実施形態において、音声に含まれる単語が辞書データベースに格納された単語のいずれかと一致した場合に、当該単語を音声キーワードとして抽出してもよい。これにより、音声キーワードを抽出するアルゴリズムの負荷を低減させることができる。
 また、本実施形態において、音声収集部が音声を収集してから所定の期間が経過したこと、音声特徴抽出部が抽出した音声の強さが所定の値を超えたこと、又は、音声キーワード抽出部が所定の単語を抽出したことに応答して、音声キーワード及び選択された感情キーワードを送信してもよい。これにより、検索の精度をさらに上げることができる。
 また、本実施形態において、所定の検索による検索結果を出力してもよい。これにより、検索結果を話者に伝えたり、又は、話者が置かれた環境に反映させたりすることができる。
 辞書データベース220に登録されている音声キーワードに一致するものとして、音声収集部200が収集した音声から抽出された音声キーワードとその関連語とに基づいて辞書データベース220を更新することにより、辞書データベース220のヒット率を高めることができる。これにより、辞書データベース220を最適化することができる。辞書データベース220を最適化することにより、音声収集部200が収集する音声(例えば、顧客が実際に発話した音声)に基づいて、商品又はサービスが実際に流行しているか否かを適切に判断することができる。また、音声収集部200が収集する音声は、送信装置110が置かれている場所で実際に収集された音声であるため、インターネット上の評価ではなく、現実社会における評価を基礎として、商品又はサービスが実際に流行しているか否かを判断できる。また、辞書データベース220の更新を繰り返すことにより、不要なキーワードは、辞書データベース220から削除されるため、辞書データベース220の記憶容量は少なくてもよい。これにより、送信装置110の小型化及び低消費電力化が可能となる。
 なお、以上説明した各実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更/改良され得るととともに、本発明にはその等価物も含まれる。即ち、各実施形態に当業者が適宜設計変更を加えたものも、本発明の特徴を備えている限り、本発明の範囲に包含される。例えば、各実施形態が備える各要素及びその配置、材料、条件、形状、サイズなどは、例示したものに限定されるわけではなく適宜変更することができる。また、各実施形態は例示であり、異なる実施形態で示した構成の部分的な置換又は組み合わせが可能であることは言うまでもなく、これらも本発明の特徴を含む限り本発明の範囲に包含される。
100…検索システム、110…送信装置、120…検索装置、130…出力装置、200…音声収集部、210…音声キーワード抽出部、220…辞書データベース、230…音声特徴抽出部、240…感情キーワード選択部、250…感情データベース、260…送信部、300…キーワード受信部、310…検索実行部、320…データベース、330…検索結果送信部、400…検索結果受信部、410…検索結果出力部

Claims (11)

  1.  コンピュータに、
     音声を収集して当該音声を示す音声データを生成する音声収集部と、
     前記音声データから、前記音声に含まれるキーワードである音声キーワードを抽出する音声キーワード抽出部と、
     前記音声データから、前記音声の強さ、速度及び抑揚の少なくとも一つを含む、前記音声の特徴を抽出する音声特徴抽出部と、
     前記音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された前記音声の特徴に対応する感情キーワードを選択する感情キーワード選択部と、
     抽出された前記音声キーワード及び選択された前記感情キーワードを送信する送信部と、
     を実現させるための送信プログラム。
  2.  請求項1に記載の送信プログラムであって、
     前記コンピュータに、ラッセルの感情円環モデルに含まれるキーワードを、前記キーワード群として格納する感情データベースをさらに実現させる、
     送信プログラム。
  3.  請求項1又は2に記載の送信プログラムであって、
     前記コンピュータに、複数の単語が予め格納された辞書データベースをさらに実現させ、
     前記音声キーワード抽出部は、前記音声に含まれる単語が前記辞書データベースに格納された単語のいずれかと一致した場合に、当該単語を前記音声キーワードとして抽出する、
     送信プログラム。
  4.  請求項1から3のいずれか一項に記載の送信プログラムであって、
     送信部は、前記音声収集部が音声を収集してから所定の期間が経過したことに応答して、前記音声キーワード及び選択された前記感情キーワードを送信する、
     送信プログラム。
  5.  請求項1から3のいずれか一項に記載の送信プログラムであって、
     前記音声特徴抽出部は、前記音声の特徴として、少なくとも前記音声の強さを抽出し、
     送信部は、前記音声特徴抽出部が抽出した前記音声の強さが所定の値を超えたことに応答して、前記音声キーワード及び選択された前記感情キーワードを送信する、
     送信プログラム。
  6.  請求項1から3のいずれか一項に記載の送信プログラムであって、
     送信部は、前記音声キーワード抽出部が所定の単語を抽出したことに応答して、前記音声キーワード及び選択された前記感情キーワードを送信する、
     送信プログラム。
  7.  請求項1から6のいずれか一項に記載の送信プログラムであって、
     前記コンピュータに、前記所定の検索による検索結果を出力する出力部をさらに実現させる、
     送信プログラム。
  8.  音声を収集して当該音声を示す音声データを生成する音声収集部と、
     前記音声データから、前記音声に含まれるキーワードである音声キーワードを抽出する音声キーワード抽出部と、
     前記音声データから、前記音声の強さ、速度及び抑揚の少なくとも一つを含む、前記音声の特徴を抽出する音声特徴抽出部と、
     前記音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された前記音声の特徴に対応する感情キーワードを選択する感情キーワード選択部と、
     抽出された前記音声キーワード及び選択された前記感情キーワードを送信する送信部と、
     を備えた送信装置。
  9.  音声を収集して当該音声を示す音声データを生成することと、
     前記音声データから、前記音声に含まれるキーワードである音声キーワードを抽出することと、
     前記音声データから、前記音声の強さ、速度及び抑揚の少なくとも一つを含む、前記音声の特徴を抽出することと、
     前記音声の特徴に基づいて、予め格納された感情キーワード群から、抽出された前記音声の特徴に対応する感情キーワードを選択することと、
     抽出された前記音声キーワード及び選択された前記感情キーワードを送信することと
    を含む送信方法。
  10.  請求項8に記載の送信装置であって、
     前記送信部は、前記送信装置の位置情報を送信する、送信装置。
  11.  請求項3に記載の前記音声キーワード及び前記感情キーワードに基づく検索処理を実行する検索装置であって、
     前記音声キーワードを格納するキーワードデータベースと、
     前記辞書データベースの更新指示を前記コンピュータから受信する受信部と、
     前記受信部を通じて受信された前記更新指示に応答して、前記キーワードデータベースに格納されている音声キーワードの関連語を推測する推測部と、
     前記キーワードデータベースに格納されている音声キーワードと、前記推測された関連語とに基づいて、更新後の辞書データベースを作成する辞書データベース作成部と、
     前記更新後の辞書データベースを前記コンピュータに送信する送信部と、
     を備える検索装置。
PCT/JP2017/033563 2016-09-29 2017-09-15 送信装置、送信方法及び送信プログラム WO2018061839A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018542405A JP6781961B2 (ja) 2016-09-29 2017-09-15 送信装置、送信方法及び送信プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016190878 2016-09-29
JP2016-190878 2016-09-29

Publications (1)

Publication Number Publication Date
WO2018061839A1 true WO2018061839A1 (ja) 2018-04-05

Family

ID=61759571

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/033563 WO2018061839A1 (ja) 2016-09-29 2017-09-15 送信装置、送信方法及び送信プログラム

Country Status (2)

Country Link
JP (1) JP6781961B2 (ja)
WO (1) WO2018061839A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087670A (zh) * 2018-08-30 2018-12-25 西安闻泰电子科技有限公司 情绪分析方法、系统、服务器及存储介质
JPWO2018207485A1 (ja) * 2017-05-11 2020-02-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN113808577A (zh) * 2021-09-18 2021-12-17 平安银行股份有限公司 语音摘要的智能提取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173349A (ja) * 2001-12-06 2003-06-20 Aruze Corp 情報検索システム及び情報検索方法
JP2005275601A (ja) * 2004-03-23 2005-10-06 Fujitsu Ltd 音声による情報検索システム
JP2009294790A (ja) * 2008-06-03 2009-12-17 Denso Corp 自動車用情報提供システム
JP2011028460A (ja) * 2009-07-24 2011-02-10 J&K Car Electronics Corp 情報検索装置、制御方法及びプログラム
JP2011248020A (ja) * 2010-05-25 2011-12-08 Sony Corp 検索装置、検索方法、及び、プログラム
JP2014149571A (ja) * 2013-01-31 2014-08-21 Nikon Corp コンテンツ検索装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003173349A (ja) * 2001-12-06 2003-06-20 Aruze Corp 情報検索システム及び情報検索方法
JP2005275601A (ja) * 2004-03-23 2005-10-06 Fujitsu Ltd 音声による情報検索システム
JP2009294790A (ja) * 2008-06-03 2009-12-17 Denso Corp 自動車用情報提供システム
JP2011028460A (ja) * 2009-07-24 2011-02-10 J&K Car Electronics Corp 情報検索装置、制御方法及びプログラム
JP2011248020A (ja) * 2010-05-25 2011-12-08 Sony Corp 検索装置、検索方法、及び、プログラム
JP2014149571A (ja) * 2013-01-31 2014-08-21 Nikon Corp コンテンツ検索装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2018207485A1 (ja) * 2017-05-11 2020-02-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
CN109087670A (zh) * 2018-08-30 2018-12-25 西安闻泰电子科技有限公司 情绪分析方法、系统、服务器及存储介质
CN109087670B (zh) * 2018-08-30 2021-04-20 西安闻泰电子科技有限公司 情绪分析方法、系统、服务器及存储介质
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN111312245B (zh) * 2020-02-18 2023-08-08 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN113808577A (zh) * 2021-09-18 2021-12-17 平安银行股份有限公司 语音摘要的智能提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JPWO2018061839A1 (ja) 2019-06-27
JP6781961B2 (ja) 2020-11-11

Similar Documents

Publication Publication Date Title
US10977452B2 (en) Multi-lingual virtual personal assistant
US11200506B2 (en) Chatbot integrating derived user intent
US9842101B2 (en) Predictive conversion of language input
KR102462426B1 (ko) 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법
CN108701125A (zh) 用于建议表情符号的系统和方法
WO2018061839A1 (ja) 送信装置、送信方法及び送信プログラム
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
US20200135213A1 (en) Electronic device and control method thereof
US11126685B2 (en) Preview and optimization of publication for target computing device
EP3826007B1 (en) Method and apparatus with speech processing
US20200219487A1 (en) Information processing apparatus and information processing method
KR20150086441A (ko) 콘텐츠 및 상관 거리에 기반하는 사람 연결
KR20210015010A (ko) 심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법
KR20120044809A (ko) 감성적 음성합성 장치 및 그 방법
US20190371300A1 (en) Electronic device and control method
KR101988165B1 (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP6804049B2 (ja) 情報表示プログラム、データ送信プログラム、データ送信装置、データ送信方法、情報提供装置及び情報提供方法
CN108268602A (zh) 分析文本话题点的方法、装置、设备和计算机存储介质
KR20160134564A (ko) 사용자의 감성을 분석하는 방법 및 디바이스
CN112017740A (zh) 一种基于知识图谱的疾病推理方法、装置、设备及储存介质
CN110383271A (zh) 具有示例生成器的数据输入系统
CN113627155A (zh) 一种数据筛选方法、装置、设备及存储介质
CN111971670A (zh) 在对话中生成响应
EP3779634B1 (en) Electronic device, and method for controlling electronic device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17855795

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018542405

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17855795

Country of ref document: EP

Kind code of ref document: A1