WO2014203328A1 - Voice data search system, voice data search method, and computer-readable storage medium - Google Patents
Voice data search system, voice data search method, and computer-readable storage medium Download PDFInfo
- Publication number
- WO2014203328A1 WO2014203328A1 PCT/JP2013/066690 JP2013066690W WO2014203328A1 WO 2014203328 A1 WO2014203328 A1 WO 2014203328A1 JP 2013066690 W JP2013066690 W JP 2013066690W WO 2014203328 A1 WO2014203328 A1 WO 2014203328A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- search
- information
- voice
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012545 processing Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000000605 extraction Methods 0.000 description 13
- 238000010276 construction Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 230000008451 emotion Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000012854 evaluation process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Definitions
- the present invention relates to a voice data search system, a voice data search method, and a computer-readable storage medium, for example, a technique for searching for a specific keyword from voice data.
- voice call data for thousands of hours a day specifically, operator and customer voices are often recorded in pairs. These are recorded for operator training and confirmation of received contents, and a voice database is used as necessary.
- customer voices contain information such as product names, product defects, and complaints that need to be heard efficiently and put together in reports.
- information on the time when voice is recorded is given to the voice data, and desired voice data is searched based on the time information. In the search based on the time information, it is necessary to know in advance the time when the desired voice is uttered, so that it is not suitable for use in searching for a voice with a specific utterance. When searching for a voice with a specific utterance, in the conventional method, it is necessary to listen to the voice data from the beginning to the end.
- the subword search method which is one of representative methods, first, speech data is converted into a subword string by a subword recognition process.
- the subword is a name indicating a general unit system smaller than a word, such as a phoneme or a syllable.
- the subword expression of the input keyword is compared with the subword recognition result of the speech data, and the distance between the subwords is calculated according to some criteria. By sorting the search results in descending order using the calculated distance as a score, the time when the keyword is spoken is detected on the voice data.
- Patent Document 1 Japanese Patent Laid-Open No. 2004-133867 discloses an input search when a search result obtained by searching an input search keyword from a speech database and an appearance location (time) of a search result by a co-occurrence keyword related to the input search keyword are close. It discloses that an evaluation value (score value) of a search result by a keyword is increased.
- Patent Document 1 a keyword and its co-occurrence keyword are searched only from the voice data of the speaker to be searched, and a score is given based on the search result.
- subword recognition is difficult for customer's voice due to the influence of noise and the diversity of speaker characteristics, and keyword misdetection increases. For this reason, the technique such as Patent Document 1 has a problem that unnecessary search results rise to the top and search accuracy decreases.
- the present invention has been made in view of such a situation, and provides a technique for realizing high-accuracy speech data retrieval.
- the present invention it is possible to improve the search accuracy by correcting the score using the status of the speech section of another speaker before and after the speech section of the keyword search result, for example, the related keyword and the silent section length.
- FIG. 10 is a flowchart for explaining processing by a related information data selection unit 1305; It is a figure which shows the structural example of the audio
- 14 is a diagram illustrating an example of a format of audio data stored in a storage device 1719.
- FIG. It is a figure which shows schematic structure of a general content cloud system. It is a figure which shows schematic structure of the audio
- the present invention uses the related keyword information and silent section length information included in the operator utterance when extracting the keyword from the voice of the customer, for example, the situation of the other speaker's voice section before and after the speech section of the keyword search result,
- the search accuracy is improved by correcting the search score value of the search result by the input search keyword.
- the present invention is made by a call center practitioner paying attention to an operator's response status, for example, silent section length and emotion information, when confirming whether customer voice data is a complaint, for example.
- the embodiment of the present invention may be implemented by software running on a general-purpose computer, or may be implemented by dedicated hardware or a combination of software and hardware.
- each information of the present invention will be described in a “table” format.
- the information does not necessarily have to be expressed in a data structure by a table, such as a data structure such as a list, a DB, a queue, or the like. It may be expressed as Therefore, “table”, “list”, “DB”, “queue”, etc. may be simply referred to as “information” to indicate that they do not depend on the data structure.
- program as a subject (operation subject).
- a program is executed by a processor and a process determined by a memory and a communication port (communication control device). Since it is performed while being used, the description may be made with the processor as the subject.
- the processing disclosed with the program as the subject may be processing performed by a computer such as a management server or an information processing apparatus. Part or all of the program may be realized by dedicated hardware, or may be modularized.
- Various programs may be installed in each computer by a program distribution server or a storage medium.
- the first embodiment relates to a stand-alone voice data retrieval apparatus.
- FIG. 1 is a diagram showing a configuration of a speech data retrieval apparatus 1 according to the first embodiment of the present invention.
- the speech data search apparatus 1 includes learning-labeled speech data (storage unit) 101, an acoustic / language model learning unit 102, an acoustic model 103, a language model (storage unit) 104, and search target data (storage unit). 105, indexing / speech information extraction unit 106, index / speech information data (storage unit) 107, dialogue order analysis unit 108, dialogue order data (storage unit) 109, keyword input unit 110, and related information input Unit 111, candidate position evaluation unit 112, search result integration unit 113, and search result display unit 114.
- the learning-labeled speech data (storage unit) 101 is learning data prepared in advance, and stores a speech waveform of an unspecified number of speakers and text that transcribes the utterance content with a label. . If the voice data is accompanied by a written text, the voice data may be a voice track extracted from the TV, a reading voice corpus, or a normal conversation. Of course, an ID for identifying the speaker and a label such as the presence or absence of noise may be attached.
- the acoustic model / language model learning unit 102 sets parameters of each statistical model using the learning-labeled speech data 101.
- the problem of recognizing speech data can result in, for example, a posterior probability maximization search problem.
- a solution is obtained based on an acoustic model and a language model learned from a large amount of learning data.
- Processing for estimating parameters of the acoustic model and the language model is performed using the learning-labeled speech data 101.
- HMM Hidden Markov Model
- N-Gram may be adopted as the language model.
- the acoustic model (storage unit) 103 stores parameters of a statistical model that expresses a voice feature (for example, a feature of the sound of “A”).
- the language model (storage unit) 104 includes language features (features of connection between words: for example, the word “ha” is connected after the word “dinner”, or the word “dinner” is “eating”. , Etc.), which stores the parameters of a statistical model that represents.
- Search target data (storage unit) 105 stores voice data to be searched, voice extracted from TV, conference voice, recorded voice on a telephone line (for example, utterance record), and the like.
- the audio data may be recorded in a plurality of files by type, a plurality of channels may be recorded, or metadata information such as a speaker identification ID may be given.
- the indexing / speech information extraction unit 106 detects an utterance section from the search target data 105, performs subword recognition using the acoustic model 103 and the language model 104, and obtains a subword recognition result, an N-gram index based on the subword, and other information.
- the included index audio information data is generated and stored in the index / audio information data (storage unit) 107.
- the dialog order analysis unit 108 reads the utterance section information, the audio file channel information, and the metadata information detected by the indexing / speech information extraction unit 106 from the index / speech information data (storage unit) 107, and uses these information.
- the dialogue order data is generated and stored in the dialogue order data (storage unit) 109. More specifically, with reference to the metadata, a process of identifying which person's utterance data appears after the utterance of a specific person and associating the index voice data with the information of the order of dialogue is performed. For example, if the stored data is call voice recording data, two-way calls are recorded in different channels of the same audio file, or conversations of multiple speakers are recorded in separate files, but are linked by metadata. There may be. Here, first, a set of files in which conversations on the same time are recorded is obtained based on channel information and metadata information. This is the preprocessing part in the speech data retrieval apparatus.
- the keyword input unit 110 receives a search keyword input by the user, converts it to a subword string if necessary, and outputs the converted subword string to the candidate position evaluation unit 112.
- the related information input unit 111 receives and analyzes data (related words and related information of a search keyword) input by a user, and sets various parameters such as related keywords used in the search, silent section information, and weights to the candidate position evaluation unit 112. Output to.
- data related words and related information of a search keyword
- the related words can include station names, departure times, route names, etc.
- the related information includes silent section length information and utterance length.
- Information for example, information that the utterance time of the customer is more than twice the utterance time of the operator).
- the candidate position evaluation unit 112 includes a subword string of search keywords output from the keyword input unit 110, search related keywords and silent section information output from the related information input unit 111, and parameters thereof (hereinafter referred to as related information), and indexes / voices.
- related information parameters thereof (hereinafter referred to as related information), and indexes / voices.
- the search result integration unit 113 sorts the search candidates output by the candidate position evaluation unit 112 based on the score, and outputs the search results to the search result display unit 114 as a search result.
- the search result display unit 114 forms the search candidate appearance file name, time, score, and the like, and transmits the search result output by the search result integration unit 113 to the output device.
- the steps up to here are the part of the search process in the voice data search apparatus 1.
- the sorting algorithm can use a well-known quick sort, radix sort, or the like.
- the sorted search results include the file name, time, and score at which each search candidate is determined to have been uttered. This search result is sent to the search result display unit 114, but it is also possible to send only the search result to another application.
- the search result display unit 114 transfers the search results from the top of the score in the display format of the display and displays them on the display.
- the voice data search device 1 has been described as a single device, but may be configured by a system including a terminal (browser) and a computer (server).
- the terminal (browser) executes processing of the keyword input unit 110 and the search result display unit 114
- the computer (server) executes processing of other processing units.
- the search target data 105, the learning-labeled voice data 101, the acoustic model 103, the language model 104, the index / voice information data 107, and the dialogue order data 109 are stored and generated in the same apparatus.
- FIG. the search target data 105 is stored in an external storage, and the index / voice information data 107, the dialogue order data 109, the acoustic model 103, and the language model 104 are created in advance by another computer, and the search process is executed. It can be copied to a computer and used.
- FIG. 2 is a flowchart for explaining audio data registration processing executed by the indexing / audio information extracting unit 106 in the present embodiment of the present invention.
- the indexing / voice information extraction unit 106 selects all voices (data for each channel: where ch is, for example, telephone conversation data, uplink ch (customer utterance) and downlink ch (operator utterance)).
- ch is, for example, telephone conversation data, uplink ch (customer utterance) and downlink ch (operator utterance)).
- the audio data of a plurality of files of the search target data 105 are divided into appropriate lengths (step 202). For example, when the time during which the audio power is equal to or less than the predetermined threshold ⁇ p continues for the predetermined threshold ⁇ t or more, the audio data may be divided at that position.
- FIG. 3 shows the audio data divided in this way. In FIG. 3, information indicating the original file and the start time (301) and end time information (302) of the divided sections are given to each audio section.
- a method using the number of zero crossings a method using a GMM (Gaussian Mixture Model), a method using a voice recognition technique, etc.
- GMM Gausian Mixture Model
- voice information such as emotion and speech speed information may be extracted. Since the method for realizing these can be performed by combining known techniques, details are omitted.
- the indexing / speech information extraction unit 106 performs subword conversion processing on all speech sections (step 203). Specifically, the audio data is converted into subword units. Next, the converted subword string (subword recognition result), time corresponding to the subword N-gram, speech section information, and other voice information (such as voice time length), metadata (speaker ID, operator ID, date, Customer telephone number information, channel information of each speaker, etc.) are stored in the index / voice information data 107 (step 204).
- the audio data registration process may be performed only once during the initial operation. When this voice data registration process is completed, a keyword search becomes possible.
- only the so-called 1-best recognition result is stored in the index table, but a plurality of speech recognition results may be output in the N-best format or the network format.
- FIG. 4 is a diagram illustrating a configuration example of information stored in the index / audio information data (storage unit) 107.
- ID 401 is the management number of the database and indicates the ID of the audio file.
- File name-ch 402 is an audio file name and channel number.
- xxx. wav 0ch indicates the file name of the operator's utterance and the channel number on which it was uttered.
- xxx. wav 1ch indicates the file name of the customer's utterance and the channel number on which the utterance is spoken.
- the N-gram index 403 is a column for recording a pair of the S-ID (ID included in the subword recognition result) of the subword N-gram index of the audio file and its appearance position. From the information of the N-gram index 403 in FIG. 4, the sub-word N-gram w-En has the 0th place of the index of the sub-word sequence with the S-ID of 0 and the sub-word sequence with the S-ID of 5. It can be seen that the index appears at the eleventh place.
- the subword recognition result 404 is information including S-ID that is a subword ID and subword string information.
- an utterance section ID (S-ID) in the voice file a subword recognition result of the section, and an utterance section and its length are recorded.
- FIG. 6 is a diagram illustrating an example of a conversation on the same time.
- a number 601 is assigned to each utterance section of each file.
- utterances existing around a certain utterance section of a certain file are linked. This may be done by focusing on each utterance section and listing the utterance sections of another audio file or channel that falls within an appropriate time range. For example, xxx. In the vicinity (front and back) of the utterance section 0 of wavch0, xxx. It can be seen that utterance sections 2 and 3 of wavch1 exist.
- the related information input unit 111 further determines whether or not it is a sub-word string (step 1002).
- the related information input unit 111 converts the corresponding word into a subword string (step 1003).
- the candidate position evaluation unit 112 determines whether or not the silent data is included in the input data from the related information input unit 111 (specifically, whether or not a flag that uses the silent data is input to the input data). Is determined (step 1105). If silence section information is included, the process proceeds to step 1106. If not included, the process proceeds to step 1107.
- the candidate position evaluation unit 112 corrects the search candidate score calculated in step 1102 using the various scores calculated in step 1104 and / or step 1107 (step 1107). Specifically, the correction score of the candidate section is calculated according to the following formula 1. [Formula 1]
- FIG. 13 is a diagram illustrating a configuration example showing the voice data search device 2 according to the second embodiment.
- the blocks given the same reference numerals shown in FIG. 1 already described have the same functions, and their descriptions are omitted.
- the speech data retrieval apparatus 1 according to the first embodiment is similar to the speech 1301 with learning data label, the text data 1302, the related information data construction unit 1303, and the related information data. 1304 and a related information selection unit 1305 are added.
- the related information data construction unit 1303 uses the learning data labeled speech 1301 and the text data 1302 to analyze the relationship between the co-occurrence words or words and the silence interval length, and stores the information as the related information data 1304.
- the related information data construction unit 1303 assigns attribute values of each word, for example, information such as anger, emotion, product name, part of speech, using the emotion word dictionary and the product name list (step 1401).
- the related information data construction unit 1303 transcribes each word in the word dictionary, which is attached to the learning data labeled speech 1401, enumerates all the appearance positions from the label, and other words around the utterance including the word All the utterance interval lengths of the speakers are counted, and statistics such as the average and variance are calculated (step 1403).
- the silent section length may be a value given by manually listening to an audio file, or may be a value automatically detected using a speech section detection technique. Further, the appearance frequency of the silent section length or the prior probability itself corresponds to the weight parameter in the score.
- related words are managed by word IDs. These values are all generated by the related information data construction unit 1303.
- the word (phrase) “ID” is related to the word (phrase) “ID” of “0”. That is, for example, when the customer utters “Do not play”, the operator often utters “I am sorry”, so the latter is registered as the related voice information of the former.
- step 1602 the related information data selection unit 1305 acquires information (related words, silent sections and their parameters) related to the input search keyword from the related information data (storage unit) 1304.
- the related data selection unit 1305 selects a similar word group using the subword distance and attribute, and stores the information.
- the parameters of the input keyword are predicted and output.
- related speech information and parameters of a word having the nearest phoneme distance to the input keyword may be output. For example, if "I'm sorry" is registered as related information data, but the input word is "I'm sorry” and the word itself is not registered, the related voice information about "I'm sorry" Will be output.
- a third embodiment relates to a system that can be introduced into a call center by adding a telephone line call recording device to the voice data search device 1.
- FIG. 17 is a diagram illustrating a configuration example of a speech data search system according to the third embodiment.
- the voice data search system 3 according to the third embodiment corresponds to an example in which the voice data search device 1 according to the first embodiment is applied to a call center.
- the call recording device 1704 has a general-purpose computer configuration such as a CPU, a memory, and a control program. Also, the call recording device 1704 acquires a voice signal based only on the customer's utterance from the PBX device 1703 or the telephone 1702 used by the operator. Further, the call recording device 1704 acquires a voice signal from the telephone 1702 only by the operator's utterance. It is also possible to acquire a voice signal of only the operator's utterance by preparing a headset and a recording device separately. Thereafter, the call recording device 1704 performs A / D conversion on the audio signal only from the customer and the audio signal only from the operator, and converts it into digital data such as WAV format. The conversion to audio data may be performed by real time processing. These search target data 1706 are stored in the storage device 1719 together with the call management data 1705.
- the storage device 1720 stores at least a language model 1707, an acoustic model 1708, index / voice information data 1709, and dialogue order data 2210 as data used in the search.
- the search target data 1706 is accessed at regular intervals, only the difference data is indexed, and added to the index / voice information data 1709 (index table). May be.
- the content cloud system targets data in any format such as audio data 1901, medical data 1901, and / or mail data 1901 as input.
- the various data are, for example, call center call voice, mail data, document data, and the like, and may be structured or not.
- Data input to the content cloud system is temporarily stored in the content storage 1902.
- the content storage 1904 stores the information extracted by the ETL 1903 and the pre-processing data 1901 temporarily stored in the storage 1902.
- the search engine 1905 searches the text based on the index created by the ETL 1903, for example, if it is a text search, and transmits the search result to the application program 1908.
- a publicly known technique can be applied to the search engine and its algorithm.
- the search engine may include a module that searches not only text but also data such as images and sounds.
- the multimedia server 1907 pieces of information between metadata extracted by the ETL 1903 are associated with each other, and the metadata is structured in a graph format and stored.
- the original voice file, image data, related words, and the like are expressed in a network format with respect to the voice recognition result “apple” stored in the content storage 1904.
- the multimedia server 1907 receives a request from the application 1908, the multimedia server 1907 transmits meta information corresponding to the request to the application 1908. For example, when there is a request for “apple”, related meta information such as an image of an apple, an average market price, and an artist's song name is provided based on the constructed graph structure.
- FIG. 20 is a diagram showing a schematic configuration of a voice data search system realized by incorporating the function of the voice data search device 1 into the content cloud system.
- Various functions of the speech data retrieval apparatus 1 are modularized, and an indexing module (indexing / speech information extraction unit 106, dialogue order analysis unit 108) and a search module (keyword input unit 110, related information input unit 111, candidate position evaluation unit 112).
- the search result integration unit 113 The search result integration unit 113).
- the acoustic model 103 and the language model 104 are created in advance by another computer and copied to the content cloud system.
- the indexing module 2001 can be registered in the ETL 1903
- the search module 2002 can be registered in the multimedia server 1907.
- the search module 2002 uses the index / voice information data 2003 (corresponding to 107), and the file name and time when the keyword is spoken. Returns a list of scores.
- the processing of the indexing / voice information extraction module and search module 2002 is only a part of the processing of the voice data search apparatus 1 and will not be described here.
- the search module 2002 can be set in the search engine 1905. In this case, when a request is made from the allocation program 1908 to the search engine 1905, the search module 2002 transmits the file name, time, and score at which the keyword is spoken in the voice data to the search engine 1905.
- the voice data search device 2 according to the second embodiment can be introduced into the system according to the third embodiment or incorporated into the content cloud system according to the fourth embodiment. .
- dialogue order data indicating the utterance order of the voice segment data of the search target data is generated based on the voice file channel information and the voice metadata information included in the index voice information data.
- the score value (first score value) between the search keyword and the voice section data included in the index voice information data is calculated, and a plurality of search result candidates are acquired.
- the voice segment data around each of the plurality of search result candidates is specified based on the dialogue order data.
- related information related to the search keyword is acquired (when the user inputs it or when it is acquired from the related information data storage unit (DB)), and the score between the related information and the speech section data around the search result publication A value (second score value) is calculated.
- the first score value is corrected using the second score value, and a plurality of search result candidates are sorted and output using the corrected score value.
- the score value between the search keyword and the search target data is corrected with the score value based on the related information, so that the search accuracy can be improved.
- related information not only related words (words having a high co-occurrence) related to the search keyword, but also information on silent section length, speech section length to be searched, and other speakers before and after the speech section. Information on the ratio of the length of the voice interval can also be used.
- the score value correction is performed using the silent section length information, by calculating the relative relationship of the silent section lengths around the speech section including each of the search candidates (specified by the dialogue order data) A second score value is calculated. By doing in this way, it becomes possible to implement
- a related information database to be stored may be provided.
- related information related to the search keyword is acquired from the related information database.
- search candidate score value can be corrected, so that the search accuracy can be improved.
- the present invention can also be realized by software program codes that implement the functions of the embodiments.
- a storage medium in which the program code is recorded is provided to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus reads the program code stored in the storage medium.
- the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing the program code constitute the present invention.
- a storage medium for supplying such program code for example, a flexible disk, CD-ROM, DVD-ROM, hard disk, optical disk, magneto-optical disk, CD-R, magnetic tape, nonvolatile memory card, ROM Etc. are used.
- an OS operating system
- the computer CPU or the like performs part or all of the actual processing based on the instruction of the program code.
- the program code is stored in a storage means such as a hard disk or a memory of a system or apparatus, or a storage medium such as a CD-RW or CD-R
- the computer (or CPU or MPU) of the system or apparatus may read and execute the program code stored in the storage means or the storage medium when used.
- control lines and information lines are those that are considered necessary for the explanation, and not all control lines and information lines on the product are necessarily shown. All the components may be connected to each other.
- Speech data with learning 102
- Acoustic model / language model learning unit 103
- Acoustic model 104
- Language model 105
- Search target data 106
- Indexing / speech information extraction unit 107
- Index / speech information data 108
- Dialogue order analysis unit 109
- Dialogue order data 110
- Keyword input Unit 111 related information input unit 112 candidate position evaluation unit 113 search result integration unit 114 search result display unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
A technique for achieving an accurate voice data search is provided. The present invention receives a search keyword and calculates first score values, which are score values between the search keyword and pieces of voice section data included in indexed voice information data, thereby obtaining a plurality of search result candidates. The present invention then identifies pieces of voice section data adjacent to each of the plurality of search result candidates on the basis of dialog sequence data. Further, the present invention obtains information related to the search keyword and calculates second score values, which are score values between the related information and the adjacent pieces of voice section data. The present invention then corrects the first score values using the second score values, outputs the corrected score values, sorts the plurality of search result candidates by use of the corrected score values, and outputs the sorted plurality of search result candidates.
Description
本発明は、音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体に関し、例えば、音声データから特定のキーワードを検索する技術に関するものである。
The present invention relates to a voice data search system, a voice data search method, and a computer-readable storage medium, for example, a technique for searching for a specific keyword from voice data.
コールセンターでは一日に何千時間もの音声通話データ、具体的には、オペレータとカスタマーの音声がペアで録音されていることが多い。これらは、オペレータの教育や受け付け内容の確認のために録音されており、必要に応じて音声データベースが利用される。特に、カスタマーの音声には、製品名や製品の欠陥、クレームといった情報が含まれており、これらを効率よく聴取し、レポートにまとめる必要がある。従来の多くの音声データベースでは、音声データには音声が録音された時刻の情報が付与され、その時刻情報に基づいて、所望の音声データが検索される。時刻情報に基づく検索では、所望の音声が発話された時刻をあらかじめ知る必要があるので、特定の発話がなされた音声を検索するような用途には不向きであった。特定の発話がなされた音声を検索する場合、従来の方法では、音声データを始めから終わりまで聴取する必要があった。
In a call center, voice call data for thousands of hours a day, specifically, operator and customer voices are often recorded in pairs. These are recorded for operator training and confirmation of received contents, and a voice database is used as necessary. In particular, customer voices contain information such as product names, product defects, and complaints that need to be heard efficiently and put together in reports. In many conventional voice databases, information on the time when voice is recorded is given to the voice data, and desired voice data is searched based on the time information. In the search based on the time information, it is necessary to know in advance the time when the desired voice is uttered, so that it is not suitable for use in searching for a voice with a specific utterance. When searching for a voice with a specific utterance, in the conventional method, it is necessary to listen to the voice data from the beginning to the end.
そこで、音声データベースにおいて、特定のキーワードが発話された位置を検出する技術が開発されている。代表的な方法の一つであるサブワード検索法では、まず、音声データをサブワード認識処理によってサブワード列へと変換する。ここで、サブワードとは、音素、音節など、単語よりも細かい単位系一般を指す名称である。サブワード検索法では、入力されたキーワードのサブワード表現と音声データのサブワード認識結果とを比較し、何らかの基準に従ってサブワード同士の距離を算出する。この算出された距離をスコアとし、降順に検索結果をソートすることによって、音声データ上でキーワードが発話された時刻を検出する。このような技術を開示する文献として、例えば特許文献1がある。特許文献1は、入力された検索キーワードを音声データベースから検索して得られた検索結果と、入力検索キーワードに関連する共起キーワードによる検索結果の出現箇所(時間)が近い場合には、入力検索キーワードによる検索結果の評価値(スコア値)を上げることを開示している。
Therefore, a technology for detecting a position where a specific keyword is spoken in a speech database has been developed. In the subword search method, which is one of representative methods, first, speech data is converted into a subword string by a subword recognition process. Here, the subword is a name indicating a general unit system smaller than a word, such as a phoneme or a syllable. In the subword search method, the subword expression of the input keyword is compared with the subword recognition result of the speech data, and the distance between the subwords is calculated according to some criteria. By sorting the search results in descending order using the calculated distance as a score, the time when the keyword is spoken is detected on the voice data. As a document disclosing such a technique, there is, for example, Patent Document 1. Japanese Patent Laid-Open No. 2004-133867 discloses an input search when a search result obtained by searching an input search keyword from a speech database and an appearance location (time) of a search result by a co-occurrence keyword related to the input search keyword are close. It discloses that an evaluation value (score value) of a search result by a keyword is increased.
しかしながら、特許文献1では、検索対象となっている話者の音声データのみから、キーワードおよびその共起キーワードを検索し、その検索結果に基づいてスコアを付与している。通常、カスタマーの音声には雑音の影響や話者性の多様性によりサブワード認識が困難となり、キーワードの誤検出が増加する。そのため、特許文献1のような技術においては、不要な検索結果が上位に上がり、検索精度が低下するという課題がある。
However, in Patent Document 1, a keyword and its co-occurrence keyword are searched only from the voice data of the speaker to be searched, and a score is given based on the search result. In general, subword recognition is difficult for customer's voice due to the influence of noise and the diversity of speaker characteristics, and keyword misdetection increases. For this reason, the technique such as Patent Document 1 has a problem that unnecessary search results rise to the top and search accuracy decreases.
本発明はこのような状況に鑑みてなされたものであり、高精度な音声データ検索を実現するための技術を提供するものである。
The present invention has been made in view of such a situation, and provides a technique for realizing high-accuracy speech data retrieval.
上記課題を解決するために、本発明では、(i)学習用音声データから生成される音響モデル及び言語モデルを用いて、検索対象データの音声区間のデータに対してサブワード認識処理を行い、音声区間データと、無音区間の情報と、音声区間データが発話されたチャンネルを示す音声ファイルチャンネル情報と、音声メタデータ情報と、を含むインデックス音声情報データを生成する処理と、(ii)音声ファイルチャンネル情報と音声メタデータ情報に基づいて、音声区間データの発話順序を示す対話順序データを生成する処理と、(iii)検索キーワードを受け付け、当該検索キーワードとインデックス音声情報データに含まれる音声区間データとのスコア値である第1のスコア値を計算して複数の検索結果候補を取得する処理と、(iv)複数の検索結果候補のそれぞれの周辺の音声区間データを対話順序データに基づいて特定する処理と、(v)検索キーワードに関連する関連情報を取得し、当該関連情報と周辺の音声区間データとのスコア値である第2のスコア値を計算する処理と、(vi)第2のスコア値を用いて第1のスコア値を補正し、補正スコア値を出力する処理と、(vii)補正スコア値を用いて前記複数の検索結果候補をソートして出力する処理と、が実行される。
In order to solve the above-described problems, in the present invention, (i) using a sound model and a language model generated from learning speech data, subword recognition processing is performed on the data in the speech section of the search target data, and speech Processing for generating index audio information data including section data, silent section information, voice file channel information indicating a channel in which the voice section data is spoken, and voice metadata information; and (ii) a voice file channel Processing for generating dialogue order data indicating the utterance order of voice segment data based on the information and voice metadata information; and (iii) accepting a search keyword, and voice segment data included in the search keyword and index voice information data; (Iv) a process of calculating a first score value that is a score value and obtaining a plurality of search result candidates; A process of identifying the surrounding speech interval data of the number of search result candidates based on the dialogue order data; and (v) acquiring related information related to the search keyword, and obtaining the related information and the surrounding speech interval data A process of calculating a second score value which is a score value, (vi) a process of correcting the first score value using the second score value and outputting a corrected score value, and (vii) a corrected score value And processing for sorting and outputting the plurality of search result candidates using the.
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
Further features related to the present invention will become apparent from the description of the present specification and the accompanying drawings. The embodiments of the present invention can be achieved and realized by elements and combinations of various elements and the following detailed description and appended claims.
本発明によれば、キーワード検索結果の音声区間の前後の他話者の音声区間の状況、例えば関連キーワードや無音区間長を使ってスコアを補正することで、検索精度を向上させることができる。
According to the present invention, it is possible to improve the search accuracy by correcting the score using the status of the speech section of another speaker before and after the speech section of the keyword search result, for example, the related keyword and the silent section length.
本発明は、キーワード検索結果の音声区間の前後の他話者の音声区間の状況、例えばカスタマーの音声からキーワードを抽出する場合にオペレータ発話に含まれる関連キーワード情報や無音区間長情報を用いて、入力検索キーワードによる検索結果の検索スコア値を補正することにより、検索精度を向上させる。本発明は、コールセンターの実務者が、カスタマーの音声データを、例えばクレームかどうか確認する際、オペレータの対応状況、例えば無音区間長や感情情報など、にも着目することによりなされたものである。
The present invention uses the related keyword information and silent section length information included in the operator utterance when extracting the keyword from the voice of the customer, for example, the situation of the other speaker's voice section before and after the speech section of the keyword search result, The search accuracy is improved by correcting the search score value of the search result by the input search keyword. The present invention is made by a call center practitioner paying attention to an operator's response status, for example, silent section length and emotion information, when confirming whether customer voice data is a complaint, for example.
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. In the accompanying drawings, functionally identical elements may be denoted by the same numbers. The attached drawings show specific embodiments and implementation examples based on the principle of the present invention, but these are for understanding the present invention and are not intended to limit the present invention. Not used.
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
This embodiment has been described in sufficient detail for those skilled in the art to practice the present invention, but other implementations and configurations are possible without departing from the scope and spirit of the technical idea of the present invention. It is necessary to understand that the configuration and structure can be changed and various elements can be replaced. Therefore, the following description should not be interpreted as being limited to this.
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
Furthermore, as will be described later, the embodiment of the present invention may be implemented by software running on a general-purpose computer, or may be implemented by dedicated hardware or a combination of software and hardware.
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
In the following description, each information of the present invention will be described in a “table” format. However, the information does not necessarily have to be expressed in a data structure by a table, such as a data structure such as a list, a DB, a queue, or the like. It may be expressed as Therefore, “table”, “list”, “DB”, “queue”, etc. may be simply referred to as “information” to indicate that they do not depend on the data structure.
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
In addition, when explaining the contents of each information, the expressions “identification information”, “identifier”, “name”, “name”, “ID” can be used, and these can be replaced with each other. It is.
以下では「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
In the following, each process in the embodiment of the present invention will be described using “program” as a subject (operation subject). However, a program is executed by a processor and a process determined by a memory and a communication port (communication control device). Since it is performed while being used, the description may be made with the processor as the subject. Further, the processing disclosed with the program as the subject may be processing performed by a computer such as a management server or an information processing apparatus. Part or all of the program may be realized by dedicated hardware, or may be modularized. Various programs may be installed in each computer by a program distribution server or a storage medium.
(1)第1の実施形態
第1の実施形態は、スタンドアローンの音声データ検索装置に関するものである。 (1) First Embodiment The first embodiment relates to a stand-alone voice data retrieval apparatus.
第1の実施形態は、スタンドアローンの音声データ検索装置に関するものである。 (1) First Embodiment The first embodiment relates to a stand-alone voice data retrieval apparatus.
<音声データ検索装置の構成>
図1は、本発明の第1の実施形態による音声データ検索装置1の構成を示す図である。 <Configuration of voice data retrieval device>
FIG. 1 is a diagram showing a configuration of a speechdata retrieval apparatus 1 according to the first embodiment of the present invention.
図1は、本発明の第1の実施形態による音声データ検索装置1の構成を示す図である。 <Configuration of voice data retrieval device>
FIG. 1 is a diagram showing a configuration of a speech
音声データ検索装置1は、学習用ラベル付き音声データ(格納部)101と、音響・言語モデル学習部102と、音響モデル103と、言語モデル(格納部)104と、検索対象データ(格納部)105と、インデキシング・音声情報抽出部106と、インデックス・音声情報データ(格納部)107と、対話順序解析部108と、対話順序データ(格納部)109と、キーワード入力部110と、関連情報入力部111と、候補位置評価部112と、検索結果統合部113と、検索結果表示部114と、を有している。
The speech data search apparatus 1 includes learning-labeled speech data (storage unit) 101, an acoustic / language model learning unit 102, an acoustic model 103, a language model (storage unit) 104, and search target data (storage unit). 105, indexing / speech information extraction unit 106, index / speech information data (storage unit) 107, dialogue order analysis unit 108, dialogue order data (storage unit) 109, keyword input unit 110, and related information input Unit 111, candidate position evaluation unit 112, search result integration unit 113, and search result display unit 114.
学習用ラベル付き音声データ(格納部)101は、予め用意された学習用のデータであって、不特定数の話者の音声波形とその発話内容を書き起こしたテキストなどをラベル付きで格納する。音声データは書き起こしたテキストが付属していれば、TVから抽出した音声トラック、読み上げ音声コーパス、通常の会話を録音したものでも良い。もちろん、発話者を識別するID,雑音の有無などのラベルも付属していても良い。
The learning-labeled speech data (storage unit) 101 is learning data prepared in advance, and stores a speech waveform of an unspecified number of speakers and text that transcribes the utterance content with a label. . If the voice data is accompanied by a written text, the voice data may be a voice track extracted from the TV, a reading voice corpus, or a normal conversation. Of course, an ID for identifying the speaker and a label such as the presence or absence of noise may be attached.
音響モデル・言語モデル学習部102は、学習用ラベル付き音声データ101を用いて、それぞれの統計モデルのパラメータを設定する。音声データを認識する問題は、例えば、事後確率最大化探索問題に帰着することができる。この事後確率最大化探索問題では、大量の学習データから学習された音響モデル及び言語モデルに基づいて解が求められる。学習用ラベル付き音声データ101を用いて、音響モデルおよび言語モデルのパラメータを推定する処理を行う。例えば、音響モデルにはHMM(Hidden Markov Model)を、言語モデルにはN-Gramを採用すればよい。音声認識の詳しい方法、音響モデルと言語モデルを構築し、パラメータを推定する方法については、広く知られた技術であるので説明を省略する。例えば、「鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、「音声認識システム」、オーム社、2001年」に記載されている。
The acoustic model / language model learning unit 102 sets parameters of each statistical model using the learning-labeled speech data 101. The problem of recognizing speech data can result in, for example, a posterior probability maximization search problem. In this posterior probability maximization search problem, a solution is obtained based on an acoustic model and a language model learned from a large amount of learning data. Processing for estimating parameters of the acoustic model and the language model is performed using the learning-labeled speech data 101. For example, HMM (Hidden Markov Model) may be adopted as the acoustic model, and N-Gram may be adopted as the language model. Since a detailed method of speech recognition, a method of constructing an acoustic model and a language model, and estimating a parameter are well-known techniques, description thereof will be omitted. For example, it is described in “Kiyohiro Shikano, Katsunobu Ito, Tatsuya Kawahara, Kazuya Takeda, Mikio Yamamoto,“ Speech Recognition System ”, Ohmsha, 2001”.
音響モデル(格納部)103は、音声特徴(例えば、「あ」の音の特徴)を表現した統計的モデルのパラメータを格納したものである。言語モデル(格納部)104は、言語特徴(単語間の接続の特徴:例えば、「夕食」という単語の後には「を」という助詞が接続されるとか、「夕食を」という語句には「食べる」という単語が接続される等)を表現した統計的モデルのパラメータを格納したものである。
The acoustic model (storage unit) 103 stores parameters of a statistical model that expresses a voice feature (for example, a feature of the sound of “A”). The language model (storage unit) 104 includes language features (features of connection between words: for example, the word “ha” is connected after the word “dinner”, or the word “dinner” is “eating”. , Etc.), which stores the parameters of a statistical model that represents.
検索対象データ(格納部)105は、検索対象となる音声データ、TVから抽出した音声、会議の音声、電話回線の録音音声(例えば、発話記録)などを格納する。音声データは、種類別に複数のファイルに記録されてもよいし、複数チャンネルが記録されていてもよいし、発話者の識別IDなどのメタデータ情報も付与されていても良い。
Search target data (storage unit) 105 stores voice data to be searched, voice extracted from TV, conference voice, recorded voice on a telephone line (for example, utterance record), and the like. The audio data may be recorded in a plurality of files by type, a plurality of channels may be recorded, or metadata information such as a speaker identification ID may be given.
インデキシング・音声情報抽出部106は、検索対象データ105から発話区間を検出し、音響モデル103、言語モデル104を用いてサブワード認識を行い、サブワード認識結果、サブワードによるN-gram索引、その他の情報を含めたインデックス音声情報データを生成し、インデックス・音声情報データ(格納部)107に保存する。
The indexing / speech information extraction unit 106 detects an utterance section from the search target data 105, performs subword recognition using the acoustic model 103 and the language model 104, and obtains a subword recognition result, an N-gram index based on the subword, and other information. The included index audio information data is generated and stored in the index / audio information data (storage unit) 107.
対話順序解析部108は、インデキシング・音声情報抽出部106で検出された発話区間情報と音声ファイルチャンネル情報やメタデータ情報をインデックス・音声情報データ(格納部)107から読み出し、これらの情報を利用して対話順序データを生成し、対話順序データ(格納部)109に保存する。より具体的には、メタデータを参照して特定の人の発話の後にはどの人の発話のデータが出現するかを識別し、インデックス音声データに対話の順序の情報を対応付ける処理が行われる。例えば、格納されるデータが通話音声の録音データの場合、双方向通話が同一音声ファイルの異なるチャンネルに記録されていたり、複数話者の会話が別ファイルに記録されているがメタデータによってひもづいている場合がある。ここでは、チャンネル情報とメタデータ情報によって、まず同一時間上での会話を記録したファイルの集合を求める。ここまでが、音声データ検索装置における前処理の部分である。
The dialog order analysis unit 108 reads the utterance section information, the audio file channel information, and the metadata information detected by the indexing / speech information extraction unit 106 from the index / speech information data (storage unit) 107, and uses these information. The dialogue order data is generated and stored in the dialogue order data (storage unit) 109. More specifically, with reference to the metadata, a process of identifying which person's utterance data appears after the utterance of a specific person and associating the index voice data with the information of the order of dialogue is performed. For example, if the stored data is call voice recording data, two-way calls are recorded in different channels of the same audio file, or conversations of multiple speakers are recorded in separate files, but are linked by metadata. There may be. Here, first, a set of files in which conversations on the same time are recorded is obtained based on channel information and metadata information. This is the preprocessing part in the speech data retrieval apparatus.
キーワード入力部110は、ユーザによって入力された検索用キーワードを受け付け、必要ならば、サブワード列に変換し、変換されたサブワード列を候補位置評価部112に出力する。
The keyword input unit 110 receives a search keyword input by the user, converts it to a subword string if necessary, and outputs the converted subword string to the candidate position evaluation unit 112.
関連情報入力部111は、ユーザによって入力されたデータ(検索キーワードの関連語や関連情報)を受け付け・解析し、検索に用いる関連キーワードや無音区間情報および重みなどの各種パラメータを候補位置評価部112に出力する。例えば、入力された検索キーワードが「新幹線」の場合、関連語としては駅名、発車時刻、路線名等を例として挙げることができ、関連情報としては、無音区間長の情報や発話の長さの情報(例えば、顧客の発話時間がオペレータの発話時間の倍以上という情報)が挙げられる。
The related information input unit 111 receives and analyzes data (related words and related information of a search keyword) input by a user, and sets various parameters such as related keywords used in the search, silent section information, and weights to the candidate position evaluation unit 112. Output to. For example, when the input search keyword is “Shinkansen”, the related words can include station names, departure times, route names, etc., and the related information includes silent section length information and utterance length. Information (for example, information that the utterance time of the customer is more than twice the utterance time of the operator).
候補位置評価部112は、キーワード入力部110が出力した検索キーワードのサブワード列、関連情報入力部111が出力した検索関連キーワードや無音区間情報およびそれらのパラメータ(以下、関連情報)、及びインデックス・音声情報データ107を用いて、検索対象データ105において、キーワードが発話されたらしい箇所を列挙し、その箇所とキーワードのサブワード列の距離(スコア)を計算する。
The candidate position evaluation unit 112 includes a subword string of search keywords output from the keyword input unit 110, search related keywords and silent section information output from the related information input unit 111, and parameters thereof (hereinafter referred to as related information), and indexes / voices. Using the information data 107, in the search target data 105, the parts where the keyword is likely to be spoken are listed, and the distance (score) between the part and the subword string of the keyword is calculated.
検索結果統合部113は、候補位置評価部112が出力した検索候補を、そのスコアに基づいてソーティングを行い、検索結果として検索結果表示部114に出力する。検索結果表示部114は、検索結果統合部113が出力した検索結果を、検索候補の出現ファイル名、時刻、スコアなどを形成し、出力デバイスに送信する。ここまでが、音声データ検索装置1における検索処理の部分である。なお、ソーティングアルゴリズムは、広く知られたクイックソート、基数ソートなどを用いることができる。ソートされた検索結果は、各検索候補が発話されたと判定されたファイル名、時刻、スコアを含んでいる。この検索結果は検索結果表示部114に送られるが、検索結果だけを別のアプリケーションに送信することも可能である。
The search result integration unit 113 sorts the search candidates output by the candidate position evaluation unit 112 based on the score, and outputs the search results to the search result display unit 114 as a search result. The search result display unit 114 forms the search candidate appearance file name, time, score, and the like, and transmits the search result output by the search result integration unit 113 to the output device. The steps up to here are the part of the search process in the voice data search apparatus 1. Note that the sorting algorithm can use a well-known quick sort, radix sort, or the like. The sorted search results include the file name, time, and score at which each search candidate is determined to have been uttered. This search result is sent to the search result display unit 114, but it is also possible to send only the search result to another application.
検索結果表示部114は、スコアの上位から検索結果をディスプレイの表示形式のデータ転送を行い、ディスプレイに表示する。
The search result display unit 114 transfers the search results from the top of the score in the display format of the display and displays them on the display.
なお、本実施形態では、音声データ検索装置1を単体の装置として説明したが、端末(ブラウザ)と計算機(サーバ)を備えたシステムによって構成してもよい。この場合、例えば、端末(ブラウザ)は、キーワード入力部110、検索結果表示部114の処理を実行し、計算機(サーバ)は、その他の各処理部の処理を実行する。
In the present embodiment, the voice data search device 1 has been described as a single device, but may be configured by a system including a terminal (browser) and a computer (server). In this case, for example, the terminal (browser) executes processing of the keyword input unit 110 and the search result display unit 114, and the computer (server) executes processing of other processing units.
また、本実施形態では、検索対象データ105、学習用ラベル付き音声データ101、音響モデル103、言語モデル104、インデックス・音声情報データ107、対話順序データ109は同一の装置内で保存、生成されるものとして説明したが、これらの前処理を実行する計算機と、キーワード入力部110~検索結果表示部114までを実行する計算機を分けて構成してもよい。例えば、検索対象データ105を外部のストレージに保存し、インデックス・音声情報データ107、対話順序データ109、音響モデル103、言語モデル104を事前に別の計算機で作成しておき、検索処理を実行する計算機へ複製して用いることができる。
In this embodiment, the search target data 105, the learning-labeled voice data 101, the acoustic model 103, the language model 104, the index / voice information data 107, and the dialogue order data 109 are stored and generated in the same apparatus. Although described as a thing, you may comprise separately the computer which performs these pre-processing, and the computer which performs from the keyword input part 110 to the search result display part 114. FIG. For example, the search target data 105 is stored in an external storage, and the index / voice information data 107, the dialogue order data 109, the acoustic model 103, and the language model 104 are created in advance by another computer, and the search process is executed. It can be copied to a computer and used.
<音声データ登録処理>
図2は、本発明の本実施形態においてインデキシング・音声情報抽出部106が実行する音声データの登録処理を説明するためのフローチャートである。 <Audio data registration process>
FIG. 2 is a flowchart for explaining audio data registration processing executed by the indexing / audioinformation extracting unit 106 in the present embodiment of the present invention.
図2は、本発明の本実施形態においてインデキシング・音声情報抽出部106が実行する音声データの登録処理を説明するためのフローチャートである。 <Audio data registration process>
FIG. 2 is a flowchart for explaining audio data registration processing executed by the indexing / audio
インデキシング・音声情報抽出部106は、まず、すべての音声(ch毎のデータ:ここでchとは、例えば、電話による会話データの場合、上りch(顧客の発話)と下りch(オペレータの発話)に相当するものである。)に対して(ステップ201)、検索対象データ105の複数ファイルの音声データを適当な長さに分割する(ステップ202)。例えば、音声パワーが所定の閾値θp以下である時間が所定の閾値θt以上連続した場合、その位置で音声データを分割してもよい。図3は、このようにして分割された音声データを示している。図3において、それぞれの音声区間には、元のファイルを示す情報及び分割された区間の開始時刻(301)と、終了時刻の情報(302)が付与される。なお、音声データを分割する方法には、音声パワーで区切る方法の他に、例えば、ゼロ交差数を用いる方法、GMM(Gaussian Mixture Model)を用いる方法、音声認識技術を用いる方法など、さまざまな方法が広く知られている。本実施形態では、これらのどの方法を用いてもよい。また、ここでは発話区間情報だけを抽出したが、感情や話速情報といった音声情報も抽出しても良い。これらを実現する方法は、公知の技術を組み合わせることで可能であるため、詳細は省略する。
First, the indexing / voice information extraction unit 106 selects all voices (data for each channel: where ch is, for example, telephone conversation data, uplink ch (customer utterance) and downlink ch (operator utterance)). (Step 201), the audio data of a plurality of files of the search target data 105 are divided into appropriate lengths (step 202). For example, when the time during which the audio power is equal to or less than the predetermined threshold θp continues for the predetermined threshold θt or more, the audio data may be divided at that position. FIG. 3 shows the audio data divided in this way. In FIG. 3, information indicating the original file and the start time (301) and end time information (302) of the divided sections are given to each audio section. In addition to the method of dividing the voice data, various methods such as a method using the number of zero crossings, a method using a GMM (Gaussian Mixture Model), a method using a voice recognition technique, etc. Is widely known. In the present embodiment, any of these methods may be used. Moreover, although only the speech section information is extracted here, voice information such as emotion and speech speed information may be extracted. Since the method for realizing these can be performed by combining known techniques, details are omitted.
続いて、インデキシング・音声情報抽出部106は、すべての音声区間に対してサブワード変換処理を実行する(ステップ203)。具体的には、音声データをサブワードの単位に変換する。次に、変換されたサブワード列(サブワード認識結果)、サブワードN-gramと対応する時刻、発話区間情報、およびその他音声情報(音声時間長など)、メタデータ(話者ID、オペレータID、日付、顧客の電話番号情報、各話者のch情報など)をインデックス・音声情報データ107に格納する(ステップ204)。なお、音声データの登録処理は初回動作時の1回だけでもよい。この音声データの登録処理が完了すると、キーワード検索が可能となる。ここでは、いわゆる1-ベストの認識結果のみをインデックステーブルに格納しているが、複数の音声認識結果をN-ベスト形式やネットワーク形式で出力してもよい。
Subsequently, the indexing / speech information extraction unit 106 performs subword conversion processing on all speech sections (step 203). Specifically, the audio data is converted into subword units. Next, the converted subword string (subword recognition result), time corresponding to the subword N-gram, speech section information, and other voice information (such as voice time length), metadata (speaker ID, operator ID, date, Customer telephone number information, channel information of each speaker, etc.) are stored in the index / voice information data 107 (step 204). Note that the audio data registration process may be performed only once during the initial operation. When this voice data registration process is completed, a keyword search becomes possible. Here, only the so-called 1-best recognition result is stored in the index table, but a plurality of speech recognition results may be output in the N-best format or the network format.
<インデックス・発話関連情報>
図4は、インデックス・音声情報データ(格納部)107に格納されている情報の構成例を示す図である。 <Index and utterance related information>
FIG. 4 is a diagram illustrating a configuration example of information stored in the index / audio information data (storage unit) 107.
図4は、インデックス・音声情報データ(格納部)107に格納されている情報の構成例を示す図である。 <Index and utterance related information>
FIG. 4 is a diagram illustrating a configuration example of information stored in the index / audio information data (storage unit) 107.
インデックス・音声情報データは、ID401と、ファイル名-ch402と、N-gramインデックス403と、サブワード認識結果404と、音声情報405と、その他のメタデータ406と、を構成項目として有している。
The index / speech information data has ID 401, file name-ch 402, N-gram index 403, subword recognition result 404, speech information 405, and other metadata 406 as configuration items.
ID401はデータベースの管理番号であり、音声ファイルのIDを示している。
ID 401 is the management number of the database and indicates the ID of the audio file.
ファイル名―ch402は音声ファイル名とチャンネル番号である。例えば、xxx.wav 0chは、オペレータの発話のファイル名とそれが発話されたチャンネル番号を示している。また、xxx.wav 1chは、顧客の発話のファイル名とそれが発話されたチャンネル番号を示している。
File name-ch 402 is an audio file name and channel number. For example, xxx. wav 0ch indicates the file name of the operator's utterance and the channel number on which it was uttered. In addition, xxx. wav 1ch indicates the file name of the customer's utterance and the channel number on which the utterance is spoken.
N-gramインデックス403は、音声ファイルのサブワードN-gramインデックスのS-ID(サブワード認識結果に含まれるID)とその出現位置をペアで記録するための欄である。図4のN-gramインデックス403の情報から、w-E-nというサブワードN-gramは、S-IDが0のサブワード列のインデックスが0番目の場所と、S-IDが5のサブワード列のインデックスが11番目の場所に出現することが分かる。
The N-gram index 403 is a column for recording a pair of the S-ID (ID included in the subword recognition result) of the subword N-gram index of the audio file and its appearance position. From the information of the N-gram index 403 in FIG. 4, the sub-word N-gram w-En has the 0th place of the index of the sub-word sequence with the S-ID of 0 and the sub-word sequence with the S-ID of 5. It can be seen that the index appears at the eleventh place.
サブワード認識結果404は、サブワードIDであるS-IDとサブワード列の情報を含む情報である。
The subword recognition result 404 is information including S-ID that is a subword ID and subword string information.
音声情報405は、音声ファイル中における発話区間ID(S-ID)とその区間のサブワード認識結果および発話区間とその時間長が記録されている。
In the voice information 405, an utterance section ID (S-ID) in the voice file, a subword recognition result of the section, and an utterance section and its length are recorded.
その他メタデータ406には音声ファイルに付随する各種メタデータが記録される。図4には、その他のメタデータとして、オペレータID(OID)、顧客ID(CID)、発話日、及び発話時刻が格納されている。
Other metadata 406 records various metadata attached to the audio file. In FIG. 4, an operator ID (OID), a customer ID (CID), an utterance date, and an utterance time are stored as other metadata.
<サブワードN-gramの例>
図5は、サブワードN-gram(N=3のとき)の一例を示す図である。各サブワードN-gramは、サブワードの三つ組(501)で構成されており、先頭から1つずつサブワードをシフトしていきインデックスを作る。このサブワードN-gramインデックス情報及び構成方法は、通常のテキスト検索技術の分野でよく知られた方法であるため、ここでは説明を省略する。 <Example of subword N-gram>
FIG. 5 is a diagram illustrating an example of the subword N-gram (when N = 3). Each subword N-gram is composed of a triplet (501) of subwords, and an index is created by shifting the subword one by one from the beginning. The subword N-gram index information and the construction method are well known in the field of normal text search technology, and thus description thereof is omitted here.
図5は、サブワードN-gram(N=3のとき)の一例を示す図である。各サブワードN-gramは、サブワードの三つ組(501)で構成されており、先頭から1つずつサブワードをシフトしていきインデックスを作る。このサブワードN-gramインデックス情報及び構成方法は、通常のテキスト検索技術の分野でよく知られた方法であるため、ここでは説明を省略する。 <Example of subword N-gram>
FIG. 5 is a diagram illustrating an example of the subword N-gram (when N = 3). Each subword N-gram is composed of a triplet (501) of subwords, and an index is created by shifting the subword one by one from the beginning. The subword N-gram index information and the construction method are well known in the field of normal text search technology, and thus description thereof is omitted here.
<同一時間上の会話の例>
図6は、同一時間上での会話の一例を示す図である。各ファイルの各発話区間に番号601が振られている。そして、この各発話時間情報を基に、あるファイルのある発話区間の周辺に存在する発話がひも付けられる。これは、各発話区間に着目し、そこから適当な時間の範囲内になる別音声ファイルまたはチャンネルの発話区間を列挙すればよい。例えば、xxx.wavch0の発話区間0の周辺(前後)には、xxx.wavch1の発話区間2、及び3が存在することが分かる。 <Example of conversation on the same time>
FIG. 6 is a diagram illustrating an example of a conversation on the same time. Anumber 601 is assigned to each utterance section of each file. Then, based on each utterance time information, utterances existing around a certain utterance section of a certain file are linked. This may be done by focusing on each utterance section and listing the utterance sections of another audio file or channel that falls within an appropriate time range. For example, xxx. In the vicinity (front and back) of the utterance section 0 of wavch0, xxx. It can be seen that utterance sections 2 and 3 of wavch1 exist.
図6は、同一時間上での会話の一例を示す図である。各ファイルの各発話区間に番号601が振られている。そして、この各発話時間情報を基に、あるファイルのある発話区間の周辺に存在する発話がひも付けられる。これは、各発話区間に着目し、そこから適当な時間の範囲内になる別音声ファイルまたはチャンネルの発話区間を列挙すればよい。例えば、xxx.wavch0の発話区間0の周辺(前後)には、xxx.wavch1の発話区間2、及び3が存在することが分かる。 <Example of conversation on the same time>
FIG. 6 is a diagram illustrating an example of a conversation on the same time. A
<対話順序データの構成例>
図7は、対話順序解析部108によって構築された対話順序データ109の構成例を示す図である。 <Configuration example of conversation order data>
FIG. 7 is a diagram illustrating a configuration example of thedialogue order data 109 constructed by the dialogue order analysis unit 108.
図7は、対話順序解析部108によって構築された対話順序データ109の構成例を示す図である。 <Configuration example of conversation order data>
FIG. 7 is a diagram illustrating a configuration example of the
対話順序データは、登録ID701と、元ファイル名―ch702と、発話区間ID703と、関連対話ID704と、を構成項目として含んでいる。図7には、例えば、xxx.wav-ch0のファイルは、時間的にxxx.wav-ch1-2とxxx.wav-ch1-3の間に存在することを示されている。
The dialogue order data includes a registration ID 701, an original file name-ch 702, an utterance section ID 703, and a related dialogue ID 704 as configuration items. In FIG. 7, for example, xxx. The file of wav-ch0 is xxx. wav-ch1-2 and xxx. It is shown to exist between wav-ch1-3.
音声データのインデックス・音声情報データ107と対話順序データ109の構築処理が終わると、システムはユーザがキーワードを受け付け可能な状態になる。
When the construction process of the voice data index / voice information data 107 and the dialogue order data 109 is completed, the system is ready to accept keywords by the user.
<キーワード入力処理>
図8は、キーワード入力処理について説明するためのフローチャートである。 <Keyword input process>
FIG. 8 is a flowchart for explaining the keyword input process.
図8は、キーワード入力処理について説明するためのフローチャートである。 <Keyword input process>
FIG. 8 is a flowchart for explaining the keyword input process.
キーワード入力部110は、ユーザによって入力されたデータを受付ける。データは、キーボード、タッチパッドなどの入力デバイスによって入力されてもよいし、別の計算機で入力されたキーワードをネットワーク越しで受け付けても良い。また、音声で入力され、音声認識を用いてキーワード文字列へ変換されてもよい。
The keyword input unit 110 receives data input by the user. Data may be input by an input device such as a keyboard or a touch pad, or a keyword input by another computer may be received via a network. Alternatively, it may be input by voice and converted into a keyword character string using voice recognition.
次に、キーワード入力部110は、入力データがサブワード列かどうかを判定し(ステップ801)、サブワード列でない場合は、キーワードをサブワード(音素)列に変換し、出力する(ステップ802)。
Next, the keyword input unit 110 determines whether or not the input data is a subword string (step 801), and if it is not a subword string, converts the keyword into a subword (phoneme) string and outputs it (step 802).
<サブワード変換例>
図9は、サブワードへの変換例を示す図である。入力キーワードは、事前に用意されたルールおよびデータからの推測により、サブワード列901に変換される。このように、入力ワードからサブワード列に変換する方法も公知の技術によって可能なため、ここでは詳細を省略する。 <Subword conversion example>
FIG. 9 is a diagram illustrating an example of conversion into subwords. The input keyword is converted into asubword string 901 based on a rule and data prepared in advance. As described above, since a method for converting an input word into a sub-word string is also possible by a known technique, the details are omitted here.
図9は、サブワードへの変換例を示す図である。入力キーワードは、事前に用意されたルールおよびデータからの推測により、サブワード列901に変換される。このように、入力ワードからサブワード列に変換する方法も公知の技術によって可能なため、ここでは詳細を省略する。 <Subword conversion example>
FIG. 9 is a diagram illustrating an example of conversion into subwords. The input keyword is converted into a
<関連情報入力処理>
図10は、関連情報入力処理について説明するためのフローチャートである。 <Related information input processing>
FIG. 10 is a flowchart for explaining the related information input process.
図10は、関連情報入力処理について説明するためのフローチャートである。 <Related information input processing>
FIG. 10 is a flowchart for explaining the related information input process.
関連情報入力部111は、まず、ユーザによって入力されたデータを受け付け、検索用の関連語情報を含むかどうかを判定する(ステップ1001)。
The related information input unit 111 first receives data input by the user, and determines whether or not the related word information for search is included (step 1001).
検索用の関連語情報が含まれている場合、関連情報入力部111は、さらにそれがサブワード列かどうかを判定する(ステップ1002)。
If the related word information for search is included, the related information input unit 111 further determines whether or not it is a sub-word string (step 1002).
検索用の関連語情報がサブワード列でない場合、関連情報入力部111は、対応するワードをサブワード列に変換する(ステップ1003)。
If the related word information for search is not a subword string, the related information input unit 111 converts the corresponding word into a subword string (step 1003).
そして、関連情報入力部111は、ユーザから入力された無音区間情報の使用フラグや無音区間長の平均、その分散、重みなどといった各種パラメータを、検索用フォーマットに変換し、出力する(ステップ1004)。
Then, the related information input unit 111 converts various parameters such as the use flag of the silent section information, the average of the silent section length, its variance, weight, and the like input from the user into a search format and outputs it (step 1004). .
<候補位置評価処理>
図11は、本発明の本実施形態の候補位置評価部112による処理を説明するためのフローチャートである。候補位置評価処理は、候補位置評価部112は、入力キーワードによって得られた検索候補の周辺の音声情報を対話順序データと音声情報データおよび関連情報入力部からの情報に基づき、スコア補正を行う処理である。このために、候補位置評価部112は、候補区間のS-IDとファイル名を用いて、対話順序データにアクセスし、この候補区間周辺の発話区間を含むファイル名とその区間IDを取得する。このファイル名と区間IDを用いれば、音声情報データから、その区間IDにおけるサブワード認識列や音声長などの情報を取得できる。以下、図11に従って、より詳細に候補位置評価処理について説明する。 <Candidate position evaluation process>
FIG. 11 is a flowchart for explaining processing by the candidateposition evaluation unit 112 according to this embodiment of the present invention. In the candidate position evaluation process, the candidate position evaluation unit 112 performs score correction on the speech information around the search candidate obtained by the input keyword based on the dialogue order data, the voice information data, and the information from the related information input unit. It is. For this purpose, the candidate position evaluation unit 112 accesses the dialogue order data using the S-ID and the file name of the candidate section, and acquires the file name including the utterance section around the candidate section and its section ID. If this file name and section ID are used, information such as a subword recognition sequence and a voice length in the section ID can be acquired from the voice information data. Hereinafter, the candidate position evaluation process will be described in more detail with reference to FIG.
図11は、本発明の本実施形態の候補位置評価部112による処理を説明するためのフローチャートである。候補位置評価処理は、候補位置評価部112は、入力キーワードによって得られた検索候補の周辺の音声情報を対話順序データと音声情報データおよび関連情報入力部からの情報に基づき、スコア補正を行う処理である。このために、候補位置評価部112は、候補区間のS-IDとファイル名を用いて、対話順序データにアクセスし、この候補区間周辺の発話区間を含むファイル名とその区間IDを取得する。このファイル名と区間IDを用いれば、音声情報データから、その区間IDにおけるサブワード認識列や音声長などの情報を取得できる。以下、図11に従って、より詳細に候補位置評価処理について説明する。 <Candidate position evaluation process>
FIG. 11 is a flowchart for explaining processing by the candidate
候補位置評価部112は、キーワード入力部110からキーワードのサブワード列を受け取り、インデックス・音声情報データ107を用いて、音声データ中のキーワード発話箇所の候補(検索結果候補)を列挙する(ステップ1101)。キーワード発話箇所の候補に関しては、例えば、オーバーラップを許容してキーワードのサブワード列を分割することにより、インデックステーブルにおけるN-gramインデックスの該当箇所を候補とすることができる。N-gramインデックスは、文書検索の分野で広く一般的に使われている検索方式であるため、ここでは説明を省略する。
The candidate position evaluation unit 112 receives the keyword subword string from the keyword input unit 110, and uses the index / voice information data 107 to enumerate the keyword utterance location candidates (search result candidates) in the voice data (step 1101). . With regard to keyword utterance location candidates, for example, by dividing the keyword subword string while allowing overlap, the corresponding location of the N-gram index in the index table can be made a candidate. Since the N-gram index is a search method that is widely used in the field of document search, description thereof is omitted here.
次に、候補位置評価部112は、すべての検索候補と検索キーワードのサブワード列との距離を用いて計算する(ステップ1102)。距離は、例えば、端点フリーのビタビアルゴリズムまたはDPマッチングによって計算され、距離が最小となるキーワードのサブワード列に対応する区間が同時に得られる。端点フリーのビタビアルゴリズムは公知のアルゴリズムであるため、ここでは説明を省略する。N-ベスト認識結果のように、1つの区間に複数の認識結果存在する場合は、各認識結果に対して音素間距離を算出し、それらの重み付き和をその区間のスコアとする。以上により、各検索候補に対して、距離によるスコアが付与される。
Next, the candidate position evaluation unit 112 calculates using the distances between all the search candidates and the subword string of the search keyword (step 1102). The distance is calculated by, for example, an end point-free Viterbi algorithm or DP matching, and sections corresponding to the keyword sub-word strings having the minimum distance are obtained at the same time. Since the end point-free Viterbi algorithm is a known algorithm, description thereof is omitted here. When there are a plurality of recognition results in one section as in the N-best recognition result, the distance between phonemes is calculated for each recognition result, and the weighted sum is used as the score of the section. Thus, a score based on the distance is given to each search candidate.
候補位置評価部112は、関連情報入力部111からのデータに関連語が入力されているかどうかを判定する(ステップ1103)。関連語が入力されている場合は、処理はステップ1104に移行する。関連語が入力されていない場合には、処理は、ステップ1105に移行する。
The candidate position evaluation unit 112 determines whether or not a related word is input to the data from the related information input unit 111 (step 1103). If a related word has been input, the process proceeds to step 1104. If no related word is input, the process proceeds to step 1105.
ステップ1104において、候補位置評価部112は、周辺のサブワード認識列と関連語のサブワード列との距離をステップ1102と同様の方法で計算して求める(ステップ1104)。
In step 1104, the candidate position evaluation unit 112 calculates the distance between the peripheral subword recognition sequence and the related word subword sequence by the same method as in step 1102 (step 1104).
そして、候補位置評価部112は、関連情報入力部111からの入力データに無音区間情報が含まれているか(具体的には、入力データに無音区間情報を利用するフラグが入力されているか)どうかを判定する(ステップ1105)。無音区間情報が含まれている場合、処理はステップ1106に移行する。含まれていない場合には、処理はステップ1107に移行する。
Then, the candidate position evaluation unit 112 determines whether or not the silent data is included in the input data from the related information input unit 111 (specifically, whether or not a flag that uses the silent data is input to the input data). Is determined (step 1105). If silence section information is included, the process proceeds to step 1106. If not included, the process proceeds to step 1107.
ステップ1106において、候補位置評価部112は、無音区間情報によるスコアを、例えば、ステップ1102で求めた各検索候補の周辺発話の各無音区間長を入力された平均無音区間長と分散をパラメータに持つガウス分布型スコア関数に入力することで計算する(ステップ1106)。このようなスコア関数も機械学習の分野では公知の技術であるため、詳細は省略する。また、単純に、ユーザから入力された無音区間長と各検索候補の周辺の無音区間長の差を正規化してスコアとすることもできる。つまり、ステップ1106では、各検索候補が含まれる音声区間周辺の無音区間の長さに関する相対的関係を求めることにより当該スコアが計算される。
In step 1106, the candidate position evaluation unit 112 has, as parameters, the average silent section length and the variance in which the silent section lengths of the peripheral utterances of each search candidate obtained in step 1102 are input as a score based on the silent section information. Calculation is performed by inputting the Gaussian distribution type score function (step 1106). Since such a score function is also a well-known technique in the field of machine learning, details are omitted. In addition, the difference between the silent section length input by the user and the silent section length around each search candidate can be normalized to obtain a score. That is, in step 1106, the score is calculated by obtaining a relative relationship regarding the length of the silent section around the speech section in which each search candidate is included.
最後に、候補位置評価部112は、ステップ1104及び/又はステップ1107で計算された各種スコアを用いて、ステップ1102で計算した検索候補のスコアを補正する(ステップ1107)。具体的には、下記式1に従って候補区間の補正スコアが計算される。
[式1] Finally, the candidateposition evaluation unit 112 corrects the search candidate score calculated in step 1102 using the various scores calculated in step 1104 and / or step 1107 (step 1107). Specifically, the correction score of the candidate section is calculated according to the following formula 1.
[Formula 1]
[式1] Finally, the candidate
[Formula 1]
式1に示されるように、関連情報入力部111からのデータから得られた重みWkeyとキーワードのスコアSkeyを乗じたものと、関連語や無音区間長の重みWiとそれらのスコアSiを乗じたものを加算することで、補正スコアとする。音声情報データ107にサブワードの認識信頼度が含まれている場合、キーワードのスコアにさらに信頼度を乗じることでスコアを補正することもできる。
As shown in Expression 1, the weight W key obtained from the data from the related information input unit 111 and the keyword score S key are multiplied by the weight W i of the related word or silent section length and the score S thereof. By adding the product of i , a corrected score is obtained. When the speech information data 107 includes the recognition reliability of the subword, the score can be corrected by further multiplying the keyword score by the reliability.
なお、ここでは、関連情報として、関連語と無音区間情報を例に候補位置評価処理について説明したが、これらの他に、発話の長さの情報(例えば、顧客の発話時間がオペレータの発話時間の倍以上という情報:対象とする音声区間長とその音声区間の前後の他の話者の音声区間長の比率)を用いても補正スコアを計算しても良い。
Here, as the related information, the candidate position evaluation process has been described using related words and silent section information as an example, but in addition to these, information on utterance length (for example, the utterance time of the customer is the utterance time of the operator) The correction score may be calculated using the information that is equal to or more than twice: the ratio of the target speech segment length and the speech segment length of other speakers before and after the speech segment.
<検索結果表示例>
図12は、検索結果表示部114によって表示される検索結果の表示形式の構成例を示す図である。 <Example of search result display>
FIG. 12 is a diagram illustrating a configuration example of a display format of a search result displayed by the searchresult display unit 114.
図12は、検索結果表示部114によって表示される検索結果の表示形式の構成例を示す図である。 <Example of search result display>
FIG. 12 is a diagram illustrating a configuration example of a display format of a search result displayed by the search
検索結果表示画面は、検索キーワードが発話されたと判定されたファイル名1201と、ファイル中の時刻1202と、スコア1203と、音声ファイルの再生ボタン1204と、を表示構成項目として含んでいる。
The search result display screen includes a file name 1201 in which it is determined that the search keyword is uttered, a time 1202 in the file, a score 1203, and an audio file playback button 1204 as display configuration items.
検索結果表示画面において、音声ファイルの再生ボタン1204を押すと、検索位置周辺の音声が再生され、ユーザは実際の音声を聞くことで、検索結果の内容を確認することができる。
When the sound file playback button 1204 is pressed on the search result display screen, the sound around the search position is played back, and the user can confirm the contents of the search result by listening to the actual sound.
なお、この検索結果はディスプレイではなく、別のアプリケーションのフォーマットに従って形成し、別の計算機等へ送信することもできる。
Note that this search result can be formed according to the format of another application, not the display, and transmitted to another computer or the like.
以上説明したように、第1の実施形態によると、キーワード検索結果の音声区間の前後の他話者の音声区間の状況、例えば関連キーワードや無音区間長、を使ってスコアを補正するができるため、音声データ検索の検索精度を向上させることができる。
As described above, according to the first embodiment, it is possible to correct the score using the status of the speech section of another speaker before and after the speech section of the keyword search result, for example, the related keyword and the silent section length. The search accuracy of voice data search can be improved.
(2)第2の実施形態
第2の本実施形態は、第1の実施形態においてユーザが入力していた関連情報を自動的に生成することで、ユーザに負担をかけずに検索を行える音声データ検索装置2に関するものである。 (2) Second Embodiment The second embodiment of the present invention automatically generates related information input by the user in the first embodiment, so that the voice can be searched without imposing a burden on the user. Thedata retrieval apparatus 2 is related.
第2の本実施形態は、第1の実施形態においてユーザが入力していた関連情報を自動的に生成することで、ユーザに負担をかけずに検索を行える音声データ検索装置2に関するものである。 (2) Second Embodiment The second embodiment of the present invention automatically generates related information input by the user in the first embodiment, so that the voice can be searched without imposing a burden on the user. The
<音声データ検索装置の構成>
図13は、第2の実施形態による音声データ検索装置2を示す構成例を示す図である。図13の音声データ検索装置2のうち、すでに説明した図1に示された同一の符号を付与されたブロックは同一の機能を有しており、それらの説明は省略する。 <Configuration of voice data retrieval device>
FIG. 13 is a diagram illustrating a configuration example showing the voicedata search device 2 according to the second embodiment. In the voice data search device 2 of FIG. 13, the blocks given the same reference numerals shown in FIG. 1 already described have the same functions, and their descriptions are omitted.
図13は、第2の実施形態による音声データ検索装置2を示す構成例を示す図である。図13の音声データ検索装置2のうち、すでに説明した図1に示された同一の符号を付与されたブロックは同一の機能を有しており、それらの説明は省略する。 <Configuration of voice data retrieval device>
FIG. 13 is a diagram illustrating a configuration example showing the voice
第2の実施形態による音声データ検索装置2では、第1の実施形態による音声データ検索装置1に、学習データラベル付き音声1301と、テキストデータ1302と、関連情報データ構築部1303と、関連情報データ1304と、関連情報選択部1305と、を追加した構成となっている。
In the speech data retrieval apparatus 2 according to the second embodiment, the speech data retrieval apparatus 1 according to the first embodiment is similar to the speech 1301 with learning data label, the text data 1302, the related information data construction unit 1303, and the related information data. 1304 and a related information selection unit 1305 are added.
学習データラベル付き音声(格納部)1301には、実際の対話データから生成された学習ラベル付き音声データが格納されており、音声信号の書き起こしテキストの他に、人手で付与した無音区間情報や他話者音声データと関係しているファイルリスト、対話順序データなどを含んでいてもよい。
The learning data labeled speech (storage unit) 1301 stores learning labeled speech data generated from actual dialogue data. In addition to the transcription text of the speech signal, A file list related to the other speaker's voice data, dialogue order data, and the like may be included.
テキストデータ(格納部)1302には、関連語情報や共起度合を確認するために用意されたデータが格納されており、例えば、単語辞書やシソーラス辞書、感情語辞書、WikiPedia等のウェブのテキストデータ、汎用言い回し、製品名リスト、型番リストなどが含まれる。
The text data (storage unit) 1302 stores related word information and data prepared for confirming the co-occurrence degree. For example, a web text such as a word dictionary, a thesaurus dictionary, an emotion word dictionary, or WikiPedia. Data, general wording, product name list, model number list, etc. are included.
関連情報データ構築部1303は、学習データラベル付き音声1301およびテキストデータ1302を用いて、共起語や単語と無音区間長との関係を解析し、それらの情報を関連情報データ1304として保存する。
The related information data construction unit 1303 uses the learning data labeled speech 1301 and the text data 1302 to analyze the relationship between the co-occurrence words or words and the silence interval length, and stores the information as the related information data 1304.
<関連情報データ構築処理>
図14は、関連情報データ構築処理を説明するためのフローチャートである。ここでは、テキストデータに含まれるすべての単語に対して、ステップ1401から1403の処理が実行される。 <Related information data construction process>
FIG. 14 is a flowchart for explaining the related information data construction process. Here, the processing ofsteps 1401 to 1403 is executed for all words included in the text data.
図14は、関連情報データ構築処理を説明するためのフローチャートである。ここでは、テキストデータに含まれるすべての単語に対して、ステップ1401から1403の処理が実行される。 <Related information data construction process>
FIG. 14 is a flowchart for explaining the related information data construction process. Here, the processing of
関連情報データ構築部1303は、感情語辞書や製品名リストによって、各単語の属性値、たとえば、怒り、感情、製品名、品詞といった情報を付与する(ステップ1401)。
The related information data construction unit 1303 assigns attribute values of each word, for example, information such as anger, emotion, product name, part of speech, using the emotion word dictionary and the product name list (step 1401).
次に、関連情報データ構築部1303は、単語辞書の各単語について、関連語をテキストデータやラベル付き音声データから抽出し、共起度、重みのパラメータを統計解析する(ステップ1402)。関連語とその重みに関しては、ウェブの情報やシソーラス辞書を用いて、特異値分解やLDA(Latent Dirichlet Allocation)といった解析の手法を用いることによって、各単語の共起度を自動的に取得できる。また、共起度は、対象となっている発話区間の前後の発話区間に、共起キーワードが出現する回数をカウントし、それが全体の中でどの位の割合を占めているか算出することで求められる情報である。
Next, the related information data construction unit 1303 extracts the related words from the text data and the labeled speech data for each word in the word dictionary, and statistically analyzes the co-occurrence degree and weight parameters (step 1402). With respect to related words and their weights, the co-occurrence degree of each word can be automatically acquired by using an analysis technique such as singular value decomposition or LDA (Latent Dirichlet Allocation) using web information or a thesaurus dictionary. The co-occurrence degree is calculated by counting the number of times the co-occurrence keyword appears in the utterance section before and after the target utterance section, and calculating the percentage of the total occurrence. This is the information that is required.
最後に、関連情報データ構築部1303は、単語辞書の各単語について、学習データラベル付き音声1401に付属している書き起こし、ラベルからその出現位置をすべて列挙し、その単語を含む発話周辺の他話者の発話区間長をすべてカウントし、その平均や分散といった統計量を算出する(ステップ1403)。ここで、無音区間長は、人手で音声ファイルを聞いて付与された値でもよいし、発話区間検出技術を用いて自動的に検出した値でもよい。また、無音区間長の出現頻度または事前確率自体がスコアにおける重みパラメータに相当する。さらに、ある単語の関連語に関しても、周辺の発話区間における出現頻度をカウントし、その出現確率を算出することもでき、これは関連語の第2の重みパラメータとして用いることもできる。これらは、公知の技術である最尤推定法といった統計的手法で推定することが可能であるため、ここでは詳細を省略する。
Finally, the related information data construction unit 1303 transcribes each word in the word dictionary, which is attached to the learning data labeled speech 1401, enumerates all the appearance positions from the label, and other words around the utterance including the word All the utterance interval lengths of the speakers are counted, and statistics such as the average and variance are calculated (step 1403). Here, the silent section length may be a value given by manually listening to an audio file, or may be a value automatically detected using a speech section detection technique. Further, the appearance frequency of the silent section length or the prior probability itself corresponds to the weight parameter in the score. Furthermore, regarding the related word of a certain word, the appearance frequency in the surrounding utterance section can be counted and the appearance probability can be calculated, and this can be used as the second weight parameter of the related word. Since these can be estimated by a statistical technique such as a maximum likelihood estimation method which is a known technique, the details are omitted here.
なお、データ量が少ない場合においては、単語をその属性やサブワード距離といった類似度に従ってクラスタリングを行い、クラス単位での出現頻度や平均無音区間長などを計算する。例えば、「ふざけるな」という単語の代わりに「怒り」というクラス、「型番103487」という単語の代わりに「製品」というクラスを用いて、各種統計量を計算する。他の分類方法として、各単語のサブワードN-gram毎にデータベースを構築することも考えられる。
When the amount of data is small, the words are clustered according to the similarity such as their attributes and subword distances, and the appearance frequency and average silence interval length of each class are calculated. For example, various statistics are calculated using a class “anger” instead of the word “do not play” and a class “product” instead of the word “model number 103487”. As another classification method, it is conceivable to construct a database for each subword N-gram of each word.
<関連情報データの例>
図15は、関連情報データ(格納部)1404に格納される関連情報データの構成例を示す図である。 <Example of related information data>
FIG. 15 is a diagram illustrating a configuration example of related information data stored in the related information data (storage unit) 1404.
図15は、関連情報データ(格納部)1404に格納される関連情報データの構成例を示す図である。 <Example of related information data>
FIG. 15 is a diagram illustrating a configuration example of related information data stored in the related information data (storage unit) 1404.
この関連情報データは、登録ID1501と、単語1502と、サブワード1503と、属性1504と、関連音声情報1505と、その各種パラメータ1506と、を構成情報として含んでいる。
The related information data includes a registration ID 1501, a word 1502, a sub word 1503, an attribute 1504, related voice information 1505, and various parameters 1506 as configuration information.
関連音声情報1505において、関連語は単語のIDで管理されている。これらの値はすべ関連情報データ構築部1303によって生成されたものである。例えば、ID:0の「ふざけるな」という単語(語句)にはID:2の「申し訳ございません」という単語(語句)が関連している。つまり、例えば、顧客が「ふざけるな」と発話した場合には、オペレータが「申し訳ございません」と発話する場合が多いため、後者が前者の関連音声情報として登録される。
In the related voice information 1505, related words are managed by word IDs. These values are all generated by the related information data construction unit 1303. For example, the word (phrase) “ID” is related to the word (phrase) “ID” of “0”. That is, for example, when the customer utters “Do not play”, the operator often utters “I am sorry”, so the latter is registered as the related voice information of the former.
<関連情報選択処理>
図16は、関連情報データ選択部1305による処理を説明するためのフローチャートである。 <Related information selection process>
FIG. 16 is a flowchart for explaining processing by the related informationdata selection unit 1305.
図16は、関連情報データ選択部1305による処理を説明するためのフローチャートである。 <Related information selection process>
FIG. 16 is a flowchart for explaining processing by the related information
まず、関連情報データ選択部1305は、キーワード入力部110から検索キーワードが入力されると、関連情報データ(格納部)1304に入力された検索キーワードに対応する単語が存在しているかを判定する(ステップ1601)。関連情報データ(格納部)1304に対応する単語が存在している場合、処理はステップ1602に移行する。一方、存在しない場合には、処理はステップ1603に移行する。
First, when a search keyword is input from the keyword input unit 110, the related information data selection unit 1305 determines whether there is a word corresponding to the search keyword input to the related information data (storage unit) 1304 ( Step 1601). If there is a word corresponding to the related information data (storage unit) 1304, the process proceeds to step 1602. On the other hand, if it does not exist, the process proceeds to step 1603.
ステップ1602において、関連情報データ選択部1305は、関連情報データ(格納部)1304から、入力された検索キーワードと関連する情報(関連語や無音区間およびそれらのパラメータ)を取得する。
In step 1602, the related information data selection unit 1305 acquires information (related words, silent sections and their parameters) related to the input search keyword from the related information data (storage unit) 1304.
また、関連情報データ(格納部)1304に該当する単語が存在しない場合、ステップ1603において、関連データ選択部1305は、サブワード距離および属性を用いて、類似ワード群を選択し、それらの情報をもとに、入力キーワードのパラメータ等を予測して出力する。簡単な方法では、入力キーワードとの音素距離が一番近い単語の関連音声情報およびパラメータを出力すればよい。例えば、関連情報データとして「申し訳ございません」は登録されているが、入力された単語が「申し訳ありません」であってそのものが登録されていない場合、「申し訳ございません」についての関連音声情報等が出力されることになる。また、サブワードN-gramによるデータベースも構築していた場合、入力キーワードをサブワードN-gramに分解した後、各N-gramにおける音声関連情報のパラメータの平均値を用いることもできる。さらに、キーワードの属性値もキーワード入力部から受け付けるようにした場合、同一属性の単語の各種パラメータの平均値を利用するといったことも可能である。このようにして生成された関連音声情報およびそれらのパラメータは、候補位置評価部112で利用される。なお、類似ワードが複数ある場合には、表示部に表示してユーザに選択させるようにしても良い。
If there is no corresponding word in the related information data (storage unit) 1304, in step 1603, the related data selection unit 1305 selects a similar word group using the subword distance and attribute, and stores the information. In addition, the parameters of the input keyword are predicted and output. In a simple method, related speech information and parameters of a word having the nearest phoneme distance to the input keyword may be output. For example, if "I'm sorry" is registered as related information data, but the input word is "I'm sorry" and the word itself is not registered, the related voice information about "I'm sorry" Will be output. In addition, when a database based on subword N-grams is also constructed, an average value of parameters of speech-related information in each N-gram can be used after the input keyword is decomposed into subword N-grams. Furthermore, when keyword attribute values are also accepted from the keyword input unit, it is possible to use average values of various parameters of words having the same attribute. The related speech information and the parameters generated in this way are used by the candidate position evaluation unit 112. If there are a plurality of similar words, they may be displayed on the display unit and selected by the user.
以上説明したように、第2の実施形態によると、第1の実施形態においてユーザが入力していた関連情報を自動的に生成することで、ユーザは負担を感じずに検索することができる。
As described above, according to the second embodiment, the user can search without feeling a burden by automatically generating the related information input by the user in the first embodiment.
(3)第3の実施形態
第3の実施形態は、音声データ検索装置1に、電話回線の通話録音装置を追加され、コールセンターへの導入が可能なシステムに関する。 (3) Third Embodiment A third embodiment relates to a system that can be introduced into a call center by adding a telephone line call recording device to the voicedata search device 1.
第3の実施形態は、音声データ検索装置1に、電話回線の通話録音装置を追加され、コールセンターへの導入が可能なシステムに関する。 (3) Third Embodiment A third embodiment relates to a system that can be introduced into a call center by adding a telephone line call recording device to the voice
<音声データ検索装置の構成>
図17は、第3の実施形態による音声データ検索システムの構成例を示す図である。第3の実施形態による音声データ検索システム3は、第1の実施形態による音声データ検索装置1をコールセンターへ適用した場合の例に相当する。 <Configuration of voice data retrieval device>
FIG. 17 is a diagram illustrating a configuration example of a speech data search system according to the third embodiment. The voicedata search system 3 according to the third embodiment corresponds to an example in which the voice data search device 1 according to the first embodiment is applied to a call center.
図17は、第3の実施形態による音声データ検索システムの構成例を示す図である。第3の実施形態による音声データ検索システム3は、第1の実施形態による音声データ検索装置1をコールセンターへ適用した場合の例に相当する。 <Configuration of voice data retrieval device>
FIG. 17 is a diagram illustrating a configuration example of a speech data search system according to the third embodiment. The voice
音声データ検索システム3は、構内電話交換機(PBX:Private Branch eXchange)装置1703と、通話録音装置1704と、通話管理データ1705と検索対象データ1706を保存する記憶装置1719と、検索で用いるデータを保存した記憶装置1720及び1721と、CPU1723及び主記憶装置1724を備え、音声データ検索を行う計算機1722と、を有している。それぞれの機器は、電話回線やネットワーク、計算機内はバスで接続されている。
The voice data retrieval system 3 includes a private branch exchange (PBX) device 1703, a call recording device 1704, a storage device 1719 for storing call management data 1705 and search target data 1706, and data used for the search. Storage devices 1720 and 1721, and a computer 1722 that includes a CPU 1723 and a main storage device 1724 and performs voice data search. Each device is connected to a telephone line, a network, and a computer via a bus.
PBX装置1703は、公衆電話回線網ネットワークを通じて、顧客の電話器1701(以下、顧客電話器という)と接続されている。また、PBX装置1703はオペレータの電話器1702と接続されている。
The PBX device 1703 is connected to a customer telephone 1701 (hereinafter referred to as a customer telephone) through a public telephone line network. The PBX device 1703 is connected to the operator's telephone 1702.
通話録音装置1704は、CPU、メモリ、制御プログラムといった、汎用計算機の構成を有している。また、通話録音装置1704は、PBX装置1703またはオペレータが用いる電話器1702等から顧客の発話のみによる音声信号を取得する。さらに、通話録音装置1704は、電話器1702から、オペレータの発話のみによる音声信号を取得する。オペレータの発話のみの音声信号は、別途ヘッドセットと録音デバイスを用意して、取得することも可能である。その後、通話録音装置1704は、顧客のみによる音声信号、オペレータのみによる音声信号をA/D変換して、WAV形式等のデジタルデータに変換する。なお、音声データへの変換はリアルタイム処理で行ってもよい。これら検索対象データ1706は、通話管理データ1705とともに記憶装置1719に保存される。
The call recording device 1704 has a general-purpose computer configuration such as a CPU, a memory, and a control program. Also, the call recording device 1704 acquires a voice signal based only on the customer's utterance from the PBX device 1703 or the telephone 1702 used by the operator. Further, the call recording device 1704 acquires a voice signal from the telephone 1702 only by the operator's utterance. It is also possible to acquire a voice signal of only the operator's utterance by preparing a headset and a recording device separately. Thereafter, the call recording device 1704 performs A / D conversion on the audio signal only from the customer and the audio signal only from the operator, and converts it into digital data such as WAV format. The conversion to audio data may be performed by real time processing. These search target data 1706 are stored in the storage device 1719 together with the call management data 1705.
図18は、記憶装置1719に保存される音声データのフォーマットの一例を示す図である。音声ファイルは、オペレータID1801と、顧客話者ID1802と、通話時刻1803と、通話時間長1804と、16bit符号付きバイナリ波形データ1805と、を情報として含んでいる。これら音声ファイルは、記憶装置に転送され、通話管理データ1705検索対象データ1706として保存される。通話時間長、顧客話者IDとオペレータIDはPBX装置1703等から取得することができる。
FIG. 18 is a diagram showing an example of a format of audio data stored in the storage device 1719. The audio file includes operator ID 1801, customer speaker ID 1802, call time 1803, call time length 1804, and 16-bit signed binary waveform data 1805 as information. These audio files are transferred to a storage device and stored as call management data 1705 search target data 1706. The call duration, customer speaker ID, and operator ID can be acquired from the PBX device 1703 or the like.
図17に戻り、記憶装置1720は、検索で用いるデータとして、少なくとも、言語モデル1707と、音響モデル1708と、インデックス・音声情報データ1709と、対話順序データ2210と、を保存している。
Returning to FIG. 17, the storage device 1720 stores at least a language model 1707, an acoustic model 1708, index / voice information data 1709, and dialogue order data 2210 as data used in the search.
また、記憶装置1721は、学習用音声データ1711(図1の学習データラベル付き音声101に相当)を保存している。ここで、言語モデル1707、音響モデル1708は、学習用音声データ1711を用いて、別の計算機で算出されていてもよい。
Further, the storage device 1721 stores learning voice data 1711 (corresponding to the learning data labeled voice 101 in FIG. 1). Here, the language model 1707 and the acoustic model 1708 may be calculated by another computer using the learning speech data 1711.
計算機1722は、第3の実施形態による音声データ検索システム3の中心的な処理を実行する。計算機1722のメモリは、インデキシング・音声情報抽出部106及び対話順序解析部108の機能を含むインデキシングモジュール1715と、キーワード入力部110、関連情報入力部111、候補位置評価部112、検索結果統合部113、及び検索結果表示部114の機能を含むサーチモジュール1716と、音響モデル・言語モデル学習部102の機能を含む音響・言語モデル学習モジュール1717と、を格納している。各モジュールの機能は、CPU1723の制御命令によって適切にメモリ1724に展開され実現される。第1の実施形態に記載の手順と同様にすれば、音声検索システム3は適切に動作する。
The computer 1722 executes the central processing of the voice data search system 3 according to the third embodiment. The memory of the computer 1722 includes an indexing module 1715 including functions of the indexing / speech information extraction unit 106 and the dialog order analysis unit 108, a keyword input unit 110, a related information input unit 111, a candidate position evaluation unit 112, and a search result integration unit 113. And a search module 1716 including the function of the search result display unit 114 and an acoustic / language model learning module 1717 including the function of the acoustic model / language model learning unit 102 are stored. The function of each module is appropriately developed and realized in the memory 1724 by the control instruction of the CPU 1723. If the procedure described in the first embodiment is performed, the voice search system 3 operates appropriately.
インデックス・音声情報データ1709及び対話順序データ1710に関しては、検索対象データ1706に一定時間毎にアクセスし、差分データのみにインデシング処理を行い、インデックス・音声情報データ1709(インデックステーブル)に追加するようにしても良い。
With respect to the index / voice information data 1709 and the dialogue order data 1710, the search target data 1706 is accessed at regular intervals, only the difference data is indexed, and added to the index / voice information data 1709 (index table). May be.
以上説明したように、第1の実施形態による音声データ検索装置1をコールセンターへ導入することが可能な音声データ検索システム3を構築することができる。
As described above, the voice data search system 3 that can introduce the voice data search apparatus 1 according to the first embodiment into the call center can be constructed.
(4)第4の実施形態
第4の実施形態は、音声データ検索装置1がコンテンツクラウドシステムに組み込まれた場合の構成に関する。まず、コンテンツクラウドシステムの概要を説明し、その後、音声データ検索装置1のモジュール分割に基づいたコンテンツクラウドシステムへの組み込みについて説明する。 (4) Fourth Embodiment The fourth embodiment relates to a configuration when the voicedata search device 1 is incorporated in a content cloud system. First, the outline of the content cloud system will be described, and then the incorporation into the content cloud system based on the module division of the voice data search device 1 will be described.
第4の実施形態は、音声データ検索装置1がコンテンツクラウドシステムに組み込まれた場合の構成に関する。まず、コンテンツクラウドシステムの概要を説明し、その後、音声データ検索装置1のモジュール分割に基づいたコンテンツクラウドシステムへの組み込みについて説明する。 (4) Fourth Embodiment The fourth embodiment relates to a configuration when the voice
<コンテンツクラウドシステムの構成>
図19は、一般的なコンテンツクラウドシステムの概略構成を示す図である。コンテンツクラウドシステムは、1つ以上のCPU、メモリ、記憶装置を備えた一般的な計算機上で動作し、システム自体は様々なモジュールで構成され、具体的には、ETL(Extract Transform Load)(モジュール)1903と、コンテンツストレージ1904と、検索エンジン(モジュール)1905と、メタデータサーバ(モジュール)1906と、マルチメディアサーバ(モジュール)1907と、を有している。なお、それぞれのモジュールが独立した計算機で実行されることもあり、その場合、各ストレージとモジュール間はネットワーク等で接続され、それらを介してデータ通信を行う分散処理で実現される。コンテンツクラウドシステムでは、アプリケーションプログラム1908がネットワーク等を経由してリクエストを検索エンジン等に送信する。これに対して、コンテンツクラウドシステムは、リクエストに応じた情報をアプリケーション1908に送信する。 <Configuration of content cloud system>
FIG. 19 is a diagram showing a schematic configuration of a general content cloud system. The content cloud system operates on a general computer including one or more CPUs, memories, and storage devices, and the system itself is composed of various modules. Specifically, an ETL (Extract Transform Load) (module) ) 1903,content storage 1904, search engine (module) 1905, metadata server (module) 1906, and multimedia server (module) 1907. Each module may be executed by an independent computer. In this case, each storage and the module are connected by a network or the like, and are realized by distributed processing in which data communication is performed via them. In the content cloud system, the application program 1908 transmits a request to a search engine or the like via a network or the like. In response to this, the content cloud system transmits information corresponding to the request to the application 1908.
図19は、一般的なコンテンツクラウドシステムの概略構成を示す図である。コンテンツクラウドシステムは、1つ以上のCPU、メモリ、記憶装置を備えた一般的な計算機上で動作し、システム自体は様々なモジュールで構成され、具体的には、ETL(Extract Transform Load)(モジュール)1903と、コンテンツストレージ1904と、検索エンジン(モジュール)1905と、メタデータサーバ(モジュール)1906と、マルチメディアサーバ(モジュール)1907と、を有している。なお、それぞれのモジュールが独立した計算機で実行されることもあり、その場合、各ストレージとモジュール間はネットワーク等で接続され、それらを介してデータ通信を行う分散処理で実現される。コンテンツクラウドシステムでは、アプリケーションプログラム1908がネットワーク等を経由してリクエストを検索エンジン等に送信する。これに対して、コンテンツクラウドシステムは、リクエストに応じた情報をアプリケーション1908に送信する。 <Configuration of content cloud system>
FIG. 19 is a diagram showing a schematic configuration of a general content cloud system. The content cloud system operates on a general computer including one or more CPUs, memories, and storage devices, and the system itself is composed of various modules. Specifically, an ETL (Extract Transform Load) (module) ) 1903,
コンテンツクラウドシステムは、入力として、音声データ1901、医療データ1901、及び/又はメールデータ1901などの任意の形式のデータを対象とする。各種データは、例えば、コールセンター通話音声、メールデータ、文書データなどであり、構造化されていたり、されていなかったりしてもよい。コンテンツクラウドシステムへ入力されるデータはコンテンツストレージ1902に一時的に蓄えられる。
The content cloud system targets data in any format such as audio data 1901, medical data 1901, and / or mail data 1901 as input. The various data are, for example, call center call voice, mail data, document data, and the like, and may be structured or not. Data input to the content cloud system is temporarily stored in the content storage 1902.
コンテンツクラウドシステムにおけるETL1903は、ストレージ1902を監視しており、ストレージ1902への各種データ1901の蓄積が完了すると、そのデータに合わせた情報抽出処理モジュールを動作させ、抽出された情報(メタデータ)をコンテンツストレージ1904にアーカイブ化して保存する。ETL1903は、例えば、テキストのインデックスモジュール、画像認識モジュールなどで構成されており、メタデータの例としては、時刻、N-gramインデックスや画像認識結果(物体名)、画像特徴量とその関連語、音声認識結果、などが該当する。これらの情報抽出モジュールには、何らかの情報(メタデータ)抽出を行うプログラムすべてを用いることができ、公知の技術を採用することができるので、ここでは各種情報抽出モジュールの説明を省略する。必要ならば、メタデータはデータ圧縮アルゴリズムによって、データサイズの圧縮が行われてもよい。また、各種モジュールで情報を抽出したのち、データのファイル名、データ登録年月日、元データの種類、メタデータテキスト情報などをRDB(Relational Data Base)へ登録する処理が行われても良い。
The ETL 1903 in the content cloud system monitors the storage 1902. When the accumulation of various data 1901 in the storage 1902 is completed, the information extraction processing module corresponding to the data is operated to extract the extracted information (metadata). The content storage 1904 is archived and saved. The ETL 1903 includes, for example, a text index module, an image recognition module, and the like. Examples of metadata include time, an N-gram index, an image recognition result (object name), an image feature amount and its related word, This includes speech recognition results. As these information extraction modules, all programs for extracting some information (metadata) can be used, and publicly known techniques can be adopted. Therefore, description of various information extraction modules is omitted here. If necessary, the metadata may be compressed in data size by a data compression algorithm. Further, after extracting information by various modules, a process of registering data file name, data registration date, original data type, metadata text information, etc. in RDB (Relational Data Base) may be performed.
コンテンツストレージ1904には、ETL1903で抽出された情報及びストレージ1902に一時的に蓄えられている処理前のデータ1901が保存される。
The content storage 1904 stores the information extracted by the ETL 1903 and the pre-processing data 1901 temporarily stored in the storage 1902.
検索エンジン1905は、アプリケーションプログラム1908からのリクエストがあると、例えば、テキスト検索であれば、ETL1903で作成されたインデックスを基に、テキストの検索を行い、検索結果をアプリケーションプログラム1908に送信する。ここで、検索エンジンやそのアルゴリズムに関しては、公知の技術を適用することができる。なお、検索エンジンはテキストだけでなく、画像、音声などのデータを検索するモジュールを含むようにしても良い。
When there is a request from the application program 1908, the search engine 1905 searches the text based on the index created by the ETL 1903, for example, if it is a text search, and transmits the search result to the application program 1908. Here, a publicly known technique can be applied to the search engine and its algorithm. The search engine may include a module that searches not only text but also data such as images and sounds.
メタデータサーバ1906は、RDBに蓄えられたメタデータの管理を行う。例えば、ETL1903において、データのファイル名、データ登録年月日、元データの種類、メタデータテキスト情報などがRDBに登録されているとすると、アプリケーション1908からリクエストがあると、リクエストに従って、データベース内の情報がアプリケーション1908に送信される。
The metadata server 1906 manages the metadata stored in the RDB. For example, in the ETL 1903, if the file name of data, the date of data registration, the type of original data, metadata text information, etc. are registered in the RDB, if there is a request from the application 1908, Information is sent to the application 1908.
マルチメディアサーバ1907では、ETL1903で抽出されたメタデータ同士の情報を互いに関連付けられており、グラフ形式で構造化してメタ情報が保存されている。関連付けの一例としては、コンテンツストレージ1904に蓄えられた「リンゴ」という音声認識結果に対して、元の音声ファイルや画像データ、関連語などがネットワーク形式で表現される。マルチメディアサーバ1907もアプリケーション1908からのリクエストがあると、それに応じたメタ情報をアプリケーション1908に送信する。例えば、「リンゴ」というリクエストがあると、構築されたグラフ構造に基づき、リンゴの画像や平均相場、アーティストの曲名、などの関連メタ情報を提供する。
In the multimedia server 1907, pieces of information between metadata extracted by the ETL 1903 are associated with each other, and the metadata is structured in a graph format and stored. As an example of the association, the original voice file, image data, related words, and the like are expressed in a network format with respect to the voice recognition result “apple” stored in the content storage 1904. When the multimedia server 1907 receives a request from the application 1908, the multimedia server 1907 transmits meta information corresponding to the request to the application 1908. For example, when there is a request for “apple”, related meta information such as an image of an apple, an average market price, and an artist's song name is provided based on the constructed graph structure.
<音声データ検索システム>
図20は、音声データ検索装置1の機能をコンテンツクラウドシステムに組み込むことにより実現される音声データ検索システムの概略構成を示す図である。 <Voice data search system>
FIG. 20 is a diagram showing a schematic configuration of a voice data search system realized by incorporating the function of the voicedata search device 1 into the content cloud system.
図20は、音声データ検索装置1の機能をコンテンツクラウドシステムに組み込むことにより実現される音声データ検索システムの概略構成を示す図である。 <Voice data search system>
FIG. 20 is a diagram showing a schematic configuration of a voice data search system realized by incorporating the function of the voice
音声データ検索装置1の各種機能がモジュール化され、インデキシングモジュール(インデキシング・音声情報抽出部106、対話順序解析部108)とサーチモジュール(キーワード入力部110、関連情報入力部111、候補位置評価部112、検索結果統合部113)に分けられている。
Various functions of the speech data retrieval apparatus 1 are modularized, and an indexing module (indexing / speech information extraction unit 106, dialogue order analysis unit 108) and a search module (keyword input unit 110, related information input unit 111, candidate position evaluation unit 112). The search result integration unit 113).
また、音響モデル103及び言語モデル104に関しては、事前に別の計算機で作成され、コンテンツクラウドシステムにコピーされている。この時、インデキシングモジュール2001をETL1903に登録し、サーチモジュール2002はマルチメディアサーバ1907に登録することができる。
Also, the acoustic model 103 and the language model 104 are created in advance by another computer and copied to the content cloud system. At this time, the indexing module 2001 can be registered in the ETL 1903, and the search module 2002 can be registered in the multimedia server 1907.
インデキシングモジュール2001は、音声データが入力されると、ETL1903から呼び出され、音声データに対してインデキシング処理を行い、インデックス・音声情報データをコンテンツストレージに出力する。
When the audio data is input, the indexing module 2001 is called from the ETL 1903, performs an indexing process on the audio data, and outputs the index / audio information data to the content storage.
サーチモジュール2002は、アプリケーションプログラム1908やマルチメディアサーバ制御プログラム(図示せず)からキーワードを受け取ると、インデックス・音声情報データ2003(107に対応)を用いて、キーワードが発話されたファイル名と時刻、スコアのリストを返す。インデキシング・音声情報抽出モジュールとサーチモジュール2002の処理は、音声データ検索装置1の一部分の処理だけを抽出したものであるから、ここでは説明を省略する。
When the search module 2002 receives a keyword from the application program 1908 or the multimedia server control program (not shown), the search module 2002 uses the index / voice information data 2003 (corresponding to 107), and the file name and time when the keyword is spoken. Returns a list of scores. The processing of the indexing / voice information extraction module and search module 2002 is only a part of the processing of the voice data search apparatus 1 and will not be described here.
また、サーチモジュール2002は、検索エンジン1905に設定することもできる。この場合、アプロケーションプログラム1908から検索エンジン1905にリクエストがなげられると、サーチモジュール2002は音声データでキーワードが発話されたファイル名と時刻、スコアを検索エンジン1905に送信する。
Also, the search module 2002 can be set in the search engine 1905. In this case, when a request is made from the allocation program 1908 to the search engine 1905, the search module 2002 transmits the file name, time, and score at which the keyword is spoken in the voice data to the search engine 1905.
以上説明したように、第1の実施形態に記載の音声データ検索装置1をコンテンツクラウドシステムに組み込むことができる。
As described above, the voice data search device 1 described in the first embodiment can be incorporated into a content cloud system.
(5)まとめ
(i)第1乃至第4の実施形態に係る機能或いは構成は、適宜相互に組み合わせることができるものであり、各実施形態は独立のものではない。 (5) Summary (i) The functions or configurations according to the first to fourth embodiments can be appropriately combined with each other, and the embodiments are not independent.
(i)第1乃至第4の実施形態に係る機能或いは構成は、適宜相互に組み合わせることができるものであり、各実施形態は独立のものではない。 (5) Summary (i) The functions or configurations according to the first to fourth embodiments can be appropriately combined with each other, and the embodiments are not independent.
従って、例えば、第2の実施形態による音声データ検索装置2を第3の実施形態によるシステムに導入したり、第4の実施形態によるコンテンツクラウドシステムに組み込んだりすることも可能であることは言うまでもない。
Therefore, for example, it is needless to say that the voice data search device 2 according to the second embodiment can be introduced into the system according to the third embodiment or incorporated into the content cloud system according to the fourth embodiment. .
(ii)本発明の実施形態では、インデックス音声情報データに含まれる音声ファイルチャンネル情報と音声メタデータ情報に基づいて、検索対象データの音声区間データの発話順序を示す対話順序データが生成される。実際にユーザからの検索キーワードの入力があると、この検索キーワードとインデックス音声情報データに含まれる音声区間データとのスコア値(第1のスコア値)が計算され、複数の検索結果候補が取得される。また、複数の検索結果候補のそれぞれの周辺の音声区間データが、対話順序データに基づいて特定される。さらに、検索キーワードに関連する関連情報が取得され(ユーザが入力する場合、或いは関連情報データ格納部(DB)から取得する場合)、この関連情報と検索結果公報の周辺の音声区間データとのスコア値(第2のスコア値)が算出される。第2のスコア値を用いて第1のスコア値が補正され、補正スコア値を用いて複数の検索結果候補がソートされて出力される。このように検索キーワードと検索対象データとの間のスコア値を、関連情報によるスコア値で補正するので、検索精度を向上させることができる。
(Ii) In the embodiment of the present invention, dialogue order data indicating the utterance order of the voice segment data of the search target data is generated based on the voice file channel information and the voice metadata information included in the index voice information data. When the search keyword is actually input from the user, the score value (first score value) between the search keyword and the voice section data included in the index voice information data is calculated, and a plurality of search result candidates are acquired. The In addition, the voice segment data around each of the plurality of search result candidates is specified based on the dialogue order data. Furthermore, related information related to the search keyword is acquired (when the user inputs it or when it is acquired from the related information data storage unit (DB)), and the score between the related information and the speech section data around the search result publication A value (second score value) is calculated. The first score value is corrected using the second score value, and a plurality of search result candidates are sorted and output using the corrected score value. As described above, the score value between the search keyword and the search target data is corrected with the score value based on the related information, so that the search accuracy can be improved.
ここで、関連情報として、検索キーワードに関連する関連語(共起度が高いワード)だけでなく、無音区間長の情報や検索対象とする音声区間長とその音声区間の前後の他の話者の音声区間長の比率の情報等も用いることができる。このような情報を用いてスコア値を補正することにより、ユーザが入力検索キーワードと共起度が高い関連語を知らない場合でも検索精度を向上させることが可能となる。無音区間長の情報を用いてスコア値補正をする場合には、各検索候補のそれぞれが含まれる音声区間の周辺(対話順序データによって特定される)の無音区間長の相対的関係を求めることにより第2のスコア値を計算する。このようにすることにより、共起度が高い関連語によるスコア値補正以外のスコア値補正を実現することが可能となる。
Here, as related information, not only related words (words having a high co-occurrence) related to the search keyword, but also information on silent section length, speech section length to be searched, and other speakers before and after the speech section. Information on the ratio of the length of the voice interval can also be used. By correcting the score value using such information, it is possible to improve the search accuracy even when the user does not know a related word having a high co-occurrence with the input search keyword. When the score value correction is performed using the silent section length information, by calculating the relative relationship of the silent section lengths around the speech section including each of the search candidates (specified by the dialogue order data) A second score value is calculated. By doing in this way, it becomes possible to implement | achieve score value correction | amendment other than the score value correction | amendment by a related word with high co-occurrence degree.
関連情報をユーザが入力する場合以外に、複数の単語のそれぞれについて、単語の属性と、共起語と、当該共起語の共起度と、当該共起語の無音区間の情報と、を格納する関連情報データベースを設けても良い。この場合、検索キーワードに関連する関連情報がこの関連情報データベースから取得される。これにより、関連情報をユーザが入力する手間を省くことができると共に、検索精度を向上させることが可能となる。より具体的には、ユーザが入力した検索キーワードが関連情報データベースに登録されている場合には、検索キーワードに対応する共起語が取得される。一方、検索キーワードが関連情報データベースに登録されていない場合には、音素距離情報を用いて検索キーワードに類似する単語が選択され、この類似する単語に対応する共起語が取得される。このようにすることにより、検索キーワードそのものが関連情報データベースに登録されていなくても検索候補のスコア値の補正を実行することができるので、検索精度を向上させることができる。
In addition to the case where the user inputs related information, for each of a plurality of words, the attribute of the word, the co-occurrence word, the co-occurrence degree of the co-occurrence word, and the silent section information of the co-occurrence word, A related information database to be stored may be provided. In this case, related information related to the search keyword is acquired from the related information database. As a result, it is possible to save the user from inputting related information, and to improve the search accuracy. More specifically, when a search keyword input by the user is registered in the related information database, a co-occurrence word corresponding to the search keyword is acquired. On the other hand, when the search keyword is not registered in the related information database, a word similar to the search keyword is selected using the phoneme distance information, and a co-occurrence word corresponding to the similar word is acquired. By doing in this way, even if the search keyword itself is not registered in the related information database, the search candidate score value can be corrected, so that the search accuracy can be improved.
(iii)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
(Iii) The present invention can also be realized by software program codes that implement the functions of the embodiments. In this case, a storage medium in which the program code is recorded is provided to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing the program code constitute the present invention. As a storage medium for supplying such program code, for example, a flexible disk, CD-ROM, DVD-ROM, hard disk, optical disk, magneto-optical disk, CD-R, magnetic tape, nonvolatile memory card, ROM Etc. are used.
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
Also, based on the instruction of the program code, an OS (operating system) running on the computer performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing. May be. Further, after the program code read from the storage medium is written in the memory on the computer, the computer CPU or the like performs part or all of the actual processing based on the instruction of the program code. Thus, the functions of the above-described embodiments may be realized.
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
Further, by distributing the program code of the software that realizes the functions of the embodiment via a network, the program code is stored in a storage means such as a hard disk or a memory of a system or apparatus, or a storage medium such as a CD-RW or CD-R And the computer (or CPU or MPU) of the system or apparatus may read and execute the program code stored in the storage means or the storage medium when used.
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
Finally, it should be understood that the processes and techniques described herein are not inherently related to any particular equipment, and can be implemented by any suitable combination of components. In addition, various types of devices for general purpose can be used in accordance with the teachings described herein. It may prove useful to build a dedicated device to perform the method steps described herein. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined. Although the present invention has been described with reference to specific examples, these are in all respects illustrative rather than restrictive. Those skilled in the art will appreciate that there are numerous combinations of hardware, software, and firmware that are suitable for implementing the present invention. For example, the described software can be implemented in a wide range of programs or script languages such as assembler, C / C ++, perl, shell, PHP, Java (registered trademark).
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
Furthermore, in the above-described embodiment, control lines and information lines are those that are considered necessary for the explanation, and not all control lines and information lines on the product are necessarily shown. All the components may be connected to each other.
101 学習用ラベル付き音声データ
102 音響モデル・言語モデル学習部
103 音響モデル
104 言語モデル
105 検索対象データ
106 インデキシング・音声情報抽出部
107 インデックス・音声情報データ
108 対話順序解析部
109 対話順序データ
110 キーワード入力部
111 関連情報入力部
112 候補位置評価部
113 検索結果統合部
114 検索結果表示部 101 Speech data with learning 102 Acoustic model / languagemodel learning unit 103 Acoustic model 104 Language model 105 Search target data 106 Indexing / speech information extraction unit 107 Index / speech information data 108 Dialogue order analysis unit 109 Dialogue order data 110 Keyword input Unit 111 related information input unit 112 candidate position evaluation unit 113 search result integration unit 114 search result display unit
102 音響モデル・言語モデル学習部
103 音響モデル
104 言語モデル
105 検索対象データ
106 インデキシング・音声情報抽出部
107 インデックス・音声情報データ
108 対話順序解析部
109 対話順序データ
110 キーワード入力部
111 関連情報入力部
112 候補位置評価部
113 検索結果統合部
114 検索結果表示部 101 Speech data with learning 102 Acoustic model / language
Claims (12)
- 音声データを検索するための音声データ検索システムであって、
検索対象データを格納する記憶装置と、
音声データ検索処理を実現するためのプログラムを格納するメモリと、
前記メモリから前記プログラムを読み出し、当該プログラムに従って、前記音声データ検索処理を実行するプロセッサと、を含み、
前記プロセッサは、
学習用音声データから生成される音響モデル及び言語モデルを用いて、前記検索対象データの音声区間のデータに対してサブワード認識処理を行い、音声区間データと、無音区間の情報と、前記音声区間データが発話されたチャンネルを示す音声ファイルチャンネル情報と、音声メタデータ情報と、を含むインデックス音声情報データを生成する処理と、
前記音声ファイルチャンネル情報と音声メタデータ情報に基づいて、前記音声区間データの発話順序を示す対話順序データを生成する処理と、
検索キーワードを受け付け、当該検索キーワードと前記インデックス音声情報データに含まれる音声区間データとのスコア値である第1のスコア値を計算して複数の検索結果候補を取得する処理と、
前記複数の検索結果候補のそれぞれの周辺の音声区間データを前記対話順序データに基づいて特定する処理と、
前記検索キーワードに関連する関連情報を取得し、当該関連情報と前記周辺の音声区間データとのスコア値である第2のスコア値を計算する処理と、
前記第2のスコア値を用いて前記第1のスコア値を補正し、補正スコア値を出力する処理と、
前記補正スコア値を用いて前記複数の検索結果候補をソートして出力する処理と、
を実行することを特徴とする音声データ検索システム。 A speech data retrieval system for retrieving speech data,
A storage device for storing search target data;
A memory for storing a program for realizing the voice data search process;
A processor that reads the program from the memory and executes the voice data search process according to the program,
The processor is
Using an acoustic model and a language model generated from learning speech data, subword recognition processing is performed on speech segment data of the search target data, speech segment data, silence segment information, and the speech segment data Processing for generating index audio information data including audio file channel information indicating a channel on which is uttered and audio metadata information;
Processing for generating dialogue order data indicating the utterance order of the voice segment data based on the voice file channel information and voice metadata information;
A process of receiving a search keyword, calculating a first score value that is a score value of the search keyword and voice segment data included in the index voice information data, and acquiring a plurality of search result candidates;
A process for identifying the voice section data around each of the plurality of search result candidates based on the dialogue order data;
A process of acquiring related information related to the search keyword and calculating a second score value that is a score value of the related information and the surrounding speech segment data;
A process of correcting the first score value using the second score value and outputting a corrected score value;
A process of sorting and outputting the plurality of search result candidates using the corrected score value;
A speech data retrieval system characterized by - 請求項1において、
前記関連情報は、前記検索キーワードに関連する関連ワード、無音区間長の情報、及び検索対象とする音声区間長とその音声区間の前後の他の話者の音声区間長の比率の情報のうち少なくとも1つを含むことを特徴とする音声データ検索システム。 In claim 1,
The related information includes at least a related word related to the search keyword, information on a silent section length, and information on a ratio of a voice section length to be searched and a voice section length of other speakers before and after the voice section. A speech data retrieval system including one. - 請求項2において、
さらに、複数の単語のそれぞれについて、単語の属性と、共起語と、当該共起語の共起度と、当該共起語の無音区間の情報と、を格納する関連情報データベースを有し、
前記プロセッサは、前記検索キーワードに関連する前記関連情報を前記関連情報データベースから取得することを特徴とする音声データ検索システム。 In claim 2,
Furthermore, for each of a plurality of words, it has a related information database that stores the word attributes, co-occurrence words, the co-occurrence degree of the co-occurrence words, and information on the silent section of the co-occurrence words,
The speech data search system, wherein the processor acquires the related information related to the search keyword from the related information database. - 請求項3において、
前記プロセッサは、前記検索キーワードが前記関連情報データベースに登録されている場合には前記検索キーワードに対応する共起語を取得し、前記検索キーワードが前記関連情報データベースに登録されていない場合には音素距離情報を用いて前記検索キーワードに類似する単語を選択し、当該類似する単語に対応する共起語を取得することを特徴とする音声データ検索システム。 In claim 3,
The processor acquires a co-occurrence word corresponding to the search keyword when the search keyword is registered in the related information database, and phoneme when the search keyword is not registered in the related information database. A speech data search system, wherein a word similar to the search keyword is selected using distance information, and a co-occurrence word corresponding to the similar word is acquired. - 請求項2において、
前記プロセッサは、前記無音区間長の情報を用いて前記第2のスコア値を求める場合、前記複数の検索結果候補のそれぞれが含まれる音声区間の周辺の無音区間長の相対的関係を求めることにより前記第2のスコア値を計算することを特徴とする音声データ検索システム。 In claim 2,
When the processor obtains the second score value using the silent section length information, the processor obtains a relative relation of silent section lengths around a speech section including each of the plurality of search result candidates. The speech data search system characterized in that the second score value is calculated. - 請求項1において、
さらに、構内電話交換装置と、当該構内電話交換装置と直接接続される少なくとも1つのオペレータ電話機と、を含み、
前記構内電話交換装置は公衆電話回線網に接続され、
前記公衆電話回線網を介して接続される複数の顧客電話機から取得された顧客の音声データと、前記オペレータ電話機から取得された音声データとが、前記検索対象データとして前記記憶装置に格納されていることを特徴とする音声データ検索システム。 In claim 1,
And a private branch exchange and at least one operator telephone connected directly to the private branch exchange,
The private branch exchange is connected to a public telephone network;
Customer voice data acquired from a plurality of customer telephones connected via the public telephone line network and voice data acquired from the operator telephone are stored in the storage device as the search target data. A speech data retrieval system characterized by that. - 記憶装置に格納された検索対象データから所望の音声データを検索するための音声データ検索方法であって、
音声データ検索処理を実行するプロセッサが、学習用音声データから生成される音響モデル及び言語モデルを用いて、前記検索対象データの音声区間のデータに対してサブワード認識処理を行い、音声区間データと、無音区間の情報と、前記音声区間データが発話されたチャンネルを示す音声ファイルチャンネル情報と、音声メタデータ情報と、を含むインデックス音声情報データを生成するステップと、
前記プロセッサが、前記音声ファイルチャンネル情報と音声メタデータ情報に基づいて、前記音声区間データの発話順序を示す対話順序データを生成するステップと、
前記プロセッサが、検索キーワードを受け付け、当該検索キーワードと前記インデックス音声情報データに含まれる音声区間データとのスコア値である第1のスコア値を計算して複数の検索結果候補を取得するステップと、
前記プロセッサが、前記複数の検索結果候補のそれぞれの周辺の音声区間データを前記対話順序データに基づいて特定するステップと、
前記プロセッサが、前記検索キーワードに関連する関連情報を取得し、当該関連情報と前記周辺の音声区間データとのスコア値である第2のスコア値を計算するステップと、
前記プロセッサが、前記第2のスコア値を用いて前記第1のスコア値を補正し、補正スコア値を出力するステップと、
前記プロセッサが、前記補正スコア値を用いて前記複数の検索結果候補をソートして出力するステップと、
を含むことを特徴とする音声データ検索方法。 An audio data search method for searching desired audio data from search target data stored in a storage device,
A processor that executes speech data search processing performs subword recognition processing on the speech section data of the search target data using an acoustic model and a language model generated from learning speech data, and speech section data; Generating index audio information data including silent section information, audio file channel information indicating a channel in which the audio section data is spoken, and audio metadata information;
The processor generates dialogue order data indicating an utterance order of the voice segment data based on the voice file channel information and voice metadata information;
The processor accepts a search keyword, calculates a first score value that is a score value between the search keyword and voice segment data included in the index voice information data, and obtains a plurality of search result candidates;
The processor specifies voice segment data around each of the plurality of search result candidates based on the interaction order data;
The processor acquires related information related to the search keyword, and calculates a second score value that is a score value of the related information and the surrounding speech segment data;
The processor correcting the first score value using the second score value and outputting a corrected score value;
The processor sorts and outputs the plurality of search result candidates using the corrected score value;
A speech data search method comprising: - 請求項7において、
前記関連情報は、前記検索キーワードに関連する関連ワード、無音区間長の情報、及び検索対象とする音声区間長とその音声区間の前後の他の話者の音声区間長の比率の情報のうち少なくとも1つを含むことを特徴とする音声データ検索方法。 In claim 7,
The related information includes at least a related word related to the search keyword, information on a silent section length, and information on a ratio of a voice section length to be searched and a voice section length of other speakers before and after the voice section. A speech data retrieval method comprising: one. - 請求項8において、
さらに、前記プロセッサが、複数の単語のそれぞれについて、単語の属性と、共起語と、当該共起語の共起度と、当該共起語の無音区間の情報と、を格納する関連情報データベースから、前記検索キーワードに関連する前記関連情報を取得するステップを含むことを特徴とする音声データ検索方法。 In claim 8,
Further, the processor stores, for each of a plurality of words, a word attribute, a co-occurrence word, a co-occurrence degree of the co-occurrence word, and information on a silent section of the co-occurrence word. And obtaining the related information related to the search keyword. - 請求項9において、
前記関連情報を取得するステップにおいて、前記プロセッサは、前記検索キーワードが前記関連情報データベースに登録されている場合には前記検索キーワードに対応する共起語を取得し、前記検索キーワードが前記関連情報データベースに登録されていない場合には音素距離情報を用いて前記検索キーワードに類似する単語を選択し、当該類似する単語に対応する共起語を取得することを特徴とする音声データ検索方法。 In claim 9,
In the step of acquiring the related information, the processor acquires a co-occurrence word corresponding to the search keyword when the search keyword is registered in the related information database, and the search keyword is stored in the related information database. A speech data search method, wherein a word similar to the search keyword is selected using phoneme distance information and a co-occurrence word corresponding to the similar word is acquired. - 請求項8において、
前記第2のスコア値を計算するステップにおいて、前記プロセッサは、前記無音区間長の情報を用いて前記第2のスコア値を求める場合、前記複数の検索結果候補のそれぞれが含まれる音声区間の周辺の無音区間長の相対的関係を求めることにより前記第2のスコア値を計算する ことを特徴とする音声データ検索方法。 In claim 8,
In the step of calculating the second score value, when the processor obtains the second score value using the silent section length information, the processor surrounds a speech section including each of the plurality of search result candidates. The voice data search method, wherein the second score value is calculated by obtaining a relative relationship between the lengths of silent periods of each other. - コンピュータに請求項7に記載の音声データ検索方法を実行させるためのプログラムを格納する、コンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium for storing a program for causing a computer to execute the speech data search method according to claim 7.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/066690 WO2014203328A1 (en) | 2013-06-18 | 2013-06-18 | Voice data search system, voice data search method, and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/066690 WO2014203328A1 (en) | 2013-06-18 | 2013-06-18 | Voice data search system, voice data search method, and computer-readable storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014203328A1 true WO2014203328A1 (en) | 2014-12-24 |
Family
ID=52104095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/066690 WO2014203328A1 (en) | 2013-06-18 | 2013-06-18 | Voice data search system, voice data search method, and computer-readable storage medium |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2014203328A1 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108027823A (en) * | 2015-07-13 | 2018-05-11 | 帝人株式会社 | Information processor, information processing method and computer program |
CN110211592A (en) * | 2019-05-17 | 2019-09-06 | 北京华控创为南京信息技术有限公司 | Intelligent sound data processing equipment and method |
WO2020121115A1 (en) * | 2018-12-13 | 2020-06-18 | 株式会社半導体エネルギー研究所 | Content classification method and classification model generation method |
CN112069796A (en) * | 2020-09-03 | 2020-12-11 | 阳光保险集团股份有限公司 | Voice quality inspection method and device, electronic equipment and storage medium |
CN113204685A (en) * | 2021-04-25 | 2021-08-03 | Oppo广东移动通信有限公司 | Resource information acquisition method and device, readable storage medium and electronic equipment |
CN113254579A (en) * | 2021-05-21 | 2021-08-13 | 北京自如信息科技有限公司 | Voice retrieval method and device and electronic equipment |
CN115132198A (en) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | Data processing method, data processing device, electronic equipment, program product and medium |
JP7541474B2 (en) | 2020-12-14 | 2024-08-28 | 株式会社Nttドコモ | Speech evaluation system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007218933A (en) * | 2006-02-14 | 2007-08-30 | Hitachi Ltd | Conversation voice analysis method and conversation voice analysis device |
JP2010267012A (en) * | 2009-05-13 | 2010-11-25 | Hitachi Ltd | System and method for voice retrieving data |
JP2011070192A (en) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | Speech retrieval apparatus and speech retrieval method |
-
2013
- 2013-06-18 WO PCT/JP2013/066690 patent/WO2014203328A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007218933A (en) * | 2006-02-14 | 2007-08-30 | Hitachi Ltd | Conversation voice analysis method and conversation voice analysis device |
JP2010267012A (en) * | 2009-05-13 | 2010-11-25 | Hitachi Ltd | System and method for voice retrieving data |
JP2011070192A (en) * | 2009-09-22 | 2011-04-07 | Ricoh Co Ltd | Speech retrieval apparatus and speech retrieval method |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108027823A (en) * | 2015-07-13 | 2018-05-11 | 帝人株式会社 | Information processor, information processing method and computer program |
WO2020121115A1 (en) * | 2018-12-13 | 2020-06-18 | 株式会社半導体エネルギー研究所 | Content classification method and classification model generation method |
CN110211592A (en) * | 2019-05-17 | 2019-09-06 | 北京华控创为南京信息技术有限公司 | Intelligent sound data processing equipment and method |
CN112069796A (en) * | 2020-09-03 | 2020-12-11 | 阳光保险集团股份有限公司 | Voice quality inspection method and device, electronic equipment and storage medium |
CN112069796B (en) * | 2020-09-03 | 2023-08-04 | 阳光保险集团股份有限公司 | Voice quality inspection method and device, electronic equipment and storage medium |
JP7541474B2 (en) | 2020-12-14 | 2024-08-28 | 株式会社Nttドコモ | Speech evaluation system |
CN113204685A (en) * | 2021-04-25 | 2021-08-03 | Oppo广东移动通信有限公司 | Resource information acquisition method and device, readable storage medium and electronic equipment |
CN113254579A (en) * | 2021-05-21 | 2021-08-13 | 北京自如信息科技有限公司 | Voice retrieval method and device and electronic equipment |
CN115132198A (en) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | Data processing method, data processing device, electronic equipment, program product and medium |
CN115132198B (en) * | 2022-05-27 | 2024-03-15 | 腾讯科技(深圳)有限公司 | Data processing method, device, electronic equipment, program product and medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11367450B2 (en) | System and method of diarization and labeling of audio data | |
US11580991B2 (en) | Speaker based anaphora resolution | |
WO2014203328A1 (en) | Voice data search system, voice data search method, and computer-readable storage medium | |
US10917758B1 (en) | Voice-based messaging | |
US8831947B2 (en) | Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice | |
US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
US9245523B2 (en) | Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts | |
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
US20110004473A1 (en) | Apparatus and method for enhanced speech recognition | |
US20120271631A1 (en) | Speech recognition using multiple language models | |
US9311914B2 (en) | Method and apparatus for enhanced phonetic indexing and search | |
US9495955B1 (en) | Acoustic model training | |
JPH10507536A (en) | Language recognition | |
Yang et al. | Open source magicdata-ramc: A rich annotated mandarin conversational (ramc) speech dataset | |
CN111489743B (en) | Operation management analysis system based on intelligent voice technology | |
Hain et al. | The 2005 AMI system for the transcription of speech in meetings | |
JP5326169B2 (en) | Speech data retrieval system and speech data retrieval method | |
US10417345B1 (en) | Providing customer service agents with customer-personalized result of spoken language intent | |
Hori et al. | A statistical approach to automatic speech summarization | |
JP6254504B2 (en) | Search server and search method | |
US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
JP5897718B2 (en) | Voice search device, computer-readable storage medium, and voice search method | |
Biswas et al. | Speech recognition using weighted finite-state transducers | |
WO2014155652A1 (en) | Speaker retrieval system and program | |
Tarján et al. | Improved recognition of Hungarian call center conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13887474 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13887474 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |