WO2009107211A1 - 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 - Google Patents

音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 Download PDF

Info

Publication number
WO2009107211A1
WO2009107211A1 PCT/JP2008/053490 JP2008053490W WO2009107211A1 WO 2009107211 A1 WO2009107211 A1 WO 2009107211A1 JP 2008053490 W JP2008053490 W JP 2008053490W WO 2009107211 A1 WO2009107211 A1 WO 2009107211A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
channel
data
unit section
initiative
Prior art date
Application number
PCT/JP2008/053490
Other languages
English (en)
French (fr)
Inventor
難波 功
佐知子 小野寺
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2010500486A priority Critical patent/JP5099211B2/ja
Priority to PCT/JP2008/053490 priority patent/WO2009107211A1/ja
Publication of WO2009107211A1 publication Critical patent/WO2009107211A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present invention provides audio data for causing a computer to execute a process of extracting a location including a customer inquiry (hereinafter referred to as a “question utterance part”) from voice interaction data in which the conversation between the operator and the customer is recorded.
  • the present invention relates to a question utterance part extraction process.
  • the present invention provides a customer inquiry tendency estimation using a voice data question utterance section for causing a computer to execute a process of estimating a customer inquiry tendency using a question utterance section extracted from the voice dialogue data. Regarding processing.
  • the call center stores voice conversation data that records all conversation contents so that the conversation contents between the customer and the operator can be heard later.
  • the large amount of voice conversation data stored in the call center is not only used as a material for confirming the content of the conversation, but also can be used as a material by obtaining various information from the dialogue between the customer and the operator. Expected.
  • the following conventional methods are used to estimate the tendency of customer inquiries from dialogue contents using voice dialogue data.
  • Step S901 An operator listens to voice dialogue data recorded at a call center, and determines the location of a customer inquiry from the dialogue content.
  • Step S902 Select a keyword indicating the content of the location determined to be a customer inquiry and write it out (convert the keyword into text data).
  • Step S903 The keyword data is classified and the keywords are arranged in the descending order of the number of classification categories to obtain an inquiry tendency.
  • Step S911 The operator is instructed beforehand to record the contents of the customer inquiry.
  • Step S912 The operator records the inquiry contents of the customer as a response result (converts the inquiry contents into text data).
  • Step S913 The record data of the inquiry content is analyzed and the tendency of the inquiry is estimated.
  • the data for estimating the tendency of customer inquiries is obtained from the voice interaction data by the work of rewriting.
  • the operator performs the tasks of listening to voice dialogue recording data and selecting keywords.
  • the inquiry content is recorded by the operator.
  • the voice conversation data does not necessarily include the part where the customer is inquiring (question utterance part), and there is a lot of wasted data Become.
  • An object of the present invention is to provide a processing method capable of cutting out a part (question utterance part) including a customer inquiry from voice dialogue data without using human hands.
  • Another object of the present invention is to provide a processing technique that can estimate the tendency of customer inquiries using voice data of a question utterance section cut out from voice dialogue data.
  • a speaker who speaks predominantly has a tendency to utter continuously with a certain volume of speech, compared to a speaker.
  • a situation is assumed in which the questioner leads the question in advance and the responder speaks the response to the question.
  • the question is made as the leading utterance of the questioner, and during the utterance of the question, it can be recognized as a continuous utterance with a certain amount of speech.
  • the processing according to the present invention extracts the utterance period considered that the customer is asking the question from the dialogue between the customer and the operator, using the voice characteristics generated during the dialogue between the questioner and the responder. It is.
  • a person who speaks in a lead manner is identified from the voice dialogue data between the customer and the operator using the loudness of the voice, and the customer If the customer's voice precedes the operator's utterance and is spoken in an initiative, the customer's continuous utterance period (preceding initiative utterance period) is regarded as the period during which the customer is asking questions. A part is extracted as a part (question utterance part) including a customer inquiry.
  • the program disclosed here extracts the question utterance part that the customer is making an inquiry from the voice conversation data in which the conversation between the operator and the customer is recorded.
  • a process of inputting voice dialogue data composed of a recorded first channel and a second channel in which customer voice is recorded, and a voice power value for each predetermined unit section for each channel of the voice dialogue data And a process for generating audio power information in which the power values are arranged in time series, and comparing the first channel audio power information and the audio power information of the second channel from the beginning in time series, and a predetermined determination unit.
  • a channel in which the total or percentage of the determination unit section of the power value is a larger value is led in the determination unit section.
  • the leading utterer in the determination unit interval closer to the head in the time series is identified as a predecessor-initiated speaker, and the same initiative as the preceding initiative speaker is consecutive from the determination unit interval of the preceding initiative speaker
  • the computer executing the program inputs voice dialogue data composed of a first channel in which the operator's voice is recorded and a second channel in which the customer's voice is recorded, and for each channel of the voice dialogue data, The power value of sound for each predetermined unit section is calculated, and sound power information in which the power values are arranged in time series is generated.
  • the first channel voice power information and the second channel voice power information are compared for each predetermined determination unit section from the head, and the channel of the preceding speaker who spoke in advance in the voice dialogue data is specified. Further, a channel having a high ratio of utterances with a certain power value in the determination unit section is determined as a leading utterer, and a leading utterer in the determination unit section closest to the head is identified as a leading initiative utterance channel, and the leading initiative channel is determined.
  • a determination unit period in which the same initiative utterer as the utterer continues is defined as the preceding initiative utterance time.
  • the time corresponding to the precedence initiative utterance time of the second channel is specified as the question utterance portion, and is specified as the question utterance portion of the second channel of the voice interaction data.
  • the voice data of the selected part is extracted as question utterance part data.
  • voice data (question utterance part data) including customer inquiries is automatically extracted from voice dialogue data in which operator voices and customer voices are recorded in different channels.
  • Data used for estimating a query can be easily obtained without manual operation.
  • another program disclosed herein causes a computer to execute the same processing as the above-mentioned program in order to estimate the tendency of customer inquiries from voice dialogue data in which the dialogue between the operator and the customer is recorded.
  • a predetermined speech recognition process is performed on the question utterance part data, a text data corresponding to the voice of the question utterance part data is acquired, and a word dictionary is used to prepare words from the text data.
  • voice data (question utterance section data) including a customer inquiry can be easily and efficiently obtained. Can be extracted.
  • the processing cost of the voice recognition processing can be significantly reduced.
  • text data including customer inquiries can be obtained by voice recognition processing on the question utterance part data, so it is possible to realize estimation processing of customer inquiries by analyzing and classifying such text data. Become.
  • FIG. 1 is a diagram illustrating a configuration example of an inquiry tendency estimation apparatus.
  • the inquiry tendency estimation system 1 is a system that outputs inquiry tendency information 5 that estimates an inquiry tendency of a customer from voice conversation data 3 in which a dialogue between the customer and an operator is recorded on another channel.
  • the inquiry tendency estimation system 1 includes a question utterance part extraction device 10, a speech recognition device 20, a word dictionary 23, and a tendency analysis device 25.
  • the question utterance part extracting device 10 extracts voice data (question utterance part data) of a part including the utterance inquired by the customer from the voice dialogue data 3.
  • the speech recognition device 20 performs speech recognition processing on the question utterance portion data 7 using the word dictionary 23 and extracts keywords from the generated text data.
  • the trend analysis device 25 performs a clustering process and a trend analysis process on the keyword 9 to estimate a customer's inquiry tendency and outputs it as inquiry tendency information 5.
  • FIG. 2 is a diagram illustrating a configuration example of the question utterance part extraction device 10 of the inquiry tendency estimation system 1.
  • the question utterance part extraction device 10 includes a voice data input part 11, a voice power information generation part 12, a preceding initiative utterer / time identification part 13, a question utterance part determination part 14, and a question utterance part extraction part 15.
  • the voice data input unit 11 includes voice conversation data 3 composed of a first channel (L channel) in which an operator's speech is recorded and a second channel (R channel) in which a customer's speech is recorded. Enter.
  • the voice power information generation unit 12 calculates a power value indicating the volume of voice for each predetermined unit section for each channel of the voice conversation data 3, and generates voice power information 4 in which the calculated power values are arranged in time series. To do.
  • the audio power information 4 is information on bit strings obtained by converting an average value (power) of audio data of each channel in a predetermined unit section into a bit string using a predetermined threshold th and arranging them in time series. Therefore, if the voice power of the utterance is greater than or equal to a certain threshold th, “1” is stored in the bit, otherwise it remains “0”.
  • the leading initiative speaker / time specifying unit 13 compares the voice power value of the L channel and the voice power value of the R channel of the voice conversation data 3 for each predetermined unit section from the head of the voice power information 4, and the first head In the unit interval close to, the bit of the power value is “1”, and the channel is detected and set as the preceding speech channel.
  • the power value of the voice power information is divided by a predetermined determination unit section, a channel having a high ratio of bits being “1” is determined, and the channel is set as a leading speaker in the section.
  • the determination of the lead speaker is performed for the entire power value column of the voice power information. Further, the leading speaker (channel) in the determination unit section closest to the head is identified as the leading speaker (channel). Then, a determination unit interval in which the same initiative utterer as the preceding initiative utterance is continuous is set as the precedence initiative utterance time.
  • the question utterance portion determination unit 14 determines a time corresponding to the preceding initiative utterance time of the preceding initiative speaker (R channel). , Specify as question utterance part.
  • the question utterance part determination part 14 performs a determination process by, for example, a machine learning process using a rule base and learning data.
  • the question utterance part extraction unit 15 extracts the voice data of the part specified as the question utterance part as the question utterance part data 7 from the R channel voice data of the voice dialogue data 3.
  • FIG. 3 is a schematic process flow diagram of the question utterance part extraction device 10.
  • Step S10 The voice data input unit of the question utterance part extraction device 10 inputs a set of voice dialogue data 3.
  • FIG. 4 shows an example of the contents of the utterances of the operator and the customer as the voice dialogue data 3
  • FIG. 4 shows an example of the contents of the utterances of the operator and the customer as the voice dialogue data 3
  • the voice dialogue data 3 is voice data obtained by recording the voice of the dialogue between the operator and the customer as shown in FIG. 4 using a known recording device.
  • the voice interaction data 3 is composed of two channels. Voice data of the operator is recorded on the first channel (for example, L channel), and voice data of the customer is recorded on the second channel (for example, R channel) independently.
  • data identification information (recording 1), operator name (Yamada), recording date (05/10/11), recording start time (15:25:20)
  • recording start time 15:25:20
  • the recording end time (15:31:32) is stored.
  • Step S11 The voice power information generation unit 12 divides the voice dialogue data 3 into predetermined unit sections.
  • the unit interval is, for example, a value of 1 to 2 seconds.
  • Step S12 The voice power information generation unit 12 obtains an average of the power values of the voices in each unit section, and converts the average into voice power information 4 that is a continuation of time-series power values.
  • FIG. 6 shows a processing flow of the generation processing of the audio power information 4 in step S12.
  • the voice power information generation unit 12 applies a Fourier transform process to each channel of the voice conversation data 3 to obtain a column of [power, pitch] (step S121). Further, a unit section m which is the minimum time unit of the power train is determined (step S122). As the voice power information 4, an average power value is obtained for each unit section m from the beginning of the voice conversation data 3. If the average power value is equal to or greater than the threshold th, “1” is indicated. If the average power value is less than the threshold th, “0” is indicated. The bit string to which is added is output (step S123).
  • FIG. 7 to 10 are diagrams showing the voice power information 4 of the voice conversation data (recordings 1 to 4) 3.
  • Step S13 The preceding initiative utterer / time specifying unit 13 acquires, from the converted voice power information 4, as the attribute information, the total response time, the preceding utterance channel, the preceding initiative utterer (channel), and the preceding initiative utterance time. .
  • the total response time indicates the total time of actual dialogue of the voice dialogue data 3.
  • the index information of the voice dialogue data is obtained by the difference between the dialogue start time and the dialogue end time.
  • FIG. 12 is a diagram showing the total response time for each of the voice conversation data (recordings 1 to 4) 3.
  • the preceding utterance channel indicates a channel in which the utterance preceded in the dialogue between the customer and the operator.
  • the channel having the earliest unit section in which “1” is assigned to the bit is defined as the preceding speech channel.
  • the values of the preceding speech channel are “L”, “R”, and “LR”.
  • the recipient of the telephone call starts the conversation, that is, speaks first. Therefore, in the case of a customer-side call at the time of a normal inquiry, the first utterance is an operator. Conversely, when the operator calls back to the customer, the operator calls and the first utterance is the customer. In general, callback conversations rarely include customer questions, so by identifying which channel the operator or customer's voice was recorded on corresponds to the preceding speech channel, the operator's call You can specify the back-up dialogue.
  • FIG. 14 is a diagram showing the preceding utterance channel of each of the voice conversation data (recordings 1 to 4) 3.
  • the leading initiative speaker is the initiative speaker (channel) of the determination unit interval closest to the head among the initiative speakers in the predetermined determination unit interval.
  • the leading initiative speaker / time specifying unit 13 selects a channel having a large total number (or a high ratio) of unit sections in which the bit of the power value of the audio power information 4 is “1” within a predetermined determination unit section. Determined to be the lead speaker. Then, the leading utterer in the determination unit section closest to the head (the first determination unit section in the time series) is specified as the preceding initiative utterance.
  • the unit determination interval in which the preceding initiative speech channel is determined as the lead speaker The continuation is the lead-led utterance time.
  • FIG. 15 is a diagram for explaining a leading initiative utterer and a leading initiative utterance time.
  • the preceding initiative speaker / time specifying unit 13 performs a determination process by shifting a window indicating a range of a unit section that is a target of a predetermined determination process by a predetermined movement unit.
  • R channel is determined as the lead speaker in the first to fifth determination processes
  • L channel is determined in the sixth determination process
  • LR is determined in the seventh determination process. Yes. Therefore, the “R channel” determined as the leading speaker in the earliest determination unit section is determined as the preceding leading speaker (preceding leading utterance channel).
  • the continuous section of the determination section is set as the preceding initiative utterance time.
  • the continuous section up to the unit section plus half of the window size n at that time is calculated as the preceding lead speech period.
  • FIG. 16 and FIG. 17 are process flow diagrams for obtaining the preceding initiative utterer and the precedence initiative utterance time.
  • the preceding initiative utterer / time specifying unit 13 selects the L channel specified as the preceding utterance channel (step S131).
  • a window size n is set (step S132), and a pointer is set at the head of the bit string of the audio power information (step S133).
  • the number of unit sections in which the bit on the L channel side is “1” is calculated and set as a value A (step S134). Further, the number of unit sections in which the bit on the R channel side is “1” in the window is calculated as a value B (step S135).
  • step S1312 the window is shifted by the movement unit k (step S1312). If the window has reached the end of the bit string of the audio power information 4 (FIG. 17: step S1313), the process proceeds to step S1314, and the window If the end of the bit string of information 4 has not been reached, the process returns to step S134.
  • the initiative speaker value whose pointer position is “0” is set as the value of the preceding initiative speaker.
  • step S1315 the range (L) of the unit interval in which the values of the preceding initiative speaker and the initiative speaker continuously take the same value is obtained (step S1315).
  • FIG. 18 to FIG. 21 are diagrams showing the calculation results of the preceding initiative utterance time of the voice conversation data (recording 1 to 4) 3.
  • the start second indicates the start position of the window
  • the window size indicates the window size n.
  • the lead channel is the channel determined to be the lead speaker
  • the L ratio and the R ratio indicate the number of unit sections to which “1” is assigned in the window.
  • Step S14 The question utterance part determination part 14 determines the question utterance part from the preceding initiative utterer (channel) and the precedence initiative utterance time.
  • the preceding initiative utterance channel is the R channel, that is, the channel in which the customer's voice is recorded
  • the question utterance portion determination unit 14 specifies a time corresponding to the preceding initiative utterance time as the question utterance portion.
  • FIG. 22 is a process flow diagram for determining a question utterance part based on a rule base.
  • the question utterance part determination unit 14 sets [preceding utterer (channel), preceding initiative utterer (channel), preceding initiative utterance time, total response time] for the speech target data to be determined as shown in FIG. Is input (step S141).
  • step S142 to step S147 is performed.
  • the question utterance part determination part 14 determines whether the input of step S141 corresponds to rule 1 (step S142), and if it corresponds to rule 1, further determines whether it corresponds to rule 2 (step S143). If it corresponds to rule 2, it is further determined whether it corresponds to rule 3 (step S144). If it corresponds to rule 3, it is further determined whether it corresponds to rule 4 (step S145). If so, it is further determined whether or not the rule 5 is satisfied (step S146). If rule 5 is satisfied, it is determined that there is no question utterance (reject) (step S147). On the other hand, if none of the rules 1 to 5 is satisfied, it is determined that the question utterance part is included (step S148).
  • the voice dialogue data of recording 1 and recording 2 among the voice dialogue data of FIG. 23 includes a question utterance part (accept), while the voice dialogue data of recording 3 and recording 4 is questioned. It is determined that the utterance part is not included (reject).
  • FIG. 25 is a process flow diagram of a learning stage when the question utterance part determination unit 14 determines the question utterance part by machine learning processing.
  • the question utterance part determination unit 14 sets, as teacher data, a set of [preceding utterer (channel), preceding led utterer (channel), preceding led utterance time, total response time] for the voice conversation data, Data in which whether the speech question part is included (accept) / not included (reject) is set is prepared (step S151).
  • FIG. 26 is a diagram illustrating an example of teacher data for machine learning processing.
  • 26A shows a teacher data group in which “accept” is set as the determination value
  • FIG. 26B shows a teacher data group in which “reject” is set as the determination value.
  • the question utterance part determination unit 14 sets a parameter for discriminant analysis with respect to a set of teacher data of “accept” (accept set) for the Mahalanobis distance determination formula (step S152). Similarly, a parameter for discriminant analysis is set for a teacher data set (reject set) of “reject” (step S153).
  • the Mahalanobis distance judgment formula is expressed, for example, as the following formula (1).
  • FIG. 28 is a process flow diagram of a determination stage when a question utterance unit is determined by machine learning processing.
  • the question utterance part determination unit 14 inputs a set of [preceding utterer (channel), preceding initiative utterer (channel), preceding initiative utterance time, total response time] for the voice conversation data to be determined (step S161).
  • a distance Da to the accept set is calculated (step S162), and a distance Dr to the reject set is calculated (step S163).
  • step S164 If the distance Da is longer than the distance Dr (YES in step S164), it is determined as “reject” (step S165). On the other hand, if the distance Da is not longer than the distance Dr (NO in step S164), it is determined as “accept” (step S166).
  • Step S15 If the question utterance part extraction part 15 determines “accept”, the question utterance part data (voice data) is set to a time corresponding to the preceding initiative utterance time of the corresponding channel (R channel) of the voice dialogue data. 7 is extracted.
  • the inquiry tendency is estimated by the inquiry tendency estimation system 1 based on the question utterance part data 7.
  • FIG. 29 is a schematic process flow diagram of the inquiry tendency estimation system 1.
  • the voice recognition device 20 performs voice recognition processing as voice recognition processing.
  • the question utterance part data 7 cut out from the dialogue data 3 is input, a speech recognition process is applied to the question utterance part data 7 and a keyword is output from the recognized character string (step S200).
  • the voice recognition device 20 may be implemented by any known voice recognition process.
  • the speaker recognition processing method by the HMM method is used (Tomoko Matsui, “Speaker recognition by HMM”, IEICE technical report, SP95-111, pp17-24, published by IEICE, January 1996. ).
  • the trend analysis device 25 performs a known clustering process / trend analysis process on the keywords 9 extracted from the plurality of question utterance part data 7 cut out from the voice conversation data 3 to estimate the query tendency, and the estimation result Is output as inquiry tendency information 5 (step S300). For example, the trend analysis device 25 executes hierarchical clustering processing for the keyword 9, sorts the clusters in descending order of the number of elements, as shown in FIG. 30, and estimates the upper cluster as a query tendency. .
  • the inquiry tendency estimation system 1 shown in FIG. 1 has been described as constituting three devices: the question utterance part extraction device 10, the speech recognition device 20, and the trend analysis device 25.
  • the question utterance part extraction device 10, the speech recognition device 20, and the trend analysis device 25 of the inquiry tendency estimation system 1 can be implemented as program modules that are installed and executed on one computer.
  • the program for realizing the inquiry tendency estimation system 1, and further the question utterance part extraction device 10, the speech recognition device 20, and the trend analysis device 25 is a computer-readable portable medium memory, semiconductor memory, hard disk, etc. It can be stored in an appropriate recording medium, provided by being recorded on these recording media, or can be provided by transmission / reception using various communication networks via a communication interface.

Abstract

 質問発話部抽出装置10は,オペレータと顧客の音声が別チャネルに録音された音声対話データ3を入力し,各チャネルでの単位区間毎の音声のパワー値を算出し,所定区間において一定のパワーで発話する時間がより長く,かつ先行して発話する者を先行主導発話者とて判定し,発話の最初から先行主導発話者が継続して発話する期間を特定する。そして当該先行主導発話者が顧客であれば,当該期間を質問発話部と特定し,該質問発話部データ7を抽出する。音声認識装置20は,質問発話部データ7に音声認識処理を施してキーワード9を抽出する。傾向分析装置25は,抽出したキーワード9を用いて顧客の問い合わせの傾向を分析し,結果を問い合わせ傾向情報5として出力する。

Description

音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
 本発明は,コンピュータに,オペレータと顧客の対話内容が録音された音声対話データから,顧客の問い合わせを含む箇所(以下,“質問発話部”という)を抽出する処理を実行させるための音声データの質問発話部抽出処理に関する。
 さらに,本発明は,コンピュータに,前記音声対話データから抽出された質問発話部を用いて,顧客の問い合わせ傾向を推定する処理を実行させるための音声データの質問発話部を用いた顧客問い合わせ傾向推定処理に関する。
 コールセンタでは,顧客とオペレータとの対話内容を後から聴取できるように,全対話内容を録音した音声対話データを保存している。
 コールセンタに蓄積された大量の音声対話データは,単に対話内容を確認するための資料として利用されるだけではなく,顧客とオペレータとの対話から様々な情報を得て,資料として活用されることが期待されている。
 音声対話データを利用する場合には,その利用目的に応じて必要な部分のみを聞くことができれば十分であり,対話の開始から終了まで全てを聞くことは,多くの時間を要するので効率的ではない。例えば,音声対話データの活用方法の一つとして,対話内容から顧客の問い合わせの傾向を推定する場合には,顧客の問い合わせを含む部分の音声データを抽出する必要がある。
 音声対話データのうち,オペレータと顧客の応答の核心的部分を特定し再生可能とするために,音声認識処理などによって抽出したキーワードやオペレータの端末画面の操作情報などを音声対話録音データにインデックスとして付与しておき,音声対話録音データ再生時に再生開始位置を特定するために利用できるようにする従来方法がある(例えば,特許文献1参照)。
特開平11-25112号公報
 音声対話データを活用して,対話内容から顧客の問い合わせの傾向を推定する場合には,以下のような従来方法が行われている。
 〔従来手法1〕
 ステップS901:コールセンタで録音された音声対話データを作業者が聴取し,対話内容から顧客の問い合わせの箇所を判定する。
 ステップS902:顧客の問い合わせと判定された箇所の内容を示すキーワードを選択し,書き出す(キーワードをテキストデータ化する)。
 ステップS903:キーワードデータを分類処理し,分類カテゴリー数の多い順にキーワードを並べて問い合わせ傾向とする。
 〔従来手法2〕
 ステップS911:予め,オペレータに顧客の問い合わせ内容を記録するように指示する。
 ステップS912:オペレータが,応対結果として,顧客の問い合わせ内容を記録する(問い合わせ内容をテキストデータ化する)。
 ステップS913:問い合わせ内容の記録データを分析処理し,問い合わせの傾向を推定する。
 従来手法1および2では,ステップS902,S912の処理のように,音声対話データから,顧客の問い合わせの傾向を推定するためのデータを,書き起こす作業によって得ていた。従来手法1では,音声対話録音データの聴取とキーワードの選択の作業が作業者によって行われている。また,従来手法2では,問い合わせ内容の記録作業がオペレータによって行われている。
 一方,音声対話データの内容をテキストデータ化する音声認識処理が知られている。しかし,音声対話データに対して一律に音声認識処理を施し,問い合わせ傾向を推定する対象データ(テキストデータ)を得た場合には,以下のような問題が生じる。
 ・ 音声対話データの全区間に対して音声識別処理を行う場合,音声対話データに顧客が問い合わせをしている箇所(質問発話部)が必ず含まれているわけではなく,無駄となるデータが多くなる。
 ・ さらに,質問発話部以外の部分が混在するデータに対して分析処理が行われるため,対話全体の内容の傾向が推定され,顧客の問い合わせの傾向を反映した推定結果を得ることができない。
 本発明の目的は,音声対話データから,顧客の問い合わせを含む箇所(質問発話部)を人手によらずに切り出すことができる処理手法を提供することである。
 さらに,本発明の別の目的は,音声対話データから切り出した質問発話部の音声データを用いて,顧客の問い合わせの傾向を推定できる処理手法を提供することである。
 まず,本発明の原理を説明する。一般的に,対話中の話者間において,主導的に発話している発話者は,発話の応対者に比べて,一定の大きさの音声で継続的に発話する傾向がある。例えば,質問者と応答者との対話では,質問者が先行して主導的に質問を発話し,応答者がその質問に対する応答を発話するという状況が想定される。この状況において,質問は,質問者の先行する主導的な発話としてなされ,かかる質問の発話中は,一定の大きさの音声での継続的な発話として認識できると考えられる。
 本発明にかかる処理は,質問者と応答者との対話中に生じる音声上の特徴を利用して,顧客とオペレータの対話から,顧客が質問していると考えられる発話の期間を抽出するものである。
 本発明にかかる処理によれば,顧客とオペレータとの音声対話データから,音声の大きさを利用して,主導的かつ先行して発話している者(先行主導発話者)を特定し,顧客の音声が,オペレータの発話に先行し,かつ主導的に発話されている場合に,該当する顧客の継続的な発話期間(先行主導発話期間)を,顧客が質問している期間とみなし,当該箇所を顧客の問い合わせを含む箇所(質問発話部)として抽出する。
 具体的には,ここで開示するプログラムは,オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出するために,コンピュータに,オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理と,前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理と,前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理と,前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理と,前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理とを,実行させるものである。
 当該プログラムを実行するコンピュータは,オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力し,音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する。
 そして,第1チャネル音声パワー情報および第2チャネルの音声パワー情報を先頭から所定の判定単位区間ごとに比較し,前記音声対話データにおいて先行して発話した先行発話者のチャネルを特定する。さらに,前記判定単位区間内で一定のパワー値による発話の割合が高いチャネルを主導発話者と判定し,先頭に最も近い判定単位区間の主導発話者を先行主導発話チャネルと特定し,当該先行主導発話者と同じ主導発話者が連続する判定単位期間を先行主導発話時間とする。
 さらに,先行主導発話チャネルが前記第2チャネルである場合に,第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定し,音声対話データの第2チャネルの質問発話部と特定された箇所の音声データを質問発話部データとして抽出する。
 これにより,オペレータの音声と顧客の音声とが別のチャネルにそれぞれ録音されている音声対話データから,顧客の問い合わせを含む音声データ(質問発話部データ)を自動的に抽出されるため,顧客の問い合わせを推定する場合に使用するデータを,手作業によらずに容易に得ることができる。
 さらに,ここで開示する別のプログラムは,オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定するために,コンピュータに,前記プログラムと同様の処理を実行させるとともに,さらに,前記質問発話部データに対して所定の音声認識処理を行い,質問発話部データの音声に相当するテキストデータを取得する処理と,予め備えられた単語辞書を用いて,テキストデータから単語を抽出する処理と,抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する処理とを,実行させるものである。
 これにより,音声対話データから抽出された質問発話部データに対して音声認識処理を行い,取得したテキストデータをもとに顧客の問い合わせ傾向を推定する処理を自動化して行うことができる。
 本発明によれば,音声対話データから,顧客の問い合わせの傾向を推定するためのデータを書き起こす作業が不要となり,顧客の問い合わせを含む箇所の音声データ(質問発話部データ)を容易かつ効率的に抽出することができる。
 また,音声対話データから,顧客の問い合わせを含む箇所(質問発話部データ)のみ切り出すことができるため,音声認識処理の処理コストを著しく軽減することができる。
 さらに,質問発話部データに対する音声認識処理によって,顧客の問い合わせを含むテキストデータが得られるため,かかるテキストデータを既知の分析・分類することによって顧客の問い合わせ傾向の推定処理を実現することが可能になる。
問い合わせ傾向推定装置の構成例を示す図である。 質問発話部抽出装置の構成例を示す図である。 質問発話部抽出装置の概要処理フロー図である。 音声対話データのオペレータおよび顧客の発話の例を示す図である。 音声対話データのデータ構成を示す図である。 音声パワー情報の生成処理の処理フロー図である。 音声対話データ(録音1)の音声パワー情報を示す図である。 音声対話データ(録音2)の音声パワー情報を示す図である。 音声対話データ(録音3)の音声パワー情報を示す図である。 音声対話データ(録音4)の音声パワー情報を示す図である。 総応対時間の説明図である。 音声対話データ(録音1~4)の総応対時間を示す図である。 先行発話チャネルの説明図である。 音声対話データ(録音1~4)の先行発話チャネルを示す図である。 先行主導発話者(先行主導発話チャネル)の説明図である。 先行主導発話者および先行主導発話時間を求める処理フロー図(その1)である。 先行主導発話者および先行主導発話時間を求める処理フロー図(その2)である。 音声対話データ(録音1)の先行主導発話時間の計算結果を示す図である。 音声対話データ(録音2)の先行主導発話時間の計算結果を示す図である。 音声対話データ(録音3)の先行主導発話時間の計算結果を示す図である。 音声対話データ(録音4)の先行主導発話時間の計算結果を示す図である。 ルールベースによって質問発話部を判定する処理フロー図である。 質問発話部へ入力されるデータの例を示す図である。 質問発話部判定のルール例を示す図である。 機械学習処理によって質問発話部を判定する場合の学習段階の処理フロー図である。 機械学習処理の教師データの例を示す図である。 教師データによって判別式のための値を計算した例を示す図である。 機械学習処理によって質問発話部を判定する場合の判別段階の処理フロー図である。 問い合わせ傾向推定システムの概要処理フロー図である。 問い合わせ傾向の分析例を示す図である。
符号の説明
 1 問い合わせ傾向推定システム
 10 質問発話部抽出装置
 11 音声データ入力部
 12 音声パワー情報生成部
 13 先行主導発話者・時間特定部
 14 質問発話部判定部
 15 質問発話部抽出部
 20 音声認識装置
 23 単語辞書
 25 傾向分析装置
 3 音声対話データ
 5 問い合わせ傾向情報
 7 質問発話部データ
 9 キーワード
 図1は,問い合わせ傾向推定装置の構成例を示す図である。
 問い合わせ傾向推定システム1は,顧客とオペレータとの対話を別チャネルで録音した音声対話データ3から,顧客の問い合わせ傾向を推定した問い合わせ傾向情報5を出力するシステムである。
 問い合わせ傾向推定システム1は,質問発話部抽出装置10,音声認識装置20,単語辞書23および傾向分析装置25を備える。
 質問発話部抽出装置10は,音声対話データ3から,顧客が問い合わせをしている発話が含まれる箇所の音声データ(質問発話部データ)を抽出する。
 音声認識装置20は,単語辞書23を用いて質問発話部データ7を音声認識処理し,生成したテキストデータからキーワードを抽出する。
 傾向分析装置25は,キーワード9に対し,クラスタリング処理,傾向分析処理を行って顧客の問い合わせ傾向を推定し,問い合わせ傾向情報5として出力する。
 図2は,問い合わせ傾向推定システム1の質問発話部抽出装置10の構成例を示す図である。
 質問発話部抽出装置10は,音声データ入力部11,音声パワー情報生成部12,先行主導発話者・時間特定部13,質問発話部判定部14および質問発話部抽出部15を備える。
 音声データ入力部11は,オペレータの発話音声が録音された第1のチャネル(Lチャネル)と顧客の発話音声が録音された第2のチャネル(Rチャネル)とで構成されている音声対話データ3を入力する。
 音声パワー情報生成部12は,音声対話データ3の各チャネルについて,所定単位区間ごとの音声の大きさを示すパワー値を算出し,算出したパワー値を時系列で並べた音声パワー情報4を生成する。
 音声パワー情報4は,各チャネルの音声データの所定単位区間での大きさ(パワー)の平均値を,所定の閾値thを用いてビット列へ変換し,時系列で並べたビット列の情報である。したがって,発話の音声パワーが一定の閾値th以上の大きさであれば,ビットに“1”を格納し,そうでなければ“0”のままとなる。
 先行主導発話者・時間特定部13は,音声対話データ3のLチャネルの音声パワー値とRチャネルの音声パワー値とを,音声パワー情報4の先頭から所定の単位区間ごとに比較し,最も先頭に近い単位区間で前記パワー値のビットが“1”でありチャネルを検出し,先行発話チャネルとする。
 さらに,音声パワー情報のパワー値を,所定の判定単位区間で区切り,ビットが“1”となっている割合が大きいチャネルを判定し,当該チャネルをその区間での主導発話者とする。主導発話者の判定は,音声パワー情報の全パワー値の列について行う。また,先頭に最も近い判定単位区間での主導発話者(チャネル)を先導発話者(チャネル)と特定する。そして,先行主導発話と同じ主導発話者が連続している判定単位区間を,先行主導発話時間とする。
 質問発話部判定部14は,先行主導発話者(チャネル)が,顧客の音声が録音されたRチャネルである場合に,当該先行主導発話者(Rチャネル)の先行主導発話時間に該当する時間を,質問発話部として特定する。質問発話部判定部14は,例えば,ルールベース,学習データを用いた機械学習処理によって判定処理を行う。
 質問発話部抽出部15は,音声対話データ3のRチャネルの音声データから,質問発話部と特定された箇所の音声データを質問発話部データ7として抽出する。
 図3に,質問発話部抽出装置10の概要処理フロー図である。
 ステップS10:質問発話部抽出装置10の音声データ入力部は,音声対話データ3の集合を入力する。
 図4に,音声対話データ3となるオペレータおよび顧客の発話の内容例を,図5に,音声対話データ3のデータ構成を示す。
 音声対話データ3は,図4に示すようなオペレータと顧客の対話の音声を,既知の録音装置によって録音した音声データである。音声対話データ3は2チャネルで構成される。第1チャネル(例えば,Lチャネル)にオペレータの音声データが,第2チャネル(例えば,Rチャネル)に顧客の音声データが,それぞれ独立して録音される。
 音声対話データ3の先頭には,データインデックスとして,データの識別情報(録音1),オペレータ名(山田),録音年月日(05/10/11),録音開始時刻(15:25:20)および録音終了時刻(15:31:32)が格納される。
 ステップS11:音声パワー情報生成部12は,音声対話データ3を所定の単位区間に分割する。単位区間は,例えば,1~2秒の値とする。
 ステップS12:音声パワー情報生成部12は,各単位区間の音声のパワー値の平均を求め,時系列のパワー値の連続である音声パワー情報4に変換する。
 図6に,ステップS12の音声パワー情報4の生成処理の処理フローを示す。
 音声パワー情報生成部12は,音声対話データ3の各チャネルに対して,フーリエ変換処理を適応し,[パワー,ピッチ]の列を得る(ステップS121)。さらに,パワー列の最少時間単位である単位区間mを定める(ステップS122)。音声パワー情報4として,音声対話データ3の先頭から単位区間mごとに,平均パワー値を求め,平均パワー値が閾値th以上であれば,“1”を,閾値th未満であれば“0”を付与した,ビット列を出力する(ステップS123)。
 図7~図10は,音声対話データ(録音1~4)3の音声パワー情報4を示す図である。図7~図10に示す音声パワー情報4において,[発話開始:発話終了]の形式で,発話開始時刻から発話終了時刻までの間で値“1”が付与されているビット列を表す。例えば,単位区間m=1秒の場合に,[発話開始=0:発話終了=3]は,開始0秒から3までの間が,値“1”が付与されている区間,すなわち,閾値th以上の大きさで発話があった時間を意味する。
 ステップS13:先行主導発話者・時間特定部13は,変換された音声パワー情報4から,属性情報として,総応対時間,先行発話チャネル,先行主導発話者(チャネル),先行主導発話時間を取得する。
 総応対時間は,音声対話データ3の実際の対話の総時間を示す。図11に示すように,音声対話データのインデックス情報の対話の開始時刻と終了時刻の差で求める。図12は,音声対話データ(録音1~4)3各々の総応対時間を表す図である。
 先行発話チャネルは,顧客とオペレータの対話において先行して発話があったチャネルを示す。音声パワー情報4のパワー値のビット列において,ビットに“1”が付与されている最先の単位区間を持つチャネルを,先行発話チャネルとする。先行発話チャネルの値は,“L”,“R”,“LR”とする。
 コールセンタで録音される音声対話データ3では,一般的に,電話の発呼の受け手側が対話を開始,すなわち最初に発話する。したがって,通常の問い合わせ時の顧客側発呼の場合には最初の発話はオペレータである。反対に,オペレータが顧客にコールバックする場合,オペレータが発呼し,最初の発話は顧客である。一般的にコールバックの対話に顧客の質問が含まれることはほとんどないことから,オペレータと顧客のどちらの音声が録音されたチャネルが先行発話チャネルに該当するかを特定することによって,オペレータのコールバック時の対話を特定することができる。
 図13に示す音声パワー情報4のビット列では,Lチャネルでビット列に“1”が付与された単位区間=0,Rチャネルでビット列に“1”が付与された単位区間=3であるので,先行発話チャネル=Lと求まる。図14は,音声対話データ(録音1~4)3各々の先行発話チャネルを表す図である。
 先行主導発話者(先行主導発話チャネル)は,所定の判定単位区間における主導発話者のうち,先頭に最も近い判定単位区間の主導発話者(チャネル)である。
 先行主導発話者・時間特定部13は,所定の判定単位区間内で音声パワー情報4のパワー値のビットが“1”となっている単位区間の合計数が大きい(又は割合が高い)チャネルを主導発話者と判定する。そして先頭に最も近い判定単位区間(時系列の最先の判定単位区間)における主導発話者を先行主導発話として特定する。
 さらに,先行発話チャネルに設定されたチャネルの音声パワー情報4において,最初にパワー値に“1”が付与された単位区間から,先行主導発話チャネルが主導発話者として判定されている単位判定区間の連続を,先行主導発話時間とする。
 図15は,先行主導発話者および先行主導発話時間を説明するための図である。
 先行主導発話者・時間特定部13は,所定の判定処理の対象とする単位区間の範囲を示すウィンドウを,所定の移動単位でずらして判定処理を行う。
 先行主導発話者・時間特定部13は,パワー値の単位区間m=1秒のときに,単位判定時間に相当する処理のウィンドウサイズn=15秒(単位区間),ウィンドウをずらす移動単位k=3秒(単位区間)として,ウィンドウサイズn内で,チャネルごとにパワー値として“1”が付与されている単位区間数を計算し,単位区間数の多いチャネルを主導発話者として判定する。さらに,移動単位(サイズ)k=3秒ずらしたウィンドウサイズn内で,同様に,“1”の単位区間数が多いチャネルを主導発話者として判定する。
 図15では,1回目~5回目の判定処理では,主導発話者として“Rチャネル”が,6回目の判定処理で“Lチャネル”が,7回目の判定処理では“LR”がそれぞれ判定されている。したがって,最先の判定単位区間で主導発話者に判定された“Rチャネル”が先行主導発話者(先行主導発話チャネル)と判定される。
 次に,先行発話者チャネルに特定されたLチャネルにおいて,パワー値のビットに“1”が付与されている最先の単位判定区間から,先行主導発話チャネルが主導発話者として判定されている単位判定区間の連続区間を先行主導発話時間とする。
 ここでは,主導発話者がRチャネルからLチャネルに変わった場合に,その時のウィンドウサイズnの半分を加えた単位区間までの連続区間を,先行主導発話期間として計算する。
 図16および図17は,先行主導発話者および先行主導発話時間を求める処理フロー図である。
 先行主導発話者・時間特定部13は,先行発話チャネルに特定されたLチャネルを選択する(ステップS131)。ウィンドウサイズnを設定し(ステップS132),音声パワー情報のビット列の先頭にポインタをセットする(ステップS133)。
 ウィンドウ内でLチャネル側でのビットが“1”となっている単位区間数を計算して値Aとする(ステップS134)。さらに,ウィンドウ内でRチャネル側でのビットが“1”となっている単位区間数を計算して値Bとする(ステップS135)。
 値Aが値Bより大きいかを判定し(ステップS136),値Aが値Bより大きい場合は主導発話者=Lチャネルとする(ステップS137)。値Aが値Bより大きくない場合は,さらに,値Aが値Bと等しいかを判定し(ステップS138),値Aが値Bと等しければ,主導発話者=LRチャネルとする(ステップS139)。値Aが値Bと等しくなければ,主導発話者=Rチャネルとする(ステップS1310)。
 そして,[ポインタ位置,主導発話者値]の組を出力する(ステップS1311)。
 次に,ウィンドウを移動単位k分ずらし(ステップS1312),ウィンドウが音声パワー情報4のビット列の最後まで到達していれば(図17:ステップS1313),ステップS1314の処理へ進み,ウィンドウが音声パワー情報4のビット列の最後まで到達していなければ,ステップS134の処理へ戻る。ステップS1314の処理では,ポインタ位置が“0”の主導発話者値を先行主導発話者の値とする。
 そして,先行主導発話者と主導発話者の値が連続して同じ値をとる単位区間の範囲(L)を求める(ステップS1315)。ポインタ位置=0からポインタ位置=Lまでの区間を,発話時刻に変換し,先行主導発話時間とする(ステップS1316)。
 図18~図21は,音声対話データ(録音1~4)3の先行主導発話時間の計算結果を示す図である。図18の図において,開始秒は,ウィンドウの開始位置を示し,窓サイズは,ウィンドウサイズnを示す。主導チャネルは主導発話者と判定されたチャネル,L割合およびR割合は,ウィンドウ内で,“1”が付与された単位区分数を示す。
 音声対話データ(録音1)3の先行主導発話者(チャネル)=Rチャネル,先行主導発話時間=55.5秒である。
 また,図19の音声対話データ(録音2)3の先行主導発話者(チャネル)=Rチャネル,先行主導発話時間=19.5秒である。図20の音声対話データ(録音3)3の先行主導発話者(チャネル)=Lチャネル,先行主導発話時間=13.5秒,図21の音声対話データ(録音4)3の先行主導発話者(チャネル)=Lチャネル,先行主導発話時間=13.5秒である。
 ステップS14:質問発話部判定部14は,先行主導発話者(チャネル)および先行主導発話時間から,質問発話部を判定する。質問発話部判定部14は,先行主導発話チャネルがRチャネル,すなわち顧客の音声が録音されたチャネルである場合に,先行主導発話時間に該当する時間を質問発話部として特定する。
 図22は,ルールベースによって質問発話部を判定する処理フロー図である。
 質問発話部判定部14は,図23に示すような,判定対象の音声対象データに対する,[先行発話者(チャネル),先行主導発話者(チャネル),先行主導発話時間,総応対時間]の組を入力する(ステップS141)。
 そして,図24に示すルールベースにもとづいて,ステップS142~ステップS147の判定処理を行う。
 図24のルールベースでは,以下の判定条件が定義されている。
 ルール1:先行発話者=先行主導発話者であれば,“reject”;
 ルール2:先行発話者=LRであれば,“reject”;
 ルール3:先行発話者=Lまたは先行主導発話者=LRであれば,“reject”;
 ルール4:総応対時間が,平均応対時間お1/3以下であれば,“reject”;
 ルール5:先行主導発話時間が5秒以下であれば,“reject”;
 初期値: ルール1~ルール5のいずれでもなければ,“accept”とする。
ここで,“reject”=質問発話部は存在しない,“accept”=先行主導発話部分を質問発話部分とする。
 質問発話部判定部14は,ステップS141の入力が,ルール1に該当するかを判定し(ステップS142),ルール1に該当すれば,さらに,ルール2に該当するかを判定し(ステップS143),ルール2に該当すれば,さらに,ルール3に該当するかを判定し(ステップS144),ルール3に該当すれば,さらに,ルール4に該当するかを判定し(ステップS145),ルール4に該当すれば,さらに,ルール5に該当するかを判定し(ステップS146),ルール5に該当すれば,質問発話部はない(reject)と判定する(ステップS147)。一方,ルール1~ルール5のいずれにも該当しなければ,質問発話部を含むと判定する(ステップS148)。
 この判定処理により,図23の各音声対話データのうち,録音1および録音2の音声対話データについて質問発話部を含む(accept)と判定され,一方,録音3および録音4の音声対話データについて質問発話部を含まない(reject)と判定される。
 図25は,質問発話部判定部14が,機械学習処理によって質問発話部を判定する場合の学習段階の処理フロー図である。
 質問発話部判定部14は,教師データとして,音声対話データに対する[先行発話者(チャネル),先行主導発話者(チャネル),先行主導発話時間,総応対時間]の組と,この音声対話データが発話質問部を含むか(accept)/含まないか(reject)の判定とをセットしたデータを準備する(ステップS151)。
 図26は,機械学習処理の教師データの例を示す図である。図26(A)は,判定値に“accept”がセットされた教師データ群,図26(B)は,判定値に“reject”がセットされた教師データ群である。
 質問発話部判定部14は,マハラノビスの距離判定式について,“accept”の教師データの集合(accept集合)に対して,判別分析向けのパラメータを設定する(ステップS152)。同様に,“reject”の教師データの集合(reject集合)に対して,判別分析向けのパラメータを設定する(ステップS153)。
 ここで,マハラノビスの距離判定式は,例えば以下の式(1)ように表される。
   (x-μ)Σ-1(x-μ)   式(1)
 そして,図27に示すように,教師データによってマハラノビスの距離判定式のパラメータを計算し,判別対象がいずれの集合に類似するかの判別処理に用いる。
 図28は,機械学習処理によって質問発話部を判定する場合の判定段階の処理フロー図である。
 質問発話部判定部14は,判定対象の音声対話データに対する[先行発話者(チャネル),先行主導発話者(チャネル),先行主導発話時間,総応対時間]の組を入力し(ステップS161),accept集合との距離Daを計算し(ステップS162),さらに,reject集合との距離Drを計算する(ステップS163)。
 そして,距離Daが距離Drより遠ければ(ステップS164のYES),“reject”と判定する(ステップS165)。一方,距離Daが距離Drより遠くなければ(ステップS164のNO),“accept”と判定する(ステップS166)。
 なお,マハラノビスの距離による判定処理は,参考文献に詳説されている(P.C. Mahalanobis, "On the generalized distance in statistics", Proceedings of the National Institute of Science of India, 12 (1936) 49-55, 1936)
 ステップS15:質問発話部抽出部15は,“accept”と判定された場合に,その音声対話データの該当チャネル(Rチャネル)の先行主導発話時間に該当する時間を質問発話部データ(音声データ)7として抽出する。
 この質問発話部データ7によって,問い合わせ傾向推定システム1により問い合わせ傾向が推定される。
 図29は,問い合わせ傾向推定システム1の概要処理フロー図である。
 問い合わせ傾向推定システム1の質問発話部抽出装置10によって,音声対話データ3から,顧客の問い合わせを含む質問発話部データ7を抽出すると(ステップS100),音声認識装置20は,音声認識処理として,音声対話データ3から切り出された質問発話部データ7を入力し,質問発話部データ7に音声認識処理を適用して,認識された文字列からキーワードを出力する(ステップS200)。
 音声認識装置20は,既知のいずれの音声認識処理で実施してよい。例えば,HMM方式による話者認識処理手法を用いる(松井知子,「HMMによる話者認識」,電子情報通信学会技術研究報告 音声 SP95-111,pp17-24,電子情報通信学会発行,1996年1月)。
 傾向分析装置25は,音声対話データ3から切り出された複数の質問発話部データ7から抽出されたキーワード9に対し,既知のクラスタリング処理・傾向分析処理を施し,問い合わせ傾向を推定し,その推定結果を問い合わせ傾向情報5として出力する(ステップS300)。例えば,傾向分析装置25は,キーワード9に対して,階層型のクラスタリング処理を実行し,図30に示すように,クラスタを要素数が多い順にソートし,上位のクラスタを問い合わせの傾向として推定する。
 なお,既知のクラスタリング処理・傾向分析処理としては,本件出願人の出願した「テキスト情報作成装置、事例寄せ装置、FAQ作成用質問事例抽出装置、検索装置(特開2004-280361号公報)」に開示する処理を利用できる。
 以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
 例えば,図1に示す問い合わせ傾向推定システム1は,質問発話部抽出装置10,音声認識装置20,傾向分析装置25の3つの装置を構成するものとして説明した。
 しかし,問い合わせ傾向推定システム1の,質問発話部抽出装置10,音声認識装置20,傾向分析装置25は,1つのコンピュータにインストールされ実行されるプログラムモジュールとして実施することが可能である。
 また,問い合わせ傾向推定システム1,さらには,質問発話部抽出装置10,音声認識装置20,傾向分析装置25を実現するプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されうるものである。

Claims (6)

  1.  オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出するために,コンピュータに,
     オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理と,
     前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理と,
     前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理と,
     前記先行主導発話者のチャネルが前記第2チャネルである場合に,当該第2チャネルの前記先行主導発話時間に該当する時間を質問発話部として特定する処理と,
     前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理とを,
     実行させる音声データの質問発話部抽出処理プログラム。
  2.  コンピュータが実行する,オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出する処理方法であって,
     オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理ステップと,
     前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理ステップと,
     前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理ステップと,
     前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理ステップと,
     前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理ステップとを備える
     音声データの質問発話部抽出処理方法。
  3.  オペレータと顧客の対話が録音されている音声対話データから,顧客が問い合わせを行っている質問発話部を抽出する処理装置であって,
     オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する音声データ入力部と,
     前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する音声パワー情報生成部と,
     前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする先行主導発話者・時間特定部と,
     前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する質問発話部判定部と,
     前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する質問発話部抽出部とを備える
     音声データの質問発話部抽出処理装置。
  4.  オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定するために,コンピュータに,
     オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理と,
     前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理と,
     前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理と,
     前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理と,
     前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理と,
     前記質問発話部データに対して所定の音声認識処理を行い,当該質問発話部データの音声に相当するテキストデータを取得する処理と,
     予め備えられた単語辞書を用いて,前記テキストデータから単語を抽出する処理と,
     前記抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する処理とを,
     実行させる音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム。
  5.  コンピュータが実行する,オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定する処理方法であって,
     オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する処理ステップと,
     前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する処理ステップと,
     前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする処理ステップと,
     前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する処理ステップと,
     前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する処理ステップと,
     前記質問発話部データに対して所定の音声認識処理を行い,当該質問発話部データの音声に相当するテキストデータを取得する処理ステップと,
     予め備えられた単語辞書を用いて,前記テキストデータから単語を抽出するステップ処理と,
     前記抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する処理ステップとを,
     実行させる音声データの質問発話部を用いた顧客問い合わせ傾向推定処理方法。
  6.  オペレータと顧客の対話が録音されている音声対話データから,顧客の問い合わせの傾向を推定する処理装置であって,
     オペレータの音声が録音された第1チャネルと顧客の音声が録音された第2チャネルとで構成されている音声対話データを入力する音声データ入力部と,
     前記音声対話データの各チャネルについて,所定単位区間ごとの音声のパワー値を算出し,当該パワー値を時系列で並べた音声パワー情報を生成する音声パワー情報生成部と,
     前記第1チャネル音声パワー情報および第2チャネルの音声パワー情報を時系列で先頭から比較し,所定の判定単位区間各々において,前記パワー値の当該判定単位区間の総計または割合が,より大きい値となるチャネルを当該判定単位区間での主導発話者と判定し,前記時系列でより先頭に近い判定単位区間の主導発話者を先行主導発話者と特定し,前記先行主導発話者の判定単位区間から連続かつ前記先行主導発話者と同一の主導発話者の判定単位区間を先行主導発話時間とする先行主導発話者・時間特定部と,
     前記先行主導発話チャネルが前記第2チャネルである場合に,当該第2チャネルの先行主導発話時間に該当する時間を質問発話部として特定する質問発話部判定部と,
     前記音声対話データの第2チャネルの前記質問発話部と特定された箇所の音声データを質問発話部データとして抽出する質問発話部抽出部と,
     前記質問発話部データに対して所定の音声認識処理を行い,当該質問発話部データの音声に相当するテキストデータを取得する音声認識部と,
     予め備えられた単語辞書を用いて,前記テキストデータから単語を抽出するキーワード抽出部と,
     前記抽出されたキーワードに対して所定の分類処理を行い,クラスタ数が多い順に並べた分類情報を問い合わせ傾向情報として出力する問い合わせ傾向推定部とを,
     実行させる音声データの質問発話部を用いた顧客問い合わせ傾向推定装置。
     
PCT/JP2008/053490 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 WO2009107211A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010500486A JP5099211B2 (ja) 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
PCT/JP2008/053490 WO2009107211A1 (ja) 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/053490 WO2009107211A1 (ja) 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置

Publications (1)

Publication Number Publication Date
WO2009107211A1 true WO2009107211A1 (ja) 2009-09-03

Family

ID=41015625

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/053490 WO2009107211A1 (ja) 2008-02-28 2008-02-28 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置

Country Status (2)

Country Link
JP (1) JP5099211B2 (ja)
WO (1) WO2009107211A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266522A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 対話状態分割装置とその方法、そのプログラムと記録媒体
US10030878B2 (en) 2013-08-21 2018-07-24 Honeywell International Inc. User interaction with building controller device using a remote server and a duplex connection
US10047970B2 (en) 2013-08-21 2018-08-14 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network
US10514677B2 (en) 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
US11770649B2 (en) 2017-12-06 2023-09-26 Ademco, Inc. Systems and methods for automatic speech recognition
US11841156B2 (en) 2018-06-22 2023-12-12 Honeywell International Inc. Building management system with natural language interface

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096149A (ja) * 2002-08-29 2004-03-25 Casio Comput Co Ltd 通話内容管理装置およびプログラム
JP2007312186A (ja) * 2006-05-19 2007-11-29 Nec Corp 通話音声録音再生装置及び通話音声録音再生方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096149A (ja) * 2002-08-29 2004-03-25 Casio Comput Co Ltd 通話内容管理装置およびプログラム
JP2007312186A (ja) * 2006-05-19 2007-11-29 Nec Corp 通話音声録音再生装置及び通話音声録音再生方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266522A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 対話状態分割装置とその方法、そのプログラムと記録媒体
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network
US10837667B2 (en) 2013-08-21 2020-11-17 Ademco Inc. Devices and methods for interacting with an HVAC controller
US10054327B2 (en) 2013-08-21 2018-08-21 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10047970B2 (en) 2013-08-21 2018-08-14 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10670289B2 (en) 2013-08-21 2020-06-02 Ademco Inc. Devices and methods for interacting with an HVAC controller
US10782043B2 (en) 2013-08-21 2020-09-22 Ademco Inc. User interaction with building controller device using a remote server and a duplex connection
US10030878B2 (en) 2013-08-21 2018-07-24 Honeywell International Inc. User interaction with building controller device using a remote server and a duplex connection
US11543143B2 (en) 2013-08-21 2023-01-03 Ademco Inc. Devices and methods for interacting with an HVAC controller
US10514677B2 (en) 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
US11770649B2 (en) 2017-12-06 2023-09-26 Ademco, Inc. Systems and methods for automatic speech recognition
US11841156B2 (en) 2018-06-22 2023-12-12 Honeywell International Inc. Building management system with natural language interface

Also Published As

Publication number Publication date
JPWO2009107211A1 (ja) 2011-06-30
JP5099211B2 (ja) 2012-12-19

Similar Documents

Publication Publication Date Title
US11227603B2 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
US10726848B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
US20170053653A1 (en) Blind Diarization of Recorded Calls With Arbitrary Number of Speakers
US8165874B2 (en) System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
KR101131278B1 (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
JP5779032B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
JP2015219480A (ja) 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
CA2417926C (en) Method of and system for improving accuracy in a speech recognition system
KR20160013592A (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN111489743A (zh) 一种基于智能语音技术的运营管理分析系统
KR20190143116A (ko) 대화 자동 저장 장치 및 방법
JP2007233148A (ja) 発話区間検出装置及び発話区間検出プログラム
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP2012226651A (ja) 情報処理装置、情報処理方法及びプログラム
US7454337B1 (en) Method of modeling single data class from multi-class data
WO2009130785A1 (ja) 問題解決時間推定処理プログラム,処理装置および処理方法
US20240071367A1 (en) Automatic Speech Generation and Intelligent and Robust Bias Detection in Automatic Speech Recognition Model
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
Gereg et al. Semi-automatic processing and annotation of meeting audio recordings
Rizal et al. Emotion Recognition Using Bahasa Malaysia Natural Speech
Pande et al. Speakers Identification Using Diarization Techniques

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08720985

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010500486

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08720985

Country of ref document: EP

Kind code of ref document: A1