WO2014069443A1 - 不満通話判定装置及び不満通話判定方法 - Google Patents

不満通話判定装置及び不満通話判定方法 Download PDF

Info

Publication number
WO2014069443A1
WO2014069443A1 PCT/JP2013/079234 JP2013079234W WO2014069443A1 WO 2014069443 A1 WO2014069443 A1 WO 2014069443A1 JP 2013079234 W JP2013079234 W JP 2013079234W WO 2014069443 A1 WO2014069443 A1 WO 2014069443A1
Authority
WO
WIPO (PCT)
Prior art keywords
call
utterance
closing
interrupted
dissatisfied
Prior art date
Application number
PCT/JP2013/079234
Other languages
English (en)
French (fr)
Inventor
真宏 谷
祥史 大西
真 寺尾
岡部 浩司
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014544514A priority Critical patent/JPWO2014069443A1/ja
Publication of WO2014069443A1 publication Critical patent/WO2014069443A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2038Call context notifications

Definitions

  • the present invention relates to a call analysis technique.
  • a call center a contact center, or the like.
  • a contact center such a department is referred to as a contact center.
  • Patent Document 1 emotion is recognized from the voice of a phone call from a customer, and whether or not the voice content is a complaint is determined by whether or not the emotion represents at least one of “anger” and “excitement”.
  • a technique for notifying an appropriate person in charge according to the determination result has been proposed.
  • Patent Document 2 periodic fluctuations in the amplitude envelope are detected from the input speech signal in order to detect the anger and irritation of the speaker without being affected by individual differences, language differences, and regional differences, and the detection thereof. There has been proposed a method for discriminating whether or not the input voice is a strong voice according to the result.
  • Patent Document 3 in order to provide information that meets customer needs, it is determined whether or not a keyword set in advance during a call between a call center operator and the customer is spoken. There has been proposed a method of grasping potential needs of customers and providing guidance information associated with the keywords in advance to the customers.
  • Patent Document 4 proposes a method of determining the discomfort of the call partner according to the volume of the cut sound accompanying the on-hook of the call partner. Further, this method further determines whether or not the call disconnection by the call partner is in the middle of the talk of the respondent, and determines the level of discomfort of the call partner based on the determination result and the volume of the disconnect sound. .
  • the present invention has been made in view of such circumstances, and provides a technique for detecting a dissatisfied call with high accuracy.
  • the dissatisfied call means a call that is presumed that one of the callers felt dissatisfied and ended the call.
  • the first aspect relates to a dissatisfied call determination device.
  • the dissatisfied call determination device relates to disconnection time data indicating a time when a call between the first caller and the second caller is disconnected, and a plurality of utterance sections of the first caller in the call
  • a time information acquisition unit for acquiring a plurality of utterance time data respectively indicating a start time and an end time, and a first caller based on the disconnection time data and the plurality of utterance time data acquired by the time information acquisition unit
  • an interruption detection section for detecting an utterance section located between the start time and the end time as an interruption utterance section, and an interruption utterance section detected by the interruption detection section
  • a closing determination unit that determines whether or not the mobile phone is located within the closing section of the call, and whether or not the call including the interrupted speech section is a dissatisfied call using the determination result of the closing determination unit It has a determining dissatisfaction
  • the second aspect relates to a dissatisfied call determination method executed by at least one computer.
  • the dissatisfied call determination method relates to disconnection time data indicating a time when a call between the first caller and the second caller is disconnected, and a plurality of utterance sections of the first caller in the call A plurality of utterance time data respectively indicating a start time and an end time, and based on the disconnection time data and the plurality of utterance time data, the call disconnection time starts from a plurality of utterance sections of the first caller.
  • An utterance interval located between the time and the end time is detected as an interruption utterance interval, and it is determined whether or not the interruption utterance interval is located within the closing interval of the call. Determining whether or not the call including is a dissatisfied call.
  • Another aspect of the present invention may be a program that causes at least one computer to implement each configuration in the first aspect, or a computer-readable recording medium that records such a program. There may be.
  • This recording medium includes a non-transitory tangible medium.
  • the dissatisfied call determination device includes disconnect time data indicating a time when a call between the first caller and the second caller is disconnected, and a plurality of utterance sections of the first caller in the call
  • a time information acquisition unit for acquiring a plurality of utterance time data respectively indicating a start end time and an end time, and a first call based on the disconnection time data and the plurality of utterance time data acquired by the time information acquisition unit
  • Interruption detection unit that detects a speech segment in which a call disconnection time is located between the start time and the termination time as a suspended speech segment from among a plurality of speech segments of the user, and a suspended speech segment detected by the interruption detection unit
  • the closing determination unit that determines whether or not the mobile phone is located within the closing period of the call and the determination result of the closing determination unit are used to indicate that the call including the suspended utterance period is a dissatisfied call Having a determining dissatisfaction judging unit not.
  • the dissatisfied call determination method is executed by at least one computer, and the disconnection time data indicating the time when the call between the first caller and the second caller is disconnected, and the first in the call
  • a plurality of utterance periods of the first caller are obtained based on the disconnection time data and the plurality of utterance time data, respectively, by acquiring a plurality of utterance time data respectively indicating a start time and an end time for a plurality of utterance sections of one caller
  • the speech segment where the call disconnect time is located between the start time and the end time is detected as an interrupted speech segment, and it is determined whether or not the interrupted speech segment is located within the closing segment of the call. This includes determining whether or not the call including the interrupted utterance section is a dissatisfied call using the result.
  • the call means a call from when a call terminal held by a certain caller and a certain caller is connected between the call terminals until the call is disconnected.
  • the utterance section means a section in which a single talker speaks, and is detected from the voice data of the talker, for example, as a section in which an amplitude greater than a predetermined value of the speech waveform continues. Therefore, a normal call is formed from each speaker's utterance section, silent section, and the like. However, since the caller may speak even after the call is disconnected, the utterance section may exist even after the call is disconnected. In this embodiment, it is assumed that at least the voice data of the first caller includes the voice after the call is disconnected. In the present embodiment, the first caller is the person who wants to analyze the call, and the second caller is the person who is analyzed whether or not he / she expressed dissatisfaction with the call.
  • disconnection time data indicating the time when the call is disconnected and a plurality of utterance time data regarding a plurality of utterance sections of the first caller are acquired, and a plurality of first callers are obtained based on these data.
  • an interrupted utterance section in which the call is disconnected in the middle of the utterance section is detected.
  • an utterance section where the call disconnection time is located between the start time and the end time is detected as an interrupted utterance section.
  • the disconnection time data and the speech time data may be indicated by an elapsed time from the start time of the call, or may be indicated by a time indicated by year, date, hour, minute and second.
  • the caller may hang up during the utterance of the other party if he / she is dissatisfied with the other party's speaking method or content. This corresponds to a case where the caller expresses dissatisfaction with the attitude, and it is difficult to detect the dissatisfaction expressed with such an attitude only by voice recognition with respect to the call voice. Therefore, in this embodiment, the possibility that the caller expressed dissatisfaction with the attitude in the call is estimated by detecting the interrupted utterance section. However, as described above, even if there is an interrupted utterance section in a call, the interrupted utterance section may be caused by factors other than dissatisfaction.
  • the inventors of the present invention have found that when the interrupted utterance section occurs in the process of terminating the call, it is highly likely that the dissatisfaction of the second caller is a factor. Therefore, in this embodiment, by providing the concept of a closing period that means a call end process, all calls including the interrupted utterance period are not simply dissatisfied, and the interrupted utterance period is positioned within the closing period. Using the determination result of whether or not, it is determined whether or not the call including the interrupted utterance section is a dissatisfied call. Therefore, it can be said that the closing period in the present embodiment is a concept for determining whether or not the interrupted utterance period is to be analyzed for dissatisfied calls.
  • the dissatisfied call means a call that the second caller ends in a dissatisfied state.
  • the start and end of this closing section are not limited.
  • the beginning may be the beginning of a predetermined number of utterances from when the call is disconnected, may be the beginning of an utterance where a predetermined closing phrase is first spoken in the call, or when the call is disconnected It may be the beginning of an utterance that includes a closing phrase after an utterance that does not include a closing phrase that appears for the first time.
  • a specific sudden cause such as radio interference, a caller's erroneous operation, or a caller's unavoidable circumstances
  • Call disconnection due to a specific sudden cause can be determined, for example, based on whether or not a predetermined number of utterances exist after the call disconnects.
  • a call including an interrupted utterance section in which a call is disconnected in the middle of an utterance is not immediately determined as a dissatisfied call, and the call is dissatisfied according to the position in the call in the interrupted utterance section It is determined whether or not. Therefore, according to the present embodiment, it is possible to determine that a call including a suspended utterance section caused by something other than dissatisfaction is not a dissatisfied call, and as a result, a dissatisfied call can be detected with high accuracy.
  • each of the following embodiments is an example when the above-mentioned unsatisfied call determination device and unsatisfied call determination method are applied to a contact center system.
  • the unsatisfied call determination device and the unsatisfied call determination method described above are not limited to application to a contact center system, but can be applied to various modes for handling call data. For example, they can also be applied to in-house call management systems other than contact centers, and personal terminals such as PCs (Personal Computers), fixed telephones, mobile phones, tablet terminals, smartphones, etc. .
  • FIG. 1 is a conceptual diagram showing a configuration example of a contact center system 1 in the first embodiment.
  • the contact center system 1 in the first embodiment includes an exchange (PBX) 5, a plurality of operator telephones 6, a plurality of operator terminals 7, a file server 9, a call analysis server 10, and the like.
  • the call analysis server 10 includes a configuration corresponding to the dissatisfied call determination device in the above-described embodiment.
  • the customer corresponds to the second caller described above
  • the operator corresponds to the first caller described above.
  • the exchange 5 is communicably connected to a call terminal 3 such as a PC, a fixed phone, a mobile phone, a tablet terminal, or a smartphone that is used by a customer via the communication network 2.
  • the communication network 2 is a public network such as the Internet or a PSTN (Public Switched Telephone Network), a wireless communication network, or the like.
  • the exchange 5 is connected to each operator telephone 6 used by each operator of the contact center. The exchange 5 receives the call from the customer and connects the call to the operator telephone 6 of the operator corresponding to the call.
  • Each operator uses an operator terminal 7.
  • Each operator terminal 7 is a general-purpose computer such as a PC connected to a communication network 8 (LAN (Local Area Network) or the like) in the contact center system 1.
  • LAN Local Area Network
  • each operator terminal 7 records customer voice data and operator voice data in a call between each operator and the customer.
  • the voice data of each operator includes a voice uttered by each operator after the call is disconnected.
  • the customer voice data and the operator voice data may be generated by being separated from the mixed state by predetermined voice processing. Note that this embodiment does not limit the recording method and the recording subject of such audio data.
  • Each voice data may be generated by a device (not shown) other than the operator terminal 7.
  • the file server 9 is realized by a general server computer.
  • the file server 9 stores the call data of each call between the customer and the operator together with the identification information of each call.
  • Each call data includes a pair of customer voice data and operator voice data, and disconnection time data indicating the time when the call was disconnected.
  • the file server 9 acquires customer voice data and operator voice data from another device (each operator terminal 7 or the like) that records each voice of the customer and the operator. Further, the file server 9 acquires disconnection time data from each operator telephone 6, the exchange 5 and the like.
  • the call analysis server 10 analyzes customer dissatisfaction with respect to each call data stored in the file server 9.
  • the call analysis server 10 includes a CPU (Central Processing Unit) 11, a memory 12, an input / output interface (I / F) 13, a communication device 14 and the like as a hardware configuration.
  • the memory 12 is a RAM (Random Access Memory), a ROM (Read Only Memory), a hard disk, a portable storage medium, or the like.
  • the input / output I / F 13 is connected to a device that accepts an input of a user operation such as a keyboard and a mouse, and a device that provides information to the user such as a display device and a printer.
  • the communication device 14 communicates with the file server 9 and the like via the communication network 8. Note that the hardware configuration of the call analysis server 10 is not limited.
  • FIG. 2 is a diagram conceptually illustrating a processing configuration example of the call analysis server 10 in the first embodiment.
  • the call analysis server 10 in the first embodiment includes a call data acquisition unit 20, a time information acquisition unit 21, an interruption detection unit 23, a closing determination unit 24, a dissatisfaction determination unit 25, a dissatisfaction degree calculation unit 26, and the like.
  • Each of these processing units is realized, for example, by executing a program stored in the memory 12 by the CPU 11. Further, the program may be installed from a portable recording medium such as a CD (Compact Disc) or a memory card, or another computer on the network via the input / output I / F 13 and stored in the memory 12. Good.
  • CD Compact Disc
  • the call data acquisition unit 20 acquires the call data of the call to be analyzed from the file server 9 together with the identification information of the call.
  • the call data may be acquired by communication between the call analysis server 10 and the file server 9, or may be acquired via a portable recording medium.
  • the time information acquisition unit 21 acquires disconnection time data and a plurality of utterance time data related to a plurality of utterance sections of the operator from the call data acquired by the call data acquisition unit 20.
  • the disconnection time data is included in the call data.
  • the time information acquisition unit 21 detects a plurality of utterance sections from the operator's voice data included in the call data, and further acquires the start time and the end time of each utterance section in the detection of each utterance section. .
  • the time information acquisition unit 21 detects a section in which an amplitude equal to or greater than a predetermined value is continued as a speech section in a speech waveform indicated by speech data.
  • the interruption detection unit 23 determines whether the call disconnection time is between the start time and the end time among the plurality of utterance sections of the operator. Is detected as an interrupted speech segment.
  • the interruption detection unit 23 uses the predetermined time width for adjustment, and the speech disconnection time is located between the time obtained by adding the predetermined time width to the start time and the time obtained by subtracting the predetermined time width from the end time.
  • the section may be detected as an interrupted utterance section. For example, a hasty person can make a call right before the end of the phrase without listening to the operator's final greeting (for example, "Thank you for using"), even if you are not particularly dissatisfied.
  • the closing determination unit 24 determines whether or not the interruption utterance period detected by the interruption detection unit 23 is located within the closing period of the call as follows.
  • the closing determination unit 24 determines whether or not the utterance section of the operator is greater than or equal to a predetermined threshold after the interrupted utterance section based on the disconnection time data and the plurality of utterance time data acquired by the time information acquisition unit 21. If the operator's utterance section does not exist after the interrupted utterance section or exists below the predetermined threshold, it is determined that the interrupted utterance section is located within the closing section of the call.
  • the closing determination unit 24 determines that the interrupted utterance section is located outside the closing section of the call when the utterance section of the operator exists after a predetermined threshold after the interrupted utterance section.
  • the predetermined threshold is determined in advance from a statistical value of the number of utterances uttered by the operator when an interrupted utterance section occurs due to a specific sudden cause, and is set to 2, for example.
  • FIG. 3 is a diagram conceptually illustrating an example in which an interrupted utterance section is generated due to a specific outbreak.
  • the closing determination unit 24 determines whether or not the operator's utterance section exists after the interrupted utterance section in order to detect such an operator's utterance pattern. Then, the closing determination unit 24 determines that the interrupted speech section is located outside the closing section of the call when the operator's speech pattern includes the interrupted speech section.
  • the closing determination unit 24 determines whether or not a predetermined closing phrase is included in the voice data of the interrupted speech section based on the voice data of the operator included in the call data acquired by the call data acquisition unit 20. When the predetermined closing phrase is included in the interrupted speech segment, it is determined that the interrupted speech segment is located within the closing segment of the call.
  • the closing determination unit 24 uses the utterance time data related to the interrupted utterance section in the utterance time data acquired by the time information acquisition unit 21 to acquire the voice data of the interrupted utterance section from the operator's voice data.
  • the closing phrase is a phrase issued by the operator in the process of ending the call, such as the above-mentioned final greeting phrase.
  • a phrase to be issued by an operator in the process of terminating a call is often determined manually.
  • the closing determination unit 24 holds such a plurality of predetermined closing phrase data in an adjustable manner in advance.
  • Such predetermined closing phrase data may be input by a user based on an input screen or the like, or may be acquired from a portable recording medium, another computer, or the like via the input / output I / F 13.
  • Such closing phrase data may be voice data or text data.
  • the closing determination unit 24 collates the voice signal waveform obtained from the voice data of the interrupted speech section with each voice signal waveform obtained from the voice data of each closing phrase. Thus, it is determined whether or not a predetermined closing phrase is included in the voice data of the interrupted speech section. Further, when the closing phrase is held as text data, the closing determination unit 24 obtains the speech text data of the suspended utterance section by applying speech recognition processing to the speech data of the suspended utterance section, The determination is performed by comparing the voice text data with the text data of each closing phrase.
  • the dissatisfaction determining unit 25 determines that the call including the interrupted speech segment determined to be located within the closing segment by the closing determination unit 24 is a dissatisfied call, and the interrupted speech segment determined to be outside the closing segment by the closing determination unit 24 Calls that contain are excluded from dissatisfied calls.
  • excluding from dissatisfied call determination target means to include a form that does not determine whether the call is dissatisfied or not, and a form that determines that the call is not dissatisfied. For example, it may be determined whether or not the call excluded from the object of the dissatisfied call determination by the dissatisfaction determination unit 25 is a dissatisfied call using another method.
  • the dissatisfaction determination unit 25 As a determination result, the dissatisfaction determination unit 25 generates output data including identification information regarding the call to be analyzed and information indicating that it is a dissatisfied call, and outputs it to the display unit or other output device via the input / output I / F 13. The determination result is output.
  • the present embodiment does not limit the specific form of output of the determination result.
  • the dissatisfaction degree calculation unit 26 calculates the dissatisfaction degree of the call determined to be dissatisfied by the dissatisfaction determination unit 25 according to the position of the call disconnection time between the start time and the end time in the interrupted speech period. For example, the dissatisfaction degree calculation unit 26 stores in advance a function that outputs a numerical value indicating the dissatisfaction degree from the relationship between the start time, the end time, and the call disconnection time. In addition, a numerical value obtained by substituting the call disconnect time is calculated as the degree of dissatisfaction of the call. For example, the numerical value indicating the degree of dissatisfaction increases as the degree of dissatisfaction increases.
  • the function is, for example, a function whose output value increases exponentially as the time width from the termination time to the call disconnection time increases.
  • the dissatisfaction degree calculation unit 26 generates output data including identification information related to the call to be analyzed and a numerical value indicating the dissatisfaction level as a calculation result, and the determination is made to the display unit and other output devices via the input / output I / F 13. Output the result.
  • the present embodiment does not limit the specific form of output of the determination result.
  • FIG. 4 is a diagram illustrating an operation example of the call analysis server 10 in the first embodiment.
  • the call analysis server 10 acquires call data (S40).
  • the call analysis server 10 acquires call data to be analyzed from a plurality of call data stored in the file server 9.
  • the call analysis server 10 acquires disconnection time data and a plurality of utterance time data related to the analysis target call from the call data acquired in (S40) (S41).
  • the disconnection time data indicates the time when the call is disconnected
  • the plurality of utterance time data indicate the start time and the end time for each of the plurality of utterance sections of the operator included in the call. .
  • the call analysis server 10 detects an interrupted utterance section from among a plurality of utterance sections of the operator included in the call (S42).
  • the interrupted speech section is a speech section in which the call disconnect time indicated by the disconnect time data is located between the start time and the end time.
  • the call analysis server 10 excludes the analysis target call from the unsatisfactory call determination target (S45).
  • the call analysis server 10 determines whether or not the operator's utterance section exists beyond a predetermined threshold after the interrupted utterance section (S44). The call analysis server 10 determines that the call disconnection is due to the above-described specific cause and the interrupted utterance interval when the operator's utterance interval is greater than or equal to a predetermined threshold after the interrupted utterance interval (S44; YES). Is excluded from the closing section, and the analysis target call is excluded from the unsatisfactory call determination target (S45).
  • the call analysis server 10 determines whether or not a predetermined closing phrase is included in the voice data of the interrupted utterance section. Is further determined (S46). If the predetermined closing phrase is not included in the voice data of the interrupted utterance section (S46; NO), the call analysis server 10 estimates that the interrupted utterance section is located outside the closing section and is dissatisfied with the analysis target call. Excluded from the call determination target (S45).
  • the call analysis server 10 determines that the analysis target call is a dissatisfied call when the predetermined closing phrase is included in the voice data of the interrupted utterance section (S46; YES) (S47).
  • the call analysis server 10 calculates the degree of dissatisfaction with respect to the call determined to be dissatisfied according to the position of the call disconnection time between the start time and the end time in the interrupted utterance period (S48).
  • the determination in the step (S44) and the determination in the step (S46) are performed in a superimposed manner, but only the determination in the step (S44) and the step (S46).
  • the target call may be determined as a dissatisfied call only by this determination (S47).
  • the call excluded from the object of the unsatisfactory call determination in the step (S45) it may be determined whether or not the call is unsatisfactory by another method.
  • the operator's utterance section is greater than or equal to a predetermined threshold after the interrupted utterance section, and the interrupted utterance section is included in the closing section according to the determination result. Whether it is located is determined. Then, whether or not the call including the interrupted speech section is a dissatisfied call is determined based on whether or not the interrupted speech section is located within the closing section.
  • the first embodiment it is determined whether or not a predetermined closing phrase is included in the voice data of the interrupted speech section, and whether or not the interrupted speech section is located in the closing section according to the determination result. Is determined. If the call is disconnected while the closing phrase is being spoken, the customer is likely to have finished the call in a dissatisfied state. According to the first embodiment, it is possible to accurately determine whether or not the interrupted utterance section is generated based on customer dissatisfaction by the determination as described above. Furthermore, according to the first embodiment, since it is only necessary to determine whether or not a predetermined closing phrase is included only for the interrupted utterance section, the processing efficiency is higher than the determination for the entire call data. Can be improved, and the processing speed can be increased.
  • FIG. 5 is a diagram conceptually illustrating a processing configuration example of the call analysis server 10 in the second embodiment.
  • the call analysis server 10 in the second embodiment further includes an emotion information extraction unit 28 in addition to the configuration of the first embodiment.
  • the emotion information extraction unit 28 is realized, for example, by executing a program stored in the memory 12 by the CPU 11.
  • the emotion information extraction unit 28 acquires customer voice data from the call data acquired by the call data acquisition unit 20, and a predetermined number of utterance sections before the start time of the interrupted utterance section in the customer voice data.
  • the predetermined number here is information stored in advance by the emotion information extraction unit 28, and is the number of utterances for specifying the location where the customer's emotional expression leading to call disconnection appears.
  • the predetermined number is determined in advance by statistically acquiring an utterance range indicating the dissatisfied feeling of the customer when the customer causes the interrupted utterance section due to dissatisfaction, and is set to 10, for example.
  • a well-known emotion recognition technique for example, the proposed method in Patent Documents 1 and 2 above may be used.
  • the dissatisfaction determination unit 25 further determines whether or not the customer emotion information extracted by the emotion information extraction unit 28 indicates dissatisfaction emotion.
  • the closing determination unit 24 performs closing. It is determined that a call including an interrupted utterance section determined to be located outside the section is a dissatisfied call.
  • Dissatisfied emotions are emotions such as anger, irritation, and discomfort.
  • the dissatisfaction determination unit 25 determines that a call including an interrupted speech section determined to be located outside the closing section by the closing determination unit 24 is not a dissatisfied call when the customer's emotion information does not indicate dissatisfaction.
  • FIG. 6 is a diagram illustrating an operation example of the call analysis server 10 in the second embodiment.
  • the second embodiment when it is determined that the interrupted utterance section is located outside the closing section by the determination of the step (S44) and the step (S46) shown in FIG. 4 (S44; YES, S46; NO).
  • the processing steps are different from those of the first embodiment.
  • FIG. 6 the same steps as those in FIG. 4 are denoted by the same reference numerals as those in FIG.
  • the call analysis server 10 has a case where the operator's utterance section is greater than or equal to a predetermined threshold after the suspended utterance section (S44; YES), and a case where a predetermined closing phrase is not included in the voice data of the suspended utterance section (S46; NO), emotion recognition is performed for a predetermined number of utterance sections before the start time of the interrupted utterance section in the customer voice data included in the call data acquired in the step (S40) (S61).
  • the call analysis server 10 can extract customer emotion information.
  • the call analysis server 10 determines that the call including the interrupted speech section is a dissatisfied call (S47). On the other hand, when the dissatisfied emotion is not detected as the customer's emotion information by the emotion recognition (S62; NO), the call analysis server 10 determines that the call including the interrupted speech section is not a dissatisfied call (S63).
  • the step (S61) is also executed when it is determined in the step (S44) that the utterance interval of the operator is greater than or equal to a predetermined threshold after the interrupted utterance interval (S44; YES).
  • S61) may be executed only when it is determined in step (S46) that the predetermined closing phrase is not included in the voice data of the interrupted speech section (S46; NO).
  • the call analysis server 10 performs a call including the interrupted utterance section. Is determined not to be a dissatisfied call.
  • the determination in the step (S44) and the determination in the step (S46) have different weights indicated by the determination results. Means. As described above, the determination (S44) having a large weight indicated by the determination result is executed first, and by determining that the target call is not a dissatisfied call based on the determination result (S63), the burden of emotion recognition on the voice data is high.
  • the process (S61) can be limited.
  • the emotion is expressed with respect to a predetermined number of utterance sections before the suspended utterance section. Recognition is performed. If the customer's emotion information is extracted by the emotion recognition and the emotion information indicates a dissatisfied emotion, the call including the interrupted speech section is determined to be a dissatisfied call.
  • the customer disconnects the call in the middle of the operator's utterance due to dissatisfaction in the process of terminating the call (within the closing section).
  • the customer disconnects the call while the operator is speaking due to dissatisfaction.
  • the second embodiment is dissatisfied with the interrupted utterance section by performing emotion recognition on the interrupted utterance section determined to be outside the closing section. It is determined whether or not the error occurred.
  • the second embodiment even in a rare case where the interrupted speech section exists outside the closing section, it is possible to appropriately detect the dissatisfied call.
  • the call data includes a pair of customer voice data and operator voice data and disconnection time data.
  • Customer and operator voice text data, and time information of each voice text may be further included.
  • the voice text data is data in which a voice uttered by a customer or an operator is converted into text.
  • the time information of each voice text is information regarding the time when the utterance indicated by each voice text is uttered. This voice text data is generated, for example, by applying voice recognition processing to each voice of the customer and the operator at each operator terminal 7 or file server 9.
  • the time information acquisition unit 21 of the call analysis server 10 may not detect the utterance period from the voice data.
  • the closing determination part 24 should just determine whether the closing phrase is contained in the interruption speech area using the speech text data.
  • the emotion information extraction part 28 should just perform emotion recognition using the audio
  • the call data includes the disconnection time data, and the disconnection time data is generated by each operator telephone 6, the exchange 5 or the like.
  • the cutting time data may be generated by detecting a cutting sound from the customer's voice data.
  • the disconnection time data may be generated by the file server 9 or the call analysis server 10.
  • the disconnection time data and the plurality of utterance time data acquired by the time information acquisition unit 21 may be generated by a device other than the call analysis server 10.
  • (Appendix 1) Disconnection time data indicating the time when the call between the first caller and the second caller was disconnected, and the start time and the end time for the plurality of utterance sections of the first caller in the call, respectively.
  • a time information acquisition unit for acquiring a plurality of utterance time data; Based on the disconnection time data and the plurality of utterance time data acquired by the time information acquisition unit, the call disconnection time is between a start time and an end time among the plurality of utterance sections of the first caller.
  • An interruption detection unit for detecting an utterance interval located at an interruption utterance interval;
  • a closing determination unit for determining whether or not the interruption utterance interval detected by the interruption detection unit is located within the closing interval of the call;
  • a dissatisfaction determination unit that determines whether or not the call including the interrupted utterance section is a dissatisfied call,
  • a dissatisfied call determination device comprising:
  • the dissatisfaction determining unit determines that the call including the interrupted utterance interval determined to be located within the closing period of the call by the closing determination unit is a dissatisfied call, and the closing determination unit causes the call to be outside the closing interval of the call. Determining that the call including the interrupted utterance section determined to be located and satisfying a predetermined condition is not a dissatisfied call, The unsatisfactory call determination device according to attachment 1.
  • the closing determination unit has a utterance interval of the first caller greater than or equal to a predetermined threshold after the interrupted utterance interval based on the disconnection time data and the plurality of utterance time data acquired by the time information acquisition unit Determining whether or not the utterance interval of the first caller is equal to or greater than the predetermined threshold after the interruption utterance interval, and determining that the interruption utterance interval is located outside the closing interval of the call.
  • the unsatisfactory call determination device according to attachment 2.
  • the closing determination unit acquires speech data or speech text data of the interrupted utterance section, and determines whether or not the acquired speech data or speech text data of the interrupted utterance section includes a predetermined closing phrase. Determining that if the predetermined closing phrase is included in the interrupted speech segment, the interrupted speech segment is determined to be located within the closing segment of the call; The unsatisfactory call determination device according to appendix 2 or 3.
  • Voice data or text data of a predetermined number of utterance sections of the second caller prior to the start time of the interrupted utterance section is acquired, and the second call is obtained from the acquired voice data or voice text data.
  • Emotion information extraction unit that extracts emotion information of the person, Further comprising The dissatisfaction determination unit determines whether the second caller's emotion information extracted by the emotion information extraction unit indicates dissatisfaction as the determination of the predetermined condition, and the second caller's emotion information Is determined to be dissatisfied, the call including the interrupted utterance section determined to be located outside the closing section of the call by the closing determination unit, The unsatisfactory call determination device according to any one of supplementary notes 2 to 4.
  • a dissatisfaction calculator that calculates the dissatisfaction level of the call determined as the dissatisfied call by the dissatisfaction determination unit according to the position of the call disconnection time between the start time and the end time in the interrupted speech period, The dissatisfied call determination device according to any one of supplementary notes 1 to 4, further comprising:
  • Disconnection time data indicating the time when the call between the first caller and the second caller was disconnected, and the start time and the end time for the plurality of utterance sections of the first caller in the call, respectively.
  • Get multiple utterance time data Based on the disconnect time data and the plurality of utterance time data, an utterance interval in which the call disconnect time is located between the start time and the end time is selected from the plurality of utterance intervals of the first caller. Detect as Determining whether the interrupted speech segment is located within the closing segment of the call; Using the determination result, determine whether the call including the interrupted utterance section is a dissatisfied call, This is a method for determining unsatisfied calls.
  • the determination of the dissatisfied call is that the call including the interrupted utterance section determined to be located within the closing period of the call is determined as a dissatisfied call, and the interrupted utterance period determined to be located outside the closing period of the call And determining that the call satisfying a predetermined condition is not a dissatisfied call, The method for determining a dissatisfied call according to appendix 7.
  • Appendix 13 A program for causing at least one computer to execute the dissatisfied call determination method according to any one of appendices 7 to 12.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Human Computer Interaction (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 不満通話判定装置は、第1通話者と第2通話者との間の通話が切断された時間を示す切断時間データ、及び、その通話における第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得する時間情報取得部と、この時間情報取得部により取得される切断時間データ及び複数の発話時間データに基づいて、第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出する中断検出部と、この中断検出部で検出される中断発話区間が通話のクロージング区間内に位置するか否かを判定するクロージング判定部と、このクロージング判定部の判定結果を用いて、当該中断発話区間を含む通話が不満通話であるか否かを判定する不満判定部と、を有する。

Description

不満通話判定装置及び不満通話判定方法
 本発明は、通話の分析技術に関する。
 多くの企業が、商品やサービスに関する問い合わせや苦情や注文といった顧客からの電話に応対する業務を専門的に行う部署を設置している。このような部署は、コールセンタ、コンタクトセンタなどと呼ばれる。以降では、このような部署をコンタクトセンタと表記する。
 コンタクトセンタに寄せられる顧客の声には、顧客ニーズや満足度などが反映されている場合が多く、そのような顧客からの電話応対を適切に行うことは、顧客満足度を向上させリピータ顧客を増加させるためには重要である。そこで、顧客からの電話音声を分析することで、顧客の感情(怒り、苛立ち、不快感など)や顧客ニーズを抽出する各種手法が提案されている。
 下記特許文献1には、顧客からの電話の音声から感情を認識し、その感情が「怒り」及び「興奮」の少なくとも一方を表すか否かによりその音声内容が苦情か否かを判別し、その判別結果に応じて適切な担当者に通知する手法が提案されている。下記特許文献2には、個人差、言語差、地方差の影響を受けずに、発話者の怒りや苛立ちを検出するために、入力音声信号から振幅包絡の周期的変動を検出し、その検出結果に応じて入力音声を力み音声か否か判別する手法が提案されている。下記特許文献3には、顧客のニーズに合った情報を提供するために、コールセンタのオペレータと顧客との間の通話中に予め設定されたキーワードが発話されたか否かを判断し、そのキーワードにより顧客の潜在的なニーズを把握し、そのキーワードと予め関連付けられた案内情報を顧客に提供する手法が提案されている。下記特許文献4には、通話相手のオンフックに伴う切断音の音量に応じて通話相手の不快感を判定する手法が提案されている。更に、この手法は、通話相手による呼切断が応対者の話の途中であるか否かを更に判定し、この判定結果及び切断音の音量に基づいて、通話相手の不快感のレベルを判定する。
特開2011-009902号公報 特開2009-003162号公報 特開2009-182432号公報 特開2010-187038号公報
 上記特許文献1から3における提案手法では、通話全体を分析する必要があるため、各通話に関し不満通話であったか否かを判別するのに時間が掛かる。また、それらの提案手法では、顧客の音声(言葉など)で表されない不満、例えば、態度で表わされる不満を検出することはできない。
 また、上記特許文献4の提案手法では、不快感レベルの判定が正しく行われない場合があり得る。応対者の話の途中で通信切断が発生した場合においても、電波障害による切断などのように、不満(不快)以外の要因でその切断が生じる可能性もあり得るからである。
 本発明は、このような事情に鑑みてなされたものであり、不満通話を高精度に検出する技術を提供する。ここで、不満通話とは、一方の通話者が不満を感じてその通話を終了させたであろうと推定される通話を意味する。
 本発明の各態様では、上述した課題を解決するために、それぞれ以下の構成を採用する。
 第1の態様は、不満通話判定装置に関する。第1態様に係る不満通話判定装置は、第1通話者と第2通話者と間の通話が切断された時間を示す切断時間データ、及び、その通話における第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得する時間情報取得部と、この時間情報取得部により取得される切断時間データ及び複数の発話時間データに基づいて、第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出する中断検出部と、この中断検出部で検出される中断発話区間が通話のクロージング区間内に位置するか否かを判定するクロージング判定部と、このクロージング判定部の判定結果を用いて、当該中断発話区間を含む通話が不満通話であるか否かを判定する不満判定部と、を有する。
 第2の態様は、少なくとも1つのコンピュータにより実行される不満通話判定方法に関する。第2態様に係る不満通話判定方法は、第1通話者と第2通話者と間の通話が切断された時間を示す切断時間データ、及び、その通話における第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得し、切断時間データ及び複数の発話時間データに基づいて、第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出し、中断発話区間が通話のクロージング区間内に位置するか否かを判定し、この判定結果を用いて、当該中断発話区間を含む通話が不満通話であるか否かを判定する、ことを含む。
 なお、本発明の他の態様としては、上記第1の態様における各構成を少なくとも1つのコンピュータに実現させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
 上記各態様によれば、不満通話を高精度に検出する技術を提供することができる。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態におけるコンタクトセンタシステムの構成例を示す概念図である。 第1実施形態における通話分析サーバの処理構成例を概念的に示す図である。 特定突発原因で中断発話区間が生じた例を概念的に示す図である。 第1実施形態における通話分析サーバの動作例を示す図である。 第2実施形態における通話分析サーバの処理構成例を概念的に示す図である。 第2実施形態における通話分析サーバの動作例を示す図である。
 以下、本発明の実施の形態について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。
 本実施形態に係る不満通話判定装置は、第1通話者と第2通話者との間の通話が切断された時間を示す切断時間データ、及び、その通話における第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得する時間情報取得部と、この時間情報取得部により取得される切断時間データ及び複数の発話時間データに基づいて、第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出する中断検出部と、この中断検出部で検出される中断発話区間が通話のクロージング区間内に位置するか否かを判定するクロージング判定部と、このクロージング判定部の判定結果を用いて、当該中断発話区間を含む通話が不満通話であるか否かを判定する不満判定部と、を有する。
 本実施形態に係る不満通話判定方法は、少なくとも1つのコンピュータにより実行され、第1通話者と第2通話者との間の通話が切断された時間を示す切断時間データ、及び、その通話における第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得し、切断時間データ及び複数の発話時間データに基づいて、第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出し、中断発話区間が通話のクロージング区間内に位置するか否かを判定し、この判定結果を用いて、当該中断発話区間を含む通話が不満通話であるか否かを判定する、ことを含む。
 ここで、通話とは、或る通話者と或る通話者とがそれぞれ持つ通話端末間が呼接続されてから呼切断されるまでの間の呼を意味する。発話区間とは、一人の通話者が声を発している区間を意味し、例えば、その通話者の音声データから、音声波形の所定値以上の振幅が継続している区間として検出される。よって、通常の通話は、各通話者の発話区間、無声区間などから形成される。但し、通話が切断された後であっても、通話者が声を発する場合があるため、発話区間は、通話の切断後にも存在し得る。本実施形態では、少なくとも第1通話者の音声データは、通話の切断後の音声も含むものとする。本実施形態では、第1通話者は、通話の分析を望む側の者であり、第2通話者は、その通話において不満を表したか否かが分析される側の者である。
 本実施形態では、通話が切断された時間を示す切断時間データ、及び、第1通話者の複数の発話区間に関する複数の発話時間データが取得され、これらデータに基づいて、第1通話者の複数の発話区間の中から、発話区間の途中で通話が切断された中断発話区間が検出される。具体的には、通話切断時間が始端時間と終端時間との間に位置する発話区間が中断発話区間として検出される。切断時間データ及び発話時間データは、その通話の開始時点からの経過時間により示されてもよいし、年日時分秒などで示される時刻により示されてもよい。
 通話者は、通話相手の話し方や話す内容などにより不満が募ると、通話相手の発話途中で電話を切る場合がある。これは、通話者が態度で不満を表したケースに相当し、通話音声に対する音声認識のみではそのような態度で表わされた不満を検出することは難しい。そこで、本実施形態では、中断発話区間を検出することにより、その通話において通話者が態度で不満を表した可能性を推定する。しかしながら、上述のように、通話において中断発話区間が存在したとしても、その中断発話区間が不満以外の要因で生じる可能性があり得る。
 本発明者らは、中断発話区間が通話の終了過程で生じている場合は、第2通話者の不満が要因である可能性が高いことを見出した。そこで、本実施形態は、通話の終了過程を意味するクロージング区間という概念を設けることで、中断発話区間を含む通話全てを単純に不満通話とせず、中断発話区間がそのクロージング区間内に位置するか否かの判定結果を用いて、その中断発話区間を含む通話が不満通話であるか否かを判定する。よって、本実施形態におけるクロージング区間とは、その中断発話区間を不満通話の分析対象とするか否かを決めるための概念であるということもできる。ここで、不満通話とは、第2通話者が不満状態で終えた通話を意味する。
 但し、本実施形態では、このクロージング区間の始端及び終端を限定しない。例えば、その始端は、通話切断時から所定数分の発話の始端とされてもよいし、通話の中で所定のクロージング文句が初めて発声された発話の始端とされてもよいし、通話切断時から遡り初出のクロージング文句を含まない発話の後の、クロージング文句を含む発話の始端とされてもよい。また、電波障害や通話者の誤操作や通話者の止むを得ない事情などの特定突発原因で通話が切断される場合には、その通話にはクロージング区間が存在しない場合もあり得る。特定突発原因での通話切断は、例えば、通話切断後に所定数分の発話が存在するか否かで判定することができる。
 このように、本実施形態では、発話の途中で通話が切断された中断発話区間を含む通話を直ちに不満通話と決めず、その中断発話区間の通話内の位置に応じて、その通話が不満通話であるか否かが判定される。従って、本実施形態によれば、不満以外を起因とする中断発話区間を含む通話を不満通話でないと判定することができ、結果として、不満通話を高精度に検出することができる。
 以下、上述の実施形態について更に詳細を説明する。以下には、詳細実施形態として、第1実施形態及び第2実施形態を例示する。以下の各実施形態は、上述の不満通話判定装置及び不満通話判定方法をコンタクトセンタシステムに適用した場合の例である。なお、上述の不満通話判定装置及び不満通話判定方法は、コンタクトセンタシステムへの適用に限定されるものではなく、通話データを扱う様々な態様に適用可能である。例えば、それらは、コンタクトセンタ以外の社内の通話管理システムや、個人が所有する、PC(Personal Computer)、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末などに適用することも可能である。
 [第1実施形態]
 〔システム構成〕
 図1は、第1実施形態におけるコンタクトセンタシステム1の構成例を示す概念図である。第1実施形態におけるコンタクトセンタシステム1は、交換機(PBX)5、複数のオペレータ電話機6、複数のオペレータ端末7、ファイルサーバ9、通話分析サーバ10等を有する。通話分析サーバ10は、上述の実施形態における不満通話判定装置に相当する構成を含む。第1実施形態では、顧客が上述の第2通話者に相当し、オペレータが上述の第1通話者に相当する。
 交換機5は、通信網2を介して、顧客により利用される、PC、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末3と通信可能に接続されている。通信網2は、インターネットやPSTN(Public Switched Telephone Network)等のような公衆網、無線通信ネットワーク等である。更に、交換機5は、コンタクトセンタの各オペレータが用いる各オペレータ電話機6とそれぞれ接続される。交換機5は、顧客からの呼を受け、その呼に応じたオペレータのオペレータ電話機6にその呼を接続する。
 各オペレータは、オペレータ端末7をそれぞれ用いる。各オペレータ端末7は、コンタクトセンタシステム1内の通信網8(LAN(Local Area Network)等)に接続される、PC等のような汎用コンピュータである。例えば、各オペレータ端末7は、各オペレータと顧客との間の通話における顧客の音声データ及びオペレータの音声データをそれぞれ録音する。但し、各オペレータの音声データには、通話切断後に各オペレータが発した声も含まれる。顧客の音声データとオペレータの音声データとは、混合状態から所定の音声処理により分離されて生成されてもよい。なお、本実施形態は、このような音声データの録音手法及び録音主体を限定しない。各音声データの生成は、オペレータ端末7以外の他の装置(図示せず)により行われてもよい。
 ファイルサーバ9は、一般的なサーバコンピュータにより実現される。ファイルサーバ9は、顧客とオペレータとの間の各通話の通話データを、各通話の識別情報と共にそれぞれ格納する。各通話データには、顧客の音声データとオペレータの音声データとのペア、及び、その通話が切断された時間を示す切断時間データがそれぞれ含まれる。ファイルサーバ9は、顧客及びオペレータの各音声を録音する他の装置(各オペレータ端末7等)から、顧客の音声データとオペレータの音声データとを取得する。また、ファイルサーバ9は、切断時間データを、各オペレータ電話機6、交換機5等から取得する。
 通話分析サーバ10は、ファイルサーバ9に格納される各通話データに関し、顧客の不満具合を分析する。
 通話分析サーバ10は、図1に示されるように、ハードウェア構成として、CPU(Central Processing Unit)11、メモリ12、入出力インタフェース(I/F)13、通信装置14等を有する。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク、可搬型記憶媒体等である。入出力I/F13は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置、ディスプレイ装置やプリンタ等のようなユーザに情報を提供する装置などと接続される。通信装置14は、通信網8を介して、ファイルサーバ9などと通信を行う。なお、通話分析サーバ10のハードウェア構成は制限されない。
 〔処理構成〕
 図2は、第1実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第1実施形態における通話分析サーバ10は、通話データ取得部20、時間情報取得部21、中断検出部23、クロージング判定部24、不満判定部25、不満度算出部26等を有する。これら各処理部は、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F13を介してインストールされ、メモリ12に格納されてもよい。
 通話データ取得部20は、ファイルサーバ9から、分析対象となる通話の通話データをその通話の識別情報と共に取得する。当該通話データは、通話分析サーバ10とファイルサーバ9との間の通信により取得されてもよいし、可搬型記録媒体を介して取得されてもよい。
 時間情報取得部21は、通話データ取得部20により取得される通話データから、切断時間データ、及び、オペレータの複数の発話区間に関する複数の発話時間データを取得する。切断時間データは通話データに含まれている。時間情報取得部21は、通話データに含まれるオペレータの音声データの中から、複数の発話区間を検出し、更に、各発話区間の検出において、各発話区間の始端時間及び終端時間をそれぞれ取得する。例えば、時間情報取得部21は、音声データが示す音声波形において、所定値以上の振幅が継続している区間を発話区間として検出する。
 中断検出部23は、時間情報取得部21により取得された切断時間データ及び複数の発話時間データに基づいて、オペレータの複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出する。中断検出部23は、調整のための所定時間幅を用いて、始端時間に所定時間幅を加算した時間から、終端時間から所定時間幅を減算した時間までの間に通話切断時間が位置する発話区間を中断発話区間として検出するようにしてもよい。例えば、性急な人は、特に不満を持っている状態でなくても、最後までオペレータの最終挨拶文句(例えば、「ご利用ありがとうございました」)を聞くことなく、その文句の終端直前で通話を切断してしまう場合があり得る。上述のような所定時間幅を用いて中断発話区間を検出することにより、このような場合を中断発話区間として検出しなくすることができ、結果として、そのように切断された通話を不満通話の候補から除外することができる。
 クロージング判定部24は、中断検出部23で検出された中断発話区間がその通話のクロージング区間内に位置するか否かを次のように判定する。クロージング判定部24は、時間情報取得部21により取得された切断時間データ及び複数の発話時間データに基づいて、中断発話区間より後に、オペレータの発話区間が所定閾値以上存在するか否かを判定し、そのオペレータの発話区間が当該中断発話区間より後に存在しない又は所定閾値未満存在する場合に、当該中断発話区間がその通話のクロージング区間内に位置すると判定する。一方で、クロージング判定部24は、当該中断発話区間より後に、そのオペレータの発話区間が所定閾値以上存在する場合に、当該中断発話区間がその通話のクロージング区間外に位置すると判定する。上記所定閾値は、特定突発原因により中断発話区間が生じた場合に、オペレータが発声する発話数の統計値から予め決められ、例えば、2に設定される。
 図3は、特定突発原因で中断発話区間が生じた例を概念的に示す図である。クロージング区間外で電波障害等の特定突発原因で通話が切断された場合、オペレータは、図3に示されるように、通話切断後も発話を繰り返す傾向にある。そこで、クロージング判定部24は、このようなオペレータの発話パターンを検出するために、中断発話区間より後に、オペレータの発話区間が所定閾値以上存在するか否かを判定する。そして、クロージング判定部24は、そのようなオペレータの発話パターンに中断発話区間が含まれる場合には、その中断発話区間が通話のクロージング区間外に位置すると判定する。
 更に、クロージング判定部24は、通話データ取得部20により取得された通話データに含まれるオペレータの音声データに基づいて、中断発話区間の音声データに所定のクロージング文句が含まれるか否かを判定し、中断発話区間に当該所定のクロージング文句が含まれている場合に、中断発話区間がその通話のクロージング区間内に位置すると判定する。クロージング判定部24は、時間情報取得部21により取得された発話時間データの中の、中断発話区間に関する発話時間データを用いて、オペレータの音声データの中から中断発話区間の音声データを取得する。
 ここで、クロージング文句とは、上述の最終挨拶文句のような、通話の終了過程でオペレータが発するフレーズである。コンタクトセンタでは、通話の終了過程でオペレータが発すべきフレーズがマニュアルにより決められている場合が多い。また、コンタクトセンタのような専門部署に属さない一般的な通話者においても、通話の終了過程で発声されるフレーズには或る程度決まったフレーズが存在する。そこで、クロージング判定部24は、そのような複数の所定のクロージング文句のデータを予め調整可能に保持する。このような所定クロージング文句のデータは、入力画面等に基づいてユーザにより入力されてもよいし、可搬型記録媒体、他のコンピュータ等から入出力I/F13を経由して取得されてもよい。
 このようなクロージング文句のデータは、音声データであっても、テキストデータであってもよい。クロージング文句が音声データとして保持される場合には、クロージング判定部24は、中断発話区間の音声データから得られる音声信号波形と各クロージング文句の音声データから得られる各音声信号波形とをそれぞれ照合することにより、中断発話区間の音声データに所定のクロージング文句が含まれるか否かを判定する。また、クロージング文句がテキストデータとして保持される場合には、クロージング判定部24は、中断発話区間の音声データに対して音声認識処理を適用することにより、中断発話区間の音声テキストデータを取得し、この音声テキストデータと、各クロージング文句のテキストデータとを比較することにより、当該判定を行う。
 不満判定部25は、クロージング判定部24によりクロージング区間内に位置すると判定された中断発話区間を含む通話を不満通話と判定し、クロージング判定部24によりクロージング区間外に位置すると判定された中断発話区間を含む通話を不満通話判定の対象から除外する。ここで、不満通話判定の対象から除外するとは、不満通話であるとも不満通話でないとも判定しないという形態と、不満通話でないと判定するという形態を含む意味である。例えば、不満判定部25において不満通話判定の対象から除外された通話は、他の手法を用いて不満通話か否かが判定されてもよい。
 不満判定部25は、判定結果として、分析対象の通話に関する識別情報及び不満通話であることを示す情報を含む出力データを生成し、入出力I/F13を介して表示部や他の出力装置にその判定結果を出力する。本実施形態は、この判定結果の出力の具体的形態を制限しない。
 不満度算出部26は、中断発話区間における、始端時間及び終端時間の間の通話切断時間の位置に応じて、不満判定部25により不満通話と判定された通話の不満度を算出する。例えば、不満度算出部26は、始端時間、終端時間及び通話切断時間の関係から不満度を示す数値を出力する関数を予め保持し、この関数に、その中断発話区間に関する始端時間及び終端時間、並びに通話切断時間を代入することにより得られる数値をその通話の不満度として算出する。例えば、不満度を示す数値は、不満度が高い程、大きい値となる。この場合、その関数は、例えば、終端時間から通話切断時間の間の時間幅が長くなるにつれ指数関数的に出力値が大きくなる関数である。
 不満度算出部26は、算出結果として、分析対象の通話に関する識別情報及び不満度を示す数値を含む出力データを生成し、入出力I/F13を介して表示部や他の出力装置にその判定結果を出力する。本実施形態は、この判定結果の出力の具体的形態を制限しない。
 〔動作例〕
 以下、第1実施形態における不満通話判定方法について図4を用いて説明する。図4は、第1実施形態における通話分析サーバ10の動作例を示す図である。
 通話分析サーバ10は、通話データを取得する(S40)。第1実施形態では、通話分析サーバ10は、ファイルサーバ9に格納される複数の通話データの中から、分析対象となる通話データを取得する。
 通話分析サーバ10は、(S40)で取得された通話データから、その分析対象の通話に関する切断時間データ及び複数の発話時間データを取得する(S41)。上述のように、切断時間データは、その通話が切断された時間を示し、複数の発話時間データは、その通話に含まれるオペレータの複数の発話区間の各々についての、始端時間及び終端時間を示す。
 通話分析サーバ10は、その通話に含まれるオペレータの複数の発話区間の中から、中断発話区間を検出する(S42)。中断発話区間は、上述のように、切断時間データにより示される通話切断時間が、始端時間と終端時間との間に位置する発話区間である。通話分析サーバ10は、中断発話区間が検出されない場合(S43;NO)、当該分析対象の通話を不満通話判定の対象から除外する(S45)。
 通話分析サーバ10は、中断発話区間が検出されると(S43;YES)、その中断発話区間より後に、オペレータの発話区間が所定閾値以上存在するか否かを判定する(S44)。通話分析サーバ10は、その中断発話区間より後に、オペレータの発話区間が所定閾値以上存在する場合には(S44;YES)、その通話切断が上述の特定突発原因によるものでありかつその中断発話区間がクロージング区間外に位置すると推定し、当該分析対象の通話を不満通話判定の対象から除外する(S45)。
 通話分析サーバ10は、その中断発話区間より後に、オペレータの発話区間が所定閾値以上存在しない場合には(S44;NO)、その中断発話区間の音声データに所定のクロージング文句が含まれるか否かを更に判定する(S46)。通話分析サーバ10は、その中断発話区間の音声データに所定のクロージング文句が含まれない場合(S46;NO)、その中断発話区間がクロージング区間外に位置すると推定し、当該分析対象の通話を不満通話判定の対象から除外する(S45)。
 通話分析サーバ10は、その中断発話区間の音声データに所定のクロージング文句が含まれる場合(S46;YES)、当該分析対象の通話を不満通話であると判定する(S47)。
 続いて、通話分析サーバ10は、中断発話区間における、始端時間及び終端時間の間の通話切断時間の位置に応じて、不満通話と判定された通話に関し不満度を算出する(S48)。
 図4に示される上述の不満通話判定方法では、工程(S44)の判定と工程(S46)の判定とが重畳的に行われたが、工程(S44)の判定のみ、及び、工程(S46)の判定のみで、対象の通話を不満通話と判定するようにしてもよい(S47)。また、工程(S45)で不満通話判定の対象から除外された通話については、他の手法により不満通話か否かが判定されるようにしてもよい。
 〔第1実施形態の作用及び効果〕
 上述したように第1実施形態では、当該中断発話区間より後に、オペレータの発話区間が所定閾値以上存在するか否かが判定され、この判定結果に応じて、その中断発話区間がクロージング区間内に位置するか否かが決定される。そして、中断発話区間がクロージング区間内に位置するか否かにより、その中断発話区間を含む通話が不満通話であるか否かが判定される。これにより、第1実施形態によれば、クロージング区間外で電波障害等の特定突発原因で通話が切断された場合に、通話切断後も発話を繰り返すという通話者(オペレータ)の傾向(特性)に基づいて、その中断発話区間が顧客の不満に基づいて生じたものであるか否かを正確に判定することが出来る。
 更に、第1実施形態では、中断発話区間の音声データに所定のクロージング文句が含まれるか否かが判定され、この判定結果に応じて、その中断発話区間がクロージング区間内に位置するか否かが決定される。クロージング文句が発声されている途中で通話が切断された場合には、顧客は、不満を持った状態でその通話を終えた可能性が高い。第1実施形態によれば、上述のような判定により、その中断発話区間が顧客の不満に基づいて生じたものであるか否かを正確に判定することが出来る。更に、第1実施形態によれば、中断発話区間のみに対して、所定のクロージング文句が含まれるか否かの判定を行なえばよいため、通話データ全体に対しての判定に比べて、処理効率を向上させることができ、処理の高速化を実現することができる。
 [第2実施形態]
 第2実施形態では、第1実施形態においてクロージング区間外に中断発話区間が位置するために不満通話判定の対象から除外された通話に関し、更なる調査を行うことで、その通話が不満通話か否かを決定する。以下、第2実施形態におけるコンタクトセンタシステム1について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
 〔処理構成〕
 図5は、第2実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第2実施形態における通話分析サーバ10は、第1実施形態の構成に加えて、感情情報抽出部28を更に有する。感情情報抽出部28は、他の処理部と同様に、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。
 感情情報抽出部28は、通話データ取得部20により取得される通話データから、顧客の音声データを取得し、その顧客の音声データにおける、当該中断発話区間の始端時間より前の所定数の発話区間から、顧客の感情情報を抽出する。ここでの所定数とは、予め感情情報抽出部28により保持される情報であり、通話切断に至る顧客の感情表現が現れる箇所を特定するための発話数である。上記所定数は、顧客が不満により当該中断発話区間を生じさせた場合に、その顧客の不満感情を示す発話範囲を統計的に取得することにより予め決められ、例えば、10に設定される。音声データから顧客の感情情報を抽出する手法は、周知の感情認識技術(例えば、上記特許文献1及び2における提案手法)が利用されればよいため、ここでは説明を省略する。
 不満判定部25は、感情情報抽出部28により抽出された顧客の感情情報が不満感情を示すか否かを更に判定し、顧客の感情情報が不満感情を示す場合に、クロージング判定部24によりクロージング区間外に位置すると判定された中断発話区間を含む通話が不満通話であると判定する。不満感情とは、怒りや苛立ち、不快感などの感情である。不満判定部25は、顧客の感情情報が不満感情を示さない場合に、クロージング判定部24によりクロージング区間外に位置すると判定された中断発話区間を含む通話が不満通話でないと判定する。
 〔動作例〕
 以下、第2実施形態における不満通話判定方法について図6を用いて説明する。図6は、第2実施形態における通話分析サーバ10の動作例を示す図である。第2実施形態は、図4で示される工程(S44)及び工程(S46)の各判定により、当該中断発話区間がクロージング区間外に位置すると判定された場合(S44;YES、S46;NO)の処理工程が第1実施形態と異なる。図6では、図4と同じ工程については、図4と同じ符号が付されている。
 通話分析サーバ10は、中断発話区間より後に、オペレータの発話区間が所定閾値以上存在する場合(S44;YES)、及び、中断発話区間の音声データに所定のクロージング文句が含まれない場合(S46;NO)、工程(S40)で取得された通話データに含まれる顧客の音声データにおける、当該中断発話区間の始端時間より前の所定数の発話区間に対して感情認識を行う(S61)。これにより、通話分析サーバ10は、顧客の感情情報を抽出することができる。
 通話分析サーバ10は、当該感情認識により顧客の感情情報として不満感情が検出された場合(S62;YES)、その中断発話区間を含む通話を不満通話であると判定する(S47)。一方、通話分析サーバ10は、当該感情認識により顧客の感情情報として不満感情が検出されない場合(S62;NO)、その中断発話区間を含む通話を不満通話でないと判定する(S63)。
 図6では、工程(S44)において、中断発話区間より後に、オペレータの発話区間が所定閾値以上存在すると判定された場合(S44;YES)にも、工程(S61)が実行されたが、工程(S61)は、工程(S46)において中断発話区間の音声データに所定のクロージング文句が含まれないと判定された場合(S46;NO)にのみ実行されるようにしてもよい。この場合、工程(S44)において、中断発話区間より後に、オペレータの発話区間が所定閾値以上存在すると判定された場合(S44;YES)には、通話分析サーバ10は、その中断発話区間を含む通話を不満通話でないと判定するようにすればよい。
 中断発話区間より後にオペレータの発話区間が所定閾値以上存在する場合には、当該中断発話区間が上述の特定突発原因により生じた可能性が極めて高いため、当該中断発話区間を含む通話が不満通話でない可能性が高いからである。これは、当該中断発話区間がクロージング区間内に存在するか否かの同じ判定であっても、工程(S44)の判定と工程(S46)の判定とは、その判定結果が示す重みが異なることを意味する。このように、判定結果が示す重みが大きい判定(S44)を先に実行し、その判定結果により対象の通話を不満通話でないと判定することにより(S63)、音声データに対する感情認識という負荷の高い処理(S61)を制限することができる。
 〔第2実施形態の作用及び効果〕
 上述のように、第2実施形態では、第1実施形態に示す判定により、クロージング区間外に存在すると推定された中断発話区間に関し、その中断発話区間の前の所定数の発話区間に対して感情認識が行われる。そして、その感情認識により顧客の感情情報が抽出され、その感情情報が不満感情を示す場合には、その中断発話区間を含む通話が不満通話と判定される。
 顧客が、不満によりオペレータの発話途中で通話を切断するのは、ほとんどの場合、通話の終了過程(クロージング区間内)である。ところが、クロージング区間外であっても、顧客が不満によりオペレータの発話途中で通話を切断する場合もあり得る。更に、顧客は、不満によりオペレータの発話途中で通話を切断する場合、その通話切断の前に感情を表すことが多い。そこで、第2実施形態は、このようなレアケースにも対応するべく、クロージング区間外と判定された中断発話区間については、上述のように、感情認識を行うことで、その中断発話区間が不満により生じたのかについて判定する。
 従って、第2実施形態によれば、中断発話区間がクロージング区間外に存在するようなレアケースであっても、適切にその不満通話を検出することができる。
 [変形例]
 上述の第1実施形態及び第2実施形態では、通話データには、顧客の音声データとオペレータの音声データとのペア、及び、切断時間データが含まれる例が示されたが、通話データには、顧客及びオペレータの音声テキストデータ、並びに、各音声テキストの時間情報が更に含まれていてもよい。ここで、音声テキストデータとは、顧客又はオペレータにより発された声がテキスト化されたデータである。また、各音声テキストの時間情報とは、各音声テキストで示される発話が発声された時間に関する情報である。この音声テキストデータは、例えば、各オペレータ端末7又はファイルサーバ9において、顧客及びオペレータの各音声に対して音声認識処理が適用されることにより生成される。
 この場合、通話分析サーバ10の時間情報取得部21は、音声データからの発話区間の検出を実行しなくてもよい。また、クロージング判定部24は、その音声テキストデータを用いて、中断発話区間にクロージング文句が含まれているか否かを判定すればよい。また、感情情報抽出部28は、その音声テキストデータを用いて感情認識を行うようにすればよい。
 また、上述の第1実施形態及び第2実施形態では、通話データには切断時間データが含まれ、その切断時間データが各オペレータ電話機6や交換機5等により生成される例が示されたが、切断時間データは、顧客の音声データから切断音を検出することにより、生成されるようにしてもよい。この場合、切断時間データは、ファイルサーバ9が生成してもよいし、通話分析サーバ10が生成してもよい。
 このように、時間情報取得部21により取得される、切断時間データ及び複数の発話時間データは、通話分析サーバ10以外の他の装置により生成されてもよい。
 なお、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、本実施形態で実行される工程の実行順序は、その記載の順番に制限されない。本実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び各変形例は、内容が相反しない範囲で組み合わせることができる。
 上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。
(付記1)
 第1通話者と第2通話者との間の通話が切断された時間を示す切断時間データ、及び、該通話における該第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得する時間情報取得部と、
 前記時間情報取得部により取得される前記切断時間データ及び前記複数の発話時間データに基づいて、前記第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出する中断検出部と、
 前記中断検出部で検出される前記中断発話区間が前記通話のクロージング区間内に位置するか否かを判定するクロージング判定部と、
 前記クロージング判定部の判定結果を用いて、前記中断発話区間を含む前記通話が不満通話であるか否かを判定する不満判定部と、
 を備える不満通話判定装置。
(付記2)
 前記不満判定部は、前記クロージング判定部により前記通話のクロージング区間内に位置すると判定された前記中断発話区間を含む前記通話を不満通話と判定し、前記クロージング判定部により前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含みかつ所定条件を満たす前記通話を不満通話でないと判定する、
 付記1に記載の不満通話判定装置。
(付記3)
 前記クロージング判定部は、前記時間情報取得部により取得される前記切断時間データ及び前記複数の発話時間データに基づいて、前記中断発話区間より後に、前記第1通話者の発話区間が所定閾値以上存在するか否かを判定し、前記第1通話者の発話区間が前記中断発話区間より後に該所定閾値以上存在する場合に、前記中断発話区間が前記通話のクロージング区間外に位置すると判定する、
 付記2に記載の不満通話判定装置。
(付記4)
 前記クロージング判定部は、前記中断発話区間の音声データ又は音声テキストデータを取得し、該取得された、前記中断発話区間の音声データ又は音声テキストデータに、所定のクロージング文句が含まれるか否かを判定し、前記中断発話区間に該所定のクロージング文句が含まれている場合に、前記中断発話区間が前記通話のクロージング区間内に位置すると判定する、
 付記2又は3に記載の不満通話判定装置。
(付記5)
 前記中断発話区間の始端時間より前の、前記第2通話者の所定数の発話区間の音声データ又は音声テキストデータを取得し、該取得された、音声データ又は音声テキストデータから、前記第2通話者の感情情報を抽出する感情情報抽出部、
 を更に備え、
 前記不満判定部は、前記所定条件の判定として、前記感情情報抽出部により抽出された前記第2通話者の感情情報が不満感情を示すか否かを判定し、前記第2通話者の感情情報が不満感情を示す場合に、前記クロージング判定部により前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含む前記通話が不満通話であると判定する、
 付記2から4のいずれか1つに記載の不満通話判定装置。
(付記6)
 前記中断発話区間における、前記始端時間及び前記終端時間の間の前記通話切断時間の位置に応じて、前記不満判定部により前記不満通話と判定された通話の不満度を算出する不満度算出部、
 を更に備える付記1から4のいずれか1つに記載の不満通話判定装置。
(付記7)
 少なくとも1つのコンピュータにより実行される不満通話判定方法において、
 第1通話者と第2通話者との間の通話が切断された時間を示す切断時間データ、及び、該通話における該第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得し、
 前記切断時間データ及び前記複数の発話時間データに基づいて、前記第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出し、
 前記中断発話区間が前記通話のクロージング区間内に位置するか否かを判定し、
 前記判定結果を用いて、前記中断発話区間を含む前記通話が不満通話であるか否かを判定する、
 ことを含む不満通話判定方法。
(付記8)
 前記不満通話の判定は、前記通話のクロージング区間内に位置すると判定された前記中断発話区間を含む前記通話を不満通話と判定し、前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含みかつ所定条件を満たす前記通話を不満通話でないと判定する、
 付記7に記載の不満通話判定方法。
(付記9)
 前記切断時間データ及び前記複数の発話時間データに基づいて、前記中断発話区間より後に、前記第1通話者の発話区間が所定閾値以上存在するか否かを判定する、
 ことを更に含み、
 前記クロージング区間の判定は、前記第1通話者の発話区間が前記中断発話区間より後に該所定閾値以上存在する場合に、前記中断発話区間が前記通話のクロージング区間外に位置すると判定する、
 付記8に記載の不満通話判定方法。
(付記10)
 前記中断発話区間の音声データ又は音声テキストデータを取得し、
 前記中断発話区間の音声データ又は音声テキストデータに、所定のクロージング文句が含まれるか否かを判定する、
 ことを更に含み、
 前記クロージング区間の判定は、前記中断発話区間に前記所定のクロージング文句が含まれている場合に、前記中断発話区間が前記通話のクロージング区間内に位置すると判定する、
 付記8又は9に記載の不満通話判定方法。
(付記11)
 前記中断発話区間の始端時間より前の、前記第2通話者の所定数の発話区間の音声データ又は音声テキストデータを取得し、
 前記音声データ又は前記音声テキストデータから、前記第2通話者の感情情報を抽出し、
 前記抽出された第2通話者の感情情報が不満感情を示すか否かを判定する、
 ことを更に含み、
 前記不満通話の判定は、前記第2通話者の感情情報が不満感情を示す場合に、前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含む前記通話が不満通話であると判定する、
 付記8から10のいずれか1つに記載の不満通話判定方法。
(付記12)
 前記中断発話区間における、前記始端時間及び前記終端時間の間の前記通話切断時間の位置に応じて、前記不満判定部により前記不満通話と判定された通話の不満度を算出する、
 ことを更に含む付記7から11のいずれか1つに記載の不満通話判定方法。
(付記13)
 少なくとも1つのコンピュータに、付記7から12のいずれか1つに記載の不満通話判定方法を実行させるプログラム。
(付記14)
 付記13に記載のプログラムをコンピュータに読み取り可能に記録する記録媒体。
 この出願は、2012年10月31日に出願された日本出願特願2012-240745号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (13)

  1.  第1通話者と第2通話者との間の通話が切断された時間を示す切断時間データ、及び、該通話における該第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得する時間情報取得部と、
     前記時間情報取得部により取得される前記切断時間データ及び前記複数の発話時間データに基づいて、前記第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出する中断検出部と、
     前記中断検出部で検出される前記中断発話区間が前記通話のクロージング区間内に位置するか否かを判定するクロージング判定部と、
     前記クロージング判定部の判定結果を用いて、前記中断発話区間を含む前記通話が不満通話であるか否かを判定する不満判定部と、
     を備える不満通話判定装置。
  2.  前記不満判定部は、前記クロージング判定部により前記通話のクロージング区間内に位置すると判定された前記中断発話区間を含む前記通話を不満通話と判定し、前記クロージング判定部により前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含みかつ所定条件を満たす前記通話を不満通話でないと判定する、
     請求項1に記載の不満通話判定装置。
  3.  前記クロージング判定部は、前記時間情報取得部により取得される前記切断時間データ及び前記複数の発話時間データに基づいて、前記中断発話区間より後に、前記第1通話者の発話区間が所定閾値以上存在するか否かを判定し、前記第1通話者の発話区間が前記中断発話区間より後に該所定閾値以上存在する場合に、前記中断発話区間が前記通話のクロージング区間外に位置すると判定する、
     請求項2に記載の不満通話判定装置。
  4.  前記クロージング判定部は、前記中断発話区間の音声データ又は音声テキストデータを取得し、該取得された、前記中断発話区間の音声データ又は音声テキストデータに、所定のクロージング文句が含まれるか否かを判定し、前記中断発話区間に該所定のクロージング文句が含まれている場合に、前記中断発話区間が前記通話のクロージング区間内に位置すると判定する、
     請求項2又は3に記載の不満通話判定装置。
  5.  前記中断発話区間の始端時間より前の、前記第2通話者の所定数の発話区間の音声データ又は音声テキストデータを取得し、該取得された、音声データ又は音声テキストデータから、前記第2通話者の感情情報を抽出する感情情報抽出部、
     を更に備え、
     前記不満判定部は、前記所定条件の判定として、前記感情情報抽出部により抽出された前記第2通話者の感情情報が不満感情を示すか否かを判定し、前記第2通話者の感情情報が不満感情を示す場合に、前記クロージング判定部により前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含む前記通話が不満通話であると判定する、
     請求項2から4のいずれか1項に記載の不満通話判定装置。
  6.  前記中断発話区間における、前記始端時間及び前記終端時間の間の前記通話切断時間の位置に応じて、前記不満判定部により前記不満通話と判定された通話の不満度を算出する不満度算出部、
     を更に備える請求項1から4のいずれか1項に記載の不満通話判定装置。
  7.  少なくとも1つのコンピュータにより実行される不満通話判定方法において、
     第1通話者と第2通話者との間の通話が切断された時間を示す切断時間データ、及び、該通話における該第1通話者の複数の発話区間に関する、始端時間及び終端時間をそれぞれ示す、複数の発話時間データを取得し、
     前記切断時間データ及び前記複数の発話時間データに基づいて、前記第1通話者の複数の発話区間の中から、通話切断時間が始端時間と終端時間との間に位置する発話区間を中断発話区間として検出し、
     前記中断発話区間が前記通話のクロージング区間内に位置するか否かを判定し、
     前記判定結果を用いて、前記中断発話区間を含む前記通話が不満通話であるか否かを判定する、
     ことを含む不満通話判定方法。
  8.  前記不満通話の判定は、前記通話のクロージング区間内に位置すると判定された前記中断発話区間を含む前記通話を不満通話と判定し、前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含みかつ所定条件を満たす前記通話を不満通話でないと判定する、
     請求項7に記載の不満通話判定方法。
  9.  前記切断時間データ及び前記複数の発話時間データに基づいて、前記中断発話区間より後に、前記第1通話者の発話区間が所定閾値以上存在するか否かを判定する、
     ことを更に含み、
     前記クロージング区間の判定は、前記第1通話者の発話区間が前記中断発話区間より後に該所定閾値以上存在する場合に、前記中断発話区間が前記通話のクロージング区間外に位置すると判定する、
     請求項8に記載の不満通話判定方法。
  10.  前記中断発話区間の音声データ又は音声テキストデータを取得し、
     前記中断発話区間の音声データ又は音声テキストデータに、所定のクロージング文句が含まれるか否かを判定する、
     ことを更に含み、
     前記クロージング区間の判定は、前記中断発話区間に前記所定のクロージング文句が含まれている場合に、前記中断発話区間が前記通話のクロージング区間内に位置すると判定する、
     請求項8又は9に記載の不満通話判定方法。
  11.  前記中断発話区間の始端時間より前の、前記第2通話者の所定数の発話区間の音声データ又は音声テキストデータを取得し、
     前記音声データ又は前記音声テキストデータから、前記第2通話者の感情情報を抽出し、
     前記抽出された第2通話者の感情情報が不満感情を示すか否かを判定する、
     ことを更に含み、
     前記不満通話の判定は、前記第2通話者の感情情報が不満感情を示す場合に、前記通話のクロージング区間外に位置すると判定された前記中断発話区間を含む前記通話が不満通話であると判定する、
     請求項8から10のいずれか1項に記載の不満通話判定方法。
  12.  前記中断発話区間における、前記始端時間及び前記終端時間の間の前記通話切断時間の位置に応じて、前記不満判定部により前記不満通話と判定された通話の不満度を算出する、
     ことを更に含む請求項7から11のいずれか1項に記載の不満通話判定方法。
  13.  少なくとも1つのコンピュータに、請求項7から12のいずれか1項に記載の不満通話判定方法を実行させるプログラム。
PCT/JP2013/079234 2012-10-31 2013-10-29 不満通話判定装置及び不満通話判定方法 WO2014069443A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014544514A JPWO2014069443A1 (ja) 2012-10-31 2013-10-29 不満通話判定装置及び不満通話判定方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012240745 2012-10-31
JP2012-240745 2012-10-31

Publications (1)

Publication Number Publication Date
WO2014069443A1 true WO2014069443A1 (ja) 2014-05-08

Family

ID=50627347

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/079234 WO2014069443A1 (ja) 2012-10-31 2013-10-29 不満通話判定装置及び不満通話判定方法

Country Status (2)

Country Link
JP (1) JPWO2014069443A1 (ja)
WO (1) WO2014069443A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782916A (zh) * 2019-09-30 2020-02-11 北京淇瑀信息科技有限公司 一种多模态的投诉识别方法、装置和系统
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008053826A (ja) * 2006-08-22 2008-03-06 Oki Electric Ind Co Ltd 電話応答システム
JP2010187038A (ja) * 2009-02-10 2010-08-26 Nakayo Telecommun Inc 不快感察知機能を有する電話装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008053826A (ja) * 2006-08-22 2008-03-06 Oki Electric Ind Co Ltd 電話応答システム
JP2010187038A (ja) * 2009-02-10 2010-08-26 Nakayo Telecommun Inc 不快感察知機能を有する電話装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782916A (zh) * 2019-09-30 2020-02-11 北京淇瑀信息科技有限公司 一种多模态的投诉识别方法、装置和系统
CN110782916B (zh) * 2019-09-30 2023-09-05 北京淇瑀信息科技有限公司 一种多模态的投诉识别方法、装置和系统
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质

Also Published As

Publication number Publication date
JPWO2014069443A1 (ja) 2016-09-08

Similar Documents

Publication Publication Date Title
US11811970B2 (en) Voice and speech recognition for call center feedback and quality assurance
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
US9571638B1 (en) Segment-based queueing for audio captioning
JP6358093B2 (ja) 分析対象決定装置及び分析対象決定方法
WO2014069076A1 (ja) 会話分析装置及び会話分析方法
US8417524B2 (en) Analysis of the temporal evolution of emotions in an audio interaction in a service delivery environment
JP6213476B2 (ja) 不満会話判定装置及び不満会話判定方法
US10388283B2 (en) System and method for improving call-centre audio transcription
JP5385677B2 (ja) 対話状態分割装置とその方法、そのプログラムと記録媒体
JP6365304B2 (ja) 会話分析装置及び会話分析方法
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP7304627B2 (ja) 留守番電話判定装置、方法及びプログラム
WO2014069443A1 (ja) 不満通話判定装置及び不満通話判定方法
JP5691174B2 (ja) オペレータ選定装置、オペレータ選定プログラム、オペレータ評価装置、オペレータ評価プログラム及びオペレータ評価方法
WO2014069444A1 (ja) 不満会話判定装置及び不満会話判定方法
JP2021076845A (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13851367

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014544514

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13851367

Country of ref document: EP

Kind code of ref document: A1