WO2010041507A1 - 会話における特定状況を抽出するシステムおよび方法 - Google Patents

会話における特定状況を抽出するシステムおよび方法 Download PDF

Info

Publication number
WO2010041507A1
WO2010041507A1 PCT/JP2009/063571 JP2009063571W WO2010041507A1 WO 2010041507 A1 WO2010041507 A1 WO 2010041507A1 JP 2009063571 W JP2009063571 W JP 2009063571W WO 2010041507 A1 WO2010041507 A1 WO 2010041507A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
specific
utterance
speaker
conversation
Prior art date
Application number
PCT/JP2009/063571
Other languages
English (en)
French (fr)
Inventor
岳人 倉田
伸泰 伊東
雅史 西村
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーション filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーション
Publication of WO2010041507A1 publication Critical patent/WO2010041507A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Definitions

  • the present invention relates to a system, a method, and the like for analyzing a voice of a conversation on a telephone and estimating and extracting a specific situation in the conversation.
  • Japanese Patent Application Laid-Open No. 2004-133620 discloses a technique for separating speech parts and non-speech parts from speech data using speech power information and examining the degree of confusion of a speaker based on the ratio of non-speech parts within a certain period of time. ing.
  • Patent Document 2 discloses a technique for detecting the occurrence of a complaint in the reception work of the call center according to the number of contacts within a certain time, targeting the voice of the agent in the call center.
  • An object of the present invention is to analyze a voice of a conversation and automatically extract a part where a specific situation occurs in a conversation in a specific scene.
  • This system is a system for extracting a specific situation in a conversation, and an acquisition unit that acquires speech voice data of a conversation, and an utterance of a specific expression from speech voices of a specific speaker among the speech voice data of the conversation
  • a specific expression detecting unit for detecting speech and a specification for extracting a part of the speech utterance data of the conversation that includes an utterance voice of the specific expression detected by the specific expression detecting unit and that forms an utterance pattern that satisfies a certain condition
  • a situation extraction unit is a system for extracting a specific situation in a conversation, and an acquisition unit that acquires speech voice data of a conversation, and an utterance of a specific expression from speech voices of a specific speaker among the speech voice data of the conversation
  • a specific expression detecting unit for detecting speech for detecting speech
  • a specification for extracting a part of the speech utterance data of the conversation that includes an utterance voice of the specific expression detected by the specific expression detecting unit and that forms an utterance
  • this utterance pattern is a pattern formed on the basis of the external features of the uttered speech by each speaker, and the specific situation extracting unit includes the external shape of the uttered speech by each speaker in the utterance speech data. The part where the characteristic feature satisfies a certain condition is extracted. More specifically, the external feature of the uttered voice is determined by information on the utterance time in the utterance of each speaker. In addition, the specific situation extraction unit determines whether the specific expression in the utterance voice is based on the difference between the utterance time of the specific speaker and the utterance time of other speakers in the utterance voice of each speaker before the utterance voice of the specific expression. It is determined whether or not the portion including the uttered voice forms an utterance pattern.
  • the specific situation extraction unit obtains a feature value that quantitatively represents an external feature of a portion that forms an utterance pattern in the uttered speech.
  • the specific situation extraction unit obtains the sum of the feature values obtained for each portion included in the conversation unit as the feature value of the predetermined conversation unit.
  • the specific situation extraction unit obtains a feature value based on a difference between the utterance time of the specific speaker and the utterance time of the other speaker, with respect to the utterance sound of each speaker before the utterance sound of the specific expression.
  • the present invention is also realized as the following method.
  • This method is a method of analyzing a recorded conversation and extracting a specific situation, from the step of obtaining speech voice data of the conversation, and from the speech voice of a specific speaker among the speech voice data of the conversation Detecting speech of specific expressions, and forming speech patterns that include the detected speech of specific expressions from the speech data of conversations, and that the external features of the speech of each speaker satisfy certain conditions Extracting a portion to be processed. More preferably, the step of extracting the part forming the speech pattern from the speech data of the conversation is based on the difference between the speech time of a specific speaker and the speech time of another speaker with respect to the speech of the extracted part. And obtaining a feature value that quantitatively represents the external feature of the speech.
  • the present invention is also realized as a program for controlling a computer to realize each function of the above system, or a program for causing a computer to execute processing corresponding to each step of the above method.
  • This program is provided by being stored and distributed in an optical disk, magnetic disk, semiconductor memory, or other storage medium, or distributed via a network.
  • FIG. 1 is a diagram illustrating a configuration example of a speech analysis system according to the present embodiment.
  • the system according to the present embodiment includes a voice acquisition unit 110 that acquires conversation voice data, a voice classification unit 120 that identifies a speaker of the acquired conversation voice data, and an utterance of a specific speaker.
  • a specific expression detection unit for detecting a specific expression The system also includes a specific situation extraction unit 140 that extracts a specific situation in the conversation based on the utterance pattern of each speaker and the detected specific expression, and an output unit 150 that outputs a result of the analysis processing. Is provided.
  • FIG. 2 is a diagram illustrating a hardware configuration example of a computer that realizes the speech analysis system of FIG.
  • the computer 10 shown in FIG. 2 includes a CPU (Central Processing Unit) 10a that is a calculation means, a main memory 10c that is a storage means, and a magnetic disk device (HDD: Hard Disk Drive) 10g.
  • a network interface card 10f for connecting to an external device via a network
  • an audio mechanism 10h for performing audio output
  • an input device 10i such as a keyboard or a mouse is provided.
  • the main memory 10c and the video card 10d are connected to the CPU 10a via the system controller 10b.
  • the network interface card 10f, the magnetic disk device 10g, the sound mechanism 10h, and the input device 10i are connected to the system controller 10b via the I / O controller 10e.
  • Each component is connected by various buses such as a system bus and an input / output bus.
  • the CPU 10a and the main memory 10c are connected by a system bus or a memory bus.
  • PCI Peripheral-Components-Interconnect
  • PCI Express Peripheral-Components-Interconnect
  • serial ATA AT-Attachment
  • USB Universal Serial Bus
  • AGP Accelerated Graphics Port
  • FIG. 2 merely illustrates a hardware configuration of a computer suitable for applying the present embodiment, and it goes without saying that actual servers are not limited to the illustrated configuration.
  • the video card 10d instead of providing the video card 10d, only the video memory may be mounted and the CPU 10a may process the image data.
  • the audio mechanism 10h may be provided as a function of a chip set that constitutes the system controller 10b and the I / O controller 10e without being an independent configuration.
  • an auxiliary storage device may be provided with a drive using various optical disks and flexible disks as media.
  • a liquid crystal display is mainly used as the display device 10j, but any other type of display such as a CRT display or a plasma display may be used.
  • the audio classification unit 120, the specific expression detection unit 130, and the specific situation extraction unit 140 are executed by the CPU 10 a in the computer 10 shown in FIG. 2, for example, by the program read into the main memory 10 c. Is realized.
  • the voice acquisition unit 110 and the output unit 150 are realized by a network interface card 10f and a program-controlled CPU 10a in the computer 10 shown in FIG. 2, for example.
  • the voice acquisition unit 110 acquires voice data of telephone conversations and interviews recorded by a voice input device such as a microphone.
  • a voice input device such as a microphone.
  • the voice data of at least one speaker may be acquired from a telephone line.
  • the voice acquisition unit 110 acquires voice data for each channel.
  • the voice classification unit 120 classifies the voice data acquired by the voice acquisition unit 110 into uttered voices for each speaker.
  • the speaker is identified for each channel.
  • the speakers can be identified by applying the existing technology for identifying the utterances of each speaker from the voice data including the utterances of multiple speakers. It ’s fine.
  • the specific expression detection unit 130 detects the specific expression from the voice of the specific speaker in the voice data in which the speaker is identified by the voice classification unit 120.
  • the speakers and expressions to be detected are determined according to the situation to be extracted from the conversational voice data. For example, if you are trying to extract a situation where an agent is responding to a customer complaint in a call center situation at a call center, I ’m sorry, ”etc.).
  • any existing method for recognizing the content of an utterance from voice data can be applied.
  • the content of the utterance can be recognized using a general voice recognition technique, and the specific expression can be detected from the text obtained as a recognition result.
  • a keyword spotting technique may be used. Keyword spotting is a technique for extracting and recognizing only specific keywords from continuous speech. In this method, a speech waveform of a specific expression to be detected is prepared, and a portion where the specific expression is uttered is detected by matching the acquired speech data.
  • the specific situation extraction unit 140 includes speech of a specific expression by a specific speaker detected by the specific expression detection unit 130 in the conversation voice data to be processed, and the utterance of each speaker classified by the audio classification unit 120 A part where the pattern satisfies a certain condition is extracted as a part where a specific situation occurs in the conversation.
  • the utterance by each speaker forms a pattern that satisfies certain conditions during the conversation, and a specific utterance expression by a specific speaker appears in the utterance pattern There is. Therefore, the specific situation extraction unit 140 identifies and extracts a part where a specific situation has occurred in the conversation by detecting such a combination of the utterance pattern and the utterance expression from the conversation voice data.
  • a complaint response situation that responds to customer complaints as listed above.
  • a frequent utterance pattern there is a pattern in which an utterance of an apology expression by the agent appears after a state in which the utterance of the customer is largely biased with respect to the utterance of the agent continues. This corresponds to the agent stating an apology after the customer unilaterally complains.
  • the above complaint response situation is extracted based only on the expression of the apology of the agent without considering the state in which there are many customer utterances.
  • the apology is an expression used by the speaker to express his apology, but is not necessarily used to apologize for the customer's complaint.
  • Examples used for purposes other than apologizing for complaints include the expression "I was sorry to make you wait” for having the other party waited, or when you were called before The expression “I was sorry the other day” may be used for inconvenience the other party. The apology used in these situations often appears with the first greeting in the entire conversation.
  • an expression such as “I am very sorry, but ...” may be used.
  • the specific situation extraction unit 140 is provided on the condition that a combination of an utterance pattern in which the customer utters continuously, followed by an utterance pattern by the agent, and an apology expression (specific expression) uttered by the agent appears. Extract complaint response status. As described above, the specific situation extraction accuracy is improved by distinguishing the specific situation generated during the conversation based on the combination of the utterance pattern for each speaker and the specific expression by the specific speaker.
  • the specific situation extraction method can be used to extract various specific situations for conversations in various scenes in addition to the above-described complaint response situation extraction. For example, in a conversation for buying and selling products, if there are many customer utterances followed by an expression of gratitude by the agent (such as “Thank you”), it is determined that the customer has purchased the product. can do. Also, if there is a lot of utterances from one speaker, followed by an expression of approval by the other speaker (such as “satisfied”, “accepted”, “accepted”, etc.) It can be determined that a situation has occurred in which some instruction is given from the other speaker to the other speaker.
  • the utterance pattern of each speaker used for extraction of a specific situation is formed by external features that are not related to the content of the utterance, such as the utterance time, utterance order, and number of utterances of each speaker. Information regarding these utterances can be obtained only from the acoustic information (power) of the voice data acquired by the voice acquisition unit 110. More specifically, if there is information on the utterance time of each speaker along the time axis, the utterance pattern can be specified. Therefore, except for detecting a specific expression uttered by a specific speaker, in this embodiment, it is not necessary to perform speech recognition processing on the utterance of each speaker, and the information on the utterance time is acquired.
  • the customer's utterance it is sufficient for the customer's utterance to obtain information on the time when the utterance was performed based on the power of the voice, and it is not necessary to recognize the contents of the customer's utterance.
  • the recognition rate of the customer's speech is lower than the recognition rate of the agent's speech.
  • this embodiment that does not require recognition of the customer's speech is particularly effective.
  • the specific situation extraction unit 140 explicitly specifies a location where the specific situation occurs in the conversational voice data, and extracts a portion where the specific situation may occur.
  • Information that becomes a material for determining whether or not a specific situation has occurred may be presented.
  • a part where a specific expression by a specific speaker appears is specified.
  • a feature value that quantitatively represents the external feature of the portion is obtained and presented as information that is used as a material for determining whether or not a specific situation has occurred. .
  • this information indicates the probability (probability) that a specific situation has occurred.
  • the part When explicitly identifying a location where a specific situation has occurred from conversational voice data, first determine the accuracy of the portion including the location where the specific expression by the specific speaker appears, and the accuracy is equal to or greater than a predetermined threshold.
  • the part may be extracted as a part where a specific situation occurs.
  • the specific value obtained by the calculation for the feature value is based on what part of the utterance pattern is extracted from the utterance voice data.
  • the utterance pattern extracted from the utterance voice data may be arbitrarily set according to what specific situation is extracted in the conversation in which scene.
  • the output unit 150 outputs the processing result by the specific situation extraction unit 140.
  • the processing result may simply present a location where the specific situation is extracted, or may present the above feature value. Furthermore, among the places where the specific situation is extracted, only those whose accuracy calculation results exceed a certain threshold may be presented as extraction results.
  • the output unit 150 outputs the processing results in various output formats depending on the manner in which the system is implemented. Specifically, for example, the processing result by the specific situation extraction unit 140 may be visualized in a graph format or a table format and displayed on the display device 10j illustrated in FIG. The processing result may be stored in a database built in the magnetic disk device 10g or an external storage device. Further, the processing result may be processed into a data format that can be used by various applications and used for the application.
  • FIG. 3 is a flowchart illustrating a procedure in which the specific expression detection unit 130 detects a specific expression of a specific speaker from the conversation voice data, and the specific situation extraction unit 140 extracts a specific situation.
  • processing is performed in units of voice data (hereinafter referred to as “conversation units”) in a certain amount of conversation, such as a single call at a call center.
  • the conversation voice data in one conversation unit includes one to several utterances of each speaker.
  • the expression “A:” represents processing for the voice of a specific speaker (for example, the agent in the call center example).
  • the utterance pattern to be extracted as the part where the specific situation has occurred is that the utterance of the partner is more than the utterance of the partner who is the specific speaker, and then the apology expression by the agent Adopt the pattern that appeared.
  • the specific situation extraction unit 140 does not specifically specify the part where the specific situation occurs in the conversational voice data, but each part including the specific expression of the specific speaker in the speech voice data.
  • the feature value that quantitatively represents the external feature of the speech data is obtained.
  • the specific situation extraction unit 140 extracts a portion where a specific situation may have occurred from the conversation voice data, and obtains a feature value for each extracted part, thereby actually Indicates the probability that a specific situation has occurred.
  • the specific expression detection unit 130 detects a specific expression from the voice data of a specific speaker among the voice data in units of conversation classified by the voice classification unit 120 for each speaker (step 301). ).
  • the detection of the specific expression can be performed using an existing recognition technique such as normal speech recognition processing or keyword spotting.
  • the process ends (No in step 302).
  • step 302 If a specific expression is detected (Yes in step 302), then the specific situation extraction unit 140 performs the following steps 303 to step for the portion including each detected specific expression in the speech data of the conversation unit.
  • the process of 309 is performed. It is assumed that N specific expressions are detected from the speech data of the conversation unit to be processed.
  • a subscript i attached to a variable symbol takes a value from 1 to N, and represents that each process is a process related to the i-th specific expression.
  • the specific situation extraction unit 140 acquires the time T i at which the specific expression appears from the voice data of the conversation unit based on the time axis (step 303).
  • the end time T i pre of the utterances of the specific speaker before the specific expression that are utterances other than the conflict and closest to the specific expression is acquired (step 304).
  • the summon is usually a single and short-time characteristic utterance such as “Yes”, “Yes”, etc., by ignoring such utterance, immediately before the specific expression excluding the summon Utterances can be identified.
  • the time T i pre is obtained by referring to the result of VAD (Voice Activity Detection).
  • the time between this specific expression and the immediately preceding utterance that is, the time when the specific speaker is silent except for the conflict is called the blank time.
  • the blank time it is assumed that speakers other than the specific speaker are speaking, but it does not matter whether or not other speakers are actually speaking at the stage of obtaining the blank time t i range. .
  • the specific situation extraction unit 140 replaces the value of the blank time t i range with the minimum value t MINIMUM_RANGE (steps 306 and 307). .
  • the blank time t i range becomes extremely short when an additional word is uttered immediately before a specific speaker utters a specific expression, or when noise is misrecognized as an utterance of a specific speaker. This is done to avoid that.
  • the additional word is, for example, “true” when the specific speaker speaks “true, sorry” when the specific expression is an apology expression “sorry”.
  • the specific value of the minimum value t MINIMUM_RANGE can be set to about 5 seconds, for example, but an appropriate value may be set individually according to the conversation scene to be processed and the specific situation to be extracted.
  • a specific situation may have occurred depending on the utterance pattern formed by the portion of the utterance voice obtained in steps 306 and 307, that is, the portion from time (T i -t i range ) to time T i. Sexual parts are extracted.
  • the specific situation extraction unit 140 refers to the utterance voice data for each speaker between the time (T i -t i range ) and the time T i, and the time u i A when the specific speaker is speaking. And the time u i B during which other speakers are speaking (step 308).
  • the utterance time u i A of the specific speaker can be obtained by using the result of speech recognition or the VAD processing result for the uttered speech of the specific speaker.
  • the speech time u i B of another speaker can be obtained by using the VAD processing result for the speech data of the speaker.
  • the specific situation extraction unit 140 scores as feature values related to the i-th specific expression based on the utterance times u i A and u i B of each speaker obtained in step 308 and the minimum value t MINIMUM_RANGE of the blank time. Si is obtained (step 309).
  • the score S i that is a feature value is used as an index representing the probability that the specific situation in the voice data actually appears in the specific situation. That is, the higher the score S i for a certain location, the higher the probability that the location is actually a location where a specific situation has occurred.
  • the specific expression is apology representation, the higher the score S i, since likelihood of complaints response situation has occurred is high, regarded as apology expressions employed as an apology for the more serious problem.
  • Determination of the score S i based on the above-mentioned object can arbitrarily determined depending on the specific contents of Specified conditions.
  • the following formula is an example of a calculation formula for obtaining the score S i .
  • S i (u i B ⁇ u i A ) / t MINIMUM_RANGE formula (1)
  • FIG. 4 is a diagram showing a specific example of conversation voice data between a customer and an agent in a call center.
  • speaker A is an agent and speaker B is a customer.
  • the utterance of speaker A who is a specific speaker, has been recognized from speech P 1 to P 5 , and the recognition results are P 1 “... got me”, P 2 “I think so in August,” P 3 “Yes”, P 4 “Yes”, P 5 “Sorry...”.
  • P 5 is an apology representation
  • P 3 and P 4 are reactive tokens. Therefore, the start time of P 5 is time T i and the end time of P 2 is time T i pre . The time from time T i pre to time T i is the time t i range .
  • t i range ⁇ t MINIMUM_RANGE . Therefore, in the process of the specific situation extraction unit 140, t i range is replaced with t MINIMUM_RANGE .
  • the utterance time of each speaker in the range of time t MINIMUM_RANGE is that the utterance time u i B of speaker B is considerably longer than the utterance time u i A of speaker A. Therefore, the score S i calculated by the above equation (1) is a large value.
  • the specific situation extraction unit 140 performs the above processing on the portion including each specific expression detected from the speech data in the conversation unit, and then adds all the scores S i to obtain the score ⁇ S i in the conversation unit. And the process is terminated (step 310).
  • the obtained score ⁇ S i and score S i are processed and output by the output unit 150 as necessary, together with information on the time T i representing the position in the conversation voice data.
  • ⁇ Application example> As an application example of the speech analysis system according to the present embodiment, consider a case where the speech analysis system is applied to a conversation speech monitoring operation in a call center. In call centers, there is a large amount of conversations between customers and agents every day, and there is an increasing demand for monitoring to find useful information and problems from the large amount of conversations. Yes. For example, if a customer is dissatisfied or angry with an agent in a conversation at a call center, the cause of the customer's dissatisfaction can be determined by examining the details of the conversation, It is possible to detect an agent that often causes customer anger.
  • the score is calculated not only for the conversation unit but also for each specific expression that appears in the conversation. Therefore, based on the score calculated for each specific expression, for example, by cutting out a portion where a score equal to or greater than a certain threshold is calculated and presenting it to the supervisor, the efficiency of the monitoring work can be further improved.
  • a feature value (score) representing the accuracy is extracted by extracting a portion where a specific situation may have occurred based only on a specific expression uttered by a specific speaker and an utterance pattern of each speaker.
  • the accuracy of occurrence of a specific situation may be calculated by combining the above-described specific expression and utterance pattern with the result of speech recognition for the utterance of a specific speaker. For example, when another utterance expression is added to the specific expression, or when a “reverse connection” expression such as “Isuga” follows the specific expression, those utterance expressions are not added. It is also possible to set a calculation formula that has a different accuracy value compared to.
  • the complaint response situation is taken as an example of the specific situation, and the complaint response is based on the utterance pattern that the utterance of the specific expression of the specific speaker appears after the deflection state in which the other speaker's utterance is frequent. We extracted the part where the situation might have occurred.
  • this utterance pattern is merely an example. If the utterance pattern of each speaker that appears frequently when a specific situation occurs can be identified, the specific situation is caused by a complex utterance pattern in which the utterances of the specific speaker and the other speaker are repeated alternately You may judge.

Abstract

【課題】会話の音声を解析して、特定の場面での会話における特定の状況が生じている可能性のある箇所を自動的に抽出する。 【解決手段】会話の発話音声データを取得する音声取得部110と、この会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部130と、この会話の発話音声データのうち、特定表現検出部130により検出された特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出する特定状況抽出部140と、を備える。

Description

会話における特定状況を抽出するシステムおよび方法
 本発明は、電話等における会話の音声を解析して、会話における特定の状況を推定し抽出するシステムおよび方法等に関する。
 従来、収録された音声を解析して様々な情報を得ることが行われている。また、この種の技術を用いて、電話や面談における会話の音声を解析し、音声のパワーや音声認識結果から得られる発話のパターンに基づいて、話者や会話の状況を推定する技術が提案されている。
 特許文献1には、音声のパワー情報を利用して音声データから発話部分と非発話部分とを切り分け、一定時間内の非発話部分の割合に基づいて発話者の困惑度を調べる技術が開示されている。
 特許文献2には、コール・センターにおけるエージェントの音声を対象とし、一定時間内の相槌の回数に応じて、コール・センターの受付業務においてクレームが発生したことを検出する技術が開示されている。
特開2006-267464号公報 特開2007-286097号公報
 コール・センターにおけるエージェントと顧客との電話での会話や、対面販売における販売者と顧客との会話のような特定の場面での会話に関して、特定の状況が発生している箇所を区別して抽出したい場合がある。例えば、顧客からの苦情に対する応答や、顧客が商品に興味を持ったり、購買を決めたりする際のやり取り等である。
 本発明は、会話の音声を解析して、特定の場面での会話における特定の状況が生じている箇所を自動的に抽出することを目的とする。
 上記の目的を達成するため、本発明は、次のようなシステムとして実現される。このシステムは、会話における特定状況を抽出するシステムであって、会話の発話音声データを取得する取得部と、この会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部と、この会話の発話音声データのうち、特定表現検出部により検出された特定表現の発話音声を含み、一定の条件を満たす発話パターンを形成する部分を抽出する特定状況抽出部と、を備える。
 より詳細には、この発話パターンは、各話者による発話音声の外形的特徴に基づいて形成されるパターンであり、特定状況抽出部は、発話音声データのうち、各話者による発話音声の外形的特徴が一定の条件を満たす部分を抽出する。
 さらに詳細には、発話音声の外形的特徴は、各話者の発話における発話時間の情報により定まる。
 また、特定状況抽出部は、特定表現の発話音声以前の各話者の発話音声における特定話者の発話時間と他の話者の発話時間との差異に応じて、この発話音声における特定表現の発話音声を含む部分が発話パターンを形成するか否かを判断する。
 また、より好ましくは、上記のシステムにおいて、特定状況抽出部は、発話音声における発話パターンを形成する部分の外形的特徴を定量的に表す特徴値を求める。
 また、特定状況抽出部は、所定の会話単位の特徴値として、この会話単位に含まれる部分ごとに求められた特徴値の総和を求める。
 さらに、特定状況抽出部は、特定表現の発話音声以前の各話者の発話音声に関して、特定話者の発話時間と他の話者の発話時間との差に基づく特徴値を求める。
 また、本発明は、次のような方法としても実現される。この方法は、収録された会話を解析して特定状況を抽出する方法であって、会話の発話音声データを取得するステップと、会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出するステップと、会話の発話音声データのうち、検出された特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出するステップと、を含む。
 さらに好ましくは、会話の発話音声データから発話パターンを形成する部分を抽出するステップは、抽出された部分の発話音声に関して、特定話者の発話時間と他の話者の発話時間との差に基づき、発話音声の外形的特徴を定量的に表す特徴値を求めるステップを含む。
 また、本発明は、コンピュータを制御して上記のシステムの各機能を実現させるプログラムや、コンピュータに上記の方法の各ステップに対応する処理を実行させるプログラムとしても実現される。このプログラムは、光ディスクや磁気ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。
 以上のように構成された本発明によれば、会話の音声を解析し、特定の場面での会話における特定の状況が生じている可能性のある箇所を自動的に抽出することができる。
本実施形態による音声解析システムの構成例を示す図である。 図1の音声解析システムを実現するコンピュータのハードウェア構成例を示す図である。 本実施形態の特定表現検出部および特定状況抽出部の動作手順を示すフローチャートである。 本実施形態により処理される、コール・センターにおける顧客とエージェントとの会話音声データの具体例を示す図である。
 以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成>
 図1は、本実施形態による音声解析システムの構成例を示す図である。
 図1を参照すると、本実施形態のシステムは、会話音声データを取得する音声取得部110と、取得された会話音声データの話者を識別する音声分別部120と、特定の話者の発話から特定の表現を検出する特定表現検出部130とを備える。また、このシステムは、各話者の発話パターンと検出された特定表現に基づいて、会話における特定の状況を抽出する特定状況抽出部140と、これらの解析処理による結果を出力する出力部150とを備える。
 図2は、図1の音声解析システムを実現するコンピュータのハードウェア構成例を示す図である。
 図2に示すコンピュータ10は、演算手段であるCPU(Central Processing Unit)10aと、記憶手段であるメイン・メモリ10cおよび磁気ディスク装置(HDD:Hard Disk Drive)10gを備える。また、ネットワークを介して外部装置に接続するためのネットワーク・インタフェース・カード10fと、表示出力を行うためのビデオ・カード10dおよび表示装置10jと、音声出力を行うための音声機構10hとを備える。さらに、キーボードやマウス等の入力デバイス10iを備える。
 図2に示すように、メイン・メモリ10cおよびビデオ・カード10dは、システム・コントローラ10bを介してCPU10aに接続されている。また、ネットワーク・インタフェース・カード10f、磁気ディスク装置10g、音声機構10hおよび入力デバイス10iは、I/Oコントローラ10eを介してシステム・コントローラ10bと接続されている。各構成要素は、システム・バスや入出力バス等の各種のバスによって接続される。例えば、CPU10aとメイン・メモリ10cの間は、システム・バスやメモリ・バスにより接続される。また、CPU10aと磁気ディスク装置10g、ネットワーク・インタフェース・カード10f、ビデオ・カード10d、音声機構10h、入力デバイス10i等との間は、PCI(Peripheral Components Interconnect)、PCI Express、シリアルATA(AT Attachment)、USB(Universal Serial Bus)、AGP(Accelerated Graphics Port)等の入出力バスにより接続される。
 なお、図2は、本実施形態が適用されるのに好適なコンピュータのハードウェア構成を例示するに過ぎず、実際の各サーバが図示の構成に限定されないことは言うまでもない。例えば、ビデオ・カード10dを設ける代わりに、ビデオメモリのみを搭載し、CPU10aにてイメージ・データを処理する構成としても良い。また、音声機構10hを独立した構成とせず、システム・コントローラ10bやI/Oコントローラ10eを構成するチップセットの機能として備えるようにしても良い。また、補助記憶装置として磁気ディスク装置10gの他に、各種の光学ディスクやフレキシブル・ディスクをメディアとするドライブを設けても良い。表示装置10jとしては、主として液晶ディスプレイが用いられるが、その他、CRTディスプレイやプラズマ・ディスプレイ等、任意の方式のディスプレイを用いて良い。
 図1に示したシステムにおいて、音声分別部120、特定表現検出部130、特定状況抽出部140は、例えば図2に示したコンピュータ10において、メイン・メモリ10cに読み込まれたプログラムをCPU10aが実行することにより実現される。音声取得部110および出力部150は、例えば図2に示したコンピュータ10において、ネットワーク・インタフェース・カード10fおよびプログラム制御されたCPU10aにより実現される。
 音声取得部110は、マイクロフォン等の音声入力デバイスにより収録された電話や面談の会話音声のデータを取得する。電話での会話音声データを取得する場合、少なくとも一方の話者の音声データについては、電話回線から取得しても良い。各話者の発話が話者ごとに設定されたチャネルに分かれて収録されている場合、音声取得部110は、チャネルごとに音声データを取得する。
 音声分別部120は、音声取得部110により取得された音声データを話者ごとの発話音声に分別する。取得された音声データが話者ごとに個別のチャネルで収録されている場合は、チャネルごとに話者が識別される。また、1つのチャネルに複数話者の音声が混在している場合、複数話者の発話が含まれる音声データから話者ごとの発話を識別するための既存技術を適用して話者を識別すれば良い。
 特定表現検出部130は、音声分別部120により話者が識別された音声データのうち、特定話者の発話音声から特定表現を検出する。検出対象となる話者および表現は、会話音声データから抽出しようとする状況に応じて定められる。例えば、コール・センターにおける電話応対の場面で、エージェントが顧客からの苦情に応答している状況を抽出しようとする場合、エージェントにより発話された謝罪表現(「申し訳ございません」、「すみません」、「失礼いたしました」等)が検出される。
 特定表現の検出方法としては、音声データから発話の内容を認識するための既存の任意の手法を適用することができる。具体的には例えば、一般的な音声認識技術を用いて発話内容を認識し、認識結果として得られたテキストから上記の特定表現を検出することができる。また、本実施形態では、特定表現のみを検出できれば良く、取得した音声データの全体にわたって音声認識を行う必要はないので、キーワード・スポッティングの技術を用いても良い。キーワード・スポッティングとは、連続音声の中から特定のキーワードだけを抽出して認識する技術である。この手法では、検出しようとする特定表現の音声波形が用意され、取得した音声データに対してマッチングを行うことによって、特定表現が発話されている箇所が検出される。
 また、実際の発話では、同じ謝罪表現でも「申し訳ない」、「申し訳ありません」、「申し訳ございません」等のように変化する。そこで、例えば、正規表現を用いて「申し訳*」のように特定表現を指定することで、これらの表現が全て検出対象となるようにする。
 特定状況抽出部140は、処理対象の会話音声データのうち、特定表現検出部130により検出された特定話者による特定表現の発話音声を含み、音声分別部120により分別された各話者の発話パターンが一定の条件を満たす部分を、会話において特定状況が生じた部分として抽出する。会話において特定の状況が生じた場合、その会話中に、各話者による発話が一定の条件を満たすパターンを形成し、かつその発話パターンの中で特定話者による特定の発話表現が出現する場合がある。そこで、特定状況抽出部140は、会話音声データからそのような発話パターンと発話表現の組み合わせを検出することによって、その会話中で特定の状況が生じた部分を特定し、抽出する。
 例として、先に挙げた、顧客の苦情に対して応答する状況(苦情応答状況と呼ぶ)を考える。この場合、頻出する発話パターンとしては、エージェントの発話に対して顧客の発話が多い偏向した状態が続いた後、エージェントによる謝罪表現の発話が出現する、というパターンがある。これは、顧客が一方的に苦情を申し立てた後、エージェントが謝罪の言葉を述べることに対応している。
 ここで、顧客の発話が多い状態を考慮せず、単にエージェントの謝罪表現のみに基づいて、上記の苦情応答状況を抽出することを考える。
 謝罪表現は、話者が謝罪の意を表すために用いる表現であるが、必ずしも顧客の苦情の申し立てに対して謝罪するために用いられたとは限らない。苦情に対する謝罪以外の目的で用いられる例としては、相手を待たせたことに対して「お待たせして申し訳ありませんでした」という表現や、以前に電話がかかってきた際に不在であったり相手に迷惑をかけたりしたことに対して「先日は申し訳ありませんでした」という表現が用いられる場合がある。これらの状況で使用される謝罪表現は、会話全体における最初の挨拶と共に出現することが多い。また、相手に何かを依頼する際に「たいへん申し訳ないのですが、・・・」といった表現が用いられる場合がある。この場合、この謝罪表現の後に逆説の構文等を用いて依頼内容についての発話が続くという特徴があり、顧客の発話が多い状態が続いた後に謝罪表現が出現するというパターンには必ずしも合致しない。さらに、実際の会話では、コミュニケーションを円滑にする等の目的で、比較的頻繁に、このような謝罪の言葉を発する人もいる。したがって、エージェントの謝罪表現のみに基づいて、会話から特定状況を抽出しようとすると、苦情に対する謝罪以外の目的で用いられた、これらの謝罪表現も採取してしまう。
 そこで、特定状況抽出部140は、顧客の発話が多い状態が続き、その後にエージェントが発話したという発話パターンと、エージェントにより発話された謝罪表現(特定表現)との組み合わせが出現したことを条件に、苦情応答状況を抽出する。このように、話者ごとの発話のパターンと特定話者による特定表現との組み合わせに基づいて、会話中に生じた特定状況を区別することにより、特定状況の抽出精度が向上する。
 本実施形態による特定状況の抽出手法は、上記のような苦情応答状況の抽出以外にも、様々な場面での会話を対象として様々な特定状況を抽出するために用いることができる。例えば、商品売買のための会話において、顧客の発話が多い状態が続き、その後にエージェントによる謝礼表現(「ありがとうございます」等)が出現した場合、顧客が商品を購買したという状況が生じたと判断することができる。また、一方の話者の発話が多い状態が続き、その後に他方の話者による承認の表現(「かしこまりました」、「承りました」、「了解しました」等)が出現した場合、一方の話者から他方の話者へ何らかの指示が与えられたという状況が生じたと判断することができる。
 本実施形態において、特定状況の抽出に用いられる各話者の発話パターンは、各話者の発話時間や発話順、発話回数といった、発話の内容に関わらない外形的な特徴によって形成される。これらの発話に関する情報は、音声取得部110により取得された音声データの音響情報(パワー)のみから得ることができる。さらに詳細には、時間軸に沿った各話者の発話時間の情報があれば、発話パターンを特定することができる。したがって、特定話者により発話された特定表現を検出することを除いて、本実施形態では、各話者の発話に対して音声認識処理を行う必要もないし、上記の発話時間の情報を取得した後は音声データそのものを保持しておく必要もない。例えば上記のコール・センターの例では、顧客の発話に関しては音声のパワーに基づいて発話が行われた時間の情報が得られれば十分であり、顧客の発話の内容を認識する必要がない。一般に、コール・センターにおける電話での会話音声を音声認識する場合、エージェントの発話音声の認識率よりも顧客の発話音声の認識率の方が低いことが知られているが、このような場合にも、顧客の発話音声を認識する必要のない本実施形態は特に有効である。
 本実施形態の特定状況抽出部140は、上記のように、会話音声データ中の特定状況が生じている箇所を明示的に特定する他、特定状況が生じている可能性のある部分を抽出し、特定状況が生じているか否かを判断する材料となる情報を提示するようにしても良い。この場合、まず特定話者による特定表現が出現している箇所を特定する。そして、特定された箇所を含む会話音声データの部分において、その部分の外形的な特徴を定量的に表す特徴値を求め、特定状況が生じているか否かを判断する材料となる情報として提示する。この情報は、言わば、特定状況が生じている確度(確からしさ)を示す。会話音声データから特定状況が生じている箇所を明示的に特定する場合、まず特定話者による特定表現が出現している箇所を含む部分の確度を求め、その確度が予め定められた閾値以上の場合に、その部分を特定状況が生じている箇所として抽出しても良い。
 なお、上記の特徴値に関して、具体的にどのような計算により求まる値を設定するかは、発話音声データからどのような発話パターンを形成する部分を抽出するかに基づく。そして、発話音声データから抽出する発話パターンは、どのような場面での会話においてどのような特定状況を抽出するかに応じて任意に設定して良い。
 出力部150は、特定状況抽出部140による処理結果を出力する。処理結果は、単に特定状況が抽出された箇所を提示するものであっても良いし、上記の特徴値を提示しても良い。さらに特定状況が抽出された箇所のうち、確度の計算結果が一定の閾値を超えるものについてのみ抽出結果として提示しても良い。
 また、出力部150は、処理結果をシステムが実施される態様等に応じて、様々な出力形式で出力する。具体的には例えば、特定状況抽出部140による処理結果を、グラフ形式や表形式に視覚化し、図2に示した表示装置10jに表示しても良い。また、この処理結果を、磁気ディスク装置10gや外部記憶装置に構築されたデータベースに格納しても良い。さらに、この処理結果を、種々のアプリケーションで利用可能なデータ形式に加工し、アプリケーションでの利用に供しても良い。
<特定表現検出部および特定状況抽出部の動作>
 次に、特定表現検出部130および特定状況抽出部140の動作について説明する。
 図3は、特定表現検出部130が会話音声データから特定話者の特定表現を検出し、特定状況抽出部140が特定状況を抽出する手順を示すフローチャートである。
 ここでは、コール・センターにおける一回の通話のように、ある程度まとまった会話における音声データを単位(以下、会話単位と呼ぶ)として処理を行う。1つの会話単位における会話音声データには、各話者の発話が1回から数回分含まれる。なお、図3のフローチャートにおいて、「A:」という表現は、特定話者(例えば、上記コール・センターの例におけるエージェント)の音声に対する処理であることを表している。
 本動作例において、特定状況が生じた部分として抽出されるための発話パターンは、特定話者であるエージェントの発話に対して相手の発話が多い状態が続いた後、エージェントによる謝罪表現の発話が出現した、というパターンを採用する。また、本動作例では、特定状況抽出部140は、会話音声データ中の特定状況が生じた部分を具体的に特定するのではなく、発話音声データにおける特定話者の特定表現を含む各々の部分に関して、発話音声データの外形的特徴を定量的に表す特徴値を求める。言い換えれば、特定状況抽出部140は、会話音声データ中から特定状況が生じた可能性のある部分を抽出し、抽出した各部分に対して、特徴値を求めることにより、各々の部分において実際に特定状況が生じている確度を示す。
 図3に示すように、まず特定表現検出部130が、音声分別部120により話者ごとに分類された会話単位の音声データのうち、特定話者の音声データから特定表現を検出する(ステップ301)。上述したように、特定表現の検出は、通常の音声認識処理やキーワード・スポッティング等の既存の認識技術を用いて行うことができる。ここで、処理対象の会話単位において、特定話者の音声データから特定表現が検出されなかった場合(特定表現が存在しなかった場合)、処理を終了する(ステップ302でNo)。
 特定表現が検出された場合(ステップ302でYes)、次に、特定状況抽出部140が、会話単位の音声データ中の検出された各特定表現を含む部分に対して、以下のステップ303~ステップ309の処理を行う。なお、処理対象の会話単位の音声データからはN個の特定表現が検出されたものとする。そして、以下の説明において、変数の記号に付される添え字iは、1からNまでの値を取り、各処理がi番目の特定表現に関する処理であることを表すこととする。
 特定状況抽出部140は、まず、会話単位の音声データから、その時間軸に基づいて、特定表現が出現した時刻Tiを取得する(ステップ303)。また、特定表現以前の特定話者の発話のうちで、相槌以外の発話であって、かつ特定表現に最も近いものの終端時刻Ti preを取得する(ステップ304)。ここで、相槌は、通常、「はい」、「ええ」等のような単発で短時間の特徴的な発話であるため、そのような発話を無視することによって、相槌を除いた特定表現の直前の発話を特定することができる。特定表現の検出にキーワード・スポッティングが用いられた場合、VAD(Voice Activity Detection)の結果を参照することで、時刻Ti preが得られる。
 次に特定状況抽出部140は、時刻Tiおよび時刻Ti preを用いて、特定話者による特定表現とその直前の発話との間の時間ti range(=Ti-Ti pre)を求める(ステップ305)。この特定表現とその直前の発話との間の時間、すなわち相槌を除き特定話者が沈黙していた時間を空白時間と呼ぶ。この時間は、特定話者以外の話者が発話していることが想定されるが、空白時間ti rangeを求める段階では、実際に他の話者が発話しているか否かは問題としない。
 また、特定状況抽出部140は、求めた空白時間ti rangeが予め設定された最小値tMINIMUM_RANGEよりも短い場合、空白時間ti rangeの値を最小値tMINIMUM_RANGEに置き換える(ステップ306、307)。これは、特定話者が特定表現を発話する直前に、付加的な単語を発話した場合や、雑音が特定話者の発話と誤認識された場合に、空白時間ti rangeが極端に短くなってしまうことを回避するために行われる。付加的な単語とは、例えば特定表現が謝罪表現「申し訳ありません」である場合に、特定話者が「まことに、申し訳ありません」と発話した場合の「まことに」等である。最小値tMINIMUM_RANGEの具体的な値は、例えば5秒程度とすることができるが、処理対象とする会話の場面や抽出しようとする特定状況に応じて適当な値を個別に設定して良い。
 本実施形態では、このステップ306およびステップ307で得られる発話音声の部分、すなわち、時刻(Ti-ti range)から時刻Tiまでの部分が形成する発話パターンによって、特定状況が生じた可能性のある部分が抽出される。
 次に特定状況抽出部140は、時刻(Ti-ti range)から時刻Tiまでの間で、話者ごとの発話音声データを参照し、特定話者が発話している時間ui Aと他の話者が発話している時間ui Bとを求める(ステップ308)。特定話者の発話時間ui Aについては、音声認識の結果や特定話者の発話音声に対するVADの処理結果を利用して求めることができる。他の話者の発話時間ui Bについては、その話者の発話音声データに対するVADの処理結果を利用して求めることができる。
 次に特定状況抽出部140は、ステップ308で求めた各話者の発話時間ui A、ui Bと空白時間の最小値tMINIMUM_RANGEとに基づいて、i番目の特定表現に関する特徴値としてスコアSiを求める(ステップ309)。特徴値であるスコアSiは、音声データ中の特定表現が出現した箇所が、実際に特定状況の生じている確度を表す指標として用いられる。すなわち、ある箇所について、スコアSiが高いほど、その箇所が実際に特定状況の生じている箇所である確度が高くなる。特定表現が謝罪表現である場合、スコアSiが高いほど、苦情応答状況が生じている確度が高くなるため、より深刻な問題に対する謝罪として用いられた謝罪表現であると見なす。
 スコアSiの求め方は、上記の目的に基づき、特定状況の具体的な内容等に応じて任意に定め得る。一つの考え方として、時間ti rangeが長いほど高くなり、この時間ti rangeにおいて特定話者の発話時間に対して他の話者の発話時間が大きいほど高くなるようにスコアSiの計算方法を設定することができる。下記の式は、スコアSiを求めるための計算式の一例である。

   Si=(ui B-ui A)/tMINIMUM_RANGE          式(1)

 このスコアSiは、ti range=tMINIMUM_RANGEであって、かつui A=0、すなわち特定表現の直前の空白時間で特定話者以外の話者のみが発話している場合に、最大値1となる。
 図4は、コール・センターにおける顧客とエージェントとの会話音声データの具体例を示す図である。
 図4において、話者Aがエージェント、話者Bが顧客である。特定話者である話者Aの発話は、発話P1~P5まで音声認識されており、認識結果は、P1「・・・もらってた」、P2「八月そうですね、で」、P3「はい」、P4「ええ」、P5「申し訳・・・」である。このうち、P5が謝罪表現、P3およびP4が相槌である。したがって、P5の開始時刻が時刻Tiであり、P2の終端時刻が時刻Ti preである。そして、時刻Ti preから時刻Tiまでの間の時間が時間ti rangeである。ただし、図4に示す例では、ti range<tMINIMUM_RANGEであるものとする。したがって、特定状況抽出部140の処理においては、ti rangeがtMINIMUM_RANGEに置き換えられる。
 図4を参照すると、時間tMINIMUM_RANGEの範囲における各話者の発話時間は、話者Bの発話時間ui Bが話者Aの発話時間ui Aに対して相当に長い。したがって、上記の式(1)により計算されるスコアSiは大きな値となる。
 特定状況抽出部140は、会話単位の音声データから検出された各特定表現を含む部分に対して、上記の処理を行った後、全てのスコアSiを加算し、会話単位におけるスコアΣSiを求め、処理を終了する(ステップ310)。得られたスコアΣSiおよびスコアSiは、会話音声データにおける位置を表す時刻Tiの情報等と共に、出力部150により、必要に応じて加工されて、出力される。
<適用例>
 本実施形態による音声解析システムの適用例として、コール・センターにおける会話音声のモニタリング作業に適用する場合を考える。
 コール・センターでは、顧客とエージェントの間で毎日大量の会話が行われており、その大量の会話の中から、有用な情報を見つけたり、問題を発見したりするためのモニタリングの需要が高まっている。例えば、コール・センターにおける会話の中で、顧客がエージェントに対して不満・怒りを表しているものは、その会話の内容を子細に調べることにより、顧客が不満に思っている原因を突き止めたり、顧客の怒りをよく招いてしまうエージェントを検出したりすることができる。
 しかし、毎日コール・センターで行われる会話の数は膨大であるため、全ての会話を人間(スーパーバイザ)が聞いて、実際に苦情応答状況が生じている有用な会話を列挙することは困難である。そこで、本実施形態を用いて監視対象とする会話を絞り込むことで、モニタリング作業の効率の向上を図ることができる。例えば、図3のステップ310で計算された会話ごとのスコアに基づいて各会話を順位付け、スコアの高いもの(実際に苦情応答状況が生じている確度の高いもの)から順にスーパーバイザが調べることで、効率の良いモニタリング作業が実現される。
 また、本実施形態は、図3のステップ309に示したように、会話単位だけでなく、会話中に出現した特定表現ごとにスコアが計算される。したがって、この特定表現ごとに計算されたスコアに基づき、例えば一定の閾値以上のスコアが算出された部分を切り出してスーパーバイザに提示することにより、モニタリング作業の効率をさらに向上させることができる。
 以上、本実施形態について説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。例えば、上記実施形態では、特定話者により発話された特定表現と各話者の発話パターンのみに基づいて特定状況が生じた可能性がある部分を抽出し、その確度を表す特徴値(スコア)を計算した。これに対し、上記の特定表現および発話パターンに、特定話者の発話に対する音声認識の結果を組み合わせて特定状況が生じている確度を計算しても良い。例えば、特定表現に対してさらに別の発話表現が付加されている場合や、「ですが」のような「逆接」表現が特定表現に後続する場合に、それらの発話表現が付加していない場合と比べて確度の値が異なるような計算式を設定しても良い。
 また、上記実施形態では、特定状況として苦情応答状況を例に挙げ、相手の話者の発話が多い偏向状態が続いた後に特定話者の特定表現の発話が出現した、という発話パターンによって苦情応答状況が生じた可能性がある部分を抽出した。しかしながら、この発話パターンは例示に過ぎない。特定状況が生じる際に頻出する各話者の発話パターンを特定できるのであれば、特定話者と相手の話者の発話が交互に繰り返されるような複雑な発話パターンによって特定状況が生じていることを判断しても良い。さらに、上記の実施形態では、特定話者と他の一人の話者からなる合計二人の話者による会話を例として説明したが、特定話者と複数の他の話者からなる三人以上の話者による会話に対しても、特定状況が生じる際に頻出する各話者の発話パターンを特定することができれば、本実施形態を適用することが可能である。その他、上記実施形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
10a…CPU、10c…メイン・メモリ、10g…磁気ディスク装置、110…音声取得部、120…音声分別部、130…特定表現検出部、140…特定状況抽出部、150…出力部

Claims (12)

  1.  会話における特定状況を抽出するシステムであって、
     前記会話の発話音声データを取得する取得部と、
     前記会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部と、
     前記会話の発話音声データのうち、前記特定表現検出部により検出された前記特定表現の発話音声を含み、一定の条件を満たす発話パターンを形成する部分を抽出する特定状況抽出部と、
    を備える、前記システム。
  2.  前記発話パターンは、各話者による発話音声の外形的特徴に基づいて形成されるパターンであり、
     前記特定状況抽出部は、前記発話音声データのうち、各話者による発話音声の外形的特徴が前記一定の条件を満たす部分を抽出する、請求項1に記載のシステム。
  3.  前記発話音声の外形的特徴は、各話者の発話における発話時間の情報により定まる、請求項2に記載のシステム。
  4.  前記特定状況抽出部は、前記発話音声データにおける前記発話パターンを形成する前記部分の外形的特徴を定量的に表す特徴値を求める、請求項1乃至請求項3に記載のシステム。
  5.  前記特定状況抽出部は、所定の会話単位の特徴値として、当該会話単位に含まれる前記部分ごとに求められた前記特徴値の総和を求める、請求項4に記載のシステム。
  6.  前記特定状況抽出部は、前記特定表現の発話音声以前の各話者の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づく前記特徴値を求める、請求項4または請求項5に記載のシステム。
  7.  前記特定状況抽出部は、前記特定表現の発話音声以前の各話者の発話音声における前記特定話者の発話時間と他の話者の発話時間との差異に応じて、当該発話音声における当該特定表現の発話音声を含む部分が前記発話パターンを形成するか否かを判断する、請求項1乃至請求項3に記載のシステム。
  8.  会話における特定状況を抽出するシステムであって、
     前記会話の発話音声データを取得する取得部と、
     前記会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部と、
     前記会話の発話音声データのうち、前記特定表現検出部により検出された前記特定表現の発話音声および当該特定表現の発話音声以前の一定条件を満たす各話者の発話音声を含む部分を抽出し、当該部分の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づき、当該発話音声の外形的特徴を定量的に表す特徴値を求める特定状況抽出部と、
    を備える、前記システム。
  9.  収録された会話を解析して特定状況を抽出する方法であって、
     前記会話の発話音声データを取得するステップと、
     前記会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出するステップと、
     前記会話の発話音声データのうち、検出された前記特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出するステップと、
    を含む、前記方法。
  10.  前記会話の発話音声データから前記発話パターンを形成する部分を抽出するステップは、抽出された前記部分の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づき、当該発話音声の外形的特徴を定量的に表す特徴値を求めるステップを含む、請求項9に記載の方法。
  11.  会話における特定状況を抽出するためのプログラムであって、
     コンピュータを、
     前記会話の発話音声データを取得し、特定話者の発話音声の中から特定表現の発話音声を検出する手段と、
     前記会話の発話音声データのうち、検出された前記特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出する手段として、
    機能させる、前記プログラム。
  12.  前記会話の発話音声データから前記発話パターンを形成する部分を抽出する手段は、抽出された前記部分の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づき、当該発話音声の外形的特徴を定量的に表す特徴値を求める、請求項11に記載のプログラム。
PCT/JP2009/063571 2008-10-10 2009-07-30 会話における特定状況を抽出するシステムおよび方法 WO2010041507A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-263505 2008-10-10
JP2008263505 2008-10-10

Publications (1)

Publication Number Publication Date
WO2010041507A1 true WO2010041507A1 (ja) 2010-04-15

Family

ID=42100463

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/063571 WO2010041507A1 (ja) 2008-10-10 2009-07-30 会話における特定状況を抽出するシステムおよび方法

Country Status (2)

Country Link
US (1) US9269357B2 (ja)
WO (1) WO2010041507A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014069120A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 分析対象決定装置及び分析対象決定方法
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
WO2014069121A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法
WO2015019662A1 (ja) * 2013-08-07 2015-02-12 日本電気株式会社 分析対象決定装置及び分析対象決定方法
JP2015114855A (ja) * 2013-12-12 2015-06-22 日本電信電話株式会社 議論支援装置および議論支援プログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9225701B2 (en) 2011-04-18 2015-12-29 Intelmate Llc Secure communication systems and methods
US20150003595A1 (en) * 2011-04-25 2015-01-01 Transparency Sciences, Llc System, Method and Computer Program Product for a Universal Call Capture Device
US9678948B2 (en) 2012-06-26 2017-06-13 International Business Machines Corporation Real-time message sentiment awareness
WO2014069076A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法
US20150279391A1 (en) * 2012-10-31 2015-10-01 Nec Corporation Dissatisfying conversation determination device and dissatisfying conversation determination method
CN103903627B (zh) * 2012-12-27 2018-06-19 中兴通讯股份有限公司 一种语音数据的传输方法及装置
US9690775B2 (en) 2012-12-27 2017-06-27 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
US9460083B2 (en) 2012-12-27 2016-10-04 International Business Machines Corporation Interactive dashboard based on real-time sentiment analysis for synchronous communication
US9645994B2 (en) * 2014-12-09 2017-05-09 Conduent Business Services, Llc Methods and systems for automatic analysis of conversations between customer care agents and customers
KR101583181B1 (ko) * 2015-01-19 2016-01-06 주식회사 엔씨소프트 응답 스티커 추천방법 및 컴퓨터 프로그램
US9786274B2 (en) * 2015-06-11 2017-10-10 International Business Machines Corporation Analysis of professional-client interactions
JP2017009826A (ja) * 2015-06-23 2017-01-12 トヨタ自動車株式会社 グループ状態判定装置およびグループ状態判定方法
JP2017010309A (ja) 2015-06-23 2017-01-12 トヨタ自動車株式会社 意思決定支援装置および意思決定支援方法
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US11954436B2 (en) 2021-07-26 2024-04-09 Freshworks Inc. Automatic extraction of situations

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037989A (ja) * 2002-07-05 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> 音声受付システム
JP2004157253A (ja) * 2002-11-05 2004-06-03 Kawasaki Steel Systems R & D Corp コンタクト・センタ・オペレータ訓練システム
JP2004252668A (ja) * 2003-02-19 2004-09-09 Fujitsu Ltd コンタクトセンタ運用管理プログラム、装置および方法
JP2005242891A (ja) * 2004-02-27 2005-09-08 Fujitsu Ltd 事例検索プログラム
JP2007033754A (ja) * 2005-07-26 2007-02-08 Nec Corp 音声監視システムと方法並びにプログラム
JP2007212532A (ja) * 2006-02-07 2007-08-23 Nec Corp モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
JP2007286097A (ja) * 2006-04-12 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9620082D0 (en) * 1996-09-26 1996-11-13 Eyretel Ltd Signal monitoring apparatus
US6064963A (en) * 1997-12-17 2000-05-16 Opus Telecom, L.L.C. Automatic key word or phrase speech recognition for the corrections industry
US7191133B1 (en) * 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US6959080B2 (en) * 2002-09-27 2005-10-25 Rockwell Electronic Commerce Technologies, Llc Method selecting actions or phases for an agent by analyzing conversation content and emotional inflection
EP1632083A4 (en) * 2003-11-05 2007-05-02 Nice Systems Ltd DEVICE AND METHOD FOR PERFORMING EVENT DIRECTED CONTENT ANALYSIS
US8295446B1 (en) * 2004-09-03 2012-10-23 Confinement Telephony Technology, Llc Telephony system and method with enhanced call monitoring, recording and retrieval
US7783028B2 (en) * 2004-09-30 2010-08-24 International Business Machines Corporation System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction
JP4587854B2 (ja) 2005-03-23 2010-11-24 東京電力株式会社 感情解析装置、感情解析プログラム、プログラム格納媒体
US8094803B2 (en) * 2005-05-18 2012-01-10 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US20070043608A1 (en) * 2005-08-22 2007-02-22 Recordant, Inc. Recorded customer interactions and training system, method and computer program product
US8112298B2 (en) * 2006-02-22 2012-02-07 Verint Americas, Inc. Systems and methods for workforce optimization
US20100199189A1 (en) * 2006-03-12 2010-08-05 Nice Systems, Ltd. Apparatus and method for target oriented law enforcement interception and analysis
US8707431B2 (en) * 2007-04-24 2014-04-22 The Mitre Corporation Insider threat detection
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
US20090103711A1 (en) * 2007-09-28 2009-04-23 Kelly Conway Methods and systems for determining inappropriate threats during a telephonic communication between a customer and a contact center
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8886663B2 (en) * 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037989A (ja) * 2002-07-05 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> 音声受付システム
JP2004157253A (ja) * 2002-11-05 2004-06-03 Kawasaki Steel Systems R & D Corp コンタクト・センタ・オペレータ訓練システム
JP2004252668A (ja) * 2003-02-19 2004-09-09 Fujitsu Ltd コンタクトセンタ運用管理プログラム、装置および方法
JP2005242891A (ja) * 2004-02-27 2005-09-08 Fujitsu Ltd 事例検索プログラム
JP2007033754A (ja) * 2005-07-26 2007-02-08 Nec Corp 音声監視システムと方法並びにプログラム
JP2007212532A (ja) * 2006-02-07 2007-08-23 Nec Corp モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
JP2007286097A (ja) * 2006-04-12 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014069120A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 分析対象決定装置及び分析対象決定方法
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
WO2014069121A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法
JPWO2014069120A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 分析対象決定装置及び分析対象決定方法
JPWO2014069122A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
JPWO2014069121A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 会話分析装置及び会話分析方法
US10083686B2 (en) 2012-10-31 2018-09-25 Nec Corporation Analysis object determination device, analysis object determination method and computer-readable medium
WO2015019662A1 (ja) * 2013-08-07 2015-02-12 日本電気株式会社 分析対象決定装置及び分析対象決定方法
JPWO2015019662A1 (ja) * 2013-08-07 2017-03-02 日本電気株式会社 分析対象決定装置及び分析対象決定方法
US9875236B2 (en) 2013-08-07 2018-01-23 Nec Corporation Analysis object determination device and analysis object determination method
JP2015114855A (ja) * 2013-12-12 2015-06-22 日本電信電話株式会社 議論支援装置および議論支援プログラム

Also Published As

Publication number Publication date
US20100114575A1 (en) 2010-05-06
US9269357B2 (en) 2016-02-23

Similar Documents

Publication Publication Date Title
WO2010041507A1 (ja) 会話における特定状況を抽出するシステムおよび方法
JP6358093B2 (ja) 分析対象決定装置及び分析対象決定方法
JP6714607B2 (ja) 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
US8165874B2 (en) System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
US10354677B2 (en) System and method for identification of intent segment(s) in caller-agent conversations
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
US8306814B2 (en) Method for speaker source classification
US8078463B2 (en) Method and apparatus for speaker spotting
US20190385597A1 (en) Deep actionable behavioral profiling and shaping
JP2017508188A (ja) 適応型音声対話のための方法
KR101795593B1 (ko) 전화상담원 보호 장치 및 그 방법
JP2009237353A (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
US10388283B2 (en) System and method for improving call-centre audio transcription
JP2017199254A (ja) 会話分析装置、会話分析方法および会話分析プログラム
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
JP7407190B2 (ja) 発話解析装置、発話解析方法及びプログラム
JP6365304B2 (ja) 会話分析装置及び会話分析方法
JP6254504B2 (ja) 検索サーバ、及び検索方法
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP5691174B2 (ja) オペレータ選定装置、オペレータ選定プログラム、オペレータ評価装置、オペレータ評価プログラム及びオペレータ評価方法
WO2020196743A1 (ja) 評価システム及び評価方法
WO2020036190A1 (ja) 要点抽出装置、要点抽出方法、及びプログラム
CN113066506B (zh) 音频数据分离方法、装置、电子设备以及存储介质
WO2022208711A1 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2014069444A1 (ja) 不満会話判定装置及び不満会話判定方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09819043

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 09819043

Country of ref document: EP

Kind code of ref document: A1