WO2021002136A1 - 発話解析装置、発話解析方法及びプログラム - Google Patents

発話解析装置、発話解析方法及びプログラム Download PDF

Info

Publication number
WO2021002136A1
WO2021002136A1 PCT/JP2020/021809 JP2020021809W WO2021002136A1 WO 2021002136 A1 WO2021002136 A1 WO 2021002136A1 JP 2020021809 W JP2020021809 W JP 2020021809W WO 2021002136 A1 WO2021002136 A1 WO 2021002136A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
data
category
likelihood
period
Prior art date
Application number
PCT/JP2020/021809
Other languages
English (en)
French (fr)
Inventor
夏樹 佐伯
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN202080048836.2A priority Critical patent/CN114072786A/zh
Priority to JP2021529929A priority patent/JPWO2021002136A1/ja
Publication of WO2021002136A1 publication Critical patent/WO2021002136A1/ja
Priority to US17/559,033 priority patent/US20220114348A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • This disclosure relates to an utterance analysis device, an utterance analysis method, and a program that visualize changes in topics in a speaker's utterance.
  • Patent Document 1 describes a system in which the content of a discourse referring to a talk script by an operator such as a call center is converted into text by voice recognition processing, and information on the frequency of use of the talk script is output.
  • the technique described in Patent Document 1 can solve a problem that the quality of the response record varies depending on the skill of the operator, and can automatically create a response record that ensures unifiedness and conciseness.
  • the present disclosure provides an utterance analysis device, an utterance analysis method, and a program capable of visualizing the transition of a topic in a speaker's utterance.
  • the utterance analysis device of the present disclosure is an utterance analysis device that visualizes changes in the utterance of the speaker in the first period, and is acquired by the acquisition unit and the acquisition unit that acquire the utterance data of the speaker in chronological order.
  • An arithmetic unit that analyzes changes in utterances and visualization of changes in utterances obtained by the arithmetic unit using a plurality of first likelihoods that specify the possibility that the utterance data falls into each category.
  • a display processing unit for displaying data is provided, and the calculation unit integrates the first likelihoods of a plurality of utterance data in the second period shorter than the first period, obtains the second likelihood for each category, and displays the second likelihood.
  • the visualization data displayed by the processing unit represents the change in utterance by the change in the second likelihood of each category in a plurality of different second periods.
  • the utterance analysis device According to the utterance analysis device, the utterance analysis method, and the program of the present disclosure, it is possible to visualize the transition of the topic in the utterance of the speaker.
  • the utterance analysis device visualizes changes in the transition of topics in the utterance of the speaker during a certain period. Specifically, the utterance analysis device identifies and visualizes how the topic in the utterance during a certain period changes. For example, when a speaker speaks, the topic generally changes over time. The utterance analysis device of the present disclosure can acquire the utterance of the speaker, identify the topic of the utterance, and visualize the change in the topic.
  • the utterance analysis device visualizes changes in the transition of topics regarding the utterances of the speaker during a certain period.
  • the utterance analysis device 1 has a microphone as an input device, acquires utterance data that the speaker 20 utters to the customer 21, visualizes changes in the transition of topics, and outputs the data. Display on a display or the like that is a device. As a result, for example, even the user 22 who is not present at the time of the utterance of the speaker 20 can evaluate the utterance of the speaker 20 by looking at the visualized information.
  • the speaker 20 is assumed to be a member of a housing manufacturer that sells custom-built homes (in the following description, "XYZ Home Company” or "XYZ Home” as necessary).
  • the utterance of the speaker 20 includes an explanation to the customer 21 regarding the company's custom-built house, and necessary explanations regarding the sale and purchase of the custom-built house.
  • the example shown in FIG. 1 is an example, and as will be described later, the utterance analysis device 1 does not necessarily have to be installed when the speaker 20 and the customer 21 have a conversation. Further, the user 22 may also be able to access the utterance analysis device 1 from the outside via the network.
  • "utterance” is assumed to be the act of speaking by the speaker 20 and the voice generated by speaking. It is assumed that the "utterance data” is voice data generated by the speaker 20 speaking. Further, the “utterance data” may be text data in which the voice data generated by the speaker 20 speaking is converted into text by voice recognition. Further, the “utterance data” may be data including these "voice data” and "text data”.
  • the “topic” is explained as the content of the utterance of the speaker 20. Further, the “topic category” or “category” will be described as a classification that identifies the topic of the speaker 20. Although a specific example will be described later, the utterance analysis device 1 specifies which category the utterance topic of the speaker 20 is among a plurality of preset topic categories.
  • “Likelihood” is the likelihood used in the likelihood function as a numerical value representing the likelihood. This likelihood is used as a numerical value indicating the likelihood that the target utterance corresponds to each topic category.
  • the person who speaks is referred to as "speaker 20", and the person who interacts with the speaker 20 is referred to as "customer 21".
  • the person who uses the data in which the transition of the topic regarding the utterance of the speaker 20 by the utterance analysis device 1 is visualized is referred to as "user 22".
  • the user 22 may be the speaker 20 or a person other than the speaker 20.
  • the speaker 20 himself can be the user 22 in order to confirm his own past utterances.
  • the boss of the speaker 20 can be the user 22.
  • a colleague or a subordinate of the speaker 20 may be the user 22 in order to refer to the utterance method of the speaker 20.
  • the utterance analysis device 1 includes, for example, a control unit 11, a storage unit 12, an input unit 13, an output unit 14, and a communication unit 15, and these are connected by a bus 16. It is an information processing device.
  • the control unit 11 is a controller that controls the entire utterance analysis device 1.
  • the control unit 11 realizes processing as the acquisition unit 111, the calculation unit 112, the generation unit 113, and the display processing unit 114 by reading and executing the program P stored in the storage unit 12.
  • the control unit 11 is not limited to one that realizes a predetermined function by the cooperation of hardware and software, and may be a hardware circuit specially designed to realize a predetermined function. That is, the control unit 11 can be realized by various processors such as a CPU, MPU, GPU, FPGA, DSP, and ASIC.
  • the storage unit 12 is a storage medium for storing various information.
  • the storage unit 12 is realized by, for example, a RAM, a ROM, a flash memory, an SSD (Solid State Device), a hard disk, another storage device, or a combination thereof as appropriate.
  • the storage unit 12 stores information used in the identification information, various information acquired for assigning the identification information, and the like.
  • the storage unit 12 stores the utterance data 121, the change data 122, and the program P.
  • the input unit 13 is an input means such as an operation button, a keyboard, a mouse, a touch panel, and a microphone used for operation and data input.
  • the output unit 14 is an output means such as a display or a speaker used for outputting processing results and data.
  • the utterance analysis device 1 acquires utterance data with the microphone which is the input unit 13, generates visualization data from the utterance data acquired by the control unit 11, and outputs the obtained visualization data to the display or the like which is the output unit 14. To do.
  • the communication unit 15 is an interface circuit (module) for enabling data communication with an external device (not shown).
  • the utterance analysis device 1 may be realized by one computer or by a combination of a plurality of computers connected via a network. Further, for example, all or a part of the data stored in the storage unit 12 is stored in an external storage medium connected via the network 40, and the speech analysis device 1 stores the data stored in the external storage medium. It may be configured to be used. Specifically, the utterance data 121 and the change data 122 may be stored in an external storage medium.
  • the acquisition unit 111 acquires the utterance data of the speaker 20 via the microphone which is the input unit 13. Further, the acquisition unit 111 numbers the acquired utterance data of the speaker 20 in the order of the acquired time series, and stores the acquired speaker 20 as the utterance data 121 in the storage unit 12.
  • the utterance analysis device 1 visualizes the utterance of the speaker 20, it is sufficient if at least the utterance data of the speaker 20 can be acquired, and here, the acquisition and visualization of the utterance data of the customer 21 will not be mentioned. It shall be.
  • the calculation unit 112 obtains the likelihood, which is a value that specifies the possibility that the topic of each utterance data 121 falls into a predetermined category. Further, the calculation unit 112 stores the likelihood of each category in association with the utterance data 121. In the following, the "likelihood" for each category will be described as “category likelihood” as needed.
  • the utterance data 121 can include text data obtained by converting the voice data of each utterance data 121 into text by voice recognition processing, together with the voice data or instead of the voice data.
  • the voice recognition process may be executed in the utterance analysis device 1 or may be executed in an external device.
  • the utterance data 121 includes "number” which is identification information given to each utterance data 121 in chronological order, and "text data” generated from the voice data in this period. , It is the data which associates with the "category likelihood" of each category obtained about the utterance data of this period.
  • the utterance data 121 includes the category likelihood obtained for each category of "XYZ home", "floor plan”, "finance” and "other".
  • "Room layout” is a category whose topic is related to the floor plan of a house.
  • "XYZ Home” is a category when the topic is related to XYZ Home.
  • "Finance” is a category whose topic is related to finance.
  • “Other” is a category when the topic is not included in any of "XYZ home", "floor plan” or "finance”.
  • FIG. 4 is an example of a graph showing the category likelihood obtained for a plurality of preset topic categories with respect to the plurality of utterance data 121 in the calculation unit 112.
  • the arithmetic unit 112 can obtain each likelihood using a pre-learned classification model. Specifically, the classification class corresponds to the topic category described here.
  • the horizontal axis is the “number” attached to the utterance data 121, and indicates the time series of 122 of the utterance data.
  • the vertical axis is the "category likelihood" obtained by the calculation unit 112.
  • the calculation unit 112 can specify the category in a wider range than each utterance data 121, and can easily grasp the change of the topic.
  • the calculation unit 112 identifies the topic category using the obtained category likelihood.
  • the arithmetic unit 112 specifies the topic category of the predetermined time t, the first period immediately before the predetermined time t and is the target of visualization of the change in the utterance of the speaker 20 in the utterance analysis device 1.
  • the likelihood of a plurality of utterance data 121 of the second period T2 shorter than T1 the second likelihood of identifying the possibility that the utterance of the second period T2 falls into a predetermined category is obtained, and the change data 122 is used. It is stored in the storage unit 12, and the topic category of the second period T2 is specified.
  • the "first period” will be referred to as the "utterance period”
  • the “second period” will be referred to as the “time window”
  • the “second likelihood” will be referred to as the "integrated likelihood” as necessary.
  • the "time window” can be set by the number of utterance data 121 or the elapsed time.
  • the utterance period T1 is a period corresponding to the total number of utterance data 121, 277
  • the time window T2 is an example of a period corresponding to the number of utterance data 121, 50.
  • the category likelihood of the utterance data 121 in the period of the numbers "40" to "89” corresponding to the time window T2 is used.
  • the calculation unit 112 sets the time window T2 as the target range for each category, and obtains the integration likelihood for each category obtained for each utterance data 121 included in this target range. Further, the calculation unit 112 can specify the category having the largest value among the integrated likelihoods obtained for each category as the category of the topic at the time of a certain utterance number.
  • the calculation unit 112 can obtain the integrated likelihood by using the "freshness weight value w1" set according to the freshness of the topic.
  • the freshness weight value w1 sets the weight of the category likelihood of the new utterance data 121 (“w11” in FIG. 5A) with respect to the predetermined time t as the old utterance data 121. It is a value larger than the weight of the category likelihood (“w12” in FIG. 5A). For example, in the scope of a period, newer utterances are likely to be in the topic category for that period, or topics are likely to be transitioning, and older utterances are in the topic category for that period. Unlikely.
  • the accuracy of specifying the topic can be improved by using the freshness weight value w1 in the calculation unit 112 to specify the topic in the target period.
  • the category likelihood specified from the 80th utterance data to the 89th utterance data is The weight is set larger than the category likelihood specified from the 40th utterance data to the 49th utterance data 121.
  • the category likelihood specified from the utterance data 121 from 1 minute before the predetermined time t to the predetermined time t is predetermined from 5 minutes before the predetermined time t.
  • the weight is set larger than the category likelihood specified from the utterance data 121 up to 4 minutes before the hour.
  • the calculation unit 112 can obtain the integrated likelihood by using the "frequency weight value w2" set according to the frequency of the topic.
  • the frequency weight value w2 is the weight of the category likelihood of the category with the highest frequency of occurrence, as shown in FIG. 5B, with respect to the appearance frequency of the category with the highest category likelihood of the utterance data 121 included in the target range. (“W21” in FIG. 5B) is a value that is larger than the weight of the likelihood of the category with low appearance frequency (“w22” in FIG. 5B).
  • w21 in FIG. 5B
  • w22 is a value that is larger than the weight of the likelihood of the category with low appearance frequency
  • the accuracy of specifying the topic can be improved by using the frequency weight value w2 to specify the topic in the target period.
  • the time window T2 includes 50 utterance data 121
  • the likelihood of the topic that appears 20 times is set to be higher than the likelihood of the topic that appears only twice, and the category likelihood is set. The degree increases.
  • the calculation unit 112 calculates the frequency of appearance of each category (“w21” and “w22” in FIG. 5B) in the range of the time window T2 as described above.
  • the calculation unit 112 can obtain the integration likelihood Lc2 for each category by the following equation (1).
  • Lc2 (i) ⁇ (Lc (j) x w1) x w2 ...
  • each value used in the equation (1) is specified as follows.
  • the calculation unit 112 can normalize the obtained integrated likelihood Lc2 of each category. Further, the calculation unit 112 can also add the normalized data to the change data 122 of the storage unit 12. As a result, the probability that each category in a certain utterance number is a topic can be expressed as shown in FIG.
  • the calculation unit 112 can use, for example, a method of obtaining the probability by softmax for normalization. By plotting the probability values in each category at each utterance number using the probability Pc (i) thus obtained, a graph showing the transition of topics can be obtained as shown in FIG. This makes it possible to visualize the transition state of the topic as a smooth transition, like the transition of the topic in an actual conversation.
  • the calculation unit 112 determines the utterance data from the start of the utterance period T1 to the predetermined time t.
  • a range including 121 is set as a target range, and the integrated likelihood is calculated in the same manner with the category likelihood of the utterance data 121 in this target range.
  • the period t1 from the start of the utterance period T1 to the predetermined time t is a period shorter than the time window T2 and corresponding to the number "40" of the utterance data 121.
  • the integrated likelihood is obtained by using the likelihood from the start of the utterance period T1 to the predetermined time t.
  • weighting may be performed so that the integrated value of the likelihood becomes small.
  • the generation unit 113 generates visualization data that visualizes changes in topics related to the utterance data 121 by using the specific result of the calculation unit 112.
  • the generation unit 113 can generate visualization data that visualizes changes in the topic of the plurality of time windows T2.
  • the generation unit 113 may generate visualization data including a graph in which the integrated likelihood of each classification is displayed in time series.
  • visualization data for displaying the display screen W1 as shown in FIG. 8 is generated.
  • An example display screen W1 shown in FIG. 8 includes a display unit B11 that displays a graph showing a change in the integrated likelihood, and a display unit B12 that displays a time-series change obtained from the graph displayed by the display unit B11. ..
  • the display screen W1 shown in FIG. 8 allows the user 22 to see that the talk of the speaker 20 has changed in the order of "floor plan", “finance", “others”, “XYZ home”, and "finance". I understand.
  • the acquisition unit 111 acquires the utterance data via the microphone which is the input unit 13 and assigns the utterance data in time series. It is stored in the storage unit 12 as utterance data 121 together with the number to be generated (S1).
  • the calculation unit 112 calculates the category likelihood for each category of each utterance data 121 stored in step S1, and stores it in the storage unit 12 in association with the utterance data 121 (S2).
  • the calculation unit 112 executes an analysis process for analyzing the topic category using the category likelihood included in each utterance data 121, using each likelihood calculated in step S2 (S3).
  • the calculation unit 112 selects the category to be processed (S11). For example, each category of "XYZ Home”, “Room Layout”, “Finance”, and “Other” is selected in order, and the subsequent processing is repeated for each category.
  • the calculation unit 112 initializes the value of i to 0 in order to specify the target range for which the integration likelihood is to be calculated for the category selected in step S11 (S12).
  • i is a value for specifying the number assigned to the utterance data 121, and by initializing i, the target range is set in order from the 0th position of the utterance data 121 for the selected category. Further, in the following, the number of utterance data 121 included in the target range is defined as “q”.
  • the calculation unit 112 sets the value of Lc (-1) to 0 (S13).
  • Lc (i) is the likelihood obtained from the utterance data 121 of the i for the category selected in S11, and since the utterance data 121 of the "-1" does not exist, Lc (-1) also exists. However, since it may be used in the process of step S17, it is set to "0" here.
  • the calculation unit 112 sets a target range for calculating the integration likelihood according to the value of i (S14). At this time, the calculation unit 112 sets a new number "j" from "1" within the target range in order from the utterance data 121 of the number "i". As described above in FIG. 4, in the example in which the utterance data 121 of 50 is the time window T2, the numbers 1 to 50 are used for “j”. In this case, the number q of the target range is "50".
  • the utterance data 121 of the 0th utterance is set to t at a predetermined time and the integrated likelihood is calculated.
  • Data 121 is the target range.
  • j is "1" for the utterance data 121 in which i is "0".
  • the number q of the target range is "1".
  • the calculation unit 112 targets the utterance data 121 of the 40th to 89th.
  • j is set so that "40" of i becomes “1” of j and "89” of i becomes "50” of j.
  • the calculation unit 112 sets the utterance data 121 of the 0th to 39th as the target range. Also in this case, for j, "0" of i becomes “1" of j. The number q of the target range is "40".
  • the calculation unit 112 initializes the value of j to 1 and the value of the temporary integrated likelihood Sc to 0 in order to calculate the integrated likelihood for the target range set in step S14 (S15). ..
  • j is a value that specifies the utterance data 121 within the target range.
  • the likelihood Lc (j) of each utterance data 121 included in the target range can be added to obtain the integrated likelihood Lc2 (i).
  • the temporary integrated likelihood Sc is a value used in the calculation process for obtaining the integrated likelihood Lc2 (i) in the target range.
  • the calculation unit 112 determines from the category likelihood Lc of each utterance data 121 in the target range set in step S14 whether or not the category determined by maximum likelihood estimation is “other” (S16). ). Specifically, the calculation unit 112 determines whether or not the category having the highest value among the category likelihoods of each category in the target range is “other”.
  • the calculation unit 112 integrates the target range managed by the utterance data 121 of the number “i-1" with respect to the selected category.
  • the likelihood Lc2 (i-1) is adopted as the integrated likelihood Lc2 (i) of the target range managed by the utterance data 121 of the number “i” (S17). If i is "0", "0" set in L (-1) in step S13 is used.
  • the calculation unit 112 sets the temporary integration likelihood Sc to the category likelihood Lc (j) of the utterance data 121 of the number "j". Is added with a value (Lc (j) ⁇ w1) weighted by the freshness weight value w1, and the obtained value is used as a new temporary integration likelihood Sc (S18).
  • the freshness weight value w1 may be calculated by j / q.
  • the calculation unit 112 increments the value of j (S19). After that, the calculation unit 112 determines whether or not j ⁇ q (S20).
  • the calculation unit 112 returns to the processing in step S18 and performs the processing in steps S18 to S20. repeat.
  • the calculation unit 112 obtains the maximum likelihood topic category frequency Nc of the target category in the target range (NO). S21).
  • the maximum likelihood topic category frequency Nc is the number of times in each utterance data 121 of the target range that the likelihood of the category selected as the target of processing in step S11 becomes the highest value. For example, when the number of utterance data 121 having the highest category likelihood Lc (j) in the target range is "20" when the processing is performed for the "floor plan", the maximum likelihood topic category frequency Nc Is "20".
  • the calculation unit 112 sets the temporary integrated likelihood Sc to the value (Sc ⁇ w2) weighted by the frequency weight value w2 as the integrated likelihood Lc2 (i) of the target range (S22).
  • the frequency weight value w2 may be calculated by Nc / q.
  • the calculation unit 112 obtains the integrated likelihood L2c (i)
  • the calculation unit 112 obtains the probability Pc (i) of the selected category regarding the target range by normalization (S23).
  • the calculation unit 112 increments the value of i (S24). As a result, the value of i is set to a value for specifying the next target range.
  • the calculation unit 112 determines whether or not it is the end timing (S25).
  • the end timing is a case where processing is performed for the entire range. For example, in the example of the category likelihood shown in FIG. 4, the utterance of the last number "276" in the time series is made for a series of utterance data 121. This is the case when the processing is completed up to the data 121.
  • the calculation unit 112 When it is not the end timing (NO in S25), since the processing has not been completed for all the utterance data 121 in the utterance period T1, the calculation unit 112 returns to the processing in step S14 and repeats the processing in steps S14 to S25.
  • step S11 If the processing is not completed for all categories (NO in S26), the calculation unit 112 returns to step S11, selects another category, and repeats the processing of steps S11 to S25 until all categories are completed. .. For example, when the category of "XYZ Home” is finished, “Room layout” is selected, then “Finance” is selected, and finally “Other” is selected to repeat the same process.
  • the calculation unit 112 uses the maximum likelihood Lc2 (i) for all the target ranges set in step S14.
  • the category of the topic is specified by maximum likelihood estimation (S27). Further, when the categories are specified (S27), the calculation unit 112 can calculate the integrated likelihood Lc2 and the probability Pc (i) of each category, and thus ends the analysis process (step S3 in FIG. 9).
  • the generation unit 113 generates visualization data for each category in the process of step S3 (S4).
  • the display processing unit 114 outputs the visualization data generated in step S4 to the output unit 14 of the display or the like (S5).
  • the utterance of the speaker 20 can be visualized in this way. Thereby, the evaluation of the utterance of the speaker 20 can be easily realized. Further, another speaker can easily refer to the utterance of the speaker 20 who is another person.
  • the acquisition unit 111 has been described as an example of acquiring utterance data at the timing when the speaker 20 speaks, but the present invention is not limited to this.
  • the acquisition unit 111 may acquire external voice data such as an IC recorder from a recording device and acquire the utterance data recorded at the timing of the utterance of the speaker 20 at a subsequent timing and use it.
  • the acquisition unit 111 may acquire and use the utterance sentence input as a text sentence like a chat.
  • the calculation unit 112 in the utterance analysis device 1 has described an example of calculating the “category likelihood”, but the present invention is not limited to this. Specifically, the utterance analysis device 1 may acquire and use the category likelihood calculated by an external arithmetic unit.
  • the utterance analysis device 1 may include a reception unit that accepts a period designated by the user 22.
  • the calculation unit 112 can receive the period as the reception unit via the input unit 13 or the communication unit 15, and can calculate the integrated likelihood using the period designated by the user 22 as the time window T2.
  • the speaker 20 or the user 22 who is a third party who analyzes the utterance of the speaker 20 may freely set the time window T2 according to the target utterance.
  • the target category is first selected in step S11, the target range is set in step S14 for each selected category, and the integration likelihood of each target range is set in order.
  • the integrated likelihood of all categories can be obtained as a result for each range.
  • a method may be used in which a target range is first set in step S14, categories are selected in order in step S111 within this target range, and the integrated likelihood of each category is obtained.
  • the calculation unit 112 determines whether or not the processing of steps S15 to S23 is completed for all categories (S127).
  • the generation unit 113 uses the utterance data 121 of the plurality of speakers 20 stored in the storage unit 12, and the visualization data generated from the utterance data 121 of the first speaker 20 and the first speaker 20. May generate comparison data comparing with visualization data generated from utterance data 121 of another second speaker.
  • FIG. 12 shows a display screen W2 including a display unit B21 for displaying the visualization data of the utterance data 121 of the first speaker 20 and a display unit B22 for displaying the visualization data of the utterance data 121 of the second speaker. This is an example. As shown in FIG. 12, since the visualization data for two people is displayed on the display screen W2 in a comparable manner, the long-time utterance data for two people can be confirmed by voice or with the scripted data.
  • the user 22 can compare the topics of each speaker at a glance without any trouble. For example, by displaying the visualization data for two people in parallel, the user 22 can easily compare what kind of explanation method, specifically, the flow of the story is effective.
  • the generation unit 113 may generate visualization data for displaying the display screen W3 including the display unit B23 for displaying the analysis result.
  • the generation unit 113 may generate visualization data including texts such as predetermined phrases in the utterance data.
  • FIG. 14 shows a display unit B41 for displaying a graph showing a change in the integrated likelihood obtained from the utterance data 121 of the speaker, and a display unit B42 for displaying phrases extracted from topics in the “floor plan” category.
  • a display screen W5 including a display unit B43 on which phrases extracted from topics in the "finance" category are displayed.
  • the wording text data included in the display unit B42 and the display unit B43 is the utterance data having a higher probability than other utterance data in the category from the voice data or the data in which the voice data is converted into text.
  • the user 22 refers to the visualization data of the speaker 20 who is another person, and uses the phrases used by the speaker 20 as a reference. , You can consider the wording you will use in the future. For example, by imitating the wording of the speaker 20 who is another person, it becomes possible to explain to the customer 21 in an easy-to-understand manner about a matter that cannot be explained.
  • the generation unit 113 arranges the data in which the utterance data 121 is converted into text in descending order of the likelihood obtained from the utterance data 121, and generates visualization data including a predetermined number (for example, 10) of the data having high likelihood. You may.
  • FIG. 15 shows a display unit B51 that displays a graph showing a change in the integrated likelihood obtained from the utterance data 121 of the speaker 20, and a display unit that displays the text of the utterance data 121 in descending order of the likelihood of a certain category.
  • the text displayed on the display unit B52 and the likelihood displayed on the display unit B53 are changed by switching the selection of the category desired to be displayed by the user. Therefore, the user can confirm the utterance data 121 having a high likelihood for the desired category.
  • the generation unit 113 may generate visualization data such that the word set as a keyword in advance is emphasized and displayed by changing the font, character size, color, and the like with other characters. As a result, the user 22 can explain to the customer in an easy-to-understand manner by imitating the wording of the speaker 20 who is another person.
  • the utterance analysis device of the present disclosure is an utterance analysis device that visualizes changes in the utterance of the speaker in the first period, and is an acquisition unit and an acquisition unit that acquire the utterance data of the speaker in chronological order.
  • the calculation unit that analyzes the change in utterance and the change in utterance obtained by the calculation unit It is equipped with a display processing unit that displays the visualized visualization data, and the calculation unit integrates the first likelihood of a plurality of utterance data in the second period shorter than the first period and sets the second likelihood for each category.
  • the visualized data obtained and displayed by the display processing unit represents the change in utterance by the change in the second likelihood of each category in a plurality of different second periods.
  • the calculation unit of (1) is based on the second likelihood of each category obtained by integrating the first likelihoods of the plurality of utterance data acquired in the second period immediately before the predetermined time.
  • the visualization data that specifies the category at a predetermined time, identifies each of a plurality of categories at a predetermined time that are continuously obtained in the time series, and displays it on the display processing unit shows the change between the multiple categories at the predetermined time in the time series. ,
  • the data may be visualized as a change in topic.
  • the calculation unit of (2) or (2) is obtained by integrating the first likelihood obtained from the utterance data included in the second period to obtain the second likelihood for each category.
  • the category with the largest value may be specified as the topic category of the second period.
  • the calculation unit of (3) may obtain the second likelihood by using the first weight value set to a larger value as the frequency of appearance in the second period increases.
  • the calculation unit of (3) or (4) may obtain the second likelihood by using the second weight value set to a larger value as it approaches a predetermined time.
  • the arithmetic unit shall perform the predetermined time from the start of the first period.
  • the second likelihood may be calculated using the utterance data of the period up to.
  • the utterance data for a certain long period can be used, and an appropriate change can be represented. ..
  • the utterance analysis devices of (1) to (6) include a reception unit that accepts a period specified by the user, and the calculation unit sets a second likelihood with the period accepted by the reception unit as the second period. You may ask.
  • the user can set the second period, so that the optimum information for the user can be provided.
  • the visualization data displayed by the display processing units of (1) to (7) may include a graph in which the second likelihood of each category is represented in time series.
  • the transition of the topic is displayed in an easy-to-understand manner, and the user can easily grasp the transition of the topic.
  • the visualization data displayed by the display processing units of (1) to (7) may include the text data of the utterance included in the utterance data.
  • the visualization data displayed by the display processing units of (1) to (7) is generated from the visualization data generated from the speech data of the first speaker and the speech data of the second speaker. Comparison data comparing with visualization data may be used.
  • the calculation units of (1) to (10) may calculate the first likelihood for each category for each of the utterance data.
  • the first likelihood can be calculated in the utterance analysis device, so that processing can be performed independently of the network load.
  • the visualization method of the present disclosure is an utterance analysis method for visualizing changes in the speaker's utterance in the first period, and includes a step in which the acquisition unit acquires the speaker's utterance data in chronological order.
  • the calculation unit integrates the first likelihoods of the plurality of utterance data in the second period shorter than the first period, and sets the second likelihood for each category.
  • the visualization data obtained in the above and displayed by the display processing unit is an utterance analysis method that represents a change in utterance by a change in the second likelihood of each category in a plurality of different second periods.
  • the program of the present disclosure causes a computer to realize the method (12).
  • the utterance analyzer, utterance analysis method and program described in all the claims of the present disclosure are realized by cooperation with hardware resources such as a processor, a memory, and a program.
  • the utterance analysis device, visualization method and program of the present disclosure are used for a certain period of time by, for example, a speaker who engages in sales by talking, a lecturer who gives a lecture, a respondent who answers a question at a call center, or the like. , When an utterance is made, it is useful when evaluating the utterance or when others refer to the topic of the utterance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

発話者の発話の話題を可視化する。発話解析装置(1)は、第1期間における発話者の発話の変化を可視化する発話解析装置であって、発話者の発話データを時系列の順番で取得する取得部(111)と、取得部で取得した発話データが各カテゴリに該当する可能性を特定する値である複数の第1の尤度を用いて、発話の変化を解析する演算部(112)と、演算部で得られた発話の変化を可視化した可視化データを表示させる表示処理部(114)とを備え、演算部は、第1期間より短い第2期間における複数の発話データの第1の尤度を積算して第2の尤度をカテゴリ毎に求め、表示処理部により表示される可視化データは、異なる複数の第2期間における各カテゴリの第2の尤度の変化により発話の変化を表す。

Description

発話解析装置、発話解析方法及びプログラム
 本開示は、発話者の発話における話題の変化を可視化する発話解析装置、発話解析方法及びプログラムに関する。
 音声認識技術の進歩により、発話者の音声データを取得し、音声認識された内容を処理することが可能になっている。
 特許文献1では、コールセンターの等のオペレータによるトークスクリプトを参照した談話の内容が音声認識処理によりテキスト化され、トークスクリプトの利用頻度の情報を出力するシステムが記載される。この特許文献1に記載の技術では、オペレータのスキルに応じて応対記録の品質にばらつきがある問題等を解決し、統一生、簡潔性を確保した応対記録を自動作成することができる。
特許第5468474号
 本開示は、発話者の発話における話題の推移を可視化することのできる発話解析装置、発話解析方法及びプログラムを提供する。
 本開示の発話解析装置は、第1期間における発話者の発話の変化を可視化する発話解析装置であって、発話者の発話データを時系列の順番で取得する取得部と、取得部で取得した発話データが各カテゴリに該当する可能性を特定する値である複数の第1の尤度を用いて、発話の変化を解析する演算部と、演算部で得られた発話の変化を可視化した可視化データを表示させる表示処理部とを備え、演算部は、第1期間より短い第2期間における複数の発話データの第1の尤度を積算して第2の尤度をカテゴリ毎に求め、表示処理部により表示される可視化データは、異なる複数の第2期間における各カテゴリの第2の尤度の変化により発話の変化を表す。
 これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
 本開示の発話解析装置、発話解析方法及びプログラムによれば、発話者の発話における話題の推移を可視化することができる。
本開示の発話解析装置の概要について説明する概略図である。 本開示の発話解析装置の構成を示すブロック図である。 図2の発話解析装置で利用する発話データを説明するデータ構成図である。 図2の発話解析装置で利用するカテゴリ尤度を表すグラフである。 図2の発話解析装置で積算尤度の演算に利用する鮮度重み値を説明する図である。 図2の発話解析装置で積算尤度の演算に利用する頻度重み値を説明する図である。 図2の発話解析装置で得られる話題である確率を表すグラフである。 図2の発話解析装置で積算尤度を求める際に利用する対象範囲を説明する図である。 図2の発話解析装置により可視化データとして表示される画面の一例である。 図2の発話解析装置で実行される発話解析処理を説明するフローチャートである。 図10の解析処理を説明するフローチャートである。 図10の解析処理の他の例を説明するフローチャートである。 図2の発話解析装置で可視化データとして表示される画面の他の例である。 図2の発話解析装置で可視化データとして表示される画面の他の例である。 図2の発話解析装置で可視化データとして表示される画面の他の例である。 図2の発話解析装置で可視化データとして表示される画面の他の例である。
[本開示の基礎となった知見]
 従来の技術では、発話者の発話を解析する際、文単位を処理対象とし、各文に含まれる単語を用いて解析している。一方、ある期間の複数文からなる発話を解析する場合、複数の文を対象に解析することが好ましい場合もある。
 本開示に係る発話解析装置は、ある期間における発話者の発話における話題の推移の変化を可視化するものである。具体的には、発話解析装置は、ある期間の発話における話題が、どのように変化するかを特定し、可視化する。例えば、発話者が発話する場合、その話題は時間の経過と共に変化するのが一般的である。本開示の発話解析装置は、発話者の発話を取得し、発話の話題を特定し、また、その話題の変化を可視化することができる。
[実施形態]
[1-1.構成]
 以下に、図面を用いて本開示における実施形態を、図面を適宜参照しながら説明する。ただし、詳細な説明において、従来技術および実質的に同一の構成に関する説明のうち不必要な部分は省略されることもある。これは、説明を簡単にするためである。また、以下の説明および添付の図面は、当業者が本開示を充分に理解できるよう開示されるのであって、特許請求の範囲の主題を限定することを意図されていない。
 本開示に係る発話解析装置は、ある期間における発話者の発話に関し、話題の推移の変化を可視化するものである。例えば、図1に示すように、発話解析装置1は、入力装置としてマイクロフォンを有し、発話者20が、顧客21に対して発する発話データを取得し、話題の推移の変化を可視化し、出力装置であるディスプレイ等に表示する。これにより、例えば、発話者20の発話の際には同席していない利用者22であっても、可視化された情報を見ることにより、発話者20の発話を評価することが可能となる。以下の説明では、発話者20は、注文住宅を販売する住宅メーカー(以下の説明で、必要に応じて「XYZホーム社」または「XYZホーム」とする)の一員であるものとする。また、発話者20の発話は、顧客21に自社の注文住宅に関する説明、注文住宅の販売及び購入等に関して必要な説明を含むものとする。なお、図1に示す例は一例であって、具体的には、後述するが、必ずしも発話者20と顧客21が会話する場面で発話解析装置1が設置されていなくてもよい。また、利用者22も、ネットワークを介して外部から発話解析装置1にアクセス可能とされてもよい。
 本説明において、「発話」は、発話者20が話す行為及び話すことで生じた音声であるものとする。「発話データ」は、発話者20が話すことで生じた音声データであるものとする。また、「発話データ」は、発話者20が話すことで生じた音声データを音声認識によってテキスト化されたテキストデータであってもよい。さらに、「発話データ」は、これら「音声データ」と「テキストデータ」を含むデータであってもよい。
 「話題」は、発話者20の発話の内容であるとして説明する。また、「話題のカテゴリ」または「カテゴリ」は、発話者20の話題を特定する分類であるとして説明する。具体例については後述するが、発話解析装置1では、発話者20の発話の話題が、予め設定される複数の話題のカテゴリのうち、どのカテゴリであるかを特定する。
 「尤度」とは、尤度関数で利用される、尤もらしさを表す数値として利用される尤度である。この尤度は、対象の発話が、各話題のカテゴリに該当する尤もらしさを表す数値として利用される。
 以下の説明において、図1に示すように、発話する者を「発話者20」とし、発話者20と対話する者を「顧客21」とする。また、発話解析装置1で発話者20の発話に関して話題の推移が可視化されたデータを利用する者を「利用者22」とする。なお、利用者22は、発話者20であってもよいし、発話者20以外の者であってもよい。例えば、自身の過去の発話を確認するために、発話者20自身が利用者22となることができる。また、発話者20の仕事を評価するために、発話者20の上司が利用者22となることもできる。その他、発話者20の発話方法を参考にするために、発話者20の同僚や部下が利用者22となることもできる。
 図2に示すように、発話解析装置1は、例えば、制御部11と、記憶部12と、入力部13と、出力部14と、通信部15とを備え、これらがバス16で接続される情報処理装置である。
 制御部11は、発話解析装置1全体の制御を司るコントローラである。例えば、制御部11は、記憶部12に記憶されるプログラムPを読み出して実行することにより、取得部111、演算部112、生成部113及び表示処理部114としての処理を実現する。また、制御部11は、ハードウェアとソフトウェアの協働により所定の機能を実現するものに限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。すなわち、制御部11は、CPU、MPU、GPU、FPGA、DSP、ASIC等、種々のプロセッサで実現することができる。
 記憶部12は種々の情報を記憶する記憶媒体である。記憶部12は、例えば、RAM、ROM、フラッシュメモリ、SSD(Solid State Device)、ハードディスク、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。記憶部12には、制御部11が実行するプログラムPの他、識別情報で使用する情報や識別情報付与のために取得された種々の情報等が格納される。例えば、記憶部12は、発話データ121、変化データ122及びプログラムPを記憶する。
 入力部13は、操作やデータの入力に利用される操作ボタン、キーボード、マウス、タッチパネル、マイクロフォン等の入力手段である。出力部14は、処理結果やデータの出力に利用されるディスプレイ、スピーカ等の出力手段である。発話解析装置1は、入力部13であるマイクロフォンで発話データを取得し、制御部11で取得された発話データから可視化データを生成し、得られた可視化データを出力部14であるディスプレイ等に出力する。
 通信部15は、外部の装置(図示せず)とのデータ通信を可能とするためのインタフェース回路(モジュール)である。
 ここで、発話解析装置1は、1台のコンピュータにより実現されてもよいし、ネットワークを介して接続される複数台のコンピュータの組み合わせにより実現されてもよい。また例えば、記憶部12に記憶されるデータの全部又は一部が、ネットワーク40を介して接続される外部の記憶媒体に記憶され、発話解析装置1は、外部の記憶媒体に記憶されるデータを使用するように構成されていてもよい。具体的には、発話データ121や、変化データ122を外部の記憶媒体に記憶してもよい。
 取得部111は、例えば、発話者20が発話をする際、入力部13であるマイクロフォンを介して発話者20の発話データを取得する。また、取得部111は、取得した発話者20の発話データを、取得した時系列の順序で番号を付し、記憶部12に発話データ121として記憶させる。
 発話解析装置1は、発話者20の発話を可視化するものであるから、少なくとも発話者20の発話データを取得することができればよく、ここでは、顧客21の発話データの取得及び可視化については言及しないものとする。
 演算部112は、各発話データ121の話題が所定のカテゴリに該当する可能性を特定する値である尤度を求める。また、演算部112は、各カテゴリの尤度を、発話データ121と関連付けて記憶させる。以下では、各カテゴリに関する「尤度」を、必要に応じて「カテゴリ尤度」として説明する。
 このとき、発話データ121は、音声データとともに、または、音声データに代えて、各発話データ121の音声データを音声認識処理によってテキスト化したテキストデータを含むことができる。この場合、音声認識処理は、発話解析装置1内で実行されてもよいし、外部の装置において実行されてもよい。
 図3に示す一例のように、発話データ121は、発話データ121毎に時系列の順番で付与された識別情報である「番号」と、この期間の音声データから生成された「テキストデータ」と、この期間の発話データについて得られた各カテゴリの「カテゴリ尤度」とを関連付けるデータである。
 図3に示す例では、発話データ121は、「XYZホーム」、「間取り」、「ファイナンス」及び「その他」の各カテゴリについて得られたカテゴリ尤度を含む。「間取り」は、話題が家の間取りに関するカテゴリである。「XYZホーム」は、話題がXYZホーム社に関する場合のカテゴリである。「ファイナンス」は、話題が資金に関するカテゴリである。「その他」は、話題が「XYZホーム」、「間取り」又は「ファイナンス」のいずれにも含まれない場合のカテゴリである。
 なお、ここでは、説明の容易化のため、「XYZホーム」、「間取り」、「ファイナンス」及び「その他」の4つのカテゴリを用いて説明するが、発話解析装置1で処理の対象とするカテゴリの数は限定されない。また、説明で使用されるカテゴリも単なる例示であって限定されず、発話の話題に応じて自由に設定することが可能である。
 図4は、演算部112において、複数の発話データ121に関し、予め設定される複数の話題のカテゴリについて求められたカテゴリ尤度を表すグラフの一例である。演算部112は、各尤度を、事前に学習されたクラス分類モデルを用いて求めることができる。具体的には、クラス分類のクラスが、ここで説明する話題のカテゴリに相当する。図4において、横軸は、発話データ121に付された「番号」であり、発話データの122の時系列を示すものである。また、縦軸は、演算部112で得られた「カテゴリ尤度」である。
 図4に示すような、発話データ121毎のカテゴリの遷移では、その変化が細かく全体としての話題の流れを特定しにくい。そのため、演算部112は、発話データ121毎よりも広い範囲で、カテゴリを特定し、話題の移り変わりを把握しやすくすることができる。
 演算部112は、求めたカテゴリ尤度を用いて話題のカテゴリを特定する。ここで、演算部112は、所定時tの話題のカテゴリを特定する際、所定時tの直前で、かつ、発話解析装置1における発話者20の発話の変化の可視化の対象である第1期間T1より短い第2期間T2の複数の発話データ121の尤度を用いて、第2期間T2の発話について所定のカテゴリに該当する可能性を特定する第2の尤度を求め、変化データ122として記憶部12で記憶させ、第2期間T2の話題のカテゴリを特定する。なお、以下では、必要に応じて「第1期間」を「発話期間」とし、「第2期間」を「時間窓」とし、「第2の尤度」を「積算尤度」として説明する。「時間窓」は、発話データ121の数や、経過時間で設定することができる。
 図4では、発話期間T1は、発話データ121の総数、277個に相当する期間であり、時間窓T2は、発話データ121の数、50個に相当する期間の一例である。例えば、番号「89」の時点での話題のカテゴリを特定するためには、時間窓T2に相当する、番号「40」~「89」の期間の発話データ121のカテゴリ尤度を用いる。
 具体的には、演算部112は、各カテゴリについて、時間窓T2を対象範囲として設定し、この対象範囲に含まれる各発話データ121に対して得られたそれぞれのカテゴリについて積算尤度を求める。また、演算部112は、各カテゴリについて得られた積算尤度のうち、値が最も大きいカテゴリをある発話番号時点の話題のカテゴリとして特定することができる。
 また、演算部112は、話題の鮮度に応じて設定された「鮮度重み値w1」を用いて、積算尤度を求めることができる。具体的には、図5Aに示すように、鮮度重み値w1は、所定時tを基準として新しい発話データ121のカテゴリ尤度の重み(図5A中の「w11」)を、古い発話データ121のカテゴリ尤度の重み(図5A中の「w12」)よりも大きくする値である。例えば、ある期間である対象範囲において、より新しい発話については、その期間の話題のカテゴリである、或いは話題が推移している可能性が高く、古い発話については、その期間の話題のカテゴリである可能性は低い。したがって、演算部112において、鮮度重み値w1をその対象期間の話題の特定に利用することで、話題の特定の精度を向上させることができる。具体的には、仮に、時間窓T2として40番目から89番目の発話データ121の50個が設定されている場合、80番目の発話データから89番目の発話データから特定されるカテゴリ尤度は、40番目の発話データから49番目の発話データ121から特定されるカテゴリ尤度よりも、重みが大きく設定される。または、時間窓T2として「5分間」が設定される場合、所定時tの1分前から所定時tまでの発話データ121から特定されるカテゴリ尤度は、所定時tの5分前から所定時の4分前までの発話データ121から特定されるカテゴリ尤度よりも、重みが大きく設定される。
 さらに、演算部112は、話題の頻度に応じて設定された「頻度重み値w2」を用いて、積算尤度を求めることができる。具体的には、頻度重み値w2は、対象範囲に含まれる発話データ121のカテゴリ尤度が最も高いカテゴリの出現頻度について、図5Bに示すように、出現頻度が高いカテゴリのカテゴリ尤度の重み(図5B中の「w21」)を、出現頻度が低いカテゴリの尤度の重み(図5B中の「w22」)よりも大きくする値である。例えば、時間窓T2の範囲において、何度も出現するカテゴリについては、その期間の話題のカテゴリである可能性が高く、一方、あまり出現しないカテゴリについては、その期間の話題のカテゴリである可能性は低い。したがって、演算部112において、頻度重み値w2をその対象期間の話題の特定に利用することで、話題の特定の精度を向上させることができる。具体的には、仮に、時間窓T2に50の発話データ121が含まれるとき、20回出現する話題の尤度は、2回しか出現しない話題の尤度よりも、重みが高く設定されカテゴリ尤度が大きくなる。演算部112は、時間窓T2の範囲における、各カテゴリの出現頻度(図5B中の「w21」、「w22」)を上述のように算出する。
 例えば、演算部112は、以下の式(1)によりカテゴリ毎に、積算尤度Lc2を求めることができる。
 Lc2(i)=Σ(Lc(j)×w1)×w2 ・・・ (1)
 ここで、式(1)に使用する各値はそれぞれ以下のように規定する。
 c:カテゴリを特定する番号
 i:対象範囲を特定する番号
 Lc2(i):i番目の対象範囲の積算尤度
 j:対象範囲の中で各発話データ121に付された番号
 Lc(j):対象範囲の中でj番目の発話データ121のカテゴリ尤度
 w1:鮮度重み値
 w2:頻度重み値
 なお、式(1)は、j=1からj=qまでの総和である。
 演算部112は、得られた各カテゴリの積算尤度Lc2に対し、正規化を施すことができる。また、演算部112は、正規化されたデータも記憶部12の変化データ122に追加することができる。これにより、ある発話の番号における各カテゴリが話題である確率として、図6に示すようにも表わすことができる。演算部112は、例えば、正規化に、softmaxで確率を求める方法を利用することができる。こうして得られた確率Pc(i)を用い各発話の番号において、各カテゴリにその確率値をプロットすることで、図6に示すように、話題の移り変わりを表すグラフを得ることができる。これにより、実際の会話における話題の移り変わりのように、滑らかな移り変わりとして話題の遷移状態を視覚化することができる。
 演算部112は、仮に、発話期間T1の開始から所定時tまでの期間t1が、時間窓T2に満たない場合(t1<T2の場合)、発話期間T1の開始から所定時tまでの発話データ121を含む範囲を対象範囲として設定し、この対象範囲の発話データ121のカテゴリ尤度で、同様に積算尤度を演算する。図7に示す例を用いて、発話データ121の数「50」に相当する期間を時間窓T2とし、番号が「39」の時点を所定時とした場合の一例を説明する。この場合、発話期間T1の開始から所定時tまでの期間t1は、時間窓T2よりも短い、発話データ121の数「40」に相当する期間である。このような場合、例えば、発話期間T1の開始から所定時tまでの尤度を用いて積算尤度を求める。期間t1が、時間窓T2に満たない場合(t1<T2の場合)、尤度の積算値が小さくなるように重み付けをしてもよい。
 生成部113は、演算部112による特定結果を用いて、発話データ121に関する話題の変化を可視化した可視化データを生成する。ここで、生成部113は、複数の時間窓T2の話題の変化を可視化した可視化データを生成することができる。また、生成部113は、各分類の積算尤度が時系列表示されたグラフを含む可視化データを生成してもよい。具体的には、図8に一例を示すような表示画面W1を表示させる可視化データを生成する。図8に示す一例の表示画面W1は、積算尤度の変化を表すグラフを表示する表示部B11と、表示部B11で表示するグラフから得られた時系列変化を表示する表示部B12とを含む。図8に示す表示画面W1により、利用者22は、発話者20の話が、「間取り」、「ファイナンス」、「その他」、「XYZホーム」、「ファイナンス」の順で変化したことが一見にして分かる。
[1-2.動作]
 図9及び図10に示すフローチャートを用いて、発話解析装置1における発話データの発話解析処理について説明する。図9に示すように、発話解析装置1では、例えば、発話者20が発話をするタイミングで、取得部111は、入力部13であるマイクロフォンを介して、発話データを取得し、時系列に付与される番号とともに発話データ121として記憶部12に記憶させる(S1)。
 また、演算部112は、ステップS1で記憶された各発話データ121について、カテゴリ毎にカテゴリ尤度を演算し、発話データ121に関連付けて記憶部12に記憶させる(S2)。
 その後、演算部112は、ステップS2で演算された各尤度を用いて、各発話データ121に含まれるカテゴリ尤度を用いて、話題のカテゴリを解析する解析処理を実行する(S3)。
 ステップS3の解析処理における具体的な処理の流れを図10に示すフローチャートを用いて説明する。図10に示すように、解析処理では、演算部112は、処理対象のカテゴリを選択する(S11)。例えば、「XYZホーム」、「間取り」、「ファイナンス」及び「その他」のそれぞれのカテゴリについて順に選択し、各カテゴリについて以降の処理を繰り返す。
 まず、演算部112は、ステップS11で選択されたカテゴリについて、積算尤度を算出対象である対象範囲を特定するため、iの値を0に初期化する(S12)。iは、発話データ121に付された番号を特定する値であり、iを初期化することで、選択されたカテゴリについて、発話データ121の0番目から順に対象範囲が設定される。また、以下では、対象範囲に含まれる発話データ121の数を「q」とする。
 また、演算部112は、Lc(-1)の値を0に設定する(S13)。Lc(i)は、S11で選択されたカテゴリについて、i番の発話データ121から求められた尤度であり、「-1」番の発話データ121は存在しないため、Lc(-1)も存在しないが、ステップS17の処理で使用する可能性があるため、ここで「0」に設定する。
 次に、演算部112は、iの値に応じて、積算尤度を演算するための対象範囲を設定する(S14)。このとき、演算部112は、番号「i」の発話データ121から順に、対象範囲内で新たな「1」からの番号「j」を設定する。図4で上述したように、50の発話データ121を時間窓T2とする例では、「j」は、1~50までの番号を利用することになる。この場合、対象範囲の数qは、「50」である。
 具体的には、図4で上述した例で、iが「0」であるとき、0番の発話データ121を所定時tとし積算尤度を演算するため、演算部112は、0番の発話データ121を対象範囲とする。この場合、jについては、iが「0」の発話データ121についてjは「1」となる。また、対象範囲の数qは、「1」である。
 また、図4で上述したように、iが「89」であるとき、演算部112は、40~89番の発話データ121を対象範囲とする。この場合、jについては、iの「40」がjの「1」となり、iの「89」がjの「50」となるように、それぞれ設定される。
 さらに、図7で上述したように期間t1が、時間窓T2に満たない場合(t1<T2の場合)、仮に、iが「39」であるとき、39番の発話データ121を所定時tとして積算尤度を演算するため、演算部112は、0~39番の発話データ121を対象範囲とする。この場合も、jについては、iの「0」がjの「1」となる。また、対象範囲の数qは、「40」である。
 その後、演算部112は、ステップS14で設定された対象範囲について、積算尤度を算出するため、jの値を1に初期化し、一時積算尤度Scの値を0に初期化する(S15)。jは、上述したように、対象範囲の中で発話データ121を特定する値である。jを初期化することで、対象範囲に含まれる各発話データ121の尤度Lc(j)を加算して、積算尤度Lc2(i)を求めることができる。また、一時積算尤度Scは、対象範囲で積算尤度Lc2(i)を求める計算経過において利用する値である。
 続いて、演算部112は、ステップS14で設定された対象範囲の各発話データ121のカテゴリ尤度Lcから、最尤推定で決定されるカテゴリは「その他」であるか否かを判定する(S16)。具体的には、演算部112は、この対象範囲の各カテゴリのカテゴリ尤度のうち、値の最も高いカテゴリは「その他」であるか否かを判定する。
 最尤推定で決定されるカテゴリが「その他」であるとき(S16でYES)、演算部112は、選択されたカテゴリに関し、番号「i-1」の発話データ121で管理される対象範囲の積算尤度Lc2(i-1)を、番号「i」の発話データ121で管理される対象範囲の積算尤度Lc2(i)に採用する(S17)。なお、仮に、iが「0」であるとき、ステップS13でL(-1)に設定した「0」を用いる。
 一方、最尤推定で決定されるカテゴリが「その他」でないとき(S16でNO)、演算部112は、一時積算尤度Scに、番号「j」の発話データ121のカテゴリ尤度Lc(j)を鮮度重み値w1で重みづけした値(Lc(j)×w1)を加算し、得られた値を、新たな一時積算尤度Scとする(S18)。例えば、鮮度重み値w1は、j/qで計算してもよい。
 新たな一時積算尤度Scを求めると、演算部112は、jの値をインクリメントする(S19)。その後、演算部112は、j≦qであるか否か判定する(S20)。
 j≦qであるとき(S20でYES)、対象範囲に含まれる全ての発話データ121について処理が終了していないため、演算部112は、ステップS18の処理に戻り、ステップS18~S20の処理を繰り返す。
 一方、j≦qでないとき(S20でNO)、対象範囲に含まれる全ての発話データ121について処理が終了したため、演算部112は、対象範囲において対象のカテゴリの最尤話題カテゴリ頻度Ncを求める(S21)。ここで、最尤話題カテゴリ頻度Ncとは、対象範囲の各発話データ121において、ステップS11で処理の対象として選択されたカテゴリの尤度が最も高い値となった回数である。例えば、「間取り」に関し処理がされているとき、対象範囲の中で、カテゴリ尤度Lc(j)が最も高くなった発話データ121の数が「20」であるとき、最尤話題カテゴリ頻度Ncは「20」となる。
 その後、演算部112は、一時積算尤度Scを、頻度重み値w2で重みづけした値(Sc×w2)を、対象範囲の積算尤度Lc2(i)とする(S22)。例えば、頻度重み値w2は、Nc/qで計算してもよい。
 演算部112は、積算尤度L2c(i)を求めると、正規化により、対象範囲に関する選択されたカテゴリの確率Pc(i)を求める(S23)。
 確率Pc(i)が得られると、演算部112は、iの値をインクリメントする(S24)。これにより、iの値が、次の対象範囲を特定するための値に設定される。
 続いて、演算部112は、終了タイミングであるか否かを判定する(S25)。終了するタイミングとは、全ての範囲について処理がされた場合であって、例えば、図4に示すカテゴリ尤度の例では、一連の発話データ121について、時系列で最後の番号「276」の発話データ121についてまで、処理が終了した場合である。
 終了タイミングでないとき(S25でNO)、発話期間T1の全ての発話データ121について処理が終了していないため、演算部112は、ステップS14の処理に戻り、ステップS14~S25の処理を繰り返す。
 一方、終了タイミングであるとき(S25でNO)、発話期間T1の全ての発話データ121について処理が終了したため、全てのカテゴリについて、ステップS12~S25の処理が終了したか否かを判定する(S26)。
 全てのカテゴリについて処理が終了していない場合(S26でNO)、演算部112は、ステップS11に戻り、他のカテゴリを選択し、全てのカテゴリについて終了するまで、ステップS11~S25の処理を繰り返す。例えば、「XYZホーム」のカテゴリが終了すると、「間取り」を選択し、その後「ファイナンス」を選択し、最後に「その他」を選択して同様の処理を繰り返す。
 また、全てのカテゴリについてステップS11~S25の処理が終了した場合(S26でYES)、演算部112は、ステップS14で設定された全ての対象範囲について、積算尤度Lc2(i)を用いて最尤推定によって話題のカテゴリを特定する(S27)。また、カテゴリが特定されると(S27)、演算部112は、各カテゴリの積算尤度Lc2や確率Pc(i)が算出できたため、解析処理(図9のステップS3)を終了する。
 図9に示すように、生成部113は、ステップS3の処理において各カテゴリについて、可視化データを生成する(S4)。
 また、表示処理部114は、ステップS4で生成された可視化データを、ディスプレイ等の出力部14に出力する(S5)。
[1-3.効果等]
 発話解析装置1では、このように、発話者20の発話を可視化させることができる。これにより、発話者20の発話についての評価を容易に実現することができる。また、別の発話者は、容易に、他人である発話者20の発話を参考にすることが可能となる。
 以上のように、本出願において開示する技術の例示として、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。
(他の実施形態)
 上述の実施形態では、取得部111は、発話者20が発話をするタイミングで、発話データを取得する一例で説明したが、これに限定されない。例えば、取得部111は、ICレコーダー等の外部の音声データを録音装置から、発話者20の発話のタイミングで録音済みの発話データを、その後のタイミングで取得し、使用してもよい。また、取得部111は、チャットのようにテキスト文章で入力された発話文を取得し、使用してもよい。
 上述の実施形態では、発話解析装置1内の演算部112において、「カテゴリ尤度」を演算する一例で説明したが、これに限定されない。具体的には、発話解析装置1は、外部の演算装置で演算されたカテゴリ尤度を取得し、利用してもよい。
 発話解析装置1は、利用者22によって指定された期間を受け付ける受付部を備えてもよい。この場合、例えば、演算部112は、受付部として入力部13又は通信部15を介して期間を受け付け、利用者22によって指定された期間を時間窓T2として積算尤度を演算することができる。具体的には、発話者20又は発話者20の発話を解析等する第三者である利用者22が、対象とする発話に応じて自由に時間窓T2を設定可能にしてもよい。発話において、あるカテゴリの話題が長く続く場合、時間窓T2として設定する期間の長さによっては、話題の変化が検出しにくくなる。したがって、このように、適切な時間窓T2を設定することで、話題の変化の検出精度を向上させることができる。
 上述の実施形態では、図10に示すように、先にステップS11で対象のカテゴリを選択し、選択されたカテゴリ毎にステップS14で対象範囲を設定し、順に設定される各対象範囲の積算尤度を求める方法を説明したがこれに限定されない。具体的には、結果的に各範囲について全てのカテゴリの積算尤度を求めることができればよい。例えば、図11に示すように、先にステップS14で対象範囲を設定し、この対象範囲の中で、ステップS111で順にカテゴリを選択し、各カテゴリの積算尤度を求める方法でもよい。この場合、図11に示すように、演算部112は、ステップS23でPc(i)が求められると、全てのカテゴリについてステップS15~S23の処理が終了したか否かを判定する(S127)。
 生成部113は、記憶部12に記憶される複数の発話者20の発話データ121を用いて、第1の発話者20の発話データ121から生成された可視化データと、第1の発話者20とは別の第2の発話者の発話データ121から生成された可視化データとを比較した比較データを生成してもよい。図12は、第1の発話者20の発話データ121の可視化データを表示する表示部B21と、第2の発話者の発話データ121の可視化データを表示する表示部B22とを含む表示画面W2の一例である。図12に示すように、二人分の可視化データが比較可能に表示画面W2で表示されるため、二人分の長時間の発話データを音声で確認したり、スクリプト化されたデータで確認したりすることなく、利用者22は、各発話者の話題を一見にして比較できる。例えば、二人分の可視化データを並列表示することにより、利用者22は、どのような説明の方法、具体的には、話の流れが効果的であるかを比較しやすくすることができる。このとき、図13に示すように、生成部113は、分析結果を表示する表示部B23を含む表示画面W3を表示させる可視化データを生成してもよい。
 生成部113は、発話データのうち、所定の言い回し等のテキストを含む可視化データを生成してもよい。図14は、発話者の発話データ121から得られた積算尤度の変化を表すグラフを表示する表示部B41と、「間取り」のカテゴリの話題から抽出された言い回しが表示される表示部B42と、「ファイナンス」のカテゴリの話題から抽出された言い回しが表示される表示部B43とを含む表示画面W5の一例である。例えば、表示部B42や表示部B43に含まれる言い回しのテキストデータは、音声データや音声データがテキスト化されたデータから、当該カテゴリの中で他の発話データと比較して尤度の高い発話データ又は所定値よりも尤度の高い発話データや、特定の単語が含まれる文章を抽出することで生成される。図14に示すように、表示画面では、複数の言い回しが表示されるため、例えば、利用者22は、他者である発話者20の可視化データを参考にし、その発話者20が使用する言い回しを、自身が今後使用する言い回しを検討することができる。例えば、説明の仕方が分からない事柄について、他者である発話者20の言い回しを真似することで、顧客21に分かり易く説明することができるようになる。
 生成部113は、発話データ121がテキスト化されたデータを、当該発話データ121から得られた尤度の降順で並べ、尤度の高いもののうち所定数(例えば、10)を含む可視化データを生成してもよい。図15は、発話者20の発話データ121から得られた積算尤度の変化を表すグラフを表示する表示部B51と、あるカテゴリに関する尤度の高い順で発話データ121のテキストを表示する表示部B62と、各テキストの尤度を表示する表示部B53とを含む表示画面W5の一例である。表示部B52で表示するテキスト及び表示部B53で表示する尤度は、利用者が表示を希望するカテゴリの選択を切り替えることで、変更される。したがって、利用者は、希望のカテゴリについて、尤度の高い発話データ121を確認することができる。ここで、生成部113は、予めキーワードとして設定される単語について、他の文字とフォント、文字サイズ、色等を変えることで、強調して表示されるような可視化データを生成してもよい。これにより、利用者22は、他者である発話者20の言い回しを真似することで、顧客に分かり易く説明することができるようになる。
《実施形態の概要》
(1)本開示の発話解析装置は、第1期間における発話者の発話の変化を可視化する発話解析装置であって、発話者の発話データを時系列の順番で取得する取得部と、取得部で取得した発話データが各カテゴリに該当する可能性を特定する値である複数の第1の尤度を用いて、発話の変化を解析する演算部と、演算部で得られた発話の変化を可視化した可視化データを表示させる表示処理部とを備え、演算部は、第1期間より短い第2期間における複数の発話データの第1の尤度を積算して第2の尤度をカテゴリ毎に求め、表示処理部により表示される可視化データは、異なる複数の第2期間における各カテゴリの第2の尤度の変化により発話の変化を表す。
 これにより、発話者の発話の話題の推移が可視化させることができる。したがって、利用者は、可視化された情報を用いて、発話者の発話を評価したり、発話者の発話を自身の今後の発話の参考にすることができる。
(2)(1)の演算部は、所定時の直前の第2期間に取得された複数の発話データの第1の尤度を積算して求めた各カテゴリの第2の尤度により、当該所定時のカテゴリを特定し、時系列において連続的に得られる複数の所定時のカテゴリをそれぞれ特定し、表示処理部に表示させる可視化データは、時系列における複数の所定時のカテゴリ間の変化を、話題の変化として可視化したデータであってもよい。
 これにより、短期の発話データではなく、その前の所定期間の発話データを考慮することが可能となり、話題の推移を緩やかな変化として表すことができる。
(3)(2)又は(2)の演算部は、カテゴリ毎に、第2期間に含まれる発話データから得られた第1の尤度を積算して第2の尤度を求め、得られた各カテゴリの第2の尤度のうち、値が最も大きいカテゴリを第2期間の話題のカテゴリとして特定してもよい。
 これにより、短期の発話データではなく、その前の所定期間の発話データを考慮することが可能となり、話題の推移を緩やかな変化として表すことができる。
(4)(3)の演算部は、第2期間に出現する頻度が高い程、大きな値に設定される第1の重み値を用いて、第2の尤度を求めてもよい。
 これにより、所定期間内での頻度を考慮してカテゴリを特定することが可能となり、一連の発話データのカテゴリ尤度の変化を考慮することが可能となり、適切な変化を表すことができる。
(5)(3)又は(4)の演算部は、所定時に近い程、大きな値に設定される第2の重み値を用いて、前記第2の尤度を求めてもよい。
 これにより、所定期間内での鮮度を考慮してカテゴリを特定することが可能となり、一連の発話データのカテゴリ尤度の変化を考慮することが可能となり、適切な変化を表すことができる。
(6)(2)~(5)の発話解析装置は、第1期間の開始から所定時までの期間が、第2期間に満たない場合、演算部は、第1期間の開始から当該所定時までの期間の発話データを用いて前記第2の尤度を演算してもよい。
 これにより、発話の開始から所定の間の話題の特定については、発話データが不足する場合であっても、ある程度長い期間の発話データを使用することが可能となり、適切な変化を表すことができる。
(7)(1)~(6)の発話解析装置は、ユーザから指定された期間を受け付ける受付部を備え、演算部は、受付部が受け付けた期間を第2期間として第2の尤度を求めてもよい。
 これにより、ユーザが第2期間を設定可能となるため、ユーザにとって最適な情報を提供することができる。
(8)(1)~(7)の表示処理部が表示させる可視化データは、各カテゴリの第2の尤度が時系列で表わされたグラフを含んでもよい。
 これにより、話題の遷移が把握しやすく表示され、利用者に話題の遷移を容易に把握させることができる。
(9)(1)~(7)の表示処理部が表示させる可視化データは、発話データに含まれる発話のテキストデータを含んでもよい。
 これにより、利用者に、話題の遷移とともに、発話の話題を把握させることができる。
(10)(1)~(7)の表示処理部が表示させる前記可視化データは、第1の発話者の発話データから生成された可視化データと、第2の発話者の発話データから生成された可視化データとを比較した比較データでもよい。
 これにより、利用者に、複数の発話者の発話の話題を比較しやすくさせることができる。
(11)(1)~(10)の演算部は、前記発話データ毎に、各カテゴリに関する第1の尤度を演算してもよい。
 これにより、発話解析装置内で第1の尤度を算出することができるため、ネットワークの負荷に依存せずに処理することができる。
(12)本開示の可視化方法は、第1期間における発話者の発話の変化を可視化する発話解析方法であって、取得部が、発話者の発話データを時系列の順番で取得するステップと、演算部が 取得した発話データが各カテゴリに該当する可能性を特定する値である複数の第1の尤度を用いて、発話の変化を解析するステップと、表示処理部が、得られた発話の変化を可視化した可視化データを表示させるステップとを含み、演算部は、第1期間より短い第2期間における複数の発話データの第1の尤度を積算して第2の尤度をカテゴリ毎に求め、表示処理部により表示される前記可視化データは、異なる複数の第2期間における各カテゴリの第2の尤度の変化により発話の変化を表す発話解析方法。
 これにより、発話者の発話の話題の推移が可視化させることができる。したがって、利用者は、可視化された情報を用いて、発話者の発話を評価したり、発話者の発話を自身の今後の発話の参考にすることができる。
(13)本開示のプログラムは、コンピュータに、(12)の方法を実現させる。
 これにより、発話者の発話の話題の推移が可視化させることができる。したがって、利用者は、可視化された情報を用いて、発話者の発話を評価したり、発話者の発話を自身の今後の発話の参考にすることができる。
 本開示の全請求項に記載の発話解析装置、発話解析方法及びプログラムは、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。
 本開示の発話解析装置、可視化方法及びプログラムは、例えば、会話することにより営業に従事する者、何らかの講義を行う講師、コールセンター等で質問に対して回答する回答者等の発話者によって、ある期間、発話がされた場合に、その発話を評価したり、他者がその発話の話題を参考にしたりする場合に有用である。
1 発話解析装置
11 制御部
111 取得部
112 演算部
113 生成部
114 表示処理部
12 記憶部
121 発話データ
122 変化データ

Claims (13)

  1.  第1期間における発話者の発話の変化を可視化する発話解析装置であって、
     前記発話者の発話データを時系列の順番で取得する取得部と、
     前記取得部で取得した発話データが各カテゴリに該当する可能性を特定する値である複数の第1の尤度を用いて、発話の変化を解析する演算部と、
     前記演算部で得られた発話の変化を可視化した可視化データを表示させる表示処理部とを備え、
     前記演算部は、前記第1期間より短い第2期間における複数の発話データの第1の尤度を積算して第2の尤度をカテゴリ毎に求め、
     前記表示処理部により表示される前記可視化データは、異なる複数の第2期間における各カテゴリの第2の尤度の変化により発話の変化を表す
     発話解析装置。
  2.  前記演算部は、
     所定時の直前の第2期間に取得された複数の発話データの第1の尤度を積算して求めた各カテゴリの第2の尤度により、当該所定時のカテゴリを特定し、
     前記時系列において連続的に得られる複数の所定時のカテゴリをそれぞれ特定し、
     前記表示処理部に表示させる可視化データは、前記時系列における複数の所定時のカテゴリ間の変化を、話題の変化として可視化したデータである
     請求項1に記載の発話解析装置。
  3.  前記演算部は、
     カテゴリ毎に、前記第2期間に含まれる発話データから得られた第1の尤度を積算して第2の尤度を求め、
     得られた各カテゴリの第2の尤度のうち、値が最も大きいカテゴリを当該第2期間の話題のカテゴリとして特定する
     請求項2に記載の発話解析装置。
  4.  前記演算部は、前記第2期間に出現する頻度が高い程、大きな値に設定される第1の重み値を用いて、前記第2の尤度を求める
     請求項3に記載の発話解析装置。
  5.  前記演算部は、前記所定時に近い程、大きな値に設定される第2の重み値を用いて、前記第2の尤度を求める
     請求項3又は4に記載の発話解析装置。
  6.  前記第1期間の開始から前記所定時までの期間が、前記第2期間に満たない場合、
     前記演算部は、前記第1期間の開始から当該所定時までの期間の発話データを用いて前記第2の尤度を演算する
     請求項2に記載の発話解析装置。
  7.  ユーザから指定された期間を受け付ける受付部を備え、
     前記演算部は、前記受付部が受け付けた期間を第2期間として第2の尤度を求める
     請求項1乃至6のいずれか1に記載の発話解析装置。
  8.  前記表示処理部が表示させる前記可視化データは、各カテゴリの第2の尤度が時系列で表わされたグラフを含む
     請求項1乃至7のいずれか1に記載の発話解析装置。
  9.  前記表示処理部が表示させる前記可視化データは、前記発話データに含まれる発話のテキストデータを含む
     請求項1乃至7のいずれか1に記載の発話解析装置。
  10.  前記表示処理部が表示させる前記可視化データは、第1の発話者の発話データから生成された可視化データと、第2の発話者の発話データから生成された可視化データとを比較した比較データである
     請求項1乃至7のいずれか1に記載の発話解析装置。
  11.  前記演算部は、前記発話データ毎に、各カテゴリに関する第1の尤度を演算する
     請求項1乃至10のいずれか1に記載の発話解析装置。
  12.  第1期間における発話者の発話の変化を可視化する発話解析方法であって、
     取得部が、発話者の発話データを時系列の順番で取得するステップと、
     演算部が、取得した発話データが各カテゴリに該当する可能性を特定する値である複数の第1の尤度を用いて、発話の変化を解析するステップと、
     表示処理部が、得られた発話の変化を可視化した可視化データを表示させるステップとを含み、
     前記演算部は、前記第1期間より短い第2期間における複数の発話データの第1の尤度を積算して第2の尤度をカテゴリ毎に求め、
     前記表示処理部により表示される前記可視化データは、異なる複数の第2期間における各カテゴリの第2の尤度の変化により発話の変化を表す
     発話解析方法。
  13.  コンピュータに、請求項12の方法を実現させるプログラム。
PCT/JP2020/021809 2019-07-04 2020-06-02 発話解析装置、発話解析方法及びプログラム WO2021002136A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202080048836.2A CN114072786A (zh) 2019-07-04 2020-06-02 说话解析装置、说话解析方法以及程序
JP2021529929A JPWO2021002136A1 (ja) 2019-07-04 2020-06-02
US17/559,033 US20220114348A1 (en) 2019-07-04 2021-12-22 Utterance analysis device, utterance analysis method, and computer program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2019-125454 2019-07-04
JP2019125454 2019-07-04
JP2019-134559 2019-07-22
JP2019134559 2019-07-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/559,033 Continuation US20220114348A1 (en) 2019-07-04 2021-12-22 Utterance analysis device, utterance analysis method, and computer program

Publications (1)

Publication Number Publication Date
WO2021002136A1 true WO2021002136A1 (ja) 2021-01-07

Family

ID=74100168

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2020/021809 WO2021002136A1 (ja) 2019-07-04 2020-06-02 発話解析装置、発話解析方法及びプログラム
PCT/JP2020/021811 WO2021002137A1 (ja) 2019-07-04 2020-06-02 発話解析装置、発話解析方法及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/021811 WO2021002137A1 (ja) 2019-07-04 2020-06-02 発話解析装置、発話解析方法及びプログラム

Country Status (4)

Country Link
US (2) US20220108697A1 (ja)
JP (2) JP7407190B2 (ja)
CN (2) CN114026557A (ja)
WO (2) WO2021002136A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022162957A1 (ja) * 2021-02-01 2022-08-04 オムロン株式会社 情報処理装置、制御システムおよびレポート出力方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114341822B (zh) * 2019-09-02 2022-12-02 艾梅崔克斯持株公司株式会社 文章解析系统及使用其的消息交换的特征评价系统
US11893990B2 (en) * 2021-09-27 2024-02-06 Sap Se Audio file annotation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009084554A1 (ja) * 2007-12-27 2009-07-09 Nec Corporation テキスト分割装置とテキスト分割方法およびプログラム
JP2011123706A (ja) * 2009-12-11 2011-06-23 Advanced Media Inc 文章分類装置および文章分類方法
JP2017016566A (ja) * 2015-07-06 2017-01-19 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
WO2018110029A1 (ja) * 2016-12-13 2018-06-21 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
JP2011221873A (ja) * 2010-04-12 2011-11-04 Nippon Telegr & Teleph Corp <Ntt> データ分類方法及び装置及びプログラム
JP5774459B2 (ja) 2011-12-08 2015-09-09 株式会社野村総合研究所 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
US8612211B1 (en) * 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
WO2016027364A1 (ja) 2014-08-22 2016-02-25 株式会社日立製作所 話題クラスタ選択装置、及び検索方法
CN107211061B (zh) * 2015-02-03 2020-03-31 杜比实验室特许公司 用于空间会议回放的优化虚拟场景布局
JP2018194980A (ja) 2017-05-15 2018-12-06 富士通株式会社 判定プログラム、判定方法および判定装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009084554A1 (ja) * 2007-12-27 2009-07-09 Nec Corporation テキスト分割装置とテキスト分割方法およびプログラム
JP2011123706A (ja) * 2009-12-11 2011-06-23 Advanced Media Inc 文章分類装置および文章分類方法
JP2017016566A (ja) * 2015-07-06 2017-01-19 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
WO2018110029A1 (ja) * 2016-12-13 2018-06-21 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022162957A1 (ja) * 2021-02-01 2022-08-04 オムロン株式会社 情報処理装置、制御システムおよびレポート出力方法

Also Published As

Publication number Publication date
CN114026557A (zh) 2022-02-08
US20220108697A1 (en) 2022-04-07
US20220114348A1 (en) 2022-04-14
JP7407190B2 (ja) 2023-12-28
JPWO2021002136A1 (ja) 2021-01-07
WO2021002137A1 (ja) 2021-01-07
CN114072786A (zh) 2022-02-18
JPWO2021002137A1 (ja) 2021-01-07

Similar Documents

Publication Publication Date Title
WO2021002136A1 (ja) 発話解析装置、発話解析方法及びプログラム
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
JP6815899B2 (ja) 出力文生成装置、出力文生成方法および出力文生成プログラム
US20190385628A1 (en) Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
Anderson et al. Recognition of elderly speech and voice-driven document retrieval
RU2720359C1 (ru) Способ и оборудование распознавания эмоций в речи
CN109313892A (zh) 稳健的语言识别方法和系统
Möller et al. Predicting the quality and usability of spoken dialogue services
US20200013389A1 (en) Word extraction device, related conference extraction system, and word extraction method
WO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
US11183180B2 (en) Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise
Yin et al. Automatic cognitive load detection from speech features
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
EP3739583A1 (en) Dialog device, dialog method, and dialog computer program
CN109616098A (zh) 基于频域能量的语音端点检测方法和装置
Adi et al. Sequence segmentation using joint RNN and structured prediction models
JP2007219286A (ja) 音声のスタイル検出装置、その方法およびそのプログラム
JP2021124530A (ja) 情報処理装置、情報処理方法及びプログラム
McTear et al. Evaluating the conversational interface
CN112017668B (zh) 一种基于实时情感检测的智能语音对话方法、装置和系统
CN113593523A (zh) 基于人工智能的语音检测方法、装置及电子设备
CN112002346A (zh) 基于语音的性别年龄识别方法、装置、设备和存储介质
WO2022254829A1 (ja) 学習装置、学習方法及び学習プログラム
US11889168B1 (en) Systems and methods for generating a video summary of a virtual event

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20835247

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021529929

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20835247

Country of ref document: EP

Kind code of ref document: A1