WO2024018598A1 - 情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2024018598A1
WO2024018598A1 PCT/JP2022/028380 JP2022028380W WO2024018598A1 WO 2024018598 A1 WO2024018598 A1 WO 2024018598A1 JP 2022028380 W JP2022028380 W JP 2022028380W WO 2024018598 A1 WO2024018598 A1 WO 2024018598A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice recognition
text
voice
dictionary
speech recognition
Prior art date
Application number
PCT/JP2022/028380
Other languages
English (en)
French (fr)
Inventor
采夏 呉
浩 横井
歩相名 神山
Original Assignee
Nttテクノクロス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nttテクノクロス株式会社 filed Critical Nttテクノクロス株式会社
Priority to PCT/JP2022/028380 priority Critical patent/WO2024018598A1/ja
Publication of WO2024018598A1 publication Critical patent/WO2024018598A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present disclosure relates to an information processing system, an information processing method, and a program.
  • Speech recognition technology generally uses a speech recognition dictionary in which the spelling, pronunciation, arrangement, etc. of words are registered.
  • speech recognition dictionaries There are various types of such speech recognition dictionaries depending on the purpose of speech recognition, language, etc. For example, there are dictionaries for general purposes, dictionaries that contain a large number of specialized terms related to specific tasks, dictionaries specialized for specific languages, dictionaries specialized for specific dialects, and the like.
  • Non-Patent Document 1 In contact centers (also called call centers), a voice recognition system that implements the voice recognition technology described above converts voice during a call into text in real time, and presents the text to an operator. (For example, Non-Patent Document 1).
  • voice recognition is performed using a voice recognition dictionary preset for the operator (for example, a general-purpose voice recognition dictionary set as the default), and as a result, voice recognition results with sufficient accuracy are obtained. There were cases where it was not possible to obtain a voice recognition dictionary preset for the operator (for example, a general-purpose voice recognition dictionary set as the default), and as a result, voice recognition results with sufficient accuracy are obtained. There were cases where it was not possible to obtain a voice recognition dictionary preset for the operator (for example, a general-purpose voice recognition dictionary set as the default), and as a result, voice recognition results with sufficient accuracy are obtained. There were cases where it was not possible to obtain
  • the present disclosure has been made in view of the above points, and aims to provide a technology that can obtain highly accurate speech recognition results.
  • An information processing system includes a selection unit configured to select a speech recognition dictionary used for speech recognition from a plurality of speech recognition dictionaries, and a speech recognition dictionary selected by the selection unit.
  • a voice recognition unit configured to generate a voice recognition text in which utterances included in a voice call with a customer are converted into text by the voice recognition using a dictionary, the voice recognition unit , when the speech recognition dictionary selected by the selection unit is changed, the speech recognition dictionary after the change is used to process the utterances before the change among the utterances included in the voice call by the voice recognition.
  • the system is configured to generate voice recognition text that has been converted into text.
  • a technology that can obtain highly accurate speech recognition results is provided.
  • FIG. 1 is a diagram showing an example of the overall configuration of a contact center system according to the present embodiment.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of a contact center system according to an embodiment. It is a sequence diagram showing an example of reception support processing concerning this embodiment.
  • FIG. 2 is a diagram (part 1) for explaining an example of voice recognition.
  • FIG. 2 is a diagram (part 2) for explaining an example of speech recognition.
  • FIG. 3 is a diagram (part 3) for explaining an example of voice recognition.
  • FIG. 4 is a diagram (part 4) for explaining an example of speech recognition.
  • FIG. 5 is a diagram (part 5) for explaining an example of speech recognition.
  • FIG. 3 is a diagram (part 1) for explaining an example of a reception support screen.
  • FIG. 2 is a diagram (part 2) for explaining an example of a reception support screen.
  • the target is a contact center
  • a dictionary can be automatically or manually selected from a plurality of voice recognition dictionaries
  • accurate voice recognition for the voice of a call between an operator and a customer will be described.
  • a contact center system 1 that can obtain results will be described.
  • a contact center is just one example, and for example, in an office, etc., where it is possible to automatically or manually select a dictionary from multiple voice recognition dictionaries, the voice of a call between a representative and a customer The method can be similarly applied to obtain highly accurate speech recognition results.
  • FIG. 1 shows an example of the overall configuration of a contact center system 1 according to this embodiment.
  • the contact center system 1 includes a voice recognition system 10, a plurality of user terminals 20, a plurality of telephones 30, a PBX (Private Branch eXchange) 40, and a NW switch 50. and a customer terminal 60.
  • the voice recognition system 10, user terminal 20, telephone 30, PBX 40, and NW switch 50 are installed in a contact center environment E, which is a system environment of a contact center.
  • the contact center environment E is not limited to a system environment within the same building, but may be a system environment within a plurality of geographically separated buildings, for example.
  • the voice recognition system 10 uses the packets (voice packets) sent from the NW switch 50 to record the voice of the call between the operator and the customer as a voice file. Note that the voice recognition system 10 may passively acquire voice packets transmitted from the NW switch 50, or actively acquire voice data by requesting voice data from the PBX 40 via the NW switch 50. may be obtained.
  • the speech recognition system 10 performs speech recognition on this audio file and generates text (hereinafter also referred to as speech recognition text) representing the speech recognition result.
  • speech recognition text text representing the speech recognition result.
  • the speech recognition system 10 uses the changed speech recognition dictionary to perform speech recognition again on the already speech-recognized speech file (that is, the speech recognition dictionary before the change is changed). Speech recognition is performed using a speech recognition dictionary, including speech that has already been recognized).
  • the speech recognition system 10 is realized by, for example, a general-purpose server or a group of servers.
  • the user terminal 20 is a terminal such as a PC (personal computer) used by a user (operator or supervisor).
  • a user used by a user (operator or supervisor).
  • operators are mainly assumed as users, but some users may also be supervisors.
  • the operator is a person whose main job is answering the telephone with customers.
  • a supervisor is a person who monitors calls by an operator and supports the operator's telephone answering work when a problem is likely to occur or in response to a request from the operator. Normally, calls of several to more than ten operators are generally monitored by one supervisor.
  • a reception support screen is displayed on the user terminal 20, in which the voice recognition results (voice recognition text) during a call with a customer are visualized in real time.
  • the operator can also check the content of the call with the customer as text.
  • the telephone 30 is an IP (Internet Protocol) telephone (such as a fixed IP telephone or a mobile IP telephone) used by an operator.
  • IP Internet Protocol
  • the PBX 40 is a telephone exchange (IP-PBX) and is connected to a communication network 70 including a VoIP (Voice over Internet Protocol) network and a PSTN (Public Switched Telephone Network).
  • IP-PBX telephone exchange
  • VoIP Voice over Internet Protocol
  • PSTN Public Switched Telephone Network
  • the NW switch 50 relays packets between the telephone 30 and the PBX 40, and also captures and transmits the packets to the voice recognition system 10.
  • the customer terminal 60 is a variety of terminals used by the customer, such as a smartphone, a mobile phone, or a landline phone.
  • the overall configuration of the contact center system 1 shown in FIG. 1 is an example, and other configurations may be used.
  • the voice recognition system 10 is included in the contact center environment E (that is, the voice recognition system 10 is an on-premises type), but all or part of the functions of the voice recognition system 10 are may be realized by a cloud service or the like.
  • the PBX 40 is an on-premise telephone exchange, but it may also be implemented using a cloud service.
  • the telephone 30 may not be included in the contact center system 1.
  • FIG. 2 shows an example of the functional configuration of the voice recognition system 10 and user terminal 20 included in the contact center system 1 according to this embodiment.
  • the speech recognition system 10 includes a speech recording section 101, a dictionary selection section 102, a speech recognition section 103, and a UI providing section 104. Each of these units is realized, for example, by one or more programs installed in the speech recognition system 10 causing a processor such as a CPU (Central Processing Unit) to execute the process.
  • the speech recognition system 10 also includes a speech storage section 105, a dictionary storage section 106, and a call history storage section 107.
  • Each of these units can be realized by, for example, a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a flash memory. However, at least some of the storage areas of these units may be realized by, for example, a storage device (such as a database server) that is communicably connected to the speech recognition system 10.
  • a storage device such as a database server
  • the audio recording unit 101 stores the audio data represented by the packet (audio packet) transmitted from the NW switch 50 in the audio storage unit 105 as an audio file.
  • the dictionary selection unit 102 selects a speech recognition dictionary 500 to be used for speech recognition from among the plurality of speech recognition dictionaries 500 stored in the dictionary storage unit 106.
  • the speech recognition dictionary 500 is dictionary information in which, for example, the notation of words, their pronunciations, the arrangement of words, etc. are registered. Examples of the speech recognition dictionary 500 include speech recognition dictionaries for general purposes, speech recognition dictionaries specialized for specific business (e.g., finance, insurance, information and communications, etc.), and speech recognition dictionaries for specific languages (e.g., Japanese, English, etc.).
  • speech recognition dictionary 500 selected by the dictionary selection unit 102 will also be referred to as the "selected dictionary 500.”
  • the speech recognition section 103 performs speech recognition on the speech file stored in the speech storage section 105 using the currently selected dictionary 500 selected by the dictionary selection section 102, and generates speech recognition as the speech recognition result. Generate text. At this time, the speech recognition unit 103 performs speech recognition of the speech for each speaker (operator, customer) and generates speech recognition text with speaker information and time information.
  • the speech recognition text of a certain sentence is expressed, for example, in a format such as (speaker information, time information, speech recognition text).
  • Such speech recognition text with speaker information and time information can be generated using known speech recognition technology.
  • speaker information is information indicating the speaker (operator or customer) who uttered the voice corresponding to the voice recognition text
  • time information is information indicating the time (date and time) when the voice corresponding to the voice recognition text was uttered. ).
  • the voice recognition text is given speaker information and time information, and is expressed in the format (speaker information, time information, voice recognition text), for example.
  • the speech recognition unit 103 performs speech recognition again on the already speech-recognized audio file using the changed selected dictionary 500.
  • the voice recognition unit 103 stores call history information including voice recognition text related to the call in the call history storage unit 107.
  • the UI providing unit 104 provides screen information of a reception support screen on which the voice recognition text generated by the voice recognition unit 103 is visualized.
  • the screen information is represented by information such as HTML (Hypertext Markup Language), CSS (Cascading Style Sheets), JavaScript, and the like.
  • the audio storage unit 105 stores the audio file of the audio represented by the packet (audio packet) transmitted from the NW switch 50.
  • the dictionary storage unit 106 stores a plurality of speech recognition dictionaries 500. It is assumed that among these plurality of speech recognition dictionaries 500, there is a speech recognition dictionary 500 (hereinafter referred to as "default dictionary 500") selected as a default (standard).
  • the default dictionary 500 is generally a general-purpose speech recognition dictionary in many cases, but for example, if a contact center mainly handles inquiries for a specific business, it may be a speech recognition dictionary specialized for that business. A dictionary may be used as the default dictionary 500 in some cases.
  • a voice recognition dictionary specialized for that language may be set as the default dictionary 500, or a speech recognition dictionary specialized for that language may be used as the default dictionary 500.
  • a speech recognition dictionary specialized for the local dialect may be used as the default dictionary 500.
  • the call history storage unit 107 stores call history information.
  • the call history information is, for example, information that includes at least a call ID and a voice recognition text related to the call with the call ID.
  • the call history information includes various information such as the date and time of the call, the duration of the call, the ID of the operator who answered the call, the extension number of the operator, the customer's phone number, and any memo information related to the call. It may be
  • the user terminal 20 includes a UI control unit 201.
  • the UI control unit 201 is realized, for example, by a process that one or more programs (such as a web browser) installed on the user terminal 20 causes a processor such as a CPU to execute.
  • the UI control unit 201 displays various screens including a response support screen and the like on the display of the user terminal 20. Further, the UI control unit 201 receives various input operations from the user on these various screens.
  • the voice recording unit 101 of the voice recognition system 10 receives a packet (start packet) indicating that the call has started (step S101).
  • the dictionary selection unit 102 of the speech recognition system 10 selects a speech recognition dictionary 500 to be used for speech recognition from among the plurality of speech recognition dictionaries 500 stored in the dictionary storage unit 106 (step S102).
  • the dictionary selection unit 102 may, for example, select the default dictionary 500, or may inquire of the user terminal 20 which speech recognition dictionary 500 is to be used, and then specify it from the user (operator) in response to this inquiry.
  • the speech recognition dictionary 500 may be selected.
  • the dictionary selection unit 102 gives the user (operator) a certain grace period of, for example, several tens of seconds, and within this grace period the speech recognition dictionary 500 is used.
  • the default dictionary 500 may be selected (in this case, speech recognition will not be performed until the grace period has elapsed). This is because, in general, it is difficult for an operator to judge which speech recognition dictionary 500 should be used when starting a call. Alternatively, for example, it may be assumed that the default dictionary 500 has been selected until the voice recognition dictionary 500 is explicitly selected by the operator.
  • the voice recording unit 101 of the voice recognition system 10 receives the packet (voice packet) transmitted from the NW switch 50 (step S103).
  • the voice recording unit 101 of the voice recognition system 10 stores the voice data represented by the packet in the voice storage unit 105 as a voice file (step S104).
  • the voice recognition unit 103 of the voice recognition system 10 performs voice recognition on the voice file stored in the voice storage unit 105 using the currently selected dictionary 500, and the voice recognition result is the voice recognition result.
  • Generate text step S105.
  • the voice recognition unit 103 performs voice recognition again on the already voice-recognized voice file using the changed selected dictionary 500. conduct. Note that details of the voice recognition in this step will be described later.
  • the UI providing unit 104 of the voice recognition system 10 transmits the voice recognition text generated in step S105 above and screen information for visualizing the voice recognition text to the user terminal 20 (for example, when making the call).
  • the information is transmitted to the user terminal 20) used by the current operator (step S106).
  • the UI providing unit 104 may transmit the voice recognition text and screen information to the user terminal 20 each time the voice recognition text is generated in step S105, or may transmit the voice recognition text and screen information to the user terminal 20 in response to a request from the user terminal 20.
  • the voice recognition text and screen information may be transmitted to the user terminal 20.
  • the UI providing unit 104 transmits voice recognition text and screen information not only to the user terminal 20 used by the operator making the call, but also to the user terminal 20 used by, for example, a supervisor who monitors the operator's call. You may.
  • the UI control unit 201 of the user terminal 20 Upon receiving the voice recognition text and screen information, the UI control unit 201 of the user terminal 20 displays the voice recognition text on the reception support screen based on this screen information (step S107). Note that details of the reception support screen in this step will be described later.
  • the dictionary selection unit 102 of the speech recognition system 10 changes the selected dictionary 500 to one of the plurality of speech recognition dictionaries 500 (step S108).
  • the dictionary selection unit 102 may change the currently selected dictionary 500 to the voice recognition dictionary 500. This is because the operator can determine which speech recognition dictionary 500 should be used after a certain number of calls have been made.
  • the dictionary selection unit 102 may use some kind of judgment logic to determine whether or not to change the currently selected dictionary 500, and also determine which speech recognition dictionary 500 to change to.
  • the dictionary selection unit 102 uses known natural language processing to identify the language in which the call is being made, and then changes the currently selected dictionary 500 to a speech recognition dictionary 500 specialized for the identified language. You can.
  • the dictionary selection unit 102 specifies what kind of dialect the customer speaks using known natural language processing, and selects the currently selected dictionary 500 from the speech recognition dictionary 500 specialized for the specified dialect. may be changed.
  • the dictionary selection unit 102 uses a known inference technique such as machine learning to select a conventional speech recognition text (for example, a speech recognition result using the default dictionary 500, which is a general-purpose speech recognition dictionary 500).
  • the selected dictionary 500 may be changed to a speech recognition dictionary 500 specialized for the job after inferring the business content based on the frequency of specific words included in the job.
  • the voice recognition unit 103 of the voice recognition system 10 creates call history information that includes voice recognition text related to the call, and stores the call history information in the call history storage unit 107. (Step S109). Note that the call history information is used, for example, for various analyzes and operator evaluations to improve the quality of customer service.
  • ⁇ Voice recognition example 1 When the selected dictionary 500 is not changed As shown in FIG. This is assumed to have been obtained through recognition. Note that utterances 1001, 1003, 1005, and 1007 are utterances of the operator, and utterances 1002, 1004, 1006, and 1008 are utterances of the customer.
  • the voice recognition text of the operator's utterance 1011 during the call time "00:49” and the voice recognition text of the customer's utterance 1012 during the call time "00:54" are both obtained by voice recognition using the default dictionary 500. It will be done.
  • ⁇ Voice recognition example 2 When the selected dictionary 500 is changed As shown in FIG. This is assumed to have been obtained through recognition. Note that utterances 1001, 1003, 1005, and 1007 are utterances of the operator, and utterances 1002, 1004, 1006, and 1008 are utterances of the customer.
  • the selected dictionary 500 is changed after the call time "00:35" and before the call time "00:38".
  • the changed selected dictionary 500 is used to perform speech recognition on utterances 1001 to 1008, which have already been speech-recognized, in chronological order.
  • the utterances 1009 to 1012 after the change in the currently selected dictionary 500 are voice recognized in chronological order after the voice recognition of utterances 1001 to 1008 is completed.
  • the voice recognition text of voice recognition using the changed selected dictionary 500 is obtained for utterances 1001 to 1003. Further, at the time of the call time "00:55", the speech recognition text of speech recognition using the changed selected dictionary 500 has been obtained for utterances 1001 to 1012.
  • the utterances before the change are again chronologically recognized using the changed selected dictionary 500, and then the utterances after the change are recognized.
  • the utterances after the change are voice recognized in chronological order.
  • the operator's and customer's utterances before the selected dictionary 500 is changed are also referred to as "past utterances”
  • the operator's and customer's utterances after the selected dictionary 500 is changed are also referred to as "real-time utterances”. Make it.
  • an audio file containing the audio of past utterances will also be referred to as a "past audio file”
  • an audio file containing audio of real-time utterances will also be referred to as a "real-time audio file”.
  • the past audio file and the real-time audio file are the same audio file, but the audio of the past utterance and the real-time utterance are recorded in the same audio file.
  • the audio of the timed utterance may be recorded in a different audio file. In this case, the past audio file and the real-time audio file are different audio files.
  • utterances 1001 to 1008 have been obtained by voice recognition using the default dictionary 500 at the time of the call time “00:35”.
  • utterances 1001, 1003, 1005, and 1007 are utterances of the operator, and utterances 1002, 1004, 1006, and 1008 are utterances of the customer.
  • the selected dictionary 500 is changed after the call time "00:35" and before the call time "00:38".
  • the utterances 1001 to 1008, which have already been speech-recognized are recognized in parallel using the changed selected dictionary 500.
  • the utterances 1009 to 1012 after the change in the currently selected dictionary 500 are voice recognized in chronological order after the voice recognition of utterances 1001 to 1008 is completed.
  • the voice recognition text of voice recognition using the changed selected dictionary 500 is obtained for utterance 1001 and utterances 1004 to 1005.
  • the number of parallels is 2, and utterance 1001 and utterances 1004 to 1005 are voice recognized in parallel.
  • the voice recognition text of voice recognition using the changed selected dictionary 500 has been obtained for utterances 1001 to 1012.
  • the utterances before the change are again recognized in parallel using the changed selected dictionary 500, and then the utterances after the change are recognized.
  • the utterances after the change are voice recognized in chronological order.
  • speech recognition can be performed with priority given to past utterances. For example, among past utterances, it is possible to preferentially recognize utterances that are close to real time and utterances that are close to the start of a call. Furthermore, since past utterances are voice recognized in parallel, it is possible to quickly complete voice recognition of past utterances.
  • utterance intervals were detected using a process called utterance interval detection, and speech recognition was performed in parallel for each utterance interval, but this is just one example. , speech recognition may be performed in parallel on a sentence-by-sentence or phrase-by-phrase basis.
  • utterances 1001 to 1008 have been obtained by voice recognition using the default dictionary 500 at the time of the call time “00:35”.
  • utterances 1001, 1003, 1005, and 1007 are utterances of the operator, and utterances 1002, 1004, 1006, and 1008 are utterances of the customer.
  • the selected dictionary 500 is changed after the call time "00:35" and before the call time "00:38".
  • utterances 1001 to 1008, which have already been voice recognized are voice recognized in chronological order
  • utterances 1009 to 1012 are also voice recognized in chronological order.
  • Ru That is, past utterances and real-time utterances are voice recognized in parallel and in chronological order.
  • the speech recognition text of speech recognition using the changed selected dictionary 500 is obtained for utterances 1001 to 1002 and utterance 1009.
  • This example is a case where utterances 1001 to 1002, which are past utterances, and utterance 1009, which is a real-time utterance, are voice recognized in parallel.
  • the speech recognition text of speech recognition using the changed selected dictionary 500 has been obtained for utterances 1001 to 1012.
  • the changed selected dictionary 500 is used to distinguish between the utterance before the change and the utterance after the change.
  • Speech recognition is performed in parallel and in time order. This makes it possible, for example, to perform voice recognition of real-time utterances while simultaneously recognizing past utterances.
  • ⁇ Voice recognition example 5 When the selected dictionary 500 is changed, and when past audio files are processed in parallel for each utterance section, and when past audio files and real-time audio files are processed in parallel.
  • the speech recognition example is a combination of the above-mentioned speech recognition example 3 and speech recognition example 4.
  • past utterances and real-time utterances are recorded in different audio files, and after performing utterance interval detection on the past audio files, the past utterances and real-time utterances are recorded in parallel.
  • past utterances are also recognized in parallel. However, the number of parallels related to past utterances depends on the number of speech recognition engines, etc., and is a predetermined number.
  • utterances 1001 to 1008 have been obtained by voice recognition using the default dictionary 500 at the time of the call time “00:35”.
  • utterances 1001, 1003, 1005, and 1007 are utterances of the operator, and utterances 1002, 1004, 1006, and 1008 are utterances of the customer.
  • the selected dictionary 500 is changed after the call time "00:35" and before the call time "00:38".
  • utterances 1001 to 1008 and utterances 1009 to 1012 which have already been voice recognized, are recognized in parallel, and utterances 1001 to 1012 are recognized in parallel.
  • 1008 is also recognized in parallel. That is, the past utterance and the real-time utterance are voice recognized in parallel, and the past utterance itself is also voice recognized in parallel.
  • the voice recognition text of voice recognition using the changed selected dictionary 500 is obtained for utterances 1001 to 1002, utterances 1005 to 1006, and utterances 1009. It is being In this example, the number of parallels is 3, and the past utterances and real-time utterances are voice recognized in parallel, and within the past utterances, utterances 1001 to 1002 and utterances 1005 to 1006 are voice recognized in parallel. This is the case. Further, at the time of the call time "00:55", the speech recognition text of speech recognition using the changed selected dictionary 500 has been obtained for utterances 1001 to 1012.
  • the changed selected dictionary 500 is used to distinguish between the utterance before the change and the utterance after the change.
  • Speech recognition is performed in parallel, and utterances before the change are also recognized in parallel. This makes it possible, for example, to perform voice recognition of real-time utterances while simultaneously recognizing past utterances. Furthermore, for example, speech recognition can be performed with priority given to past utterances. Furthermore, since past utterances are voice recognized in parallel, it is possible to complete voice recognition of past utterances quickly.
  • step S107 of FIG. 3 either the following reception support screen example 1 or reception support screen example 2 is displayed on the user terminal 20 as the reception support screen.
  • ⁇ Reception support screen example 1 In response support screen example No. 1, the latest real-time speech recognition text is always displayed on the screen. In this case, the speech recognition text of past utterances is visualized in the background.
  • FIG. 9 shows a reception support screen when voice recognition is performed using voice recognition example 4 or voice recognition example 5.
  • the speech recognition text of the latest real-time utterance (utterance 1009 in the example shown in FIG. 9) is always displayed in the utterance display column 2100 of the reception support screen 2000.
  • the utterance display field 2100 is automatically scrolled and the voice recognition text of the real-time utterance is displayed.
  • the voice recognition text of past utterances is visualized in the background (that is, the hidden portion of the utterance display field 2100).
  • This response support screen example No. 1 is preferably used in, for example, voice recognition example No. 1, voice recognition example No. 4, or voice recognition example No. 5.
  • ⁇ Reception support screen example 2 In response support screen example No. 2, the screen is divided into two parts, one screen always displays the voice recognition text of the latest real-time utterance, and the other screen displays the voice recognition text of the past utterance.
  • FIG. 10 shows a reception support screen when voice recognition is performed using voice recognition example 4 or voice recognition example 5.
  • the voice recognition text of the latest real-time utterance (utterance 1009 in the example shown in FIG. 10) is always displayed in the first utterance display column 3100 of the response support screen 3000, and the second utterance display Column 3200 displays voice recognition text of past utterances. Note that when a new real-time utterance is made, the first utterance display field 3100 is automatically scrolled and the voice recognition text of the real-time utterance is displayed.
  • speech recognition texts of past utterances are displayed in the second utterance display column 3200.
  • This response support screen example No. 2 may be used, for example, in any of the voice recognition examples from voice recognition example No. 1 to voice recognition example No. 5.
  • the latest voice recognition text among the voice recognition texts voice recognized using the selected dictionary 500 after the change is displayed. may be done.
  • speech recognition of past utterances using the changed selected dictionary 500 is completed, only the first utterance display field 3100 may be displayed (that is, when the changed selected dictionary 500 is used (If the voice recognition of the previous utterance is completed, the second utterance display field 3200 may be hidden.)
  • ⁇ Summary> As described above, in the contact center system 1 according to the present embodiment, when the voice recognition dictionary 500 used for voice recognition of the voice (utterance) of a call between an operator and a customer is changed, the utterance before the change is changed. Also, voice recognition is performed again using the changed voice recognition dictionary 500. As a result, even if an appropriate voice recognition dictionary 500 is not selected at the start of a call, it is possible to perform voice recognition for the entire call using the appropriate voice recognition dictionary 500. Therefore, it is possible to obtain highly accurate speech recognition results, and as a result, it is possible to contribute to, for example, improving the quality of customer service and improving the precision of various analyses.
  • the currently selected dictionary 500 which of the above speech recognition examples 2 to 5 is used for speech recognition may be fixedly set in advance, or may be set by the user (administrator).
  • the setting may be changeable by a supervisor, supervisor, operator, etc.). That is, when the currently selected dictionary 500 is changed, it is fixed in advance whether or not to process past audio files in parallel for each utterance section, and whether to process past audio files and real-time audio files in parallel. It may be set automatically, or it may be set so that it can be changed by the user.
  • the speech recognition dictionary 500 before change is "speech recognition dictionary 500 specialized in financial business" and the speech recognition dictionary 500 after change is "speech recognition dictionary 500 specialized in insurance business"
  • past utterances There is no need to perform voice recognition again. This is because it is thought that the insurance-related inquiry was answered after the financial-related inquiry in one call, and that the appropriate voice recognition dictionary 500 was selected by the operator for both inquiries. It is.
  • the voice recognition dictionary 500 when the voice recognition dictionary 500 is changed, the past utterances of both the operator and the customer are voice recognized again by the voice recognition dictionary 500 after the change, but only the past utterances of either one (the customer's past (only the utterances or only the operator's past utterances) may be voice recognized again.
  • the customer speaks a dialect only the customer's voice recognition dictionary 500 may be changed according to the dialect the customer speaks, and only the customer's utterances may be voice recognized again.
  • the voice recognition dictionary 500 is common to customers and all operators, but the present invention is not limited to this.
  • the speech recognition dictionaries 500 that can be selected by an operator may differ depending on, for example, the operator's individual speech characteristics and field of work. That is, each operator may be able to select the speech recognition dictionary 500 that is suitable for his/her own speech characteristics and field of work, for example. Further, the operator's voice recognition dictionary 500 may be selected depending on the customer. For example, if a customer speaks a dialect, and the operator wants to mix the dialect to suit the customer, the operator's speech recognition dictionary 500 may be changed from a dictionary that only supports standard language to the dialect spoken by the customer and the standard language.
  • the speech recognition dictionary 500 may be changed to one that supports both. At this time, only the past utterances of the operator whose voice recognition dictionary 500 has been changed are subject to re-voice recognition, and as mentioned above, the voice recognition dictionary 500 after the change can be used to recognize both the dialect spoken by the customer and the standard language spoken by the operator. If it is known from the attributes of the speech recognition dictionary that it is compatible, there is no need to perform speech recognition again.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本開示の一態様による情報処理システムは、複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択するように構成されている選択部と、前記選択部によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている音声認識部と、を有し、前記音声認識部は、前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている。

Description

情報処理システム、情報処理方法及びプログラム
 本開示は、情報処理システム、情報処理方法及びプログラムに関する。
 音声認識技術では、一般に、単語の表記、読み、並び方等が登録された音声認識辞書が用いられる。このような音声認識辞書には、音声認識の対象とする用途や言語等に応じて様々な種類の辞書が存在する。例えば、汎用的な用途の辞書、特定の業務に関わる専門用語が多く登録された辞書、特定の言語に特化した辞書、特定の方言に特化した辞書等が存在する。
 コンタクトセンタ(又は、コールセンタとも呼ばれる。)では、上記のような音声認識技術を実装した音声認識システムにより、通話中の音声をリアルタイムにテキストに変換し、そのテキストをオペレータに提示することが行われている(例えば、非特許文献1)。
ForeSight Voice Mining(フォーサイトボイスマイニング),インターネット<URL:https://www.ntt-tx.co.jp/products/foresight_vm/>
 しかしながら、従来では、複数の音声認識辞書が用意されていても、オペレータがその中から適切な辞書を選択することは困難であった。このため、オペレータに対して予め設定されている音声認識辞書(例えば、デフォルトとして設定されている汎用的な音声認識辞書)を用いて音声認識が行われ、その結果、十分な精度の音声認識結果が得られない場合があった。
 本開示は、上記の点に鑑みてなされたもので、精度の良い音声認識結果を得ることが可能な技術を提供することを目的とする。
 本開示の一態様による情報処理システムは、複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択するように構成されている選択部と、前記選択部によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている音声認識部と、を有し、前記音声認識部は、前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている。
 精度の良い音声認識結果を得ることが可能な技術が提供される。
本実施形態に係るコンタクトセンタシステムの全体構成の一例を示す図である。 本実施形態に係るコンタクトセンタシステムの機能構成の一例を示す図である。 本実施形態に係る応対支援処理の一例を示すシーケンス図である。 音声認識の一例を説明するための図(その1)である。 音声認識の一例を説明するための図(その2)である。 音声認識の一例を説明するための図(その3)である。 音声認識の一例を説明するための図(その4)である。 音声認識の一例を説明するための図(その5)である。 応対支援画面の一例を説明するための図(その1)である。 応対支援画面の一例を説明するための図(その2)である。
 以下、本発明の一実施形態について説明する。以下、本実施形態では、コンタクトセンタを対象として、複数の音声認識辞書の中から自動又は手動で辞書の選択が可能な場合に、オペレータと顧客との間の通話の音声に関して精度の良い音声認識結果を得ることができるコンタクトセンタシステム1について説明する。ただし、コンタクトセンタは一例であって、例えば、オフィス等を対象として、複数の音声認識辞書の中から自動又は手動で辞書の選択が可能な場合に、担当者と顧客との間の通話の音声に関して精度の良い音声認識結果を得るときにも同様に適用することが可能である。
 <コンタクトセンタシステム1の全体構成>
 本実施形態に係るコンタクトセンタシステム1の全体構成例を図1に示す。図1に示すように、本実施形態に係るコンタクトセンタシステム1には、音声認識システム10と、複数のユーザ端末20と、複数の電話機30と、PBX(Private Branch eXchange)40と、NWスイッチ50と、顧客端末60とが含まれる。ここで、音声認識システム10、ユーザ端末20、電話機30、PBX40、及びNWスイッチ50は、コンタクトセンタのシステム環境であるコンタクトセンタ環境E内に設置されている。なお、コンタクトセンタ環境Eは同一の建物内のシステム環境に限られず、例えば、地理的に離れた複数の建物内のシステム環境であってもよい。
 音声認識システム10は、NWスイッチ50から送信されたパケット(音声パケット)を用いて、オペレータと顧客との間の通話の音声を音声ファイルとして収録する。なお、音声認識システム10はNWスイッチ50から送信された音声パケットを受動的に取得してもよいし、NWスイッチ50を介してPBX40に対して音声データを要求することで、能動的に音声データを取得してもよい。
 また、音声認識システム10は、この音声ファイルに対して音声認識を行ってその音声認識結果を表すテキスト(以下、音声認識テキストともいう。)を生成する。このとき、音声認識システム10は、音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、既に音声認識済みの音声ファイルに対しても再度音声認識を行う(つまり、変更前の音声認識辞書を用いて既に音声認識済みの音声も含めて音声認識を行う)。これにより、例えば、適切でない音声認識辞書から適切な音声認識辞書に変更された場合に、適切でない音声認識辞書により既に音声認識された音声を、適切な音声認識辞書により再度音声認識し、精度の良い音声認識結果を得ることが可能となる。なお、音声認識システム10は、例えば、汎用サーバやサーバ群等により実現される。
 ユーザ端末20は、ユーザ(オペレータ又はスーパバイザ)が利用するPC(パーソナルコンピュータ)等の端末である。以下では、ユーザとして、主に、オペレータを想定するが、一部のユーザはスーパバイザであってもよい。なお、オペレータとは、顧客との電話応対等を主たる業務とする者である。一方で、スーパバイザとは、オペレータの通話を監視し、何等かの問題が発生しそうな場合やオペレータからの要請に応じてそのオペレータの電話応対業務を支援する者のことである。通常、数人~十数人程度のオペレータの通話が1人のスーパバイザにより監視されることが一般的である。
 ユーザ端末20には、顧客との通話中の音声認識結果(音声認識テキスト)がリアルタイムに可視化される応対支援画面が表示される。オペレータは、この応対支援画面を参照することで、顧客との通話内容をテキストとしても確認することができる。
 電話機30は、オペレータが利用するIP(Internet Protocol)電話機(固定IP電話機又は携帯IP電話機等)である。
 PBX40は、電話交換機(IP-PBX)であり、VoIP(Voice over Internet Protocol)網やPSTN(Public Switched Telephone Network)を含む通信ネットワーク70に接続されている。
 NWスイッチ50は、電話機30とPBX40との間でパケットを中継すると共に、そのパケットをキャプチャして音声認識システム10に送信する。
 顧客端末60は、顧客が利用するスマートフォンや携帯電話、固定電話等の各種端末である。
 なお、図1に示すコンタクトセンタシステム1の全体構成は一例であって、他の構成であってもよい。例えば、図1に示す例では、音声認識システム10がコンタクトセンタ環境Eに含まれているが(つまり、音声認識システム10はオンプレミス型であるが)、音声認識システム10の全部又は一部の機能がクラウドサービス等により実現されていてもよい。同様に、図1に示す例では、PBX40はオンプレミス型の電話交換機であるが、クラウドサービスにより実現されていてもよい。また、ユーザ端末20が電話機能を有している場合には、コンタクトセンタシステム1には電話機30が含まれていなくてもよい。
 <コンタクトセンタシステム1の機能構成>
 本実施形態に係るコンタクトセンタシステム1に含まれる音声認識システム10及びユーザ端末20の機能構成例を図2に示す。
  ≪音声認識システム10≫
 図2に示すように、本実施形態に係る音声認識システム10は、音声収録部101と、辞書選択部102と、音声認識部103と、UI提供部104とを有する。これら各部は、例えば、音声認識システム10にインストールされた1以上のプログラムが、CPU(Central Processing Unit)等のプロセッサに実行させる処理により実現される。また、本実施形態に係る音声認識システム10は、音声記憶部105と、辞書記憶部106と、通話履歴記憶部107とを有する。これら各部は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の記憶装置により実現可能である。ただし、これら各部の少なくとも一部の記憶領域が、例えば、音声認識システム10と通信可能に接続される記憶装置(データベースサーバ等)により実現されていてもよい。
 音声収録部101は、NWスイッチ50から送信されたパケット(音声パケット)が表す音声のデータを音声ファイルとして音声記憶部105に保存する。
 辞書選択部102は、辞書記憶部106に記憶されている複数の音声認識辞書500の中から音声認識に用いられる音声認識辞書500を選択する。音声認識辞書500とは、例えば、単語の表記とその読み、単語の並び方等が登録された辞書情報である。音声認識辞書500としては、例えば、汎用的な用途の音声認識辞書、特定の業務(例えば、金融、保険、情報通信等)に特化した音声認識辞書、特定の言語(例えば、日本語、英語、フランス語等)に特化した音声認識辞書、特定の方言(例えば、日本の〇〇地方の方言等)に特化した音声認識辞書等といった様々な種類の音声認識辞書が存在する。以下では、辞書選択部102によって選択された音声認識辞書500を「選択中辞書500」とも呼ぶ。
 音声認識部103は、辞書選択部102によって選択された選択中辞書500を用いて、音声記憶部105に記憶されている音声ファイルに対して音声認識を行って、その音声認識結果である音声認識テキストを生成する。このとき、音声認識部103は、話者(オペレータ、顧客)毎にその音声の音声認識を行って、話者情報及び時刻情報付きの音声認識テキストを生成する。或る1文(1区切りの発話や1フレーズ等)の音声認識テキストは、例えば、(話者情報,時刻情報,音声認識テキスト)といった形式で表される。このような話者情報及び時刻情報付きの音声認識テキストは既知の音声認識技術により生成することが可能である。なお、話者情報とはその音声認識テキストに対応する音声を発話した話者(オペレータ又は顧客)を示す情報であり、時刻情報とはその音声認識テキストに対応する音声が発話された時刻(日時)を示す情報である。以下、音声認識テキストには話者情報及び時刻情報が付与されており、例えば、(話者情報,時刻情報,音声認識テキスト)といった形式で表されるものとする。
 また、音声認識部103は、選択中辞書500が変更された場合、変更後の選択中辞書500を用いて、既に音声認識済みの音声ファイルに対しても再度音声認識を行う。
 更に、音声認識部103は、例えば、オペレータと顧客との間の通話が終了した場合、その通話に関する音声認識テキストが含まれる通話履歴情報を通話履歴記憶部107に保存する。
 UI提供部104は、音声認識部103によって生成された音声認識テキストが可視化される応対支援画面の画面情報を提供する。なお、画面情報は、例えば、HTML(Hypertext Markup Language)、CSS(Cascading Style Sheets)、JavaScript等といった情報で表される。
 音声記憶部105は、NWスイッチ50から送信されたパケット(音声パケット)が表す音声の音声ファイルを記憶する。
 辞書記憶部106は、複数の音声認識辞書500を記憶する。これら複数の音声認識辞書500の中にはデフォルト(標準)として選択される音声認識辞書500(以下、「デフォルト辞書500」と呼ぶ。)が存在するものとする。デフォルト辞書500は、一般に、汎用的な用途の音声認識辞書である場合が多いが、例えば、コンタクトセンタで主に特定の業務の問い合せ対応を行っている場合にはその業務に特化した音声認識辞書をデフォルト辞書500とする場合もある。又は、例えば、コンタクトセンタで主に特定の言語の顧客に対する問い合せ対応を行っている場合にはその言語に特化した音声認識辞書をデフォルト辞書500とする場合もあるし、特定の地方の顧客に対する問い合せ対応を行っている場合にはその地方の方言に特化した音声認識辞書をデフォルト辞書500とする場合もある。
 通話履歴記憶部107は、通話履歴情報を記憶する。通話履歴情報とは、例えば、通話IDと、その通話IDの通話に関する音声認識テキストとが少なくとも含まれる情報である。なお、通話履歴情報には、例えば、通話日時、通話時間、その通話に応対したオペレータのID、当該オペレータの内線番号、顧客の電話番号、その通話に関する何等かのメモ情報等といった各種情報が含まれていてもよい。
  ≪ユーザ端末20≫
 図2に示すように、本実施形態に係るユーザ端末20は、UI制御部201を有する。UI制御部201は、例えば、ユーザ端末20にインストールされた1以上のプログラム(Webブラウザ等)が、CPU等のプロセッサに実行させる処理により実現される。
 UI制御部201は、ユーザ端末20のディスプレイ上に応対支援画面等を含む各種画面を表示する。また、UI制御部201は、これらの各種画面上におけるユーザの各種入力操作を受け付ける。
 <応対支援処理>
 以下、オペレータと顧客との間の通話中にその通話の音声に対して音声認識を行って、ユーザ端末20の応対支援画面上にその音声認識結果を表示する処理(応対支援処理)について、図3を参照しながら説明する。
 オペレータと顧客との間の通話が開始された場合、音声認識システム10の音声収録部101は、当該通話が開始されたことを示すパケット(開始パケット)を受信する(ステップS101)。
 次に、音声認識システム10の辞書選択部102は、辞書記憶部106に記憶されている複数の音声認識辞書500の中から音声認識に用いられる音声認識辞書500を選択する(ステップS102)。ここで、辞書選択部102は、例えば、デフォルト辞書500を選択してもよいし、どの音声認識辞書500を用いるかをユーザ端末20に問い合わせた上でこの問い合わせに対してユーザ(オペレータ)から指定された音声認識辞書500を選択してもよい。また、どの音声認識辞書500を用いるかをユーザ端末20に問い合わせる場合、辞書選択部102は、例えば、数十秒程度の一定の猶予時間をユーザ(オペレータ)に与え、この猶予時間内に音声認識辞書500の指定が無かったときにはデフォルト辞書500を選択するようにしてもよい(この場合、当該猶予時間が経過するまでは音声認識は行われない。)。一般に、通話開始時にはどの音声認識辞書500を用いればよいかをオペレータが判断することは困難なためである。又は、これ以外にも、例えば、オペレータから明示的に音声認識辞書500が選択されるまで、デフォルト辞書500が選択されたものとみなしてもよい。
 以下のステップS103~ステップS108は、オペレータと顧客との間の通話中に繰り返し実行される。
 音声認識システム10の音声収録部101は、NWスイッチ50から送信されたパケット(音声パケット)を受信する(ステップS103)。
 次に、音声認識システム10の音声収録部101は、当該パケットが表す音声のデータを音声ファイルとして音声記憶部105に保存する(ステップS104)。
 次に、音声認識システム10の音声認識部103は、選択中辞書500を用いて、音声記憶部105に記憶されている音声ファイルに対して音声認識を行って、その音声認識結果である音声認識テキストを生成する(ステップS105)。このとき、音声認識部103は、後述するステップS108で選択中辞書500が変更された場合、変更後の選択中辞書500を用いて、既に音声認識済みの音声ファイルに対しても再度音声認識を行う。なお、本ステップにおける音声認識の詳細については後述する。
 次に、音声認識システム10のUI提供部104は、上記のステップS105で生成された音声認識テキストとその音声認識テキストを可視化するための画面情報とをユーザ端末20(例えば、当該通話を行っているオペレータが利用するユーザ端末20)に送信する(ステップS106)。ここで、UI提供部104は、上記のステップS105で音声認識テキストが生成される都度その音声認識テキスト及び画面情報をユーザ端末20に送信してもよいし、ユーザ端末20からの要求に応じて音声認識テキスト及び画面情報を当該ユーザ端末20に送信してもよい。なお、UI提供部104は、当該通話を行っているオペレータが利用するユーザ端末20だけでなく、例えば、そのオペレータの通話を監視するスーパバイザが利用するユーザ端末20に音声認識テキスト及び画面情報を送信してもよい。
 ユーザ端末20のUI制御部201は、音声認識テキスト及び画面情報を受信すると、この画面情報に基づいて、応対支援画面上に当該音声認識テキストを表示する(ステップS107)。なお、本ステップにおける応対支援画面の詳細については後述する。
 選択中辞書500を変更する場合、音声認識システム10の辞書選択部102は、複数の音声認識辞書500の中のいずれかの音声認識辞書500に選択中辞書500を変更する(ステップS108)。ここで、辞書選択部102は、例えば、ユーザ(オペレータ)から音声認識辞書500が指定された場合に、その音声認識辞書500に選択中辞書500を変更すればよい。或る程度の通話が行われた後には、どの音声認識辞書500を用いればよいかをオペレータが判断可能なためである。
 ただし、これに限られず、辞書選択部102は、何らかの判断ロジックにより選択中辞書500を変更するか否かを判断すると共にどの音声認識辞書500に変更するかを決定してもよい。例えば、辞書選択部102は、既知の自然言語処理によりどのような言語で通話が行われているかを特定した上で、特定した言語に特化した音声認識辞書500に選択中辞書500を変更してもよい。同様に、例えば、辞書選択部102は、既知の自然言語処理により顧客の方言がどのような方言であるかを特定した上で、特定した方言に特化した音声認識辞書500に選択中辞書500を変更してもよい。又は、例えば、辞書選択部102は、機械学習等といった既知の推論技術により、これまでの音声認識テキスト(例えば、汎用的な用途の音声認識辞書500であるデフォルト辞書500を用いた音声認識結果)に含まれる特定の単語等の頻度から業務内容を推測した上で、その業務に特化した音声認識辞書500に選択中辞書500を変更してもよい。
 オペレータと顧客との間の通話が終了した場合、音声認識システム10の音声認識部103は、その通話に関する音声認識テキストが含まれる通話履歴情報を作成し、当該通話履歴情報を通話履歴記憶部107に保存する(ステップS109)。なお、通話履歴情報は、例えば、顧客に対する応対品質を向上させるための各種分析やオペレータの評価等に用いられる。
 <図3のステップS105における音声認識の詳細>
 以下、図3のステップS105における音声認識の詳細について説明する。以下では、図3のステップS102でデフォルト辞書500が選択されたものとする。
 ・音声認識例その1:選択中辞書500の変更がない場合
 図4に示すように、通話時間「00:35」の時点で発話1001~発話1008の音声認識テキストがデフォルト辞書500を用いた音声認識により得られているものとする。なお、発話1001、発話1003、発話1005及び発話1007はオペレータの発話、発話1002、発話1004、発話1006及び発話1008は顧客の発話である。
 このとき、本音声認識例では選択中辞書500の変更がないため、通話時間「00:38」におけるオペレータの発話1009の音声認識テキスト、通話時間「00:43」における顧客の発話1010の音声認識テキストは、いずれもデフォルト辞書500を用いた音声認識により得られる。
 同様に、通話時間「00:49」におけるオペレータの発話1011の音声認識テキスト、通話時間「00:54」における顧客の発話1012の音声認識テキストは、いずれもデフォルト辞書500を用いた音声認識により得られる。
 このように、選択中辞書500の変更がない場合は、その選択中辞書500を用いて通話中の音声(発話)が音声認識される。
 ・音声認識例その2:選択中辞書500が変更された場合
 図5に示すように、通話時間「00:35」の時点で発話1001~発話1008の音声認識テキストがデフォルト辞書500を用いた音声認識により得られているものとする。なお、発話1001、発話1003、発話1005及び発話1007はオペレータの発話、発話1002、発話1004、発話1006及び発話1008は顧客の発話である。
 このとき、通話時間「00:35」以降かつ通話時間「00:38」よりも前に選択中辞書500が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書500を用いて、既に音声認識済みの発話1001~発話1008が時刻順に音声認識される。一方で、選択中辞書500の変更後の発話1009~発話1012に関しては、発話1001~発話1008の音声認識が終了した後に、時刻順に音声認識される。
 図5に示す例では、通話時間「00:45」の時点で発話1001~発話1003に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。また、通話時間「00:55」の時点で発話1001~発話1012に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。
 このように、選択中辞書500が変更された場合、本音声認識例では、変更後の選択中辞書500を用いてその変更が行われる前の発話を時刻順に再度音声認識した後、変更後の選択中辞書500を用いてその変更が行われた後の発話を時刻順に音声認識する。以下、選択中辞書500の変更が行われる前のオペレータ及び顧客の発話を「過去発話」、選択中辞書500の変更が行われた後のオペレータ及び顧客の発話を「実時間発話」とも呼ぶことにする。また、過去発話の音声が収録された音声ファイルを「過去の音声ファイル」、実時間発話の音声が収録された音声ファイルを「実時間の音声ファイル」とも呼ぶことにする。なお、過去発話の音声と実時間発話の音声とが同一の音声ファイルに収録される場合は過去の音声ファイルと実時間の音声ファイルとは同一の音声ファイルであるが、過去発話の音声と実時間発話の音声とが異なる音声ファイルに収録されてもよい。この場合、過去の音声ファイルと実時間の音声ファイルは異なる音声ファイルとなる。
 ・音声認識例その3:選択中辞書500が変更された場合、かつ、過去の音声ファイルを発話区間単位に並列処理する場合
 上記の音声認識例その2では、変更後の選択中辞書500を用いて過去発話を時刻順に再度音声認識している。これは、一般に、音声認識処理では、音声ファイルの先頭から順に音声認識を行う必要があるためである。一方で、音声ファイルに対して発話区間検出(VAD:voice activity detection)と呼ばれる処理を実施することで、発話区間単位に並列に音声認識を行うことが可能となる。そこで、本音声認識例では、過去の音声ファイルに対して発話区間検出を行った上で、過去発話を並列に音声認識する。ただし、並列可能な音声認識数(以下、並列数ともいう。)は音声認識エンジン数等に依存し、予め決められた数である。
 図6に示すように、通話時間「00:35」の時点で発話1001~発話1008の音声認識テキストがデフォルト辞書500を用いた音声認識により得られているものとする。なお、発話1001、発話1003、発話1005及び発話1007はオペレータの発話、発話1002、発話1004、発話1006及び発話1008は顧客の発話である。
 このとき、通話時間「00:35」以降かつ通話時間「00:38」よりも前に選択中辞書500が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書500を用いて、既に音声認識済みの発話1001~発話1008が並列に音声認識される。一方で、選択中辞書500の変更後の発話1009~発話1012に関しては、発話1001~発話1008の音声認識が終了した後に、時刻順に音声認識される。
 図6に示す例では、通話時間「00:45」の時点で発話1001と発話1004~発話1005に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。この例は、並列数は2であり、発話1001と、発話1004~発話1005とが並列に音声認識された場合である。また、通話時間「00:55」の時点で発話1001~発話1012に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。
 このように、選択中辞書500が変更された場合、本音声認識例では、変更後の選択中辞書500を用いてその変更が行われる前の発話を並列に再度音声認識した後、変更後の選択中辞書500を用いてその変更が行われた後の発話を時刻順に音声認識する。これにより、例えば、過去発話に関しては優先度を付けて音声認識を行うことができる。例えば、過去発話のうち実時間に近い発話と、通話開始時に近い発話とを優先的に音声認識する、等といったことが可能となる。また、過去発話が並列に音声認識されるため、過去発話の音声認識を早く完了させることが可能である。
 なお、本音声認識例では、発話区間検出と呼ばれる処理により発話区間検出を行って発話区間単位に並列に音声認識を行ったが、これは一例であって、例えば、文やフレーズ等を検出し、文単位やフレーズ単位等に並列に音声認識を行ってもよい。
 ・音声認識例その4:選択中辞書500が変更された場合、かつ、過去の音声ファイルと実時間の音声ファイルとを並列処理する場合
 上記の音声認識例その2では、変更後の選択中辞書500を用いてすべての過去発話を音声認識した後に、変更後の選択中辞書500を用いて実時間発話を音声認識している。これに対して、過去発話と実時間発話とを異なる音声ファイルに収録することで、過去発話と実時間発話とを並列に音声認識することが可能である。そこで、本音声認識例では、過去発話と実時間発話とを異なる音声ファイルに収録し、過去発話と実時間発話とを並列に音声認識する。
 図7に示すように、通話時間「00:35」の時点で発話1001~発話1008の音声認識テキストがデフォルト辞書500を用いた音声認識により得られているものとする。なお、発話1001、発話1003、発話1005及び発話1007はオペレータの発話、発話1002、発話1004、発話1006及び発話1008は顧客の発話である。
 このとき、通話時間「00:35」以降かつ通話時間「00:38」よりも前に選択中辞書500が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書500を用いて、既に音声認識済みの発話1001~発話1008が時刻順に音声認識されると共に、発話1009~発話1012も時刻順に音声認識される。すなわち、過去発話と実時間発話とが並列に、かつ、時刻順に音声認識される。
 図7に示す例では、通話時間「00:45」の時点で発話1001~発話1002と発話1009に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。この例は、過去発話である発話1001~発話1002と、実時間発話である発話1009とが並列に音声認識された場合である。また、通話時間「00:55」の時点で発話1001~発話1012に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。
 このように、選択中辞書500が変更された場合、本音声認識例では、変更後の選択中辞書500を用いてその変更が行われる前の発話とその変更が行われた後の発話とを並列に、かつ、時刻順に音声認識する。これにより、例えば、過去発話も同時に音声認識しつつ、実時間発話の音声認識を行うことが可能となる。
 ・音声認識例その5:選択中辞書500が変更された場合、かつ、過去の音声ファイルを発話区間単位に並列処理すると共に、過去の音声ファイルと実時間の音声ファイルとを並列処理する場合
 本音声認識例は上記の音声認識例その3と音声認識例その4とを組み合わせたものである。すなわち、本音声認識例では、過去発話と実時間発話とを異なる音声ファイルに収録すると共に、過去の音声ファイルに対して発話区間検出を行った上で、過去発話と実時間発話とを並列に音声認識する共に、過去発話に関しても並列に音声認識する。ただし、過去発話に関する並列数は音声認識エンジン数等に依存し、予め決められた数である。
 図8に示すように、通話時間「00:35」の時点で発話1001~発話1008の音声認識テキストがデフォルト辞書500を用いた音声認識により得られているものとする。なお、発話1001、発話1003、発話1005及び発話1007はオペレータの発話、発話1002、発話1004、発話1006及び発話1008は顧客の発話である。
 このとき、通話時間「00:35」以降かつ通話時間「00:38」よりも前に選択中辞書500が変更されたものとする。この場合、本音声認識例では、変更後の選択中辞書500を用いて、既に音声認識済みの発話1001~発話1008と発話1009~発話1012とが並列に音声認識されると共に、発話1001~発話1008に関しても並列に音声認識される。すなわち、過去発話と実時間発話とが並列に音声認識されると共に、過去発話自体も並列に音声認識される。
 図8に示す例では、通話時間「00:45」の時点で発話1001~発話1002と発話1005~発話1006と発話1009に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。この例は、並列数は3であり、過去発話と実時間発話とが並列に音声認識されると共に、過去発話内では発話1001~発話1002と発話1005~発話1006とが並列に音声認識された場合である。また、通話時間「00:55」の時点で発話1001~発話1012に関して変更後の選択中辞書500を用いた音声認識の音声認識テキストが得られている。
 このように、選択中辞書500が変更された場合、本音声認識例では、変更後の選択中辞書500を用いてその変更が行われる前の発話とその変更が行われた後の発話とを並列に音声認識すると共に、その変更が行われる前の発話に関しても更に並列で音声認識する。これにより、例えば、過去発話も同時に音声認識しつつ、実時間発話の音声認識を行うことが可能となる。また、例えば、過去発話に関しては優先度を付けて音声認識を行うことができる。更に、過去発話が並列に音声認識されるため、過去発話の音声認識を早く完了させることが可能である。
 <図3のステップS107における応対支援画面の詳細>
 以下、図3のステップS107における応対支援画面の詳細について説明する。図3のステップS107では、応対支援画面として以下の応対支援画面例その1又は応対支援画面例その2のいずれかがユーザ端末20に表示される。
 ・応対支援画面例その1
 応対支援画面例その1では、画面上には常に最新の実時間発話の音声認識テキストが表示される。この場合、過去発話の音声認識テキストはバックグラウンドで可視化される。
 例えば、音声認識例その4又は音声認識例その5により音声認識が行われた場合における応対支援画面を図9に示す。図9に示すように、応対支援画面2000の発話表示欄2100には、最新の実時間発話(図9に示す例では発話1009)の音声認識テキストが常に表示される。なお、新たに実時間発話が行われた場合、発話表示欄2100が自動的にスクロールされ、その実時間発話の音声認識テキストが表示される。一方で、過去発話の音声認識テキストはバックグラウンド(つまり、発話表示欄2100の非表示となっている部分)で可視化される。
 本応対支援画面例その1は、例えば、音声認識例その1、音声認識例その4又は音声認識例その5で用いられることが好ましい。
 ・応対支援画面例その2
 応対支援画面例その2では、画面を二分割し、一方の画面には常に最新の実時間発話の音声認識テキストが表示され、他方の画面には過去発話の音声認識テキストが表示される。
 例えば、音声認識例その4又は音声認識例その5により音声認識が行われた場合における応対支援画面を図10に示す。図10に示すように、応対支援画面3000の第1の発話表示欄3100には最新の実時間発話(図10に示す例では発話1009)の音声認識テキストが常に表示され、第2の発話表示欄3200には過去発話の音声認識テキストが表示される。なお、新たに実時間発話が行われた場合、第1の発話表示欄3100が自動的にスクロールされ、その実時間発話の音声認識テキストが表示される。一方で、過去発話の音声認識テキスト(変更後の選択中辞書500を用いて音声認識された音声認識テキストだけでなく、未だ変更後の選択中辞書500を用いて音声認識されていない音声認識テキストも含む)は第2の発話表示欄3200に表示される。
 本応対支援画面例その2は、例えば、音声認識例その1~音声認識例その5のいずれの音声認識例で用いられてもよい。
 なお、第2の発話表示欄3200に表示される過去発話の音声認識テキストに関しても、例えば、変更後の選択中辞書500を用いて音声認識された音声認識テキストのうち最新の音声認識テキストが表示されてもよい。また、例えば、変更後の選択中辞書500を用いた過去発話の音声認識が完了した場合、第1の発話表示欄3100のみが表示されてもよい(つまり、変更後の選択中辞書500を用いた過去発話の音声認識が完了した場合、第2の発話表示欄3200を非表示としてもよい。)。
 <まとめ>
 以上のように、本実施形態に係るコンタクトセンタシステム1では、オペレータと顧客との間の通話の音声(発話)の音声認識に用いられる音声認識辞書500が変更された場合、その変更前の発話に関しても変更後の音声認識辞書500により再度音声認識を行う。これにより、通話の開始時に適切な音声認識辞書500が選択されなかった場合であっても、通話全体を適切な音声認識辞書500により音声認識することが可能となる。このため、精度の良い音声認識結果を得ることが可能となり、その結果、例えば、応対品質の向上、各種分析の精度向上等に寄与することができる。
 <その他:補足>
 ・上記の音声認識例その2~音声認識例その5では、選択中辞書500が変更された場合には過去発話の音声認識が再度行われるため、通話終了までの時間が短い場合には音声認識が終了しない可能性がある。そこで、このような場合には、通話終了後も音声認識を継続する。これにより、通話全体の発話を適切な音声認識辞書500により音声認識することができる。
 ・選択中辞書500が変更された場合に、上記の音声認識例その2~音声認識例その5のいずれにより音声認識を行うかは、予め固定的に設定されていてもよいし、ユーザ(管理者、スーパバイザ、オペレータ等)により変更可能に設定されていてもよい。すなわち、選択中辞書500が変更された場合に、過去の音声ファイルを発話区間単位に並列処理するか否かと、過去の音声ファイルと実時間の音声ファイルとを並列処理するか否かとが予め固定的に設定されていてもよいし、ユーザにより変更可能に設定されていてもよい。
 <変形例>
 以下、本実施形態の変形例をいくつか説明する。
 ・変形例1
 上記の実施形態では、音声認識辞書500が変更された場合、その変更前の発話(過去発話)を変更後の音声認識辞書500により再度音声認識したが、変更前の音声認識辞書500と変更後の音声認識辞書500との関係によっては過去発話を再度音声認識しなくてもよい。
 例えば、変更前の音声認識辞書500が「金融業務に特化した音声認識辞書500」、変更後の音声認識辞書500が「保険業務に特化した音声認識辞書500」である場合、過去発話を再度音声認識しなくてもよい。これは、1つの通話内で金融に関する問い合わせ対応が行われた後に保険に関する問い合わせ対応が行われたと考えられ、いずれの問い合わせ対応でも適切な音声認識辞書500がオペレータにより選択されたものと考えられるためである。
 一方で、変更前の音声認識辞書500が「汎用的な用途の音声認識辞書500」、変更後の音声認識辞書500が「特定の業務に特化した音声認識辞書500」である場合、過去発話を再度音声認識する。これは、最初はオペレータが適切な音声認識辞書500を選択できず、汎用的な用途の音声認識辞書500がデフォルト辞書500として選択され、その後、適切な音声認識辞書500がオペレータにより選択されたものと考えられるためである。
 上記以外にも、例えば、問い合わせ内容や用件、その問い合わせの対象となる商品や技術等によっては、過去発話を再度音声認識しなくてもよい。例えば、問い合わせの対象となる商品が同種の保険の場合や対象が金融商品全般から保険に移った場合、同じ分野の技術や製品の場合等、変更前の音声認識辞書500が用いる言語や語彙等が対応・包含している場合には、変更後の音声認識辞書500によって再度音声認識をしなくてもよい。また、問合せの用件が共通又は類似していることが音声認識結果から判別できる場合等、変更前の音声認識辞書500と変更後の音声認識辞書500の両方で対応可能であることが音声認識辞書やその属性等からわかる場合には、変更後の音声認識辞書500によって再度音声認識をしなくてもよい。
 ・変形例2
 上記の実施形態では、音声認識辞書500が変更された場合に変更後の音声認識辞書500によりオペレータと顧客の両方の過去発話を再度音声認識したが、いずれか一方の過去発話のみ(顧客の過去発話のみ又はオペレータの過去発話のみ)を再度音声認識してもよい。例えば、顧客が方言を話す場合に、顧客の話す方言に応じて顧客の音声認識辞書500のみを変更して、顧客の発話のみ再度音声認識してもよい。このように音声認識辞書500をそれぞれ独立して持つことで、再音声認識の対象を限定し、再音声認識の負荷を低減できる。
 ・変形例3
 上記の実施形態では、音声認識辞書500は顧客及び全オペレータに共通のものを想定しているが、これに限られるものではない。オペレータが選択可能な音声認識辞書500は、例えば、そのオペレータ個人の発話特性や業務分野等に応じて異なっていてもよい。すなわち、各オペレータは、例えば、自身の発話特性や業務分野に適した音声認識辞書500を選択可能であってもよい。また、オペレータの音声認識辞書500は、顧客に合わせて選択してもよい。例えば、顧客が方言を話す場合に、オペレータが顧客に合わせて方言を交えて話す際には、途中でオペレータの音声認識辞書500を標準語のみに対応する辞書から、顧客の話す方言と標準語の両方に対応する音声認識辞書500に変更してもよい。このとき、音声認識辞書500が変更されたオペレータの過去発話のみを再音声認識対象とすればよく、上記の通り変更後の音声認識辞書500が顧客の話す方言とオペレータの話す標準語の両方に対応可能であることが音声認識辞書の属性等からわかる場合には、再度音声認識しなくてもよい。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
 1    コンタクトセンタシステム
 10   音声認識システム
 20   ユーザ端末
 30   電話機
 40   PBX
 50   NWスイッチ
 60   顧客端末
 70   通信ネットワーク
 101  音声収録部
 102  辞書選択部
 103  音声認識部
 104  UI提供部
 105  音声記憶部
 106  辞書記憶部
 107  通話履歴記憶部
 201  UI制御部
 E    コンタクトセンタ環境

Claims (12)

  1.  複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択するように構成されている選択部と、
     前記選択部によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている音声認識部と、
     を有し、
     前記音声認識部は、
     前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成するように構成されている、情報処理システム。
  2.  前記音声認識部は、
     前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記変更が行われる前の複数の発話を前記音声認識によりテキスト化し、前記音声認識テキストを生成するように構成されている、請求項1に記載の情報処理システム。
  3.  前記音声認識部は、
     前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記変更が行われる前の複数の発話のうち、前記顧客の発話のみを前記音声認識によりテキスト化し、前記音声認識テキストを生成するように構成されている、請求項1に記載の情報処理システム。
  4.  前記音声認識部は、
     前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記変更が行われた後の発話も前記音声認識によりテキスト化し、前記音声認識テキストを生成するように構成されている、請求項1に記載の情報処理システム。
  5.  前記音声認識部は、
     前記音声通話の開始後に所定の時間が経過するまで前記音声認識を実施せず、前記所定の時間が経過するまで前記選択部によって前記音声認識辞書が選択されなかった場合、予め決められた音声認識辞書を用いて、前記音声認識テキストを生成するように構成されている、請求項1に記載の情報処理システム。
  6.  前記音声認識部は、
     前記選択部によって選択された音声認識辞書が変更された場合であっても、前記音声通話の言語、問い合わせ内容、前記音声通話の用件、又は前記音声通話で対象となる商品若しくは技術に応じて、前記変更が行われる前の発話は音声認識しないように構成されている、請求項1に記載の情報処理システム。
  7.  複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択するように構成されている選択部と、
     前記選択部によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した第1の音声認識テキストを生成するように構成されている音声認識部と、
     前記第1の音声認識テキストを画面上に表示させるように構成されている表示部と、
     を有し、
     前記音声認識部は、
     前記選択部によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話と、前記変更が行われた後の発話とを前記音声認識によりテキスト化した第2の音声認識テキストを生成するように構成されており、
     前記表示部は、
     前記選択部によって選択された音声認識辞書が変更された場合、前記第2の音声認識テキストを前記画面上に表示させるように構成されている、情報処理システム。
  8.  前記表示部は、
     前記選択部によって選択された音声認識辞書が変更された場合、前記画面を第1の画面と第2の画面に分割し、前記変更が行われた後の発話を前記音声認識によりテキスト化した前記第2の音声認識テキストを前記第1の画面に表示し、前記変更が行われる前の発話を前記音声認識によりテキスト化した前記第1の音声認識テキスト又は前記第2の音声認識テキストを前記第2の画面に表示するように構成されている、請求項7に記載の情報処理システム。
  9.  前記表示部は、
     前記変更が行われた後の最新の発話を逐次的に前記音声認識によりテキスト化した前記第2の音声認識テキストを前記第1の画面に表示するように構成されている、請求項8に記載の情報処理システム。
  10.  前記表示部は、
     前記変更が行われる前の発話に対する前記音声認識が完了した場合、前記第2の画面を非表示とするように構成されている、請求項8又は9に記載の情報処理システム。
  11.  複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択する選択手順と、
     前記選択手順によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成する音声認識手順と、
     をコンピュータが実行し、
     前記音声認識手順は、
     前記選択手順によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成する、情報処理方法。
  12.  複数の音声認識辞書の中から、音声認識に用いられる音声認識辞書を選択する選択手順と、
     前記選択手順によって選択された音声認識辞書を用いて、顧客との間の音声通話に含まれる発話を前記音声認識によりテキスト化した音声認識テキストを生成する音声認識手順と、
     をコンピュータに実行させ、
     前記音声認識手順は、
     前記選択手順によって選択された音声認識辞書が変更された場合、変更後の音声認識辞書を用いて、前記音声通話に含まれる発話のうちの前記変更が行われる前の発話を前記音声認識によりテキスト化した音声認識テキストを生成する、プログラム。
PCT/JP2022/028380 2022-07-21 2022-07-21 情報処理システム、情報処理方法及びプログラム WO2024018598A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028380 WO2024018598A1 (ja) 2022-07-21 2022-07-21 情報処理システム、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028380 WO2024018598A1 (ja) 2022-07-21 2022-07-21 情報処理システム、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2024018598A1 true WO2024018598A1 (ja) 2024-01-25

Family

ID=89617570

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/028380 WO2024018598A1 (ja) 2022-07-21 2022-07-21 情報処理システム、情報処理方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2024018598A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
JP2011141349A (ja) * 2010-01-06 2011-07-21 Panasonic Corp 音声認識装置、音声認識方法および、そのプログラム並びに記録媒体
JP2014178381A (ja) * 2013-03-13 2014-09-25 Toshiba Corp 音声認識装置、音声認識システムおよび音声認識方法
JP2016119634A (ja) * 2014-12-23 2016-06-30 株式会社日立情報通信エンジニアリング コールセンタシステム及び通話監視方法
JP2019062404A (ja) * 2017-09-27 2019-04-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
JP2011141349A (ja) * 2010-01-06 2011-07-21 Panasonic Corp 音声認識装置、音声認識方法および、そのプログラム並びに記録媒体
JP2014178381A (ja) * 2013-03-13 2014-09-25 Toshiba Corp 音声認識装置、音声認識システムおよび音声認識方法
JP2016119634A (ja) * 2014-12-23 2016-06-30 株式会社日立情報通信エンジニアリング コールセンタシステム及び通話監視方法
JP2019062404A (ja) * 2017-09-27 2019-04-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法

Similar Documents

Publication Publication Date Title
US8457964B2 (en) Detecting and communicating biometrics of recorded voice during transcription process
US8086463B2 (en) Dynamically generating a vocal help prompt in a multimodal application
US8612230B2 (en) Automatic speech recognition with a selection list
US9349367B2 (en) Records disambiguation in a multimodal application operating on a multimodal device
US8706500B2 (en) Establishing a multimodal personality for a multimodal application
AU2004255809B2 (en) Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
JP4466665B2 (ja) 議事録作成方法、その装置及びそのプログラム
US20080255851A1 (en) Speech-Enabled Content Navigation And Control Of A Distributed Multimodal Browser
KR102136706B1 (ko) 정보 처리 시스템, 접수 서버, 정보 처리 방법 및 프로그램
US10382624B2 (en) Bridge for non-voice communications user interface to voice-enabled interactive voice response system
US20080235029A1 (en) Speech-Enabled Predictive Text Selection For A Multimodal Application
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
JP2007524928A (ja) 知的音声アプリケーション実行のためのマルチプラットフォーム対応推論エンジンおよび汎用文法言語アダプタ
US20110032845A1 (en) Multimodal Teleconferencing
JP6296821B2 (ja) 業務支援システム
JP2020071675A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
JP2009175336A (ja) コールセンターのデータベースシステム、その情報管理方法及び情報管理プログラム
US8027457B1 (en) Process for automated deployment of natural language
JP6513869B1 (ja) 対話要約生成装置、対話要約生成方法およびプログラム
JP2009182433A (ja) コールセンターの情報提供システム、情報提供装置、情報提供方法及び情報提供プログラム
WO2024018598A1 (ja) 情報処理システム、情報処理方法及びプログラム
US11895269B2 (en) Determination and visual display of spoken menus for calls
US7558733B2 (en) System and method for dialog caching
JP2010182191A (ja) 帳票入力装置、帳票入力システム、帳票入力方法、及びプログラム
JP7205962B1 (ja) 自動対話のためのシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22951983

Country of ref document: EP

Kind code of ref document: A1