WO2021064886A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
WO2021064886A1
WO2021064886A1 PCT/JP2019/038878 JP2019038878W WO2021064886A1 WO 2021064886 A1 WO2021064886 A1 WO 2021064886A1 JP 2019038878 W JP2019038878 W JP 2019038878W WO 2021064886 A1 WO2021064886 A1 WO 2021064886A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
unit
character
explanatory
character string
Prior art date
Application number
PCT/JP2019/038878
Other languages
English (en)
French (fr)
Inventor
辰彦 斉藤
相川 勇之
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2019/038878 priority Critical patent/WO2021064886A1/ja
Priority to JP2021550833A priority patent/JP6991409B2/ja
Priority to TW109101504A priority patent/TW202115713A/zh
Publication of WO2021064886A1 publication Critical patent/WO2021064886A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Definitions

  • the present invention relates to an information processing device, a program, and an information processing method.
  • the call center system needs to acquire various information through the interaction between the user who is the customer and the operator.
  • the user's name, address, telephone number, etc. are examples.
  • the operator confirmed such information with repetition and manually input the confirmed information into the call center system, which was very costly.
  • Patent Document 1 describes an operator identity verification support system that supports the operator's verification work by automatically checking the identity or other confirmation items using voice recognition.
  • the conventional operator identity verification support system recognizes the utterances of the user and the operator by voice and extracts keywords from the text indicating the recognized voice, but the voice alone is used for characters such as kanji or spelling such as name and address. Or, since it is difficult to specify the character string, it is difficult to extract the necessary information only by voice from the actual call.
  • an object of the present invention is to make it possible to automatically identify desired information from a voice including a description of a character or a character string.
  • the information processing device includes a voice recognition unit that recognizes the spoken voice from voice data including the spoken voice, a character or a character string from the recognized voice, and the character.
  • the explanatory part extraction unit that extracts the explanatory part that includes the explanatory expression that explains how to write the character string, and the character or the character string that is explained in the explanatory expression are used as unique information. It is characterized by including a unique information confirmation unit for determination.
  • the computer is subjected to a voice recognition unit that recognizes the spoken voice from voice data including the spoken voice, a character or a character string from the recognized voice, and the character.
  • a voice recognition unit that recognizes the spoken voice from voice data including the spoken voice, a character or a character string from the recognized voice, and the character.
  • the explanatory expression that explains how to write the character string the explanatory part extraction unit that extracts the explanatory part that is the portion including the character string, and the character or the character string that is explained in the explanatory expression are unique information. It is characterized in that it functions as a unique information confirmation unit, which is determined as.
  • the information processing method recognizes the spoken voice from voice data including the spoken voice, and from the recognized voice, a character or a character string and the character or the character string. It is characterized in that an explanatory expression for explaining how to write and an explanatory portion including a portion are extracted, and the character or the character string described in the explanatory expression is determined as unique information.
  • desired information can be automatically specified from a voice including a description of a character or a character string.
  • FIG. It is a block diagram which shows schematic structure of the call data information extraction apparatus which concerns on Embodiment 1.
  • FIG. It is the schematic which shows the 1st example of the explanatory extraction rule. It is the schematic which shows the 2nd example of the explanatory extraction rule. It is the schematic which shows the 1st example of explanatory expression information. It is the schematic which shows the 2nd example of explanatory expression information. It is the schematic which shows the 3rd example of explanatory expression information. It is the schematic which shows the 4th example of explanatory expression information. It is the schematic which shows the 5th example of explanatory expression information. It is a hardware block diagram of the call data information extraction apparatus which concerns on Embodiment 1.
  • FIG. 1 the explanatory extraction rule.
  • FIG. It is the schematic which shows the 2nd example of the explanatory extraction rule.
  • It shows the schematic which shows the 1st example of explanatory expression information.
  • FIG. 5 is a flowchart showing an operation of determining unique information from an input voice signal in the call data information extraction device according to the third embodiment. It is a block diagram which shows schematic structure of the call data information extraction apparatus which concerns on Embodiment 4.
  • FIG. 5 is a flowchart showing an operation of determining unique information from an input voice signal in the call data information extraction device according to the third embodiment. It is a block diagram which shows schematic structure of the call data information extraction apparatus which concerns on Embodiment 4.
  • FIG. 1 is a block diagram schematically showing a configuration of a call data information extraction device 100, which is an information processing device according to the first embodiment.
  • the call data information extraction device 100 includes a voice input unit 101, a voice acquisition unit 102, a voice recognition unit 103, an explanation part extraction unit 104, an explanation database (hereinafter referred to as an explanation DB) 105, and a unique information determination unit 106. And.
  • the call data information extraction device 100 performs voice recognition of the utterance with the above configuration, and determines the unique information based on the explanation DB 105.
  • the voice input unit 101 accepts the input of a voice signal indicating the input voice of the customer to be extracted.
  • the input voice signal is given to the voice acquisition unit 102.
  • the customer is referred to as a user.
  • the voice acquisition unit 102 acquires voice data by A / D (Analog / Digital) conversion of the voice signal given from the voice input unit 101 by, for example, PCM (Pulse Code Modulation).
  • a / D Analog / Digital
  • PCM Pulse Code Modulation
  • Voice The input voice indicated by the analog signal must be the voice of one speaker in advance.
  • voice separation technology it is necessary to separate the voices of the user and the operator in stereo.
  • voice separation technology it is necessary to separate the voices of each speaker in advance by voice separation technology or the like.
  • the voice input unit 101 receives an input of a voice signal indicating a user's input voice
  • the first embodiment is not limited to such an example.
  • the voice acquisition unit 102 may use a known technique to specify the input voice for each speaker from the input voice signal and generate voice data indicating the user's input voice.
  • the voice recognition unit 103 detects a voice section corresponding to the spoken voice from the voice data digitized by the voice acquisition unit 102, and performs voice recognition processing of the voice section to perform the voice uttered voice. Is recognized, and voice text data, which is text data indicating the utterance content corresponding to the uttered voice, is generated. The generated voice text data is given to the explanatory partial extraction unit 104.
  • the explanation partial extraction unit 104 obtains a character or a character string and an explanatory expression explaining how to write the character or the character string from the utterance content of the user, which is indicated by the voice text data given by the voice recognition unit 103. Extract the explanation part that is the part to be included. Then, the explanation part extraction unit 104 generates the explanation part text data indicating the extracted explanation part. The generated explanatory partial text data is given to the unique information determination unit 106.
  • the explanation part here describes supplementary information for determining characters or character strings such as kanji or spelling when it is difficult to determine characters or character strings such as kanji or spelling only by sound, such as name or address. Represents the part that is.
  • the explanation partial extraction unit 104 sets the utterance content.
  • a part indicated by the rule may be extracted as an explanatory part.
  • the explanation extraction rule is an expression rule used to explain how to write a character or a character string in the recognized speech.
  • the explanation extraction rule ⁇ ENTITY> of ⁇ DESCPRIPTION> is stored.
  • the utterance content is "Fukushima is a prefecture's Fukushima”
  • “Fukushima” becomes ⁇ ENTITY>
  • "Prefecture” becomes ⁇ DESCPRIPTION>.
  • the part corresponding to the first " ⁇ ENTITY>” is the character or character string to be explained
  • the part corresponding to " ⁇ ENTITY> of ⁇ DESCRIPTION>” is the explanatory expression.
  • the explanatory portion extraction unit 104 extracts the explanatory portion using the explanatory extraction rule information shown in FIG. 2 or FIG. 3, the first embodiment is not limited to such an example.
  • the explanatory portion extraction unit 104 may perform machine learning to extract the explanatory portion.
  • the explanation part extraction unit 104 may use a classifier such as an SVM (Support Vector Machine) to classify whether or not the explanation part is included in sentence or clause units.
  • SVM Small Vector Machine
  • a voice signal indicating an operator's input voice is also input to the voice acquisition unit 102 to generate voice data
  • the voice text data recognized from the voice data is also given to the explanation partial extraction unit 104.
  • the explanation part extraction unit 104 may extract the content uttered by the user as the explanation part after the operator utters a predetermined utterance content such as "what kind of kanji is it?".
  • the explanatory DB 105 is an explanatory expression information storage unit that stores explanatory expression information indicating explanatory expressions described as supplementary information for determining characters or character strings such as kanji or spelling only by sound. Is.
  • the explanatory expression information associates an explanatory expression with a character or a character string whose writing method is explained by the explanatory expression.
  • FIGS. 4 to 8 are schematic views showing an example of explanatory expression information stored in the explanatory DB 105.
  • FIG. 4 is an example of explanatory expression information when the unique information is a name in a single Chinese character. As shown in FIG. 4, one kanji is associated with the explanatory expression.
  • FIG. 5 is an example of explanatory expression information when the unique information is a name in a plurality of Chinese characters. As shown in FIG. 5, a plurality of Chinese characters are associated with the explanatory expression.
  • FIG. 6 is an example of explanatory expression information when the unique information is a Chinese name. As shown in FIG. 6, a Chinese name consisting of one Chinese character is associated with the Chinese explanatory expression.
  • FIG. 7 is an example of explanatory expression information when the unique information is an English name. As shown in FIG. 7, English names are associated with English explanatory expressions.
  • FIG. 8 shows an example in which the unique information is an address. As shown in FIG. 8, place names are associated with explanatory expressions.
  • the unique information confirmation unit 106 confirms the character or character string explained in the explanatory expression as unique information. For example, the unique information determination unit 106 determines the character or the character string explained in the explanatory expression by referring to the explanatory expression information stored in the explanatory DB 105.
  • the explanation portion indicated by the explanation portion text data given from the explanation portion extraction unit 104 includes the explanation expression indicated by the explanation expression information stored in the explanation DB 105. Judge whether or not. Then, when the explanation portion includes the explanation expression, the unique information determination unit 106 specifies the character or the character string associated with the explanation expression. Then, the unique information determination unit 106 determines the specified character or character string as unique information. The unique information determination unit 106 may output the unique information data indicating the confirmed unique information to another device (not shown) or a subsequent processing unit (not shown).
  • the unique information determination unit 106 may determine whether or not the explanatory expression is included in the explanatory portion by exact matching or partial matching of the character string, or is included in the explanatory portion, for example.
  • the degree of similarity between the present expression and the explanatory expression may be calculated by a known technique, and may be performed depending on whether or not the degree of similarity is equal to or higher than the threshold value. In this case, when the similarity is equal to or higher than the threshold value, it is determined that the explanatory portion includes the explanatory expression.
  • FIG. 9 is a hardware configuration diagram of the call data information extraction device 100 according to the first embodiment.
  • the call data information extraction device 100 includes a memory 11, a processor 12, a voice interface (hereinafter referred to as voice I / F) 13, and a text input interface (hereinafter referred to as text input I / F).
  • a computer 10 including a network interface (hereinafter referred to as a network I / F) 15 and a network interface (hereinafter referred to as a network I / F) 14.
  • the memory 11 stores the programs of the voice acquisition unit 102, the voice recognition unit 103, the explanation partial extraction unit 104, and the unique information determination unit 106, and their intermediate data. Further, the memory 11 functions as the explanatory DB 105 by storing the explanatory expression information.
  • the processor 12 reads a program from the memory 11 and executes the program to function as a voice acquisition unit 102, a voice recognition unit 103, an explanatory part extraction unit 104, and a unique information determination unit 106.
  • the processor 12 is, for example, a circuit such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor) that performs program processing.
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • the voice I / F13 is an interface that accepts the input of a voice signal.
  • the voice I / F 13 is an interface that outputs a response voice signal, which is a signal indicating the response voice.
  • the text input I / F14 is an interface for the operator to input text data.
  • the network I / F15 is an interface that communicates with a network (not shown).
  • the necessary program or data is stored in the internal memory 11 of the computer 10, but the necessary program or data is connected by connecting an external memory such as a USB (Universal Serial Bus) memory, for example. Etc. may be read by the computer 10. Further, the computer 10 may read necessary programs or data from other devices connected to the network via the network I / F15.
  • an external memory such as a USB (Universal Serial Bus) memory, for example. Etc. may be read by the computer 10.
  • the computer 10 may read necessary programs or data from other devices connected to the network via the network I / F15.
  • FIG. 10 is a flowchart showing the operation of the call data information extraction device 100 according to the first embodiment.
  • the voice input unit 101 receives an input of a voice signal indicating the voice spoken by the user (S10).
  • the voice acquisition unit 102 acquires the voice spoken by the user from the voice signal as voice data (S11).
  • the voice recognition unit 103 performs a voice recognition process for recognizing the voice indicated by the voice data, and generates voice text data indicating the utterance content which is the recognized voice (S12).
  • the voice recognition process is not limited to pattern recognition, and any known voice recognition process may be used.
  • Known speech recognition processes include, for example, Sadaoki Furui, "Voice Information Processing", Morikita Publishing, 1998, pp. It is described in 79-132 and the like.
  • the explanation part extraction unit 104 performs a process of extracting the explanation part from the utterance content indicated by the voice text data (S13), and determines whether or not the user's utterance content has an explanation part (S14). .. When there is an explanation part (Yes in S14), the explanation part extraction unit 104 gives the explanation part text data indicating the extracted explanation part to the unique information determination unit 106, and the process proceeds to step S15. If there is no explanation part (No in S14), the process returns to step S13.
  • step S15 the unique information determination unit 106 determines the unique information from the explanation portion indicated by the explanation portion text data by referring to the explanation expression information stored in the explanation DB 105.
  • the call data information extraction device 100 extracts the utterance portion from the user's voice and determines the unique information by referring to the explanatory expression information. As a result, the unique information can be automatically determined from the redundant input voice.
  • FIG. 11 is a block diagram schematically showing the configuration of the call data information extraction device 200, which is the information processing device according to the second embodiment.
  • the call data information extraction device 200 includes a voice input unit 101, a voice acquisition unit 102, a voice recognition unit 103, an explanation part extraction unit 204, an explanation DB 105, a unique information determination unit 106, an input reception unit 207, and the like. It includes a slip data generation unit 208, a slip data storage unit 209, and a database update unit (hereinafter referred to as a DB update unit) 210.
  • a DB update unit database update unit
  • the voice input unit 101, the voice acquisition unit 102, the voice recognition unit 103, the explanation DB 105, and the unique information determination unit 106 of the call data information extraction device 200 according to the second embodiment are the call data information extraction device 100 according to the first embodiment. This is the same as the voice input unit 101, the voice acquisition unit 102, the voice recognition unit 103, the explanation DB 105, and the unique information determination unit 106.
  • the explanation part extraction unit 204 extracts and extracts the explanation part from the user's utterance content indicated by the voice text data given by the voice recognition unit 103. Generates explanation part text data indicating the explanation part.
  • the explanation part extraction unit 204 gives the generated explanation part text data to the unique information determination unit 106 and stores it in the slip data storage unit 209.
  • the input reception unit 207 accepts text input from the operator.
  • the input receiving unit 207 receives an input of a character or a character string whose writing method is explained by the explanatory expression included in the explanatory portion extracted by the explanatory portion extracting unit 104.
  • the slip data generation unit 208 corresponds to the explanation expression included in the explanation part indicated by the explanation part text data stored in the slip data storage unit 209 from the operator via the input reception unit 207. Receives input with characters or character strings such as kanji or spelling that are the correct answer for the explanatory expression. Then, the slip data generation unit 208 generates slip data indicating the input character or character string and the corresponding explanatory expression. Then, the slip data generation unit 208 stores the generated slip data in the slip data storage unit 209. The slip data storage unit 209 stores the above-mentioned slip data.
  • the DB update unit 210 is an update unit that updates the explanatory expression information stored in the explanatory DB 105 based on the stored slip data when the slip data is stored in the slip data storage unit 209. For example, the DB update unit 210 adds the explanatory expression and the character or the character string indicated by the slip data to the explanatory expression information.
  • the input receiving unit 207 described above can be realized by the text input I / F 14 shown in FIG. Further, the slip data generation unit 208 and the DB update unit 210 can be realized by executing the corresponding program by the processor 12. It is assumed that this corresponding program is stored in the memory 11.
  • the slip data storage unit 209 can be realized by the memory 11.
  • FIG. 12 is a flowchart showing an operation of updating the explanatory expression information stored in the explanatory DB 105 in the call data information extracting device 200 according to the second embodiment.
  • the voice input unit 101 receives an input of a voice signal indicating the voice spoken by the user (S20).
  • the voice acquisition unit 102 acquires the voice spoken by the user from the voice signal as voice data (S21).
  • the voice recognition unit 103 performs a voice recognition process for recognizing the voice indicated by the voice data, and generates voice text data indicating the utterance content of the recognized voice (S22).
  • the explanation part extraction unit 104 extracts the explanation part from the utterance content indicated by the voice text data, generates the explanation part text data indicating the extracted explanation part, and generates the generated explanation part text data. It is stored in the slip data storage unit 209 (S23).
  • the slip data generation unit 208 corresponds to the explanation expression included in the explanation part indicated by the explanation part text data stored in the slip data storage unit 209 from the operator via the input reception unit 207. Then, in response to the input of the character or character string whose writing method is explained in the explanatory expression, slip data indicating the input character or character string and the corresponding explanatory expression is generated (S24). Then, the slip data generation unit 208 stores the generated slip data in the slip data storage unit 209.
  • the DB update unit 210 updates the explanatory expression information stored in the explanatory DB 105 based on the stored slip data (S25).
  • the call data information extraction device 200 can automatically update the explanatory expression information stored in the explanatory DB 105.
  • the operator fills in the user information such as the name field and the address field in the slip data. That is, by registering the utterance explaining the name and the name entered in the name column in association with each other, it is possible to presume that this correct answer data is uttered when the same explanation utterance is made from the next time. become.
  • the explanatory expression information stored in the explanatory DB 105 can be updated not only by using an actual call, but also, for example, the explanatory expression information can be updated from Chinese characters. That is, although it is conceivable to explain the radical and shape of the Chinese character, the DB update unit 210 can also automatically create an explanatory expression from the structure of the Chinese character.
  • FIG. 13 is a block diagram schematically showing the configuration of the call data information extraction device 300, which is the information processing device according to the third embodiment.
  • the call data information extraction device 300 includes a voice input unit 101, a voice acquisition unit 102, a voice recognition unit 303, an explanation part extraction unit 204, an explanation DB 105, a unique information determination unit 306, an input reception unit 207, and the like. It includes a slip data generation unit 208, a slip data storage unit 209, a DB update unit 210, and a voice recognition result correction unit 311.
  • the voice input unit 101, the voice acquisition unit 102, and the description DB 105 of the call data information extraction device 300 according to the third embodiment are the voice input unit 101, the voice acquisition unit 102, and the voice acquisition unit 102 of the call data information extraction device 100 according to the first embodiment. Description is the same as DB 105. Further, the explanatory partial extraction unit 204, the input reception unit 207, the slip data generation unit 208, the slip data storage unit 209, and the DB update unit 210 of the call data information extraction device 300 according to the third embodiment relate to the second embodiment. Description of the call data information extraction device 200 The same applies to the partial extraction unit 204, the input reception unit 207, the slip data generation unit 208, the slip data storage unit 209, and the DB update unit 210.
  • the voice recognition unit 303 generates voice text data in the same manner as the voice recognition unit 103 of the first embodiment. In the third embodiment, the voice recognition unit 303 gives the generated voice text data to the explanation partial extraction unit 204 and the voice recognition result correction unit 311.
  • the unique information confirmation unit 306 determines the unique information in the same manner as the unique information confirmation unit 106 of the first embodiment. In the third embodiment, the unique information confirmation unit 306 generates correction data indicating the fixed unique information and the explanatory portion used when the unique information is fixed, and corrects the correction data as a voice recognition result. Give to part 311.
  • the voice recognition result correction unit 311 corrects the voice text data given by the voice recognition unit 303 by using the correction data given by the unique information determination unit 306. For example, the voice recognition result correction unit 311 corrects the voice text data by replacing the part corresponding to the unique information confirmed by the unique information confirmation unit 306 with the unique information in the voice text data.
  • the voice recognition result correction unit 311 searches for the explanation part indicated by the correction data from the voice text data, and searches for the text of the character or the part corresponding to the character string included in the explanation part. , It is determined that the part corresponds to the unique information, and the part corresponding to the unique information in the voice text data is replaced with the unique information indicated by the correction data. For example, the voice recognition result correction unit 311 determines that the text of the ⁇ ENTITY> or ⁇ NAME> part corresponds to the unique information according to the explanation extraction rule shown in FIG. 2 or FIG. Then, the voice recognition result correction unit 311 replaces the part of the voice text data that matches the text of the part corresponding to the unique information with the unique information.
  • the voice recognition result correction unit 311 described above can be realized by executing the program corresponding to the processor 12. It is assumed that this corresponding program is stored in the memory 11.
  • FIG. 14 is a flowchart showing an operation of determining unique information from an input voice signal in the call data information extraction device 300 according to the third embodiment.
  • FIG. 14 the same processing as the processing of the steps of the flowchart shown in FIG. 10 is designated by the same reference numerals as those in FIG. 10, and detailed description thereof will be omitted.
  • steps S10 to S15 of FIG. 14 are the same as the processes in steps S10 to 15 of FIG.
  • the voice recognition unit 303 gives the generated voice text data to the explanation partial extraction unit 204 and the voice recognition result correction unit 311.
  • the unique information confirmation unit 306 generates correction data indicating the confirmed unique information and the explanatory portion used when the unique information is fixed, and voices the correction data. It is given to the recognition result correction unit 311. Then, after the process of step S15 of FIG. 14, the process proceeds to step S36.
  • step S36 the voice recognition result correction unit 311 corrects the voice text data given by the voice recognition unit 303 by using the correction data given by the unique information determination unit 306.
  • the voice recognition result correction unit 311 may output the corrected voice text data to another device (not shown) or a subsequent processing unit (not shown).
  • the voice recognition result can be modified by the determined unique information.
  • FIG. 15 is a block diagram schematically showing the configuration of the call data information extraction device 400, which is the information processing device according to the fourth embodiment.
  • the call data information extraction device 400 includes a voice input unit 101, a voice acquisition unit 102, a voice recognition unit 403, an explanation part extraction unit 204, an explanation DB 405, a unique information determination unit 306, an input reception unit 207, and the like. It includes a slip data generation unit 408, a slip data storage unit 409, a DB update unit 410, a voice recognition result correction unit 311, a response generation unit 412, and a response output unit 413.
  • the voice input unit 101 and the voice acquisition unit 102 of the call data information extraction device 400 according to the fourth embodiment are the same as the voice input unit 101 and the voice acquisition unit 102 of the call data information extraction device 100 according to the first embodiment. .. Further, the explanatory partial extraction unit 204 and the input receiving unit 207 of the call data information extracting device 400 according to the fourth embodiment are the explanatory partial extracting unit 204 and the input receiving unit 207 of the call data information extracting device 200 according to the second embodiment. Is similar to. Further, the unique information confirmation unit 306 and the voice recognition result correction unit 311 of the call data information extraction device 400 according to the fourth embodiment are the unique information confirmation unit 306 and the voice recognition of the call data information extraction device 300 according to the third embodiment. This is the same as the result correction unit 311.
  • the voice recognition unit 403 generates voice text data in the same manner as the voice recognition unit 103 of the first embodiment. In the fourth embodiment, the voice recognition unit 403 gives the generated voice text data to the explanation partial extraction unit 204, the voice recognition result correction unit 311 and the response generation unit 412.
  • the explanatory DB 405 stores explanatory expressions, characters or character strings whose writing method is explained by the explanatory expressions, and explanatory expression information indicating the reading of the characters or character strings.
  • the slip data generation unit 408 corresponds to the explanatory expression included in the explanatory portion indicated by the explanatory portion text data stored in the slip data storage unit 409 from the operator via the input reception unit 207.
  • slip data indicating the corresponding explanatory expression, the input character or character string, and the reading method.
  • the slip data generation unit 408 stores the generated slip data in the slip data storage unit 409.
  • the DB update unit 410 updates the explanatory expression information stored in the explanatory DB 405 based on the stored slip data. For example, the DB update unit 410 adds the explanatory expression shown in the slip data, the character or the character string, and the reading thereof to the explanatory expression information.
  • the response generation unit 412 identifies the character or character string included in the voice recognized by the voice recognition unit 403, and refers to the explanatory expression information stored in the explanatory DB 405 to identify the specified character or the specific character. From the explanatory expression explaining the specified character string, response data indicating a question sentence asking how to write the specified character or the specified character string is generated.
  • the response generation unit 412 refers to the explanatory expression information stored in the explanatory DB 405 when the utterance content indicated by the voice text data includes a specific expression such as a name and an address. Get the descriptive expression that corresponds to that particular expression. Then, the response generation unit 412 generates an interrogative sentence using the acquired explanatory expression, and generates response data indicating the interrogative sentence.
  • the response data is data that indicates the interrogative sentence by voice, but may be data that indicates the question sentence by image or text. The generated response data is given to the response output unit 413.
  • the response output unit 413 outputs the response data given by the response generation unit 412. For example, when the response data is voice data, the response output unit 413 outputs the voice of the interrogative sentence based on the voice data.
  • the response output unit 413 may display an image or text when the response data is image data or text data.
  • the voice-recognized content includes, for example, a name, "Saito is the simpler Saito, isn't it?" Or "Shunsuke Nakamura is the soccer player Nakamura. You can make a response to confirm the kanji or spelling of the name, such as "Isn't it?"
  • the response generation unit 412 described above can be realized by the processor 12 executing the corresponding program. It is assumed that this corresponding program is stored in the memory 11.
  • the response output unit 413 can be realized by the voice I / F13. Although not shown, the response output unit 413 may be a display I / F for displaying an image or text.
  • the voice input unit 101 receives the input of the voice signal
  • the voice acquisition unit 102 converts the voice signal into digital voice data. 4 is not limited to such an example.
  • the call data information extraction devices 100 to 400 acquire digital voice data via a communication unit (not shown) realized by the network I / F15 shown in FIG. 9, and the voice data. May be given to the voice recognition unit 103.
  • digital voice data is stored in advance in a storage unit (not shown) realized by the memory 11 shown in FIG. 9, and the voice data is stored in the storage unit (not shown). It may be given to the voice recognition unit 103.
  • 100,200,300,400 Call data information extraction device, 101 voice input unit, 102 voice acquisition unit, 103,303 voice recognition unit, 104,204 explanation part extraction unit, 105,405 explanation DB, 106,306 unique information confirmation Unit, 207 input reception unit, 208,408 slip data generation unit, 209,409 slip data storage unit, 210,410 DB update unit, 311 voice recognition result correction unit, 412 response generation unit, 413 response output unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

発話された音声を含む音声データから、発話された音声を認識する音声認識部(103)と、認識された音声から、文字又は文字列と、その文字又は文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部(104)と、抽出された説明表現で説明されている文字又は文字列を、固有情報として確定する固有情報確定部(106)とを備える。

Description

情報処理装置、プログラム及び情報処理方法
 本発明は、情報処理装置、プログラム及び情報処理方法に関する。
 コールセンターシステムは、お客様であるユーザとオペレータとのやり取りを通して、様々な情報を取得する必要がある。ユーザの氏名、住所又は電話番号等は、その一例である。従来、オペレータが、復唱を交えながらこのような情報を確認して、確認された情報をコールセンターシステムに手入力しており、非常にコストがかかっていた。
 これに対し、例えば特許文献1には、音声認識を用いて、本人又はその他の確認項目の自動チェックを行うことで、オペレータの確認作業を支援するオペレータ本人確認支援システムが記載されている。
特開2014-197140号公報
 しかしながら、従来のオペレータ本人確認支援システムは、ユーザ及びオペレータの発話を音声認識し、認識された音声を示すテキストからキーワードを抽出しているが、音声だけでは氏名や住所等の漢字又は綴りといった文字又は文字列を特定することが難しいため、実際の通話から、音声だけで必要な情報を抽出することは難しかった。
 そこで、本発明は、文字又は文字列の説明を含む音声から、自動的に所望の情報を特定できるようにすることを目的とする。
 本発明の一態様に係る情報処理装置は、発話された音声を含む音声データから、前記発話された音声を認識する音声認識部と、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部と、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部と、を備えることを特徴とする。
 本発明の一態様に係るプログラムは、コンピュータを、発話された音声を含む音声データから、前記発話された音声を認識する音声認識部、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部、及び、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部、として機能させることを特徴とする。
 本発明の一態様に係る情報処理方法は、発話された音声を含む音声データから、前記発話された音声を認識し、前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出し、前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定することを特徴とする。
 本発明の一又は複数の態様によれば、文字又は文字列の説明を含む音声から、自動的に所望の情報を特定することができる。
実施の形態1に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。 説明抽出ルールの第1の例を示す概略図である。 説明抽出ルールの第2の例を示す概略図である。 説明表現情報の第1の例を示す概略図である。 説明表現情報の第2の例を示す概略図である。 説明表現情報の第3の例を示す概略図である。 説明表現情報の第4の例を示す概略図である。 説明表現情報の第5の例を示す概略図である。 実施の形態1に係る通話データ情報抽出装置のハードウェア構成図である。 実施の形態1に係る通話データ情報抽出装置の動作を示すフローチャートである。 実施の形態2に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。 実施の形態2に係る通話データ情報抽出装置において、説明DBに記憶されている説明表現情報を更新する動作を示すフローチャートである。 実施の形態3に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。 実施の形態3に係る通話データ情報抽出装置において、入力される音声信号から固有情報を確定する動作を示すフローチャートである。 実施の形態4に係る通話データ情報抽出装置の構成を概略的に示すブロック図である。
実施の形態1.
 図1は、実施の形態1に係る情報処理装置である通話データ情報抽出装置100の構成を概略的に示すブロック図である。
 通話データ情報抽出装置100は、音声入力部101と、音声取得部102と、音声認識部103と、説明部分抽出部104と、説明データベース(以下、説明DBという)105と、固有情報確定部106とを備える。通話データ情報抽出装置100は、以上の構成で、発話の音声認識を行い、説明DB105に基づいて、固有情報を確定する。
 音声入力部101は、抽出対象であるお客様の入力音声を示す音声信号の入力を受け付ける。入力された音声信号は、音声取得部102に与えられる。以下、お客様をユーザという。
 音声取得部102は、音声入力部101から与えられる音声信号を、例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換することで、音声データを取得する。取得された音声データは、音声認識部103に与えられる。
 音声アナログ信号で示される入力音声は、予め一人分の話者の音声にしておく必要がある。例えば、コールセンターでの通話の場合には、ステレオで、ユーザと、オペレータとの音声を分離しておく必要がある。あるいは、モノラルで、複数話者の音声が混合している場合、事前に音声分離技術等で、話者毎の音声に分離しておく必要がある。
 ここでは、音声入力部101は、ユーザの入力音声を示す音声信号の入力を受けるものとするが、実施の形態1はこのような例に限定されない。例えば、音声取得部102において、公知の技術を用いて、入力された音声信号から、話者毎の入力音声を特定して、ユーザの入力音声を示す音声データが生成されてもよい。
 音声認識部103は、音声取得部102によりデジタル化された音声データから、発話された音声に該当する音声区間を検出して、その音声区間の音声の認識処理を行うことにより、発話された音声を認識して、その発話された音声に対応する発話内容を示すテキストのデータである音声テキストデータを生成する。生成された音声テキストデータは、説明部分抽出部104に与えられる。
 説明部分抽出部104は、音声認識部103から与えられた音声テキストデータで示される、ユーザの発話内容から、文字又は文字列と、その文字又は文字列の書き方を説明している説明表現とを含む部分である説明部分を抽出する。そして、説明部分抽出部104、抽出された説明部分を示す説明部分テキストデータを生成する。生成された説明部分テキストデータは、固有情報確定部106に与えられる。
 ここでいう説明部分は、氏名又は住所等、音だけでは漢字又は綴りといった文字又は文字列を確定することが難しい場合に、漢字又は綴りといった文字又は文字列を確定するための補足情報を述べている部分のことを表す。
 例えば、説明部分抽出部104は、音声テキストデータで示される発話内容が、例えば、図2又は図3に示されている説明抽出ルール情報で示されている説明抽出ルールに該当する場合に、そのルールで示されている一部を説明部分として抽出してもよい。
 ここで、説明抽出ルールは、認識された音声において、文字又は文字列の書き方を説明するために使用される表現のルールである。
 例えば、図2に示されている説明抽出ルール情報の一行目には、<ENTITY>は<DESCRIPTION>の<ENTITY>という説明抽出ルールが格納されている。
 発話内容が「フクシマは都道府県のフクシマ」である場合、「フクシマ」が<ENTITY>となり、「都道府県」が<DESCRIPTION>となる。ここで、最初の「<ENTITY>」に一致する部分が、説明される文字又は文字列となり、「<DESCRIPTION>の<ENTITY>」に一致する部分が、説明表現となる。
 なお、説明部分抽出部104は、図2又は図3に示されている説明抽出ルール情報を用いて説明部分を抽出しているが、実施の形態1はこのような例に限定されない。例えば、説明部分抽出部104は、機械学習を行って、説明部分を抽出してもよい。例えば、説明部分抽出部104は、SVM(Support Vector Machine)のような分類器を用いて、文又は文節単位で説明部分が含まれるかどうか分類してもよい。
 また、例えば、音声取得部102に、オペレータの入力音声を示す音声信号も入力して、音声データを生成し、その音声データから認識された音声テキストデータについても説明部分抽出部104に与えることで、説明部分抽出部104は、オペレータが「どのような漢字ですか?」といった予め定められた発話内容の発話をした後に、ユーザが発話する内容を説明部分として抽出してもよい。
 説明DB105は、音だけでは漢字又は綴りといった文字又は文字列を確定することが難しい場合に、それらを確定するための補足情報として述べられる説明表現を示す説明表現情報を記憶する説明表現情報記憶部である。説明表現情報は、説明表現と、その説明表現により書き方が説明される文字又は文字列とを対応付ける。
 ここで、図4~図8は、説明DB105に記憶されている説明表現情報の例を示す概略図である。
 図4は、固有情報が単数の漢字による名前である場合の説明表現情報の例である。図4に示されているように、説明表現に対して、一つ漢字が対応付けられている。
 図5は、固有情報が複数の漢字による名前である場合の説明表現情報の例である。図5に示されているように、説明表現に対して、複数の漢字が対応付けられている。
 図6は、固有情報が中国語の名前である場合の説明表現情報の例である。図6に示されているように、中国語の説明表現に対して、一つの漢字からなる中国語の名前が対応付けられている。
 図7は、固有情報が英語の名前である場合の説明表現情報の例である。図7に示されているように、英語の説明表現に対して、英語の名前が対応付けられている。
 図8は、固有情報が住所の例である。図8に示されているように、説明表現に対して、地名が対応付けられている。
 固有情報確定部106は、説明表現で説明されている文字又は文字列を、固有情報として確定する。例えば、固有情報確定部106は、説明DB105に記憶されている説明表現情報を参照することで、説明表現で説明されている文字又は文字列を確定する。
 具体的には、固有情報確定部106は、説明部分抽出部104から与えられる説明部分テキストデータで示される説明部分に、説明DB105に記憶されている説明表現情報で示される説明表現が含まれているか否かを判断する。そして、固有情報確定部106は、説明部分に説明表現が含まれている場合には、その説明表現に対応付けられている文字又は文字列を特定する。そして、固有情報確定部106は、特定された文字又は文字列を固有情報として確定する。固有情報確定部106は、確定された固有情報を示す固有情報データを別の装置(図示せず)又は後段の処理部(図示せず)に出力してもよい。
 ここでは、固有情報確定部106は、説明部分に説明表現が含まれているか否かの判断を、文字列の完全一致又は部分一致により行ってもよく、また、例えば、説明部分に含まれている表現と説明表現との類似度を公知の技術で計算し、その類似度が閾値以上であるか否かにより行ってもよい。この場合には、類似度が閾値以上である場合に、説明部分に説明表現が含まれていると判断される。
 図9は、実施の形態1に係る通話データ情報抽出装置100のハードウェア構成図である。
 図9に示されているように、通話データ情報抽出装置100は、メモリ11と、プロセッサ12と、音声インタフェース(以下、音声I/Fという)13と、テキスト入力インタフェース(以下、テキスト入力I/Fという)14と、ネットワークインタフェース(以下、ネットワークI/Fという)15とを備えるコンピュータ10で実現することができる。
 メモリ11は、音声取得部102、音声認識部103、説明部分抽出部104、固有情報確定部106のプログラム及びその中間データを記憶する。
 また、メモリ11は、説明表現情報を記憶することで、説明DB105として機能する。
 プロセッサ12は、メモリ11からプログラムを読み出し、そのプログラムを実行することで、音声取得部102、音声認識部103、説明部分抽出部104及び固有情報確定部106として機能する。プロセッサ12は、例えば、プログラム処理を行うCPU(Central Processing Unit)又はDSP(Digital Signal Processor)等の回路である。
 音声I/F13は、音声信号の入力を受け付けるインタフェースである。また、音声I/F13は、応答音声を示す信号である応答音声信号を出力するインタフェースである。
 テキスト入力I/F14は、オペレータがテキストデータの入力を行うインタフェースである。
 ネットワークI/F15は、ネットワーク(図示せず)と通信を行うインタフェースである。
 なお、図9において、必要なプログラム又はデータは、コンピュータ10の内部のメモリ11に記憶されているが、例えば、USB(Universal Serial Bus)メモリ等の外部メモリを接続して、必要なプログラム又はデータ等をコンピュータ10が読み込んでもよい。また、ネットワークI/F15を介して、ネットワークに接続された他の装置から、必要なプログラム又はデータをコンピュータ10が読み込んでもよい。
 次に動作について説明する。
 図10は、実施の形態1に係る通話データ情報抽出装置100の動作を示すフローチャートである。
 まず、音声入力部101は、ユーザが発話した音声を示す音声信号の入力を受ける(S10)。
 次に、音声取得部102は、音声信号から、ユーザが発話した音声を、音声データとして取得する(S11)。
 次に、音声認識部103は、音声データで示される音声を認識する音声認識処理を行い、認識された音声である発話内容を示す音声テキストデータを生成する(S12)。
 音声認識処理は、パターン認識に限定されるものではなく、公知の如何なる音声認識処理を用いたものでも良い。公知の音声認識処理は、例えば、古井貞煕著、『音声情報処理』、森北出版、1998年、pp.79-132等に記載されている。
 次に、説明部分抽出部104は、音声テキストデータで示される発話内容から、説明部分を抽出する処理を行い(S13)、ユーザの発話内容に説明部分があるか否かを判断する(S14)。説明部分がある場合(S14でYes)には、説明部分抽出部104は、抽出された説明部分を示す説明部分テキストデータを固有情報確定部106に与えて、処理はステップS15に進む。説明部分がない場合(S14でNo)には、処理はステップS13に戻る。
 ステップS15では、固有情報確定部106は、説明DB105に記憶されている説明表現情報を参照することで、説明部分テキストデータで示される説明部分から固有情報を確定する。
 以上のように、実施の形態1に係る通話データ情報抽出装置100は、ユーザの音声から発話部分を抽出し、説明表現情報を参照して固有情報を確定する。これによって、冗長な入力音声から自動的に固有情報を確定することができる。
実施の形態2.
 図11は、実施の形態2に係る情報処理装置である通話データ情報抽出装置200の構成を概略的に示すブロック図である。
 通話データ情報抽出装置200は、音声入力部101と、音声取得部102と、音声認識部103と、説明部分抽出部204と、説明DB105と、固有情報確定部106と、入力受付部207と、伝票データ生成部208と、伝票データ記憶部209と、データベース更新部(以下、DB更新部という)210とを備える。
 実施の形態2に係る通話データ情報抽出装置200の音声入力部101、音声取得部102、音声認識部103、説明DB105及び固有情報確定部106は、実施の形態1に係る通話データ情報抽出装置100の音声入力部101、音声取得部102、音声認識部103、説明DB105及び固有情報確定部106と同様である。
 説明部分抽出部204は、実施の形態1における説明部分抽出部104と同様に、音声認識部103から与えられた音声テキストデータで示される、ユーザの発話内容から、説明部分を抽出し、抽出された説明部分を示す説明部分テキストデータを生成する。
 実施の形態2では、説明部分抽出部204は、生成された説明部分テキストデータを、固有情報確定部106に与えるとともに、伝票データ記憶部209に記憶する。
 入力受付部207は、オペレータからのテキストの入力を受け付ける。例えば、入力受付部207は、説明部分抽出部104で抽出された説明部分に含まれている説明表現で書き方が説明された文字又は文字列の入力を受け付ける。
 伝票データ生成部208は、入力受付部207を介して、オペレータから、伝票データ記憶部209に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現に対して正解となる漢字又は綴りといった文字又は文字列との入力を受ける。そして、伝票データ生成部208は、入力された文字又は文字列と、対応する説明表現とを示す伝票データを生成する。そして、伝票データ生成部208は、生成された伝票データを、伝票データ記憶部209に記憶させる。
 伝票データ記憶部209は、上述の伝票データを記憶する。
 DB更新部210は、伝票データ記憶部209に、伝票データが記憶されると、記憶された伝票データに基づいて、説明DB105に記憶されている説明表現情報を更新する更新部である。例えば、DB更新部210は、伝票データで示されている説明表現、及び、文字又は文字列を説明表現情報に追加する。
 以上に記載された入力受付部207は、図9に示されているテキスト入力I/F14により実現可能である。
 また、伝票データ生成部208及びDB更新部210は、プロセッサ12が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ11に記憶されているものとする。
 伝票データ記憶部209は、メモリ11により実現可能である。
 次に動作について説明する。
 なお、実施の形態2においても、入力される音声信号から固有情報を確定する動作については、実施の形態1と同様である。
 図12は、実施の形態2に係る通話データ情報抽出装置200において、説明DB105に記憶されている説明表現情報を更新する動作を示すフローチャートである。
 まず、音声入力部101は、ユーザが発話した音声を示す音声信号の入力を受ける(S20)。
 次に、音声取得部102は、音声信号から、ユーザが発話した音声を、音声データとして取得する(S21)。
 次に、音声認識部103は、音声データで示される音声を認識する音声認識処理を行い、認識された音声による発話内容を示す音声テキストデータを生成する(S22)。
 次に、説明部分抽出部104は、音声テキストデータで示される発話内容から、説明部分を抽出し、抽出された説明部分を示す説明部分テキストデータを生成して、生成された説明部分テキストデータを伝票データ記憶部209に記憶させる(S23)。
 次に、伝票データ生成部208は、入力受付部207を介して、オペレータから、伝票データ記憶部209に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現で書き方が説明された文字又は文字列の入力を受けて、入力された文字又は文字列と、対応する説明表現とを示す伝票データを生成する(S24)。そして、伝票データ生成部208は、生成された伝票データを、伝票データ記憶部209に記憶させる。
 次に、DB更新部210は、伝票データ記憶部209に、伝票データが記憶されると、記憶された伝票データに基づいて、説明DB105に記憶されている説明表現情報を更新する(S25)。
 以上のように、実施の形態2によれば、通話データ情報抽出装置200は、自動で説明DB105に記憶されている説明表現情報を更新することができる。
 ここで、伝票データには、氏名欄、住所欄等のユーザ情報をオペレータが記入するようになっている。すなわち、氏名を説明する発話と氏名欄に記入された氏名とを紐づけて登録することで、次から同様の説明発話がなされたとき、この正解データが発話されたものとして推定することが可能になる。
 説明DB105に記憶されている説明表現情報は、実際の通話を使って更新する以外に、例えば、漢字から説明表現情報を更新することもできる。即ち、漢字の部首、形を説明することも考えられるが、DB更新部210は、漢字の構造から自動的に説明表現を作成することもできる。
実施の形態3.
 図13は、実施の形態3に係る情報処理装置である通話データ情報抽出装置300の構成を概略的に示すブロック図である。
 通話データ情報抽出装置300は、音声入力部101と、音声取得部102と、音声認識部303と、説明部分抽出部204と、説明DB105と、固有情報確定部306と、入力受付部207と、伝票データ生成部208と、伝票データ記憶部209と、DB更新部210と、音声認識結果修正部311とを備える。
 実施の形態3に係る通話データ情報抽出装置300の音声入力部101、音声取得部102及び説明DB105は、実施の形態1に係る通話データ情報抽出装置100の音声入力部101、音声取得部102及び説明DB105と同様である。
 また、実施の形態3に係る通話データ情報抽出装置300の説明部分抽出部204、入力受付部207、伝票データ生成部208、伝票データ記憶部209及びDB更新部210は、実施の形態2に係る通話データ情報抽出装置200の説明部分抽出部204、入力受付部207、伝票データ生成部208、伝票データ記憶部209及びDB更新部210と同様である。
 音声認識部303は、実施の形態1の音声認識部103と同様に音声テキストデータを生成する。
 実施の形態3では、音声認識部303は、生成された音声テキストデータを、説明部分抽出部204及び音声認識結果修正部311に与える。
 固有情報確定部306は、実施の形態1の固有情報確定部106と同様に、固有情報を確定する。
 実施の形態3では、固有情報確定部306は、確定された固有情報と、固有情報を確定した際に用いた説明部分とを示す修正用データを生成し、その修正用データを音声認識結果修正部311に与える。
 音声認識結果修正部311は、固有情報確定部306から与えられる修正用データを用いて、音声認識部303から与えられる音声テキストデータを修正する。例えば、音声認識結果修正部311は、音声テキストデータにおいて、固有情報確定部306で確定された固有情報に対応する部分を、その固有情報で置き換えることで、音声テキストデータを修正する。
 具体的には、音声認識結果修正部311は、修正用データで示されている説明部分を音声テキストデータから検索し、その説明部分に含まれている文字又は文字列に対応する部分のテキストを、固有情報に対応する部分と判断して、音声テキストデータの内、固有情報に対応する部分を、修正用データで示されている固有情報で置き換える。
 例えば、音声認識結果修正部311は、図2又は図3で示されている説明抽出ルールに従って、<ENTITY>又は<NAME>の部分のテキストを、固有情報に対応する部分と判断する。そして、音声認識結果修正部311は、音声テキストデータの内、その固有情報に対応する部分のテキストと一致する部分を、固有情報で置き換える。
 以上に記載された音声認識結果修正部311は、プロセッサ12が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ11に記憶されているものとする。
 次に動作について説明する。
 なお、実施の形態3においても、説明DB105に記憶されている説明表現情報を更新する動作については、実施の形態2と同様である。
 図14は、実施の形態3に係る通話データ情報抽出装置300において、入力される音声信号から固有情報を確定する動作を示すフローチャートである。
 図14において、図10に示されているフローチャートのステップの処理と同様の処理については、図10と同様の符号を付すことで、詳細な説明を省略する。
 図14のステップS10~S15までの処理は、図10のステップS10~15までの処理と同様である。
 但し、図14のステップS12において、音声認識部303は、生成された音声テキストデータを、説明部分抽出部204及び音声認識結果修正部311に与える。
 また、図14のステップS15において、固有情報確定部306は、確定された固有情報と、固有情報を確定した際に用いた説明部分とを示す修正用データを生成し、その修正用データを音声認識結果修正部311に与える。そして、図14のステップS15の処理の後は、処理はステップS36に進む。
 ステップS36では、音声認識結果修正部311は、固有情報確定部306から与えられる修正用データを用いて、音声認識部303から与えられる音声テキストデータを修正する。
 なお、音声認識結果修正部311は、修正された音声テキストデータを別の装置(図示せず)又は後段の処理部(図示せず)に出力してもよい。
 以上のように、実施の形態3によれば、確定された固有情報によって、音声認識結果を修正することができる。
実施の形態4.
 図15は、実施の形態4に係る情報処理装置である通話データ情報抽出装置400の構成を概略的に示すブロック図である。
 通話データ情報抽出装置400は、音声入力部101と、音声取得部102と、音声認識部403と、説明部分抽出部204と、説明DB405と、固有情報確定部306と、入力受付部207と、伝票データ生成部408と、伝票データ記憶部409と、DB更新部410と、音声認識結果修正部311と、応答生成部412と、応答出力部413とを備える。
 実施の形態4に係る通話データ情報抽出装置400の音声入力部101及び音声取得部102は、実施の形態1に係る通話データ情報抽出装置100の音声入力部101及び音声取得部102と同様である。
 また、実施の形態4に係る通話データ情報抽出装置400の説明部分抽出部204及び入力受付部207は、実施の形態2に係る通話データ情報抽出装置200の説明部分抽出部204及び入力受付部207と同様である。
 さらに、実施の形態4に係る通話データ情報抽出装置400の固有情報確定部306及び音声認識結果修正部311は、実施の形態3に係る通話データ情報抽出装置300の固有情報確定部306及び音声認識結果修正部311と同様である。
 音声認識部403は、実施の形態1の音声認識部103と同様に音声テキストデータを生成する。
 実施の形態4では、音声認識部403は、生成された音声テキストデータを、説明部分抽出部204、音声認識結果修正部311及び応答生成部412に与える。
 説明DB405は、説明表現と、その説明表現により書き方が説明される文字又は文字列と、その文字又は文字列の読みとを示す説明表現情報を記憶する。
 伝票データ生成部408は、入力受付部207を介して、オペレータから、伝票データ記憶部409に記憶されている説明部分テキストデータで示される説明部分に含まれている説明表現に対応して、その説明表現で書き方が説明された文字又は文字列と、その文字又は文字列の読み方との入力を受けて、対応する説明表現と、入力された文字又は文字列と、その読み方とを示す伝票データを生成する。そして、伝票データ生成部408は、生成された伝票データを、伝票データ記憶部409に記憶させる。
 DB更新部410は、伝票データ記憶部409に、伝票データが記憶されると、記憶された伝票データに基づいて、説明DB405に記憶されている説明表現情報を更新する。例えば、DB更新部410は、伝票データで示されている説明表現と、文字又は文字列と、その読み方とを説明表現情報に追加する。
 応答生成部412は、音声認識部403で認識された音声に含まれている文字又は文字列を特定し、説明DB405に記憶されている説明表現情報を参照することで、特定された文字又は特定された文字列を説明している説明表現から、特定された文字又は特定された文字列の書き方を問い合わせる疑問文を示す応答データを生成する。
 具体的には、応答生成部412は、音声テキストデータで示される発話内容に名前、住所等の特定の表現が含まれる場合に、説明DB405に記憶されている説明表現情報を参照することで、その特定の表現に対応する説明表現を取得する。
 そして、応答生成部412は、取得された説明表現を用いた疑問文を生成し、その疑問文を示す応答データを生成する。ここでは、応答データは、その疑問文を音声で示すデータとするが、画像又はテキストで示すデータであってもよい。生成された応答データは、応答出力部413に与えられる。
 応答出力部413は、応答生成部412から与えられる応答データを出力する。
 例えば、応答出力部413は、応答データが音声データである場合には、その音声データに基づいて疑問文の音声を出力する。
 なお、応答出力部413は、応答データが画像データ又はテキストデータである場合には、画像又はテキストを表示してもよい。
 実施の形態4によれば、音声認識された内容に、例えば、名前が含まれている場合に、「斉藤は、簡単な方の斉藤ですね?」、又は、「中村俊輔はサッカー選手の中村ですね?」といった、その名前の漢字又は綴りを確認する応答を行うことができる。
 以上に記載された応答生成部412は、プロセッサ12が対応するプログラムを実行することで、実現可能である。この対応するプログラムは、メモリ11に記憶されているものとする。
 応答出力部413は、音声I/F13により実現可能である。なお、応答出力部413は、図示されていないが、画像又はテキストを表示するための表示I/Fであってもよい。
 以上に記載された実施の形態1~4では、音声入力部101で音声信号の入力を受け付けて、音声取得部102で音声信号をデジタルの音声データに変換しているが、実施の形態1~4は、このような例に限定されない。例えば、通話データ情報抽出装置100~400は、図9に示されているネットワークI/F15により実現される通信部(図示せず)を介して、デジタルの音声データを取得して、その音声データを音声認識部103に与えてもよい。また、通話データ情報抽出装置100~400は、図9に示されているメモリ11により実現される記憶部(図示せず)に事前に、デジタルの音声データが記憶されており、その音声データを音声認識部103に与えてもよい。
 100,200,300,400 通話データ情報抽出装置、 101 音声入力部、 102 音声取得部、 103,303 音声認識部、 104,204 説明部分抽出部、 105,405 説明DB、 106,306 固有情報確定部、 207 入力受付部、 208,408 伝票データ生成部、 209,409 伝票データ記憶部、 210,410 DB更新部、 311 音声認識結果修正部、 412 応答生成部、 413 応答出力部。

Claims (8)

  1.  発話された音声を含む音声データから、前記発話された音声を認識する音声認識部と、
     前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部と、
     前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部と、を備えること
     を特徴とする情報処理装置。
  2.  前記説明部分抽出部は、前記認識された音声において、前記文字又は前記文字列の書き方を説明するために使用される表現のルールである説明抽出ルールに一致する部分を前記説明部分として抽出すること
     を特徴とする請求項1に記載の情報処理装置。
  3.  前記説明表現と、前記説明表現で説明されている前記文字又は前記文字列と、を対応付ける説明表現情報を記憶する説明表現情報記憶部をさらに備え、
     前記固有情報確定部は、前記説明表現情報を参照することで、前記説明表現で説明されている前記文字又は前記文字列を確定すること
     を特徴とする請求項1又は2に記載の情報処理装置。
  4.  前記説明部分に含まれている前記説明表現で説明される前記文字又は前記文字列の入力を受け付ける入力受付部と、
     前記入力受付部に入力された前記文字又は前記文字列と、前記入力受付部に入力された前記文字又は前記文字列の書き方を説明する前記説明表現とを対応付けて前記説明表現情報の一部として前記説明表現情報記憶部に記憶する更新部と、をさらに備えること
     を特徴とする請求項3に記載の情報処理装置。
  5.  前記音声認識部は、前記認識された音声を示すテキストのデータである音声テキストデータを生成し、
     前記音声テキストデータにおいて、前記固有情報確定部で確定された前記固有情報に対応する部分を、前記固有情報確定部で確定された前記固有情報で置き換えることで、前記音声テキストデータを修正する音声認識結果修正部をさらに備えること
     を特徴とする請求項1から4の何れか一項に記載の情報処理装置。
  6.  前記認識された音声に含まれている前記文字又は前記文字列を特定し、前記説明表現情報を参照することで、前記特定された文字又は前記特定された文字列を説明している前記説明表現から、前記特定された文字又は前記特定された文字列の書き方を問い合わせる疑問文を示す応答データを生成する応答生成部をさらに備えること
     を特徴とする請求項3又は4に記載の情報処理装置。
  7.  コンピュータを、
     発話された音声を含む音声データから、前記発話された音声を認識する音声認識部、
     前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出する説明部分抽出部、及び、
     前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定する固有情報確定部、として機能させること
     を特徴とするプログラム。
  8.  発話された音声を含む音声データから、前記発話された音声を認識し、
     前記認識された音声から、文字又は文字列と、前記文字又は前記文字列の書き方を説明している説明表現と、を含む部分である説明部分を抽出し、
     前記説明表現で説明されている前記文字又は前記文字列を、固有情報として確定すること
     を特徴とする情報処理方法。
PCT/JP2019/038878 2019-10-02 2019-10-02 情報処理装置、プログラム及び情報処理方法 WO2021064886A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/038878 WO2021064886A1 (ja) 2019-10-02 2019-10-02 情報処理装置、プログラム及び情報処理方法
JP2021550833A JP6991409B2 (ja) 2019-10-02 2019-10-02 情報処理装置、プログラム及び情報処理方法
TW109101504A TW202115713A (zh) 2019-10-02 2020-01-16 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/038878 WO2021064886A1 (ja) 2019-10-02 2019-10-02 情報処理装置、プログラム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2021064886A1 true WO2021064886A1 (ja) 2021-04-08

Family

ID=75337090

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/038878 WO2021064886A1 (ja) 2019-10-02 2019-10-02 情報処理装置、プログラム及び情報処理方法

Country Status (3)

Country Link
JP (1) JP6991409B2 (ja)
TW (1) TW202115713A (ja)
WO (1) WO2021064886A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017203764A1 (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017203764A1 (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
JP6991409B2 (ja) 2022-01-12
TW202115713A (zh) 2021-04-16
JPWO2021064886A1 (ja) 2021-04-08

Similar Documents

Publication Publication Date Title
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
US6735565B2 (en) Select a recognition error by comparing the phonetic
JP4867804B2 (ja) 音声認識装置及び会議システム
US8700397B2 (en) Speech recognition of character sequences
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7027985B2 (en) Speech recognition method with a replace command
EP2308042B1 (en) Method and device for generating vocabulary entries from acoustic data
JP2009169139A (ja) 音声認識装置
US20120203553A1 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
JPH10507536A (ja) 言語認識
KR19990008459A (ko) 개선된 신뢰도의 단어 인식방법 및 단어 인식기
US20090220926A1 (en) System and Method for Correcting Speech
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
CN113362817A (zh) 声音识别纠错装置、声音识别纠错方法以及声音识别纠错程序
JP2955297B2 (ja) 音声認識システム
JP6696803B2 (ja) 音声処理装置および音声処理方法
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
CN111798841B (zh) 声学模型训练方法、系统、移动终端及存储介质
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2001188556A (ja) 音声認識方法及び装置
JP2018180260A (ja) 音声認識装置
JPH0736481A (ja) 補完音声認識装置
JP2004309654A (ja) 音声認識装置
JP2002535728A (ja) サブワードメモリを含む音声認識装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19947753

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021550833

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19947753

Country of ref document: EP

Kind code of ref document: A1