WO2023073886A1 - 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 - Google Patents

情報処理システム、情報処理装置、情報処理方法、及び記録媒体 Download PDF

Info

Publication number
WO2023073886A1
WO2023073886A1 PCT/JP2021/039899 JP2021039899W WO2023073886A1 WO 2023073886 A1 WO2023073886 A1 WO 2023073886A1 JP 2021039899 W JP2021039899 W JP 2021039899W WO 2023073886 A1 WO2023073886 A1 WO 2023073886A1
Authority
WO
WIPO (PCT)
Prior art keywords
text data
context
data
information processing
word
Prior art date
Application number
PCT/JP2021/039899
Other languages
English (en)
French (fr)
Inventor
仁 山本
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2023555998A priority Critical patent/JPWO2023073886A1/ja
Priority to PCT/JP2021/039899 priority patent/WO2023073886A1/ja
Publication of WO2023073886A1 publication Critical patent/WO2023073886A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • This disclosure relates to the technical fields of information processing systems, information processing apparatuses, information processing methods, and recording media.
  • Patent Literature 1 discloses a technique of sequentially inputting speech patterns to an initially trained neural network to acquire speech recognition results, and selecting those in which misrecognition occurs as input patterns for additional learning.
  • Patent Document 2 discloses that learning is performed using a training data set composed of a speech signal and text and attribute information corresponding to the speech signal.
  • Patent Document 3 discloses generating a speech waveform based on attribute symbols that indicate text attributes such as titles and summaries.
  • JP-A-08-146996 JP 2020-154076 A Japanese Unexamined Patent Publication No. 06-044247
  • the purpose of this disclosure is to improve the technology disclosed in prior art documents.
  • One aspect of the information processing system disclosed herein includes first text data acquisition means for acquiring first text data, and voice data generation means for generating first voice data corresponding to the first text data.
  • context symbol acquisition means for acquiring a context symbol corresponding to a word included in said first text data; and text data for generating second text data by inserting said context symbol into said first text data.
  • generating means and learning means for learning a voice recognition means for receiving the first voice data and the second text data and generating text data corresponding to the voice data from the voice data.
  • One aspect of the information processing apparatus disclosed herein includes first text data acquisition means for acquiring first text data, and voice data generation means for generating first voice data corresponding to the first text data. , context symbol acquisition means for acquiring a context symbol corresponding to a word included in said first text data; and text data for generating second text data by inserting said context symbol into said first text data. generating means; and learning means for learning a voice recognition means for receiving the first voice data and the second text data and generating text data corresponding to the voice data from the voice data.
  • One aspect of the information processing method of the present disclosure is an information processing method executed by at least one computer, in which first text data is obtained, and first voice data corresponding to the first text data is generated. obtaining context symbols corresponding to words included in the first text data; inserting the context symbols into the first text data to generate second text data; Speech data and the second text data are input, and speech recognition means for generating text data corresponding to the speech data from the speech data is trained.
  • At least one computer obtains first text data, generates first voice data corresponding to the first text data, generates the first voice data corresponding to the first text data, obtaining a contextual symbol corresponding to a word contained in the first text data, inserting the contextual symbol into the first text data to generate second text data, the first speech data and the second text data is input, a computer program for executing an information processing method for training a speech recognition means for generating text data corresponding to the speech data from the speech data is recorded.
  • FIG. 2 is a block diagram showing the hardware configuration of the information processing system according to the first embodiment
  • FIG. 1 is a block diagram showing a functional configuration of an information processing system according to a first embodiment
  • FIG. 4 is a table showing an example of first text data, context symbols, and second text data
  • 4 is a flow chart showing the flow of operations by the information processing system according to the first embodiment
  • It is a block diagram which shows the functional structure of the information processing system which concerns on 2nd Embodiment.
  • 1 is a table showing an example of words and contextual symbols stored in a dictionary database
  • FIG. 11 is a block diagram showing a functional configuration of an information processing system according to a third embodiment
  • FIG. 10 is a flow chart showing the flow of update operation by the information processing system according to the third embodiment
  • FIG. 12 is a block diagram showing a functional configuration of an information processing system according to a fourth embodiment;
  • FIG. 16 is a flow chart showing the flow of word addition operation by the information processing system according to the fourth embodiment;
  • FIG. FIG. 12 is a block diagram showing a functional configuration of an information processing system according to a fifth embodiment;
  • FIG. FIG. 16 is a flow chart showing the flow of word addition operation by the information processing system according to the fifth embodiment;
  • FIG. FIG. 12 is a block diagram showing a functional configuration of an information processing system according to a sixth embodiment;
  • FIG. 1 is a table showing an example of words, context symbols and context examples stored in a dictionary database;
  • FIG. 16 is a flow chart showing the flow of word addition operation by the information processing system according to the sixth embodiment;
  • FIG. FIG. 22 is a block diagram showing a functional configuration of an information processing system according to a seventh embodiment;
  • FIG. FIG. 14 is a flow chart showing the flow of operations by an information processing system according to the seventh embodiment;
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 5.
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 5.
  • FIG. 1 is a block diagram showing the hardware configuration of an information processing system according to the first embodiment.
  • an information processing system 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device .
  • Information processing system 10 may further include an input device 15 and an output device 16 .
  • the processor 11 , RAM 12 , ROM 13 , storage device 14 , input device 15 and output device 16 are connected via a data bus 17 .
  • the processor 11 reads a computer program.
  • processor 11 is configured to read a computer program stored in at least one of RAM 12, ROM 13 and storage device .
  • the processor 11 may read a computer program stored in a computer-readable recording medium using a recording medium reader (not shown).
  • the processor 11 may acquire (that is, read) a computer program from a device (not shown) arranged outside the information processing system 10 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15 and the output device 16 by executing the read computer program.
  • the processor 11 implements a functional block for executing learning of the speech recognizer. That is, the processor 11 may function as a controller that executes each control of the information processing system 10 .
  • the processor 11 includes, for example, a CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (Field-Programmable Gate Array), DSP (Demand-Side Platform), ASIC (Application Specific Integral ted circuit).
  • the processor 11 may be configured with one of these, or may be configured to use a plurality of them in parallel.
  • the RAM 12 temporarily stores computer programs executed by the processor 11.
  • the RAM 12 temporarily stores data temporarily used by the processor 11 while the processor 11 is executing the computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores computer programs executed by the processor 11 .
  • the ROM 13 may also store other fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data that the information processing system 10 saves for a long period of time.
  • Storage device 14 may act as a temporary storage device for processor 11 .
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives input instructions from the user of the information processing system 10 .
  • Input device 15 may include, for example, at least one of a keyboard, mouse, and touch panel.
  • the input device 15 may be configured as a mobile terminal such as a smart phone or a tablet.
  • the output device 16 is a device that outputs information about the information processing system 10 to the outside.
  • the output device 16 may be a display device (eg, display) capable of displaying information regarding the information processing system 10 .
  • the output device 16 may be a speaker or the like capable of outputting information about the information processing system 10 by voice.
  • the output device 16 may be configured as a mobile terminal such as a smart phone or a tablet.
  • FIG. 1 illustrates an example of the information processing system 10 including a plurality of devices, but all or part of these functions may be realized by one device (information processing device).
  • This information processing apparatus is configured with, for example, only the processor 11, RAM 12, and ROM 13 described above, and the other components (that is, the storage device 14, the input device 15, and the output device 16) are It may be provided in an external device to be connected. Also, the information processing device may implement a part of the arithmetic function by an external device (for example, an external server, a cloud, etc.).
  • an external device for example, an external server, a cloud, etc.
  • FIG. 2 is a block diagram showing the functional configuration of the information processing system according to the first embodiment.
  • the information processing system 10 is configured to execute learning of the speech recognizer 50 .
  • the speech recognizer 50 is a device that generates text data from speech data. Training of the speech recognizer 50 is performed, for example, to generate text data with higher accuracy. The training of the speech recognizer 50 may be training of a conversion model used by the speech recognizer 50 (that is, a model for converting speech data into text data). Note that the information processing system 10 according to the first embodiment does not include the speech recognizer 50 itself as a component, but may be configured as a system including the speech recognizer 50 .
  • the information processing system 10 includes a first text data acquisition unit 110, a voice data generation unit 120, a context symbol acquisition unit 130, and a text data generation unit as components for realizing its functions. 140 and a learning unit 150 .
  • Each of the first text data acquisition unit 110, the speech data generation unit 120, the context symbol acquisition unit 130, the text data generation unit 140, and the learning unit 150 is a processing block realized by, for example, the processor 11 (see FIG. 1) described above. can be
  • the first text data acquisition unit 110 is configured to be able to acquire the first text data.
  • the first text data is text data acquired for training of the speech recognizer.
  • the first text data may be, for example, data consisting only of words, or may be text data in the form of sentences.
  • the first text data acquisition unit 110 may acquire a plurality of first text data. Note that the first text data acquisition unit 110 may acquire the first text data by voice input. That is, voice data may be converted into text data and acquired as the first text data.
  • the voice data generation unit 120 is configured to be able to generate first voice data from the first text data acquired by the first text data acquisition unit 110 . That is, the voice data generator 120 has a function of converting text data into voice data. As for the method of converting the text data into the voice data, existing technology can be appropriately adopted, so a detailed description thereof will be omitted here.
  • the context symbol acquisition unit 130 is configured to be able to acquire context symbols corresponding to words included in the first text data acquired by the first text data acquisition unit 110 .
  • a context symbol is information indicating how the word is used in context.
  • the context symbol may indicate a category of words such as "person's name”, “place name”, “organization name”, “product name”, etc., or may indicate a word category such as "noun", "verb”, etc. may indicate the part of speech of the word.
  • the context symbol acquisition unit 130 may acquire context symbols for each of the multiple words. In this case, the context symbol acquiring unit 130 may acquire context symbols for all words included in the first text data, or may acquire context symbols only for some words. A method of obtaining the context symbol will be described in detail in another embodiment described later.
  • the text data generation unit 140 is configured to be able to generate the second text data. Specifically, the text data generation unit 140 inserts the context symbol acquired by the context symbol acquisition unit 130 into the first text data acquired by the first text data, thereby generating the second text data. Generate. That is, the second text data is data composed of the first text data and context symbols. A method for generating the second text data will be described later in detail.
  • the learning unit 150 enables the speech recognizer 50 to learn using the first speech data generated by the speech data generation unit 120 and the second text data generated by the text data generation unit 140. It is configured. That is, the learning unit 150 is configured to perform learning using sets of first audio data and second text data that correspond to each other. In particular, since the context symbols are inserted in the second text data, not only the text but also the context symbols are considered when the learning unit 150 learns.
  • FIG. 3 is a table showing an example of first text data, context symbols, and second text data.
  • the text data generation unit 140 generates the second text data by inserting the context symbol "person's name” into the text data "Taro XX”. Specifically, the text data generation unit 140 generates the second text data of " ⁇ Person's name>Taro ⁇ /Person's name>".
  • the text data generation unit 140 generates the second text data by inserting the context symbol "place name” into the text data "XX tower”. Specifically, the text data generation unit 140 generates the second text data " ⁇ place name> ⁇ tower ⁇ /place name>".
  • contextual symbols may be inserted only before words.
  • the second text data such as " ⁇ name of person> OO Taro" or " ⁇ place name> OO tower” may be generated.
  • contextual symbols may be inserted only after words.
  • the second text data such as "Taro ⁇ /person's name>” and "Tower ⁇ /place>” may be generated.
  • first text data is in a sentence format
  • a context symbol should be inserted at the position of each word. For example, when the first text data "I will set up a meeting with Mr. D today.” You may set the second text data "Name of person> to set up a meeting.”
  • FIG. 4 is a flow chart showing the operation flow of the information processing system according to the first embodiment.
  • the first text data acquisition unit 110 first acquires first text data (step S101).
  • the first text data acquired by the first text data acquisition section 110 is output to each of the speech data generation section 120, the context symbol acquisition section 130, and the text data generation section 140.
  • the voice data generation unit 120 generates first voice data from the first text data (step S102).
  • the first audio data generated by the audio data generating section 120 is output to the learning section 150 .
  • the context symbol acquisition unit 130 acquires context symbols corresponding to words included in the first text data (step S103).
  • the context symbol acquired by the context symbol acquisition section 130 is output to the text data generation section 140 .
  • the text data generation unit 140 generates second text data by inserting the context symbol acquired by the context symbol acquisition unit 130 into the first text data acquired by the first text data acquisition unit 110. (Step S104).
  • the second text data generated by the text data generating section 140 is output to the learning section 150 .
  • the learning unit 150 executes learning of the speech recognizer 50 using the first speech data generated by the speech data generation unit 120 and the second text data generated by the text data generation unit 140. (step S106). Note that the series of processes described above may be repeatedly executed each time the first text data is acquired.
  • the speech recognizer 50 learns using the second text data containing the context symbols. In this way, contextual symbols are taken into account during training of the speech recognizer 50 . As a result, learning can be performed by considering how the words included in the first text data are used in context. Therefore, it becomes possible to learn the speech recognizer more appropriately.
  • FIG. 5 An information processing system 10 according to the second embodiment will be described with reference to FIGS. 5 and 6.
  • FIG. 5 It should be noted that the second embodiment may differ from the above-described first embodiment only in a part of configuration and operation, and the other parts may be the same as those of the first embodiment. Therefore, in the following, portions different from the already described first embodiment will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 5 is a block diagram showing the functional configuration of an information processing system according to the second embodiment.
  • symbol is attached
  • the information processing system 10 includes a first text data acquisition unit 110, a voice data generation unit 120, and a context symbol acquisition unit as components for realizing its functions. 130, a text data generation unit 140, a learning unit 150, and a dictionary database (DB) 200. That is, the information processing system 10 according to the second embodiment further includes a dictionary database 200 in addition to the configuration of the first embodiment already described (see FIG. 2).
  • the dictionary database 200 may be implemented, for example, by the storage device 14 (see FIG. 1) described above.
  • the dictionary database 200 is configured so that words and contexts can be associated and stored.
  • the dictionary database 200 may store a plurality of pairs, for example one word and one context.
  • Information about words and contexts stored in the dictionary database 200 (hereinafter referred to as “dictionary data”) can be read by the context symbol acquisition unit 130 as appropriate.
  • the dictionary data may be input in advance by a user or the like.
  • the dictionary data may be configured to be manually or automatically updated (eg, changed, added, deleted, etc.). The updating of dictionary data will be described in detail in another embodiment described later.
  • the context symbol acquisition unit 130 is configured to be able to acquire context symbols using the dictionary database 200 described above.
  • the context symbol acquisition unit 130 confirms whether or not the word included in the first text data is registered in the dictionary database 200, and if it is registered, the word is associated with the word and stored. Get the context symbol. For words that are not registered in the dictionary database 200, the context symbols may not be acquired, or the context symbols may be acquired using means other than the dictionary database 200. FIG.
  • FIG. 6 is a table showing an example of words and contextual symbols stored in the dictionary database.
  • the dictionary database 200 stores a plurality of words and contextual symbols that are associated with each other.
  • the word “Taro” and the context symbol “person's name” are associated and stored.
  • the word “ ⁇ Hanako” and the contextual symbol “person's name” are linked and memorized.
  • the word “XX Tower” and the context symbol “place name” are linked and stored.
  • the word “FT-00” and the context symbol “product name” are associated and stored.
  • the word “ ⁇ department” and the context symbol “organization” are associated and stored.
  • one word and one contextual symbol are stored as a pair, but the dictionary database 200 may store a plurality of contextual symbols associated with one word. good.
  • the dictionary database 200 may associate and store a context symbol of "person's name” and a context symbol of "noun” for the word "Taro OO".
  • the dictionary database 200 is used to acquire context symbols. In this way, it is possible to acquire the appropriate context symbol more easily.
  • FIG. 7 An information processing system 10 according to the third embodiment will be described with reference to FIGS. 7 and 8.
  • FIG. The third embodiment may differ from the above-described second embodiment only in a part of configuration and operation, and the other parts may be the same as those of the first and second embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 7 is a block diagram showing the functional configuration of an information processing system according to the third embodiment.
  • symbol is attached
  • the information processing system 10 includes a first text data acquisition unit 110, a voice data generation unit 120, and a context symbol acquisition unit as components for realizing its functions. 130 , a text data generation unit 140 , a learning unit 150 , a dictionary database 200 , a dictionary data presentation unit 210 , and a dictionary data update unit 220 . That is, the information processing system 10 according to the third embodiment further includes a dictionary data presenting unit 210 and a dictionary data updating unit 220 in addition to the configuration of the second embodiment already described (see FIG. 5). there is
  • the dictionary data presenting unit 210 may be implemented using, for example, the output device 16 (see FIG. 1) described above.
  • the dictionary data update unit 220 may be a processing block implemented by the above-described processor 11 (see FIG. 1), for example.
  • the dictionary data presentation unit 210 is configured to present the dictionary data stored in the dictionary database 200 to the user.
  • a method of presenting dictionary data by the dictionary data presenting unit 210 is not particularly limited.
  • the dictionary data presenting unit 210 may display dictionary data to the user via a display.
  • the dictionary data presenting section 210 may output the dictionary data by voice through a speaker.
  • the dictionary data update unit 220 is configured to be able to update the dictionary data in the dictionary database 200 according to the operation of the user who receives the presentation of the dictionary data. For example, when the user performs an operation to input new words and contextual symbols, the dictionary data update unit 220 may perform processing to newly add those words and contextual symbols to the dictionary database 200 . Further, when the user performs an operation to change (correct) a context symbol associated with a word that has already been registered, the dictionary data update unit 220 may perform processing to rewrite the dictionary database 200 to the changed one. Also, when the user performs an operation to delete already registered words and contextual symbols, the dictionary data updating unit 220 may perform processing to delete those words and contextual symbols from the dictionary database 200 .
  • FIG. 8 is a flow chart showing the flow of update operation by the information processing system according to the third embodiment.
  • the dictionary data presentation unit 210 presents the dictionary data stored in the dictionary database 200 to the user (step S301).
  • the dictionary data presenting unit 210 may present all stored dictionary data (for example, display in a list format), or may present only a part of the stored dictionary data.
  • the dictionary data update unit 220 receives input from the user who received the dictionary data (step S302). Then, the dictionary data updating unit 220 updates the dictionary data stored in the dictionary database 200 according to the user's input (step S303). Note that the operation of updating the dictionary data described above may be performed separately from the operation of learning the speech recognizer 50 described in the first embodiment (see FIG. 4) (for example, before starting the operation of learning). . However, the operation of updating the dictionary data may be executed in parallel with the operation of learning the speech recognizer 50 .
  • dictionary data is updated according to user input.
  • new dictionary data can be added, and inappropriate dictionary data can be corrected or deleted.
  • the context symbol acquisition unit 130 can acquire more appropriate context symbols.
  • FIG. 9 An information processing system 10 according to the fourth embodiment will be described with reference to FIGS. 9 and 10.
  • FIG. 9 It should be noted that the fourth embodiment may differ from the above-described second and third embodiments only in part in configuration and operation, and may be otherwise the same as the first to third embodiments. . Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 9 is a block diagram showing the functional configuration of an information processing system according to the fourth embodiment.
  • symbol is attached
  • the information processing system 10 includes a first text data acquisition unit 110, a voice data generation unit 120, and a context symbol acquisition unit as components for realizing its functions. 130 , a text data generation unit 140 , a learning unit 150 , a dictionary database 200 , a second text data acquisition unit 230 and a word addition unit 240 . That is, the information processing system 10 according to the fourth embodiment further includes a second text data acquisition unit 230 and a word addition unit 240 in addition to the configuration of the second embodiment already described (see FIG. 5). ing.
  • Each of the second text data acquisition unit 230 and the word addition unit 240 may be a processing block implemented by, for example, the above-described processor 11 (see FIG. 1).
  • the second text data acquisition unit 230 is configured to be able to acquire learning text data for learning the dictionary database 200 (that is, adding new dictionary data).
  • the learning text data may be text data that does not contain contextual symbols (for example, text data consisting only of words or sentences), or text data that contains contextual symbols (for example, the same format as the second text data). text data).
  • the second text data acquisition unit 230 may acquire a plurality of learning text data. Note that the second text data acquisition unit 230 may acquire the learning text data by voice input. That is, voice data may be converted into text data and acquired as text data for learning.
  • the word addition unit 240 is configured to be able to add words included in the learning text data to the dictionary database 200.
  • the word addition unit 240 may have a function of analyzing the text data for learning and extracting words contained therein. When the second text data contains a plurality of words, the word adding section 240 may add all of them to the dictionary database 200, or may add only some of them.
  • the word addition unit 240 may automatically select the words to be added to the dictionary database 200, or may select the words according to the user's input. A specific method of adding words by the word adding unit 240 will be described in detail in another embodiment described later.
  • FIG. 10 is a flow chart showing the flow of word addition operation by the information processing system according to the fourth embodiment.
  • the second text data acquisition unit 230 first acquires learning text data (step S401).
  • the learning text data acquired by the second text data acquisition section 230 is output to the word addition section 240 .
  • the word addition unit 240 analyzes the learning text data (step S402). For example, the word addition unit 240 analyzes the learning text data and extracts words contained therein. After that, the word adding unit 240 adds the words included in the learning text data to the dictionary database 200 (step S403).
  • new words are added to the dictionary database 200 using text data for learning.
  • the number of words registered in the dictionary database 200 can be easily increased.
  • the context symbol acquisition unit 130 can acquire more appropriate context symbols.
  • FIG. 11 An information processing system 10 according to the fifth embodiment will be described with reference to FIGS. 11 and 12.
  • FIG. 11 It should be noted that the fifth embodiment may differ from the above-described fourth embodiment only in a part of configuration and operation, and the other parts may be the same as those of the first to fourth embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 11 is a block diagram showing the functional configuration of an information processing system according to the fifth embodiment.
  • symbol is attached
  • the information processing system 10 includes a first text data acquisition unit 110, a voice data generation unit 120, and a context symbol acquisition unit as components for realizing its functions. 130, a text data generation unit 140, a learning unit 150, a dictionary database 200, a second text data acquisition unit 230, a word addition unit 240, a word extraction unit 250, and an extracted word presentation unit 260. configured as follows.
  • the information processing system 10 according to the fifth embodiment further includes a word extraction unit 250 and an extracted word presentation unit 260 in addition to the configuration of the fourth embodiment already described (see FIG. 9).
  • the word extractor 250 may be, for example, a processing block implemented by the above-described processor 11 (see FIG. 1).
  • the extracted word presenting unit 260 may be implemented using the output device 16 (see FIG. 1) described above, for example.
  • the word extraction unit 250 is configured to be able to extract words from the learning text data acquired by the second text data acquisition unit.
  • the word extraction unit 250 may extract all words included in the learning text data, or may extract only some of the words.
  • the word extraction unit 250 may extract only words that are not registered in the dictionary database 200 from among the words included in the learning text data.
  • the extracted word presentation unit 260 is configured to be able to present the words extracted by the word extraction unit 250 to the user.
  • the method of presenting the extracted words by the extracted word presenting unit 260 is not particularly limited.
  • the extracted word presenting section 260 may display the extracted words to the user via a display.
  • the extracted word presenting unit 260 may output the extracted word by voice through a speaker.
  • the word addition unit 240 is configured to be able to add words to the dictionary data of the dictionary database 200 in accordance with the operation of the user who has received the presentation of the extracted words. For example, when the user selects at least one word from the extracted words, the word addition unit 240 may perform processing to newly add the word selected by the user to the dictionary database 200 . In addition, when the user performs an operation of associating a context symbol with an extracted word (for example, an operation of inputting a context symbol associated with the word), the word addition unit 240 adds the word and the context symbol to A process of newly adding to the dictionary database 200 may be performed.
  • FIG. 12 is a flow chart showing the flow of word addition operation by the information processing system according to the fifth embodiment.
  • the second text data acquisition unit 230 first acquires learning text data (step S501).
  • the learning text data acquired by the second text data acquisition section 230 is output to the word extraction section 250 .
  • the word extraction unit 250 extracts words from the learning text data (step S502). Information about the words extracted by the word extractor 250 is output to the extracted word presenter 260 . Then, the extracted word presenting unit 260 presents the words extracted by the word extracting unit 250 to the user (step S503).
  • the word addition unit 240 receives input from the user who received the presentation of the extracted word (step S504). Then, the word adding unit 240 adds the word extracted by the word extracting unit 250 to the dictionary database 200 according to the user's input (step S505).
  • new words are added to the dictionary database 200 as input by the user.
  • the number of words registered in the dictionary database 200 can be increased.
  • User input also associates more appropriate contextual symbols with words.
  • the context symbol acquisition unit 130 can acquire more appropriate context symbols.
  • FIG. 13 to 15 An information processing system 10 according to the sixth embodiment will be described with reference to FIGS. 13 to 15.
  • FIG. It should be noted that the sixth embodiment may differ from the above-described fourth and fifth embodiments only in part in configuration and operation, and may be otherwise identical to the first to fifth embodiments. . Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 13 is a block diagram showing the functional configuration of an information processing system according to the sixth embodiment.
  • symbol is attached
  • the information processing system 10 includes a first text data acquisition unit 110, a voice data generation unit 120, and a context symbol acquisition unit as components for realizing its functions. 130 , a text data generation unit 140 , a learning unit 150 , a dictionary database 200 , a second text data acquisition unit 230 and a word addition unit 240 . Further, the word addition unit 240 according to the sixth embodiment particularly includes a context similarity determination unit 245 .
  • the dictionary database 200 is configured to be able to store context examples in addition to words and context symbols.
  • the dictionary database 200 stores, for example, pairs of words, context symbols, and context examples as dictionary data.
  • the dictionary database 200 may be configured to store multiple context examples for one word or one context symbol.
  • the example context may be input by the user in advance, or may be acquired when updating the dictionary database 200 (for example, included in previous learning text data). good.
  • the context similarity determination unit 245 determines whether or not the first context included in the learning text data acquired by the second text data acquisition unit 230 is similar to the context examples stored in the dictionary database 200. .
  • the context similarity determination unit 245 calculates, for example, the degree of matching between the first context included in the learning text data and the example contexts stored in the dictionary database 200, and when the degree of matching exceeds a predetermined value, , it may be determined that the first context and the example context are similar.
  • the word addition unit 240 is configured to be able to add new words to the dictionary database 200 according to the determination result of the context similarity determination unit 245 .
  • a method of adding words according to the determination result of the context similarity determination unit 245 will be described later in detail.
  • the word addition unit 240 may be configured to be able to add words by other methods than just adding words according to the determination result of the context similarity determination unit 245 .
  • the word adding unit 240 may be configured to add words according to user input, as described in the fifth embodiment (see FIGS. 11 and 12).
  • FIG. 14 is a table showing an example of words, context symbols, and context examples stored in the dictionary database.
  • the dictionary database 200 associates and stores words, context symbols, and context examples.
  • Context examples may be stored primarily in association with context symbols.
  • a context symbol "person's name” is stored in association with a context example "Your name is Mr. XX”.
  • a context example "I went to XX” is associated with the context symbol "place name” and stored.
  • the context symbol "product name” is stored in association with the context example "XX is under development”.
  • a context symbol "organization name” is stored in association with a context example "who belongs to ______”.
  • context examples may be stored in association with one context example. Also, context examples may be stored in association with each word. For example, even if the context symbols are words in common, separate context examples may be linked and stored.
  • FIG. 15 is a flow chart showing the flow of word addition operation by the information processing system according to the sixth embodiment.
  • the second text data acquisition unit 230 first acquires learning text data (step S601).
  • the training text data acquired by the second text data acquisition section 230 is output to the context similarity determination section 245 of the word addition section 240 .
  • the context similarity determination unit 245 determines whether the first context included in the learning text data acquired by the second text data acquisition unit 230 is similar to the example context stored in the dictionary database 200. is determined (step S602).
  • the word adding unit 240 associates the words included in the first context with the example context determined to be similar. It is stored in the dictionary database 200 as being associated with the stored context symbol (step S603). For example, a context symbol "person's name” is stored in association with a context example "Your name is ⁇ , isn't it?" If the contexts "Mr. B" and "Your name is Mr. C" are included, the words “Mr. A”, "Mr. It is stored as being associated with the symbol.
  • the word adding unit 240 adds words without using the example context (step S604).
  • the word addition unit 240 may add words according to user input, as described in the fifth embodiment.
  • the word adding section 240 may not add words.
  • a new word is added to the dictionary database 200 by determining whether or not the contexts are similar. By doing so, the number of words registered in the dictionary database 200 can be easily increased. In addition, by using context examples, more appropriate context symbols are associated with words. As a result, the context symbol acquisition unit 130 can acquire more appropriate context symbols.
  • FIG. 16 and 17 An information processing system 10 according to the seventh embodiment will be described with reference to FIGS. 16 and 17.
  • FIG. It should be noted that the seventh embodiment may differ from the above-described second to sixth embodiments only in part in configuration and operation, and may be otherwise the same as the first to sixth embodiments. . Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 16 is a block diagram showing the functional configuration of an information processing system according to the seventh embodiment.
  • symbol is attached
  • the information processing system 10 includes a first text data acquisition unit 110, a speech data generation unit 120, and a context symbol acquisition unit as components for realizing its functions. 130 , a text data generation unit 140 , a learning unit 150 , a dictionary database 200 , and an unregistered word addition unit 270 . That is, the information processing system 10 according to the seventh embodiment further includes an unregistered word adding unit 270 in addition to the configuration of the second embodiment already described (see FIG. 5).
  • the unregistered word adding unit 270 may be a processing block implemented by the above-described processor 11 (see FIG. 1), for example.
  • unregistered word adding unit 270 adds the unregistered word to the unregistered word.
  • the context symbols obtained for the context symbols can be stored in the dictionary database 200 .
  • the context symbol acquisition unit 130 acquires a context symbol from a path different from the dictionary database 200 (that is, without using dictionary data)
  • the unregistered word addition unit 270 adds a context symbol corresponding to the unregistered word. It may be determined that the symbol has been acquired.
  • the context symbol acquisition unit 130 may acquire context symbols from a path different from that of the dictionary database 200 using, for example, named entity extraction.
  • the context symbol acquisition unit 130 may be configured so as to be able to acquire context symbols from another database different from the dictionary database 200, for example.
  • the context symbol acquisition unit 130 may be configured to acquire context symbols according to user input.
  • the contextual symbol acquisition unit 130 may be configured to automatically determine and acquire contextual symbols suitable for words.
  • FIG. 17 is a flow chart showing the operation flow of the information processing system according to the seventh embodiment.
  • the same reference numerals are assigned to the same processes as those shown in FIG.
  • the first text data acquisition unit 110 first acquires first text data (step S101).
  • the first text data acquired by the first text data acquisition section 110 is output to each of the speech data generation section 120, the context symbol acquisition section 130, and the text data generation section 140.
  • the voice data generation unit 120 generates first voice data from the first text data (step S102).
  • the first audio data generated by the audio data generating section 120 is output to the learning section 150 .
  • the context symbol acquisition unit 130 acquires context symbols corresponding to words included in the first text data (step S103).
  • the context symbol acquired by the context symbol acquisition section 130 is output to the text data generation section 140 and the unregistered word addition section 270 .
  • the unregistered word addition unit 270 determines whether or not the context symbol acquisition unit 130 has acquired the context symbol for the unregistered word (step S701). Then, if the context symbol has been acquired for the unregistered word (step S701: YES), the unregistered word adding unit 270 stores the unregistered word and the acquired context symbol for the unregistered word in the dictionary database 200. It is newly added (step S702). Note that if the context symbol has not been acquired for the unregistered word (step S701: NO), the unregistered word adding unit 270 omits the processing of step S702 described above.
  • the text data generation unit 140 inserts the context symbols acquired by the context symbol acquisition unit 130 into the first text data acquired by the first text data acquisition unit 110, thereby generating second text data. is generated (step S104).
  • the second text data generated by the text data generating section 140 is output to the learning section 150 .
  • the learning unit 150 executes learning of the speech recognizer 50 using the first speech data generated by the speech data generation unit 120 and the second text data generated by the text data generation unit 140. (step S106).
  • the unregistered word adding unit 270 adds new words and context symbols immediately after acquiring the context symbols (that is, immediately after step S103).
  • Unit 270 may add new words and contextual symbols at other times.
  • the unregistered word adding unit 270 may perform processing for adding new words and contextual symbols after the speech recognizer 50 has finished learning (that is, after step S106).
  • new words are added to the dictionary database 200 when context symbols are acquired for unregistered words.
  • dictionary data can be increased while operating the system (that is, executing processing for learning the speech recognizer 50).
  • a processing method of recording a program for operating the configuration of each embodiment so as to realize the functions of each embodiment described above on a recording medium, reading the program recorded on the recording medium as a code, and executing it on a computer is also implemented. Included in the category of form. That is, a computer-readable recording medium is also included in the scope of each embodiment. In addition to the recording medium on which the above program is recorded, the program itself is also included in each embodiment.
  • a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, non-volatile memory card, and ROM can be used as recording media.
  • the program recorded on the recording medium alone executes the process, but also the one that operates on the OS and executes the process in cooperation with other software and functions of the expansion board. included in the category of Furthermore, the program itself may be stored on the server, and part or all of the program may be downloaded from the server to the user terminal.
  • the information processing system includes first text data acquisition means for acquiring first text data, voice data generation means for generating first voice data corresponding to the first text data, and Context symbol acquisition means for acquiring context symbols corresponding to words included in first text data; and text data generation means for generating second text data by inserting the context symbols into the first text data. and a learning means for learning a voice recognition means for generating text data corresponding to the voice data from the voice data with the first voice data and the second text data as inputs, be. is.
  • the information processing system according to Supplementary Note 2 further includes storage means for storing the word and the contextual symbol in association with each other, and the contextual symbol acquisition means uses the storage means to obtain the text data included in the first text data. 2. The information processing system of claim 1, wherein the context symbol corresponding to a word that is associated with a word is obtained.
  • the information processing system according to Supplementary Note 3 includes first presentation means for presenting the word and the context symbol stored in the storage means to a user, 3.
  • the information processing system according to appendix 4 includes second text data acquisition means for acquiring third text data, and word addition means for newly storing the words included in the third text data in the storage means. 4.
  • the information processing system further includes extracting means for extracting the words included in the third text data, and second presenting means for presenting the words extracted by the extracting means to a user.
  • the storage means stores, in addition to the words and the context symbols, context examples corresponding to the words and the context symbols, and the word addition means stores the second 3 is similar to the context example stored in the storage means, the first context is associated with the context symbol corresponding to the similar context example. 6.
  • the context symbol acquisition means is configured to be able to acquire the context symbols from a path different from that of the storage means, and the context symbol acquisition means is stored in the storage means.
  • unregistered word adding means for storing the unregistered word and the context symbol corresponding to the unregistered word in the storage means when the context symbol corresponding to the unregistered word is acquired.
  • the information processing apparatus includes first text data acquisition means for acquiring first text data, voice data generation means for generating first voice data corresponding to the first text data, and Context symbol acquisition means for acquiring context symbols corresponding to words included in first text data; and text data generation means for generating second text data by inserting the context symbols into the first text data. and a learning means for learning a voice recognition means for generating text data corresponding to the voice data from the voice data with the first voice data and the second text data as inputs.
  • the information processing method according to appendix 9 is an information processing method executed by at least one computer, which acquires first text data and generates first voice data corresponding to the first text data. obtaining a context symbol corresponding to a word included in the first text data, inserting the context symbol into the first text data to generate second text data, and generating second text data; and learning a speech recognition means for generating text data corresponding to said speech data from said speech data with said second text data as an input.
  • At least one computer obtains first text data, generates first voice data corresponding to the first text data, and includes the first voice data in the first text data. obtaining a context symbol corresponding to a word that is to be read, inserting the context symbol into the first text data to generate second text data, and inputting the first speech data and the second text data , a recording medium recording a computer program for executing an information processing method for training a speech recognition means for generating text data corresponding to speech data from speech data.
  • Appendix 11 causes at least one computer to acquire first text data, generate first voice data corresponding to the first text data, and include in the first text data obtaining a context symbol corresponding to a word that is to be read, inserting the context symbol into the first text data to generate second text data, and inputting the first speech data and the second text data is a computer program for executing an information processing method for learning a speech recognition means for generating text data corresponding to speech data from speech data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

情報処理システム(10)は、第1のテキストデータを取得する第1テキストデータ取得手段(110)と、第1のテキストデータに対応する第1の音声データを生成する音声データ生成手段(120)と、第1のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段(130)と、文脈記号を第1のテキストデータに挿入して、第2のテキストデータを生成するテキストデータ生成手段(140)と、第1の音声データ及び第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段(150)と、を備える。

Description

情報処理システム、情報処理装置、情報処理方法、及び記録媒体
 この開示は、情報処理システム、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。
 この種のシステムとして、音声認識器に関する学習を行うものが知られている。例えば特許文献1では、音声パターンを初期学習済のニューラルネットワークに順次入力して音声認識結果を取得し、その際に誤認識が発生したものを追加学習用の入力パターンとして選択する技術が開示されている。また特許文献2では、音声信号と、音声信号に対応するテキスト及び属性情報と、からなるトレーニングデータセットを用いて学習を行うことが開示されている。
 その他の関連する技術として、特許文献3では、題目や概要などのテキストの属性を示す属性記号に基づいて、音声波形を生成することが開示されている。
特開平08-146996号公報 特開2020-154076号公報 特開平06-044247号広報
 この開示は、先行技術文献に開示された技術を改善することを目的とする。
 この開示の情報処理システムの一の態様は、第1のテキストデータを取得する第1テキストデータ取得手段と、前記第1のテキストデータに対応する第1の音声データを生成する音声データ生成手段と、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成するテキストデータ生成手段と、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える。
 この開示の情報処理装置の一の態様は、第1のテキストデータを取得する第1テキストデータ取得手段と、前記第1のテキストデータに対応する第1の音声データを生成する音声データ生成手段と、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成するテキストデータ生成手段と、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える。
 この開示の情報処理方法の一の態様は、少なくとも1つのコンピュータが実行する情報処理方法であって、第1のテキストデータを取得し、前記第1のテキストデータに対応する第1の音声データを生成し、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成し、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う。
 この開示の記録媒体の一の態様は、少なくとも1つのコンピュータに、第1のテキストデータを取得し、前記第1のテキストデータに対応する第1の音声データを生成し、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成し、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法を実行させるコンピュータプログラムが記録されている。
第1実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。 第1実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第1のテキストデータ、文脈記号、及び第2のテキストデータの一例を示す表である。 第1実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。 第2実施形態に係る情報処理システムの機能的構成を示すブロック図である。 辞書データベースに記憶される単語及び文脈記号の一例を示す表である。 第3実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第3実施形態に係る情報処理システムによる更新動作の流れを示すフローチャートである。 第4実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第4実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。 第5実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第5実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。 第6実施形態に係る情報処理システムの機能的構成を示すブロック図である。 辞書データベースに記憶される単語、文脈記号及び文脈例の一例を示す表である。 第6実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。 第7実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第7実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。
 以下、図面を参照しながら、情報処理システム、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る情報処理システムについて、図1から図5を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る情報処理システムのハードウェア構成について説明する。図1は、第1実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る情報処理システム10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。情報処理システム10は更に、入力装置15と、出力装置16と、を備えていてもよい。上述したプロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、情報処理システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、音声認識器の学習を実行する機能ブロックが実現される。即ち、プロセッサ11は、情報処理システム10の各制御を実行するコントローラとして機能してよい。
 プロセッサ11は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)として構成されてよい。プロセッサ11は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、情報処理システム10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、情報処理システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置15は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。
 出力装置16は、情報処理システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、情報処理システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。また、出力装置16は、情報処理システム10に関する情報を音声出力可能なスピーカ等であってもよい。出力装置16は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。
 なお、図1では、複数の装置を含んで構成される情報処理システム10の例を挙げたが、これらの全部又は一部の機能を、1つの装置(情報処理装置)で実現してもよい。この情報処理装置は、例えば、上述したプロセッサ11、RAM12、ROM13のみを備えて構成され、その他の構成要素(即ち、記憶装置14、入力装置15、出力装置16)については、例えば情報処理装置に接続される外部の装置が備えるようにしてもよい。また、情報処理装置は、一部の演算機能を外部の装置(例えば、外部サーバやクラウド等)によって実現するものであってもよい。
 (機能的構成)
 次に、図2を参照しながら、第1実施形態に係る情報処理システム10の機能的構成について説明する。図2は、第1実施形態に係る情報処理システムの機能的構成を示すブロック図である。
 図2に示すように、第1実施形態に係る情報処理システム10は、音声認識器50の学習を実行するものとして構成されている。音声認識器50は、音声データからテキストデータを生成する装置である。音声認識器50の学習は、例えばより高い精度でテキストデータを生成するために実行される。音声認識器50の学習は、音声認識器50が用いる変換モデル(即ち、音声データをテキストデータに変換するモデル)を学習するものであってもよい。なお、第1実施形態に係る情報処理システム10は、音声認識器50自体を構成要素として含むものではないが、音声認識器50を含むシステムとして構成されてもよい。
 第1実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、第1テキストデータ取得部110と、音声データ生成部120と、文脈記号取得部130と、テキストデータ生成部140と、学習部150と、を備えて構成されている。第1テキストデータ取得部110、音声データ生成部120、文脈記号取得部130、テキストデータ生成部140、及び学習部150の各々は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 第1テキストデータ取得部110は、第1のテキストデータを取得可能に構成されている。第1のテキストデータは、音声認識器の学習用に取得されるテキストデータである。第1のテキストデータは、例えば単語のみからなるデータであってもよいし、文章形式のテキストデータであってもよい。第1テキストデータ取得部110は、第1のテキストデータを複数取得してもよい。なお、第1テキストデータ取得部110は、音声入力によって第1のテキストデータを取得してもよい。即ち、音声データをテキストデータに変換して、第1のテキストデータとして取得してもよい。
 音声データ生成部120は、第1テキストデータ取得部110で取得された第1のテキストデータから第1の音声データを生成可能に構成されている。即ち、音声データ生成部120は、テキストデータを音声データに変換する機能を有している。なお、テキストデータを音声データに変換する手法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略するものとする。
 文脈記号取得部130は、第1テキストデータ取得部110で取得された第1のテキストデータに含まれる単語に対応する文脈記号を取得可能に構成されている。文脈記号は、その単語が文脈上でどのように用いられるかを示す情報である。文脈記号は、例えば、「人名」、「地名」、「組織名」、「商品名」等のように単語のカテゴリを示すものであってもよいし、「名詞」、「動詞」等のように単語の品詞を示すものであってもよい。文脈記号取得部130は、第1のテキストデータが複数の単語を含んでいる場合、複数の単語の各々について文脈記号を取得してもよい。この場合、文脈記号取得部130は、第1のテキストデータに含まれるすべての単語について文脈記号を取得してもよいし、一部の単語についてのみ文脈記号を取得してもよい。文脈記号の取得方法については、後述する他の実施形態で詳しく説明する。
 テキストデータ生成部140は、第2のテキストデータを生成可能に構成されている。具体的には、テキストデータ生成部140は、第1テキストデータで取得された第1のテキストデータに、文脈記号取得部130で取得された文脈記号を挿入することで、第2のテキストデータを生成する。即ち、第2のテキストデータは、第1のテキストデータと文脈記号とからなるデータである。第2のテキストデータの生成方法については、後に詳しく説明する。
 学習部150は、音声データ生成部120で生成された第1の音声データと、テキストデータ生成部140で生成された第2のテキストデータと、を用いて音声認識器50の学習を実行可能に構成されている。即ち、学習部150は、互いに対応する第1の音声データ及び第2のテキストデータの組を用いて学習を実行するように構成されている。ここで特に、第2テキストデータは文脈記号が挿入されているため、学習部150による学習の際には、テキストだけでなく文脈記号も考慮されることになる。
 (第2テキストデータの生成例)
 次に、図3を参照しながら、第2テキストデータの生成例について具体例を挙げて説明する。図3は、第1のテキストデータ、文脈記号、及び第2のテキストデータの一例を示す表である。
 図3に示すように、第1テキストデータ取得部110が「〇〇太郎」という第1のテキストデータを取得したとする。この場合、文脈記号取得部130は、「人名」という文脈記号を取得する。そして、テキストデータ生成部140は、「〇〇太郎」というテキストデータに「人名」という文脈記号を挿入することで、第2テキストデータを生成する。具体的には、テキストデータ生成部140は「<人名>〇〇太郎</人名>」という第2テキストデータを生成する。
 次に、第1テキストデータ取得部110が「〇〇タワー」という第1のテキストデータを取得したとする。この場合、文脈記号取得部130は、「地名」という文脈記号を取得する。そして、テキストデータ生成部140は、「〇〇タワー」というテキストデータに「地名」という文脈記号を挿入することで、第2テキストデータを生成する。具体的には、テキストデータ生成部140は「<地名>〇〇タワー</地名>」という第2テキストデータを生成する。
 上述した例では、単語の前後に文脈記号を挿入する例を挙げたが、文脈記号の挿入位置は特に限定されるものではない。例えば、文脈記号は、単語の前だけに挿入されてもよい。具体的には、「<人名>〇〇太郎」や「<地名>〇〇タワー」のような第2テキストデータが生成されてよい。また、文脈記号は、単語の後ろだけに挿入されてもよい。具体的には、「〇〇太郎</人名>」や「〇〇タワー</地名>」のような第2テキストデータが生成されてよい。
 なお、第1のテキストデータが文章形式である場合は、各単語の位置に文脈記号が挿入されればよい。例えば、「今日はD様と会議を設定します。」という第1テキストデータが取得された場合、テキストデータ生成部140は、「<時間>今日</時間>は<人名>D様</人名>と会議を設定します。」という第2テキストデータを設定してよい。
 (動作の流れ)
 次に、図4を参照しながら、第1実施形態に係る情報処理システム10による動作(即ち、音声認識器50を学習する際の動作)の流れについて説明する。図4は、第1実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。
 図4に示すように、第1実施形態に係る情報処理システム10が動作する際には、まず第1テキストデータ取得部110が第1のテキストデータを取得する(ステップS101)。第1テキストデータ取得部110で取得された第1のテキストデータは、音声データ生成部120、文脈記号取得部130、及びテキストデータ生成部140の各々に出力される。
 続いて、音声データ生成部120が、第1のテキストデータから第1の音声データを生成する(ステップS102)。音声データ生成部120で生成された第1の音声データは、学習部150に出力される。
 他方、文脈記号取得部130は、第1のテキストデータに含まれる単語に対応する文脈記号を取得する(ステップS103)。文脈記号取得部130で取得された文脈記号は、テキストデータ生成部140に出力される。テキストデータ生成部140は、第1テキストデータ取得部110で取得された第1のテキストデータに、文脈記号取得部130で取得された文脈記号を挿入することで、第2のテキストデータを生成する(ステップS104)。テキストデータ生成部140で生成された第2のテキストデータは、学習部150に出力される。
 続いて、学習部150が、音声データ生成部120で生成された第1音声データと、テキストデータ生成部140で生成された第2のテキストデータと、を用いて音声認識器50の学習を実行する(ステップS106)。なお、上述した一連の処理は、第1のテキストデータが取得される度に繰り返し実行されてよい。
 (技術的効果)
 次に、第1実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図1から図4で説明したように、第1実施形態に係る情報処理システム10では、文脈記号を含む第2のテキストデータを用いて音声認識器50の学習が実行される。このようにすれば、音声認識器50の学習の際に文脈記号が考慮されることになる。その結果、第1のテキストデータに含まれる単語が、文脈上でどのように用いられるのかを考慮して学習を行える。よって、音声認識器をより適切に学習することが可能となる。
 <第2実施形態>
 第2実施形態に係る情報処理システム10について、図5及び図6を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第1実施形態と同一であってよい。このため、以下では、すでに説明した第1実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図5を参照しながら、第2実施形態に係る情報処理システム10の機能的構成について説明する。図5は、第2実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図5では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図5に示すように、第2実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、第1テキストデータ取得部110と、音声データ生成部120と、文脈記号取得部130と、テキストデータ生成部140と、学習部150と、辞書データベース(DB)200と、を備えて構成されている。即ち、第2実施形態に係る情報処理システム10は、すでに説明した第1実施形態の構成(図2参照)に加えて、辞書データベース200を更に備えている。辞書データベース200は、例えば上述した記憶装置14(図1参照)によって実現されるものであってよい。
 辞書データベース200は、単語と文脈とを紐付けて記憶可能に構成されている。辞書データベース200は、例えば1つの単語と1つの文脈とを組にして、複数の組を記憶してよい。辞書データベース200に記憶された単語及び文脈に関する情報(以下、適宜「辞書データ」と称する)は、文脈記号取得部130によって適宜読み出し可能に構成されている。辞書データは、予めユーザ等によって入力されたものであってよい。また、辞書データは、手動で又は自動的に更新(例えば、変更、追加、削除等)可能に構成されてもよい。辞書データの更新については、後述する他の実施形態において詳しく説明する。
 第2実施形態に係る文脈記号取得部130は、上述した辞書データベース200を用いて文脈記号を取得可能に構成される。文脈記号取得部130は、第1のテキストデータに含まれている単語が辞書データベース200に登録されているか否かを確認し、登録されている場合には、その単語に紐付いて記憶されている文脈記号を取得する。なお、辞書データベース200に登録されていない単語については、文脈記号を取得しないようにしてもよいし、辞書データベース200以外の手段を用いて文脈記号を取得するようにしてもよい。
 (辞書データの具体例)
 次に、図6を参照しながら、辞書データベース200が記憶する辞書データについて具体的に説明する。図6は、辞書データベースに記憶される単語及び文脈記号の一例を示す表である。
 図6に示すように、辞書データベース200には、複数の単語及び文脈記号が互いに紐付いた状態で記憶されている。図に示す例では、「〇〇太郎」という単語と、「人名」という文脈記号が紐付いて記憶されている。「〇〇花子」という単語と、「人名」という文脈記号が紐付いて記憶されている。「〇〇タワー」という単語と、「地名」という文脈記号が紐付いて記憶されている。「FT-〇〇」という単語と、「商品名」という文脈記号が紐付いて記憶されている。「〇〇部」という単語と、「組織」という文脈記号が紐付いて記憶されている。
 なお、ここでは、1つの単語と1つの文脈記号とを組にして記憶する例を挙げているが、辞書データベース200は、1つの単語に対して複数の文脈記号を紐付けて記憶してもよい。例えば、辞書データベース200は、「〇〇太郎」という単語に対して、「人名」という文脈記号と、「名詞」という文脈記号とを紐付けて記憶してもよい。
 (技術的効果)
 次に、第2実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図5及び図6で説明したように、第2実施形態に係る情報処理システム10では、辞書データベース200を用いて文脈記号が取得される。このようにすれば、より容易に適切な文脈記号を取得することが可能である。
 <第3実施形態>
 第3実施形態に係る情報処理システム10について、図7及び図8を参照して説明する。なお、第3実施形態は、上述した第2実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第1及び第2実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図7を参照しながら、第3実施形態に係る情報処理システム10の機能的構成について説明する。図7は、第3実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図7では、図5で示した構成要素と同様の要素に同一の符号を付している。
 図7に示すように、第3実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、第1テキストデータ取得部110と、音声データ生成部120と、文脈記号取得部130と、テキストデータ生成部140と、学習部150と、辞書データベース200と、辞書データ提示部210と、辞書データ更新部220と、を備えて構成されている。即ち、第3実施形態に係る情報処理システム10は、すでに説明した第2実施形態の構成(図5参照)に加えて、辞書データ提示部210と、辞書データ更新部220と、を更に備えている。辞書データ提示部210は、例えば上述した出力装置16(図1参照)を用いて実現されてよい。辞書データ更新部220は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 辞書データ提示部210は、辞書データベース200に記憶されている辞書データを、ユーザに対して提示可能に構成されている。辞書データ提示部210による辞書データの提示方法は特に限定されるものではない。例えば、辞書データ提示部210は、ディスプレイを介して辞書データをユーザに対して表示してよい。或いは、辞書データ提示部210は、スピーカを介して辞書データを音声出力してよい。
 辞書データ更新部220は、辞書データの提示を受けたユーザの操作に応じて、辞書データベース200の辞書データを更新可能に構成されている。例えば、ユーザが新たな単語及び文脈記号を入力する操作を行った場合、辞書データ更新部220は、それらの単語及び文脈記号を辞書データベース200に新たに追加する処理を行ってよい。また、ユーザがすでに登録されている単語に紐付いた文脈記号を変更(修正)する操作を行った場合、辞書データ更新部220は、辞書データベース200を変更後のものに書き換える処理を行ってよい。また、ユーザがすでに登録されている単語及び文脈記号を削除する操作を行った場合、辞書データ更新部220は、それらの単語及び文脈記号を辞書データベース200から削除する処理を行ってよい。
 (更新動作)
 次に、図8を参照しながら、第3実施形態に係る情報処理システム10における辞書データベース200を更新する動作(以下、適宜「更新動作」と称する)の流れについて説明する。図8は、第3実施形態に係る情報処理システムによる更新動作の流れを示すフローチャートである。
 図8に示すように、第3実施形態に係る情報処理システム10の更新動作が開始されると、まず辞書データ提示部210が、辞書データベース200に記憶されている辞書データをユーザに提示する(ステップS301)。辞書データ提示部210は、記憶されている辞書データを全て提示する(例えば、一覧形式で表示する)ようにしてもよいし、一部のみを提示するようにしてもよい。
 続いて、辞書データ更新部220は、辞書データの提示を受けたユーザによる入力を受け付ける(ステップS302)。そして、辞書データ更新部220は、ユーザの入力に応じて、辞書データベース200に記憶されている辞書データを更新する(ステップS303)。なお、上述した辞書データの更新動作は、第1実施形態で説明した音声認識器50を学習する動作(図4参照)とは別に(例えば、学習する動作を開始する前に)実行されてよい。ただし、辞書データの更新動作は、音声認識器50を学習する動作と並行して同時に実行されてもよい。
 (技術的効果)
 次に、第3実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図7及び図8で説明したように、第3実施形態に係る情報処理システム10では、ユーザの入力に応じて辞書データが更新される。このようにすれば、新たな辞書データを追加したり、不適切な辞書データを修正・削除したりすることができる。その結果、文脈記号取得部130が、より適切な文脈記号を取得することが可能となる。
 <第4実施形態>
 第4実施形態に係る情報処理システム10について、図9及び図10を参照して説明する。なお、第4実施形態は、上述した第2及び第3実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第1から第3実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図9を参照しながら、第4実施形態に係る情報処理システム10の機能的構成について説明する。図9は、第4実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図9では、図5で示した構成要素と同様の要素に同一の符号を付している。
 図9に示すように、第4実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、第1テキストデータ取得部110と、音声データ生成部120と、文脈記号取得部130と、テキストデータ生成部140と、学習部150と、辞書データベース200と、第2テキストデータ取得部230と、単語追加部240と、を備えて構成されている。即ち、第4実施形態に係る情報処理システム10は、すでに説明した第2実施形態の構成(図5参照)に加えて、第2テキストデータ取得部230と、単語追加部240と、を更に備えている。第2テキストデータ取得部230、及び単語追加部240の各々は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 第2テキストデータ取得部230は、辞書データベース200を学習する(即ち、新たな辞書データを追加する)ための学習用テキストデータを取得可能に構成されている。学習用テキストデータは、文脈記号を含まないテキストデータ(例えば、単語や文章のみからなるテキストデータ)であってもよいし、文脈記号を含むテキストデータ(例えば、第2テキストデータと同様の形式のテキストデータ)であってもよい。第2テキストデータ取得部230は、学習用テキストデータを複数取得してもよい。なお、第2テキストデータ取得部230は、音声入力によって学習用テキストデータを取得してもよい。即ち、音声データをテキストデータに変換して、学習用テキストデータとして取得してもよい。
 単語追加部240は、学習用テキストデータに含まれる単語を、辞書データベース200に追加可能に構成されている。単語追加部240は、学習用テキストデータを解析し、含まれる単語を抽出する機能を有していてもよい。単語追加部240は、第2テキストデータに複数の単語が含まれる場合、その全てを辞書データベース200に追加してもよいし、一部のみを追加してもよい。単語追加部240は、辞書データベース200に追加する単語を、自動的に選択してもよいし、ユーザ等の入力に応じて選択してもよい。単語追加部240による具体的な単語の追加方法については、後述する他の実施形態で詳しく説明する。
 (単語追加動作)
 次に、図10を参照しながら、第4実施形態に係る情報処理システム10における辞書データベース200に新たな単語を追加する動作(以下、適宜「単語追加動作」と称する)の流れについて説明する。図10は、第4実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。
 図10に示すように、第4実施形態に係る情報処理システム10の単語追加動作が開始されると、まず第2テキストデータ取得部230が学習用テキストデータを取得する(ステップS401)。第2テキストデータ取得部230で取得された学習用テキストデータは、単語追加部240に出力される。
 続いて、単語追加部240が、学習用テキストデータを解析する(ステップS402)。例えば、単語追加部240は、学習用テキストデータを解析して、それに含まれる単語を抽出する。その後、単語追加部240は、学習用テキストデータに含まれる単語を辞書データベース200に追加する(ステップS403)。
 (技術的効果)
 次に、第4実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図9及び図10で説明したように、第4実施形態に係る情報処理システム10では、学習用テキストデータを用いて辞書データベース200に新たな単語が追加される。このようにすれば、辞書データベース200に登録されている単語を容易に増加させることができる。その結果、文脈記号取得部130が、より適切な文脈記号を取得することが可能となる。
 <第5実施形態>
 第5実施形態に係る情報処理システム10について、図11及び図12を参照して説明する。なお、第5実施形態は、上述した第4実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第1から第4実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図11を参照しながら、第5実施形態に係る情報処理システム10の機能的構成について説明する。図11は、第5実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図11では、図9で示した構成要素と同様の要素に同一の符号を付している。
 図11に示すように、第5実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、第1テキストデータ取得部110と、音声データ生成部120と、文脈記号取得部130と、テキストデータ生成部140と、学習部150と、辞書データベース200と、第2テキストデータ取得部230と、単語追加部240と、単語抽出部250と、抽出単語提示部260と、を備えて構成されている。即ち、第5実施形態に係る情報処理システム10は、すでに説明した第4実施形態の構成(図9参照)に加えて、単語抽出部250と、抽出単語提示部260と、を更に備えている。単語抽出部250は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。抽出単語提示部260は、例えば上述した出力装置16(図1参照)を用いて実現されてよい。
 単語抽出部250は、第2テキストデータ取得部で取得された学習用テキストデータから、単語を抽出可能に構成されている。単語抽出部250は、学習用テキストデータに含まれる単語をすべて抽出してもよいし、一部のみを抽出してもよい。単語抽出部250は、例えば学習用テキストデータに含まれる単語のうち、辞書データベース200に登録されていない単語のみを抽出するようにしてもよい。
 抽出単語提示部260は、単語抽出部250で抽出された単語を、ユーザに対して提示可能に構成されている。抽出単語提示部260による抽出された単語の提示方法は特に限定されるものではない。例えば、抽出単語提示部260は、ディスプレイを介して抽出された単語をユーザに対して表示してよい。或いは、抽出単語提示部260は、スピーカを介して抽出された単語を音声出力してよい。
 本実施形態に係る単語追加部240は、抽出された単語の提示を受けたユーザの操作に応じて、辞書データベース200の辞書データに単語を追加可能に構成されている。例えば、ユーザが抽出された単語のうち少なくとも1つの単語を選択した場合、単語追加部240は、ユーザが選択した単語を辞書データベース200に新たに追加する処理を行ってよい。また、抽出された単語に対してユーザが文脈記号を紐付ける操作(例えば、その単語に紐づく文脈記号を入力する操作)を行った場合、単語追加部240は、それらの単語及び文脈記号を辞書データベース200に新たに追加する処理を行ってよい。
 (単語追加動作)
 次に、図12を参照しながら、第5実施形態に係る情報処理システム10における単語追加動作の流れについて説明する。図12は、第5実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。
 図12に示すように、第5実施形態に係る情報処理システム10の単語追加動作が開始されると、まず第2テキストデータ取得部230が学習用テキストデータを取得する(ステップS501)。第2テキストデータ取得部230で取得された学習用テキストデータは、単語抽出部250に出力される。
 続いて、単語抽出部250が、学習用テキストデータから単語を抽出する(ステップS502)。単語抽出部250で抽出された単語に関する情報は、抽出単語提示部260に出力される。そして、抽出単語提示部260が、単語抽出部250で抽出された単語をユーザに提示する(ステップS503)。
 続いて、単語追加部240は、抽出された単語の提示を受けたユーザによる入力を受け付ける(ステップS504)。そして、単語追加部240は、ユーザの入力に応じて、単語抽出部250で抽出された単語を辞書データベース200に追加する(ステップS505)。
 (技術的効果)
 次に、第5実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図11及び図12で説明したように、第5実施形態に係る情報処理システム10では、ユーザの入力に辞書データベース200に新たな単語が追加される。このようにすれば、辞書データベース200に登録されている単語を増加させることができる。また、ユーザの入力によって、単語により適切な文脈記号が紐付けられる。その結果、文脈記号取得部130が、より適切な文脈記号を取得することが可能となる。
 <第6実施形態>
 第6実施形態に係る情報処理システム10について、図13から図15を参照して説明する。なお、第6実施形態は、上述した第4及び第5実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第1から第5実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図13を参照しながら、第6実施形態に係る情報処理システム10の機能的構成について説明する。図13は、第6実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図13では、図9で示した構成要素と同様の要素に同一の符号を付している。
 図13に示すように、第6実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、第1テキストデータ取得部110と、音声データ生成部120と、文脈記号取得部130と、テキストデータ生成部140と、学習部150と、辞書データベース200と、第2テキストデータ取得部230と、単語追加部240と、を備えて構成されている。そして、第6実施形態に係る単語追加部240は特に、文脈類似判定部245を備えている。
 なお、第6実施形態に係る辞書データベース200は、単語及び文脈記号に加えて、文脈例を記憶可能に構成されている。辞書データベース200は、例えば、単語と、文脈記号と、文脈例との組を辞書データとして記憶する。辞書データベース200は、1つの単語や1つの文脈記号に対して、複数の文脈例を記憶するように構成されてもよい。文脈例は、例えば予めユーザによって入力されたものであってもよいし、辞書データベース200を更新する際に取得したもの(例えば、以前の学習用テキストデータに含まれていたもの)であってもよい。
 文脈類似判定部245は、第2テキストデータ取得部230によって取得された学習用テキストデータに含まれる第1文脈が、辞書データベース200に記憶されている文脈例と類似しているか否かを判定する。文脈類似判定部245は、例えば学習用テキストデータに含まれる第1文脈と、辞書データベース200に記憶されている文脈例との一致度を算出し、その一致度が所定値以上となった場合に、第1文脈と文脈例とが類似していると判定してよい。
 本実施形態に係る単語追加部240は、文脈類似判定部245の判定結果に応じて、辞書データベース200に新たな単語を追加可能に構成されている。文脈類似判定部245の判定結果に応じた単語の追加方法については、後に詳しく説明する。なお、単語追加部240は、文脈類似判定部245の判定結果に応じて単語を追加するだけでなく、それ以外の方法で単語を追加可能に構成されてもよい。例えば、単語追加部240は、第5実施形態(図11及び図12参照)で説明したように、ユーザの入力に応じて単語を追加可能に構成されてもよい。
 (辞書データの具体例)
 次に、図14を参照しながら、第6実施形態に係る辞書データベース200が記憶する辞書データについて具体的に説明する。図14は、辞書データベースに記憶される単語、文脈記号、及び文脈例の一例を示す表である。
 図14に示すように、辞書データベース200は、単語と、文脈記号と、文脈例とを紐付けて記憶している。文脈例は主に文脈記号に紐付けて記憶されてよい。図に示す例では、「人名」という文脈記号に、「お名前は○○様ですね」という文脈例が紐付いて記憶されている。「地名」という文脈記号に、「〇〇に行ってきました」という文脈例が紐付いて記憶されている。「商品名」という文脈記号に、「〇〇を開発中です」という文脈例が紐付いて記憶されている。「組織名」という文脈記号に、「〇〇に所属している方は、…」という文脈例が紐付いて記憶されている。
 なお、文脈例は、1つの文脈例に対して複数紐付いて記憶されていてもよい。また、文脈例は、単語ごとに紐付いて記憶されていてもよい。例えば、文脈記号が共通する単語であっても、別々の文脈例が紐付いて記憶されていてもよい。
 (単語追加動作)
 次に、図15を参照しながら、第6実施形態に係る情報処理システム10における単語追加動作の流れについて説明する。図15は、第6実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。
 図15に示すように、第6実施形態に係る情報処理システム10の単語追加動作が開始されると、まず第2テキストデータ取得部230が学習用テキストデータを取得する(ステップS601)。第2テキストデータ取得部230で取得された学習用テキストデータは、単語追加部240の文脈類似判定部245に出力される。
 続いて、文脈類似判定部245が、第2テキストデータ取得部230によって取得された学習用テキストデータに含まれる第1文脈が、辞書データベース200に記憶されている文脈例と類似しているか否かを判定する(ステップS602)。
 第1文脈が文脈例と類似していると判定されると(ステップS602:YES)、単語追加部240は、第1文脈に含まれている単語を、類似すると判定された文脈例に紐付いて記憶された文脈記号に紐付くものとして、辞書データベース200に記憶する(ステップS603)。例えば、「人名」という文脈記号が「お名前は○○様ですね」という文脈例と紐付いて記憶されており、学習用テキストデータに、「お名前はA様ですね」、「お名前はB様ですね」及び「お名前はC様ですね」という文脈が含まれている場合、「A様」、「B様」、及び「C様」という単語は、いずれも「人名」という文脈記号に紐付くものとして記憶される。
 他方、第1文脈が文脈例と類似していないと判定されると(ステップS602:NO)、単語追加部240は、文脈例を用いない方法で単語を追加する(ステップS604)。例えば、単語追加部240は、第5実施形態で説明したように、ユーザの入力に応じて単語を追加してもよい。或いは、単語追加部240は、単語を追加しないようにしてもよい。
 (技術的効果)
 次に、第6実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図13から図15で説明したように、第6実施形態に係る情報処理システム10では、文脈が類似しているか否かを判定して辞書データベース200に新たな語が追加される。このようにすれば、辞書データベース200に登録されている単語を容易に増加させることができる。また、文脈例を利用することにより、単語により適切な文脈記号が紐付けられる。その結果、文脈記号取得部130が、より適切な文脈記号を取得することが可能となる。
 <第7実施形態>
 第7実施形態に係る情報処理システム10について、図16及び図17を参照して説明する。なお、第7実施形態は、上述した第2から第6実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第1から第6実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図16を参照しながら、第7実施形態に係る情報処理システム10の機能的構成について説明する。図16は、第7実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図16では、図5で示した構成要素と同様の要素に同一の符号を付している。
 図16に示すように、第7実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、第1テキストデータ取得部110と、音声データ生成部120と、文脈記号取得部130と、テキストデータ生成部140と、学習部150と、辞書データベース200と、未登録単語追加部270と、を備えて構成されている。即ち、第7実施形態に係る情報処理システム10は、すでに説明した第2実施形態の構成(図5参照)に加えて、未登録単語追加部270を更に備えている。未登録単語追加部270は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 未登録単語追加部270は、文脈記号取得部130が、辞書データベース200に記憶されていない単語である未登録単語に対応する文脈記号を取得した場合に、その未登録単語と、未登録単語に対して取得された文脈記号と、を辞書データベース200に記憶させることが可能に構成されている。未登録単語追加部270は、例えば、文脈記号取得部130が、辞書データベース200とは異なる経路から(即ち、辞書データを用いずに)文脈記号を取得した場合に、未登録単語に対応する文脈記号が取得されたと判定してよい。なお、文脈記号取得部130は、例えば固有表現抽出を用いて、辞書データベース200とは異なる経路から文脈記号を取得してよい。
 なお、第7実施形態に係る文脈記号取得部130は、例えば、辞書データベース200とは異なる他のデータベースから文脈記号を取得可能に構成されてよい。或いは、文脈記号取得部130は、ユーザの入力に応じて文脈記号を取得可能に構成されてよい。或いは、文脈記号取得部130は、単語に適した文脈記号を自動的に判定して取得するように構成されてもよい。
 (動作の流れ)
 次に、図17を参照しながら、第7実施形態に係る情報処理システム10による動作の流れについて説明する。図17は、第7実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。なお、図17では、図4で示した処理と同様の処理に同一の符号を付している。
 図17に示すように、第7実施形態に係る情報処理システム10が動作する際には、まず第1テキストデータ取得部110が第1のテキストデータを取得する(ステップS101)。第1テキストデータ取得部110で取得された第1のテキストデータは、音声データ生成部120、文脈記号取得部130、及びテキストデータ生成部140の各々に出力される。
 続いて、音声データ生成部120が、第1のテキストデータから第1の音声データを生成する(ステップS102)。音声データ生成部120で生成された第1の音声データは、学習部150に出力される。
 他方、文脈記号取得部130は、第1のテキストデータに含まれる単語に対応する文脈記号を取得する(ステップS103)。文脈記号取得部130で取得された文脈記号は、テキストデータ生成部140、及び未登録単語追加部270に出力される。
 ここで第7実施形態では特に、未登録単語追加部270が、文脈記号取得部130が未登録単語について文脈記号を取得したか否かを判定する(ステップS701)。そして、未登録単語について文脈記号が取得されている場合(ステップS701:YES)、未登録単語追加部270は、未登録単語と、未登録単語について取得された文脈記号と、を辞書データベース200に新たに追加する(ステップS702)。なお、未登録単語について文脈記号が取得されていない場合(ステップS701:NO)、未登録単語追加部270は、上述したステップS702の処理を省略する。
 続いて、テキストデータ生成部140は、第1テキストデータ取得部110で取得された第1のテキストデータに、文脈記号取得部130で取得された文脈記号を挿入することで、第2のテキストデータを生成する(ステップS104)。テキストデータ生成部140で生成された第2のテキストデータは、学習部150に出力される。
 続いて、学習部150が、音声データ生成部120で生成された第1音声データと、テキストデータ生成部140で生成された第2のテキストデータと、を用いて音声認識器50の学習を実行する(ステップS106)。
 なお、上述した例では、文脈記号を取得した直後(即ち、ステップS103の直後)に、未登録単語追加部270が新たな単語及び文脈記号を追加する処理を行っているが、未登録単語追加部270は別のタイミングで新たな単語及び文脈記号を追加してもよい。例えば、未登録単語追加部270は、音声認識器50の学習が終わった後に(即ち、ステップS106の後に)、新たな単語及び文脈記号を追加する処理を行ってもよい。
 (技術的効果)
 次に、第7実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図16及び図17で説明したように、第7実施形態に係る情報処理システム10では、未登録単語について文脈記号が取得された場合に、辞書データベース200に新たな単語が追加される。このようにすれば、システムを運用しつつ(即ち、音声認識器50を学習する処理を実行しつつ)、辞書データを増やしていくことができる。
 上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の情報処理システムは、第1のテキストデータを取得する第1テキストデータ取得手段と、前記第1のテキストデータに対応する第1の音声データを生成する音声データ生成手段と、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成するテキストデータ生成手段と、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える情報処理システムである。
である。
 (付記2)
 付記2に記載の情報処理システムは、前記単語と前記文脈記号とを紐付けて記憶する記憶手段を更に備え、前記文脈記号取得手段は、前記記憶手段を用いて前記第1のテキストデータに含まれる単語に対応する前記文脈記号を取得する、付記1に記載の情報処理システムである。
 (付記3)
 付記3に記載の情報処理システムは、前記記憶手段に記憶されている前記単語及び前記文脈記号をユーザに提示する第1提示手段と、前記第1提示手段による提示を受けた前記ユーザの操作に応じて、前記記憶手段に記憶されている前記単語及び前記文脈記号の少なくとも一方を更新する更新手段と、を更に備える付記2に記載の情報処理システムである。
 (付記4)
 付記4に記載の情報処理システムは、第3のテキストデータを取得する第2テキストデータ取得手段と、第3のテキストデータに含まれる前記単語を、前記記憶手段に新たに記憶させる単語追加手段と、を更に備える付記2又は3に記載の情報処理システムである。
 (付記5)
 付記5に記載の情報処理システムは、前記第3のテキストデータに含まれる前記単語を抽出する抽出手段と、前記抽出手段で抽出された前記単語をユーザに提示する第2提示手段と、を更に備え、前記単語追加手段は、前記第2提示手段による提示を受けた前記ユーザの操作に応じて、前記抽出手段で抽出された前記単語を前記記憶手段に記憶させる、付記4に記載の情報処理システムである。
 (付記6)
 付記6に記載の情報処理システムは、前記記憶手段は、前記単語及び前記文脈記号に加えて、前記単語及び前記文脈記号に対応する文脈例を記憶しており、前記単語追加手段は、前記第3のテキストデータに含まれる第1文脈が、前記記憶手段に記憶されている前記文脈例と類似する場合に、前記類似する文脈例に対応する前記文脈記号に紐づくものとして、前記第1文脈に含まれる単語を前記記憶手段に記憶させる、付記4又は5に記載の情報処理システムである。
 (付記7)
 付記7に記載の情報処理システムは、前記文脈記号取得手段は、前記記憶手段とは異なる経路からでも前記文脈記号を取得可能に構成されており、前記文脈記号取得手段が前記記憶手段に記憶されていない前記単語である未登録単語に対応する前記文脈記号を取得した場合に、前記未登録単語及び前記未登録単語に対応する前記文脈記号を前記記憶手段に記憶させる未登録単語追加手段を更に備える、付記2から6のいずれか一項に記載の情報処理システムである。
 (付記8)
 付記8に記載の情報処理装置は、第1のテキストデータを取得する第1テキストデータ取得手段と、前記第1のテキストデータに対応する第1の音声データを生成する音声データ生成手段と、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成するテキストデータ生成手段と、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える情報処理装置である。
 (付記9)
 付記9に記載の情報処理方法は、少なくとも1つのコンピュータが実行する情報処理方法であって、第1のテキストデータを取得し、前記第1のテキストデータに対応する第1の音声データを生成し、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成し、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法である。
 (付記10)
 付記10に記載の記録媒体は、少なくとも1つのコンピュータに、第1のテキストデータを取得し、前記第1のテキストデータに対応する第1の音声データを生成し、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成し、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。
 (付記11)
 付記11に記載のコンピュータプログラムは、少なくとも1つのコンピュータに、第1のテキストデータを取得し、前記第1のテキストデータに対応する第1の音声データを生成し、前記第1のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成し、前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法を実行させるコンピュータプログラムである。
 この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理システム、情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。
 10 情報処理システム
 11 プロセッサ
 14 記憶装置
 50 音声認識器
 110 第1テキストデータ取得部
 120 音声データ生成部
 130 文脈記号取得部
 140 テキストデータ生成部
 150 学習部
 200 辞書データベース
 210 辞書データ提示部
 220 辞書データ更新部
 230 第2テキストデータ取得部
 240 単語追加部
 245 文脈類似判定部
 250 単語抽出部
 260 抽出単語提示部
 270 未登録単語追加部

Claims (10)

  1.  第1のテキストデータを取得する第1テキストデータ取得手段と、
     前記第1のテキストデータに対応する第1の音声データを生成する音声データ生成手段と、
     前記第1のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、
     前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成するテキストデータ生成手段と、
     前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、
     を備える情報処理システム。
  2.  前記単語と前記文脈記号とを紐付けて記憶する記憶手段を更に備え、
     前記文脈記号取得手段は、前記記憶手段を用いて前記第1のテキストデータに含まれる単語に対応する前記文脈記号を取得する、
     請求項1に記載の情報処理システム。
  3.  前記記憶手段に記憶されている前記単語及び前記文脈記号をユーザに提示する第1提示手段と、
     前記第1提示手段による提示を受けた前記ユーザの操作に応じて、前記記憶手段に記憶されている前記単語及び前記文脈記号の少なくとも一方を更新する更新手段と、
     を更に備える請求項2に記載の情報処理システム。
  4.  第3のテキストデータを取得する第2テキストデータ取得手段と、
     第3のテキストデータに含まれる前記単語を、前記記憶手段に新たに記憶させる単語追加手段と、
     を更に備える請求項2又は3に記載の情報処理システム。
  5.  前記第3のテキストデータに含まれる前記単語を抽出する抽出手段と、
     前記抽出手段で抽出された前記単語をユーザに提示する第2提示手段と、
     を更に備え、
     前記単語追加手段は、前記第2提示手段による提示を受けた前記ユーザの操作に応じて、前記抽出手段で抽出された前記単語を前記記憶手段に記憶させる、
     請求項4に記載の情報処理システム。
  6.  前記記憶手段は、前記単語及び前記文脈記号に加えて、前記単語及び前記文脈記号に対応する文脈例を記憶しており、
     前記単語追加手段は、前記第3のテキストデータに含まれる第1文脈が、前記記憶手段に記憶されている前記文脈例と類似する場合に、前記類似する文脈例に対応する前記文脈記号に紐づくものとして、前記第1文脈に含まれる単語を前記記憶手段に記憶させる、
     請求項4又は5に記載の情報処理システム。
  7.  前記文脈記号取得手段は、前記記憶手段とは異なる経路からでも前記文脈記号を取得可能に構成されており、
     前記文脈記号取得手段が前記記憶手段に記憶されていない前記単語である未登録単語に対応する前記文脈記号を取得した場合に、前記未登録単語及び前記未登録単語に対応する前記文脈記号を前記記憶手段に記憶させる未登録単語追加手段を更に備える、
     請求項2から6のいずれか一項に記載の情報処理システム。
  8.  第1のテキストデータを取得する第1テキストデータ取得手段と、
     前記第1のテキストデータに対応する第1の音声データを生成する音声データ生成手段と、
     前記第1のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、
     前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成するテキストデータ生成手段と、
     前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、
     を備える情報処理装置。
  9.  少なくとも1つのコンピュータが実行する情報処理方法であって、
     第1のテキストデータを取得し、
     前記第1のテキストデータに対応する第1の音声データを生成し、
     前記第1のテキストデータに含まれる単語に対応する文脈記号を取得し、
     前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成し、
     前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、
     情報処理方法。
  10.  少なくとも1つのコンピュータに、
     第1のテキストデータを取得し、
     前記第1のテキストデータに対応する第1の音声データを生成し、
     前記第1のテキストデータに含まれる単語に対応する文脈記号を取得し、
     前記文脈記号を前記第1のテキストデータに挿入して、第2のテキストデータを生成し、
     前記第1の音声データ及び前記第2のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、
     情報処理方法を実行させるコンピュータプログラムが記録された記録媒体。
PCT/JP2021/039899 2021-10-28 2021-10-28 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 WO2023073886A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023555998A JPWO2023073886A1 (ja) 2021-10-28 2021-10-28
PCT/JP2021/039899 WO2023073886A1 (ja) 2021-10-28 2021-10-28 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/039899 WO2023073886A1 (ja) 2021-10-28 2021-10-28 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Publications (1)

Publication Number Publication Date
WO2023073886A1 true WO2023073886A1 (ja) 2023-05-04

Family

ID=86157523

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/039899 WO2023073886A1 (ja) 2021-10-28 2021-10-28 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Country Status (2)

Country Link
JP (1) JPWO2023073886A1 (ja)
WO (1) WO2023073886A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058341A (ja) * 2006-08-29 2008-03-13 Nippon Hoso Kyokai <Nhk> 単語分類装置及び音声認識装置及び単語分類プログラム
JP2010118001A (ja) * 2008-11-14 2010-05-27 Nec Corp 言語モデル更新装置、方法及びプログラム
JP2014002257A (ja) * 2012-06-18 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 言語モデル生成装置、その方法及びプログラム
JP2020154076A (ja) * 2019-03-19 2020-09-24 国立研究開発法人情報通信研究機構 推論器、学習方法および学習プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058341A (ja) * 2006-08-29 2008-03-13 Nippon Hoso Kyokai <Nhk> 単語分類装置及び音声認識装置及び単語分類プログラム
JP2010118001A (ja) * 2008-11-14 2010-05-27 Nec Corp 言語モデル更新装置、方法及びプログラム
JP2014002257A (ja) * 2012-06-18 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 言語モデル生成装置、その方法及びプログラム
JP2020154076A (ja) * 2019-03-19 2020-09-24 国立研究開発法人情報通信研究機構 推論器、学習方法および学習プログラム

Also Published As

Publication number Publication date
JPWO2023073886A1 (ja) 2023-05-04

Similar Documents

Publication Publication Date Title
KR20100015958A (ko) 멀티모드 다국어 입력기
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
US10089898B2 (en) Information processing device, control method therefor, and computer program
JP2016531352A (ja) 入力システムをアップデートする方法、デバイス、プログラム及びデバイス
CN112805734A (zh) 用于唤起对发言禁止用语的注意的演讲辅助装置
US10276150B2 (en) Correction system, method of correction, and computer program product
JP6373243B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US20210330241A1 (en) A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test
WO2023073886A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
JP5248121B2 (ja) 愛称を推定する装置、方法およびプログラム
US12026632B2 (en) Response phrase selection device and method
JP6249760B2 (ja) テキスト読み上げ装置
JP2007026347A (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
WO2023073887A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
US10642929B2 (en) Information display device, information display method and information display program
CN112541651B (zh) 电子设备、发音学习方法、服务器装置、发音学习处理系统及记录介质
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP7124565B2 (ja) 対話方法、対話プログラム及び情報処理装置
KR102673867B1 (ko) 맞장구 대화 말뭉치 제공 장치 및 방법
CN114398888B (zh) 生成声母韵母向量的方法、装置、电子设备及存储介质
KR102566899B1 (ko) 개인별 맞춤형 자동 오타 정정을 수행할 수 있는 전자 단말 장치 및 그 동작 방법
JP6640788B2 (ja) 言語変換プログラム及び言語変換装置
WO2023119573A1 (ja) 情報処理装置、情報処理システム、情報処理方法、およびプログラム
CN106168945B (zh) 声音输出装置以及声音输出方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21962432

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023555998

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE