WO2019225154A1 - 作成文章評価装置 - Google Patents

作成文章評価装置 Download PDF

Info

Publication number
WO2019225154A1
WO2019225154A1 PCT/JP2019/013792 JP2019013792W WO2019225154A1 WO 2019225154 A1 WO2019225154 A1 WO 2019225154A1 JP 2019013792 W JP2019013792 W JP 2019013792W WO 2019225154 A1 WO2019225154 A1 WO 2019225154A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
word
unit
evaluation
created
Prior art date
Application number
PCT/JP2019/013792
Other languages
English (en)
French (fr)
Inventor
松岡 保静
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to JP2020521063A priority Critical patent/JP7062056B2/ja
Priority to US17/043,433 priority patent/US11790185B2/en
Publication of WO2019225154A1 publication Critical patent/WO2019225154A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a prepared sentence evaluation apparatus that evaluates sentences prepared by translating a sentence in a first language into a second language.
  • neural machine translation which is a machine translation using a neural network of an encoder / decoder model composed of an encoder and a decoder
  • a neural network of an encoder / decoder model an encoder inputs a sentence in a first language (for example, Japanese), and a decoder outputs a sentence in a second language (for example, English) corresponding to the sentence in the first language as a translation result.
  • a first language for example, Japanese
  • a decoder outputs a sentence in a second language (for example, English) corresponding to the sentence in the first language as a translation result.
  • Patent Document 1 an automatic interpretation device including an encoder and a decoder configured by a neural network is disclosed.
  • the above automatic interpretation device sends the second language sentence “How do I get to Gangnam?” As the translation result for the first language sentence “How do you get to Gangnam Station?” Entered by the user. Output.
  • the automatic interpretation device for example, it is not possible to evaluate the appropriateness of translation of a sentence in the second language created by the user himself / herself with respect to the sentence in the first language.
  • an object of the present invention is to provide a prepared sentence evaluation apparatus capable of evaluating a prepared sentence created in a predetermined language.
  • an encoder inputs a sentence in a first language
  • a decoder uses word candidates of a sentence in a second language corresponding to the sentence in the first language.
  • a written sentence evaluation device using a recurrent neural network of an encoder / decoder model for sequentially outputting the likelihood of the word candidate, wherein the written sentence created in the second language is sequentially input to the decoder for each word
  • An input unit and an evaluation unit that evaluates words in the generated sentence based on word candidates in the second language output by the decoder based on input from the decoder input unit and the likelihood of the word candidates, and performs output based on the evaluation result And comprising.
  • FIG. 1 is a functional block diagram of the prepared sentence evaluation apparatus 1.
  • the prepared sentence evaluation apparatus 1 includes a neural network unit 10, a parallel corpus storage unit 11, a question sentence preparation unit 12, an encoder input unit 13, an output unit 14, a prepared sentence input unit 15, a decoder input unit 16, and An evaluation unit 17 is included.
  • the neural network unit 10 includes an encoder unit 100 and a decoder unit 101.
  • the prepared sentence evaluation apparatus 1 evaluates a prepared sentence created by translating a sentence in the first language into the second language.
  • the first language is, for example, Japanese, but may be any other language.
  • the second language is a language different from the first language, for example, English, but may be any other language.
  • the first language and the second language may be different local dialects (for example, standard language and Kansai dialect in Japan).
  • the language is not limited to a natural language, and may be an artificial language, a formal language (computer programming language), or the like.
  • the created text is intended to be created by a person such as a user of the created text evaluation apparatus 1, but may be a text created by a person other than the person. Evaluation means determining the appropriateness (good or bad, goodness of fit), etc., of the created text as a translation.
  • the neural network unit 10 is a recurrent neural network (RNN) of an encoder decoder model (also known as an encoder-decoder translation model, Sequence to Sequence Model) composed of an encoder unit 100 and a decoder unit 101.
  • the neural network unit 10 is, for example, a recurrent neural network called LSTM (Long Short Term Memory).
  • LSTM Long Short Term Memory
  • the neural network unit 10 performs neural machine translation. Note that the neural network unit 10 may be provided not in the prepared sentence evaluation apparatus 1 but in another apparatus accessible to the prepared sentence evaluation apparatus 1 via the network.
  • Encoder unit 100 inputs sentences in the first language and outputs intermediate layer (hidden layer) vectors. More specifically, the encoder unit 100 divides a sentence in the first language into words by morphological analysis or the like, and converts a word ID (Word ID) corresponding to each word into a word vector (an input layer vector). Are sequentially input (in order from the first word to the last word of the sentence), and intermediate layer vectors based on the input contents so far are sequentially output (neural network calculation is performed). The encoder unit 100 outputs (passes) an intermediate layer vector based on the input contents so far from the encoder unit 100 to the decoder unit 101 when “ ⁇ EOS>” indicating the end of the sentence is input. It can be said that the encoder unit 100 conceptually analyzes the meaning of the sentence in the first language and extracts the semantic expression.
  • the decoder unit 101 receives the intermediate layer vector output from the encoder unit 100 and based on the intermediate layer vector or based on the intermediate layer vector and the second language word input to the decoder unit 101.
  • the vector of the output layer is sequentially calculated and output.
  • the output layer vector is information indicating a list of word candidates in the second language and the likelihood of the word candidates.
  • An example of the list is “(word candidate“ I ”and its likelihood“ 0.7 ”, word candidate“ We ”and its likelihood“ 0.2 ”, word candidate“ You ”” and its likelihood “0.1”. ”)” And the like.
  • Other functions of the decoder unit 101 will be described later.
  • the encoder unit 100 inputs a sentence in the first language, and the decoder unit 101 selects a word candidate of a sentence in the second language corresponding to the sentence in the first language and the word candidate.
  • a neural network unit 10 that sequentially outputs likelihoods is used.
  • general decoder When a general decoder first inputs an intermediate layer vector output from the encoder, based on the input intermediate layer vector, an output corresponding to the first word of the second language sentence to be finally output is provided. Output the layer vector.
  • the general decoder extracts the word having the maximum likelihood from the word candidates indicated by the vector in the output layer of the Nth word (N is an integer equal to or greater than 1), and extracts the extracted word from its own decoder (the general decoder ), And the output layer vector of the (N + 1) th word is output based on the input word and the vector of the intermediate layer used when outputting the vector of the output layer of the Nth word.
  • N is an integer equal to or greater than 1
  • the general decoder conceptually generates a sentence (in a second language different from the first language) from the semantic expression extracted by the encoder.
  • the parallel corpus storage unit 11 stores the parallel corpus of the first language and the second language.
  • a bilingual corpus is a corpus (sentence database) that is constructed to be used as learning data for machine translation, and is composed of sentences and sentences in different languages in the form of parallel translations.
  • the neural network unit 10 learns based on the bilingual corpus stored by the bilingual corpus storage unit 11. The learning may be performed based on an instruction from the administrator of the prepared sentence evaluation apparatus 1 or may be performed regularly (for example, once a week).
  • the problem sentence preparation unit 12 prepares a problem sentence that is a sentence in the first language to be presented to the user as a problem sentence. More specifically, the question sentence preparation unit 12 extracts sentences in the first language included in the bilingual corpus stored by the bilingual corpus storage unit 11. The first language sentence to be extracted may be random, or may follow a predetermined procedure. The question sentence preparation unit 12 may acquire the question sentence from a different means or a different device instead of the parallel corpus stored by the parallel corpus storage unit 11. The problem sentence preparation unit 12 outputs the prepared problem sentence to the encoder input unit 13 and the output unit 14.
  • the encoder input unit 13 inputs the question text output from the question text preparation unit 12 to the encoder unit 100.
  • the output unit 14 outputs the question sentence output from the question sentence preparation unit 12. More specifically, the output unit 14 displays the question sentence to the user via an output device 1006 (for example, a screen) described later. Other functions of the output unit 14 will be described later.
  • the created text input unit 15 inputs a created text created in the second language. More specifically, the created sentence input unit 15 displays a created sentence created by the user translating the displayed question sentence into the second language after the question sentence is displayed to the user by the output unit 14. Input is performed via an input device 1005 (for example, a keyboard). That is, the created sentence is a sentence created by the user translating the sentence in the first language input to the encoder unit 100 into the second language. In the present embodiment, the created text is assumed to be created by the user, but may be created by a person or device other than the user. The created text input unit 15 outputs the created text to the decoder input unit 16 and the evaluation unit 17.
  • the decoder input unit 16 sequentially inputs the created text for each word to the decoder unit 101. More specifically, the decoder input unit 16 divides the created text output from the created text input unit 15 into words by morphological analysis or the like, and sets the word ID corresponding to each word to a word vector (input layer vector). Are sequentially input to the decoder unit 101 (in order from the first word to the last word of the created sentence).
  • the decoder input unit 16 sequentially inputs the words of the created sentence to the decoder unit 101 in place of the word candidates sequentially output by the decoder unit 101 as described above. That is, the general decoder uses the word (maximum likelihood word candidate) output from the general decoder as the next input of the general decoder. The word of the sentence is used as the input of the decoder unit 101.
  • the decoder unit 101 based on the input of the decoder input unit 16 will be specifically described.
  • the decoder unit 101 corresponds to the first word of the second language sentence to be finally output based on the input intermediate layer vector. Output the output layer vector.
  • the decoder unit 101 inputs the M-th word (M is an integer of 1 or more) of the created sentence input by the decoder input unit 16 to the decoder unit 101, and the input word and the previous output layer vector
  • M is an integer of 1 or more
  • the encoder unit 100 When the encoder input unit 13 inputs the problem sentence to the encoder unit 100, the encoder unit 100 performs calculation, outputs the intermediate layer vector to the decoder unit 101, and the decoder unit 101 is based on the input intermediate layer vector.
  • the output layer vector corresponding to the first word of the second language sentence to be finally output is output, but the subsequent processing is performed until the words of the prepared sentence are sequentially input from the decoder input unit 16. Hold.
  • the evaluation unit 17 evaluates (scoring, scoring) the words of the created sentence based on the second language word candidates output by the decoder based on the input from the decoder input unit 16 and the likelihood of the word candidates.
  • the evaluation result is output to the output unit 14.
  • the evaluation unit 17 inputs the input word in the prepared sentence based on the second language word candidate output by the decoder with respect to the input word that is the word of the prepared sentence input by the decoder input unit 16 and the likelihood of the word candidate. The next word of may be evaluated.
  • the evaluation unit 17 outputs the word (input word) of the Mth word (M is an integer of 1 or more) of the created sentence input by the decoder input unit 16 from the decoder unit 101.
  • the second language word candidate and the likelihood of the word candidate are acquired.
  • the evaluation unit 17 acquires the (M + 1) -th word that is the next word after the M-th word in the created sentence output from the created sentence input unit 15.
  • the evaluation unit 17 determines the likelihood associated with the same word candidate as the (M + 1) -th word among the acquired word candidates and the likelihood of the word candidates, as the likelihood of the (M + 1) -th word. Get as a degree.
  • the evaluation unit 17 acquires the maximum likelihood (the likelihood of the most suitable word candidate as a translation) among the acquired word candidates and the likelihood of the word candidates.
  • the evaluation unit 17 uses a value (likelihood ratio) obtained by dividing the likelihood of the acquired word of the (M + 1) -th word by the maximum likelihood acquired as an evaluation value of the (M + 1) -th word of the created sentence. calculate.
  • the evaluation unit 17 outputs the calculated evaluation value to the output unit 14. Note that the calculation of the evaluation value is not limited to the above-described division.
  • the likelihood of the word of the (M + 1) word and the maximum likelihood (or the acquired word candidate and the likelihood of the word candidate) , Any calculation based on a comparison with the likelihood obtained by a predetermined criterion), or any other calculation based on the likelihood.
  • the evaluation unit 17 may calculate an evaluation value of the created sentence (whole) based on the evaluation value of each word of the created sentence and output the evaluation value to the output unit 14. For example, the evaluation unit 17 calculates an average evaluation value obtained by averaging the evaluation values of the words of the created sentence as the evaluation value of the created sentence.
  • the evaluation unit 17 may output the acquired word candidate and a part or all of the likelihood of the word candidate to the output unit 14. For example, the evaluation unit 17 outputs, to the output unit 14, a word candidate whose likelihood is greater than a predetermined criterion or a word candidate having the maximum likelihood among the acquired word candidates and the likelihood of the word candidates.
  • the output unit 14 performs output based on the evaluation result output from the evaluation unit 17.
  • the output unit 14 may display the evaluation value (score) of the word of the created sentence output from the evaluation unit 17 (for each word).
  • the output unit 14 may display the evaluation value (total score) of the created sentence (entire) output from the evaluation unit 17.
  • the output unit 14 may display the word based on the evaluation value of the word of the created sentence output from the evaluation unit 17. For example, the output unit 14 displays a word whose evaluation value is lower than a predetermined reference by changing the color or size of the word.
  • the output unit 14 outputs a word candidate having a higher likelihood than a predetermined criterion or a word candidate having the maximum likelihood, which is output from the evaluation unit 17 as another candidate (an optimal word for each word) for the word of the created sentence. May be displayed.
  • the output unit 14 may display a combination of one or more of the above display methods.
  • the output unit 14 may display a word candidate having the maximum likelihood as another candidate for a word whose evaluation value is lower than a predetermined reference.
  • the output unit 14 may acquire and display an exemplary answer to the question sentence by referring to the parallel corpus stored by the parallel corpus storage unit 11.
  • the output part 14 shall acquire suitably various information required for an output from another functional block.
  • a part of the function of the output unit 14 may be incorporated in the evaluation unit 17. That is, the evaluation unit 17 may perform the evaluation and directly output the evaluation result.
  • FIG. 2 is a diagram showing an example of machine translation and evaluation in the prepared sentence evaluation apparatus 1.
  • the example shown in FIG. 2 shows an example of scoring (evaluation) when the question sentence “I am Japanese” is presented to the user, and the user creates the created sentence “I belong to Japan”.
  • the model answer to the question sentence “I am Japanese” is “I am Japane”.
  • the question sentence “I am Japanese” is divided into words, it becomes “I”, “Ha”, “Japanese”, “I”. These words are input to the encoder unit 100 in order. After the word “is”, an “ ⁇ EOS>” symbol indicating the end of the sentence is input.
  • the neural network unit 10 starts outputting the word candidate and the likelihood of the word candidate from the decoder unit 101 (assuming that the output layer is calculated with the Softmax function or the like).
  • the word candidate output first is “I” with the highest likelihood. Since the first word of the created sentence created by the user is also “I”, the score is “1.00” because of the same likelihood (by dividing the same likelihood).
  • the word “I” created by the user is input as an input to the decoder unit 101 (the created sentence created by the user is sequentially input to the decoder unit 101 for each word). Then, the output of the decoder unit 101 is “am” with the highest likelihood, and the likelihood is “0.75”. However, the word created by the user is “belong”, and the likelihood of this word is “0.15”. Therefore, the likelihood of “belong” is divided by the likelihood of “am”, and “0.20” becomes the score (evaluation value) of “belong”. Next, not “am” but “belong” is input as an input of the decoder unit 101. Then, the output of the decoder unit 101 is “to” with the highest likelihood. Since the word created by the user is also “to”, the score is “1.0”. In this way, the score is sequentially calculated for each word.
  • FIG. 3 is a flowchart showing a part of processing (prepared sentence evaluation method) executed by the prepared sentence evaluation apparatus 1.
  • a question sentence word
  • the encoder unit 100 determines whether or not the next input word is “ ⁇ EOS>” (step S2), and when it is determined that the next input word is not “ ⁇ EOS>” (S2: NO), the process returns to S1 for the next input word.
  • the decoder unit 101 when it is determined that the next input word is “ ⁇ EOS>” (S2: YES), the decoder unit 101 then outputs an answer sentence (in the second language to be finally output) from the output layer in Softmax.
  • the likelihood of a word is calculated (step S3).
  • the evaluation unit 17 compares the word of the prepared sentence with the likelihood, and the likelihood ratio is calculated as a word score (step S4).
  • the decoder unit 101 determines whether there is a next word in the created sentence (step S5). If it is determined that there is a next word (S5: NO), the decoder input unit 16 creates the next word. The word of the sentence is input as the next input of the decoder unit 101 (step S6), and the process returns to S3.
  • the evaluation unit 17 averages the word score of each word, and calculates a total score as a sentence (prepared sentence) (step S7).
  • the output unit 14 outputs a word score for each word and an overall score of the created sentence (step S8).
  • FIG. 4 is a diagram showing an example (screen example) of the interface of the prepared sentence evaluation apparatus 1.
  • the interface shown in FIG. 4 presents Japanese (first language) problem text to the user, inputs English (second language) text written by the user into the problem text, and scores the text.
  • Reference symbol A indicates the question sentence “Can I use a credit card?”.
  • Reference symbol B indicates a created sentence “Can I try credit card?” Entered in the text box by the user.
  • the scoring is executed when the user presses the “scoring” button indicated by the reference sign C.
  • Information indicated by reference signs D, E, and F described below is displayed after scoring is executed.
  • the reference symbol D indicates “8.11” points out of a total score of “10.00”, which is an overall score of the created sentence as a scoring result.
  • a character image corresponding to the total score may be displayed around the reference sign D.
  • Reference symbol E indicates a prepared sentence that is displayed in a different color for a word (word “try” in FIG. 4) whose evaluation value is lower than a predetermined standard as a result of scoring.
  • the reference symbol F indicates a word candidate having the maximum likelihood (the word “use” in FIG. 4) as another candidate for a word whose evaluation value is lower than a predetermined criterion.
  • the “view model answer” button indicated by the reference sign G the model answer to the question sentence is displayed.
  • the reference symbol H indicates the displayed model answer “Do you accept credit cards?”.
  • the decoder input unit 16 sequentially inputs the prepared sentences generated in the second language to the decoder unit 101 for each word, and the evaluation unit 17 and the output unit 14
  • the words of the sentence are evaluated based on the second language word candidate output by the decoder unit 101 based on the input from the decoder input unit 16 and the likelihood of the word candidate, and output based on the evaluation result is performed.
  • the evaluation unit 17 determines the second language word candidate output by the decoder unit 101 and the likelihood of the word candidate for the input word that is the word of the created sentence input by the decoder input unit 16. Based on this, the next word after the input word in the created sentence is evaluated. Thereby, the word of the created sentence created in the second language can be evaluated. That is, it is possible to evaluate a prepared sentence created in a predetermined language. Moreover, the prepared sentence which the user wrote can be evaluated for every word.
  • the decoder input unit 16 sequentially inputs the words of the prepared sentence to the decoder unit 101 instead of the word candidates that the decoder unit 101 sequentially outputs.
  • the decoder input unit 16 it is possible to estimate the most appropriate word that comes next with respect to the word string of the created sentence created by the user while the encoder unit 100 grasps the meaning of the problem sentence.
  • the next word is estimated based on the word of the expression selected by the user while grasping the meaning of the problem sentence, it is possible to evaluate with a degree of freedom of expression.
  • the prepared sentence is a sentence created by the user translating the sentence in the first language input to the encoder unit 100 into the second language.
  • the translation can be evaluated about the sentence of the 2nd language which the user translated the sentence of the 1st language.
  • the evaluation part 17 and the output part 14 display the evaluation value of the word of the preparation sentence, and display the said word based on the evaluation value of the word of the preparation sentence.
  • a word candidate having a likelihood that is greater than a predetermined criterion or a word candidate having the maximum likelihood is displayed, and the word based on the evaluation value of each word in the prepared sentence Displays the evaluation value of the created text.
  • the prepared sentence input unit 15 does not wait for the user to finish inputting all the words, and the decoder input unit 16 inputs each word of the prepared sentence in real time. And may be output to the evaluation unit 17.
  • the output by the output unit 14 may be performed in real time each time an evaluation result is output from the evaluation unit 17.
  • a neural network unit 10 learned by neural machine translation is used to input a word string of a sentence written by a user into a decoder unit 101 and determine whether the next word is appropriate. The calculation is performed based on the likelihood of the output of the unit 101. Since the encoder 100 knows the meaning of the question sentence, it can be evaluated (scored) for each word while emphasizing the meaning and allowing freedom of expression of the English composition (prepared sentence). This makes it possible to score English sentences, point out poor words, present optimal words, etc., and to automate English composition scoring and feedback.
  • the written sentence evaluation device 1 of the present embodiment allows a free expression to be made for a sentence (prepared sentence) written in English by the user while emphasizing the meaning of the question sentence (problem sentence), and a word string of the sentence is assigned to each word. Can be scored. The score of this word is calculated based on the word string that the user has input so far, based on whether it is suitable for the next word, so the expression that the user wants to use is independent of the expression of the model answer. Score. The total score of the entire sentence can be calculated by averaging all the scores for each word. In addition, by pointing out a word with a poor score and presenting a word suitable for replacing the word, it also leads to user learning.
  • It has a neural network learned for machine translation, Means for dividing a question sentence into words and sequentially inputting the words to an encoder of the neural network; Means for dividing a written sentence into words and sequentially inputting the words to a decoder of the neural network; Means for comparing the likelihood of the word output from the decoder of the neural network and the likelihood of the word of the written sentence, and calculating the score of the written word; English composition scoring system with
  • the English composition scoring system according to claim 1, wherein the means for calculating the word score calculates based on the likelihood of the corresponding word output by the decoder of the neural network using the Softmax function.
  • the English composition scoring system that outputs the score of each word in the written sentence and the most likely word at the location of each word.
  • An English composition scoring display screen that displays the sentences written for the question sentence using the above-mentioned English composition scoring system so that the superiority or inferiority of each word can be recognized based on the score of each word.
  • each functional block may be realized by one device physically and / or logically coupled, and two or more devices physically and / or logically separated may be directly and / or indirectly. (For example, wired and / or wireless) and may be realized by these plural devices.
  • the prepared sentence evaluation apparatus may function as a computer that performs processing of the prepared sentence evaluation method according to the embodiment of the present invention.
  • FIG. 5 is a diagram showing an example of a hardware configuration of the prepared sentence evaluation apparatus 1 according to the embodiment of the present invention.
  • the above-described prepared sentence evaluation apparatus 1 may be physically configured as a computer apparatus including a processor 1001, a memory 1002, a storage 1003, a communication apparatus 1004, an input apparatus 1005, an output apparatus 1006, a bus 1007, and the like.
  • the term “apparatus” can be read as a circuit, a device, a unit, or the like.
  • the hardware configuration of the prepared text evaluation apparatus 1 may be configured to include one or a plurality of the devices illustrated in the figure, or may be configured not to include some devices.
  • Each function in the prepared text evaluation apparatus 1 is such that a predetermined software (program) is read on hardware such as the processor 1001 and the memory 1002 so that the processor 1001 performs an operation, and communication by the communication apparatus 1004 and the memory 1002 and This is realized by controlling reading and / or writing of data in the storage 1003.
  • a predetermined software program
  • the processor 1001 controls the entire computer by operating an operating system, for example.
  • the processor 1001 may be configured by a central processing unit (CPU) including an interface with peripheral devices, a control device, an arithmetic device, a register, and the like.
  • CPU central processing unit
  • the problem sentence preparation unit 12, the encoder input unit 13, the output unit 14, the created sentence input unit 15, the decoder input unit 16, and the evaluation unit 17 described above may be realized by the processor 1001.
  • the processor 1001 reads programs (program codes), software modules, and data from the storage 1003 and / or the communication device 1004 to the memory 1002, and executes various processes according to these.
  • programs program codes
  • software modules software modules
  • data data from the storage 1003 and / or the communication device 1004 to the memory 1002, and executes various processes according to these.
  • the program a program that causes a computer to execute at least a part of the operations described in the above embodiments is used.
  • the neural network unit 10 and the bilingual corpus storage unit 11 may be realized by a control program stored in the memory 1002 and operated by the processor 1001, and may be realized similarly for other functional blocks.
  • the above-described various processes have been described as being executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001.
  • the processor 1001 may be implemented by one or more chips. Note that the program may be transmitted from a network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium and includes, for example, at least one of ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), RAM (Random Access Memory), and the like. May be.
  • the memory 1002 may be called a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, and the like that can be executed to execute the prepared sentence evaluation method according to the embodiment of the present invention.
  • the storage 1003 is a computer-readable recording medium such as an optical disc such as a CD-ROM (Compact Disc ROM), a hard disc drive, a flexible disc, a magneto-optical disc (eg, a compact disc, a digital versatile disc, a Blu-ray). (Registered trademark) disk, smart card, flash memory (for example, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the storage medium described above may be, for example, a database, server, or other suitable medium including the memory 1002 and / or the storage 1003.
  • the communication device 1004 is hardware (transmission / reception device) for performing communication between computers via a wired and / or wireless network, and is also referred to as a network device, a network controller, a network card, a communication module, or the like.
  • a network device for example, the question sentence preparation unit 12, the output unit 14, the created sentence input unit 15, and the like may be realized by the communication device 1004.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that accepts an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that performs output to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • each device such as the processor 1001 and the memory 1002 is connected by a bus 1007 for communicating information.
  • the bus 1007 may be configured with a single bus or may be configured with different buses between apparatuses.
  • the prepared text evaluation apparatus 1 includes hardware such as a microprocessor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a programmable logic device (PLD), and a field programmable gate array (FPGA). A part or all of each functional block may be realized by the hardware.
  • the processor 1001 may be implemented by at least one of these hardware.
  • the notification of information is not limited to the aspect / embodiment described in this specification, and may be performed by other methods.
  • Each aspect / embodiment described in this specification includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA.
  • LTE Long Term Evolution
  • LTE-A Long Term Evolution-Advanced
  • SUPER 3G IMT-Advanced
  • 4G 5G
  • FRA Full Radio Access
  • W-CDMA Wideband
  • GSM registered trademark
  • CDMA2000 Code Division Multiple Access 2000
  • UMB User Mobile Broadband
  • IEEE 802.11 Wi-Fi
  • IEEE 802.16 WiMAX
  • IEEE 802.20 UWB (Ultra-WideBand
  • the present invention may be applied to a Bluetooth (registered trademark), a system using another appropriate system, and / or a next generation system extended based on the system.
  • the input / output information or the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or additionally written. The output information or the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be performed by a value represented by 1 bit (0 or 1), may be performed by a true / false value (Boolean: true or false), or may be performed by comparing numerical values (for example, a predetermined value) Comparison with the value).
  • notification of predetermined information is not limited to explicitly performed, but is performed implicitly (for example, notification of the predetermined information is not performed). Also good.
  • software, instructions, etc. may be transmitted / received via a transmission medium.
  • software may use websites, servers, or other devices using wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave.
  • wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave.
  • DSL digital subscriber line
  • wireless technology such as infrared, wireless and microwave.
  • system and “network” used in this specification are used interchangeably.
  • information, parameters, and the like described in this specification may be represented by absolute values, may be represented by relative values from a predetermined value, or may be represented by other corresponding information.
  • the radio resource may be indicated by an index.
  • determining may encompass a wide variety of actions. “Judgment” and “determination” are, for example, judgment, calculation, calculation, processing, derivation, investigating, looking up (eg, table) , Searching in a database or other data structure), ascertaining what has been ascertaining, and so on. In addition, “determination” and “determination” are reception (for example, receiving information), transmission (for example, transmitting information), input (input), output (output), and access. (Accessing) (for example, accessing data in a memory) may be considered as “determining” or “determining”.
  • determination and “determination” means that “resolving”, “selecting”, “choosing”, “establishing”, and “comparing” are regarded as “determining” and “determining”. May be included. In other words, “determination” and “determination” may include considering some operation as “determination” and “determination”.
  • connection means any direct or indirect connection or coupling between two or more elements and It can include the presence of one or more intermediate elements between two “connected” or “coupled” elements.
  • the coupling or connection between the elements may be physical, logical, or a combination thereof.
  • the two elements are radio frequency by using one or more wires, cables and / or printed electrical connections, and as some non-limiting and non-inclusive examples
  • electromagnetic energy such as electromagnetic energy having a wavelength in the region, microwave region, and light (both visible and invisible) region, it can be considered to be “connected” or “coupled” to each other.
  • any reference to elements using designations such as “first”, “second”, etc. as used herein does not generally limit the amount or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, a reference to the first and second elements does not mean that only two elements can be employed there, or that in some way the first element must precede the second element.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

所定の言語で作成された作成文章を評価することを課題とする。エンコーダ部100が第1言語の文章を入力し、デコーダ部101が当該第1言語の文章に対応する第2言語の文章の単語候補及び当該単語候補の尤度を順次出力する、エンコーダデコーダモデルのニューラルネットワーク部10を利用する作成文章評価装置1は、エンコーダ部100に、第2言語で作成された作成文章を単語ごとに順次入力するエンコーダ入力部13と、作成文章の単語を、エンコーダ入力部13による入力に基づいてデコーダ部101が出力する第2言語の単語候補及び当該単語候補の尤度に基づいて評価する評価部17と、評価部17による評価結果に基づく出力を行う出力部14と、を備える。

Description

作成文章評価装置
 第1言語の文章をユーザが第2言語に翻訳して作成した文章について評価を行う作成文章評価装置に関する。
 従来、エンコーダ及びデコーダから構成されるエンコーダデコーダモデルのニューラルネットワークを利用した機械翻訳であるニューラル機械翻訳(Neural Machine Translation)が知られている。エンコーダデコーダモデルのニューラルネットワークにおいて、エンコーダは第1言語(例えば日本語)の文章を入力し、デコーダは当該第1言語の文章に対応した第2言語(例えば英語)の文章を翻訳結果として出力する。
 例えば下記特許文献1では、ニューラルネットワークで構成されたエンコーダ及びデコーダを含む自動通訳装置が開示されている。
特開2018-5218号公報
 上記自動通訳装置は、ユーザが入力した第1言語の文章「江南駅までどのように行きますか?」に対して、翻訳結果である第2言語の文章「How do I get to Gangnam?」を出力する。しかしながら上記自動通訳装置では、例えば、上記第1言語の文章に対してユーザが自分で翻訳して作成した第2言語の文章について、翻訳の適切さ等を評価することはできない。
 そこでかかる課題に鑑みて為されたものであり、所定の言語で作成された作成文章を評価することができる作成文章評価装置を提供することを目的とする。
 上記課題を解決するため、本発明の一側面に係る作成文章評価装置は、エンコーダが第1言語の文章を入力し、デコーダが当該第1言語の文章に対応する第2言語の文章の単語候補及び当該単語候補の尤度を順次出力する、エンコーダデコーダモデルのリカレントニューラルネットワークを利用する作成文章評価装置であって、デコーダに、第2言語で作成された作成文章を単語ごとに順次入力するデコーダ入力部と、作成文章の単語を、デコーダ入力部による入力に基づいてデコーダが出力する第2言語の単語候補及び当該単語候補の尤度に基づいて評価し、評価結果に基づく出力を行う評価部と、を備える。
 このような作成文章評価装置によれば、第2言語で作成された作成文章の単語を評価することができる。すなわち、所定の言語で作成された作成文章を評価することができる。
 所定の言語で作成された作成文章を評価することができる。
本発明の実施形態に係る作成文章評価装置の機能ブロック図である。 機械翻訳及び評価の実施例を示す図である。 本発明の実施形態に係る作成文章評価装置で実行される処理を示すフローチャートである。 インタフェースの一例を示す図である。 本発明の実施形態に係る作成文章評価装置のハードウェア構成図である。
 以下、図面とともに作成文章評価装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。また、以下の説明における実施形態は、本発明の具体例であり、特に本発明を限定する旨の記載がない限り、これらの実施形態に限定されないものとする。
 図1は、作成文章評価装置1の機能ブロック図である。図1に示す通り、作成文章評価装置1は、ニューラルネットワーク部10、対訳コーパス格納部11、問題文章準備部12、エンコーダ入力部13、出力部14、作成文章入力部15、デコーダ入力部16及び評価部17を含んで構成される。また、ニューラルネットワーク部10は、エンコーダ部100及びデコーダ部101を含んで構成される。
 作成文章評価装置1は、第1言語の文章を第2言語に翻訳して作成した作成文章について評価を行う。第1言語は、例えば日本語であるが、他のいかなる言語であってもよい。第2言語は、第1言語とは異なる言語であり、例えば英語であるが、他のいかなる言語であってもよい。第1言語と第2言語とは異なる地方の方言(例えば日本における標準語と関西弁)であってもよい。言語は、自然言語に限らず、人工言語及び形式言語(コンピュータのプログラム言語)等であってもよい。作成文章は、作成文章評価装置1のユーザ等の人が作成することを意図しているが、人以外が作成した文章であってもよい。評価とは、作成文章の翻訳としての適切さ(良し悪し、適合度)等を決定することを示す。
 以下、図1に示す作成文章評価装置1の各機能ブロックについて説明する。
 ニューラルネットワーク部10は、エンコーダ部100及びデコーダ部101から構成される、エンコーダデコーダモデル(別名:encoder-decoder翻訳モデル、Sequence to Sequence Model)のリカレントニューラルネットワーク(Recurrent Neural Network、RNN)である。ニューラルネットワーク部10は、例えば、LSTM(Long Short Term Memory)と呼ばれるリカレントニューラルネットワークである。ニューラルネットワーク部10は、ニューラル機械翻訳を行う。なお、ニューラルネットワーク部10は、作成文章評価装置1内ではなく、作成文章評価装置1とネットワークを介して互いにアクセス可能な他の装置内にあってもよい。
 エンコーダ部100は、第1言語の文章を入力し、中間層(隠れ層)のベクトルを出力する。より具体的には、エンコーダ部100は、第1言語の文章を形態素解析等により単語に分割し、各単語に対応する単語ID(Word ID)を単語ベクトル(入力層のベクトル)に変換した上で順次(文章の最初の単語から最後の単語まで順に)入力し、それまでの入力内容に基づく中間層のベクトルを順次出力する(ニューラルネットワークの計算を行う)。エンコーダ部100は、文章の終わりを示す「<EOS>」を入力した時点で、エンコーダ部100からデコーダ部101に、それまでの入力内容に基づく中間層のベクトルを出力する(渡す)。エンコーダ部100は概念的に、第1言語の文章を意味解析し、意味表現を抽出していると言える。
 デコーダ部101は、エンコーダ部100から出力された中間層のベクトルを入力し、中間層のベクトルに基づいて、又は、中間層のベクトル及びデコーダ部101に入力される第2言語の単語に基づいて、出力層のベクトルを順次計算し、出力する。出力層のベクトルは、第2言語の単語候補及び当該単語候補の尤度のリストを示す情報である。当該リストの一例として『(単語候補「I」及びその尤度「0.7」,単語候補「We」及びその尤度「0.2」,単語候補「You」及びその尤度「0.1」)』等が挙げられる。デコーダ部101のその他の機能については後述する。
 上記の通り、作成文章評価装置1は、エンコーダ部100が第1言語の文章を入力し、デコーダ部101が当該第1言語の文章に対応する第2言語の文章の単語候補及び当該単語候補の尤度を順次出力する、ニューラルネットワーク部10を利用する。
 以下では、一般的なエンコーダデコーダモデルのリカレントニューラルネットワークにおいてニューラル機械翻訳を行う際のデコーダ(以下、「一般的デコーダ」と記す)の処理について説明する。一般的デコーダは、まず、エンコーダから出力された中間層のベクトルを入力すると、入力された中間層のベクトルに基づいて、最終的に出力する第2言語の文章のうち1語目に対応する出力層のベクトルを出力する。一般的デコーダは、以降、N語目(Nは1以上の整数)の出力層のベクトルが示す単語候補のうち尤度が最大の単語を抽出し、抽出した単語を自デコーダ(当該一般的デコーダ)に入力し、入力した単語とN語目の出力層のベクトルの出力を行う際に用いた中間層のベクトルとに基づいて、(N+1)語目の出力層のベクトルを出力する、という処理を、第2言語の文章の最後の単語まで反復する。一般的デコーダは概念的に、エンコーダが抽出した意味表現から、(第1言語とは異なる第2言語の)文章を生成している、と言える。
 対訳コーパス格納部11は、第1言語と第2言語との対訳コーパスを格納する。対訳コーパスとは、機械翻訳の学習データとして利用するために構築された、異なる言語の文章と文章とが対訳の形でまとめられたコーパス(文章のデータベース)である。ニューラルネットワーク部10は、対訳コーパス格納部11によって格納された対訳コーパスに基づいて学習される。学習は、作成文章評価装置1の管理者の指示に基づいて行われてもよいし、定期的(例えば1週間に1回)に行われてもよい。
 問題文章準備部12は、ユーザに問題文として提示する第1言語の文章である問題文章を準備する。より具体的には、問題文章準備部12は、対訳コーパス格納部11によって格納された対訳コーパスに含まれる第1言語の文章を抽出する。抽出する第1言語の文章は、ランダムであってもよいし、所定の手順に従ったものでもよい。問題文章準備部12は、対訳コーパス格納部11によって格納された対訳コーパスからではなく、異なる手段又は異なる装置等から問題文章を取得してもよい。問題文章準備部12は、準備した問題文章をエンコーダ入力部13及び出力部14に出力する。
 エンコーダ入力部13は、問題文章準備部12から出力された問題文章をエンコーダ部100に入力する。
 出力部14は、問題文章準備部12から出力された問題文章を出力する。より具体的には、出力部14は、後述の出力装置1006(例えば画面)を介して、問題文章をユーザに表示する。出力部14のその他の機能については後述する。
 作成文章入力部15は、第2言語で作成された作成文章を入力する。より具体的には、作成文章入力部15は、出力部14によって問題文章がユーザに表示された後、表示された問題文章をユーザが第2言語に翻訳して作成した作成文章を、後述の入力装置1005(例えばキーボード)を介して入力する。つまり、作成文章は、エンコーダ部100に入力される第1言語の文章をユーザが第2言語に翻訳して作成した文章である。本実施形態では、作成文章はユーザによって作成されたものを想定するが、ユーザ以外の人や装置によって作成されたものであってもよい。作成文章入力部15は、作成文章をデコーダ入力部16及び評価部17に出力する。
 デコーダ入力部16は、デコーダ部101に、作成文章を単語ごとに順次入力する。より具体的には、デコーダ入力部16は、作成文章入力部15から出力された作成文章を、形態素解析等により単語に分割し、各単語に対応する単語IDを単語ベクトル(入力層のベクトル)に変換した上で順次(作成文章の最初の単語から最後の単語まで順に)デコーダ部101に入力する。
 ここで、デコーダ入力部16は、デコーダ部101に、当該デコーダ部101が順次出力する単語候補の替わりに、上述の通り作成文章の単語を順次入力する。つまり、一般的デコーダは、当該一般的デコーダから出力された単語(最大の尤度の単語候補)を当該一般的デコーダの次の入力とするが、作成文章評価装置1のデコーダ部101は、作成文章の単語を当該デコーダ部101の入力とする。
 デコーダ入力部16の入力に基づくデコーダ部101の処理について具体的に説明する。デコーダ部101は、まず、エンコーダ部100から出力された中間層のベクトルを入力すると、入力された中間層のベクトルに基づいて、最終的に出力する第2言語の文章のうち1語目に対応する出力層のベクトルを出力する。デコーダ部101は、以降、デコーダ入力部16によって入力された作成文章のM語目(Mは1以上の整数)の単語を当該デコーダ部101に入力し、入力した単語と前回の出力層のベクトルの出力を行う際に用いた中間層のベクトルとに基づいて、作成文章の(M+1)語目に対応する出力層のベクトルを出力する、という処理を、作成文章の最後の単語まで反復する。
 なお、エンコーダ入力部13が問題文章をエンコーダ部100に入力すると、エンコーダ部100が計算を行い、中間層のベクトルをデコーダ部101に出力し、デコーダ部101が入力された中間層のベクトルに基づいて、最終的に出力する第2言語の文章のうち1語目に対応する出力層のベクトルを出力するが、以降の処理は、デコーダ入力部16からの作成文章の単語の順次入力があるまで保留する。
 評価部17は、作成文章の単語を、デコーダ入力部16による入力に基づいてデコーダが出力する第2言語の単語候補及び当該単語候補の尤度に基づいて評価(スコア化、点数化)し、評価結果を出力部14に出力する。評価部17は、デコーダ入力部16によって入力された作成文章の単語である入力単語に対してデコーダが出力する第2言語の単語候補及び当該単語候補の尤度に基づいて、作成文章における入力単語の次の単語を評価してもよい。
 より具体的には、まず、評価部17は、デコーダ入力部16によって入力された作成文章のM語目(Mは1以上の整数)の単語(入力単語)に対してデコーダ部101が出力する第2言語の単語候補及び当該単語候補の尤度を取得する。次に、評価部17は、作成文章入力部15から出力された当該作成文章におけるM語目の単語の次の単語である(M+1)語目の単語を取得する。次に、評価部17は、取得した単語候補及び当該単語候補の尤度のうち、(M+1)語目の単語と同一の単語候補に紐付く尤度を、(M+1)語目の単語の尤度として取得する。次に、評価部17は、取得した単語候補及び当該単語候補の尤度のうち、最大の尤度(翻訳として最も適切な単語候補の尤度)を取得する。次に、評価部17は、取得した(M+1)語目の単語の尤度を取得した最大の尤度で除算した値(尤度比率)を、作成文章の(M+1)語目の評価値として算出する。次に、評価部17は、算出した評価値を出力部14に出力する。なお、評価値の算出は、上述の除算に限るものではなく、例えば、(M+1)語目の単語の尤度と最大の尤度(又は、取得した単語候補及び当該単語候補の尤度のうち、所定の基準によって取得された尤度)との比較に基づくいかなる算出であってもよいし、尤度に基づくその他の算出であってもよい。
 評価部17は、作成文章の各単語の評価値に基づく当該作成文章(全体)の評価値を算出し、出力部14に出力してもよい。例えば、評価部17は、作成文章の各単語の評価値を平均した平均評価値を、当該作成文章の評価値として算出する。
 評価部17は、取得した単語候補及び当該単語候補の尤度の一部、又は全てを出力部14に出力してもよい。例えば、評価部17は、取得した単語候補及び当該単語候補の尤度のうち、尤度が所定の基準よりも大きい単語候補、又は、尤度が最大の単語候補を出力部14に出力する。
 出力部14は、評価部17から出力された評価結果に基づく出力を行う。出力部14は、評価部17から出力された作成文章の単語の評価値(スコア)を(単語ごとに)表示してもよい。出力部14は、評価部17から出力された作成文章(全体)の評価値(総合スコア)を表示してもよい。出力部14は、評価部17から出力された作成文章の単語の評価値に基づいた当該単語の表示を行ってもよい。例えば、出力部14は、評価値が所定の基準よりも低い単語については当該単語の色や大きさ等を変えて表示する。出力部14は、作成文章の単語に対する別候補(単語ごとの最適単語)として、評価部17から出力された、尤度が所定の基準よりも大きい単語候補、又は、尤度が最大の単語候補を表示してもよい。出力部14は、上述の表示方法を一つ以上組み合わせて表示してもよい。例えば、出力部14は、評価値が所定の基準よりも低い単語について、別候補として尤度が最大の単語候補をあわせて表示してもよい。出力部14は、対訳コーパス格納部11によって格納された対訳コーパスを参照することで、問題文章に対する模範解答を取得し、表示してもよい。なお、出力部14は、出力に必要な各種情報を、他の機能ブロックから適宜取得するものとする。また、出力部14の機能の一部は、評価部17に組み込まれていてもよい。すなわち、評価部17は、評価を行うと共に、評価結果を直接出力してもよい。
 図2は、作成文章評価装置1における機械翻訳及び評価の実施例を示す図である。図2に示す実施例では、問題文章「私は日本人です」をユーザに提示し、ユーザが作成文章「I belong to Japan」を作成した場合の採点(評価)例を示す。なお、問題文章「私は日本人です」に対する模範解答は「I am Japanese」である。まず、問題文章「私は日本人です」を単語に分割すると、「私」、「は」、「日本人」、「です」になる。これら単語を順番にエンコーダ部100に入力する。単語「です」の後には、文章の終わりを示す「<EOS>」記号を入力する。「<EOS>」記号を入力すると、ニューラルネットワーク部10は、デコーダ部101から単語候補及び当該単語候補の尤度を出力し始める(出力層をSoftmax関数等で尤度計算するものとする)。最初に出力される単語候補は、尤度が一番高い「I」になる。ユーザが作成した作成文章の最初の単語も「I」なので、同じ尤度であるため(同じ尤度同士の除算により)点数は「1.00」となる。
 次に、ユーザが作成した単語「I」をデコーダ部101の入力として入力する(ユーザが作成した作成文章は単語ごとにデコーダ部101に順次入力されるものとする)。すると、デコーダ部101の出力は、「am」が最も尤度が高く、尤度「0.75」とでる。しかし、ユーザが作成した単語は「belong」であり、この単語は尤度が「0.15」であった。したがって、「belong」の尤度を「am」の尤度で割って、「0.20」が「belong」の点数(評価値)となる。次に、デコーダ部101の入力としては「am」ではなく、「belong」を入れる。すると、デコーダ部101の出力は、最も尤度が高い「to」がでてくる。ユーザが作成した単語も「to」であるため、点数は「1.0」となる。このように順次単語ごとに点数を計算していく。
 図3は、作成文章評価装置1で実行される処理(作成文章評価方法)の一部を示すフローチャートである。まず、エンコーダ入力部13により、問題文章(の単語)がエンコーダ部100の入力層に入力される(ステップS1)。次に、エンコーダ部100により、次の入力単語が「<EOS>」であるか否かが判定され(ステップS2)、次の入力単語が「<EOS>」でないと判定された場合(S2:NO)、次の入力単語についてS1の処理に戻る。一方、次の入力単語が「<EOS>」であると判定された場合(S2:YES)、続いて、デコーダ部101により、出力層からSoftmaxで解答文章(最終的に出力する第2言語の文章)の単語(候補単語)の尤度が算出される(ステップS3)。次に、評価部17により、作成文章の単語と尤度とが比較され、尤度比率が単語スコアとして計算される(ステップS4)。次に、デコーダ部101により、作成文章の次の単語が無いかあるかが判定され(ステップS5)、次の単語があると判定された場合(S5:NO)、デコーダ入力部16により、作成文章の単語がデコーダ部101の次の入力として入力され(ステップS6)、S3の処理に戻る。一方、次の単語が無いと判定された場合(S5:YES)、評価部17により、各単語の単語スコアが平均され、文章(作成文章)として総合スコアが計算される(ステップS7)。次に、出力部14により、各単語ごとの単語スコアと、作成文章の総合スコアとが出力される(ステップS8)。
 図4は、作成文章評価装置1のインタフェースの一例(画面例)を示す図である。図4に示すインタフェースは、日本語(第1言語)の問題文章をユーザに提示し、問題文章に対してユーザが英作文した英語(第2言語)の作成文章を入力し、作成文章を採点するものである。参照符号Aは、問題文章「クレジットカードは使えますか?」を示す。参照符号Bは、ユーザがテキストボックスに入力した作成文章「Can I try credit card?」を示す。参照符号Cが示す「採点」ボタンをユーザが押下することで採点が実行される。なお、以降で説明する参照符号D、E及びFが示す情報については、採点が実行された後に表示される。
 参照符号Dは、採点結果としての作成文章の総合スコアである、「10.00」点満点中の「8.11」点を示す。なお、参照符号Dの周辺には、総合スコアに対応したキャラクタ画像が表示されてもよい。参照符号Eは、作成文章であって、採点の結果、評価値が所定の基準よりも低い単語(図4では単語「try」)については色を変えて表示された作成文章を示す。参照符号Fは、上述の評価値が所定の基準よりも低い単語に対する別候補として、尤度が最大の単語候補(図4では単語「use」)を示す。参照符号Gが示す「模範解答を見る」ボタンをユーザが押下することで、問題文章に対する模範解答が表示される。参照符号Hは、表示された模範解答「Do you accept credit cards?」を示す。
 次に、本実施形態のように構成された作成文章評価装置1の作用効果について説明する。
 本実施形態の作成文章評価装置1によれば、デコーダ入力部16は、デコーダ部101に第2言語で作成された作成文章を単語ごとに順次入力し、評価部17及び出力部14は、作成文章の単語を、デコーダ入力部16による入力に基づいてデコーダ部101が出力する第2言語の単語候補及び当該単語候補の尤度に基づいて評価し、評価結果に基づく出力を行う。より具体的には、評価部17は、デコーダ入力部16によって入力された作成文章の単語である入力単語に対してデコーダ部101が出力する第2言語の単語候補及び当該単語候補の尤度に基づいて、作成文章における入力単語の次の単語を評価する。これにより、第2言語で作成された作成文章の単語を評価することができる。すなわち、所定の言語で作成された作成文章を評価することができる。また、ユーザが作文した作成文章を、単語ごとに評価することができる。
 また、本実施形態の作成文章評価装置1によれば、デコーダ入力部16は、デコーダ部101に、デコーダ部101が順次出力する単語候補の替わりに作成文章の単語を順次入力する。これにより、エンコーダ部100で問題文章の意味を把握しておきながら、ユーザが作成した作成文章の単語列に対して、次にくる最もふさわしい単語を推定することができる。また、問題文章の意味をとらえながら、ユーザが選んだ表現の単語に基づいて、次の単語を推定するため、表現の自由度もある評価が可能となる。
 また、本実施形態の作成文章評価装置1によれば、作成文章は、エンコーダ部100に入力される第1言語の文章をユーザが第2言語に翻訳して作成した文章である。これにより、ユーザが第1言語の文章を翻訳した第2言語の文章について、その翻訳を評価することができる。
 また、本実施形態の作成文章評価装置1によれば、評価部17及び出力部14は、作成文章の単語の評価値を表示する、作成文章の単語の評価値に基づいた当該単語の表示を行う、作成文章の単語に対する別候補として、尤度が所定の基準よりも大きい単語候補、又は、前記尤度が最大の単語候補を表示する、及び、作成文章の各単語の評価値に基づく当該作成文章の評価値を表示する。これにより、評価だけではなく、よりよい翻訳を行うためのユーザへのアドバイスが可能となる等、ユーザへのフィードバック学習も可能となる。
 なお、本実施形態の作成文章評価装置1において、作成文章入力部15は、作成文章を、ユーザの全ての単語入力が終わるのを待たずに、リアルタイムで作成文章の各単語をデコーダ入力部16及び評価部17に出力してもよい。そして、出力部14による出力は、評価部17から評価結果が出力されるたびにリアルタイムで行ってもよい。これにより、ユーザが作成文章を入力中にその時点での評価及び最適単語が表示されることになるため、作成文章を全て入力し終わってしらばく時間が経った後に評価や最適単語が表示されるのに比べて、ユーザにとって学習効果が高い学習ツールとしての役割を果たすことができる。
 ここで、背景技術について説明する。近年、英語の試験等で行われる英作文について、採点の自動化が注目されている。これまでは、人手で英作文の採点が行われてきたが、膨大な量の作文を人手で採点するのは多大な時間と労力がかかる作業であり、また採点者によって採点基準が異なり、公平な採点が難しいという問題もある。そこで、英作文の自動採点システムの必要性が高まりつつある。しかしながら、英作文の採点の採点基準は多様であり、特に意味を重視した採点では、表現の方法が多様であり、模範解答と比較することが難しい。問題文によっては、表現の種類が何通りも考えられ、それごとに模範解答を用意するのは難しい。
 本実施形態の作成文章評価装置1では、ニューラル機械翻訳で学習されたニューラルネットワーク部10を用い、デコーダ部101にユーザが作文した文章の単語列を入力するとともに、次の単語がふさわしいかをデコーダ部101の出力の尤度に基づいて計算する。エンコーダ部100で問題文の意味は把握しているため、意味を重視しつつ、英作文(作成文章)の表現の自由を許容しながら、単語ごとに評価(点数化)できる。これにより、英作文の採点と、あまり良くない単語の指摘、最適な単語の提示等が可能になり、英作文の採点やフィードバックを自動化できる。
 本実施形態の作成文章評価装置1により、ユーザが英作文した文章(作成文章)を、問題文(問題文章)の意味を重視しながら、自由な表現を許容し、文章の単語列を単語ごとに点数をつけることが可能になる。この単語の点数は、それまでにユーザが入力した単語列に基づいて、次にくる単語としてふさわしいかを基準として計算されるため、模範解答の表現とは関係なく、ユーザが使用したい表現での点数となる。この単語ごとの点数を全て平均化することで文章全体の総合スコアも計算できる。また、点数の悪い単語を指摘することとその単語を置き換えるとしてふさわしい単語を提示することで、ユーザの学習にもつながる。
 作成文章評価装置1の変形例として以下の英作文採点システムを示す。
 機械翻訳用に学習されたニューラルネットワークを備え、
 問題文を単語に分割し、前記単語を前記ニューラルネットワークのエンコーダに順次入力する手段と、
 作文された文章を単語に分割し、前記単語を前記ニューラルネットワークのデコーダに順次入力する手段と、
 前記ニューラルネットワークのデコーダから出力される単語の尤度と、作文された文章の単語の尤度を比較し、作文された単語の点数を計算する手段と、
 を備える英作文採点システム。
 上記英作文採点システムであって、単語の点数を計算する手段が、前記ニューラルネットワークのデコーダがSoftmax関数で出力した該当単語の尤度に基づいて計算することを特徴とする英作文採点システム。
 上記英作文採点システムであって、作文された文章の各単語の点数と、各単語の場所における最も尤度の高い単語を出力する英作文採点システム。
 上記英作文採点システムを用い、問題文に対して作文された文章を、各単語の点数に基づいて、単語単位で優劣がわかるように表示する英作文採点表示画面。
 なお、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
 例えば、本発明の一実施の形態における作成文章評価装置などは、本発明の一実施の形態に係る作成文章評価方法の処理を行うコンピュータとして機能してもよい。図5は、本発明の一実施の形態に係る作成文章評価装置1のハードウェア構成の一例を示す図である。上述の作成文章評価装置1は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。作成文章評価装置1のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 作成文章評価装置1における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、上述の問題文章準備部12、エンコーダ入力部13、出力部14、作成文章入力部15、デコーダ入力部16及び評価部17などは、プロセッサ1001で実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、ニューラルネットワーク部10及び対訳コーパス格納部11は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る作成文章評価方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。例えば、問題文章準備部12、出力部14及び作成文章入力部15などは、通信装置1004で実現されてもよい。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
 また、作成文章評価装置1は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
 情報の通知は、本明細書で説明した態様/実施形態に限られず、他の方法で行われてもよい。
 本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
 本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
 本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
 本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
 また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスで指示されるものであってもよい。
 上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。
 本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
 「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及び/又はプリント電気接続を使用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどの電磁エネルギーを使用することにより、互いに「接続」又は「結合」されると考えることができる。
 本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本明細書で使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。
 「含む(including)」、「含んでいる(comprising)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
 本開示の全体において、例えば、英語でのa、an及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。
 1…作成文章評価装置、10…ニューラルネットワーク部、11…対訳コーパス格納部、12…問題文章準備部、13…エンコーダ入力部、14…出力部、15…作成文章入力部、16…デコーダ入力部、17…評価部、100…エンコーダ部、101…デコーダ部。

Claims (8)

  1.  エンコーダが第1言語の文章を入力し、デコーダが当該第1言語の文章に対応する第2言語の文章の単語候補及び当該単語候補の尤度を順次出力する、エンコーダデコーダモデルのリカレントニューラルネットワークを利用する作成文章評価装置であって、
     前記デコーダに、第2言語で作成された作成文章を単語ごとに順次入力するデコーダ入力部と、
     前記作成文章の単語を、前記デコーダ入力部による入力に基づいて前記デコーダが出力する第2言語の単語候補及び当該単語候補の尤度に基づいて評価し、評価結果に基づく出力を行う評価部と、
     を備える作成文章評価装置。
  2.  前記デコーダ入力部は、前記デコーダに、前記デコーダが順次出力する単語候補の替わりに前記作成文章の単語を順次入力する、請求項1に記載の作成文章評価装置。
  3.  前記評価部は、前記デコーダ入力部によって入力された前記作成文章の単語である入力単語に対して前記デコーダが出力する第2言語の単語候補及び当該単語候補の尤度に基づいて、前記作成文章における前記入力単語の次の単語を評価する、請求項1又は2に記載の作成文章評価装置。
  4.  前記作成文章は、前記エンコーダに入力される第1言語の文章をユーザが第2言語に翻訳して作成した文章である、請求項1~3の何れか一項に記載の作成文章評価装置。
  5.  前記評価部は、前記作成文章の単語の評価値を表示する、請求項1~4の何れか一項に記載の作成文章評価装置。
  6.  前記評価部は、前記作成文章の単語の評価値に基づいた当該単語の表示を行う、請求項1~5の何れか一項に記載の作成文章評価装置。
  7.  前記評価部は、前記作成文章の単語に対する別候補として、前記尤度が所定の基準よりも大きい単語候補、又は、前記尤度が最大の単語候補を表示する、請求項1~6の何れか一項に記載の作成文章評価装置。
  8.  前記評価部は、前記作成文章の各単語の評価値に基づく当該作成文章の評価値を表示する、請求項1~7の何れか一項に記載の作成文章評価装置。
PCT/JP2019/013792 2018-05-23 2019-03-28 作成文章評価装置 WO2019225154A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020521063A JP7062056B2 (ja) 2018-05-23 2019-03-28 作成文章評価装置
US17/043,433 US11790185B2 (en) 2018-05-23 2019-03-28 Created text evaluation device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018098812 2018-05-23
JP2018-098812 2018-05-23

Publications (1)

Publication Number Publication Date
WO2019225154A1 true WO2019225154A1 (ja) 2019-11-28

Family

ID=68617063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/013792 WO2019225154A1 (ja) 2018-05-23 2019-03-28 作成文章評価装置

Country Status (3)

Country Link
US (1) US11790185B2 (ja)
JP (1) JP7062056B2 (ja)
WO (1) WO2019225154A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021186892A1 (ja) * 2020-03-19 2021-09-23 株式会社Nttドコモ 翻訳文章算出装置
WO2022130940A1 (ja) * 2020-12-15 2022-06-23 株式会社Nttドコモ 提示装置
WO2023079911A1 (ja) * 2021-11-04 2023-05-11 株式会社Nttドコモ 文生成モデル生成装置、文生成モデル及び文生成装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738021B (zh) * 2019-03-25 2023-10-31 株式会社理光 神经机器翻译模型的词向量处理方法、装置及存储介质
US11989528B2 (en) * 2020-12-30 2024-05-21 Direct Cursus Technology L.L.C Method and server for training a machine learning algorithm for executing translation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134759A1 (ja) * 2005-06-15 2006-12-21 Waseda University 文章評価装置及び文章評価プログラム
CN104731777A (zh) * 2015-03-31 2015-06-24 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
US20170132217A1 (en) * 2015-11-06 2017-05-11 Samsung Electronics Co., Ltd. Apparatus and method for evaluating quality of automatic translation and for constructing distributed representation model

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
KR102565274B1 (ko) 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134759A1 (ja) * 2005-06-15 2006-12-21 Waseda University 文章評価装置及び文章評価プログラム
CN104731777A (zh) * 2015-03-31 2015-06-24 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
US20170132217A1 (en) * 2015-11-06 2017-05-11 Samsung Electronics Co., Ltd. Apparatus and method for evaluating quality of automatic translation and for constructing distributed representation model

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021186892A1 (ja) * 2020-03-19 2021-09-23 株式会社Nttドコモ 翻訳文章算出装置
WO2022130940A1 (ja) * 2020-12-15 2022-06-23 株式会社Nttドコモ 提示装置
WO2023079911A1 (ja) * 2021-11-04 2023-05-11 株式会社Nttドコモ 文生成モデル生成装置、文生成モデル及び文生成装置

Also Published As

Publication number Publication date
US20210019478A1 (en) 2021-01-21
JP7062056B2 (ja) 2022-05-02
US11790185B2 (en) 2023-10-17
JPWO2019225154A1 (ja) 2021-01-14

Similar Documents

Publication Publication Date Title
WO2019225154A1 (ja) 作成文章評価装置
US9218066B2 (en) Method for character correction
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
US20200302124A1 (en) Translation device, translation method, and program
KR20190001895A (ko) 문자 입력 방법 및 장치
JP7222082B2 (ja) 認識誤り訂正装置及び訂正モデル
JP2018010532A (ja) 情報処理装置、プログラム及び情報処理方法
JP6976448B2 (ja) 機械翻訳制御装置
US11663420B2 (en) Dialogue system
US20210142007A1 (en) Entity identification system
JP7122835B2 (ja) 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
WO2021215262A1 (ja) 句点削除モデル学習装置、句点削除モデル及び判定装置
JP7194759B2 (ja) 翻訳用データ生成システム
US11604831B2 (en) Interactive device
JP2022029273A (ja) 文類似度算出装置、学習済モデル生成装置及び分散表現モデル
WO2022130940A1 (ja) 提示装置
WO2023135963A1 (ja) 翻訳装置
WO2023100433A1 (ja) 文字列出力装置
JP2022032319A (ja) 作成文章評価装置
WO2022102364A1 (ja) 文生成モデル生成装置、文生成モデル及び文生成装置
JP6976447B2 (ja) 機械翻訳制御装置
JP2021179766A (ja) 文章翻訳装置及び翻訳モデル
US11429197B2 (en) Latin character conversion apparatus, Latin character conversion method, and non-transitory computer-readable recording medium encoded with Latin character conversion program
JP7477359B2 (ja) 文章作成装置
US20230084438A1 (en) Method of generating text, method of training model, electronic device, and medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19807297

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020521063

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19807297

Country of ref document: EP

Kind code of ref document: A1