WO2023100433A1 - 文字列出力装置 - Google Patents
文字列出力装置 Download PDFInfo
- Publication number
- WO2023100433A1 WO2023100433A1 PCT/JP2022/033330 JP2022033330W WO2023100433A1 WO 2023100433 A1 WO2023100433 A1 WO 2023100433A1 JP 2022033330 W JP2022033330 W JP 2022033330W WO 2023100433 A1 WO2023100433 A1 WO 2023100433A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- character string
- sentence
- output device
- unit
- target
- Prior art date
Links
- 238000003780 insertion Methods 0.000 claims description 44
- 230000037431 insertion Effects 0.000 claims description 44
- 238000013519 translation Methods 0.000 claims description 29
- 238000002372 labelling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Definitions
- the character string output device 1 is a computer device that outputs character strings.
- a string consists of one or more characters.
- the character string is assumed to be Japanese, but the character string is not limited to this, and may be a language other than Japanese such as English.
- the sequentially acquired character string may not end at the end of the sentence due to the mechanism of speech recognition or character recognition, etc., as described above.
- the end of the sentence is the part at the end of the sentence.
- the end of a sentence may be indicated by an end-of-sentence symbol, which is a symbol indicating the end of a sentence. Examples of sentence ending symbols in Japanese include ⁇ .'', ⁇ !'', and ⁇ ?''.
- the character string output device 1 outputs the character string up to the end of the sentence even if the sequentially acquired character string does not end at the end of the sentence. Details of the functions of the character string output device 1 will be described later.
- the storage unit 10 stores arbitrary information used in calculations in the character string output device 1, calculation results in the character string output device 1, and the like.
- the information stored by the storage unit 10 may be referred to by each function of the character string output device 1 as appropriate.
- the learning data is a character string obtained by removing the sentence delimiter (or sentence ending symbol) from the extracted character string, which is a part of the character string extracted from the character string with the sentence delimiter (or sentence ending symbol), and the extracted character string. It may be a pair with
- the extracted character string may be, for example, a partial character string obtained by dividing a character string with a sentence delimiter (or a sentence end symbol) into word units and dividing at random positions.
- FIG. 4 is a diagram showing an example of labeled learning data in series labeling.
- FIG. 4 for example, for a character string with a sentence delimiter "Now, let's start a meeting.” A label “ ⁇ O>” indicating that there is no sentence delimiter next to “meeting” and "o” is given, and a label “ ⁇ PERIOD>” indicating that a full stop comes next to the word “begin”. ” is given.
- the learning unit 11 generates a sentence ending symbol insertion model. More specifically, the learning unit 11 performs (machine) learning based on learning data that is a set of a character string without a sentence delimiter (or a sentence end symbol) and a character string with a sentence delimiter (or a sentence end symbol). and generate a sentence ending mark insertion model as a trained model. In addition, the learning unit 11 may perform (machine) learning based on the various types of learning data described above to generate a sentence ending symbol insertion model. Further, the learning unit 11 may generate the learning data itself based on the method of generating the learning data described above.
- the acquisition unit 12 may cause the storage unit 10 to store the sequentially acquired character strings, or may output them to the determination unit 13 .
- the determination unit 13 repeatedly determines whether or not the target character string, which is the character string to be determined, includes the end of the sentence.
- the determination unit 13 may determine the character string first acquired (output) by the acquisition unit 12 as the target character string in the initial determination. If it is determined that the target character string does not include the end of the sentence in the previous determination in the determination after the first time, the determination unit 13 determines that the target character string and the character subsequently acquired (output) by the acquisition unit 12 A new target character string (character string in which the target character string and a character string subsequently acquired (output) by the acquisition unit 12 are combined (in that order)) may be determined.
- the determination unit 13 may store the determination result in the storage unit 10 or output it to the output unit 14 .
- the output unit 14 When the determination unit 13 determines that the target character string includes the end of the sentence, the output unit 14 outputs the character string from the target character string (from the beginning of the sentence to the end of the sentence).
- the output unit 14 may output (display) to an output device 1006 (described later) such as a display, output to the translation unit 15, or output (transmit) to another device via a network. good too.
- the translation unit 15 outputs the result of machine-translating the character string output by the output unit 14.
- Machine translation uses existing technology.
- the translation unit 15 may output (display) to an output device 1006 (described later) such as a display, or may output (transmit) to another device via a network.
- FIG. 5 is a flowchart showing an example (part 1) of character string output processing executed by the character string output device 1.
- the user utters, "Therefore, it will be like this. Therefore, it will rain.”
- the speech recognition result A “Therefore.” is first output.
- the acquisition unit 12 first acquires the speech recognition result A “Therefore.”.
- the speech recognition result A “Therefore.” is the character string first acquired by the acquisition unit 12 .
- the determination unit 13 removes the sentence delimiter from the acquired speech recognition result A “henceforth.” to generate a sentence delimiter-removed character string “henceforth” (step S1a).
- the determination unit 13 inputs the generated sentence delimiter-removed character string “hence” to the sentence-end symbol insertion model, thereby converting the sentence delimiter-inserted character string “hence” into which the sentence delimiter is inserted. Generate (step S2a).
- the judgment unit 13 judges whether or not the end of the sentence is included in the generated character string "so," with the sentence delimiter inserted (first judgment), and judges that the end of the sentence is not included (step S3a).
- the judging unit 13 waits for the next speech recognition result after judging that the end of the sentence is not included (step S3a).
- the acquiring unit 12 acquires the speech recognition result B "It will be like this, rain.” (following the speech recognition result A "Therefore.”).
- the determining unit 13 inputs the sentence delimiter-removed character string "so" from which the sentence ending symbol is removed into the sentence ending symbol insertion model (which was replaced when the determining unit 13 performed the initial determination). A combined character string " Therefore, it will be like this, rain.” is generated (step S3a).
- the determination unit 13 removes the sentence delimiter from the generated combined character string "So, this will happen, rain.” Generate (step S4a). Next, the determination unit 13 inputs the generated sentence delimiter-removed character string “So this is how it will be like this, so it rains” to the sentence-end mark insertion model, so that the sentence-delimiter-inserted character string with the sentence delimiter inserted A column "Therefore, it will be like this. Therefore, it will rain” is generated (step S5a).
- the judgment unit 13 judges whether or not the end of the sentence is included in the generated sentence delimiter-inserted character string "Therefore, it becomes like this. Therefore, it rains.” determined to be included.
- the output unit 14 removes the end-of-sentence mark from the model for inserting the end-of-sentence symbol that was replaced when the determination unit 13 made the second determination. (This is a character string obtained by inputting the sentence delimiter removal character string ⁇ So, this is the case.'') )
- the character string “Therefore, it will be like this.” up to the end of the sentence is output as the speech recognition correction result (step S6a).
- the judgment unit 13 judges that the end of the sentence is included in the second judgment, the judgment unit 13 selects a character string after the end of the sentence in the sentence delimiter insertion character string "Therefore, it becomes like this. Therefore, it rains.”
- FIG. 6 is a flowchart showing an example (part 2) of character string output processing executed by the character string output device 1.
- the user utters, "Therefore, it will be like this. Therefore, it will rain.”
- the speech recognition result C “Therefore.” is first output.
- the acquisition unit 12 first acquires the speech recognition result C “Therefore.”.
- the speech recognition result C “Therefore.” is a character string first acquired by the acquisition unit 12 .
- the determination unit 13 removes the sentence delimiter from the acquired speech recognition result C “Kareko” to generate a sentence delimiter-removed character string “Kareko” (step S1b).
- the determination unit 13 inputs the generated sentence delimiter-removed character string “hence” to the sentence-end symbol insertion model, thereby converting the sentence delimiter-inserted character string “hence” into which the sentence delimiter is inserted. Generate (step S2b).
- the judgment unit 13 judges whether or not the end of the generated sentence delimiter inserted character string "Therefore, it will be like this. Therefore, it will rain.” is the end of the sentence (second judgment). and determines that the end is the end of the sentence, that is, the end of the sentence is included.
- the output unit 14 removes the end-of-sentence mark from the model for inserting the end-of-sentence symbol that was replaced when the determination unit 13 made the second determination.
- Sentence delimiter removal character string (which is a string obtained by inputting the sentence delimiter removal character string "So it will be like this, so it will rain")
- Sentence delimiter insertion character string "Therefore, it will be like this, so it will rain.”
- a character string from the beginning of the sentence to the end of the sentence "Therefore, it will be like this.
- the determination unit 13 determines that the end of the sentence is not the end of the sentence in the second and subsequent determinations, that is, the end of the sentence is not included, the determination unit 13 determines that the sentence delimiter insertion character string and the acquisition unit 12 (speech recognition The character string obtained (output) following the result D "It will be like this, so it will rain") is continuously (repeatedly) determined (step S7b).
- FIG. 7 is a flowchart showing an example (part 3) of character string output processing executed by the character string output device 1.
- the user utters, "Therefore, it will be like this. Therefore, it will rain.”
- the speech recognition result E “Therefore.” is first output.
- the acquisition unit 12 first acquires the speech recognition result E "Therefore.”.
- the speech recognition result E “Therefore.” is a character string first obtained by the obtaining unit 12 .
- the determination unit 13 removes the punctuation marks from the obtained speech recognition result E "Kakegae.” to generate a punctuation-removed character string "Kakegae” (step S1c).
- the determination unit 13 (a character string obtained by inputting the punctuation-removed character string "so" in which the punctuation is removed into the punctuation insertion model, replaced when the determination unit 13 made the initial determination)
- the punctuation-inserted character string “henceforth,” and the speech recognition result F subsequently obtained by the obtaining unit 12, “it will be like this, so it will rain.” Therefore, it will rain.” is generated (step S3c).
- the determination unit 13 removes the punctuation marks from the generated combined character string "Therefore, it will rain.” Generate (step S4c). Next, the determination unit 13 inputs the generated punctuation-removed character string "Therefore, it will rain like this" to the punctuation insertion model, so that the punctuation-inserted character string "Therefore, it will rain”. Therefore, it will rain.” is generated (step S5c).
- FIG. 8 is a diagram showing an example of a conventional speech translation result for the speech recognition result of FIG. As shown in FIG. 8, when speech recognition result E "Therefore.” and speech recognition result F "It will rain like this.” what will happen, and it will rain.” is output.
- the acquisition unit 12 that sequentially acquires character strings, and the determination unit 13 that repeatedly determines whether or not the end of the sentence is included in the target character string that is the character string to be determined
- the character string first acquired by the acquisition unit 12 is judged as the target character string, and in the judgment after the first time, if it is judged that the target character string does not include the end of the sentence in the previous judgment , a determination unit 13 that determines a new target character string including the target character string and a character string subsequently acquired by the acquisition unit 12, and the determination unit 13 determines that the target character string includes the end of a sentence.
- an output unit 14 for outputting a character string up to the end of the sentence in the target character string when the target character string is input.
- the determination unit 13 determines that the end of the sentence is included if the end of the target character string is the end of the sentence, and that the end of the sentence is not included if the end of the target character string is not the end of the sentence. You can judge. With this configuration, only the end of the target character string is subject to determination, so the processing can be simplified and the processing speed can be increased.
- the determination unit 13 and a character string subsequently acquired by the acquisition unit 12 may be determined.
- the determination unit 13 inserts the target character string with the sentence ending symbol removed into the sentence ending symbol insertion model that outputs a character string with the sentence ending symbol inserted when the character string without the sentence ending symbol is input. It may be determined whether or not the end of the sentence is included based on whether or not the character string obtained by inputting has an end-of-sentence symbol. With this configuration, it is possible to perform determination on a more accurate character string corrected based on the sentence ending symbol insertion model, so that more accurate processing can be performed.
- the determination unit 13 replaces the target character string with a character string obtained by inputting the target character string from which the sentence ending symbol is removed into the sentence ending symbol insertion model when performing the determination. may With this configuration, it is possible to finally output a more accurate character string corrected based on the sentence ending mark insertion model.
- the sentence ending symbol insertion model may be a trained model trained based on learning data that is a set of a character string without a sentence ending symbol and a character string with a sentence ending symbol. good. With this configuration, it is possible to more reliably generate a sentence ending mark insertion model that provides more accurate output.
- the acquisition unit 12 may sequentially acquire character strings that are recognition results of voice recognition or character recognition. With this configuration, recognition results of voice recognition or character recognition can be targeted.
- the translation section 15 that outputs the result of machine-translating the character string output by the output section 14 may be further provided. This configuration can expand the range of applications in the real world.
- the character string output device 1 is a technique for correcting speech recognition results by judging the position of sentence divisions.
- the sentence will be a sentence in which the punctuation marks are not in appropriate positions when combined.
- the punctuation mark position after concatenation is inappropriate. That is, it depends on the punctuation position that the speech recognition engine inserts.
- the character string output device 1 all the punctuation marks inserted by the speech recognition engine are deleted, and the punctuation marks are re-inserted according to the self-created model to determine sentence boundaries. It is possible to process without any need, and the above problems can be solved.
- the target is not data such as voice recognition results that are input sequentially and often contain errors (does not use interrupted learning data).
- Punctuation processing only, sentence division determination, sentence merging, etc. are not performed.
- the discontinued sentence since the discontinued sentence is used as learning data, it is strong in predicting the punctuation mark position of the discontinued sentence. Also, in addition to punctuation, other sentence delimiters can be inserted (such as "##, "?"). It is also a technology that applies punctuation mark insertion to determine sentence breaks and join sentences.
- the character string output device 1 has the following advantages. (1) It is possible to perform sentence division determination (determine whether or not combination is necessary) using only one sentence as a result of speech recognition. That is, there is no delay for waiting for the next speech recognition result. (2) Sentence delimiter positions can be determined without depending on sentence delimiters such as punctuation marks inserted by the speech recognition engine. In other words, the accuracy of sentence segment determination is high. (3) It is possible to reinsert the sentence delimiter at an appropriate position in the combined sentence without depending on the sentence delimiter such as the punctuation mark inserted by the speech recognition engine. That is, the sentence after sentence combination can be corrected to a more natural sentence. (4) It is possible to insert sentence delimiters such as "?” and "! in addition to punctuation marks. That is, it is possible to improve the accuracy of the sentence delimiter determination and to modify the sentence after the sentence combination into a more natural sentence.
- the character string output device 1 may have the following configuration.
- the language is Japanese as an example, but the technology can also be used for languages other than Japanese.
- speech recognition is described as a target, but the technique is not limited to speech recognition, but is a technique effective for "sequentially input texts containing sentence segmentation errors".
- each functional block may be implemented using one device physically or logically coupled, or directly or indirectly using two or more physically or logically separated devices (e.g. , wired, wireless, etc.) and may be implemented using these multiple devices.
- a functional block may be implemented by combining software in the one device or the plurality of devices.
- Functions include judging, determining, determining, calculating, calculating, processing, deriving, examining, searching, checking, receiving, transmitting, outputting, accessing, resolving, selecting, choosing, establishing, comparing, assuming, expecting, assuming, Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc.
- a functional block (component) that performs transmission is called a transmitting unit or transmitter. In either case, as described above, the implementation method is not particularly limited.
- the character string output device 1 may function as a computer that performs processing of the character string output method of the present disclosure.
- FIG. 13 is a diagram showing an example of the hardware configuration of the character string output device 1 according to one embodiment of the present disclosure.
- the character string output device 1 described above may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
- the term "apparatus” can be read as a circuit, device, unit, or the like.
- the hardware configuration of the character string output device 1 may be configured to include one or more of each device shown in the figure, or may be configured without including some of the devices.
- Each function in the character string output device 1 is performed by causing the processor 1001 and the memory 1002 to read predetermined software (programs) into hardware such as the processor 1001 and the memory 1002, so that the processor 1001 performs calculations, controls communication by the communication device 1004, It is realized by controlling at least one of data reading and writing in the memory 1002 and the storage 1003 .
- the processor 1001 for example, operates an operating system and controls the entire computer.
- the processor 1001 may be configured by a central processing unit (CPU) including an interface with peripheral devices, a control device, an arithmetic device, registers, and the like.
- CPU central processing unit
- the learning unit 11 , acquisition unit 12 , determination unit 13 , output unit 14 , translation unit 15 and the like described above may be realized by the processor 1001 .
- the processor 1001 reads programs (program codes), software modules, data, etc. from at least one of the storage 1003 and the communication device 1004 to the memory 1002, and executes various processes according to them.
- programs program codes
- the program a program that causes a computer to execute at least part of the operations described in the above embodiments is used.
- the learning unit 11, the acquisition unit 12, the determination unit 13, the output unit 14, and the translation unit 15 may be stored in the memory 1002 and implemented by a control program that operates on the processor 1001.
- the same applies to other functional blocks. may be implemented in Although it has been explained that the above-described various processes are executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001.
- FIG. Processor 1001 may be implemented by one or more chips.
- the program may be transmitted from a network via an electric communication line.
- the memory 1002 is a computer-readable recording medium, and is composed of at least one of, for example, ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), RAM (Random Access Memory), etc. may be
- ROM Read Only Memory
- EPROM Erasable Programmable ROM
- EEPROM Electrical Erasable Programmable ROM
- RAM Random Access Memory
- the memory 1002 may also be called a register, cache, main memory (main storage device), or the like.
- the memory 1002 can store executable programs (program code), software modules, etc. for implementing a wireless communication method according to an embodiment of the present disclosure.
- the storage 1003 is a computer-readable recording medium, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, a magneto-optical disk (for example, a compact disk, a digital versatile disk, a Blu-ray disk), smart card, flash memory (eg, card, stick, key drive), floppy disk, magnetic strip, and/or the like.
- Storage 1003 may also be called an auxiliary storage device.
- the storage medium described above may be, for example, a database, server, or other suitable medium including at least one of memory 1002 and storage 1003 .
- the communication device 1004 is hardware (transmitting/receiving device) for communicating between computers via at least one of a wired network and a wireless network, and is also called a network device, a network controller, a network card, a communication module, or the like.
- the communication device 1004 includes a high-frequency switch, a duplexer, a filter, a frequency synthesizer, etc., in order to realize at least one of frequency division duplex (FDD) and time division duplex (TDD).
- FDD frequency division duplex
- TDD time division duplex
- the learning unit 11 , acquisition unit 12 , determination unit 13 , output unit 14 , translation unit 15 and the like described above may be realized by the communication device 1004 .
- the input device 1005 is an input device (for example, keyboard, mouse, microphone, switch, button, sensor, etc.) that receives input from the outside.
- the output device 1006 is an output device (for example, display, speaker, LED lamp, etc.) that outputs to the outside. Note that the input device 1005 and the output device 1006 may be integrated (for example, a touch panel).
- Each device such as the processor 1001 and the memory 1002 is connected by a bus 1007 for communicating information.
- the bus 1007 may be configured using a single bus, or may be configured using different buses between devices.
- the character string output device 1 includes hardware such as a microprocessor, a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). part or all of each functional block may be implemented by the hardware.
- processor 1001 may be implemented using at least one of these pieces of hardware.
- Input/output information may be stored in a specific location (for example, memory) or managed using a management table. Input/output information and the like can be overwritten, updated, or appended. The output information and the like may be deleted. The entered information and the like may be transmitted to another device.
- the determination may be made by a value represented by one bit (0 or 1), by a true/false value (Boolean: true or false), or by numerical comparison (for example, a predetermined value).
- notification of predetermined information is not limited to being performed explicitly, but may be performed implicitly (for example, not notifying the predetermined information). good too.
- Software whether referred to as software, firmware, middleware, microcode, hardware description language or otherwise, includes instructions, instruction sets, code, code segments, program code, programs, subprograms, and software modules. , applications, software applications, software packages, routines, subroutines, objects, executables, threads of execution, procedures, functions, and the like.
- software, instructions, information, etc. may be transmitted and received via a transmission medium.
- the software uses at least one of wired technology (coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), etc.) and wireless technology (infrared, microwave, etc.) to website, Wired and/or wireless technologies are included within the definition of transmission medium when sent from a server or other remote source.
- wired technology coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), etc.
- wireless technology infrared, microwave, etc.
- data, instructions, commands, information, signals, bits, symbols, chips, etc. may refer to voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. may be represented by a combination of
- system and “network” used in this disclosure are used interchangeably.
- information, parameters, etc. described in the present disclosure may be expressed using absolute values, may be expressed using relative values from a predetermined value, or may be expressed using other corresponding information. may be represented.
- determining and “determining” used in this disclosure may encompass a wide variety of actions.
- “Judgement” and “determination” are, for example, judging, calculating, computing, processing, deriving, investigating, looking up, search, inquiry (eg, lookup in a table, database, or other data structure), ascertaining as “judged” or “determined”, and the like.
- “judgment” and “decision” are used for receiving (e.g., receiving information), transmitting (e.g., transmitting information), input, output, access (accessing) (for example, accessing data in memory) may include deeming that something has been "determined” or "decided”.
- judgment and “decision” are considered to be “judgment” and “decision” by resolving, selecting, choosing, establishing, comparing, etc. can contain.
- judgment and “decision” may include considering that some action is “judgment” and “decision”.
- judgment (decision) may be read as “assuming”, “expecting”, “considering”, or the like.
- connection means any direct or indirect connection or coupling between two or more elements, It can include the presence of one or more intermediate elements between two elements being “connected” or “coupled.” Couplings or connections between elements may be physical, logical, or a combination thereof. For example, “connection” may be read as "access”.
- two elements are defined using at least one of one or more wires, cables, and printed electrical connections and, as some non-limiting and non-exhaustive examples, in the radio frequency domain. , electromagnetic energy having wavelengths in the microwave and optical (both visible and invisible) regions, and the like.
- any reference to elements using the "first,” “second,” etc. designations used in this disclosure does not generally limit the quantity or order of those elements. These designations may be used in this disclosure as a convenient method of distinguishing between two or more elements. Thus, reference to a first and second element does not imply that only two elements can be employed or that the first element must precede the second element in any way.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
順次取得した文字列について文末までの文字列を出力することを課題とする。文字列出力装置1は、文字列を順次取得する取得部12と、判定対象の文字列である対象文字列について文末が含まれるか否かの判定を繰り返し行う判定部13であって、初回の判定において、取得部12によって最初に取得された文字列を対象文字列として判定を行い、初回以降の判定において、前回の判定において対象文字列に文末が含まれないと判定された場合は、当該対象文字列と、取得部12によって続いて取得された文字列とを含む新たな対象文字列について判定を行う、判定部13と、判定部13によって対象文字列に文末が含まれると判定された場合、当該対象文字列のうち文末までの文字列を出力する出力部14と、を備える。
Description
本開示の一側面は、順次取得した文字列について文末までの文字列を出力する文字列出力装置に関する。
下記特許文献1では、ユーザの発話を順次取得して音声認識し、音声認識結果としてユーザの発話内容を表す文字列を生成する検出装置が開示されている。
一般的に、音声認識では無音区間が一定時間継続すると、そこを文区切り位置と判定し、無音区間までの発話に対応する文字列が1つの音声認識結果として出力される。そのため、話し方によっては、本来1文となってほしい文の途中で文が区切られることがある。例えば、上記検出装置によって生成される文字列を順次取得した場合、取得した文字列が文末で終わっていない可能性がある。
文の意味としては1文として処理すべきだが、音声認識の仕組みなどによって、文末で終わっていないなどの不適切な文字列は解釈しづらく、例えば翻訳をする場合には翻訳結果が意図しないものとなる。そこで、順次取得した文字列について文末までの文字列を出力することが望まれている。
本開示の一側面に係る文字列出力装置は、文字列を順次取得する取得部と、判定対象の文字列である対象文字列について文末が含まれるか否かの判定を繰り返し行う判定部であって、初回の判定において、取得部によって最初に取得された文字列を対象文字列として判定を行い、初回以降の判定において、前回の判定において対象文字列に文末が含まれないと判定された場合は、当該対象文字列と、取得部によって続いて取得された文字列とを含む新たな対象文字列について判定を行う、判定部と、判定部によって対象文字列に文末が含まれると判定された場合、当該対象文字列のうち文末までの文字列を出力する出力部と、を備える。
このような側面においては、順次取得される文字列が含まれる対象文字列について文末が含まれるか否かの判定が行われ、対象文字列に文末が含まれると判定された場合、当該対象文字列のうち文末までの文字列が出力される。すなわち、順次取得した文字列について文末までの文字列を出力することができる。
本開示の一側面によれば、順次取得した文字列について文末までの文字列を出力することができる。
以下、図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。また、以下の説明における本開示での実施形態は、本発明の具体例であり、特に本発明を限定する旨の記載がない限り、これらの実施形態に限定されないものとする。
実施形態に係る文字列出力装置1は、文字列を出力するコンピュータ装置である。文字列は、1つ以上の文字で構成される。実施形態において、文字列は日本語を想定するが、これに限るものではなく、英語などの日本語以外の言語であってもよい。
文字列出力装置1は、音声認識を行う音声認識装置又は文字認識を行う文字認識装置から、認識結果である文字列を取得する。音声認識装置又は文字認識装置では、順次入力される音声又は文字に対してリアルタイムに音声認識又は文字認識が行われる。それゆえ、文字列出力装置1は、認識結果である文字列を、音声認識又は文字認識が行われるたびに順次取得する。
ここで、順次取得した文字列は、上述したように、音声認識又は文字認識の仕組みなどによって、文末で終わっていない可能性がある。文末とは、文の終わりの部分である。文末は、文末を示す記号である文末記号で表される場合もある。文末記号の一例として、日本語の場合、「。」、「!」及び「?」などが挙げられる。文字列出力装置1は、順次取得した文字列が文末で終わっていない場合でも、文末までの文字列を出力する。文字列出力装置1の機能の詳細については以降で説明する。
図1は、文字列出力装置1の機能構成の一例を示す図である。図1に示す通り、文字列出力装置1は、格納部10、学習部11、取得部12(取得部)、判定部13(判定部)、出力部14(出力部)及び翻訳部15(翻訳部)を含んで構成される。
文字列出力装置1の各機能ブロックは、文字列出力装置1内にて機能することを想定しているが、これに限るものではない。例えば、文字列出力装置1の機能ブロックの一部は、文字列出力装置1とは異なるコンピュータ装置であって、文字列出力装置1とネットワーク接続されたコンピュータ装置内において、文字列出力装置1と情報を適宜送受信しつつ機能してもよい。また、文字列出力装置1の一部の機能ブロックは無くてもよいし、複数の機能ブロックを一つの機能ブロックに統合してもよいし、一つの機能ブロックを複数の機能ブロックに分解してもよい。
以下、図1に示す文字列出力装置1の各機能について説明する。
格納部10は、文字列出力装置1における算出などで利用される任意の情報及び文字列出力装置1における算出の結果などを格納する。格納部10によって格納された情報は、文字列出力装置1の各機能によって適宜参照されてもよい。
格納部10は、文を区切る記号である文区切り記号(又は文末記号)のない文字列を入力すると文区切り記号(又は文末記号)が挿入された文字列を出力する文末記号挿入モデルを格納してもよい。文区切り記号の一例として、「、」、「。」、「!」及び「?」などが挙げられる。例えば、文末記号挿入モデルは、文区切り記号のない文字列「さて会議を始めます」を入力すると文区切り記号が挿入された文字列「さて、会議を始めます。」を出力する。文末記号挿入モデルは、既存技術によって生成されてもよい。
文末記号挿入モデルは、文区切り記号(又は文末記号)のない文字列と文区切り記号(又は文末記号)のある文字列との組である学習データに基づいて(機械)学習された学習済みモデルであってもよい。
図2は、学習データの一例を示す図である。図2に示す学習データでは、文区切り記号のない文字列と文区切り記号のある文字列とが組として対応付いている。なお、図2に示す学習データでは、1つの文(文章)の全部又は一部の例を挙げているが、これに限るものではなく、例えば2つ以上の文の全部又は一部であってもよい。学習データにおいて、文区切り記号のない文字列を入力データとして捉え、文区切り記号のある文字列を教師データとして捉えることができる。
学習データは、文区切り記号(又は文末記号)のある文字列の中から取り出した一部の文字列である取出文字列から文区切り記号(又は文末記号)を除去した文字列と当該取出文字列との組であってもよい。取出文字列は、例えば、文区切り記号(又は文末記号)のある文字列を単語単位で区切り、ランダムな位置で分割することで得られる一部の文字列であってもよい。
図3は、学習データの生成方法の一例を示す図である。図3に示すように、文区切り記号のある文字列である元データ「さて、会議を始めます。」から、4つの取出文字列「さて、会議を始めます。」、「さて、」、「会議を」及び「始めます。」が取り出されている。そして、4つの取出文字列それぞれに対して、文区切り記号を除去した文字列「さて会議を始めます」、「さて」、「会議を」及び「始めます」が生成されている。図3において、「さて会議を始めます」と「さて、会議を始めます。」との組、「さて」と「さて、」との組、「会議を」と「会議を」との組、及び、「始めます」と「始めます。」との組が学習データである。
学習データに含まれる文区切り記号(又は文末記号)のある文字列は、当該文字列を構成する単語ごとに、次に文区切り記号(又は文末記号)が来るか否かを示す系列ラベリングにおけるラベルが付与されていてもよい。その場合、学習データに含まれる文区切り記号(又は文末記号)のない文字列は、単語単位で分割されていてもよい。系列ラベリングにおけるラベルが付与された学習データを用いることで、どの単語の後にどの文区切り記号が入るかを予測する系列ラベリングタスクとして機械学習を行うことができる。
図4は、系列ラベリングにおけるラベルが付与されている学習データの一例を示す図である。図4において、例えば、文区切り記号のある文字列「さて、会議を始めます。」について、単語「さて」には次に読点が来ることを示すラベル「<COMMA>」が付与され、単語「会議」及び「を」にはそれぞれ次に文区切り記号が来ないことを示すラベル「<O>」が付与され、単語「始めます」には次に句点が来ることを示すラベル「<PERIOD>」が付与されている。
学習部11は、文末記号挿入モデルを生成する。より具体的には、学習部11は、文区切り記号(又は文末記号)のない文字列と文区切り記号(又は文末記号)のある文字列との組である学習データに基づいて(機械)学習を行い、学習済みモデルとして文末記号挿入モデルを生成する。その他に、学習部11は、上記で説明した各種の学習データに基づいて(機械)学習を行って文末記号挿入モデルを生成してもよい。また、学習部11は、上記で説明した学習データの生成方法などに基づいて学習データ自体を生成してもよい。
学習部11は、生成した文末記号挿入モデルを格納部10によって格納させる。なお、格納部10によって格納された文末記号挿入モデルは、学習部11によって生成されたものではなく、他の装置で同様に生成されたものをネットワークを介して取得したものであってもよい。
取得部12は、文字列を順次取得する。取得部12は、文字列出力装置1とネットワークなどで接続された他の装置から、ネットワークを介して文字列を順次取得してもよい。取得部12は、文字列出力装置1のユーザがキーボードなどの入力装置1005(後述)を利用して順次入力した文字列を順次取得してもよい。取得部12は、文末で終わっていない(可能性のある)文字列、又は、文の区切りが誤っている文区切り誤りの(可能性のある)文字列を順次取得してもよい。
取得部12は、音声認識又は文字認識の認識結果である文字列を順次取得してもよい。例えば上述した通り、取得部12は、音声認識装置又は文字認識装置にてリアルタイムに行われている音声認識又は文字認識の認識結果である文字列を順次取得してもよい。
取得部12は、順次取得した文字列を、格納部10によって格納させてもよいし、判定部13に出力してもよい。
判定部13は、判定対象の文字列である対象文字列について文末が含まれるか否かの判定を繰り返し行う。判定部13は、初回の判定において、取得部12によって最初に取得(出力)された文字列を対象文字列として判定を行ってもよい。判定部13は、初回以降の判定において、前回の判定において対象文字列に文末が含まれないと判定された場合は、当該対象文字列と、取得部12によって続いて取得(出力)された文字列とを含む新たな対象文字列(当該対象文字列と、取得部12によって続いて取得(出力)された文字列とが(その順で)結合した文字列)について判定を行ってもよい。判定部13は、初回以降の判定において、前回の判定において対象文字列に文末が含まれると判定された場合は、当該対象文字列のうち文末より後の文字列と、取得部12によって続いて取得(出力)された文字列とを含む新たな対象文字列(当該対象文字列のうち文末より後の文字列と、取得部12によって続いて取得(出力)された文字列とが(その順で)結合した文字列)について判定を行ってもよい。
判定部13は、対象文字列の末尾が文末であれば文末が含まれると判定し、対象文字列の末尾が文末でなければ文末が含まれないと判定してもよい。
判定部13は、文末記号挿入モデルに、文末記号を除去した対象文字列を入力して得られる文字列に文末記号があるか否かに基づいて、文末が含まれるか否かを判定してもよい。判定部13は、判定を行った際に対象文字列を、文末記号挿入モデルに文末記号を除去した対象文字列を入力して得られる文字列に置き換えてもよい。
判定部13の処理の具体例については後述する。
判定部13は、判定結果を格納部10によって格納させてもよいし、出力部14に出力してもよい。
出力部14は、判定部13によって対象文字列に文末が含まれると判定された場合、当該対象文字列のうち(文頭から)文末までの文字列を出力する。出力部14は、ディスプレイなどの出力装置1006(後述)に出力(表示)してもよいし、翻訳部15に出力してもよいし、ネットワークを介して他の装置に出力(送信)してもよい。
翻訳部15は、出力部14によって出力された文字列を機械翻訳した結果を出力する。機械翻訳は、既存技術を用いる。翻訳部15は、ディスプレイなどの出力装置1006(後述)に出力(表示)してもよいし、ネットワークを介して他の装置に出力(送信)してもよい。
続いて、図5~図8を参照しながら、文字列出力装置1が実行する各種の文字列出力処理の例を説明する。
図5は、文字列出力装置1が実行する文字列出力処理の一例(その1)を示すフローチャートである。まず、ユーザが「したがって、こうなります。よって、雨が降ります。」と発話する。次に、音声認識装置が音声認識を順次行った結果、音声認識結果A「したがって。」をまず出力する。次に、取得部12が、音声認識結果A「したがって。」をまず取得する。音声認識結果A「したがって。」は、取得部12によって最初に取得された文字列である。次に、判定部13が、取得された音声認識結果A「したがって。」について文区切り記号を除去し、文区切り記号除去文字列「したがって」を生成する(ステップS1a)。次に、判定部13が、文末記号挿入モデルに、生成された文区切り記号除去文字列「したがって」を入力することで、文区切り記号が挿入された文区切り記号挿入文字列「したがって、」を生成する(ステップS2a)。
次に、判定部13が、生成された文区切り記号挿入文字列「したがって、」に文末が含まれるか否かの判定(初回の判定)を行い、文末が含まれないと判定する(ステップS3a)。次に、判定部13が、文末が含まれないと判定されたことに伴い、次の音声認識結果を待つ(ステップS3a)。次に、取得部12が、音声認識結果B「こうなりますよって、雨が。」を(音声認識結果A「したがって。」に)続いて取得する。次に、判定部13が、(判定部13が初回の判定を行った際に置き換えた、文末記号挿入モデルに文末記号を除去した文区切り記号除去文字列「したがって」を入力して得られる文字列である)文区切り記号挿入文字列「したがって、」と、取得部12によって続いて取得された音声認識結果B「こうなりますよって、雨が。」とをその順で結合した結合文字列「したがって、こうなりますよって、雨が。」を生成する(ステップS3a)。
次に、判定部13が、生成された結合文字列「したがって、こうなりますよって、雨が。」について文区切り記号を除去し、文区切り記号除去文字列「したがってこうなりますよって雨が」を生成する(ステップS4a)。次に、判定部13が、文末記号挿入モデルに、生成された文区切り記号除去文字列「したがってこうなりますよって雨が」を入力することで、文区切り記号が挿入された文区切り記号挿入文字列「したがって、こうなります。よって、雨が」を生成する(ステップS5a)。
次に、判定部13が、生成された文区切り記号挿入文字列「したがって、こうなります。よって、雨が」に文末が含まれるか否かの判定(2回目の判定)を行い、文末が含まれると判定する。次に、出力部14が、判定部13によって文末が含まれると判定されたことに伴い、(判定部13が2回目の判定を行った際に置き換えた、文末記号挿入モデルに文末記号を除去した文区切り記号除去文字列「したがってこうなりますよって雨が」を入力して得られる文字列である)文区切り記号挿入文字列「したがって、こうなります。よって、雨が」のうち(文頭から)文末までの文字列「したがって、こうなります。」を、音声認識修正結果として出力する(ステップS6a)。一方、判定部13が2回目の判定で文末が含まれると判定した際に、判定部13が、文区切り記号挿入文字列「したがって、こうなります。よって、雨が」のうち文末より後の文字列「よって、雨が」と、取得部12によって(音声認識結果B「こうなりますよって、雨が。」に)続いて取得(出力)された文字列とをその順で結合した文字列について引き続き(繰り返し)判定を行う(ステップS7a)。
図6は、文字列出力装置1が実行する文字列出力処理の一例(その2)を示すフローチャートである。まず、ユーザが「したがって、こうなります。よって、雨が降ります。」と発話する。次に、音声認識装置が音声認識を順次行った結果、音声認識結果C「したがって。」をまず出力する。次に、取得部12が、音声認識結果C「したがって。」をまず取得する。音声認識結果C「したがって。」は、取得部12によって最初に取得された文字列である。次に、判定部13が、取得された音声認識結果C「したがって。」について文区切り記号を除去し、文区切り記号除去文字列「したがって」を生成する(ステップS1b)。次に、判定部13が、文末記号挿入モデルに、生成された文区切り記号除去文字列「したがって」を入力することで、文区切り記号が挿入された文区切り記号挿入文字列「したがって、」を生成する(ステップS2b)。
次に、判定部13が、生成された文区切り記号挿入文字列「したがって、」の末尾が文末であるか否かの判定(初回の判定)を行い、末尾が文末ではない、すなわち文末が含まれないと判定する(ステップS3b)。次に、判定部13が、文末が含まれないと判定されたことに伴い、次の音声認識結果を待つ(ステップS3b)。次に、取得部12が、音声認識結果D「こうなりますよって、雨が降ります。」を(音声認識結果C「したがって。」に)続いて取得する。次に、判定部13が、(判定部13が初回の判定を行った際に置き換えた、文末記号挿入モデルに文末記号を除去した文区切り記号除去文字列「したがって」を入力して得られる文字列である)文区切り記号挿入文字列「したがって、」と、取得部12によって続いて取得された音声認識結果D「こうなりますよって、雨が降ります。」とをその順で結合した結合文字列「したがって、こうなりますよって、雨が降ります。」を生成する(ステップS3b)。
次に、判定部13が、生成された結合文字列「したがって、こうなりますよって、雨が降ります。」について文区切り記号を除去し、文区切り記号除去文字列「したがってこうなりますよって雨が降ります」を生成する(ステップS4b)。次に、判定部13が、文末記号挿入モデルに、生成された文区切り記号除去文字列「したがってこうなりますよって雨が降ります」を入力することで、文区切り記号が挿入された文区切り記号挿入文字列「したがって、こうなります。よって、雨が降ります。」を生成する(ステップS5b)。
次に、判定部13が、生成された文区切り記号挿入文字列「したがって、こうなります。よって、雨が降ります。」の末尾が文末であるか否かの判定(2回目の判定)を行い、末尾が文末である、すなわち文末が含まれると判定する。次に、出力部14が、判定部13によって文末が含まれると判定されたことに伴い、(判定部13が2回目の判定を行った際に置き換えた、文末記号挿入モデルに文末記号を除去した文区切り記号除去文字列「したがってこうなりますよって雨が降ります」を入力して得られる文字列である)文区切り記号挿入文字列「したがって、こうなります。よって、雨が降ります。」のうち(文頭から最後の)文末までの文字列「したがって、こうなります。よって、雨が降ります。」を、音声認識修正結果として出力する(ステップS6b)。なお、判定部13が2回目以降の判定で末尾が文末ではない、すなわち文末が含まれないと判定した場合は、判定部13が、文区切り記号挿入文字列と、取得部12によって(音声認識結果D「こうなりますよって、雨が降ります。」に)続いて取得(出力)された文字列とをその順で結合した文字列について引き続き(繰り返し)判定を行う(ステップS7b)。
図7は、文字列出力装置1が実行する文字列出力処理の一例(その3)を示すフローチャートである。まず、ユーザが「したがって、こうなります。よって、雨が降ります。」と発話する。次に、音声認識装置が音声認識を順次行った結果、音声認識結果E「したがって。」をまず出力する。次に、取得部12が、音声認識結果E「したがって。」をまず取得する。音声認識結果E「したがって。」は、取得部12によって最初に取得された文字列である。次に、判定部13が、取得された音声認識結果E「したがって。」について句読点を除去し、句読点除去文字列「したがって」を生成する(ステップS1c)。次に、判定部13が、句読点挿入モデル(機能的に文末記号挿入モデルと同様)に、生成された句読点除去文字列「したがって」を入力することで、句読点が挿入された句読点挿入文字列「したがって、」を生成する(ステップS2c)。
次に、判定部13が、生成された句読点挿入文字列「したがって、」の末尾が句点であるか否かの判定(初回の判定)を行い、末尾が句点ではない、すなわち文末が含まれないと判定する(ステップS3c)。次に、判定部13が、文末が含まれないと判定されたことに伴い、次の音声認識結果を待つ(ステップS3c)。次に、取得部12が、音声認識結果F「こうなりますよって、雨が降ります。」を(音声認識結果E「したがって。」に)続いて取得する。次に、判定部13が、(判定部13が初回の判定を行った際に置き換えた、句読点挿入モデルに句読点を除去した句読点除去文字列「したがって」を入力して得られる文字列である)句読点挿入文字列「したがって、」と、取得部12によって続いて取得された音声認識結果F「こうなりますよって、雨が降ります。」とをその順で結合した結合文字列「したがって、こうなりますよって、雨が降ります。」を生成する(ステップS3c)。
次に、判定部13が、生成された結合文字列「したがって、こうなりますよって、雨が降ります。」について句読点を除去し、句読点除去文字列「したがってこうなりますよって雨が降ります」を生成する(ステップS4c)。次に、判定部13が、句読点挿入モデルに、生成された句読点除去文字列「したがってこうなりますよって雨が降ります」を入力することで、句読点が挿入された句読点挿入文字列「したがって、こうなります。よって、雨が降ります。」を生成する(ステップS5c)。
次に、判定部13が、生成された句読点挿入文字列「したがって、こうなります。よって、雨が降ります。」の末尾が句点であるか否かの判定(2回目の判定)を行い、末尾が句点である、すなわち文末が含まれると判定する。次に、出力部14が、判定部13によって文末が含まれると判定されたことに伴い、(判定部13が2回目の判定を行った際に置き換えた、句読点挿入モデルに句読点を除去した句読点除去文字列「したがってこうなりますよって雨が降ります」を入力して得られる文字列である)句読点挿入文字列「したがって、こうなります。よって、雨が降ります。」のうち(文頭から最後の)句点までの文字列「したがって、こうなります。よって、雨が降ります。」を、音声認識修正結果として出力する(ステップS6c)。次に、翻訳部15が、出力部14によって出力された音声認識修正結果を機械翻訳した結果である音声翻訳結果「Therefore, this happens. Therefore, it will rain.」を出力する。
図8は、図7の音声認識結果に対する従来技術による音声翻訳結果の一例を示す図である。図8に示す通り、音声認識結果E「したがって。」及び音声認識結果F「こうなりますよって、雨が降ります。」を、従来技術によりそのまま音声翻訳した場合、音声翻訳結果「Therefore. This is what will happen, and it will rain.」が出力される。
続いて、実施形態に係る文字列出力装置1の作用効果について説明する。
文字列出力装置1によれば、文字列を順次取得する取得部12と、判定対象の文字列である対象文字列について文末が含まれるか否かの判定を繰り返し行う判定部13であって、初回の判定において、取得部12によって最初に取得された文字列を対象文字列として判定を行い、初回以降の判定において、前回の判定において対象文字列に文末が含まれないと判定された場合は、当該対象文字列と、取得部12によって続いて取得された文字列とを含む新たな対象文字列について判定を行う、判定部13と、判定部13によって対象文字列に文末が含まれると判定された場合、当該対象文字列のうち文末までの文字列を出力する出力部14と、を備える。この構成により、順次取得される文字列が含まれる対象文字列について文末が含まれるか否かの判定が行われ、対象文字列に文末が含まれると判定された場合、当該対象文字列のうち文末までの文字列が出力される。すなわち、順次取得した文字列について文末までの文字列を出力することができる。
また、文字列出力装置1によれば、判定部13は、対象文字列の末尾が文末であれば文末が含まれると判定し、対象文字列の末尾が文末でなければ文末が含まれないと判定してもよい。この構成により、対象文字列の末尾のみが判定対象となるため、処理が単純化され、処理を高速化することができる。
また、文字列出力装置1によれば、判定部13は、初回以降の判定において、前回の判定において対象文字列に文末が含まれると判定された場合は、当該対象文字列のうち文末より後の文字列と、取得部12によって続いて取得された文字列とを含む新たな対象文字列について判定を行ってもよい。この構成により、取得部12により順次取得された文字列について、取りこぼすこと無く確実に処理することができる。
また、文字列出力装置1によれば、判定部13は、文末記号のない文字列を入力すると文末記号が挿入された文字列を出力する文末記号挿入モデルに、文末記号を除去した対象文字列を入力して得られる文字列に文末記号があるか否かに基づいて、文末が含まれるか否かを判定してもよい。この構成により、文末記号挿入モデルに基づいて修正された、より正確な文字列に対して判定を行うことができるので、より精度が高い処理を行うことができる。
また、文字列出力装置1によれば、判定部13は、判定を行った際に対象文字列を、文末記号挿入モデルに文末記号を除去した対象文字列を入力して得られる文字列に置き換えてもよい。この構成により、文末記号挿入モデルに基づいて修正された、より正確な文字列を最終的に出力することができる。
また、文字列出力装置1によれば、文末記号挿入モデルは、文末記号のない文字列と文末記号のある文字列との組である学習データに基づいて学習された学習済みモデルであってもよい。この構成により、より正確な出力を行う文末記号挿入モデルをより確実に生成することができる。
また、文字列出力装置1によれば、学習データは、文末記号のある文字列の中から取り出した一部の文字列である取出文字列から文末記号を除去した文字列と当該取出文字列との組であってもよい。この構成により、容易に学習データを生成することができる。
また、文字列出力装置1によれば、学習データに含まれる文末記号のある文字列は、当該文字列を構成する単語ごとに、次に文末記号が来るか否かを示す系列ラベリングにおけるラベルが付与されていてもよい。この構成により、系列ラベリングタスクとして機械学習を行うことができるため、より精度の高い処理を行うことができる。
また、文字列出力装置1によれば、取得部12は、音声認識又は文字認識の認識結果である文字列を順次取得してもよい。この構成により、音声認識又は文字認識の認識結果を対象とすることができる。
また、文字列出力装置1によれば、出力部14によって出力された文字列を機械翻訳した結果を出力する翻訳部15をさらに備えてもよい。この構成により、実世界で応用できる範囲を広げることができる。
文字列出力装置1は、文区切り位置判定による音声認識結果修正技術である。
従来の課題について説明する。音声認識では無音区間が一定時間継続すると、そこを文区切り位置と判定し、無音区間までの発話が1つの音声認識結果として出力される。そのため、話し方によって、本来1文となってほしい文の途中で文が区切られることがある。また、文区切りの際に、区切られた文の末尾には句点が挿入されることが多い。このような「文の意味としては1文として処理すべきだが、音声認識の仕組みによって複数文に分かれてしまっており、句読点位置も不適切な音声認識結果」は解釈しづらく、例えば翻訳をする場合には翻訳結果が意図しないものとなる。したがって、音声認識システムにおいて、複数文に分かれてしまった音声認識結果を1文に結合し、かつ句読点を正しく挿入し直す技術が望まれる。また、音声翻訳システムなどにおいては、遅延を発生させずに逐次的に音声認識結果を翻訳して翻訳結果を出力する必要があり、結合が必要な文かどうかの判定のために次にくる音声認識結果を待って利用することは望ましくない(次の音声認識結果を待つ間、現在の音声認識結果及び翻訳結果を出力できないため)。したがって、現在の音声認識結果1文のみを利用し、次に来る音声認識結果と結合すべきか(本来1文とすべきだが複数文に分かれてしまった文かどうか)を判定し、結合が必要な場合のみ次の音声認識結果を待って結合する技術が望まれる。
例えば、「したがって、こうなります。」という発話を音声翻訳する場合の具体例について説明する。従来技術では、「音声認識の仕組みによって複数文に分かれてしまっており、句読点位置も不適切な音声認識結果」を機械翻訳した結果、意図しない結果が得られてしまう(図9参照)。一方、文字列出力装置1によれば(図10参照)、音声認識結果Gのみを利用し、文区切りではない(次に来る音声認識結果と結合すべき)と判定し、次の音声認識結果との結合および句読点などの文区切り記号を正しく挿入し直す処理を行う。これにより、ユーザの意図した音声認識結果および機械翻訳結果が得られる。音声認識結果Gで文区切りであると判定された場合には、次に来る音声認識結果を待つ必要がなく、遅延が発生しない。文区切り判定は、文区切り挿入モデルにより、句読点などの文区切り記号を挿入し直し、末尾が文末記号(句点など)になるかどうかによって判定を行う。
従来技術として、音声認識結果が話し終わりかどうか(文区切りかどうか)を自動判定する技術が存在する。この技術では、音声認識結果を句読点単位で分割し、話終わり判定モデルによって判定を行う。この技術では、文区切り位置の判定はできるが、以下の2つの課題がある。
(1)音声認識エンジンが挿入する句読点の位置に依存し、うまく文区切り位置を判定できないことがある。
(2)音声認識エンジンが挿入する句読点の位置に依存し、文結合時に句読点位置が不適切になることがある。
(1)音声認識エンジンが挿入する句読点の位置に依存し、うまく文区切り位置を判定できないことがある。
(2)音声認識エンジンが挿入する句読点の位置に依存し、文結合時に句読点位置が不適切になることがある。
上記課題(1)について説明する(図11参照)。音声認識結果の句読点に誤りがあり、1音声認識結果中に2つの文が含まれる場合、正しい文区切り位置を推測できない。例えば、図11の通り、「したがって、こうなります。」及び「よって、雨が降ります。」の2文が含まれることを判定できない。「こうなります」の後ろで区切って判定できない。すなわち、音声認識エンジンが挿入する句読点位置に依存している。
上記課題(2)について説明する(図12参照)。音声認識結果の句読点に誤りがあると結合時に句読点位置が適切な位置ではない文となる。図12の通り、結合後の句読点位置が不適切である。すなわち、音声認識エンジンが挿入する句読点位置に依存している。
文字列出力装置1によれば、音声認識エンジンが挿入する句読点を全て削除し、自作のモデルにより句読点を挿入し直して文区切り判定をするため、音声認識エンジンが挿入する句読点の位置に依存せずに処理することができ、上記の課題を解決することができる。
従来技術として、句読点位置を予測する技術が存在する。この技術では、句読点位置の予測ができるが、以下の課題がある。
(1)対象が音声認識結果のような順次入力される誤りの含まれることが多いデータではない(途中切れとなっている学習データを利用していない)。
(2)句読点のみの位置を予測する技術であり、その他の記号に対応していない(「!」「?」などへの対応)。
(3)句読点処理のみであり、文区切り判定や、文の結合などは行わない。
(1)対象が音声認識結果のような順次入力される誤りの含まれることが多いデータではない(途中切れとなっている学習データを利用していない)。
(2)句読点のみの位置を予測する技術であり、その他の記号に対応していない(「!」「?」などへの対応)。
(3)句読点処理のみであり、文区切り判定や、文の結合などは行わない。
文字列出力装置1によれば、途中切れとなっている文を学習データとして利用するため、途中切れとなっている文の句読点位置の予測に強い。また、句読点に加え、その他の文区切り記号も挿入することが可能である(「!」「?」など)。また、句読点挿入を応用し、文区切りの判定や文の結合を行う技術である。
従来技術として、句読点位置予測技術が存在する。この技術では、2文間の句点位置の正しさを判定することができるが、以下の課題がある。
(1)2文を入力して2文の間に句点が必要かどうかを判定する技術であり、次の入力を待つ必要があるため遅延が発生する。
(2)2文間の句点以外の記号や位置に対応していない。
(3)句点処理のみであり、文区切り判定や、文の結合などは行わない。
(1)2文を入力して2文の間に句点が必要かどうかを判定する技術であり、次の入力を待つ必要があるため遅延が発生する。
(2)2文間の句点以外の記号や位置に対応していない。
(3)句点処理のみであり、文区切り判定や、文の結合などは行わない。
文字列出力装置1によれば、1文のみで判定が可能であり、遅延が発生しない。また、句点に加え、その他の文区切り記号も挿入することが可能である(「、」「!」「?」など)。また、句読点挿入を応用し、文区切りの判定や文の結合を行う技術である。
以上の通り、文字列出力装置1には以下の利点がある。
(1)音声認識結果1文のみを利用して文区切り判定(結合が必要かどうかの判定)を行うことが可能である。すなわち、次の音声認識結果を待つための遅延が発生しない。
(2)音声認識エンジンが挿入する句読点などの文区切り記号に依存せず、文区切り位置の判定が可能である。すなわち、文区切り判定の精度が高い。
(3)音声認識エンジンが挿入する句読点などの文区切り記号に依存せず、文結合後の文に対して、文区切り記号を適切な位置に挿入し直すことが可能である。すなわち、文結合後の文をより自然な文に修正することができる。
(4)句読点のみではなく、「?」「!」といった文区切り記号を挿入することが可能である。すなわち、文区切り判定の精度が高い、かつ、文結合後の文をより自然な文に修正することができる。
(1)音声認識結果1文のみを利用して文区切り判定(結合が必要かどうかの判定)を行うことが可能である。すなわち、次の音声認識結果を待つための遅延が発生しない。
(2)音声認識エンジンが挿入する句読点などの文区切り記号に依存せず、文区切り位置の判定が可能である。すなわち、文区切り判定の精度が高い。
(3)音声認識エンジンが挿入する句読点などの文区切り記号に依存せず、文結合後の文に対して、文区切り記号を適切な位置に挿入し直すことが可能である。すなわち、文結合後の文をより自然な文に修正することができる。
(4)句読点のみではなく、「?」「!」といった文区切り記号を挿入することが可能である。すなわち、文区切り判定の精度が高い、かつ、文結合後の文をより自然な文に修正することができる。
文字列出力装置1は以下の構成としてもよい。
[項番1]
音声認識結果に対して、全ての文区切り記号(「、」「。」「!」「?」など)を取り除き、文区切り記号のある文とそれを取り除いた文をペアとする学習データの機械学習により生成された文区切り記号挿入モデルを用いて文区切り記号を挿入するステップと、
前記文区切り記号挿入音声認識結果の末尾が文末記号(「。」「!」「?」)でなければ文末ではないと判定し、次の音声認識結果と結合するステップと、
前記結合済み音声認識結果に対して再度文区切り記号を全て取り除き、文区切り記号挿入モデルを用いて文区切り記号を挿入するステップと、
前記文区切り記号挿入音声認識結果の末尾が文末記号となるまでこれを繰り返すステップと、
末尾が文末記号となった文を音声認識修正結果とするステップと、
を備えることを特徴とする音声認識結果修正方法。
音声認識結果に対して、全ての文区切り記号(「、」「。」「!」「?」など)を取り除き、文区切り記号のある文とそれを取り除いた文をペアとする学習データの機械学習により生成された文区切り記号挿入モデルを用いて文区切り記号を挿入するステップと、
前記文区切り記号挿入音声認識結果の末尾が文末記号(「。」「!」「?」)でなければ文末ではないと判定し、次の音声認識結果と結合するステップと、
前記結合済み音声認識結果に対して再度文区切り記号を全て取り除き、文区切り記号挿入モデルを用いて文区切り記号を挿入するステップと、
前記文区切り記号挿入音声認識結果の末尾が文末記号となるまでこれを繰り返すステップと、
末尾が文末記号となった文を音声認識修正結果とするステップと、
を備えることを特徴とする音声認識結果修正方法。
[項番2]
前記の文末判定のステップにおいて、文末が文末記号ではないが、文中に文末記号を含む場合、文頭から文末記号までを音声認識修正結果として出力し、文中の文末記号から文末までを次音声認識結果と結合することを特徴とする、
項番1に記載の音声認識結果修正方法。
前記の文末判定のステップにおいて、文末が文末記号ではないが、文中に文末記号を含む場合、文頭から文末記号までを音声認識修正結果として出力し、文中の文末記号から文末までを次音声認識結果と結合することを特徴とする、
項番1に記載の音声認識結果修正方法。
[項番3]
前記の機械学習による文区切り記号挿入モデルの生成のステップにおいて、文区切り記号のある文を元データとし、「文を単語単位で区切り、ランダムな位置で分割する処理(音声認識の不適切な文区切りに対応するため)」と「文区切り記号を削除する処理」を行い、ペアとなる文区切り記号除去文を生成することを特徴とする、
項番1に記載の音声認識結果修正方法。
前記の機械学習による文区切り記号挿入モデルの生成のステップにおいて、文区切り記号のある文を元データとし、「文を単語単位で区切り、ランダムな位置で分割する処理(音声認識の不適切な文区切りに対応するため)」と「文区切り記号を削除する処理」を行い、ペアとなる文区切り記号除去文を生成することを特徴とする、
項番1に記載の音声認識結果修正方法。
[項番4]
前記の機械学習による文区切り記号挿入モデルの生成のステップにおいて、単語単位で分割された「文区切り記号除去文」に対して、「文区切り記号のある文」の文区切り記号位置を教師データとして、どの単語の後にどの文区切り記号が入るかを予測する系列ラベリングタスクとして機械学習を行うことを特徴とする、
項番1に記載の音声認識結果修正方法。
前記の機械学習による文区切り記号挿入モデルの生成のステップにおいて、単語単位で分割された「文区切り記号除去文」に対して、「文区切り記号のある文」の文区切り記号位置を教師データとして、どの単語の後にどの文区切り記号が入るかを予測する系列ラベリングタスクとして機械学習を行うことを特徴とする、
項番1に記載の音声認識結果修正方法。
[項番5]
前記音声認識結果修正方法を応用し、会議や電話等を音声認識し、その音声認識結果を適切な文区切り及び記号となるよう修正した結果を機械翻訳し、音声翻訳結果とすることを特徴とする、
項番1に記載の音声翻訳方法。
前記音声認識結果修正方法を応用し、会議や電話等を音声認識し、その音声認識結果を適切な文区切り及び記号となるよう修正した結果を機械翻訳し、音声翻訳結果とすることを特徴とする、
項番1に記載の音声翻訳方法。
実施形態において、言語は日本語を例に記載しているが、日本語以外の言語にも使える技術である。実施形態において、「音声認識」を対象として記載しているが、音声認識に限った技術ではなく、「順次入力される、文区切り誤りの含まれるテキスト」に対して有効な技術である。
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
例えば、本開示の一実施の形態における文字列出力装置1などは、本開示の文字列出力方法の処理を行うコンピュータとして機能してもよい。図13は、本開示の一実施の形態に係る文字列出力装置1のハードウェア構成の一例を示す図である。上述の文字列出力装置1は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。文字列出力装置1のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
文字列出力装置1における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述の学習部11、取得部12、判定部13、出力部14及び翻訳部15などは、プロセッサ1001によって実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、学習部11、取得部12、判定部13、出力部14及び翻訳部15は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の学習部11、取得部12、判定部13、出力部14及び翻訳部15などは、通信装置1004によって実現されてもよい。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
また、文字列出力装置1は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。
本開示において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
本開示において、例えば、英語でのa、an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
1…文字列出力装置、10…格納部、11…学習部、12…取得部、13…判定部、14…出力部、15…翻訳部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。
Claims (10)
- 文字列を順次取得する取得部と、
判定対象の文字列である対象文字列について文末が含まれるか否かの判定を繰り返し行う判定部であって、
初回の判定において、前記取得部によって最初に取得された文字列を対象文字列として判定を行い、
初回以降の判定において、前回の判定において対象文字列に文末が含まれないと判定された場合は、当該対象文字列と、前記取得部によって続いて取得された文字列とを含む新たな対象文字列について判定を行う、判定部と、
前記判定部によって対象文字列に文末が含まれると判定された場合、当該対象文字列のうち文末までの文字列を出力する出力部と、
を備える文字列出力装置。 - 前記判定部は、対象文字列の末尾が文末であれば文末が含まれると判定し、対象文字列の末尾が文末でなければ文末が含まれないと判定する、
請求項1に記載の文字列出力装置。 - 前記判定部は、初回以降の判定において、前回の判定において対象文字列に文末が含まれると判定された場合は、当該対象文字列のうち文末より後の文字列と、前記取得部によって続いて取得された文字列とを含む新たな対象文字列について判定を行う、
請求項1に記載の文字列出力装置。 - 前記判定部は、文末記号のない文字列を入力すると文末記号が挿入された文字列を出力する文末記号挿入モデルに、文末記号を除去した対象文字列を入力して得られる文字列に文末記号があるか否かに基づいて、文末が含まれるか否かを判定する、
請求項1~3の何れか一項に記載の文字列出力装置。 - 前記判定部は、判定を行った際に対象文字列を、文末記号挿入モデルに文末記号を除去した対象文字列を入力して得られる文字列に置き換える、
請求項4に記載の文字列出力装置。 - 文末記号挿入モデルは、文末記号のない文字列と文末記号のある文字列との組である学習データに基づいて学習された学習済みモデルである、
請求項4又は5に記載の文字列出力装置。 - 学習データは、文末記号のある文字列の中から取り出した一部の文字列である取出文字列から文末記号を除去した文字列と当該取出文字列との組である、
請求項6に記載の文字列出力装置。 - 学習データに含まれる文末記号のある文字列は、当該文字列を構成する単語ごとに、次に文末記号が来るか否かを示す系列ラベリングにおけるラベルが付与されている、
請求項6又は7に記載の文字列出力装置。 - 前記取得部は、音声認識又は文字認識の認識結果である文字列を順次取得する、
請求項1~8の何れか一項に記載の文字列出力装置。 - 前記出力部によって出力された文字列を機械翻訳した結果を出力する翻訳部をさらに備える、
請求項1~9の何れか一項に記載の文字列出力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023564743A JPWO2023100433A1 (ja) | 2021-11-30 | 2022-09-05 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-194136 | 2021-11-30 | ||
JP2021194136 | 2021-11-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023100433A1 true WO2023100433A1 (ja) | 2023-06-08 |
Family
ID=86611889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/033330 WO2023100433A1 (ja) | 2021-11-30 | 2022-09-05 | 文字列出力装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2023100433A1 (ja) |
WO (1) | WO2023100433A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11126091A (ja) * | 1997-10-22 | 1999-05-11 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語処理単位変換装置 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
JP2017187797A (ja) * | 2017-06-20 | 2017-10-12 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
JP6605105B1 (ja) * | 2018-10-15 | 2019-11-13 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
WO2021199654A1 (ja) * | 2020-04-02 | 2021-10-07 | 株式会社Nttドコモ | 分割装置 |
-
2022
- 2022-09-05 JP JP2023564743A patent/JPWO2023100433A1/ja active Pending
- 2022-09-05 WO PCT/JP2022/033330 patent/WO2023100433A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11126091A (ja) * | 1997-10-22 | 1999-05-11 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語処理単位変換装置 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
JP2017187797A (ja) * | 2017-06-20 | 2017-10-12 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
JP6605105B1 (ja) * | 2018-10-15 | 2019-11-13 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
WO2021199654A1 (ja) * | 2020-04-02 | 2021-10-07 | 株式会社Nttドコモ | 分割装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023100433A1 (ja) | 2023-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019225154A1 (ja) | 作成文章評価装置 | |
US9785631B2 (en) | Identification and extraction of acronym/definition pairs in documents | |
US8301435B2 (en) | Removing ambiguity when analyzing a sentence with a word having multiple meanings | |
WO2018186445A1 (ja) | 対話システム | |
CN111160004B (zh) | 一种断句模型的建立方法及装置 | |
CN104133561A (zh) | 基于输入法的辅助信息展现方法和装置 | |
US11994980B2 (en) | Method, device and computer program product for application testing | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
CN108563645B (zh) | His系统的元数据翻译方法和装置 | |
US20220245363A1 (en) | Generation device and normalization model | |
US20210124879A1 (en) | Dialogue system | |
WO2023100433A1 (ja) | 文字列出力装置 | |
WO2020166125A1 (ja) | 翻訳用データ生成システム | |
US20210142007A1 (en) | Entity identification system | |
WO2022180989A1 (ja) | モデル生成装置及びモデル生成方法 | |
WO2023135963A1 (ja) | 翻訳装置 | |
WO2022180990A1 (ja) | 質問生成装置 | |
US20230401384A1 (en) | Translation device | |
US20230141191A1 (en) | Dividing device | |
JP7477359B2 (ja) | 文章作成装置 | |
WO2020235136A1 (ja) | 対話システム | |
JP7547077B2 (ja) | 文章翻訳装置及び翻訳モデル | |
WO2019187668A1 (ja) | 文章マッチングシステム | |
US20240303445A1 (en) | Text generation model generating device, text generation model, and text generating device | |
CN113051925A (zh) | 时间识别方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22900868 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023564743 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |