WO2021199654A1 - 分割装置 - Google Patents

分割装置 Download PDF

Info

Publication number
WO2021199654A1
WO2021199654A1 PCT/JP2021/003764 JP2021003764W WO2021199654A1 WO 2021199654 A1 WO2021199654 A1 WO 2021199654A1 JP 2021003764 W JP2021003764 W JP 2021003764W WO 2021199654 A1 WO2021199654 A1 WO 2021199654A1
Authority
WO
WIPO (PCT)
Prior art keywords
division
likelihood
word
character string
unit
Prior art date
Application number
PCT/JP2021/003764
Other languages
English (en)
French (fr)
Inventor
松岡 保静
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to US17/907,602 priority Critical patent/US20230141191A1/en
Priority to JP2022511593A priority patent/JPWO2021199654A1/ja
Publication of WO2021199654A1 publication Critical patent/WO2021199654A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Definitions

  • This disclosure relates to a dividing device.
  • a processing unit of natural language processing is provided for a character string obtained by concatenating a definite character string obtained by voice recognition processing and a candidate character string corresponding to a voice section in the middle of voice recognition processing.
  • a processing device that divides a character string into a character string of a processing unit is disclosed at a division point indicating a position of a morphological element that can be a start position of.
  • This processing device detects a division point for each of a plurality of character strings in which a fixed character string is concatenated with each of a plurality of candidate character strings, and divides each character string at the division point to obtain a substring. If a common character string is included, that character string is used as the processing unit character string.
  • This disclosure describes a dividing device capable of improving processing speed.
  • the dividing device is a device that divides a character string into chunks, which are processing units.
  • This dividing device has an acquisition unit that acquires a plurality of words constituting the character string one word at a time from the beginning of the character string, and a plausibility of dividing the character string before the first word acquired by the acquisition unit. Based on the first calculation unit that calculates the forward split likelihood shown and the backward split likelihood that indicates the plausibility of splitting the character string immediately after the first word, and the forward split likelihood and the backward split likelihood. It includes a detection unit that detects a division point that is a position for dividing a character string, a generation unit that generates chunks by dividing the character string at the division point, and an output unit that outputs chunks.
  • the words constituting the character string are acquired in order from the beginning of the character string, and the forward division likelihood indicating the plausibility of dividing the character string before the acquired first word, and the first The backward split likelihood, which indicates the plausibility of splitting the character string immediately after the word, is calculated. Then, a division point is detected based on the forward division likelihood and the backward division likelihood, and a chunk is generated by dividing the character string at the division point. Since the forward division likelihood and the backward division likelihood are calculated using one first word and the division point is detected, it is not necessary to process a plurality of character strings. As a result, the time required to generate chunks can be shortened, and the processing speed can be improved.
  • the processing speed can be improved.
  • FIG. 1 is a schematic configuration diagram of a translation system including a dividing device according to an embodiment.
  • FIG. 2 is a block diagram showing a functional configuration of the dividing device shown in FIG.
  • FIG. 3 is a flowchart showing a series of processes of the translation method performed by the translation system shown in FIG.
  • FIG. 4 is a flowchart showing a series of processes of the dividing method performed by the dividing device shown in FIG.
  • FIG. 5 is a flowchart showing in detail an example of the division point detection process of FIG.
  • FIG. 6 is a diagram for explaining a process of calculating the forward division likelihood and the backward division likelihood.
  • FIG. 7 is a diagram for explaining a process of generating chunks.
  • FIG. 8 is a flowchart showing another example of the division point detection process of FIG. 4 in detail.
  • FIG. 9 is a diagram showing a hardware configuration of the dividing device shown in FIG.
  • FIG. 1 is a schematic configuration diagram of a translation system including a dividing device according to an embodiment.
  • the translation system 1 shown in FIG. 1 is a system that translates the uttered content in real time.
  • the translation system 1 includes a voice recognition device 10, a division device 20, and a translation device 30.
  • the voice recognition device 10 is a device that converts a voice signal into a character string (text data). For example, when a user speaks using a microphone, the microphone generates an audio signal corresponding to the utterance. The voice recognition device 10 generates a character string by performing a known voice recognition process on the voice signal. The voice recognition device 10 performs voice recognition processing using, for example, an acoustic model and a language model. Since the language model is trained in units analyzed by morphological analysis, the voice recognition device 10 generates a character string divided into word units as a voice recognition result. The voice recognition device 10 sequentially outputs words to the dividing device 20 each time a voice recognition result for one word is generated.
  • the dividing device 20 is a device that divides a character string input from the voice recognition device 10 into chunks.
  • a chunk is a processing unit processed in a subsequent processing unit.
  • the chunk is a processing unit suitable for the translation processing performed by the translation device 30.
  • An example of the dividing device 20 is an information processing device such as a server device. The details of the dividing device 20 will be described later.
  • the translation device 30 is a device that translates character strings in chunk units.
  • the translation device 30 is, for example, a simultaneous translation (real-time translation) device.
  • the translation device 30 translates chunks using parallel translation data for simultaneous translation.
  • the translation device 30 may be a machine translation model for operating the computer to receive chunks as input and output translation results.
  • An example of a machine translation model is an NMT (Neural Machine Translation) model.
  • the translation device 30 is generated by executing machine learning using each of the plurality of parallel translation data included in the parallel translation corpus for simultaneous translation as training data.
  • the translation device 30 sequentially outputs the translation results obtained by translating the chunks.
  • the translation device 30 outputs the translation result to, for example, an output device such as a display and a speaker (not shown).
  • FIG. 2 is a block diagram showing a functional configuration of the dividing device shown in FIG.
  • the dividing device 20 includes a timing unit 21, an acquisition unit 22, a calculation unit 23 (first calculation unit), a calculation unit 24 (second calculation unit), and the like. It includes a detection unit 25, a generation unit 26, and an output unit 27. Since the functions (operations) of each functional unit will be described in detail in the description of the division method described later, the functions of each functional unit will be briefly described here.
  • the timekeeping unit 21 is a functional unit that measures the elapsed time since the previous division was performed. Specifically, the timekeeping unit 21 measures the elapsed time since the previous division point (described later) was detected. The beginning of the character string can be regarded as a division point. That is, the timekeeping unit 21 measures the elapsed time from the beginning of the character string when no division point is detected in the character string. When the timing unit 21 receives a reset command from the detection unit 25, the time counting unit 21 resets the elapsed time to 0.
  • the acquisition unit 22 is a functional unit that acquires a plurality of words constituting the character string one word at a time from the beginning of the character string.
  • the acquisition unit 22 acquires words one by one from the voice recognition device 10.
  • the calculation unit 23 is a functional unit that calculates the forward division likelihood and the backward division likelihood of the word acquired by the acquisition unit 22.
  • the forward split likelihood is a value indicating the likelihood that the character string is split before the word.
  • the forward split likelihood is, for example, a sigmoid function value and can take a value of 0 to 1. The higher the forward split likelihood, the more likely it is that the string will be split before the word.
  • the backward split likelihood is a value indicating the likelihood that the character string is split immediately after the word.
  • the backward split likelihood is, for example, a sigmoid function value and can take a value of 0 to 1. The higher the backward split likelihood, the more likely it is that the string will be split immediately after the word.
  • the calculation unit 23 calculates the forward division likelihood and the backward division likelihood using, for example, a DNN (Deep Neural Network).
  • the calculation unit 24 is a functional unit that calculates a score based on the elapsed time.
  • the calculation unit 24 calculates the score so that the score increases as the elapsed time increases.
  • the score takes a value of 0 to 1, for example.
  • the detection unit 25 is a functional unit that detects a division point based on the front division likelihood and the rear division likelihood. In the present embodiment, the detection unit 25 further detects the division point based on the score.
  • the division point is the position where the character string is divided.
  • the detection unit 25 detects the division point by using, for example, the threshold value Sth1 (first threshold value) for the forward division likelihood and the threshold value Sth2 (second threshold value) for the backward division likelihood.
  • the threshold Sth1 and the threshold Sth2 are predetermined.
  • the threshold value Sth2 may be the same as or different from the threshold value Sth1.
  • the generation unit 26 is a functional unit that generates chunks by dividing a character string at a division point.
  • the generation unit 26 divides the character string and generates chunks, for example, by inserting a delimiter tag at the division point of the character string.
  • the output unit 27 is a functional unit that outputs chunks.
  • the output unit 27 transmits (outputs) chunks to the translation device 30.
  • FIG. 3 is a flowchart showing a series of processes of the translation method performed by the translation system shown in FIG.
  • FIG. 4 is a flowchart showing a series of processes of the dividing method performed by the dividing device shown in FIG.
  • FIG. 5 is a flowchart showing in detail an example of the division point detection process of FIG.
  • FIG. 6 is a diagram for explaining a process of calculating the forward division likelihood and the backward division likelihood.
  • FIG. 7 is a diagram for explaining a process of generating chunks.
  • the series of processes shown in FIG. 3 is started, for example, by the user speaking using a microphone.
  • the voice recognition device 10 acquires a voice signal (step S01).
  • the audio signal is input by the user via a microphone.
  • the voice recognition device 10 performs voice recognition processing on the voice signal (step S02).
  • the voice recognition device 10 performs voice recognition processing using, for example, an acoustic model and a language model.
  • the voice recognition device 10 since the language model is trained in units analyzed by morphological analysis, the voice recognition device 10 generates a character string divided into word units as a voice recognition result. Then, each time the voice recognition device 10 generates a voice recognition result for one word, the words are sequentially transmitted (output) to the dividing device 20.
  • step S03 the timekeeping unit 21 first starts measuring the elapsed time (step S31).
  • the timekeeping unit 21 starts measuring the elapsed time, for example, when the dividing device 20 receives the first word of the character string from the voice recognition device 10.
  • the acquisition unit 22 acquires the word (target word) transmitted by the voice recognition device 10 (step S32).
  • the acquisition unit 22 outputs the target word (first word) to the calculation unit 23 and the generation unit 26.
  • the calculation unit 23 calculates the forward division likelihood and the backward division likelihood of the target word (step S33). For example, the calculation unit 23 calculates the forward division likelihood and the backward division likelihood of the target word using DNN. As shown in FIG. 6, in the present embodiment, the calculation unit 23 uses LSTM (Long Short-Term Memory) as the DNN architecture. LSTM is a kind of RNN (Recurrent Neural Network). The LSTM is a neural network configured to receive each element of time series data in which a plurality of elements are arranged in order as an input and to influence the already input element on the output.
  • LSTM Long Short-Term Memory
  • the LSTM can be schematically represented as a plurality of blocks B arranged in a row.
  • Each block B is an LSTM layer that receives one word as an input and outputs the forward division likelihood and the backward division likelihood of the word.
  • Each block B outputs a value for affecting the word input to the block B before the block B to the block B in the subsequent stage.
  • the word following the word input in the block B is input.
  • the LSTM is pre-learned using a plurality of character strings divided into chunks.
  • each word of the character string is input, the backward division likelihood of the word located immediately before the division point included in the character string is set to 1, and the forward division likelihood of the word located immediately after the division point is set to 1.
  • the LSTM is learned using the other teacher data with the partition likelihood set to 0.
  • the calculation unit 23 sequentially inputs the target word from the beginning of the block B of the LSTM. Then, the block B in which the target word is input outputs the forward division likelihood and the backward division likelihood of the target word. Then, the calculation unit 23 outputs the forward division likelihood and the backward division likelihood of the target word to the detection unit 25.
  • the calculation unit 24 receives information indicating the elapsed time from the timekeeping unit 21 and calculates the score based on the elapsed time (step S34). Specifically, the calculation unit 24 calculates the score so that the score increases as the elapsed time increases.
  • the calculation unit 24 calculates the score by using a scoring method that linearly increases the score as the elapsed time increases. For example, if the goal is to generate chunks at least once every 5 seconds, the calculator 24 linearizes the score from 0 to 1 as the elapsed time increases from 0 seconds to 5 seconds. To increase. Then, the calculation unit 24 outputs the score to the detection unit 25.
  • the detection unit 25 receives the forward division likelihood and the backward division likelihood of the target word from the calculation unit 23, and when it receives the score from the calculation unit 24, detects the division point in the character string (step S35).
  • the detection unit 25 first compares the forward division likelihood of the target word with the threshold Sth1, and determines whether the forward division likelihood is equal to or greater than the threshold Sth1 or less than the threshold Sth1 (step S51).
  • the detection unit 25 determines that the forward division likelihood is equal to or higher than the threshold value Sth1 (step S51; YES)
  • the detection unit 25 detects the front of the target word as a division point (step S52).
  • the detection unit 25 Before the target word, it means between the target word and the word immediately before the target word (second word). Then, the detection unit 25 outputs information indicating the position of the division point detected in step S52 to the generation unit 26 and outputs a reset command to the timekeeping unit 21, and the division point detection process in step S35 ends.
  • the detection unit 25 determines that the forward division likelihood is less than the threshold value Sth1 (step S51; NO)
  • the detection unit 25 calculates the modified backward division likelihood based on the backward division likelihood and the score of the target word. ..
  • the detection unit 25 calculates the modified backward division likelihood by adding a score to the backward division likelihood of the target word.
  • the detection unit 25 compares the modified backward division likelihood with the threshold value Sth2, and determines whether the modified backward division likelihood is equal to or greater than the threshold value Sth2 or less than the threshold value Sth2 (step S53).
  • the detection unit 25 determines that the modified backward division likelihood is equal to or higher than the threshold value Sth2 (step S53; YES)
  • the detection unit 25 detects immediately after the target word as a division point (step S54). Immediately after the target word means between the target word and the word immediately after the target word (third word). Then, the detection unit 25 outputs information indicating the position of the division point detected in step S54 to the generation unit 26 and outputs a reset command to the timekeeping unit 21, and the division point detection process in step S35 ends.
  • step S53 determines that the modified backward division likelihood is less than the threshold value Sth2 (step S53; NO)
  • both the threshold value Sth1 and the threshold value Sth2 are set to 0.85.
  • the forward division likelihood of the word "from” is 0.9, the area between the word "minutes” and the word “from” is detected as a division point.
  • the generation unit 26 when the generation unit 26 receives the information indicating the position of the division point from the detection unit 25, the generation unit 26 generates a chunk (step S36). More specifically, as shown in FIG. 7, the generation unit 26 arranges the words acquired in order by the acquisition unit 22 in the order of acquisition, and inserts a delimiter tag Stag indicating the division point at the position of the division point.
  • the character string ⁇ sep> is used as the delimiter tag Stag.
  • the generation unit 26 outputs the chunk to the output unit 27 every time a chunk is generated (every time a delimiter tag Stag is inserted).
  • step S37 the output unit 27 may transmit only the chunks included in the character string to the translation device 30 one by one. As a result, the division process of step S03 is completed.
  • the translation device 30 when the translation device 30 receives the chunk from the dividing device 20, the translation device 30 translates the chunk (step S04). Then, the translation device 30 sequentially outputs the translation results (step S05). The translation device 30 outputs the translation result to, for example, an output device such as a display and a speaker (not shown).
  • step S51 the detection unit 25 determines whether or not the forward division likelihood is equal to or higher than the threshold value Sth1, but may determine whether or not the forward division likelihood is greater than the threshold value Sth1. .. Similarly, in step S53, the detection unit 25 determines whether or not the modified backward division likelihood is equal to or higher than the threshold value Sth2, but determines whether or not the modified backward division likelihood is greater than the threshold value Sth2. You may.
  • the detection unit 25 detects between the target word and the word immediately before the target word as a division point when at least the condition that the forward division likelihood is larger than the threshold value Sth1 is satisfied.
  • the detection unit 25 satisfies at least the condition that the forward division likelihood is smaller than the threshold value Sth1 and the modified backward division likelihood obtained by adding a score to the backward division likelihood is larger than the threshold value Sth2. Is detected as a dividing point between the target word and the word immediately after the target word.
  • step S34 may be performed at any timing after the target word is acquired in step S32 and before the determination in step S53 is performed. If it is determined in step S51 that the forward division likelihood is equal to or greater than the threshold value Sth1, step S34 may be omitted.
  • the words constituting the character string are acquired in order from the beginning of the character string, and the forward division likelihood indicating the plausibility of dividing the character string before the acquired target word, and the forward division likelihood, and The backward division likelihood, which indicates the plausibility of dividing the character string immediately after the target word, is calculated. Then, a division point is detected based on the forward division likelihood and the backward division likelihood, and a chunk is generated by dividing the character string at the division point.
  • the dividing device 20 since the forward division likelihood and the backward division likelihood are calculated using one target word and the division point is detected, it is not necessary to acquire the entire character string, and a plurality of character strings can be obtained. There is no need to process it. As a result, the time required to generate chunks can be shortened, and the processing speed can be improved.
  • the calculation accuracy of the forward division likelihood is higher than the calculation accuracy of the backward division likelihood. Therefore, the detection accuracy of the division point can be improved by using the forward division likelihood.
  • the speaker may pause the utterance in a unit having a cohesive meaning, the following word may not be input immediately in the middle of the character string. In such a case, even if there is a division point immediately after the target word, the forward division likelihood is not calculated until the next word is input.
  • the division point can be detected immediately. As a result, it is possible to generate chunks suitable for the translation process of the translation device 30 and to shorten the time required to generate the chunks.
  • the detection unit 25 detects between the target word and the word immediately before the target word as a division point.
  • the calculation accuracy of the forward division likelihood is higher than the calculation accuracy of the backward division likelihood. Therefore, according to the above configuration, the division point between the target word and the word immediately before the target word is detected by using the forward division likelihood, so that the detection accuracy of the division point can be improved. .. As a result, it becomes possible to generate chunks that are more suitable for the translation process of the translation device 30.
  • the following words may not be entered immediately in the middle of the character string.
  • the forward division likelihood is not calculated until the next word is input.
  • the detection unit 25 sets the interval between the target word and the word immediately after the target word as a division point. To detect.
  • the dividing point is detected for the character string input in real time while considering the elapsed time. Therefore, it is possible to reduce the time required to generate chunks. As a result, it becomes possible to generate chunks suitable for simultaneous translation (simultaneous interpretation) for continuous translation.
  • the calculation unit 23 calculates the forward division likelihood and the backward division likelihood using LSTM. According to this configuration, the forward division likelihood and the backward division likelihood of the target word are calculated in consideration of the words that appear before the target word. Therefore, since the accuracy of the forward division likelihood and the backward division likelihood can be improved, it is possible to generate chunks more suitable for the translation process of the translation apparatus 30.
  • the dividing device 20 may be composed of one device that is physically or logically connected, or may be composed of a plurality of devices that are physically or logically separated from each other.
  • the division device 20 may be realized by a plurality of computers distributed on a network as in cloud computing.
  • the configuration of the dividing device 20 may include any configuration that can realize the function of the dividing device 20.
  • the detection unit 25 calculates the modified backward division likelihood by adding a score to the backward division likelihood of the target word, but calculates the modified backward division likelihood by multiplying the backward division likelihood of the target word by the score. You may.
  • the detection unit 25 may calculate the modified forward division likelihood based on the forward division likelihood and the score of the target word. For example, the detection unit 25 may calculate the modified forward division likelihood by adding a score to the forward division likelihood of the target word. In this case, the detection unit 25 may make a determination in step S51 using the modified forward division likelihood.
  • the dividing device 20 does not have to include the timing unit 21 and the calculation unit 24.
  • the detection unit 25 detects the division point based on the forward division likelihood and the backward division likelihood of the target word without considering the elapsed time.
  • the detection unit 25 sets a division point between the target word and the word immediately before the target word. Detect as.
  • the detection unit 25 sets the target word.
  • the interval between the word immediately after the target word is detected as a dividing point.
  • the division point can be detected immediately by using the backward division likelihood. Therefore, it is possible to reduce the time required to generate chunks. As a result, it becomes possible to generate chunks suitable for simultaneous translation for continuous translation.
  • the detection unit 25 may detect the division point.
  • FIG. 8 is a flowchart showing in detail another example of the division point detection process of FIG.
  • the division point detection process shown in FIG. 8 is mainly different from the division point detection process shown in FIG. 5 in that steps S55 and S56 are further included.
  • step S53 when the detection unit 25 determines that the modified backward division likelihood is less than the threshold value Sth2 (step S53; NO), the elapsed time is further compared with the threshold value Tth, and the elapsed time is compared with the threshold value Tth. It is determined whether the threshold value is Tth (third threshold value) or more or less than the threshold value Tth (step S55).
  • the threshold value Tth is the maximum waiting time that the processing unit (translation device 30) in the subsequent stage can tolerate, and is predetermined.
  • the detection unit 25 determines that the elapsed time is equal to or greater than the threshold value Tth (step S55; YES), the front division likelihood of each word after the previous division point and the rear division of the last acquired word.
  • the position corresponding to the largest division likelihood among the likelihoods is detected as a division point (step S56). If no division point is detected from the beginning of the character string, the beginning of the character string is regarded as the previous division point. That is, the detection unit 25 detects as a division point the position corresponding to the maximum division likelihood of the forward division likelihood of each word after the beginning of the character string and the backward division likelihood of the last acquired word. do.
  • the detection unit 25 detects the space between the word and the word immediately before the word as a division point.
  • the detection unit 25 detects between the last word and the word immediately after the word as a division point. Then, the detection unit 25 outputs information indicating the position of the division point detected in step S56 to the generation unit 26 and outputs a reset command to the timekeeping unit 21, and the division point detection process in step S35 ends.
  • step S55 when the detection unit 25 determines that the elapsed time is less than the threshold value Tth (step S55; NO), it determines that there are no division points before and after the target word. Then, the acquisition unit 22 acquires the next target word (step S32). After that, steps S33 to S35 are performed again.
  • step S55 the detection unit 25 determines whether or not the elapsed time is equal to or greater than the threshold value Tth, but may determine whether or not the elapsed time is greater than or equal to the threshold value Tth. That is, the detection unit 25 performs the process of step S56 when at least the condition that the elapsed time is larger than the threshold value Tth is satisfied.
  • the calculation unit 24 may change the score from 0 to 1 when the reproduction of the translation result of the previous chunk is completed. According to this configuration, even if the division point is not detected by the end of the reproduction of the translation result of the previous chunk, the target word at the end of the reproduction and the word immediately after the target word are used. The interval is detected as a dividing point. Therefore, it is possible to prevent the processing unit (translation device 30) in the subsequent stage from waiting for processing. As a result, it becomes possible to generate chunks suitable for simultaneous translation for continuous translation.
  • each functional block may be realized by using one device that is physically or logically connected, or directly or indirectly (for example, by two or more devices that are physically or logically separated). , Wired, wireless, etc.) and may be realized using these plurality of devices.
  • the functional block may be realized by combining the software with the one device or the plurality of devices.
  • Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, solution, selection, selection, establishment, comparison, assumption, expectation, and assumption. Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, and assigning, etc. Not limited to functions.
  • a functional block (component) that functions transmission is called a transmitting unit or a transmitter.
  • the method of realizing each of them is not particularly limited.
  • the dividing device 20 in one embodiment of the present disclosure may function as a computer that performs the processing of the present disclosure.
  • FIG. 9 is a diagram showing an example of the hardware configuration of the dividing device 20 according to the embodiment of the present disclosure.
  • the division device 20 may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
  • the word “device” can be read as a circuit, device, unit, or the like.
  • the hardware configuration of the dividing device 20 may be configured to include one or more of the devices shown in the figure, or may be configured not to include some of the devices.
  • the processor 1001 For each function in the dividing device 20, the processor 1001 performs calculations by loading predetermined software (programs) on hardware such as the processor 1001 and the memory 1002, and controls communication by the communication device 1004, or the memory 1002. And by controlling at least one of reading and writing of data in the storage 1003.
  • predetermined software programs
  • Processor 1001 operates, for example, an operating system to control the entire computer.
  • the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with a peripheral device, a control device, an arithmetic unit, a register, and the like.
  • CPU Central Processing Unit
  • each function of the above-mentioned partitioning device 20 may be realized by the processor 1001.
  • the processor 1001 reads a program (program code), a software module, data, and the like from at least one of the storage 1003 and the communication device 1004 into the memory 1002, and executes various processes according to these.
  • a program program code
  • a program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used.
  • each function of the dividing device 20 may be realized by a control program stored in the memory 1002 and operating in the processor 1001.
  • Processor 1001 may be implemented by one or more chips.
  • the program may be transmitted from the network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, for example, by at least one of ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), RAM (Random Access Memory), and the like. It may be configured.
  • the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, or the like that can be executed to carry out the division method according to the embodiment of the present disclosure.
  • the storage 1003 is a computer-readable recording medium, and is, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, an optical magnetic disk (for example, a compact disk, a digital versatile disk, or a Blu-ray). It may consist of at least one such as a (registered trademark) disk), a smart card, a flash memory (eg, a card, stick, key drive), a floppy (registered trademark) disk, and a magnetic strip.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the recording medium described above may be, for example, a database, server, or other suitable medium containing at least one of memory 1002 and storage 1003.
  • the communication device 1004 is hardware (transmission / reception device) for communicating between computers via at least one of a wired network and a wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the communication device 1004 includes, for example, a high frequency switch, a duplexer, a filter, a frequency synthesizer, and the like in order to realize at least one of frequency division duplex (FDD: Frequency Division Duplex) and time division duplex (TDD: Time Division Duplex). It may be configured to include.
  • FDD Frequency Division Duplex
  • TDD Time Division Duplex
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • Each device such as the processor 1001 and the memory 1002 is connected by a bus 1007 for communicating information.
  • the bus 1007 may be configured by using a single bus, or may be configured by using a different bus for each device.
  • the dividing device 20 includes hardware such as a microprocessor, a digital signal processor (DSP: Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array).
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the hardware may realize a part or all of each functional block.
  • processor 1001 may be implemented using at least one of these hardware.
  • the notification of information is not limited to the mode / embodiment described in the present disclosure, and may be performed by using other methods.
  • Information etc. can be output from the upper layer to the lower layer or from the lower layer to the upper layer.
  • Information and the like may be input / output via a plurality of network nodes.
  • the input / output information and the like may be stored in a specific location (for example, memory) or may be managed using a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
  • Notification of predetermined information is not limited to explicit notification, and may be implicitly (for example, by not notifying the predetermined information). ..
  • Software whether referred to as software, firmware, middleware, microcode, hardware description language, or other names, is an instruction, instruction set, code, code segment, program code, program, subprogram, software module.
  • Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, functions, etc. should be broadly interpreted.
  • Software, instructions, information, etc. may be transmitted and received via a transmission medium.
  • the software uses at least one of wired technology (coaxial cable, optical fiber cable, twisted pair, digital subscriber line (DSL: Digital Subscriber Line), etc.) and wireless technology (infrared, microwave, etc.) to create a website.
  • wired technology coaxial cable, optical fiber cable, twisted pair, digital subscriber line (DSL: Digital Subscriber Line), etc.
  • wireless technology infrared, microwave, etc.
  • the information, signals, etc. described in this disclosure may be represented using any of a variety of different techniques.
  • data, instructions, commands, information, signals, bits, symbols, and chips that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or theirs. It may be represented by any combination.
  • system and “network” used in this disclosure are used interchangeably.
  • the information, parameters, etc. described in the present disclosure may be expressed using absolute values, relative values from a predetermined value, or using other corresponding information. It may be represented.
  • determining and “determining” used in this disclosure may include a wide variety of actions.
  • "Judgment” and “decision” are, for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigation (investigating), search (looking up, search, inquiry). ) (For example, searching in a table, database or another data structure), ascertaining may be regarded as “judgment” or “decision”.
  • "Judgment” and “decision” are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), access (for example). It may include accessing) (for example, accessing data in memory) as “judgment” or “decision”.
  • “Judgment” and “decision” include resolving, selecting, choosing, establishing, comparing, etc., being regarded as “judgment” and “decision”. obtain. That is, “judgment” and “decision” may include considering some action as “judgment” and “decision”. “Judgment” may be read as “assuming”, “expecting”, or “considering”.
  • connection means any direct or indirect connection or connection between two or more elements, and each other. It may include the presence of one or more intermediate elements between two “connected” or “combined” elements. The combination or connection between the elements may be performed physically, logically, or may be realized by a combination thereof. For example, “connection” may be read as "access”.
  • connection or “coupling” is used in the present disclosure, the two elements connected or combined use at least one or more wires, cables and printed electrical connections, and some.
  • electromagnetic energy having wavelengths in the radio frequency domain, microwave domain and light (both visible and invisible) domains is used, and “connected” or “coupled” to each other. I can think.
  • references to elements using designations such as “first” and “second” as used in this disclosure does not generally limit the quantity or order of those elements. These designations can be used in the present disclosure as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted, or that the first element must somehow precede the second element.
  • each of the above devices may be replaced with a "circuit", a “device”, or the like.
  • the term "A and B are different” may mean “A and B are different from each other”.
  • the term may mean that "A and B are different from C”.
  • Terms such as “separate” and “combined” may be interpreted in the same way as “different”.
  • 1 ... translation system, 10 ... voice recognition device, 20 ... division device, 21 ... timing unit, 22 ... acquisition unit, 23 ... calculation unit (first calculation unit), 24 ... calculation unit (second calculation unit), 25 ... Detection unit, 26 ... Generation unit, 27 ... Output unit, 30 ... Translation device, 1001 ... Processor, 1002 ... Memory, 1003 ... Storage, 1004 ... Communication device, 1005 ... Input device, 1006 ... Output device, 1007 ... Bus.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

分割装置は、文字列を処理単位であるチャンクに分割する装置であって、文字列を構成する複数の単語を、文字列の先頭から1単語ずつ取得する取得部と、取得部によって取得された第1単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び第1単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度を算出する第1算出部と、前方分割尤度及び後方分割尤度に基づいて、文字列を分割する位置である分割点を検出する検出部と、分割点において文字列を分割することによって、チャンクを生成する生成部と、チャンクを出力する出力部と、を備える。

Description

分割装置
 本開示は、分割装置に関する。
 発話を音声認識することによって得られる文字列のような順次入力される文字列を機械翻訳するために、文字列を適切な処理単位に分割することが求められる。例えば、特許文献1には、音声認識処理によって得られた確定文字列と、音声認識の処理途中の音声区間に対応する候補文字列と、を連結した文字列に対し、自然言語処理の処理単位の開始位置となり得る形態素の位置を示す分割点で、文字列を処理単位の文字列に分割する処理装置が開示されている。この処理装置は、確定文字列を複数の候補文字列のそれぞれと連結した複数の文字列に対して分割点をそれぞれ検出し、分割点で各文字列を分割することで得られる部分文字列に共通の文字列が含まれる場合、その文字列を処理単位の文字列としている。
特開2015-60127号公報
 特許文献1に記載の処理装置においては、複数の文字列が処理されるので、処理に多くの時間を要する可能性がある。したがって、リアルタイムに入力される文字列を同時翻訳しようとした場合、遅延が生じるおそれがある。
 本開示は、処理速度を向上可能な分割装置を説明する。
 本開示の一側面に係る分割装置は、文字列を処理単位であるチャンクに分割する装置である。この分割装置は、文字列を構成する複数の単語を文字列の先頭から1単語ずつ取得する取得部と、取得部によって取得された第1単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び第1単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度を算出する第1算出部と、前方分割尤度及び後方分割尤度に基づいて、文字列を分割する位置である分割点を検出する検出部と、分割点において文字列を分割することによって、チャンクを生成する生成部と、チャンクを出力する出力部と、を備える。
 この分割装置においては、文字列を構成する単語が文字列の先頭から順に取得され、取得された第1単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び第1単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度が算出される。そして、前方分割尤度及び後方分割尤度に基づいて、分割点が検出され、分割点において文字列を分割することによって、チャンクが生成される。1つの第1単語を用いて前方分割尤度及び後方分割尤度が算出されて分割点が検出されるので、複数の文字列を処理する必要が無い。その結果、チャンクを生成するのに要する時間を短縮することができ、処理速度を向上させることが可能となる。
 本開示によれば、処理速度を向上させることができる。
図1は、一実施形態に係る分割装置を含む翻訳システムの概略構成図である。 図2は、図1に示される分割装置の機能構成を示すブロック図である。 図3は、図1に示される翻訳システムが行う翻訳方法の一連の処理を示すフローチャートである。 図4は、図1に示される分割装置が行う分割方法の一連の処理を示すフローチャートである。 図5は、図4の分割点検出処理の一例を詳細に示すフローチャートである。 図6は、前方分割尤度及び後方分割尤度を算出する処理を説明するための図である。 図7は、チャンクを生成する処理を説明するための図である。 図8は、図4の分割点検出処理の別の例を詳細に示すフローチャートである。 図9は、図1に示される分割装置のハードウェア構成を示す図である。
 以下、添付図面を参照しながら本開示の実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
 図1を参照して、一実施形態に係る分割装置を含む翻訳システムの構成を説明する。図1は、一実施形態に係る分割装置を含む翻訳システムの概略構成図である。図1に示される翻訳システム1は、発話された内容をリアルタイムに翻訳するシステムである。翻訳システム1は、音声認識装置10と、分割装置20と、翻訳装置30と、を備えている。
 音声認識装置10は、音声信号を文字列(テキストデータ)に変換する装置である。例えば、ユーザがマイクロフォンを用いて発話することによって、マイクロフォンが発話に応じた音声信号を生成する。音声認識装置10は、音声信号に対して公知の音声認識処理を実施することによって文字列を生成する。音声認識装置10は、例えば、音響モデル及び言語モデルを用いて、音声認識処理を行う。なお、言語モデルは形態素解析した単位で学習されているので、音声認識装置10は、単語単位に区切られた文字列を音声認識結果として生成する。音声認識装置10は、1単語分の音声認識結果を生成するごとに、単語を分割装置20に順次出力する。
 分割装置20は、音声認識装置10から入力される文字列をチャンクに分割する装置である。チャンクとは、後段の処理部において処理される処理単位である。ここでは、後段の処理部は翻訳装置30であるので、チャンクは、翻訳装置30が行う翻訳処理に適した処理単位である。分割装置20の例としては、サーバ装置等の情報処理装置が挙げられる。分割装置20の詳細については後述する。
 翻訳装置30は、文字列をチャンク単位で翻訳する装置である。翻訳装置30は、例えば、同時翻訳(リアルタイム翻訳)装置である。翻訳装置30は、同時翻訳用の対訳データを用いて、チャンクを翻訳する。翻訳装置30は、チャンクを入力として受け取り、翻訳結果を出力するように、コンピュータを機能させるための機械翻訳モデルであってもよい。機械翻訳モデルの例としては、NMT(Neural Machine Translation)モデルが挙げられる。この場合、翻訳装置30は、同時翻訳用の対訳コーパスに含まれる複数の対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。翻訳装置30は、チャンクを翻訳した翻訳結果を順次出力する。翻訳装置30は、例えば、不図示のディスプレイ及びスピーカー等の出力装置に翻訳結果を出力する。
 図2を参照して、分割装置20の機能構成を説明する。図2は、図1に示される分割装置の機能構成を示すブロック図である。図2に示されるように、分割装置20は、機能的には、計時部21と、取得部22と、算出部23(第1算出部)と、算出部24(第2算出部)と、検出部25と、生成部26と、出力部27と、を備えている。後述の分割方法の説明において、各機能部の機能(動作)を詳細に説明するので、ここでは各機能部の機能を簡単に説明する。
 計時部21は、前回の分割が行われてからの経過時間を計測する機能部である。具体的には、計時部21は、前回の分割点(後述)が検出されてからの経過時間を計測する。なお、文字列の先頭は、分割点としてみなされ得る。つまり、計時部21は、文字列において1つも分割点が検出されていない場合には、文字列の先頭からの経過時間を計測する。計時部21は、検出部25からリセット指令を受けると、経過時間を0にリセットする。
 取得部22は、文字列を構成する複数の単語を文字列の先頭から1単語ずつ取得する機能部である。取得部22は、音声認識装置10から単語を1つずつ取得する。
 算出部23は、取得部22によって取得された単語の前方分割尤度及び後方分割尤度を算出する機能部である。前方分割尤度は、単語の手前で文字列が分割されることの尤もらしさを示す値である。前方分割尤度は、例えば、シグモイド関数値であり、0~1の値を取り得る。前方分割尤度が大きいほど、単語の手前で文字列が分割される可能性が高いことを意味する。後方分割尤度は、単語の直後で文字列が分割されることの尤もらしさを示す値である。後方分割尤度は、例えば、シグモイド関数値であり、0~1の値を取り得る。後方分割尤度が大きいほど、単語の直後で文字列が分割される可能性が高いことを意味する。算出部23は、例えば、DNN(Deep Neural Network)を用いて前方分割尤度及び後方分割尤度を算出する。
 算出部24は、経過時間に基づいてスコアを算出する機能部である。算出部24は、経過時間が大きくなるにつれてスコアが大きくなるように、スコアを算出する。スコアは、例えば、0~1の値を取る。
 検出部25は、前方分割尤度及び後方分割尤度に基づいて分割点を検出する機能部である。本実施形態では、検出部25は、さらにスコアに基づいて分割点を検出する。分割点は、文字列を分割する位置である。検出部25は、例えば、前方分割尤度のための閾値Sth1(第1閾値)と、後方分割尤度のための閾値Sth2(第2閾値)と、を用いて、分割点を検出する。閾値Sth1及び閾値Sth2は予め定められている。閾値Sth2は、閾値Sth1と同じであってもよく、異なっていてもよい。検出部25は、分割点を検出すると、計時部21にリセット指令を出力する。
 生成部26は、分割点において文字列を分割することによって、チャンクを生成する機能部である。生成部26は、例えば、文字列の分割点に区切りタグを挿入することによって、文字列を分割し、チャンクを生成する。
 出力部27は、チャンクを出力する機能部である。出力部27は、チャンクを翻訳装置30に送信(出力)する。
 次に、図3~図7を参照して、翻訳システム1が行う翻訳方法を説明する。図3は、図1に示される翻訳システムが行う翻訳方法の一連の処理を示すフローチャートである。図4は、図1に示される分割装置が行う分割方法の一連の処理を示すフローチャートである。図5は、図4の分割点検出処理の一例を詳細に示すフローチャートである。図6は、前方分割尤度及び後方分割尤度を算出する処理を説明するための図である。図7は、チャンクを生成する処理を説明するための図である。図3に示される一連の処理は、例えば、ユーザがマイクロフォンを用いて発話することによって開始される。
 図3に示されるように、まず、音声認識装置10は、音声信号を取得する(ステップS01)。例えば、音声信号は、マイクロフォンを介してユーザによって入力される。
 続いて、音声認識装置10は、音声信号に対して音声認識処理を実施する(ステップS02)。音声認識装置10は、例えば、音響モデル及び言語モデルを用いて、音声認識処理を行う。本実施形態では、言語モデルは形態素解析した単位で学習されているので、音声認識装置10は、単語単位に区切られた文字列を音声認識結果として生成する。そして、音声認識装置10は、1単語分の音声認識結果を生成するごとに、単語を分割装置20に順次送信(出力)する。
 続いて、分割装置20は、分割処理を行う(ステップS03)。ステップS03では、図4に示されるように、まず計時部21が経過時間の計測を開始する(ステップS31)。計時部21は、例えば、分割装置20が音声認識装置10から文字列の先頭の単語を受信することによって、経過時間の計測を開始する。そして、取得部22は、音声認識装置10によって送信された単語(対象単語)を取得する(ステップS32)。そして、取得部22は、対象単語(第1単語)を算出部23及び生成部26に出力する。
 続いて、算出部23は、取得部22から対象単語を受け取ると、対象単語の前方分割尤度及び後方分割尤度を算出する(ステップS33)。例えば、算出部23は、DNNを用いて対象単語の前方分割尤度及び後方分割尤度を算出する。図6に示されるように、本実施形態では、算出部23は、DNNのアーキテクチャとして、LSTM(Long Short-Term Memory)を用いる。LSTMは、RNN(Recurrent Neural Network)の一種である。LSTMは、複数の要素が配列された時系列データの各要素を順に入力として受け取り、既に入力された要素の影響を出力に及ぼすように構成されているニューラルネットワークである。
 図6に示されるように、LSTMには当該LSTMの出力が再帰的に入力されるので、LSTMは、一列に並べられた複数のブロックBとして模式的に表現され得る。各ブロックBは、1つの単語を入力として受け取り、その単語の前方分割尤度及び後方分割尤度を出力するLSTM層である。各ブロックBは、そのブロックB以前のブロックBに入力された単語の影響を及ぼすための値を後段のブロックBに出力する。後段のブロックBには、ブロックBに入力された単語の次に続く単語が入力される。LSTMは、チャンクに分割された複数の文字列を用いて、事前に学習されている。例えば、文字列の各単語を入力とし、文字列に含まれる分割点の直前に位置する単語の後方分割尤度を1とし、分割点の直後に位置する単語の前方分割尤度を1とし、それ以外の分割尤度を0とした教師データを用いて、LSTMが学習される。
 算出部23は、対象単語をLSTMのブロックBの先頭から逐次入力する。そして、対象単語が入力されたブロックBは、対象単語の前方分割尤度及び後方分割尤度を出力する。そして、算出部23は、対象単語の前方分割尤度及び後方分割尤度を検出部25に出力する。
 続いて、算出部24は、計時部21から経過時間を示す情報を受け取り、経過時間に基づいてスコアを算出する(ステップS34)。具体的には、算出部24は、経過時間が大きくなるにつれてスコアが大きくなるように、スコアを算出する。ここでは、算出部24は、経過時間が大きくなるにつれてスコアを線形に増加するスコアリング手法を用いて、スコアを算出する。例えば、少なくとも5秒当たりに1回の頻度でチャンクを生成することを目的とする場合には、算出部24は、経過時間が0秒から5秒まで増加するにつれて、スコアを0から1まで線形に増加させる。そして、算出部24は、スコアを検出部25に出力する。
 続いて、検出部25は、算出部23から対象単語の前方分割尤度及び後方分割尤度を受け取り、算出部24からスコアを受け取ると、文字列における分割点を検出する(ステップS35)。ステップS35では、検出部25は、まず対象単語の前方分割尤度を閾値Sth1と比較し、前方分割尤度が閾値Sth1以上であるか閾値Sth1未満であるかを判定する(ステップS51)。検出部25は、前方分割尤度が閾値Sth1以上であると判定した場合(ステップS51;YES)、当該対象単語の手前を分割点として検出する(ステップS52)。対象単語の手前とは、対象単語と当該対象単語の1つ前の単語(第2単語)との間を意味する。そして、検出部25は、ステップS52において検出された分割点の位置を示す情報を生成部26に出力するとともに計時部21にリセット指令を出力し、ステップS35の分割点検出処理が終了する。
 一方、検出部25は、前方分割尤度が閾値Sth1未満であると判定した場合(ステップS51;NO)、対象単語の後方分割尤度とスコアとに基づいて、修正後方分割尤度を算出する。ここでは、検出部25は、対象単語の後方分割尤度にスコアを加えることによって修正後方分割尤度を算出する。そして、検出部25は、修正後方分割尤度を閾値Sth2と比較し、修正後方分割尤度が閾値Sth2以上であるか閾値Sth2未満であるかを判定する(ステップS53)。
 検出部25は、修正後方分割尤度が閾値Sth2以上であると判定した場合(ステップS53;YES)、当該対象単語の直後を分割点として検出する(ステップS54)。対象単語の直後とは、対象単語と当該対象単語の1つ後の単語(第3単語)との間を意味する。そして、検出部25は、ステップS54において検出された分割点の位置を示す情報を生成部26に出力するとともに計時部21にリセット指令を出力し、ステップS35の分割点検出処理が終了する。
 一方、検出部25は、修正後方分割尤度が閾値Sth2未満であると判定した場合(ステップS53;NO)、対象単語の前後には分割点は無いと判定する。そして、取得部22は、次の対象単語を取得する(ステップS32)。以降、ステップS33~S35が再び行われる。
 例えば、図6に示される例において、閾値Sth1及び閾値Sth2がいずれも0.85に設定されているとする。この場合、単語「from」の前方分割尤度が0.9であるので、単語「minutes」と単語「from」との間が分割点として検出される。
 続いて、生成部26は、検出部25から分割点の位置を示す情報を受け取ると、チャンクを生成する(ステップS36)。具体的に説明すると、図7に示されるように、生成部26は、取得部22によって順に取得された単語を取得順に配列し、分割点の位置に分割点を示す区切りタグStagを挿入する。図7の例では、区切りタグStagとして、文字列<sep>が用いられている。この構成によって、文字列の先頭と1つ目の区切りタグStagとの間の文字列、及び2つの区切りタグStagに挟まれた文字列がそれぞれチャンクとして生成される。そして、生成部26は、チャンクを生成するごとに(区切りタグStagを挿入するごとに)、チャンクを出力部27に出力する。
 続いて、出力部27は、生成部26によって生成されたチャンク(区切りタグStagを含む文字列)を受け取ると、チャンク(区切りタグStagを含む文字列)を翻訳装置30に送信(出力)する(ステップS37)。出力部27は、文字列に含まれるチャンクだけを1つずつ翻訳装置30に送信してもよい。以上により、ステップS03の分割処理が終了する。
 続いて、翻訳装置30は、分割装置20からチャンクを受信すると、チャンクを翻訳する(ステップS04)。そして、翻訳装置30は、翻訳結果を順次出力する(ステップS05)。翻訳装置30は、例えば、不図示のディスプレイ及びスピーカー等の出力装置に翻訳結果を出力する。
 以上により、翻訳方法の一連の処理が終了する。なお、ステップS51では、検出部25は、前方分割尤度が閾値Sth1以上であるか否かを判定しているが、前方分割尤度が閾値Sth1よりも大きいか否かを判定してもよい。同様に、ステップS53において、検出部25は、修正後方分割尤度が閾値Sth2以上であるか否かを判定しているが、修正後方分割尤度が閾値Sth2よりも大きいか否かを判定してもよい。
 つまり、検出部25は、前方分割尤度が閾値Sth1よりも大きいという条件が少なくとも満たされている場合には、対象単語と対象単語の1つ前の単語との間を分割点として検出する。検出部25は、前方分割尤度が閾値Sth1よりも小さく、かつ、後方分割尤度にスコアを加えることによって得られる修正後方分割尤度が閾値Sth2よりも大きいという条件が少なくとも満たされている場合には、対象単語と対象単語の1つ後の単語との間を分割点として検出する。
 スコアはステップS53において用いられるので、ステップS34は、ステップS32において対象単語が取得された後、ステップS53の判定が行われる前であれば、どのタイミングで行われてもよい。ステップS51において前方分割尤度が閾値Sth1以上であると判定された場合には、ステップS34は省略されてもよい。
 以上説明した分割装置20においては、文字列を構成する単語が文字列の先頭から順に取得され、取得された対象単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び対象単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度が算出される。そして、前方分割尤度及び後方分割尤度に基づいて、分割点が検出され、分割点において文字列を分割することによって、チャンクが生成される。ストリーミングのような順次(リアルタイムに)入力される文字列をチャンクに分割する場合、文章(文字列)全体を見てチャンクに分割することができない。分割装置20においては、1つの対象単語を用いて前方分割尤度及び後方分割尤度が算出されて分割点が検出されるので、文字列全体を取得する必要が無く、また複数の文字列を処理する必要も無い。その結果、チャンクを生成するのに要する時間を短縮することができ、処理速度を向上させることが可能となる。
 一般に、対象単語の次の単語が取得されていない状況においては、後方分割尤度の算出精度よりも前方分割尤度の算出精度の方が高い。したがって、前方分割尤度を用いることによって、分割点の検出精度を向上させることができる。一方、意味のまとまりがある単位で話者が発話を休止することがあるので、文字列の途中で後続の単語がすぐに入力されない場合がある。このような場合、対象単語の直後に分割点があったとしても、次の単語が入力されるまで前方分割尤度が算出されない。これに対して、後方分割尤度を用いることによって、分割点を即座に検出することが可能となる。その結果、翻訳装置30の翻訳処理に適したチャンクを生成するとともに、チャンクを生成するのに要する時間を短縮することが可能となる。
 検出部25は、前方分割尤度が閾値Sth1よりも大きい場合に、対象単語と対象単語の1つ前の単語との間を分割点として検出する。上述のように、対象単語の次の単語が取得されていない状況においては、後方分割尤度の算出精度よりも前方分割尤度の算出精度の方が高い。したがって、上記構成によれば、前方分割尤度を用いて、対象単語と対象単語の1つ前の単語との間の分割点が検出されるので、分割点の検出精度を向上させることができる。その結果、翻訳装置30の翻訳処理に一層適したチャンクを生成することが可能となる。
 上述のように、文字列の途中で後続の単語がすぐに入力されない場合がある。このような場合、対象単語の直後に分割点があったとしても、次の単語が入力されるまで前方分割尤度が算出されない。検出部25は、後方分割尤度にスコアを加えることによって得られる修正後方分割尤度が閾値Sth2よりも大きい場合には、対象単語と対象単語の1つ後の単語との間を分割点として検出する。この構成によれば、リアルタイムに入力される文字列に対して、経過時間を考慮しながら分割点が検出される。したがって、チャンクを生成するのに要する時間を短縮することが可能となる。その結果、途切れなく訳出するための同時翻訳(同時通訳)に適したチャンクを生成することが可能となる。
 算出部23は、LSTMを用いて、前方分割尤度及び後方分割尤度を算出する。この構成によれば、対象単語よりも前に出現する単語を考慮して、対象単語の前方分割尤度及び後方分割尤度が算出される。したがって、前方分割尤度及び後方分割尤度の精度を向上させることができるので、翻訳装置30の翻訳処理に一層適したチャンクを生成することが可能となる。
 以上、本開示の実施形態について説明したが、本開示は上記実施形態に限定されない。
 分割装置20は、物理的又は論理的に結合した1つの装置によって構成されてもよく、互いに物理的又は論理的に分離している複数の装置によって構成されてもよい。例えば、分割装置20は、クラウドコンピューティングのようにネットワーク上に分散された複数のコンピュータによって実現されてもよい。以上のように、分割装置20の構成は、分割装置20の機能を実現し得るいかなる構成をも含み得る。
 検出部25は、対象単語の後方分割尤度にスコアを加えることによって修正後方分割尤度を算出しているが、対象単語の後方分割尤度にスコアを乗じることによって修正後方分割尤度を算出してもよい。
 検出部25は、対象単語の前方分割尤度とスコアとに基づいて修正前方分割尤度を算出してもよい。例えば、検出部25は、対象単語の前方分割尤度にスコアを加えることによって修正前方分割尤度を算出してもよい。この場合、検出部25は、修正前方分割尤度を用いてステップS51の判定を行ってもよい。
 分割装置20は、計時部21及び算出部24を備えていなくてもよい。この場合、検出部25は、経過時間を考慮することなく、対象単語の前方分割尤度及び後方分割尤度に基づいて、分割点を検出する。この構成においては、検出部25は、対象単語の前方分割尤度が閾値Sth1よりも大きい(又は閾値Sth1以上である)場合、対象単語と対象単語の1つ前の単語との間を分割点として検出する。検出部25は、前方分割尤度が閾値Sth1以下であり(又は閾値Sth1よりも小さく)、かつ、後方分割尤度が閾値Sth2よりも大きい(又は閾値Sth2以上である)場合に、対象単語と対象単語の1つ後の単語との間を分割点として検出する。上述のように、文字列の途中で後続の単語がすぐに入力されない場合でも、後方分割尤度を用いることによって、分割点を即座に検出することができる。したがって、チャンクを生成するのに要する時間を短縮することが可能となる。その結果、途切れなく訳出するための同時翻訳に適したチャンクを生成することが可能となる。
 同時翻訳では、訳出を途切れさせないために適切な長さごとに文字列を分割する必要がある。したがって、所定の経過時間が過ぎても、文字列の先頭又は前回の分割点以降で分割点が検出されていない場合には、検出部25は、分割点を検出してもよい。
 図8は、図4の分割点検出処理の別の例を詳細に示すフローチャートである。図8に示される分割点検出処理は、ステップS55及びステップS56をさらに含む点において、図5に示される分割点検出処理と主に相違する。具体的に説明すると、ステップS53において、検出部25は、修正後方分割尤度が閾値Sth2未満であると判定した場合(ステップS53;NO)、さらに経過時間を閾値Tthと比較し、経過時間が閾値Tth(第3閾値)以上であるか閾値Tth未満であるかを判定する(ステップS55)。閾値Tthは、後段の処理部(翻訳装置30)が許容できる最大の待ち時間であって、予め定められている。
 検出部25は、経過時間が閾値Tth以上であると判定した場合には(ステップS55;YES)、前回の分割点以降の各単語の前方分割尤度、及び最後に取得された単語の後方分割尤度のうちで最も大きい分割尤度に対応した位置を分割点として検出する(ステップS56)。文字列の先頭から1つの分割点も検出されていない場合には、文字列の先頭が前回の分割点とみなされる。つまり、検出部25は、文字列の先頭以降の各単語の前方分割尤度、及び最後に取得された単語の後方分割尤度のうちで最も大きい分割尤度に対応した位置を分割点として検出する。
 ある単語の前方分割尤度が最も大きい場合、検出部25は、その単語とその単語の1つ前の単語との間を分割点として検出する。検出部25は、最後に取得された単語の後方分割尤度が最も大きい場合、最後の単語とその単語の1つ後の単語との間を分割点として検出する。そして、検出部25は、ステップS56において検出された分割点の位置を示す情報を生成部26に出力するとともに計時部21にリセット指令を出力し、ステップS35の分割点検出処理が終了する。
 一方、ステップS55において、検出部25は、経過時間が閾値Tth未満であると判定した場合(ステップS55;NO)、対象単語の前後には分割点は無いと判定する。そして、取得部22は、次の対象単語を取得する(ステップS32)。以降、ステップS33~S35が再び行われる。
 なお、ステップS55では、検出部25は、経過時間が閾値Tth以上であるか否かを判定しているが、経過時間が閾値Tthよりも大きいか否かを判定してもよい。つまり、検出部25は、経過時間が閾値Tthよりも大きいという条件が少なくとも満たされている場合には、ステップS56の処理を行う。
 この構成によれば、経過時間が閾値Tthに達すると、分割点が必ず検出される。したがって、後段の処理部(翻訳装置30)が処理待ちになることを回避することができる。その結果、途切れなく訳出するための同時翻訳に適したチャンクを生成することが可能となる。
 翻訳装置30から出力された翻訳結果が音声によって再生される場合、算出部24は、1つ前のチャンクの翻訳結果の再生が終了した時点で、スコアを0から1に変更してもよい。この構成によれば、1つ前のチャンクの翻訳結果の再生が終了するまでに、分割点が検出されなかったとしても、再生終了時の対象単語とその対象単語の1つ後の単語との間が分割点として検出される。したがって、後段の処理部(翻訳装置30)が処理待ちになることを回避することができる。その結果、途切れなく訳出するための同時翻訳に適したチャンクを生成することが可能となる。
 なお、上記実施形態の説明に用いられたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
 機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、及び割り振り(assigning)などがあるが、これらの機能に限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)又は送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
 例えば、本開示の一実施形態における分割装置20は、本開示の処理を行うコンピュータとして機能してもよい。図9は、本開示の一実施形態に係る分割装置20のハードウェア構成の一例を示す図である。上述の分割装置20は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、及びバス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、及びユニットなどに読み替えることができる。分割装置20のハードウェア構成は、図に示された各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 分割装置20における各機能は、プロセッサ1001及びメモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、及びレジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述の分割装置20の各機能は、プロセッサ1001によって実現されてもよい。
 プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、及びデータなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明された動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、分割装置20の各機能は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、及びRAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、又はメインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施形態に係る分割方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、及び磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記録媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバ、その他の適切な媒体であってもよい。
 通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、及び周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の取得部22、及び出力部27などは、通信装置1004によって実現されてもよい。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 プロセッサ1001及びメモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
 分割装置20は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
 情報の通知は、本開示において説明された態様/実施形態に限られず、他の方法を用いて行われてもよい。
 本開示において説明された各態様/実施形態の処理手順、シーケンス、及びフローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明された方法については、例示的な順序を用いて様々なステップの要素が提示されており、提示された特定の順序に限定されない。
 情報等は、上位レイヤから下位レイヤへ、又は、下位レイヤから上位レイヤへ出力され得る。情報等は、複数のネットワークノードを介して入出力されてもよい。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理されてもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本開示において説明された各態様/実施形態は単独で用いられてもよいし、組み合わせて用いられてもよいし、実行に伴って切り替えて用いられてもよい。所定の情報の通知(例えば、「Xであること」の通知)は、明示的な通知に限られず、暗黙的に(例えば、当該所定の情報の通知を行わないことによって)行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明された実施形態に限定されないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施されることができる。したがって、本開示の記載は、例示説明を目的とし、本開示に対して何ら制限的な意味を有しない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
 本開示において説明された情報、及び信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、及びチップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本開示において説明された用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えられてもよい。
 本開示において使用される「システム」及び「ネットワーク」という用語は、互換的に使用される。
 本開示において説明された情報、及びパラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
 上述されたパラメータに使用される名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示された内容と異なる場合もある。
 本開示で使用される「判断(determining)」、及び「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、及び「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。「判断」、及び「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。「判断」、及び「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、又は「みなす(considering)」などで読み替えられてもよい。
 「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含んでもよい。要素間の結合又は接続は、物理的に行われてもよく、論理的に行われてもよく、或いはこれらの組み合わせで実現されてもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で「接続」又は「結合」が使用される場合、接続又は結合される2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
 本開示において使用される「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本開示において使用される「第1の」、及び「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 上記の各装置の構成における「部」は、「回路」、又は「デバイス」等に置き換えられてもよい。
 本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
 本開示において、例えば、英語での「a」,「an」及び「the」のように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
 本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、及び「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
 1…翻訳システム、10…音声認識装置、20…分割装置、21…計時部、22…取得部、23…算出部(第1算出部)、24…算出部(第2算出部)、25…検出部、26…生成部、27…出力部、30…翻訳装置、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。

Claims (6)

  1.  文字列を処理単位であるチャンクに分割する分割装置であって、
     前記文字列を構成する複数の単語を、前記文字列の先頭から1単語ずつ取得する取得部と、
     前記取得部によって取得された第1単語の手前で前記文字列を分割することの尤もらしさを示す前方分割尤度、及び前記第1単語の直後で前記文字列を分割することの尤もらしさを示す後方分割尤度を算出する第1算出部と、
     前記前方分割尤度及び前記後方分割尤度に基づいて、前記文字列を分割する位置である分割点を検出する検出部と、
     前記分割点において前記文字列を分割することによって、前記チャンクを生成する生成部と、
     前記チャンクを出力する出力部と、
    を備える、分割装置。
  2.  前記検出部は、前記前方分割尤度が予め定められた第1閾値よりも大きい場合に、前記第1単語と前記第1単語の1つ前の第2単語との間を前記分割点として検出する、請求項1に記載の分割装置。
  3.  前記検出部は、前記前方分割尤度が前記第1閾値よりも小さく、かつ、前記後方分割尤度が予め定められた第2閾値よりも大きい場合に、前記第1単語と前記第1単語の1つ後の第3単語との間を前記分割点として検出する、請求項2に記載の分割装置。
  4.  前回の分割点が検出されてからの経過時間を計測する計時部と、
     前記経過時間に基づいて、スコアを算出する第2算出部と、
    をさらに備え、
     前記検出部は、前記前方分割尤度が前記第1閾値よりも小さく、かつ、前記後方分割尤度及び前記スコアに基づいて得られる値が予め定められた第2閾値よりも大きい場合に、前記第1単語と前記第1単語の1つ後の第3単語との間を前記分割点として検出する、請求項2に記載の分割装置。
  5.  前記検出部は、前記経過時間が予め定められた第3閾値よりも大きい場合、前回の分割点以降の各単語の前記前方分割尤度、及び最後に取得された単語の前記後方分割尤度のうちで最も大きい分割尤度に対応した位置を前記分割点として検出する、請求項4に記載の分割装置。
  6.  前記第1算出部は、LSTM(Long Short-Term Memory)を用いて、前記前方分割尤度及び前記後方分割尤度を算出する、請求項1~請求項5のいずれか一項に記載の分割装置。
PCT/JP2021/003764 2020-04-02 2021-02-02 分割装置 WO2021199654A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/907,602 US20230141191A1 (en) 2020-04-02 2021-02-02 Dividing device
JP2022511593A JPWO2021199654A1 (ja) 2020-04-02 2021-02-02

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020066505 2020-04-02
JP2020-066505 2020-04-02

Publications (1)

Publication Number Publication Date
WO2021199654A1 true WO2021199654A1 (ja) 2021-10-07

Family

ID=77929010

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003764 WO2021199654A1 (ja) 2020-04-02 2021-02-02 分割装置

Country Status (3)

Country Link
US (1) US20230141191A1 (ja)
JP (1) JPWO2021199654A1 (ja)
WO (1) WO2021199654A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100433A1 (ja) * 2021-11-30 2023-06-08 株式会社Nttドコモ 文字列出力装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065435A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> トークン列中の境界検出方法、装置、プログラム、記録媒体
JP2017208049A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 言語解析装置、言語解析方法、及びプログラム
JP2019533259A (ja) * 2016-11-03 2019-11-14 セールスフォース ドット コム インコーポレイティッド 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065435A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> トークン列中の境界検出方法、装置、プログラム、記録媒体
JP2017208049A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 言語解析装置、言語解析方法、及びプログラム
JP2019533259A (ja) * 2016-11-03 2019-11-14 セールスフォース ドット コム インコーポレイティッド 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100433A1 (ja) * 2021-11-30 2023-06-08 株式会社Nttドコモ 文字列出力装置

Also Published As

Publication number Publication date
JPWO2021199654A1 (ja) 2021-10-07
US20230141191A1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
JP6643555B2 (ja) 曖昧なエンティティワードに基づくテキスト処理方法及び装置
JP6820058B2 (ja) 音声認識方法、装置、デバイス、及び記憶媒体
US11816441B2 (en) Device and method for machine reading comprehension question and answer
AU2021200962B2 (en) Model-based semantic text searching
US10853580B1 (en) Generation of text classifier training data
KR20190136911A (ko) 텍스트 리허설 방법, 장치, 서버, 및 기억 매체
JP7093825B2 (ja) マンマシン対話方法、装置、及び機器
US11200883B2 (en) Implementing a domain adaptive semantic role labeler
US20230297828A1 (en) Scoring model learning device, scoring model, and determination device
WO2021199654A1 (ja) 分割装置
JP2020112915A (ja) データ生成装置
JP6976448B2 (ja) 機械翻訳制御装置
WO2020003928A1 (ja) エンティティ特定システム
WO2020225942A1 (ja) 内部状態変更装置
WO2021215352A1 (ja) 音声データ作成装置
US11289095B2 (en) Method of and system for translating speech to text
JP2018025613A (ja) 楽器音認識装置
US20220245363A1 (en) Generation device and normalization model
JP2021082125A (ja) 対話装置
US20230401384A1 (en) Translation device
US20220277731A1 (en) Word weight calculation system
JP2020177387A (ja) 文出力装置
WO2022070792A1 (ja) パラメータ設定システム
JP2022114640A (ja) 音声合成調整装置
JP2021179766A (ja) 文章翻訳装置及び翻訳モデル

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21781692

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022511593

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21781692

Country of ref document: EP

Kind code of ref document: A1