WO2022091422A1 - 推定装置、推定方法、および、推定プログラム - Google Patents

推定装置、推定方法、および、推定プログラム Download PDF

Info

Publication number
WO2022091422A1
WO2022091422A1 PCT/JP2020/041122 JP2020041122W WO2022091422A1 WO 2022091422 A1 WO2022091422 A1 WO 2022091422A1 JP 2020041122 W JP2020041122 W JP 2020041122W WO 2022091422 A1 WO2022091422 A1 WO 2022091422A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
sentence
estimation
accent phrase
pose
Prior art date
Application number
PCT/JP2020/041122
Other languages
English (en)
French (fr)
Inventor
のぞみ 小林
勇祐 井島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022558818A priority Critical patent/JPWO2022091422A1/ja
Priority to PCT/JP2020/041122 priority patent/WO2022091422A1/ja
Publication of WO2022091422A1 publication Critical patent/WO2022091422A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present invention relates to a highly natural pause position estimation device, an estimation method, and an estimation program.
  • Non-Patent Document 1 a technique for estimating a pose position and a pose length with high naturalness in speech synthesis.
  • a technique for estimating the pose position and the pose length there are a method using a rule designed by hand, a method using machine learning using learning data to which the pose position and the pose length are given, and the like (see Non-Patent Document 1). ..
  • Kengo Ota et al. Construction of spoken language model considering poses, IPSJ Journal Vol.53 No.2, pp.889-900, 2012 Hiroko Muto et al., Analysis and evaluation of factors related to pose positions that affect the naturalness of speech for inserting natural poses into synthetic speech, IPSJ Journal, Vol. 56, No. 3, pp. 993- 1002, 2015 Masayuki Asahara et al., Solving the problem of word-separation in Japanese named entity extraction, IPSJ Journal Vol.45 No.5, pp.1442-1450, 2004 Frantzi, Katerina T. and Ananiadou, Sophia, Extracting Nested Collocations, The 16th International Conference on Computational Linguistics, 1996
  • the conventional technique does not consider information on compound words that are often read as a group, such as "Summer Koshien”. Therefore, when the pose position of a sentence is estimated by the conventional technique, there is a possibility that a pose ("/") is inserted in a compound word that is read as a group, such as "summer / Koshien”. In the following, “/ (slash)" indicates the position where the pose is inserted.
  • Non-Patent Document 2 it has been proposed to estimate the pose position by using the dependency structure of the sentence (see, for example, Non-Patent Document 2), but the pose may be inserted even when a certain phrase is immediately applied. , The position of the pose cannot be grasped only by the dependency structure of the sentence. This is because there are also poses for emphasis in the poses, for example, even if the pose is immediately after "A to B" such as "China / National Tourism Administration".
  • the present invention is the first feature amount, which is the feature amount of the position of the compound word to be read in a lump, and the feature amount of the position of the accent phrase from the sentence to be estimated of the pose position.
  • a pose position estimation model showing the relationship between the first feature amount and the second feature amount in the input sentence and the pose position of the sentence and the first extraction unit for extracting the feature amount of 2.
  • the sentence of the pose position estimation target is used using the pose position estimation model. It is characterized by including an estimation unit for estimating the pose position in the above and an output unit for outputting the estimation result of the pose position.
  • the pose position in a sentence can be estimated accurately.
  • FIG. 1 is a diagram showing a configuration example of an estimation device.
  • FIG. 2 is a diagram showing an example of data for which the pause position is estimated.
  • FIG. 3A is a diagram showing an example of learning data in the estimation device of FIG.
  • FIG. 3B is a diagram showing an example of the result of estimation of the pose position in the estimation device of FIG.
  • FIG. 4 is a diagram showing an example of the compound word list of FIG.
  • FIG. 5 is a diagram showing a configuration example of the first feature amount extraction unit of FIG.
  • FIG. 6 is a diagram showing an example of input data to which a compound word feature amount is added.
  • FIG. 7 is a diagram showing an example of input data to which an accent phrase feature amount is added.
  • FIG. 1 is a diagram showing a configuration example of an estimation device.
  • FIG. 2 is a diagram showing an example of data for which the pause position is estimated.
  • FIG. 3A is a diagram showing an example of learning data in the estimation device of FIG.
  • FIG. 8 is a diagram showing an example of input data to which a compound word feature amount and an accent phrase feature amount are added.
  • FIG. 9 is a flowchart showing an example of the processing procedure of the estimation device at the time of learning the pose position estimation model.
  • FIG. 10 is a flowchart showing an example of the processing procedure of the estimation device at the time of estimating the pause position.
  • FIG. 11 is a flowchart showing an example of a procedure for creating a compound word list.
  • FIG. 12 is a diagram showing a configuration example of a computer that executes an estimation program.
  • the estimation device 10 estimates the pose position in the sentence by using a model for estimating the pose position in the sentence (pose position estimation model 132).
  • pose position estimation model 132 the model for estimating the pose position in the sentence
  • the feature amount and the position of the pose position (the pose position that is the correct answer) in the sentence the position of the compound word to be read as a group in the sentence, and the position of the accent phrase are used.
  • the feature amount of is used.
  • each of the above feature quantities in the sentence is extracted, and each of the extracted feature quantities is used.
  • the pose position of the sentence is estimated using the pose position estimation model 132.
  • the words included in the sentence which word should be read as a group is specified by referring to the compound word list 131 (see FIG. 3) prepared in advance.
  • the estimation device 10 estimates the pose position in the sentence by using the feature amount of the position of the compound word to be read as a group in the sentence and the feature amount of the position of the accent phrase.
  • the position of the pose can be estimated accurately.
  • the estimation device 10 includes an input unit 11, an output unit 12, a storage unit 13, and a control unit 14.
  • the input unit 11 receives input of various data used by the control unit 14. For example, the input unit 11 accepts input of learning data used for learning the pose position estimation model 132 and data of a sentence to be estimated for the pose position.
  • the input data is, for example, data to which the result of morphological analysis (for example, notation and part of speech) for a text sentence and the information of the accent phrase boundary in the text sentence are added.
  • the result of morphological analysis for example, notation and part of speech
  • FIG. 2 "A" is added to the word that is the boundary of the accent phrase.
  • the correct pose position information is added to the input data. It is the data that was done.
  • the output unit 12 outputs the processing result of the control unit 14. For example, the output unit 12 outputs the pause position (result of estimation of the pause position) of the sentence estimated by the control unit 14.
  • the output data is, for example, data to which information (pause label “P”) indicating the result of estimation of the pose position is added to the input data (see FIG. 2).
  • the information indicating the result of the estimation of the pose position may include information indicating whether the pose is a short pose or a long pose.
  • a pose label a label indicating whether the pose is a long pose or a short pose may be attached.
  • the storage unit 13 stores various information referred to by the control unit 14. For example, the storage unit 13 stores the compound word list 131. Further, when the pose position estimation model 132 is generated by the control unit 14, the pose position estimation model 132 is stored in the predetermined area of the storage unit 13.
  • the compound word list 131 is a list showing compound words (masses of morphemes) that should be read as a group. An example of this compound word list 131 will be described with reference to FIG.
  • the compound word list 131 is, for example, as shown in FIG. 4, information shown in association with the first notation of the compound word to be read in a lump and the subsequent notation list following the first notation.
  • “ ⁇ t (tab)” indicates the boundary of the morpheme in the subsequent notation, and ",” indicates the delimiter.
  • the information in the first line of the compound word list shown in FIG. 4 indicates "Summer Koshien", and the information in the second line indicates "The University of Tokyo” and "Tokyo National Taxation Bureau".
  • the pose position estimation model 132 in the input sentence, the feature amount of the position of the compound word to be read in a lump (compound word feature amount), the feature amount of the position of the accent phrase (accent phrase feature amount), and the pose in the sentence. It is a model showing the relationship with the position.
  • the pose position estimation model 132 is generated by the model learning unit 144 performing learning using the learning data.
  • the control unit 14 includes a learning unit 141 and an estimation unit 142.
  • the learning unit 141 learns the pose position estimation model 132 using the learning data.
  • the estimation unit 142 estimates the pose position of the input sentence by using the pose position estimation model 132.
  • the learning unit 141 includes a feature amount extraction unit (second extraction unit) 143 and a model learning unit 144.
  • the feature amount extraction unit 143 extracts the compound word feature amount and the accent phrase feature amount from the sentence. For example, the feature amount extraction unit 143 extracts the compound word feature amount required for estimating the pose position from the data to which the morpheme information of the sentence and the accent phrase boundary information are added by using the compound word list 131. .. Further, the feature amount extraction unit 143 extracts the accent phrase feature amount from the data.
  • the feature amount extraction unit 143 includes a compound word feature amount extraction unit 1431, an accent phrase feature amount extraction unit 1432, and a feature amount aggregation unit 1433.
  • the compound word feature amount extraction unit 1431 extracts the compound word feature amount of the sentence from the sentence by using the compound word list 131.
  • the compound word feature quantity extraction unit 1431 receives the input of the analyzed text (see FIG. 2) including the morphological element information and the accent boundary information of the sentence, it refers to the compound word list 131 (see FIG. 4) and refers to the sentence.
  • the morphological elements constituting the above, it is determined from where to where the morphological elements are compound words to be read as a group, and the determination result is extracted as a compound word feature quantity.
  • An example of the compound word feature amount extraction process by the compound word feature amount extraction unit 1431 will be described with reference to FIGS. 2, 4, and 6.
  • the compound word feature amount extraction unit 1431 searches for the “head notation” of the compound word list 131 shown in FIG. 4 using the “notation” of the morpheme information of the input data as a key. Then, the "subsequent notation list" associated with the first notation is acquired.
  • the compound word feature amount extraction unit 1431 assigns " ⁇ " as the value of the compound word feature amount related to the notation, and the same applies to the next morpheme. Carry out the process.
  • the compound word feature amount extraction unit 1431 assigns “ ⁇ ” as the compound word feature amount for the notations “4”, “times”, “eyes”, and “no”.
  • the "notation" of the morpheme information of the input data shown in FIG. 2 matches the "leading notation” of the compound word list 131 shown in FIG.
  • the notation following is matched with the subsequent notation list of the first notation, "B” is given to the first notation, and "I” is given to the other matched parts.
  • the compound word feature amount extraction unit 1431 assigns "B” to the notation “summer” and assigns "I” to each of "no” and "Koshien”.
  • the accent phrase feature amount extraction unit 1432 extracts the accent phrase feature amount of the sentence. For example, when the accent phrase feature amount extraction unit 1432 receives the input of the analyzed text including the morphological element information and the accent boundary information of the sentence, the feature amount of the accent phrase and the one immediately before the accent phrase are received from the analyzed text. The feature amount of the accent phrase and the feature amount of the accent phrase immediately after the accent phrase are extracted.
  • the accent phrase feature quantity extraction unit 1432 determines what kind of part of the accent phrase is included in the sentence, what kind of part of speech is the accent phrase before the accent phrase, and what kind of part of speech is after the accent phrase. Information indicating what kind of part of speech the accent phrase is is extracted as an accent phrase feature quantity (see FIG. 7).
  • the accent phrase feature amount extraction unit 1432 extracts the feature amount for each morpheme included in the input data by the following procedure when the morpheme is an accent phrase boundary. If the morpheme is not an accent phrase boundary, the accent phrase feature amount extraction unit 1432 assigns a label indicating a non-target such as a hyphen.
  • the process of extracting the feature amount of the accent phrase, the accent phrase immediately before the accent phrase, and the accent phrase one after the accent phrase by the accent phrase feature amount extraction unit 1432 An example will be described.
  • the accent phrase feature amount extraction unit 1432 concatenates the "case assistant” and its notation (for example, "case assistant:” shown in FIG. 7). Concatenated with the main part of speech of the content word that appears before the accent phrase boundary is extracted as the accent phrase feature quantity (for example, "noun-case advocate:” shown in FIG. 7).
  • the main part of speech is the main part of speech, and is, for example, the first part of speech that does not include ":" in each part of speech shown in FIG.
  • the accent phrase feature amount extraction unit 1432 extracts the "phrase point" as the accent phrase feature amount.
  • the accent phrase feature amount extraction unit 1432 extracts the main part of speech of the content word appearing before the accent phrase boundary as the accent phrase feature amount.
  • the accent phrase feature amount extraction unit 1432 extracts the "accent phrase feature amount (corresponding)" of the previous accent phrase boundary as the "accent phrase feature amount (previous)" of the accent phrase. If the accent phrase boundary does not exist before the accent phrase boundary, the accent phrase feature amount extraction unit 1432 sets the "accent phrase feature amount (one before)" as BOS (representing the beginning) as shown in FIG. Label).
  • the accent phrase feature amount extraction unit 1432 extracts the "accent phrase feature amount (corresponding)" of the accent phrase boundary after one as the "accent phrase feature amount (after one)" of the accent phrase.
  • the accent phrase feature amount extraction unit 1432 describes the "accent phrase feature amount (one after)" of the accent phrase boundary as "EOS" as shown in FIG. (Label indicating the end of the sentence) ”is added.
  • the feature amount aggregation unit 1433 aggregates the compound word feature amount extracted by the compound word feature amount extraction unit 1431 and the accent phrase feature amount extracted by the accent phrase feature amount extraction unit 1432. For example, the feature amount aggregation unit 1433 aggregates the compound word feature amount shown in FIG. 6 and the accent phrase feature amount shown in FIG. 7 to generate the feature amount shown in FIG.
  • the model learning unit 144 includes the compound word feature amount and the accent phrase feature amount (see FIG. 8) extracted from the input data by the feature amount extraction unit 143, and the correct answer data of the pose position in the input data (see FIG. 3A). Is used to train the pose position estimation model 132.
  • the model learning unit 144 uses each extracted feature amount and correct answer data as learning data, and uses an existing machine learning method (for example, CRF (Conditional Random Fields)) to relate each feature amount to a pose position. Is modeled to generate a pose position estimation model 132. The generated pose position estimation model 132 is stored in the storage unit 13.
  • CRF Consumer Random Fields
  • the estimation unit 142 includes a feature amount extraction unit (first extraction unit) 145 and a pose position estimation unit 146.
  • the feature amount extraction unit 145 extracts the compound word feature amount and the accent phrase feature amount from the input sentence. That is, the feature amount extraction unit 145 includes a compound word feature amount extraction unit 1431, an accent phrase feature amount extraction unit 1432, and a feature amount aggregation unit 1433 (see FIG. 5). From, compound word features and accent phrase features are extracted.
  • the extraction of the compound word feature amount and the accent phrase feature amount by the feature amount extraction unit 145 is the same as the feature amount extraction unit 143 described above, so the description thereof will be omitted.
  • the sentence to be estimated for the pose position is, for example, data to which the result of morphological analysis for the text sentence and the information of the accent phrase boundary in the text sentence are added (see, for example, FIG. 2). ..
  • the pose position estimation unit 146 estimates the pose position in the sentence to be estimated of the pose position by using the compound word feature amount and the accent phrase feature amount extracted by the feature amount extraction unit 145 and the pose position estimation model 132. .. Then, the pose position estimation unit 146 outputs the result of estimation of the pose position (for example, FIG. 3B) in the sentence to be estimated via the output unit 12.
  • the feature amount extraction unit 143 determines the compound word feature amount and the accent phrase feature amount of the learning data. Extract (S2). That is, the compound word feature amount extraction unit 1431 extracts the compound word feature amount of the learning data input in S1 with reference to the compound word list 131. Further, the accent phrase feature amount extraction unit 1432 extracts the accent phrase feature amount of the learning data input in S1.
  • the model learning unit 144 uses the correct answer data of the pose position included in the learning data received in S1 and each feature amount (compound word feature amount and accent phrase feature amount) extracted in S2. , The pose position estimation model 132 is learned (S3). By doing so, the estimation device 10 generates the pose position estimation model 132.
  • the feature amount extraction unit 145 determines the compound word feature amount and the accent phrase feature amount in the sentence input in S11. Extract (S12). That is, the compound word feature amount extraction unit 1431 extracts the compound word feature amount from the sentence input in S11 with reference to the compound word list 131. Further, the accent phrase feature amount extraction unit 1432 extracts the accent phrase feature amount from the sentence input in S11.
  • the pose position estimation unit 146 uses the pose position estimation model 132 based on each feature amount (compound word feature amount and accent phrase feature amount) extracted in S12, and the sentence (estimation) input in S11. The pose position of the target sentence) is estimated (S13). Then, the pause position estimation unit 146 outputs the result of estimation of the pose position (for example, FIG. 3B) in the sentence input in S11 via the output unit 12 (S14).
  • the estimation device 10 can estimate the position of the pose in the sentence.
  • the compound word list 131 can also be created by the method shown below. For example, when a device for creating a compound word list 131 receives an input of a large amount of text data such as a newspaper article or a blog, it performs morphological analysis of the text data (S21 in FIG. 11).
  • the device extracts compound word candidates from the text subjected to morphological analysis in S21 (S22). For example, in the device, from the text obtained by morphological analysis in S21, "the part of speech is a noun or a sequence of unknown words", “the noun sequence is followed by the case compound” no ", and the noun sequence follows", etc.
  • the compound word extraction rule extracts compound word candidates including morphological boundary information. For example, the device extracts "Tokyo ⁇ t University" and the like from the text.
  • the device After S22, the device performs scoring for each compound word candidate extracted in S22 (S23). For example, the device performs collocation scoring using C-Value or the like by the technique described in Non-Patent Document 4 or the like.
  • the apparatus uses the result of scoring in S23 to extract compound word candidates having a score equal to or higher than a predetermined threshold value, “leading notation” the first morpheme in the extracted compound word candidates, and succeeding the rest. It is registered in the compound word list 131 as a notation. If the same entry with the first notation exists, the device registers the subsequent notation in the compound word list 131 by separating it with ",".
  • the compound word list 131 can be created.
  • the compound word list 131 may be created by the estimation device 10 or by a device other than the estimation device 10.
  • the estimation device 10 may not include the learning unit 141, and may estimate the pose position using the pose position estimation model 132 learned by another device. Further, the estimation device 10 does not include the estimation unit 142, and the pose position estimation using the pose position estimation model 132 learned by the learning unit 141 may be performed by another device.
  • each component of each of the illustrated parts is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program executed by the CPU, or may be realized as hardware by wired logic.
  • the estimation device 10 described above can be implemented by installing a program as package software or online software on a desired computer.
  • the information processing device can function as the estimation device 10 of the above-described embodiment.
  • the information processing device referred to here includes a desktop type or notebook type personal computer.
  • information processing devices include smartphones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone System), and terminals such as PDAs (Personal Digital Assistants).
  • the estimation device 10 can be implemented as a server device in which the terminal device used by the user is a client and the service related to the above processing is provided to the client.
  • the server device may be implemented as a Web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
  • FIG. 12 is a diagram showing an example of a computer that executes an estimation program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, OS1091, application program 1092, program module 1093, and program data 1094. That is, the program that defines each process executed by the estimation device 10 is implemented as a program module 1093 in which a code that can be executed by a computer is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • the program module 1093 for executing the same processing as the functional configuration in the estimation device 10 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD.
  • model and data used in the processing of the above-described embodiment are stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 and executes them as needed.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read from another computer by the CPU 1020 via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Abstract

推定装置(10)は、複合語リスト(131)を参照して、学習用データの文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量を抽出し、また、アクセント句の位置の特徴量である第2の特徴量を抽出する。そして、推定装置(10)は、学習用データの文から抽出された第1の特徴量および第2の特徴量と、当該文におけるポーズ位置の正解データとを用いて、ポーズ位置推定モデル(132)を学習する。その後、推定装置(10)は、複合語リスト(131)を参照して、ポーズ位置の推定対象の文から第1の特徴量を抽出し、また第2の特徴量を抽出する。推定装置(10)は、抽出した第1の特徴量および第2の特徴量に基づき、ポーズ位置推定モデル(132)を用いて、当該ポーズ位置の推定対象の文におけるポーズ位置を推定し、その推定の結果を出力する。

Description

推定装置、推定方法、および、推定プログラム
 本発明は、自然性の高いポーズ(pause。「間」とも呼ばれる無音時間)の位置の推定装置、推定方法、および、推定プログラムに関する。
 従来、音声合成において自然性の高いポーズ位置およびポーズ長を推定する技術が提案されている。例えば、ポーズ位置およびポーズ長の推定に、人手で設計した規則を用いる手法、ポーズ位置およびポーズ長が付与された学習用データを用いた機械学習を用いる手法等がある(非特許文献1参照)。
太田健吾他,ポーズを考慮した話し言葉言語モデルの構築,情報処理学会論文誌Vol.53 No.2,pp.889-900,2012 武藤博子他,合成音声への自然なポーズ挿入のための音声の自然性に影響を与えるポーズ位置に関する要因の分析と評価, 情報処理学会論文誌, Vol. 56, No .3, pp. 993-1002, 2015 浅原正幸他,日本語固有表現抽出におけるわかち書き問題の解決,情報処理学会論文誌 Vol.45 No.5, pp.1442-1450, 2004 Frantzi, Katerina T. and Ananiadou, Sophia, Extracting Nested Collocations, The 16th International Conference on Computational Linguistics, 1996
 しかし、従来技術では、例えば「夏の甲子園」のように、ひとかたまりとして読まれることが多い複合語の情報は考慮されていない。そのため、従来技術により文のポーズ位置を推定すると、「夏の/甲子園」のように、ひとかたまりとして読まれる複合語の中にポーズ(「/」)が挿入される可能性がある。なお、以下、「/(スラッシュ)」はポーズが入る位置を示す。
 また、従来技術において、文の係り受け構造を用いてポーズ位置を推定することも提案されているが(例えば、非特許文献2参照)、ある文節が直後にかかる場合でもポーズが入る場合もあり、文の係り受け構造だけでは、ポーズの位置をとらえきれない。これは、ポーズには強調のためのポーズも存在しており、例えば、「中国の/国家旅遊局」のように「AのB」で直後にかかる場合でもポーズが存在するからである。
 また、大量の学習用データを用いて、ポーズ位置を正しく推定するためのモデルを作成することも考えられるが、上記のような複合語を網羅的に含んだ学習用データを準備することは現実的ではない。
 そこで、本発明は、前記した問題を解決し、文におけるポーズ位置を精度よく推定することを課題とする。
 前記した課題を解決するため、本発明は、ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出部と、入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを記憶する記憶部と、前記第1の抽出部により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置推定モデルを用いて、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定部と、前記ポーズ位置の推定の結果を出力する出力部とを備えることを特徴とする。
 本発明によれば、文におけるポーズ位置を精度よく推定することができる。
図1は、推定装置の構成例を示す図である。 図2は、ポーズ位置の推定対象のデータの例を示す図である。 図3Aは、図1の推定装置における学習用データの例を示す図である。 図3Bは、図1の推定装置におけるポーズ位置の推定の結果の例を示す図である。 図4は、図1の複合語リストの例を示す図である。 図5は、図1の第1の特徴量抽出部の構成例を示す図である。 図6は、複合語特徴量が付加された入力データの例を示す図である。 図7は、アクセント句特徴量が付加された入力データの例を示す図である。 図8は、複合語特徴量およびアクセント句特徴量が付加された入力データの例を示す図である。 図9は、ポーズ位置推定モデルの学習時における推定装置の処理手順の例を示すフローチャートである。 図10は、ポーズ位置の推定時における推定装置の処理手順の例を示すフローチャートである。 図11は、複合語リストの作成手順の例を示すフローチャートである。 図12は、推定プログラムを実行するコンピュータの構成例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、以下に示す実施形態に限定されない。
[概要]
 図1を参照しながら、推定装置10の概要を説明する。推定装置10は、文におけるポーズ位置を推定するためのモデル(ポーズ位置推定モデル132)を用いて、文におけるポーズ位置を推定する。ここで、推定装置10は、ポーズ位置推定モデル132を学習する際、文におけるポーズ位置(正解となるポーズ位置)と、当該文におけるひとかたまりで読むべき複合語の位置の特徴量およびアクセント句の位置の特徴量を用いる。
 そして、上記のポーズ位置推定モデル132の学習後、推定装置10が、ポーズ位置の推定対象となる文の入力を受け付けると、当該文における上記の各特徴量を抽出し、抽出した各特徴量と、ポーズ位置推定モデル132とを用いて、当該文のポーズ位置を推定する。なお、文に含まれる語のうち、どの語が、ひとかたまりでよむべき複合語かは、事前に用意された複合語リスト131(図3参照)を参照して特定する。
 推定装置10は、上記のように、文においてひとかたまりで読むべき複合語の位置の特徴量とアクセント句の位置の特徴量とを用いて、当該文におけるポーズ位置の推定を行うので、当該文におけるポーズの位置を精度よく推定することができる。
[構成例]
 図1を用いて、推定装置10の構成例を説明する。推定装置10は、入力部11と、出力部12と、記憶部13と、制御部14とを備える。
 入力部11は、制御部14が用いる各種データの入力を受け付ける。例えば、入力部11は、ポーズ位置推定モデル132の学習に用いる学習用データや、ポーズ位置の推定対象の文のデータの入力を受け付ける。
 図2を用いて、入力部11への入力データの例を説明する。ここでは、入力データが、ポーズ位置の推定対象の文のデータである場合について説明する。
 入力データは、例えば、テキスト文に対する形態素解析の結果(例えば、表記および品詞)と、当該テキスト文におけるアクセント句境界の情報とが付与されたデータである。なお、図2においてアクセント句境界となる語には「A」が付与されている。
 なお、入力データが、学習用データである場合、入力データは、例えば、図3Aに示すように、アクセント句境界の情報に加え、正解となるポーズ位置の情報(ポーズラベル「P」)が付与されたデータである。
 図1の説明に戻る。出力部12は、制御部14による処理結果を出力する。例えば、出力部12は、制御部14により推定された、文のポーズ位置(ポーズ位置の推定の結果)を出力する。
 図3Bを用いて、出力データの例を説明する。出力データは、例えば、入力データ(図2参照)に対し、ポーズ位置の推定の結果を示す情報(ポーズラベル「P」)が付与されたデータである。なお、上記のポーズ位置の推定の結果を示す情報は、当該ポーズが短いポーズであるか、長いポーズであるかに示す情報を含んでいてもよい。例えば、ポーズラベルとして、当該ポーズが長いポーズか短いポーズであるかを示すラベルが付与されてもよい。
 図1の説明に戻る。記憶部13は、制御部14が参照する各種情報を記憶する。例えば、記憶部13は、複合語リスト131を記憶する。また、制御部14によりポーズ位置推定モデル132が生成されると、記憶部13の所定領域には、ポーズ位置推定モデル132が格納される。
 複合語リスト131は、上記のとおり、ひとかたまりで読むべき複合語(形態素のかたまり)を示したリストである。この複合語リスト131の例を、図4を用いて説明する。
 複合語リスト131は、例えば、図4に示すように、ひとかたまりで読むべき複合語の先頭表記とその先頭表記に続く後続表記リストと対応付けて示した情報である。なお、後続表記リストにおける「\t(タブ)」は、後続表記における形態素の境界を示し、「,」は区切りを示す。例えば、図4に示す複合語リストの1行目の情報は、「夏の甲子園」を示し、2行目の情報は「東京大学」および「東京国税局」を示す。
 図1の説明に戻る。ポーズ位置推定モデル132は、入力された文において、ひとかたまりで読むべき複合語の位置の特徴量(複合語特徴量)およびアクセント句の位置の特徴量(アクセント句特徴量)と、当該文におけるポーズ位置との関連性を示したモデルである。このポーズ位置推定モデル132は、モデル学習部144が学習用データを用いた学習を行うことにより生成される。
 制御部14は、学習部141と推定部142とを備える。学習部141は、学習用データを用いてポーズ位置推定モデル132の学習を行う。推定部142は、ポーズ位置推定モデル132を用いて、入力された文のポーズ位置を推定する。
[学習部]
 まず、学習部141を説明する。学習部141は、特徴量抽出部(第2の抽出部)143と、モデル学習部144とを備える。
 特徴量抽出部143は、文から複合語特徴量およびアクセント句特徴量を抽出する。例えば、特徴量抽出部143は、文の形態素情報およびアクセント句境界の情報が付与されたデータから、複合語リスト131を利用して、ポーズ位置の推定に必要となる複合語特徴量を抽出する。また、特徴量抽出部143は、当該データからアクセント句特徴量を抽出する。
 図5を用いて、特徴量抽出部143の構成例を説明する。特徴量抽出部143は、例えば、図5に示すように、複合語特徴量抽出部1431と、アクセント句特徴量抽出部1432と、特徴量集約部1433とを備える。
[複合語特徴量抽出部]
 複合語特徴量抽出部1431は、複合語リスト131を用いて、文から当該文の複合語特徴量を抽出する。
 例えば、複合語特徴量抽出部1431は、文の形態素情報およびアクセント境界情報を含む解析済テキスト(図2参照)の入力を受け付けると、複合語リスト131(図4参照)を参照し、当該文を構成する形態素のうち、どこからどこまでの形態素が、ひとかたまりで読むべき複合語であるかを判断し、その判断結果を複合語特徴量として抽出する。この複合語特徴量抽出部1431による複合語特徴量の抽出処理の例を、図2、図4、図6を参照しながら説明する。
 例えば、複合語特徴量抽出部1431は、図2に示す入力データを受け付けると、当該入力データの形態素情報の「表記」をキーとして、図4に示す複合語リスト131の「先頭表記」を検索し、当該先頭表記に対応付けられた「後続表記リスト」を取得する。
 ここで、複合語リスト131に、マッチするエントリがなければ、複合語特徴量抽出部1431は、当該表記に関する複合語特徴量の値として「О」を付与し、次の形態素に対して同様の処理を実施する。
 例えば、図2に示す入力データにおける、表記「4」、「回」、「目」および「の」は、図4に示す複合語リスト131の「先頭表記」にマッチするエントリがない。よって、複合語特徴量抽出部1431は、図6に示すように、表記「4」、「回」、「目」および「の」に対する複合語特徴量として「О」を付与する。
 一方、複合語特徴量抽出部1431は、図2に示す入力データの形態素情報の「表記」と、図4に示す複合語リスト131の「先頭表記」とがマッチし、かつ、当該「表記」に続く表記が、当該先頭表記の後続表記リストにマッチした場合、先頭表記に「B」を付与し、それ以外のマッチした箇所に「I」を付与する。
 例えば、図2に示す入力データにおける、表記「夏」は、図4に示す複合語リスト131の1行目のエントリの先頭表記にマッチし、その後に続く「の」および「甲子園」は、当該先頭表記の後続表記リストにマッチする。よって、複合語特徴量抽出部1431は、図9に示すように、表記「夏」に「B」を付与し、「の」および「甲子園」それぞれに「I」を付与する。
 なお、この「B」、「I」、「O」のタグ付与は、自然言語処理の固有表現抽出等で一般的に使われる方法であり、例えば、非特許文献3等に記載されている。
[アクセント句特徴量抽出部]
 図5の説明に戻り、アクセント句特徴量抽出部1432を説明する。アクセント句特徴量抽出部1432は、文のアクセント句特徴量を抽出する。例えば、アクセント句特徴量抽出部1432は、文の形態素情報およびアクセント境界情報を含む解析済テキストの入力を受け付けると、当該解析済テキストから、アクセント句の特徴量、当該アクセント句の一つ前のアクセント句の特徴量、当該アクセント句の一つ後のアクセント句の特徴量を抽出する。
 換言すると、アクセント句特徴量抽出部1432は、文に含まれるアクセント句について、当該アクセント句はどのような品詞か、当該アクセント句の前のアクセント句はどのような品詞か、当該アクセント句の後のアクセント句はどのような品詞かを示した情報を、アクセント句特徴量として抽出する(図7参照)。
 例えば、アクセント句特徴量抽出部1432は、入力データに含まれる各形態素に対し、当該形態素がアクセント句境界である場合に、以下の手順で特徴量を抽出する。なお、当該形態素がアクセント句境界ではない場合、アクセント句特徴量抽出部1432は、ハイフン等の対象外を表すラベルを付与する。
 図7を参照しながら、アクセント句特徴量抽出部1432による当該アクセント句、当該アクセント句の一つ前のアクセント句、および、当該アクセント句の一つ後のアクセント句の特徴量を抽出する処理の例を説明する。
[アクセント句特徴量(当該)の抽出]
 まず、当該アクセント句の特徴量(アクセント句特徴量(当該))の抽出について説明する。
 例えば、アクセント句境界の品詞が、格助詞もしくは読点の場合、アクセント句特徴量抽出部1432は、「格助詞」とその表記を連結し(例えば、図7に示す「格助詞:の」)、アクセント句境界より前に出現する内容語の主品詞と連結したものを、当該アクセント句特徴量として抽出する(例えば、図7に示す「名詞-格助詞:の」)。なお、主品詞とは、主となる品詞であり、例えば、図7に示す各品詞における「:」を含まない先頭の品詞である。
 また、アクセント句境界の品詞が、句点の場合、アクセント句特徴量抽出部1432は、「句点」を当該アクセント句特徴量として抽出する。また、アクセント句境界の品詞が上記以外の場合、アクセント句特徴量抽出部1432は、アクセント句境界より前に出現する内容語の主品詞を当該アクセント句特徴量として抽出する。
[アクセント句特徴量(一つ前)の抽出]
 次に、当該アクセント句の一つ前のアクセント句の特徴量(アクセント句特徴量(一つ前))の抽出について説明する。
 例えば、アクセント句特徴量抽出部1432は、一つ前のアクセント句境界の「アクセント句特徴量(当該)」を、当該アクセント句の「アクセント句特徴量(一つ前)」として抽出する。なお、当該アクセント句境界より前にアクセント句境界が存在しない場合、アクセント句特徴量抽出部1432は、「アクセント句特徴量(一つ前)」として、図7に示すようにBOS(先頭を表すラベル)を付与する。
[アクセント句特徴量(一つ後)の抽出]
 次に、当該アクセント句の一つ後のアクセント句の特徴量(アクセント句特徴量(一つ後))の抽出について説明する。
 例えば、アクセント句特徴量抽出部1432は、一つ後のアクセント句境界の「アクセント句特徴量(当該)」を、当該アクセント句の「アクセント句特徴量(一つ後)」として抽出する。なお、当該アクセント句境界が最後のアクセント句境界の場合、アクセント句特徴量抽出部1432は、当該アクセント句境界の「アクセント句特徴量(一つ後)」として、図7に示すように「EOS(文末を表すラベル)」を付与する。
 図5の説明に戻る。特徴量集約部1433は、複合語特徴量抽出部1431により抽出された複合語特徴量と、アクセント句特徴量抽出部1432により抽出されたアクセント句特徴量とを集約する。例えば、特徴量集約部1433は、図6に示す複合語特徴量と、図7に示すアクセント句特徴量とを集約し、図8に示す特徴量を生成する。
 図1の説明に戻る。モデル学習部144は、特徴量抽出部143により、入力データから抽出された複合語特徴量およびアクセント句特徴量(図8参照)と、当該入力データにおけるポーズ位置の正解データ(図3A参照)とを用いて、ポーズ位置推定モデル132を学習する。
 例えば、モデル学習部144は、抽出した各特徴量と正解データとを学習用データとし、既存の機械学習手法(例えば、CRF(Conditional Random Fields))を用いて、各特徴量とポーズ位置の関係をモデル化し、ポーズ位置推定モデル132を生成する。生成したポーズ位置推定モデル132は、記憶部13に格納される。
[推定部]
 次に、推定部142を説明する。推定部142は、特徴量抽出部(第1の抽出部)145と、ポーズ位置推定部146とを備える。
 特徴量抽出部145は、特徴量抽出部143と同様に、入力された文から複合語特徴量およびアクセント句特徴量を抽出する。つまり、特徴量抽出部145は、複合語特徴量抽出部1431、アクセント句特徴量抽出部1432および特徴量集約部1433(図5参照)を備え、これらの構成により、ポーズ位置の推定対象の文から、複合語特徴量およびアクセント句特徴量を抽出する。
 特徴量抽出部145による、複合語特徴量およびアクセント句特徴量の抽出は、前記した特徴量抽出部143と同様なので説明を省略する。なお、ポーズ位置の推定対象の文は、上記のとおり、例えば、テキスト文に対する形態素解析の結果と、当該テキスト文におけるアクセント句境界の情報とが付与されたデータ(例えば、図2参照)である。
 ポーズ位置推定部146は、特徴量抽出部145により抽出された複合語特徴量およびアクセント句特徴量と、ポーズ位置推定モデル132とを用いて、ポーズ位置の推定対象の文におけるポーズ位置を推定する。そして、ポーズ位置推定部146は、推定対象の文におけるポーズ位置の推定の結果(例えば、図3B)を出力部12経由で出力する。
[処理手順]
 次に、図9および図10を用いて、推定装置10の処理手順の例を説明する。まず、図9を用いて推定装置10が、ポーズ位置推定モデル132を学習する際の処理手順の例を説明する。
 推定装置10の入力部11が、ポーズ位置の正解データを含む学習用データの入力を受け付けると(S1)、特徴量抽出部143は、当該学習用データの複合語特徴量およびアクセント句特徴量を抽出する(S2)。つまり、複合語特徴量抽出部1431は、複合語リスト131を参照して、S1で入力された学習用データの複合語特徴量を抽出する。また、アクセント句特徴量抽出部1432は、S1で入力された学習用データのアクセント句特徴量を抽出する。
 S2の後、モデル学習部144は、S1で受け付けた学習用データに含まれるポーズ位置の正解データと、S2で抽出された各特徴量(複合語特徴量およびアクセント句特徴量)とを用いて、ポーズ位置推定モデル132を学習する(S3)。このようにすることで推定装置10は、ポーズ位置推定モデル132を生成する。
 次に、図10を用いて、推定装置10が、文におけるポーズ位置の推定を行う際の処理手順の例を説明する。
 推定装置10の入力部11が、ポーズ位置の推定対象の文の入力を受け付けると(S11)、特徴量抽出部145は、S11で入力された文における、複合語特徴量およびアクセント句特徴量を抽出する(S12)。つまり、複合語特徴量抽出部1431は、複合語リスト131を参照して、S11で入力された文から、複合語特徴量を抽出する。また、アクセント句特徴量抽出部1432は、S11で入力された文から、アクセント句特徴量を抽出する。
 S12の後、ポーズ位置推定部146は、S12で抽出された各特徴量(複合語特徴量およびアクセント句特徴量)に基づき、ポーズ位置推定モデル132を用いて、S11で入力された文(推定対象の文)のポーズ位置を推定する(S13)。そして、ポーズ位置推定部146は、S11で入力された文におけるポーズ位置の推定の結果(例えば、図3B)を出力部12経由で出力する(S14)。
 このようにすることで、推定装置10は、文におけるポーズの位置を推定することができる。
[複合語リストの作成方法]
 なお、複合語リスト131は、以下に示す方法で作成することも可能である。例えば、複合語リスト131を作成する装置は、新聞記事やblog等の大量のテキストデータの入力を受け付けると、当該テキストデータの形態素解析を行う(図11のS21)。
 次に、当該装置は、S21で形態素解析が行われたテキストから、複合語候補の抽出を行う(S22)。例えば、当該装置は、S21で形態素解析が行われたテキストから、「品詞が名詞もしくは未知語の連続」、「名詞連続の後に格助詞の「の」があり、名詞連続が後続する」等の複合語抽出ルールによって、形態素境界情報を含めた形で複合語候補を抽出する。例えば、当該装置は、テキストから、「東京\t大学」等を抽出する。
 S22の後、当該装置は、S22で抽出した複合語候補それぞれのスコアリングを行う(S23)。例えば、当該装置は、非特許文献4等に記載の技術により、C-Value等を用いた連語(コロケーション)のスコアリングを行う。
 S23の後、当該装置は、S23におけるスコアリングの結果を用いて、スコアが所定の閾値以上の複合語候補を抽出し、抽出した複合語候補における先頭の形態素を「先頭表記」、残りを後続表記として複合語リスト131に登録する。なお、同じ先頭表記のエントリが存在する場合、当該装置は、後続表記を「,」で区切って複合語リスト131に登録する。
 このようにすることで、複合語リスト131を作成することができる。上記の複合語リスト131の作成は、推定装置10で行ってもよいし、推定装置10以外の装置で行ってもよい。
[その他の実施形態]
 なお、前記した実施形態において推定装置10が学習部141を備える場合について説明したが、これに限定されない。例えば、推定装置10は、学習部141を備えず、他の装置により学習されたポーズ位置推定モデル132を用いて、ポーズ位置の推定を行ってもよい。また、推定装置10は、推定部142を備えず、学習部141により学習されたポーズ位置推定モデル132を用いたポーズ位置の推定は、他の装置で行ってもよい。
[システム構成等]
 また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 前記した推定装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を前記した実施形態の推定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
 また、推定装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図12は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の推定装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、推定装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
 また、上述した実施形態の処理で用いられるモデルやデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワされたーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 推定装置
11 入力部
12 出力部
13 記憶部
14 制御部
131 複合語リスト
132 ポーズ位置推定モデル
141 学習部
142 推定部
143,145 特徴量抽出部
144 モデル学習部
146 ポーズ位置推定部

Claims (7)

  1.  ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出部と、
     入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを記憶する記憶部と、
     前記第1の抽出部により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置推定モデルを用いて、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定部と、
     前記ポーズ位置の推定の結果を出力する出力部と
     を備えることを特徴とする推定装置。
  2.  前記第1の抽出部は、
     前記ひとかたまりで読むべき複合語を示した複合語リストを参照して、前記第1の特徴量を抽出する
     ことを特徴とする請求項1に記載の推定装置。
  3.  前記アクセント句の位置の特徴量は、
     前記文における当該アクセント句の前および後に存在するアクセント句の情報をさらに含む
     ことを特徴とする請求項1に記載の推定装置。
  4.  前記アクセント句の位置の特徴量は、
     前記アクセント句の品詞を示す情報を含むこと
     を特徴とする請求項3に記載の推定装置。
  5.  学習用データである文から、前記第1の特徴量および前記第2の特徴量を抽出する第2の抽出部と、
     前記学習用データである文から抽出された前記第1の特徴量および前記第2の特徴量と、当該文におけるポーズ位置の正解データとを用いて、前記ポーズ位置推定モデルを学習するモデル学習部と
     をさらに備えることを特徴とする請求項1に記載の推定装置。
  6.  推定装置により実行される推定方法であって、
     ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出工程と、
     入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを用いて、前記第1の抽出工程により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定工程と、
     前記ポーズ位置の推定の結果を出力する出力工程と
     を含むことを特徴とする推定方法。
  7.  ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出工程と、
     入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを用いて、前記第1の抽出工程により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定工程と、
     前記ポーズ位置の推定の結果を出力する出力工程と
     をコンピュータに実行させるための推定プログラム。
PCT/JP2020/041122 2020-11-02 2020-11-02 推定装置、推定方法、および、推定プログラム WO2022091422A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022558818A JPWO2022091422A1 (ja) 2020-11-02 2020-11-02
PCT/JP2020/041122 WO2022091422A1 (ja) 2020-11-02 2020-11-02 推定装置、推定方法、および、推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/041122 WO2022091422A1 (ja) 2020-11-02 2020-11-02 推定装置、推定方法、および、推定プログラム

Publications (1)

Publication Number Publication Date
WO2022091422A1 true WO2022091422A1 (ja) 2022-05-05

Family

ID=81382150

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041122 WO2022091422A1 (ja) 2020-11-02 2020-11-02 推定装置、推定方法、および、推定プログラム

Country Status (2)

Country Link
JP (1) JPWO2022091422A1 (ja)
WO (1) WO2022091422A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11344998A (ja) * 1998-06-03 1999-12-14 Nippon Telegr & Teleph Corp <Ntt> 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP2015099252A (ja) * 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11344998A (ja) * 1998-06-03 1999-12-14 Nippon Telegr & Teleph Corp <Ntt> 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP2015099252A (ja) * 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Also Published As

Publication number Publication date
JPWO2022091422A1 (ja) 2022-05-05

Similar Documents

Publication Publication Date Title
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
JP7100747B2 (ja) 学習データ生成方法および装置
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
WO2021174864A1 (zh) 基于少量训练样本的信息抽取方法及装置
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
CN112559672B (zh) 信息检测方法、电子设备及计算机存储介质
WO2023045184A1 (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN113379398B (zh) 一种项目需求的生成方法、装置、电子设备及存储介质
US20200311350A1 (en) Generating method, learning method, generating apparatus, and non-transitory computer-readable storage medium for storing generating program
CN113407610B (zh) 信息抽取方法、装置、电子设备和可读存储介质
JP2007122398A (ja) フラグメントの同一性判定方法およびコンピュータプログラム
WO2020095655A1 (ja) 選定装置および選定方法
WO2022091422A1 (ja) 推定装置、推定方法、および、推定プログラム
CN113761923A (zh) 命名实体识别方法、装置、电子设备及存储介质
Mori et al. Language Resource Addition: Dictionary or Corpus?
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
WO2020059506A1 (ja) 学習装置、抽出装置及び学習方法
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
JP5979650B2 (ja) 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
JP7099254B2 (ja) 学習方法、学習プログラム及び学習装置
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
JP6526607B2 (ja) 学習装置、学習方法、および学習プログラム
JP2020173608A (ja) 対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム
US20180033425A1 (en) Evaluation device and evaluation method
CN115188014B (zh) 落地页处理方法、模型训练方法、装置及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20959937

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022558818

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20959937

Country of ref document: EP

Kind code of ref document: A1