WO2005069158A2 - テキスト処理方法/プログラム/プログラム記録媒体/装置 - Google Patents

テキスト処理方法/プログラム/プログラム記録媒体/装置 Download PDF

Info

Publication number
WO2005069158A2
WO2005069158A2 PCT/JP2005/000461 JP2005000461W WO2005069158A2 WO 2005069158 A2 WO2005069158 A2 WO 2005069158A2 JP 2005000461 W JP2005000461 W JP 2005000461W WO 2005069158 A2 WO2005069158 A2 WO 2005069158A2
Authority
WO
WIPO (PCT)
Prior art keywords
model
text
parameter
probability
estimating
Prior art date
Application number
PCT/JP2005/000461
Other languages
English (en)
French (fr)
Other versions
WO2005069158A1 (ja
Inventor
Takafumi Koshinaka
Original Assignee
Nec Corp
Takafumi Koshinaka
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corp, Takafumi Koshinaka filed Critical Nec Corp
Priority to US10/586,317 priority Critical patent/US20070162272A1/en
Priority to JP2005517089A priority patent/JP4860265B2/ja
Publication of WO2005069158A2 publication Critical patent/WO2005069158A2/ja
Publication of WO2005069158A1 publication Critical patent/WO2005069158A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Definitions

  • the present invention relates to a text processing method Z that divides a text document such as a character string or a word string into semantically organized parts, that is, each topic, and relates to a Z program, a Z program recording medium, and a Z apparatus.
  • This type of text processing method Z program Z program recording medium Z device divides and divides a large and large number of text documents into meanings, that is, into topics, so that a person can obtain text document power. It is used to process information so that it can be easily obtained.
  • the text document is, for example, a sequence of arbitrary characters or words recorded on a recording medium such as a magnetic disk.
  • a recording medium such as a magnetic disk.
  • OCR optical character reading device
  • an input text is a sequence of words. , 0, ⁇ ⁇ ⁇ , 0, each ward in the series
  • the difference between the two windows includes, for example, the window KL dip purge between polynomial distributions calculated for each case can be used.
  • L is the number of words in the input text
  • the statistic in the window is calculated from the frequency of occurrence of each word, that is, a force that is a so-called unigram (adjacent two-part, three-part, and even an arbitrary number of words) You may consider the frequency of appearance (bigram bigram, trigram trigram, n-gram respectively). Or, "November 2001, Information Processing Society of Japan Transactions, Vol. 42, No. 11, pp. 2650-2662, Katsuhito Bessho, Text Segmentation Using Conceptual Vectors of Words" (Reference 1).
  • each word in the input text is replaced with a real turtle.
  • a change point of a topic can be detected based on the amount of movement of the vector.
  • this second example of the prior art prepares and prepares a statistical model for each topic, that is, a topic model, for each topic such as "politics", “sports", and “economy”.
  • the topic model is a word appearance frequency (eg, bigram, bigram, etc.) for which the ability of text documents collected in large quantities for each topic has also been determined in advance.
  • a topic model sequence that best matches the input word sequence can be mechanically calculated. Assuming that the input word sequence is replaced with the input speech waveform and the topic model is replaced with a phoneme model, it is easy to understand. Topic transition sequences can be calculated by using calculation methods such as synchronous beam search.
  • the optimum value of the window width differs depending on the nature of the input text.
  • the threshold value for the difference between windows and the optimal value usually differs depending on the input text. This is a serious problem in practical applications because it does not work as expected depending on the nature of the input text document.
  • the second conventional technique has a problem that a large-scale text corpus must be prepared in advance to create a topic model.
  • the text corpus be divided into topics, and it is often required that topic labels (for example, "politics", “sports”, “economy”, etc.) be given. You. Preparing such a text corpus in advance requires time and money.
  • the text co-path used to create the topic model includes the same topic as the topic in the input text, that is, the domain (field) matches. Is required. Therefore, in the case of the prior art example, it is difficult to obtain a desired text segmentation result when the domain of the input text is unknown or when the domain can change frequently.
  • the text processing method uses a word as a hidden variable (Latent variable) and a word as an observation variable (Latent variable).
  • Observable variable the step of generating the initial value of the model parameter that defines the generated probability model, the step of outputting the initial value of the model parameter that specifies the generated probability model, Estimating a model parameter corresponding to the text document based on the text document; Dividing the text document to be processed for each topic based on the Dell parameter.
  • the text processing device of the present invention generates a probability model in which each word constituting a text document is associated with a topic that belongs to which topic as a hidden variable and each word as an observation variable.
  • Provisional model generating means model parameter initializing means for outputting an initial value of a model parameter that defines the stochastic model generated by the temporary model generating means, and initializing the model parameter output means.
  • a model parameter estimating means for estimating a model parameter corresponding to the text document based on the value and the text document to be processed, and a model parameter estimated by the model parameter estimating means.
  • a text segmentation result output means for segmenting the text document to be processed for each topic. That.
  • the present invention it is not necessary to adjust parameters according to the nature of the text document to be processed, and it is necessary to prepare a large-scale text co-path by spending time and money in advance. This makes it possible to divide the document into topics with high precision without depending on the content of the text document to be processed and the content of the text document to be processed, that is, without depending on the domain.
  • FIG. 1 is a block diagram showing a configuration of a text processing device according to one embodiment of the present invention.
  • FIG. 2 is a flowchart for explaining the operation of the text processing apparatus according to one embodiment of the present invention.
  • FIG. 3 is a conceptual diagram for explaining a hidden Markov model.
  • FIG. 4 is a block diagram showing a configuration of a text processing device according to another embodiment of the present invention.
  • FIG. 5 is a conceptual diagram for explaining a first conventional technique.
  • FIG. 6 is a conceptual diagram for explaining a second conventional technique.
  • the text processing apparatus includes a text input unit 101 for inputting a text document, a text storage unit 102 for storing the input text document, a topic of the text document (meaning This is a model that describes the transition of a part of the text document.
  • each word in the text document belongs to a hidden variable (unobservable variable), and each word in the text document is an observation variable ( A temporary model generation unit 103 that generates a single or multiple models respectively associated with the observable variables) and a model that initializes the values of each model parameter that defines each model generated by the temporary model generation unit 103 Using the parameter initialization unit 104, the model initialized by the model parameter initialization unit 104, and the text document stored in the text storage unit 102, the model parameters of the model are used.
  • Model parameter estimator 105 for estimating data
  • estimation result storage 106 for storing the results of parameter estimation performed by model parameter estimator 105
  • the model selection unit 107 selects the parameter estimation result of one model from among them, and the parameter estimation result of the model selected by the model selection unit 107 divides the input text document and outputs the result.
  • a text division result output unit 108 to be output is provided.
  • Each unit can be realized by a program stored in a computer or by operating by reading a recording medium on which the program is recorded.
  • the text document is, for example, a sequence of arbitrary characters or words recorded on a recording medium such as a magnetic disk.
  • a recording medium such as a magnetic disk.
  • OCR optical character reader
  • Document More generally, most of the sequence of symbols generated in chronological order, such as records of daily weather, sales records of merchandise in stores, records of commands when operating a computer, etc., are within the scope of text documents. to go into.
  • a text document input from text input unit 101 is stored in text storage unit 102 .
  • a text document is a single document consisting of many, for example, T words.
  • the word sequence is represented as 0, 0,..., 0 below. Japan with no spaces between words
  • a word it may be divided into words by applying a known morphological analysis method to a text document. Further, from this word string, particles or auxiliary verbs which are not directly related to the topic of the text document may be removed as a whole to form a word string containing only important words such as nouns and verbs. To do this, the part of speech of each word may be determined by a known morphological analysis method, and nouns, verbs, adjectives, etc. may be extracted as important words. Furthermore, if the input text document is a speech recognition result obtained by recognizing a speech signal and if the speech signal has a silent (speech pause) section that lasts for a certain period of time, May be included. Similarly, if the input text document is a character recognition result obtained by subjecting a paper document to OCR, include a word such as line feed at the corresponding position in the text document.
  • n-grams may be considered as a kind of word, and the series may be stored in the text storage unit 102.
  • the storage format of word strings in pairs is (0, 0), (0, 0), ..., (0, 0), and the length of the sequence is
  • Temporary model generation section 103 generates one or more probability models that are presumed to have generated the input text document.
  • a stochastic model or a model generally refers to a general model represented by a plurality of nodes and an arc connecting them, which is called a graphical model.
  • Graphical models include Markov models, -Eural networks, and Bayesian networks.
  • the nodes correspond to topics included in the text.
  • the observation variables generated and observed from the model correspond to the words that are the components of the text document.
  • the model is a hidden Markov model (Hidden Markov Mode or HMM), the structure is one-way (left-to-right), and the output is It is assumed to be a series (discrete value) of included words.
  • HMM hidden Markov Model
  • the model structure is uniquely determined by specifying the number of nodes.
  • Figure 3 shows a conceptual diagram of this model. Especially in the case of HMM, nodes are generally called states. In the case of Fig. 3, the number of nodes That is, the number of states is four.
  • the temporary model generation unit 103 determines the number of states of the model according to the number of topics included in the input text document, and generates a model, that is, an HMM, according to the number of states. For example, if it is known that the input text document contains four topics, the provisional model generation unit 103 generates only one 4-state HMM. If the number of topics contained in the input text document is unknown, a sufficiently large number of states can be obtained from the HMM with a sufficiently small number of states N.
  • generating a model means that a storage area for storing the values of parameters defining the model is secured on a storage medium.
  • the parameters that define the model will be described later.
  • each topic included in the input text document and each word in the input text document is defined as a hidden variable.
  • Hidden variables are set for each word. If the number of topics is N, the hidden variables can take on values from 1 to N, depending on which topic each word belongs to. This hidden variable represents the state of the model.
  • the model parameter initialization unit 104 initializes the values of the parameters defining the models for all models generated by the temporary model generation unit 103 (step 203).
  • the parameters defining the model are state transition probabilities a, a,..., A and symbol output probabilities b, b,. Where N is the number of states. Also
  • L the number of types of words contained in the input text document, that is, the number of vocabularies.
  • the state transition probability a is the probability of transition from state i to state i + 1, and must be 0 ⁇ a ⁇ l. Therefore, the probability of returning from state i to state i is 1-a.
  • the model parameter estimating unit 105 sequentially receives one or a plurality of models initialized by the model parameter initializing unit 104, and the model is an input text document. , 0, ⁇ ⁇ ⁇ ,
  • Step 204 a known maximum likelihood estimation method, in particular, an expected value maximization method (EM (expectation-maxiamization) method) based on iterative calculation can be used.
  • EM expectation-maxiamization
  • Equations (2) and (3) are calculated again using the recalculated parameter values. Hereinafter, this is repeated a sufficient number of times until convergence.
  • the convergence of the iterative calculation of parameter estimation in the model parameter estimating unit 105 can be determined by checking the amount of increase in likelihood. That is, if the likelihood no longer increases due to the above iterative calculation, the iterative calculation may be terminated at that point.
  • the likelihood is ⁇ (1)
  • the number of states is stored in the estimation result storage unit 106 as a pair (step 205).
  • the model selecting unit 107 receives the parameter estimation result obtained for each number of states by the model parameter estimating unit 105 from the estimation result storage unit 106, calculates the likelihood of each model, and Select one likely model (step 208).
  • the accuracy of the model is based on the well-known Akaike's Information Criterion (AIC) or minimum description length criterion.
  • the model with the largest difference between 1 ⁇ (1) and the number of model parameters NL is selected.
  • the log-likelihood of log-likelihood was approximately inverted-log (a (1) ⁇ (1)) and the product of the number of model parameters and the square root of the word sequence length of the input text document NL X log (T) / The model that minimizes the sum of 2 is selected.
  • such an operation may be performed in the present embodiment.
  • the text segmentation result output unit 108 receives from the estimation result storage unit 106 the model parameter estimation result corresponding to the model with the number N of states selected by the model selection unit 107, and generates a topic for the input text document in the estimation result. Calculate the division result for each (step 209).
  • Equation (4) indicates the probability that word 0 in the input text document will be assigned to the topic section of Ban-n.
  • the model parameter estimating unit 105 sequentially updates the parameters using the maximum likelihood estimation method, that is, using the equation (3).
  • MAP Maximum A Posteriori
  • the estimation of the maximum posterior probability is described, for example, in “November 1995, NTT Advanced Technology Corporation, Rabbiner et al., Translated by Furui et al., Basics of Speech Recognition (2), pp. 166-169” (Reference 6). is there.
  • the symbol output probability b is associated with the state. That is, a model is used in which each state (node) force of word force ⁇ MM also occurs.
  • a model in which words are generated from state transitions (arcs) is convenient. This is because speech pauses in audio signals and line breaks in paper documents In the case of a text document that contains words, i.e., a pause, a line break, etc., the state transition force from state i to i + 1 is used.
  • the topic boundary detected by the present embodiment in which the power of the input text document is detected can always be set to apply the pause and the line feed.
  • the word also generates a state transition force. From the state transition from state i to i + 1, the word “n”, “next”, “ If you set the symbol output probabilities so that words that are closely related to the change of topic occur, such as "”, the detected topic boundaries include words such as "in,””next,” and "sane.” Can easily appear.
  • This embodiment is shown in the same block diagram of FIG. 1 as the first embodiment. That is, in the present embodiment, a text input unit 101 for inputting a text document, a text storage unit 102 for storing the input text document, and a model for describing the transition of topics of the text document are provided.
  • a tentative model generation unit 103 for generating a single or a plurality of models in which each word is associated with a hidden variable and each word of the text document is associated with an observation variable, respectively;
  • the model parameter initialization unit 104 that initializes the values of each model parameter that defines each model generated by the model, and the model initialized by the model parameter initialization unit 104 and the text document stored in the text storage unit 102
  • Model parameter estimator 105 that estimates the model parameters using the parameter estimation results obtained by the model parameter estimator 105.
  • An estimation result storage unit 106 for storing parameter estimation results of a plurality of models, and a model selection unit 107 for selecting parameter estimation results of one model from the estimation results stored in the estimation result storage unit 106.
  • a text segmentation result output unit 108 is provided for dividing the input text document and outputting the result by dividing the input text document.
  • Each unit can be realized by a program stored on a computer or by operating by reading a recording medium on which the program is recorded.
  • the text input unit 101, the text storage unit 102, and the temporary model generation unit 103 The operations are the same as those of the text input unit 101, the text storage unit 102, and the temporary model generation unit 103 in the first embodiment described above.
  • the text storage unit 102 can store the input text document as a sequence of words, or a sequence of two or three adjacent words, or a sequence of general n-tuples. In the case of Japanese, which is not available, it can be treated as a word string by applying a known morphological analysis method, as in the first embodiment.
  • the model parameter initialization unit 104 initializes the values of the parameters defining the models for all models generated by the temporary model generation unit 103.
  • the model is assumed to be a left-to-right type discrete HMM, and a tied-mixture HMM, as in the first embodiment. That is, the symbol output from state i is M symbol output probabilities b, b,
  • M is an arbitrary natural number that is generally smaller than the number of states N.
  • the Tide Mitsuchia HMM is described in, for example, "November 1995, NTT Advanced Technology Corporation, Rabbiner et al., Translated by Furui et al., Basics of Speech Recognition (2), pp. 280-281" (Reference 7).
  • the model parameters of the tied-mixture HMM are state transition probability a., Symbol output probability b common to all states, and weighting factor c for symbol output probability.
  • i l, 2, ⁇
  • 1,2, ⁇ , ⁇ , ⁇ is the number of topic types.
  • k l, 2, ⁇ , L, where L is the number of types of words contained in the input text document, that is, the number of vocabularies.
  • the state transition probability a is the probability of transition from state i to state i + 1, as in the first embodiment.
  • the symbol output probability b is the probability that the word specified by index k is output in topic j. J, k
  • the weighting factor c is the probability that a conversation occurs in the state i. As in the first embodiment,
  • the model parameter estimation unit 105 is initialized by the model parameter initialization unit 104 One or more models are sequentially received, and the models are input text documents. , 0,...,
  • an expected value maximization method (EM method) can be used. That is, using the parameter values a, b, and c obtained at that time,
  • Equations (6) and (7) are calculated again using the recalculated parameter values. This is repeated a sufficient number of times until convergence.
  • model parameter estimator 105 finishes the iterative calculation,
  • the model parameters a, b, and c and the forward and backward variables ⁇ (0, ⁇ (0) are stored in the estimation result storage unit 106 in pairs with the number of states of the model ( ⁇ ).
  • the model selecting unit 107 receives the parameter estimation result obtained for each number of states by the model parameter estimating unit 105 from the estimation result storage unit 106, and calculates the likelihood of each model. , Select the most likely model.
  • the certainty of the model can be calculated based on the well-known Akaike information criterion (AIC) or the minimum description length criterion (MDL criterion).
  • an operation to intentionally adjust the selected model is performed by adding a constant coefficient determined empirically to the term related to the number NL of model parameters. No problem.
  • model parameter estimating section 105 may estimate model parameters by a maximum posterior probability estimation (MAP estimation) method instead of the maximum likelihood estimation method.
  • MAP estimation maximum posterior probability estimation
  • the present embodiment is a text input unit 101 for inputting a text document, a text storage unit 102 for storing the input text document, and a model for describing the transition of topics of the text document.
  • a temporary model generation unit 103 for generating a single or a plurality of models in which each word of the text document belongs to a hidden variable and each word of the text document is associated with an observation variable;
  • a model parameter initialization unit 104 that initializes the values of each model parameter that defines each model generated by the model generation unit 103, and a model initialized by the model parameter initialization unit 104 and stored in the text storage unit 102
  • Model parameter estimator 105 for estimating model parameters using a text document, an estimation result storage 106 for storing the results of parameter estimation performed by model parameter estimator 105, and a plurality of models stored in estimation result storage 106. Where the parameter estimation result of the model is stored.
  • V the model selection unit 107 that selects the parameter estimation result of one model from among them, and the parameter estimation result of the model selected by the model selection unit 107.
  • a text division result output unit 108 that performs division and outputs a result is provided.
  • Each section can be realized by a program stored on a computer or by operating by reading a recording medium on which the program is recorded.
  • Text input unit 101, text storage unit 102, and temporary model generation unit 103 are respectively the text input unit 101, text storage unit 102, and temporary model generation unit 103 in the first and second embodiments described above. Performs the same operation as.
  • the text storage unit 102 can store the input text document as a sequence of words or a sequence of two or three adjacent words or a general n-tuple, and can store spaces between words in the input text document. In the case of Japanese that does not exist, it can be treated as a word string by applying a known morphological analysis method, as in the first and second embodiments of the present invention.
  • the model parameter initialization unit 104 uses a model parameter, that is, a state transition probability a and a symbol output probability b as random variables for each of the single model or the plurality of models generated by the temporary model generation unit 103. Assuming distributions and initializing the values of the parameters that define those distributions.
  • a parameter that defines the distribution of the model parameters will be referred to as a meta parameter with respect to the original parameter. That is, the model parameter initialization unit 104 initializes the meta parameters.
  • the distributions of the state transition probability a and the symbol output probability b are beta distribution log p (a
  • This initialization method is just one example.
  • the model parameter estimating unit 105 sequentially receives one or a plurality of models initialized by the model parameter initializing unit 104, and the model is an input text document. , 0, ⁇ ⁇ ⁇ ,
  • the convergence of the iterative calculation of the parameter estimation in the model parameter estimating unit 105 may be determined by checking the amount of increase in the likelihood. That is, if no increase in the approximate likelihood is observed by the above-described iterative calculation, the iterative calculation may be terminated at that point.
  • the approximate likelihood is obtained as the product ⁇ (1) ⁇ (1) of the forward variable and the backward variable.
  • Bayesian estimation method of the meta-parameters in the model parameter estimation unit 105 an arbitrary method such as the well-known Markov chain Monte Carlo method and Laplace approximation method other than the above-described variational Bayesian method can be used. .
  • This embodiment is not limited to the variational Bayes method.
  • the model selection unit 107 receives the parameter estimation result obtained for each number of states by the model parameter estimation unit 105 from the estimation result storage unit 106, calculates the likelihood of each model, and Select one likely model.
  • a well-known Bayesian criterion Bayesian criterion (Bayes posterior probability) can be used.
  • the Bayesian criterion can be calculated by equation (10).
  • P (N) is the prior probability of the number of states, that is, the number of topics N, and is determined in advance by some means. If there is no reason to take it up, P (N) may be a constant value. Conversely, if a specific number of states is likely to occur or is unlikely to occur, it is necessary to respond in advance to the specific number of states. Set P (N) larger or smaller. Also, the metaparameters ⁇ and ⁇ appearing in equation (10)
  • the text segmentation result output unit 108 converts the number of states selected by the model selection unit 107, that is, the model of the number of topics N, into the model.
  • a corresponding model parameter estimation result is received from the estimation result storage unit 106, and a division result for each topic for the input text document in the estimation result is calculated.
  • a tied-mixture type left-to-right HMM is generated instead of the normal left-to-right type ⁇ .
  • the temporary model generating unit 103, the model parameter initializing unit 104, and the model parameter estimating unit 105 can be configured so as to perform initialization, parameter estimation, and parameter estimation.
  • the fourth embodiment of the present invention includes a recording medium 601 on which a text processing program 605 is recorded.
  • the recording medium 601 is a CD-ROM, a magnetic disk, a semiconductor memory, or another recording medium, and includes a case where it is distributed via a network.
  • Text processing The processing program 605 is read from the recording medium 601 to the data processing device (computer) 602 and controls the operation of the data processing device 602.
  • the data processing device 602 controls the text input unit 101, the temporary model generation unit 103, the model parameter initialization unit 104, and the text input unit 101 in the first, second, or third embodiment under the control of the text processing program 605.
  • the same processing as the processing by the model parameter estimating unit 105, the model selecting unit 107, and the text division result outputting unit 108 is performed, and the text storing unit 102 and the estimation result storing in the first, second, or third embodiment are executed.
  • the text recording medium 603 and the model parameter estimation result recording medium 604 each having the same information as the section 106, a division result for each topic for the input text document is output.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

明 細 書
テキスト処理方法 Zプログラム Zプログラム記録媒体 Z装置
技術分野
[0001] 本発明は、文字列や単語列といったテキスト文書を、意味的にまとまった部分ごと に、すなわち話題ごとに分割するテキスト処理方法 Zプログラム Zプログラム記録媒 体 Z装置に関する。
背景技術
[0002] この種のテキスト処理方法 Zプログラム Zプログラム記録媒体 Z装置は、長大かつ 多数のテキスト文書を意味内容ごとに、すなわち話題ごとに分割、分類等することに よって、人がテキスト文書力 所望の情報を得やすいように加工することを目的として 用いられている。ここでテキスト文書とは、例えば、磁気ディスク等の記録媒体に記録 された任意の文字や単語などの並びである。あるいは、紙に印刷されたり、タブレット に手書きされたりした文字列を光学的文字読取り装置 (OCR)で読み取った結果や、 人の発話で生じる音声波形信号を音声認識装置で認識した結果等も、テキスト文書 である。さらに一般的には、毎日の天候の記録、店舗における商品の販売記録、コン ピュータを操作した際のコマンドの記録、等々、時系列的に生成される記号の並びの ほとんどは、テキスト文書の範疇に入る。
[0003] この種のテキスト処理方法 Zプログラム Zプログラム記録媒体 Z装置に関して、大 別して 2種類の従来技術が挙げられる。これら 2種類の従来技術について、図面を参 照して詳細に説明する。
[0004] 第 1の従来技術は、入力テキストを単語の系列。, 0 , · · · , 0として、系列中の各区
1 2 T
間で単語の出現傾向に関する統計量を算出し、この統計量に急激な変化がみられ る位置を話題の変化点として検出する。例えば図 5に示すように、入力テキストの各部 分に対して一定幅の窓を設定し、窓内における単語の出現回数を計数し、単語の出 現頻度を多項分布の形式で算出する。そして、近接する 2つの窓 (図 5における窓 1お よび窓 2)の間の差異が所定のしきい値より大きければ、これら 2つの窓の境界で話題 の変化が起こったと判定する。 2窓間の差異には、例えば式(1)で表されるような、窓 ごとに計算された多項分布間の KLダイパージエンスを用いることができる。
[0005] [数 1] , a;
;=ι
[0006] ここで、 a , b (i=l, · · ·, L)はそれぞれ窓 1、窓 2に対応する単語の出現頻度を表す多 項分布で、 a +a +〜+a =1, b +b +•••+b =1を満たす。 Lは入力テキストの語彙数であ
1 2 し 1 2 し
る。
[0007] 上では特に、窓内の統計量を個々の単語の出現頻度から計算する、いわゆるュニ グラム(unigram)としている力 隣接 2つ組、 3つ組、さらには任意個の組の単語出現 頻度 (それぞれバイグラム bigram、トライグラム trigram、 n- gram)を考えてもよい。あるい は、「2001年 11月、情報処理学会論文誌、第 42卷、第 11号、第 2650— 2662頁、別所 克人、単語の概念ベクトルを用いたテキストセグメンテーション」(文献 1)に記載され ているように、隣接しない単語同士の共起 (すなわち、隣接しない複数の単語が同一 の窓内に同時に出現すること)を考慮することにより、入力テキスト中の各単語を実べ タトルに置き換えて、このベクトルの移動量の多さで話題の変化点を検出することもで きる。
[0008] 第 2の従来技術は、種々の話題に関する統計的モデルをあら力じめ準備しておき、 それらのモデルと入力単語列の最適なマッチングを計算することにより、話題の推移 を求める。第 2の従来技術の例は、「2000年、プロシーデイング'ォブ'フォース'ユー 口ビアン 'カンファレンス ·オン ·リサーチ ·アンド ·アドバンスト ·テクノロジ ·フォ一'ディ ジタル'ライブラリ、アマラル他、トピック 'ディテクシヨン'イン ·レッド'ドキュメント 、 maral et al" 1'opic Detection in Read Documents, Proceedings or 4th European Conference on Research and Advanced Technology for Digital Libraries, 2000)」 (文 献 2)に記載されている。この第 2の従来技術の例は、図 6に示すように、「政治」、「ス ポーッ」、「経済」などといった話題ごとに、話題ごとの統計モデル、つまり話題モデル を作成して準備しておく。話題モデルは、あらかじめ話題ごとに大量収集されたテキ スト文書力も求めた単語出現頻度 (ュ-グラム、バイグラム等)である。このように話題 モデルを準備し、これら話題間の遷移の起こりやすさ (遷移確率)を適宜決めておけ ば、入力単語系列ともっともよく整合する話題モデル系列を機械的に算出することが できる。仮に、入力単語系列を入力音声波形と置き換えて、話題モデルを音素モデ ルに置き換えてみれば容易にわ力るように、音声認識に関して多数ある従来技術と 同様に、 DPマッチングの要領で、フレーム同期ビームサーチなどの計算法を利用し て話題の遷移系列を計算することができる。
[0009] 上で述べた第 2の従来技術の例は、「政治」、「スポーツ」、「経済」など、人間が直感 的に理解しやすい話題を設定して、話題の統計モデルを作成しているが、「1998年、 プロシーデイング ·ォブ ·インターナショナノレ 'カンフアレンス'オン ·アクースティック ·ス ピーチ.アンド.シグナル.プロセッシング 98、第 1卷、 333— 336頁、ャムロン他、ヒドウ ン ·マルコフ ·モデル ·アプローチ ·トウ.テキスト ·セグメンテーション'アンド ·イベント ·ト フッ3 rング (Yamron et al., Hidden Markov model approach to text segmentation and event tracking, Proceedings of International Conference on Acoustic, Speech and Signal Processing 98, Vol.1, pp.333- 336, 1998)」(文献 3)に記載があるように、テキス ト文書に対して何らかの自動クラスタリング手法を適用して、人間の直感とは無関係 な話題モデルを作る例もある。この場合、話題モデルを作るために大量のテキスト文 書を話題ごとに分類しておく必要がないので、手間は幾分少なくてすむ。ただし、大 規模なテキスト文書集合を用意して、そこから話題モデルを作成するという点は同様 である。
発明の開示
発明が解決しょうとする課題
[0010] し力しながら、上述した第 1の従来技術および第 2の従来技術は、それぞれいくつ かの問題を有する。
[0011] 第 1の従来技術では、窓間の差異に関するしきい値や、単語出現回数の計数範囲 を規定する窓幅と 、つたパラメータを最適に調整することが難し 、と 、う問題がある。 あるテキスト文書に対して所望の分割がなされるようにパラメータ値を調整することは 、可能な場合もある。しかし、そのために試行錯誤的にパラメータ値を調整する手間 が必要である。カロえて、仮にあるテキスト文書に対して所望の動作が実現できたとし ても、同じパラメータ値を別のテキスト文書に適用した場合、期待通りに動作しないこ とが多い。なぜなら、例えば窓幅というパラメータは、大きくすればするほど窓内の単 語出現頻度を正確に見積もることができるから、テキストの分割処理も正確に実行で きるが、窓幅は入力テキスト中の話題の長さよりも長いと、明らかに話題分割という当 初の目的を達せられなくなる。すなわち、入力テキストの性質によって、窓幅の最適 値は異なる。窓間の差異に関するしきい値も同様で、入力テキストに応じてその最適 値が異なるのが普通である。これは、入力テキスト文書の性質によっては期待通りの 動作をしないということであるから、実際応用上深刻な問題となる。
[0012] 第 2の従来技術では、話題のモデルを作成するために、事前に大規模なテキストコ 一パスを準備しなければならないという問題がある。し力もそのテキストコ一パスは、 話題ごとに分割済みであることが必須であり、しばしば話題のラベル (例えば「政治」、 「スポーツ」、「経済」等)が付与されていることが要求される。このようなテキストコーパ スを事前に準備するのには、当然時間と費用がかかる。し力も、第 2の従来技術では 、話題のモデルを作成するのに使用したテキストコ一パス力 入力テキスト中の話題 と同じ話題を含んでいること、すなわちドメイン (分野)がー致していることが必要とな る。したがって、この従来技術の例の場合、入力テキストのドメインが未知の場合、ま たはドメインが頻繁に変化し得る場合、所望のテキスト分割結果を得ることは困難で ある。
[0013] 本発明の目的は、従来よりも低コストかつ短時間にテキスト文書を話題ごとに分割 でさるよう〖こすること〖こある。
また、他の目的は、テキスト文書のドメインに依存することなぐ文書の性質によって 、文書を話題ごとに分割できるようにすることにある。
課題を解決するための手段
[0014] 上記目的を達成するために、本発明のテキスト処理方法は、テキスト文書を構成す る各々の単語がどの話題に属するかを隠れ変数(Latent variable)に、各々の単語を 観測変数(Observable variable)にそれぞれ対応付けた確率モデルを生成するステツ プと、生成された確率モデルを規定するモデルパラメータの初期値を出力するステツ プと、出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづい て、このテキスト文書に応じたモデルパラメータを推定するステップと、推定されたモ デルパラメータにもとづ 、て、処理対象のテキスト文書を話題ごとに分割するステップ とを備えることを特徴とする。
[0015] また、本発明のテキスト処理装置は、テキスト文書を構成する各々の単語がどの話 題に属するカゝを隠れ変数に、各々の単語を観測変数にそれぞれ対応付けた確率モ デルを生成する仮モデル生成手段と、前記仮モデル生成手段によって生成された 確率モデルを規定するモデルパラメータの初期値を出力するモデルパラメータ初期 化手段と、前記モデルパラメータ初期化手段力 出力されたモデルパラメータの初期 値と、処理対象のテキスト文書とにもとづいて、このテキスト文書に応じたモデルパラ メータを推定するモデルパラメータ推定手段と、前記モデルパラメータ推定手段によ つて推定されたモデルパラメータにもとづ ヽて、処理対象のテキスト文書を話題ごと に分割するテキスト分割結果出力手段とを備えることを特徴とする。
発明の効果
[0016] 本発明によれば、処理対象のテキスト文書の性質に応じてパラメータを調整する手 間が少なぐ事前に時間と費用を力 4ナて大規模なテキストコ一パスを準備する必要も なぐなおかつ処理対象のテキスト文書がどのような内容を含んでいる力、すなわちド メインに依存せずに、文書を精度よく話題ごとに分割することが可能となる。
図面の簡単な説明
[0017] [図 1]図 1は、本発明の一実施例に係るテキスト処理装置の構成を示すブロック図で ある。
[図 2]図 2は、本発明の一実施例に係るテキスト処理装置の動作を説明するためのフ ローチャートである。
[図 3]図 3は、隠れマルコフモデルを説明するための概念図である。
[図 4]図 4は、本発明の他の実施例に係るテキスト処理装置の構成を示すブロック図 である。
[図 5]図 5は、第 1の従来技術を説明するための概念図である。
[図 6]図 6は、第 2の従来技術を説明するための概念図である。
発明を実施するための最良の形態
[0018] 第 1の実施例 次に、本発明の第 1の実施例について、図面を参照して詳細に説明する。
[0019] 本実施例のテキスト処理装置は、図 1に示すように、テキスト文書を入力するテキスト 入力部 101と、入力されたテキスト文書を格納するテキスト記憶部 102と、テキスト文書 の話題 (意味的にまとまった部分)の推移を記述するモデルであって、テキスト文書の 各々の単語がどの話題に属する力を隠れ変数 (観測不可能な変数)に、テキスト文書 の各々の単語を観測変数 (観測可能な変数)にそれぞれ対応付けた、単一もしくは 複数のモデルを生成する仮モデル生成部 103と、仮モデル生成部 103が生成した各 モデルを規定する各モデルパラメータの値を初期化するモデルパラメータ初期化部 104と、モデルパラメータ初期化部 104によって初期化されたモデルとテキスト記憶部 102に格納されたテキスト文書を使って、そのモデルのモデルパラメータを推定する モデルパラメータ推定部 105と、モデルパラメータ推定部 105が行ったパラメータ推定 の結果を格納する推定結果記憶部 106と、推定結果記憶部 106に複数のモデルのパ ラメータ推定結果が格納されて 、る場合にその中から 1つのモデルのパラメータ推定 結果を選択するモデル選択部 107と、モデル選択部 107が選択したモデルのパラメ一 タ推定結果力 入力テキスト文書の分割を行って結果を出力するテキスト分割結果 出力部 108を備える。各々の部は、それぞれ計算機上に記憶されたプログラムによつ て、またはこのプログラムが記録された記録媒体を読み取ることによって動作させるこ とにより実現可能である。
[0020] ここでテキスト文書とは、上述したように、例えば、磁気ディスク等の記録媒体に記 録された任意の文字や単語などの並びである。あるいは、紙に印刷されたりタブレット に手書きされたりした文字列を光学的文字読取り装置 (OCR)で読み取った結果や、 人の発話で生じる音声波形信号を音声認識装置で認識した結果等も、テキスト文書 である。さらに一般的には、毎日の天候の記録、店舗における商品の販売記録、コン ピュータを操作した際のコマンドの記録、等々、時系列的に生成される記号の並びの ほとんどは、テキスト文書の範疇に入る。
[0021] 次に、本実施例のテキスト処理装置の動作を、図 2を参照して詳細に説明する。
[0022] テキスト入力部 101から入力されたテキスト文書は、テキスト記憶部 102に格納される
(ステップ 201)。ここでテキスト文書は、多数、例えば T個の単語が一列に並んだ単 語系列とし、以下では 0 , 0 , · · · , 0 と表すことにする。単語間にスペースのない日本
1 2 T
語の場合は、テキスト文書に対して公知の形態素解析法を適用することにより、単語 に分割すればよい。また、この単語列から、テキスト文書の話題とは直接関係のない 助詞や助動詞などをあら力じめ取り除いて、名詞や動詞などの重要語のみの単語列 としてもよい。これには、公知の形態素解析法によって各単語の品詞を求め、名詞、 動詞、形容詞などを重要語として取り出すようにすればよい。さらには、入力テキスト 文書が、音声信号を音声認識して得られた音声認識結果であり、かつ音声信号に一 定時間以上継続する無音 (発話休止)区間が存在する場合は、テキスト文書の対応す る位置にくポーズ〉のような単語を含めてよい。同様に、入力テキスト文書が、紙文書 を OCRにかけることによって得られた文字認識結果である場合には、く改行〉のような 単語をテキスト文書中の対応する位置に含めてょ 、。
[0023] なお、通常の意味での単語系列 (ュ-グラム, unigram)の代わりに、隣接する単語の 2つ組 (バイグラム, bigram)、 3つ組 (トライグラム, trigram)、さらに一般的な n個組 (n-gram)を一種の単語と考えて、その系列をテキスト記憶部 102に格納してもよい。例 えば 2つ組での単語列の格納形式は (0 , 0 ), (0 , 0 ), · · · , (0 , 0 )となり、系列の長
1 2 2 3 T-1 T
さは T-1である。
[0024] 仮モデル生成部 103は、入力されたテキスト文書を生成したと推測される単一もしく は複数の確率モデルを生成する。ここで確率モデルまたはモデルとは、一般にはグ ラフィカルモデルと呼ばれる、複数のノードとそれらを結ぶアークとで表現されるモデ ル全般を指す。グラフィカルモデルには、マルコフモデルや-ユーラルネットワーク、 ベイジアンネットなどが含まれる。本実施例においては、ノードがテキスト中に含まれ る話題に対応する。また、モデルから生成されて観測される観測変数には、テキスト 文書の構成要素であるところの単語が対応する。
[0025] 本実施例では、モデルを隠れマルコフモデル (Hidden Markov Modeほたは HMM)と し、なおかつその構造は一方向型 (left-to-right型)で、出力は上述の入力単語列に 含まれる単語の系列 (離散値)とする。 Left-to-right型 HMMでは、ノードの数を指定す ればモデルの構造が一意に決定される。このモデルの概念図を図 3に示す。 HMMの 場合特に、ノードのことを状態と呼ぶのが一般的である。図 3の場合、ノード数、すな わち状態数は 4である。
[0026] 仮モデル生成部 103は、入力テキスト文書にいくつの話題が含まれているかに応じ て、モデルの状態数を決定し、その状態数に応じてモデルすなわち HMMを生成する 。例えば、入力テキスト文書に 4個の話題が含まれているとわ力つていれば、仮モデ ル生成部 103は 4状態の HMMを 1つだけ生成する。また、入力テキスト文書に含まれ る話題の数が未知の場合は、十分小さい状態数 N の HMMから、十分大きい状態数
min
N の HMMまでのすベての状態数の HMMを、各々 1つずつ生成する(ステップ 202、 max
206、 207)。ここでモデルを生成するとは、モデルを規定するパラメータの値を記憶 するための記憶領域を記憶媒体上に確保する、という意味である。モデルを規定す るパラメータにつ 、ては後述する。
[0027] 入力テキスト文書に含まれる各々の話題と入力テキスト文書の各々の単語との対応 関係を隠れ変数とする。隠れ変数は単語毎に設定される。話題の数が Nの場合には 、隠れ変数は各々の単語がどの話題に属するかによつて、 1から Nまでの値をとり得る 。この隠れ変数がモデルの状態を表す。
[0028] モデルパラメータ初期化部 104は、仮モデル生成部 103が生成したすべてのモデル について、モデルを規定するパラメータの値を初期化する (ステップ 203)。モデルを 規定するパラメータは、上述の left-to-right型離散 HMMの場合、状態遷移確率 a , a , · ··, a 、および記号出力確率 b , b , · ··, b とする。ここに Nは状態数である。また
2 N l,j 2,j N,j
j=l, 2, · ··, Lで、 Lは入力テキスト文書に含まれる単語の種類数、すなわち語彙数 である。
状態遷移確率 aは、状態 iから状態 i+1に遷移する確率であり、 0< a≤lでなければな らない。よって、状態 iから再度状態 iに戻る確率は 1-aとなる。また、記号出力確率 b , は、ある一度の状態遷移の後に、状態 iに至ったとして、インデクス jで指定される単語 が出力される確率である。すべての状態 i=l, 2, · ··, Nにおいて、記号出力確率の総 和 b +b +〜+b は 1でなければならない。
i,l i,2
[0029] モデルパラメータ初期化部 104は、状態数 Nのモデルに対して、例えば上述の各パ ラメータの値を a=N/T、 b =1/Lのように設定する。この初期値の与え方に決まったや り方はなぐ上述の確率の条件さえ満たしていれば、いろいろな方法があり得る。ここ で述べた方法はほんの一例である。
モデルパラメータ推定部 105は、モデルパラメータ初期化部 104によって初期化され た単一もしくは複数のモデルを順次受け取り、モデルが入力テキスト文書。, 0 , · · · ,
1 2
0を生成する確率、すなわち尤度がなるべく高くなるように、モデルパラメータを推定
T
する (ステップ 204)。これには公知の最尤推定法、特に、反復計算を基本とする期待 値最大化法 (EM(expectation- maxiamization)法)を用いることができる。すなわち、例 えば「1995年 11月、 NTTアドバンステクノロジ株式会社、ラビナー他著、古井他訳、音 声認識の基礎 (下)、第 129— 134頁」(文献 4)に記載されているように、その時点で得 られているパラメータ値 a、 bを用いて、式(2)のような漸ィ匕式によって前向き変数 α
i i,j t
(0および後向き変数 j8 G)¾ =l, 2, · · ·, T、 i=l, 2, · · ·, Νにわたつて計算し、さらに式(
t
3)に従ってパラメータ値を再計算する。再計算されたパラメータ値を用いて再度式( 2)および式 (3)を計算する。以下、収束するまで十分な回数これをくり返す。ただしこ こに δ はクロネッカーのデルタ、すなわち、 i=jなら 1、そうでなければ 0をとる。
[0031] [数 2]
"1 (0 = Ko, ,, at (0 ( , (2) βτ (ΐ) = αΝδΝ>ί } β( (i {i
Figure imgf000010_0001
+ 1).
[0032] [数 3]
Figure imgf000010_0002
[0033] モデルパラメータ推定部 105におけるパラメータ推定の反復計算の収束判定を行う には、尤度の上昇量をみればよい。すなわち、上述の反復計算によって尤度の上昇 がみられなくなれば、その時点で反復計算を終了すればよい。ここで、尤度は α (1)
1 β (1)として得られる。モデルパラメータ推定部 105は、反復計算を終了した時点で、 モデルパラメータ a、 bと、前向きおよび後向き変数 α (0
t 、 β (0を、モデル (ΗΜΜ)の i i,j t
状態数と対にして、推定結果記憶部 106に格納する (ステップ 205)。
[0034] モデル選択部 107は、モデルパラメータ推定部 105で状態数ごとに得られたパラメ一 タ推定結果を推定結果記憶部 106から受け取り、各モデルの確力 しさを計算し、も つとも確からしいモデルを 1つ選択する(ステップ 208)。モデルの確からしさは、公知 の赤池情報量基準 (AIC(Akaike's Information Criterion))や最小記述長基準
(MDL(Minimum Description Length)基準)などに基づいて計算することができる。赤 池情報量基準、最小記述長基準については、例えば「1994年 12月、岩波書店、岩波 講座応用数学 [対象 11]、韓太舜他著、情報と符号化の数理、第 249— 275頁」(文献 5 )に記載がある。例えば AICによれば、パラメータ推定収束後の対数尤度 log( a (1)
1 β (1》とモデルパラメータ数 NLの差が最大となるモデルが選択される。また、 MDLに
1
よれば、近似的に、対数尤度を符号反転した- log( a (1) β (1》と、モデルパラメータ 数と入力テキスト文書の単語系列長の平方根との積 NL X log(T)/2の和が最小となる モデルが選択される。なお、 AICでも MDLでも、モデルパラメータ数 NLに関わる項に 、経験的に決まる定数係数をかけて、選択されるモデルを意図的に調整する操作が 一般的に行われて 、るが、本実施例でもそのような操作は行って差し支えな 、。
[0035] テキスト分割結果出力部 108は、モデル選択部 107によって選択された状態数 Nの モデルに対応するモデルパラメータ推定結果を推定結果記憶部 106から受け取り、こ の推定結果における入力テキスト文書に対する話題ごとの分割結果を算出する (ステ ップ 209)。
状態数 Nのモデルによる分割は、入力テキスト文書。, 0 , · · · , 0を N個の区間に分割
1 2 T
する。分割結果は、まず式 (4)に従って、確率的に計算される。式 (4)は、入力テキス ト文書中の単語 0が第潘目の話題区間に割り当てられる確率を示す。最終的な分割
t
結果は、 P( z =i I 0 , 0 , · · · , 0 )が最大となる i =1, 2, · · ·, Tにわたつて求めること
t 1 2 T
で得られる。
[0036] [数 4] 。 2," ',。r ) = 一 )
Figure imgf000012_0001
ゾ =1
[0037] なお、ここではモデルパラメータ推定部 105は、最尤推定法を用いて、すなわち式( 3)を用いて、パラメータを逐次更新したが、最尤推定法の他に、最大事後確率推定 (MAP(Maximum A Posteriori)推定)を用いることもできる。最大事後確率推定につい ては、例えば「1995年 11月、 NTTアドバンステクノロジ株式会社、ラビナー他著、古井 他訳、音声認識の基礎 (下)、第 166— 169頁」(文献 6)に記載がある。最大事後確率 推定の場合、例えばモデルパラメータの事前分布に共役事前分布を用いると、 aの 事前分布はベータ分布 log p( a U , κ ) = ( κ — 1) X log ( κ -1) X log (a)
i 0 1 0 (ト a) +
i 1 i
+ constゝ bの分布はディレクレ分布 log p( b , b , …, b \ λ , λ , …, λ ) = ( λ
ij i,l i,2 i,L 1 2 L 1
— l) X log (b ) + ( λ — l) X log (b ) + · · · + ( λ — l) X log (b ) + constと表される。ただ
i,l 2 i,2 し i,し
し/ c , /c , λ ,え ,…, λ および constは定数である。このとき、最尤推定の式(3)
0 1 1 2 し
に相当する最大事後確率推定のパラメータ更新式は、式(5)のように表される。
[0038] [数 5]
Figure imgf000012_0002
[0039] なお、ここまでで述べた本実施例にぉ 、ては、記号出力確率 bが状態と対応付けら れている。すなわち、単語力 ¾MMの各状態 (ノード)力も発生するとするモデルを用い ている。しかし、単語が状態遷移 (アーク)から発生するとするモデルを用いることも可 能である。例えば入力テキストが紙文書の OCR結果であったり、音声信号の音声認 識結果であったりする場合、単語が状態遷移カゝら発生するようなモデルは便利である 。なぜなら、音声信号における発話休止や、紙文書における改行などを意味する単 語、すなわちくポーズ〉やく改行〉などが含まれたテキスト文書の場合は、状態 iから i+1 への状態遷移力 発生する単語が必ずくポーズ〉やく改行〉であるように、記号出力確 率を固定しておけば、本実施例によって入力テキスト文書力 検出される話題境界 には、必ずくポーズ〉やく改行〉が当てはまるようにできる。また、仮に入力テキスト文書 力 SOCR結果や音声認識結果ではなくとも、単語が状態遷移力も発生するモデルで、 状態 iから i+1への状態遷移から、「では」、「次に」、「さて」などといった、話題の切り替 わりと関連の深い単語が発生するように記号出力確率を設定しておけば、検出される 話題境界には「では」、「次に」、「さて」などの単語が現れやすくできる。
[0040] 第 2の実施例
次に、本発明の第 2の実施例について、図面を参照して詳細に説明する。
[0041] 本実施例は、第 1の実施例と同じぐ図 1のブロック図で示される。すなわち、本実施 例は、テキスト文書を入力するテキスト入力部 101と、入力されたテキスト文書を格納 するテキスト記憶部 102と、テキスト文書の話題の推移を記述するモデルであって、テ キスト文書の各々の単語がどの話題に属するかを隠れ変数に、テキスト文書の各々 の単語を観測変数にそれぞれ対応付けた、単一もしくは複数のモデルを生成する仮 モデル生成部 103と、仮モデル生成部 103が生成した各モデルを規定する各モデル ノ ラメータの値を初期化するモデルパラメータ初期化部 104と、モデルパラメータ初期 化部 104によって初期化されたモデルとテキスト記憶部 102に格納されたテキスト文書 を使ってモデルパラメータを推定するモデルパラメータ推定部 105と、モデルパラメ一 タ推定部 105が行ったパラメータ推定の結果を格納する推定結果記憶部 106と、推定 結果記憶部 106に複数のモデルのパラメータ推定結果が格納されている場合にその 中から 1つのモデルのパラメータ推定結果を選択するモデル選択部 107と、モデル選 択部 107が選択したモデルのノ メータ推定結果力 入力テキスト文書の分割を行つ て結果を出力するテキスト分割結果出力部 108を備える。各々の部は、それぞれ計算 機上に記憶されたプログラムによって、またはこのプログラムが記録された記録媒体 を読み取ることによって動作させることにより実現可能である。
[0042] 次に、本実施例の動作について、順を追って説明する。
[0043] テキスト入力部 101、テキスト記憶部 102および仮モデル生成部 103は、それぞれ先 に述べた第 1の実施例におけるテキスト入力部 101、テキスト記憶部 102および仮モデ ル生成部 103と同一の動作をする。テキスト記憶部 102が入力テキスト文書を、単語の 列、あるいは隣接する単語の 2つ組、 3つ組、もしくは一般の n個組の列として格納す ることや、入力テキスト文書に単語間スペースのない日本語の場合、公知の形態素 解析法を適用することで、単語列として扱うことができることなども、第 1の実施例と同 様である。
[0044] モデルパラメータ初期化部 104は、仮モデル生成部 103が生成したすべてのモデル について、モデルを規定するパラメータの値を初期化する。モデルは、第 1の実施例 と同様、 left- to- right型離散 HMMである力 さらにタイドミタスチヤ (tied- mixture)HMM であるとする。すなわち、状態 iからの記号出力が、 M個の記号出力確率 b , b , · ··,
l,j 2,j b の線形結合 c b + c b +〜c b であり、 bの値は全状態にわたって共通とする
M,j i,l 1,J i,2 2,j ι, ,j i,J
。 Mは一般には状態数 Nよりも小さい、任意の自然数である。タイドミタスチヤ HMMに ついては、例えば「1995年 11月、 NTTアドバンステクノロジ株式会社、ラビナー他著、 古井他訳、音声認識の基礎 (下)、第 280— 281頁」(文献 7)に記載がある。タイドミタス チヤ (tied-mixture)HMMのモデルパラメータは、状態遷移確率 a.、全状態で共通の 記号出力確率 b 、および記号出力確率に対する重み係数 cである。ここで、 i=l,2,〜
J,k i,J
,Νで、 Νは状態数である。』·=1,2,· ··,Μで、 Μは話題の種類数。また k=l, 2, · ··, Lで、 L は入力テキスト文書に含まれる単語の種類数、すなわち語彙数である。状態遷移確 率 aは、第 1の実施例と同様、状態 iから状態 i+1に遷移する確率である。記号出力確 率 b は、話題 jにおいて、インデクス kで指定される単語が出力される確率である。ま j,k
た重み係数 cは、状態 iにおいて話衝が発生する確率である。第 1の実施例と同様、
i,J
記号出力確率の総和 b +b +〜+b は 1でなければならない。また、重み係数の総和
J,l J,2 j,L
c +c + '+c も 1でなければならない。
ι,Ι i,2 i,L
[0045] モデルパラメータ初期化部 104は、状態数 Nのモデルに対して、例えば上述の各パ ラメータの値を a=N/T、 b =1/L、 c =1/Mのように設定する。この初期値の与え方に決
1 j, 1,J
まったやり方はなく、上述の確率の条件さえ満たしていれば、いろいろな方法があり 得る。ここで述べた方法はほんの一例である。
[0046] モデルパラメータ推定部 105は、モデルパラメータ初期化部 104によって初期化され た単一もしくは複数のモデルを順次受け取り、モデルが入力テキスト文書。, 0 ,…,
1 2
0を生成する確率、すなわち尤度がなるべく高くなるように、モデルパラメータを推定
T
する。これには、第 1の実施例と同様、期待値最大化法 (EM法)を用いることができる。 すなわち、その時点で得られているパラメータ値 a、b 、cを用いて、式(6)のような
i j,k i,j
漸ィ匕式によって前向き変数 α
t (0および後向き変数 j8
t (0を t=l , 2, · · · , T、 i=l , 2, · · · ,
Nにわたつて計算し、さらに式 (7)に従ってパラメータ値を再計算する。再計算された パラメータ値を用いて再度式 (6)および式 (7)を計算する。以下、収束するまで十分 な回数これをくり返す。ただしここ〖こ δ はクロネッカーのデルタ、すなわち、 i=jなら 1、 ij
そうでなければ 0をとる。
[0047] [数 6]
Figure imgf000015_0001
[0048] [数 7]
Figure imgf000015_0002
∑ (な' (0(1 - bj,o, Λ+ι (0 + at (り。, +1ゾ ,。, βΜ {i + 1)}
∑∑ (1― ", ,fb ,0t β (!·) + at (i cMJ.bf,0i β1+ (i + 1)}
ゾ' =1 ί=1 モデルパラメータ推定部 105におけるパラメータ推定の反復計算の収束判定を行う には、尤度の上昇量をみればよい。すなわち、上述の反復計算によって尤度の上昇 がみられなくなれば、その時点で反復計算を終了すればよい。ここに、尤度は α (1)
1 β (1)として得られる。モデルパラメータ推定部 105は、反復計算を終了した時点で、 モデルパラメータ a、 b 、 cと、前向きおよび後向き変数 α (0、 β (0を、モデル (ΗΜΜ) の状態数と対にして、推定結果記憶部 106に格納する。
[0050] モデル選択部 107は、第 1の実施例と同様、モデルパラメータ推定部 105で状態数 ごとに得られたパラメータ推定結果を推定結果記憶部 106から受け取り、各モデルの 確からしさを計算し、もっとも確からしいモデルを 1つ選択する。モデルの確からしさは 、公知の赤池情報量基準 (AIC)や最小記述長基準 (MDL基準)などに基づ 、て計算 することができる。
また、第 1の実施例と同様、 AICでも MDLでも、モデルパラメータ数 NLに関わる項に、 経験的に決まる定数係数をカゝけて、選択されるモデルを意図的に調整する操作も行 つて差し支えない。
[0051] テキスト分割結果出力部 108は、第 1の実施例におけるテキスト分割結果出力部 108 と同様、モデル選択部 107によって選択された状態数すなわち話題数 Nのモデルに 対応するモデルパラメータ推定結果を推定結果記憶部 106から受け取り、この推定結 果における入力テキスト文書に対する話題ごとの分割結果を算出する。最終的な分 割結果は、式 (4)に従って、 P( z =i I )が最大となる iを t=l, 2, · ··, Tに わたって求めることで得られる。
[0052] なお、モデルパラメータ推定部 105は、第 1の実施例と同様、最尤推定法の代わりに 最大事後確率推定 (MAP推定)法によってモデルパラメータを推定してもよい。
[0053] 第 3の実施例
次に、本発明の第 3の実施例について、図面を参照して説明する。
[0054] 本実施例は、第 1および第 2の実施例の例と同じぐ図 1のブロック図で示される。す なわち、本実施例は、テキスト文書を入力するテキスト入力部 101と、入力されたテキ スト文書を格納するテキスト記憶部 102と、テキスト文書の話題の推移を記述するモデ ルであって、テキスト文書の各々の単語がどの話題に属するかを隠れ変数に、テキス ト文書の各々の単語を観測変数にそれぞれ対応付けた、単一もしくは複数のモデル を生成する仮モデル生成部 103と、仮モデル生成部 103が生成した各モデルを規定 する各モデルパラメータの値を初期化するモデルパラメータ初期化部 104と、モデル パラメータ初期化部 104によって初期化されたモデルとテキスト記憶部 102に格納され たテキスト文書を使ってモデルパラメータを推定するモデルパラメータ推定部 105と、 モデルパラメータ推定部 105が行ったパラメータ推定の結果を格納する推定結果記 憶部 106と、推定結果記憶部 106に複数のモデルのパラメータ推定結果が格納されて V、る場合にその中から 1つのモデルのパラメータ推定結果を選択するモデル選択部 107と、モデル選択部 107が選択したモデルのパラメータ推定結果力 入力テキスト文 書の分割を行って結果を出力するテキスト分割結果出力部 108を備える。各々の部 は、それぞれ計算機上に記憶されたプログラムによって、またはこのプログラムが記 録された記録媒体を読み取ることによって動作させることにより実現可能である。
[0055] 次に、本実施例の動作について、順を追って説明する。
[0056] テキスト入力部 101、テキスト記憶部 102および仮モデル生成部 103は、それぞれ先 に述べた第 1および第 2の実施例におけるテキスト入力部 101、テキスト記憶部 102お よび仮モデル生成部 103と同一の動作をする。テキスト記憶部 102が入力テキスト文 書を、単語の列、あるいは隣接する単語の 2つ組、 3つ組、もしくは一般の n個組の列 として格納することや、入力テキスト文書に単語間スペースのない日本語の場合、公 知の形態素解析法を適用することで、単語列として扱うことができることなども、本発 明の第 1および第 2の実施例と同様である。
[0057] モデルパラメータ初期化部 104は、仮モデル生成部 103が生成した単一または複数 のモデル各々について、モデルパラメータ、すなわち状態遷移確率 aおよび記号出 力確率 bを確率変数として、ある種の分布を仮定し、それらの分布を規定するパラメ 一タの値を初期化する。以下では、モデルパラメータの分布を規定するパラメータを 、元のパラメータに対してメタパラメータと呼ぶことにする。つまり、モデルパラメータ初 期化部 104はメタパラメータの初期化を行う。本実施例では、状態遷移確率 aおよび 記号出力確率 bの分布として、それぞれベータ分布 log p( a
i U 0,i , κ ) = (κ -1)
1 0,i
Xlog (1- a) + (κ — l)Xlog (a) + const、ディレクレ分布 log p( b , b , ···, b | λ
i l,i i i,l i,2 i,L i,l
, λ , ···, λ ) = (λ -l)Xlog(b ) + (λ -l)Xlog(b )+ ··· + (λ -l)Xlog(b ) i,2 i,L i,l i,l i,2 i,2 i,L i,L
+ constを使用する。メタパラメータは K , κ , λ である。ここで、 ί=1,2,···,Ν、 j=l,2,
0,i l,i i,j
•••,Lである。モデルパラメータ初期化部 104は、例えば K =κ , κ =κ , λ =λ ,†
0,i 0 l,i 1 ij 0 だし = ε (1-Ν/Τ) +1, κ =ε Ν/Τ+1, λ = ε /L+l、というようにメタパラメータを初期 化する。 εとしては、 0.01などのように適当な正数を当てる。なお、初期値の与え方に 決まったやり方はなく、 V、ろ 、ろな方法があり得る。
この初期化方法はほんの一例である。
[0058] モデルパラメータ推定部 105は、モデルパラメータ初期化部 104によって初期化され た単一もしくは複数のモデルを順次受け取り、モデルが入力テキスト文書。, 0 , · · · ,
1 2
0を生成する確率、すなわち尤度がなるべく高くなるように、メタパラメータを推定する
Τ
。これにはベイズ推定法力 導出される公知の変分ベイズ法を用いることができる。 すなわち、例えば「2002年 7月、電子情報通信学会誌、第 85卷、第 7号、第 504— 509 頁、上田、ベイズ学習〔III〕一変分ベイズ学習の基礎一」(文献 8)に記載があるように、 その時点で得られているメタパラメータ値 κ , κ , λ を用いて、式 (8)のような漸
0,i l,i i,J
化式によって前向き変数 α
t (0および後向き変数 j8
t (0を t=l, 2, · ··, T、 i=l, 2, · ··, N にわたつて計算し、さらに式 (9)に従ってメタパラメータ値を再計算する。再計算され たパラメータ値を用いて、再度式 (8)および式 (9)を計算する。以下、収束するまで 十分な回数これをくり返す。ただしここに、 δ はクロネッカーのデルタ、すなわち、 i=j なら 1、そうでなければ 0をとる。また、 ¥(x)=d( log r(x) )/dxで、 Γ(χ)はガンマ関数 である。
[0059] [数 8]
Figure imgf000018_0001
ただし
- ΟΆ,.
A【' = )-
( L \
Bik ^( ik ) - W ∑Λ,
=i ノ
[0060] [数 9] r-i Ύ-\ r-1
+ +1,; , ^Μ ^ ^ +∑¾¾,Μ + ^, ' Λ'Α ) + Σ¾ ,。,· '·'(9) ただし
― Α (補 at (i)exp{A0)i + J?
∑∑"ズ p + - +1 +1ひ +
=1 J={0,1}
) exp ( + Bi+ 0i+iΜ (i + 1)―
∑ ∑"t C )exp ^θΜ+1ひ + s)
[0061] モデルパラメータ推定部 105におけるパラメータ推定の反復計算の収束判定は、近 似的尤度の上昇量をみればよい。すなわち、上述の反復計算によって近似的尤度 の上昇がみられなくなれば、その時点で反復計算を終了すればよい。ここで、近似的 尤度とは、前向き変数と後向き変数の積 α (1) β (1)として得られる。モデルパラメ
1 1 一 タ推定部 105は、反復計算を終了した時点で、メタパラメータ κ , κ , λ と、前向き
0,i l,i i,J
および後向き変数 α
t (0、 j8
t (0を、モデル (HMM)の状態数 Nと対にして、推定結果記 憶部 106に格納する。
[0062] なお、モデルパラメータ推定部 105におけるメタパラメータのベイズ推定法としては、 上述の変分ベイズ法以外にも、公知のマルコフ連鎖モンテカルロ法やラプラス近似 法など、任意の方法を使うことができる。本実施例は、変分ベイズ法に限定されるもの ではない。
[0063] モデル選択部 107は、モデルパラメータ推定部 105で状態数ごとに得られたパラメ一 タ推定結果を推定結果記憶部 106から受け取り、各モデルの確力 しさを計算し、も つとも確からしいモデルを 1つ選択する。モデルの確力もしさは、例えば上述した変分 ベイズ法の枠組みでは、公知のベイズ的基準 (ベイズ事後確率)を使用することがで きる。ベイズ的基準は式(10)で計算可能である。式(10)において P(N)は状態数す なわち話題数 Nの事前確率で、あら力じめ何らかの方法で定めておく。取り立てて理 由がなければ、 P(N)は一定値でよい。逆に、特定の状態数が起こりやすい、あるい は起こりにく 、と 、うことが事前にわ力つて 、る場合は、特定の状態数に対応する P(N)を大きぐあるいは小さく設定する。また、式(10)に現れるメタパラメータ κ , κ
0,i
, X と、前向きおよび後向き変数 a (0、 β (0としては、状態数 Nに対応するものを l,i i,j t t
推定結果記憶部 106から取得して用いる。
[数 10]
Figure imgf000020_0001
[0065] テキスト分割結果出力部 108は、上述の第 1および第 2の実施例におけるテキスト分 割結果出力部 108と同様、モデル選択部 107によって選択された状態数すなわち話 題数 Nのモデルに対応するモデルパラメータ推定結果を推定結果記憶部 106から受 け取り、この推定結果における入力テキスト文書に対する話題ごとの分割結果を算出 する。最終的な分割結果は、式 (4)に従って、 P( z =i | o , o , · · · , 0 )が最大となる i
t 1 2 T
を t=l , 2, · · · , Tにわたつて求めることで得られる。
[0066] なお、本実施例でも、上述した第 2の実施例と同様、通常の left-to-right型 ΗΜΜの 代わりに、タイドミタスチヤ (tied- mixture)型の left- to- right型 HMMを生成、初期化、パ ラメータ推定するように、仮モデル生成部 103、モデルパラメータ初期化部 104、モデ ルパラメータ推定部 105をそれぞれ構成することが可能である。
[0067] 第 4の実施例
次に、本発明の第 4の実施例について、図面を参照して詳細に説明する。
[0068] 図 4を参照すると、本発明の第 4の実施例は、テキスト処理プログラム 605を記録した 記録媒体 601を備える。この記録媒体 601は CD-ROM、磁気ディスク、半導体メモリそ の他の記録媒体であってよぐネットワークを介して流通する場合も含む。テキスト処 理プログラム 605は記録媒体 601からデータ処理装置 (コンピュータ) 602に読み込ま れ、データ処理装置 602の動作を制御する。
本実施例としては、データ処理装置 602はテキスト処理プログラム 605の制御により、 第 1、第 2、もしくは第 3の実施例におけるテキスト入力部 101、仮モデル生成部 103、 モデルパラメータ初期化部 104、モデルパラメータ推定部 105、モデル選択部 107、テ キスト分割結果出力部 108による処理と同一の処理を実行して、第 1、第 2、もしくは第 3の実施例におけるテキスト記憶部 102、推定結果記憶部 106とそれぞれ同等の情報 を有するテキスト記録媒体 603、モデルパラメータ推定結果記録媒体 604を参照する こと〖こよって、入力されたテキスト文書に対する話題ごとの分割結果を出力する。

Claims

請求の範囲
[1] テキスト文書を構成する各々の単語がどの話題に属する力を隠れ変数に、各々の 単語を観測変数にそれぞれ対応付けた確率モデルを生成するステップと、
生成された確率モデルを規定するモデルパラメータの初期値を出力するステップと 出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづいて、 このテキスト文書に応じたモデルパラメータを推定するステップと、
推定されたモデルパラメータにもとづいて、処理対象のテキスト文書を話題ごとに分 割するステップと
を備えることを特徴とするテキスト処理方法。
[2] 請求項 1に記載のテキスト処理方法にぉ 、て、
確率モデルを生成する前記ステップは、複数の確率モデルを生成するステップを 備え、
モデルパラメータの初期値を出力する前記ステップは、複数の確率モデルのそれ ぞれのモデルパラメータの初期値を出力するステップを備え、
モデルパラメータを推定する前記ステップは、複数の確率モデルのそれぞれのモ デルパラメータを推定するステップを備え、
さらに、推定された複数のモデルパラメータにもとづいて、複数の確率モデルの中 から、テキスト文書を分割する前記ステップで処理を行う確率モデルを選択するステ ップを備えることを特徴とするテキスト処理方法。
[3] 請求項 1に記載のテキスト処理方法にぉ 、て、
確率モデルは、隠れマルコフモデルであることを特徴とするテキスト処理方法。
[4] 請求項 3に記載のテキスト処理方法において、
隠れマルコフモデルは、一方向型の構造を有することを特徴とするテキスト処理方 法。
[5] 請求項 3に記載のテキスト処理方法において、
隠れマルコフモデルは、離散出力型であることを特徴とするテキスト処理方法。
[6] 請求項 1に記載のテキスト処理方法にぉ 、て、 モデルパラメータを推定する前記ステップは、最尤推定および最大事後確率推定 の!、ずれかを用いてモデルパラメータを推定するステップを備えることを特徴とする テキスト処理方法。
[7] 請求項 1に記載のテキスト処理方法にぉ 、て、
モデルパラメータの初期値を出力する前記ステップは、モデルパラメータを確率変 数とする分布を仮定し、この分布を規定するメタパラメータの初期値を出力するステツ プを備え、
モデルパラメータを推定する前記ステップは、出力されたメタパラメータの初期値と 、処理対象のテキスト文書とにもとづいて、このテキスト文書に応じたメタパラメータを 推定するステップを備えることを特徴とするテキスト処理方法。
[8] 請求項 7に記載のテキスト処理方法において、
メタパラメータを推定する前記ステップは、ベイズ推定を用いてメタパラメータを推定 するステップを備えることを特徴とするテキスト処理方法。
[9] 請求項 2に記載のテキスト処理方法において、
確率モデルを選択する前記ステップは、赤池情報量基準、最小記述長基準および ベイズ事後確率の 、ずれかを用いて確率モデルを選択するステップを備えることを 特徴とするテキスト処理方法。
[10] テキスト文書を構成する各々の単語がどの話題に属するかを隠れ変数に、各々の 単語を観測変数にそれぞれ対応付けた確率モデルを生成するステップと、
生成された確率モデルを規定するモデルパラメータの初期値を出力するステップと 出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづいて、 このテキスト文書に応じたモデルパラメータを推定するステップと、
推定されたモデルパラメータにもとづいて、処理対象のテキスト文書を話題ごとに分 割するステップと
をコンピュータに実行させるためのプログラム。
[11] テキスト文書を構成する各々の単語がどの話題に属するかを隠れ変数に、各々の 単語を観測変数にそれぞれ対応付けた確率モデルを生成するステップと、 生成された確率モデルを規定するモデルパラメータの初期値を出力するステップと 出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづいて、 このテキスト文書に応じたモデルパラメータを推定するステップと、
推定されたモデルパラメータにもとづいて、処理対象のテキスト文書を話題ごとに分 割するステップと
をコンピュータに実行させるためのプログラムを記録した記録媒体。
[12] テキスト文書を構成する各々の単語がどの話題に属するかを隠れ変数に、各々の 単語を観測変数にそれぞれ対応付けた確率モデルを生成する仮モデル生成手段と 前記仮モデル生成手段によって生成された確率モデルを規定するモデルパラメ一 タの初期値を出力するモデルパラメータ初期化手段と、
前記モデルパラメータ初期化手段力 出力されたモデルパラメータの初期値と、処 理対象のテキスト文書とにもとづ ヽて、このテキスト文書に応じたモデルパラメータを 推定するモデルパラメータ推定手段と、
前記モデルパラメータ推定手段によって推定されたモデルパラメータにもとづいて 、処理対象のテキスト文書を話題ごとに分割するテキスト分割結果出力手段と を備えることを特徴とするテキスト処理装置。
[13] 請求項 12に記載のテキスト処理装置において、
前記仮モデル生成手段は、複数の確率モデルを生成する手段を備え、 前記モデルパラメータ初期化手段は、複数の確率モデルのそれぞれのモデルパラ メータの初期値を出力する手段を備え、
前記モデルパラメータ推定手段は、複数の確率モデルのそれぞれのモデルパラメ ータを推定する手段を備え、
さらに、前記モデルパラメータ推定手段によって推定された複数のモデルパラメ一 タにもとづいて、複数の確率モデルから 1つの確率モデルを選択し、前記テキスト分 割結果出力手段に対して、当該確率モデルにつ!/、て処理を行わせるモデル選択手 段を備えることを特徴とするテキスト処理装置。
[14] 請求項 12に記載のテキスト処理装置において、
確率モデルは、隠れマルコフモデルであることを特徴とするテキスト処理装置。
[15] 請求項 14に記載のテキスト処理装置において、
隠れマルコフモデルは、一方向型の構造を有することを特徴とするテキスト処理装 置。
[16] 請求項 14に記載のテキスト処理装置において、
隠れマルコフモデルは、離散出力型であることを特徴とするテキスト処理装置。
[17] 請求項 12に記載のテキスト処理装置において、
前記モデルパラメータ推定手段は、最尤推定および最大事後確率推定の!/、ずれ かを用いてモデルパラメータを推定する手段を備えることを特徴とするテキスト処理 装置。
[18] 請求項 12に記載のテキスト処理装置において、
前記モデルパラメータ初期化手段は、モデルパラメータを確率変数とする分布を仮 定し、この分布を規定するメタパラメータの初期値を出力する手段を備え、
前記モデルパラメータ推定手段は、出力されたメタパラメータの初期値と、処理対 象のテキスト文書とにもとづ 、て、このテキスト文書に応じたメタパラメータを推定する 手段を備えることを特徴とするテキスト処理装置。
[19] 請求項 18に記載のテキスト処理装置において、
前記モデルパラメータ推定手段は、ベイズ推定を用いてメタパラメータを推定する 手段を備えることを特徴とするテキスト処理装置。
[20] 請求項 13に記載のテキスト処理装置にお!/、て、
前記モデル選択手段は、赤池情報量基準、最小記述長基準およびベイズ事後確 率の 、ずれかを用いて確率モデルを選択する手段を備えることを特徴とするテキスト 処理装置。
PCT/JP2005/000461 2004-01-16 2005-01-17 テキスト処理方法/プログラム/プログラム記録媒体/装置 WO2005069158A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/586,317 US20070162272A1 (en) 2004-01-16 2005-01-17 Text-processing method, program, program recording medium, and device thereof
JP2005517089A JP4860265B2 (ja) 2004-01-16 2005-01-17 テキスト処理方法/プログラム/プログラム記録媒体/装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004009144 2004-01-16
JP2004-009144 2004-01-16

Publications (2)

Publication Number Publication Date
WO2005069158A2 true WO2005069158A2 (ja) 2005-07-28
WO2005069158A1 WO2005069158A1 (ja) 2005-07-28

Family

ID=

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007325277A (ja) * 2006-06-05 2007-12-13 Fuji Xerox Co Ltd 協調フレームワークのサポートシステム、監視ビデオのマイニングのサポート方法、及びプログラム
WO2009084554A1 (ja) * 2007-12-27 2009-07-09 Nec Corporation テキスト分割装置とテキスト分割方法およびプログラム
WO2009107416A1 (ja) * 2008-02-27 2009-09-03 日本電気株式会社 グラフ構造変化検出装置、グラフ構造変化検出方法およびプログラム
WO2009107412A1 (ja) * 2008-02-27 2009-09-03 日本電気株式会社 グラフ構造推定装置、グラフ構造推定方法およびプログラム
JP2010257425A (ja) * 2009-04-28 2010-11-11 Nippon Hoso Kyokai <Nhk> 話題境界検出装置及びコンピュータプログラム
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
JP2013084136A (ja) * 2011-10-11 2013-05-09 Nippon Hoso Kyokai <Nhk> 意味分析装置およびそのプログラム
JP5440815B2 (ja) * 2009-06-26 2014-03-12 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2016194912A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデルの選択方法及び装置
JP2016194910A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデル選択の方法及び装置
JP2016194914A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデル選択の方法及び装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007325277A (ja) * 2006-06-05 2007-12-13 Fuji Xerox Co Ltd 協調フレームワークのサポートシステム、監視ビデオのマイニングのサポート方法、及びプログラム
US8422787B2 (en) 2007-12-27 2013-04-16 Nec Corporation Apparatus, method and program for text segmentation
WO2009084554A1 (ja) * 2007-12-27 2009-07-09 Nec Corporation テキスト分割装置とテキスト分割方法およびプログラム
JP5343861B2 (ja) * 2007-12-27 2013-11-13 日本電気株式会社 テキスト分割装置とテキスト分割方法およびプログラム
WO2009107412A1 (ja) * 2008-02-27 2009-09-03 日本電気株式会社 グラフ構造推定装置、グラフ構造推定方法およびプログラム
WO2009107416A1 (ja) * 2008-02-27 2009-09-03 日本電気株式会社 グラフ構造変化検出装置、グラフ構造変化検出方法およびプログラム
JP2010257425A (ja) * 2009-04-28 2010-11-11 Nippon Hoso Kyokai <Nhk> 話題境界検出装置及びコンピュータプログラム
JP5440815B2 (ja) * 2009-06-26 2014-03-12 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
JP2013084136A (ja) * 2011-10-11 2013-05-09 Nippon Hoso Kyokai <Nhk> 意味分析装置およびそのプログラム
JP2016194912A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデルの選択方法及び装置
JP2016194910A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデル選択の方法及び装置
JP2016194914A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデル選択の方法及び装置

Also Published As

Publication number Publication date
JP4860265B2 (ja) 2012-01-25
US20070162272A1 (en) 2007-07-12
JPWO2005069158A1 (ja) 2008-04-24

Similar Documents

Publication Publication Date Title
JP4860265B2 (ja) テキスト処理方法/プログラム/プログラム記録媒体/装置
US7480612B2 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
US8494847B2 (en) Weighting factor learning system and audio recognition system
EP1580667B1 (en) Representation of a deleted interpolation N-gram language model in ARPA standard format
US4803729A (en) Speech recognition method
CN106297800B (zh) 一种自适应的语音识别的方法和设备
JP5343861B2 (ja) テキスト分割装置とテキスト分割方法およびプログラム
EP1396795A2 (en) Method and apparatus for aligning bilingual corpora
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
Stan et al. A grapheme-based method for automatic alignment of speech and text data
US11227580B2 (en) Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US5884261A (en) Method and apparatus for tone-sensitive acoustic modeling
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
Hatala et al. Viterbi algorithm and its application to Indonesian speech recognition
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP4779239B2 (ja) 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
JPH06266386A (ja) ワードスポッティング方法
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
Granell et al. Image–speech combination for interactive computer assisted transcription of handwritten documents
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2005517089

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2007162272

Country of ref document: US

Ref document number: 10586317

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 10586317

Country of ref document: US