JPS6126175A - 複合漢字列分割装置 - Google Patents
複合漢字列分割装置Info
- Publication number
- JPS6126175A JPS6126175A JP13923984A JP13923984A JPS6126175A JP S6126175 A JPS6126175 A JP S6126175A JP 13923984 A JP13923984 A JP 13923984A JP 13923984 A JP13923984 A JP 13923984A JP S6126175 A JPS6126175 A JP S6126175A
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- state
- probability
- string
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野コ
この発明は基本漢字列が組み合わされてなる複合漢字列
をもとの基本漢字列に機械的に分割する複合漢字列分割
装置に関し、とくに確率的な手法で高精度の分割を行え
るようにしたものである。
をもとの基本漢字列に機械的に分割する複合漢字列分割
装置に関し、とくに確率的な手法で高精度の分割を行え
るようにしたものである。
[従来技術]
近年コンピュータによる日本語情報処理例えば日本語情
報の機械検索、自動抄録作成、機械翻訳、自動朗読、点
字化等が実用化され、あるいは広く研究されつつある。
報の機械検索、自動抄録作成、機械翻訳、自動朗読、点
字化等が実用化され、あるいは広く研究されつつある。
そしてこのような日本語情報処理を可能にするには日本
語文章を解析し、その内容を機械的に把握するフロント
エンドが必要となる。とくに、日本語ではわかち書きの
習慣がなく文章はブランクのないベタ書きであるので日
本語文章を機械的に単語レベルの単位に分割する自動単
語分割の可能なフロントエンドが切望されている。過去
においては日本語情報を統計的に処理する等の際に人間
が単語分割を行って入力を行っていた。この場合コスト
及び所要時間の点で極めて不都合がある。
語文章を解析し、その内容を機械的に把握するフロント
エンドが必要となる。とくに、日本語ではわかち書きの
習慣がなく文章はブランクのないベタ書きであるので日
本語文章を機械的に単語レベルの単位に分割する自動単
語分割の可能なフロントエンドが切望されている。過去
においては日本語情報を統計的に処理する等の際に人間
が単語分割を行って入力を行っていた。この場合コスト
及び所要時間の点で極めて不都合がある。
このような点から日本語文章を単語または文節に分割す
る手法についてはいくつかの提案がなされている。この
ような提案の1つは字種を参照するものである。経験上
字種の変わり目(ひらがなからひらがな以外の字種への
変わり目)は文節の変わり目であることが多く、この性
質を利用して文節単位の分割を行うのである。この単純
な規則だけでも文節単位の分割を約84%の精度で行え
ることが報告されている。ただこの手法ではより細かな
単語単位の分割はできず、また精度も十分でないという
不具合がある。
る手法についてはいくつかの提案がなされている。この
ような提案の1つは字種を参照するものである。経験上
字種の変わり目(ひらがなからひらがな以外の字種への
変わり目)は文節の変わり目であることが多く、この性
質を利用して文節単位の分割を行うのである。この単純
な規則だけでも文節単位の分割を約84%の精度で行え
ることが報告されている。ただこの手法ではより細かな
単語単位の分割はできず、また精度も十分でないという
不具合がある。
他の提案としては単語辞書を用いるものがある、情報処
理Vo1.19. No、6. pp5]、4−521
(1,973年)所載の長尾氏等の「国語辞書の記憶と
日本語文の自動分割Jはこの単語辞書の手法と上述字種
情報等とを利用して単語を機械的に分割することを提案
している。特公昭57−13895.57−16372
.57−16373.57−16374、及び57−1
8221号にも類似した提案が示されている。
理Vo1.19. No、6. pp5]、4−521
(1,973年)所載の長尾氏等の「国語辞書の記憶と
日本語文の自動分割Jはこの単語辞書の手法と上述字種
情報等とを利用して単語を機械的に分割することを提案
している。特公昭57−13895.57−16372
.57−16373.57−16374、及び57−1
8221号にも類似した提案が示されている。
また、確率辞書を用いて漢字仮名まじり文をわかち文書
する手法が自然言語処理28−5(1,981年)所載
の藤崎氏の[動的計画法による漢字仮名混り文の単位切
りと仮名ふりjに示されている。これは動的計画法を利
用して最も尤度の高いわかち書文を与える一単位切りを
見出すものである。
する手法が自然言語処理28−5(1,981年)所載
の藤崎氏の[動的計画法による漢字仮名混り文の単位切
りと仮名ふりjに示されている。これは動的計画法を利
用して最も尤度の高いわかち書文を与える一単位切りを
見出すものである。
ところで漢字は造語力があり基本漢字列を組み合わせて
複合的な意味を有する複合漢字列を形成することが多く
、この複合漢字列は単語文割の際にとくに困難なものと
されてきた。例えば「電話 −器用難燃材料Jは「
電話器用」、「難燃」及び「材料」という基本漢字列を
複合してなるものであるが、器用という単語に着目して
しまって「電話j、F器用J、「離燃」及び「材料Jと
いう基本漢字列に全開しがちである。上述の従来の手法
もこのような複合漢字列の分割に対処できないものがほ
とんどである。
複合的な意味を有する複合漢字列を形成することが多く
、この複合漢字列は単語文割の際にとくに困難なものと
されてきた。例えば「電話 −器用難燃材料Jは「
電話器用」、「難燃」及び「材料」という基本漢字列を
複合してなるものであるが、器用という単語に着目して
しまって「電話j、F器用J、「離燃」及び「材料Jと
いう基本漢字列に全開しがちである。上述の従来の手法
もこのような複合漢字列の分割に対処できないものがほ
とんどである。
ただ上述長尾氏等の論文ではこの複合漢字列の分割の手
法も開示されている。この手法では辞書を用いて複合漢
字列を2文字漢字の単位に分割したり、接頭語的又は接
尾語的性質を有する一文字漢字をキーとして漢字列を分
割している。また辞書を用いて複合漢字列を2文字漢字
列の単位に分割することを基本としつつ、その分割が不
可能なときに一文字漢字の性質に着目することも示され
ている。
法も開示されている。この手法では辞書を用いて複合漢
字列を2文字漢字の単位に分割したり、接頭語的又は接
尾語的性質を有する一文字漢字をキーとして漢字列を分
割している。また辞書を用いて複合漢字列を2文字漢字
列の単位に分割することを基本としつつ、その分割が不
可能なときに一文字漢字の性質に着目することも示され
ている。
しかしながら漢字列の一部が2文字漢字として扱えるか
、あるいは接頭語的又は接尾語的性質を有するかという
ことはその漢字列全体から決定されることである。例え
ば上述の「電話器用難燃材料」という漢字列の「器」及
び「用」はともに接尾語的性質を有するもので、「器用
」という2文字漢字として切り出すのは誤りであるけれ
ども、このようなことは漢字列全体から始めて理解でき
る。従って、そのようなことを考慮せずに2文字漢字ま
たは一文字漢字をキーとして機械的に分割を行うことに
は無理がある。本来的には2文字漢字ごとに分割されな
いものが2文字漢字として誤って分割されてしまうこと
も多く、また2文字漢字を構成する漢字の一方が誤って
接頭語的等と判断される蓋然性も高く、分割の精度を向
上させることは困難であると考えられる。
、あるいは接頭語的又は接尾語的性質を有するかという
ことはその漢字列全体から決定されることである。例え
ば上述の「電話器用難燃材料」という漢字列の「器」及
び「用」はともに接尾語的性質を有するもので、「器用
」という2文字漢字として切り出すのは誤りであるけれ
ども、このようなことは漢字列全体から始めて理解でき
る。従って、そのようなことを考慮せずに2文字漢字ま
たは一文字漢字をキーとして機械的に分割を行うことに
は無理がある。本来的には2文字漢字ごとに分割されな
いものが2文字漢字として誤って分割されてしまうこと
も多く、また2文字漢字を構成する漢字の一方が誤って
接頭語的等と判断される蓋然性も高く、分割の精度を向
上させることは困難であると考えられる。
[発明が解決しようとする問題点]
この発明は以上事情を考慮してなされたものであり、複
合漢字列を高精度に基本漢字列に分割することができる
複合漢字列分割装置を提供することを目的としている。
合漢字列を高精度に基本漢字列に分割することができる
複合漢字列分割装置を提供することを目的としている。
[問題点を解決するための手段]
この発明では以上の目的を達成するために、継続する2
つの漢字の間で起こる状態の遷移の確率をストアする確
率辞書手段を参照して、入力複合漢字列の状態の系列の
うち一番生起確率が犬のものを判別し、この判別された
状態の系列に基づいて入力複合漢字列を基本漢字単語に
分割するようにしている。
つの漢字の間で起こる状態の遷移の確率をストアする確
率辞書手段を参照して、入力複合漢字列の状態の系列の
うち一番生起確率が犬のものを判別し、この判別された
状態の系列に基づいて入力複合漢字列を基本漢字単語に
分割するようにしている。
好ましい態様では動的計画法により最大生起確率をとる
入力複合漢字列の状態の系列を選定する。
入力複合漢字列の状態の系列を選定する。
また漢字列中の漢字のとる状態としては接頭語状態P、
2つの継続する基本漢字状態1.2及び接尾語状態Sを
採用することが好ましい。
2つの継続する基本漢字状態1.2及び接尾語状態Sを
採用することが好ましい。
[実施例コ
以下で説明されるこの発明の実施例は漢字列に、、に2
・・・Kn(Kiは1つの漢字である)の実現可能な状
態の系列のうち最も到達確率の高いものを動的計画法で
求め、そのようにして選んだ状態の系列に基づいて漢字
列に工に2・・・Knを基本漢字単語に分割するように
なっている。ここでは図面に基づ〈実施例の詳細な説明
にさきだって動的計画法による手法の概要について簡単
に触れておくこととする。なお以下の実施例はハードウ
ェアで実現されたものとして示されているけれども、ソ
フトウェア実現態様を採用し得ることはもちろんである
。
・・・Kn(Kiは1つの漢字である)の実現可能な状
態の系列のうち最も到達確率の高いものを動的計画法で
求め、そのようにして選んだ状態の系列に基づいて漢字
列に工に2・・・Knを基本漢字単語に分割するように
なっている。ここでは図面に基づ〈実施例の詳細な説明
にさきだって動的計画法による手法の概要について簡単
に触れておくこととする。なお以下の実施例はハードウ
ェアで実現されたものとして示されているけれども、ソ
フトウェア実現態様を採用し得ることはもちろんである
。
この実施例では漢字列に1に2・・・Knの前後に特殊
記号上を付し、土KIK2・・・Kn土とする。なお、
以下では便宜上止も漢字と呼ぶこととする。前段の土か
ら後段の土にいたる漢字の並びに従って時間が推移する
ものと考える。特殊記号上は開始ブランク状態I及び終
了ブランク状態Fをとるものとする。漢字Ki (i=
1〜n)は接頭語状態P、2つの継続する基本語状態1
.2及び接尾語状態Sをとるものとする。例を挙げれば
「超党派構成委員会案」の「超」はP状態の漢字であり
、「構」は1状態の漢字であり、「成」は2状態の漢字
であり、また「会」、「案」はともにS状態の漢字であ
る。
記号上を付し、土KIK2・・・Kn土とする。なお、
以下では便宜上止も漢字と呼ぶこととする。前段の土か
ら後段の土にいたる漢字の並びに従って時間が推移する
ものと考える。特殊記号上は開始ブランク状態I及び終
了ブランク状態Fをとるものとする。漢字Ki (i=
1〜n)は接頭語状態P、2つの継続する基本語状態1
.2及び接尾語状態Sをとるものとする。例を挙げれば
「超党派構成委員会案」の「超」はP状態の漢字であり
、「構」は1状態の漢字であり、「成」は2状態の漢字
であり、また「会」、「案」はともにS状態の漢字であ
る。
便宜上漢字列上に□に2・・・Kn±実現可能な状態の
系列を有向グラフを用いて表わすと第8図に示すように
なる。この図では時間即ち漢字Kiの推移に従って状態
がどのように遷移してぃくがが示されている。前段の土
から後段の土にいたる多数の遷移のルートの到達確率F
RBはそのルーある。ただすべてのルートについてやみ
くもに到達確率を求め、その中から最大のものを選ぶの
は現実的でない。そこで動的計画法では時間即ち漢字K
iの推移ごとにルートに沿った中間的な積を演算してい
くと同時に、その推移の時点ですでに考慮する必要がな
いことが判明したルートを削除するようにしている。
系列を有向グラフを用いて表わすと第8図に示すように
なる。この図では時間即ち漢字Kiの推移に従って状態
がどのように遷移してぃくがが示されている。前段の土
から後段の土にいたる多数の遷移のルートの到達確率F
RBはそのルーある。ただすべてのルートについてやみ
くもに到達確率を求め、その中から最大のものを選ぶの
は現実的でない。そこで動的計画法では時間即ち漢字K
iの推移ごとにルートに沿った中間的な積を演算してい
くと同時に、その推移の時点ですでに考慮する必要がな
いことが判明したルートを削除するようにしている。
第8図の漢字K1−1から漢字Kiへの推移を一例とし
て考えよう。漢字K1−1、Kiはともに状態P1.2
及びSを基本的にはとり得る。そして漢字KiがPの場
合、前段漢字Ki、−0がとる状態はP、2及びSであ
り、このとき3種類の状態遷移が考えられる(尚1に継
続する状態は2のみであるので1→Pの遷移は不可能で
ある)。これら3種類の局所的なパスはそれぞれ遷移確
率PROB (Q □、kx、jx)、PROB(Q2
、K2、j2)及びPROB(Q3、K3、j3’)に
よって第8図に示されている。またK1−1までの到達
遷移はすでに航回のテストで決定されており、この第8
図では状態S、2及びPに応じてそれぞれの到達確率を
PPRB (S) 、PPRB (2)及びPPRB(
P)で表わした。そしてKiまでの到達確率を考えた場
合、○印を付したルートの到達確率即ちPPRB (S
)XPROB(0,□、kl、jl)が他の2つのルー
トの到達確率より大であれば、これら他の2つのルート
をのちのテストで考慮に入れる必要はない。
て考えよう。漢字K1−1、Kiはともに状態P1.2
及びSを基本的にはとり得る。そして漢字KiがPの場
合、前段漢字Ki、−0がとる状態はP、2及びSであ
り、このとき3種類の状態遷移が考えられる(尚1に継
続する状態は2のみであるので1→Pの遷移は不可能で
ある)。これら3種類の局所的なパスはそれぞれ遷移確
率PROB (Q □、kx、jx)、PROB(Q2
、K2、j2)及びPROB(Q3、K3、j3’)に
よって第8図に示されている。またK1−1までの到達
遷移はすでに航回のテストで決定されており、この第8
図では状態S、2及びPに応じてそれぞれの到達確率を
PPRB (S) 、PPRB (2)及びPPRB(
P)で表わした。そしてKiまでの到達確率を考えた場
合、○印を付したルートの到達確率即ちPPRB (S
)XPROB(0,□、kl、jl)が他の2つのルー
トの到達確率より大であれば、これら他の2つのルート
をのちのテストで考慮に入れる必要はない。
同様にしてKiが状態1.2及びSの場合についても最
大の到達確率をとるルートを1つ選ぶ。
大の到達確率をとるルートを1つ選ぶ。
そうしてKiにいたるルートのうち考慮すべきものを絞
り込むのである。
り込むのである。
以上のような手法を繰り返して前段の土から後段の土ま
で状態の系列をテストし、これにより効率良く最大の到
達確率を有する状態の系列を選定し、この選定した系列
に従って漢字列に□に2・・・Knが基本漢字列に分割
される。
で状態の系列をテストし、これにより効率良く最大の到
達確率を有する状態の系列を選定し、この選定した系列
に従って漢字列に□に2・・・Knが基本漢字列に分割
される。
この実施例では以下の規則に従ってこの分割が行われる
。
。
(1)漢字2文字で基本的な意味を有するものは基本漢
字列である。この基本漢字列の状態の系列は「12jで
ある。
字列である。この基本漢字列の状態の系列は「12jで
ある。
(2)上の基本漢字列に1以上の接頭漢字が付いたもの
も基本漢字列である。この基本漢字列の状態の系列は「
P・・・PI3」である。
も基本漢字列である。この基本漢字列の状態の系列は「
P・・・PI3」である。
(3)上の基本漢字列に1以上の接尾漢字が付いたもの
も基本漢字列である。この基本漢字列の状態の系列は「
12S・・・S」または「P・・・P12S・・・S」
である。
も基本漢字列である。この基本漢字列の状態の系列は「
12S・・・S」または「P・・・P12S・・・S」
である。
例えば「国会法改定法案」の状態の系列としてrl 2
S 1212Jが得られ、それゆえ「国会法/改定/
法審」に分割される。また「政治的道義的責任」及び「
超党派構成委員会案」からはそれぞれr12s12s1
2J及びrP121212SSJが得られ、「政治的/
道義的/責任」及び[超党派/構成/委員会案」に分割
される。
S 1212Jが得られ、それゆえ「国会法/改定/
法審」に分割される。また「政治的道義的責任」及び「
超党派構成委員会案」からはそれぞれr12s12s1
2J及びrP121212SSJが得られ、「政治的/
道義的/責任」及び[超党派/構成/委員会案」に分割
される。
さてつぎに実施例の具体的な構成について説明しよう。
第1図はこの実施例を全体として示すもので、この図に
おいて入力段1は分割すべき漢字列に、に2・・・Kn
例えば「国会法改定法案」を受は取るものである。この
入力段1で受は取られた漢字列に1に2・・・Knはそ
の前後に漢字(特殊記号)土を付けされて入力段1のレ
ジスタエ。、■1・・・In十、にストアされる。これ
を第2図に示す。
おいて入力段1は分割すべき漢字列に、に2・・・Kn
例えば「国会法改定法案」を受は取るものである。この
入力段1で受は取られた漢字列に1に2・・・Knはそ
の前後に漢字(特殊記号)土を付けされて入力段1のレ
ジスタエ。、■1・・・In十、にストアされる。これ
を第2図に示す。
この人力段1は入力列上KiK2・・・Kn土に対して
第2図に散点で示すようなウィンドウを施こして継続す
る2つの漢字上、K1漢字Ki−□、K1または漢字K
n、土を演算制御部2に送出する。このウィンドウは上
述動的計画法における漢字の遷移の各々に対応し、この
ウィンドウがその遷移の推移に従って1漢字分ずつ第2
図に矢印で示すようにシフトされ、この結果漢字列に□
に2・・・Knから順次重に1、K工に2・・・、Kn
土が切り出されて演算制御部2に供給される。
第2図に散点で示すようなウィンドウを施こして継続す
る2つの漢字上、K1漢字Ki−□、K1または漢字K
n、土を演算制御部2に送出する。このウィンドウは上
述動的計画法における漢字の遷移の各々に対応し、この
ウィンドウがその遷移の推移に従って1漢字分ずつ第2
図に矢印で示すようにシフトされ、この結果漢字列に□
に2・・・Knから順次重に1、K工に2・・・、Kn
土が切り出されて演算制御部2に供給される。
演算制御部2はこのように送出されてくる漢字Ki−□
、ki(±)をキーとして確率辞書データベース3をア
クセスして漢字に1−1、Ki間の実現可能な複数の状
態遷移確率PROBを得る。この確率辞書データベース
3は前段漢字Xい当設漢字XR前段状態PS及び出段状
態CSに応じて状態遷移確率PROBをアクセスできる
ようになっており、その詳細は第5図を参照口でのちに
理解されるであろう。
、ki(±)をキーとして確率辞書データベース3をア
クセスして漢字に1−1、Ki間の実現可能な複数の状
態遷移確率PROBを得る。この確率辞書データベース
3は前段漢字Xい当設漢字XR前段状態PS及び出段状
態CSに応じて状態遷移確率PROBをアクセスできる
ようになっており、その詳細は第5図を参照口でのちに
理解されるであろう。
上述したように動的計画法では前回の遷移におけるテス
1へで、前段の記号上から漢字Ki−□にいたるルート
が前段状態PSごとに〕っずつ確定されている。そして
新たな遷移においては漢字Kiの出段状態C8ごとにど
のルートが最適かをテストすることとなる。もちろん到
達確率が一番大きいものが最適のルートとして選ばれ、
これを当設到達状態遷移C3TTとし、対応する到達確
率を当設到達確率CPRBとしよう。
1へで、前段の記号上から漢字Ki−□にいたるルート
が前段状態PSごとに〕っずつ確定されている。そして
新たな遷移においては漢字Kiの出段状態C8ごとにど
のルートが最適かをテストすることとなる。もちろん到
達確率が一番大きいものが最適のルートとして選ばれ、
これを当設到達状態遷移C3TTとし、対応する到達確
率を当設到達確率CPRBとしよう。
演算制御部2では以上の処理を実行するために前回の遷
移のテストで前段状態PSごとに求められ前段到達確率
PPRB (I)、PPRB (P)、PPRB (]
、) 、PPRB (2)及びPPRB(S)に今回の
状態遷移確率PROBを掛けX=PPRBXPROBを
得、この中から出段状態C8ごとに最大のものを選び当
段到達確CPRBとし、対応する到達状態遷移を当設到
達状態遷移C3TTとして当設作業域4にストアするの
である。
移のテストで前段状態PSごとに求められ前段到達確率
PPRB (I)、PPRB (P)、PPRB (]
、) 、PPRB (2)及びPPRB(S)に今回の
状態遷移確率PROBを掛けX=PPRBXPROBを
得、この中から出段状態C8ごとに最大のものを選び当
段到達確CPRBとし、対応する到達状態遷移を当設到
達状態遷移C3TTとして当設作業域4にストアするの
である。
なお話は前後するけれども、以上の説明から明らかなよ
うに当設到達確率CPRB及び当設状態遷移C3TTを
求めるには前段到達確率PPRB等が必要であり、これ
は前段作業域5にストアされている。
うに当設到達確率CPRB及び当設状態遷移C3TTを
求めるには前段到達確率PPRB等が必要であり、これ
は前段作業域5にストアされている。
尚、上述当設作業域4及び前段作業域5はそれぞれ第3
図及び第4図に示すように準備される。
図及び第4図に示すように準備される。
また確率辞書データベース3は第5図A、B及びCに示
すように3種類のチーフルTBI、TB2及びTB3を
有する構造で状態遷移確率PROBをアクセスし得るよ
うになっている。この構成によれば多数の漢字の配列を
効率よくアクセスすることができる。
すように3種類のチーフルTBI、TB2及びTB3を
有する構造で状態遷移確率PROBをアクセスし得るよ
うになっている。この構成によれば多数の漢字の配列を
効率よくアクセスすることができる。
第5図から明らかなようにテーブルTBIにおいては前
段漢字xLおよび当設漢字XRからなる配列X L X
Rがその行番号、コを用いてX1Xn(j)として表
記可能である。例えば「国会」という配列はXLXR(
1024)として表記される。そしてこの行Jごとにテ
ーブルTB2へのポインタPT2(j)が付されており
、このテーブルT I32では配列XLXR(j)の各
々の前段可能状態PS(■、P、1.2、Sのいずれか
である)ごとに行kが割り当てられている。従って、所
定の配列XLXt+(j)における前段状態PSはPS
(k、j)と表記可能である。 テーブルTB2にお
いても各行にごとにテーブルTB3へのポインタPT3
(kl、〕)が付されており、このテーブル3では先の
前段状態Ps (k、j)の各々の出段状態Cs (p
、王、2、S、Fのいずれかである。)ごとに行番号Ω
が割り当てられている。従って所定の漢字配列XLXR
(j ) 、所定の前段状態PS(k、J)における当
設状態CSはC8(Q、k、j)と表記可能である。こ
のテーブルTB3の各行Ωには対応する状態遷移確率P
ROBがストアされている。所定の配列XLXu(j)
がPS(kl、j )及びCs (Q、に、j)をとる
状態遷移確率PROBをPROB (Ω、k、j)と表
記できることはもちろんである。
段漢字xLおよび当設漢字XRからなる配列X L X
Rがその行番号、コを用いてX1Xn(j)として表
記可能である。例えば「国会」という配列はXLXR(
1024)として表記される。そしてこの行Jごとにテ
ーブルTB2へのポインタPT2(j)が付されており
、このテーブルT I32では配列XLXR(j)の各
々の前段可能状態PS(■、P、1.2、Sのいずれか
である)ごとに行kが割り当てられている。従って、所
定の配列XLXt+(j)における前段状態PSはPS
(k、j)と表記可能である。 テーブルTB2にお
いても各行にごとにテーブルTB3へのポインタPT3
(kl、〕)が付されており、このテーブル3では先の
前段状態Ps (k、j)の各々の出段状態Cs (p
、王、2、S、Fのいずれかである。)ごとに行番号Ω
が割り当てられている。従って所定の漢字配列XLXR
(j ) 、所定の前段状態PS(k、J)における当
設状態CSはC8(Q、k、j)と表記可能である。こ
のテーブルTB3の各行Ωには対応する状態遷移確率P
ROBがストアされている。所定の配列XLXu(j)
がPS(kl、j )及びCs (Q、に、j)をとる
状態遷移確率PROBをPROB (Ω、k、j)と表
記できることはもちろんである。
以下では必要に応じて行番号j、に、Qを用いて配列、
状態遷移、確率等を特定することとする。
状態遷移、確率等を特定することとする。
つぎに第6図及び第7図のフローチャートをも参照しな
がら第1図の実施例についてさらに詳細に説明しよう。
がら第1図の実施例についてさらに詳細に説明しよう。
第]−図の入力段1が分割すべき漢字列KIK2・・・
Knを受は取ると第6図及び第7図で示す手順が開始さ
れる(ステップ11)。こののち当設作業域4及び前段
作業域5がそれぞれ第3図及び第4図に示すように初期
設定される(ステップ12)。
Knを受は取ると第6図及び第7図で示す手順が開始さ
れる(ステップ11)。こののち当設作業域4及び前段
作業域5がそれぞれ第3図及び第4図に示すように初期
設定される(ステップ12)。
これら第4図及び第5回で空欄となっている部分は無視
(Don’ t care)の部分である。初期状態で
は前段状態PSは「土」に対応する開始ブランク状態工
でしかあり得ないので、対応する到達確率PPRB (
I)が1.0であり、他の到達確率PPRB (I以外
)が0.0であることに留意されたい。
(Don’ t care)の部分である。初期状態で
は前段状態PSは「土」に対応する開始ブランク状態工
でしかあり得ないので、対応する到達確率PPRB (
I)が1.0であり、他の到達確率PPRB (I以外
)が0.0であることに留意されたい。
ステップ13ではウィンドウが施こされるレジスタ■L
−0及びILのサフィックスLがL=1に初期設定され
る。これはウィンドウが第2図に散点で示すように送室
されることを意味する。このウィンドウはのちにステッ
プ29において順次第2図の矢印に示すようにシフトさ
れられていく。
−0及びILのサフィックスLがL=1に初期設定され
る。これはウィンドウが第2図に散点で示すように送室
されることを意味する。このウィンドウはのちにステッ
プ29において順次第2図の矢印に示すようにシフトさ
れられていく。
ステップ14〜26は当設状態csごとに当設到達確率
CPRB及び当設到達状態遷移C3TTを求めるもので
ある。
CPRB及び当設到達状態遷移C3TTを求めるもので
ある。
上述したように当設到達確率CPRBを得るには前回の
テストで決定された複数の前段到達確率PPRBのそれ
ぞれに今回の対応する状態遷移確率PROBを掛け、X
=PPRBXPROBを得、この中から最大のものを選
ばなければならない。
テストで決定された複数の前段到達確率PPRBのそれ
ぞれに今回の対応する状態遷移確率PROBを掛け、X
=PPRBXPROBを得、この中から最大のものを選
ばなければならない。
この実施例では前段状態PSを変えながら順次対応する
値Xを求め、その都度それまでの最大のXの値と今求め
たXの値とを比較し、大きいほうを所定の領域、具体的
には第3図のフィールドC3TTにストアしていく。前
段状態PSのすべてに上述の処理を実行しおえると、正
規の最大値即ち当設到達確率CPRBがストアされるこ
ことなるのは明らかであろう。また、この実施例では当
設状態CSごとに対応するXの暫定的な最大値を第3図
の対応するフィールドC3TTにストアするようにして
いるので、当設状態C8のすべてについて当設到達確率
CPRB及び当設到達状態遷移C3TTを同時に得るこ
とができる。
値Xを求め、その都度それまでの最大のXの値と今求め
たXの値とを比較し、大きいほうを所定の領域、具体的
には第3図のフィールドC3TTにストアしていく。前
段状態PSのすべてに上述の処理を実行しおえると、正
規の最大値即ち当設到達確率CPRBがストアされるこ
ことなるのは明らかであろう。また、この実施例では当
設状態CSごとに対応するXの暫定的な最大値を第3図
の対応するフィールドC3TTにストアするようにして
いるので、当設状態C8のすべてについて当設到達確率
CPRB及び当設到達状態遷移C3TTを同時に得るこ
とができる。
即ちステップ14ではウィンドウの施こされたレジスタ
IL−x、ILにストアされている漢字K1−1に1を
それぞれ前段漢字XL及び当設漢字X3とする配列X、
L XR(j)が確率辞書データベース3のテーブルT
BIから探し出される。例えば上述の例「国会」では行
jは1024である。次にチーフル1゛B1の行jのポ
インpT2(j)が指定するテーブルTB2の行kを参
照して前段状態PS(k、j)を得(ステップ15)、
この前段可能状態PS (k、j)の前段到達確率PP
RB (PS (k、j))を前段作業域5から得る(
ステップ16)。
IL−x、ILにストアされている漢字K1−1に1を
それぞれ前段漢字XL及び当設漢字X3とする配列X、
L XR(j)が確率辞書データベース3のテーブルT
BIから探し出される。例えば上述の例「国会」では行
jは1024である。次にチーフル1゛B1の行jのポ
インpT2(j)が指定するテーブルTB2の行kを参
照して前段状態PS(k、j)を得(ステップ15)、
この前段可能状態PS (k、j)の前段到達確率PP
RB (PS (k、j))を前段作業域5から得る(
ステップ16)。
ステップ17では前段到達確率PPRB(PS(k、j
))がゼロであるかどうかをテストし、ゼロであれば対
応するルートを考慮する必要がないので直接つぎの前段
状態ps (k、j)につきテストを行う。ステップ2
5及び26において所定の配列XLXn(j)について
実現可能な前段状態PS (k、j)が順次テストされ
ていくことは明らかである。
))がゼロであるかどうかをテストし、ゼロであれば対
応するルートを考慮する必要がないので直接つぎの前段
状態ps (k、j)につきテストを行う。ステップ2
5及び26において所定の配列XLXn(j)について
実現可能な前段状態PS (k、j)が順次テストされ
ていくことは明らかである。
ステップ17で前段到達確率PPRB (PS(k、j
))がゼロでない場合には、ステップ]8が実行されて
テーブル1゛B2の行にのポインタPT3 (k、j)
の指定するテーブルTB3の行Qが参照され。状態遷移
確率PROB (Q、k、j)が得られる。こののちこ
の状態遷移確率PROB (Q、に、、j)と上述で得
た前段到達確率PFRB (ps (k、j))との積
が実行され(ステップ19)、この積の値Xが暫定的な
当設到達確率CPRB (C8(fl、k、、j))と
比較される(ステップ20)、この当設到達確率CPR
B(CS(Ω、k、j))は自段作業域4にストアされ
ている。同時に前段到達状態遷移P S TT(PS(
k、j))に当設状態C8(fl、 k、 、j)を結
合して新たな当設到達状態遷移C3TT (C8CQ、
に、j))として自段作業域4にストアする(ステップ
22)。新たな積の値Xが前回までの暫定的な当設到達
確率cpRB(cs(n、 k、j))より小さい場合
には何もしない。このテストは配列XLXR(j)、前
段到達状態遷移PSTT(k、j)における実現可能な
当設状態C3(n、に、j)につきそれぞれ実行される
(ステップ24)。
))がゼロでない場合には、ステップ]8が実行されて
テーブル1゛B2の行にのポインタPT3 (k、j)
の指定するテーブルTB3の行Qが参照され。状態遷移
確率PROB (Q、k、j)が得られる。こののちこ
の状態遷移確率PROB (Q、に、、j)と上述で得
た前段到達確率PFRB (ps (k、j))との積
が実行され(ステップ19)、この積の値Xが暫定的な
当設到達確率CPRB (C8(fl、k、、j))と
比較される(ステップ20)、この当設到達確率CPR
B(CS(Ω、k、j))は自段作業域4にストアされ
ている。同時に前段到達状態遷移P S TT(PS(
k、j))に当設状態C8(fl、 k、 、j)を結
合して新たな当設到達状態遷移C3TT (C8CQ、
に、j))として自段作業域4にストアする(ステップ
22)。新たな積の値Xが前回までの暫定的な当設到達
確率cpRB(cs(n、 k、j))より小さい場合
には何もしない。このテストは配列XLXR(j)、前
段到達状態遷移PSTT(k、j)における実現可能な
当設状態C3(n、に、j)につきそれぞれ実行される
(ステップ24)。
以上の手順が繰り返されることによって自段作業域4に
は最終的に正規な当設到達確率CPRB(C8CQ、に
、j))及び当設到達状態遷移C3TT (C8(Q、
に、j))がストアされることとなる。
は最終的に正規な当設到達確率CPRB(C8CQ、に
、j))及び当設到達状態遷移C3TT (C8(Q、
に、j))がストアされることとなる。
こののちつぎの遷移のテストの準備が行われる。
即ち、自段作業域4の内容が前段作業域5の対応する領
域に転送され(ステップ28)、さらにPS (I)の
場合の前段到達確率PPRB (I)がゼロにセットさ
れ、当設到達確率CPRBがすべてゼロとされる。CP
RBをゼロとすれば任意の正のXを新たなCPRBとし
てストアすることができることに留意されたい。
域に転送され(ステップ28)、さらにPS (I)の
場合の前段到達確率PPRB (I)がゼロにセットさ
れ、当設到達確率CPRBがすべてゼロとされる。CP
RBをゼロとすれば任意の正のXを新たなCPRBとし
てストアすることができることに留意されたい。
ステップ29においてウィンドウのサフィックスLが増
分されてウィンドウが順次シフトされていくことについ
てはすでに述べた。最後に漢字Kn土についてテストが
行われる。この場合漢字(記号)土が状態F以外をとる
確率はゼロであり、前段到達状態遷移PSTT (F)
が最終的に得られる最も尤度の高いルートである。この
前段到達状態遷移PSTT (F)は入力段1からの終
了信号に基づいてゲート回路6でゲートされ出力される
(ステップ31)。こうして1つの漢字列に工に2・・
・Knの漢字分割が終了する(ステップ32)。
分されてウィンドウが順次シフトされていくことについ
てはすでに述べた。最後に漢字Kn土についてテストが
行われる。この場合漢字(記号)土が状態F以外をとる
確率はゼロであり、前段到達状態遷移PSTT (F)
が最終的に得られる最も尤度の高いルートである。この
前段到達状態遷移PSTT (F)は入力段1からの終
了信号に基づいてゲート回路6でゲートされ出力される
(ステップ31)。こうして1つの漢字列に工に2・・
・Knの漢字分割が終了する(ステップ32)。
以上説明したようにこの実施例によれば確率に基づいて
漢字列を分割するようにしているので極めて高精度に分
割を行うことができる。また確率辞書データベース3を
対象となる漢字列の分野にあわせて選択すれば一層精度
を向上させることができる。さらに動的計画法の手法を
採用しているので効率良く確率を求めることができる。
漢字列を分割するようにしているので極めて高精度に分
割を行うことができる。また確率辞書データベース3を
対象となる漢字列の分野にあわせて選択すれば一層精度
を向上させることができる。さらに動的計画法の手法を
採用しているので効率良く確率を求めることができる。
実験によればこの実施例の分割装置ではJIC3T(科
学技術情報センタ)抄録の漢字列を99゜1%の精度で
分割できた。上述の長尾氏等の論文による手法では、2
文字漢字辞書を用いず一文字渓字のみをキーとした場合
で54.0〜82.6%であり、さらに2文字漢字辞書
を用いた場合でも78.0〜94.9%であり、これに
比較してこの実施例の精度が十分に高いものであること
が理解できる。
学技術情報センタ)抄録の漢字列を99゜1%の精度で
分割できた。上述の長尾氏等の論文による手法では、2
文字漢字辞書を用いず一文字渓字のみをキーとした場合
で54.0〜82.6%であり、さらに2文字漢字辞書
を用いた場合でも78.0〜94.9%であり、これに
比較してこの実施例の精度が十分に高いものであること
が理解できる。
[発明の効果コ
この発明によれば継続する2つの漢字の間で起こる状態
の遷移の確率をストアしている確率辞書手段を利用して
入力連続漢字列の実現可能な状態の系列のうち一番遷移
確率が大となるものを判別し、この判別結果からその入
力連続漢字列の分割を行っている。従って、分割を確率
にのみ依存して行うことができ、その精度を向上させる
ことができる。
の遷移の確率をストアしている確率辞書手段を利用して
入力連続漢字列の実現可能な状態の系列のうち一番遷移
確率が大となるものを判別し、この判別結果からその入
力連続漢字列の分割を行っている。従って、分割を確率
にのみ依存して行うことができ、その精度を向上させる
ことができる。
第1図はこの発明の一実施例を示すブロック図、第2図
は第1図の入力段1を説明するための図、第3図は第1
図の自段作業域を説明するための図、第4図は第1図の
前段作業域を説明する゛ための図、第5図は第1図の確
率辞書データベースを説明するための図、第6図及び第
7図は第1図実施例の動作を説明するフローチャート、
第8図は第1図実施例の概略を説明する図である。 1・・・・入力段、2・・・・確率辞書データベース、
3・・・・演算制御部、4・・・・自段作業域、5・・
・・前段作業域、6・・・・ゲート回路。 第2図 10 11 12 ° ・ ・ ・ ・ InIn
、1第3図 第4図 B1 第5図 第8図 手続補正書(自発) 昭和59年9り/夕日
は第1図の入力段1を説明するための図、第3図は第1
図の自段作業域を説明するための図、第4図は第1図の
前段作業域を説明する゛ための図、第5図は第1図の確
率辞書データベースを説明するための図、第6図及び第
7図は第1図実施例の動作を説明するフローチャート、
第8図は第1図実施例の概略を説明する図である。 1・・・・入力段、2・・・・確率辞書データベース、
3・・・・演算制御部、4・・・・自段作業域、5・・
・・前段作業域、6・・・・ゲート回路。 第2図 10 11 12 ° ・ ・ ・ ・ InIn
、1第3図 第4図 B1 第5図 第8図 手続補正書(自発) 昭和59年9り/夕日
Claims (1)
- 【特許請求の範囲】 継続する2つの漢字の間で起こる状態の遷移の確率がス
トアされている確率辞書手段と、 基本漢字列が複合されてなる入力複合漢字列の実現可能
な状態の系列のうち一番生起確率が大となるものを上記
確率辞書手段を参照して判別する判別手段と、 この判別手段で判別された状態の系列に基づいて上記入
力複合漢字列を上記基本漢字列に分割する分割手段とを
有することを特徴とする複合漢字列分割装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13923984A JPS6126175A (ja) | 1984-07-06 | 1984-07-06 | 複合漢字列分割装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13923984A JPS6126175A (ja) | 1984-07-06 | 1984-07-06 | 複合漢字列分割装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6126175A true JPS6126175A (ja) | 1986-02-05 |
JPH0347547B2 JPH0347547B2 (ja) | 1991-07-19 |
Family
ID=15240707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13923984A Granted JPS6126175A (ja) | 1984-07-06 | 1984-07-06 | 複合漢字列分割装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6126175A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6389975A (ja) * | 1986-10-03 | 1988-04-20 | Ricoh Co Ltd | 言語解析装置 |
JPH0250261A (ja) * | 1988-08-11 | 1990-02-20 | Nec Corp | 形態素分解方式 |
JPH0262665A (ja) * | 1988-08-29 | 1990-03-02 | Nec Corp | 形熊素分解方式 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5990167A (ja) * | 1982-11-12 | 1984-05-24 | Fujitsu Ltd | 文章解析装置 |
-
1984
- 1984-07-06 JP JP13923984A patent/JPS6126175A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5990167A (ja) * | 1982-11-12 | 1984-05-24 | Fujitsu Ltd | 文章解析装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6389975A (ja) * | 1986-10-03 | 1988-04-20 | Ricoh Co Ltd | 言語解析装置 |
JPH0250261A (ja) * | 1988-08-11 | 1990-02-20 | Nec Corp | 形態素分解方式 |
JPH0262665A (ja) * | 1988-08-29 | 1990-03-02 | Nec Corp | 形熊素分解方式 |
Also Published As
Publication number | Publication date |
---|---|
JPH0347547B2 (ja) | 1991-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112016001365T5 (de) | Verlerntechniken für adaptive sprachmodelle bei der texteingabe | |
Mair | Creolisms in an emerging standard: Written English in Jamaica | |
KR20070098252A (ko) | 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템 | |
CN107391667A (zh) | 一种词条处理方法及移动终端 | |
JPS6126175A (ja) | 複合漢字列分割装置 | |
Gabrielian | Pure grammars and pure languages | |
US7672965B2 (en) | Finite-state machine augmented for multiple evaluations of text | |
JP4566094B2 (ja) | 学習機能付き電子機器、ヒント表示用プログラム、および、プログラムを記録した記録媒体 | |
JPH04169969A (ja) | 通信文自動分割蓄積装置 | |
Jordan | “Besides Moreover However and but” Conjunctions—Order Out of Confusion | |
JPS6142061A (ja) | 日本語文字の状態遷移確率の生成方法 | |
JPH03131960A (ja) | 文字処理方法およびその装置 | |
JPS5851309B2 (ja) | 文字選択処理方式 | |
KR100598020B1 (ko) | 전화기를이용한문자입력시스템 | |
Byun et al. | Automatic spelling correction rule extraction and application for spoken-style korean text | |
Ross | The K factor | |
JPH0785040A (ja) | 表記不統一検出方法およびかな漢字変換方法 | |
Veryard | The information society; issues and illusions: D Lyon Polity Press, Blackwell Scientific, Oxford, UK (1988) 196pp£ 27.50 (hardback)£ 8.50 (paperback) | |
Brandin et al. | Three widely differing volumes on information technology | |
JPS59103136A (ja) | カナ漢字変換処理装置 | |
JPS5844437Y2 (ja) | 情報検索装置 | |
JPS59116835A (ja) | 短縮入力機能付日本語入力装置 | |
JPS6217266B2 (ja) | ||
Walker | VARIATION AND'INVARIANTES'-IS UTTERER-CENTRED THEORY EQUIPPED TO DEAL WITH LANGUAGE VARIATION? | |
JPH04316162A (ja) | 形態素解析装置 |