JPS6198472A - カナ漢字変換装置 - Google Patents

カナ漢字変換装置

Info

Publication number
JPS6198472A
JPS6198472A JP59219478A JP21947884A JPS6198472A JP S6198472 A JPS6198472 A JP S6198472A JP 59219478 A JP59219478 A JP 59219478A JP 21947884 A JP21947884 A JP 21947884A JP S6198472 A JPS6198472 A JP S6198472A
Authority
JP
Japan
Prior art keywords
connection matrix
matrix table
connection
row
digit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59219478A
Other languages
English (en)
Inventor
Hirokawa Hayashi
林 大川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59219478A priority Critical patent/JPS6198472A/ja
Publication of JPS6198472A publication Critical patent/JPS6198472A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は、カナ漢字変換装置に関し、特に、単語間の接
続性を示す゛接続行列表を圧縮するのに好適なカナ漢字
変換装置に関する。
従来技術 カナ漢字変換装置における入力方式としては。
■単語単位方式、■漢字部指定方式、■文節単位方式、
■べた書き方式等があるが、■単語単位方式以外の、■
漢字部指定方式、■文節単位方式。
■べた書き方式等においては、入方文に対して文  ゛
法解析を行う必要がある。この文法解析の際、単語間の
接続可能性を判定する必要があり、そのために単語間の
接続情報を表わす接続検定表が広く使用されている。
接続検定衣は通常、行列の形式で示され、接続行列表と
呼ばれている。
第7図は、従来の一般的な接続行列表を示す図である。
第7図に示すように、r前の語」の項目には「前の語」
の品詞を配し、r後の語」の項目にはr後の語」の品詞
を配して、r前の語」とr後の語」の接続性は、「前の
語」と「後の語」の品詞レベルでの接続性を判断してい
る。なお、第7図において、接続値゛0′は接続不能で
あることを示し、接続値’1’、’2’、’3’は接続
可能であることを示し、接続値が大きいほど接続の確率
が高いことを示している1例えば、動詞1の後に動詞l
が接続することは有り得ない、また、名詞lの後には、
動詞1,2,3、名詞l、2.助詞1.2が接続し得る
が、接続する確率の最も高いのは接続値゛3′の助詞l
であり1次位が接続値゛2′の助詞2であり、第3位は
接続値゛1′の動詞1,2,3、名詞1.2である。
従来、接続行列表は、rNHK技術研究」第25巻、第
5号に掲載された論文、相沢、江原「計算機におけるカ
ナ漢字変換JPP261〜298に示されているように
、256行X128列程度のちのが用いられているが、
これを単純に表形式  ・で記憶すると、単語と単語の
接続の可否をlビット(0,1)で表す場合でも256
x128=32768ビツト=4096バイトで約4に
バイトもの記憶容量を必要とする。この接続行列表は、
通常、主記憶上に置かれるので、主記憶占有量が問題と
なっている。さらに単語の品詞分類を細分化しく340
行X256列)、接続の可否も0,1ではなく、上記第
7図のように、接続の強さを表す接続重みまたは接続確
率(例えば0,1,2.3の2ビツトで表す)で示す場
合には、340X256x2=174080=2176
x8=2176バイトで22にバイトもの記憶容量を必
要とする。
従来、この接続行列表を圧縮するため、■単語の種類に
よっては接続する単語の範囲が    1隔られ、接続
しない0の部分がかたまっているので、単語を適当に大
分類しく例えば体言、助詞類。
助動詞類等)、接続行列表を分割し、容量を少なくする
方法。
(■0でない要素だけを集めたノンゼロ要素表を用いる
方法、行列を幾つかのブロックに分け、要素が0のみで
あるブロックは記憶しない等の、0要素の多い行列を扱
う一般的な手法、 が採られていた。
しかし、■の方法は、表の数が多くなり扱いが複雑にな
るうえ、それほど大きな圧縮効果が得られず、さらに、
単純に分割しにくい例外的な単語の扱いが面倒である。
■の方法では、元の表に再構成する手続が面倒である。
目     的 本発明の目的は、上記のような従来技術の問題点を解決
し、メモリ占有量を大幅に圧縮し、かつ容易に検索し得
る接続行列表を備えたカナ漢字変換装置を提供すること
にある。
構成 上記目的を達成するため、本発明の構成は、単語辞書、
単語間の接続情報を示す接続行列表を有し、表音文字に
て入力された文字列に対し、前記単語辞書、接続行列表
を用いてカナ漢字変換処理を行うカナ漢字変換装置にお
いて、前記接続行列表を行または列単位で複数個のブロ
ックに分割した場合に各ブロックに形成される各行また
は各列の中から、その要素の並び方が異なる行または列
のみを抽出した接続行列表本体と、該接続行列表本体の
各要素が前記接続行列表のどの要素に該当するかを示す
接続行列表索引とにより、前記接続行列表を表現し、か
つ、前記要素が多値の場合。
前記接続行列表本体の各行または各列の要素が2進1桁
で表現し得るときは単一の2進1桁ビット列で登録し、
2進1桁で表現し得ないときは桁ごとに分離した複数の
2進1桁ビット列で登録したことに特徴がある。
以下、本発明の構成を一実施例により詳細に説明する。
第2図は、本発明の一実施例によるカナ漢字変換装置の
ブロック図である。
第2図において、lは入力部、2は解析対象文字列作成
部、3は辞書検索部、4は単語辞書、5は接続可否検定
部、6は接続行yI1表、7は評価部、8はバックトラ
ック制御部、9は出力部である。
第3図は第2図における単語辞書4の具体的な内容の一
例を示す図である。
第3図に示すように、単語辞書4には、「読み」。
「表記」、「品詞」、同音語選択に必要な「順位」が記
載しである。
日本語による文章は、表音文字(平仮名、片仮名、ロー
マ字)にて入力部1から入力され、辞書検索の対象とな
る解析対象文字列は、解析対象文字列作成部2により作
成される1作成された解析対象文字列は、その先頭から
辞書検索部3により単語辞書4が検索され、その「読み
」に対応する全ての変換候補が抽出される。
接続可否検定部5は、辞書検索部3により抽出された変
換候補について、直前の変換済単語(変通     換
結果)との接続の可否を、接続行列表6をもとに検定し
、接続可能な変換候補があるか否かを検定する。
評価部7は、接続可能な変換候補について、順位、読み
長、接続の重み等をパラメータとする評価式を用いて評
価を行い、評価値の最も高い変換候補を変換結果として
、出力部9より出力する。
バックトラック制御部8は、辞書検索の結果、該当する
変換候補が1個も存在しない場合、および直前の変換済
単語(変換結果)に接続し得る変換候補が1個も存在し
ない場合は、前の解析が誤っている可能性があるので、
ただちに未登録語処理を行うことなく、直前での解析を
やり直す。
第1図は1本発明の一実施例による接続行列表の圧縮過
程を説明するための図である。
第1図(a)は圧縮前の接続行列表を示し、340行X
256列で、各要素は2ビツト(0,1゜2.3の4段
階)の情報を有する。
第1図(b)は、第1図(a)の接続行列表を縮(列単
位)に等分に4分割した。340行X64列の4つの表
(ブロック)を示す図である。分割によ      1
り得られた4つの表は、それぞれ行の長さが64列で、
各要素は2ビツトの情報を有する。
なお、図中の記号■、■、■、■は、分割により得られ
た4つの表を識別するために1便宜上印したものである
第1図(c)は本発明の一実施例による接続行列表索引
、および接続行列表本体を示す図である。
すなわち、第1図(c)は第1図(b)の4つの各表■
〜(わの各行を1つのレコードとみて、要素の並び方が
異なる、異なりレコードを表■〜■の順に調べ、異なり
レコードの場合は、接続行列表本体に順に登録し、その
レコード位置を第1図(b)の表Φ〜■の順に接続行列
表索引として収納したもので、右側の図が接続行列表本
体、左側の図が接続行列表索引を示している。
すなわち、接続行列表は、その性質上、部分的に見た場
合、要素の並び方が同一のものが数多く存在する。した
がって、上記のように行列の列を4つに分割して4つの
表とし1分割により得られた各表の各行を1つのレコー
ドとみなした場合、同一内容のレコードが多数形成され
る。そこで。
同一内容のレコードの重複を避け、異なる内容のレコー
ド(異なりレコード)のみを接続行列表本体1;記憶す
ることにより、接続行列表のメモリ占有量を大幅に圧縮
することが可能になる。
このようにした場合、異なりレコードは518個存在す
ることが判明した。
上記のように分割した結果、第1図(c)の接続行列表
索引の行アドレス341は、第1図(b)に示す分割し
た表■の第1行目に相当し、同様に行アドレス681は
表■の第1行目、行アドレス1021は表■の第1行目
に相当する。
第1図(d)は、接続行列表本体への各異なりレコード
の要素の登録方法を説明するための図である。なお、異
なりレコードの要素(多値接続杆)は。
実際には2ビツト(2進2桁)にて構成されているが2
図では10進数で示している。
第1図(d)に示した第1異なりレコードのように、異
なりレコードの要素が、rooolllol・・・」と
、2値(0,1)のみで構成されているとき(タイプ1
)は、各要素を1ビツトで表現し、2進1桁ビット列と
して登録し、「後続フラグノの欄をrQJにする6タイ
ブ1の異なりレコードを2進1桁ビット列とすることに
より、1個のタイプlの異なりレコードにつき、64ビ
ツト低減することかできる。
第2異なりレコードのように、異なりレコードの要素が
r00012302・・・」と、3値以上(0,1,2
,3)で構成されているとき(タイプ2)は、2ビツト
(2進2桁)roOJ、rol」。
NoJ 、rl Nで構成された要素の、下位桁(2進
化ビット列)を第1行(第1図(d)の■)、上位桁(
2進化ビット列)を第2行(第1図(d)の■)とし、
接続行列表本体に■、■の順に登録する。この際、■の
後続フラグを「1」、■の後続フラグを「0」とする、
すなわち、接続行列表本体を検索する際、後続フラグが
rlJの場合は。
次の行の2進IFビット列を本来の要素を示す2進2桁
ビット列の上位桁とする。
鬼 、j       なお、接続番号は、第1図(c)の
接続行列表水j′ 体では、第1図(b)における異なりレコードの通番で
示しであるが、タイプ2のレコードを接続行列表本体に
登録する場合は、上記のように2進2桁ビット列を上位
桁と下位桁に分離して異なる行としたため、実際には、
接続行列表本体の行の通番で示しである。
実測結果では、518個の異なりレコードのうち、タイ
プ1は322個であり、タイプ2は196個であった。
したがって、第1図の方法で圧縮すると、第1図(a)
では340行×256列×2ビット=21760バイト
であるのに対し、第1図(c)では、接続行列表索引の
ルコードを2バイトで表わすと。
■接続行列表索引=340行×4個×2バイト=272
0バイト ■接続行列表本体=64列×(タイプlの異なリレコー
ド数(322行)×1ビット十タイプ2の異なりレコー
ド数(196行)x2ビット)十後続フラグ総数(2進
1桁ビット列の総数)=64X(32’2X1+196
X2)+714=5802     1バイト ■、■の合計は、2720バイト+58o2バイト=8
522バイトで約8.5にバイトとなり。
約]/2.5に圧縮することができる。
第4図は、第1図(c)に示した接続行列表索引を用い
て接続行列表本体を検索する際の処理フローを示す図で
ある。
前の語の「品詞」を示すコード(単語辞書4がら得られ
る)から、圧縮前の仮想的な接続行列表(正規の接続行
列表)における行アドレスをセットする(401)。次
に、後の語の「品詞」を示すコードから、圧縮前の仮想
的な接続行列表における列アドレスをセットする(40
2)。
この行2列アドレスから1本実施例による接続行列表索
引の行アドレス、および接続行列表本体の列アドレスを
求める(403)。
今、正規の接続行列表において、前の語の位置を示す行
アドレスをi、後の語の位置を示す列アドレスをjとす
る。この場合、j/64の商の第1位をnとすると、後
の語は、第1図(、b)の(n+1)表に属することと
なる。したがって、接続行列表索引の対応する行アドレ
スpは。
p = i + n X 340          
     (1)により求めることができる。
一方、後の語の位置を示す列アドレスjに対応する接続
行列表本体の列アドレスqは、q=j−nX64   
         (2)により求めることができる。
前の語に対応する接続行列表索引の行アドレスPが得ら
れると、その行アドレスPにより接続行列表本体との接
続番号を認識することができるので(404)、認識し
た接続番号に相当する接続行列表本体の行を検索し、上
記列アドレスqとの交点より1ビツトの情報を得る(、
405)。1ビツトの情報を得た後、当該性の後続フラ
グを検索し。
「0」の場合は上記1ビツトの情報を接続値とする(4
06,407)。後続フラグが「1」の場合は、さらに
次の行を検索し、上記列アドレスqとの交点より1ビツ
トの情報を得る(406,408)。
最後に、接続番号に相当する行から得られたlビットの
情報を下位桁、次の行から得られた1ビツトの情報を上
位桁とする2進2桁の情報を接続値とする(409)。
このように、本実施例では、簡単な手続により元の表(
正規の接続行列表)に再構成することができる。
第5図は、第2の実施例を説明するための図である。本
実施例は、接続行列表を4分割して異なりレコードのみ
を接続行列表本体に登録した点は。
第1図と同じである。第1図と異なるのは、接続行列表
本体を256レコートの頁単位に分割することで、接続
行列表索引のルコードを10ビツト(2ビツト+8ビツ
ト)で表現し、接続行列表索引の圧縮化を図った点であ
る。もっとも、本実施例においては、1頁を256レコ
ードとしたため第1図のように接続行列表本体の総行数
が714行の場合、実質的には第3頁の第202行まで
に全ての情報が格納され、それ以降は空きとなる。
この方法によれば、接続行列表索引は、10バ!   
イ)−X340HX4(1=17゜。73イh 、!l
: t !J 。
接続行列表本体の5802バイトと合わせると。
接続行列表全体を約7.5にバイトにすることができ、
メモリ容量を第1の実施例よりさらに約1にバイト削減
することができる。
第6図は1本発明の第3の実施例による接続行列表本体
を示す図である。
本接続行列表本体は、本来の2進2桁ビット列を上位桁
と下位桁に分離し、タイプ1の場合は。
下位桁の2進1桁ビット列のみで表現し、タイプ2の場
合は、上位桁、下位桁の2つの2進1桁ビット列に分離
して表現する点では、第1図、および第5図の実施例と
同じである。本実施例の特徴は、上位桁と下位桁の2進
1桁ビット列を別々の行に収納することなく、同一の行
に連続して収納し。
下位桁と上位桁の間に連続情報を設けたことにある。図
中、Oで囲った0、1が連続情報である。
図に示したように、連続情報を1ビツトの「0」。
「1」で表現し、他を第1図、または第5図と同様の手
法で構成した場合、メモリ容量は、それぞれ第1図、ま
たは第5図の実施例と同じである。      みテ 本実施例においては、接続番号を接続行列表本体の総行
数(異なりレコード数)に一致させることができる。
なお、上記各実施例は、正規の接続行列表を4分割した
例であったが、本発明は4分割に限定されることなく、
分割数は自由である。
また、接続行列表の要素が0〜3の2進2桁の例で説明
したが、2進3桁以上の多値で示される要素の場合も同
様に1桁ごとに分離した複数の2進1桁ビット列により
要素を表現することにより、接続行列表に必要なメモリ
容量を大幅に低減することができる。さらに、列単位で
分割する例により説明したが、行単位で分割した場合に
も同様の効果を得ることができる。また、メモリ占有量
が問題となるシステムでは、接続行列表本体を外部ファ
イルとし、内部メモリ上の接続行列表索引により検索す
ることも可能である。もちろん、接続行列表本体、接続
行列表索引の両方を外部ファイルとすることも可能であ
る。さらに、上記各実施例は、べた書き入力方式のカナ
漢字変換装置に適用した例であったが、本発明は、漢字
部指定方式。
文節単位方式のカナ漢字変換装置にも適用し得ることは
言うまでもない。
効   果 以上説明したように、本発明のカナ漢字変換装置によれ
ば、メモリ占有量を大幅に圧縮し、かつ容易に検索し得
る接続行列表を実現することが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例による接続行列表を説明する
ための図、第2図は第1図を適用したカナ漢字変換装置
のブロック図、第3図は第2図における単語辞書の一例
を示す図、第4図は第2図における接続可否検定部の処
理フローを示す図。 第5図は本発明の第2の実施例による接続行列表を示す
図、第6図は本発明の第3の実施例による接続行列表本
体を示す図、第7図は従来の一般的な接続行列表を示す
図である。 に入力部、2:解析対象文字列作成部、3:辞書検索部
、4:単語辞書、5:接続可否検定部、6:接続行列表
、7:評価部、8:バノクトランク制御部、9:出力部
。 第2図 第3図 累    5    ス 第6図 男7図

Claims (2)

    【特許請求の範囲】
  1. (1)単語辞書、単語間の接続情報を示す接続行列表を
    有し、表音文字にて入力された文字列に対し、前記単語
    辞書、接続行列表を用いてカナ漢字変換処理を行うカナ
    漢字変換装置において、前記接続行列表を行または列単
    位で複数個のブロックに分割した場合に各ブロックに形
    成される各行または各列の中から、その要素の並び方が
    異なる行または列のみを抽出した接続行列表本体と、該
    接続行列表本体の各要素が前記接続行列表のどの要素に
    該当するかを示す接続行列表索引とにより、前記接続行
    列表を表現し、かつ、前記要素が多値の場合、前記接続
    行列表本体の各行または各列の要素が2進1桁で表現し
    得るときは単一の2進1桁ビット列で登録し、2進1桁
    で表現し得ないときは桁ごとに分離した複数の2進1桁
    ビット列で登録したことを特徴とするカナ漢字変換装置
  2. (2)前記接続行列表本体は、ページ単位に分割され、
    前記接続行列表索引は、分割された当該接続行列表本体
    のページ番号を示すページ選択ビットを有することを特
    徴とする特許請求の範囲第1項記載のカナ漢字変換装置
JP59219478A 1984-10-19 1984-10-19 カナ漢字変換装置 Pending JPS6198472A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59219478A JPS6198472A (ja) 1984-10-19 1984-10-19 カナ漢字変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59219478A JPS6198472A (ja) 1984-10-19 1984-10-19 カナ漢字変換装置

Publications (1)

Publication Number Publication Date
JPS6198472A true JPS6198472A (ja) 1986-05-16

Family

ID=16736061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59219478A Pending JPS6198472A (ja) 1984-10-19 1984-10-19 カナ漢字変換装置

Country Status (1)

Country Link
JP (1) JPS6198472A (ja)

Similar Documents

Publication Publication Date Title
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
US5560037A (en) Compact hyphenation point data
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
Al-Fedaghi et al. Morphological compression of Arabic text
JPS6198472A (ja) カナ漢字変換装置
JPH05266079A (ja) 複合のターゲット語に関するデータを決定するための装置及び方法
JPS61128367A (ja) カナ漢字変換装置
JPH056398A (ja) 文書登録装置及び文書検索装置
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JPS61128366A (ja) カナ漢字変換装置
JP2785168B2 (ja) 単語検索のための電子辞書圧縮方法及び装置
JPH0140372B2 (ja)
JPS6198473A (ja) カナ漢字変換装置
JPH0140370B2 (ja)
JPS6057421A (ja) 文書作成装置
JPS62139076A (ja) 言語解析方式
JPH0410104B2 (ja)
JPH0227423A (ja) 日本語文字データの並び換え方法
JP3187671B2 (ja) 電子辞書表示装置
JP2900628B2 (ja) 辞書検索装置
JP2947832B2 (ja) 単語照合方法
JPH0140371B2 (ja)
JP3127969B2 (ja) 辞書記憶装置
JPS61184682A (ja) 仮名漢字変換装置
JPS62144269A (ja) 情報検索装置