JPS61128367A

JPS61128367A - カナ漢字変換装置

Info

Publication number: JPS61128367A
Application number: JP59251205A
Authority: JP
Inventors: Hirokawa Hayashi; 林　大川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-11-28
Filing date: 1984-11-28
Publication date: 1986-06-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は、カナ漢字変換装置に関し、特に、単語間の接
続性を示す接続行列表を圧縮するのに好適なカナ漢字変
換装置に関する。

従来技術カナ漢字変換装置における入力方式としては。

■単語単位方式、■漢字部指定方式、■文節単位方式、
■べた書き方式等があるが、■単語単位方式以外の、■
漢字部指定方式、■文節単位方式。

■べた書き方式等においては、入力文に対して文法解析
を行う必要がある。この文法解析の際、単語間の接続可
能性を判定する必要があり、そのために単語間の接続情
報を表わす接続検定表が広く使用されている。

接続検定表は通常、行列の形式で示され、接続行列表と
呼ばれている。

第６図は、従来の一般的な接続行列表を示す図である。

第６図に示すように、ｒ前の語」の項目にはｒ前の語」
の品詞を配し、ｒ後の語」の項目にはｒ後の語」の品詞
を配して、ｒ前の語」とｒ後の語」の接続性は、ｒ前の
語」とｒ後の語」の品詞レベルでの接続性を判断してい
る。なお、第７図において、接続値゛Ｏ′は接続不能で
あることを示し、接続値’ｌ’、’２’、’３’は接続
可能であることを示し、接続値が大きいほど接続の確率
が高いことを示している０例えば、動詞ｌの後に動詞ｌ
が接続することは有り得ない。また１名詞１の後には、
動詞１，２，３、名詞１，２．助詞１，２が接続し得る
が、接続する確率の最も高いのは接続値゛３′の助詞ｌ
であり、次位が接続値゛２′の助ｆｆ１２であり、第３
位は接続値゛ｌ′の動詞１，２，３．名詞１，２である
。

従来、接続行列表は、ｒＮＨＫ技術研究」第２５巻、第
５号に掲載された論文、相沢、２１．原「計算機におけ
るカナ漢字変換ＪＰＰ２６Ｌ〜２９８に示されているよ
うに、２５６行×１２８列程度のものが用いられている
が、これを単純に表形式で記憶すると、単語と単語の接
続の可否を１ビツト（０，１）で表す場合でも２５６Ｘ
ｌ　２８＝３２７６８ビット＝、４０９６バイトで約４
にバイトもの記憶容量を必要とする。この接続行列表は
１通常、主記憶上に置かれるので、主記憶占有量が問題
となっている。さらに単語の品詞分類を細分化しく３４
０行×２５６列）、接続の可否も０．１ではなく、上記
第７図のように、接続の強さを表す接続重み、または接
続確率（例えば０，１，２．３の２ビツトで表す）で示
す場合には、３４０Ｘ２５６Ｘ２＝１７４０８０＝２１
７６Ｘ８＝２１７６バイトで２２にバイトもの記憶容量
を必要とする。

従来、この接続行列表を圧縮するため、■単語の種類に
よっては接続する単語の範囲が限られ、接続しない０の
部分がかたまっているので、単語を適当に大分類して（
例えば体言、助詞類、助動詞類等）接続行列表を分割し
、容量を少なくする方法、 ■０でない要素だけを集めたノンゼロ要素表を用いる方
法１行列を幾つかのブロックに分け、要素が０のみであ
るブロックは記憶しない等の、Ｏ要素の多い行列を扱う
一般的な手法、が採られていた。

しかし、■の方法は１表の数が多くなり扱いが複雑にな
るうえ、それほど大きな圧縮効果が得られず、さらに、
単純に分割しにくい例外的な単語の扱いが面倒である。

■の方法では、元の表に再構成する手続が面倒である。

目的本発明の目的は、上記のような従来技術の問題点を解決
し、メモリ占有量を大幅に圧縮し、かつ容易に検索し得
る接続行列表を備えたカナ漢字変換装置を提供すること
にある。

構成上記目的を達成するため１本発明の構成は、単語辞書、
単語間の接続情報を示す接続行列表を有し１表音文字に
て入力された文字列に対し、前記単語辞書、接続行列表
を用いてカナ漢字変換処理を行うカナ漢字変換装置にお
いて、前記接続行列表を行または列単位で複数個のブロ
ックに分割した場合に各ブロックに形成される各行また
は各列の中から、その要素の並び方が異なる行または列
のみを抽出した接続行列表本体と、該接続行列表本体の
各要素が前記接続行列表のどの要素に該当するかを示す
接続行列表索引とにより、前記接続行列表を表現し、か
つ、前記要素が２進ｎ°桁で表現される多値の場合、前
記接続行列表本体の各行。

または各列の要素を１桁の２進１桁に分けて見たとき、
異なるビット列となるもののみを登録したことに特徴が
ある。

以下、本発、明の構成を一実施例により詳細に説明する
６第２図は９本発明の一実施例によるカナ漢字変換装置の
ブロック図である。

第２図において、１は入力部、２は解析対象文字列作成
部、３は辞書検索部、４は単語辞書、５は接続可否検定
部、６は接続行列表、７は評価部。

８はバックトラック制御部、９は出力部である。。

第３図は第２図における単語辞書４の具体的な内容の一
例を示す図である。

第３図に示すように、単語辞書４には、「読み」。

「表記」、「品詞」、同音語選択に必要な「順位」が記
載しである。

日本語による文章は１表音文字（平仮名１斥仮名、ロー
マ字）にて入力部１から入力され、辞書検索の対象とな
る解析対象文字列は、解析対象文字列作成部２により作
成される。作成された解析対象文字列は、その先頭から
辞書検索部３により単語辞書４が検索され、その「読み
」に対応する全ての変換候補が抽出される。

接続可否検定部５は、辞書検索部３により抽出された変
換候補について、直前の変換済単語（変換結果）との接
続の可否を、接続行列表６をもとに検定し、接続可能な
変換候補があるか否かを検定する。

評価部７は、接続可能な変換候補について、順位、読み
長、接続の重み等をパラメータとする評価式を用いて評
価を行い、評価値の最も高い変換候補を変換結果として
、出力部９より出力する。

バックトラック制御部８は、辞書検索の結果。

該当する変換候補が１個も存在しない場合、および直前
の変換済単語（変換結果）に接続し得る変換候補が１個
も存在しない場合は、前の解析が誤っている可能性があ
るので、ただちに未登録語処理を行うことなく、直前で
の解析をやり直す。

第１図は１本発明の一実施例による接続行列表の圧縮過
程を説明するための図である。

第１図（ａ）は圧縮前の接続行列表を示し、３４０行×
２５６列で、各要素は２ビツト（０，１，２゜３の４段
Ｎ）の情報を有する。

第１図（ｂ）は、第１図（ａ）の接続行列表を縦（列単
位）に等分に４分割した。３４０行×６４列の４つの表
（ブロック）を示す図である１分割により得られた４つ
の表は、それぞれ行の長さが６４列で、各要素は２ビツ
トの情報を有する。

なお、図中の記号■、■、■、■は、分前により得られ
た４つの表を識別するために、便宜上印したものである
。

第１図（ｃ）は本発明の一実施例による接続行列表索引
、および接続行列表本体を示す図である。

すなわち、第１図（ｃ）は第１図（ｂ）の４つの各機■
〜■の各行を１つのレコードとみて、要素の並び方が異
なる。異なりレコードを表■〜■の順に調べ、異なりレ
コードの場合は、接続行列表本体に順に登録し、そのレ
コード位置を第１図（ｂ）の表■〜■の順に接続行列表
索引として収納したもので、右側の図が接続行列表本体
、左側の図が接続行列表索引を示している。

すなわち、接続行列表は、その性質上１部分的に見た場
合、要素の並び方が同一のものが数多く存在する。した
がって、上記のように行列の列を４つに分割して４つの
表とし、分割により得られた各機の各行を１つのレコー
ドとみなした場合、同一内容のレコードが多数形成され
る。そこで。

同一内容のレコードの重複を避け、異なる内容のレコー
ド（異なりレコード）のみを接続行列表本体に記憶する
ことにより、接続行列表のメモリ占有量を大幅に圧縮す
ることが可能になる。

このようにした場合、異なりレコードは５１８個存在す
ることが判明した。

第１図（ｄ）は、接続行列表本体への各員なりレコード
の要素の登録方法を説明するための図である。

本実施例の場合、異なりレコードの各要素は。

２進２桁で構成され、それぞれの要素は、上１位桁と下
位桁を有する１例えば、第１図（ｄ）に示した第１異な
りレコード（００１２３１０１・・・）の場合、’００
’、’００’、’０１’、’ｔｏ’。

’１１’、’″０１’、’００’、’０１’、・・・で
あり、上位桁のみのビット列は■で示したように。

ｏｏｏｔｔｏｏｏ・・・、下位桁のみのビット列は■で
示したように、００１０１１０１・・・である、このよ
うにして、異なりレコードの各要素を上位桁のビット列
と下位桁のビット列に分けて見た場合、１２５１８個の
異なりレコード中には、同一のビット列が多数存在する
こととなる０例えば、第１図（ｄ）に示した第１異なり
レコード（ＯＯ１２＝３１Ｏｌ・・・）と、第７異なり
レコード（００３２１１２１〃６）の下位桁のビット列
は、ともに００１０１１Ｏ１・・・である。したがって
、上位桁ビット列。

下位桁ビット列の中から同一のものを除外し、、その内
容が異なるもの（これを、異なりビット列と呼ぶ）のみ
を順に接続行列表本体に登録するようにすれば、さらに
接続行列表のメモリ占有量を圧縮することが可能となる
。

第１図（Ｃ）の接続行列表本体は、このような思想に基
づいて、異なりレコード中の異なりビット列（２進１桁
表示）のみを第１異なりレコードから順に登録したもの
である。これに対応して、第１図（ｃ）の接続行列表索
引は、行アドレス順に、異なりレコードの内容を表す２
個の異なりビット列の接続行列表本体での位置情報（接
続番号）を有する。異なりレコードの内容を表す２個の
異なりビット列を指標する。接続行列表索引の接続番号
は。

異なりレコードの下位桁に相当する異なりビット列を指
標するものを、数の小さい行アドレスに格納し、上位桁
に相当する異なりビット列を指標するものを次の行アド
レスに格納している。す、なわち、接続行列表索引の接
続番号は、２個の接続番号で１つの異なりレコードを指
標している。

実測結果では、５１８個の異なりレコードの中の異なり
ビット列は６９５個であった。したがって、第１図の方
法で圧縮すると、第１Ｉｉ！（ａ）では３４０行×２５
６列×２ビットー２２１７６０バイトであるのに対し、
第１図（ｃ）では、接続行列表索引のルーコードを２バ
イトで表わすと。

■接続行列表索引：３４０行×４個×２バイト×２個＝
５４４０バイト ■接続行列表本体＝６４列×異なりビット列数（６９５
行）×１ビット３５５６０バイト■、■の合計は、５４
４０バイト＋５５６０バイト＝ｔ　１ｏｏｏバイトでＩ
ＩＫバイトとなり。

約１７２に圧縮することができる。

第４図は、第１図（ｃ）に示した接続行列表索引を用い
て接続行列表本体を検索する際の接続可否検定部の処理
フローを示す図である。

前の語の「品詞」を示すコード（単語辞ｉ１４・から得
られる）から、圧縮前の仮想的な接続行列表（正規の接
続行列表）における行アドレスをセットする（４０１）
。次に、後の語の「品詞」を示すコードから、圧縮前の
仮想的な接続行列表における列アドレスをセットする（
４０２）。

この行２列アドレスから、本実施例による接続行列表索
引の行アドレス、および接続行列表本体の列アドレスを
求める（４０３）。

今、正規の接続行列表において、前の語の位置を示す行
アドレスをｉ、後の語の位置を示す列アドレスをｊとす
る。この場合、ｊ／６４の商の第１位をｎとすると、後
の語は、第１図（ｂ）の（ｎ＋１）表に屈することとな
る。したがって、接続行列表索引の対応する２個の行ア
ドレスＰ＋　ｐ＋１は、ｐ　＝　ｉ　＋　ｎ　Ｘ　３４０　Ｘ　２　　　　　　
　　　（Ｌ　）により求めることができる。

一方、後の語の位置を示す列アドレスｊに対応する接続
行列表本体の列アドレスｑは、ｑ＝ｊ−ｎＸ６４　　　
　　　　　　　　　（２）により求めることができる。

前の語に対応する接続行列表索引の２つの行アドレスＰ
＊Ｐ＋１が得られると、それら行アドレスＰ＊Ｐ＋１に
より接続行列表本体との接続番号を認識することができ
るので（４０４）、認識した接続番号に相当する接続行
列表本体の行を検索し、上記列アドレスｑとの交点より
それぞれ１ビツトの情報を得る（４０５）、１ビツトの
情報を得た後。

行アドレスｐに対応する１ビツトの情報を下位桁。

行アドレスｐ＋１に対応する１ビツトの情報を上位桁と
して２進２桁のビットを生成し、これを接続値とする（
４０６）。

このように１本実施例では、簡単な手続により元の表（
正規の接続行列表）に再構成することができる。

第５図は、第２の実施例を説明するための図である０本
実施例は、接続行列表を４分割して異なりビット列のみ
を接続行列表本体に登録した点は。

第１図と同じである。第１図と異なるのは、接続行列表
本体を２５６レコードの頁単位に分割することで、接続
行列表索引のルーコードを１０ビツト（２ビツト＋８ビ
ツト）で表現し、接続行列表索引の圧縮化を図った点で
ある。もっとも、本実施例においては、１頁を２５６レ
コードとしたため第１図のように接続行列表本体の総行
数が６９５行の場合、実質的には第３頁の第８３行まで
に全ての情報が格納され、それ以降は空きとなる。

この方法によれば、接続行列表索引は、１０ビツトＸ３
４０行×４個×２レコード＝３４００バイトとなり、接
続行列表本体の５５６０バイトと合わせると、接続行列
表全体を約９にバイトにすることができ、メモリ容量を
第１の実施例よりさらに約２にバイト削減することがで
きる。

なお、上記各実施例は、正規の接続行列表を４分割した
例であったが１本発明は４分割に限定されることなく、
分割数は自由である。

また、接続行列表の要素が０〜３の２進２桁の例で説明
したが、２進２桁以上の多値で示される要素の場合も同
様に、異なりレコードの要素を桁ごとに分離して異なり
ビット列を抽出し、異なりビット列のみにて接続行列表
本体を表現することにより、接続行列表に必要なメモリ
容量を大幅に低減することができる。さらに、列単位で
分割する例により説明したが、行単位で分割した場合に
も同様の効果を得ることができる。また、メモリ占有量
が問題となるシステムでは、接続行列表本体を外部ファ
イルとし、内部メモリ上の接続行列表索引により検索す
ることも可能である。もちろん、接続行列表本体、接続
行列表索引の画法を外部ファイルとすることも可能であ
る。さらに、上記各実施例は、べた書き入力方式のカナ
漢・字変換。

装置に適用した例だあったが１本発明は、漢字部指定方
式、文節単位方式のカナ漢字変換装、直にも適用し得る
ことは言うまでもない、　　　　−効　　　果以上説明したように１本発明のカナ漢字変換装置によれ
ば、メモリ占有量を大幅に圧縮し、かつ容易に検索し得
る接続行列表を実現することが可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例による接続行列表を説明する
ための図、第２図は第１図を適用したカナ漢字変換装置
のブロック図、第３図は第２図における単語辞書の一例
を示す図、第４図は第２図における接続可否検定部の処
理フローを示す図。第５図は本発明の、第２の実施例による接続行列表を示
す図、第６図は従来の一般的なＩ接続行列表を示す図で
ある。 ■＝入力部、２：解析対象文字列作成部、３：辞書検索
部、４：単語辞書、５：接続可否検定部、６：接続行列
表、７：評価部、８：バックトラック制御部、９：出力
部。第１図６例　　６条刈　　６列　　６４列第　　　　１　　　　図（ｃ）第１図（ｄ）第　　　　２　　　図第３図

Claims

【特許請求の範囲】

（１）単語辞書、単語間の接続情報を示す接続行列表を
有し、表音文字にて入力された文字列に対し、前記単語
辞書、接続行列表を用いてカナ漢字変換処理を行うカナ
漢字変換装置において、前記接続行列表を行または列単
位で複数個のブロックに分割した場合に各ブロックに形
成される各行または各列の中から、その要素の並び方が
異なる行または列のみを抽出した接続行列表本体と、該
接続行列表本体の各要素が前記接続行列表のどの要素に
該当するかを示す接続行列表索引とにより、前記接続行
列表を表現し、かつ、前記要素が２進ｎ桁で表現される
多値の場合、前記接続行列表本体の各行または各列の要
素をｎ桁の２進１桁に分けて見たとき、異なるビット列
となるもののみを登録したことを特徴とするカナ漢字変
換装置。
（２）前記接続行列表本体は、ページ単位に分割され、
前記接続行列表索引は、分割された当該接続行列表本体
のページ番号を示すページ選択ビットを有することを特
徴とする特許請求の範囲第１項記載のカナ漢字変換装置
。