JPS6293746A - カナ漢字変換用辞書 - Google Patents

カナ漢字変換用辞書

Info

Publication number
JPS6293746A
JPS6293746A JP60234865A JP23486585A JPS6293746A JP S6293746 A JPS6293746 A JP S6293746A JP 60234865 A JP60234865 A JP 60234865A JP 23486585 A JP23486585 A JP 23486585A JP S6293746 A JPS6293746 A JP S6293746A
Authority
JP
Japan
Prior art keywords
kanji
kana
word
string
output character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60234865A
Other languages
English (en)
Inventor
Masahito Takahashi
高橋 雅仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60234865A priority Critical patent/JPS6293746A/ja
Publication of JPS6293746A publication Critical patent/JPS6293746A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明はカナで入力された日本語文をカナ漢字混じり文
に変換するワードプロセッサ等のカナ漢字変換装置で用
いる辞書に関するものである。
従来の技術 近年、カナ漢字変換装置は日本語を入力する最も一般的
な方法として、日本語ワードプロセッサを初めとする各
種の日本語処理装置に広(利用されている。
ところで、このようなカナ漢字変換装置では、日本語の
各単語について少なくとも単語の読みと漢字表記を組に
して格納した辞書を用いてカナ列を漢字表記に変換して
いるが、使用者にとって満足のい(カナ漢字変換を行う
ためには最低でも2万語程度の単語を辞書に収容してお
く必要がある。このカナ漢字変換用辞書を固定長形式で
格納すると、固有名詞を除く単語では読み及び漢字表記
の最大文字数は読みが14文字、漢字表記が6文字と考
えれば十分であるので、読みを1バイトコード(J l
56220)、漢字表記を2バイトコード(J l56
226)で格納すると1車語のス己1意容量として26
バイト〈読み、14バイト。
漢字表記:12バイト〉が必要となり、約2万語の単語
を収容した辞書を作成した場合全記憶容量は約512K
Bとなる。したがって、カナ漢字変換用辞書を構成する
ためにはかなり大容量の記憶装置を必要とすることがわ
かる。
このように辞書の容量が大きくなると、ハードウェアの
コスト増大を招くばかりでなく、辞書の検索時間の増大
によるカナ漢字変換の処理速度の低下を引き起こす。
そこで、上記の問題点を改善するために、次のような辞
書容量の圧縮技法が考案されている。即ち、辞書に含ま
れる各単語の読みと漢字表記を可変長形式で記憶装置に
格納する方法や、上記方法に改善を加えて各単語間にお
いて読みや漢字表記のデータの一致する部分が多いこと
に着目し、そのようなデータの重複部分を差分構造を用
いて記憶装置に格納する方法が提案されている。
発明が解決しようとする問題点 しかしながら、上記のような方法は単語単位でカナ漢字
変換を行うために用いる単語の読みと漢字表記の2種類
のデータに関する容積の圧縮を主眼としており、文節単
位でカナ1菜字変換を行うために用いる単語データとし
て読みと漢字表記以々)に不可欠となる品詞データに関
する容量の圧縮については十分に圧縮が行われていると
は言えなかった。
問題点を解決するための手段 本発明は以」−の説明の従来の問題点を解決するため、
辞書の中の各単語の品詞を示す゛データのうち名詞を示
すデータを除いたものである。
作  用 以上の手段により、カナ漢字変換用辞書の圧縮を行うこ
とができる。
実  施  例 以下、本発明の一実施例について図面を参照しながら説
明する。
まず最初に、文節単位で日本語の入力が可能なカナ漢字
変換装置の概要について説明し、その後に辞書の容量圧
縮を行う方法について詳しく述べることにする。
第1図は、文節単位で日本語の入力が可能なカナ漢字変
換装置の一実施例のブロック図である。
第1図において、1は日本語のカナ列を入力する手段と
、入力したノ1十列に対してカナ漢字変換を行うことに
より得られた複数のカナ漢字混じりの出力文字列の中か
ら所望の出力文字列を選択する手段とを備えた入力装置
である。2は入力装置1より入力されたカナ列を記憶す
る入力カナ列記憶部である。3は入力カナ列記憶部2か
らカナ列を読み込みカナ漢字混じりの文字列を発生する
カナ漢字変換制御部である。4は助詞及び助動詞以外の
自立語となりうる単語について、それらの読みと漢字表
記と品詞情報とを対応づけて格納した単語記憶部である
。この単語記1゛す部4が、本発明における容量圧縮の
対象となるカナ漢字変換用辞書を収容している部分であ
る。5は助詞及び助動詞からなる付属語の組情報と単語
間の接続情報とを格納した文法情報記憶部である。6は
カナ漢字変換制御部3から発生されたカナ漢字混じりの
出力文字列の組を格納する出力文字列記憶部である。
7は出力文字列記憶部6に格納された出力文字列の組を
表示する表示装置である。8は表示装置に表示された出
力文字列の組の中から、入力装置1を介して一組の出力
文字列選択されることによ0出力文字列記憶部6から出
力文字列読み込み、それを次に示す文言記憶部9に格納
する出力文字列選択制御部である。9は1回のカナ漢字
変換操作が行われるたびに、使用者によって選択された
出力文字列を順次格納する文書記憶部である。
上記のように構成されたカナ漢字変換装置について、以
下その動作を第2図に示すフローチャートに従って説明
する。
(イ)・・・・使用者が入力装置1より入力したカナ列
を入力カナ列記憶部2に格納4−る。
(ロ)・・・・カナ漢字変換制御部3において以下の動
作を実行する。まず、入力カリ−゛列記憶部2よりカナ
列を読み込み、1を語記憶部4より41語の読みが入力
カナ列の一部または全部と一致するような単語を検索す
る。次に、文法情報記IR部5に格納された付属語の組
情報と単語間の接続情報とを参照しつつ、検索した単語
の組について個)7の単語の品詞情報に着目して該単語
と該単語の読みに後続する入力カナ列の残りの部分とか
ら正しい出力文字列を構成しうるか否かのけんていを行
一つだうえで、文法的に正しいカナ漢字混じりの出力文
字列の組を出力文字列記憶部6に順次格納する。
(ハ)・・・・表示装置7に、出力文字列記憶部6に格
納させているカナ漢字混じりの出力文字列の組を表示す
る。
に)・・・・表示装置7に表示された出力文字列の組の
中から、使用者が入力装置1を用いて選択指示を与えた
一組の出力文字列についてその出力文字列の出力文字列
記憶部6内での位置情報を出力文字列選択制御部8に伝
える。
(ポ)・・・・出力文字列選択制御部8は、(ニ)で得
られた出力文字列記憶B6内の位置情報を基に出力文字
列記憶部6より使用者が選択した出力文字列を読み出し
、それを文書記憶部9に格納する。
上記の(イ)から(ホ)に至る1回のカナ漢字変換の実
行を繰り退すこ七によって、文書記憶部9に作成すべき
文言の内容が蓄債されていく。
以上で、文節単位で日本語の入力が可能なカナ漢字変換
装置の概要についての説明を終えろことにし、次に本発
明の主題であるカナ漢字変換用辞書の容量圧縮について
述べることにする。
ここでは、まず最初に本実施例における辞書のコード体
系を定義し、その後で辞書の圧縮方法とその復元方法を
説明することにする。
第3図は、本実施例で採用する辞書のコード体系を示し
た図である。また、第4図は漢字コードの表現方法を示
した図である。ここで、読みコードはJIS6220(
情報交換用符号)で定義されている7単位符号を用いる
ものとする。この時、読みコードは第3図に示したよう
に16進数で26゛から“5F”までを占有する。漢字
コードはJ l56226 (情報交換用漢字符号系)
で定義されているコードを採用し、第4図のごと<J 
l56226で定義されている符号の第1バイトと第2
バイトを連続する2バイトの領域に格納して表現するも
のとする。ただし、第4図に示したように漢字コードの
ビット7は漢字データ終了フラグとして用い、漢字表記
の最後の1文字の漢字であれば1、その他の時はOとし
、またビット15は常に1とする。この時、漢字コード
の先頭バイトは第3図に示したように16進数で“A1
″から”FE”までを占有する。品詞コードは32通り
の品詞分類を行えば実用上問題はないので′、第3図に
示したように16進数で“60−から“7F”までのコ
ートを用いて表現する。第3図において、上記の説明で
定義された部分を除く領域は未定義のコード領域であり
、これらのコードは更に高密度の容量圧縮を行う際に利
用することができる。以上のようなコード体系を定義す
ると、読みと漢字表記と品詞の各データの区別をそれぞ
れのコードの値自身を調べることにより判定できるので
、これらの3種類のデータの境界を示すための区切り記
号が不要となり、辞書容量の圧縮を行う際に有利となる
次に、上記のコード体系を用いて表現された辞書の容量
圧縮を行う方法を第5図のフローチャートを用いて説明
する。ここで、容量圧縮の対象となる辞書は第6図に示
すような固定長形式でデータを格納しているものとする
。また、16進数”OO“を意味のない無効コードとし
て用いることにする。
(へ)・・・・固定長形式の辞書より同じ読みを持つ単
語の組を読み出し、作業用バッファに固定長形式のまま
で格納する。
(ト)・・・・作業用バッファに格納された同じ読みを
持つ単語の組について、先頭の単語の読みだけを残し、
その他の単語の読みを16進数“00″を書き込んで消
去する。
(チ)・・・・作業用バッファに格納された単語の組に
ついて各!#語の品詞を調べ、品詞が名詞であればそれ
を16進数−〇〇“をMき込んで消去する。ここで、名
詞の品詞コードを消去するのは、通常の日本語の辞書で
は品詞が名詞であるm語が単語数2万語の辞書で杓50
%、単語数4万語の辞書で約60%を占めており、名詞
の品詞コードを省略すれば品詞データについて大幅な容
量の圧縮が計れるためである。
(す)・・・・作業用バッファに格納されたデータを容
量が圧縮された辞書を収容する出力バッファに格納する
。ただし、16進数“OO゛のデータは無効コードなの
で読みとばすようにして出力バッファに格納しないよう
にする。
(ヌ)・・・・固定長形式の辞書に収容されたすべての
同じ読みを持つ単語の組について、出力バッファへの圧
縮済みのデータの格納が終了するまで上記(へ)からく
り)までの処理を繰り返す。
以上、第5図のフローチャートを用いて辞書の容量圧縮
の方法を説明したが、処理の過程をより具体的にするた
めに第6図から第10図までを参照しながら辞書データ
の圧縮処理の過程を説明する。第6図は、容量圧縮の対
象となる固定長形式で格納された辞書の内容を示す図で
、“カイガン“から”カイキリ“までの読みを持つ単語
についてそれぞれ読みと漢字表記と品詞とが格納されて
いる部分を示している。第7図から第9図までは、第5
図のブローチヤードに示した圧縮の処理過程に伴う作業
用ベラツー7の内容の変化を示す図である。第7図は、
第5図のフローチャー1・の(へ)の処理が実行され、
力・イキ“という読みを持つ単語の組が作業用バッファ
に格納された状態を示している。第8図は、第5図のフ
ローチャートの(ト)の処理が実行され、作業用バッフ
ァに格納された不要な読みデータが消去された状態を示
している。第9図は、第5図のフローチャートの(チ)
の処理が実行され、作業用バッファに格納された品詞の
中から名詞のデータが消去された状態を示している。第
10図は、第5図のフローチャートの(す)の処理が実
行され、゛カイキ“という読みを持つ単語の組について
圧縮済みのデータが格納された出力バッファの内容を示
している。
以上で辞書の容量圧縮の方法に関する説明を終えること
とし、次に上記方法で容量が圧縮された辞書データの復
元方法を第11図のブローチヤードにしたがって説明す
る。
(ル)・・・・容量圧縮済みの辞書を検索して、所望の
単語の読みデータが格納されている場所を探す。
(ヲ)・・・・漢字データを漢字データ終了フラグが1
の所まで読み込み、1単語分の漢字表記を得る。
(ワ)・・・・(ヲ)の処理で読み込んだ漢字データの
直後に品詞コードがあればそれを既に読み込んだ漢字表
記に対する品詞とし、品詞コードはなく直ちに次の単語
の読みデータまたは漢字表記データが後続している場合
は名詞の品詞コードが省略されているので、この漢字表
記に対する品詞として名詞の品詞コードを出力する。
(力)・・・・次の読みデータが現れるまで(ヲ)がら
(ワ)までの処理を繰り返し、所望の同じ読みを持つ単
語の組みについてそれぞれの単語の漢字表記と品詞を得
ることができる。
以上のように本実施例によれば、文節単位で入力が可能
なカナ漢字変換装置で用いる辞書につぃて読みと漢字表
記は可変長形式で格納し、品詞は名詞以外の品詞を格納
することにより、高密度に圧縮された辞書を作成するこ
とができる。
本実施例に基づいて、約2万語の単語を収容した辞書を
作成した場合について、従来の方法で容量の圧縮を行っ
た辞書との辞書容量の比較を行うと次の結果が得られた
。すなわち、従来の方法を用いて読みと漢字表記は可変
長形式で格納し品詞はそのまま格納した時と、本実施例
に基づいて品詞は名詞以外のものだけを格納して品詞デ
ータの圧縮も行った時とで、それぞれの方法によって1
4られた辞書の容量を比較すると、前者では辞書容量は
約160 K B 、後者では約150 K Bとなり
、品詞データの圧縮を行うことにより、容量にして約1
0KB、全辞書容量の約6%の圧縮効果が得られること
がわかった。
なお、本実施例では読みと漢字表記は可変長形式を用い
てデータの圧縮を行っているが、この読みと漢字表記の
容量圧縮は他の方法を用いて行ってもよい。また、固有
名詞多数を占める辞書を作成する場合には、名詞の品詞
コードを省略するかわりに、固有名詞の品詞コートの格
納を省略することによって大きな圧縮効果を得ることが
できる。
発明の効果 以上のように本発明は、単語データのうち読みと漢字表
記は可変長形式で格納し、品詞については名詞以外の品
詞のみを格納することにより、文節単位で日本語入力が
可能なカナ漢字変換装置で用いる辞書の容量を圧縮し、
かつ辞書検索時間を短縮することを可能とすることがで
きる。
【図面の簡単な説明】
第1図は、本発明のカナ漢字変換用辞書の一実施例を用
いたカナ漢字変換装置のブロック図、第2図は同カナ漢
字変換装置の動作を示すフローチャート、第3図は同辞
書のコード体系を示すアドレスマツプ、第4図は同漢字
コードの格納状態を示すアドレスマツプ、第5図は同辞
書の容量圧縮を行う方法を示すフローチャート、第6図
は同容量圧縮の対象なる固定長兄式で格納された辞書の
内容を示すアドレスマツプ、第7図ないし第9図は辞書
容量の圧縮の処理過程における作業用バッファの内容の
変化を示すアドレスマツプ、第10図は圧縮済みの辞書
データが格納された出力バッファの内容を示すアドレス
マツプ、第11fJは同容量が圧縮された辞書データの
復元方法を示すフローチャートである。 1・・・・入力装置    2・・・・入カカナ列記憶
部3・・・・カナ漢字変換il+御部  4・・・・単
語記憶部5・・・・文法情報記憶部 6・・・・出力文字列記憶部 7・・・・表示装置 8・・・・出力文字列選択制御部 9・・・・文字記憶部 代理人の氏名 弁理士 中尾敏男 ほか1名図面の浄C
(内容に変更なし) 第1図 第 23 第3図 第4図 第5図 第11図 手続補正書訪べ) 昭和61 年2 月12  B

Claims (2)

    【特許請求の範囲】
  1. (1)日本語の単語の各単語の読みと前記各単語の漢字
    データを格納し、前記各単語の品詞が名詞以外の品詞で
    ある場合に前記各単語の品詞のデータを格納し、前記各
    単語の品詞が名詞の場合は品詞データを省略したことを
    特徴とするカナ漢字変換用辞書。
  2. (2)日本語の単語の各単語の読みと前記各単語の漢字
    データを格納し、前記各単語の品詞が名詞以外の品詞で
    ある場合に前記各単語の品詞のデータを格納し、前記各
    単語の品詞が名詞の場合は品詞データを省略し、前記各
    単語の漢字データの最後のデータに最後の漢字文字であ
    ることを示す記号を付したことを特徴とするカナ漢字変
    換用辞書。
JP60234865A 1985-10-21 1985-10-21 カナ漢字変換用辞書 Pending JPS6293746A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60234865A JPS6293746A (ja) 1985-10-21 1985-10-21 カナ漢字変換用辞書

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60234865A JPS6293746A (ja) 1985-10-21 1985-10-21 カナ漢字変換用辞書

Publications (1)

Publication Number Publication Date
JPS6293746A true JPS6293746A (ja) 1987-04-30

Family

ID=16977551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60234865A Pending JPS6293746A (ja) 1985-10-21 1985-10-21 カナ漢字変換用辞書

Country Status (1)

Country Link
JP (1) JPS6293746A (ja)

Similar Documents

Publication Publication Date Title
US4843589A (en) Word storage device for use in language interpreter
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JPS6293746A (ja) カナ漢字変換用辞書
JPH0140372B2 (ja)
JPH0140370B2 (ja)
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JPH0410104B2 (ja)
JPH0140371B2 (ja)
JPH11250063A (ja) 検索装置及び検索方法
JPS6057421A (ja) 文書作成装置
JPS5965344A (ja) 単語検索装置
JPS6389976A (ja) 言語解析装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPH07152756A (ja) 文書処理装置
JPH08314915A (ja) 情報の表現態様変換装置
JPH01102613A (ja) 文字処理装置
JPS615369A (ja) かな漢字変換用辞書
JPS6116117B2 (ja)
JPS58165144A (ja) 漢字記憶方式
JPH10154141A (ja) かな漢字変換装置
JPS593629A (ja) 音声入力文書作成装置
JPS62214468A (ja) かな漢字変換装置
JPH04205545A (ja) 文書作成装置
JPH06332666A (ja) データの圧縮方法
JPS60207948A (ja) カナ漢字変換処理装置