JPS61255465A - 言語処理装置 - Google Patents

言語処理装置

Info

Publication number
JPS61255465A
JPS61255465A JP60096324A JP9632485A JPS61255465A JP S61255465 A JPS61255465 A JP S61255465A JP 60096324 A JP60096324 A JP 60096324A JP 9632485 A JP9632485 A JP 9632485A JP S61255465 A JPS61255465 A JP S61255465A
Authority
JP
Japan
Prior art keywords
information
word
dictionary
kanji
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60096324A
Other languages
English (en)
Other versions
JPH0438018B2 (ja
Inventor
Tsutomu Kawada
河田 勉
Kimito Takeda
武田 公人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60096324A priority Critical patent/JPS61255465A/ja
Publication of JPS61255465A publication Critical patent/JPS61255465A/ja
Publication of JPH0438018B2 publication Critical patent/JPH0438018B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は辞書容量の削減を図った言語処理装置に関する
〔発明の技術的背景とその問題点〕
近時、情報処理技術を利用した各種の言語処理装置、例
えば日本語ワードプロセッサや自動翻訳装置等が広く普
及している。
この種の言語処理装置に組込まれる辞書は、一般に語の
表記とこれを検索する為のキー情報とを相互に対応付け
て格納し、このキー情報に従って上記語の表記を検索す
るものとなっている。例えば日本語ワードプロセッサで
は、仮名漢字変換処理の為の単語辞書が準備され、仮名
見出し語を検索キーとしてその漢字見出し語を検索する
ものとなっている。
ところで上記漢字情報はJISで定められるようにそれ
ぞれ2バイトの情報で表現される。また単語の多くは複
数の漢字の組合せとして表現される。この為、前記日本
語ワードプロセッサの単語辞書を構成する場合、大容量
の記憶装置を必要とし、その小形化を図る上での大きな
課題となっている。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、辞書容量の削減を図り、その小
形化を容易に可能ならしめる言語処理装置を提供するこ
とにある。
〔発明の概要〕
本発明は、例えば仮名見出し藷からなるキー情報に従っ
て検索される漢字見出し語等の開情報を辞書に格納する
に際し、上記語情報がその単語を構成する複数の語(漢
字等)により構成されるとき、これらの8珀がそれぞれ
格納された該辞書のアドレス情報により前記語情報を表
現してなることを特徴とするものである。
〔発明の効果〕
かくして本発明によれば、語情報が、その語情報を構成
する語の該辞書における格納アドレス情報として表現さ
れるので、上記語情報をそのまま格納する場合に比較し
てその情報量を少なくすることができる。例えば漢字2
文字で表現される単語(語情報)をJIS漢字コードで
表現する場合、4バイトのデータ量を必要とするが、こ
れを上記各漢字がそれぞれ格納された該辞書のアドレス
情報として表現する場合には、例えば2バイト以下のデ
ータでこれを表現することができる。しかも単語の多く
は複数の漢字でそれぞれ表現されるから、全体的にその
情報を表現するデータ量を大幅に少なくすることができ
る。これ故、辞書容量の大幅な削減を図ることが可能と
なり、言語処理装置の小形化を図る上で大きく貢献する
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明する
第1図は実施例装置の要部概略構成図であり、1は検索
キー情報の入力部、2は上記検索キー情報に従って変換
辞書3を検索し、該検索キー情報に該当した見出し語を
求める変換部、4は変換部2で検索された見出し語を出
力する出力部である。
この言語処理装置が日本語ワードプロセッサとして実現
される場合には、前記入力部1に与えられる検索キー情
報は、例えば仮名キーボードから入力された仮名文字列
であり、変換辞書3はその仮名文字列を読み情報として
漢字表記される単語をそれぞれ格納した単語辞書として
実現される。
そして変換部2は、この単語辞書(変換辞書3)を用い
て前記入力仮名文字列を仮名漢字変換処理して出力する
ことになる。
第2図はこのような言語処理装置における変換辞書3の
一構成例を示すもので、仮名文字列を読みの見出し語と
し、この読みの見出し語(仮名文字列)に対応した漢字
文字(文字列)を出力見出し語として格納して構成され
る。尚、この変換部I3には、上記見出し語に対する品
詞情報等の属性情報もそれぞれ格納されている。
しかしてこの変換辞書3においては、漢字1文字の見出
し語を得る仮名文字列、例えば「あか」なる仮名文字列
に対する漢字見出し語は、その同音語を含めて「赤、朱
、垢、丹、緋・・・」等として格納されている。また同
様に「じ」なる仮名文字列に対する漢字見出し語は、そ
の同音語を含めて「示、仕1字、地、自、寺・・・」等
として格納されている。これらの各漢字見出し語は従来
装置の場合と同様に、そのJISlii字コード等とし
てそれぞれ表現される。
ここで本装置が特徴とするところは、漢字2文字等のよ
うに複数の漢字で表記される見出し語については、その
漢字が格納された該辞書3の格納アドレス情報を用いて
表現されている。この格納アドレス情報は、該当漢字が
格納された辞書3のアドレスを直接的に指定するもので
あっても良いが、ここでは上記仮名文字列で示される見
出し語を手掛りとして間接的にアドレス指定する情報と
して与えられている。
即ち、例えば「あかじ」なる読みに対しては、その読み
が「あか」「じ」の2つに分解できることを利用し、「
赤字」の「赤」が読み「あか」の1番目の見出し開「赤
」として格納されており、また上記「赤字」の「字」が
読み「じ」の3番目の見出し語「字」として格納されて
いることから、その見出し語をrl、3Jとしてアドレ
ス情報として表現している。
尚、読みrあかじ」に対する属性情報として与えられて
いる「2」なる情報は、その読みが「先頭から2文字目
に区切りを有する」ことを示している。また読みを示す
文字列が分解できないような場合には、上記区切りを示
す情報はrOJとして与えられ、読みを示す仮名文字列
が3つ以上に分解できる場合には、区切りを示す情報は
例えばr2.4J等として与えられる。
例えば読み「あかしんごう」に対しては、区切りの情報
r2.4Jによって上記読みが「あか/しん/ごうJに
分解され、その「あかJに対して「赤」が格納されたア
ドレス情報「1」、「しん」に対して「信」が格納され
たアドレス情報「5」、「こう」に対して1号」が格納
されたアドレス情報「4」により上記読み「あかしんど
う」の見出し語がrl、5.4 (赤信号)」として与
えられることになる。
尚、区切り情報を区切り文字数として、つまり上述した
例ではr2.2J等として表現するようにしても良い。
また該当語(漢字)が辞書3の他の読みに対する見出し
語として格納されていない場合には、その見出し語をそ
のまま漢字情報として格納するようにすれば良い。
かくしてこのような変換辞書3を備えた本装置によれば
、読みに対する属性情報によって区切りが指定された場
合、変換部2はその区切り情報に従って上記読みを分解
し、分解された読みに対応して格納された見出し語を前
記アドレス情報に従ってそれぞれ求めてその見出し語(
漢字文字列)を得ることになる。つまり、見出し語を構
成する漢字表記をアドレス情報に従ってそれぞれ求めて
、その見出し語を得ることが可能となる。
また前述した変換部I3の構成によれば、複数の漢字で
表現される見出し語が、各漢字のアドレス情報で表現さ
れるので、漢字を直接JISコードで表現した場合には
1文字当り2バイトのデータ量が必要であったところを
、例えば1文字当り1バイト以下のデータ量で表現する
ことが可能となる。従って変換辞書3に必要な容量を大
幅に少なくすることができ、例えば1チツプ半導体RO
Mに辞書データの全てを収納することが可能となる等の
効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではない
。ここでは日本語ワードプロセッサにおける単語辞書を
例に説明したが、機械翻訳における単語変換辞書につい
ても同様に適用することができる・また日本語処理のみ
ならず、他の言語処理に用いられる辞書に対しても適用
可能である。
その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
【図面の簡単な説明】 第1図は本発明の一実施例装置の要部概略構成図、第2
図は実施例装置における変換辞書の構成例を示す図であ
る。 1・・・入力部、2・・・変換部、3・・・変換辞書、
4・・・出力部。 出願人代理人 弁理士 鈴江武彦 第1図 第2図

Claims (2)

    【特許請求の範囲】
  1. (1)キー情報に従って検索される語情報を辞書に格納
    するに際し、上記語情報が複数の語により構成されると
    き、これらの各語がそれぞれ格納された該辞書のアドレ
    ス情報により前記語情報を表現してなることを特徴とす
    る言語処理装置。
  2. (2)キー情報は仮名見出し語からなり、語情報は単語
    を表現する漢字見出し語からなる特許請求の範囲第1項
    記載の言語処理装置。
JP60096324A 1985-05-07 1985-05-07 言語処理装置 Granted JPS61255465A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60096324A JPS61255465A (ja) 1985-05-07 1985-05-07 言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60096324A JPS61255465A (ja) 1985-05-07 1985-05-07 言語処理装置

Publications (2)

Publication Number Publication Date
JPS61255465A true JPS61255465A (ja) 1986-11-13
JPH0438018B2 JPH0438018B2 (ja) 1992-06-23

Family

ID=14161826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60096324A Granted JPS61255465A (ja) 1985-05-07 1985-05-07 言語処理装置

Country Status (1)

Country Link
JP (1) JPS61255465A (ja)

Also Published As

Publication number Publication date
JPH0438018B2 (ja) 1992-06-23

Similar Documents

Publication Publication Date Title
JPS5660972A (en) Recognition device for basic form of word and translator using it
JPH0225214B2 (ja)
JPS61255465A (ja) 言語処理装置
JPH056398A (ja) 文書登録装置及び文書検索装置
JPH0140372B2 (ja)
JPH03116375A (ja) 情報検索装置
JPS6057421A (ja) 文書作成装置
JPH0410104B2 (ja)
JPH0140370B2 (ja)
JPS5942347B2 (ja) 電子翻訳機
JP3585944B2 (ja) データ処理方法及びその装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPS62212877A (ja) 漢字かな変換装置
JPS6389976A (ja) 言語解析装置
JPH03127254A (ja) 単語検索装置
JPH03164859A (ja) かな漢字変換装置
JPS61285571A (ja) 複合語辞書
JPS55129862A (en) Electronic dictionary
JPH01321559A (ja) ワードプロセッサ
JPH0338772A (ja) 文字コードデータの圧縮方式
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JPS61211763A (ja) 自然言語処理装置
JPS6172355A (ja) 仮名漢字変換辞書形式
JPH0296267A (ja) 文書処理装置
JPH03208162A (ja) 入力装置