JPS62202283A - 日本語処理方式 - Google Patents

日本語処理方式

Info

Publication number
JPS62202283A
JPS62202283A JP61044740A JP4474086A JPS62202283A JP S62202283 A JPS62202283 A JP S62202283A JP 61044740 A JP61044740 A JP 61044740A JP 4474086 A JP4474086 A JP 4474086A JP S62202283 A JPS62202283 A JP S62202283A
Authority
JP
Japan
Prior art keywords
processing
kana
ocr
kanji
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61044740A
Other languages
English (en)
Other versions
JP2660998B2 (ja
Inventor
Jiichi Igarashi
五十嵐 治一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61044740A priority Critical patent/JP2660998B2/ja
Publication of JPS62202283A publication Critical patent/JPS62202283A/ja
Application granted granted Critical
Publication of JP2660998B2 publication Critical patent/JP2660998B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は日本語処理方式に係り、詳しくは、主にワー1
くプロセッサにおいて仮名漢字変換処理に用いられてい
る形態素解析技術を、OCR文字認識や音声認識の後処
理にも共通に利用可能とした日本語処理方式に関する。
〔従来技術〕
ツー1〜プロセツサにおいては、キーボード等から入力
された文字列に対する仮名漢字変換処理に主として形態
素解析の技術が用いられている。一方、OCR文字認識
装置や音声認識装置では、OCRあるいは音声による入
力情報について文字認識処理や音声認識処理を行って候
補文字を決めるが、該候補文字について更に後処理を施
こすことにより認識精度を高めることができる。
近年、−に記OCR文字認識処理や音声認識処理の後処
理に形態素解析の技術を取り入れることが提案されてき
ている。しかしながら、従来は該文字認識処理や音声認
識処理の後処理に形態素解析の技術を利用する場合、仮
名漢字変換処理で利用されている形態素解析とは別のア
ルゴリズl\やプログラムで実現しており、非常に不経
済であった。
〔目 的〕
本発明の目的は、日本語処理システムにおいて、形態素
解析機能を独立したサブルーチンとし、仮名漢字変換の
みならず、OCR文字認識や音声認識の後処理にも利用
可能とし、ソフトウェア資料の有効利用を図ることにあ
る。
〔構 成〕
以下、本発明の一実施例について図面により詳述する。
第1図は本発明方式を適用した日本語処理システムの全
体構成図を示す。キーボード10は文字を入力する他に
各種のモード(仮名漢字変換、漢字仮名変換、OCR文
字認識、音声認識等)を指定するのに用いる。0CR1
l−は原稿を光学的に読取り、音声入力装置12は使用
者の生の音声を入力する。処理装置13はキーボード1
−0や0CR11−や音声入力装置12からの入力情報
について、指定されたモードに従った処理を実行し、出
力装置16に出力する。出力装置1Gはディスプレイ装
置、プリンタ、音声出力装置等を総称して示したもので
ある。処理装置13の処理に必要なプログラムはプログ
ラムメモリ(ROM)14に格納されるが、ニーで注目
すべきことは、形態素解析プログラム145を独立した
サブルーチンとし、仮名漢字変換141、及びOCR文
字識認142と音声認識143の後処理144のために
共通化したことである。データメモリ (RAM)15
は処理H置13での処理途中のデータやパラメータ、及
び各種辞書を格納するのに用いる。
第1図の全体の処理フローを第2図に示す。こ−で、モ
ードnは1〜7あり、それぞれの意味は第1表の通りと
する。
(以下余白) 第一1及 まず、キーボード10により7つのモードのうち1つを
指定した後(ステップ201)、当該モードで必要なパ
ラメータを設定する(ステップ202)、処理装置13
は指定されたモードを判定しくステップ203)、RO
M14のプログラム141〜1−45に基づきモードご
とに以下の処理を実行する。以下、入力文字列は「応用
力をようせいするためには、・・・」であるとする。
n = 1件4合 キーボード】から仮名の文字列「おうようりよくをよう
甘いするためには、・・・」を入力する(ス=4− テップ204)。処理装置13は、このキー人力の文字
コード列により形態素解析を行う(ステップ205)、
もし未知語が出てきた場合には、1字読みとばしなどの
未知語処理を行い(ステップ206)、形態素解析を続
行する。そして、1ユニツト(句読点で区切られた文字
列)ごとに、単語辞書中に傍録されている゛′表記″の
部分を出力して次のユニットの処理をする(ステップ2
07゜211)。このようにして、最終的に「応用力を
養成するためには、・・・」が出力装置16に出力され
る。
−n 7ジ2,4.−5.6の場イ1 0(、R11で原稿を光学的に読み取る(ステップ20
8)。処理装置13は、入カバターンについて文字認識
しくステップ209)、候補文字と距離(類似度)を算
出してデータメモリ15へ格納する(ステップ210,
211,212)。この時、ステップ211の前処理で
は、濁点・半濁点を1文字として記入する場合の連結処
理(例「は」十「ゝ」→「ば」)や、促音や拗音を認識
した時に候補文字中に対応する大文字を挿入する処理(
例「や」→「や」)を行う。次に、形態素解析の技術を
用いて誤認識文字の自動訂正処理(後処理)を行う(ス
テップ213)。このようにして、n:2,4の場合は
単語の″表記″部分を出力しくステップ211.)、n
=5の場合は単語の11よみ2部分を出力しくステップ
220)、n = 6の場合は認識文字を出力して(ス
テップ219)、次のユニットの処理に移る。二Nで、
n=4のケースでは、[応用力をようせいするためには
、」を入力すると、[応用力を養成するためには、]が
出力される。
n=3.7の場合 音声入力装置12から単音節ごとに、「お」「う」「よ
」「う」「す」「よJ r<J rを (お)」「よ」
「う」「せ」「い」・・・を入力する(ステップ214
)。ユニットの区切りは、「まる」、「てん」などと発
声して、これを認識するか、キーボード10の特定キー
を押下するなどの方法が考えられる。音声認識、候補文
と距離の算出(ステップ215.216)は基本的には
原稿入力の場合と同様である。
ステップ2]−8の訂正のための前処理では、認識され
た音素列を文字列に変換する。この場合、拗音を考慮し
て第3図のように候補列を作成し、データメモリ15へ
格納する。即ち、1音素に2文字分の文字コードを対応
させる。なお、これはステップ211でも同様である。
次に誤認文字の訂正処理を行い(ステップ213 ) 
1.!lt語の“よみ”あるいは単語の″表記″′部分
を出力する(ステップ220,211)。
第4図は第2図中の形態素解析を利用した訂正処理(ス
テップ213)の詳細フローである。
まず、第1位候補文字のみからなる文字列を作成しくス
テップ4.01.)、形態素解析処理を行う(ステップ
402)。二\で、m語辞書中には、音声入力の場合を
考慮して、例えば「おうよう」(応用)だけでなく「お
およう」などの“よみ”をもつ単語も記録しておく。「
わ」を″よみ″に、表記を「は」 (格助詞)とする単
語を登録しておくことも同様である。
次に、未知語部がある場合には、その先頭位置(この位
置をm。とする)が返され(ステップ403)、そこか
ら長さLlの文字列に対してパ距離″′から誤認識文字
の検出を行う(ステップ404)。
一般に、誤認識文字の個数はに、その位置はm。
〜m1(で表わされる。今、n=4のケースで入力文が
「応用力をようせいするには、・・・」であったとし、
未知語部「をようせいす」で「せ」と「す」が誤認と判
定されたとする(k=2.m0=4゜m1=6)、この
場合、N=N1(=3とおく)位までの候補文字を「せ
」と「す」に関して取り出してN1”=9通りの文字列
を作成しくステップ405.406) 、それぞれにつ
いて形態素解析する(ステップ407)。そして、文字
列ごとの評価値(長さ、分割数から計算する)を計算し
くステップ408)、その判定を行う(ステップ409
)。切り出された最尤文字列の中に「す」が含まれてい
ればステップ410,420の処理へ進むが、そうでな
ければ、N→N+1位までの候補を考えてステップ40
7〜409の処理を繰り返す(ステップ411.4−1
2,413)。
次に、候補文字の順位の成る一I−限値N2をすぎると
、見出し語辞書中を検索しくステップ214)、「せ」
と「す」を除した「をよう口い口」にマツチする見出し
語をもつ単語をさがし出す。ある長さT、、(T、2=
3とする)以」〕のマツチする見出し語がなければステ
ップ215〜21−8の処理により、■7□=9−4=
5となり、「をようせいす」に対してステップ404以
下の処理を行う。このようにして、■4.=3となった
時に、「を」 (助詞)が切り出され(ステップ422
,423)、ステップ420,421..402を経て
、ステップ414でり、=4の時に「ようせい」がマツ
チし、ステップ410で「養成」が選択される。
なお、誤認識文字を含む文字列の形態素解析は、誤字周
辺でバックトラックを多数回繰り返すので単語の評価値
に下限に設定し、無駄な探索をやめるようにする。
〔効 果〕
以上の説明から明らかな如く、本発明によれば、形態素
解析サブルーチンを独立させることで、仮名漢字変換と
、文字認識の後処理の部分の大半が共通化される。さら
に、OCR文字認識と音声認識における自動訂正処理と
を同一アルゴリズムで行っているために、プログラムの
共通化、+B語辞書等の共通化による省メモリ効果が大
きい。したがって、パソコンなどの小型コンピュータで
の実行が可能となる。
【図面の簡単な説明】
第1図は本発明方式を適用した日本語処理システムの全
体構成図、第2図は第1図の全体の処理フロー図、第3
図は候補文字列の一例を示す図。 第4図は第2図における訂正処理の詳細フロー図である
。 10・・キーボード、  ]1・・・光学文字読取装置
(OCR)、  12・・・音声入力装置、]3・・・
処理装置、 14・・プログラムメモリ、1、/II−
〜145・・プログラム、  】5・・・データ第1図 手続事由−1TE甲F(自イ資) 昭和61年11月20日 1−9事件の表示 昭和61年特許願第44−74.0号 2、発明の名称 日本語処理方式 ;3.補正をする者 事件との関係  出願人 住所  東京都大[■区中馬込1丁目3番6号名称  
(674)  株式会社 リ コ −代表者     
  浜 1)  広 4、代理人 7、補正の内容 (1)明細書筒6頁16行目の「類似度」を「相違度」
に補正する。 (2)明細書筒9頁3行目の「長さ■7.」の次に「(
ステップ401で、たとえばLl−6と初期設定してお
く)」を挿入する。 (3)明細書筒9頁5行目の’moJを「m、」に補正
する。 (4)明細書筒9頁15行目の「(長さ、分割数から計
算する)」を[(単語の評価値の和と、分割数とから計
算する)」に補iEする。 (5)明細書筒10頁7行目の「215〜218」を「
415〜418」に補正する。 (6)第4図を別紙の通りに補正する。 8、添付書類の目録

Claims (3)

    【特許請求の範囲】
  1. (1)仮名漢字相互変換処理手段、OCR文字認識処理
    手段及び/又は音声認識処理手段を具備してなる日本語
    処理システムにおいて、形態素解析処理手段を独立に設
    け、該形態素解析処理手段を仮名漢字相互変換処理とO
    CR文字認識処理及び/又は音声認識処理の後処理のた
    めに共通化したことを特徴とする日本語処理方式。
  2. (2)OCR文字認識と音声認識で前記形態素解析処理
    手段を用いて共通の訂正処理を行うことを特徴とする特
    許請求の範囲第1項記載の日本語処理方式。
  3. (3)前記訂正処理において誤認文字を除いた文字列と
    見出し語とのマッチングをとる際、マッチング範囲を段
    階的にせばめて探索を繰り返すことを特徴とする特許請
    求の範囲第2項記載の日本語処理方式。
JP61044740A 1986-03-01 1986-03-01 日本語処理装置 Expired - Lifetime JP2660998B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61044740A JP2660998B2 (ja) 1986-03-01 1986-03-01 日本語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61044740A JP2660998B2 (ja) 1986-03-01 1986-03-01 日本語処理装置

Publications (2)

Publication Number Publication Date
JPS62202283A true JPS62202283A (ja) 1987-09-05
JP2660998B2 JP2660998B2 (ja) 1997-10-08

Family

ID=12699841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61044740A Expired - Lifetime JP2660998B2 (ja) 1986-03-01 1986-03-01 日本語処理装置

Country Status (1)

Country Link
JP (1) JP2660998B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079979A (ja) * 2005-09-14 2007-03-29 Fuji Xerox Co Ltd 文書管理装置、文書管理システムおよび文書管理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60142464A (ja) * 1983-12-28 1985-07-27 Fujitsu Ltd 音声入力による文章作成システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60142464A (ja) * 1983-12-28 1985-07-27 Fujitsu Ltd 音声入力による文章作成システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079979A (ja) * 2005-09-14 2007-03-29 Fuji Xerox Co Ltd 文書管理装置、文書管理システムおよび文書管理方法

Also Published As

Publication number Publication date
JP2660998B2 (ja) 1997-10-08

Similar Documents

Publication Publication Date Title
US8185376B2 (en) Identifying language origin of words
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US20110106814A1 (en) Search device, search index creating device, and search system
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
CN111767734A (zh) 一种基于多层隐马模型的分词方法及系统
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
JPS62202283A (ja) 日本語処理方式
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
JP3378547B2 (ja) 音声認識方法及び装置
CN112634878A (zh) 语音识别后处理方法和系统及相关设备
KR101869016B1 (ko) 등장인물 추출 방법 및 장치
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
JP2006053866A (ja) カタカナ文字列の表記ゆれの検出方法
Namboodiri et al. On using classical poetry structure for Indian language post-processing
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JP4941495B2 (ja) ユーザ辞書作成システム、方法、及び、プログラム
JP2006040150A (ja) 音声データ検索装置
JP3001334B2 (ja) 認識用言語処理装置
JPS62224859A (ja) 日本語処理方式
Yusof et al. Identifying Relation Between Miriek and Kenyah Badeng Language by Using Morphological Analyzer
JP3123181B2 (ja) 文字認識装置
JPS62247451A (ja) 日本語処理装置の単語辞書構成法
JP2798747B2 (ja) 自然言語処理方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term