JPS6140671A - 単語分割処理方法 - Google Patents

単語分割処理方法

Info

Publication number
JPS6140671A
JPS6140671A JP16244384A JP16244384A JPS6140671A JP S6140671 A JPS6140671 A JP S6140671A JP 16244384 A JP16244384 A JP 16244384A JP 16244384 A JP16244384 A JP 16244384A JP S6140671 A JPS6140671 A JP S6140671A
Authority
JP
Japan
Prior art keywords
word
unknown
stack
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP16244384A
Other languages
English (en)
Other versions
JPH0724055B2 (ja
Inventor
Hiroyuki Kaji
梶 博行
Yoshihiko Nitta
義彦 新田
Atsuko Isatsu
伊佐津 敦子
Tomikado Shimizu
清水 富門
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59162443A priority Critical patent/JPH0724055B2/ja
Priority to US06/760,918 priority patent/US4750122A/en
Publication of JPS6140671A publication Critical patent/JPS6140671A/ja
Publication of JPH0724055B2 publication Critical patent/JPH0724055B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、単語分割処理方式に関し、特に未知語を含む
テキストも処理できる日本語処理システムのテキストか
ら単語への自動分割方式に関するものである。
〔発明の背景〕
機械翻訳を含む各種の自然言語処理システムにおいては
、単語を見出しとする辞書が用いられ、辞書を検索しな
がらテキストの処理が行われる(例えば特開昭56−1
7467号公報参照)。しがし、テキストに出現する単
語のすべてをあらかじめ辞書に登録しておくことは不可
能であり、未知語の取扱いが実用上重要な問題となる。
すなわちテキスト中の未知語を効率よ(同定することが
要求される。未知語を同定する場合、英語のように単語
の間にスペースが挿入される言語に対しては簡単にでき
るが、日本語のように単語が続けて書かれる言語に対し
てはきわめて難しい問題である。
日本語のように、単語間にスペースを挿入せずに続けて
書かれる言語のテキストの自動処理を行うには、第1段
階としてテキストを単語に分割する処理が必要である。
このためには、テキスト中の文字列をキーとして単語辞
書を検索し、単語の品詞等により前接語との接続可否を
チェックする方法が広く用いられている。この方法では
、分割が行き詰まる(辞書検索に失敗、あるいは接続可
能な単語がない)原因として、未知語がある場合と、そ
れまでの分割に誤りがあった場合の2つがある。したが
って、分割が行き詰っても、直ちに未知語と判定するこ
とはできず、別の分割の可能性を求めて後戻り処理を行
うことが必要である。
すなわち、未知語が含まれているため、分割処理の行き
詰りが発生した場合、後戻り処理によりテキストの先頭
ま、で戻った時点で、初めて未知語が含まれると判断さ
れている。このため、未知語が含まれていると判定する
までに、多くの処理時間を必要としている。しかも、未
知語が含まれると判断された場合、そこがら先の分割を
続行することは簡単ではなかった。すなわち、未知語の
存在を考慮しないで、後戻りする際に、途中で失敗した
分割結果の情報が保存されていないためζ未知語が含ま
れていたと判定されても、その位置を同定することがで
きなかった。
前述のように、各種の自然言語処理システムにおいて、
あらゆる単語が辞書に登録されていると考えることは実
際上不可能であり、未知語の入力も許容することが必要
である。例えば機械翻訳の、I 場合、未知語を含むものは翻訳不可とせずに、未知語に
ついては原語のまま挿入した翻訳文を出力することが望
ましい。
〔発明の目的〕
本発明の目的は、このような従来の問題点を解決し、テ
キスト中の未知語を効率よく同定し、未知語以降の部分
に対してもテキストの分割処理を続げることができる単
語分割処理方式を提供することにある。
〔発明の概要〕
上記目的を達成するため、本発明の単語分割処理方式は
、テキスト中の文字列をキーとして、単語辞書を検索し
、検索された単語の接続可否をチェックするテキストの
単語分割処理方式において、上記単語辞書に登録された
単語の範囲で単語分割処理を行い、上記単語分割処理が
行き詰まったときは、未知語を同定する処理を行い、未
知語以降の部分に対しても分割処理を続けることに特徴
がある。  ゛ 〔発明の実施例〕 以下、本発明の実施例を、図面により説明する。
第1図は、本発明を用いるデータ処理システムのブロッ
ク図である。
この処理システムは、処理装置1、記憶装置2、辞書検
索処理装置3、辞書ファイル記憶装置4、入力装置5お
よび出力装置6から構成される。
記憶装置2には、分割処理の対象となるテキストを格納
するテキスト・エリア、辞書検索のキーとなる文字列を
格納する検索キー・エリア(KY )之辞書から検索さ
れたレコードを格納する辞書レコード・エリア、単語間
の接続可否を示す接続行列を格納する接続行列エリア、
分割結果を格納する分割用スタック・エリア、後戻りの
際に分割結果を退避する退避用スタック・エリア等が、
それぞれ設けられる。
第2図は、接続行列の一部を示す図である。
接続行列とは、テキストを単語に分割した場芥に、各単
語の品詞を調べて、前の単語の品詞が後接単語の品詞に
、文法的に接続可能か否かをチェックするためのもので
ある。そして、接続行列は、第2図に示すように各行、
各列が単語のカテゴリに対応した2値行列であって、“
1パのとき接続可、“O”のとき接続不可である。縦軸
に配列された品詞が前の単語であり、横軸に配列された
品詞が後接単語である。例えば、「自動車(名詞)が(
助詞)走った(動詞)。」というテキストでは、名詞の
次に格助詞が接続されるので、名詞(縦軸)と格助詞(
横軸)の交点はl″であり、名詞の次に直接動詞が接続
されないので、名詞(縦軸)と動詞(横軸)との交点は
“○”′である。すなわち、1行」列要素の値は、i行
に対応するカテゴリに属する単語の後に、3列(C対応
するカテゴリに属する単語が接続可能か否かを“1″、
“O゛で示したものである。
第3図は、本発明で用いられる分割用スタックの説明図
である。
分割用スタック(STC)は、テキストから分割された
各単語に対応するデータを格納するものである。第3図
に示すように、テキスト中の単語開始位置(ST)と単
語の属するカテゴ’J (C)が少なくとも格納される
。スタック(STC)へのデータの格納およびスタック
からのデータの取り出しは、ともにスタックの先頭に対
してのみ行われる。すなわち、スタック(STC)はF
ILO(First In La5t Out )動作
を行うもので、最初に格納されたデータは最後に取り出
される。このため、スタックの先頭データの位置を指示
するスタック先頭位置インデクス(TO8)が記憶きれ
ている。
記憶装置20分割結果を退避する退避用スタック・エリ
アも、第3図の分割用スタックと同じ構造を有している
辞書ファイル記憶装置生には、単語の表記文字列を見出
しとするレコードが格納されて、いる。このレコードに
は、少なくとも、その単語の属するカテゴリを示すコー
ドが含まれている。
本実施例では、検索キーが与えられると、辞書検索処理
装置3によりその検索キーの前方と最長一致する見出し
を持つレコードが検索されるものとする。このような検
索機能は、よく知られたフアイル編成方法を用いて実現
することができる。   □第4図(a) (b)は、
本発明の一実施例を示すテキストの単語分割処理のフロ
ーチャートである。
第4図(a) (b)の実施例においては、第1に、単
語分割が行詰って、後戻りする際に、未知語の可能性の
高い途中結果を保存しておき、他の分割の可能性がなく
なった場合には、直ちに未知語を同定できるようにする
。なお、未知語の可能性の高い途中結果の具体例として
は、未知語を後接語として持ち得る単語で終了している
途中結果であって、最もテキストの前方まで進んだもの
が考えられる。
第2に、テキスト中の一定の条件を満たす点を越えない
ように、後戻りの範囲を制限することによって、正解に
至る可能性がない分割の試行をあらかじめ防止する。な
お、一定の条件を満たす点としては、例えば、字種境界
(ひらがなから漢字に変化する点等)と単語境界の一致
点がある。なぜならば、字種境界と一致した単語境界は
正解である確率がきわめて高いからである。
第4図(a)におけるステップ101,102は初期処
理ステップであり、ステップ103〜109は辞書検索
ステップであり、ステップ110〜114は接続可否チ
ェック・ステップであり、ステップ115〜120は分
割用スタックへの単語登録ステップであり、ステップ1
21〜129は退避用スタックへの単語退避ステップで
ある。サラニ、ステップ130〜132は分割用スタッ
クからの単語削除ステップでありステップ133〜13
7は退避用スタック内容の分割用スタックへの移動ステ
ップであり、ステップ138〜141は分割用スタック
への未知語登録ステップである。
(1)初期処理 入力装置5から入力されたテキストは、テキスト・エリ
アTXTに格納され、テキスト長TXLが求められる(
ステップ1o1)。次に、テキスト中の文字位置を示す
インデクス■に初期値II I 11を、テキスト中の
未知語候補の位置を示すインデクスMIに初期値“O″
を、分割用スタック先頭位置インデクスTO8に初期値
“O″を、退避用スタック先頭位置インデクスTO8’
に初期値“′0″を、それぞれセットする(ステップ1
02)。
(11)辞書検索 テキストの第■文字から初まる文字列をキーとする検索
が初回である場合には、検索キーの長さK Y Lをあ
らかじめ定められた最大値IVI K Y Lと、第T
文字以降の文字数との最大値にする(ステップ1o3)
。ここでMKYLは辞書に登録された見出しのうち最長
のものの文字数としておく。テキストの第1文字から始
まる文字列をキーとしての検索がすでに行われている場
合、つまり前回検索された単語を含むような分割が不可
であることがわかっている場合には前回検索された単語
から最後尾1文字を削ったものをキーとする(ステップ
104)。検索キーの長さが1以上であれば(ステップ
105)、検索キーを検索キー・エリアKYにセットす
る(ステップ1O6)。検索キーの長さがOであれば(
ステップ105)、辞書検索ができないので後戻り処理
に移る(■以降のステップ)。
検索キー・エリアKYに検索キーがセットされると、辞
書検索処理装置3に対し検索キーの前方と最長一致する
見出しを持つレコードの検索を要求する(ステップ10
7)。辞書検索処理装置3は、該当するレコードが辞書
ファイルにあれば、見出し、カテゴリ・コード等を辞書
レコード・エリアに格納する。レコードが検索された場
合には(ステップ108)、その単語の単語長をメモリ
・エリアWLに、゛その単語の属するカテゴリをメモリ
・エリアC2に、それぞれセットしくステップ109)
、接続可否チェックに進む。レコードが検索されなかっ
た場合には(ステップ108)、後戻り処理に移る(■
以降のステップ)。
(ili )接続可否チェック 接続可否チェックすべき2つの単語のうち、後方の単語
のカテゴリは、すでにエリアC2にセットされているの
で、ここでは前方の単語のカテゴリを分割用スタック(
STC)の先頭データ(TO8)を参照することにより
、エリアC1にセットする(ステップ111)。ただし
、分割用スタック(STC)が空である場合には(ステ
ップ110)、文頭の単語に対する処理があるので、エ
リアC1。
に゛′文頭゛′をセットする(ステップ112)。
次に、エリアC1と02の品詞間の接続可否を接続行列
を参照して、チェックする(ステップ113 )。
接続可であれば、分割用スタック(STC)への単語登
録に移る。また、接続不可であれば、エリアC2が“′
文ボ″の場合(ステップ114)、後戻り処理に(■以
降の処理)、それ以外の場合には辞書の再検索に移る(
ステップ104)。
(1v)分割用スタックへの単語登録 接続可否チェックで接続可となった場合(ステップ11
3)、エリ′アC2が“′文ホ′であれば(ステップ1
15)、分割処理はすべて終了であるが、そ ゛うでな
げれば単語を分割用スタック(STC)に登録する。こ
のため、先ず、スタック先頭位置インデクスTO3に1
を加える(ステップ116)。
次に、登録すべき単語のテキスト中の開始位置は■、カ
テゴリはエリアC2に記憶されているので、これらをス
タック(STC)の先頭に書き込む(ステップ117)
。この後、テキスト中の文字位置を示すインデクスIを
進め(ステップ118)、次の語の検索に進む。ただし
、テキストの末尾まで達した場合には(ステップ119
)、エリアC2に”文末” ヲセット(ステップ120
)した上で文末チニックに移る(ステップ110)。
()退避用スタックへの単語退避 第4図(b)に示すように、後戻り処理の前半は、分割
用スタック(STC)から退避用スタックへの単語デー
タの退避である。これは、他に解が見当らないとき、途
中で失敗した分割結果の情報を保存しておくことにより
、この保存情報を利用するものである。
先ず、分割用スタック(STC)が空の場合には(ステ
ップ121)、退避すべきデータは存在しないので、退
避用スタックのデータを復元した(ステップ134〜l
・36)上で未知語を認定する処理に移る(ステップ1
37〜139)。また、分割用スタック(STC)の先
頭が゛未知語″の場合には(ステップ122)、その未
知語を1文字分延ばす処理に移る(ステップ140)。
次に、テキスト中の現在位置Iが未知語候補位置MIよ
り進んでおり(ステップ123)、かつスタックの先頭
が“′未知語″を後接語としてもち得る語である場合(
ステップ12+)、未知語候補を更新する。すなわち、
新しい未知語候補の位置は■の示す位置とし、同時に不
要となった退避用スタックのデータを捨てる(ステップ
125)。次に、■の示す位置の文字がその前の文字と
同じ文字種か否かを調べ(ステップ126)、同じ文字
種であればデータの退避を行う(ステップ128〜12
9)。
また、異なる文字種であれば、それ以上後戻りをせず、
退避用スタックのデータを分割用スタック(STC)に
復元した上で未知語を認定する処理に移る。■がMIよ
り進んでいても(ステップ123)、スタック(STC
)の先頭が“未知語“を後接語として持ち得ない場合に
は(ステップ124)、データの退避は行わず、直ちに
分割用スタック(STC)からの単語削除に移る(ステ
ップ130〜132)。
また、■がMIより進んでいない場合(ステップ123
)、退避用スタックの先頭の語の位置と■が一致すれば
(ステップ127)、Iの示す位置の文字がその前の文
字と同一文字種か否かを調べ(ステップ126)、同一
文字種であればデータの退避を行う(ステップ128,
129)。また、異なる文字種であれば、それ以上後戻
りはせず、退避用スタックのデータを分割用スタック(
S T’C)に復元した上で、未知語を認定する処理に
移る(ステップ133〜139)。なお、退避用スタッ
クの先頭の語の位置が1と一致しなげれば(ステップ1
27)、直ちに分割用スタック(STC)からの単語削
除に移る(ステップ130〜132)。
(■1)分割用スタックからの単語削除後戻り処理の後
半は、分割用スタック(STC)からの単語データの削
除である。すなわち、検索キー長KYLに削除する単語
の長さをセットしくステップ130)、テキスト中の現
在位置■をその単語の先頭位置に変更した上で(ステッ
プ131)、データを削除しくステップ132)、辞書
の再検索に進む(@以降の処理)。
(vii)退避用スタック内容の分割用スタックへの移
動 これ以上後戻りができない場合には、退避用スタックの
内容を分割用スタックに戻す。このため、退避用スタッ
クの先頭データを分割用スタック(STC)の先頭に移
す処理(ステップ134〜136)を、退避用スタック
にデータが存在する限り(ステップ133)、繰り返す
。さらに、テキストの現在位置■を、復元された分割用
スタックの内容に合わせて更新する(ステップ137)
(viii)分割用スタックへの未知語登録退避用スタ
ックの内容が分割用スタックに復元されると、テキスト
の現在位置Iの1文字を゛未知語°゛として分割用スタ
ックの先頭に登録する(ステップ138,139)。次
に、■を1文字分進めた上で(ステップ140)、辞書
の検索に進む(O以降の処理)。ただし、テキスト末尾
まで到達すると(ステップ141)、分割処理は終了す
る。
以上が処理装置1による単語分割処理の第1実施例であ
って、分割用スタック・エリアに残っている分割結果は
、処理装置1から出力装置6に出力される。
このように、第1の実施例においては、テキスト中の未
知語を効率よく同定することができる。
未知語が含まれるテキストに対しても、テキストの末尾
まで単語に分割されるので、構文解析等の次のステップ
の処理を続行することがで、きる。したがって、機械翻
訳において、未知語を原語のまま挿入した形で、翻訳結
果を出力することが可能となる。
一方、未知語を含まないテキストに対しても、従来と同
じ分割結果を得ることができる。未知語である可能性が
高い途中結果を保存する処理を含むため、その分だけ効
率は低下するが、保存するものは未知語の可能性の高い
ものに絞っているため、効率低下の割合は僅かである。
また、後戻りの範囲を制限することにより、正解を見逃
す可能性もあるが、字種境界のように統計的に意味のあ
る点を限界点としているため、正解を見逃す確率は小さ
く、未知語同定の効率向上の効果の方が太きい。
第5図(a) (b)は、本発明の他の実施例を示すテ
キストの単語分割処理のフローチャートである。
フローチャート中のステップ201〜202 は初期処
理ステップ、ステップ203〜209は辞書検索ステッ
プ、ステップ210〜214は接続可否チェック・ステ
ップ、ステップ215〜220は分割用スタックへの単
語登録ステップ、221〜228は未知語抽出ステップ
、229〜234は分割用スタックからの単語削除ステ
ップである。
第5図(a) (+))の実施例においては、第1に、
日本語テキストにおいては、単語境界と文字種(漢字、
ひらがな、カタカナ、アルファベット等)との間に統計
的に密接な関係が認められ、ひらがなから他の字種に変
わる点で単語境界となる確率が高い性質があり、第2に
、多くの応用システムにおいては、未知語は固有名詞あ
るいは専門分野の新しい概念に対して命名された術語で
あることが多いという2つの点に着目している。未知語
は、文字種でいうと、漢字列、カタカナ列、アルファベ
ット列等のひらがな以外の単一文字種からなる場合が多
く、また品詞でいうと名詞あるいはす変動詞語幹等に限
定されると考えられる。
そこで、この実施例では、テキスト中、異種の文字に挾
まれた漢字列、カタカナ列、あるいはアルファベット列
に限定して未知語の候補と考える。
また、未知語を、単語の接続可否チェックのために設定
されたカテゴリの1つと考え、未知語に対しても他のカ
テゴリと同じように前接語あるいは後接語のカテゴリを
決めておく。このような前提の下で、辞書検索と接続可
否チェックによる分割が行き詰った場合、未知語の可能
性を調べ、未知語と考えられるときは後戻りせずに、分
割処理を続行する。
なお、第6図(a) (b)の実施例においても、第1
図〜第3図の資源を用いて処理を実行する。
(1)初期処理 入力装置5から入力されたテキストは、記憶装置2のテ
キスト・エリアTXTに格納され、テキスト長TXLが
求められる(ステップ201)。次に、テキスト中の文
字位置を示すインデクス■に初期値゛1′′を、スタッ
ク先頭位置インデクスTO8に初期値110I+をセッ
トする(ステップ202)。
(11)辞書検索 テキストの第■文字から始まる文字列をキーとして行わ
れる検索が、初めての場合には、検索キーの長さKYL
をあらかじめ定められた最大値MKYLと、第■文字以
降の文字数のうちの最大値にする(ステップ203)。
なお、MKYLは、辞書に登録された見出しのうち最長
のものの文字数としておけばよい。また、テキストの第
■文字から始まる文字列をキーとする検索が、すでに行
われている場合には、前回検索された単語から最後尾1
文字を削ったものをキーとする(ステップ2o4)。検
索キーの長さが1以上であれば(ステップ205)、検
索キーを検索キー・エリアKYにセットする(ステップ
206)。検索キーの長さが○であれば(ステップ20
5)、辞書検索ができないため未知語の可能性を調べる
処理に移る(■を介して第5図(b)の処理へ)。検索
キー・エリアKYに検索キーがセットされると、辞書検
索処理装量3に対して、検索キーの前方と最長一致する
見出しを持つレコードの検索を要求する(ステップ20
7)。辞書検索処理装置3は、該当するレコードが辞書
ファイルに存在すれば、見出しとカテゴリ・コード等を
辞書レコード・エリアに格納する。
レコードが検索された場合には(ステップ2o8)、そ
の単語の単語長をメモリ・エリアWLに、その単語の属
するカテゴリをメモリ・エリアC2に、ソレソれセット
しくステップ2o9)、接続可否チェックに進む。レコ
ードが検索されなかった場合には(ステップ208)、
未知語の可能性を調べる処理に移る(■を介して第6図
(b)の処理へ)。
(iii ’)接続可否チェック 接続可否をチェックすべき2つの単語のうち、後方の単
語のカテゴリはすでにエリアC2にセットされているの
で、ここでは前方の単語のカテゴリを分割用スタックの
先頭データを参照することにより、エリアC1にセット
する(ステップ211)。
ただし、分割用スタックが空である場合には(ステップ
210)、文頭の単語に対する処理であるため、エリア
C1に“文頭”′をセットする(ステップ212)。次
に、エリアc1と02の接続可否を接続行列を参照して
チェックする(ステップ′213)。
接続可であれば、分割用スタックへの単語登録に進む。
接続不可であれば、エリアC2が°“未知語′”あるい
は“文末゛の場合には(ステップ214)、分割用スタ
ックからの単語削除に(0を介して第5図(b)の処理
へ)、それ以外の場合には辞書の再検索に移る(ステッ
プ204)。
(iV)分割用スタックへの単語登録 接続可否チェックで接続可となった場合、エリアC2が
″文末″であれば(ステップ215)、分割・  処理
はすべて終了であるが、゛文末パでなければ、単語を分
割用スタックに登録する。このため、先ずスタック先頭
位置インデクスTO8に1を加える(ステップ216)
。次に、登録すべき単語のテキスト中の開始位置は11
カテゴリはC2に記憶されているので、これらをスタッ
クの先頭に書き込む(ステップ217)。この後、テキ
スト中の文字位置を示すインデクスを進め(ステップ2
18)、次の語の検索に進む(ステップ219,203
)。ただし、テキストの末尾まで達した場合には(ステ
ップ219)、エリアC2に“文末′をセットした上で
(ステップ220)、文末チェックに移る(ステ文字種
の列である。そこで、先ずテキストの第1文字がひらが
なか否かをチェックする(ステップ221)。第■文字
がひらがなでなく、シかも、文頭でない場合には(ステ
ップ222)、さらに第(■−1)文字が第■文字と異
なる文字種か否かをチェックする(ステップ223)。
この結果、未知語の先頭であり得るか否かを判別できる
。人知語の先頭であり得ない場合には(ステップ221
.  ・223)、分割用スタックからの単語削除に移
る(ステップ229以下)。一方、未知語の先頭と考え
られる場合には、異なる文字種が現われるまでテキスト
を前方にスキャンすることにより、未知語の長さを求め
てエリアWLにセットする(ステップ224〜227)
。さらに、−リアC2に“未知語°′を   、1セツ
トした上で(ステップ228)、接続可否チェックに進
む(■を介して第6図(a)の210へ)。
(vl)分割用スタックからの単語削除分割用スタック
からの単語削除が要求されたとき、すでにスタックが空
であれば(ステップ229)、分割できなかったものと
して処理を終了する。スタックが空でなければ、スタッ
クの先頭からデータを削除する(ステップ230〜23
4)。スタックの先頭に対応する単語のカテゴリが゛′
未知語″でない場合(ステップ230)、検索キー長に
’YLにその単語の長さをセットする(ステップ231
)。そして、テキスト中の文字位置を示すインデクスI
をその単語の先頭位置に戻す(ステップ232)。
次に、スタック先頭位置インデクスTO8を1だけ減す
ることにより、スタックから先頭データを削除する(ス
テップ233)。そして、テキストの第■文字以降の文
字列による辞書゛検索に進む(■、を介して第5図(a
)のステップ204へ)。マタ、スタックの先頭に対応
する単語のカテゴリがパ未知語″である場合には(ステ
ップ230)、先頭データを削除した後(ステップ23
4)、次のデータの削除処理を行う(ステップ229)
このようにして、順次分割処理を繰り返す。そして、分
割用スタック・エリアに残っている分割結果は、処理処
置1から出力装置6に出力される。
第5図(a) (b)の実施例においては、未知Hむテ
キスHC対して末尾まで単語に分割できる確率がきわめ
て高い。また、未知語と仮定しての処理は、未知語であ
る可能性が高い場合にのみ行われ、かつ後戻り処理の前
に行うので、処理時間は短くなる。
一方、未知語を含んでいないテキストに対しても、未知
語と仮定しての処理が辞書に登録された語の範囲での分
割が行き詰まった場合に、初めて行われるので、処理効
率が損われることはない。このように、未知語を含むテ
キストの単語への自動分割を効率よく行うことができる
ので、辞書にすべての単語を登録しておくことが不可能
であることを考慮すると、本実施例の処理方式は実用上
きわめて有効である。
〔発明の効果〕
以上説明したように、本発明によれば、テキスト中の未
知語を効率よく同定し、未知語を含む可能性のあるテキ
ストの自動分割処理を効率よく行うことができるので、
自然言語処理システムにおいて実用上きわめて効果が犬
である。
【図面の簡単な説明】
第1図は本発明を用いたデータ処理システムのブロック
図、第2図は本発明に用いる接続行列の一部を示す図、
第3図は本発明で用いる分割°用スタックの説明図、第
4図は本発明の一実施例を示すテキストの単語分割処理
のフローチャート、第5図は本発明の他の実施例を示す
テキストの単語分割処理のフローチャートである。 l:処理装置、2:記憶装置、3:辞書検索処理装置、
4=辞書フアイル記憶装置、5二人力装置、6:出力装
置。 第   1   図 第   2   図

Claims (4)

    【特許請求の範囲】
  1. (1)テキスト中の文字列をキーとして、単語辞書を検
    索し、検索された単語の接続可否をチェックするテキス
    トの単語分割処理方式において、上記単語辞書に登録さ
    れた単語の範囲で単語分割処理を行い、上記単語分割処
    理が行き詰まつたときは、未知語を同定する処理を行い
    、同定された未知語以降に対しても分割処理を続けるこ
    とを特徴とする単語分割処理方式。
  2. (2)前記未知語を同定する処理では、後戻りする際に
    、未知語である可能性の高い分割処理の途中結果を保存
    しておき、他の分割の可能性がなくなつたとき、直ちに
    上記途中結果の後続語を未知語と認定することを特徴と
    する特許請求の範囲第1項記載の単語分割処理方式。
  3. (3)前記未知語を同定する処理では、後戻りする場合
    に、字種境界と単語境界の一致点が存在する等の所定の
    条件を満たす位置を越えない範囲に後戻りを限定するこ
    とを特徴とする特許請求の範囲第1項または第2項記載
    の単語分割処理方式。
  4. (4)前記未知語を同定する処理では、辞書に登録され
    た単語の範囲での分割処理が行き詰まつたときに、異種
    の文字に挾まれた漢字列、カタカナ列あるいはアルファ
    ベット列に限定して未知語候補とすることを特徴とする
    特許請求の範囲第1項記載の単語分割処理方式。
JP59162443A 1984-07-31 1984-07-31 単語分割処理方法 Expired - Lifetime JPH0724055B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP59162443A JPH0724055B2 (ja) 1984-07-31 1984-07-31 単語分割処理方法
US06/760,918 US4750122A (en) 1984-07-31 1985-07-31 Method for segmenting a text into words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59162443A JPH0724055B2 (ja) 1984-07-31 1984-07-31 単語分割処理方法

Publications (2)

Publication Number Publication Date
JPS6140671A true JPS6140671A (ja) 1986-02-26
JPH0724055B2 JPH0724055B2 (ja) 1995-03-15

Family

ID=15754709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59162443A Expired - Lifetime JPH0724055B2 (ja) 1984-07-31 1984-07-31 単語分割処理方法

Country Status (2)

Country Link
US (1) US4750122A (ja)
JP (1) JPH0724055B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6290760A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 文章解析方式
JPS6441964A (en) * 1987-08-07 1989-02-14 Nippon Telegraph & Telephone Method for extracting object sentence inherent word of japanese
JPH01296373A (ja) * 1988-05-25 1989-11-29 Ricoh Co Ltd 未登録語処理方法
US5268839A (en) * 1990-03-27 1993-12-07 Hitachi, Ltd. Translation method and system for communication between speakers of different languages
US5907821A (en) * 1995-11-06 1999-05-25 Hitachi, Ltd. Method of computer-based automatic extraction of translation pairs of words from a bilingual text

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS638864A (ja) * 1986-06-27 1988-01-14 Sharp Corp 翻訳装置
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
JP2790466B2 (ja) * 1988-10-18 1998-08-27 株式会社日立製作所 文字列検索方法及び装置
NL8900587A (nl) * 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
US5197004A (en) * 1989-05-08 1993-03-23 Resumix, Inc. Method and apparatus for automatic categorization of applicants from resumes
US5615123A (en) * 1991-04-02 1997-03-25 Creatacard, Inc. System for creating and producing custom card products
US5488719A (en) * 1991-12-30 1996-01-30 Xerox Corporation System for categorizing character strings using acceptability and category information contained in ending substrings
US5434777A (en) * 1992-05-27 1995-07-18 Apple Computer, Inc. Method and apparatus for processing natural language
US5987170A (en) * 1992-09-28 1999-11-16 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
US6041141A (en) * 1992-09-28 2000-03-21 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
EP0638187B1 (en) * 1993-02-23 2001-07-25 Xerox Corporation Categorizing strings in character recognition
US5448474A (en) * 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text
US5726898A (en) 1994-09-01 1998-03-10 American Greetings Corporation Method and apparatus for storing and selectively retrieving and delivering product data based on embedded expert judgements
US5550746A (en) 1994-12-05 1996-08-27 American Greetings Corporation Method and apparatus for storing and selectively retrieving product data by correlating customer selection criteria with optimum product designs based on embedded expert judgments
US5642435A (en) * 1995-01-25 1997-06-24 Xerox Corporation Structured document processing with lexical classes as context
US5768142A (en) 1995-05-31 1998-06-16 American Greetings Corporation Method and apparatus for storing and selectively retrieving product data based on embedded expert suitability ratings
US5875110A (en) 1995-06-07 1999-02-23 American Greetings Corporation Method and system for vending products
US5917941A (en) * 1995-08-08 1999-06-29 Apple Computer, Inc. Character segmentation technique with integrated word search for handwriting recognition
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US6266659B1 (en) * 1997-08-07 2001-07-24 Uday P. Nadkarni Skills database management system and method
US6640006B2 (en) 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6694055B2 (en) 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
JP2000132560A (ja) 1998-10-23 2000-05-12 Matsushita Electric Ind Co Ltd 中国語テレテキスト処理方法及び装置
US6185524B1 (en) 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
TWI247276B (en) * 2004-03-23 2006-01-11 Delta Electronics Inc Method and system for inputting Chinese character
CN1993692A (zh) * 2004-05-24 2007-07-04 紫熊猫有限公司 字符显示系统
JP4050755B2 (ja) * 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8321197B2 (en) * 2006-10-18 2012-11-27 Teresa Ruth Gaudet Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
US8428932B2 (en) * 2006-12-13 2013-04-23 Nathan S. Ross Connected text data stream comprising coordinate logic to identify and validate segmented words in the connected text
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014124332A2 (en) 2013-02-07 2014-08-14 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP6880956B2 (ja) * 2017-04-10 2021-06-02 富士通株式会社 解析プログラム、解析方法および解析装置
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
CN107193807B (zh) * 2017-05-12 2021-05-28 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN110998589B (zh) * 2017-07-31 2023-06-27 北京嘀嘀无限科技发展有限公司 用于分割文本的系统和方法
CN107608968A (zh) * 2017-09-22 2018-01-19 深圳市易图资讯股份有限公司 面向文本大数据的中文分词方法、装置
US11361165B2 (en) * 2020-03-27 2022-06-14 The Clorox Company Methods and systems for topic detection in natural language communications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5617467A (en) * 1979-07-20 1981-02-19 Fujitsu Ltd Word-to-word connection approval unit
JPS57127267A (en) * 1981-01-30 1982-08-07 Canon Inc Character processing system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57201958A (en) * 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS5994037A (ja) * 1982-11-19 1984-05-30 Shimadzu Corp 血球計数装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5617467A (en) * 1979-07-20 1981-02-19 Fujitsu Ltd Word-to-word connection approval unit
JPS57127267A (en) * 1981-01-30 1982-08-07 Canon Inc Character processing system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6290760A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 文章解析方式
JPS6441964A (en) * 1987-08-07 1989-02-14 Nippon Telegraph & Telephone Method for extracting object sentence inherent word of japanese
JPH01296373A (ja) * 1988-05-25 1989-11-29 Ricoh Co Ltd 未登録語処理方法
US5268839A (en) * 1990-03-27 1993-12-07 Hitachi, Ltd. Translation method and system for communication between speakers of different languages
US5907821A (en) * 1995-11-06 1999-05-25 Hitachi, Ltd. Method of computer-based automatic extraction of translation pairs of words from a bilingual text

Also Published As

Publication number Publication date
JPH0724055B2 (ja) 1995-03-15
US4750122A (en) 1988-06-07

Similar Documents

Publication Publication Date Title
JPS6140671A (ja) 単語分割処理方法
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
US5680628A (en) Method and apparatus for automated search and retrieval process
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
CN101388012A (zh) 带有易混淆音识别的拼音检查系统和方法
US5560037A (en) Compact hyphenation point data
JPH0211934B2 (ja)
JPS6359660A (ja) 情報処理装置
JP2000200287A (ja) 文書検索装置
JPS6033665A (ja) キ−ワ−ド自動抽出方式
WO2003003241A1 (en) Predictive cascading algorithm for multi-parser architecture
JPH0345421B2 (ja)
JPH0612451A (ja) 例文検索システム
JP2695772B2 (ja) 仮名漢字変換装置
JPH0695330B2 (ja) 文書作成装置
JPH0827804B2 (ja) 日本語辞書データ管理方式
JPS6116367A (ja) テキスト分割方式
JP3139624B2 (ja) 形態素解析装置
JPS62219160A (ja) 単語分割処理方式
JPH0630100B2 (ja) 仮名漢字変換方式
JPH1185761A (ja) 未知語登録装置および方法並びに記録媒体
JPH05135096A (ja) 形態素解析方式
JPH0248938B2 (ja)
JPS61204771A (ja) 形態素解析装置
JPH01199263A (ja) キーワード抽出装置