JPS6299865A - 自然言語の共起関係辞書保守方法 - Google Patents
自然言語の共起関係辞書保守方法Info
- Publication number
- JPS6299865A JPS6299865A JP60239779A JP23977985A JPS6299865A JP S6299865 A JPS6299865 A JP S6299865A JP 60239779 A JP60239779 A JP 60239779A JP 23977985 A JP23977985 A JP 23977985A JP S6299865 A JPS6299865 A JP S6299865A
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- occurrence relationship
- hypothesis
- dictionary
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は、自然言語の共起関係辞書保守方式に関し、特
に自然言語で表現された文または文章を構文解析する自
然言語解析システム、およびさらにその結果を翻訳する
翻訳システムにおける語。
に自然言語で表現された文または文章を構文解析する自
然言語解析システム、およびさらにその結果を翻訳する
翻訳システムにおける語。
句等の共起関係を記述する共起関係辞書の保守方式に関
するものである。
するものである。
従来、自然言語で記述された文および文章を構文解析し
、その結果を利用する装置およびシステムとしては、自
然言語による応答システム、自動インデクシング・シス
テム、さらには機械翻訳システムといったものが研究開
発されてきたが、それらにおいては、文を認識するため
の構文解析が主な研究テーマであった。ここに、構文解
析とは、簡単なものでは、定型文、またはそれに可変部
を付加したもの(例えば、「きっぷを※枚下さい。」と
いう定型文の※部に数字が可変部として許されるもの)
と入力文が合えば「文を認識できた」とするようなもの
であり、さらに一般的な構文解析法を採るものでは、文
の主語、述語、修飾句等を認識することである。
、その結果を利用する装置およびシステムとしては、自
然言語による応答システム、自動インデクシング・シス
テム、さらには機械翻訳システムといったものが研究開
発されてきたが、それらにおいては、文を認識するため
の構文解析が主な研究テーマであった。ここに、構文解
析とは、簡単なものでは、定型文、またはそれに可変部
を付加したもの(例えば、「きっぷを※枚下さい。」と
いう定型文の※部に数字が可変部として許されるもの)
と入力文が合えば「文を認識できた」とするようなもの
であり、さらに一般的な構文解析法を採るものでは、文
の主語、述語、修飾句等を認識することである。
このような構文解析においては、「誰々が・・・と言っ
た。」というような埋め込み文とか、修飾句が多くなる
と、どの句がどこを解析しているのかといった解析が非
常に難しくなる。例えば、英語の構文を解析する場合、
主語、述語、目的語の文に前置詞句が2つ付くだけで5
通り、3つあれば14通りの解析の多義があることがわ
かっている。そこで、これらの多義を解消するため、意
味的制約条件をつけることがされる。例えば、「湖のほ
とりに建つ白壁の館」という文は、文法的には、「湖の
ほとりに建つ白壁」があって、それに付随している館か
も知匙ないが、「゛′材料(白壁)の″の材料(白壁)
は所有格の主体にならない」といった規則によIJこれ
を排除するとか、さらには、単語単位の制約規則として
「館は建つ」が「白壁は建たない」という規則を書くこ
とによって、r″湖のほとりに11.11白壁の館″が
建っている」と解析しようとする方法が採られてきた。
た。」というような埋め込み文とか、修飾句が多くなる
と、どの句がどこを解析しているのかといった解析が非
常に難しくなる。例えば、英語の構文を解析する場合、
主語、述語、目的語の文に前置詞句が2つ付くだけで5
通り、3つあれば14通りの解析の多義があることがわ
かっている。そこで、これらの多義を解消するため、意
味的制約条件をつけることがされる。例えば、「湖のほ
とりに建つ白壁の館」という文は、文法的には、「湖の
ほとりに建つ白壁」があって、それに付随している館か
も知匙ないが、「゛′材料(白壁)の″の材料(白壁)
は所有格の主体にならない」といった規則によIJこれ
を排除するとか、さらには、単語単位の制約規則として
「館は建つ」が「白壁は建たない」という規則を書くこ
とによって、r″湖のほとりに11.11白壁の館″が
建っている」と解析しようとする方法が採られてきた。
上記のように、「ある単語と他の単語が、ある関係を通
して、文中によく現われる、または現われることはない
」という性質を一般に共起関係にあるという。例えば、
英語でいうイディオム(七ake a bat、hとい
った連語や、get。ut、どいつだ動詞の前置詞支配
)や、日本語の副詞の呼応がこれにあたり、これらを言
語学的に詳述したものとして活用(コロケーシミン)辞
典といったものもある(例えば、研究社;新英和活用大
辞典(1914年初版))、ただし、これらは、言語以
外の多くの知識や経験を持つ人間が読むのを前提として
いることや、断片的な例文が並べであるのみであること
が多いため、構文解析のための規則として直ちに使える
ものではない。
して、文中によく現われる、または現われることはない
」という性質を一般に共起関係にあるという。例えば、
英語でいうイディオム(七ake a bat、hとい
った連語や、get。ut、どいつだ動詞の前置詞支配
)や、日本語の副詞の呼応がこれにあたり、これらを言
語学的に詳述したものとして活用(コロケーシミン)辞
典といったものもある(例えば、研究社;新英和活用大
辞典(1914年初版))、ただし、これらは、言語以
外の多くの知識や経験を持つ人間が読むのを前提として
いることや、断片的な例文が並べであるのみであること
が多いため、構文解析のための規則として直ちに使える
ものではない。
そこで、これらの言語学的知識を構文解析という機械的
処理に使えるようにするため、表や規則としてファイル
化する作業が行われている。また、それらを手助けする
システムとして、文の中で単語がどう使われるかを調べ
るため、KWIC(Key Word in Cont
ex七)と称して、単語の前後の文を一覧表にして出力
するものがある。しかし、このKWICにおいても制約
規則や文法を考え検証するのは、あくまで人間が行なわ
なければならなかった。
処理に使えるようにするため、表や規則としてファイル
化する作業が行われている。また、それらを手助けする
システムとして、文の中で単語がどう使われるかを調べ
るため、KWIC(Key Word in Cont
ex七)と称して、単語の前後の文を一覧表にして出力
するものがある。しかし、このKWICにおいても制約
規則や文法を考え検証するのは、あくまで人間が行なわ
なければならなかった。
J二連した共起関係を規則化して構文解析に利用する作
業も、どのような共起関係を規則化(通常、表化)する
か、または、その共8関係を構文解析のどこで、どのよ
うに使うがを、あらがじめ決めておくため、パターンが
固定化して融通性に欠けるという問題があった。また、
共起rM係の知識は、これらの表にしかないため、必要
な情報が欠けていても、それを発見し、新たな情報を追
加、修正するのは、人手によらざるを得す、多くの工数
が必要であった。
業も、どのような共起関係を規則化(通常、表化)する
か、または、その共8関係を構文解析のどこで、どのよ
うに使うがを、あらがじめ決めておくため、パターンが
固定化して融通性に欠けるという問題があった。また、
共起rM係の知識は、これらの表にしかないため、必要
な情報が欠けていても、それを発見し、新たな情報を追
加、修正するのは、人手によらざるを得す、多くの工数
が必要であった。
なお、共起関係辞書を利用して機械翻訳を行う例として
は、村木他によるr P rologを用いた機械翻訳
システムにおける意味処理J イ・W報処理学会自然言
語処理研究会33−5 1982.10゜22が挙げら
れる。
は、村木他によるr P rologを用いた機械翻訳
システムにおける意味処理J イ・W報処理学会自然言
語処理研究会33−5 1982.10゜22が挙げら
れる。
本発明は、このような従来の問題を解決し、共起関係辞
書を利用して自然言語解析や機械翻訳を行うシステムに
おいて、共起関係辞書内への共起情報追加、修正を人手
依存度を減らして行える自然言語の共起関係辞書保守方
式を提供することにある。
書を利用して自然言語解析や機械翻訳を行うシステムに
おいて、共起関係辞書内への共起情報追加、修正を人手
依存度を減らして行える自然言語の共起関係辞書保守方
式を提供することにある。
上記目的を達成するために、本発明では、自然言語で記
述された文の単語の並びが意味的に正いかどうかを指定
する共起関係情報を格納する共起関係辞書の保守を主メ
モリを用いて行なう共8関係辞苫保守方式において、上
記主メモリ内に上記共起関係の仮説を行なう共起関係仮
説テーブルを設け、該共起関係仮説テーブルを用いてあ
らかじめ可能性のあるの接続関係を示す共起関係パター
ンに基づいて共起関係の仮説を設定し、例文テキス1〜
から実際の共起関係を導出し、該共起関係が正しいか否
かを検定することに特徴がある。
述された文の単語の並びが意味的に正いかどうかを指定
する共起関係情報を格納する共起関係辞書の保守を主メ
モリを用いて行なう共8関係辞苫保守方式において、上
記主メモリ内に上記共起関係の仮説を行なう共起関係仮
説テーブルを設け、該共起関係仮説テーブルを用いてあ
らかじめ可能性のあるの接続関係を示す共起関係パター
ンに基づいて共起関係の仮説を設定し、例文テキス1〜
から実際の共起関係を導出し、該共起関係が正しいか否
かを検定することに特徴がある。
以下、本発明の一実施例を、図面により詳細に説明する
。
。
まず、本発明の詳細な説明をする。
自然言語解析システムまたは機械翻訳システムにおいで
、構文解析の対象となる文や文章と同種または同分野の
文を集めた例文集と、一方、これを解析する文法(また
は文法群)に必要な共起関係表を用意し、この共起関係
表に従って例文を調べることにより、共起関係表の内か
ら有効な共起関係と、その共起関係が成立する単語等の
組合せを共起r!A辞書として作成することにより、質
の高い自然言語解析および生成を可能ならしめると共に
、共起関係辞書作成自体を簡便ならしめるものである。
、構文解析の対象となる文や文章と同種または同分野の
文を集めた例文集と、一方、これを解析する文法(また
は文法群)に必要な共起関係表を用意し、この共起関係
表に従って例文を調べることにより、共起関係表の内か
ら有効な共起関係と、その共起関係が成立する単語等の
組合せを共起r!A辞書として作成することにより、質
の高い自然言語解析および生成を可能ならしめると共に
、共起関係辞書作成自体を簡便ならしめるものである。
第2図は、本発明の一実施例を示す共起関係辞書保守機
のブロック図である。
のブロック図である。
第2図において、■は共起関係の確認や判断をユーザに
させる際、その入力をさせるためのキーボード、2は共
起関係の確認や判断をユーザにさせる際、必要となる情
報をユーザに表示する表示装置、3はCPU、4は各種
情報を格納しているメインメモリ、5は解析(生成)を
行なう際、必要どなる情報を格納している辞書ファイル
、6は解析(生成)のための規則を格納している解析(
生成)規則ファイル、7は解析(生成)の際、どのよう
な共起関係が利用されるかを表化した共起関係ファイル
、8は対象となる例文を収集した例文テキストファイル
、9は共起関係テーブルに従って、例文テキストファイ
ルを調べることによって作られる共起て係情報を格納し
ている共起関係辞書である。
させる際、その入力をさせるためのキーボード、2は共
起関係の確認や判断をユーザにさせる際、必要となる情
報をユーザに表示する表示装置、3はCPU、4は各種
情報を格納しているメインメモリ、5は解析(生成)を
行なう際、必要どなる情報を格納している辞書ファイル
、6は解析(生成)のための規則を格納している解析(
生成)規則ファイル、7は解析(生成)の際、どのよう
な共起関係が利用されるかを表化した共起関係ファイル
、8は対象となる例文を収集した例文テキストファイル
、9は共起関係テーブルに従って、例文テキストファイ
ルを調べることによって作られる共起て係情報を格納し
ている共起関係辞書である。
第3図は、第2図に示したメインメモリ4の割付は配置
図である。
図である。
メインメモリ4は、共起関係辞書を作成・保守するため
のアルゴリズムを実行する処理プログラム41.共起間
係ファイル7に従い共起関係にあるのではないかと考え
られる共起関係の仮説を格納してむく共起関係仮説テー
ブル42.仮説に反するような例が出て来た場合にユー
ザに判断を求める際、表示装置2に表示する内容を格納
しておく共起関係表示エリア43.共起関係の仮説を作
ったり、検討したりする際、その項となる単語(項が分
類コードの場合は、その分類コードに含まれる填語)が
、例文テキストファイル8の中の例文に2J してどの
ように使われているかを実際に既にある解析(生成)規
則と辞書に従って構文解析(生成)する解析(生成)プ
ログラム44、解析(生成)の際、例文が解析(生成)
されていく中間過程を保持しておく中間語テーブル45
.処理プログラムが、仮説・検定や構文解析(生成)の
際、一時的な情報を格納しておくワークレジスタ46を
有する。
のアルゴリズムを実行する処理プログラム41.共起間
係ファイル7に従い共起関係にあるのではないかと考え
られる共起関係の仮説を格納してむく共起関係仮説テー
ブル42.仮説に反するような例が出て来た場合にユー
ザに判断を求める際、表示装置2に表示する内容を格納
しておく共起関係表示エリア43.共起関係の仮説を作
ったり、検討したりする際、その項となる単語(項が分
類コードの場合は、その分類コードに含まれる填語)が
、例文テキストファイル8の中の例文に2J してどの
ように使われているかを実際に既にある解析(生成)規
則と辞書に従って構文解析(生成)する解析(生成)プ
ログラム44、解析(生成)の際、例文が解析(生成)
されていく中間過程を保持しておく中間語テーブル45
.処理プログラムが、仮説・検定や構文解析(生成)の
際、一時的な情報を格納しておくワークレジスタ46を
有する。
次に、本実施例の処理動作について説明する。
まず、ユーザがある分野の文章の解析や翻訳に際し、そ
の分野に特有の言いまわしや訳語の対を求めたいどいっ
た場合には、キーボードJを通して(例えば、開始ギー
をこのために配置する)処理プログラム41を起動する
。処理プログラム41は上記の他、例えば機械翻訳業務
において新しい二語対や新しい分野の文献を翻訳対象と
した場合や、新聞・雑誌等定期的に例文テキス1−ファ
イルが追加・補正される場合に、その碑文解析(生成)
に使われる共起関係情報を収集・保守する際、ユーザの
指示または1時間による定期的な自動指示により起動が
行われる。
の分野に特有の言いまわしや訳語の対を求めたいどいっ
た場合には、キーボードJを通して(例えば、開始ギー
をこのために配置する)処理プログラム41を起動する
。処理プログラム41は上記の他、例えば機械翻訳業務
において新しい二語対や新しい分野の文献を翻訳対象と
した場合や、新聞・雑誌等定期的に例文テキス1−ファ
イルが追加・補正される場合に、その碑文解析(生成)
に使われる共起関係情報を収集・保守する際、ユーザの
指示または1時間による定期的な自動指示により起動が
行われる。
第1図は、本実施例による処理プログラムの処理動作を
示すフローチャートである。以下、第1回に従って説明
する。
示すフローチャートである。以下、第1回に従って説明
する。
まず、処理プログラム41は、共起関係テーブル7より
、共起関係の可能性のあるパターンを選び出す(ステッ
プ101)。そのパターンには、言語に依存する部分と
構文解析の対象となる解析木(または中間語)に依存す
る部分がある。このうち、言語依存の問題に関する一例
(第2図の共起関係ファイル7の一例)を第4図に示す
。ここで、「動詞と目的語Jとか「副詞と主動詞」とい
ったものは、はぼどの言語にも適用するものであり、「
副詞と助動詞語尾」(日本語)とか「動詞と前置詞と前
置詞目的語」(欧米語)は言語に依存した共起関係パタ
ーンと考えられる。二〇共起関係は、構文解析(生成)
規則に対し、■その対象となる中間語の項間の関係を表
すことと、■構文解析の際の多義解消やこなれた訳を出
力すること等に利用されるという点から関係へ持つ。
、共起関係の可能性のあるパターンを選び出す(ステッ
プ101)。そのパターンには、言語に依存する部分と
構文解析の対象となる解析木(または中間語)に依存す
る部分がある。このうち、言語依存の問題に関する一例
(第2図の共起関係ファイル7の一例)を第4図に示す
。ここで、「動詞と目的語Jとか「副詞と主動詞」とい
ったものは、はぼどの言語にも適用するものであり、「
副詞と助動詞語尾」(日本語)とか「動詞と前置詞と前
置詞目的語」(欧米語)は言語に依存した共起関係パタ
ーンと考えられる。二〇共起関係は、構文解析(生成)
規則に対し、■その対象となる中間語の項間の関係を表
すことと、■構文解析の際の多義解消やこなれた訳を出
力すること等に利用されるという点から関係へ持つ。
共起関係パターンの選択においては、ユーザによる指示
も勿論可能である。その際、処理プログラム41は、共
起関係ファイル7の一覧表を共起関係表示エリア43に
格納することにより表示装置2に共起関係候補を表示し
、ユーザに選択してもらうとか、ユーザ指示により、ユ
ーザが確かめたい共起関係の候補を受けつけてもよい。
も勿論可能である。その際、処理プログラム41は、共
起関係ファイル7の一覧表を共起関係表示エリア43に
格納することにより表示装置2に共起関係候補を表示し
、ユーザに選択してもらうとか、ユーザ指示により、ユ
ーザが確かめたい共起関係の候補を受けつけてもよい。
」二記のようにして共起関係候補が設定されると、その
候補は、共起関係仮説テーブル42に格納される。さら
に、処理プログラム41は、この候補そのものを仮説と
するか、さらに限定するかを独1目二決めるか、ユーザ
との応答によるかして仮説を決定する(ステップ102
)。例えば、「動詞と目的語」という候補を考える際、
これを「動詞′ひく′と目的語」として゛ひく′という
単語の用法を調べるとか、「動詞と目的語′値段′」と
して′値段′を目的語とする動詞の用法を調べるといっ
たことが仮説を立てることにあたる。
候補は、共起関係仮説テーブル42に格納される。さら
に、処理プログラム41は、この候補そのものを仮説と
するか、さらに限定するかを独1目二決めるか、ユーザ
との応答によるかして仮説を決定する(ステップ102
)。例えば、「動詞と目的語」という候補を考える際、
これを「動詞′ひく′と目的語」として゛ひく′という
単語の用法を調べるとか、「動詞と目的語′値段′」と
して′値段′を目的語とする動詞の用法を調べるといっ
たことが仮説を立てることにあたる。
共起関係としては、上記のように構文解析を必要とする
ものばかりではなく、「ある名詞が、ある分野で、特殊
な訳語で使われるか」を調べるといった場合は、構文解
析をきっちりやらなくとも、原文とその翻訳文を対比さ
せて、可能性のある訳語の内、どれが使われているかを
調べるとか、まったく訳語を想定せず、訳文同志が共通
語を持つものをまとめることにより、1,2個のよく使
われる訳語を得るといったことも可能である。
ものばかりではなく、「ある名詞が、ある分野で、特殊
な訳語で使われるか」を調べるといった場合は、構文解
析をきっちりやらなくとも、原文とその翻訳文を対比さ
せて、可能性のある訳語の内、どれが使われているかを
調べるとか、まったく訳語を想定せず、訳文同志が共通
語を持つものをまとめることにより、1,2個のよく使
われる訳語を得るといったことも可能である。
どのような共起関係仮説を検定するかが決まると、その
仮説中のある項に着目し、その項が含まする例文を選び
出す(ステップ103)。例えば、「動詞゛ひく″と目
的語」の場合、゛ひく′に注目すれば、この単語を持つ
例文を例文テキストファイル8から選び出すことにより
、以後の検定の際の検索空間を狭めることができる。
仮説中のある項に着目し、その項が含まする例文を選び
出す(ステップ103)。例えば、「動詞゛ひく″と目
的語」の場合、゛ひく′に注目すれば、この単語を持つ
例文を例文テキストファイル8から選び出すことにより
、以後の検定の際の検索空間を狭めることができる。
次に、上記によって選び出された例文に対し、各例文毎
に、共起関係仮説が成立するか検定するため各文を調べ
る(ステップ104)。その際、品詞や構文的役割子(
名詞、助詞、主語、目的語等)が共起関係の項に含まれ
る場合は、解析(生成)プログラム44が起動され、解
析(生成)用辞書ファイル5と解析(生成)規則ファイ
ル6を利用して解析結果を中間語テーブル45に格納す
るが、その処理と結果の形態は、本実施例では特に規定
しない。−例としては、本発明者等による特開昭56−
138586号公報に示す機械翻訳方式による構文解析
と中間語表現によれば良い0例えば、「動詞′ひく′と
目的語」の場合は、′ひく′の現わ九る例文を構文解析
し、その解析結果から、′ひく′の目的語となるものを
まとめる。その結果の一例を第5図に示す。機械翻訳に
使われる場合は、さらに訳文を解析し、その訳語につい
ても調べることができる。第5図の右端の欄は、そのよ
うな場合で訳が一意的に決まった場合の一例である。
に、共起関係仮説が成立するか検定するため各文を調べ
る(ステップ104)。その際、品詞や構文的役割子(
名詞、助詞、主語、目的語等)が共起関係の項に含まれ
る場合は、解析(生成)プログラム44が起動され、解
析(生成)用辞書ファイル5と解析(生成)規則ファイ
ル6を利用して解析結果を中間語テーブル45に格納す
るが、その処理と結果の形態は、本実施例では特に規定
しない。−例としては、本発明者等による特開昭56−
138586号公報に示す機械翻訳方式による構文解析
と中間語表現によれば良い0例えば、「動詞′ひく′と
目的語」の場合は、′ひく′の現わ九る例文を構文解析
し、その解析結果から、′ひく′の目的語となるものを
まとめる。その結果の一例を第5図に示す。機械翻訳に
使われる場合は、さらに訳文を解析し、その訳語につい
ても調べることができる。第5図の右端の欄は、そのよ
うな場合で訳が一意的に決まった場合の一例である。
結果は、ワークレジスタ46に格納される。
次に5処理プログラム41は、上記の結果を共起関係辞
書9に登録するか判定する(ステップ105)。判定の
方法は、件数の大小や、第5図の行のちらばり等によれ
ばよい。ただし、共起関係仮説中の項の内、″目的語″
といった構文的役割子は、共起関係辞書9には登録せず
、その役割子を満す単語や分類コードを項とする仮説を
作るため一時的に存在するものと解釈する。すなわち、
r′ひく′と目的語」の仮説は予備仮説であり、目的語
にあたる単語が第5図のように収集されると、仮説の別
な解釈(別の仮説とも見れる)ができないか調べる(ス
テップ106)。
書9に登録するか判定する(ステップ105)。判定の
方法は、件数の大小や、第5図の行のちらばり等によれ
ばよい。ただし、共起関係仮説中の項の内、″目的語″
といった構文的役割子は、共起関係辞書9には登録せず
、その役割子を満す単語や分類コードを項とする仮説を
作るため一時的に存在するものと解釈する。すなわち、
r′ひく′と目的語」の仮説は予備仮説であり、目的語
にあたる単語が第5図のように収集されると、仮説の別
な解釈(別の仮説とも見れる)ができないか調べる(ス
テップ106)。
別な解釈としては、第5図の各行そのものを仮説として
もよいし、単語を分類コード毎に集め、仮説を抽象化し
てもよい。例えば、r各行そのものを仮説とする」場合
は、「風邪をひくJという共起関係が成立するとし、「
風邪を食べる」といった文が入力された場合、それが共
起関係辞書9にないことから異常な文だと判定するとい
ったことに使われる。「仮説を抽象化する」場合は、あ
らかじめ、m語間に階層構造(シソーラス)を設定し、
その分類コード(または意味コードとも見ることができ
る)を解析(生成)用辞書ファイル5の各単語の辞書内
容に格納しておき、その陰暦上の親子関係の上のもので
仮説を書き直すことにより抽象化するといったことによ
り仮説をまとめて大きな仮説を作ることができる。例え
ば、r粉をひくJ、「豆をひく」といった仮説、があっ
た場合、粉や豆の上位概念として「穀物をひく」という
共起仮説を作る。この際、仮説の項は、単語としての「
穀物」でなく、概念の分類コードとしての「穀物」であ
ることが望ましい。
もよいし、単語を分類コード毎に集め、仮説を抽象化し
てもよい。例えば、r各行そのものを仮説とする」場合
は、「風邪をひくJという共起関係が成立するとし、「
風邪を食べる」といった文が入力された場合、それが共
起関係辞書9にないことから異常な文だと判定するとい
ったことに使われる。「仮説を抽象化する」場合は、あ
らかじめ、m語間に階層構造(シソーラス)を設定し、
その分類コード(または意味コードとも見ることができ
る)を解析(生成)用辞書ファイル5の各単語の辞書内
容に格納しておき、その陰暦上の親子関係の上のもので
仮説を書き直すことにより抽象化するといったことによ
り仮説をまとめて大きな仮説を作ることができる。例え
ば、r粉をひくJ、「豆をひく」といった仮説、があっ
た場合、粉や豆の上位概念として「穀物をひく」という
共起仮説を作る。この際、仮説の項は、単語としての「
穀物」でなく、概念の分類コードとしての「穀物」であ
ることが望ましい。
別な解釈(つまり別な仮説の作成)が可能な場合は(ス
テップ106)、その仮説を作り(ステップl07)、
再度、その仮説が共起関係辞書9に登録すべきものかを
判断する。
テップ106)、その仮説を作り(ステップl07)、
再度、その仮説が共起関係辞書9に登録すべきものかを
判断する。
さて、ある仮説が共起関係辞書9に登録可と判定された
場合は(ステップ105)、その共起関係が既に共起関
係辞書9に登録されていないか、また、上位や下位の概
念を持って登録された共起関係がないかが調べられる(
ステップ109)。ない場合は、この仮説を共起関係#
書9に登録する(ステップ110)。同一のものがある
場合で、共起関係辞書9に出1!7.頻度や確からしさ
の情報も格納している場合は、その値を更新し、単にパ
ターンが登録されている場合は、登録しない。一方、上
位概念や下位概念で既に共起関係が登録されている場合
は、上位概念でまとめてしまうか、またその特殊な場合
として両方を登録する(ステップ111)。実際、どち
らにするかは、構文解析(生成)を行うシステムとの関
係で決めればよい。
場合は(ステップ105)、その共起関係が既に共起関
係辞書9に登録されていないか、また、上位や下位の概
念を持って登録された共起関係がないかが調べられる(
ステップ109)。ない場合は、この仮説を共起関係#
書9に登録する(ステップ110)。同一のものがある
場合で、共起関係辞書9に出1!7.頻度や確からしさ
の情報も格納している場合は、その値を更新し、単にパ
ターンが登録されている場合は、登録しない。一方、上
位概念や下位概念で既に共起関係が登録されている場合
は、上位概念でまとめてしまうか、またその特殊な場合
として両方を登録する(ステップ111)。実際、どち
らにするかは、構文解析(生成)を行うシステムとの関
係で決めればよい。
さらに、共起関係辞書9を一般のデータベースとして考
えた場合は、既にあるデータと矛盾するデータが登録さ
れないか心配される。すなわち。
えた場合は、既にあるデータと矛盾するデータが登録さ
れないか心配される。すなわち。
例えば、「はとは飛ぶJ、つばめは飛ぶ」といった例文
から、「鳥類は飛ぶ」という共起関係を登録すると、「
飛んでいるペンギンの羽」の「飛んでいる」が鳥類であ
るペンギンに係って「ペンギンが飛んでいる」という一
般的にはおかしな文が認められてしまう。このような場
合には、処理システムは、ユーザに質問を発して、「鳥
類は飛ぶ」という共起関係を棄てるか、共起関係に制約
条件記述を許すことにより、「ペンギンやダチョウ以外
の鳥類は飛ぶ」という共起関係を登録することも可能で
ある。しかし、例文テキストの解釈のみから上記の条件
つき共起関係を得るのは、簡便さと誤った共起関係作成
の危険性から望ましくない。
から、「鳥類は飛ぶ」という共起関係を登録すると、「
飛んでいるペンギンの羽」の「飛んでいる」が鳥類であ
るペンギンに係って「ペンギンが飛んでいる」という一
般的にはおかしな文が認められてしまう。このような場
合には、処理システムは、ユーザに質問を発して、「鳥
類は飛ぶ」という共起関係を棄てるか、共起関係に制約
条件記述を許すことにより、「ペンギンやダチョウ以外
の鳥類は飛ぶ」という共起関係を登録することも可能で
ある。しかし、例文テキストの解釈のみから上記の条件
つき共起関係を得るのは、簡便さと誤った共起関係作成
の危険性から望ましくない。
すなわち、「このはとは傷をしていて飛べない、Jとい
った文から「はとは飛べない」として、上記の共起間係
に[はと以外の」という制約条件をつける危険性がある
。このような危険性は、例文テキストファイル8が莫大
なものであれば、防げるとも考えられるが、例文テキス
トファイル8が少なくとも本実施例の方式が有効に働く
ようにするためには、制約条件をつけた共起関係や否定
文からの共起関係を作らないことが望ましい、この場合
、どうしても「飛んでいるペンギンの羽Jを誤解析させ
ないようにしたければ、「鳥類は飛ぶ」と「ペンギンは
飛ばない」という2つを登録させて、構文解析の際は、
概念的に下位のペンギンがその項に呪われる共起関係(
すなわち、「ペンギンは飛ばない」を優先させるといっ
た方法で、データベースとしては矛盾していても構文解
析用情報としては機能する辞書を作ることができる。
った文から「はとは飛べない」として、上記の共起間係
に[はと以外の」という制約条件をつける危険性がある
。このような危険性は、例文テキストファイル8が莫大
なものであれば、防げるとも考えられるが、例文テキス
トファイル8が少なくとも本実施例の方式が有効に働く
ようにするためには、制約条件をつけた共起関係や否定
文からの共起関係を作らないことが望ましい、この場合
、どうしても「飛んでいるペンギンの羽Jを誤解析させ
ないようにしたければ、「鳥類は飛ぶ」と「ペンギンは
飛ばない」という2つを登録させて、構文解析の際は、
概念的に下位のペンギンがその項に呪われる共起関係(
すなわち、「ペンギンは飛ばない」を優先させるといっ
た方法で、データベースとしては矛盾していても構文解
析用情報としては機能する辞書を作ることができる。
共起関係辞書9に登録できず、かつ、別な解釈もできな
い場合は、未だ仮説があるか調べ(ステップ108)、
あるときには、再度仮説の検定(ステップ102)に戻
る。また、登録可ではあるが、上位や下位の概念により
新たに仮説を設ける場合で、第5図の行の間をまとめる
のみでは結果が得られず、例文テキストファイル8全体
に渡って再度検定を行った方がよいと判断される場合も
再度仮説の検定に戻る。上記のようにして、新たな仮説
が発生しなくなれば、処理を終る。
い場合は、未だ仮説があるか調べ(ステップ108)、
あるときには、再度仮説の検定(ステップ102)に戻
る。また、登録可ではあるが、上位や下位の概念により
新たに仮説を設ける場合で、第5図の行の間をまとめる
のみでは結果が得られず、例文テキストファイル8全体
に渡って再度検定を行った方がよいと判断される場合も
再度仮説の検定に戻る。上記のようにして、新たな仮説
が発生しなくなれば、処理を終る。
第6図は、本実施例により作成された共起関係辞書9の
内容の一例を示す図である。これは、第3図の処理プロ
グラム41をCPU3により処理実行して得ることがで
きる。
内容の一例を示す図である。これは、第3図の処理プロ
グラム41をCPU3により処理実行して得ることがで
きる。
共起関係辞書9は、パターン番号、共起関係パターン、
件数(または確かさ)から構成される。ここで、パター
ン番号1は動詞と目的語の共起関係パターンであること
を示し、パターン番号2は副詞と動詞の共起関係パター
ン、パターン番号3は主語と主動詞の共起関係パターン
、パターン番号50は副詞と助動詞語尾の共起関係パタ
ーン(日本語特有)、パターン番号51は動詞と前置詞
と前置詞目的語(欧米類特有)である。また、件数また
は確かさは文中に出現した回数を示している。
件数(または確かさ)から構成される。ここで、パター
ン番号1は動詞と目的語の共起関係パターンであること
を示し、パターン番号2は副詞と動詞の共起関係パター
ン、パターン番号3は主語と主動詞の共起関係パターン
、パターン番号50は副詞と助動詞語尾の共起関係パタ
ーン(日本語特有)、パターン番号51は動詞と前置詞
と前置詞目的語(欧米類特有)である。また、件数また
は確かさは文中に出現した回数を示している。
このように、本実施例においては、自然言語の解析や機
械翻訳の際に必要となるであろう共起関係を人間があら
かじめ想定し、がっ、そのデータを人手によって例文に
あたって設定し、がっ、検定するといった手間を省き、
言語や情交解析(生成)の中間語が決まれば5それに必
要と考えられる共起関係を自動的に抽出したり、新たに
例文が追加されるとか、中間語が変更されるとがした場
合も、自動的に共起関係辞書を保守することができる。
械翻訳の際に必要となるであろう共起関係を人間があら
かじめ想定し、がっ、そのデータを人手によって例文に
あたって設定し、がっ、検定するといった手間を省き、
言語や情交解析(生成)の中間語が決まれば5それに必
要と考えられる共起関係を自動的に抽出したり、新たに
例文が追加されるとか、中間語が変更されるとがした場
合も、自動的に共起関係辞書を保守することができる。
また、ユーザの指示により、不必要と考えられる共起関
係を生成しないようにして効率化を図ることができ、そ
の場合でも、初めから人手によるのに比べ、51]べる
べき範囲の共起関係については、めげなくかつ高速に共
起関係辞書を作ることが可能である。また、本実施例は
、主に和文を解析するための共起関係を抽出する場合と
、英日機械翻訳の際、和文生成の際利用する共起関係を
抽出する場合を示したが、英文を解析する場合や。
係を生成しないようにして効率化を図ることができ、そ
の場合でも、初めから人手によるのに比べ、51]べる
べき範囲の共起関係については、めげなくかつ高速に共
起関係辞書を作ることが可能である。また、本実施例は
、主に和文を解析するための共起関係を抽出する場合と
、英日機械翻訳の際、和文生成の際利用する共起関係を
抽出する場合を示したが、英文を解析する場合や。
英語や日本語以外の言語や言語対に対してその共起関係
を抽出する場合にも適用し得る。
を抽出する場合にも適用し得る。
以上説明したように1本発明によれば、共起関係辞書を
利用して自然言語解析や機械翻訳を行うシステムにおい
て、共起関係辞書への共起情報追加、修正を人手依存度
を減らして行える。
利用して自然言語解析や機械翻訳を行うシステムにおい
て、共起関係辞書への共起情報追加、修正を人手依存度
を減らして行える。
第1図は本発明の一実施例を示すフローチャート、第2
図は本発明の一実施例を示す共起関係保守機のブロック
図、第3図は第2図におけるメインメモリの割付は配置
図、第4図は第2図における共起関係ファイルの内容の
一例を示す図、第5図は例文テキストファイルにあたっ
て共起関係の仮説を検定した際の結果の一例を示す図、
第6図は本実施例により作成された共起関係辞書の内容
の一例を示す図である。 4:メインメモリ、41:処理プログラム、42:共起
関係仮説テーブル、7:共起関係ファイル、8:例文テ
キストファイル、9:共起関係辞書。 第 1 図 第 2 図 第 3 図 第 4 図 第 5 図 第 6 図
図は本発明の一実施例を示す共起関係保守機のブロック
図、第3図は第2図におけるメインメモリの割付は配置
図、第4図は第2図における共起関係ファイルの内容の
一例を示す図、第5図は例文テキストファイルにあたっ
て共起関係の仮説を検定した際の結果の一例を示す図、
第6図は本実施例により作成された共起関係辞書の内容
の一例を示す図である。 4:メインメモリ、41:処理プログラム、42:共起
関係仮説テーブル、7:共起関係ファイル、8:例文テ
キストファイル、9:共起関係辞書。 第 1 図 第 2 図 第 3 図 第 4 図 第 5 図 第 6 図
Claims (1)
- (1)自然言語で記述された文の単語の並びが意味的に
正いかどうかを指定する共起関係情報を格納する共起関
係辞書の保守を主メモリを用いて行なう共起関係辞書保
守方式において、上記共起関係の仮説を行なう共起関係
仮説テーブルを設け、該共起関係仮説テーブルを用いて
あらかじめ可能性のある品詞の接続関係を示す共起関係
パターンに基づいて共起関係の仮説を設定し、例文テキ
ストから実際の共起関係を導出し、該共起関係が正しい
か否かを検定することを特徴とする自然言語の共起関係
辞書保守方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60239779A JPH083815B2 (ja) | 1985-10-25 | 1985-10-25 | 自然言語の共起関係辞書保守方法 |
US06/922,889 US4942526A (en) | 1985-10-25 | 1986-10-24 | Method and system for generating lexicon of cooccurrence relations in natural language |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60239779A JPH083815B2 (ja) | 1985-10-25 | 1985-10-25 | 自然言語の共起関係辞書保守方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6299865A true JPS6299865A (ja) | 1987-05-09 |
JPH083815B2 JPH083815B2 (ja) | 1996-01-17 |
Family
ID=17049766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60239779A Expired - Lifetime JPH083815B2 (ja) | 1985-10-25 | 1985-10-25 | 自然言語の共起関係辞書保守方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US4942526A (ja) |
JP (1) | JPH083815B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0335710A2 (en) * | 1988-03-31 | 1989-10-04 | Kabushiki Kaisha Toshiba | Translation communication system |
US5311429A (en) * | 1989-05-17 | 1994-05-10 | Hitachi, Ltd. | Maintenance support method and apparatus for natural language processing system |
JP2010160645A (ja) * | 2009-01-07 | 2010-07-22 | Toshiba Corp | 文書処理プログラム及び文書処理装置 |
Families Citing this family (108)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2664915B2 (ja) * | 1988-01-12 | 1997-10-22 | 株式会社日立製作所 | 情報検索システム |
JPH0242572A (ja) * | 1988-08-03 | 1990-02-13 | Hitachi Ltd | 共起関係辞書生成保守方法 |
NL8900587A (nl) * | 1989-03-10 | 1990-10-01 | Bso Buro Voor Systeemontwikkel | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
JPH02240769A (ja) * | 1989-03-14 | 1990-09-25 | Canon Inc | 自然言語文生成装置 |
US5056021A (en) * | 1989-06-08 | 1991-10-08 | Carolyn Ausborn | Method and apparatus for abstracting concepts from natural language |
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
JPH03129469A (ja) * | 1989-10-14 | 1991-06-03 | Canon Inc | 自然言語処理装置 |
JP2814634B2 (ja) * | 1989-12-29 | 1998-10-27 | 松下電器産業株式会社 | 機械翻訳装置 |
US5251131A (en) * | 1991-07-31 | 1993-10-05 | Thinking Machines Corporation | Classification of data records by comparison of records to a training database using probability weights |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
US5369575A (en) * | 1992-05-15 | 1994-11-29 | International Business Machines Corporation | Constrained natural language interface for a computer system |
US5541838A (en) * | 1992-10-26 | 1996-07-30 | Sharp Kabushiki Kaisha | Translation machine having capability of registering idioms |
US5440481A (en) * | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
EP0602296A1 (en) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptive method for generating field dependant models for intelligent systems |
JPH06259420A (ja) * | 1993-03-10 | 1994-09-16 | Fuji Xerox Co Ltd | 文章編集支援装置 |
JP2821840B2 (ja) * | 1993-04-28 | 1998-11-05 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置 |
JP3015223B2 (ja) * | 1993-05-14 | 2000-03-06 | シャープ株式会社 | 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置 |
US5454106A (en) * | 1993-05-17 | 1995-09-26 | International Business Machines Corporation | Database retrieval system using natural language for presenting understood components of an ambiguous query on a user interface |
JPH0756957A (ja) * | 1993-08-03 | 1995-03-03 | Xerox Corp | ユーザへの情報提供方法 |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
JP2817776B2 (ja) * | 1995-05-25 | 1998-10-30 | 日本電気株式会社 | 単語変換装置 |
US5989835A (en) | 1997-02-27 | 1999-11-23 | Cellomics, Inc. | System for cell-based screening |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
KR100397602B1 (ko) * | 1996-10-30 | 2003-10-17 | 삼성전자주식회사 | 좌우 파싱법에서의 애매성 해결 방법 |
US5991712A (en) * | 1996-12-05 | 1999-11-23 | Sun Microsystems, Inc. | Method, apparatus, and product for automatic generation of lexical features for speech recognition systems |
US6078878A (en) * | 1997-07-31 | 2000-06-20 | Microsoft Corporation | Bootstrapping sense characterizations of occurrences of polysemous words |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
US6640006B2 (en) * | 1998-02-13 | 2003-10-28 | Microsoft Corporation | Word segmentation in chinese text |
CN1311881A (zh) * | 1998-06-04 | 2001-09-05 | 松下电器产业株式会社 | 语言变换规则产生装置、语言变换装置及程序记录媒体 |
US6694055B2 (en) | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
US9037451B2 (en) * | 1998-09-25 | 2015-05-19 | Rpx Corporation | Systems and methods for multiple mode voice and data communications using intelligently bridged TDM and packet buses and methods for implementing language capabilities using the same |
IL142765A0 (en) | 1998-11-13 | 2002-03-10 | Cellomics Inc | Methods and system for efficient collection and storage of experimental data |
US6968308B1 (en) | 1999-11-17 | 2005-11-22 | Microsoft Corporation | Method for segmenting non-segmented text using syntactic parse |
US6731802B1 (en) | 2000-01-14 | 2004-05-04 | Microsoft Corporation | Lattice and method for identifying and normalizing orthographic variations in Japanese text |
CA2396495A1 (en) | 2000-01-25 | 2001-08-02 | Cellomics, Inc. | Method and system for automated inference creation of physico-chemical interaction knowledge from databases of co-occurrence data |
CA2307404A1 (en) * | 2000-05-02 | 2001-11-02 | Provenance Systems Inc. | Computer readable electronic records automated classification system |
US6813615B1 (en) | 2000-09-06 | 2004-11-02 | Cellomics, Inc. | Method and system for interpreting and validating experimental data with automated reasoning |
US6768982B1 (en) | 2000-09-06 | 2004-07-27 | Cellomics, Inc. | Method and system for creating and using knowledge patterns |
JP2002269114A (ja) * | 2001-03-14 | 2002-09-20 | Kousaku Ookubo | 知識データベース及び知識データベースの構築方法 |
WO2002097663A1 (en) * | 2001-05-31 | 2002-12-05 | University Of Southern California | Integer programming decoder for machine translation |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
US7003445B2 (en) * | 2001-07-20 | 2006-02-21 | Microsoft Corporation | Statistically driven sentence realizing method and apparatus |
WO2004001623A2 (en) * | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US7107261B2 (en) * | 2002-05-22 | 2006-09-12 | International Business Machines Corporation | Search engine providing match and alternative answer |
JP3826883B2 (ja) * | 2002-12-26 | 2006-09-27 | カシオ計算機株式会社 | 情報表示制御装置及びプログラム |
EP1576462B1 (en) * | 2002-12-26 | 2008-03-05 | Casio Computer Co., Ltd. | Electronic dictionary with example sentences |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US20050123526A1 (en) * | 2003-12-01 | 2005-06-09 | Medtronic Inc. | Administration of growth factors for neurogenesis and gliagenesis |
US7698125B2 (en) | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US9268780B2 (en) | 2004-07-01 | 2016-02-23 | Emc Corporation | Content-driven information lifecycle management |
DE112005002534T5 (de) | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US20070073678A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Semantic document profiling |
KR100731283B1 (ko) * | 2005-05-04 | 2007-06-21 | 주식회사 알에스엔 | 질의어에 따른 대량문서기반 성향 분석시스템 |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US20070005345A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Generating Chinese language couplets |
US7574348B2 (en) * | 2005-07-08 | 2009-08-11 | Microsoft Corporation | Processing collocation mistakes in documents |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
JP4170325B2 (ja) * | 2005-08-05 | 2008-10-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 辞書の妥当性を評価する装置、方法およびプログラム |
JP4878131B2 (ja) * | 2005-08-04 | 2012-02-15 | 株式会社エヌ・ティ・ティ・ドコモ | ユーザ行動推定システム、ユーザ行動推定方法 |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US20070073745A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
WO2007106858A2 (en) * | 2006-03-15 | 2007-09-20 | Araicom Research Llc | System, method, and computer program product for data mining and automatically generating hypotheses from data repositories |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7739255B2 (en) * | 2006-09-01 | 2010-06-15 | Ma Capital Lllp | System for and method of visual representation and review of media files |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US20080109409A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Brokering keywords in radio broadcasts |
US20080109845A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | System and method for generating advertisements for use in broadcast media |
US20080109305A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Using internet advertising as a test bed for radio advertisements |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8000955B2 (en) * | 2006-12-20 | 2011-08-16 | Microsoft Corporation | Generating Chinese language banners |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US7962507B2 (en) | 2007-11-19 | 2011-06-14 | Microsoft Corporation | Web content mining of pair-based data |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US10289653B2 (en) * | 2013-03-15 | 2019-05-14 | International Business Machines Corporation | Adapting tabular data for narration |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
JP6237168B2 (ja) * | 2013-12-02 | 2017-11-29 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10445423B2 (en) | 2017-08-17 | 2019-10-15 | International Business Machines Corporation | Domain-specific lexically-driven pre-parser |
US10769375B2 (en) | 2017-08-17 | 2020-09-08 | International Business Machines Corporation | Domain-specific lexical analysis |
EP3703059A4 (en) * | 2017-12-04 | 2020-12-16 | Huawei Technologies Co., Ltd. | PROCESS AND DEVICE FOR CREATING AN ALBUM TITLE |
CN110162793A (zh) * | 2019-05-27 | 2019-08-23 | 北京奇艺世纪科技有限公司 | 一种命名实体的识别方法及相关设备 |
CN110991196B (zh) * | 2019-12-18 | 2021-10-26 | 北京百度网讯科技有限公司 | 多义词的翻译方法、装置、电子设备及介质 |
US11176329B2 (en) | 2020-02-18 | 2021-11-16 | Bank Of America Corporation | Source code compiler using natural language input |
US11250128B2 (en) | 2020-02-18 | 2022-02-15 | Bank Of America Corporation | System and method for detecting source code anomalies |
CN111523304B (zh) * | 2020-04-27 | 2022-08-02 | 华东师范大学 | 一种基于预训练模型的产品描述文本的自动生成方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6074081A (ja) * | 1983-09-30 | 1985-04-26 | Fujitsu Ltd | 自然言語文章生成装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
JPS5840684A (ja) * | 1981-09-04 | 1983-03-09 | Hitachi Ltd | 自然言語間の自動翻訳方式 |
JPS58175074A (ja) * | 1982-04-07 | 1983-10-14 | Toshiba Corp | 構文分析方式 |
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
JPS59183469A (ja) * | 1983-03-31 | 1984-10-18 | Fujitsu Ltd | 機械翻訳装置 |
US4654875A (en) * | 1983-05-23 | 1987-03-31 | The Research Foundation Of State University Of New York | System to achieve automatic recognition of linguistic strings |
JPS6084667A (ja) * | 1983-10-17 | 1985-05-14 | Mitsubishi Electric Corp | 文章組立装置 |
JPS60200368A (ja) * | 1984-03-23 | 1985-10-09 | Fujitsu Ltd | 機械翻訳方式 |
JPS613267A (ja) * | 1984-06-15 | 1986-01-09 | Sharp Corp | 仮名漢字変換処理装置 |
JPS619758A (ja) * | 1984-06-25 | 1986-01-17 | Ricoh Co Ltd | カナ漢字変換処理装置 |
JPS619753A (ja) * | 1984-06-26 | 1986-01-17 | Hitachi Ltd | 文書処理装置における頻発熟語の自動登録方法 |
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
JPS61188684A (ja) * | 1985-02-15 | 1986-08-22 | Matsushita Electric Ind Co Ltd | 認識装置 |
JPH0676355B2 (ja) * | 1985-07-29 | 1994-09-28 | 三井東圧化学株式会社 | グリシンとl−セリンの分離方法 |
-
1985
- 1985-10-25 JP JP60239779A patent/JPH083815B2/ja not_active Expired - Lifetime
-
1986
- 1986-10-24 US US06/922,889 patent/US4942526A/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6074081A (ja) * | 1983-09-30 | 1985-04-26 | Fujitsu Ltd | 自然言語文章生成装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0335710A2 (en) * | 1988-03-31 | 1989-10-04 | Kabushiki Kaisha Toshiba | Translation communication system |
US5311429A (en) * | 1989-05-17 | 1994-05-10 | Hitachi, Ltd. | Maintenance support method and apparatus for natural language processing system |
JP2010160645A (ja) * | 2009-01-07 | 2010-07-22 | Toshiba Corp | 文書処理プログラム及び文書処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US4942526A (en) | 1990-07-17 |
JPH083815B2 (ja) | 1996-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS6299865A (ja) | 自然言語の共起関係辞書保守方法 | |
US6965857B1 (en) | Method and apparatus for deriving information from written text | |
Mangu et al. | Automatic rule acquisition for spelling correction | |
Mihalcea et al. | Senselearner: Minimally supervised word sense disambiguation for all words in open text | |
US9239826B2 (en) | Method and system for generating new entries in natural language dictionary | |
US20050171757A1 (en) | Machine translation | |
Mitkov | Outstanding issues in anaphora resolution | |
JPH1011447A (ja) | パターンに基づく翻訳方法及び翻訳システム | |
JPS61163467A (ja) | 機械翻訳システム | |
EP1078322B1 (en) | System for creating a dictionary | |
Pradet et al. | WoNeF, an improved, expanded and evaluated automatic French translation of WordNet | |
Baud et al. | Morpho-semantic parsing of medical expressions. | |
Schneider et al. | Adding manual constraints and lexical look-up to a Brill-tagger for German | |
Dias et al. | Multilingual aspects of multiword lexical units | |
Harper et al. | The use of machines in the construction of a grammar and computer program for structural analysis | |
Khandale et al. | Rule-based design for anaphora resolution of Marathi sentence | |
Malema et al. | Parts of speech tagging: A Setswana relative | |
JP3326646B2 (ja) | 機械翻訳システム用辞書・ルール学習装置 | |
JP3752535B2 (ja) | 訳語選択装置、及び翻訳装置 | |
Memmesheimer et al. | A German Parallel Clausal Coordinate Ellipsis Corpus that Aligns Sentences from the TüBa-D/Z Treebank with Reconstructed Canonical Forms | |
Mykowiecka et al. | Resources for Information Extraction from Polish texts | |
JPH0561902A (ja) | 機械翻訳システム | |
Pabasara et al. | Computational model for detecting grammatical mistakes in sinhala text | |
Balcha et al. | Design and Development of Sentence Parser for Afan Oromo Language | |
Kovrigina | Computer morphology for investigations of a variable text |