JPWO2004084156A1 - テンプレート−テンプレート構造に基づく対話式学習システム - Google Patents
テンプレート−テンプレート構造に基づく対話式学習システム Download PDFInfo
- Publication number
- JPWO2004084156A1 JPWO2004084156A1 JP2005503774A JP2005503774A JPWO2004084156A1 JP WO2004084156 A1 JPWO2004084156 A1 JP WO2004084156A1 JP 2005503774 A JP2005503774 A JP 2005503774A JP 2005503774 A JP2005503774 A JP 2005503774A JP WO2004084156 A1 JPWO2004084156 A1 JP WO2004084156A1
- Authority
- JP
- Japan
- Prior art keywords
- template
- learning system
- templates
- interactive learning
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本発明の学習システムにはテンプレート・オートマトンの概念が導入されており、「正しい」回答と「誤った」回答からなる多くの「多様な学習者の予想される例」を収集し、効率的なエラー診断エンジンとしてHCS(最重共通文字列)またはLCS(最長共通文字列)アルゴリズム等の代表的なNLP技術を言語学習システムに用い、テンプレート内に埋め込まれたこれらの例を学習者の回答の診断解析のために用いる。この診断は、テンプレートデータベースの膨大な数の候補パスの中から学習者の入力文に最も近似度の高いパスを選択することによって行われる。言語指向インテリジェント学習システムに使用される時間の掛かるオーサリング・タスクの自動化と簡素化が実現される。
Description
本発明は、抽出ルール・ベースのテンプレート−テンプレート構造およびバギー・ルールの拡張性に富む機能を利用した新しい対話式学習システムに関する。
言語指向インテリジェント学習システムに使用される時間の掛かるオーサリング・タスクの自動化と簡素化が切望されていることが発明の動機となっている。想定される模範回答数は合理的に制限するとしても、理想的な学習システムを開発しようとする場合、学習者が実際に犯す可能性のあるエラーは理論的には無限個に近い数にのぼる場合がしばしばあるからである。本発明者らが判断する限り、少なくとも予見できる将来においては、最先端の自然言語処理技術をもってしても、完全な自由形式でしかもエラーの多い文章の自動訂正を即座に提供出来るレベルには達していない。多くの有能な人間教師のようにシステムがこのような対処ができるには、いわゆる常識と呼ばれる世界の知識ベースをこのシステムに導入することができる場合にのみ可能であろう。
本発明の学習システム(Azalea)にはテンプレート・オートマトンの概念が導入されており、「正しい」回答と「誤った」回答からなる多くの「多様な学習者の予想される例」を収集する。言語学習システムで使われる効率的なエラー診断エンジンとしてHCS(最重共通文字列)またはLCS(最長共通文字列)アルゴリズムという代表的なNLP技術が決定的な役割を担っており、テンプレート内に埋め込まれたこれらの例は学習者の回答の診断解析のために使用される。この診断は、テンプレート・データベースの膨大な数の候補パスの中から学習者の入力文に最も近似度の高いパスを選択することによって行われる。適格なモデル翻訳文と不適格な誤った文章から構成されるテンプレート・コーパスを構築するオーサリング・タスクは、多くの時間を費やし、人手を浪費させる。
本発明の新しいシステムには、通常であれば時間の掛かるテンプレート生成のオーサリング・タスクを簡素化、すなわち低減することにおいてのみならず(徳田 尚之、陳 亮、笹井 紘幸らによる特開2002−49617号等を参照のこと)、システム性能の向上においても有効である。導入されたテンプレート−テンプレート・アーキテクチャがシステムの簡素化と性能の向上をもたらす第1の理由は、このアーキテクチャが、単一のテンプレート−テンプレートの遷移ノードのいくつかに割り当てられた抽出ルールを適用することによって、単一のテンプレート−テンプレートに多くの異なるテンプレートを統合したり、また逆にいうとそこから多くの異なるテンプレートを同様に抽出することが可能になることであり、第2の理由は、導入されたバギー・ルールが学習者の誤った回答を自動的に識別・分類し、したがってそこからバグを生成する機能を有することである。NLP(自然言語処理)技術がこのシステム開発で主要な役割を担う理由は、学習者の自由形式回答の構文構造を調べるためにはパーサが使用されるており、その意味論的構造は、学習者からの回答を準備されたテンプレート・データベースの意味論的に等価のパスとの文字列照合により調べることから明らかであろう。
新しい抽出ルール・ベースの、またバギー・ルール・ベースのテンプレート−テンプレート構造は、文字入力および会話方式による学習システム、音声利用技術によるコール・センターまたは音声ポータル・システム、あるいはシステムと人間との間でより自然な人間とコンピュータの対話を実施するより強化されたヒューマン・コンピュータ・インターフェースに焦点を合わせたシステムならばどのシステムをも含めて多くのアプリケーションで重要な役割を担うことが期待される。
この発明では以下のような機能が与えられる。
1.ある制約条件の下で選択したテンプレート−テンプレート遷移図のノードに抽出ルールを埋め込むと、単一テンプレート−テンプレートは様々な異なるタイプの既存のテンプレートを表現することができる。
2.導入されたバギー・ルールの拡張力に富む機能を利用することによって、多くの誤り表現および/または多くの誤った構文構造は、バグ分類学を記述するその自動機能によって、新しいテンプレート−テンプレートを「よりファットな」テンプレート−テンプレート形式に展開できるように整合性を保って自動的に記述することができる。語学教師は、テンプレート−テンプレートを制作する際に誤った翻訳文の分類に費やす必要はなく、したがってエラー分類学の負担を低減し、学習者らの特定のエラーの特徴を評価しクラスタ化する。
3.HCSマッチング・アルゴリズムは、入力文をより簡素なテンプレート−テンプレートに直接照合し、したがって実際にテンプレート−テンプレートを展開せずにすべての抽出されたテンプレートのすべての予想されるパスから最適なパスを探索する際の照合処理の空間および時間計算量を低減するように開発することができる。
本発明の新しいシステムには、通常であれば時間の掛かるテンプレート生成のオーサリング・タスクを簡素化、すなわち低減することにおいてのみならず(徳田 尚之、陳 亮、笹井 紘幸らによる特開2002−49617号等を参照のこと)、システム性能の向上においても有効である。導入されたテンプレート−テンプレート・アーキテクチャがシステムの簡素化と性能の向上をもたらす第1の理由は、このアーキテクチャが、単一のテンプレート−テンプレートの遷移ノードのいくつかに割り当てられた抽出ルールを適用することによって、単一のテンプレート−テンプレートに多くの異なるテンプレートを統合したり、また逆にいうとそこから多くの異なるテンプレートを同様に抽出することが可能になることであり、第2の理由は、導入されたバギー・ルールが学習者の誤った回答を自動的に識別・分類し、したがってそこからバグを生成する機能を有することである。NLP(自然言語処理)技術がこのシステム開発で主要な役割を担う理由は、学習者の自由形式回答の構文構造を調べるためにはパーサが使用されるており、その意味論的構造は、学習者からの回答を準備されたテンプレート・データベースの意味論的に等価のパスとの文字列照合により調べることから明らかであろう。
新しい抽出ルール・ベースの、またバギー・ルール・ベースのテンプレート−テンプレート構造は、文字入力および会話方式による学習システム、音声利用技術によるコール・センターまたは音声ポータル・システム、あるいはシステムと人間との間でより自然な人間とコンピュータの対話を実施するより強化されたヒューマン・コンピュータ・インターフェースに焦点を合わせたシステムならばどのシステムをも含めて多くのアプリケーションで重要な役割を担うことが期待される。
この発明では以下のような機能が与えられる。
1.ある制約条件の下で選択したテンプレート−テンプレート遷移図のノードに抽出ルールを埋め込むと、単一テンプレート−テンプレートは様々な異なるタイプの既存のテンプレートを表現することができる。
2.導入されたバギー・ルールの拡張力に富む機能を利用することによって、多くの誤り表現および/または多くの誤った構文構造は、バグ分類学を記述するその自動機能によって、新しいテンプレート−テンプレートを「よりファットな」テンプレート−テンプレート形式に展開できるように整合性を保って自動的に記述することができる。語学教師は、テンプレート−テンプレートを制作する際に誤った翻訳文の分類に費やす必要はなく、したがってエラー分類学の負担を低減し、学習者らの特定のエラーの特徴を評価しクラスタ化する。
3.HCSマッチング・アルゴリズムは、入力文をより簡素なテンプレート−テンプレートに直接照合し、したがって実際にテンプレート−テンプレートを展開せずにすべての抽出されたテンプレートのすべての予想されるパスから最適なパスを探索する際の照合処理の空間および時間計算量を低減するように開発することができる。
テンプレート−テンプレート構造
まず「テンプレート−テンプレート」という用語を以下の様に定義する。テンプレート−テンプレートは、ノードのいくつかが抽出ルールに関連付けられたシンボルでマーク付けされており、そのテンプレート−テンプレートが多くのテンプレート、または一組の非連結型テンプレートが1つのテンプレートとみなされる場合はいわゆる大きいテンプレートに展開することができる場合の特別なテンプレートと定義される。このような一組の切断されたテンプレートによって、単一のL1文章の様々な予想される翻訳文は、一群の翻訳されたL2文章から構成される大きな単一のテンプレート−テンプレートを形成することが可能になる。展開テンプレートであるので、テンプレート−テンプレート・スキームによってテンプレート−テンプレートはいわば1つまたは複数のテンプレートを抽出することが可能になる。
通常、抽出ルールは常に一組のシンボル、例えば{s1,s2,...,sn}に関連付けられており、そのシンボルのそれぞれにはテンプレートの1つまたは複数のノードが割り当てられている。それらの関連付けられたシンボルには1つまたは複数の値が割り当てられており、その機能は、テンプレート−テンプレートから抽出された1つ以上のテンプレートに現れるノードのスタイルを表現することである。本発明ではこれらのシンボルを「ラベル・シンボル」と呼ぶ。単一ルールに関係付けられたシンボルは「関係シンボル」と呼ばれる。関係シンボルはある種の制約を有するべきである。一般的な制約としては、所与のsi=1に際して,skはしばしば2に制約されるか、あるいは1以外のいくつかの正の整数に制約される必要がある。siの値が一組の他のシンボルに割り当てられた値に依存する場合、siの値の選択は他のシンボルの必須選択肢と呼ばれる。
語学教師が容易に理解できるように抽出ルールのいくつかの例を以下に示す。
タイプAルール AP(出現)−NAP(非出現)ルール
ノードによってAPiでマーク付けされているノードと、NAPiでマーク付けされているノードがあると想定する(iは任意の整数で別のタイプのAルールを示す)。タイプAルールのAP−NAPルールは、展開された時に新たに展開されたテンプレートはApiでマーク付けされたノードかまたはNAPiでマーク付けされたノードを含むことができるが、これらの両方を同時に含むことはできないという条件を課す。本発明においては、APiでマーク付けされたノードがテンプレートに現れないという場合を示すためにAPi=0を使用する。この時、NAPiは、NAPiでマーク付けされたノードがそのテンプレートに現れるであろうことを意味する1である必要がある。したがって本発明ではNAPi=1はAPi=0の必須選択肢であると言うことができる。同様の理由から、NAPi=0の場合、NAPi=0がAPi=1の必須選択肢となるように、APiは1の値を有する必要がある。
タイプBルール PPR(人称代名詞)−PPRP(人称代名詞所有格)ルール
タイプAルールと同様に、テンプレート−テンプレート・ルールは、一組のテンプレートに現れるPPRiでマーク付けされたノードとPPRPiでマーク付けされた他のノード(iは任意の整数)は、それぞれに代名詞の自然言語文法が必要とする人称代名詞のフォームと代名詞の人称代名詞所有格のフォームでなければならないという条件を課す。PPRPi(またはPPRi)の場合、PPRi(またはPPRPi)に要求される値は代名詞の自然言語文法によって定義される必要がある。
タイプCルール AN(任意数)ルール
タイプCルールは、ANiでマーク付けされたノードには任意のポジティブな実数を割り当てることができるという条件を課す。「I have 5 books on Zen」が真ならば、5以外の数はどの数も誤りなので、このルールANiはエラー・ノード5に割り当てることができる。
タイプDルール CHO(択一)ルール
タイプDルールは、CHOi1,CHOi2,...,CHOikでマーク付けされたテンプレート−テンプレートのすべてのノードの中で、テンプレート−テンプレートから抽出されたどのテンプレートにもただ一組だけのノードしか現れることができないという条件を課す。ここで異なるiは異なるタイプDルールを表している。したがって、CHOij=0はCHOijでマーク付けされたノードは現れないことを意味し、CHOij=1はその指定されたノードが現在現れていることを意味している。明らかに、1が1つのCHOik,に割り当てられている場合、0は他のすべてのCHOijに割り当てられるべきである。
テンプレート−テンプレートを拡張するためのバギー・ルール
ここでいうバギー・ルールは、正確な構文規則からの予想される逸脱によって特徴付けられる一般的な構文上の誤り表現のプロダクション・ルールと定義される。具体的に、バギー・ルールの以下のフォームを想定する。
H1H2...HN→R1R2...RM
ここでH1H2...HNは任意のテンプレート−テンプレートの構文上正確なパスを追跡する一組のノードまたは正確な表現の基本的な構成要素またはセグメントを表す一組の文法的な品詞タグを表す。R1R2...RMは、正確なフォームがH1H2...HNである典型的誤り表現を表すノードのセットである。エラーがテンプレート−テンプレートの正確なパスからのずれによって識別されることが即座に理解される。一例を示す。
EX VBP→EX VBZ
(ここでEXは「there is」(〜がある)というような存在を表すものであり、VBPは1人称および2人称の現在形の動詞であり、VBZは3人称単数現在形の動詞である)。この例は、構文上正確な表現である「there are 5 books」が、主語と動詞の属性一致を誤って理解している生徒によって誤用されており、この例では誤り表現である「there is 5 books」が生じたことを意味している。
まず「テンプレート−テンプレート」という用語を以下の様に定義する。テンプレート−テンプレートは、ノードのいくつかが抽出ルールに関連付けられたシンボルでマーク付けされており、そのテンプレート−テンプレートが多くのテンプレート、または一組の非連結型テンプレートが1つのテンプレートとみなされる場合はいわゆる大きいテンプレートに展開することができる場合の特別なテンプレートと定義される。このような一組の切断されたテンプレートによって、単一のL1文章の様々な予想される翻訳文は、一群の翻訳されたL2文章から構成される大きな単一のテンプレート−テンプレートを形成することが可能になる。展開テンプレートであるので、テンプレート−テンプレート・スキームによってテンプレート−テンプレートはいわば1つまたは複数のテンプレートを抽出することが可能になる。
通常、抽出ルールは常に一組のシンボル、例えば{s1,s2,...,sn}に関連付けられており、そのシンボルのそれぞれにはテンプレートの1つまたは複数のノードが割り当てられている。それらの関連付けられたシンボルには1つまたは複数の値が割り当てられており、その機能は、テンプレート−テンプレートから抽出された1つ以上のテンプレートに現れるノードのスタイルを表現することである。本発明ではこれらのシンボルを「ラベル・シンボル」と呼ぶ。単一ルールに関係付けられたシンボルは「関係シンボル」と呼ばれる。関係シンボルはある種の制約を有するべきである。一般的な制約としては、所与のsi=1に際して,skはしばしば2に制約されるか、あるいは1以外のいくつかの正の整数に制約される必要がある。siの値が一組の他のシンボルに割り当てられた値に依存する場合、siの値の選択は他のシンボルの必須選択肢と呼ばれる。
語学教師が容易に理解できるように抽出ルールのいくつかの例を以下に示す。
タイプAルール AP(出現)−NAP(非出現)ルール
ノードによってAPiでマーク付けされているノードと、NAPiでマーク付けされているノードがあると想定する(iは任意の整数で別のタイプのAルールを示す)。タイプAルールのAP−NAPルールは、展開された時に新たに展開されたテンプレートはApiでマーク付けされたノードかまたはNAPiでマーク付けされたノードを含むことができるが、これらの両方を同時に含むことはできないという条件を課す。本発明においては、APiでマーク付けされたノードがテンプレートに現れないという場合を示すためにAPi=0を使用する。この時、NAPiは、NAPiでマーク付けされたノードがそのテンプレートに現れるであろうことを意味する1である必要がある。したがって本発明ではNAPi=1はAPi=0の必須選択肢であると言うことができる。同様の理由から、NAPi=0の場合、NAPi=0がAPi=1の必須選択肢となるように、APiは1の値を有する必要がある。
タイプBルール PPR(人称代名詞)−PPRP(人称代名詞所有格)ルール
タイプAルールと同様に、テンプレート−テンプレート・ルールは、一組のテンプレートに現れるPPRiでマーク付けされたノードとPPRPiでマーク付けされた他のノード(iは任意の整数)は、それぞれに代名詞の自然言語文法が必要とする人称代名詞のフォームと代名詞の人称代名詞所有格のフォームでなければならないという条件を課す。PPRPi(またはPPRi)の場合、PPRi(またはPPRPi)に要求される値は代名詞の自然言語文法によって定義される必要がある。
タイプCルール AN(任意数)ルール
タイプCルールは、ANiでマーク付けされたノードには任意のポジティブな実数を割り当てることができるという条件を課す。「I have 5 books on Zen」が真ならば、5以外の数はどの数も誤りなので、このルールANiはエラー・ノード5に割り当てることができる。
タイプDルール CHO(択一)ルール
タイプDルールは、CHOi1,CHOi2,...,CHOikでマーク付けされたテンプレート−テンプレートのすべてのノードの中で、テンプレート−テンプレートから抽出されたどのテンプレートにもただ一組だけのノードしか現れることができないという条件を課す。ここで異なるiは異なるタイプDルールを表している。したがって、CHOij=0はCHOijでマーク付けされたノードは現れないことを意味し、CHOij=1はその指定されたノードが現在現れていることを意味している。明らかに、1が1つのCHOik,に割り当てられている場合、0は他のすべてのCHOijに割り当てられるべきである。
テンプレート−テンプレートを拡張するためのバギー・ルール
ここでいうバギー・ルールは、正確な構文規則からの予想される逸脱によって特徴付けられる一般的な構文上の誤り表現のプロダクション・ルールと定義される。具体的に、バギー・ルールの以下のフォームを想定する。
H1H2...HN→R1R2...RM
ここでH1H2...HNは任意のテンプレート−テンプレートの構文上正確なパスを追跡する一組のノードまたは正確な表現の基本的な構成要素またはセグメントを表す一組の文法的な品詞タグを表す。R1R2...RMは、正確なフォームがH1H2...HNである典型的誤り表現を表すノードのセットである。エラーがテンプレート−テンプレートの正確なパスからのずれによって識別されることが即座に理解される。一例を示す。
EX VBP→EX VBZ
(ここでEXは「there is」(〜がある)というような存在を表すものであり、VBPは1人称および2人称の現在形の動詞であり、VBZは3人称単数現在形の動詞である)。この例は、構文上正確な表現である「there are 5 books」が、主語と動詞の属性一致を誤って理解している生徒によって誤用されており、この例では誤り表現である「there is 5 books」が生じたことを意味している。
図1は本発明のテンプレート−テンプレートの構造を示す図である。
図2は展開ルールにより展開されたテンプレート−テンプレート構造を示す図である。
図3は「Japan is dotted with beautiful parks nationwide」という意味の文章の例で展開されたテンプレート1を示す図である。
図4は「Japan is dotted with beautiful parks nationwide」という意味の文章の例で展開されたテンプレートを示す図である。
図2は展開ルールにより展開されたテンプレート−テンプレート構造を示す図である。
図3は「Japan is dotted with beautiful parks nationwide」という意味の文章の例で展開されたテンプレート1を示す図である。
図4は「Japan is dotted with beautiful parks nationwide」という意味の文章の例で展開されたテンプレートを示す図である。
エラー・メッセージ:
AS:名詞の量に仮定が行われている、
AT:冠詞は必要ない、
CM:コンマが必要である、
CT:短縮形が不正確である、
MN:意味が不正確である、
NP:名詞は複数形でなければならない、
VS:主語が単数形なので動詞は単数形でなければならない、
PR:前置詞が不正確である、
PP:句は複数形である必要がある、
一般的な品詞タグ:
DT:限定詞 EX:存在を表す
IN:前置詞/従属接続詞 JJ:形容詞
NN:名詞、単数または集合 NNS:名詞、複数
NNP:固有名詞、単数 RB:副詞
VBN:動詞、過去分詞 VBP:動詞、非3人称単数、現在形
VBZ:動詞、3人称単数、現在形
以下本発明を図面に示す具体例によって説明する。
図1はオリジナルなテンプレート−テンプレートの構成を示す図であり、図2は上記の展開ルールにより展開されたテンプレート−テンプレートを示す図、図3はテンプレート1を示す図であり、図4はテンプレート2を示す図である。
テンプレート−テンプレート、抽出ルールによるテンプレート拡張、およびバギー・ルールの例
本発明の実施例においては、まず「Japan is dotted with beautiful gardens nationwide.」という意味の日本語の文章の英語への翻訳文に関するテンプレート−テンプレートを構築する。図1等に示される番号は、文中における各単語の相対的重要性を強調する各単語の重みを示している。テンプレートの単語のデフォルトの重みは1にセットされており、これらはこの分野の専門家によって判断されるその単語の重要性に関連付けて割り当てられる必要がある。徳田 尚之、陳 亮、笹井 紘幸による特開2002−49617号を詳細な説明のために参照する。「[」と「]」の間のシンボルは品詞タグである。図中左端に示すノードは開始ノードである。
前記バギー・ルールを単純に適用することによって、それを図2のテンプレート−テンプレートに展開することができる。
これは、前記のバギー・ルールがバグの分類法を生成することができ、それによってそれらの誤り表現をテンプレート−テンプレートに構築することを自動的に可能にするので、語学教師がテンプレート−テンプレートを構築する際に多くの一般的なエラーを分類することの詳細に配慮する必要はないということを示している。
次に、前記タイプAルールを適用すると、AP1でマーク付けされたノードがそのテンプレートに現れることを可能にし、したがって図2のNAP1でマーク付けされたノードを削除することによって図2のテンプレート−テンプレートから図3のテンプレート1を抽出し、ならびに図2のAP1でマーク付けされたノードを削除し、したがってNAP1でマーク付けされたノードがそのテンプレートに現れるようにすることによって図4のテンプレート2を抽出することができることが容易に分かる。
語学教師がより簡素なラベル・シンボルに関してテンプレートの1つの大きな組み合わせを完成させてテンプレート−テンプレートを構築することができることが理解される。
テンプレート−テンプレートおよび入力文に対する最重共通文字列マッチング・アルゴリズム
前記の詳細な説明から明らかなように、単一テンプレート−テンプレートから多くのテンプレートを抽出することができる。テンプレート−テンプレートが遷移図上のあるノードに関連付けられるべきラベル・シンボルs1,s2,...,snを有すると仮定すると、テンプレート−テンプレートから抽出された異なるテンプレートはそれらのシンボルをノードに割り当てることによって獲得することができる。本発明ではテンプレートから抽出された各テンプレートをnタプル{s1,p1,s2,p2...,sn,pn}で示すことができる。ここで、piはシンボルsiに対する適切な割り当てである。上記のセクションで既に議論した通り、piは使用される抽出ルールに従って数字または単語のどちらかであってもよい。
2つの文章の最重共通文字列はa1の次にa2、その次に...、その次にamという順番で両方の文章に現れる順番付けされた単語の最重共通文字列a1,a2,...,amであると定義される。共通文字列の定義は、A.V.AhoおよびJ.D.Ullman著(Computer Science Press,1992,pp.321−327)の教科書『Foundations of Computer Science[情報化学の基礎]』に記載されている。
テンプレート内の各単語または各語句には重みが割り当てられているので、テンプレート内のパスと入力文の最重共通文字列は、その合計の重みが最大であるすべての予想可能な共通文字列内の最重共通文字列と定義される。
次に、テンプレートのすべての予想可能な有効パスから入力文の単語および/または語句の最重共通文字列を検索する。
テンプレートおよび入力文の最重共通文字列は、それぞれがテンプレートと入力文1つのパスから獲得される最重共通文字列中で最も重い合計重量を有する単語の最重共通文字列と定義される。
言語翻訳学習システムに関係するアプリケーションでテンプレート−テンプレートが獲得されると、次のステップは、入力文をすべての予想可能なテンプレートのそれぞれと照合し、次いで最も近いパスを選択することである。文章に対するテンプレートのDP(ダイナミックプログラミング)ベースの照合手順の詳細な説明は、徳田 尚之、陳 亮、笹井 紘幸らによる特開2002−49617号等に記載されている。
本発明の方法では、テンプレート−テンプレートからすべてのテンプレートを物理的に抽出せずに、抽出ルールによって(しかしバギー・ルールにはよらずに)直接的に抽出することができるテンプレートのすべての有効なパスの中から最も近いパスを探索する。そのような照合を行う前にテンプレート−テンプレートにはいかなるバギー・ルールをも含めないように、まずバギー・ルールが埋め込まれたテンプレート−テンプレートを展開する必要がある。これはすでに述べた図2のステップに従って実行することができる。
アルゴリズムで必要とされる第1のステップは、適用可能な空ノードごとに□というラベルの弧に重み0を加算してテンプレートの各ノードをグラフの1つまたは複数の弧として単純に表現することによって、テンプレート−テンプレートを非循環的な重み付けされた有限有向グラフ(有向グラフ)の2重数値に変換することである。有向グラフはテンプレート−テンプレートから変換されるので、その関数がそのシンボルに割り当てられた値に決定的に依存するラベル・シンボルに関連付けられた多くの弧を含む。したがってそのような1つの有向グラフがあると仮定すると、異なる一組のラベル・シンボルが弧に割り当てられている場合は完全に異なるテンプレートを抽出することができる。すなわち、そのような有向グラフがあると仮定すると、テンプレート−テンプレートから抽出することができるテンプレートにそれぞれが対応する多くの有向グラフを獲得することができる。テンプレート−テンプレートから抽出された有向グラフを、以後、テンプレート有向グラフと呼ぶ。
本発明者らは、次にすべての有向グラフのパスと入力文の共通文字列から最重共通文字列を探索する手順を以下で定義する。
有向グラフの任意の特定のノードNで終了するパスと入力文の最重共通文字列は、有向グラフNで終了する1つのパスと入力文からそれぞれが獲得されるすべての最重共通文字列中最も重い合計重量を有する単語のシーケンスと定義される。
さらに、テンプレート有向グラフから抽出され、しかしノードNiで終了するすべての有向グラフのパスをNi{s1,p1,s2,p2,...,sn,pn}で表現する。ここでシンボルsiは値p1(i=1,2,...,n)に割り当てられる。nタプル{s1,p1,s2,p2,...,sn,pn}をノードNiのラベルと呼ぶ。ここでs1をp1に、s2をp2に、...,snをpnにセットするときにルールの矛盾がないものと仮定すべきである。このようなラベル{s1,p1,s2,p2,...,sn,pn}を矛盾なしラベルと呼ぶ。
Ni{s1,p1,s2,p2,...,sn,pn}でラベルされたノードと入力文の最重共通文字列は、矛盾なしラベル{s1,p1,s2,p2,...,sn,pn}でマーク付けされたノードを有する有向グラフ・テンプレートから抽出された1つの有向グラフの最重共通文字列としてそれぞれが獲得されるすべての最重共通文字列中で最も重い合計の重みを有する単語の最重共通文字列と定義される。
ノードによっては、1つの有向グラフのAP2でラベルされたノードとNAP2でラベルされたノードのように有向グラフ・テンプレートから抽出された1つの有向グラフで同時に現れない場合があることに留意されたい。その結果、Ni(...,AP2,1,...,NAP2,1...)のようにルール違反のラベルは、有向グラフ・テンプレートのノードと入力文の共通文字列のどの計算計画にも入ることを許可されるべきではない。以下のアルゴリズムはテンプレート−テンプレートと入力文の最重共通文字列を計算するための手順を記述する。以下の計算では、ラベル・シンボルの非常に特別の値として「λ」が使用され、それによってその値は計算の特定の段階に達するまで未指定のままである。
1.テンプレート−テンプレートを、その有向エッジ(遷移)がテンプレートの対応する単語によってラベルされるテンプレート有向グラフに変換する。
2.有向グラフのすべてのノードを、ノードNiおよびNjの対ごとにj>iの場合にNjからNiへの遷移がないようにN1,N2,...,Ntのノードにトポロジカリーに分類する。
3.空のノードN0を有向グラフに追加し、N0からの弧をテンプレート−テンプレートのすべての開始ノードに加える。
4.CM(N0,M0)=0にセットする。
5.i=0からtの場合、以下のステップを実行する。
6.1つのシンボルに関連付けられたNiに対して少なくとも1つの弧があり、ノードNi以降にsの関係ラベルがまったく存在しない場合、すべてのiに関してj=0からmの場合は以下を実行する。
s関係ラベルが{s1,s2,...,sn}に現れておらず少なくとも1つの{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh}が存在する場合、任意のラベル{s1,p1,s2,p2,...,sn,pn}に関してすべてのCM(Ni{...},Mj)をチェックする。ここでCM(Ni{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh},Mj)が定義されるように、sx1,sx2,...,sxhはs関係ラベルである。
CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)を最大のCM(Ni{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh},Mj)と定義し、すでに定義されているすべてのCM(Ni{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh},Mj)を定義解除する。
7.j=0からmの場合、以下のステップを実行する。
8.Niからの弧があるノードNkのそれぞれに対しては以下を実行する。
(1)弧NiNkがラベルを有しない場合、すでに定義されているCM(Ni{...},Mj)、CM(Ni(...),Mj+1),CM(Nk{...},Mj)、CM(Nk(...),Mj+1)をすべてチェックし、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)、CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1の1つが既に定義されている場合はCM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1)を以下のデータの最大と定義する。
・ 既に定義されている場合はCM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)である。
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)が既に定義されており、弧NiNkがWkと一致する場合はM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)+W(NiNk)である。
・ 既に定義されている場合はCM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)である。
・ 既に定義されている場合はCM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)である。
既に定義されている場合はCM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1)である。
(2)弧NiNkがシンボルsに関連付けられている場合、既に定義されているCM(Ni(...),Mj),CM(Ni{...},Mj+1)、CM(Nk(...),Mj)、CM(Nk{...},Mj+1)をチェックする。
(i)ノード・ラベル{s1,p1,s2,p2,...,sn,pn,s,λ}が矛盾なしラベルであり、以下の少なくとも1つが既に定義されている場合:
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)
・ CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1)
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,λ},Mj)、CM(Ni{s1,p1,s2,p2,...,sn,pn,s,λ},Mj+1)
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,s,λ},Mj)、CM(Nk{s1,p1,s2,p2,...,sn,pn,,s,λ},Mj+1)
・CM(Nk{s1,p1,s2,p2,...,sn,pn,s,λ},Mj+1)を上記で定義されたデータの最大のデータと定義する。
(ii)ラベル{s1,p1,s2,p2,...,sn,pn}があると仮定して、ラベル{s1,p1,s2,p2,...,sn,pn,s,p}が矛盾なしラベルであり、以下の少なくとも1つが真である場合:
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)がすでに定義されており、sからpまでのセッティングが{s1,p1,s2,p2,...,sn,pn}の必須選択肢であるか、pがsに割り当てられた後でNiNkがMj+1と一致する場合
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)がすでに定義されており、sからpまでのセッティングが{s1,p1,s2,p2,...,sn,pn}の必須選択肢の場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)がすでに定義されており、sからpまでのセッティングが{s1,p1,s2,p2,...,sn,pn}の必須選択肢である場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,s,p},Mj+1)が既に定義されている場合
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,p,},Mj)が既に定義されている場合
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,,s,p},Mj+1)が既に定義されている場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,,s,p},Mj)が既に定義されている場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,,s,p},Mj+1)が既に定義されている場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,s,p},Mj+1)を上記で定義されたデータと以下のデータの最大データと定義する。
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)が定義されており、pがsにセットされた後でNiNkがMj+1に一致する場合、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)+W(Mj+1)である。
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,p},Mj)が定義されており、pがsに割り当てられた後でNiNkがMj+1と一致する場合、
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,p},Mj)+W(Mj+1)である。
また、sとして割り当てられたpに従い、これらのsiをλから値の必須選択肢まで変更する。
Nxを最終的な頂点であると既に定義しているすべてのCM(Nx,Mm)の中で最大のCM(Nx,Mm)はテンプレート−テンプレートおよびパスの最重共通文字列の重みになる。
上記のアルゴリズムでは、いくつかの候補からいつCM(N.(..),M.)を選択したとしても選択したその1つに対して一種のバック・リンクをセットすることに留意されたい。テンプレート−テンプレートとパスの最長共通文字列の重みを探索したように、このバック・リンクを追跡することによって、最重共通文字列を有する抽出されたテンプレートのパスを入力文と共に即座に獲得することができることに留意されたい。
AS:名詞の量に仮定が行われている、
AT:冠詞は必要ない、
CM:コンマが必要である、
CT:短縮形が不正確である、
MN:意味が不正確である、
NP:名詞は複数形でなければならない、
VS:主語が単数形なので動詞は単数形でなければならない、
PR:前置詞が不正確である、
PP:句は複数形である必要がある、
一般的な品詞タグ:
DT:限定詞 EX:存在を表す
IN:前置詞/従属接続詞 JJ:形容詞
NN:名詞、単数または集合 NNS:名詞、複数
NNP:固有名詞、単数 RB:副詞
VBN:動詞、過去分詞 VBP:動詞、非3人称単数、現在形
VBZ:動詞、3人称単数、現在形
以下本発明を図面に示す具体例によって説明する。
図1はオリジナルなテンプレート−テンプレートの構成を示す図であり、図2は上記の展開ルールにより展開されたテンプレート−テンプレートを示す図、図3はテンプレート1を示す図であり、図4はテンプレート2を示す図である。
テンプレート−テンプレート、抽出ルールによるテンプレート拡張、およびバギー・ルールの例
本発明の実施例においては、まず「Japan is dotted with beautiful gardens nationwide.」という意味の日本語の文章の英語への翻訳文に関するテンプレート−テンプレートを構築する。図1等に示される番号は、文中における各単語の相対的重要性を強調する各単語の重みを示している。テンプレートの単語のデフォルトの重みは1にセットされており、これらはこの分野の専門家によって判断されるその単語の重要性に関連付けて割り当てられる必要がある。徳田 尚之、陳 亮、笹井 紘幸による特開2002−49617号を詳細な説明のために参照する。「[」と「]」の間のシンボルは品詞タグである。図中左端に示すノードは開始ノードである。
前記バギー・ルールを単純に適用することによって、それを図2のテンプレート−テンプレートに展開することができる。
これは、前記のバギー・ルールがバグの分類法を生成することができ、それによってそれらの誤り表現をテンプレート−テンプレートに構築することを自動的に可能にするので、語学教師がテンプレート−テンプレートを構築する際に多くの一般的なエラーを分類することの詳細に配慮する必要はないということを示している。
次に、前記タイプAルールを適用すると、AP1でマーク付けされたノードがそのテンプレートに現れることを可能にし、したがって図2のNAP1でマーク付けされたノードを削除することによって図2のテンプレート−テンプレートから図3のテンプレート1を抽出し、ならびに図2のAP1でマーク付けされたノードを削除し、したがってNAP1でマーク付けされたノードがそのテンプレートに現れるようにすることによって図4のテンプレート2を抽出することができることが容易に分かる。
語学教師がより簡素なラベル・シンボルに関してテンプレートの1つの大きな組み合わせを完成させてテンプレート−テンプレートを構築することができることが理解される。
テンプレート−テンプレートおよび入力文に対する最重共通文字列マッチング・アルゴリズム
前記の詳細な説明から明らかなように、単一テンプレート−テンプレートから多くのテンプレートを抽出することができる。テンプレート−テンプレートが遷移図上のあるノードに関連付けられるべきラベル・シンボルs1,s2,...,snを有すると仮定すると、テンプレート−テンプレートから抽出された異なるテンプレートはそれらのシンボルをノードに割り当てることによって獲得することができる。本発明ではテンプレートから抽出された各テンプレートをnタプル{s1,p1,s2,p2...,sn,pn}で示すことができる。ここで、piはシンボルsiに対する適切な割り当てである。上記のセクションで既に議論した通り、piは使用される抽出ルールに従って数字または単語のどちらかであってもよい。
2つの文章の最重共通文字列はa1の次にa2、その次に...、その次にamという順番で両方の文章に現れる順番付けされた単語の最重共通文字列a1,a2,...,amであると定義される。共通文字列の定義は、A.V.AhoおよびJ.D.Ullman著(Computer Science Press,1992,pp.321−327)の教科書『Foundations of Computer Science[情報化学の基礎]』に記載されている。
テンプレート内の各単語または各語句には重みが割り当てられているので、テンプレート内のパスと入力文の最重共通文字列は、その合計の重みが最大であるすべての予想可能な共通文字列内の最重共通文字列と定義される。
次に、テンプレートのすべての予想可能な有効パスから入力文の単語および/または語句の最重共通文字列を検索する。
テンプレートおよび入力文の最重共通文字列は、それぞれがテンプレートと入力文1つのパスから獲得される最重共通文字列中で最も重い合計重量を有する単語の最重共通文字列と定義される。
言語翻訳学習システムに関係するアプリケーションでテンプレート−テンプレートが獲得されると、次のステップは、入力文をすべての予想可能なテンプレートのそれぞれと照合し、次いで最も近いパスを選択することである。文章に対するテンプレートのDP(ダイナミックプログラミング)ベースの照合手順の詳細な説明は、徳田 尚之、陳 亮、笹井 紘幸らによる特開2002−49617号等に記載されている。
本発明の方法では、テンプレート−テンプレートからすべてのテンプレートを物理的に抽出せずに、抽出ルールによって(しかしバギー・ルールにはよらずに)直接的に抽出することができるテンプレートのすべての有効なパスの中から最も近いパスを探索する。そのような照合を行う前にテンプレート−テンプレートにはいかなるバギー・ルールをも含めないように、まずバギー・ルールが埋め込まれたテンプレート−テンプレートを展開する必要がある。これはすでに述べた図2のステップに従って実行することができる。
アルゴリズムで必要とされる第1のステップは、適用可能な空ノードごとに□というラベルの弧に重み0を加算してテンプレートの各ノードをグラフの1つまたは複数の弧として単純に表現することによって、テンプレート−テンプレートを非循環的な重み付けされた有限有向グラフ(有向グラフ)の2重数値に変換することである。有向グラフはテンプレート−テンプレートから変換されるので、その関数がそのシンボルに割り当てられた値に決定的に依存するラベル・シンボルに関連付けられた多くの弧を含む。したがってそのような1つの有向グラフがあると仮定すると、異なる一組のラベル・シンボルが弧に割り当てられている場合は完全に異なるテンプレートを抽出することができる。すなわち、そのような有向グラフがあると仮定すると、テンプレート−テンプレートから抽出することができるテンプレートにそれぞれが対応する多くの有向グラフを獲得することができる。テンプレート−テンプレートから抽出された有向グラフを、以後、テンプレート有向グラフと呼ぶ。
本発明者らは、次にすべての有向グラフのパスと入力文の共通文字列から最重共通文字列を探索する手順を以下で定義する。
有向グラフの任意の特定のノードNで終了するパスと入力文の最重共通文字列は、有向グラフNで終了する1つのパスと入力文からそれぞれが獲得されるすべての最重共通文字列中最も重い合計重量を有する単語のシーケンスと定義される。
さらに、テンプレート有向グラフから抽出され、しかしノードNiで終了するすべての有向グラフのパスをNi{s1,p1,s2,p2,...,sn,pn}で表現する。ここでシンボルsiは値p1(i=1,2,...,n)に割り当てられる。nタプル{s1,p1,s2,p2,...,sn,pn}をノードNiのラベルと呼ぶ。ここでs1をp1に、s2をp2に、...,snをpnにセットするときにルールの矛盾がないものと仮定すべきである。このようなラベル{s1,p1,s2,p2,...,sn,pn}を矛盾なしラベルと呼ぶ。
Ni{s1,p1,s2,p2,...,sn,pn}でラベルされたノードと入力文の最重共通文字列は、矛盾なしラベル{s1,p1,s2,p2,...,sn,pn}でマーク付けされたノードを有する有向グラフ・テンプレートから抽出された1つの有向グラフの最重共通文字列としてそれぞれが獲得されるすべての最重共通文字列中で最も重い合計の重みを有する単語の最重共通文字列と定義される。
ノードによっては、1つの有向グラフのAP2でラベルされたノードとNAP2でラベルされたノードのように有向グラフ・テンプレートから抽出された1つの有向グラフで同時に現れない場合があることに留意されたい。その結果、Ni(...,AP2,1,...,NAP2,1...)のようにルール違反のラベルは、有向グラフ・テンプレートのノードと入力文の共通文字列のどの計算計画にも入ることを許可されるべきではない。以下のアルゴリズムはテンプレート−テンプレートと入力文の最重共通文字列を計算するための手順を記述する。以下の計算では、ラベル・シンボルの非常に特別の値として「λ」が使用され、それによってその値は計算の特定の段階に達するまで未指定のままである。
1.テンプレート−テンプレートを、その有向エッジ(遷移)がテンプレートの対応する単語によってラベルされるテンプレート有向グラフに変換する。
2.有向グラフのすべてのノードを、ノードNiおよびNjの対ごとにj>iの場合にNjからNiへの遷移がないようにN1,N2,...,Ntのノードにトポロジカリーに分類する。
3.空のノードN0を有向グラフに追加し、N0からの弧をテンプレート−テンプレートのすべての開始ノードに加える。
4.CM(N0,M0)=0にセットする。
5.i=0からtの場合、以下のステップを実行する。
6.1つのシンボルに関連付けられたNiに対して少なくとも1つの弧があり、ノードNi以降にsの関係ラベルがまったく存在しない場合、すべてのiに関してj=0からmの場合は以下を実行する。
s関係ラベルが{s1,s2,...,sn}に現れておらず少なくとも1つの{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh}が存在する場合、任意のラベル{s1,p1,s2,p2,...,sn,pn}に関してすべてのCM(Ni{...},Mj)をチェックする。ここでCM(Ni{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh},Mj)が定義されるように、sx1,sx2,...,sxhはs関係ラベルである。
CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)を最大のCM(Ni{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh},Mj)と定義し、すでに定義されているすべてのCM(Ni{s1,p1,s2,p2,...,sn,pn,sx1,px1,sx2,px2,...,sxh,pxh},Mj)を定義解除する。
7.j=0からmの場合、以下のステップを実行する。
8.Niからの弧があるノードNkのそれぞれに対しては以下を実行する。
(1)弧NiNkがラベルを有しない場合、すでに定義されているCM(Ni{...},Mj)、CM(Ni(...),Mj+1),CM(Nk{...},Mj)、CM(Nk(...),Mj+1)をすべてチェックし、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)、CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1の1つが既に定義されている場合はCM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1)を以下のデータの最大と定義する。
・ 既に定義されている場合はCM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)である。
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)が既に定義されており、弧NiNkがWkと一致する場合はM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)+W(NiNk)である。
・ 既に定義されている場合はCM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)である。
・ 既に定義されている場合はCM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)である。
既に定義されている場合はCM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1)である。
(2)弧NiNkがシンボルsに関連付けられている場合、既に定義されているCM(Ni(...),Mj),CM(Ni{...},Mj+1)、CM(Nk(...),Mj)、CM(Nk{...},Mj+1)をチェックする。
(i)ノード・ラベル{s1,p1,s2,p2,...,sn,pn,s,λ}が矛盾なしラベルであり、以下の少なくとも1つが既に定義されている場合:
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)
・ CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)、CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj+1)
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,λ},Mj)、CM(Ni{s1,p1,s2,p2,...,sn,pn,s,λ},Mj+1)
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,s,λ},Mj)、CM(Nk{s1,p1,s2,p2,...,sn,pn,,s,λ},Mj+1)
・CM(Nk{s1,p1,s2,p2,...,sn,pn,s,λ},Mj+1)を上記で定義されたデータの最大のデータと定義する。
(ii)ラベル{s1,p1,s2,p2,...,sn,pn}があると仮定して、ラベル{s1,p1,s2,p2,...,sn,pn,s,p}が矛盾なしラベルであり、以下の少なくとも1つが真である場合:
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)がすでに定義されており、sからpまでのセッティングが{s1,p1,s2,p2,...,sn,pn}の必須選択肢であるか、pがsに割り当てられた後でNiNkがMj+1と一致する場合
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj+1)がすでに定義されており、sからpまでのセッティングが{s1,p1,s2,p2,...,sn,pn}の必須選択肢の場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn},Mj)がすでに定義されており、sからpまでのセッティングが{s1,p1,s2,p2,...,sn,pn}の必須選択肢である場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,s,p},Mj+1)が既に定義されている場合
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,p,},Mj)が既に定義されている場合
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,,s,p},Mj+1)が既に定義されている場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,,s,p},Mj)が既に定義されている場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,,s,p},Mj+1)が既に定義されている場合
・ CM(Nk{s1,p1,s2,p2,...,sn,pn,s,p},Mj+1)を上記で定義されたデータと以下のデータの最大データと定義する。
・ CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)が定義されており、pがsにセットされた後でNiNkがMj+1に一致する場合、CM(Ni{s1,p1,s2,p2,...,sn,pn},Mj)+W(Mj+1)である。
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,p},Mj)が定義されており、pがsに割り当てられた後でNiNkがMj+1と一致する場合、
・ CM(Ni{s1,p1,s2,p2,...,sn,pn,s,p},Mj)+W(Mj+1)である。
また、sとして割り当てられたpに従い、これらのsiをλから値の必須選択肢まで変更する。
Nxを最終的な頂点であると既に定義しているすべてのCM(Nx,Mm)の中で最大のCM(Nx,Mm)はテンプレート−テンプレートおよびパスの最重共通文字列の重みになる。
上記のアルゴリズムでは、いくつかの候補からいつCM(N.(..),M.)を選択したとしても選択したその1つに対して一種のバック・リンクをセットすることに留意されたい。テンプレート−テンプレートとパスの最長共通文字列の重みを探索したように、このバック・リンクを追跡することによって、最重共通文字列を有する抽出されたテンプレートのパスを入力文と共に即座に獲得することができることに留意されたい。
本発明を明細書中では代表的な応用例である自然言語翻訳の技術分野に関して記載したが、本発明の用途は自然言語学習システムに限定されるものではなく、本発明は音声利用技術、プログラミング言語学習システム、または例えば人間とコンピュータの対話を可能にするより自然な拡張型インターフェースを必要とするシステムであればどのようなシステムのためにも利用することができる。
Claims (6)
- 抽出ルール・ベースのテンプレート−テンプレート構造およびバギー・ルールの拡張性を用いた対話式学習システムにおいて、テンプレート−テンプレート構造内のノードのいくつかが、多くのテンプレートまたはいわゆる大きいテンプレートに抽出することができる抽出ルールに関連付けられたシンボルでマーク付けされるテンプレート−テンプレート構造を用いた対話式学習システム。
- 展開テンプレートのノードのいくつかに抽出ルールに関連付けられた特別なシンボルが割り当てられており、これによってテンプレートの1つまたは複数を抽出することができるようになされたテンプレート−テンプレート・スキームを用いる請求項1記載の対話式学習システム。
- 単一テンプレート−テンプレートから複数のテンプレートを抽出するためにテンプレート−テンプレート内のノードをマーク付けするために使用される抽出ルール基く請求項1記載の対話式学習システム。
- スリムなテンプレート−テンプレートをより大きなテンプレート−テンプレートまたはよりファットなテンプレート−テンプレートに展開するために用いられるバギー・ルール基く請求項1記載の対話式学習システム。
- 前記抽出ルールが常に一組のシンボル、すなわち{s1,s2,...,sn}に関連付けられ、このシンボルのそれぞれはテンプレートの1つまたは複数のノードに割り当てられ、これらの関連付けられたシンボルには1つまたは複数の値が割り当てられてなる抽出ルール基く請求項1記載の対話式学習システム。
- 入力文を抽出ルールが埋め込まれたテンプレート−テンプレートと照合するためのHCSマッチング・アルゴリズムを用いる請求項1記載の対話式学習システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003120733 | 2003-03-22 | ||
JP2003120733 | 2003-03-22 | ||
PCT/JP2004/003838 WO2004084156A1 (ja) | 2003-03-22 | 2004-03-22 | テンプレート−テンプレート構造に基づく対話式学習システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2004084156A1 true JPWO2004084156A1 (ja) | 2006-06-22 |
Family
ID=33028293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005503774A Pending JPWO2004084156A1 (ja) | 2003-03-22 | 2004-03-22 | テンプレート−テンプレート構造に基づく対話式学習システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7509296B2 (ja) |
EP (1) | EP1607925A4 (ja) |
JP (1) | JPWO2004084156A1 (ja) |
WO (1) | WO2004084156A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417513B2 (en) * | 2008-06-06 | 2013-04-09 | Radiant Logic Inc. | Representation of objects and relationships in databases, directories, web services, and applications as sentences as a method to represent context in structured data |
WO2012170053A1 (en) * | 2011-06-09 | 2012-12-13 | Rosetta Stone, Ltd. | Producing controlled variations in automated teaching system interactions |
US20140052659A1 (en) * | 2012-08-14 | 2014-02-20 | Accenture Global Services Limited | Learning management |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6540520B2 (en) | 2000-01-26 | 2003-04-01 | Benny G. Johnson | Intelligent tutoring methodology using consistency rules to improve meaningful response |
JP3778785B2 (ja) | 2000-08-01 | 2006-05-24 | 株式会社サン・フレア | 最適翻訳文選定方法,選定装置および記録媒体 |
JP3843810B2 (ja) * | 2001-11-16 | 2006-11-08 | 日本電気株式会社 | マルチテンプレート管理システムおよびマルチテンプレート管理プログラム |
-
2004
- 2004-03-22 WO PCT/JP2004/003838 patent/WO2004084156A1/ja active Application Filing
- 2004-03-22 US US10/550,090 patent/US7509296B2/en not_active Expired - Lifetime
- 2004-03-22 EP EP04722383A patent/EP1607925A4/en not_active Withdrawn
- 2004-03-22 JP JP2005503774A patent/JPWO2004084156A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1607925A1 (en) | 2005-12-21 |
WO2004084156A1 (ja) | 2004-09-30 |
EP1607925A4 (en) | 2011-01-26 |
US20060154218A1 (en) | 2006-07-13 |
US7509296B2 (en) | 2009-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200243076A1 (en) | Multi-Dimensional Parsing Method and System for Natural Language Processing | |
US9390087B1 (en) | System and method for response generation using linguistic information | |
AU2004218705B2 (en) | System for identifying paraphrases using machine translation techniques | |
US6684201B1 (en) | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites | |
CN102439590A (zh) | 用于自然语言文本的自动语义标注的系统和方法 | |
Santana et al. | A survey on narrative extraction from textual data | |
Jakupović et al. | Formalisation method for the text expressed knowledge | |
Valerio et al. | Using automatically generated concept maps for document understanding: A human subjects experiment | |
KR20210043283A (ko) | 기계 독해 기반 지식 추출을 위한 시스템 및 방법 | |
US12106045B2 (en) | Self-learning annotations to generate rules to be utilized by rule-based system | |
Mollá | Learning of graph-based question answering rules | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Antony et al. | A survey of advanced methods for efficient text summarization | |
Perez-Gonzalez et al. | GOOAL: a graphic object oriented analysis laboratory | |
Malhar et al. | Deep learning based Answering Questions using T5 and Structured Question Generation System’ | |
BE1022627B1 (nl) | Methode en apparaat voor het automatisch genereren van feedback | |
JPWO2004084156A1 (ja) | テンプレート−テンプレート構造に基づく対話式学習システム | |
Mendes et al. | Bootstrapping multiple-choice tests with the-mentor | |
Elwert | Network analysis between distant reading and close reading | |
Elnozahy et al. | Multi-Lang Question Answering Framework for Decision Support in Educational Institutes. | |
Berleant | Engineering “word experts” for word disambiguation | |
Dai et al. | Semantic network language generation based on a semantic networks serialization grammar | |
Neme | An arabic language resource for computational morphology based on the semitic model | |
Liu et al. | Eliciting relations from natural language requirements documents based on linguistic and statistical analysis | |
Siragusa et al. | Automatic extraction of correction patterns from expert-revised corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100316 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100727 |