WO2018163241A1 - オントロジー構築支援装置 - Google Patents

オントロジー構築支援装置 Download PDF

Info

Publication number
WO2018163241A1
WO2018163241A1 PCT/JP2017/008766 JP2017008766W WO2018163241A1 WO 2018163241 A1 WO2018163241 A1 WO 2018163241A1 JP 2017008766 W JP2017008766 W JP 2017008766W WO 2018163241 A1 WO2018163241 A1 WO 2018163241A1
Authority
WO
WIPO (PCT)
Prior art keywords
ontology
triple
node
nodes
template
Prior art date
Application number
PCT/JP2017/008766
Other languages
English (en)
French (fr)
Inventor
隼人 内出
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2017/008766 priority Critical patent/WO2018163241A1/ja
Priority to JP2019503832A priority patent/JP6563151B2/ja
Priority to US16/476,347 priority patent/US11281853B2/en
Priority to CN201780087781.4A priority patent/CN110352417B/zh
Publication of WO2018163241A1 publication Critical patent/WO2018163241A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"

Definitions

  • the present invention relates to an ontology construction support apparatus that supports the construction of an ontology described in an ontology description language.
  • knowledge bases and knowledge databases have become large-scale, especially when using knowledge base systems and knowledge database systems that are distributed over a network. It is requested to do.
  • Such knowledge bases and knowledge database systems are constructed according to the construction rules of each system.
  • Ontology is attracting attention as a promising method.
  • OWL Web Ontology Language
  • W3C World Wide Web Consortium
  • This invention has been made to solve such a problem, and an object thereof is to obtain an ontology construction support apparatus capable of reducing the load of ontology construction work.
  • the ontology construction support device includes a search unit that searches a node set similar to a given word from an ontology database in which triples described in an ontology description language are registered, and a node set searched by the search unit
  • a template creation unit that creates a template for creating a triple that includes a newly added node from the common properties and nodes of each node included in the template, a template created by the template creation unit, and a given word
  • a triple that connects nodes having names is created as display data, and when a triple is given, an additional information determination unit that registers the triple in the ontology database is provided.
  • the ontology construction support device creates a template for creating a triple including a newly added node from common properties and nodes of nodes included in a node set similar to a given word.
  • a triple that connects this template and a node that has the given word as a name is created as display data, and if this display data is given a modified triple, the triple is given. Is registered in the ontology database. Thereby, the load of ontology construction work can be reduced.
  • FIG. 1 is a configuration diagram showing an ontology construction support apparatus according to the present embodiment.
  • the ontology construction support apparatus 1 includes an ontology database 11, a word vector database 12, a search unit 13, a template creation unit 14, and an additional information determination unit 15.
  • the ontology database 11 is a database in which a set of triples described in an ontology description language is registered.
  • the word vector database 12 is a database in which a set of word vectors used by the search unit 13 for searching for a similar node set is registered.
  • This word vector database 12 may be configured using, for example, techniques described in the literature: Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, Efficient Estimation of Word Representations in Vector Space, ICLR 2013. .
  • the search unit 13 is a processing unit that searches a node set having a name similar to the word input from the input device 2 from an existing ontology stored in the ontology database 11.
  • the template creation unit 14 is a processing unit that creates a template for creating a triple for newly adding a common property possessed by each node of the search result output by the search unit 13.
  • the additional information determination unit 15 creates a triple that connects the template created by the template creation unit 14 and a node having the given word as a name, outputs the triple to the display device 3, and outputs the display data to the display device 3.
  • the processing unit registers the triple in the ontology database 11.
  • FIG. 2 is a hardware configuration diagram for realizing the ontology construction support apparatus shown in FIG.
  • hardware for realizing the ontology construction support device includes a processor 101, a memory 102, a mouse 103, a keyboard 104, a display device 105, and an auxiliary storage device 106.
  • the processor 101 is a processor for realizing these functional units by executing programs corresponding to the search unit 13, the template creation unit 14, and the additional information determination unit 15.
  • the memory 102 is a storage unit that holds a program executed by the processor 101 and constitutes a work area of the processor 101.
  • the mouse 103 and the keyboard 104 are peripheral devices corresponding to the input device 2 for performing data input by a user operation.
  • the display device 105 is a peripheral device such as a display that displays output data from the ontology construction support device 1, and corresponds to the display device 3 shown in FIG.
  • the auxiliary storage device 106 is a storage device that holds the ontology database 11 and the word vector database 12 and stores programs corresponding to the search unit 13 to the additional information determination unit 15.
  • the auxiliary storage device 106 does not necessarily exist inside the device, and a storage device existing on the cloud may be used via a communication interface.
  • the search unit 13 searches the ontology database 11 for a node name similar to the word input by the user using the word vector database 12.
  • the specific operation of the search unit 13 is shown in the flowchart of FIG.
  • the search part 13 acquires the word which the user input with the input device 2 from the input device 2 (step ST11).
  • the search part 13 searches the word vector database 12, and acquires the vector of the input word (step ST12).
  • the search unit 13 searches the ontology database 11 using the input word vector acquired in step ST12.
  • the search uses the similarity between vectors. It is conceivable to use the Euclidean distance shown in Equation (1) or the cosine similarity shown in Equation (2) for calculating the similarity between vectors (Step ST13).
  • step ST13 An example of similarity calculation in step ST13 will be described.
  • a plurality of nodes having different names are connected to a specific node with the same property to form a triple, a plurality of nodes having different names are defined as a node set.
  • the search unit 13 searches the ontology database 11, the average vector of each node included in the node set calculated in advance is used for calculating the similarity.
  • An example of similarity calculation is shown in FIG. If the word input from the user in step ST11 is “Saury”, the search unit 13 acquires a vector of “Saury” in Step ST12.
  • the search unit 13 adds “tuna”, “mackerel”, and “aji” to the list of node sets output to the template creation unit 14 (step ST14).
  • the threshold value is defined in advance by hand. For example, the similarity threshold is set to 0.5 or the like.
  • Ontology that is highly likely to be connected to words input from the user by using the similarity between the vector of words input from the user and the average vector of nodes regarded as a node set in the ontology. You can search for nodes and properties.
  • the template creation unit 14 creates a template for creating a triple to be registered in the ontology database 11 from the list of node sets with high similarity output from the search unit 13.
  • a specific operation is shown in the flowchart of FIG.
  • An example of template creation is shown in FIG. FIG. 6A shows a list of node sets having a high degree of similarity, and shows a relationship among a node list 301, a property list 302, and a node list 303 included in the node set.
  • the properties enclosed by the broken line frame 304 indicate the properties that the nodes have in common.
  • the template creation unit 14 acquires a list of node sets having a high degree of similarity from the search unit 13 (step ST21).
  • the template creation unit 14 acquires a property and a list of nodes possessed by the nodes included in the acquired node set (step ST22). From the acquired property and node list, properties and nodes that are common to each node are extracted, duplicates are deleted, and a template is created (step ST23).
  • a threshold is set in advance for the property to be extracted and the condition of the node, such as the number of nodes.
  • the property and node to be extracted are the property and node that are shared by two or more nodes. In the example of FIG.
  • the template creation unit 14 uses a property and a node shared by the nodes included in the node set having a high degree of similarity output from the search unit 13 as a template, so that the meaning close to the word input by the user is obtained. Since an ontology node having a node can be automatically connected to a property having a high probability, the node registration work as the ontology construction support apparatus 1 can be simplified.
  • the additional information determination unit 15 creates a triple connecting the template output from the template creation unit 14 and a node having the name of the word input by the user, and presents it to the user using the display device 3. If necessary, the user corrects the triple displayed using the mouse 103 or the keyboard 104. The additional information determination unit 15 registers the corrected triple in the ontology database 11. A specific operation is shown in the flowchart of FIG. FIG. 8 shows an example of GUI display presented to the user.
  • the additional information determination unit 15 acquires a template from the template creation unit 14 (step ST31).
  • the additional information determination unit 15 creates a node having the node name as the word input by the input device 2, and creates a triple by connecting to the template (step ST32).
  • the created triple is displayed on the display device 3 and presented to the user (step ST33). That is, as shown in the figure, a template portion 402 is connected to a newly added node name 401 to create a triple display portion 403. Note that a newly added node name 401 a and a similar node name 404 are created outside the triple display portion 403.
  • the user confirms the created triple, and when it is determined that correction is necessary, the user corrects the triple on the GUI using the mouse 103 or the keyboard 104.
  • the additional information determination unit 15 determines whether there has been a correction input from the input device 2 (step ST34). If there is a correction input (YES in step ST34), the correction is reflected in the triple (step ST35), and the corrected triple is registered in the ontology database 11 (step ST36). When there is no correction input from the input device 2 (NO in step ST34), the additional information determination unit 15 registers the triple displayed on the display device 3 in step ST33 in the ontology database 11 as it is (step ST36).
  • the ontology can be constructed more efficiently than before.
  • the additional information determination unit 15 determines the number of properties and nodes stored in the template created by the template creation unit 14 and the number of properties and nodes that are the basis of the template.
  • the display method may be changed accordingly. For example, in the case of the template shown in FIG. 6B, as shown in FIG. 6A, the number of nodes having property A is 3, and the number of nodes having node 1 is 2. Therefore, when displaying, the display method is changed, such as increasing the density of the color at the location of property A or decreasing the density of the color at the location of node 1. In this way, it is possible to visually determine the proportion of the properties and nodes stored in the template that are commonly connected in the original node set of the template. Will help to judge.
  • the search unit that searches the ontology database in which triples described in the ontology description language are registered for a node set similar to the given word;
  • a template creation unit that creates a template for creating a triple including a newly added node from the common properties and nodes of each node included in the node set searched by the search unit, and a template creation unit A triple that connects the template and a node having the given word as a name is created as display data, and when a triple is given, an additional information determination unit that registers the triple in the ontology database is provided.
  • the additional information determination unit registers the corrected triple in the ontology database. Therefore, the triple can be corrected and the corrected triple can be registered in the ontology database.
  • the template creation unit creates a template by extracting properties and nodes that satisfy the set extraction target conditions from the common properties and nodes, and generates additional information.
  • the decision unit uses display format data that indicates the ratio of the common property, the number of nodes, the extracted property, and the number of nodes as display data, so it is necessary to determine whether to correct the triple. Can further reduce the load of ontology construction work.
  • any component of the embodiment can be modified or any component of the embodiment can be omitted within the scope of the invention.
  • the ontology construction support apparatus includes information that clearly defines the concept itself or terms themselves, and the relationships between concepts or terms, and uses an ontology description language. It is related to a configuration that supports the construction of ontology described in the above, and is suitable for use in knowledge bases and knowledge database systems.
  • Ontology construction support device 2 input device, 3 display device, 11 ontology database, 12 word vector database, 13 search unit, 14 template creation unit, 15 additional information determination unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索部(13)は、与えられた単語と類似するノード集合をオントロジーデータベース(11)から検索する。テンプレート作成部(14)は、検索されたノード集合に含まれる各ノードが持つ共通のプロパティとノードからテンプレートを作成する。追加情報決定部(15)は、テンプレートと、与えられた単語を名称として持つノードとを接続したトリプルを作成して表示データとすると共に、トリプルが与えられた場合はそのトリプルをオントロジーデータベース(11)に登録する。

Description

オントロジー構築支援装置
 本発明は、オントロジー記述言語で記述されたオントロジーの構築を支援するオントロジー構築支援装置に関する。
 近年の情報処理技術の進展に伴い、知識ベースや知識データベースが大規模化し、特にネットワーク上に分散する知識ベースシステムや知識データベースシステムを利用する場合には、膨大な量のデータを効率的に処理することが求められている。このような知識ベースや知識データベースシステムは、それぞれのシステムの構築ルールに従って構築されている。
 このように、ネットワーク上に分散する知識ベースシステムや知識データベースシステムのデータを利用するためには、それらデータを一定の基準に従って分類、階層化できれば便利である。その有力な手法としてオントロジーが注目されている。
 オントロジーとは、ドメインに関する概念や用語について、概念自体あるいは用語自体や、概念間あるいは用語間の関係を明確に定義する情報を含み、オントロジー記述言語を用いて記述されたものである。
 オントロジー記述言語の例として、まずWEBに存在する語彙や知識とそれらの間の関係を体系的に表すための技術である、The World Wide Web Consortium(W3C)で勧告されているWeb Ontology Language(OWL)が挙げられる。OWLは、Resource Description Framework(RDF)における「誰の」に相当する要素である主語、「何が」に相当する述語、「どのような値」に相当する目的語で構成された、トリプルと呼ばれる集合で語彙の推論可能なクラス体系を表現する。ここで、主語・目的語はノード、述語はプロパティと呼ばれる。以下、このトリプルをオントロジー記述言語で記述されたトリプルとして説明する。
 独自のオントロジーを構築する作業は、ほとんどの場合人手によって行われてきた。しかし、精度の高いオントロジーを構築するには、 オントロジーに精通している必要があり、一部の専門家以外はオントロジーの構築が難しいという問題がある。さらに、データを構成するデータ項目数が多くなるほど、各データ項目に対応するプロパティの選択に多大な労力と時間を要するという問題がある。そこで、従来、例えば特許文献1に示すように、既存のオントロジー間の対応付けを行うオントロジー構築支援装置があった。
特開2009-70133号公報
 しかしながら、上記従来のオントロジー構築支援装置では、データ項目と既存のオントロジーを対応付けるための、オントロジーの対応付けに特化した事前知識としてのメタデータが必要であり、必ずしもオントロジー構築作業の負荷を低減することができない場合があった。
 この発明は、かかる問題を解決するためになされたもので、オントロジー構築作業の負荷を低減することのできるオントロジー構築支援装置を得ることを目的とする。
 この発明に係るオントロジー構築支援装置は、与えられた単語と類似するノード集合を、オントロジー記述言語で記述されたトリプルが登録されたオントロジーデータベースから検索する検索部と、検索部で検索されたノード集合に含まれる各ノードが持つ共通のプロパティとノードから、新たに追加するノードを含むトリプルを作成するためのテンプレートを作成するテンプレート作成部と、テンプレート作成部で作成したテンプレートと、与えられた単語を名称として持つノードとを接続したトリプルを作成して表示データとすると共に、トリプルが与えられた場合はそのトリプルをオントロジーデータベースに登録する追加情報決定部とを備えたものである。
 この発明に係るオントロジー構築支援装置は、与えられた単語と類似するノード集合に含まれる各ノードが持つ共通のプロパティとノードから、新たに追加するノードを含むトリプルを作成するためのテンプレートを作成し、このテンプレートと、与えられた単語を名称として持つノードとを接続したトリプルを作成して表示データとし、かつ、この表示データに対して修正等の施されたトリプルが与えられた場合はそのトリプルをオントロジーデータベースに登録するようにしたものである。これにより、オントロジー構築作業の負荷を低減することができる。
この発明の実施の形態1のオントロジー構築支援装置の構成図である。 この発明の実施の形態1のオントロジー構築支援装置のハードウェア構成図である。 この発明の実施の形態1のオントロジー構築支援装置における検索部の動作を示すフローチャートである。 この発明の実施の形態1のオントロジー構築支援装置における検索部の類似度算出の説明図である。 この発明の実施の形態1のオントロジー構築支援装置におけるテンプレート作成部の動作を示すフローチャートである。 図6A及び図6Bは、この発明の実施の形態1のオントロジー構築支援装置におけるテンプレート作成の説明図である。 この発明の実施の形態1のオントロジー構築支援装置における追加情報決定部の動作を示すフローチャートである。 この発明の実施の形態1のオントロジー構築支援装置におけるユーザに提示するGUI表示例を示す説明図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、本実施の形態によるオントロジー構築支援装置を示す構成図である。
 図示のように、オントロジー構築支援装置1は、オントロジーデータベース11、単語ベクトルデータベース12、検索部13、テンプレート作成部14、追加情報決定部15を備える。オントロジーデータベース11は、オントロジー記述言語で記述されたトリプルの集合が登録されているデータベースである。単語ベクトルデータベース12は、検索部13が類似ノード集合の検索に利用する単語ベクトルの集合が登録されているデータベースである。この単語ベクトルデータベース12は、例えば、文献:Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, Efficient Estimation of Word Representations in Vector Space, ICLR 2013.に記載されている技術を用いて構成してもよい。検索部13は、入力装置2から入力された単語と類似する名称を持つノード集合をオントロジーデータベース11に記憶されている既存のオントロジーから検索する処理部である。テンプレート作成部14は、検索部13で出力された検索結果の各ノードが持つ共通のプロパティを新たに追加するトリプルを作成するためのテンプレートを作成する処理部である。追加情報決定部15は、テンプレート作成部14で作成したテンプレートと、与えられた単語を名称として持つノードとを接続したトリプルを作成して表示データとして表示装置3に出力すると共に、この表示データに対して修正等の施されたトリプルが入力装置2から与えられた場合はそのトリプルをオントロジーデータベース11に登録する処理部である。
 図2は図1に示したオントロジー構築支援装置を実現するためのハードウェア構成図である。図示のように、オントロジー構築支援装置を実現するハードウェアは、プロセッサ101、メモリ102、マウス103、キーボード104、表示装置105、補助記憶装置106を備える。プロセッサ101は、検索部13、テンプレート作成部14及び追加情報決定部15に対応したプログラムを実行することで、これら機能部を実現するためのプロセッサである。メモリ102は、プロセッサ101によるプログラム実行時のプログラムを保持すると共にプロセッサ101の作業領域を構成する記憶部である。マウス103及びキーボード104は、ユーザが操作することでデータ入力を行うための入力装置2に相当する周辺機器である。表示装置105はオントロジー構築支援装置1からの出力データを表示するディスプレイといった周辺機器であり、図1に示した表示装置3に相当する。補助記憶装置106は、オントロジーデータベース11と単語ベクトルデータベース12とを保持すると共に、検索部13~追加情報決定部15に対応したプログラムを格納するための記憶装置である。ただし、補助記憶装置106は必ずしも装置内部に存在する必要は無く、通信インタフェースを介してクラウド上に存在する記憶装置を利用してもよい。
 次に、実施の形態1のオントロジー構築支援装置の動作について説明する。
 検索部13は、単語ベクトルデータベース12を用いてユーザが入力した単語に類似したノード名称をオントロジーデータベース11から検索する。検索部13の具体的な動作を図3のフローチャートに示す。先ず、検索部13は、ユーザが入力装置2によって入力した単語を入力装置2から取得する(ステップST11)。次に、検索部13は、単語ベクトルデータベース12を検索し、入力された単語のベクトルを取得する(ステップST12)。次に、検索部13は、ステップST12で取得した入力された単語のベクトルを用いてオントロジーデータベース11を検索する。検索にはベクトル同士の類似度を用いる。ベクトル同士の類似度の計算には、式(1)に示すユークリッド距離や、式(2)に示すコサイン類似度を用いることが考えられる(ステップST13)。
Figure JPOXMLDOC01-appb-I000001
 ステップST13の類似度の計算の例を説明する。ある特定のノードに対し、複数の異なる名称のノードが同一のプロパティで接続されてトリプルを構成している場合、複数の異なる名称のノードをノード集合と定義する。検索部13がオントロジーデータベース11を検索する際、類似度の計算には予め算出したノード集合に含まれる各ノードの平均ベクトルを用いる。
 類似度算出の例を図4に示す。ステップST11でユーザから入力された単語が「サンマ」であった場合、検索部13はステップST12で「サンマ」のベクトルを取得する。次に、オントロジーデータベース11に登録されている「魚」ノードに「is_a」プロパティで繋がる複数のノード「マグロ」「サバ」「アジ」に対して類似度を計算する場合について説明する。このとき、「マグロ」「サバ」「アジ」は「is_a」という同一のプロパティ201で「魚」ノードと接続されているため、ノード集合202とみなされ、「マグロ」「サバ」「アジ」の平均ベクトルが算出される(破線枠203参照)。類似度の計算204はステップST12で取得した「サンマ」のベクトル205と破線枠203中のノード集合の平均ベクトルで計算される。計算の結果、類似度が閾値以上であれば、検索部13はテンプレート作成部14へ出力するノード集合のリストへ「マグロ」「サバ」「アジ」を加える(ステップST14)。なお、閾値は人手によって事前に定義しておく。例えば、類似度の閾値を0.5等と設定する。
 このようにユーザから入力された単語のベクトルと、オントロジーにおいてノード集合とみなされたノードの平均ベクトルとの類似度を利用することで、ユーザから入力された単語が接続される可能性が高いオントロジーのノードとプロパティを検索することが出来る。
 次に、テンプレート作成部14は、検索部13から出力された類似度の高いノード集合のリストから、オントロジーデータベース11に登録するトリプルを作成するためのテンプレートを作成する。具体的な動作を図5のフローチャートに示す。また、テンプレート作成の一例を図6に示す。図6Aは類似度の高いノード集合のリストを示し、ノード集合に含まれるノードのリスト301、プロパティのリスト302、ノードのリスト303の関係を示している。また、プロパティのリスト302において、破線枠304で囲んだプロパティが各ノード間で共通に持っているプロパティを示している。
 まず、テンプレート作成部14は、検索部13から類似度の高いノード集合のリストを取得する(ステップST21)。次に、テンプレート作成部14は、取得したノード集合に含まれるノードが持つプロパティとノードのリストを取得する(ステップST22)。取得したプロパティとノードのリストから各ノード間で共通で持つプロパティとノードを抽出し、重複を削除し、テンプレートを作成する(ステップST23)。ここで、抽出対象とするプロパティとノードの条件は予めノード数等で閾値を設定する。例えば、抽出対象とするプロパティとノードは2ノード以上で共通に持っていたプロパティとノードとする。図6Aの例では「マグロ」「サバ」「アジ」ノードが持つ共通のプロパティは「プロパティA」「プロパティB」である。「プロパティA」に共通で接続され、抽出対象の条件を満たすノードは「ノード1」、「プロパティB」に共通で接続され、抽出対象の条件を満たすノードは「ノード3」であるため、テンプレート作成部14は、「プロパティA」と「ノード1」を接続したもの(305)と、「プロパティB」と「ノード3」を接続したもの(306)をテンプレートとして追加情報決定部15へ出力する(ステップST24)。図6Bは作成されたテンプレートを示す。
 このようにテンプレート作成部14では、検索部13で出力された類似度の高いノード集合に含まれるノードが共通で持つプロパティとノードをテンプレートとすることで、ユーザから入力された単語に近い意味を持つオントロジーのノードが高い確率で持つプロパティとノードを自動的に接続出来るため、オントロジー構築支援装置1としてのノードの登録作業を簡略化することが出来る。
 追加情報決定部15は、テンプレート作成部14から出力されたテンプレートとユーザが入力した単語の名称を持つノードを接続したトリプルを作成し、表示装置3を利用してユーザに提示する。ユーザは必要であれば提示されたトリプルに対してマウス103やキーボード104を用いてトリプルの修正を行う。追加情報決定部15は修正されたトリプルをオントロジーデータベース11に登録する。具体的な動作を図7のフローチャートに示す。また、図8は、ユーザに提示するGUI表示例を示している。
 まず、追加情報決定部15は、テンプレート作成部14からテンプレートを取得する(ステップST31)。次に、追加情報決定部15は、入力装置2で入力された単語をノード名称とするノードを作成し、テンプレートと接続してトリプルを作成する(ステップST32)。例えば図8の様に、作成されたトリプルを表示装置3に表示し、ユーザへ提示する(ステップST33)。すなわち図示のように、新規追加ノード名称401にテンプレート部分402が接続されてトリプル表示部分403が作成されている。なお、トリプル表示部分403の外側に新規追加ノード名称401aと類似ノードの名称404が作成されている。
 ユーザは作成されたトリプルを確認し、修正が必要だと判断した場合、マウス103やキーボード104を用いてGUI上でトリプルを修正する。追加情報決定部15は、入力装置2から修正入力があったかを判定し(ステップST34)。修正入力があった場合(ステップST34-YES)は、修正をトリプルに反映し(ステップST35)、修正されたトリプルをオントロジーデータベース11に登録する(ステップST36)。また、入力装置2から修正入力がなかった場合(ステップST34-NO)、追加情報決定部15は、そのまま、ステップST33で表示装置3に表示したトリプルをオントロジーデータベース11に登録する(ステップST36)。
 このようにすることで、ユーザは新たに追加するノードに接続されたプロパティとノードについて、その要否を判断するだけでよいため、従来よりも効率よくオントロジーを構築することが出来る。
 また、追加情報決定部15は、作成されたトリプルを表示する際、テンプレート作成部14で作成したテンプレートに格納されたプロパティとノードの数と、テンプレートの元となったプロパティとノードの数とに応じて表示の仕方を変えてもよい。例えば図6Bに示すテンプレートの場合、図6Aに示すように、プロパティAを持つノード数は3であり、そのうちノード1を持つノード数は2である。従って、表示する際にプロパティAの箇所の色の濃度を濃くする、ノード1の箇所の色の濃度を薄くする等、表示の仕方を変える。
 このようにすることで、テンプレートに格納されたプロパティとノードが、テンプレートの元となったノード集合において共通に接続された割合を視覚的に判断することが出来るため、トリプルの修正時において要否の判断の助けになる。
 以上説明したように、実施の形態1のオントロジー構築支援装置によれば、与えられた単語と類似するノード集合を、オントロジー記述言語で記述されたトリプルが登録されたオントロジーデータベースから検索する検索部と、検索部で検索されたノード集合に含まれる各ノードが持つ共通のプロパティとノードから、新たに追加するノードを含むトリプルを作成するためのテンプレートを作成するテンプレート作成部と、テンプレート作成部で作成したテンプレートと、与えられた単語を名称として持つノードとを接続したトリプルを作成して表示データとすると共に、トリプルが与えられた場合はそのトリプルをオントロジーデータベースに登録する追加情報決定部とを備えたので、オントロジー構築作業の負荷を低減することができる。
 また、実施の形態1のオントロジー構築支援装置によれば、追加情報決定部は、表示データに対して、修正されたトリプルが与えられた場合、修正されたトリプルをオントロジーデータベースに登録するようにしたので、トリプルを修正することができ、かつ、この修正されたトリプルをオントロジーデータベースに登録することができる。
 また、実施の形態1のオントロジー構築支援装置によれば、テンプレート作成部は、共通のプロパティとノードから、設定された抽出対象の条件を満たすプロパティとノードを抽出してテンプレートを作成し、追加情報決定部は、表示データとして、共通のプロパティとノードの数と抽出後のプロパティとノードの数との割合を示す表示形態のデータとするようにしたので、トリプルを修正する際の要否の判断の助けとなり、さらにオントロジー構築作業の負荷を低減することができる。
 なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 以上のように、この発明に係るオントロジー構築支援装置は、ドメインに関する概念や用語について、概念自体あるいは用語自体や、概念間あるいは用語間の関係を明確に定義する情報を含み、オントロジー記述言語を用いて記述されたオントロジーの構築を支援する構成に関するものであり、知識ベースや知識データベースシステムに用いるのに適している。
 1 オントロジー構築支援装置、2 入力装置、3 表示装置、11 オントロジーデータベース、12 単語ベクトルデータベース、13 検索部、14 テンプレート作成部、15 追加情報決定部。

Claims (3)

  1.  与えられた単語と類似するノード集合を、オントロジー記述言語で記述されたトリプルが登録されたオントロジーデータベースから検索する検索部と、
     前記検索部で検索されたノード集合に含まれる各ノードが持つ共通のプロパティとノードから、新たに追加するノードを含むトリプルを作成するためのテンプレートを作成するテンプレート作成部と、
     前記テンプレート作成部で作成したテンプレートと、前記与えられた単語を名称として持つノードとを接続したトリプルを作成して表示データとすると共に、トリプルが与えられた場合は当該トリプルを前記オントロジーデータベースに登録する追加情報決定部とを備えたことを特徴とするオントロジー構築支援装置。
  2.  前記追加情報決定部は、前記表示データに対して、修正されたトリプルが与えられた場合、当該修正されたトリプルを前記オントロジーデータベースに登録することを特徴とする請求項1記載のオントロジー構築支援装置。
  3.  前記テンプレート作成部は、前記共通のプロパティとノードから、設定された抽出対象の条件を満たすプロパティとノードを抽出して前記テンプレートを作成し、
     前記追加情報決定部は、前記表示データとして、前記共通のプロパティとノードの数と前記抽出後のプロパティとノードの数との割合を示す表示形態のデータとすることを特徴とする請求項2記載のオントロジー構築支援装置。
PCT/JP2017/008766 2017-03-06 2017-03-06 オントロジー構築支援装置 WO2018163241A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2017/008766 WO2018163241A1 (ja) 2017-03-06 2017-03-06 オントロジー構築支援装置
JP2019503832A JP6563151B2 (ja) 2017-03-06 2017-03-06 オントロジー構築支援装置
US16/476,347 US11281853B2 (en) 2017-03-06 2017-03-06 Ontology creation assistance device
CN201780087781.4A CN110352417B (zh) 2017-03-06 2017-03-06 本体构建辅助装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/008766 WO2018163241A1 (ja) 2017-03-06 2017-03-06 オントロジー構築支援装置

Publications (1)

Publication Number Publication Date
WO2018163241A1 true WO2018163241A1 (ja) 2018-09-13

Family

ID=63448444

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/008766 WO2018163241A1 (ja) 2017-03-06 2017-03-06 オントロジー構築支援装置

Country Status (4)

Country Link
US (1) US11281853B2 (ja)
JP (1) JP6563151B2 (ja)
CN (1) CN110352417B (ja)
WO (1) WO2018163241A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020129193A (ja) * 2019-02-07 2020-08-27 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11269943B2 (en) * 2018-07-26 2022-03-08 JANZZ Ltd Semantic matching system and method
US11176323B2 (en) * 2019-08-20 2021-11-16 International Business Machines Corporation Natural language processing using an ontology-based concept embedding model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094775A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 意味解析装置、意味解析方法および意味解析プログラム
JP2008242836A (ja) * 2007-03-27 2008-10-09 Toshiba Corp 辞書更新装置およびプログラム
JP2009140113A (ja) * 2007-12-05 2009-06-25 Fuji Xerox Co Ltd 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP6088091B1 (ja) * 2016-05-20 2017-03-01 ヤフー株式会社 更新装置、更新方法、及び更新プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3797821B2 (ja) 1999-06-29 2006-07-19 富士通株式会社 オントロジー構築支援装置
US7302440B2 (en) * 2001-07-27 2007-11-27 Metatomix, Inc. Methods and apparatus for statistical data analysis and reduction for an enterprise application
JP2006309446A (ja) * 2005-04-27 2006-11-09 Toshiba Corp 分類辞書更新装置、分類辞書更新プログラムおよび分類辞書更新方法
US9197597B2 (en) * 2006-07-03 2015-11-24 Oracle International Corporation RDF object type and reification in the database
US8112416B2 (en) * 2007-05-25 2012-02-07 International Business Machines Corporation Method and system for semantic publish-subscribe services
JP5175511B2 (ja) 2007-09-13 2013-04-03 株式会社東芝 オントロジー構築支援装置
WO2010071243A1 (en) * 2008-12-15 2010-06-24 Korea Institute Of Science & Technology Information System and method for hybrid rete reasoning based on in-memory and dbms
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
KR101133991B1 (ko) * 2009-11-27 2012-07-09 한국과학기술정보연구원 규칙 추론기 및 이를 포함하는 와일드 패턴 규칙의 동적인 구체화 방법
US11068657B2 (en) * 2010-06-28 2021-07-20 Skyscanner Limited Natural language question answering system and method based on deep semantics
US8747115B2 (en) * 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US9406020B2 (en) * 2012-04-02 2016-08-02 Taiger Spain Sl System and method for natural language querying
CN104077297B (zh) * 2013-03-27 2017-05-17 日电(中国)有限公司 基于本体的查询方法及装置
US9785671B2 (en) * 2013-07-15 2017-10-10 Capricorn Holdings Pte. Ltd. Template-driven structured query generation
CN103440314A (zh) * 2013-08-27 2013-12-11 北京工业大学 一种基于Ontology的语义检索方法
US10200439B2 (en) * 2014-07-29 2019-02-05 Sap Se In-memory cloud triple store
US9785725B2 (en) * 2014-09-26 2017-10-10 Oracle International Corporation Method and system for visualizing relational data as RDF graphs with interactive response time
US11080295B2 (en) * 2014-11-11 2021-08-03 Adobe Inc. Collecting, organizing, and searching knowledge about a dataset
CN104361127B (zh) * 2014-12-05 2017-09-26 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
US20160371355A1 (en) * 2015-06-19 2016-12-22 Nuodb, Inc. Techniques for resource description framework modeling within distributed database systems
US10169454B2 (en) * 2016-05-17 2019-01-01 Xerox Corporation Unsupervised ontology-based graph extraction from texts
US10963800B2 (en) * 2017-07-25 2021-03-30 General Electric Company Service layer augmentation of response to semantically-informed query of arbitrary external data sources
US11188580B2 (en) * 2019-09-30 2021-11-30 Intuit, Inc. Mapping natural language utterances to nodes in a knowledge graph

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094775A (ja) * 2005-09-29 2007-04-12 Toshiba Corp 意味解析装置、意味解析方法および意味解析プログラム
JP2008242836A (ja) * 2007-03-27 2008-10-09 Toshiba Corp 辞書更新装置およびプログラム
JP2009140113A (ja) * 2007-12-05 2009-06-25 Fuji Xerox Co Ltd 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP6088091B1 (ja) * 2016-05-20 2017-03-01 ヤフー株式会社 更新装置、更新方法、及び更新プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020129193A (ja) * 2019-02-07 2020-08-27 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7044729B2 (ja) 2019-02-07 2022-03-30 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JP6563151B2 (ja) 2019-08-21
US20200050657A1 (en) 2020-02-13
CN110352417B (zh) 2024-02-02
CN110352417A (zh) 2019-10-18
US11281853B2 (en) 2022-03-22
JPWO2018163241A1 (ja) 2019-11-07

Similar Documents

Publication Publication Date Title
JP6699509B2 (ja) トピック表現の精緻化
US10157350B2 (en) Context based conversation system
WO2021073254A1 (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US20190004873A1 (en) Application program interface mashup generation
US20140282375A1 (en) Generating Program Fragments Using Keywords and Context Information
US20160328467A1 (en) Natural language question answering method and apparatus
JP6563151B2 (ja) オントロジー構築支援装置
WO2018179355A1 (ja) 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
US11960517B2 (en) Dynamic cross-platform ask interface and natural language processing model
US20230342629A1 (en) Exploring entities of interest over multiple data sources using knowledge graphs
US20190188324A1 (en) Enriching a knowledge graph
JP2018124914A (ja) パッセージ型質問応答装置、方法、及びプログラム
WO2015145981A1 (ja) 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体
JP4698618B2 (ja) 関係抽出方法、関係抽出システム
JP7388256B2 (ja) 情報処理装置及び情報処理方法
Eyal-Salman et al. Feature-to-code traceability in legacy software variants
JP6698061B2 (ja) 単語ベクトル変換装置、方法、及びプログラム
KR20200086586A (ko) 온톨로지 기반의 프레임을 이용한 지식 추출 시스템
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索系统
US20210342346A1 (en) Hierarchical data searching using tensor searching, fuzzy searching, and bayesian networks
JP2011243166A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP5716223B1 (ja) 思考支援辞書、思考支援辞書システム、思考支援システム、思考支援方法、思考支援プログラム、思考支援プログラム記憶媒体、および思考支援データ記憶媒体
JP6177448B2 (ja) データ処理方法、及びデータ処理システム
JP5600826B1 (ja) 非構造化データ処理システム、非構造化データ処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17899269

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019503832

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17899269

Country of ref document: EP

Kind code of ref document: A1