WO2017122904A1 - Open information extraction method and system for extracting reified ternary relationship - Google Patents

Open information extraction method and system for extracting reified ternary relationship Download PDF

Info

Publication number
WO2017122904A1
WO2017122904A1 PCT/KR2016/010902 KR2016010902W WO2017122904A1 WO 2017122904 A1 WO2017122904 A1 WO 2017122904A1 KR 2016010902 W KR2016010902 W KR 2016010902W WO 2017122904 A1 WO2017122904 A1 WO 2017122904A1
Authority
WO
WIPO (PCT)
Prior art keywords
predicate
argument
ternary
relationship
expressing
Prior art date
Application number
PCT/KR2016/010902
Other languages
French (fr)
Korean (ko)
Inventor
최기선
남상하
함영균
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020160070465A external-priority patent/KR101831058B1/en
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to EP16885215.0A priority Critical patent/EP3404553A4/en
Publication of WO2017122904A1 publication Critical patent/WO2017122904A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Definitions

  • the description below relates to a technique for extracting information from text.
  • the present invention provides a method and system for extracting information from all texts through a fully open information extraction method applicable to all domains other than a specific domain.
  • It provides a method and system for extracting open information by interpreting the linguistic structure into a coherent ternary relationship when extracting new knowledge using text as a knowledge source.
  • An open information extraction provides a method and system for refining all predicate-non-relational relationships in text and expressing them in a resource description framework (RDF) ternary relationship, which is a knowledge expression language.
  • RDF resource description framework
  • It provides a method and system that can facilitate knowledge base integration and query processing by specifying all information extracted from text in a ternary relationship.
  • a computer-implemented method comprising: receiving text as an information extraction target; Extracting arguments and predicates included in the text; And expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF).
  • RDF resource description framework
  • the extracting may extract all the arguments and predicates included in the text in phrase units.
  • the method may further include analyzing a syntax structure between the argument and the predicate, and the expressing may be performed by converting the relation between the argument and the predicate into a ternary relation according to the syntax structure between the argument and the predicate. I can express it.
  • the method may further include analyzing a syntax structure between the argument and the predicate, and the expressing of the relation may include the relation between the argument and the predicate according to a ternary relation conversion rule corresponding to the syntax structure. Can be expressed as a ternary relationship.
  • the analyzing may analyze the dependency structure of the argument to the predicate for each of the arguments.
  • the method may further include determining a topic corresponding to a subject among the arguments, and the expressing may be performed by expressing a core ternary relation including the subject with respect to the relation between the argument and the predicate. Based on the core ternary relationship, we can express the ternary relationship, which specifies the relationship between the remaining arguments and predicates.
  • the expressing may include expressing a core ternary relationship including a core subject, a core verb, and a core object with respect to the relation between the argument and the predicate, and the relationship between the remaining arguments and the predicate based on the core ternary relationship. You can express the ternary relationship that is specified.
  • a computer-implemented system comprising: at least one processor configured to execute instructions readable by the computer, wherein the at least one processor receives text as an object of information extraction and includes an argument included in the text. ) And a predicate, and expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF).
  • RDF resource description framework
  • information may be extracted for all texts using a fully open information extraction method applicable to all domains other than a specific domain.
  • more information can be accurately extracted from the text by suggesting a method of converting all predicate-claim relations in one text into a uniformly specified ternary relation.
  • the information extracted from the text maintains a ternary relationship, thereby facilitating integration with other knowledge bases and maintaining a form capable of query processing in a conventional manner.
  • the information extracted from the text has a materialized relationship, thereby preventing confusion between individual knowledges and further improving the accuracy of the query processing result.
  • FIG. 1 is a block diagram illustrating an internal configuration of an open information extraction system according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating an open information extraction method according to an embodiment of the present invention.
  • 3 to 5 illustrate an example of a process of expressing information in text in a specific ternary relationship according to an embodiment of the present invention.
  • 6 to 12 are exemplary diagrams for describing a ternary relation conversion rule according to a syntax structure according to an embodiment of the present invention.
  • the present embodiments relate to a technique for extracting information from text, and more particularly, to a method and system for extracting information by knowledge of all predicate-discourse relationships existing in text. This can be applied in various fields such as knowledge base construction, question and answer system, knowledge-based decision making system (eg, healthcare, legal expertise, decision support, etc.).
  • the present invention provides an open information extraction technique in a form applicable to all domains other than a specific domain.
  • all information in the text can be extracted by expanding it into a specified Ternary Relationship to prevent the loss of important information about the time and space of the event in relation to the text.
  • RDF Resource Description Framework
  • RDF Resource Description Framework
  • existing open information extraction is limited to one predicate located between two arguments, that is, binary fact extraction, and thus lacks the ability to extract and express all the information that is meant in text.
  • RDF ternary relations are typically ⁇ predicates, predicates, and objects> constructs where the predicate is a relationship or attribute between the entity at the subject and the object or value at the object. means property.
  • predicate is a relationship or attribute between the entity at the subject and the object or value at the object. means property.
  • all information that can be extracted from text can be embodied in a ternary relationship to facilitate knowledge base integration and query processing.
  • FIG. 1 is a block diagram illustrating an internal configuration of an open information extraction system according to an embodiment of the present invention
  • FIG. 2 is a flowchart illustrating an open information extraction method according to an embodiment of the present invention.
  • the open information extraction system 100 may include a processor 110, a bus 120, a network interface 130, a memory 140, and a database 150.
  • the memory 140 may include an operating system 141 and an information extraction routine 142.
  • the processor 110 uses the predicate-article extractor 111, the syntax structure analyzer 112, the subject determiner 113, the syntax structure pattern comparator 114, the ternary relation extractor 115, and the ternary relation materializer 116. It may include.
  • the open information extraction system 100 may include more components than the components of FIG. 1.
  • the memory 140 is a computer-readable recording medium, and may include a permanent mass storage device such as random access memory (RAM), read only memory (ROM), and a disk drive.
  • the memory 140 may store program codes for the operating system 141 and the information extraction routine 142.
  • These software components may be loaded from a computer readable recording medium separate from the memory 140.
  • Such a separate computer-readable recording medium may include a computer-readable recording medium (not shown) such as a floppy drive, a disk, a tape, a DVD / CD-ROM drive, a memory card, and the like.
  • software components may be loaded into memory 140 via network interface 130 rather than on a computer readable recording medium.
  • the bus 120 may enable communication and data transmission between components of the open information extraction system 100.
  • the bus 120 may be configured using a high-speed serial bus, a parallel bus, a storage area network and / or other suitable communication technology.
  • the network interface 130 may be a computer hardware component for connecting the open information extraction system 100 to a computer network.
  • the network interface 130 may connect the open information extraction system 100 to a computer network through a wireless or wired connection.
  • the network interface 130 may provide a function for communicating with other electronic devices through a computer network.
  • a computer network may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), a broadband network (BBN), and the Internet. It may include any one or more of the network, such as.
  • the computer network may also include any one or more of network topologies including, but not limited to, bus networks, star networks, ring networks, mesh networks, star-bus networks, trees, or hierarchical networks. Do not.
  • the database 150 serves to store and maintain data that is an object of information extraction, and may include natural language text and the like as a knowledge source.
  • FIG. 1 illustrates that the database 150 is built and included in the open information extraction system 100, the present invention is not limited thereto and may be omitted depending on a system implementation method or environment, or the database may be partially or partially. It is also possible to exist as an external database built on a separate other system.
  • the processor 110 may be configured to process instructions of a computer program by performing input / output operations of the basic arithmetic, logic, and open information extraction system 100.
  • the instructions may be provided to the processor 110 by the memory 140 or the network interface 130 and via the bus 120.
  • the processor 110 may be configured to execute a command received according to a program code stored in a recording device such as the memory 140.
  • the processor 110 includes, as components, a predicate-article extractor 111, a syntax structure analyzer 112, a subject determiner 113, a syntax structure pattern comparator 114, a ternary relation extractor 115, and a ternary relation materializer ( 116).
  • the processor 110 and the components of the processor 110 execute the program code loaded in the memory 140 to perform the steps S210 to S260 included in the method of FIG. 2 to open the information extraction system 100. Can be controlled.
  • Such program code may be loaded from a program file into a recording device such as memory 140.
  • the processor 110 and the components of the processor 110 may be implemented to execute instructions according to code of at least one program included in the memory 140.
  • the components of the processor 110 may be representations of different functions performed by the processor 110.
  • the predicate-dispensing extractor 111 may be used as a functional expression in which the processor 110 operates to extract predicates and arguments from text according to the instructions described above.
  • the predicate-dissertation extractor 111 may receive a natural language text that is an information extraction target, that is, a knowledge source, as an input, and extract arguments and predicates included in the text.
  • the predicate-dissertation extractor 111 may extract arguments and predicates, which are basic components of information extraction from text, in phrase units.
  • the predicate-dissertation extractor 111 may separate text into morpheme units and extract predicates and arguments based on parts of speech that represent the grammatical properties of each word for the separated morphemes.
  • the predicates that make up a sentence correspond to elements that form the basis of sentence construction and describe the behavior, state, or nature of the subject.
  • Predicates require other language elements to complete the meaning they represent, which are called arguments for predicates.
  • arguments for predicates For example, vocabulary sequences such as single nouns, compound nouns, noun phrases, and noun clauses may correspond to the argument.
  • the predicate-terminal extractor 111 extracts ending word and position information about predicates included in the text and postposition and position information about each argument from the input text. can do.
  • the syntax structure analyzer 112 may analyze the syntax structure of the predicate and the argument unit extracted from the text.
  • the syntax structure between predicate-discussions can contain information about which predicates each argument depends on.
  • the syntax structure analyzer 112 may analyze the dependency structure between the predicate extracted from the text and the argument based on the ending and position of the predicate extracted by the predicate-dispute extractor 111 and the investigation and the position of the argument. For example, a predicate is extracted for each word in the text based on the parts of speech that represent the grammatical properties of the word.
  • the predicates required by the predicate are based on the predicate structure according to the grammar form of the predicate.
  • the subject determiner 113 serves to determine the subject from the arguments extracted from the text. For example, the subject determiner 113 selects a candidate argument (eg, a noun phrase, etc.) that may be a subject among the arguments included in the text, and then uses the predicate-dissertation extractor 111 among the candidate arguments. Based on the survey and the location of the argument extracted from, it can be decided to give the argument with the earliest position and / or the argument with the specific survey (,,,,).
  • a candidate argument eg, a noun phrase, etc.
  • the syntax structure pattern comparator 114 may determine the structure pattern corresponding to the text by comparing the predicate-dissertation syntax structure analyzed by the syntax structure analyzer 112 with a predetermined representative dependency structure pattern.
  • a representative structure pattern may be previously defined for the dependency structure between the predicate and the argument, and the syntax structure pattern comparator 114 compares the syntax structure of the input text with a previously defined representative dependency structure pattern. You can decide which conversion rule to apply to.
  • the representative dependency structure pattern is for proposing a conversion rule into a coherent ternary relationship according to the syntax structure of the text, which will be described later in detail.
  • the ternary relation extractor 115 may extract the core ternary relation of the text based on a structural pattern corresponding to the syntax structure between the predicate-non-terminal of the text.
  • the ternary relation extractor 115 may extract the core ternary relation based on the subject (SBJ), the verb (VP), and the object (OBJ), which are the core contents of the text.
  • the ternary relationship extractor 115 may create a core ternary relationship based on the subject, the core verb, and the core object of the text. This core ternary relationship can be the basis for building a materialized ternary relationship.
  • the ternary relation refiner 116 may embody the remaining non-predicate relations based on the core ternary relation extracted from the ternary relation extractor 115.
  • the ternary relationship refiner 116 may express all predicate-non-relational relations included in the text as materialized ternary relations.
  • the materialized ternary relation means a form in which all predicates and arguments of text are embodied under the criteria of the core ternary relation.
  • FIG 3 illustrates an open information extraction process for an example sentence.
  • the predicate-dissertation extractor 111 may extract all predicates and arguments included in the input sentence 300 (301). Input sentence (300) In "2013 CNN selected Italian cuisine as the best dish in the world.”, In the argument ⁇ 2013, CNN, the best dish in the world, Italian cuisine> and predicate ⁇ Under selection> is extracted.
  • the syntax structure analyzer 112 may analyze the dependency structure between the predicate and the argument extracted from the input sentence 300 (302). As a dependency structure in terms of phrases, the relationship with the predicate ⁇ selection> can be expressed for the argument ⁇ 2013, CNN, the world's best cuisine, Italian cuisine>.
  • the subject determiner 113 may determine a subject among the arguments extracted from the input sentence 300 (303). Based on the research and location of the arguments, you can select the key subject ⁇ CNN> from the arguments ⁇ 2013, CNN, World's Best Cuisine, Italian Cuisine>.
  • the ternary relation extractor 115 may extract the core ternary relation of the input sentence 300 according to a structure pattern corresponding to the dependency structure between the predicate of the input sentence 300 and the argument (304).
  • the ⁇ CNN>, the core verb ⁇ selection>, and the core object ⁇ Italian cuisine> can be expressed as a core ternary relationship.
  • the ternary relation materializer 116 may specify the remaining predicate-non-term relations included in the input sentence 300 based on the core ternary relation of the input sentence 300 (305). Based on the core ternary relations ⁇ CNN>- ⁇ selection>- ⁇ Italian cuisine>, the remaining predicate-declaration relations are ⁇ selection # 1>- ⁇ to>- ⁇ the best dishes of the world>, ⁇ selection # 1>- ⁇ It can be expressed as a ternary relationship specified as JOSA>- ⁇ 2013>, ⁇ Selection # 1>- ⁇ SP>- ⁇ Selection>.
  • the input sentence 400 is based on the predicate-dissertation syntax structure 402 of the input sentence 400 for the input sentence 400 "CNN selected Italian cuisine as the best dish in the world.” All predicate-dissertation relations within (400) can be expressed as materialized ternary relations (405). Therefore, by generating a ternary relationship embodied based on the syntax structure of the sentence, it is possible to prevent information loss occurring in the word unit extraction method through the information extraction method of the phrase unit.
  • the present invention can be defined by dividing the syntax structure pattern of the text into four representative dependency structure patterns in order to propose a conversion rule into a coherent ternary relationship according to the syntax structure of the text.
  • 6 to 12 are diagrams for explaining an example of the representative dependency structure pattern.
  • SBJ denotes a core subject
  • VP denotes a verb phrase
  • NP denotes a noun phrase
  • REL denotes a core predicate
  • FIG. 6 shows an example of a first structural pattern.
  • the first structural pattern 600 has a syntax structure corresponding to ⁇ SBJ (VP) * REL>.
  • ⁇ SBJ (VP) * REL> [ ⁇ SBJ-REL # 1-ANONYMOUS ⁇ , ⁇ REL Ternary relationship conversion rules 610 may be defined, such as # 1-VP # 1-ANONYMOUS ⁇ , ⁇ VP # 1-VP # 2-ANONYMOUS ⁇ , ⁇ VP # 2-VP * -ANONYMOUS * ⁇ ].
  • ⁇ person> corresponds to SBJ
  • ⁇ born> and ⁇ sal> correspond to VP
  • ⁇ death> corresponds to REL.
  • the sentence "A person is born, lives, and dies” has a syntax structure of ⁇ SBJ (VP) * REL>, and converts all the information (SBJ, VP, REL) extracted from the sentence into the conversion rule of the first structural pattern 600 ( 610 may be expressed as a ternary relationship 605 embodied according to the present invention.
  • a ternary relationship 605 embodied according to the present invention.
  • 1-ANONYMOUS ⁇ , ⁇ Thanked # 1-born or # 1-ANONYMOUS ⁇ can be expressed as a ternary relationship (605).
  • the second structural pattern 700 has a syntax structure corresponding to ⁇ (NP) * SBJ (NP) * REL>, and the syntax structure of ⁇ (NP) * SBJ (NP) * REL> is [ ⁇ SBJ-REL>. # 1-NP # 1 ⁇ , ⁇ REL # 1-NP # 2JOSA-NP # 2 ⁇ , ⁇ REL # 1-NP # 3JOSA-NP # 3 ⁇ , ⁇ REL # 1-NP * JOSA-NP * ⁇ ]
  • the same ternary relationship transformation rule 710 may be defined. For example, in the sentence "CNN selected Italian food as the best food in the world in 2013", ⁇ CNN> is SBJ, and ⁇ 2013> and ⁇ Best food in the world> are NP. ⁇ Selection> corresponds to REL.
  • the sentence "2013 CNN selected Italian food as the best dish in the world” has the syntax structure of ⁇ (NP) * SBJ (NP) * REL> and all information extracted from the sentence (SBJ, NP, REL) May be expressed as a ternary relationship 705 embodied according to the conversion rule 710 of the second structural pattern 700.
  • the core ternary relationship was created as in ⁇ CNN-Selected # 1-Italian Cuisine> and all the remaining phrases based on the core ternary relationship were used.
  • the relationship can be expressed as a ternary relationship (705) embodied as ⁇ choice # 1-to-the best dish of the world ⁇ , ⁇ choice # 1-JOSA-2013 ⁇ .
  • the third structural pattern 800 has a syntax structure corresponding to ⁇ (NP) * SBJ (NP) * (VP) * REL>, and the syntax of ⁇ (NP) * SBJ (NP) * (VP) * REL> [ ⁇ SBJ-REL # 1-ANONYMOUS ⁇ , ⁇ REL # 1-VP # 1-ANONYMOUS ⁇ , ⁇ VP # 1-VP * -NP # 1 ⁇ , ⁇ VP * -NP # 2JOSA-NP # 2 ⁇ , ⁇ VP * -NP * JOSA-NP * ⁇ ] may be defined ternary relationship transformation rule 810.
  • the fourth structural pattern 900 has a syntax structure corresponding to ⁇ (NP) * SBJ (NP) * (VP) + (NP) + (VP) * REL> and has a variety of predicate-dissertation. Can cover dependencies.
  • REL.NP # 1 is an expression for indicating that NP # 1 depends on REL
  • VP # 1 is an expression for indicating that NP # 2 depends on VP # 1, VP +, unlike VP *, must appear at least once.
  • All of the extracted information SBJ, NP, VP, and REL may be expressed as a ternary relationship 1105 embodied according to the conversion rule 1010 of the fourth structural pattern 900.
  • Antoine Lavoisier abbreviated as Lavoisier in the Republic of Korea
  • create a core ternary relationship such as ⁇ Antoine Lavoisier-Notation # 1-ANONYMOUS>, and then use the rest of the syntax based on the core ternary relation.
  • the relationship between the three forms of relationship (1105) such as ⁇ notation # 1-also-labuzier ⁇ , ⁇ notation # 1-shorten # 1-ANONYMOUS ⁇ , ⁇ shorten # 1-in Korea] I can express it.
  • the ternary relation conversion rule according to the syntax structure is determined according to linguistic structure, grammar form, and the like, and is not limited thereto.
  • the open information extraction system and the open information extraction method according to the present invention can express the relation between all predicates-discourses existing in a sentence in a ternary relationship embodied according to the conversion rule according to the syntax structure of the sentence.
  • information extraction may be performed on all texts using a fully open information extraction method applicable to all domains other than a specific domain as information extraction on an open domain.
  • more information can be accurately extracted from the text by suggesting a method of converting the predicate-dissertation relationship present in one text into a coherent ternary relationship.
  • the information extracted from the text maintains a ternary relationship, thereby facilitating integration with other knowledge bases and maintaining a form capable of query processing in a conventional manner.
  • by having a specific relationship between the information extracted from the text it is possible to prevent the occurrence of confusion between the individual knowledge and to further improve the accuracy of the query processing results.
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the devices and components described in the embodiments may include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable PLU (programmable). It can be implemented using one or more general purpose or special purpose computers, such as logic units, microprocessors, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include.
  • the processing device may include a plurality of processors or one processor and one controller.
  • other processing configurations are possible, such as parallel processors.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable recording media.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed is an open information extraction method and system for extracting a reified ternary relationship. A computer-implemented method comprises the steps of: receiving an input of a text for information extraction; extracting an argument and a predicate included in the text; and representing the argument and the predicate using a ternary relationship in the resource description framework (RDF).

Description

구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템Open information extraction method and system for materialized ternary relation extraction
아래의 설명은 텍스트로부터 정보를 추출하는 기술에 관한 것이다.The description below relates to a technique for extracting information from text.
오늘날 인터넷의 성장으로 웹 사이트를 통해 다양한 정보가 제공되고 있다. 현재의 웹은 사용자가 사이트에 접속하고 원하는 목적지에 이르기까지 링크를 따라 검색해야 한다. 그러나, 수많은 웹 페이지를 모두 다 읽기보다 질의하는 것이 보다 효과적인데, 질의를 위해서는 웹 페이지에 들어있는 정보를 추출하여 구조화된 데이터 또는 반 구조화된 데이터로 변환할 필요가 있다.Today, with the growth of the Internet, various information is provided through web sites. The current web requires users to follow a link to the site and to the destination of their choice. However, it is more effective to query a large number of web pages than to read them all. To query, it is necessary to extract the information contained in the web pages and convert them into structured or semi-structured data.
현재 많은 웹 정보 추출 도구들이 존재하는데, 이들은 크게 자동 추출 도구와 수동 추출 도구로 분류된다. 웹 페이지가 정해진 스키마에 따라 구조화된 데이터로 이루어져 있다면 자동 추출이 가능하지만, 많은 웹 페이지들은 정해진 스키마가 없는 비구조화된 데이터의 형태이다. 이와 같이, 비구조화된 데이터의 경우 사용자는 추출하고자 하는 데이터의 스키마를 명시해주어야 한다. 사용자가 명시한 스키마의 데이터를 추출하기 위해서는 추출 규칙이 필요하다.Currently, there are many web information extraction tools, which are classified into automatic extraction tools and manual extraction tools. If a web page consists of data structured according to a given schema, it can be automatically extracted, but many web pages are in the form of unstructured data without a defined schema. As such, in the case of unstructured data, the user must specify the schema of the data to be extracted. Extraction rules are required to extract the data of the schema specified by the user.
웹 페이지로부터 정보를 추출하기 위한 종래의 방법은 대부분 특정 도메인에 종속적인 정보 추출 방법을 사용하고 있기 때문에 다른 도메인으로의 이식이 쉽지 않은 문제가 있다. 선행 특허인 "비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템 및 그 방법"(출원번호 제10-2005-0063896호)은 도메인 별로 구분된 비정형 데이터를 포함한 비구조 웹 문서로부터 정보 추출 규칙을 학습하며, 이를 이용하여 특정 도메인의 웹 문서에서 주요 정보를 자동으로 추출하기 위한 도메인별 정보 추출 방법에 대해 개시하고 있다. 대부분의 정보 추출 기술은 특정 도메인 내 텍스트를 대상으로 하여 특정 도메인 온톨로지에 특정 클래스를 매핑하는 방법을 사용하고 있다.Most of the conventional methods for extracting information from a web page use a method of extracting information dependent on a specific domain, and thus there is a problem that porting to another domain is not easy. Prior patent, "System and Method for Extracting Domain-Specific Information from Unstructured Web Documents" (Application No. 10-2005-0063896) describes the rules for extracting information from unstructured web documents containing unstructured data classified by domain. In this paper, a method of extracting information for each domain for automatically extracting key information from a web document of a specific domain is disclosed. Most information extraction techniques use a method of mapping a specific class to a specific domain ontology, targeting text in a specific domain.
특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있는 방법 및 시스템을 제공한다.The present invention provides a method and system for extracting information from all texts through a fully open information extraction method applicable to all domains other than a specific domain.
텍스트를 지식원으로 하여 새로운 지식을 추출할 때 언어학적 구조에 대한 일관성 있는 삼항 관계로의 해석을 통한 개방형 정보 추출을 위한 방법 및 시스템을 제공한다.It provides a method and system for extracting open information by interpreting the linguistic structure into a coherent ternary relationship when extracting new knowledge using text as a knowledge source.
개방형 정보 추출로서 텍스트 내의 모든 술어-논항 관계를 구체화(reification) 하여 지식 표현 언어인 RDF(Resource Description Framework) 삼항 관계로 표현하기 위한 방법 및 시스템을 제공한다.An open information extraction provides a method and system for refining all predicate-non-relational relationships in text and expressing them in a resource description framework (RDF) ternary relationship, which is a knowledge expression language.
텍스트로부터 추출 가능한 모든 정보를 삼항 관계로 구체화 하여 지식 베이스 통합 및 질의 처리를 용이하게 할 수 있는 방법 및 시스템을 제공한다.It provides a method and system that can facilitate knowledge base integration and query processing by specifying all information extracted from text in a ternary relationship.
컴퓨터로 구현되는 방법에 있어서, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 포함하는 방법을 제공한다.A computer-implemented method comprising: receiving text as an information extraction target; Extracting arguments and predicates included in the text; And expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF).
일 측면에 따르면, 상기 추출하는 단계는, 상기 텍스트에 포함된 모든 논항과 술어를 구(phrase) 단위로 추출할 수 있다.According to an aspect, the extracting may extract all the arguments and predicates included in the text in phrase units.
다른 측면에 따르면, 상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 구문 구조에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현할 수 있다.According to another aspect, the method may further include analyzing a syntax structure between the argument and the predicate, and the expressing may be performed by converting the relation between the argument and the predicate into a ternary relation according to the syntax structure between the argument and the predicate. I can express it.
또 다른 측면에 따르면, 상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 구문 구조에 대응되는 삼항 관계 변환 규칙에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현할 수 있다.According to another aspect, the method may further include analyzing a syntax structure between the argument and the predicate, and the expressing of the relation may include the relation between the argument and the predicate according to a ternary relation conversion rule corresponding to the syntax structure. Can be expressed as a ternary relationship.
또 다른 측면에 따르면, 상기 분석하는 단계는, 상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석할 수 있다.According to another aspect, the analyzing may analyze the dependency structure of the argument to the predicate for each of the arguments.
또 다른 측면에 따르면, 상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현할 수 있다.According to yet another aspect, the method may further include determining a topic corresponding to a subject among the arguments, and the expressing may be performed by expressing a core ternary relation including the subject with respect to the relation between the argument and the predicate. Based on the core ternary relationship, we can express the ternary relationship, which specifies the relationship between the remaining arguments and predicates.
또 다른 측면에 따르면, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현할 수 있다.According to another aspect, the expressing may include expressing a core ternary relationship including a core subject, a core verb, and a core object with respect to the relation between the argument and the predicate, and the relationship between the remaining arguments and the predicate based on the core ternary relationship. You can express the ternary relationship that is specified.
컴퓨터 시스템과 결합되어, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 실행시키기 위해 기록 매체에 기록된 컴퓨터 프로그램을 제공한다.Combined with a computer system, receiving text as an information extraction target; Extracting arguments and predicates included in the text; And a computer program recorded on a recording medium to execute the step of expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF).
컴퓨터로 구현되는 시스템에 있어서, 상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 정보 추출 대상으로 텍스트를 입력 받아 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하고, 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 것을 특징으로 하는 시스템을 제공한다.A computer-implemented system comprising: at least one processor configured to execute instructions readable by the computer, wherein the at least one processor receives text as an object of information extraction and includes an argument included in the text. ) And a predicate, and expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF).
본 발명의 실시예에 따르면, 오픈 도메인 상에서의 정보 추출로서 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있다.According to an exemplary embodiment of the present invention, as an information extraction on an open domain, information may be extracted for all texts using a fully open information extraction method applicable to all domains other than a specific domain.
본 발명의 실시예에 따르면, 하나의 텍스트에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 구체화 된 삼항 관계로 변환하는 방식을 제시함으로써 텍스트로부터 보다 많은 정보를 정확하게 추출할 수 있다.According to an embodiment of the present invention, more information can be accurately extracted from the text by suggesting a method of converting all predicate-claim relations in one text into a uniformly specified ternary relation.
본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 삼항 관계를 유지함으로써 다른 지식베이스와의 통합이 용이하고 기존 방식으로 질의 처리가 가능한 형태를 유지할 수 있다.According to an embodiment of the present invention, the information extracted from the text maintains a ternary relationship, thereby facilitating integration with other knowledge bases and maintaining a form capable of query processing in a conventional manner.
본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 구체화 된 관계를 가짐으로써 각 개별 지식 간의 혼동 발생을 방지할 수 있고 질의 처리 결과의 정확도를 더욱 향상시킬 수 있다.According to an embodiment of the present invention, the information extracted from the text has a materialized relationship, thereby preventing confusion between individual knowledges and further improving the accuracy of the query processing result.
도 1은 본 발명의 일 실시예에 있어서, 개방형 정보 추출 시스템의 내부 구성을 설명하기 위한 블록도이다.1 is a block diagram illustrating an internal configuration of an open information extraction system according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 있어서, 개방형 정보 추출 방법을 도시한 흐름도이다.2 is a flowchart illustrating an open information extraction method according to an embodiment of the present invention.
도 3 내지 도 5는 본 발명의 일 실시예에 있어서, 텍스트 내 정보를 구체화 된 삼항 관계로 표현하는 과정의 일 예를 도시한 것이다.3 to 5 illustrate an example of a process of expressing information in text in a specific ternary relationship according to an embodiment of the present invention.
도 6 내지 도 12는 본 발명의 일 실시예에 있어서, 구문 구조에 따른 삼항 관계 변환 규칙을 설명하기 위한 예시 도면이다.6 to 12 are exemplary diagrams for describing a ternary relation conversion rule according to a syntax structure according to an embodiment of the present invention.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
본 실시예들은 텍스트로부터 정보를 추출하는 기술에 관한 것으로, 더욱 상세하게는 텍스트 내 존재하는 모든 술어-논항 관계를 지식화 하여 정보를 추출하는 방법 및 시스템에 관한 것이다. 이는 지식베이스 구축, 질의 응답 시스템, 지식 기반 의사 결정 시스템(예컨대, 의료 헬스케어, 법률 전문 지식, 의사결정 지원 등) 등 다양한 분야에서 적용 가능하다.The present embodiments relate to a technique for extracting information from text, and more particularly, to a method and system for extracting information by knowledge of all predicate-discourse relationships existing in text. This can be applied in various fields such as knowledge base construction, question and answer system, knowledge-based decision making system (eg, healthcare, legal expertise, decision support, etc.).
본 발명은 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 개방형 정보 추출(open information extraction) 기법을 제공한다. 특히, 텍스트와 관련된 해당 사건의 시간과 공간에 대한 중요한 정보 손실을 막기 위해 구체화 된 삼항 관계(Reified Ternary Relationship)로 확장하여 텍스트 내 모든 정보를 추출할 수 있다. 또한, 현존하는 지식베이스들과의 통합과 서술어에 대한 질의 처리가 용이하도록 하고 개별 지식 간의 혼동을 방지하기 위해 텍스트 내의 모든 술어-논항 관계를 구체화(reification) 하여 지식 표현 언어인 RDF(Resource Description Framework) 삼항 관계로 표현할 수 있다. 기존 개방형 정보 추출은 두 개의 논항(argument) 사이에 위치한 하나의 술어(predicate), 즉 binary fact 추출에 국한하기 때문에 텍스트에서 의미하는 모든 정보를 추출 및 표현하는 능력이 부족하다. 그러나, RDF 삼항 관계는 통상 <주어, 술어, 목적어> 구조로서 술어는 주어(subject) 자리에 있는 개체(entity)와 목적어(object) 자리에 있는 개체 혹은 값(value) 간의 관계(relationship) 또는 속성(property)을 의미한다. 이러한 점에서, 본 발명에서는 텍스트로부터 추출 가능한 모든 정보를 삼항 관계로 구체화 하여 지식베이스 통합 및 질의처리를 용이하도록 할 수 있다.The present invention provides an open information extraction technique in a form applicable to all domains other than a specific domain. In particular, all information in the text can be extracted by expanding it into a specified Ternary Relationship to prevent the loss of important information about the time and space of the event in relation to the text. In addition, RDF (Resource Description Framework) is a knowledge expression language by refining all predicate-discourse relationships in text to facilitate integration with existing knowledge bases and to process queries on predicates and to prevent confusion between individual knowledges. ) Can be expressed in a ternary relationship. Existing open information extraction is limited to one predicate located between two arguments, that is, binary fact extraction, and thus lacks the ability to extract and express all the information that is meant in text. However, RDF ternary relations are typically <predicates, predicates, and objects> constructs where the predicate is a relationship or attribute between the entity at the subject and the object or value at the object. means property. In this regard, in the present invention, all information that can be extracted from text can be embodied in a ternary relationship to facilitate knowledge base integration and query processing.
이하에서는 컴퓨터로 구현되는 개방형 정보 추출 시스템과 이러한 개방형 정보 추출 시스템이 수행할 수 있는 개방형 정보 추출 방법에 대해 보다 구체적으로 설명하기로 한다.Hereinafter, an open information extraction system implemented by a computer and an open information extraction method that can be performed by the open information extraction system will be described in more detail.
도 1은 본 발명의 일 실시예에 있어서, 개방형 정보 추출 시스템의 내부 구성을 설명하기 위한 블록도이고, 도 2는 본 발명의 일 실시예에 있어서, 개방형 정보 추출 방법을 도시한 흐름도이다.1 is a block diagram illustrating an internal configuration of an open information extraction system according to an embodiment of the present invention, and FIG. 2 is a flowchart illustrating an open information extraction method according to an embodiment of the present invention.
본 실시예에 따른 개방형 정보 추출 시스템(100)은 프로세서(110), 버스(120), 네트워크 인터페이스(130), 메모리(140), 및 데이터베이스(150)를 포함할 수 있다. 메모리(140)는 운영체제(141) 및 정보 추출 루틴(142)를 포함할 수 있다. 프로세서(110)는 술어-논항 추출기(111), 구문 구조 분석기(112), 주어 결정기(113), 구문 구조 패턴 비교기(114), 삼항 관계 추출기(115), 및 삼항 관계 구체화기(116)를 포함할 수 있다. 다른 실시예들에서 개방형 정보 추출 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다.The open information extraction system 100 according to the present embodiment may include a processor 110, a bus 120, a network interface 130, a memory 140, and a database 150. The memory 140 may include an operating system 141 and an information extraction routine 142. The processor 110 uses the predicate-article extractor 111, the syntax structure analyzer 112, the subject determiner 113, the syntax structure pattern comparator 114, the ternary relation extractor 115, and the ternary relation materializer 116. It may include. In other embodiments the open information extraction system 100 may include more components than the components of FIG. 1.
메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(140)에는 운영체제(141)와 정보 추출 루틴(142)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(130)를 통해 메모리(140)에 로딩될 수도 있다.The memory 140 is a computer-readable recording medium, and may include a permanent mass storage device such as random access memory (RAM), read only memory (ROM), and a disk drive. In addition, the memory 140 may store program codes for the operating system 141 and the information extraction routine 142. These software components may be loaded from a computer readable recording medium separate from the memory 140. Such a separate computer-readable recording medium may include a computer-readable recording medium (not shown) such as a floppy drive, a disk, a tape, a DVD / CD-ROM drive, a memory card, and the like. In other embodiments, software components may be loaded into memory 140 via network interface 130 rather than on a computer readable recording medium.
버스(120)는 개방형 정보 추출 시스템(100)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(120)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.The bus 120 may enable communication and data transmission between components of the open information extraction system 100. The bus 120 may be configured using a high-speed serial bus, a parallel bus, a storage area network and / or other suitable communication technology.
네트워크 인터페이스(130)는 개방형 정보 추출 시스템(100)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(130)는 개방형 정보 추출 시스템(100)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다. 네트워크 인터페이스(130)는 컴퓨터 네트워크를 통해 다른 전자 기기와 통신하기 위한 기능을 제공할 수 있다. 예를 들어, 컴퓨터 네트워크는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 컴퓨터 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.The network interface 130 may be a computer hardware component for connecting the open information extraction system 100 to a computer network. The network interface 130 may connect the open information extraction system 100 to a computer network through a wireless or wired connection. The network interface 130 may provide a function for communicating with other electronic devices through a computer network. For example, a computer network may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), a broadband network (BBN), and the Internet. It may include any one or more of the network, such as. The computer network may also include any one or more of network topologies including, but not limited to, bus networks, star networks, ring networks, mesh networks, star-bus networks, trees, or hierarchical networks. Do not.
데이터베이스(150)는 정보 추출의 대상이 되는 데이터를 저장 및 유지하는 역할을 하는 것으로, 지식원이 되는 자연언어 텍스트 등을 포함할 수 있다. 도 1에서는 개방형 정보 추출 시스템(100)의 내부에 데이터베이스(150)를 구축하여 포함하는 것으로 도시하고 있으나, 이에 한정되는 것은 아니며 시스템 구현 방식이나 환경 등에 따라 생략될 수 있고 혹은 전체 또는 일부의 데이터베이스가 별개의 다른 시스템 상에 구축된 외부 데이터베이스로서 존재하는 것 또한 가능하다.The database 150 serves to store and maintain data that is an object of information extraction, and may include natural language text and the like as a knowledge source. Although FIG. 1 illustrates that the database 150 is built and included in the open information extraction system 100, the present invention is not limited thereto and may be omitted depending on a system implementation method or environment, or the database may be partially or partially. It is also possible to exist as an external database built on a separate other system.
프로세서(110)는 기본적인 산술, 로직 및 개방형 정보 추출 시스템(100)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(140) 또는 네트워크 인터페이스(130)에 의해, 그리고 버스(120)를 통해 프로세서(110)로 제공될 수 있다. 예를 들어 프로세서(110)는 메모리(140)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.The processor 110 may be configured to process instructions of a computer program by performing input / output operations of the basic arithmetic, logic, and open information extraction system 100. The instructions may be provided to the processor 110 by the memory 140 or the network interface 130 and via the bus 120. For example, the processor 110 may be configured to execute a command received according to a program code stored in a recording device such as the memory 140.
프로세서(110)는 구성요소들로서 술어-논항 추출기(111), 구문 구조 분석기(112), 주어 결정기(113), 구문 구조 패턴 비교기(114), 삼항 관계 추출기(115), 및 삼항 관계 구체화기(116)를 포함할 수 있다. 이러한 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(140)에 로딩된 프로그램 코드를 실행하여 도 2의 방법이 포함하는 단계들(S210 내지 S260)을 수행하도록 개방형 정보 추출 시스템(100)을 제어할 수 있다. 이러한 프로그램 코드는 프로그램 파일에서 메모리(140)와 같은 기록 장치로 로딩될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(140)가 포함하는 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 또한, 프로세서(110)의 구성요소들은 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 상술한 명령에 따라 텍스트에서 술어와 논항을 추출하기 위해 동작하는 기능적 표현으로서 술어-논항 추출기(111)가 사용될 수 있다.The processor 110 includes, as components, a predicate-article extractor 111, a syntax structure analyzer 112, a subject determiner 113, a syntax structure pattern comparator 114, a ternary relation extractor 115, and a ternary relation materializer ( 116). The processor 110 and the components of the processor 110 execute the program code loaded in the memory 140 to perform the steps S210 to S260 included in the method of FIG. 2 to open the information extraction system 100. Can be controlled. Such program code may be loaded from a program file into a recording device such as memory 140. The processor 110 and the components of the processor 110 may be implemented to execute instructions according to code of at least one program included in the memory 140. In addition, the components of the processor 110 may be representations of different functions performed by the processor 110. For example, the predicate-dispensing extractor 111 may be used as a functional expression in which the processor 110 operates to extract predicates and arguments from text according to the instructions described above.
단계(S210)에서 술어-논항 추출기(111)는 정보 추출 대상, 즉 지식원이 되는 자연언어 텍스트를 입력으로 받아 해당 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출할 수 있다. 일 예로, 술어-논항 추출기(111)는 텍스트에서 정보 추출의 기본 구성 요소인 논항과 술어를 구(phrase) 단위로 추출할 수 있다. 예를 들어, 술어-논항 추출기(111)는 텍스트를 형태소 단위로 분리한 후 분리된 형태소들에 대하여 각 단어의 문법적 성질을 나타내는 품사에 기초하여 술어와 논항을 추출할 수 있다. 문장을 구성하는 술어는 문장 구성의 기본 골격이 되는 요소에 해당되며, 주어의 동작, 상태 또는 성질 등을 서술한다. 술어는 자신이 나타내는 의미를 완성시키기 위해 다른 언어 요소를 필요로 하는데 이들을 술어의 논항이라고 한다. 예를 들어, 단일 명사, 복합 명사, 명사구, 및 명사절 등의 어휘열이 논항에 해당될 수 있다. 그리고, 술어-논항 추출기(111)는 입력된 텍스트로부터 텍스트에 포함된 술어에 대한 어미(ending word)와 위치(position) 정보, 그리고 각 논항에 대한 조사(postposition)와 위치(position) 정보를 추출할 수 있다.In operation S210, the predicate-dissertation extractor 111 may receive a natural language text that is an information extraction target, that is, a knowledge source, as an input, and extract arguments and predicates included in the text. For example, the predicate-dissertation extractor 111 may extract arguments and predicates, which are basic components of information extraction from text, in phrase units. For example, the predicate-dissertation extractor 111 may separate text into morpheme units and extract predicates and arguments based on parts of speech that represent the grammatical properties of each word for the separated morphemes. The predicates that make up a sentence correspond to elements that form the basis of sentence construction and describe the behavior, state, or nature of the subject. Predicates require other language elements to complete the meaning they represent, which are called arguments for predicates. For example, vocabulary sequences such as single nouns, compound nouns, noun phrases, and noun clauses may correspond to the argument. Then, the predicate-terminal extractor 111 extracts ending word and position information about predicates included in the text and postposition and position information about each argument from the input text. can do.
단계(S220)에서 구문 구조 분석기(112)는 텍스트에서 추출된 술어와 논항 단위의 구문 구조를 분석할 수 있다. 술어-논항 간의 구문 구조는 각 논항이 어떤 술어에 종속되어 있는지에 대한 정보를 포함할 수 있다. 구문 구조 분석기(112)는 술어-논항 추출기(111)에서 추출된 술어의 어미와 위치, 그리고 논항의 조사와 위치 등을 바탕으로 텍스트에서 추출된 술어와 논항 간의 의존 구조를 분석할 수 있다. 예를 들어, 텍스트에 포함된 모든 단어 각각에 대하여 단어의 문법적 성질을 나타내는 품사에 기초하여 술어를 추출하게 되는데, 이러한 술어를 기준으로 술어의 문법 형태에 따른 논항 구조에 따라 술어에서 필요로 하는 논항 요소들을 추출함으로써 술어와 논항 간의 의존 구조를 분석할 수 있다.In operation S220, the syntax structure analyzer 112 may analyze the syntax structure of the predicate and the argument unit extracted from the text. The syntax structure between predicate-discussions can contain information about which predicates each argument depends on. The syntax structure analyzer 112 may analyze the dependency structure between the predicate extracted from the text and the argument based on the ending and position of the predicate extracted by the predicate-dispute extractor 111 and the investigation and the position of the argument. For example, a predicate is extracted for each word in the text based on the parts of speech that represent the grammatical properties of the word. The predicates required by the predicate are based on the predicate structure according to the grammar form of the predicate. By extracting the elements, we can analyze the dependency structure between the predicate and the argument.
단계(S230)에서 주어 결정기(113)는 텍스트에서 추출된 논항 중에서 주어를 결정하는 역할을 한다. 일 예로, 주어 결정기(113)는 텍스트에 포함된 논항 중 주어가 될 수 있는 후보 논항(예를 들어, 명사구(NP, noun phrase) 등)을 선별한 후 후보 논항 중 술어-논항 추출기(111)에서 추출된 논항의 조사와 위치를 바탕으로 위치가 가장 앞선 논항 및/또는 특정 조사(은, 는, 이, 가)를 가진 논항을 주어로 결정할 수 있다.In step S230, the subject determiner 113 serves to determine the subject from the arguments extracted from the text. For example, the subject determiner 113 selects a candidate argument (eg, a noun phrase, etc.) that may be a subject among the arguments included in the text, and then uses the predicate-dissertation extractor 111 among the candidate arguments. Based on the survey and the location of the argument extracted from, it can be decided to give the argument with the earliest position and / or the argument with the specific survey (,,,,).
단계(S240)에서 구문 구조 패턴 비교기(114)는 구문 구조 분석기(112)에서 분석된 술어-논항 간 구문 구조를 사전에 정해진 대표 의존 구조 패턴과 비교하여 텍스트에 대응되는 구조 패턴을 결정할 수 있다. 술어와 논항 간의 의존 구조에 대하여 대표적인 구조 패턴을 사전에 정의할 수 있고, 구문 구조 패턴 비교기(114)는 입력 텍스트가 가진 구문 구조를 사전에 정의된 대표 의존 구조 패턴과의 비교를 수행하여 해당 텍스트에 대해 어떠한 변환 규칙을 적용할 것인지 결정할 수 있다. 대표 의존 구조 패턴은 텍스트의 구문 구조에 따른 일관성 있는 삼항 관계로의 변환 규칙을 제안하기 위한 것으로, 이에 대해서는 이하에서 다시 구체적으로 설명하기로 한다.In operation S240, the syntax structure pattern comparator 114 may determine the structure pattern corresponding to the text by comparing the predicate-dissertation syntax structure analyzed by the syntax structure analyzer 112 with a predetermined representative dependency structure pattern. A representative structure pattern may be previously defined for the dependency structure between the predicate and the argument, and the syntax structure pattern comparator 114 compares the syntax structure of the input text with a previously defined representative dependency structure pattern. You can decide which conversion rule to apply to. The representative dependency structure pattern is for proposing a conversion rule into a coherent ternary relationship according to the syntax structure of the text, which will be described later in detail.
단계(S250)에서 삼항 관계 추출기(115)는 텍스트의 술어-논항 간 구문 구조에 대응되는 구조 패턴을 바탕으로 텍스트의 핵심 삼항 관계를 추출할 수 있다. 일 예로, 삼항 관계 추출기(115)는 텍스트에서 의미하는 핵심 내용인 주어(SBJ), 동사(VP), 목적어(OBJ)를 바탕으로 핵심 삼항 관계를 추출할 수 있다. 다시 말해, 삼항 관계 추출기(115)는 텍스트의 주어, 핵심 동사, 핵심 목적어를 바탕으로 핵심 삼항 관계를 만들 수 있다. 이러한 핵심 삼항 관계는 구체화 삼항 관계를 만들기 위한 토대가 될 수 있다.In operation S250, the ternary relation extractor 115 may extract the core ternary relation of the text based on a structural pattern corresponding to the syntax structure between the predicate-non-terminal of the text. As an example, the ternary relation extractor 115 may extract the core ternary relation based on the subject (SBJ), the verb (VP), and the object (OBJ), which are the core contents of the text. In other words, the ternary relationship extractor 115 may create a core ternary relationship based on the subject, the core verb, and the core object of the text. This core ternary relationship can be the basis for building a materialized ternary relationship.
단계(S260)에서 삼항 관계 구체화기(116)는 삼항 관계 추출기(115)에서 추출된 핵심 삼항 관계를 토대로 나머지 논항-술어 관계를 구체화 할 수 있다. 삼항 관계 구체화기(116)는 텍스트에 포함된 모든 술어-논항 간 관계를 구체화 된 삼항 관계로 표현할 수 있다. 즉, 구체화 된 삼항 관계는 텍스트의 모든 술어와 논항 관계들을 핵심 삼항 관계의 기준 아래 구체화 시킨 형태를 의미한다.In step S260, the ternary relation refiner 116 may embody the remaining non-predicate relations based on the core ternary relation extracted from the ternary relation extractor 115. The ternary relationship refiner 116 may express all predicate-non-relational relations included in the text as materialized ternary relations. In other words, the materialized ternary relation means a form in which all predicates and arguments of text are embodied under the criteria of the core ternary relation.
도 3은 예시 문장에 대한 개방형 정보 추출 과정을 도시한 것이다.3 illustrates an open information extraction process for an example sentence.
입력 문장(300)으로 "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."가 주어진 경우:Given the input sentence 300, "In 2013, CNN selected Italian cuisine as the best dish in the world."
술어-논항 추출기(111)는 입력 문장(300)에 포함된 모든 술어와 논항을 추출할 수 있다(301). 입력 문장(300) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에서, 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)>과, 술어 <선정하>가 추출된다.The predicate-dissertation extractor 111 may extract all predicates and arguments included in the input sentence 300 (301). Input sentence (300) In "2013 CNN selected Italian cuisine as the best dish in the world.", In the argument <2013, CNN, the best dish in the world, Italian cuisine> and predicate < Under selection> is extracted.
구문 구조 분석기(112)는 입력 문장(300)에서 추출된 술어와 논항 간의 의존 구조를 분석할 수 있다(302). 구 단위의 의존 구조로서 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)>에 대하여 술어 <선정하>와의 관계를 나타낼 수 있다.The syntax structure analyzer 112 may analyze the dependency structure between the predicate and the argument extracted from the input sentence 300 (302). As a dependency structure in terms of phrases, the relationship with the predicate <selection> can be expressed for the argument <2013, CNN, the world's best cuisine, Italian cuisine>.
주어 결정기(113)는 입력 문장(300)에서 추출된 논항 중 주어를 결정할 수 있다(303). 논항의 조사와 위치 등을 바탕으로 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)> 중 문장의 핵심 주어 <CNN(은)>를 선정할 수 있다.The subject determiner 113 may determine a subject among the arguments extracted from the input sentence 300 (303). Based on the research and location of the arguments, you can select the key subject <CNN> from the arguments <2013, CNN, World's Best Cuisine, Italian Cuisine>.
삼항 관계 추출기(115)는 입력 문장(300)의 술어와 논항 간의 의존 구조에 대응되는 구조 패턴에 따라 입력 문장(300)의 핵심 삼항 관계를 추출할 수 있다(304). 입력 문장(300) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에서 주어 <CNN>, 핵심 동사 <선정하>, 핵심 목적어 <이탈리아 요리>를 핵심 삼항 관계로 나타낼 수 있다.The ternary relation extractor 115 may extract the core ternary relation of the input sentence 300 according to a structure pattern corresponding to the dependency structure between the predicate of the input sentence 300 and the argument (304). In the input sentence (300) "CNN selected Italian food as the best food in the world in 2013," the <CNN>, the core verb <selection>, and the core object <Italian cuisine> can be expressed as a core ternary relationship.
삼항 관계 구체화기(116)는 입력 문장(300)의 핵심 삼항 관계를 토대로 입력 문장(300)에 포함된 나머지 술어-논항 관계들을 구체화 할 수 있다(305). 핵심 삼항 관계 <CNN>-<선정하>-<이탈리아 요리>를 토대로 나머지 술어-논항 간 관계를 <선정하#1>-<로>-<세계 최고의 요리>, <선정하#1>-<JOSA>-<2013년>, <선정하#1>-<SP>-<선정하>와 같이 구체화 된 삼항 관계로 표현할 수 있다.The ternary relation materializer 116 may specify the remaining predicate-non-term relations included in the input sentence 300 based on the core ternary relation of the input sentence 300 (305). Based on the core ternary relations <CNN>-<selection>-<Italian cuisine>, the remaining predicate-declaration relations are <selection # 1>-<to>-<the best dishes of the world>, <selection # 1>-< It can be expressed as a ternary relationship specified as JOSA>-<2013>, <Selection # 1>-<SP>-<Selection>.
요컨대, 도 4를 참조하면 입력 문장(400) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에 대하여 입력 문장(400)의 술어-논항 간 구문 구조(402)를 바탕으로 입력 문장(400) 내 모든 술어-논항 간 관계를 구체화 된 삼항 관계(405)로 표현할 수 있다. 따라서, 문장의 구문 구조를 토대로 구체화된 삼항 관계를 생성함에 따라 구 단위의 정보 추출 방식을 통해 어절 단위 추출 방식에서 발생하는 정보 손실을 방지할 수 있다.In other words, referring to FIG. 4, the input sentence 400 is based on the predicate-dissertation syntax structure 402 of the input sentence 400 for the input sentence 400 "CNN selected Italian cuisine as the best dish in the world." All predicate-dissertation relations within (400) can be expressed as materialized ternary relations (405). Therefore, by generating a ternary relationship embodied based on the syntax structure of the sentence, it is possible to prevent information loss occurring in the word unit extraction method through the information extraction method of the phrase unit.
한국어 문장을 예시로 들어 설명하고 있으나, 영어 문장도 마찬가지로 도 5에 도시한 바와 같이 영어 문장(500) "A. Einstein was awarded the Nobel Prize in Sweden in 1921."이 입력되는 경우 영어의 문법 형태 등에 따라 해당 문장(500)의 술어-논항 간 구문 구조(502)를 파악할 수 있고, 이를 토대로 문장(500) 내 모든 술어-논항 간 관계를 구체화 된 삼항 관계(505)로 표현할 수 있다.Although a Korean sentence is described as an example, the English sentence is similarly illustrated in FIG. 5 when the English sentence 500 "A. Einstein was awarded the Nobel Prize in Sweden in 1921." The predicate-dissertation syntax structure 502 of the sentence 500 may be grasped, and based on this, all the predicate-dissertation relations in the sentence 500 may be expressed as a materialized ternary relation 505.
본 발명은 텍스트의 구문 구조에 따른 일관성 있는 삼항 관계로의 변환 규칙을 제안하고자 텍스트의 구문 구조 패턴을 4가지의 대표 의존 구조 패턴으로 구분하여 정의할 수 있다.The present invention can be defined by dividing the syntax structure pattern of the text into four representative dependency structure patterns in order to propose a conversion rule into a coherent ternary relationship according to the syntax structure of the text.
도 6 내지 도 12는 대표 의존 구조 패턴의 예시를 설명하기 위한 도면이다.6 to 12 are diagrams for explaining an example of the representative dependency structure pattern.
도 6 내지 도 12에서 SBJ는 핵심 주어(subject), VP는 동사구(verb phrase), NP는 명사구(noun phrase), REL는 핵심 술어를 의미한다.6 to 12, SBJ denotes a core subject, VP denotes a verb phrase, NP denotes a noun phrase, and REL denotes a core predicate.
도 6은 제1 구조 패턴의 예시를 도시한 것이다.6 shows an example of a first structural pattern.
제1 구조 패턴(600)은 <SBJ(VP)*REL>에 해당되는 구문 구조를 가지며, <SBJ(VP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-ANONYMOUS}, {REL#1-VP#1-ANONYMOUS}, {VP#1-VP#2-ANONYMOUS}, {VP#2-VP*-ANONYMOUS*}]와 같은 삼항 관계 변환 규칙(610)이 정의될 수 있다. 예를 들어, 문장 "사람은 태어나서 살다가 죽는다."의 경우 <사람>은 SBJ에 해당되고, <태어나>와 <살>는 VP에 해당되고, <죽>는 REL에 해당된다. "사람은 태어나서 살다가 죽는다."의 문장은 <SBJ(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, VP, REL)를 제1 구조 패턴(600)의 변환 규칙(610)에 따라 구체화된 삼항 관계(605)로 표현할 수 있다. 이때, "사람은 태어나서 살다가 죽는다."의 문장에 대해 {사람-죽#1-ANONYMOUS}와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {죽#1-살#1-ANONYMOUS}, {살#1-태어나#1-ANONYMOUS}와 같이 구체화 된 삼항 관계(605)로 표현할 수 있다.The first structural pattern 600 has a syntax structure corresponding to <SBJ (VP) * REL>. For the syntax structure of <SBJ (VP) * REL>, [{SBJ-REL # 1-ANONYMOUS}, {REL Ternary relationship conversion rules 610 may be defined, such as # 1-VP # 1-ANONYMOUS}, {VP # 1-VP # 2-ANONYMOUS}, {VP # 2-VP * -ANONYMOUS *}]. For example, in the sentence "man is born, live and die", <person> corresponds to SBJ, <born> and <sal> correspond to VP, and <death> corresponds to REL. The sentence "A person is born, lives, and dies" has a syntax structure of <SBJ (VP) * REL>, and converts all the information (SBJ, VP, REL) extracted from the sentence into the conversion rule of the first structural pattern 600 ( 610 may be expressed as a ternary relationship 605 embodied according to the present invention. In this case, for the sentence "People are born, live, and die," create a core ternary relationship, such as {Person-Juk # 1-ANONYMOUS}. 1-ANONYMOUS}, {Thanked # 1-born or # 1-ANONYMOUS} can be expressed as a ternary relationship (605).
도 7은 제2 구조 패턴의 예시를 도시한 것이다.7 shows an example of a second structural pattern.
제2 구조 패턴(700)은 <(NP)*SBJ(NP)*REL>에 해당되는 구문 구조를 가지며, <(NP)*SBJ(NP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-NP#1}, {REL#1-NP#2JOSA-NP#2}, {REL#1-NP#3JOSA-NP#3}, {REL#1-NP*JOSA-NP*}]와 같은 삼항 관계 변환 규칙(710)이 정의될 수 있다. 예를 들어, 문장 "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 경우 <CNN>은 SBJ에 해당되고, <2013년>과 <세계 최고의 요리>, 그리고 <이탈리아 요리>은 NP에 해당되고, <선정하>는 REL에 해당된다. "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 문장은 <(NP)*SBJ(NP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, REL)를 제2 구조 패턴(700)의 변환 규칙(710)에 따라 구체화된 삼항 관계(705)로 표현할 수 있다. 이때, "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 문장에 대해 <CNN-선정하#1-이탈리아 요리>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {선정하#1-로-세계 최고의 요리}, {선정하#1-JOSA-2013년}와 같이 구체화 된 삼항 관계(705)로 표현할 수 있다.The second structural pattern 700 has a syntax structure corresponding to <(NP) * SBJ (NP) * REL>, and the syntax structure of <(NP) * SBJ (NP) * REL> is [{SBJ-REL>. # 1-NP # 1}, {REL # 1-NP # 2JOSA-NP # 2}, {REL # 1-NP # 3JOSA-NP # 3}, {REL # 1-NP * JOSA-NP *}] The same ternary relationship transformation rule 710 may be defined. For example, in the sentence "CNN selected Italian food as the best food in the world in 2013", <CNN> is SBJ, and <2013> and <Best food in the world> are NP. <Selection> corresponds to REL. The sentence "2013 CNN selected Italian food as the best dish in the world" has the syntax structure of <(NP) * SBJ (NP) * REL> and all information extracted from the sentence (SBJ, NP, REL) May be expressed as a ternary relationship 705 embodied according to the conversion rule 710 of the second structural pattern 700. In this case, for the sentence "CNN selected Italian food as the best dish in the world in 2013," the core ternary relationship was created as in <CNN-Selected # 1-Italian Cuisine> and all the remaining phrases based on the core ternary relationship were used. The relationship can be expressed as a ternary relationship (705) embodied as {choice # 1-to-the best dish of the world}, {choice # 1-JOSA-2013}.
도 8은 제3 구조 패턴의 예시를 도시한 것이다.8 shows an example of a third structural pattern.
제3 구조 패턴(800)은 <(NP)*SBJ(NP)*(VP)*REL>에 해당되는 구문 구조를 가지며, <(NP)*SBJ(NP)*(VP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-ANONYMOUS}, {REL#1-VP#1-ANONYMOUS}, {VP#1-VP*-NP#1}, {VP*-NP#2JOSA-NP#2}, {VP*-NP*JOSA-NP*}]와 같은 삼항 관계 변환 규칙(810)이 정의될 수 있다. 예를 들어, 문장 "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 경우 <이다의 궤도>은 SBJ에 해당되고, <소행성대의 다른 행성들>과 <화성과 목성 사이>는 NP에 해당되고, <놓이>는 VP에 해당되고, <있>는 REL에 해당된다. "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 문장은 <(NP)*SBJ(NP)*(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제3 구조 패턴(800)의 변환 규칙(810)에 따라 구체화된 삼항 관계(805)로 표현할 수 있다. 이때, "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 문장에 대해 <이다의 궤도-있#1-ANONYMOUS>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {있#1-놓이#1-ANONYMOUS}, {놓이#1-에-화성과 목성 사이}, {놓이#1-처럼-소행성대의 다른 소행성들}과 같이 구체화 된 삼항 관계(805)로 표현할 수 있다.The third structural pattern 800 has a syntax structure corresponding to <(NP) * SBJ (NP) * (VP) * REL>, and the syntax of <(NP) * SBJ (NP) * (VP) * REL> [{SBJ-REL # 1-ANONYMOUS}, {REL # 1-VP # 1-ANONYMOUS}, {VP # 1-VP * -NP # 1}, {VP * -NP # 2JOSA-NP # 2 }, {VP * -NP * JOSA-NP *}] may be defined ternary relationship transformation rule 810. For example, the sentence "Ida's trajectory lies between Mars and its purpose, like the other asteroids in the asteroids", corresponds to the SBJ, and other planets of the asteroids and Mars. Between Jupiter corresponds to NP, <lie> corresponds to VP, and <to> corresponds to REL. The sentence "The trajectory of Ida, like the other asteroids in the asteroid belt, lies between Mars and the purpose" has a syntactic structure of <(NP) * SBJ (NP) * (VP) * REL> and is extracted from the sentence. All information SBJ, NP, VP, and REL may be expressed as a ternary relationship 805 embodied according to the conversion rule 810 of the third structural pattern 800. Then, for the sentence "Ida's trajectory lies between Mars and purpose," like the other asteroids in the asteroid belt, a key ternary relationship is created, as in <Ida's orbit # 1-ANONYMOUS>. By reference to the relationship between all other phrases {{# 1-anon # 1-ANONYMOUS}, {an # 1-on-between Mars and Jupiter}, {like # 1-another-asteroids} It can be expressed as a ternary relationship 805 embodied as follows.
도 9는 제4 구조 패턴의 예시들을 도시한 것이다. 도 9를 참조하면, 제4 구조 패턴(900)은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>에 해당되는 구문 구조를 가지며 다양한 술어-논항 간 의존 관계를 포괄할 수 있다.9 shows examples of the fourth structural pattern. Referring to FIG. 9, the fourth structural pattern 900 has a syntax structure corresponding to <(NP) * SBJ (NP) * (VP) + (NP) + (VP) * REL> and has a variety of predicate-dissertation. Can cover dependencies.
제4 구조 패턴(900)인 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조에 대해 도 10에 도시한 바와 같이 [{SBJ-REL#1-REL.NP#1}, {REL#1-VP#1-VP#1.NP#2}, {VP#1-VP+-VP+.NP*}, {VP+-NP*JOSA-VP+.NP*}]의 삼항 관계 변환 규칙(1010)이 정의될 수 있다. 여기서, REL.NP#1은 NP#1가 REL에 의존되어 있음을 나타내기 위한 표현이고, VP#1.NP#2는 NP#2가 VP#1에 의존되어 있음을 나타내기 위한 표현이고, VP+은 VP*와 달리 최소 한번 이상 나타나야 함을 의미한다.As shown in FIG. 10, the syntax structure of <(NP) * SBJ (NP) * (VP) + (NP) + (VP) * REL>, which is the fourth structural pattern 900, is shown in [{SBJ-REL # 1-REL.NP # 1}, {REL # 1-VP # 1-VP # 1.NP # 2}, {VP # 1-VP + -VP + .NP *}, {VP + -NP * JOSA-VP + .NP *}] Ternary relationship transformation rule 1010 may be defined. Here, REL.NP # 1 is an expression for indicating that NP # 1 depends on REL, and VP # 1.NP # 2 is an expression for indicating that NP # 2 depends on VP # 1, VP +, unlike VP *, must appear at least once.
예를 들어, 도 11을 참조하면 문장 "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 경우 <앙투앙 라부아지에>는 SBJ에 해당되고, <대한민국>과 <라부아지에>는 NP에 해당되고, <짧게 줄이>는 VP에 해당되고, <표기하>는 REL에 해당된다. "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 문장은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제4 구조 패턴(900)의 변환 규칙(1010)에 따라 구체화된 삼항 관계(1105)로 표현할 수 있다. 이때, "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 문장에 대해 <앙투앙 라부아지에-표기하#1-ANONYMOUS>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {표기하#1-라고도-라부아지에}, {표기하#1-짧게 줄이#1-ANONYMOUS}, {짧게 줄이#1-에서는-대한민국}과 같이 구체화 된 삼항 관계(1105)로 표현할 수 있다.For example, referring to FIG. 11, in the case of the sentence "Antoine Lavoisier, it is also shortly referred to as Lavoisier in Korea." In the case of <Antoine Lavoisier> corresponds to SBJ, and <Korea> and <Lavoisier> correspond to NP. , <Short line> corresponds to VP, and <mark> corresponds to REL. The sentence "Antoine Lavoisier is also abbreviated as Lavoisier in the Republic of Korea." Has a syntax structure of <(NP) * SBJ (NP) * (VP) + (NP) + (VP) * REL>. All of the extracted information SBJ, NP, VP, and REL may be expressed as a ternary relationship 1105 embodied according to the conversion rule 1010 of the fourth structural pattern 900. At this time, for the sentence "Antoine Lavoisier, abbreviated as Lavoisier in the Republic of Korea", create a core ternary relationship such as <Antoine Lavoisier-Notation # 1-ANONYMOUS>, and then use the rest of the syntax based on the core ternary relation. The relationship between the three forms of relationship (1105), such as {notation # 1-also-labuzier}, {notation # 1-shorten # 1-ANONYMOUS}, {shorten # 1-in Korea] I can express it.
다른 예로, 도 12를 참조하면 문장 "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 경우 <라부아지에>는 SBJ에 해당되고, <새로운 연소 이론>과 <플로지스톤설>, 그리고 <화학>는 NP에 해당되고, <폐기하>와 <주장하>는 VP에 해당되고, <발전시키>는 REL에 해당된다. "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 문장은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제4 구조 패턴(900)의 변환 규칙(1010)에 따라 구체화된 삼항 관계(1205)로 표현할 수 있다. 이때, "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 문장에 대해 <라부아지에-발전시키#1-화학>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {발전시키#1-폐기하#1-플로지스톤설}, {폐기하#1-주장하#1-새로운 연소 이론}과 같이 구체화 된 삼항 관계(1205)로 표현할 수 있다.As another example, referring to FIG. 12, in the case of the sentence "labuazie insisted on a new combustion theory and developed chemistry while discarding the phlojistone theory", <labuajie> corresponds to SBJ, and <new combustion theory> and <floodstone theory > And <chemistry> correspond to NP, <disposal> and <claim> to VP, and <to develop> to REL. The sentence "The Lavoisier developed chemistry by insisting on a new combustion theory and discarding the phlogiston theory" is the syntax of <(NP) * SBJ (NP) * (VP) + (NP) + (VP) * REL>. It has a structure, and all information SBJ, NP, VP, and REL extracted from a sentence may be expressed as a ternary relationship 1205 embodied according to the transformation rule 1010 of the fourth structure pattern 900. At this time, the core ternary relationship was created as in <Lavoisier-Development # 1-Chemistry> for the sentence "Lavoisier insisted on a new combustion theory and discarded the phlogiston theory." The relationship between all the remaining phrases can be expressed as a ternary relationship (1205) embodied as {development # 1-waste geometry # 1-phlogiston theory} and {waste geometry # 1-assertion # 1-new combustion theory}. .
상기한 구문 구조에 따른 삼항 관계 변환 규칙은 언어학적 구조나 문법 형태 등에 따라 결정되는 것으로, 이러한 것으로만 한정되는 것은 아니며, 경우에 따라 얼마든지 변경 가능하다.The ternary relation conversion rule according to the syntax structure is determined according to linguistic structure, grammar form, and the like, and is not limited thereto.
따라서, 본 발명에 따른 개방형 정보 추출 시스템 및 개방형 정보 추출 방법은 문장에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 해당 문장의 구문 구조에 따른 변환 규칙에 따라 구체화 된 삼항 관계로 표현할 수 있다.Therefore, the open information extraction system and the open information extraction method according to the present invention can express the relation between all predicates-discourses existing in a sentence in a ternary relationship embodied according to the conversion rule according to the syntax structure of the sentence.
이처럼 본 발명의 실시예들에 따르면, 오픈 도메인 상에서의 정보 추출로서 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있다. 특히, 본 발명의 실시예에 따르면, 하나의 텍스트에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 구체화 된 삼항 관계로 변환하는 방식을 제시함으로써 텍스트로부터 보다 많은 정보를 정확하게 추출할 수 있다. 그리고, 본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 삼항 관계를 유지함으로써 다른 지식베이스와의 통합이 용이하고 기존 방식으로 질의 처리가 가능한 형태를 유지할 수 있다. 또한, 본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 구체화 된 관계를 가짐으로써 각 개별 지식 간의 혼동 발생을 방지할 수 있고 질의 처리 결과의 정확도를 더욱 향상시킬 수 있다.As described above, according to the embodiments of the present invention, information extraction may be performed on all texts using a fully open information extraction method applicable to all domains other than a specific domain as information extraction on an open domain. In particular, according to an embodiment of the present invention, more information can be accurately extracted from the text by suggesting a method of converting the predicate-dissertation relationship present in one text into a coherent ternary relationship. In addition, according to an embodiment of the present invention, the information extracted from the text maintains a ternary relationship, thereby facilitating integration with other knowledge bases and maintaining a form capable of query processing in a conventional manner. In addition, according to an embodiment of the present invention, by having a specific relationship between the information extracted from the text, it is possible to prevent the occurrence of confusion between the individual knowledge and to further improve the accuracy of the query processing results.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments may include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable PLU (programmable). It can be implemented using one or more general purpose or special purpose computers, such as logic units, microprocessors, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (15)

  1. 컴퓨터로 구현되는 방법에 있어서,In a computer implemented method,
    정보 추출 대상으로 텍스트를 입력 받는 단계;Receiving text as an information extraction target;
    상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및Extracting arguments and predicates included in the text; And
    상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계Expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF)
    를 포함하는 방법.How to include.
  2. 제1항에 있어서,The method of claim 1,
    상기 추출하는 단계는,The extracting step,
    상기 텍스트에 포함된 모든 논항과 술어를 구(phrase) 단위로 추출하는 것Extracting all arguments and predicates contained in the text in phrase units
    을 특징으로 하는 방법.Characterized by the above.
  3. 제1항에 있어서,The method of claim 1,
    상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계Analyzing a syntax structure between the argument and the predicate
    를 더 포함하고,More,
    상기 표현하는 단계는,The expressing step,
    상기 논항과 상기 술어 간의 구문 구조에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현하는 것Expressing the relation between the argument and the predicate as the ternary relation according to the syntax structure between the argument and the predicate.
    을 특징으로 하는 방법.Characterized by the above.
  4. 제1항에 있어서,The method of claim 1,
    상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계Analyzing a syntax structure between the argument and the predicate
    를 더 포함하고,More,
    상기 표현하는 단계는,The expressing step,
    상기 구문 구조에 대응되는 삼항 관계 변환 규칙에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현하는 것Expressing the relation between the argument and the predicate as the ternary relation according to a ternary relation transformation rule corresponding to the syntax structure.
    을 특징으로 하는 방법.Characterized by the above.
  5. 제3항 또는 제4항에 있어서,The method according to claim 3 or 4,
    상기 분석하는 단계는,The analyzing step,
    상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석하는 것Analyzing the dependency structure of the argument to the predicate for each of the arguments
    을 특징으로 하는 방법.Characterized by the above.
  6. 제1항에 있어서,The method of claim 1,
    상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계Determining an argument corresponding to a subject among the above arguments
    를 더 포함하고,More,
    상기 표현하는 단계는,The expressing step,
    상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것Expressing a core ternary relationship including the subject with respect to the relation between the argument and the predicate, and expressing a ternary relationship that embodies the relationship between the remaining arguments and the predicate based on the core ternary relationship
    을 특징으로 하는 방법.Characterized by the above.
  7. 제1항에 있어서,The method of claim 1,
    상기 표현하는 단계는,The expressing step,
    상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것Expressing a core ternary relationship including a core subject, a core verb, and a core object with respect to the relationship between the argument and the predicate, and expressing a ternary relationship that embodies the relationship between the remaining arguments and the predicate based on the core ternary relationship.
    을 특징으로 하는 방법.Characterized by the above.
  8. 컴퓨터 시스템과 결합되어,Combined with a computer system,
    정보 추출 대상으로 텍스트를 입력 받는 단계;Receiving text as an information extraction target;
    상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및Extracting arguments and predicates included in the text; And
    상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계Expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF)
    를 실행시키기 위해 기록 매체에 기록된 컴퓨터 프로그램.A computer program recorded on a recording medium for executing the program.
  9. 컴퓨터로 구현되는 시스템에 있어서,In a computer implemented system,
    상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서At least one processor implemented to execute instructions readable by the computer
    를 포함하고,Including,
    상기 적어도 하나의 프로세서는,The at least one processor,
    정보 추출 대상으로 텍스트를 입력 받아 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하고,Receives text as an information extraction target and extracts arguments and predicates included in the text,
    상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 것Expressing the argument and the predicate as a ternary relationship of a resource description framework (RDF)
    을 특징으로 하는 시스템.System characterized in that.
  10. 제9항에 있어서,The method of claim 9,
    상기 적어도 하나의 프로세서는, 상기 텍스트에 포함된 논항과 술어를 추출하기 위해,The at least one processor is configured to extract arguments and predicates included in the text.
    상기 텍스트에 포함된 모든 논항과 술어를 구(phrase) 단위로 추출하는 것Extracting all arguments and predicates contained in the text in phrase units
    을 특징으로 하는 시스템.System characterized in that.
  11. 제9항에 있어서,The method of claim 9,
    상기 적어도 하나의 프로세서는,The at least one processor,
    상기 논항과 상기 술어 간의 구문 구조를 분석하고,Analyze a syntax structure between the argument and the predicate,
    상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,The at least one processor, in order to express in the ternary relationship,
    상기 논항과 상기 술어 간의 구문 구조에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현하는 것Expressing the relation between the argument and the predicate as the ternary relation according to the syntax structure between the argument and the predicate.
    을 특징으로 하는 시스템.System characterized in that.
  12. 제9항에 있어서,The method of claim 9,
    상기 적어도 하나의 프로세서는,The at least one processor,
    상기 논항과 상기 술어 간의 구문 구조를 분석하고,Analyze a syntax structure between the argument and the predicate,
    상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,The at least one processor, in order to express in the ternary relationship,
    상기 구문 구조에 대응되는 삼항 관계 변환 규칙에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현하는 것Expressing the relation between the argument and the predicate as the ternary relation according to a ternary relation transformation rule corresponding to the syntax structure.
    을 특징으로 하는 시스템.System characterized in that.
  13. 제11항 또는 제12항에 있어서,The method according to claim 11 or 12, wherein
    상기 적어도 하나의 프로세서는, 상기 구문 구조를 분석하기 위해,The at least one processor is configured to analyze the syntax structure,
    상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석하는 것Analyzing the dependency structure of the argument to the predicate for each of the arguments
    을 특징으로 하는 시스템.System characterized in that.
  14. 제9항에 있어서,The method of claim 9,
    상기 적어도 하나의 프로세서는,The at least one processor,
    상기 논항 중에서 주어에 해당되는 논항을 결정하고,From the above arguments to determine the argument corresponding to the subject,
    상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,The at least one processor, in order to express in the ternary relationship,
    상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것Expressing a core ternary relationship including the subject with respect to the relation between the argument and the predicate, and expressing a ternary relationship that embodies the relationship between the remaining arguments and the predicate based on the core ternary relationship
    을 특징으로 하는 시스템.System characterized in that.
  15. 제9항에 있어서,The method of claim 9,
    상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,The at least one processor, in order to express in the ternary relationship,
    상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것Expressing a core ternary relationship including a core subject, a core verb, and a core object with respect to the relationship between the argument and the predicate, and expressing a ternary relationship that embodies the relationship between the remaining arguments and the predicate based on the core ternary relationship.
    을 특징으로 하는 시스템.System characterized in that.
PCT/KR2016/010902 2016-01-11 2016-09-29 Open information extraction method and system for extracting reified ternary relationship WO2017122904A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP16885215.0A EP3404553A4 (en) 2016-01-11 2016-09-29 Open information extraction method and system for extracting reified ternary relationship

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2016-0003230 2016-01-11
KR20160003230 2016-01-11
KR1020160070465A KR101831058B1 (en) 2016-01-11 2016-06-07 Open information extraction method and system for extracting reified ternary facts
KR10-2016-0070465 2016-06-07

Publications (1)

Publication Number Publication Date
WO2017122904A1 true WO2017122904A1 (en) 2017-07-20

Family

ID=59311690

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/010902 WO2017122904A1 (en) 2016-01-11 2016-09-29 Open information extraction method and system for extracting reified ternary relationship

Country Status (1)

Country Link
WO (1) WO2017122904A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063191A (en) * 2018-08-29 2018-12-21 上海交通大学 The method and storage medium of OPTIONAL inquiry are carried out on RDF data collection
KR102381079B1 (en) * 2021-08-02 2022-04-01 주식회사 닥터송 Korean phrase learning system based on basic sentence unit segmentation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153673A1 (en) * 2007-10-10 2011-06-23 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
KR20120053207A (en) * 2010-11-17 2012-05-25 한국과학기술정보연구원 Method for recognizing relation based on pas(predicate-argument structure) and apparatus thereof
US20130232143A1 (en) * 2012-03-02 2013-09-05 Xerox Corporation Efficient knowledge base system
WO2013172499A1 (en) * 2012-05-17 2013-11-21 한국과학기술정보연구원 Apparatus and method for extracting predicative concept expression of term in document
KR20140052328A (en) * 2012-10-24 2014-05-07 에스케이텔레콤 주식회사 Apparatus and method for generating rdf-based sentence ontology

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153673A1 (en) * 2007-10-10 2011-06-23 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
KR20120053207A (en) * 2010-11-17 2012-05-25 한국과학기술정보연구원 Method for recognizing relation based on pas(predicate-argument structure) and apparatus thereof
US20130232143A1 (en) * 2012-03-02 2013-09-05 Xerox Corporation Efficient knowledge base system
WO2013172499A1 (en) * 2012-05-17 2013-11-21 한국과학기술정보연구원 Apparatus and method for extracting predicative concept expression of term in document
KR20140052328A (en) * 2012-10-24 2014-05-07 에스케이텔레콤 주식회사 Apparatus and method for generating rdf-based sentence ontology

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063191A (en) * 2018-08-29 2018-12-21 上海交通大学 The method and storage medium of OPTIONAL inquiry are carried out on RDF data collection
CN109063191B (en) * 2018-08-29 2021-07-06 上海交通大学 Method and storage medium for performing OPTIONAL query on RDF dataset
KR102381079B1 (en) * 2021-08-02 2022-04-01 주식회사 닥터송 Korean phrase learning system based on basic sentence unit segmentation

Similar Documents

Publication Publication Date Title
Dubey et al. Asknow: A framework for natural language query formalization in sparql
US10296584B2 (en) Semantic textual analysis
US7630981B2 (en) Method and system for learning ontological relations from documents
JP2018041160A (en) Context analysis apparatus and computer program for the same
KR101831058B1 (en) Open information extraction method and system for extracting reified ternary facts
WO2016121048A1 (en) Text generation device and text generation method
Wang et al. NLP-based query-answering system for information extraction from building information models
JP2011118689A (en) Retrieval method and system
Fung et al. A maximum-entropy Chinese parser augmented by transformation-based learning
JP2020537228A (en) Abstraction and portability for intent recognition
Ismail et al. Extracting knowledge from English translated Quran using NLP pattern
Zeroual et al. Adapting a decision tree based tagger for Arabic
Cuteri et al. A logic-based question answering system for cultural heritage
WO2017122904A1 (en) Open information extraction method and system for extracting reified ternary relationship
Krstev et al. An approach to efficient processing of multi-word units
Kumar et al. Punjabi to UNL enconversion system
KR102206742B1 (en) Method and apparatus for representing lexical knowledge graph from natural language text
Soudani et al. An LMF-based normalization approach of Arabic Islamic dictionaries for Arabic word sense disambiguation: application on hadith
Basile et al. META-MultilanguagE Text Analyzer
Majumder et al. Interpretable semantic textual similarity using lexical and cosine similarity
Tiwari et al. Mold-a framework for entity extraction and summarization
Ferilli et al. On Frequency-Based Approaches to Learning Stopwords and the Reliability of Existing Resources—A Study on Italian Language
Bakhshaei et al. Extracting parallel fragments from comparable documents using a generative model
Rivas et al. Information extraction (rule-based information retrieval)
WO2024106626A1 (en) Artificial intelligence-based interactive question and answer system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16885215

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016885215

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016885215

Country of ref document: EP

Effective date: 20180813