WO2016099019A1 - 특허문서 분류 시스템 및 방법 - Google Patents

특허문서 분류 시스템 및 방법 Download PDF

Info

Publication number
WO2016099019A1
WO2016099019A1 PCT/KR2015/010661 KR2015010661W WO2016099019A1 WO 2016099019 A1 WO2016099019 A1 WO 2016099019A1 KR 2015010661 W KR2015010661 W KR 2015010661W WO 2016099019 A1 WO2016099019 A1 WO 2016099019A1
Authority
WO
WIPO (PCT)
Prior art keywords
concept
patent document
conceptual
similarity
functional
Prior art date
Application number
PCT/KR2015/010661
Other languages
English (en)
French (fr)
Inventor
송인석
고병열
윤혜성
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2016099019A1 publication Critical patent/WO2016099019A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Definitions

  • the present invention relates to a system and method for classifying a patent document, and more particularly, to analyze a patent document, extract a conceptual structure, and determine a patent document according to mutual semantic relations between patent documents identified through functional attribute analysis and similarity measurement.
  • a patent document classification system and method for classifying is a patent document classification system and method for classifying.
  • Patent information refers to information related to industrial property rights and information about the technical content and rights claimed, personal information of applicants and inventors, and other bibliographic matters. As the industry is advanced, complicated, and diversified, a tremendous amount of information on patent technology is pouring in. In order for a company to survive in a changing industrial society, this information must be appropriately reflected in corporate management strategies.
  • patent DB supports research and development planning and national science and technology policy establishment, that is, research and analysis for decision support.
  • the size of patent documents continues to grow globally, including emerging countries such as China, and the demand for information level to be obtained through new big data analysis is increasing. Therefore, access to fast and accurate demand information and securing a more in-depth analysis environment are particularly important tasks.
  • the investigation and analysis of the patent DB is conducted by searching documents through the selection of key words, constructing search expressions, using classification codes, and then selecting the targets of analysis by reviewing details such as abstracts, drawings, and claims. If experience is accumulated and mastered at the relevant stage, a certain level of quality can be secured based on know-how, but it is mainly effective when conducting research analysis on individual specific topics, and inevitably occurs when moving from one stage to the next. Inadequate results, ie noise removal, still require a significant amount of expert intellectual effort and time, and require technical supplementation and improvement.
  • An object of the present invention is to provide a patent document classification system and method for classifying patent documents according to mutual semantic relationships between patent documents identified through analysis of a patent document, functional structure analysis and similarity measurement. .
  • a concept element extraction unit for extracting the concept elements by analyzing each patent document, giving a functional attribute to each concept element, the concept elements of each patent document by functional attributes
  • the concept structure similarity value is calculated by clustering
  • a concept structure generation unit for generating a concept structure including the calculated concept element similarity value for each patent document, a concept structure similarity value between patent documents, and the obtained concept structure similarity value is calculated.
  • a patent document classification system including a classification unit for classifying patent documents on the basis.
  • the patent document classification system may further include an entity name dictionary database in which entity names for products and technologies are stored, and a function attribute component database in which rules for functional attribute components of the entities are set.
  • the concept element extracting unit may include: a candidate sentence identification module for identifying candidate sentences in a predefined region of a patent document by referring to an individual name dictionary database; a character string representing a conceptual element through dependency syntax based syntax analysis on the identified candidate sentences A string extracting module for extracting the extracted string, and a function attribute assigning module for assigning a function attribute to the extracted string by referring to a function classification database, wherein the extracted string may be a concept element.
  • the concept structure generation unit calculates a similarity value between conceptual element entities for each functional attribute by using a conceptual element cluster module for grouping conceptual elements assigned the same functional attribute in each patent document unit and a predefined similarity calculation analysis model. It may include a similarity calculation module, a functional attribute, a concept element, a concept structure generation module for generating a concept structure including the similarity value of the concept elements in the unit of patent documents.
  • the classification unit may include a conceptual element similarity calculating module for obtaining similarity values of conceptual elements constituting the conceptual structure between patent documents, a functional attribute similarity calculating module for obtaining functional attribute similarity values between patent documents, and similarity values or functional attributes of the obtained conceptual elements.
  • step (a) identifying a candidate sentence in a predetermined region of the patent document by referring to the entity name dictionary database, extracting a character string representing a conceptual element through dependency syntax-based syntax analysis on the identified candidate sentence. And assigning a functional attribute to the extracted character string with reference to a function classification database, wherein the extracted character string may be a concept element.
  • the step of grouping the conceptual elements assigned the same functional attribute in each patent document unit calculating the similarity value between the conceptual element entities for each functional attribute by using a predefined similarity calculation analysis model
  • the method may include generating, by patent document, a conceptual structure including functional attributes, conceptual elements, and similarity values of the conceptual elements.
  • the step (c) may include: obtaining similarity values of conceptual elements constituting the conceptual structure between patent documents, obtaining functional attribute similarity values between patent documents, and using similarity values or functional attribute similarity values of the obtained conceptual elements.
  • the method may include obtaining a conceptual structure similarity value between patent documents and classifying the patent document based on the conceptual structure similarity value between the patent documents.
  • each patent document classification system when executed by the patent document classification system, (a) analyzing each patent document to extract the concept elements, and (b) assigning a functional attribute to each concept element, (b) each patent document Clustering the conceptual elements of each functional attribute to calculate a concept element similarity value, generating a concept structure including the calculated concept element similarity values for each patent document, (c) obtaining a concept structure similarity value between patent documents,
  • a computer-readable recording medium which contains a program for executing a patent document classification method comprising classifying a patent document based on the obtained conceptual structure similarity value.
  • the patent document is identified through text mining based on natural language processing, and the patent is classified by analyzing the relationship between the patent concept structures through the functional attributes and similarity analysis of the concept elements. It is possible to minimize the noise inevitably generated in the (keyword) -oriented one-dimensional approach, to reduce intellectual effort and time costs, and to perform in-depth analysis in terms of subject matter.
  • FIG. 1 is a diagram showing a system for classifying patent documents according to an embodiment of the present invention.
  • Figure 2 is a block diagram schematically showing the configuration of a patent document classification system according to an embodiment of the present invention.
  • FIG. 3 is a view showing the configuration of the concept element extraction unit shown in FIG.
  • FIG. 4 is a diagram showing the configuration of the conceptual structure generation unit shown in FIG.
  • FIG. 5 is a diagram illustrating a configuration of a classification unit illustrated in FIG. 2.
  • FIG. 6 is a flowchart illustrating a patent document classification method according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method of extracting concept elements and assigning functional attributes from a patent document according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method of generating a conceptual structure according to an embodiment of the present invention.
  • each component expressed below is only an example for implementing this invention. Thus, other implementations may be used in other implementations of the invention without departing from the spirit and scope of the invention.
  • each component may be implemented by purely hardware or software configurations, but may also be implemented by a combination of various hardware and software components that perform the same function.
  • two or more components may be implemented together by one hardware or software.
  • FIG. 1 is a diagram showing a system for classifying patent documents according to an embodiment of the present invention.
  • the patent providing server 100 and the patent document classifying system 200 are connected through a communication network.
  • the patent providing server 100 includes a patent database in which patent documents and the like are stored, and provides a patent document to the patent document classification system 200.
  • the patent document classification system 200 collects patent documents from the patent providing server 100 and analyzes the collected patent documents to classify the patent documents.
  • the patent document classification system 200 analyzes each patent document collected from the patent providing server 100 to extract concept elements, assigns a functional attribute to each concept element, and then adds a concept element for each function attribute of each patent document. A similarity value is calculated and a concept structure including the calculated concept element similarity value is generated for each patent document. Then, the patent document classification system 200 obtains the conceptual structure similarity value between patent documents, and classifies the patent document based on the conceptual structure similarity value.
  • the concept structure is a set of minimum entities to be established as patent documents, and the minimum entities include the inventor's own solution to the problem to be solved, that is, a technique, a target entity to which the technique is applied, that is, a product.
  • the functional attributes of technology and products are a function-oriented search model (Litvin) based on a problem-solving, analysis and forecasting tool drived from patterns of invention in the global literatur (TRIZ) methodology (Altshuler, 1946). , 2004), based on a combination of the attributes of an action and an object.
  • the patent document classification system 200 may communicate with other electronic devices through various communication standards, and may be implemented through an electronic device capable of performing various data processing operations.
  • the patent document classification system 200 may be implemented in the form of a server device, and may be implemented in the form of various electronic devices in addition to the server device.
  • the patent document classification system 200 may be implemented in the form of a single electronic device, or may be implemented in the form of a combination of two or more electronic devices.
  • the patent document classification system 200 may include a database in which the patent documents are stored.
  • FIG. 2 is a block diagram schematically showing the configuration of a patent document classification system according to an embodiment of the present invention
  • FIG. 3 is a diagram showing the configuration of the concept element extraction unit shown in FIG. 2
  • FIG. 4 is a conceptual structure shown in
  • FIG. 5 is a diagram illustrating a configuration of the generation unit
  • FIG. 5 is a diagram illustrating a configuration of the classification unit illustrated in FIG. 2.
  • the patent document classification system 200 includes a database 210, an interface unit 220, a concept element extraction unit 230, a concept structure generation unit 240, a classification unit 250, and a controller 260. ).
  • the database 210 includes an entity name dictionary database 212, a functional component database 214, and a conceptual structure database 216.
  • the entity name dictionary database 212 stores entity names for products and technologies.
  • the entity name dictionary database 212 may store string objects and attributes identified and extracted from a trademark database, an external public or commercial terminology database such as wordnet.
  • the entity name dictionary database 212 may register, modify, or delete a new entity string based on the text mining result and the entity name identification result value.
  • Functional ingredient classes database 214 stores rules for functional ingredient classes of entities.
  • the functional ingredient class database 214 includes a functional classification matrix composed of TRIZ-based actions and objects of objects and combinations thereof, and entity data collected and identified for each type.
  • the action may include move, add, remove, hold, deflect, change, inclusion, operation, etc.
  • Subjects may include substances, properties, information / concepts, products, and the like.
  • Functional class components database 214 includes a functional classification matrix as shown in Table 1.
  • Substance Property Info / concept Artifact Move m-s m-f m-i m-a Add a-s a-f a-i a-a Remove r-s r-f r-i r-a Hold h-s f-f h-i h-a Deflect d-s d-f d-i d-a Change c-s c-f c-i c-a Inclusion I-s I-f I-i I-a Operation o-s o-f o-i o-p
  • the action-object based functional classification matrix is constructed based on TRIZ function oriented search, but can be segmented or extended according to the required analysis level like the classification matrix.
  • the concept structure database 216 stores information about the concept structure generated by the concept structure generator 240. That is, the concept structure analysis database 216 stores concept elements (technology, products), concept element similarity values, concept structure, concept structure similarity matrix, and the like.
  • the interface unit 220 collects a patent document from a patent providing server through a communication network.
  • the interface unit 220 receives an object type, a functional attribute type, a similarity value, and the like, so that a patent document satisfying a condition may be searched.
  • the concept element extracting unit 230 analyzes each patent document to extract concept elements, and gives a functional attribute to each concept element.
  • the concept element extraction unit 230 may identify an object for a product and a technology by using a pattern analysis of the concept element expression from a patent document.
  • the concept element extracting unit 230 may extract the concept element from the patent document using a natural language processing method, a mechanical algorithm processing method, or the like.
  • the concept element extraction unit 230 through the interface unit 220, the threshold value and the target document area (eg, title, abstract, Environment variable setting information such as detailed description, drawings, and claims) can be received and set.
  • the concept element extracting unit 230 selects an arbitrary document set by the designated number of documents according to the environment variable setting information, and loads the designated document area. Then, the concept element extracting unit 230 loads the entity name dictionary and the pattern recognition rule defined for each entity type to identify or recognize the entity name from the designated document area and extract it.
  • the concept element extracting unit 230 executes the process of collecting the number of the object names specified by referring to the number of documents and the identification rate value of which the object name is not recognized or recognized, and stops when the minimum identification rate is not satisfied. Administrators can search for a gourmet document, register a new entity name or recognition rule, and rerun the document set that did not meet the minimum recognition rate.
  • the concept element extractor 230 includes a candidate sentence identification module 232, a string extraction module 234, and a function attribute grant module 236.
  • the candidate sentence identification module 232 identifies the candidate sentence in the predefined area of the patent document with reference to the entity name dictionary database 212.
  • the candidate sentence identification module 232 identifies candidate sentences with reference to the entity name dictionary database 212 for the designated document area. For example, areas such as title, abstract, detailed description, first paragraph of claim, etc. are analyzed to identify candidate sentences including character strings registered in the entity name dictionary. At this time, the candidate sentence identification module 232 may identify the candidate sentence by specifying the whole or any range according to the document structure.
  • the candidate sentence identification module 232 may identify the candidate sentence by sequentially loading the patent document from the patent providing server based on the predetermined environment variable setting information. In this case, you can specify a new environment variable value. Thereafter, the candidate sentence identification module 232 identifies a sentence in which the entity name is identified or recognized in the designated document area according to the environment variable setting information as the candidate sentence.
  • the string extracting module 234 extracts a string representing a conceptual element through dependency syntax based syntax analysis from the candidate sentence identified in the candidate sentence identification module 232.
  • the extracted string may be a conceptual element
  • the string extraction module 234 may extract the string using various methods such as text mining, natural language processing techniques, and morphological analysis. That is, the string extraction module 234 identifies the non-dependent noun phrase headings of the main sentence by referring to the entity name dictionary database 212 and the stopword dictionary (not shown) for the concept element identification and recognition. Analysis identifies or recognizes individual names.
  • the syntax structure analysis may use open source such as Stanford Parser that supports dependency analysis.
  • the string extracting module 234 analyzes the syntax syntax based on the grammar of the candidate sentence to identify the noun phrase of the order book and the head word of the noun phrase or recognize the entity name. For example, in the case of descriptive noun phrases such as 'anti-piracy system for protecting distributed software applications from unauthorized use', 'anti-piracy system' can be identified as a product through the syntax analysis based on the following syntax.
  • the syntactic structure analysis can be performed as follows: (ROOT (NP (NP ( JJ solid) ( NN polymer)) (NP ( NN electrolyte) ( NN membrane))))) Can be identified as an entity.
  • the function attribute assigning module 236 refers to the function attribute class database 214 to assign a function attribute to the string extracted by the string extracting module 234.
  • the function attribute assignment module 236 analyzes the syntax structure with reference to the function attribute class database 214 to identify the function attribute of the corresponding entity.
  • the function attribute assigning module 236 provides 'reporting' and 'security information' with the 'adding' and 'information' type as the reference of the functional attribute classification matrix, respectively. Recognized as an attribute, it can be given a functional attribute as a type of offer-ai.
  • the function attribute assigning module 236 stores the object string and the function attribute together with the patent document information in the concept structure database 216.
  • the concept structure generation unit 240 clusters the concept elements of each patent document for each functional attribute to calculate a concept element similarity value, and generates a concept structure including the calculated concept element similarity value for each patent document. That is, the concept structure generation unit 240 calculates semantic similarities between the objects extracted by the concept element extraction unit 230, and generates a similarity matrix between the concept structures for patent documents including the objects of the same functional attribute. Create In other words, the concept structure generator 240 classifies the product type entity or the technology type entity by type and measures similarity for each type of the same functional attribute on the action-object classification matrix.
  • the conceptual structure generator 240 selects a calculation model for measuring object similarity. At this time, the environment variable for the similarity threshold can be designated and changed.
  • the concept structure generation unit 240 calculates and stores a similarity value with respect to the object string stored in the concept structure database 216. Thereafter, the concept structure generator 240 generates a concept structure, that is, a similarity matrix between the object sets in document units, and stores the concept structure in the concept structure database 216.
  • the concept structure generator 240 includes a concept element cluster module 242, a similarity calculation module 244, and a concept structure generator 246.
  • the concept element clustering module 242 clusters the concept elements given the same functional attribute in each patent document unit.
  • the similarity calculation module 244 calculates the similarity value between conceptual element entities for each functional attribute by using a predefined similarity calculation analysis model.
  • Concepts are entities with attribute values.
  • the similarity measure between two entities is a dependency tree analysis that separates headwords and modifiers, identifies each word in terms of its lemmatisation, contains stopwords, and lengths of strings. Can be calculated.
  • the similarity of the two entity strings a and b is defined as the sum of the entity similarity and the functional attribute similarity values, respectively.
  • Each similarity is calculated as a representative DamerauLevenshtein distance of the minimum editing distance scale of the following equation by referring to the syntax structure function and the functional property.
  • LD means the DamerauLevenshtein distance, that is, the minimum editing distance of two strings, and calculates the similarity of the strings a and b by calculating the number of edits of insertion, deletion, and replacement necessary for the two strings to be the same string.
  • C (S) is the entity class of the string S
  • H (S) is the headword of the string S
  • E ' is the set of entities
  • F is the stopword, or a single word is the set of words that have no semantic discrimination in representing the entity.
  • Each expression takes into account whether or not the identified headings belong to F according to the syntax analysis, and the same or different cases of the headings.
  • the editing distance d can be obtained using Equation 5.
  • the concept structure generation module 246 generates a concept structure including a function attribute, concept elements, and similarity values of the concept elements in patent document units.
  • the classification unit 250 obtains the conceptual structure similarity value between patent documents, and classifies the patent document based on the obtained conceptual structure similarity value.
  • the classification unit 250 includes a concept element similarity calculation module 252, a functional attribute similarity calculation module 254, a concept structure similarity calculation module 256, and a classification module 258. ).
  • the concept factor similarity calculation module 252 calculates similarity values of concept elements constituting the concept structure between patent documents. Since the concept factor similarity calculation module 252 obtains the similarity values of the concept elements, the method of calculating the similarity value of the concept elements is the same as that of the concept factor similarity calculation module.
  • the functional attribute similarity calculation module 254 calculates the functional attribute similarity value between patent documents. In this case, the functional attribute similarity calculation module 254 calculates the similarity of the target object having the same action attribute using Equations 7 to 10.
  • C (S) is the object class of the string S
  • H (S) is the headword of the string S
  • O is the set of target objects of the functional attribute
  • F is a stopword, or a single word is used for words that have no semantic discrimination Means set.
  • the concept structure similarity calculation module 256 calculates the concept structure similarity value between patent documents by using the similarity value of the concept elements obtained by the concept element similarity calculating module 252 or the function attribute similarity value obtained by the function attribute similarity calculating module 254. Obtain In this case, the conceptual structure similarity calculation module 256 may be obtained by subdividing the individual object and the functional attribute based on each entity or the total sum of the similarity of the two conceptual elements.
  • the concept structure similarity calculating module 256 calculates the concept structure similarity value between patent documents using Equation (11).
  • N E (P) is the number of individuals included in patent P
  • N E (P i , P j ) is the number of pairs of individuals whose similarity value is 1 between the products and technologies included in patent P i and P j . to be.
  • N F (P) is the number of functional attributes of the subject of patent P
  • N F (P i , P j ) is a pair with a similarity value of 1 between the functional attributes of products and technical entities contained in patent P i and P j Is the number of. If the two similarity values are each 1, the concept structure of the two patents is the same.
  • the classification module 258 classifies patent documents based on the conceptual structure similarity value between patent documents. That is, the classification module 258 may classify patent documents having a similarity value or more as a preset predetermined value into documents having the same or similar conceptual structure.
  • each of the concept element extractor 230, the concept structure generator 240, and the classifier 250 may be implemented by a processor required to execute a program on the computing device.
  • the concept element extractor 230, the concept structure generator 240, and the classifier 250 may be implemented by physically independent components, or may be implemented in a functionally separated form in one processor. have.
  • the controller 260 is a component that controls operations of various components of the database 210, the interface unit 220, the concept element extracting unit 230, the concept structure generating unit 240, and the classification unit 250.
  • the controller 260 may include at least one arithmetic unit, wherein the arithmetic unit is a general purpose central arithmetic unit (CPU), programmable device elements (CPLDs, FPGAs), and on-demand semiconductor arithmetics suited for specific purposes It may be an apparatus (ASIC) or a microcontroller chip.
  • the arithmetic unit is a general purpose central arithmetic unit (CPU), programmable device elements (CPLDs, FPGAs), and on-demand semiconductor arithmetics suited for specific purposes It may be an apparatus (ASIC) or a microcontroller chip.
  • Such components that may be included in the patent document classification system 200 may be implemented in hardware, software, or a combination thereof, and two or more components may be simultaneously implemented by one hardware or software.
  • FIG. 6 is a flowchart illustrating a patent document classification method according to an embodiment of the present invention.
  • the patent document classification system analyzes each patent document, extracts conceptual elements, and gives a functional attribute to each conceptual element (S602). A detailed description of the step S602 will be made with reference to FIG. 7.
  • the patent document classification system calculates the concept element similarity value of each patent document to generate a concept structure for each patent document (S604). A detailed description of the step S604 will be made with reference to FIG. 8.
  • the patent document classification system obtains the conceptual structure similarity value between patent documents, and classifies the patent document based on the obtained conceptual structure similarity value (S606). That is, the patent document classification system calculates the similarity value of the conceptual elements constituting the conceptual structure between the patent documents and the similarity value of the functional attributes between the patent documents. Then, the patent document classification system obtains the conceptual structure similarity value between patent documents by using the similarity value or functional attribute similarity value of the obtained conceptual elements, and classifies the patent document based on the obtained conceptual structure similarity value between patent documents.
  • FIG. 7 is a flowchart illustrating a method of extracting concept elements and assigning functional attributes from a patent document according to an embodiment of the present invention.
  • the patent document classification system identifies a candidate sentence in a predefined area of the patent document by referring to the entity name dictionary database (S702).
  • the patent document classification system extracts a character string representing a conceptual element from the identified candidate sentence through syntax analysis based on dependency syntax (S704).
  • the patent document classification system assigns a functional attribute to the extracted character string with reference to a functional classification database (S706). Thereafter, the patent document classification system stores concept elements, function attributes, and the like in units of patent documents.
  • FIG. 8 is a flowchart illustrating a method of generating a conceptual structure according to an embodiment of the present invention.
  • the patent document classification system clusters conceptual elements assigned the same functional attribute in each patent document unit (S802).
  • the patent document classification system calculates the similarity value between conceptual element entities for each functional attribute by using a similarity similarity calculation analysis model (S804), and includes the functional attribute, conceptual elements, and similarity values of conceptual elements.
  • a conceptual structure is generated in units of patent documents (S804).
  • Such a patent document classification method can be written as a program, and codes and code segments constituting the program can be easily inferred by a programmer in the art.
  • a program related to a patent document classification method may be stored in a readable media that can be read by an electronic device, and read and executed by the electronic device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 특허문서 분류 시스템 및 방법에 관한 것으로, 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 개념요소 추출부, 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 개념구조 생성부, 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류부를 포함한다.

Description

특허문서 분류 시스템 및 방법
본 발명은 특허문서 분류 시스템 및 방법에 관한 것으로, 보다 상세하게는 특허문서를 분석하여 개념구조를 추출하고, 기능속성 분석 및 유사도 측정을 통해 파악되는 특허문서간의 상호 의미적 관계에 따라 특허문서를 분류하는 특허문서 분류 시스템 및 방법에 관한 것이다.
한미 FTA(Free Trade Agreement) 체결로 특허, 상표, 저작권 등으로 구성되는 지적재산권에 대한 권리의 기한연장에 따라 특허 보호가 강화됨으로써 국가산업 경쟁력과 직결되는 특허정보에 대한 관심이 어느 때보다 요구되고 있다.
특허정보란 산업재산권과 관련된 정보로서 특허 출원된 기술 내용 및 권리로 주장된 사항, 출원인 및 발명자 등의 인적사항, 기타 서지사항 등에 대한 정보를 의미한다. 산업이 고도화, 복잡화, 다양화됨에 따라 엄청난 특허기술 정보량이 쏟아지고 있는데 기업이 변화하고 있는 산업 사회에서 생존하기 위해서 이러한 정보를 적절하게 기업경영전략에 반영하지 않으면 안 된다.
오늘날 특허문서는 발명자의 지적 재산권을 공식적으로 부여할 뿐만 아니라, 글로벌 무한 기술경쟁 환경에서 특허DB는 기업의 연구개발 기획과 국가의 과학기술 정책수립을 뒷받침하는, 즉 의사결정 지원을 위한 조사와 분석의 필수 정보자원 중 하나로서 매우 중요한 위치를 차지하고 있다. 아울러 다른 분야와 마찬가지로 특허문서도 중국 등 신흥국가를 포함 등 전 세계적으로 그 규모가 지속적으로 증가하고 있고, 새롭게 부각되고 있는 빅 데이터 분석을 통해 얻고자 하는 정보수준에 대한 요구도 높아지고 있다. 따라서 신속하고 정확한 수요 정보의 접근과 보다 심층적인 분석환경의 확보는 특히 중요한 과제라 할 수 있다.
일반적으로 특허DB의 조사와 분석은 주제어 선정, 검색식 구성, 분류코드 활용을 통해 문서를 조회 한 후, 초록, 도면, 청구항 등 세부 내용을 검토하여 분석 대상을 선정하여 이루어진다. 해당 단계에 경험이 축적되고 숙달되면 노하우를 기반으로 일정 수준의 품질을 확보할 수 있으나 개별 특정 주제에 대한 조사 분석일 때 주로 실효성이 있고, 각 단계에서 다음 단계로 넘어가는 과정에서 불가피하게 발생하는 부적합한 결과, 즉 노이즈 제거 작업에는 여전히 상당 부분의 전문가의 지적 노력과 시간 비용이 소요되고 있어, 기술적으로 보완과 개선이 필요하다.
또한, 분류 건수가 상당하고, 정확한 분류를 위해서는 청구항을 비롯한 전체적인 상세설명에 대한 이해가 필요하기 때문에 분류자에게도 적지않은 스트레스를 주고 있다.
이에 따라, 특허 문서를 자동으로 정확히 분류할 수 있는 방법이 요구되고 있는 실정이다.
본 발명의 목적은 특허문서를 분석하여 개념구조를 추출하고, 기능속성 분석 및 유사도 측정을 통해 파악되는 특허문서간의 상호 의미적 관계에 따라 특허문서를 분류하는 특허문서 분류 시스템 및 방법을 제공함에 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 개념요소 추출부, 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 개념구조 생성부, 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류부를 포함하는 특허문서 분류 시스템이 제공된다.
상기 특허문서 분류 시스템은 제품, 기술에 대한 개체명이 저장된 개체명 사전 데이터베이스, 개체들의 기능속성분류를 위한 규칙이 설정된 기능속성분류 데이터베이스를 더 포함할 수 있다.
상기 개념요소 추출부는, 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 후보문장 식별모듈, 상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 문자열 추출모듈, 기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 기능속성 부여모듈을 포함하되, 상기 추출된 문자열은 개념요소일 수 있다.
상기 개념구조 생성부는, 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 개념요소 군집모듈, 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 유사도 산출모듈, 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 개념구조 생성모듈을 포함할 수 있다.
상기 분류부는, 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 개념요소 유사도 산출모듈, 특허문서간 기능속성 유사도 값을 구하는 기능속성 유사도 산출모듈, 상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 개념구조 유사도 산출모듈, 상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류모듈을 포함할 수 있다.
본 발명의 다른 측면에 따르면, (a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계, (b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계, (c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 특허문서 분류 시스템의 특허문서 분류 방법이 제공된다.
상기 (a)단계는, 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 단계, 상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 단계, 기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 단계를 포함하되, 상기 추출된 문자열이 개념요소일 수 있다.
상기 (b)단계는, 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 단계, 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 단계, 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 단계를 포함할 수 있다.
상기 (c)단계는, 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 단계, 특허문서간 기능속성 유사도 값을 구하는 단계, 상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 단계, 상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 특허문서 분류 시스템에 의해 실행될 때, (a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계, (b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계, (c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 특허문서 분류 방법을 실행하기 위한 프로그램이 수록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.
본 발명에 따르면, 특허문서에 대하여 자연언어처리 기반의 텍스트 마이닝을 통해 개념구조를 식별하고, 개념요소의 기능적 속성과 유사도 분석을 통해, 특허 개념구조 간의 연관관계를 분석하여 특허를 분류함으로써, 주제어(키워드) 중심의 1차원적인 접근에서 불가피하게 발생하는 노이즈를 최소화할 수 있고, 지적 노력 및 시간 비용을 절감하고 주제적 관점에서 심층적인 분석을 효율적으로 수행할 수 있다.
도 1은 본 발명의 실시예에 따른 특허문서 분류를 위한 시스템을 나타낸 도면.
도 2는 본 발명의 실시예에 따른 특허문서 분류 시스템의 구성을 개략적으로 나타낸 블럭도.
도 3은 도 2에 도시된 개념요소 추출부의 구성을 나타낸 도면.
도 4는 도 2에 도시된 개념구조 생성부의 구성을 나타낸 도면.
도 5는 도 2에 도시된 분류부의 구성을 나타낸 도면.
도 6은 본 발명의 실시예에 따른 특허문서 분류 방법을 나타낸 흐름도.
도 7은 본 발명의 실시예에 따른 특허문서로부터 개념요소 추출 및 기능속성을 부여하는 방법을 나타낸 흐름도.
도 8은 본 발명의 실시예에 따른 개념구조를 생성하는 방법을 나타낸 흐름도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 '특허문서 분류 시스템 및 방법'을 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술 사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.
한편, 이하에서 표현되는 각 구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다. 또한, 각 구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.
또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
도 1은 본 발명의 실시예에 따른 특허문서 분류를 위한 시스템을 나타낸 도면이다.
도 1을 참조하면, 특허문서 분류를 위한 시스템은 특허 제공 서버(100)와 특허문서 분류 시스템(200)이 통신망을 통해 연결되어 있다.
특허 제공 서버(100)는 특허문서 등이 저장된 특허 데이터베이스를 포함하여, 특허문서를 특허문서 분류 시스템(200)에 제공한다.
특허문서 분류 시스템(200)은 특허 제공 서버(100)로부터 특허문서를 수집하고, 수집된 특허문서를 분석하여 특허문서를 분류한다.
즉, 특허문서 분류 시스템(200)은 특허 제공 서버(100)로부터 수집된 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여한 후, 각 특허문서의 기능속성별 개념요소 유사도 값을 산출하고, 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성한다. 그런 후, 특허문서 분류 시스템(200)은 특허문서간 개념구조 유사도 값을 구하고, 그 개념구조 유사도 값을 근거로 특허문서를 분류한다. 여기서, 개념구조는 특허문서로서 성립하기 위한 최소 개체의 집합으로서, 최소 개체는 해결하고자 하는 문제에 대한 발명자 고유의 해결방법, 즉 기술, 그 기술이 적용되는 대상 개체, 즉 제품을 포함한다. 기술 및 제품의 기능속성은 특허분석 방법론 중 하나인 TRIZ(a problem-solving, analysis and forecasting tool drived from patterns of invention in the global literatur) 방법론(Altshuler, 1946) 기반하고 있는 function-oriented search model(Litvin, 2004))에 기초하여 작용(action)과 대상(object)의 속성의 조합으로 정의한다.
이러한 특허문서 분류 시스템(200)은 다양한 통신 규격을 통해 다른 전자 장치들과 통신할 수 있고, 다양한 데이터 처리 연산을 수행할 수 있는 전자 장치를 통해 구현될 수 있다. 예를 들어, 특허문서 분류 시스템(200)은 서버(Server) 장치의 형태로 구현될 수 있으며, 이러한 서버 장치의 형태 이외에도 다양한 전자 장치의 형태로 구현될 수 있다. 또한, 특허문서 분류 시스템(200)은 단일의 전자 장치의 형태로 구현되거나, 둘 이상의 전자 장치가 결합 된 형태로 구현될 수 있다.
이러한 특허문서 분류 시스템(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.
여기에서는 특허문서를 제공하는 특허 제공 서버(100)가 특허문서 분류 시스템(200) 외부에 존재하는 것으로 설명하였으나, 특허문서 분류 시스템(200)이 특허문서들이 저장된 데이터베이스를 내부에 구비할 수도 있다.
도 2는 본 발명의 실시예에 따른 특허문서 분류 시스템의 구성을 개략적으로 나타낸 블럭도, 도 3은 도 2에 도시된 개념요소 추출부의 구성을 나타낸 도면, 도 4는 도 2에 도시된 개념구조 생성부의 구성을 나타낸 도면, 도 5는 도 2에 도시된 분류부의 구성을 나타낸 도면이다.
도 2를 참조하면, 특허문서 분류 시스템(200)은 데이터베이스(210), 인터페이스부(220), 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250), 제어부(260)를 포함한다.
데이터베이스(210)는 개체명 사전 데이터베이스(212), 기능속성분류 데이터베이스(214), 개념구조 데이터베이스(216)를 포함한다.
개체명 사전 데이터베이스(212)에는 제품, 기술에 대한 개체명이 저장되어 있다.
개체명 사전데이터베이스(212)는 상표 데이터베이스, wordnet과 같은 외부 공개 또는 상용 전문용어 데이터베이스로부터 식별 및 추출된 문자열 개체와 속성이 저장될 수 있다.
개체명 사전 데이터베이스(212)는 텍스트 마이닝 결과 및 개체명 식별 결과 값을 근거로 새로운 개체 문자열이 등록, 수정, 삭제될 수 있다.
기능속성분류 데이터베이스(214)에는 개체들의 기능속성분류를 위한 규칙이 저장되어 있다.
기능속성분류 데이터베이스(214)는 TRIZ기반의 작용(action)과 대상(object)의 개체(인스턴스)와 그 조합으로 구성된 기능 분류 매트릭스 및 해당 유형별로 수집 또는 식별하여 구축된 개체 데이터를 포함한다. 여기서, 작용은 이동(move), 제공(add), 제거(remove), 유지(hold), 운동(deflect), 변환(change), 구성(inclusion), 실행(operation) 등을 포함할 수 있고, 대상은 물질, 성질, 정보/개념, 제품 등을 포함할 수 있다.
기능속성분류 데이터베이스(214)는 표 1과 같은 기능분류 매트릭스를 포함한다.
물질(substance) 성질(Field) 정보/개념(info) 제품(artifact)
이동(move) m-s m-f m-i m-a
제공(add) a-s a-f a-i a-a
제거(remove) r-s r-f r-i r-a
유지(hold) h-s f-f h-i h-a
운동(deflect) d-s d-f d-i d-a
변환(change) c-s c-f c-i c-a
구성(inclusion) I-s I-f I-i I-a
실행(operation) o-s o-f o-i o-p
action-object기반의 기능 분류 매트릭스는 TRIZ function oriented search를 토대로 구성되었으나, 분류 매트릭스와 같이 요구되는 분석 수준에 따라 세분화 또는 확장될 수 있다.
개념구조 데이터베이스(216)에는 개념구조 생성부(240)에서 생성된 개념구조에 대한 정보가 저장된다. 즉, 개념구조 분석데이터베이스(216)에는 개념요소(기술, 제품), 개념요소 유사도 값, 개념구조, 개념구조 유사도 행렬 등이 저장된다.
인터페이스부(220)는 통신망을 통해 특허제공서버로부터 특허문서를 수집한다.
인터페이스부(220)는 개체 유형, 기능속성 유형, 유사도 값 등을 입력받아 조건을 만족하는 특허문서를 검색할 수 있도록 한다.
개념요소 추출부(230)는 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여한다. 여기서, 개념요소는 제품, 기술을 포함하므로, 개념요소 추출부(230)는 특허문서로부터 개념요소 표현의 패턴 분석을 이용하여 제품과 기술에 대한 개체를 식별할 수 있다. 이때, 개념요소 추출부(230)는 자연어 처리방법, 기계적 알고리즘 처리방법 등을 이용하여 특허문서로부터 개념요소를 추출할 수 있다.
한편, 개념요소 추출부(230)는 인터페이스부(220)를 통해 개체명 수집실행 횟수, 처리문서단위 갯수, 처리문서단위 개수 당 식별률에 대한 임계치 값과 대상 문서영역(예컨대, 제목, 초록, 상세설명, 도면, 청구항) 등의 환경변수 설정정보를 입력받아 설정할 수 있다. 이 경우, 개념요소 추출부(230)는 환경변수 설정정보에 따라 지정된 문서개수만큼 임의의 문서세트 선정하고, 지정된 문서영역을 로딩한다. 이후, 개념요소 추출부(230)는 개체명 사전과 각 개체유형별로 정의된 패턴인식규칙을 로딩하여 지정된 문서영역으로부터 개체명을 식별하거나 인식하여 추출한다. 개념요소 추출부(230)는 개체명을 식별 또는 인식되지 않은 문서개수와 식별률 값을 참조하여 지정한 회수의 개체명 수집 프로세스를 실행하며, 최소 식별률을 만족시키지 못한 경우 중단한다. 관리자는 미식별문서를 조회하여 새로운 개체명 또는 인식 규칙을 등록하고, 최소 인식률을 충족하지 못한 문서세트에 재실행할 수 있다.
개념요소 추출부(230)에 대해 도 3을 참조하면, 개념요소 추출부(230)는 후보문장 식별모듈(232), 문자열 추출모듈(234), 기능속성 부여모듈(236)을 포함한다.
후보문장 식별모듈(232)은 개체명 사전 데이터베이스(212)를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별한다.
후보문장 식별모듈(232)은 지정된 문서영역에 대하여 개체명 사전 데이터베이스(212)을 참조하여 후보문장을 식별한다. 예를 들면, 제목, 초록, 상세기술, 청구항 첫 문단 등의 영역을 분석하여 개체명 사전에 등록된 문자열을 포함하는 후보 문장을 식별한다. 이때, 후보문장 식별모듈(232)는 문서구조에 따라 전체 또는 임의의 범위를 지정하여 후보문장을 식별할 수도 있다.
후보문장 식별모듈(232)은 기 설정된 환경변수 설정정보를 근거로 특허제공서버로부터 순차적으로 특허문서를 로딩하여 후보문장을 식별할 수 있다. 이때 새로운 환경 변수값을 지정할 수 있다. 그런 후, 후보문장 식별모듈(232)은 환경변수 설정정보에 따라 지정된 문서영역에서 개체명이 식별되거나 인식된 문장을 후보문장으로 식별한다.
문자열 추출모듈(234)은 후보문장 식별모듈(232)에서 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출한다. 이때 추출된 문자열이 개념요소일 수 있고, 문자열 추출모듈(234)은 텍스트 마이닝, 자연어 처리기법, 형태소 분석 등 다양한 방법을 이용하여 문자열을 추출할 수 있다. 즉, 문자열 추출모듈(234)은 개념요소(개체명) 식별 및 인식을 위해 개체명 사전 데이터베이스(212) 및 불용어 사전(미도시)을 참조하여 주 문장의 비 의존 명사구 표제어를 식별하고, 최장일치 분석을 통해 개체명을 식별하거나 인식한다. 이때, 구문구조 분석은 의존관계 분석을 지원하는 스탠포드 파서(Stanford Parser)와 같은 오픈소스를 활용할 수 있다.
즉, 문자열 추출모듈(234)은 후보문장의 의존문법기반의 구문구조를 분석하여 주문장의 명사구와 그 명사구의 표제어(head word)를 식별 또는 개체명 인식을 실행한다. 예를 들어 'anti-piracy system for protecting distributed software applications from unauthorized use'와 같은 서술형 명사구의 경우 아래와 같은 의존문법기반의 구문구조분석을 통해 'anti-piracy system'을 제품으로 식별할 수 있다.
(ROOT (NP (NP ( JJ anti-piracy) ( NN system) ) (PP (IN for) (S (VP (VBG protecting) (NP (VBN distributed) (NN software) (NNS applications)) (PP (IN from) (NP (JJ unauthorized) (NN use)))))) (. .)))
또 다른 예로서, 'solid polymer electrolyte membrane'와 같은 단순 명사의 경우, 구문구조 분석을 통해 '(ROOT (NP (NP ( JJ solid) ( NN polymer)) (NP ( NN electrolyte) ( NN membrane)) ))'를 개체로 식별할 수 있다.
기능속성 부여모듈(236)은 기능속성분류 데이터베이스(214)를 참조하여 문자열 추출모듈(234)에서 추출된 문자열에 기능속성을 부여한다.
기능속성 부여모듈(236)은 기능속성분류 데이터베이스(214)를 참조로, 구문구조를 분석하여 해당 개체의 기능속성을 식별한다.
예를 들어, 'a system for reporting(add) security information(information) relating to a mobile device'의 경우, 아래와 같은 의존문법기반의 구문구조 분석결과를 얻을 수 있다.
(ROOT (NP (NP (DT a) (NN system)) (PP (IN for) (S (VP ( VBG reporting) (NP (NP ( NN security) ( NN information)) (VP (VBG relating) (PP (TO to) (NP (DT a) (JJ mobile) (NN device)))))))) (. .)))
이 경우, 기능속성 부여모듈(236)은 기능속성 분류 매트릭스를 참조하여 'reporting'과 'security information'을 각각 제공(add) 유형과 정보(information) 유형으로 'reporting security information'를 전체 문자열의 기능속성으로 인식하여 제공-정보(a-i) 유형으로 기능속성을 부여할 수 있다.
기능속성 부여모듈(236)은 개체 문자열과 기능속성을 해당 특허문서 정보와 함께 개념구조 데이터베이스(216)에 저장한다.
개념구조 생성부(240)는 각 특허문서의 개념요소들을 기능속성별로 군집하여 개념요소 유사도 값을 산출하고, 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성한다. 즉, 개념구조 생성부(240)는 개념요소 추출부(230)에서 추출된 개체들 간의 의미적 유사도를 산출하고, 동일한 기능속성의 개체를 포함하고 있는 특허문서들에 대하여 개념구조 간의 유사도 행렬을 생성한다. 다시 말하면, 개념구조 생성부(240)는 제품유형 개체 또는 기술유형 개체들을 각각 유형별로 구분하고, action-object 분류 매트릭스 상 동일한 기능속성 유형별로 유사도를 측정한다.
개념구조 생성부(240)는 개체 유사도 측정을 위한 계산모델을 선택한다. 이 때, 유사도 임계치에 대한 환경변수를 지정 변경할 수 있다.
개념구조 생성부(240)는 개념구조 데이터베이스(216)에 저장된 개체 문자열에 대하여 유사도 값을 산출하여 저장한다. 그런 후, 개념구조 생성부(240)는 개념구조, 즉 문서단위의 개체집합 간의 유사도 행렬을 생성하여 개념구조 데이터베이스(216)에 저장한다.
개념구조 생성부(240)에 대해 도 4를 참조하면, 개념구조 생성부(240)는 개념요소 군집모듈(242), 유사도 산출모듈(244), 개념구조 생성모듈(246)을 포함한다.
개념요소 군집모듈(242)은 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집한다.
유사도 산출모듈(244)은 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출한다. 개념요소는 속성값을 갖는 개체이며 두 개체간의 유사도 측정은 표제어(head word)와 수식부로 분리하는 의존구조(dependecy tree) 분석, 각 단어의 원형 식별(lemmatisation), 불용어 포함 여부, 문자열의 길이를 활용하여 계산될 수 있다. 두 개체 문자열 a와 b의 유사도는 각각 개체 유사도 및 기능속성 유사도 값을 구하고 그 합으로 정의된다. 각각의 유사도는 구문구조속성과 기능속성을 참조하여, 하기 수학식의 최소 편집거리 척도 중 대표적인 DamerauLevenshtein distance로 산출된다.
즉, 개체 유사도는 수학식 1 내지 수학식 4를 이용하여 구할 수 있다.
[수학식 1]
Figure PCTKR2015010661-appb-I000001
[수학식 2]
Figure PCTKR2015010661-appb-I000002
[수학식 3]
Figure PCTKR2015010661-appb-I000003
[수학식 4]
Figure PCTKR2015010661-appb-I000004
여기서, LD는 DamerauLevenshtein distance, 즉 두 문자열의 최소편집거리를 의미하여 문자열 a, b의 유사도를 두 문자열이 동일한 문자열이 되기 위해 필요한 삽입, 삭제, 교체의 편집 횟수를 계산하여 산출하는 것을 의미한다.
C(S) 는 문자열 S 의 개체 클래스, H(S) 는 문자열 S 의 표제어, E‘ 는 개체집합, F는 불용어 또는 단일어로는 개체를 표현함에 있어 의미 변별력이 없는 단어의 집합을 의미한다. 각각의 수식은 구문구조 분석에 따라 식별된 표제어가 F에 속하는 경우와 그렇지 않은 경우, 그리고 표제어의 동일하거나 다른 경우를 고려하고 있다.
편집 거리(d)는 수학식 5를 이용하여 구할 수 있다.
[수학식 5]
Figure PCTKR2015010661-appb-I000005
그러나, 같은 편집거리라도 문자열 길이에 따라 유사도가 다르므로, 문자열 길이를 고려하여 수학식 6과 같이 정규화한다
[수학식 6]
Figure PCTKR2015010661-appb-I000006
개념구조 생성모듈(246)은 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성한다.
분류부(250)는 특허문서간 개념구조 유사도 값을 구하고, 구해진 개념구조 유사도 값을 근거로 특허문서를 분류한다.
분류부(250)에 대해 도 5를 참조하면, 분류부(250)는 개념요소 유사도 산출모듈(252), 기능속성 유사도 산출모듈(254), 개념구조 유사도 산출모듈(256), 분류모듈(258)을 포함한다.
개념요소 유사도 산출모듈(252)은 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구한다. 개념요소 유사도 산출모듈(252)이 개념요소들의 유사도 값을 구하는 방법은 유사도 산출모듈이 개념요소 유사도 값을 산출하는 방법과 동일하므로 그 설명은 생략하기로 한다.
기능속성 유사도 산출모듈(254)은 특허문서간 기능속성 유사도 값을 구한다. 이때, 기능속성 유사도 산출모듈(254)은 동일한 작용(action) 속성을 갖는 대상개체의 유사도를 수학식 7 내지 10을 이용하여 산출한다.
[수학식 7]
Figure PCTKR2015010661-appb-I000007
[수학식 8]
Figure PCTKR2015010661-appb-I000008
[수학식 9]
Figure PCTKR2015010661-appb-I000009
[수학식 10]
Figure PCTKR2015010661-appb-I000010
여기서, C(S) 는 문자열 S 의 개체 클래스, H(S) 는 문자열 S 의 표제어, O는 기능 속성의 대상개체 집합, F는 불용어 또는 단일어로는 개체를 표현함에 있어 의미 변별력이 없는 단어의 집합을 의미한다. 각각의 수식은 구문구조 분석에 따라 식별된 표제어가 F에 속하는 경우와 그렇지 않은 경우, 그리고 표제어의 동일하거나 다른 경우를 고려하고 있다.
개념구조 유사도 산출모듈(256)은 개념요소 유사도 산출모듈(252)에서 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 산출모듈(254)에서 구해진 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구한다. 이때, 개념구조 유사도 산출모듈(256)은 각각의 개체 및 기능속성을 기준으로 세분화하여 구하거나 또는 두 개념요소 유사도의 총 합으로 구할 수 있다.
개념구조 유사도 산출모듈(256)은 수학식 11을 이용하여 특허문서간 개념구조 유사도 값을 구한다.
[수학식 11]
Figure PCTKR2015010661-appb-I000011
여기서, NE(P)는 특허 P에 포함된 개체 수이며, NE(Pi,Pj)는 특허 Pi 와 Pj에 포함된 제품 및 기술개체간의 유사도 값이 1인 개체 쌍의 개수이다. 마찬가지로 NF(P)는 특허 P의 개체의 기능속성 수이며, NF(Pi,Pj)는 특허 Pi 와 Pj에 포함된 제품 및 기술개체의 기능속성 간 유사도 값이 1인 쌍의 개수이다. 두 유사도 값이 각각 1이면 두 특허의 개념구조는 동일하다고 할 수 있다.
분류모듈(258)은 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류한다. 즉, 분류모듈(258)은 유사도 값이 기 설정된 일정 값 이상인 특허문서들을 동일 또는 유사한 개념구조를 가진 문서로 분류할 수 있다.
한편, 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250) 각각은 컴퓨팅 장치상에서 프로그램을 실행하기 위해 필요한 프로세서 등에 의해 각각 구현될 수 있다. 이처럼 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250)는 물리적으로 독립된 각각의 구성에 의해 구현될 수도 있고, 하나의 프로세서 내에서 기능적으로 구분되는 형태로 구현될 수도 있다.
제어부(260)는 데이터베이스(210), 인터페이스부(220), 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250)의 다양한 구성부들의 동작을 제어하는 구성이다.
이러한 제어부(260)는 적어도 하나의 연산 장치를 포함할 수 있는데, 여기서 상기 연산 장치는 범용적인 중앙연산장치(CPU), 특정 목적에 적합하게 구현된 프로그래머블 디바이스 소자(CPLD, FPGA), 주문형 반도체 연산장치(ASIC) 또는 마이크로 컨트롤러 칩일 수 있다.
특허문서 분류 시스템(200)이 포함할 수 있는 이러한 구성부들은 하드웨어, 소프트웨어 또는 이들의 결합으로 구현될 수 있으며, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 동시에 구현될 수도 있다.
도 6은 본 발명의 실시예에 따른 특허문서 분류 방법을 나타낸 흐름도이다.
도 6을 참조하면, 특허문서 분류 시스템은 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여한다(S602). S602 단계에 대한 상세한 설명은 도 7을 참조하기로 한다.
특허문서 분류 시스템은 각 특허문서의 개념요소 유사도 값을 산출하여 특허문서별로 개념구조를 생성한다(S604). S604 단계에 대한 상세한 설명은 도 8을 참조하기로 한다.
그런 후, 특허문서 분류 시스템은 특허문서간 개념구조 유사도 값을 구하고, 구해진 개념구조 유사도 값을 근거로 특허문서를 분류한다(S606). 즉, 특허문서 분류 시스템은 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값과 특허문서간 기능속성 유사도 값을 구한다. 그런 후, 특허문서 분류 시스템은 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하고, 구해진 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류한다.
도 7은 본 발명의 실시예에 따른 특허문서로부터 개념요소 추출 및 기능속성을 부여하는 방법을 나타낸 흐름도이다.
도 7을 참조하면, 특허문서 분류 시스템은 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별한다(S702).
그런 후, 특허문서 분류 시스템은 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출한다(S704).
특허문서 분류 시스템은 기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여한다(S706). 이후, 특허문서 분류 시스템은 특허문서 단위로 개념요소, 기능속성 등을 저장한다.
도 8은 본 발명의 실시예에 따른 개념구조를 생성하는 방법을 나타낸 흐름도이다.
도 8을 참조하면, 특허문서 분류 시스템은 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집한다(S802).
그런 후, 특허문서 분류 시스템은 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하고(S804), 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성한다(S804).
이러한 특허문서 분류 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 특허문서 분류 방법에 관한 프로그램은 전자장치가 읽을 수 있는 정보저장매체(Readable Media)에 저장되고, 전자장치에 의하여 읽혀지고 실행될 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 개념요소 추출부;
    각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 개념구조 생성부;
    특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류부;
    를 포함하는 특허문서 분류 시스템.
  2. 제1항에 있어서,
    제품, 기술에 대한 개체명이 저장된 개체명 사전 데이터베이스;
    개체들의 기능속성분류를 위한 규칙이 설정된 기능속성분류 데이터베이스를 더 포함하는 특허문서 분류 시스템.
  3. 제1항에 있어서,
    상기 개념요소 추출부는, 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 후보문장 식별모듈;
    상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 문자열 추출모듈;
    기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 기능속성 부여모듈을 포함하되,
    상기 추출된 문자열은 개념요소인 것을 특징으로 하는 특허문서 분류 시스템.
  4. 제1항에 있어서,
    상기 개념구조 생성부는,
    각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 개념요소 군집모듈;
    기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 유사도 산출모듈;
    기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 개념구조 생성모듈을 포함하는 것을 특징으로 하는 특허문서 분류 시스템.
  5. 제1항에 있어서,
    상기 분류부는,
    특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 개념요소 유사도 산출모듈;
    특허문서간 기능속성 유사도 값을 구하는 기능속성 유사도 산출모듈;
    상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 개념구조 유사도 산출모듈;
    상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류모듈을 포함하는 것을 특징으로 하는 특허문서 분류 시스템.
  6. (a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계;
    (b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계; 및
    (c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계;
    를 포함하는 특허문서 분류 시스템의 특허문서 분류 방법.
  7. 제6항에 있어서,
    상기 (a)단계는,
    개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 단계;
    상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 단계;
    기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 단계를 포함하되,
    상기 추출된 문자열이 개념요소인 것을 특징으로 하는 특허문서 분류 시스템의 특허문서 분류 방법.
  8. 제6항에 있어서,
    상기 (b)단계는,
    각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 단계;
    기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 단계;
    기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 단계를 포함하는 특허문서 분류 시스템의 특허문서 분류 방법.
  9. 제6항에 있어서,
    상기 (c)단계는,
    특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 단계;
    특허문서간 기능속성 유사도 값을 구하는 단계;
    상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 단계;
    상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 것을 특징으로 하는 특허문서 분류 시스템의 특허문서 분류 방법.
  10. 특허문서 분류 시스템에 의해 실행될 때,
    (a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계;
    (b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계; 및
    (c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 특허문서 분류 방법을 실행하기 위한 프로그램이 수록된 컴퓨터로 판독 가능한 기록 매체.
PCT/KR2015/010661 2014-12-15 2015-10-08 특허문서 분류 시스템 및 방법 WO2016099019A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0180252 2014-12-15
KR1020140180252A KR101521862B1 (ko) 2014-12-15 2014-12-15 특허문서 분류 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2016099019A1 true WO2016099019A1 (ko) 2016-06-23

Family

ID=53395157

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/010661 WO2016099019A1 (ko) 2014-12-15 2015-10-08 특허문서 분류 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR101521862B1 (ko)
WO (1) WO2016099019A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779403A (zh) * 2016-12-13 2017-05-31 郑州云海信息技术有限公司 一种电子政务系统的绩效评估方法及系统
CN112948581A (zh) * 2021-02-05 2021-06-11 中国科学技术大学 专利自动分类方法、装置、电子设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101762252B1 (ko) * 2016-04-08 2017-07-31 (주)윕스 아이디어 창출 지원 방법 및 이를 위한 지원 장치
KR102054514B1 (ko) * 2017-08-07 2019-12-10 강준철 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법
KR20200104516A (ko) 2019-02-27 2020-09-04 유장현 태그를 이용한 기술문서 분류 시스템 및 방법
KR102085355B1 (ko) * 2019-10-02 2020-03-05 (주)디앤아이파비스 특허문서의 유의어 사전 생성 방법, 장치 및 컴퓨터프로그램
KR102095892B1 (ko) * 2019-10-02 2020-04-01 (주)디앤아이파비스 인공지능 모델을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템
KR102300352B1 (ko) * 2019-10-14 2021-09-09 (주)디앤아이파비스 중요도 스코어를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템
KR102383965B1 (ko) * 2019-10-14 2022-05-11 (주)디앤아이파비스 유사도 점수 및 비유사도 점수를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템
KR102085217B1 (ko) * 2019-10-14 2020-03-04 (주)디앤아이파비스 특허문서의 유사도 판단 방법, 장치 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015481A1 (en) * 2002-05-23 2004-01-22 Kenneth Zinda Patent data mining
US20080228724A1 (en) * 2007-03-13 2008-09-18 Sunonwealth Electric Machine Industry Co., Ltd. Technical classification method for searching patents
EP2083362A1 (en) * 2008-01-24 2009-07-29 Sunonwealth Electric Machine Industry Co., Ltd. Related reliability method for searching patents results
US20100030736A1 (en) * 2008-07-29 2010-02-04 Yahoo! Inc. Research tool access based on research session detection
KR101179613B1 (ko) * 2010-10-14 2012-09-04 재단법인 한국특허정보원 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015481A1 (en) * 2002-05-23 2004-01-22 Kenneth Zinda Patent data mining
US20080228724A1 (en) * 2007-03-13 2008-09-18 Sunonwealth Electric Machine Industry Co., Ltd. Technical classification method for searching patents
EP2083362A1 (en) * 2008-01-24 2009-07-29 Sunonwealth Electric Machine Industry Co., Ltd. Related reliability method for searching patents results
US20100030736A1 (en) * 2008-07-29 2010-02-04 Yahoo! Inc. Research tool access based on research session detection
KR101179613B1 (ko) * 2010-10-14 2012-09-04 재단법인 한국특허정보원 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779403A (zh) * 2016-12-13 2017-05-31 郑州云海信息技术有限公司 一种电子政务系统的绩效评估方法及系统
CN112948581A (zh) * 2021-02-05 2021-06-11 中国科学技术大学 专利自动分类方法、装置、电子设备及存储介质
CN112948581B (zh) * 2021-02-05 2022-09-06 中国科学技术大学 专利自动分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR101521862B1 (ko) 2015-05-21

Similar Documents

Publication Publication Date Title
WO2016099019A1 (ko) 특허문서 분류 시스템 및 방법
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
WO2017007084A1 (ko) 토픽 추출 장치 및 방법
WO2020082562A1 (zh) 字符识别方法、装置、设备及存储介质
WO2011136425A1 (ko) 개체명 사전 및 마이닝 규칙이 결합된 온톨로지 스키마를 이용한 리소스 기술 프레임워크 네트워크 구축 장치 및 방법
CN110019641B (zh) 一种医疗否定术语的检出方法及系统
WO2013002436A1 (ko) 온톨로지 기반의 문서 분류 방법 및 장치
WO2021215620A1 (ko) 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법
WO2021060920A1 (en) System and method for solving text sensitivity based bias in language model
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
WO2022114392A1 (ko) 특성 선택에 기반한 모바일 악성 코드 분류 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2018101506A1 (ko) 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
WO2019117450A1 (ko) 부품의 부분 파손을 유지보수하기 위한 부품 검색 및 수리 장치와 방법, 그리고 3d 프린팅 기반 부품 유지보수 시스템
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
WO2022108318A1 (ko) 스마트 컨트랙트 코드 취약점 분석 장치 및 방법
CN113887191A (zh) 文章的相似性检测方法及装置
WO2016088954A1 (ko) 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
Nagy et al. Vpctagger: Detecting verb-particle constructions with syntax-based methods
Claveau et al. Structuring terminology using analogy-based machine learning
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
WO2022119242A1 (ko) 인공 지능 기반의 유사 특허 검색 방법 및 그 장치
WO2024019226A1 (ko) 유해 url 탐지 방법
WO2011136413A1 (ko) 특허 유사도 검출에 의한 지적재산권 포괄 성형망 구현장치 및 방법
WO2013172500A1 (ko) 패러프레이즈 식별 기반 문장 유사도 판단 장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15870187

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 02.11.2017)

122 Ep: pct application non-entry in european phase

Ref document number: 15870187

Country of ref document: EP

Kind code of ref document: A1