WO2013103174A1 - 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템 - Google Patents

기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템 Download PDF

Info

Publication number
WO2013103174A1
WO2013103174A1 PCT/KR2012/001184 KR2012001184W WO2013103174A1 WO 2013103174 A1 WO2013103174 A1 WO 2013103174A1 KR 2012001184 W KR2012001184 W KR 2012001184W WO 2013103174 A1 WO2013103174 A1 WO 2013103174A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
solution
dependent
term
unit
Prior art date
Application number
PCT/KR2012/001184
Other languages
English (en)
French (fr)
Inventor
강민수
구자철
김철영
Original Assignee
㈜광개토연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ㈜광개토연구소 filed Critical ㈜광개토연구소
Publication of WO2013103174A1 publication Critical patent/WO2013103174A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Definitions

  • the present invention relates to a method and a system for processing mapping information of a technical problem and a technical solution, and more particularly, to a method and a system for processing mapping information of a technical problem and a technical solution for processing the dependent claims of the claims.
  • Patent information Global patent information is the crystallization of technology collective intelligence, which has the characteristics of technical information, rights information and management information, and its importance is increasing in global international competition. As the technical information, it is possible to know the trend of technology development and technical ideas applied to individual patents, and as the right information, it is possible to grasp the scope of rights of individual patents and the degree of nationalization of domestic and foreign rights.
  • patent information system There are many ways to obtain patent information, but there are largely 1) the use of patent information system provided by each country's patent office, 2) the use of patent information system developed by private companies, and 3) the individual company's purpose. It can be classified into using a patent information system that is properly constructed.
  • a representative example of the method of 1) is a patent information system provided by the Korean Intellectual Property Office (www.kipo.go.kr) and the Korean Patent Information Service (www.kipris.or.kr), and 2) a representative example of the US www.delphion .com, www.patolis.co.jp in Japan, www.wips.co.kr in Korea and www.wisdomain.com.
  • the first technical problem to be solved by the present invention is to propose a method of processing mapping information between the technical problem and the technical solution.
  • the second technical problem to be solved by the present invention is to propose a mapping information processing system between the technical problem and the technical solution.
  • Parsing the dependent term string in step (A) is performed by referring to at least one predetermined subdivision split pattern, wherein the subordinate subdivision pattern is one of a parent term specific pattern and a subordinate term configuration pattern. It is preferable to include the above.
  • (A1) further comprises generating the parent term information of the subordinate term, wherein (A1) step (A11) after the subordinate string is parsed, at least one preset Specifying a parent term of the dependent term with reference to a parent term specific pattern; And (A12) storing the specified parent term in association with the dependent term.
  • step (B) it is preferable to extract the task part and the solution part from the parsed character string by dividing the task part and the solution part of the dependent term with reference to the preset subordinate division pattern information.
  • the dependent claim division pattern may be any one or more of at least one or more parts-of-speech arrangement patterns and at least one or more divisional arrangement patterns, and at least one of the parts-of-speech arrangement pattern and the division arrangement pattern has an application priority.
  • (D1) selecting and storing at least one or more core keyword sets in any one or more of the task unit and the solution unit, wherein the core keywords are simple key keywords, complex key keywords, and core air. It is preferable that at least one of a pair and a core triple be used.
  • the method of selecting a core keyword among the keywords may include a relative frequency of the keyword in the entire patent claim, the entire patent document including the dependent claims, or a preset document range including the patent document, and a patent in which the keyword appears.
  • the first method of selecting and reflecting any one or more of the field positions on a document and a method of selecting a key keyword from the keywords may include the entire patent claim, the entire patent document including the dependent claims, or the patent document. It is preferable that the second method be selected by reflecting only the relative frequency of the keyword in the preset document range.
  • the method of selecting a core keyword among the keywords is to select a core keyword as a keyword extracted from the task unit, wherein the core keyword selected from the task unit is the solution of at least one parent claim of the dependent claim including the core keyword. It is preferable that it appeared at least 1 time in a part.
  • step (E) generating related information about the task unit and the solution unit on a patent set basis, wherein the step (E) includes (E1) the patent set including at least one individual patent. Obtaining a; (E2) obtaining the task part and the solution part mapped and stored with respect to the individual patents constituting the obtained patent set; (E3) extracting at least one common task part common among the obtained task parts; (E4) extracting at least two solution parts to which the common task part is mapped for each common task part; and (E5) associating and visually representing the solution part mapped to the common task part and the common task part. It is preferable to further include;
  • At least one of the common task unit and the solution unit is preferably a key keyword.
  • Utilizing the present invention has the following effects.
  • FIG. 1 is an exemplary diagram of an entire network environment in which a patent information system of the present invention is a service.
  • FIG. 2 is a diagram illustrating an exemplary embodiment of a patent information system of the present invention.
  • FIG. 3 is a diagram illustrating an embodiment of a dependent claim processing unit of the patent information system of the present invention.
  • FIG. 4 is an exemplary diagram of an information processing method of a patent information system of the present invention.
  • FIG. 5 is a diagram for one embodiment of a method for generating parent term information of a dependent term by a patent information system of the present invention.
  • FIG. 6 is an exemplary diagram illustrating a method for generating a key keyword of the patent information system of the present invention.
  • FIG. 7 is a diagram for one embodiment of an information processing method for visually expressing in association with a common task unit and a solution unit mapped to a common task unit of the patent information system of the present invention.
  • FIG. 1 is an exemplary diagram of an entire network environment in which the patent information system 1000 of the present invention is a service.
  • the patent information system 1000 of the present invention exchanges information with the user computer 2000 through the wired / wireless network 6000 and may be connected to at least one associated system 3000.
  • An example of the linkage system 3000 may be a system of a national patent office or a raw data provider that provides patent raw data, a system of a company information provider, and the like.
  • the linkage system 3000 may link a service of the patent information system 1000 of the present invention. By providing at least one system may be an example, and is not limited to this description.
  • the patent information system 1000 of the present invention essentially includes a patent data unit 1100, and may include a data processing unit 1200, a patent information service support unit 1300, a patent analysis information generation unit 1400, and the like. have.
  • the patent data unit 1100 includes a patent DB 1120 which stores data obtained by parsing a patent text, a patent classification DB 1120 including information on patent classification such as IPC, USPC, FT, FI, ECLA, etc. Includes information such as information about the current patent classification, information about the current assignee, information about maintenance fees, prior art research information, citation / citation information, DocDB information, applicant representative name information, etc.
  • the data processing unit 1200 includes a dependent claim processing unit that identifies the claims in the patent documents obtained and processes the claims included in the patent claims, and optionally generates key keywords in the claims or the entire patent document.
  • the key keyword generation unit 5000 is further included.
  • the key keyword generator 5000 includes a keyword extractor 5100 for extracting a keyword from a claim or a patent document to generate a keyword set, a key keyword selector 5200 for selecting a key keyword from the extracted keyword set, and a key keyword.
  • There is a key keyword selection policy DB 5300 that contains a rule or policy for selecting a key.
  • the patent information service support unit 1300 may combine a query or query with a search processor 1310 that generates and provides a search result for a user's search term input, and a user's query or a query corresponding action (a specific button / link, etc.).
  • a search processor 1310 that generates and provides a search result for a user's search term input, and a user's query or a query corresponding action (a specific button / link, etc.).
  • It may further include a translation processing unit for processing translation information, such as.
  • the patent analysis information generation unit 1400 includes preset analysis target acquisition unit 1410 that receives a patent document, a patent document set, or a keyword / core keyword to be analyzed, preset quantitative analysis, preset network analysis, and the like. It includes a patent analysis processing unit 1420 for processing a patent analysis result, the analysis result reporting unit that provides the user with a visual recognition of the analysis results as text, tables, charts, diagrams (including network diagrams) (1430).
  • the dependent claim processor includes a patent document acquisition unit 4100 for obtaining at least one or more processing target patent documents, a claim processing unit 4200 for processing a claim string in the claims of the obtained patent document, and a processed claim. Includes dependency processing result DB 4300 that stores the result data of the character string.
  • the claim processor 4200 may include a subclaim partitioner 4210 for dividing the subclaims and a subdivision subdivision pattern DB 4220 for storing data or policy on a pattern for subdividing the subclaims. .
  • the dependent claim splitter 4210 may include a claim hierarchy generator 4211 for generating a hierarchy of claims, a task part extractor 4212 for extracting a string part related to a task from a dependent claim, and a solution related to a solution in a dependent claim. And a solution portion extracting unit 4213 for extracting the character string.
  • the dependent term splitting pattern DB 4220 includes a parent term specific pattern DB 4221 including a pattern for distinguishing the dependent term from the independent term or expression pattern data for the parent term of the dependent term, and a pattern constituting the dependent term. Essentially, it contains the dependent claim configuration pattern DB 4202 that contains information about the dependent claim.
  • the dependent term division pattern DB 4220 may include a part-of-speech arrangement pattern DB 4223 including information on a part-of-speech arrangement or a syntax arrangement pattern DB 4224 including information on a syntax arrangement.
  • the dependent claim processing result DB 4300 of the present invention includes a claim hierarchy DB 4310 including information about a claim hierarchy and a dependent claim partitioning DB for storing information divided into a task part and a solution part for a specific dependent claim. 4320), and may further include a dependent term keyword DB that stores a keyword or a core keyword extracted from the task unit, a keyword or a key keyword extracted from the solution unit.
  • Patent information system 1000 of the present invention includes the steps of (A) obtaining at least one or more dependent term strings, parsing the obtained dependent term strings (S11); (B) extracting a task part and a solution part from the parsed string (S12); And (C) mapping and storing the task unit and the solution unit (S13). It will be described in more detail below.
  • the patent document acquisition unit 4100 of the present invention receives at least one patent document.
  • US Pat. No. 6,714,859 is available.
  • the claim processor 4200 extracts only the claims from the 6,714,859 patents obtained. Since the 6,714,859 patent has a total of 40 registered claims, 40 claims are extracted as follows.
  • the dependent claim divider 4210 parses the extracted claims.
  • the parsing includes dividing the claims into independent and dependent claims, and determining the parent terms of the dependent claims to create a claim hierarchy. There are three cases of independence. The first is the original claim, the term without a citing term is the independent term. In the case of a dependent term, there is a term that is cited. Even if there is a quoting term, a claim with a different end or claim with a different preamble (Korean or Japanese patent claim) may be treated as a dependent claim or an independent claim depending on policy.
  • the representative pattern of the dependent term is that it contains the string "claim + number".
  • the inclusion of the string notation pattern associated with "claim + number” is called the parent term specific pattern.
  • An example of a parent term specific pattern could be "string + claim + number”.
  • first number + term + string In Korean or Japanese patent documents, "first number + term + string”, “first number + delimiter + number 2 + delimiter + number n + term + string”, “first number + term + range separator + number n term + string”, etc.
  • the separator may be a comma, the range separator may be "to" and the like.
  • the parent term specific pattern may be added to the parent term specific pattern DB 4221.
  • Section 10 of the 6,714,859 patent claims "The system of claim 9, said said travel data associated with said one vehicle indicates a location of said one vehicle and said data manager is configured to transmit said notification message based on said location of said one vehicle relative to a predefined reference point. "In this case, it can be seen that the parent term of claim 10 is” item 9 "in” The system of claim 9, ". Clause 9 of “9.The system of claim 1, said said data manager is further configured to receive preference data transmitted by said user and to compare said preference data to travel data associated with said one vehicle, said data manager configured to automatically transmit a In the parent term specific pattern "The system of claim 1," included in notification message to said second communications device based upon a comparison of said preference data to said travel data associated with said one vehicle. It can be seen that the first term. Accordingly, the grandparent term of claim 10 becomes the first term.
  • the parent term can be determined for all claims of the 6,714,859 patent.
  • the determination of the parent term with respect to claims 1 to 18 relating to the first independent claim is shown in Table 1.
  • the generation of data as shown in Table 1 is performed by the claim hierarchy generator 4211 of the present invention.
  • FIG. 5 is a diagram for describing a method of generating, by the patent information system 1000 of the present invention, parent term information of a dependent term.
  • the patent information system 1000 of the present invention after parsing the dependent term string, identifies the parent term of the dependent term with reference to at least one preset parent term specific pattern (S21), and associates the specified parent term with the dependent term.
  • the parent term information is generated in a manner of storing (S22).
  • the dependent term is identified as "parent term specific part + task part + solution part".
  • the parent term specification is a string used to determine the parent term in the dependent term.
  • the US patent generally consists of "further configuring + solution part” or “further + verbing + solution part”, and in the Korean patent or Japanese patent, a typical pattern such as "solution part + more” is used. It is used.
  • the dependent term division unit 4210 of the present invention generates a part-of-speech sequence by performing a part-of-speech analysis on the character string of the dependent term. In this case, the generated part-of-speech sequence is compared with a predetermined dependent term configuration pattern, and the dependent terms such as "task part + verb part + solution part” and "further + verbing + solution part” are divided.
  • the subordinate division part 4210 first separates the parent term specific part from the subordinate term, ignores stopwords such as wherein, article, and the like in the following string and starts with the term “further + verb ing” or starts with a noun. If it corresponds to a predetermined solution part configuration pattern, such as not doing so, the part is divided into solution parts.
  • the dependent term division unit 4210 is the first phrase that starts with "said or definite articles + noun phrases", and when a predetermined task part configuration pattern, such as when the verbs (not the current injection type / past injection type) comes out, the above Dividing the front of the verb into task sections.
  • FIG. 6 is a diagram for one example of a method for generating a key keyword of the patent information system 1000 of the present invention.
  • the keyword extracting unit 5100 of the core keyword generating unit 5000 of the present invention extracts at least one or more keyword sets including at least one keyword from at least one of the task unit and the solution unit. That is, the keyword of the present invention has a keyword extracted from the task portion and a keyword portion extracted from the solution portion, which are extracted separately and managed separately.
  • the keyword is any one or more of a simple keyword, a composite keyword, a concurrent pair, and a triple. Given a string, it is easy for a person skilled in the art to extract the keyword, so a detailed description thereof will be omitted.
  • the key keyword selecting unit 5200 may select a key keyword from the keywords in the keyword, the entire patent claim, the entire patent document including the dependent term, or the keyword in the preset document range including the patent document. And at least one of a relative frequency of and a field position in a patent document in which the keyword appears.
  • TF terminal frequency
  • DF document frequency
  • TF refers to the number of times a particular keyword appeared in the scope of the subject (full dependent claim, full claim, full task part, full solution part, full patent document, etc.).
  • DF refers to the number of times a particular keyword appeared in the target population range, which should be wider than the target range.
  • the target range is the entire task area
  • the target population range is subclass based on the entire claim, the entire task area and the entire solution part, or the entire patent document or the preset patent population (for example, based on the main IPC of the patent document obtained). Or the entire class based on the main USPC).
  • Higher TF and lower DF are more likely to be key keywords.
  • the position on the patent document from which the keyword is extracted may be considered. For example, a keyword from the name or summary of the invention is likely to be a key keyword, but a keyword only in the description of the invention may be relatively less likely to be a key keyword.
  • Another method for selecting a core keyword among the keywords is selecting a core keyword as a keyword extracted from the task unit, wherein the core keyword selected from the task unit is the at least one parent claim of the dependent claim including the core keyword. It is a method of extracting what appeared at least once in the solution portion.
  • the task of claim 10 of the 6,714,859 patent is "travel data associated with said one vehicle".
  • travel data associated with one vehicle When processing a string such as removing a stopword like said, it becomes “travel data associated with one vehicle” and "travel The term “data associated with said one vehicle” or “travel data associated with one vehicle” also appears in the solution section of claim 9, the parent term of claim 10, and the independent term (independence term, which is essentially one large solution part). This string also appears in.
  • the string "travel data associated with said one vehicle” or “travel data associated with one vehicle” becomes a key keyword.
  • the keyword in the solution section of the dependent section becomes an important keyword
  • the solution section of the dependent section of the dependent section becomes a deeper, detailed, and concrete solution than the solution section of the dependent section.
  • the core keyword of the task part or the core keyword of the solution part where the depth of the dependent term is deep is likely to be an important keyword. This is because a relatively high degree of abstraction of the inventive idea is generally arranged in the independent claims and the low-depth dependent claims.
  • the third method of selecting a key keyword from the keywords is to select the key keyword by the frequency of the keywords extracted from the task unit.
  • 6,714,859 patent claims 3 and 4 have two overlapping proximities in the task area, each of which has a solution part such as defined in time and defined in distance. Proximity with two solutions is an important key keyword.
  • the core keyword generator 5000 extracts at least one keyword set including at least one keyword from at least one of the task unit and the solution unit (S31), and the task unit and At least one of the solution units selects at least one key keyword set and stores the selected key keyword set in the dependent term keyword DB (S33).
  • FIG. 7 is an exemplary diagram illustrating an information processing method for visually associating a common task unit and a solution unit mapped to the common task unit of the patent information system 1000 of the present invention.
  • the analysis target acquisition unit 1410 of the patent information system 1000 obtains the patent set including at least one individual patent (E1) (S41).
  • the analysis processing unit 1420 of the patent information system 1000 obtains (E2) the task unit and the solution unit mapped and stored for the individual patents constituting the acquired patent set (S21), and (E3) At least one common task part common among the task parts is extracted (S31), and (E4) at least two or more solution parts to which the common task part is mapped for each common task part are extracted (S44).
  • the analysis result reporting unit 1430 of the present invention (E5) visually expresses (S45) in association with the common task unit and the solution unit mapped to the common task unit.
  • proximity appears twice as a common challenge. This will create two pairs of common tasks called (proximity, defined in time) and (proximity, defined in distance) for the 6,714,859 patent. If at least one other patent has at least one pair associated with proximity (such as (proximity, AAA), etc.), the proximity is at least three solution parts ("defined in time”, “defined in distance", “AAA”). Etc.), proximity can be connected to these solution parts by a predetermined line (dotted line, solid line, etc.).
  • association analysis When there is data such as (proximity, defined in time), (proximity, defined in distance), ((proximity, ABC), etc., a typical technique for analyzing such data is association analysis, and visualizes the results of the association analysis. One of them is shown by the network, which is easy for those skilled in the art, and thus detailed description thereof will be omitted.
  • a search service targeting only the key keyword extracted from the task unit or the task unit may be possible.
  • indexing which is a search engine
  • a search service can be performed in such a manner that a core keyword extracted from a task unit or a task unit is used as a DB field, indexing the field, and converting the field into a search target field.
  • the key word extracted from the task part or the task part may be processed as a DB field
  • the query may be obtained for the field, and the result corresponding to the query may be output.
  • the search result or the DB query result may be a list of patent documents matching the input search keyword or query keyword, but may also be a solution part as shown in Table 2 below.
  • the search / query result may be as follows.
  • the key keywords of the above-mentioned task part or solution part may be mapped to the F-term by you (in case of Japanese patent or English patent, because F-Term has English title information) or by translation (in Korean or English).
  • F-term has English title information
  • translation in Korean or English
  • the keywords included in the title information included in these F-terms and the key keywords are mapped.
  • the keywords included in the title information included in these F-terms and the key keywords are mapped.
  • the various aspects of the F-term system there are various F-terms other than the purpose or effect, and the keywords included in the title information included in these F-terms and the present key keywords (particularly, the key words of the solution part) May be mapped.
  • the present invention can be utilized in the patent information industry.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 특허 청구 범위의 종속항을 처리하는 기술적 과제와 기술적 솔루션의 맵핑 정보 처리 방법 및 그 시스템에 관한 것이다. 본 발명의 특허 청구 범위의 종속항을 처리하는 기술적 과제와 기술적 솔루션의 맵핑 정보 처리 방법은 (A) 적어도 하나 이상의 종속항 문자열을 입수하고, 입수된 종속항 문자열을 파싱(parsing)하는 단계; (B) 상기 파싱된 문자열로 과제부와 솔루션부를 추출하는 단계; 및 (C) 상기 과제부와 상기 솔루션부를 맵핑하여 저장하는 단계; 포함하는 것을 특징으로 한다. 본 발명을 실시하면 특허의 과제부와 그 솔루션을 효과적으로 매칭 및 맵핑할 수 있으며, 중요한 핵심 키워드를 효과적으로 추출할 수 있으며, 기술적 해결 과제에 관련된 중요한 핵심 키워드와 기술적 솔루션에 관련된 중요한 핵심 키워드를 효과적으로 발견할 수 있고 기술적 해결 과제와 기술적 솔루션을 분리하여 파악 및 맵핑 할 수 있어, 동일 또는 유사한 기술적 해결 과제와 관련된 다른 특허에서의 기술적 솔루션을 용이하게 찾을 수 있게 된다.

Description

기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템
본 발명은 기술적 과제와 기술적 솔루션의 맵핑 정보 처리 방법 및 그 시스템에 관한 것으로 더욱 더 상세하게는 특허 청구 범위의 종속항을 처리하는 기술적 과제와 기술적 솔루션의 맵핑 정보 처리 방법 및 그 시스템에 관한 것이다.
특허 정보는 글로벌 특허 정보는 기술 집단 지성(technology collective intelligence)의 결정체로 기술 정보, 권리 정보 및 경영 정보의 성격을 가지며, 글로벌한 국제 경쟁에서 그 중요성이 증가 되고 있다. 기술 정보로서 기술 개발 동향, 개별 특허에 적용된 기술적 아이디어를 알 수 있고, 권리 정보로서 개별 특허의 권리 범위, 국내외 권리화 정도를 파악할 수 있으며, 경영 정보로서 경쟁 기업의 기술 개발 동향 등을 파악할 수 있다.
특허 정보를 입수할 수 있는 방법은 다양하나, 크게 1) 각국 특허청이 제공해 주는 특허 정보 시스템을 이용하는 것과 2) 민간 기업이 개발한 특허 정보 시스템을 이용하는 것, 및 3) 개별 기업이 자사의 목적에 맞게 구축된 특허 정보 시스템을 이용하는 것 등으로 대별할 수 있다. 1)의 방법의 대표적인 예가 대한민국 특허청(www.kipo.go.kr) 및 대한민국 특허정보원(www.kipris.or.kr)이 제공하는 특허 정보 시스템이 있으며, 2)의 대표적인 예로 미국의 www.delphion.com, 일본의 www.patolis.co.jp, 대한민국의 www.wips.co.kr, www.wisdomain.com 등 있다.
www.delphion.com 의 운영회사인 톰슨사이언티픽과 같은 각 국가의 민간 기업들은 특허 정보 데이터베이스를 구축해 놓고, 특허 검색 엔진을 통하여 입력된 검색식에 대해 다양한 방식으로 검색 결과를 제공해 주고 있다. 또한, 이들 특허 정보를 기반으로 한 다양한 종류의 분석 소프트웨어가 개발되어 있으며, www.micropatent.com의 운영사(톰슨사이언티픽에 인수 합병되었음)가 개발한 상표명 AUREKA로 보급되는 소프트웨어가 유명하다. 그리고, 세계 각국의 기술 선진 대기업들은 내부에 특허 검색 및 특허 관리 시스템을 구축하여 운영하고 있는 것으로 알려져 있으나, 외부에서 그 기업들의 특허 검색 및 특허 관리 시스템에 대해 접근하기가 어렵다.
이러한 특허 검색 및 특허 관리 시스템을 구축하기 위해서는 수십억원 이상의 비용이 지출되는 것이 통상이어서, 국내외 대부분의 중견 및 중소 벤처 기업들은 자체 특허 검색 및 특허 관리 시스템을 구축하고 있지 못하고 있다. 이들 중견 및 중소 벤처 기업들은 특허 전담 조직을 두고 있는 경우도 다수 있으며, 이들이 자사의 특허에 대한 관리 및 자사를 위한 특허 정보를 수집하고 있다. 하지만, 기업 규모가 작거나, 특허에 대한 의식이 크지 않은 기업들은 이러한 특허 전담 조직을 갖추고 있지 못하는 경우가 많다. 이들 기업들은 특허법률사무소나 로펌 등에 의뢰하여 자신의 특허를 관리하고 있는 수준에 거치고 있다.
이들 특허 전담 조직은 www.delphion.com 등과 같은 외부에서 접근 가능한 유무료 온라인 특허 정보 서비스 업체들을 이용하여, 이들이 제공해 주는 플랫폼으로 특허 정보를 수집, 관리하고 있다. 그리고, 기업 명의로 된 특허 출원의 대부분은 그 기업 소속 발명자들에 의해서 이루어 지며, 그 발명자는 자신의 발명과 관련된 국내외의 특허 정보를 수집하는 것이 전세계적인 추세가 된다. 그 이유가 특허 공개 기간의 존재에도 불구하고 전세계의 신기술 정보는 70% 이상이 특허 정보의 형태로 공개되며, 특허 정보가 논문 정보 등에 비해서 상업적으로 이용 가능한 아이디어가 많기 때문으로 풀이된다. 하지만, 이들 발명자들의 상당 부분은 특허 검색에 익숙해 있지 않거나, 검색에 익숙한 자라 하더라도 www.delphion.com 등과 같은 외부 특허 정보 서비스 제공업체에 접속하여 특허 정보를 입수 받고 있다.
이러한 기술 집단 지성의 결집체에 대한 각종 분석이 수행되고 있지만, 기술적 과제와 기술적 솔루션을 체계적으로 맵핑해 주는 차별화된 서비스는 아직 시도되고 있지 않고 있다. TRIZ를 시스템화한 goldfire 등이 출시된 지 오래되었고, 시맨틱(semantic) 기술이나 온톨로지(ontology) 기술 등이 특허에 대한 접목을 시도해 왔지만, 아직 제대로 된 성과물을 보여 주지는 못하고 있다. 이에, 기술 집단 지성의 결집체를 제대로 활용하는 특허 정보 시스템의 개발이 절실히 요구되어 왔다.
본 발명이 해결하고자 하는 첫번째 기술적 과제는 기술적 과제와 기술적 솔루션의 맵핑 정보 처리 방법을 제시하는 것이다.
본 발명이 해결하고자 하는 두번째 기술적 과제는 기술적 과제와 기술적 솔루션의 맵핑 정보 처리 시스템을 제시하는 것이다.
본 발명이 이루고자 하는 과제를 달성하기 위하여, (A) 적어도 하나 이상의 종속항 문자열을 입수하고, 입수된 종속항 문자열을 파싱(parsing)하는 단계; (B) 상기 파싱된 문자열로 과제부와 솔루션부를 추출하는 단계; 및 (C) 상기 과제부와 상기 솔루션부를 맵핑하여 저장하는 단계; 포함하는 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법을 제시한다.
상기 (A) 단계에서의 종속항 문자열을 파싱하는 것은 기 설정된 적어도 하나 이상의 종속항 분할 패턴을 참조하여 수행되는 것인 것이며, 상기 종속항 분할 패턴은 부모항 특정 패턴 및 종속항 구성 패턴 중 어느 하나 이상을 포함하는 것인 것이 바람직하다.
상기 (A) 단계 이후에, (A1) 상기 종속항의 부모항 정보를 생성하는 단계;를 더 포함하며, 상기 (A1) 단계는 (A11) 상기 종속항 문자열이 파싱된 다음, 기 설정된 적어도 하나 이상의 부모항 특정 패턴을 참조하여 상기 종속항의 부모항을 특정하는 단계; 및 (A12) 상기 특정된 상기 부모항을 상기 종속항과 관계 지어 저장하는 단계;를 포함하는 것인 것이 바람직하다.
상기 (B) 단계에서, 상기 파싱된 문자열로 과제부와 솔루션부를 추출하는 것은 상기 기 설정된 종속항 분할 패턴 정보를 참조하여 상기 종속항의 과제부와 솔루션부를 분할하는 것인 것이 바람직하다.
상기 종속항 분할 패턴은 적어도 하나 이상의 품사 배열 패턴 및 적어도 하나 이상의 구분 배열 패턴 중 어느 하나 이상인 것이며, 상기 품사 배열 패턴 및 상기 구분 배열 패턴 중 어느 하나 이상에는 적용 우선 순위가 있는 것인 것이 바람직하다.
(D) 상기 과제부 및 상기 솔루션부 중 어느 하나 이상에서 적어도 하나 이상의 키워드를 포함하는 적어도 하나 이상의 키워드 집합을 추출하는 단계;를 더 포함하는 것이며, 상기 키워드는 단순 키워드, 복합 키워드, 공기쌍, 트리플 중 어느 하나 이상인 것이 바람직하다.
(D1) 상기 과제부 및 상기 솔루션부 중 어느 하나 이상에서 적어도 하나 이상의 핵심 키워드 집합을 선정하고 저장하는 단계;를 더 포함하는 것인 것이며, 상기 핵심 키워드는 단순 핵심 키워드, 복합 핵심 키워드, 핵심 공기쌍, 핵심 트리플 중 어느 하나 이상인 것이 바람직하다.
상기 키워드 중에서 핵심 키워드를 선정하는 방법은 상기 키워드 중에서 특허 청구 범위 전체, 상기 종속항이 포함된 특허 문서 전체 또는 상기 특허 문서가 포함된 기 설정된 문서 범위에서의 상기 키워드의 상대적 빈도 및 상기 키워드가 나타난 특허 문서 상의 필드 위치 중 어느 하나 이상이 반영되어 선별되는 제1 방법 및 상기 키워드 중에서 핵심 키워드를 선정하는 방법은 상기 키워드 중에서 특허 청구 범위 전체, 상기 종속항이 포함된 특허 문서 전체 또는 상기 특허 문서가 포함된 기 설정된 문서 범위에서의 상기 키워드의 상대적 빈도만이 반영되어 선별되는 제2 방법 중 어느 하나인 것이 바람직하다.
상기 키워드 중에서 핵심 키워드를 선정하는 방법은 상기 과제부에서 추출되는 키워드로 핵심 키워드를 선정하는 것이며, 상기 과제부에서 선정되는 핵심 키워드는 상기 핵심 키워드가 포함된 종속항의 적어도 하나 이상의 부모 청구항의 상기 솔루션부에서 적어도 1회 이상 나타난 것인 것이 바람직하다.
(E) 입수된 특허 집합 단위로 상기 과제부와 상기 솔루션부에 대한 연관 정보를 생성하는 단계;를 더 포함하며, 상기 (E) 단계는 (E1) 적어도 하나 이상의 개별 특허를 포함하는 상기 특허 집합을 입수하는 단계; (E2) 입수된 상기 특허 집합을 구성하는 상기 개별 특허 대하여 맵핑되어 저장된 상기 과제부와 상기 솔루션부를 입수하는 단계; (E3) 입수된 과제부 중에서 공통되는 적어도 하나 이상의 공통 과제부를 추출하는 단계; (E4) 상기 공통 과제부별로 상기 공통 과제부가 맵핑되는 적어도 2 이상의 상기 솔루션부를 추출하는 단계;및 (E5) 상기 공통 과제부와 상기 공통 과제부에 맵핑되는 상기 솔루션부를 연관 지어 시각적으로 표현하는 단계;를 더 포함하는 것이 바람직하다.
상기 공통 과제부와 상기 솔루션부 중 어느 하나 이상은 핵심 키워드인 것인 것이 바람직하다.
본 발명이 이루고자 하는 과제를 달성하기 위하여, 상기 어느 한 항의 방법을 실시하는 것을 특징으로 하는 특허 정보 시스템을 제시한다.
본 발명을 활용하면 다음과 같은 효과가 있다.
첫째, 특허의 과제부와 그 솔루션을 효과적으로 매칭 및 맵핑할 수 있다.
둘째, 중요한 핵심 키워드를 효과적으로 추출할 수 있으며, 기술적 해결 과제에 관련된 중요한 핵심 키워드와 기술적 솔루션에 관련된 중요한 핵심 키워드를 효과적으로 발견할 수 있다.
셋째, 기술적 해결 과제와 기술적 솔루션을 분리하여 파악 및 맵핑 할 수 있어, 동일 또는 유사한 기술적 해결 과제와 관련된 다른 특허에서의 기술적 솔루션을 용이하게 찾을 수 있게 된다.
도 1은 본 발명의 특허 정보 시스템이 서비스가 되는 전체 네트워크적인 환경에 대한 일 실시예적 도면이다.
도 2는 본 발명의 특허 정보 시스템의 구성에 관한 일 실시예적 도면이다.
도 3은 본 발명의 특허 정보 시스템의 종속항 처리부의 구성에 관한 일 실시예적 도면이다.
도 4는 본 발명의 특허 정보 시스템의 정보 처리 방법에 대한 일 실시예적 도면이다.
도 5는 본 발명의 특허 정보 시스템이 종속항의 부모항 정보를 생성하는 방법에 대한 일 실시예적 도면이다.
도 6은 본 발명의 특허 정보 시스템의 핵심 키워드 생성 방법에 대한 일 실시예적 도면이다.
도 7은 본 발명의 특허 정보 시스템의 공통 과제부와 공통 과제부에 맵핑되는 솔루션부를 연관 지어 시각적으로 표현하는 정보 처리 방법에 대한 일 실시예적 도면이다.
도 8은 파싱된 청구항의 계층 구조를 보여 주는 일례이다.
이하, 도면을 참조하면서 더욱 더 상세하게 설명한다.
도 1은 본 발명의 특허 정보 시스템(1000)이 서비스가 되는 전체 네트워크적인 환경에 대한 일 실시예적 도면이다. 본 발명의 특허 정보 시스템(1000)은 유무선 네트워크(6000)를 통하여 사용자 컴퓨터(2000)와 정보를 주고 받으며, 적어도 하나 이상의 연계 시스템(3000)에 연결되어 있을 수 있다. 상기 연계 시스템(3000)의 예는 특허 raw data를 제공하는 각국 특허청 또는 raw data 공급자의 시스템, 기업 정보 제공자의 시스템 등이 그 예가 될 수 있으며, 본 발명의 특허 정보 시스템(1000)의 서비스를 연계하여 제공하는 적어도 하나 이상의 시스템이 그 예가 될 수 있으며, 본 설명에 한정하지 않는다.
도 2는 본 발명의 특허 정보 시스템(1000)의 구성에 관한 일 실시예적 도면이다. 본 발명의 특허 정보 시스템(1000)은 특허 데이터부(1100)를 필수적으로 포함하고, 데이터 가공부(1200), 특허 정보 서비스 지원부(1300)와 특허 분석 정보 생성부(1400) 등을 포함할 수 있다. 특허 데이터부(1100)에는 특허 원문을 파싱한 데이터가 저장되어 있는 특허 DB(1110), IPC, USPC, FT, FI, ECLA 등과 같은 특허 분류에 관한 정보를 포함하고 있는 특허 분류 DB(1120), 현재 특허 분류에 관한 정보, 현재 양수인(current assignee)에 관한 정보, 연차 등록(maintenance fee)에 관한 정보, 선행 기술 조사 정보, 인용/피인용 정보, DocDB 정보, 출원인 대표명화 정보 등과 같은 정보가 포함되어 있는 기타 특허 DB(1130)가 있을 수 있다.
상기 데이터 가공부(1200)에는 입수된 특허 문건에서 특허 청구 범위를 식별하고, 특허 청구 범위에 포함된 청구항들을 처리하는 종속항 처리부를 포함하고 있으며, 선택적으로 청구항 또는 특허 문건 전체에서 핵심 키워드를 생성하는 핵심 키워드 생성부(5000)가 더 포함되어 있다. 상기 핵심 키워드 생성부(5000)에는 청구항이나 특허 문건에서 키워드를 추출하여 키워드 집합을 생성하는 키워드 추출부(5100), 추출된 키워드 집합 중에서 핵심 키워드를 선정하는 핵심 키워드 선정부(5200) 및 핵심 키워드를 선정하는 규칙 또는 정책이 포함되어 있는 핵심 키워드 선정 정책 DB(5300)가 있다. 한편, 특허 정보 서비스 지원부(1300)에는 사용자의 검색어 입력에 대하여 검색 결과를 생성하여 제공하는 검색 처리부(1310)와 사용자의 쿼리 또는 쿼리 대응 액션(특정한 버튼/링크 등에는 쿼리 또는 쿼리를 조합할 수 있는 매개 변수(parameter) 등이 내장되거나 또는 대응되어 있을 때, 그 버튼/링크 등을 누르거나 터치하는 행위)을 처리하는 DB 쿼리 처리부(1320) 및 2종 이상의 언어 간에 단어, 구절, 문장이나 문서 등의 번역 정보를 처리하는 번역 처리부를 더 포함하고 있을 수 있다. 그리고, 특허 분석 정보 생성부(1400)에는 분석 대상이 되는 특허 문건 또는 특허 문건 집합 또는 키워드/핵심 키워드를 입수하는 분석 대상 입수부(1410)와 기 설정된 정량 분석, 기 설정된 네트워크 분석 등과 같은 기 설정된 특허 분석 결과를 처리하는 특허 분석 처리부(1420)를 포함하고 있으며, 분석 결과를 사용자에게 텍스트, 표, 차트, 다이어그램(네트워크 다이어그램을 포함한다.)로 시각적으로 인지할 수 있도록 제공하는 분석 결과 리포팅부(1430)를 포함하고 있다.
도 3은 본 발명의 특허 정보 시스템(1000)의 종속항 처리부의 구성에 관한 일 실시예적 도면이다. 상기 종속항 처리부에는 적어도 하나 이상의 처리 대상 특허 문서를 입수하는 특허 문서 입수부(4100)과 입수 된 특허 문서의 특허 청구 범위에 나와 있는 청구항 문자열을 처리하는 특허 청구 범위 처리부(4200) 및 처리된 청구항 문자열의 결과 데이터를 저장하는 종속항 처리 결과 DB(4300)를 포함하고 있다. 상기 특허 청구 범위 처리부(4200)에는 종속항을 분할하는 종속항 분할부(4210)와 종속항을 분할하는 패턴에 대한 데이터 또는 정책을 저장하는 종속항 분할 패턴 DB(4220)를 포함하고 있을 수 있다. 상기 종속항 분할부(4210)는 청구항의 계층 구조를 생성하는 청구항 계층 구조 생성부(4211), 종속항에서 과제에 관련된 문자열 부분을 추출하는 과제부 추출부(4212)와 종속항에서 솔루션에 관련된 문자열을 추출하는 솔루션부 추출부(4213)를 포함하고 있다. 한편, 상기 종속항 분할 패턴 DB(4220)에는 종속항과 독립항을 구분하는 패턴 또는 종속항의 부모항에 대한 표현 패턴 데이터를 포함하고 있는 부모항 특정 패턴 DB(4221), 종속항을 구성하는 패턴에 대한 정보를 포함하고 있는 종속항 구성 패턴 DB(4222)를 필수적으로 포함하고 있다. 한편, 상기 종속항 분할 패턴 DB(4220)에는 품사 배열에 관한 정보를 포함하는 품사 배열 패턴 DB(4223) 또는 구문 배열에 관한 정보를 포함하는 구문 배열 패턴 DB(4224)를 포함하고 있을 수 있다. 본 발명의 종속항 처리 결과 DB(4300)에는 청구항 계층 구조에 관한 정보를 포함하는 청구항 계층 구조 DB(4310)와 특정한 종속항에 대하여 과제부와 솔루션부로 구분한 정보를 저장하는 종속항 분할 DB(4320)를 포함하고 있으며, 과제부에서 추출하는 키워드 또는 핵심 키워드, 솔루션부에서 추출하는 키워드 또는 핵심 키워드를 저장하는 종속항 키워드 DB를 더 포함하고 있을 수 있다.
도 4는 본 발명의 특허 정보 시스템(1000)의 정보 처리 방법에 대한 일 실시예적 도면이다. 본 발명의 특허 정보 시스템(1000)은 (A) 적어도 하나 이상의 종속항 문자열을 입수하고, 입수된 종속항 문자열을 파싱하는 단계(S11); (B) 상기 파싱된 문자열로 과제부와 솔루션부를 추출하는 단계(S12); 및 (C) 상기 과제부와 상기 솔루션부를 맵핑하여 저장하는 단계(S13);포함하는 방식으로 정보 처리하는 것을 특징으로 한다. 이하, 더욱 더 상세하게 설명한다.
본 발명의 특허 문서 입수부(4100)는 적어도 하나 이상의 특허 문서를 입수 받는다. 예를 들어, 미국 특허 등록 번호 6,714,859를 입수한다. 상기 특허 청구 범위 처리부(4200)는 입수된 6,714,859 특허에서 특허 청구 범위만을 추출해 낸다. 6,714,859 특허는 총 40개의 등록 청구항이 있으므로, 하기와 같이 40개의 청구항이 추출된다. 상기 종속항 분할부(4210)는 추출된 청구항들을 파싱한다.
상기 파싱은 청구항들을 독립항과 종속항을 구분하는 것, 청구항 계층 구조의 생성을 위하여 종속항의 부모항을 결정하는 것을 포함한다. 독립항이 되는 경우는 다음 3가지가 있다. 첫째는 최초 청구항, 인용하는 항이 없는 항은 독립항이다. 종속항이 되는 경우에는 인용하는 항이 있는 경우가 된다. 인용하는 항이 있더라도 청구항의 종결부(한국 또는 일본 특허 청구항)가 다른 청구항 또는 전제부(preamble)가 다른 청구항은 정책에 따라 종속항으로 취급할 수 도 있고, 독립항으로 취급할 수도 있을 것이다.
종속항의 대표적인 패턴은 "claim + 숫자"라는 문자열을 포함한다는 것이다. "claim + 숫자"와 관련된 문자열 표기 패턴을 포함하는 것을 부모항 특정 패턴이라 한다. 부모항 특정 패턴의 한 예는 "문자열 + claim + 숫자"가 될 수 있다. 한국 또는 일본 특허 문서에서는 "제 숫자+항+문자열", "제 숫자1+구분자+숫자2+구분자+숫자n+항+문자열", "제 숫자1항+범위 구분자+숫자n항+문자열" 등과 같은 다양한 부모항 특정 패턴이 있다. 상기에서 구분자는 콤마(comma), 범위 구분자는 "내지" 등이 될 수 있다. 상기 부모항 특정 패턴 부모항 특정 패턴 DB(4221)에 추가될 수 있음은 물론일 것이다.
6,714,859 특허의 제 10항은 ". The system of claim 9, wherein said travel data associated with said one vehicle indicates a location of said one vehicle and said data manager is configured to transmit said notification message based on said location of said one vehicle relative to a predefined reference point."인데, 이 때, "The system of claim 9,"에서 제10항의 부모항은 제9항임을 알 수 있다. 제 9항의 "9. The system of claim 1, wherein said data manager is further configured to receive preference data transmitted by said user and to compare said preference data to travel data associated with said one vehicle, said data manager configured to automatically transmit a notification message to said second communications device based upon a comparison of said preference data to said travel data associated with said one vehicle."에 포함된 부모항 특정 패턴인 "The system of claim 1,"에서 제 9항의 부모항은 제1항임을 알 수 있다. 따라서, 제 10항의 조부모항은 제 1항이 된다.
이와 같이 6,714,859 특허의 모든 청구항에 대하여 부모항을 결정할 수 있게 된다. 예시적으로 제1 독립항과 관련된 제1항 내지 제18항에 대하여 부모항이 결정되는 것은 표 1에 나타나 있다. 표 1과 같은 데이터의 생성은 본 발명의 청구항 계층 구조 생성부(4211)가 수행한다.
표 1
청구항 번호 부모 청구항
1
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 1
10 9
11 1
12 11
13 1
14 13
15 14
16 14
17 14
18 17
상기 표 1과 같은 정보가 있을 때, 이러한 정보로 도 8과 같은 계층 트리(tree)를 생성하여 시각적으로 제공하는 것은 당업자에게 용이한 것이므로, 상세한 설명은 생략한다.
도 5는 본 발명의 특허 정보 시스템(1000)이 종속항의 부모항 정보를 생성하는 방법에 대한 일 실시예적 도면이다. 본 발명의 특허 정보 시스템(1000)은 종속항 문자열이 파싱된 다음, 기 설정된 적어도 하나 이상의 부모항 특정 패턴을 참조하여 종속항의 부모항을 특정(S21)하고, 특정된 부모항을 종속항과 관계 지어 저장(S22)하는 방식으로 부모항 정보를 생성한다.
이어, 본 발명에서 종속항을 처리하여 과제부와 솔루션부를 분할하는 방법에 대해서 설명한다.
본 발명에서는 종속항을 "부모항 특정부 + 과제부 + 솔루션부"로 파악한다. 부모항 특정부는 종속항에서 부모항을 결정하는데 사용되는 문자열을 말한다. 상기 "과제부 + 솔루션부"가 구성되는 방식은 크게 2가지가 있다. 하나는 "과제부 + 동사부 " 솔루션부"로 구성되는 방식이고, 다른 하나는 "솔루션부"만으로 구성되는 방식이다.
"과제부 + 동사부 " 솔루션부"로 구성되는 예를 6,714,859 특허의 제 9항과 제10항에서 설명한다. 제 9항에서는 상기 과제는 최초 동사인 is 앞까지에서 불용어 또는 불필요 어구인 wherein과 said을 제외한 "data manager"가 되고, 제 10항에서는 최초의 동사인 indicates 앞까지인 "travel data associated with said one vehicle"이 된다.
후자의 경우에는 미국 특허에서는 "further comprising + 솔루션부" 또는 "further + 동사ing + 솔루션부"로 구성되는 것이 일반적이며, 한국 특허나 일본 특허에서는 "솔루션부 + 더 포함하는" 등과 같은 전형적인 패턴이 사용되고 있다. 6,714,859 특허 제 17항은 "The system of claim 14, further comprising a mapping system configured to produce mapping data based on said travel data retrieved by said data manager, said mapping data defining a graphical map, said graphical map indicating said proximity of said one vehicle."인데, further comprising 다음에 나오는 문자열이 솔루션부가 된다.
"과제부 + 동사부 + 솔루션부"와 "further + 동사ing + 솔루션부"를 구별하는 것은 종속항 구성 패턴에 의한다. 본 발명의 종속항 분할부(4210)는 종속항에 대하여, 종속항의 문자열을 품사 분석을 수행하여, 품사열을 생성한다. 이때, 생성된 품사열을 기 설정된 종속항 구성 패턴과 대조하여, "과제부 + 동사부 + 솔루션부"와 "further + 동사ing + 솔루션부" 등과 같은 종속항을 분할한다.
상기 종속항 분할부(4210)는 종속항에 대하여 부모항 특정부를 먼저 분리해 내고, 이어지는 문자열에서 wherein, 관사, 등과 같은 불용어를 무시하고 최초로 나오는 어구가 "further + 동사 ing"이거나, 명사로 시작하지 않는 경우 등과 같이 기 설정된 솔루션부 구성 패턴에 해당하는 경우, 그 부분을 솔루션부로 분할한다. 상기 종속항 분할부(4210)는 최초로 나오는 어구가 "said 또는 정관사 + 명사구"로 시작하고, (현재분사형/과거분사형이 아닌)동사가 나오는 경우 등과 같이 기 설정된 과제부 구성 패턴이 나오는 경우, 상기 동사 앞까지를 과제부로 분할한다.
이어, 본 발명에서 핵심 키워드를 생성하는 방법에 대해서 설명한다. 도 6은 본 발명의 특허 정보 시스템(1000)의 핵심 키워드 생성 방법에 대한 일 실시예적 도면이다.
본 발명의 핵심 키워드 생성부(5000)의 키워드 추출부(5100)는 상기 과제부 및 상기 솔루션부 중 어느 하나 이상에서 적어도 하나 이상의 키워드를 포함하는 적어도 하나 이상의 키워드 집합을 추출한다. 즉, 본 발명의 키워드는 과제부에서 추출한 키워드와 솔루션부에서 추출한 키워드부가 있으며, 이들은 분리하여 추출되고, 분리하여 관리된다. 상기 키워드는 단순 키워드, 복합 키워드, 공기쌍(concurrent pair), 트리플(triple) 중 어느 하나 이상인 것이다. 문자열이 주어졌을 때, 키워드를 추출하는 것은 당업자에게는 용이한 것이므로, 이에 대한 상세한 설명은 생략한다.
이어, 상기 핵심 키워드 선정부(5200)가 추출된 키워드에 대해서 핵심 키워드를 선정하는 방법에 대해서 설명한다. 상기 핵심 키워드를 선정하는 방법은 크게 3가지이다. 하나씩 설명한다.
상기 핵심 키워드 선정부(5200)가 상기 키워드 중에서 핵심 키워드를 선정하는 방법은 상기 키워드 중에서 특허 청구 범위 전체, 상기 종속항이 포함된 특허 문서 전체 또는 상기 특허 문서가 포함된 기 설정된 문서 범위에서의 상기 키워드의 상대적 빈도 및 상기 키워드가 나타난 특허 문서 상의 필드 위치 중 어느 하나 이상이 반영되어 선별되는 방법이다. 이는 통상적인 TF(term frequency)와 DF(document frequency)를 이용하는 방법이다. TF는 특정한 키워드가 대상 범위(전체 종속항, 전체 청구항, 전체 과제부, 전체 솔루션부, 전체 특허 문서 등)에서 나타난 회수를 말한다. DF는 특정한 키워드가 대상 모집단 범위에서 나타난 회수를 말하며, 이러한 대상 모집단 범위는 상기 대상 범위보다 넓어야 한다. 예를 들어, 대상 범위가 전체 과제부라면, 대상 모집단 범위는 전체 청구항, 전체 과제부와 전체 솔루션부 또는 전체 특허 문서 또는 기 설정된 특허 모집단(예를 들면, 입수된 특허 문서의 main IPC 기준으로 subclass 또는 main USPC를 기준으로 한 class 전체 등)이 될 수 있다. 이때, TF가 높고 DF가 상대적으로 낮은 것이 핵심 키워드가 될 가능성이 더 높다. 한편, 상기 키워드가 추출되는 특허 문서 상의 위치가 고려될 수도 있을 것이다. 예를 들면, 발명의 명칭이나 요약에서 나온 키워드는 핵심 키워드가 될 가능성이 높으나, 발명의 설명에만 나오는 키워드는 핵심 키워드가 될 가능성이 상대적으로 낮을 수 있을 것이다.
상기 키워드 중에서 핵심 키워드를 선정하는 다른 방법은 상기 과제부에서 추출되는 키워드로 핵심 키워드를 선정하는 것이며, 상기 과제부에서 선정되는 핵심 키워드는 상기 핵심 키워드가 포함된 종속항의 적어도 하나 이상의 부모 청구항의 상기 솔루션부에서 적어도 1회 이상 나타난 것인 것을 추출하는 방법이다.
예를 들어, 6,714,859 특허의 제 10항의 과제부는 "travel data associated with said one vehicle" 인데, said와 같은 불용어를 제거하는 것과 같이 문자열을 가공하면, "travel data associated with one vehicle"이 되고, "travel data associated with said one vehicle" 또는 "travel data associated with one vehicle"은 제 10항의 부모항인 제 9항의 솔루션부에도 나타나며, 제 9항의 부모항인 독립항(독립항은 본질적으로 하나의 큰 솔루션부가 된다.)에도 이러한 문자열이 나타난다. 따라서, "travel data associated with said one vehicle" 또는 "travel data associated with one vehicle" 문자열은 핵심 키워드가 된다. 즉, 종속항의 종속항의 과제부에 나와 있는 키워드 중에서 종속항의 솔루션부에 나오는 키워드는 중요한 키워드가 되며, 종속항의 종속항의 솔루션부는 종속항의 솔루션부의 솔루션보다 더 깊이 있고, 세밀하며, 구체적인 솔루션이 된다. 즉, 종속항의 깊이(depth)가 깊은 곳에 있는 과제부의 핵심 키워드나 솔루선부의 핵심 키워드는 중요한 키워드가 될 가능성이 높다. 이는 통상적으로 독립항이나 깊이가 낮은 종속항에는 상대적으로 추상성이 높은 발명 사상이 배치되나, 깊이가 깊은 종속항에는 구체성이 높은 발명 사상이 배치되는 경향이 강하기 때문이다..
상기 키워드 중에서 핵심 키워드를 선정하는 세번째 방법은 상기 과제부에서 추출되는 키워드의 빈도로 핵심 키워드를 선정하는 것이다. 6,714,859 특허의 제 3항, 제4항에는 과제부에서 proximity가 2회가 중복되어 나오며, 이들 각각은 defined in time"과 "defined in distance"과 같은 솔루션부를 가진다. 따라서, 본 발명에서는 단일한 개념에 2개의 솔루션을 가지는 proximity는 중요한 핵심 키워드가 된다.
도 6에서 예시되는 바와 같이 상기 핵심 키워드 생성부(5000)는 상기 과제부 및 상기 솔루션부 중 어느 하나 이상에서 적어도 하나 이상의 키워드를 포함하는 적어도 하나 이상의 키워드 집합을 추출(S31)하고, 과제부 및 솔루션부 중 어느 하나 이상에서 적어도 하나 이상의 핵심 키워드 집합을 선정하고 선정된 핵심 키워드 집합을 종속항 키워드 DB에 저장(S33)한다.
본 발명에서 핵심 키워드를 선정하는 방법을 역으로 활용하면, 독립항에서의 중요 키워드가 무엇인지를 결정할 수 있게 된다. 즉, 독립항에 나온 키워드 중에서 종속항의 과제부에 1회 이상 나오거나, 중복해서 나오는 것은 중요 키워드로 추출될 수 있을 것이다. 이는 통상적으로 독립항에서 중요한 구성 요소를 종속항에서 구체화하는 방식으로 청구항들을 구성하기 때문에 더욱 더 그러하다.
도 7은 본 발명의 특허 정보 시스템(1000)의 공통 과제부와 공통 과제부에 맵핑되는 솔루션부를 연관 지어 시각적으로 표현하는 정보 처리 방법에 대한 일 실시예적 도면이다.
상기 특허 정보 시스템(1000)의 분석 대상 입수부(1410)는 (E1) 적어도 하나 이상의 개별 특허를 포함하는 상기 특허 집합을 입수(S41)한다. 상기 특허 정보 시스템(1000)의 분석 처리부(1420)는 (E2) 입수된 상기 특허 집합을 구성하는 상기 개별 특허 대하여 맵핑되어 저장된 상기 과제부와 상기 솔루션부를 입수(S21)하고, (E3) 입수된 과제부 중에서 공통되는 적어도 하나 이상의 공통 과제부를 추출(S31)하고, (E4) 상기 공통 과제부별로 상기 공통 과제부가 맵핑되는 적어도 2 이상의 상기 솔루션부를 추출(S44)한다.
이어, 본 발명의 분석 결과 리포팅부(1430)는 (E5) 상기 공통 과제부와 상기 공통 과제부에 맵핑되는 상기 솔루션부를 연관 지어 시각적으로 표현(S45)한다.
예를 들어 설명하면, 6,714,859 특허에서는 proximity가 공통 과제로 2회 나온다. 이렇게 되면 6,714,859 특허에 대하여 (proximity, defined in time), (proximity, defined in distance)라는 공통 과제부와 관련된 쌍(pair)이 2개 생성되게 된다. 적어도 하나 이상의 다른 특허에서 proximity와 관련된 쌍이 1개 이상이 있는 경우((proximity, AAA) 등과 같은), proximity는 적어도 3개 이상의 솔루션부("defined in time", "defined in distance", "AAA" 등)와 연관 관계를 맺게 되어, proximity는 이들 솔루션부들과 연결 관계가 기 설정된 형태의 선(점선, 실선 등)으로 연결될 수 있게 된다. (proximity, defined in time), (proximity, defined in distance), ((proximity, ABC) 등과 같은 데이터가 있을 때, 이러한 데이터를 분석하는 전형적인 기법이 연관성 분석(association analysis)이며, 연관성 분석 결과를 시각적으로 나타내는 것 중의 하나가 네트워크로 보여 주는 것이다. 이러한 것은 당업자에게는 용이한 것이므로, 상세한 설명은 생략한다.
한편, 상기 과제부 또는 상기 과제부에서 추출되는 핵심 키워드만을 대상으로 한 검색 서비스가 가능할 것이다. 이는 검색 엔진인 인덱싱할 때, 과제부 또는 과제부에서 추출되는 핵심 키워드를 DB 필드로 하여, 그 필드를 인덱싱하고, 그 필드를 검색 대상 필드화하는 처리를 수행하는 방식으로 검색 서비스가 가능하게 된다. 다른 한편으로는 상기 과제부 또는 상기 과제부에서 추출되는 핵심 키워드를 DB 필드로 처리하고, 그 필드를 대상으로 쿼리를 입수 받고, 쿼리에 대응되는 결과를 출력해 줄 수 있다. 이때, 검색 결과 또는 DB 쿼리 결과는 입력된 검색 키워드 또는 쿼리 키워드와 매칭되는 특허 문서 리스트가 될 수도 있지만, 하기 표 2와 같은 솔루션부가 될 수도 있을 것이다. 예를 들면, proximity라는 키워드를 과제부 필드에 입력한 경우, 검색/쿼리 결과는 다음과 같을 수 있다.
표 2
특허 번호 청구항 번호 솔루션부 청구항 구성 부모항
6,714,859 3 defined in time said proximity is defined in time. 1
6,714,859 4 defined in distance said proximity is defined in distance. 1
... ... ... ... ...
상기와 같은 과제부 또는 솔루션부의 핵심 키워드는 그대(일본 특허인 경우 또는 영어 특허라도 F-Term은 영어 타이틀 정보도 있으므로)로 또는 (한국어나 영어인 경우)번역을 통하여 F-term과 맵핑이 될 수 있을 것이다. F-term 체계를 구성하는 각 관점 중에는 목적이나 효과에 해당하는 다양한 F-term이 있으며, 이러한 F-term에 포함된 타이틀 정보에 포함된 키워드와 본 핵심 키워드(특히, 과제부의 핵심 키워드)가 맵핑될 수 있을 것이다. 한편, F-term 체계를 구성하는 각 관점 중에는 목적이나 효과가 아닌 다른 다양한 F-term이 있으며, 이러한 F-term에 포함된 타이틀 정보에 포함된 키워드와 본 핵심 키워드(특히, 솔루션부의 핵심 키워드)가 맵핑될 수 있을 것이다. 한편, 미국 특허를 예시로 들어 본 발명 사상을 설명하였지만, 본 발명 사상은 미국 특허뿐만 아니라, 한국, 일본, 유럽 특허 등에도 당연히 적용됨은 당업자에게 자명할 것이며, 본 발명의 명세서의 곳곳에도 이러한 취지를 기술해 놓았음을 분명히 한다.
본 발명은 특허 정보 산업에 활용될 수 있다.

Claims (12)

  1. (A) 적어도 하나 이상의 종속항 문자열을 입수하고, 입수된 종속항 문자열을 파싱하는 단계;
    (B) 상기 파싱된 문자열로 과제부와 솔루션부를 추출하는 단계; 및
    (C) 상기 과제부와 상기 솔루션부를 맵핑하여 저장하는 단계; 포함하는 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  2. 제 1항에 있어서,
    상기 (A) 단계에서의 종속항 문자열을 파싱하는 것은 기 설정된 적어도 하나 이상의 종속항 분할 패턴을 참조하여 수행되는 것인 것이며,
    상기 종속항 분할 패턴은 부모항 특정 패턴 및 종속항 구성 패턴 중 어느 하나 이상을 포함하는 것인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  3. 제 1항에 있어서,
    상기 (A) 단계 이후에,
    (A1) 상기 종속항의 부모항 정보를 생성하는 단계;를 더 포함하며,
    상기 (A1) 단계는
    (A11) 상기 종속항 문자열이 파싱된 다음, 기 설정된 적어도 하나 이상의 부모항 특정 패턴을 참조하여 상기 종속항의 부모항을 특정하는 단계; 및
    (A12) 상기 특정된 상기 부모항을 상기 종속항과 관계 지어 저장하는 단계;를 포함하는 것인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  4. 제 1항에 있어서,
    상기 (B) 단계에서,
    상기 파싱된 문자열로 과제부와 솔루션부를 추출하는 것은 상기 기 설정된 종속항 분할 패턴 정보를 참조하여 상기 종속항의 과제부와 솔루션부를 분할하는 것인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  5. 제 4항에 있어서,
    상기 종속항 분할 패턴은 적어도 하나 이상의 품사 배열 패턴 및 적어도 하나 이상의 구분 배열 패턴 중 어느 하나 이상인 것이며,
    상기 품사 배열 패턴 및 상기 구분 배열 패턴 중 어느 하나 이상에는 적용 우선 순위가 있는 것인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  6. 제 1항에 있어서,
    (D) 상기 과제부 및 상기 솔루션부 중 어느 하나 이상에서 적어도 하나 이상의 키워드를 포함하는 적어도 하나 이상의 키워드 집합을 추출하는 단계;를 더 포함하는 것이며,
    상기 키워드는 단순 키워드, 복합 키워드, 공기쌍, 트리플 중 어느 하나 이상인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  7. 제 1항에 있어서,
    (D1) 상기 과제부 및 상기 솔루션부 중 어느 하나 이상에서 적어도 하나 이상의 핵심 키워드 집합을 선정하고 저장하는 단계;를 더 포함하는 것인 것이며,
    상기 핵심 키워드는 단순 핵심 키워드, 복합 핵심 키워드, 핵심 공기쌍, 핵심 트리플 중 어느 하나 이상인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  8. 제 7항에 있어서,
    상기 키워드 중에서 핵심 키워드를 선정하는 방법은 상기 키워드 중에서 특허 청구 범위 전체, 상기 종속항이 포함된 특허 문서 전체 또는 상기 특허 문서가 포함된 기 설정된 문서 범위에서의 상기 키워드의 상대적 빈도 및 상기 키워드가 나타난 특허 문서 상의 필드 위치 중 어느 하나 이상이 반영되어 선별되는 제1 방법 및
    상기 키워드 중에서 핵심 키워드를 선정하는 방법은 상기 키워드 중에서 특허 청구 범위 전체, 상기 종속항이 포함된 특허 문서 전체 또는 상기 특허 문서가 포함된 기 설정된 문서 범위에서의 상기 키워드의 상대적 빈도만이 반영되어 선별되는 제2 방법 중 어느 하나인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  9. 제 7항에 있어서,
    상기 키워드 중에서 핵심 키워드를 선정하는 방법은 상기 과제부에서 추출되는 키워드로 핵심 키워드를 선정하는 것이며,
    상기 과제부에서 선정되는 핵심 키워드는 상기 핵심 키워드가 포함된 종속항의 적어도 하나 이상의 부모 청구항의 상기 솔루션부에서 적어도 1회 이상 나타난 것인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  10. 제 1항에 있어서,
    (E) 입수된 특허 집합 단위로 상기 과제부와 상기 솔루션부에 대한 연관 정보를 생성하는 단계;를 더 포함하며,
    상기 (E) 단계는
    (E1) 적어도 하나 이상의 개별 특허를 포함하는 상기 특허 집합을 입수하는 단계;
    (E2) 입수된 상기 특허 집합을 구성하는 상기 개별 특허 대하여 맵핑되어 저장된 상기 과제부와 상기 솔루션부를 입수하는 단계;
    (E3) 입수된 과제부 중에서 공통되는 적어도 하나 이상의 공통 과제부를 추출하는 단계;
    (E4) 상기 공통 과제부별로 상기 공통 과제부가 맵핑되는 적어도 2 이상의 상기 솔루션부를 추출하는 단계;및
    (E5) 상기 공통 과제부와 상기 공통 과제부에 맵핑되는 상기 솔루션부를 연관 지어 시각적으로 표현하는 단계;를 더 포함하는 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  11. 제 10항에 있어서,
    상기 공통 과제부와 상기 솔루션부 중 어느 하나 이상은 핵심 키워드인 것인 것을 특징으로 하는 특허 정보 시스템의 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법.
  12. 제 1항 내지 제11항 중 어느 한 항의 방법을 실시하는 것을 특징으로 하는 특허 정보 시스템.
PCT/KR2012/001184 2012-01-06 2012-02-16 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템 WO2013103174A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120001948A KR101527198B1 (ko) 2012-01-06 2012-01-06 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템
KR10-2012-0001948 2012-01-06

Publications (1)

Publication Number Publication Date
WO2013103174A1 true WO2013103174A1 (ko) 2013-07-11

Family

ID=48745227

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/001184 WO2013103174A1 (ko) 2012-01-06 2012-02-16 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템

Country Status (2)

Country Link
KR (1) KR101527198B1 (ko)
WO (1) WO2013103174A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460021A (zh) * 2018-03-16 2018-08-28 安徽大学 一种提取论文标题中的问题方法对的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198578A1 (en) * 2005-07-27 2007-08-23 Lundberg Steven W Patent mapping
KR20100088890A (ko) * 2009-02-02 2010-08-11 엘지전자 주식회사 문서 분석 시스템
KR20110020115A (ko) * 2009-08-21 2011-03-02 (주)윕스 청구항 시각화 장치 및 방법
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100645614B1 (ko) * 2005-07-15 2006-11-14 (주)첫눈 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치
KR20090008027A (ko) * 2007-07-16 2009-01-21 삼성전자주식회사 주식정보 제공방법 및 이를 적용한 방송 수신장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198578A1 (en) * 2005-07-27 2007-08-23 Lundberg Steven W Patent mapping
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
KR20100088890A (ko) * 2009-02-02 2010-08-11 엘지전자 주식회사 문서 분석 시스템
KR20110020115A (ko) * 2009-08-21 2011-03-02 (주)윕스 청구항 시각화 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460021A (zh) * 2018-03-16 2018-08-28 安徽大学 一种提取论文标题中的问题方法对的方法
CN108460021B (zh) * 2018-03-16 2021-10-12 安徽大学 一种提取论文标题中的问题方法对的方法

Also Published As

Publication number Publication date
KR101527198B1 (ko) 2015-06-09
KR20130081010A (ko) 2013-07-16

Similar Documents

Publication Publication Date Title
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
US20020111792A1 (en) Document storage, retrieval and search systems and methods
US7493252B1 (en) Method and system to analyze data
CN106934068A (zh) 机器人基于环境上下文的语义理解的方法
WO2016006837A1 (ko) 문장 분석을 이용하는 전화 번호 안내 시스템 및 전화 번호 안내 방법
CN101241506A (zh) 一种多维检索方法和装置以及系统
CN115757689A (zh) 一种信息查询系统、方法及设备
Litta et al. formation lexicon for Latin
JP5994490B2 (ja) データ検索プログラム、データベース装置および情報処理システム
US20040049495A1 (en) System and method for automatically generating general queries
WO2013103174A1 (ko) 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템
Calzada Pérez The representation of migration in parliamentary settings: critical cross-linguistics corpus-assisted discourse analyses
Chandrasekar et al. Gleaning information from the web: Using syntax to filter out irrelevant information
WO2015133774A1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
WO2013008979A1 (ko) 다중 온톨로지를 이용한 개체식별장치 및 방법
Ye et al. Converting service rules to semantic rules
US20230290341A1 (en) Utterance understanding support system, method, device and program
CN115310921A (zh) 自动生成电力防误操作逻辑公式的方法和装置
WO2018139778A1 (ko) 수치정보 검색이 가능한 수치정보 관리장치
Nevzorova et al. The Semantic Context Models of Mathematical Formulas in Scientific Papers.
KR102102344B1 (ko) 컨셉넷을 이용한 한국어 관계 분석 시스템 및 방법
Ye Identify the semantic meaning of service rules with natural language processing
WO2013157712A1 (ko) 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체
Mihalcea et al. Automatic Acquisition of Sense Tagged Corpora.
WO2012046905A1 (ko) 다중 자원의 통합에 의한 자원 검색 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12864459

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12864459

Country of ref document: EP

Kind code of ref document: A1