KR20210053539A - 특허 신규성 판단 시스템 및 방법 - Google Patents
특허 신규성 판단 시스템 및 방법 Download PDFInfo
- Publication number
- KR20210053539A KR20210053539A KR1020190139261A KR20190139261A KR20210053539A KR 20210053539 A KR20210053539 A KR 20210053539A KR 1020190139261 A KR1020190139261 A KR 1020190139261A KR 20190139261 A KR20190139261 A KR 20190139261A KR 20210053539 A KR20210053539 A KR 20210053539A
- Authority
- KR
- South Korea
- Prior art keywords
- similarity
- patent document
- novelty
- document
- independent
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000007781 pre-processing Methods 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000000691 measurement method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 자연어로 기술된 사용자의 구조화된 특허문서를 입력 받아 특허의 신규성을 판단하는 장치와 방법에 관한 것이다. 본 발명에 따르면, 먼저, 평가대상 특허가 입력되면 특허문서의 특징을 고려하여 전처리를 수행한다. 전처리 결과로 기등록된 특허문서들과 유사도를 측정하고, 측정된 유사도 점수와 딥러닝 등의 학습 알고리즘으로 신규성을 판단한다. 최종적으로, 신규성이 없다고 판단되면, 신규성에 위배되는 특허 목록과 신규성 확률값을 낮게 제시하고, 그렇지 않을 경우 가장 유사한 특허 목록과 신규성 확률값을 높게 제시한다. 사용자에게 결과를 통보한 뒤, 판단 결과 피드백을 통하여 신규성 판단 모델 성능 향상을 위해 신규성 판단 모델의 학습데이터로 사용된다.
Description
본 발명은 자연어 이해 기술, 문서 색인/검색 기술, 텍스트 유사도 추론 기술과 관련이 있다. 구체적으로 본 발명은 자연어로 기술된 사용자의 구조화된 특허문서를 입력 받아 특허의 신규성을 판단하는 장치와 방법에 관한 것이다.
발명은 신규성 또는 진보성을 가질 때 특허로서 인정받을 수 있다. 본 발명은 자연어로 기술된 사용자의 구조화된 특허문서를 입력 받아 특허의 신규성을 판단하는 장치와 관련된 발명이다. 본 발명과 관련해서 종래에도 다양한 방법들이 제안되어 왔으나, 기존의 기술보다 비용대비 높은 성능을 낼 수 있고, 사용자가 특허의 신규성을 판단하거나 작성할 때 도움을 주는 차별화된 방법을 제안한다. 본 발명은 자연어 이해 기술, 문서 색인/검색 기술, 텍스트 유사도 추론 기술과 관련이 있다.
자연어 이해 기술은 본 발명의 기반이 되는 기술로 문서를 색인/검색, 문장 유사도 추론을 하기 위해 사용되며, 어휘 레벨에서 문장 레벨까지 다각적으로 문장의 정보를 분석한다. 대표적인 기술로는 형태소 분석 기술, 개체명 인식 기술, 의존구문 분석 기술, 의미역 인식 기술 등이 있다.
문서 색인/검색 기술은 미리 중요 단어나 구 등을 추출해서 데이터베이스화 하고, 입력되는 질문에서 색인 단위와 동일한 정보를 추출하여 사용자의 요구에 맞는 정보를 제공하는 기술을 말한다.
텍스트 유사도 추론 기술은 두 텍스트 간의 표현된 어휘의 표층적/의미적인 특성을 고려하여 텍스트 간 유사도를 측정하는 기술이다. 본 발명에서는 평가대상 특허와 기등록된 특허의 유사도가 가까운 정도와 먼 정도를 측정하는 데 사용된다.
종래의 유사특허 검색 시스템은 작성된 특허로부터 주요 키워드를 추출하여, 기등록된 특허들을 검색하고, 사용자가 직접 분석하여 특허의 신규성 위배를 판단하였다. 사용자가 더욱 정교하게 유사특허를 검색하기 위해서는 입력된 특허로부터 주요 키워드를 추출하고, 유의어로 확장하여 검색식을 개량해가면서 검색을 수행하였다. 이러한 프로세스로도 기등록된 유사한 특허들을 찾을 수 있지만 전문가가 매번 검색 키워드를 수정하면서 유의어 리소스를 구축해야 할 필요가 있었으며, 비전문가는 이런 작업을 하기 어려웠다. 또한, 매년 생성되는 신기술 특허(신조어)에 대응하기에는 유의어 시소러스 구축에 많은 비용이 발생한다. 그리고, 종래의 유사특허 검색 시스템은 신규성 위배 여부와 관계없이 검색결과를 항상 출력하였고, 사용자가 검색은 하더라도 신규성을 판단하는 데 다각적인 분석과 근거가 필요하였다.
본 발명에서는 위와 같은 종래의 문제점을 해결하기 위해 사용자가 매번 추가해야 하는 유의어 시소러스 구축작업 없이 유사성을 측정하고, 신규성 판단 결과로 정량적 수치와 근거를 함께 제시하는 발명을 제안한다. 따라서 본 발명은 특허명세서로 작성된 발명이 신규성을 갖는지 판단하기 위하여, 평가대상 특허와 기등록된 특허들 간의 유사성을 측정하고 최종적으로 특허가 신규성을 가질 확률과 근거를 제시하는 시스템 및 방법을 제공함을 목적으로 한다.
상기 과제를 해결하기 위해 본 발명에 따르면, 먼저, 평가대상 특허가 입력되면 특허문서의 특징을 고려하여 전처리를 수행한다. 전처리 결과로 기등록된 특허문서들과 유사도를 측정하고, 측정된 유사도 점수와 딥러닝 등의 학습 알고리즘으로 신규성을 판단한다. 최종적으로, 신규성이 없다고 판단되면, 신규성에 위배되는 특허 목록과 신규성 확률값을 낮게 제시하고, 그렇지 않을 경우 가장 유사한 특허 목록과 신규성 확률값을 높게 제시한다. 사용자에게 결과를 통보한 뒤, 판단 결과 피드백을 통하여 신규성 판단 모델 성능 향상을 위해 신규성 판단 모델의 학습데이터로 사용된다.
본 발명에 따르면 특허문서 비교대상을 다양화하여, 특허문서 원문과 원문의 유사도 비교를 위한 전처리, 특허문서 원문과 청구항(또는 청구항그룹) 간의 유사도 비교를 위한 전처리, 청구항(또는 청구항그룹) 간의 유사도 비교를 위한 전처리를 수행할 수 있다.
또한, 본 발명에 따르면 특허간의 유사성을 측정하기 위해 재현율을 고려한 벡터공간상의 텀 매칭을 통해 유사성과 차별성을 판단할 수 있고, 정확률을 고려한 동일 어휘 텀 매칭으로 유사성을 측정할 수 있다. 또한, 문맥정보를 고려한 매칭으로 유사성을 측정할 수 있다. 이들 측정 방법은 적어도 하나 이상 혼합하여 적용가능하다.
또한, 사용자가 사용하면서 피드백을 통하여 신규성 판단 모델의 성능을 향상시킬 수 있다.
그리고, 키워드 확장 및 유사성 비교를 위해 추가적인 시소러스 구축없이 유사성 측정이 가능하다.
또한, 입력된 평가대상 특허가 얼마나 신규성을 가지는지 정량적인 수치를 제시할 수 있고, 신규성에 위배가 된다면 그 근거도 같이 제시할 수 있다.
이상에서 소개한 본 발명의 구성 및 작용은 이후에 도면과 함께 설명하는 구체적인 실시예를 통하여 더욱 명확해질 것이다.
1) 시스템 활용의 범용성: 종래에 개발되었던 유사특허 검색 시스템은 어떤 특허가 입력되더라도 유사한 특허로 검색결과를 항상 출력하였다. 사용자가 전문가라 할지라도 검색된 특허를 추가적으로 분석해야 신규성 위배 정도를 판단할 수 있었다. 비전문가는 이런 판단 자체가 어려운 상황이다. 그러나 본 발명에서는 사용자가 입력한 특허에 대해서 기등록된 특허들과 유사성과 차별성을 측정하여 최종적으로 판단을 대신하며, 근거까지 제시하기 때문에 활용성이 높다고 판단된다. 즉, 입력특허와 유사한 문서를 찾아주는 역할뿐 아니라, 신규성을 가지는 특허 여부와, 확률, 근거를 제시할 수 있다.
2) 리소스 구축 비용의 절감: 기존의 유사 특허검색 시스템은 검색 성능 향상을 위해 입력된 특허 내 키워들을 확장하여 검색을 수행하였다. 키워드를 확장하기 위해서는 전문적인 지식이 있는 사용자가 구축해야 한다. 그리고, 매년 생성되는 신기술, 신조어를 반영할 수 있어야 한다. 그러나 본 발명은 신조어 구축과 유의어 구축없이 유사성과 차별성을 측정하기 때문에 리소스 구축 비용 측면에서 종래의 발명의 문제점을 극복할 수 있다.
도 1: 본 발명에 따른 특허 신규성 판단 시스템(또는 방법)의 전체 구성도
도 2: 특허문서와 그에 포함된 메타정보의 예제
도 3: 문서 단위 전처리의 예제
도 4: 독립항(독립항그룹) 단위 전처리의 예제
도 5: 구조(field)가 있는 문서의 유사도 측정 방법의 예제
도 6: LSTM 알고리즘에 기반한 AutoEncoder 알고리즘의 예제
도 7: 신규성 판단 알고리즘의 예제
도 8: 본 발명에 따른 특허 신규성 판단의 결과 출력의 예제
도 2: 특허문서와 그에 포함된 메타정보의 예제
도 3: 문서 단위 전처리의 예제
도 4: 독립항(독립항그룹) 단위 전처리의 예제
도 5: 구조(field)가 있는 문서의 유사도 측정 방법의 예제
도 6: LSTM 알고리즘에 기반한 AutoEncoder 알고리즘의 예제
도 7: 신규성 판단 알고리즘의 예제
도 8: 본 발명에 따른 특허 신규성 판단의 결과 출력의 예제
본 발명의 이점 및 특징, 그리고 이들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 기술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용된 '포함한다(comprise)' 또는 '포함하는(comprising)'은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 상세히 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 한 실시예에 따른 특허 신규성 판단 방법/시스템의 구성도이다. 본 특허 신규성 판단 방법/시스템은 크게 세 가지 단계/장치로 구성되어 있다. 첫째는 사용자로부터 자연어 텍스트로 기술된 특허문서(평가대상 특허)를 입력 받아 이 문서를 구조화된 정보(구조정보)로 전처리하는 특허문서 전처리 단계/장치(100)이다. 둘째는 입력된 평가대상특허와 기등록된 특허간의 유사도 비교를 위한 자질(feature)을 추출하여 이들 특허 쌍의 구조정보 간의 유사도를 비교하는 특허문서 유사도 측정 단계/장치(200)이다. 셋째는 상기 측정된 유사도를 기반으로 딥러닝 등의 학습 알고리즘을 사용하여 신규성을 판단하는 신규성 판단 단계/장치(300)이다.
먼저, 특허문서 전처리(100)의 세부 내용을 설명한다.
특허문서는 도 2의 특허문서 및 메타정보 예제와 같이 구조화된 문서로 되어 있으며 다양한 메타정보를 포함하고 있다. 특허문서에 담긴 주요 구조정보로는 제목, 청구항, 요약, 배경기술 등이다. 종래의 기술에 따르면, 특허문서 간 유사도를 측정할 때 각 특허문서의 동일한 구조정보 쌍을 비교대상 범위로 지정하여 특허간 유사도를 측정하였다. 그러나, 본 발명에서는 특허문서에 포함된 구조정보 이외에도 다양한 관점에서의 비교를 할 수 있도록 특허문서를 전처리한다.
특허문서의 전처리(100) 단계/장치에서는 크게 세 가지 비교 대상을 고려하여 전처리를 수행한다. 본 발명에서 고려하는 문서 비교 대상은 첫째는 특허의 원래 문서(원문) 간의 유사도 비교(문서단위 비교)이고, 둘째는 특허 원문의 주요 구조정보들 중에서 독립항(또는 독립항그룹)을 기준으로 생성한 독립항(또는 독립항그룹) 문서 간의 비교이다. 셋째는 원문과 독립항(또는 독립항그룹) 문서간의 유사도 비교이다. 특허는 독립항 하나가 발명의 대표구성을 나타내기 때문에 문서 간의 비교뿐만 아니라, 독립항(또는 독립항그룹) 간의 비교 및 원문과 독립항(또는 독립항그룹) 간의 비교가 필요한 것이다. 이러한 비교대상을 고려하여 전처리) 단계/장치(100)에서는 문서단위 전처리(110), 독립항 단위 전처리(120), 독립항그룹 단위 전처리(130)를 수행한다.
도 3a,b,c는 문서단위의 비교를 위하여 특허문서 원문을 전처리(110)하는 것의 예시도이다. 특허문서에는 여러 구조정보가 포함되어 있으며, 특허 유사도 비교에 사용할 대상 영역을 사용자가 설정하여 필요한 부분만 추출해 원본 문서를 가공할 수 있다. 도 3a의 예제는 특허문서(Patent Description) 원본을 나타내고, 도 3b는 특허문서에 포함된 주요 메타정보인 발명명칭(Invention Title), 배경기술(Background Art), 해결과제(Technical Problem), 과제해결수단(Technical Solution), 효과(Advantageous Effects), 청구항(Claim), 요약서(Abstract)를 나타낸다. 도 3c는 발명명칭, 요약, 청구항, 과제해결수단을 주요 메타정보로 설정하여 문서 단위로 전처리한 결과의 예제를 나타낸다.
도 4a,b는 특허문서에서 독립항을 기준으로 하는 문서를 생성하는 전처리(120) 및 독립항그룹을 기준으로 하는 문서를 생성하는 전처리(130)의 결과 예시도이다. 기본적으로 이 전처리는, 특허문서 내 주요 정보들을 포함하면서 청구항 특성을 고려한 전처리 방법이다.
특허문서에는 여러 개의 청구항이 있고, 청구항들은 독립항과 종속항으로 나뉜다. 특허를 문서 단위로 전처리(110)할 때는 청구항을 구분없이 하나의 비교 단위로 고려하지만, 독립항그룹을 기준으로 전처리(130)할 때는 청구항을 독립항과 종속항으로 구분짓고, 종속항은 어떤 독립항에 종속되는지 판단하여 해당 독립항에 포함시켜서, 하나의 청구항으로 고려한다. 이와 달리 독립항을 기준으로 전처리(120)를 할 때는 종속항은 제외하고 독립항만 고려하여 전처리를 수행한다.
도 4a의 예제와 같이 8개의 청구항을 가지고 있을 때 독립항 1, 7에 종속되는 청구항들을 해당 독립항에 결합하여 1~6 청구항들이 하나의 청구항이라 가정하고, 마찬가지로 7~10의 청구항들을 하나의 청구항이라 가정한다. 그리고, 청구항을 추출한 원본 특허문서로부터 발명명칭, 요약, 배경기술 등의 구조정보를 추출하여 하나의 문서 단위로 생성한다. 최종적으로 도 4b의 예제와 같이 도 4a의 원본 특허문서에서 독립항그룹 단위의 문서 2개를 생성할 수 있다.
이와 같이 본 발명에 따르면 특허간 유사성 측정을 위해 위와 같은 과정을 통해 전처리를 한다. 전처리 결과 문서의 구조가 동일하다 보니, 원문과 원문, 독립항(또는 독립항그룹) 단위 문서간의 비교, 독립항(또는 독립항그룹) 단위 문서와 원문 간의 유사도 비교가 가능하다.
다시 도 1로 돌아가, 특허문서 유사도 측정 단계/장치(200)의 역할과 세부 내용을 설명한다.
특허문서 유사도 측정 단계/장치(200)에서는 특허문서 전처리(100)의 결과물인 평가대상 특허문서와 기등록된 특허문서들이 입력되면 텍스트 자질과 구조적 자질을 추출하여 유사도 측정을 수행한다. 본 유사도 측정 단계/장치(200)를 설명하기 전에 먼저, 도 5를 참조하여 구조(예를 들어, 필드(field))가 있는 문서의 유사도 측정 방법에 대해서 예를 들어 소개한다. 입력된 문서가 여러 개의 필드를 가지고 있는 경우에, 비교 대상으로서 각 문서의 동일한 필드끼리 유사도 측정을 각각 수행한다. 따라서 필드유사도의 출력 개수는 문서가 가지는 필드의 개수만큼이 된다. 도 5의 예제는 문서A와 문서B가 각각 3개의 필드를 가지고 있다고 가정한 것으로, 문서A, B가 가지는 필드 1, 2, 3간에 각각 유사도 측정을 한다. 즉, 문서A의 field1과 문서B의 field1간의 유사도 측정을 하고, 문서A의 field2와 문서B의 field2의 유사도 측정을 하고, 문서A의 field3과 문서B의 field3의 유사도 측정을 한다.
본 특허문서 유사도 측정 단계/장치(200)에서는 유사도 측정을 위해서 1) 어휘의 유사순위 재현율을 고려한 유사도 자질을 추출하여 유사도를 측정하는 방법(210), 2) 어휘의 유사순위 정확률을 고려한 유사도 자질을 추출하여 유사도를 측정하는 방법(220), 3) 문맥정보를 고려한 유사도 자질을 추출하여 유사도를 측정하는 방법(230)의 세 가지 방식 중 적어도 하나를 수행한다. 이하, 각 방법에 대해서 상세 설명한다.
1) 유사순위 재현율을 고려한 측정방법(210)
특허 작성자는 기등록된 특허들을 회피하기 위해 또는 작성자의 선호 어휘 차이 등으로 인해 동일한 의미의 어휘를 다양하게 표현할 수 있다. 예를 들어 '가속도'라는 단어 사용시 '증속도', '속도변화율', '액셀레이션', '속도증가율'과 같이 다양한 표현이 사용 가능하다. 기존의 유사도 측정 방법은 두 텍스트 내의 단어 간 매칭시 불일치되는 단어들을 고려하여 유의어 사전과 같은, 사용자가 수작업으로 구축해온 시소러스를 기반으로 두 텍스트를 매칭하여 유사 정도를 판단하였다. 이러한 방법의 사용으로 어휘 불일치를 극복할 수 있으나, 이는 전문적인 지식을 가진 일부의 사용자만 활용할 수 있고, 특허 섹션의 종류와 생성되는 신규 특허에 따라 꾸준히 시소러스를 업데이트해야 하는 비용이 발생한다.
본 발명에서는 종래 방법의 문제점을 감안하여 단어의 직접적인 매칭이 아니라 벡터 공간상에 특허 어휘를 표현하여 유사한 정도를 측정하고, 어휘가 변형되어도 유사 또는 거리가 먼 정도를 정량적으로 표현하는 방법을 제안한다. 이러한 유사도 측정을 위해서 첫번째로, 단어들을 벡터로 변환하는 작업이 필요하다. 유사도를 비교할 텍스트의 문장 내 단어들을 워드 임베딩 결과에 기반하여 특정 벡터로 변환한다. 예를 들어, '가속도'라는 단어는 <0.0142, 0.2324, -0.2424, …>와 같은 특정 벡터값으로 변환하여 사용한다. 이와 같이 단어를 벡터로 표현하는 것은 word2vec, Glove, BERT 등의 알고리즘을 사용하여 사전에 미리 구축하여 이용할 수 있다. 그리고 평가대상 특허 A와 기등록된 특허 B의 유사도를 측정한다. 사용된 유사도 측정 수식은 아래 (1)~(4)와 같다.
수식 (2)에서 dual_matching의 점수는 positive_match와 negative_match의 합으로 산정을 하며, 람다로 가중치 비율을 적용할 수 있다.
수식 (3)에서 positive_match의 점수는 특허문서 A, B에서 의미가 가까운 단어들을 얼마나 사용하였는지 측정하기 위함이다. 와 B문서 내 모든 단어들의 유사도를 계산하여, 유사도 점수가 높은 단어 K개를 추출하여 positive_match점수를 측정한다. K는 사용자 정의 파라미터이고, 단어들의 유사도는 단어 벡터들의 코사인 유사도로 측정한다.
수식 (4)에서 negative_match의 점수는 이와 반대로 특허문서 A, B에서 의미가 먼 단어들을 얼마나 사용하였는지를 측정하기 위함이고, 유사도가 낮은 단어 K개를 추출하여 negative_match 점수를 측정한다. 특허의 신규성을 판단할 때 negative_match점수가 높을수록 신규성을 가질 확률이 크다.
2) 유사순위 정확률을 고려한 측정 방법(220)
두 문서간의 유사도를 측정함에 있어 재현율을 고려한 측정도 중요하나, 기본적으로 일치하는 단어들의 비율이 얼마나 되는지 판단하는 것도 주요한 자질 중의 하나이다. 본 발명에서는 유사순위 정확률을 고려한 유사도 측정 방법으로 검색에서 사용하는 스코어링 알고리즘을 사용한다.
아래의 수식 (5)는 Okapi BM25알고리즘으로, 문서Q, D의 유사도 점수를 계산하기 위한 것이다.
는 문서 Q 내의 키워드를 나타내는데, 본 발명에서는 형태소 분석을 수행하여, 품사를 기반으로 특허문서에서 주요하게 사용되는 기능어 중심으로 활용한다. 형태소 분석 결과로 명사류, 동사류, 형용사, 부사, 영어 등의 품사가 태깅될 수 있으나, 특허 도메인에서 주요 대상인 명사류와 영어로 분석된 품사를 사용한다. 동사류나 형용사류는 변형이 다양하고, 특허의 특징을 찾아내기가 어렵고, 그 이외의 품사는 기능어 역할을 하지 못하기 때문에 제외한다. 형태소 분석을 통한 기능어 중심으로 키워드를 추출한 예를 아래에 나타낸다.
그리고 수식 (5)에서 k1과 b는 사용자 정의 파라미터이다.
3) 문맥정보를 고려한 유사도 측정 방법(230)
두 문자열 간의 유사도를 측정함에 있어서 어휘를 기반으로 재현율/정확률을 고려한 유사도 측정하는 것도 유용하나, 이들은 'Bag of Word' 방식으로 비교하는 형태라 어휘의 순서를 고려하는 것이 부족하다. 본 문맥정보를 고려한 유사도 측정방법에서는 어휘, 어휘의 패러프레이즈 형태, 어휘의 순서를 고려하여 유사도를 측정하기 위해 도 6과 같은 LSTM(Long Short Term Memory)을 기반으로 한 AutoEncoder 알고리즘을 활용한다. AutoEncoder 알고리즘은 입력 단계에서 사용한 문자열이 출력 단계에서도 동일한 문자열을 출력하기 위해 LSTM Cell을 학습한다. Encoder 단계에서 최종적으로 출력되는 문맥정보 벡터(Dense Vector)는 입력한 문자열의 축약된 정보를 저장하고 있는데, 해당 벡터 정보를 기반으로 두 텍스트간의 유사성을 측정할 수 있다.
기등록된 특허들의 필드별로 텍스트를 추출하여 AutoEncoder를 학습하면, 입력한 특허와 비교대상 특허를 Encoder 단계만 사용하여 문맥정보 벡터를 생성할 수 있고, 두 벡터간의 코사인 유사도를 통해 유사성을 측정할 수 있다.
특허문서 유사도 측정 장치(200)에서는 이상과 같이 세 가지 방법 중 적어도 하나를 적용하기 위해 해당 방법에 필요한 유사도 자질을 추출하여 특허의 유사도를 측정한다.
다음, 다시 도 1로 돌아가, 신규성 판단 단계/장치(300)의 역할과 세부 내용을 설명한다.
이 신규성 판단 단계/장치(300)는 특허문서 유사도 측정 단계/장치(200)의 결과물인 각 필드들의 유사도 값을 기반으로 최종적으로 기등록된 특허와 얼마나 차별성을 가지는지 판단한다. 판단의 결과는 [0~1]의 값으로 출력되며, 특정 점수 이상일 때 신규성이 있다고 판단하고, 그렇지 않을 경우에 신규성이 없다고 판단한다. 또한, 사용자에게 어떤 이유 때문에 기등록된 특허들에 비해 차별성을 갖지 못했는지 근거를 제시한다.
신규성 판단 단계/장치(300)가 신규성을 판단하기 위해서는 기존 신규성에 위배된 특허와, 신규성이 있다고 판단된 특허 예제가 학습데이터로 필요하다. 이미 심사를 받은 특허 중 출원이나 등록되지 않은 특허들을 신규성 판단 모델을 학습하기 위한 데이터로 사용될 수 있다. 또한 기 출원된 특허들이 신규성을 가진다고 가정하고 이들을 학습데이터로 활용할 수 있다. 데이터가 구축되고 나면, 유사도 측정 단계/장치(200)를 이용하여 필드별 유사도 자질을 추출한다. 아래 표는 필드 A, B, C가 있다고 가정하고 유사도 자질을 추출한 예를 나타낸다. 표에서 적합성 여부(1/0)의 레이블이 0인 것은 특허 등록이 거절된 문서와 이미 등록된 특허 간의 필드별 유사도 자질을 추출한 결과이다. 적합성 여부가 1인 것은 신규성을 가지는 특허의 유사도 자질 추출의 결과이다. 이 경우 모든 콜렉션(기등록된 특허 전체)과 비교하여 자질을 추출하기보다는 IPC분류 체계를 통하여, 동일한 섹션, 그룹 내의 기등록된 특허들과 비교하여 유사도 자질을 추출하는 것이 바람직하다. 유사도 측정의 대상 특허문서의 형태와 내용에 따라 필드-N개로 확장하여 사용할 수 있다.
위의 표와 같이 유사도 자질을 추출한 뒤, 딥러닝 등의 학습 알고리즘을 이용하여 신규성 판단 모델(330)을 학습시킨다. 이때에 Logistic Regression, RNN(Recurrent Neural Network), CNN(Convolutional Neural Network), MLP(Multi Layer Perceptron) 등과 같은 딥러닝에 기반한 분류 알고리즘을 사용하여 신규성을 판단할 수 있다.
도 7은 Bi-LSTM(Bidirectional Long Short Term Memory) 알고리즘과 MLP를 이용한 신규성 판단 알고리즘의 예시도이다. 학습시 신규성 판단 결과는 적합성 여부 1또는 0을 예측하기 위해 파라미터들이 학습되고, 수행시(예측시)에는 신규성 정도를 [0~1] 범위로 출력한다.
학습된 모델을 사용하여 신규성이 있다고 판단되는 특허의 출력값 [0~1]과, 기등록된 특허로 판단되는 출력값 [0~1]을 기반으로 향후 신규로 입력되는 평가대상 특허의 신규성을 판단할 수 있다. 예를 들어, 신규성이 인정되는 Threshold가 0.5 이상이라 가정하고, 기등록된 특허들과 비교하였을 때 가장 높은 출력값을 갖는 특허와의 비교에서 0.15가 나왔다면 이 대상문서는 Threshold를 넘기지 못하였기 때문에 신규성에 위배되며 신규성을 갖는 정도가 15%라 말할 수 있다.
신규성이 없다고 판단되면 출력 점수와 함께 사용자에게 유사도 측정 단계/장치(200)에서 추출된 자질들을 기반으로 근거를 제시한다. 유사순위 재현율/정확률을 고려할 때 사용된 단어들을 매핑하여 사용자에게 신규성 확률과 함께 제시한다.
또한, 사용자는 판단 결과를 직접 보고나서 결과 피드백을 할 수 있다(320). 즉, 신규성 판단 수행(310)의 결과, 신규성에 위배가 되었거나 판단 결과의 수정이 필요할 때 기존 모델(330)에 학습데이터를 추가하여 재학습하는 데 사용하도록 할 수 있다. 재학습을 할 때는 신규성 판단 모델(330)을 학습하였던 단계와 동일하게 유사도 자질을 추출하고, 적합성 여부 레이블 부착을 통해 기존 데이터에서 추가하여 재학습 가능하다. 결과 피드백(320) 단계를 통해 발명의 신규성 판단 모델(330)의 성능은 피드백을 수행할수록 높은 성능을 나타내기 때문에 본 발명의 신규성 판단 시스템이 더욱 견고해질 수 있다.
도 8은 특허 신규성 판단(300)의 출력 정보의 예시도이다. 평가대상 특허가 등록된 특허에 대해 갖는 신규성 확률(15%)과 정확률 고려 매칭 포인트와 재현율 고려 매칭 포인트를 사용자에게 알려주는 예를 들고 있다.
본 발명은 장치 측면 또는 방법적 측면으로 실시가능한데, 특히 본 발명의 각 구성요소의 기능(function) 또는 과정(process)은 DSP(digital signal processor), 프로세서, 컨트롤러, ASIC(application-specific IC), 프로그래머블 로직소자(FPGA 등), 기타 전자소자 중의 적어도 하나 그리고 이들의 조합이 포함되는 하드웨어 요소로써 구현 가능하다. 또한 하드웨어 요소와 결합되어 또는 독립적으로 소프트웨어로써도 구현 가능한데, 이 소프트웨어는 기록매체에 저장가능하다.
이상, 본 발명의 바람직한 실시예를 통하여 본 발명의 구성을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술한 특허청구범위에 의하여 정해지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 기술적 범위에 포함되는 것으로 해석되어야 한다.
Claims (18)
- 사용자로부터 자연어 텍스트로 기술된 평가대상 특허문서를 입력 받아 이를 구조화된 정보(이하, 구조정보)를 기준으로 전처리하는 특허문서 전처리 장치;
입력된 평가대상 특허문서와 기등록된 특허문서간의 유사도 비교를 위한 자질(feature)을 추출하여 이들 특허 쌍의 구조정보 간의 유사도를 측정하는 특허문서 유사도 측정 장치; 및
상기 측정된 유사도를 기반으로 학습 알고리즘을 사용하여 신규성을 판단하는 신규성 판단 장치를 포함하는 특허 신규성 판단 시스템. - 제1항에 있어서, 상기 특허문서 전처리 장치는
특허문서의 원문에 포함된 구조정보를 메타정보로 설정하여 문서를 생성하는 문서 단위 전처리부를 포함하는 특허 신규성 판단 시스템. - 제1항에 있어서, 상기 특허문서 전처리 장치는
특허문서에 포함된 독립항을 추출하고 종속항을 제외한 문서를 생성하는 독립항 단위 전처리부를 포함하는 특허 신규성 판단 시스템. - 제1항에 있어서, 상기 특허문서 전처리 장치는
특허문서에 포함된 두 개 이상의 독립항을 추출하고 각 독립항에 종속된 종속항을 해당 모독립항에 포함시켜서 독립항 개수에 상응하는 수의 문서를 생성하는 독립항그룹 단위 전처리부를 포함하는 특허 신규성 판단 시스템. - 제1항에 있어서, 상기 특허문서 유사도 측정 장치는
상기 특허문서 전처리 장치에서 전처리된 평가대상 특허문서와 기등록된 특허문서들의 비교를 위하여, 벡터 공간상에 어휘를 표현하여 어휘의 유사도를 정량적으로 표현하는 어휘의 유사순위 재현율을 고려한 유사도 자질을 추출하여 유사도를 측정하는 것을 특징으로 하는 특허 신규성 판단 시스템. - 제1항에 있어서, 상기 특허문서 유사도 측정 장치는
상기 특허문서 전처리 장치에서 전처리된 평가대상 특허문서와 기등록된 특허문서들의 비교를 위하여, 어휘의 유사순위 정확률을 고려한 유사도 자질을 추출하고, 일치하는 단어들의 비율이 얼마나 되는지 판단하여 유사도를 측정하는 것을 특징으로 하는 특허 신규성 판단 시스템. - 제1항에 있어서, 상기 특허문서 유사도 측정 장치는
상기 특허문서 전처리 장치에서 전처리된 평가대상 특허문서와 기등록된 특허문서들의 비교를 위하여, 문맥정보를 고려한 유사도 자질을 추출하여 유사도를 측정하는 것을 특징으로 하는 특허 신규성 판단 시스템. - 제1항에 있어서, 상기 신규성 판단 장치는
상기 특허문서 유사도 측정 장치에서 출력된 유사도 값을 기반으로 평가대상 특허가 기등록된 특허와 얼마나 차별성을 가지는지 판단하기 위하여, 과거에 신규성에 위배된 특허문서와 신규성이 있다고 판단된 특허문서를 학습데이터로 사용하여 학습된 신규성 판단 모델을 사용하는 신규성 판단 수행부를 포함하는 특허 신규성 판단 시스템. - 제8항에 있어서, 상기 신규성 판단 장치는
상기 신규성 판단 수행부의 신규성 판단 결과에 따라 상기 신규성 판단 모델의 학습데이터를 추가하여 재학습시키는 판단결과 피드백부를 추가로 포함하는 특허 신규성 판단 시스템. - 사용자로부터 자연어 텍스트로 기술된 평가대상 특허문서를 입력 받아 이를 구조화된 정보(이하, 구조정보)를 기준으로 전처리하는 특허문서 전처리 단계;
입력된 평가대상 특허문서와 기등록된 특허문서간의 유사도 비교를 위한 자질(feature)을 추출하여 이들 특허 쌍의 구조정보 간의 유사도를 측정하는 특허문서 유사도 측정 단계; 및
상기 측정된 유사도를 기반으로 학습 알고리즘을 사용하여 신규성을 판단하는 신규성 판단 단계를 포함하는 특허 신규성 판단 방법. - 제10항에 있어서, 상기 특허문서 전처리 단계는
특허문서의 원문에 포함된 구조정보를 메타정보로 설정하여 문서를 생성하는 문서 단위 전처리 단계를 포함하는 특허 신규성 판단 방법. - 제10항에 있어서, 상기 특허문서 전처리 단계는
특허문서에 포함된 독립항을 추출하고 종속항을 제외한 문서를 생성하는 독립항 단위 전처리 단계를 포함하는 특허 신규성 판단 방법. - 제10항에 있어서, 상기 특허문서 전처리 단계는
특허문서에 포함된 두 개 이상의 독립항을 추출하고 각 독립항에 종속된 종속항을 해당 모독립항에 포함시켜서 독립항 개수에 상응하는 수의 문서를 생성하는 독립항그룹 단위 전처리 단계를 포함하는 특허 신규성 판단 방법. - 제10항에 있어서, 상기 특허문서 유사도 측정 단계는
상기 특허문서 전처리 단계에서 전처리된 평가대상 특허문서와 기등록된 특허문서들의 비교를 위하여, 벡터 공간상에 어휘를 표현하여 어휘의 유사도를 정량적으로 표현하는 어휘의 유사순위 재현율을 고려한 유사도 자질을 추출하여 유사도를 측정하는 것을 특징으로 하는 특허 신규성 판단 방법. - 제10항에 있어서, 상기 특허문서 유사도 측정 단계는
상기 특허문서 전처리 단계에서 전처리된 평가대상 특허문서와 기등록된 특허문서들의 비교를 위하여, 어휘의 유사순위 정확률을 고려한 유사도 자질을 추출하고, 일치하는 단어들의 비율이 얼마나 되는지 판단하여 유사도를 측정하는 것을 특징으로 하는 특허 신규성 판단 방법. - 제10항에 있어서, 상기 특허문서 유사도 측정 단계는
상기 특허문서 전처리 단계에서 전처리된 평가대상 특허문서와 기등록된 특허문서들의 비교를 위하여, 문맥정보를 고려한 유사도 자질을 추출하여 유사도를 측정하는 것을 특징으로 하는 특허 신규성 판단 방법. - 제10항에 있어서, 상기 신규성 판단 단계는
상기 특허문서 유사도 측정 단계에서 출력된 유사도 값을 기반으로 평가대상 특허가 기등록된 특허와 얼마나 차별성을 가지는지 판단하기 위하여, 과거에 신규성에 위배된 특허문서와 신규성이 있다고 판단된 특허문서를 학습데이터로 사용하여 학습된 신규성 판단 모델을 사용하는 신규성 판단 수행 단계를 포함하는 특허 신규성 판단 방법. - 제17항에 있어서, 상기 신규성 판단 단계는
상기 신규성 판단 수행부의 신규성 판단 결과에 따라 상기 신규성 판단 모델의 학습데이터를 추가하여 재학습시키는 판단결과 피드백 단계를 추가로 포함하는 특허 신규성 판단 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190139261A KR20210053539A (ko) | 2019-11-04 | 2019-11-04 | 특허 신규성 판단 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190139261A KR20210053539A (ko) | 2019-11-04 | 2019-11-04 | 특허 신규성 판단 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210053539A true KR20210053539A (ko) | 2021-05-12 |
Family
ID=75918978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190139261A KR20210053539A (ko) | 2019-11-04 | 2019-11-04 | 특허 신규성 판단 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210053539A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230143533A (ko) * | 2022-04-05 | 2023-10-12 | 주식회사 타날리시스 | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 |
WO2023195769A1 (ko) * | 2022-04-05 | 2023-10-12 | 주식회사 타날리시스 | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 |
-
2019
- 2019-11-04 KR KR1020190139261A patent/KR20210053539A/ko active Search and Examination
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230143533A (ko) * | 2022-04-05 | 2023-10-12 | 주식회사 타날리시스 | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 |
WO2023195769A1 (ko) * | 2022-04-05 | 2023-10-12 | 주식회사 타날리시스 | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
US8738635B2 (en) | Detection of junk in search result ranking | |
KR20190133931A (ko) | 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN113343706B (zh) | 基于多模态特征和语义规则的文本抑郁倾向检测系统 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
US11288265B2 (en) | Method and apparatus for building a paraphrasing model for question-answering | |
CN111191464A (zh) | 基于组合距离的语义相似度计算方法 | |
KR20240073376A (ko) | 문서 검색 방법 및 문서 검색 장치 | |
US20230237084A1 (en) | Method and apparatus for question-answering using a database consist of query vectors | |
CN114997288A (zh) | 一种设计资源关联方法 | |
KR20210053539A (ko) | 특허 신규성 판단 시스템 및 방법 | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
CN114757184A (zh) | 实现航空领域知识问答的方法和系统 | |
US11822887B2 (en) | Robust name matching with regularized embeddings | |
KR20220037059A (ko) | 질의 벡터에 대한 다중 유사도 판단을 이용한 검색 방법 및 검색 장치 | |
Mekala et al. | A survey on authorship attribution approaches | |
CN114117069B (zh) | 一种用于知识图谱智能问答的语义理解方法及系统 | |
CN113590738A (zh) | 一种基于内容与情感的网络敏感信息的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |