KR102161666B1 - LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법 - Google Patents

LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법 Download PDF

Info

Publication number
KR102161666B1
KR102161666B1 KR1020200048608A KR20200048608A KR102161666B1 KR 102161666 B1 KR102161666 B1 KR 102161666B1 KR 1020200048608 A KR1020200048608 A KR 1020200048608A KR 20200048608 A KR20200048608 A KR 20200048608A KR 102161666 B1 KR102161666 B1 KR 102161666B1
Authority
KR
South Korea
Prior art keywords
model
patent document
documents
classification
document
Prior art date
Application number
KR1020200048608A
Other languages
English (en)
Inventor
김건우
최근호
이앞길
Original Assignee
한밭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단 filed Critical 한밭대학교 산학협력단
Priority to KR1020200048608A priority Critical patent/KR102161666B1/ko
Application granted granted Critical
Publication of KR102161666B1 publication Critical patent/KR102161666B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • G06K9/6267

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 유사 특허 문서 추천 방법은, 유사 특허 문서 추천 시스템을 이용한 특허 문서 추천 방법에 있어서, 상기 시스템은 분석할 특허 문서를 수집하고, 복수의 유사 특허 문서 분류 모델을 이용하여 분류하는 단계; 분류 결과를 이용하여 특허 문서의 분류 적합 기준에 따라 복수의 분류 모델 중 사용할 모델을 선택하는 단계; 선택된 모델을 이용하여 문서 유사도를 분석하는 단계; 분석된 유사 특허 문서를 추천하는 단계;를 포함할 수 있다.

Description

LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법{Similar patent document recommendation system and method using LDA topic modeling and Word2vec}
본 발명은 유사 특허 문서 추천 시스템 및 방법에 관한 것으로 더욱 상세하게는 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법에 관한 것이다.
문서의 유사성을 비교하기 위해선 문서의 비정형 텍스트 데이터를 전처리하고 벡터화하는 절차가 필요한데 이를 위해 벡터공간모델을 사용한다. 즉 벡터란 방향성과 같은 길이(크기)를 가진 객체를 말하는데, 정보검색에서 벡터공간모델은 개별 용어와 그 용어들의 집합이라 볼 수 있는 검색 내용과 문서색인을 벡터공간에 표현 할 수 있다는 가설을 기반으로 한다.
벡터공간 모델은 자연어처리(NLP)에서 주로 사용되는 방법으로, 같은 컨텍스트(Context)에 있는 단어는 같은 의미(Semantic meaning)를 공유한다고 가정한다. 이런 가정은 언어학에서 분포가설(Distributional Hypothesis)이라 하며, 이런 가정을 통해 벡터 공간 모델에서 문서(Document)는 벡터로 임베딩(embedding) 되어 표현되고, 개별차원(dimension)은 각각 단어(term)에 대응된다. 도 4에 표시한 벡터공간에서 두 벡터 간 Cosine 각도를 이용해 유사도를 계산한다.
단어 임베딩(Word Embedding) 이란 텍스트를 구성하는 하나의 단어를 수치화 하는 방법의 일종으로 어떻게 하면 컴퓨터가 텍스트를 이해할 수 있을까라는 물음에서 시작되었다. 언어를 수치적인 방식으로 표현하는 One-hot encoding으로는 단어와 단어 간의 관계를 알 수 없고 0, 1로 모든 단어를 표현하기에는 너무 많은 차원의 벡터가 생성되는 문제를 해결하고자 발전된 word Embedding은 설정한 k개의 차원으로 대상을 대응시켜 표현하며 이 대응을 임베딩(Embedding)이라 한다. 하나의 정보가 여러 차원에 분산되어 표현되며 하나의 차원은 여러 속성들에 버무려진 정보를 내포한다.
이는 앞서 설명한 분포가설로 one hot encoding의 단점을 개선하기 위한 방법으로 적은 차원으로 대상을 일반화하는 능력으로 발전해 왔다.
One hot encoding 의 단점을 개선한 NNLM은 word embedding의 방법으로 뇌를 모사한 신경망 알고리즘(Perceptrons)을 언어학에 발전시킨 것으로, 신경 세포의 입력을 받고 출력을 내보내는 함수와 같은 형태를 적용시킨 방법이다. Perceptrons의 특징은 입력값이 들어왔을 때 입력값을 바로 출력하지 않고 가중치(Weight)를 곱하여 내보낸다. 이 과정을 앞먹임(feed-forward)이라고 하고 이렇게 가중치를 곱한 입력 값의 결과를 출력하는데, 이를 실제 목표 출력치와 비교하여 다음 입력 때는 출력치가 목표치에 근접할 수 있도록 가중치를 조절하는 과정을 거친다.
이 과정을 역전파(back-propagate)라고 하며 이 앞먹임과 역전파 과정을 많은 데이터를 입력하면서 번갈아가며 진행하다 보면 가중치가 데이터에 일반적(general)으로 적용되게 되는데, 이를 학습(learning)이라 한다.
하지만 perceptrons의 학습은 훈련 데이터가 선형 분리 문제여야 하고 작은 학습률의 단점이 있다. 단층 신경망의 단점을 보완하기 위해 다층 신경망이 발전하였고 이 과정을 언어에 적용하여 발전한 것이 NNLM이다.
언어 모형(language model)이란, 단어가 문서에서 출현하는 과정을 확률 프로세스로 보고, 특정 위치에 특정 단어가 출연할 확률이 얼마나 되는지를 계산하기 위한 것이다. 이 후, 이 NNLM 방법이 RNNLM이라는 방법으로 발전하여 현재 Word embedding의 대표적 방법인 Word2vec으로 발전하게 되었다.
한편, 최근 들어 정보기술을 이용한 다양한 분야의 기술들이 자체적으로 서로 융합되어 새로운 형태의 제품과 기술들이 개발되고 있으며, 이와 더불어 그것들에 대한 지식 재산권의 일환으로 특허등록의 중요성이 높아지고 있어 국내는 물론 해외에서도 특허출원이 증가하고 있다.
일반적으로 특허 출원 심사를 위해 기존 특허 문서를 탐색하는 절차는 출원서의 발명의 명칭(Title), 요약(Abstract), 청구항(Claims) 등의 내용을 검토하고 권리범위를 구성하는 핵심 키워드를 파악한 뒤 이와 유사한 의미로 사용되는 확장 키워드를 파악하기 위해 기존 특허 문서 검색을 반복적으로 수행한다.
또한 심사 대상 특허가 다수의 해외 우선권을 주장하는 특허의 경우에는 해외 각 나라의 심사정보나 같은 우선권을 주장하는 특허들을 참고하기 위해 패밀리조사를 하는데 그 패밀리 특허 문서의 수가 무수히 많을 경우도 존재한다.
또한 패밀리 특허 간에는 다수의 기술이 복합적으로 있는 경우 검색 대상 특허와 상이한 기술의 특허도 포함되는 경우가 있어 하나하나 비교 검토하기에는 어려움이 있다.
이에 따라 해외 우선권 특허 출원 심사에 대해 심사관뿐만 아니라 특허 출원인의 경우도 선행기술조사에 많은 어려움을 겪고 있다.
따라서, 해외 우선권 특허출원 심사 시 검색 대상 특허의 패밀리특허 간 유사도를 계산하여 유사도가 높은 특허 문서를 추천하는 시스템 방안이 필요한 실정이다.
한국공개특허 제10-2016-0098084호(2016년08월18일 공개)
본 발명의 목적은 특허 문서의 패밀리특허 문서로 발명의 범위를 한정하고 해당 검색대상 특허와 패밀리특허 문서 간의 유사도를 계산하기 위해 Text Mining 기법을 활용하기 위해 특허 문서의 명칭, 초록, 청구항 각 부분의 비정형데이터를 수집하여 전처리한 후 LDA(Latent Dirichlet Allocation) 토픽 모델링 또는 Word2vec 알고리즘을 적용하거나 통합 알고리즘으로 적용하는 유사 특허 문서 추천 시스템 및 방법을 제공한다.
본 발명의 일 실시예에 따른 유사 특허 문서 추천 방법은, 유사 특허 문서 추천 시스템을 이용한 특허 문서 추천 방법에 있어서, 상기 시스템은 분석할 특허 문서를 수집하고, 복수의 유사 특허 문서 분류 모델을 이용하여 분류하는 단계; 분류 결과를 이용하여 특허 문서의 분류 적합 기준에 따라 복수의 분류 모델 중 사용할 모델을 선택하는 단계; 선택된 모델을 이용하여 문서 유사도를 분석하는 단계; 분석된 유사 특허 문서를 추천하는 단계;를 포함할 수 있다.
상기에 있어서, 상기 분류 적합 기준은 관련있는 모든 문서를 잘 찾아내는가를 의미하는 재현율(recall)과 모델이 찾은 문서 중 관련된 문서가 얼마나 있는가를 의미하는 정밀도(precision)를 기준으로 하는 것을 특징으로 한다.
상기에 있어서, 상기 문서 유사도를 분석하는 단계는 가중치에 따라 문서 유사도를 분석하는 단계;를 더 포함한다.
상기에 있어서, 상기 가중치는 상기 특허 문서의 명칭(Invention), 초록(Abstract), 청구항(Claims) 비율에 따라 차등 적용되는 것을 특징으로 한다.
상기에 있어서, 상기 선택된 모델은 Word2vec 모델, LDA 모델 또는 Word2vec과 LDA을 통합한 모델 중 어느 하나인 것을 특징으로 한다.
상기에 있어서, 사용할 모델을 선택하는 단계에서, 모델 선택 시 파라미터 값을 선택하며, 상기 파라미터는 상기 특허 문서의 문장 내에서 현재 단어와 예측 단어 사이의 최대 거리를 나타내며, 모델 학습 시 주변단어의 개수를 몇 개까지 고려할지를 의미하는 파라미터를 포함한다.
본 발명의 일 실시예에 따른 유사 특허 문서 추천 시스템은, 분석할 특허 문서를 수집하고, 복수의 유사 특허 문서 분류 모델을 이용하여 분류하는 데이터처리부; 분류 결과를 이용하여 특허 문서의 분류 적합 기준에 따라 복수의 분류 모델 중 사용할 모델을 선택하는 모델선택부; 선택된 모델을 이용하여 문서 유사도를 분석하고, 분석된 유사 특허 문서를 추천하는 유사분석부;를 포함한다.
상기에 있어서, 상기 유사분석부에서 가중치에 따라 문서 유사도를 분석하기 위한 가중치를 제공하는 가중치산출부;를 더 포함한다.
상기에 있어서, 상기 가중치는 상기 특허 문서의 명칭(Invention), 초록(Abstract), 청구항(Claims) 비율에 따라 차등 적용되는 것을 특징으로 한다.
상기에 있어서, 상기 분류 적합 기준은 관련있는 모든 문서를 잘 찾아내는가를 의미하는 재현율(recall)과 모델이 찾은 문서 중 관련된 문서가 얼마나 있는가를 의미하는 정밀도(precision)를 기준으로 하는 것을 특징으로 한다.
상기에 있어서, 상기 선택된 모델은 Word2vec 모델, LDA 모델 또는 Word2vec과 LDA을 통합한 모델 중 어느 하나인 것을 특징으로 한다.
본 발명의 유사 특허 문서 추천 시스템은 특허 문서간 유사도 비교에 가장 효과적인 방법을 도출해내며, 최종적으로 유사 특허 문서를 추천하는 모델을 제공할 수 있는 장점이 있다.
또한, 유사하다고 판단된 특허 문서에 대한 심사 이력을 신속하게 제공하여, 패밀리 특허조사를 필요로 하는 심사관의 업무 부담감을 줄여 심사의 품질을 향상시키고, 출원인으로 하여금 효율적인 특허검색이 가능하게 도와주는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 유사 특허 문서 추천 시스템의 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 유사 특허 문서 추천 방법의 순서도이다.
도 3은 패밀리 특허 형성 예시를 보여주는 도면이다.
도 4는 벡터공간에 이상적인 문서 공간(document space)을 설명하기 위한 도면이다.
도 5는 Word2vec의 CBOW 알고리즘 및 Skip-gram 알고리즘을 설명하기 위한 도면이다.
도 6은 LDA 알고리즘을 설명하기 위한 도면이다.
도 7은 토픽 모델의 데이터셋의 구성을 예시적으로 나타낸 도면이다.
도 8은 1단계 분류 실험(학습)의 횟수와 F-1 점수(score) 상관관계를 나타낸 그래프이다.
도 9는 1단계 분류 실험의 결과를 나타낸 도면이다.
도 10은 단어 벡터의 차원에 따라 파라미터를 설명하기 위한 도면이다.
도 11은 최적 Parameter 선택 실험 결과를 나타낸 도면이다.
도 12는 3단계 학습 데이터 실험 비율 예시를 나타낸 도면이다.
도 13은 적용 모델 실험 결과를 나타낸 도면이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 유사 특허 문서 추천 시스템(100)의 구성을 설명하기 위한 블록도이다.
본 발명의 유사 특허 문서 추천 시스템(100)은 도 1에 도시된 바와 같이, 데이터처리부(110), 모델선택부(120), 유사분석부(130), 가중치산출부(140)를 포함한다.
데이터처리부(110)는 분석할 특허 문서를 수집하고, 복수의 유사 특허 문서 분류 모델을 이용하여 분류할 수 있다.
모델선택부(120)는 분류 결과를 이용하여 특허 문서의 분류 적합 기준에 따라 복수의 분류 모델 중 사용할 모델을 선택한다.
유사분석부(130)는 선택된 모델을 이용하여 문서 유사도를 분석하고, 분석된 유사 특허 문서를 추천할 수 있다.
특히 가중치산출부(140)로부터 산출된 가중치를 제공받아 문서 유사도를 분석할 수 있다.
가중치산출부(140)는 가중치에 따라 문서 유사도를 분석하도록 가중치를 제공한다.
가중치는 특허 문서의 명칭(Invention), 초록(Abstract), 청구항(Claims) 비율에 따라 차등 적용될 수 있다.
즉, 가중치산출부(140)는 명칭(Invention), 초록(Abstract), 청구항(Claims)의 차등 비율로 가중치를 산출하여 유사분석부(130)에 제공함으로써, 유사분석부(130)에서 가중치에 따라 문서 유사도를 분석할 수 있다.
텍스트 분석의 어려움을 해결하기 위해 본 발명에서는 문서의 특성에 맞는 효과적인 모델을 찾기 위해 3단계로 구성된 과정을 수행할 수 있다.
첫 번째 단계는 Word embedding의 대표적인 방법인 Word2vec과 토픽 모델링의 대표적인 방법인 LDA 그리고 Word2vec과 LDA을 통합한 방법들 중 우수한 방법을 도출하는 단계이다.
두 번째 단계는 도출된 방법의 최적 파라미터(Parameter) 값을 찾는 단계이다.
세 번째 단계는 앞선 단계의 방법을 적용하여 유사도 계산 시 특허 문서의 명칭, 초록, 청구항별 최적 가중치를 찾고 최종적으로 생성된 모델을 사용하여 패밀리 특허 문서의 유사문서를 추천하는 단계이다.
이하에서는 먼저 첫 번째 단계와 두 번째 단계의 LDA 그리고 Word2vec 방법 및 최적 파라미터 도출에 대해서 구체적으로 설명하고, 세 번째인 모델을 생성하여 유사문서를 추천하는 단계에 대해서 상세히 설명하기로 한다.
하나의 특허출원은 여러 개의 우선권 주장을 할 수 있으며, 또한 하나의 특허출원은 하나의 우선권 주장을 기초 출원으로 여러 개의 우선권 주장 출원으로 확장될 수 있다. 이런 특질로부터 패밀리 특허는 발생된다.
도 3에서 볼 수 있는 바와 같이, 우선권 주장의 최우선 출원인 P1, P2, P3가 있을 경우, 이 출원의 집합들에서 파악되는 패밀리특허의 개수는 일반적으로 3개로 파악된다. P1은 U1, J1, E1들과 함께 하나의 패밀리를 형성하고, P2는 U1, U2, J2, E1, E2들과 하나의 패밀리를 형성한다.
마지막으로 P3는 U2, E3, J3들과 패밀리를 구성하고 있다. 그러나 OECD는 이러한 일반적인 개념보다도 패밀리의 개념을 더욱 넓히고 있다. P2와 P1은 E1과 U1을 매개체로 하여 직간접적으로 연결되어 있다.
하나의 특허 출원 문서의 패밀리특허 수가 2개에서 많게는 수천 개의 특허 문서 그룹이 될 수도 있다. 본 발명에서는 이들 간에 유사성을 비교해 우선 참고할 수 있는 유사 특허 문서 추천 시스템(100)을 제공할 수 있다.
Word2vec 알고리즘 모델은 단어의 위치와 의미를 내포하는 벡터의 형태로 Word embedding하는 가장 대표적인 모델로서, 벡터공간모델과 동일한 가정을 기반으로 한다. 즉, Word2vec은 단층 신경망을 이용한 신경망 언어모델(Neural language model)로, 각각의 단어를 벡터로 표현하는데 도 5와 같이, 그 과정에서 특정 단어 주변에 오는 단어들의 집합을 이용해 특정 단어를 추측하는 CBOW 모델과 특정 단어 주변에 올 수 있는 단어를 유추하는 Skip-gram 모델을 이용해, 각각의 문맥에서 유추할 수 있는 w(단어)의 각각의 확률을 최대화하는 방법으로 학습한다.
따라서 유사한 단어들은 유사한 벡터의 위치를 가지게 되고 유사도가 높아지게 된다. 각각의 단어 벡터공간의 위치는 각 단어의 관계를 나타내고 있기 때문에 단어의 상관관계는 벡터의 거리로 표현할 수 있다.
본 발명에서 사용하는 gensim 패키지의 Word2vec은 Skip-gram과 CBOW의 알고리즘을 선택할 수 있고 세 번째 단계의 모델 생성 단계에서 그 파라미터 선택을 진행한다.
텍스트 마이닝 분석에서 토픽 모델링으로 가장 많이 활용되고 있는 LDA(Latent Dirichlet Allocation)는 기존의 LSA(Latent Semantic Analysis)(Deerwesteret al., 1990)와 PLSA(Probabilistic Latent Semantic Analysis)(Hofmann, 2013) 등의 약점을 보안한 방법으로 문서 내에 잠재되어 있는 주제(Topic)들을 추론 하는 생성확률모델(Generative probabilistic model)이다.
LDA는 도 6과 같이 특정 문서가 문서 내 여러 주제 중 각 주제에 속할 확률분포와 특정 단어가 각 주제에 속할 확률분포를 깁스 샘플링(Gibbs Sampling)을 활용해 구하고, 새로운 문서에 포함된 단어를 통해 해당 문서의 주제를 추론하는 모델이다.
이미 관찰된 변수(observed variable)를 통해 각각의 확률을 계산하여 토픽을 생성하는 사후 추론하는 방법이다.
도 6을 참조하여 상세하게 설명하면, D는 말뭉치 전체 문서 개수, K는 전체 토픽 수(하이퍼 파라메터), N은 d번째 문서의 단어 수를 의미한다.
임의로 지정된 하이퍼 파라미터 α,β를 제외한 모든 잠재 변수를 추정해야 한다. 여기서 깁스 샘플링(Gibbs Sampling) 과정을 통해 z(해당 주제에 대한 단어의 확률), θ(문서 레벨의 변수; 문서 하나에 대한 주제어 분포를 나타냄)를 찾는다.
특허 문서의 유사도를 측정하기 위해, 분석 대상의 특허 문서와 비교 대상의 특허 문서들의 θ 값을 Cosine 각을 이용하여 계산된 유사도로 비교한다.
나아가 본 발명에서는 해외 특허 문서를 대상으로 모델을 구현함으로써, 해외특허 문서가 갖고 있는 시대적, 민족적, 언어적, 문화적 상황 및 각 분야에 따른 동음이의어, 이음 동의어 특징을 반영해 각 도메인에 적합한 word embedding 값을 학습하는 모델을 구현하여 유사특허 문서를 탐색하는 점에서 특징이 있다.
이제 전술한 세 번째 단계인 모델 생성을 위해 먼저 데이터를 수집하는 과정에 대해서 설명한다.
본 발명에서 분석을 위해 사용한 데이터는 국내 특허청에서 제공하는 국제특허심사정보 사이트의 패밀리 특허출원문서이다. 이는 유럽특허청 DOCDB를 근거로 하고 있어 DOCDB 자료를 검색할 수 있는 유럽특허청 EPO(European Patent Office)에서 제공하는 패밀리 특허출원문서를 대상으로 할 수 있다.
또한 모델 테스트를 수행할 언어는 국제특허에서 표준으로 하는 영어를 사용할 수 있으며, 모델의 유사특허 문서 분류 성능 테스트를 위해 비 유사 문서로 식별 가능하도록 검색 대상을 정보통신 분야, 의학 분야, 제조업 분야의 특허출원 문서 382건의 명칭, 초록, 청구항 부분을 수집하여 이루어진다.
본 발명에서 제안한 문서 분류 방법이 유사한 문서들 속에 비 유사 문서들이 포함되어 있을 경우 이 비 유사 문서들을 얼마나 잘 식별하는지 살펴보기 위해 다음과 같이 실험 및 알고리즘 학습을 진행하였다.
우선, 정보통신, 의학, 제조업 분야에서 수집한 각 특허 문서의 패밀리특허 문서 수는 1~50개로 다양하게 이루어져 있었는데, 비 유사 문서의 판별력 평가를 위해 특정분야의 특허 문서를 다른 분야의 특허 문서와 25%, 50%, 75%, 100%의 비율로 섞어서 dataset을 구성한 결과 도 7과 같이 109개의 dataset이 생성되었다.
각각의 dataset에서 1번째 특허와 유사하지 않은 문서를 분류하는 실험을 109개의 dataset에 대해 분류의 적합성을 재현율(recall)과 정밀도(precision)라는 척도로 측정하였으며, 매 학습 시 word embedding 값이 도 8과 같이 변할 수 있고 이것이 결과에 영향을 미칠 수 있기 때문에 결과의 신뢰도를 높이고자 동일한 조건에서 총 10회씩 반복하여 그 평균값이 높은 방법을 채택하였다.
데이터 전처리 과정은 수집된 텍스트 데이터를 수치형 자료로 표현하기 위해 가장 기본적인 단위인 '토큰(token)'으로 분리하는 '토큰화(tokenization)' 작업을 수행하였으며, 문서 집단에서 고빈도 출현 단어들이 존재하고 대부분의 텍스트 마이닝 기법들은 이러한 단어의 출현 빈도에 기반을 둔다.
이것은 지프의 법칙(Zipf's law)이 적용되는데 지프의 법칙에 따르면 어떠한 자연어 말뭉치 사용 빈도는 해당 단어의 순위에 반비례한다. 또한 가장 사용 빈도가 높은 단어는 다음 단어보다 약 두 배 빈도가 높으며, 그 다음 단어보다는 빈도가 세 배 높으며 지프에 법칙에 따르면 미국 표준 영어 말뭉치의 경우, 가장 빈도가 높은 단어는 정관사 'the'이며 문서의 7%의 빈도를 차지한다고 한다. 특허 문서의 Claims 같은 경우는 반복적으로 Claims이라는 단어를 표기하게 되고 이에 단어 영향을 줄 수 있다.
특허 문서의 분석 결과 노이즈를 최소화하기 위해 불필요한 조사, 공통적으로 등장하는 명사, 기호들을 모아 불용어 집합을 만들어 제거하였다. 마지막으로 형태소 분석(Stemming)을 통해 어형이 변형된 단어로부터 접사를 제거하고 그 단어의 어간을 분리하는 작업을 수행하였다.
이후 모델 선택을 위해 분류 실험(학습)을 수행한다.
LDA, Word2vec 알고리즘과 LDA와 Word2vec을 통합하여 함께 사용한 방법을 각각 109개의 dataset에 10회씩 반복하여 분류 모델을 활용한 분류 실험(학습)을 진행하였다.
Word2vec은 n차원의 vector에 각 단어를 표현하는 학습을 진행하여야 하는데, 패밀리 특허 문서는 동일한 우선권을 주장하는 그룹이기 때문에, 해당 분야에서 유사하게 사용하는 단어와 표현을 학습할 수 있는 데이터가 보장이 되며, LDA 또한 gibbs sampling을 통해 n차원의 vector에 각 단어와 문서에 대한 주제 분포를 학습할 수 있다.
본 발명에서는 실험에 대한 적합성(Relevance)의 기준으로 관련있는 모든 문서를 잘 찾아내는가를 의미하는 재현율(Recall)과 모델이 찾은 문서 중 관련된 문서가 얼마나 있는가를 의미하는 정밀도(Precision), 그리고 두 지표를 조화 평균하여 종합적으로 반영한 F-1 Score를 사용하였다.
도 8 및 도 9는 1단계 분류 실험의 결과를 보여준다.
1단계의 실험결과를 살펴보면, Word2vec을 사용한 모델이 10회에 걸친 실험에서 모두 95% 이상의 높은 Precision, Recall, F-1 Score 값을 보인 반면, LDA를 사용한 모델은 Recall 값이 77% 수준으로 상대적으로 낮게 나타났으며, LDA & Word2vec를 복합적으로 사용한 모델은 Precision, Recall, F1-Score 값이 93% 수준으로 비교적 높게 나타났으나, Word2vec의 분류 정확도가 더 높고, 일관된 결과를 보여주어 상기 결과를 반영하여 본 발명에서는 예시적으로 Word2vec을 유사 특허를 찾기 위한 알고리즘으로 선택하였다.
물론, 문서 대상 및 분석 결과에 따라 유사 특허를 찾기 위한 알고리즘으로 LDA를 사용한 모델이나 복합적으로 사용한 모델이 선택될 수도 있다.
2단계의 최적 파라미터 선택 단계에서는 앞서 설명한 바와 같이, 여러 알고리즘이 포함되는데, 실험도구로 사용한 gensim.word2vec은 여러 파라미터를 선택할 수 있고 그 선택에 따라 결과가 달라질 수 있기 때문에, 최적의 파라미터 선택 과정이 필요하다.
1단계에서 사용한 dataset을 이용하여 동일한 조건에서 실험한 결과 대표적으로 영향을 많이 주는 파라미터는 도 10과 같다.
큰 차이를 보인 Window는 문장 내에서 현재 단어와 예측 단어 사이의 최대 거리를 나타내며, 학습 시 주변단어의 개수를 몇 개까지 고려할지를 의미하는 파라미터로서, 2~10개로 수치를 변경하여 실험한 결과 Window 사이즈가 커지면 Recall 수치는 높아지나 F-1 Score는 Window size가 2일 때 더 좋은 성능을 보여 Window size는 2로 선택하였고, Word2vec의 알고리즘 중 Skip-gram이 평균 95%의 높은 성능을 보여 Skip-gram을 다음 단계의 실험에서 사용하였다.
3단계인 학습 데이터 선택 단계에서는 특허 문서의 각 부분은 다른 특성을 가지고 있고 그에 따른 중요도가 다를 수 있기 때문에, 명칭, 초록, 청구항의 비율을 항목별 10%씩 변화시켜 각각 0%~100%로 적용하여 도 12와 같이 66가지 경우의 수에 대해 모두 실험을 진행하였다.
실험한 결과는 작은 차이를 보였지만 명칭(Invention) 20%, 초록(Abstract) 30%, 청구항(Claims) 50% 비율이 가장 좋은 결과를 보이는 것으로 나타났다.
이제 실험 결과를 이용하여 생성한 모델을 적용하기 위해 광범위한 특허 분야 중 ICT(Information and Communications Technologies) 정보통신 분야의 패밀리건수가 10~100인 100건의 출원으로 선정하여 100건의 특허 문서 dataset을 구성하여 10회의 실험을 진행하였다. 명칭, 초록, 청구항을 구분하지 않는 2단계 적용 모델과 3단계 적용 모델의 성능을 비교한 결과는 도 13과 같다.
모델을 생성할 시에는 전혀 다른 분야의 문서를 대상으로 하였고, 모델을 적용할 시에는 같은 분야의 문서를 비교하였기 때문에, 모델 생성 시 측정한 성능 보다는 전체적으로 낮은 결과를 보였지만 같은 분야의 특허 문서를 비교 하였을 경우에도 전체적으로 90% 정도의 높은 성능을 보였다.
특히, 본 발명의 모델은 심사를 판단하는 것이 아니라 유사도가 높은 문서를 추천해주는 모델이기 때문에, 모든 문서를 찾아내는 재현율이 중요한데, 본 발명에서 제안하는 3단계 모델은 재현율이 95%로 2단계 모델의 92%보다 높은 결과를 보였다.
본 발명은 특허의 출원 및 심사 활동에 도움을 주고자 검색 특허의 패밀리특허 문서를 수집 및 전처리한 후 Word2vec 알고리즘을 활용하여 가장 유사한 특허 문서를 추천하는 모델을 제안하였다.
제안한 모델을 실제로 구현하였으며, 실험을 통해 모델의 성능을 평가하였다. 실험결과 약 95%의 높은 분류 정확도를 보이는 것으로 나타났다.
본 발명은 동일한 우선권을 주장하는 해외 패밀리 특허 문서를 대상으로 해당 분야에서 유사하게 사용하는 단어와 표현을 학습하였고 Word2vec과 LDA의 각 장점을 극대화하려는 실험을 통해 더 좋은 결과를 얻었다는 점, 그리고 모든 문서 비교를 같은 방법론으로 적용하는 것이 아니라 각 특성에 맞게 적용하고 명칭, 초록, 청구항의 중요도에 따라 비율을 차등 적용하여 모델의 성능을 더욱 높일 수 있는 효과가 있다.
도 2는 본 발명의 일 실시예에 따른 유사 특허 문서 추천 방법의 순서도이다.
먼저, 유사 특허 문서 추천 시스템(100)은 분석할 특허 문서를 수집하고, 복수의 유사 특허 문서 분류 모델을 이용하여 분류한다(S300).
다음, 분류 결과를 이용하여 특허 문서의 분류 적합 기준에 따라 복수의 분류 모델 중 사용할 모델을 선택한다(S302).
분류 적합 기준은 관련있는 모든 문서를 잘 찾아내는가를 의미하는 재현율(recall)과 모델이 찾은 문서 중 관련된 문서가 얼마나 있는가를 의미하는 정밀도(precision)를 기준으로 이루어진다.
또한, 선택되는 모델은 Word2vec 모델, LDA 모델 또는 Word2vec과 LDA을 통합한 모델 중 어느 하나가 된다.
나아가 모델 선택 시 파라미터 값을 선택하며, 파라미터는 특허 문서의 문장 내에서 현재 단어와 예측 단어 사이의 최대 거리를 나타내며, 모델 학습 시 주변단어의 개수를 몇 개까지 고려할지를 의미하는 파라미터가 될 수 있으며, 이외에도 모델에 따라 다른 파라미터값을 조정할 수 있다.
선택된 모델을 이용하여 문서 유사도를 분석하며, 이때 가중치에 따라 문서 유사도를 분석할 수 있다(S304).
즉, 특허 문서의 명칭(Invention), 초록(Abstract), 청구항(Claims) 비율에 따라 차등 적용되는 가중치를 이용하여 유사한 특허 문서 분류 효율을 향상시킬 수 있다.
유사도 분석 작업이 완료되면 시스템(100)은 대상 특허 문서와 유사한 유사 특허 문서를 추천할 수 있다(S306).
100 ; 유사 특허 문서 추천 시스템
110 ; 데이터처리부
120 ; 모델선택부
130 ; 유사분석부
140 ; 가중치산출부

Claims (11)

  1. 유사 특허 문서 추천 시스템을 이용한 특허 문서 추천 방법에 있어서,
    상기 시스템은 분석할 특허 문서를 수집하고, 복수의 유사 특허 문서 분류 모델을 이용하여 분류하는 단계;
    분류 결과를 이용하여 특허 문서의 분류 적합 기준에 따라 복수의 분류 모델 중 사용할 모델을 선택하는 단계;
    선택된 모델을 이용하여 문서 유사도를 분석하는 단계;
    분석된 유사 특허 문서를 추천하는 단계;를 포함하되,
    상기 문서 유사도를 분석하는 단계는
    가중치에 따라 문서 유사도를 분석하는 단계;
    를 더 포함하며,
    상기 사용할 모델을 선택하는 단계에서,
    모델 선택 시 파라미터 값을 선택하며,
    상기 파라미터는
    상기 특허 문서의 문장 내에서 현재 단어와 예측 단어 사이의 최대 거리를 나타내며, 모델 학습 시 주변단어의 개수를 몇 개까지 고려할지를 의미하는 파라미터를 포함하며,
    상기 가중치는
    상기 특허 문서의 특성상 명칭(Title), 초록(Abstract), 청구항(Claims)에 따른 중요도를 기준으로 한 비율에 따라 차등 적용되며,
    상기 선택된 모델은
    Word2vec 모델, LDA 모델 또는 Word2vec과 LDA을 통합한 모델 중 어느 하나인 것을 특징으로 하는 유사 특허 문서 추천 방법.
  2. 제1항에 있어서,
    상기 분류 적합 기준은
    관련있는 모든 문서를 잘 찾아내는가를 의미하는 재현율(recall)과 모델이 찾은 문서 중 관련된 문서가 얼마나 있는가를 의미하는 정밀도(precision)를 기준으로 하는 것을 특징으로 하는 유사 특허 문서 추천 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 분석할 특허 문서를 수집하고, 복수의 유사 특허 문서 분류 모델을 이용하여 분류하는 데이터처리부;
    분류 결과를 이용하여 특허 문서의 분류 적합 기준에 따라 복수의 분류 모델 중 사용할 모델을 선택하는 모델선택부;
    선택된 모델을 이용하여 문서 유사도를 분석하고, 분석된 유사 특허 문서를 추천하는 유사분석부;
    상기 유사분석부에서 가중치에 따라 문서 유사도를 분석하기 위한 가중치를 제공하는 가중치산출부;
    를 포함하며,
    상기 사용할 모델을 선택 시 파라미터 값을 선택하며,
    상기 파라미터는
    상기 특허 문서의 문장 내에서 현재 단어와 예측 단어 사이의 최대 거리를 나타내며, 모델 학습 시 주변단어의 개수를 몇 개까지 고려할지를 의미하는 파라미터를 포함하며,
    상기 가중치는
    상기 특허 문서의 특성상 명칭(Title), 초록(Abstract), 청구항(Claims)에 따른 중요도를 기준으로 한 비율에 따라 차등 적용되며,
    상기 선택된 모델은
    Word2vec 모델, LDA 모델 또는 Word2vec과 LDA을 통합한 모델 중 어느 하나인 것을 특징으로 하는 유사 특허 문서 추천 시스템.
  8. 삭제
  9. 삭제
  10. 제7항에 있어서,
    상기 분류 적합 기준은
    관련있는 모든 문서를 잘 찾아내는가를 의미하는 재현율(recall)과 모델이 찾은 문서 중 관련된 문서가 얼마나 있는가를 의미하는 정밀도(precision)를 기준으로 하는 것을 특징으로 하는 유사 특허 문서 추천 시스템.
  11. 삭제
KR1020200048608A 2020-04-22 2020-04-22 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법 KR102161666B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200048608A KR102161666B1 (ko) 2020-04-22 2020-04-22 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200048608A KR102161666B1 (ko) 2020-04-22 2020-04-22 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102161666B1 true KR102161666B1 (ko) 2020-10-05

Family

ID=72809223

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200048608A KR102161666B1 (ko) 2020-04-22 2020-04-22 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102161666B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220080472A (ko) 2020-12-07 2022-06-14 고려대학교 산학협력단 문서 유사도 측정 모델 생성 방법 및 이를 이용한 문서 유사도 측정 방법
KR20220097631A (ko) 2020-12-30 2022-07-08 주식회사 프리딕션 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
CN115544257A (zh) * 2022-11-25 2022-12-30 天津联想协同科技有限公司 网盘文档快速分类方法、装置、网盘及存储介质
KR20230017578A (ko) 2021-07-28 2023-02-06 서울대학교산학협력단 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술
KR20230143533A (ko) * 2022-04-05 2023-10-12 주식회사 타날리시스 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296835A1 (en) * 2010-01-25 2012-11-22 Cpa Software Limited Patent scoring and classification
KR20150103509A (ko) * 2014-03-03 2015-09-11 고려대학교 산학협력단 Lda를 이용한 특허 문헌 분석 방법
KR20160098084A (ko) 2015-02-09 2016-08-18 특허법인 해담 관심대상 문서 필터링 시스템 및 그 방법
KR20190081622A (ko) * 2017-12-29 2019-07-09 건국대학교 산학협력단 유사성 판단 방법 및 그 장치
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296835A1 (en) * 2010-01-25 2012-11-22 Cpa Software Limited Patent scoring and classification
KR20150103509A (ko) * 2014-03-03 2015-09-11 고려대학교 산학협력단 Lda를 이용한 특허 문헌 분석 방법
KR20160098084A (ko) 2015-02-09 2016-08-18 특허법인 해담 관심대상 문서 필터링 시스템 및 그 방법
KR20190081622A (ko) * 2017-12-29 2019-07-09 건국대학교 산학협력단 유사성 판단 방법 및 그 장치
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
정지수 외 6인, 문서 유사도를 통한 관련 문서 분류 시스템 연구, 방송공학회논문지 제24권 제1호, 77-86페이지, 2019년 1월. 1부.* *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220080472A (ko) 2020-12-07 2022-06-14 고려대학교 산학협력단 문서 유사도 측정 모델 생성 방법 및 이를 이용한 문서 유사도 측정 방법
KR20220097631A (ko) 2020-12-30 2022-07-08 주식회사 프리딕션 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
KR20230017578A (ko) 2021-07-28 2023-02-06 서울대학교산학협력단 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술
KR20230143533A (ko) * 2022-04-05 2023-10-12 주식회사 타날리시스 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
KR102606352B1 (ko) 2022-04-05 2023-11-24 주식회사 타날리시스 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
CN115544257A (zh) * 2022-11-25 2022-12-30 天津联想协同科技有限公司 网盘文档快速分类方法、装置、网盘及存储介质
CN115544257B (zh) * 2022-11-25 2023-04-11 天津联想协同科技有限公司 网盘文档快速分类方法、装置、网盘及存储介质

Similar Documents

Publication Publication Date Title
KR102161666B1 (ko) LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법
Ghanbari-Adivi et al. Text emotion detection in social networks using a novel ensemble classifier based on Parzen Tree Estimator (TPE)
Güran et al. An additive FAHP based sentence score function for text summarization
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
Mahalleh et al. An automatic text summarization based on valuable sentences selection
Krishnan et al. A supervised approach for extractive text summarization using minimal robust features
Salur et al. An ensemble approach for aspect term extraction in Turkish texts
Çelik et al. Gender prediction from social media comments with artificial intelligence
Dadhich et al. Social & juristic challenges of AI for opinion mining approaches on Amazon & flipkart product reviews using machine learning algorithms
Zhang et al. Company competition graph
Kusumaningrum et al. Deep learning-based application for multilevel sentiment analysis of Indonesian hotel reviews
Trivedi et al. Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models
Alzaqebah et al. Arabic sentiment analysis based on salp swarm algorithm with s-shaped transfer functions
Paul et al. A comparative study on sentiment analysis influencing word embedding using SVM and KNN
Das et al. Graph-based text summarization and its application on COVID-19 twitter data
Thakur et al. An improved dictionary based genre classification based on title and abstract of e-book using machine learning algorithms
Kalaivani et al. Machine learning approach to analyze classification result for twitter sentiment
Moalla et al. Towards Opinions analysis method from social media for multidimensional analysis
Shanto et al. Binary vs. Multiclass Sentiment Classification for Bangla E-commerce Product Reviews: A Comparative Analysis of Machine Learning Models
Surolia et al. Understanding Emotions: A PoliEMO Datasetand Multi-label Classification in Indian Elections
Ahmed et al. Sentiment analysis for movie reviews based on four machine learning techniques
Saputra et al. Aspect Based Sentiment Analysis Using Recurrent Neural Networks (RNN) on Social Media Twitter
Widyassari et al. An Extractive Text Summarization based on Candidate Summary Sentences using Fuzzy-Decision Tree
Rybak et al. Machine Learning-Enhanced Text Mining as a Support Tool for Research on Climate Change: Theoretical and Technical Considerations

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant