KR102418239B1 - 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치 - Google Patents
기술의 지속 가능성을 탐색하기 위한 특허 분석 장치 Download PDFInfo
- Publication number
- KR102418239B1 KR102418239B1 KR1020200112535A KR20200112535A KR102418239B1 KR 102418239 B1 KR102418239 B1 KR 102418239B1 KR 1020200112535 A KR1020200112535 A KR 1020200112535A KR 20200112535 A KR20200112535 A KR 20200112535A KR 102418239 B1 KR102418239 B1 KR 102418239B1
- Authority
- KR
- South Korea
- Prior art keywords
- technology
- data
- keywords
- keyword
- unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 일 실시예에 따른 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치는 특허 데이터베이스로부터 미리 설정된 검색 방정식을 이용하여 대상 기술에 연관된 복수의 특허 문서를 수집하는 데이터 수집부, 복수의 특허 문서를 전처리하여 복수의 기술 키워드 및 기술 키워드의 발생 빈도 수를 포함하는 카운트 데이터를 생성하는 데이터 처리부, 카운트 데이터를 기반으로 베이지안 카운트 데이터 모델링을 수행하여 복수의 응답 키워드 및 설명 키워드를 포함하는 기술 트리를 생성하는 데이터 모델링부, 및 기술 트리를 기반으로 대상 기술을 지속 가능하게 하는 기술 분야를 분석하는 분석부를 포함한다.
Description
본 발명은 기술의 지속 가능성 탐색하기 위한 특허 분석 장치에 관한 것으로, 보다 상세하게는 베이지안 카운트 모델을 이용하여 전문가의 사전 지식과 특허 문서의 서지 정보를 결합하고, 결합된 정보를 통해 기술의 지속 가능성을 탐색하는 특허 분석 장치에 관한 것이다.
지속 가능한 기술을 보유한 기업은 시장에서 기술 경쟁력을 유지할 수 있다. 대부분의 기업은 기술 혁신과 신제품 개발을 위한 지속 가능한 영역을 찾으려고 노력한다. 따라서, 지속 가능한 기술을 탐색하는 것은 기업이나 연구 기관 등이 기술을 발굴하고, 개발하며 기술 경쟁력을 유지하는 중요한 방법이며, 특히 연구 개발 초기 단계에서 기술 개발의 모니터링을 가능하게 한다.
기술의 지속 가능성 탐색은 통계적 모델을 통하여 객관적으로 실시되며, 특허 분석에 의존한다. 특허에는 기술 연구 및 개발에 대한 정확하고 방대한 결과가 포함되어 있기 때문이다. 예를 들어, 특허 문서에서 IPC(International Patent Classification) 코드를 추출하고, 이를 기반으로 지속 가능한 기술을 탐색할 수 있다. IPC 코드는 특허 분류를 위한 계층적 기술 시스템으로서, 광범위한 기술을 포함한다. 예를 들어, IPC 코드인 'G06F'는 전기 디지털 데이터 처리 기술을 나타낸다.
따라서, IPC 코드로는 특정 기술 분야의 세부 기술을 파악하기 어렵고, 기술 전문가들의 의견과 정성적인 분석 결과가 반영되지 못하므로 기술의 지속 가능성을 정교하고 실행 가능하게 탐색하는데 한계가 있다.
본 발명의 일 실시예는 베이지안 카운트 모델을 이용하여 전문가의 사전 지식과 특허 문서의 서지 정보를 결합하고, 결합된 정보를 통해 기술의 지속 가능성을 탐색할 수 있는 특허 분석 장치를 제공한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치는, 특허 데이터베이스로부터 미리 설정된 검색 방정식을 이용하여 대상 기술에 연관된 복수의 특허 문서를 수집하는 데이터 수집부; 상기 복수의 특허 문서를 전처리하여 복수의 기술 키워드 및 상기 기술 키워드의 발생 빈도 수를 포함하는 카운트 데이터를 생성하는 데이터 처리부; 상기 카운트 데이터를 기반으로 베이지안 카운트 데이터 모델링을 수행하여 복수의 응답 키워드 및 설명 키워드를 포함하는 기술 트리를 생성하는 데이터 모델링부; 및 상기 기술 트리를 기반으로 상기 대상 기술을 지속 가능하게 하는 기술 분야를 분석하는 분석부를 포함한다.
일 실시예에 있어서, 상기 검색 방정식은 상기 대상 기술에 대한 전문가의 사전 지식을 이용하여 설정된 키워드, IPC 코드 및 인용 정보 등을 적어도 어느 하나를 포함하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 데이터 처리부는 상기 복수의 특허 문서를 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 텍스트 마이닝 처리하여 상기 복수의 기술 키워드를 추출하고, 상기 복수의 특허 문서 별 상기 복수의 기술 키워드를 각각 카운트하여 상기 카운트 데이터를 생성하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 데이터 처리부는 행 방향으로 상기 복수의 특허 문서가 배열되고, 열 방향으로 상기 복수의 기술 키워드가 배열되고, 각 셀에 상기 기술 키워드의 발생 빈도수를 나타내는 특허 문서-키워드 행렬을 상기 카운트 데이터로 생성하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 데이터 모델링부는 상기 복수의 기술 키워드 각각의 발생 빈도수에 대응하는 포아송 파라미터 및 포아송 회귀 계수를 이용하여 상기 응답 키워드 및 상기 설명 키워드를 선택하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 데이터 모델링부는 상기 복수의 기술 키워드 중 상기 포아송 파라미터의 최대 가능성 추정치가 상대적으로 큰 기술 키워드를 상기 설명 키워드로 선택하고, 상기 설명 키워드 중 상기 포아송 회귀 계수가 상대적으로 큰 기술 키워드를 상기 응답 키워드로 선택하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 분석부는 상기 응답 키워드를 포함하는 기술 분야를 상기 대상 기술을 지속 가능하게 하는 기술 분야로 판단하는 것을 특징으로 한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 일 실시예에 따르면, 베이지안 카운트 모델을 이용하여 전문가의 사전 지식과 특허 문서의 서지 정보를 결합하고, 결합된 정보를 통해 기술의 지속 가능성을 탐색할 수 있다.
도 1은 본 발명의 일 실시예에 따른 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치를 도시한 도면이다.
도 2는 도 1에 있는 데이터 수집부 및 데이터 처리부에서 수행되는 데이터 수집 및 카운트 데이터 생성 과정을 설명하는 순서도이다.
도 3은 도 1에 있는 데이터 모델링부에서 수행되는 베이지안 카운트 데이터 모델링을 설명하는 순서도이다.
도 4는 도 1에 있는 데이터 모델링부에서 생성되는 기술 트리를 설명하는 도면이다.
도 5는 도 1에 있는 데이터 모델링부에서 수행하는 베이지안 카운트 데이터 모델링의 개념을 설명하는 도면이다.
도 6 내지 도 9는 본 발명의 일 실시예에 따른 기술의 지속 가능성을 탐색하기 위한 특허 분석 방법을 설명하는 예시도이다.
도 2는 도 1에 있는 데이터 수집부 및 데이터 처리부에서 수행되는 데이터 수집 및 카운트 데이터 생성 과정을 설명하는 순서도이다.
도 3은 도 1에 있는 데이터 모델링부에서 수행되는 베이지안 카운트 데이터 모델링을 설명하는 순서도이다.
도 4는 도 1에 있는 데이터 모델링부에서 생성되는 기술 트리를 설명하는 도면이다.
도 5는 도 1에 있는 데이터 모델링부에서 수행하는 베이지안 카운트 데이터 모델링의 개념을 설명하는 도면이다.
도 6 내지 도 9는 본 발명의 일 실시예에 따른 기술의 지속 가능성을 탐색하기 위한 특허 분석 방법을 설명하는 예시도이다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 특허 분석 장치(100)는 데이터 수집부(110), 데이터 처리부(120), 데이터 모델링부(130), 분석부(140), 특허 데이터베이스(150) 및 제어부(160)를 포함한다. 데이터 수집부(110)는 기술의 지속 가능성을 탐색 및 통계 분석하기 위한 대상 기술을 설정하고, 미리 설정된 검색 방정식을 이용하여 특허 데이터베이스(150)로부터 대상 기술과 연관된 복수의 특허 문서를 수집한다.
여기에서, 검색 방정식은 대상 기술에 대한 전문가의 사전 지식을 이용하여 미리 설정된 방정식이다. 예를 들어, 검색 방정식은 키워드, IPC 코드, 인용 정보 등을 적어도 어느 하나를 포함할 수 있다. 즉, 본 발명의 일 실시예는 데이터 수집부(110)를 통해 특허 문서를 수집할 때 전문가의 의견이 반영되어 정성적인 분석이 가능하다.
데이터 처리부(120)는 복수의 특허 문서를 전처리하여 카운트 데이터를 생성한다. 데이터 처리부(120)는 복수의 특허 문서를 텍스트 데이터로 변환하고, 텍스트 데이터를 텍스트 마이닝 처리하여 복수의 기술 키워드를 추출한다.
데이터 처리부(120)는 복수의 특허 문서 각각에 포함된 복수의 기술 키워드의 발생 빈도 수를 카운트하여 카운트 데이터를 생성한다. 여기에서, 카운트 데이터는 각 특허 문서에 포함된 복수의 기술 키워드 각각의 발생 빈도수가 행렬의 형태로 구조화된 데이터이다. 즉, 카운트 데이터는 특허 문서-키워드 행렬 구조로서, 행(row) 방향으로 복수의 특허 문서들이 배열되고, 열(column) 방향으로 기술 키워드가 배열되며, 각 셀은 특허 문서에 대한 기술 키워드의 발생 빈도수를 나타낼 수 있다.
데이터 모델링부(130)는 구조화된 카운트 데이터를 기반으로 베이지안 카운트 데이터 모델링을 수행하여 복수의 응답 키워드 및 설명 키워드를 포함하는 기술 트리를 생성한다. 여기에서, 응답 키워드(변수)는 대상 기술을 나타내는 기술 키워드이고, 설명 키워드(변수)는 응답 변수를 제외한 나머지 기술 키워드들일 수 있다. 예를 들어, 대상 기술이 인공 지능(Artificial Intelligence)인 경우 응답 키워드는'인공(Artificial)' 및 '지능(Intelligence)'일 수 있다.
데이터 모델링부(130)는 복수의 기술 키워드 각각의 발생 빈도수에 대응하는 포아송 파라미터 및 포아송 회귀 계수를 이용하여 응답 키워드 및 설명 키워드를 선택한다. 데이터 모델링부(130)는 복수의 기술 키워드 중 포아송 파라미터의 최대 가능성 추정치가 상대적으로 큰 기술 키워드를 설명 키워드로 선택하고, 설명 키워드 중 포아송 회귀 계수가 상대적으로 큰 기술 키워드를 상기 응답 키워드로 선택할 수 있다.
분석부(140)는 기술 트리를 기반으로 대상 기술을 지속 가능하게 하는 기술 분야를 분석한다. 여기에서, 분석부(140)는 응답 키워드를 포함하는 기술 분야를 대상 기술을 지속 가능하게 하는 기술 분야로 판단할 수 있다.
특허 데이터베이스(150)에는 복수의 특허 문서들이 저장된다. 본 발명의 일 실시예에 따른 특허 데이터베이스(150)에는 전세계의 출원 및 등록된 복수의 특허 문서 및 각 특허의 서지 정보 등이 저장될 수 있다.
제어부(160)는 특허 분석 장치(100)를 전반적으로 제어하며, 데이터 수집부(110), 데이터 처리부(120), 데이터 모델링부(130), 분석부(140) 및 특허 데이터베이스(150) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 2는 도 1에 있는 데이터 수집부 및 데이터 처리부에서 수행되는 데이터 수집 및 카운트 데이터 생성 과정을 설명하는 순서도이다.
도 2에서, 데이터 수집부(110)는 기술의 지속 가능성을 탐색 및 통계 분석하기 위한 대상 기술을 결정한다(단계 S201). 데이터 수집부(110)는 미리 설정된 검색 방정식을 이용하여 특허 데이터베이스(150)로부터 대상 기술과 연관된 복수의 특허 문서를 수집한다(단계 S202). 여기에서, 검색 방정식은 대상 기술에 대한 전문가의 사전 지식을 이용하여 미리 설정된 방정식이다.
데이터 처리부(120)는 수집된 복수의 특허 문서 각각을 해석하여 말뭉치를 생성하고(단계 S203), 말뭉치를 일반 텍스트 데이터로 변환시킨다(단계 S204). 그 다음, 데이터 처리부(120)는 텍스트 데이터를 정제한다(단계 S205). 여기에서, 데이터 처리부(120)는 텍스트 데이터에 포함된 공백(whitespace) 및 불용어(stop word)를 제거하고, 형태소 분석 및 필터링을 수행하여 텍스트 데이터를 정제할 수 있다. 예를 들어, 불용어는 '그리고(and)', '위해(for)', '안에(in)' 및 '이다(is)' 등을 포함할 수 있다.
데이터 처리부(120)는 텍스트 데이터를 기반으로 베이지안 카운트 데이터 모델링을 위한 구조화된 카운트 데이터를 생성한다(단계 S206). 데이터 처리부(120)는 텍스트 데이터를 데이터 마이닝 처리하여 복수의 기술 키워드를 추출하고, 특허 문서 별 기술 키워드의 발생 빈도수를 카운트하여 특허 문서-기술 키워드 행렬을 생성할 수 있다. 특허 문서-기술 키워드 행렬은 행(row) 방향으로 복수의 특허 문서들이 배열되고, 열(column) 방향으로 기술 키워드가 배열되며, 행렬의 각 셀은 기술 키워드의 발생 빈도수를 나타낼 수 있다.
도 3은 도 1에 있는 데이터 모델링부에서 수행되는 베이지안 카운트 데이터 모델링을 설명하는 순서도이다.
도 3에서, 데이터 모델링부(130)는 카운트 데이터를 기반으로 데이터 세트를 생성한다(단계 S301). 여기에서, 카운트 데이터에 포함된 기술 키워드의 발생 빈도수는 음수가 아닌 정수 값이므로, 본 발명의 일 실시예에 따른 데이터 모델링부(130)는 베이지안 통계 모델에 포아송 확률 분포(Poisson distribution)를 적용하여 카운트 데이터를 모델링한다.
구체적으로, 포아송 확률 분포에서, 랜덤 변수(Y)가 파라미터(λ)로 분포되면, 이의 분포는 아래의 [수학식 1]과 같이 정의된다.
여기에서, 기대치(expectation)(E(Y))와 포아송 랜덤 변수(Y)의 분산은 파라미터(λ)와 같다. 본 발명의 일 실시예에서는 포아송 랜덤 변수(Y)를 응답 키워드(변수)로 정의하여 설명한다.
포아송 랜덤 변수(Y)의 가능도 함수(likelihood function)는 아래의 [수학식 2]와 같다.
상기한 [수학식 2]는 의 형태로서, 파라미터 변수 c와 d를 갖는 감마 분포이다. 따라서, 본 발명의 일 실시예에서는 포아송 파라미터에 대한 켤레 사전 분포(conjugate prior)로 감마 분포를 선택하여 적용한다. 이에 따라, 복수의 특허 문서로부터 추출된 기술 키워드의 발생 빈도수는 아래의 [수학식 3]과 같이, 파라미터(λi)를 갖는 포아송 랜덤 변수에 대응된다.
여기에서, m은 모든 기술 키워드들의 수를 나타낸다. 본 발명의 일 실시예에서는 i번째 기술 키워드의 발생 빈도수(횟수)를 로 정의하고, 아래의 [수학식 4]와 같은 데이터 세트로 나타낼 수 있다.
그 다음, 데이터 모델링부(130)는 기술 키워드의 발생 빈도수에 대한 데이터 세트에 예측자(predictor) 없이 포아송 확률 분포를 갖는 일반화 선형 모델(generalized linear model; 이하, GLM라 함)을 적용하여 회귀 계수(regression coefficient)(β)를 산출한다(단계 S302). 여기에서, 로그 링크 함수는 아래의 [수학식 5]와 같다.
포아송 분포를 갖는 상수(constant) GLM 모델은 포아송 랜덤 변수의 평균과 유사하다. 이에, 본 발명의 일 실시예에서는 상수 GLM 모델 대신 최대 가능성(우도) 추정치(maximum likelihood estimator; MLE)에 의한 포아송 평균 값을 사용한다. 본 발명의 일 실시예는 이에 한정되지 않고, 상수 GLM 모델뿐만 아니라 모든 예측 변수들을 사용하는 전체 GLM 모델을 고려할 수 있다.
데이터 모델링부(130)는 회귀 계수를 비교하여 응답 변수(response variable) 및 설명 변수(explanatory variable)를 결정한다(단계 S303). 데이터 모델링부(130)는 각 변수(기술 키워드)의 회귀 계수를 크기 순서대로 정렬하여 회귀 계수 값이 큰 변수를 응답 변수(키워드)로 결정하고, 회귀 계수 값이 작은 변수를 설명 변수(예측 키워드)로 결정할 수 있다.
그 다음, 데이터 모델링부(130)는 응답 변수 및 설명 변수를 이용하여 베이지안 카운트 모델링을 수행한다(단계 S304). 여기에서, 베이지안 카운트 모델링은 아래의 [수학식 6]과 같다.
여기에서, θ는 모델 파라미터이고, y는 예측할 응답 변수이다. P(θ) 및 P(θ|y)는 각각 파라미터의 사전(prior) 및 사후(posterior) 확률이다. P(y|θ)는 주어진 y의 가능성(우도) 함수를 나타낸다. P(y)는 아래의 [수학식 7]과 같다.
데이터 모델링부(130)는 베이지안 모델링을 사용하여 사후 확률 분포의 파라미터를 결정할 수 있다. 본 발명의 일 실시예에 따른 데이터 모델링부(130)는 파라미터 추정 값에 대한 업데이트 결과를 얻기 위해 정보적(informative) 사전 분포를 선택한다. 여기에서, 데이터 모델링부(130)는 정보적 사전 분포를 사용하기 위해 MCMC(Markov Chain Monte Carlo)와 같은 베이지안 컴퓨팅을 수행하고, 계산 편의성을 위해 켤레(conjugate) 사전 분포를 사용할 수 있다.
데이터 모델링부(130)는 베이지안 카운트 데이터 모델링을 위해 감마 분포를 사용하여 포아송 회귀 모델을 구성한다. 포아송 회귀 모델은 아래의 [수학식 8]과 같다.
여기에서, Y는 응답 변수이고, (x1, x2, …, xp)는 설명 변수이다. β는 회귀 파라미터이다. P는 설명 변수의 수이다. 그리고, λ에 대한 정보적 감마 사전 분포(informative Gamma prior)는 아래의 [수학식 9]과 같다.
여기에서, Г(·)는 감마 함수이고, E(λ) 및 Var(λ)는 각각 a/b, a/b2이다. 이는 베이지안 카운트 데이터 모델링의 발생 가능성(우도, likelihood)에 적용된다. 따라서, 발생 가능성 및 사전 분포를 이용하여 사후 분포를 나타내면 아래의 [수학식 10]과 같다.
여기에서, λ를 포함하지 않는 항목은 무시할 수 있으므로, 다음의 [수학식 11]과 같은 사후 분포의 비례 결과를 산출할 수 있다.
상기한 식은 파라미터 및 를 갖는 감마 분포의 커널을 나타낸다. 그리고, 감마 분포의 특성에 의해, λ의 사후 평균(posterior mean) 및 분산(variance)은 각각 및 이다. 베이지안 포아송 회귀 케이스에서, 는 평균 을 갖는 포아송 분포이다. 여기에서, β는 포아송 회귀의 파라미터 벡터이다. 그리고, 는 (응답 키워드|설명 키워드)로서 표현된다. 즉, 데이터 모델링부(130)는 아래의 [수학식 12]과 같은 베이지안 카운트 데이터 모델을 생성할 수 있다.
여기에서, c와 d는 [수학식 2]와 같다. 사후 분포는 데이터를 기반으로 주어진 사전 분포(prior) 및 발생 가능성(likelihood)을 곱하여 계산되며, 계산된 사후 분포는 다음번 모델링에서 사전 분포로 이용될 수 있다.
도 4는 도 1에 있는 데이터 모델링부에서 생성되는 기술 트리를 설명하는 도면이다.
도 4에서, 기술 트리는 응답 키워드 및 설명 키워드를 포함한다. 여기에서, 화살표의 시작 부분에 배치된 기술 키워드는 설명 키워드이고, 화살표의 끝 부분에 배치된 기술 키워드는 응답 키워드이다. 즉, 기술 트리에서 응답 키워드를 제외한 나머지 기술 키워드들은 설명 키워드로 사용된다.
각 기술 키워드들은 파라미터(λi)를 사용하여 포아송 분배되고, 베이지안 카운트 데이터 모델링의 최종 결과로 응답 변수와 설명 변수 간의 회귀 계수(β)가 도출된다. 데이터 모델링부(130)는 회귀 계수(β)를 이용하여 대상 기술에 대한 기술 트리를 구축할 수 있다.
데이터 모델링부(130)는 포아송 파라미터를 사용하여 대상 기술에 가장 영향력이 큰 기술 키워드를 선택하고, 회귀 계수의 확률 값(p-value)을 비교하여 최종 예측(predictor) 키워드를 추출할 수 있다.
즉, 데이터 모델링부(130)는 두 단계로 예측 변수를 선택한다. 먼저, 포아송 파라미터가 큰 예측 키워드를 선택하고, 그 다음 상대적으로 큰 회귀 계수를 갖는 예측 키워드를 선택한다. 이때, 데이터 모델링부(130)는 변수의 크기를 동일하게 맞추기 위해 베이지안 카운트 데이터 모델링을 수행하기 전에 변수들을 표준화시킬 수 있다.
도 5는 도 1에 있는 데이터 모델링부에서 수행하는 베이지안 카운트 데이터 모델링의 개념을 설명하는 도면이다.
도 5에서, 베이지안 카운트 데이터 모델은 전문가의 주관적인 지식과 특허 문서에 대한 객관적인 분석 결과를 결합한 모델이다. 즉, 사전(prior) 확률 분포는 전문가의 지식 영역(expert knowledge)을 나타내고, 발생 가능성(likelihood)은 특허 문서(patent)를 기반으로 하는 객관적인 데이터를 나타낸다. 사전 확률 분포와 발생 가능성을 곱한 결과는 사후(posterior) 확률 분포이다. 사후 확률 분포는 대상 기술의 지속 가능성을 탐색하기 위한 예측 모델(predictive model)로 사용된다. 또한, 베이지안 확률 분포를 베이지안 카운트 데이터 모델링을 위한 카운트 데이터 회귀에 적용함으로써 기술의 지속 가능성에 대한 분석 성능을 향상시킬 수 있다.
여기에서, 본 발명의 실시예에 따른 베이지안 카운트 데이터 모델은 아래의 [수학식 13]과 같이, 단변량(univariate) 뿐만 아니라 다변량(multivariate) 응답 벡터에도 적용할 수 있다.
이는 기술 분야에 따라 둘 이상의 응답 변수가 존재할 수 있기 때문이다. 예를 들어, 인공 지능 기술 분야에서는 아래의 [수학식 14]와 같이 정의될 수 있다.
도 6 내지 도 9는 본 발명의 일 실시예에 따른 기술의 지속 가능성을 탐색하기 위한 특허 분석 방법을 설명하는 예시도이다.
도 6에서, 먼저 데이터 수집부(110)는 대상 기술을 설정한다. 이하에서는 대상 기술을 인공지능(AI)으로 설정한 경우를 예를 들어 설명한다. 데이터 수집부(110)는 인공지능에 대한 전문가의 사전 지식을 이용하여 미리 설정된 검색 방정식을 이용하여 특허 데이터베이스(150)로부터 인공지능과 관련된 복수의 특허 문서를 검색하고, 수집한다.
그 다음, 데이터 처리부(120)는 수집된 특허 문서에 텍스트 마이닝 방법을 적용하여 기술 키워드를 추출하고, 추출된 기술 키워드를 카운트하여 구조화된 카운트 데이터, 즉 특허 문서-기술 키워드 행렬을 생성한다. 여기에서, 특허 문서-기술 키워드 행렬의 행(i)과 열(j)은 각각 인공지능과 연관된 특허 문서 및 기술 키워드이며, 행렬의 각 셀(cell)은 기술 키워드의 발생 빈도 수를 나타낸다.
인공지능의 경우 '인공' 및 '지능' 키워드는 종속 변수로 선택되고, 종속 변수를 제외한 나머지 기술 키워드들은 예측 변수로 사용될 수 있다. 즉, 구조화된 카운트 데이터에는 아래의 [표 1]에 기재된 기술 키워드 및 '인공' 및 '지능' 키워드가 포함되고, 구조화된 카운트 데이터의 각 요소는 인공지능 특허 문서 별 기술 키워드의 발생 빈도 수가 포함된다.
상기한 [표 1]에서, 인공지능 기술은 학습(Learning), 행동(Behavior), 언어(Language), 비젼(Vision) 및 신경(Neuro)의 5가지 하위 기술(Sub-Technology)로 기술 분류되고, 각 하위 기술에 속하는 기술 키워드(Patent Keyword)를 볼 수 있다. 본 발명의 일 실시예에서는 이와 같이 전문가의 사전 지식을 이용하여 인공지능 관련 특허 문서를 검색하여 정성적인 분석이 가능하다.
데이터 모델링부(130)는 최대 가능성 추정치(MLE)를 이용하여 기술 키워드들의 발생 빈도 수로 기술 키워드에 대한 포아송 파라미터를 추정한다. 예를 들어, 아래의 [표 2]는 [표 1]에 기재된 모든 기술 키워드에 대한 포아송 파라미터의 추정치(λ)를 나타낸다.
상기한 [표 2]에서 기술 키워드 간의 상대적인 발생 빈도 수를 비교할 수 있다. 이러한 추정치는 인공지능 관련 키워드의 포아송 파라미터에 대한 최대 가능성 추정치(MLE)이다.
즉, 도 7과 같이, 각 기술 키워드에 대해 최대 가능성 추정치(MLE)에 관한 정보를 얻을 수 있다. 이때, 기술 키워드들 중 개체(object), 데이터(data). 담화(speech), 비디오(video), 이미지(image), 네트워크(network), 패턴(pattern), 공간(spatial), 언어(language), 분석(analysis), 피드백 (feedback), 행동(behavior), 인식(recognition), 인터페이스(interface), 음성(voice), 말뭉치(corpus), 비젼(vision) 및 학습(learning) 키워드는 다른 기술 키워드들 대비 상대적으로 추정치가 큰 것을 볼 수 있다. 즉, 포아송 파라미터에 대한 최대 가능성 추정치가 상대적으로 큰 기술 키워드들이 인공지능 기술에 높은 영향력을 줄 가능성이 큰 것으로 판단할 수 있다.
데이터 모델링부(130)는 구조화된 카운트 데이터를 기반으로 베이지안 카운트 데이터 모델링을 수행한다. 데이터 모델링부(130)는 가우시안과 포아송 분포에 의한 베이지안 회귀 모델링을 수행한다. 여기에서, 데이터 모델링부(130)는 모든 키워드의 가중치를 동일하게 비교하기 위해, 각 변수들의 크기를 표준화시킬 수 있다. 즉, 아래의 [표 3]과 같이, 가중치(Weight)는 포아송과 가우시안 파라미터의 평균 값이다.
데이터 모델링부(130)는 인공지능 기술의 지속 가능성을 탐색하기 위해 기술 키워드들 중 상대적으로 큰 가중치 값을 갖는 기술 키워드들을 추출할 수 있다. 즉, 도 8과 같이, 데이터 모델링부(130)는 복수의 기술 키워드 각각의 가중치에 따라 순위를 나열하고, 순위 별로 그룹화하여 인공지능과 연관된 3개의 기술 키워드 그룹(Group)으로 분류할 수 있다. 이 중 첫번째 기술 키워드 그룹은 두번째 및 세번째 기술 키워드 그룹 대비 인공지능 기술에 상대적으로 높은 영향력을 갖는 기술 키워드를 포함하는 것으로 판단할 수 있다.
데이터 모델링부(130)는 도 9와 같이, 인공지능 기술에 대한 기술 트리를 생성할 수 있다. 즉, 데이터 모델링부(130)는 인공지능 기술을 학습(Learning), 행동(Behavior), 언어(Language), 비젼(Vision) 및 신경(Neuro)의 5가지 하위 기술로 분류하고, 각 하위 기술은 해당 기술을 나타내는 기술 키워드를 포함한다. 예를 들어, 학습 기술에는 학습(learning), 추론(inference), 온톨로지(ontology), 표현(representation), 분석(analysis) 및 데이터(data)가 기술 키워드로 포함될 수 있다.
각 기술 키워드는 상기한 [표 2] 및 [표 3]의 결과에 대응하는 중요도(가중치)에 따라 굵은 글씨 또는 밑줄 등으로 구분될 수 있다. 여기에서, 굵은 글씨는 포아송 MLE 결과에서 인공지능 기술에 높은 영향을 미치는 기술 키워드이다. 밑줄이 그어진 글씨는 베이지안 회귀 모델을 기반으로 인공지능에 높은 영향을 미치는 기술 키워드이다.
분석부(140)는 기술 트리를 기반으로 인공지능 기술의 지속 가능성에 영향을 미치는 기술 요소를 분석한다. 즉, 분석부(140)는 인공지능 기술에 관한 5가지 하위 기술 중 학습(Learning), 행동(Behavior), 언어(Language) 및 신경(Neuro) 기술이 인공지능 기술의 지속 가능성에 높은 영향을 미치고, 비젼(Vision) 기술이 나머지 기술 대비 상대적으로 인공지능 기술의 지속 가능성에 낮은 영향을 미친다는 것을 판단할 수 있다.
또한, 분석부(140)는 인공지능 기술의 지속 가능성을 유지하기 위해서는 굵은 글씨 및 밑줄이 동시에 적용된 '학습 데이터(learning data)', '행동 공간(behavior spatial)', '언어 인터페이스(language interface)' 및 '인식 패턴(recognition pattern)'과 관련된 4가지 기술이 지속 가능성에 영향을 미치는 중요한 기술 요소로 판단할 수 있다. 따라서, 개발자들은 인공지능 기술의 지속 가능성을 유지하기 위해서는 4가지 기술과 관련된 연구 개발에 집중할 필요가 있는 것을 알 수 있다.
지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허 청구의 범위뿐 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
100: 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치
110: 데이터 수집부 120: 데이터 처리부
130: 데이터 모델링부 140: 분석부
150: 특허 데이터베이스 160: 제어부
110: 데이터 수집부 120: 데이터 처리부
130: 데이터 모델링부 140: 분석부
150: 특허 데이터베이스 160: 제어부
Claims (7)
- 특허 데이터베이스로부터 미리 설정된 검색 방정식을 이용하여 대상 기술에 연관된 복수의 특허 문서를 수집하는 데이터 수집부;
상기 복수의 특허 문서를 전처리하여 복수의 기술 키워드 및 상기 기술 키워드의 발생 빈도 수를 포함하는 카운트 데이터를 생성하는 데이터 처리부;
상기 카운트 데이터를 기반으로 베이지안 카운트 데이터 모델링을 수행하여 복수의 응답 키워드 및 설명 키워드를 포함하는 기술 트리를 생성하는 데이터 모델링부; 및
상기 기술 트리를 기반으로 상기 대상 기술을 지속 가능하게 하는 기술 분야를 분석하는 분석부를 포함하고,
상기 데이터 처리부는,
상기 복수의 특허 문서 각각을 해석하여 생성한 말뭉치를 일반 텍스트 데이터로 변환하고, 상기 일반 텍스트 데이터에 포함된 공백 및 불용어를 제거하고, 형태소 분석 및 필터링을 수행하여 정제된 텍스트 데이터로 변환하고,
상기 텍스트 데이터를 텍스트 마이닝 처리하여 상기 복수의 기술 키워드를 추출하고, 상기 복수의 특허 문서 별 상기 복수의 기술 키워드를 각각 카운트하여 상기 카운트 데이터를 생성하는 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치.
- 제1항에 있어서,
상기 검색 방정식은 상기 대상 기술에 대한 전문가의 사전 지식을 이용하여 설정된 키워드, IPC 코드 및 인용 정보 등을 적어도 어느 하나를 포함하는 것을 특징으로 하는 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치.
- 제1항에 있어서,
상기 데이터 처리부는 상기 복수의 특허 문서를 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 텍스트 마이닝 처리하여 상기 복수의 기술 키워드를 추출하고, 상기 복수의 특허 문서 별 상기 복수의 기술 키워드를 각각 카운트하여 상기 카운트 데이터를 생성하는 것을 특징으로 하는 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치.
- 제3항에 있어서,
상기 데이터 처리부는 행 방향으로 상기 복수의 특허 문서가 배열되고, 열 방향으로 상기 복수의 기술 키워드가 배열되고, 각 셀에 상기 기술 키워드의 발생 빈도수를 나타내는 특허 문서-키워드 행렬을 상기 카운트 데이터로 생성하는 것을 특징으로 하는 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치.
- 제1항에 있어서,
상기 데이터 모델링부는 상기 복수의 기술 키워드 각각의 발생 빈도수에 대응하는 포아송 파라미터 및 포아송 회귀 계수를 이용하여 상기 응답 키워드 및 상기 설명 키워드를 선택하는 것을 특징으로 하는 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치.
- 제5항에 있어서,
상기 데이터 모델링부는 상기 복수의 기술 키워드 중 상기 포아송 파라미터의 최대 가능성 추정치가 상대적으로 큰 기술 키워드를 상기 설명 키워드로 선택하고, 상기 설명 키워드 중 상기 포아송 회귀 계수가 상대적으로 큰 기술 키워드를 상기 응답 키워드로 선택하는 것을 특징으로 하는 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치.
- 제1항에 있어서,
상기 분석부는 상기 응답 키워드를 포함하는 기술 분야를 상기 대상 기술을 지속 가능하게 하는 기술 분야로 판단하는 것을 특징으로 하는 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190111671 | 2019-09-09 | ||
KR20190111671 | 2019-09-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210030210A KR20210030210A (ko) | 2021-03-17 |
KR102418239B1 true KR102418239B1 (ko) | 2022-07-07 |
Family
ID=75245689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200112535A KR102418239B1 (ko) | 2019-09-09 | 2020-09-03 | 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102418239B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240106762A (ko) | 2022-12-29 | 2024-07-08 | 고려대학교 산학협력단 | 기계학습 기반의 기술 트렌드 스크리닝 프레임워크 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101768807B1 (ko) | 2016-04-12 | 2017-08-17 | 고려대학교 산학협력단 | 특허분석 및 전문가 설문조사를 이용한 기술 예측 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140022282A (ko) | 2012-08-14 | 2014-02-24 | 최승욱 | 특허 분석 방법, 특허 분석 장치 및 특허 분석 시스템 |
KR101595342B1 (ko) * | 2013-06-17 | 2016-02-18 | 고려대학교 산학협력단 | 특허 키워드 분석에 기반한 부상 기술 예측 장치 및 방법 |
KR101562301B1 (ko) * | 2014-02-28 | 2015-10-22 | 고려대학교 산학협력단 | 부상기술 예측방법 및 장치 |
KR101616544B1 (ko) * | 2014-03-03 | 2016-04-28 | 고려대학교 산학협력단 | Lda를 이용한 특허 문헌 분석 방법 |
KR102034103B1 (ko) * | 2018-01-15 | 2019-10-18 | 청주대학교 산학협력단 | 베이지안 네트워크를 이용한 기술문서 분석방법 |
-
2020
- 2020-09-03 KR KR1020200112535A patent/KR102418239B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101768807B1 (ko) | 2016-04-12 | 2017-08-17 | 고려대학교 산학협력단 | 특허분석 및 전문가 설문조사를 이용한 기술 예측 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240106762A (ko) | 2022-12-29 | 2024-07-08 | 고려대학교 산학협력단 | 기계학습 기반의 기술 트렌드 스크리닝 프레임워크 |
Also Published As
Publication number | Publication date |
---|---|
KR20210030210A (ko) | 2021-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zamani et al. | Neural query performance prediction using weak supervision from multiple signals | |
Lines et al. | Time series classification with HIVE-COTE: The hierarchical vote collective of transformation-based ensembles | |
CN106779087B (zh) | 一种通用机器学习数据分析平台 | |
Aghdam et al. | Feature selection using particle swarm optimization in text categorization | |
CN111581545B (zh) | 一种召回文档的排序方法及相关设备 | |
CN110188047B (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
Nawrocka et al. | Application of machine learning in recommendation systems | |
CN112734154B (zh) | 一种基于模糊数相似度的多因素舆情风险评估方法 | |
CN109241199B (zh) | 一种面向金融知识图谱发现的方法 | |
CN110516950A (zh) | 一种面向实体解析任务的风险分析方法 | |
Milea et al. | Prediction of the msci euro index based on fuzzy grammar fragments extracted from european central bank statements | |
Moayedikia et al. | Task assignment in microtask crowdsourcing platforms using learning automata | |
Bouchachia et al. | Towards incremental fuzzy classifiers | |
Zaghloul et al. | Text classification: neural networks vs support vector machines | |
US12095781B2 (en) | Hidden Markov model based data ranking for enhancement of classifier performance to classify imbalanced dataset | |
Riyanto et al. | Comparative Analysis using Various Performance Metrics in Imbalanced Data for Multi-class Text Classification | |
KR102418239B1 (ko) | 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
Rijal et al. | Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19. | |
Bahrami et al. | Automatic image annotation using an evolutionary algorithm (IAGA) | |
KR101064617B1 (ko) | 다변량 스트림 데이터 분류 방법 및 장치 | |
CN110633363A (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
Estivill-Castro et al. | Improving binary classification of web pages using an ensemble of feature selection algorithms | |
KR102617839B1 (ko) | 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘 | |
CN113901203A (zh) | 一种文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |