KR102515655B1 - 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법 - Google Patents

미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법 Download PDF

Info

Publication number
KR102515655B1
KR102515655B1 KR1020180011377A KR20180011377A KR102515655B1 KR 102515655 B1 KR102515655 B1 KR 102515655B1 KR 1020180011377 A KR1020180011377 A KR 1020180011377A KR 20180011377 A KR20180011377 A KR 20180011377A KR 102515655 B1 KR102515655 B1 KR 102515655B1
Authority
KR
South Korea
Prior art keywords
keyword
evaluation
recommended
relationship
attribute
Prior art date
Application number
KR1020180011377A
Other languages
English (en)
Other versions
KR20190092055A (ko
Inventor
강민수
황재성
Original Assignee
(주)광개토연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)광개토연구소 filed Critical (주)광개토연구소
Priority to KR1020180011377A priority Critical patent/KR102515655B1/ko
Publication of KR20190092055A publication Critical patent/KR20190092055A/ko
Application granted granted Critical
Publication of KR102515655B1 publication Critical patent/KR102515655B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 현재 시점까지 공기(co-occurrence)하지 않은 기술 키워드 중 가까운 미래에 공기할 가능성이 높은 기술 키워드를 발굴해 주는 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법에 관한 것이다.
본 발명의 기술 키워드 추천 장치는 기술 키워드 추천 장치의 정보 처리 방법에 있어서, 상기 기술 키워드 추천 장치가 (A)문서 집합에서 생성한 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성하는 단계; (B)상기 코키워드 매트릭스의 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성하는 단계; (C)개별 키워드에 대하여 상기 코키워드 매트릭스 및 키워드-코키워드 속성 데이터를 사용하여 상기 키워드의 추천 키워드 후보군을 생성하는 단계; 및 (D) 상기 추천 키워드 후보군에서 상기 개별 키워드에 대한 추천 키워드를 선별하는 단계;를 포함하며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있는 적어도 하나 이상의 코키워드와 코키워드 관계에 있는 것이며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있지 아니한 것이며, 상기 코키워드 및 상기 추천 키워드는 적어도 하나 이상의 키워드 평가 속성을 가지는 것이며, 상기 키워드-코키워드는 적어도 하나 이상의 키워드-코키워드 관계 평가 속성을 가지는 방식으로 정보 처리하는 것을 특징으로 한다.
본 발명을 활용하면 기존의 공개된 문서에서 공기 관계가 없어, 선점이나 연구의 가치가 상대적으로 더 높을 수 있는 미래 연구 가능성 높은 기술 키워드를 체계적으로 발굴할 수 있으며, 추천 되는 기술 키워드에 포함되는 추천 근거 정보를 통하여, 데이터 및 분석 자료에 기반하여 연구/기술 개발 대상을 체계적으로 좁힐 수 있고, 보유하고 있는 기술에 대한 새로운 확장, 연계, 활용 및 응용 분야를 동종 분야뿐만 아니라 이종 분야에 까지 효과적으로 탐색할 수 있다. 나아가 본 발명은 키워드 추천을 위해서 생성되는 키워드-코키워드 매트릭스, 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보는 기술 키워드 추천 뿐만 아니라 다양한 기술 정보 분석에서도 활용될 수 있다.

Description

미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법{Device and method on recommendatation of technolgy terms with cooccurence potential}
본 발명은 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법에 관한 것으로서 더욱 더 상세하게는 현재 시점까지 공기(co-occurrence)하지 않은 기술 키워드 중 가까운 미래에 공기할 가능성이 높아 연구 가치가 있는 기술 키워드를 발굴해 주는 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법에 관한 것이다.
기존에 존재하고 있던 요소 기술 간의 융합(convergence, fusion)을 통하여 새로운 기술을 개발하는 것은 신기술 개발 방법의 중요한 축을 이루고 있다. 아울러, 기존에 존재하고 있던 요소 기술 간의 결합의 신규성과 비자명성은 특허 요건을 구성하고 있는 특허의 핵심 사상이 된다.
요소 기술 간의 융합을 연구하는 많은 방법 중의 하나는 공기 분석(occurrence analysis)이다. 공기 분석은 동일한 문서나 이벤트에 함께 등장한 요소의 연관 패턴에 대한 분석 또는 마이닝을 포함하고 있다. 요소가 키워드일 경우에는 코키워드(co-keyword) 분석이 되고, 요소가 특허 분류인 경우에는 공동 분류(co-classification) 분석이 된다.
하지만, 이러한 코키워드 분석이나 공동 분류 분석은 근본적으로 다음과 같은 문제가 있다.
첫째, 타인에 의해 이미 공기가 발생한 키워드나 특허 분류이므로, 이러한 것들에 대한 연구(R&D)는 특허성이 없거나 적어도 특허성 중 진보성이 낮을 가능성이 높다.
둘째, 공기 관계가 특허 문서에서 발견된 것인 경우, 그 공기 관계는 이미 타인에 의해서 법률적으로 선점된 기술 영역이 될 가능성이 높다. 아울러, 타인의 특허 문서에서 발생된 공기 관계에 있는 요소 기술들을 실시할 경우, 특허권 침해의 가능성도 상대적으로 높을 수 있다.
이에, 기존의 공개된 문서에서 공기 관계가 없어, 선점이나 연구의 가치가 상대적으로 더 높을 수 있는 미래 연구 가능성 높은 기술 키워드 추천 방법의 개발이 요청되어 왔다. 공개된 문서에서 공기 관계가 없는 키워드 쌍은 타인에 의해 법률적으로 선점되거나 연구되지 않았을 가능성이 더 높을 수 있다. 나아가, 추천되는 기술 키워드의 유망성이나 미래 연구 가치에 대한 분석 정보가 연구자들에게 제공될 경우, 기술 융합을 획기적으로 촉진시킬 수 있을 것이다.
1020100068532 A 1015075210000 B 1020070084004 A
본 발명이 해결하고자 하는 첫번째 기술적 과제는 기술 키워드 추천 장치를 개시하는 것이다.
본 발명이 해결하고자 하는 두번째 기술적 과제는 기술 키워드 추천 장치의 기술 키워드 추천 방법을 개시하는 것이다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 기술 키워드 추천 장치의 정보 처리 방법에 있어서, 상기 기술 키워드 추천 장치가 (A)문서 집합에서 생성한 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성하는 단계; (B)상기 코키워드 매트릭스의 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성하는 단계; (C)개별 키워드에 대하여 상기 코키워드 매트릭스 및 키워드-코키워드 속성 데이터를 사용하여 상기 키워드의 추천 키워드 후보군을 생성하는 단계; 및 (D) 상기 추천 키워드 후보군에서 상기 개별 키워드에 대한 추천 키워드를 선별하는 단계;를 포함하며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있는 적어도 하나 이상의 코키워드와 코키워드 관계에 있는 것이며, 상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있지 아니한 것이며, 상기 코키워드 및 상기 추천 키워드는 적어도 하나 이상의 키워드 평가 속성을 가지는 것이며, 상기 키워드-코키워드는 적어도 하나 이상의 키워드-코키워드 관계 평가 속성을 가지는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법을 제시한다.
상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이며, 상기 키워드 평가 속성을 사용하는 키워드 평가 속성값에는 상기 하위 키워드 평가 속성별 하위 키워드 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 키워드 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 키워드 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이며, 상기 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함하는 것이며, 상기 키워드-코키워드 관계 평가 속성을 사용하는 관계 평가 속성값에는 상기 하위 관계 평가 속성별 하위 관계 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 관계 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 관계 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이 바람직하다.상기 키워드 평가 속성에는 상기 키워드가 포함되어 있는 키워드-문서 집합의 평가 속성을 포함하는 것인 것이며, 상기 키워드-코키워드 관계 평가 속성에는 상기 키워드-코키워드별로 상기 키워드와 상기 코키워드가 모두 포함되어 있는 키워드-코키워드-문서 집합의 평가 속성을 포함하는 것인 것이 바람직하다.
상기 (D) 단계는 상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 추천 키워드 평가 함수로 처리하는 제1 방법 및 상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 제2 방법 중 어느 하나 이상의 방법으로 수행되는 것인 것이 바람직하다.
상기 (D) 단계는 상기 추천 키워드를 구성하는 문자열이 상기 키워드를 포함하고 있는 경우, 상기 추천 키워드를 배제하는 방식으로 처리되는 것인 것이 바람직하다.
상기 (A) 단계에서, 상기 코키워드는 적어도 하나 이상의 키워드 평가 속성값을 가지는 것이며, 상기 코키워드 매트릭스는 상기 코키워드에 대한 코키워드 평가 속성값이 기 설정된 기준 이상을 초과하는 코키워드만으로 구성되는 것인 것이 바람직하다.
(A1) 상기 코키워드 매트릭스를 가공하여 매개 키워드 매트릭스를 생성하고 상기 생성된 매개 키워드 매트릭스를 사용하여 상기 (B)단계를 실행하는 단계;를 더 포함하며, 상기 코키워드 매트릭스를 가공하여 매개 키워드 매트릭스를 생성하는 것은 (A11) 키워드별로 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 매개 키워드를 생성하는 단계; 및 (A12) 상기 매개 키워드만으로 상기 키워드-매개 키워드 매트릭스를 축약하는 단계;를 포함하는 것이 바람직하다.
상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 방법은 (E1) 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성하는 단계; (E2) 상기 제1 기준 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계; (E3) 상기 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드-추천 키워드에 대한 반응 변수값을 생성하는 단계; (E4) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성하는 단계; (E5) 모델 적용 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계; (E6) 상기 생성된 예측 모델에 상기 (E5) 단계에서 생성된 독립 변수값을 적용하여 예측 정보를 생성하는 단계; 및 (E7) 상기 예측 정보를 사용하여, 상기 키워드-추천 키워드 평가 정보를 생성하는 단계;를 포함하는 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 상기 방법 중 어느 하나의 방법을 실시하는 것을 특징으로 하는 기술 키워드 추천 장치를 제시한다.
본 발명을 활용하면 다음과 같은 효과가 있다.
첫째, 기존의 공개된 문서에서 공기 관계가 없어, 선점이나 연구의 가치가 상대적으로 더 높을 수 있는 미래 연구 가능성 높은 기술 키워드를 체계적으로 발굴할 수 있다.
둘째, 추천 되는 기술 키워드에 포함되는 추천 근거 정보를 통하여, 데이터 및 분석 자료에 기반하여 연구/기술 개발 대상을 체계적으로 좁힐 수 있다.
셋째, 보유하고 있는 기술에 대한 새로운 확장, 연계, 활용 및 응용 분야를 동종 분야뿐만 아니라 이종 분야에 까지 효과적으로 탐색할 수 있다.
넷째, 키워드 추천을 위해서 생성되는 키워드-코키워드 매트릭스, 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보는 기술 키워드 추천 뿐만 아니라 다양한 기술 정보 분석에서 활용될 수 있다.
도 1은 본 발명의 기술 키워드 추천 장치가 구현되는 네트워크적 구성 관한 일 실시예적 도면이다.
도 2는 본 발명의 기술 키워드 추천 장치의 키워드 데이터 생성 모듈에 관한 일 실시예적 도면이다.
도 3은 본 발명의 기술 키워드 추천 장치의 추천 키워드 모듈에 관한 일 실시예적 도면이다.
도 4는 본 발명의 기술 키워드 추천 장치의 추천 키워드 예측 모델 모듈에 관한 일 실시예적 도면이다.
도 5는 본 발명의 기술 키워드 추천 장치의 데이터부에 관한 일 실시예적 도면이다.
도 6은 본 발명의 기술 키워드 추천 장치의 정보 처리 방법에 관한 일 실시예적 도면이다.
도 7은 본 발명의 기술 키워드 추천 장치의 코키워드 매트릭스 생성 방법에 관한 일 실시예적 도면이다.
도 8은 본 발명의 기술 키워드 추천 장치의 키워드, 키워드-코키워드별로 속성 데이터 생성 방법에 관한 일 실시예적 도면이다.
도 9는 본 발명의 기술 키워드 추천 장치의 개별 키워드에 대한 키워드의 추천 키워드 후보군 생성 방법에 관한 일 실시예적 도면이다.
도 10은 본 발명의 기술 키워드 추천 장치의 매개 키워드 매트릭스 생성 방법에 관한 일 실시예적 도면이다.
도 11은 본 발명의 기술 키워드 추천 장치의 매개 키워드 매트릭스의 활용 방법에 관한 일 실시예적 도면이다.
도 12는 본 발명의 기술 키워드 추천 장치의 추천 키워드 평가 함수 처리 방법에 관한 일 실시예적 도면이다.
도 13은 본 발명의 기술 키워드 추천 장치의 추천 모델 생성 방법에 관한 일 실시예적 도면이다.
도 14는 본 발명의 기술 키워드 추천 장치의 추천 모델의 적용 방법에 관한 일 실시예적 도면이다.
도 15는 본 발명의 기술 키워드 추천 장치의 기술 키워드 추천 방법에 관한 일 실시예적 도면이다.
도면을 참조하면서 본 발명 사상에 대해서 더욱 더 상세하게 설명한다.
본 발명의 기술 키워드 추천 장치(100)는 유무선 네트워크(500)를 통하여 적어도 하나 이상의 사용자 시스템(200)과 정보를 주고 받는다. 사용자 시스템(200)은 개인 사용자 단말기일 수도 있지만, 특정한 서비스를 수행하는 서버, 기능 모듈, 프로세서, 장치, 또는 기타 시스템일 수 있다.
상기 기술 키워드 추천 장치(100)는 문서에서 키워드 데이터를 생성하는 키워드 데이터 생성 모듈(1000), 추천 키워드의 생성 및 입출력 처리를 수행하는 추천 키워드 처리 모듈(2000), 예측 기반의 추천 키워드 정보 처리는 수행하는 추천 키워드 예측 모듈(3000), 기술 키워드 추천 장치(100)가 보유, 입수, 가공 및 처리하는 데이터를 저장하는 데이터부(4000) 및 내부 또는 상기 사용자 시스템(200)과의 정보 처리를 담당하는 서비스 지원부(5000)를 포함한다.
도 6에서 예시되듯이, 본 발명의 기술 키워드 추천 장치(100)는 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성(S11)하고, 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성(S12)하며, 개별 키워드에 대한 키워드의 추천 키워드 후보군을 생성(S13)하고, 개별 키워드에 대한 추천 키워드를 선별(S14)하는 기능을 수행한다. 각각에 대해서 상세히 후술한다.
도 2를 참조하면서 상기 키워드 데이터 생성 모듈(1000)을 설명한다. 상기 키워드 데이터 생성 모듈(1000)은 기반 키워드 데이터 생성 모듈(1100)과 키워드-코키워드 모듈(1200)을 포함한다. 상기 기반 키워드 데이터 생성 모듈(1100)에는 문서 데이터로부터 키워드 데이터를 생성하는 키워드 생성 모듈(1110), 생성된 키워드의 속성 데이터를 생성하는 키워드 속성 생성 모듈(1120) 및 키워드에 대한 평가 데이터를 생성하는 키워드 평가 모듈(1130)을 포함할 수 있다. 한편, 상기 키워드-코키워드 모듈(1200)은 키워드별로 코키워드를 생성하는 코키워드 생성 모듈(1210), 키워드-코키워드 쌍에 대한 속성 정보를 생성하는 키워드-코키워드 속성 생성 모듈(1220) 및 키워드-코키워드에 대한 평가 정보를 생성하는 키워드-코키워드 평가 모듈(1230)을 포함하고 있다.
도 2에서 예시되듯이, 상기 기반 키워드 데이터 생성 모듈(1100)의 키워드 생성 모듈(1110)은 문서의 특정 부분에 대한 형태소 분석 및 키워드 추출(S21)한 다음, 문서에 대한 대표성 높은 키워드 추출 및 키워드-문서 식별자값을 생성(S22)한다. 상기 키워드-코키워드 모듈(1200)의 코키워드 생성 모듈(1210)은 키워드-문서 식별자 정보를 사용하여 키워드-문서 식별자 행렬을 생성(S23)하고, 키워드-문서 식별자 행렬로 코키워드 매트릭스를 생성(S24)한다.
상기 키워드 생성 모듈(1110)의 정보 처리 방법에 대해서 더욱 더 상세하게 설명한다.
상기 키워드 생성 모듈(1110)이 처리하는 문서는 각 국가의 특허 문서, 논문 및 위키피디어와 같은 비정형 문서 등이 있다. 특허 문서에서는 특허 문서 전체 또는 발명의 명칭, 요약, 배경 기술 및 특허 청구 범위 필드 등과 같은 특허 명세서를 구성하는 특정 필드만이 대상이 될 수 있다. 논문도 제목, 요약, 결론 등과 같은 특정한 필드나 논문 전체가 될 수 있다. 상기 특허 문서는 각국 특허청이 발행하는 각 국가별 표준 언어로 된 문서도 있지만, 기계 번역을 통한 특허 문서 또는 KPA/PAJ 등과 같은 영문 초록 등도 본 발명의 특허 문서가 된다. 이하, 특허 문서를 대상으로 설명하나, 본 발명 사상은 특허 문서 뿐만 아니라, 논문이나 위키피디어 문서 등과 같은 비정형 문서에서도 적용됨은 당연할 것이다.
상기 키워드 생성 모듈(1110)은 형태소 분석기 등과 같은 텍스트 처리 도구를 통하여 특허 문서에서 품사 태킹(tagging) 처리를 수행한 다음, 기 설정된 키워드 후보 추출 규칙을 사용하여 특허 문서에서 키워드 후보군을 추출한다. 키워드 후보 추출 규칙의 예는 i) 명사 또는 명사열, ii) 형용사 + 명사열, iii) 명사열+형용사+명사열, iv) 명사열+전치사+명사열, v)형용사+명사열+전치사+명사열 등이 있다. 상기 키워드 생성 모듈(1110)은 추출된 키워드 후보별로 TF/IDF 등과 같은 통상적인 키워드 선별 규칙을 적용하거나, 사전 데이터부(4510) 또는 용어 데이터부(4520) 등과 같은 언어 자원 데이터부(4500)에 조회한 다음 문서 중요도 점수를 계산한다. 문서 중요도 점수가 기 설정된 기준을 상회하거나, 문서 중요도 랭킹이 기 설정된 기준 내에 들어오는 키워드를 문서를 대표하는 키워드로 선별한다. 문서별로 n개의 키워드에 대하여, i) 문서 중요도 점수, ii) 문서의 각 필드(독립항 또는 종속항 등 세부 필드 등도 포함될 수 있다)별에서 출현 회수, 키워드의 단어수, 키워드의 문자수 등과 같은 기본적인 문서-키워드 속성도 집계되어 저장한다.
상기와 같은 과정을 통하여 문서 식별자-키워드 매트릭스가 생성된다. 문서의 범위는 목적에 따라 i) 특정 국가내의 모든 특허 문서 또는 ii) 특정 국가 내의 제한 조건을 충족하는 특허 문서, i) 적어도 2 이상 국가의 모든 특허 문서 또는 ii) 적어도 2 이상 국가의 제한 조건을 충족하는 특허 문서가 될 수 있다. 제한 조건은 검색 키워드 제한, 시간 제한, 주체(권리자, 출원인 등) 제한, 주체 속성(기업/대기업/일정 규모 이상의 기업, 대학, 연구 기관, 개인 등) 제한, 속성 제한(거래 회수, 소송 사용, 표준 특허풀 등재, (심사관) 인용/피인용 회수 등), 기술 분야(IPC/CPC/FI/FT 등) 제한 중에서 선택되는 2 이상이 될 수 있다.
예시적으로 미국 전체 특허에 대한 상기 문서 식별자-키워드 매트릭스의 형태는 하기 표 1과 같다.
KW1 KW2 KW3 . . . KWm
P1 1 1 1
P2 1 1 1
P3 1 1
. . .
Pn 1 1
(예시적으로 n >= 900만, m>=100만, 각 셀에서 1은 Pi에 KWj가 존재함을 의미, 빈 칸은 존재하지 않음을 의미)
표 1에서 X축은 키워드, Y 축은 문서 식별자가 된다.
상기 표 1과 같은 행렬 A가 있을 때 P1에는 KW1, KW2, KW3이 포함되어 있음을 알 수 있다. 이때, 키워드별 문서 중요도 등과 같은 속성 정보가 사용되면 상기 표 1과 같은 행렬은 큐브가 된다. Z 축에는 특허(Pi)만의 경우에는 특허 속성 정보(예, 시간, 주체, 속성, 기술 분야 등)가 대응되고, 키워드(KWj) 만의 경우에는 키워드 속성 정보(키워드 길이, 단어수, 특정 사전 등재 여부, 특정 사전 등재 용어 포함 여부 등)가 대응되며, (Pi, KWj)의 경우에는 KWj의 Pi에서의 키워드 속성 정보(종합적 평가 정보 포함)가 대응된다. 이때, 설명의 편의상 종합적 평가 정보만을 적용하면, 상기 표 1은 하기 표 2와 같이 1 => 실수(실수의 가장 간단한 예는 not 1인 자연수가 된다)로 변형될 수 있다.
KW1 KW2 KW3 . . . KWm
P1 9 7 3
P2 8 6 4
P3 5 6
. . .
Pn 4 5
본 발명에서는 실제 정보 처리는 표 2와 같은 행렬 또는 상기에서 설명한 큐브를 통해서 처리된다. 다만, 발명 사상의 용이한 설명을 위하여 표 2과 같이 자연수를 사용한 것을 설명한다.
상기 표 2와 같은 행렬을 A라 하면, 트랜스포즈(transpose) 행렬 At를 생성하면 하기 표 3과 같이 된다.
P1 P2 P3 . . . Pn
KW1 9 8
KW2 7 5 4
KW3 3 6 6
. . .
KWm 5
이때, 상기 KW1은 P1, P2에서 존재한다. 이와 같이 KWj마다 KWj를 포함하고 있는 특허 집합 PS(KWj)이 대응된다. 상기 키워드 속성 생성 모듈(1120)은 상기 PS(KWj)를 분석하여 예시적으로하기 표 4 내지 표 5와 같은 키워드별 키워드 평가 속성 변수별 키워드 평가 속성 정보를 생성(S31)한다. 하기 표 4 내지 표 5는 예시적으로 "bluetooth low energy"라는 키워드에 대한 것이다. "bluetooth low energy"라는 키워드를 포함하고 있는 특허 집합(PS(bluetooth low energy))을 구성하는 1,232개의 특허의 집합적 속성을 분석하여 하기 표 4 내지 표 5와 같은 키워드별 키워드 평가 속성 변수별 키워드 평가 속성 정보가 생성된다.
하기 표 4 내지 표 5는 임의의 특허 집합에 대한 집합적 속성을 변수화하는데 사용될 수 있다.
평가 속성 변수 그룹 평가 속성 변수
R&D 총량 총 공개된 특허수
R&D의 최근성 1-3년 동안 공개된 특허수
R&D의 최근성 비율 : 1-3년/전 기간 공개된 특허수
R&D의 최근성 비율 : 1년/1-3년 공개된 특허수
R&D 트렌드 1년전 공개된 특허수
R&D 트렌드 2년전 공개된 특허수
R&D 트렌드 3년전 공개된 특허수
특허 거래량 합계 : 특허가 거래된 회수
특허 거래의 최근성 합계 : 1-3 년간 특허가 거래된 회수
특허 거래의 최근성 비율 : 1-3년/전 기간 특허가 거래된 회수
국내 특허 포트폴리오 평균 : US 패밀리 특허수(>=1)
국내 특허 포트폴리오 평균 : 1-2년 간 생성된 US 패밀리 특허수(>=1)
글로벌 특허 포트폴리오 평균 : 해외 패밀리 특허수(>=1)
글로벌 특허 포트폴리오 평균 : 1-2년 간 생성된 해외 패밀리 특허수
국가별 특허 포트폴리오 평균 : CN 패밀리 특허수(>=1)
국가별 특허 포트폴리오 평균 : 1-2년 간 생성된 CN 패밀리 특허수(>=1)
국가별 특허 포트폴리오 평균 : EU 패밀리 특허수(>=1)
국가별 특허 포트폴리오 평균 : 1-2년 간 생성된 EU 패밀리 특허수(>=1)
국가별 특허 포트폴리오 평균 : JP 패밀리 특허수(>=1)
국가별 특허 포트폴리오 평균 : 1-2년 간 생성된 JP 패밀리 특허수(>=1)
국가별 특허 포트폴리오 평균 : KR 패밀리 특허수(>=1)
국가별 특허 포트폴리오 평균 : 1-2년 간 생성된 KR 패밀리 특허수(>=1)
권리 유지를 위한 비용 지출 평균 : 연차유지기간
권리 유지를 위한 비용 지출 비율 : 1-3년전 소멸된 특허 중 연차료 불납으로 소멸된 특허
평가 속성 변수 그룹 평가 속성 변수
관심의 총량 합계 : 심사관 피인용수
관심의 최근성 합계 : 1-3 년간 심사관 피인용수
관심의 최근성 비율 : 1-3년/전 기간 심사관 피인용수
관심의 최근성 비율 : 1년/1-3년 심사관 피인용수
규모 속성 평균 : 전 기간 권리자 규모
규모 속성 비율 : 1-3년/전 기간 권리자 규모
규모 속성 비율 : 1년/1-3년 권리자 규모
비기업 참여자 속성 비율 : 대학이 현재 권리자인 특허
비기업 참여자 속성 비율 : 연구 기관이 현재 권리자인 특허
NPE(Patent Troll etc.) 참여 속성 비율 : NPE가 현재 권리자인 특허
자사의 선행 R&D에 대한 참조 평균 : self 특허 레퍼런스수(>=1)
자사의 선행 R&D에 대한 참조 비율 : self 특허 레퍼런스가 있는 특허/자신의 전체 특허
자사의 후행 R&D에 의한 참조의 최근성 합계 : self 피인용수
자사의 후행 R&D에 의한 참조의 최근성 합계 : 1-3 년간 self 피인용수
자사의 후행 R&D에 의한 참조의 최근성 비율 : 1-3년/전 기간 self 피인용수
자사의 후행 R&D에 의한 참조의 최근성 비율 : 1년/1-3년 self 피인용수
분쟁량 합계 : 특허가 소송에 사용된 회수
분쟁의 최근성 합계 : 1-3 년간 특허가 소송에 사용된 회수
분쟁의 최근성 비율 : 1-3년/전 기간 특허가 소송에 사용된 회수
분쟁의 최근성 비율 : 1년/1-3년 특허가 소송에 사용된 회수
관련 산업 관련성이 가장 높은 WIPO Industry
관련 산업 관련성이 가장 높은 WIPO Industry의 비중
관련 산업 관련성이 두번째로 높은 WIPO Industry
관련 산업 관련성이 두번째로 높은 WIPO Industry의 비중
관련 산업 관련성이 세번째로 높은 WIPO Industry
관련 산업 관련성이 세번째로 높은 WIPO Industry의 비중
표준 비율 : 표준 특허수/전체 특허
표 4 내지 표 5에서 예시하는 바와 같이, 상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이 있다.
상기 키워드 평가 모듈(1130)은 키워드에 대한 평가 정보를 생성한다. 키워드 평가 정보는 키워드 속성 정보를 사용하여 기 설정된 평가 모델/수식/알고리즘을 적용한 평가값을 말한다. 예시적으로 상기 키워드 평가 모듈(1130)은 하기와 같은 방식으로 키워드 평가 모델을 생성할 수 있다.
상기 키워드 평가 모듈(1130)은 (KEM1) 제1 기준 시점을 기준으로 상기 키워드별 키워드 속성 정보를 독립 변수로 하는 독립 변수값을 생성하는 단계; (KEM2) 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드에 대한 반응 변수값(예, 키워드 빈도 증감율)을 생성하는 단계; (KEM3) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 키워드 평가 모델을 생성하는 단계를 통하여 키워드 평가 모델을 생성할 수 있다. 이어, 상기 키워드 평가 모듈(1130)은 (KEM3) 키워드 평가 모델의 적용 시점을 기준으로 키워드에 대한 독립 변수별 독립 변수값을 생성하고 (KEM5)생성된 예측 모델에 생성된 독립 변수값을 적용하는 방식으로 키워드별로 키워드 평가값을 생성할 수 있게 된다. 키워드 평가값은 평가 점수, 평가 등급 등이 될 수 있다.
예시적으로, 상기 키워드 평가 모듈(1130)은 "bluetooth low energy"라는 키워드에 대하여 평가 점수 99.9, 평가 등급 S를 부여할 수 있다. 평가 점수나 평가 등급을 부여할 때, 표 4 내지 표 5에 나타나 있는 "bluetooth low energy"라는 키워드에 대한 키워드 속성 평가 정보가 사용된다.
이어, 상기 키워드-코키워드 모듈(1200)의 정보 처리 방법에 대해서 설명한다.
이때, 상기 키워드-코키워드 모듈(1200)의 코키워드 생성 모듈(1210)은 At*A 처리를 통해서 키워드-코키워드 행렬(CoA)을 생성한다. 상기 표 2의 데이터와 같은 예에서, 예시적으로 (KW2, KW3)은 코키워드 관계가 된다. 그리고, (KW2, KW3)는 특히 P1, P3에 나타나며, 빈도는 2가 된다. 이때, P1, P3가 가지는 특허 속성(시간, 주체, 인용/피인용, 거래, 소송, 표준, 기술 분야 등)이 적용되면 (KW2, KW3)의 다양한 속성이 발생한다. 코키워드 (KWi, KWj)에 대응되는 특허 집합 PS(KWi,KWj)의 집합적 속성을 활용하면, (KWi, KWj)에 대하여 표 4와 같은 키워드-코키워드 속성 정보가 생성될 수 있다.
본 발명의 키워드-코키워드 속성 생성 모듈(1220)은 (KWi, KWj)에 대하여 표 4 내지 표 5와 같은 키워드-코키워드별 키워드-코키워드 관계 평가 속성 정보를 생성(S32)한다. 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함할 수 있다.
한편, 상기 키워드-코키워드 평가 모듈(1230)은 키워드-코키워드 관계 속성 정보를 사용하여 기 설정된 적어도 하나 이상의 관계 평가 정보를 생성한다. 상기 키-코 관계 평가 정보의 생성은 전술한 상기 키워드 평가 모듈(1130)이 키워드에 대한 키워드 평가 정보를 생성하는 방식이 준용될 수 있다. 물론, 상기 키워드-코키워드 평가 모듈(1230)은 키-코의 빈도나 최근 n년간의 비중 등과 같은 간단하고 직관적인 평가 정보를 생성할 수도 있다.
도 3 및 도 9를 참조하면서 본 발명의 추천 키워드 처리 모듈(2000)의 구성 및 정보 처리에 대해서 설명한다.
상기 추천 키워드 처리 모듈(2000)은 개별 키워드에 대하여 추천 키워드를 생성하는 추천 키워드 생성 모듈(2100), 추천 키워드의 속성 정보를 생성하는 추천 키워드 속성 생성 모듈(2200), 추천 키워드의 평가 정보를 생성하는 추천 키워드 평가 모듈(2300)을 포함하고 있으며, 상기 추천 키워드 처리 모듈(2000)에게 개별 키워드를 전송하고 추천 키워드 정보를 전송받는 입출력 모듈(2400)을 포함하고 있다.
상기 추천 키워드 처리 모듈(2000)은 키워드별 코키워드 및 코키워드의 코키워드를 입수(S41)하고, 코키워드의 코키워드가 개별 키워드를 포함하는 지 비교하여 1차 탈락 코키워드의 코키워드를 선별(S42)하며, 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보를 입수(S43)하고, 키워드 평가 정보 및 관계 평가 정보로 2차 탈락 코키워드의 코키워드를 선별(S44)하며, 추천 키워드 후보군을 선별(S45)한다.
개별 키워드(Ki)가 있을 때, 개별 키워드의 코키워드는 CoA를 조회함으로써 입수할 수 있다. 개별 키워드의 코키워드(CoA(Ki))가 있을 때, n개의 코키워드CoA(Ki)j의 코키워드(CoA(Ki))마다 이들의 코키워드 CoA(CoA(Ki)j)를 생성할 수 있게 된다. 왜냐하면, 코키워드CoA(Ki)j도 전체 키워드 집합의 원소이며, 따라서, 코키워드CoA(Ki)j에 대한 코키워드들도 CoA를 통해서 입수될 수 있게 된다. 따라서, Ki가 있을 때, CoA(CoA(Ki)j)를 생성할 수 있게 되며, 이들은 원칙적으로 본 발명의 추천 키워드가 될 수 있다.
하지만, Ki에 대하여 CoA(CoA(Ki)j)를 구할 경우 CoA(CoA(Ki)j)의 개수가 너무 많게 되어, 저장 공간 비용 및 정보 수요자의 검토 비용/시간이 너무 많이 올라가는 문제점이 있다. 통상적으로 Ki에 대해서 CoA(Ki)의 개수는 n(작은 정수)~500 정도이나, CoA(CoA(Ki)j)의 개수는 n2~5002 정도가 되기 때문이다. 특히, Ki의 개수가 100만 정도 이상이면, CoA(CoA(Ki)j)의 행의 개수는 수십억 내지 수백억 행 이상이 되어 저장, 가공 및 조회 처리에 많은 비용이 들어 간다. 따라서, 이를 체계적으로 줄일 수 있는 발명 사상이 필요하다.
기본적인 접근 방법은 CoA(Ki)의 개수를 줄이는 것이다. 이를 위해서 본 발명의 추천 키워드 처리 모듈(2000)의 추천 키워드 생성 모듈(2100)은 하기와 같은 알고리즘을 적용할 수 있다.
첫째,i) Ki-CoA(Ki)의 빈도, 빈도의 최근성 및 빈도의 증가 속도, ii) CoA(Ki)의 키워드 속성(평가 점수 포함), iii) 키워드-코키워드 관계 평가 속성, iv) CoA(Ki)-CoA(CoA(Ki)j) 개수, 개수의 최근성 및 개수의 증가 속도 등에 기 설정된 가중치를 부여하여 CoA(Ki) 중에서 매개 CoA(Ki)인 MCoA(Ki)를 선별한다. Ki별로 선별된/축약된 매개 CoA(Ki)만으로 매개 키워드 매트릭스(MCoA)를 생성한다. 상기 추천 키워드 생성 모듈(2100)은 MCoA*CoA와 같은 행렬 연산을 통하여 개별 키워드 Ki에 대한 CoA((MCoA(Ki))j)를 생성한다. 이러한 사상은 도 10 및 도 11에 잘 나타나 있다. 본 발명의 추천 키워드 생성 모듈(2100)은 키워드별 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 키워드별 매개 키워드를 생성(S51)하고, 키워드별 매개 키워드만으로 키워드-매개 키워드 매트릭스를 축약(S52)한다. 상기 추천 키워드 생성 모듈(2100)은 키워드-코키워드 매트릭스를 입수하고, 키워드-코키워드 매트릭스에 매개 키워드를 반영(S61)하여, 키워드-매개 키워드 매트릭스와 매개 키워드 반영 키워드-코키워드 매트릭스를 연산(S62)을 수행한다.
둘째, 역 매핑으로 CoA(CoA(Ki)j)와 관계 평가 속성이 좋은 CoA(Ki)를 선정하는 것이다. 관계 평가 속성에는 빈도, 빈도의 최근성 등을 포함하는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성이 있을 수 있다. 아울러, 키워드로서의 CoA(CoA(Ki)j)의 키워드 평가 속성을 종합적으로 고려하여 소수 CoA(Ki)를 선정하거나, CoA(Ki)의 선별 랭킹을 생성할 수 있다. 예시적으로 요약하면, i) 다수의 CoA(CoA(Ki)j)와 코키워드 관계에 있고(CoA(CoA(Ki)j)들의 관점에서는 중첩성이 높고), ii) CoA(CoA(Ki)j)들의 키워드 평가 속성이 좋으며, iii) CoA(CoA(Ki)j)들과의 코키워드 관계가 많고, 최근에 밀집해 있는 CoA(Ki)들을 선정하여 매개 키워드 MCoA(Ki)로 처리할 수 있다. 하나의 CoA(CoA(Ki)j)에 대하여 적어도 1개 이상의 매개 키워드 MCoA(Ki)가 대응될 수 있지만, 매개 키워드의 개수는 3을 넘지 않는 것이 바람직하다.
다른 방법은 CoA((MCoA(Ki))j)의 개수를 줄이는 것이다. 키워드로서의 CoA(CoA(Ki)j)의 키워드 평가 속성을 적용하여 기 설정된 기준 이상이 되는 CoA(CoA(Ki)j)만을 선별하는 것이다.
이때, CoA(CoA(Ki)j)에 Ki의 표현을 포함하고 있는 경우가 발생한다. 이럴 경우, CoA(CoA(Ki)j)는 Ki의 관점에서 자명한 경우가 있을 수 있다. 이러한 자명한 경우는 배제 처리를 수행하는 것이 바람직할 것이다. 자명성의 판단은 본 발명의 추천 키워드 생성 모듈(2100)이 수행한다. 자명한 경우의 대표적인 예로는 CoA(CoA(Ki)j)와 Ki 사이에서 system, device 등과 같은 DF(document frequency) 빈도가 높은 표현(with/without전치사) 만이 차이가 나는 경우이다. 한편, 많은 경우, DF가 낮더라도 CoA(CoA(Ki)j)에 Ki가 포함되어 있는 경우라면 좋은 추천 키워드가 되기는 쉽지 않을 수 있다. 이러한 배제 처리 필요성이 높은 CoA(CoA(Ki)j)는 Ki별로 별도로 저장하여 관리하는 것이 바람직할 것이다.
이어, 본 발명의 추천 키워드 속성 생성 모듈(2200)의 정보 처리 방법에 대해서 설명한다. 상기 추천 키워드 속성 생성 모듈(2200)은 추천 키워드의 속성을 생성한다. 추천 키워드의 속성은 크게 3가지 계열이 있다. 첫번째는 CoA(Ki)와 CoA(CoA(Ki)j)간의 관계 속성이다. 상기 관계 속성은 CoA(Ki)와 CoA(CoA(Ki)j)를 함께 포함하는 특허 집합인 PS(CoA(Ki), CoA(CoA(Ki)j)에 대한 속성 평가로 처리할 수 있으며, 구체적인 방법은 전술한 바와 같다. 두번째는 Ki와 CoA(Ki)의 관계 속성이다. 세번째는 CoA(CoA(Ki)j) 자체의 속성이다. 본 발명의 추천 키워드 평가 모듈(2300)은 이러한 3가지 계열의 추천 키워드 속성을 종합하여 추천 키워드의 평가 정보를 생성한다.
이어, 상기 추천 키워드 평가 모듈(2300)이 평가 함수를 사용하여 추천 키워드 평가 정보를 처리하는 방법에 대해서 도 12를 참조하면서 설명한다. 상기 추천 키워드 평가 모듈(2300)은 코키워드 평가 정보, 키워드-코키워드 관계 평가 정보, 코키워드의 코키워드 평가 정보, 코키워드의 코키워드 관계 평가 정보에 대한 추천 규칙에 따른 추천 가중치값을 생성(S71)하고, 추천 가중치값을 적용한 추천 키워드 평가 함수를 생성(S72)하며, 개별 키워드별로 생성된 추천 키워드 후보군에 추천 키워드 평가 함수를 적용(S73)하여 추천 키워드 평가값을 기준으로 개별 키워드별 추천 키워드를 선별(S74) 처리한다.
이어, 상기 추천 키워드 예측 모듈(3000)이 예측 모델을 사용하여 추천 키워드 평가 정보를 처리하는 방법에 대해서 도 13 내지 도 14를 참조하면서 설명한다. 상기 추천 키워드 예측 모듈(3000)은 변수를 생성하는 변수 생성 모듈(3100)과 모델링을 수행하는 모델링 모듈(3200) 및 모델을 적용하는 모델 적용 모듈(3300)을 포함하고 있다. 먼저 예측 모델을 생성하는 방법에 대해서 설명한다.
상기 추천 키워드 예측 모듈(3000)은 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성(S81)하고, 제1 기준 시점을 기준으로 키워드-추천 키워드의 생성에 사용되는 키워드, 코키워드, 추천 키워드 및 키워드-코키워드에 대한 독립 변수별 독립 변수값을 생성(S82)한 다음, 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 키워드-추천 키워드에 대한 반응 변수값을 생성(S83)하고, 반응 변수값과 독립 변수값을 대상으로 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성(S84)한다.
예를 들면, 2018년 1월 기준이라면, 제1 기준 시점은 2014년12월31일이 될 수 있으며, 제2 기준 시점은 2017년12월31일이 될 수 있다. 상기 추천 키워드 예측 모듈(3000)은 2014년12월31일을 기준으로 Ki별로 Ki-CoA(CoA(Ki)j), (매개 키워드를 사용하는 경우에는 Ki-CoA((MCoA(Ki))j))), 데이터에 대하여 독립 변수별 독립 변수값을 생성한다. 독립 변수의 예는 PS(Ki), PS(CoA(Ki)j), PS(Ki,CoA(Ki)), PS(Ki,CoA(CoA(Ki)j))에 대한 집합적 속성이 될 수 있다. PS(Ki), PS(CoA(Ki)j), PS(Ki,CoA(Ki)), PS(Ki,CoA(CoA(Ki)j))에 대한 집합적 속성의 예는 상기 표 4 내지 ㅍ 5표에 예시되어 있다.
반응 변수는 2015년1월1일부터 2017년12월31일까지 Ki-CoA(CoA(Ki)j)의 존재 여부 또는 빈도가 될 수 있다. 존재 여부를 반응 변수로 할 경우에는 상기 예측 모델은 분류 모델이 되며, 빈도가 될 경우에는 상기 예측 모델은 회귀 모델(regression model)이 된다. 기계 학습 알고리즘은 부스팅(boosting) 등과 같은 앙상블 계열의 알고리즘이나, 딥러닝(deep learning)과 같은 신경망(neural network) 계열의 알고리즘을 사용할 수 있다.
예측 모델의 테스팅은 백테스팅(back testing)을 하는 것이 가장 바람직하다. 하지만, 70% 정도의 데이터는 모델링용, 30% 정도의 데이터는 테스팅으로 사용하는 방식으로 테스팅을 할 수도 있다. 한편, 5 fold cross validation 등을 통하여 각 알고리즘마다 최적 파라미터 집합에 대한 튜닝을 할 수 있다.
이어, 상기 추천 키워드 예측 모듈(3000)이 생성된 예측 모델을 적용하는 방법에 대해서 설명한다. 상기 추천 키워드 예측 모듈(3000)은 모델 적용 시점을 기준으로 키워드-추천 키워드의 생성에 사용되는 키워드, 코키워드, 추천 키워드 및 키워드-코키워드에 대한 독립 변수별 독립 변수값을 생성(S91)하고, 생성된 예측 모델에 생성된 독립 변수값을 적용하여 예측 정보를 생성(S92)한다. 상기 추천 키워드 평가 모듈(2300)은 예측 정보를 사용하여, 키워드-추천 키워드 평가 정보를 생성(S93)한다. 상기에서 모델 적용 시점의 예는 2018년 1월1일이 될 수 있다.
본 발명의 구현 과정에서 생성된 모든 데이터는 본 발명의 데이터부(4000)에 저장된다. 상기 데이터부(4000)에는 기술 문서 데이터(4100)를 포함하고 있는데, 기술 문서 데이터(4100)에는 특허 문서 데이터(4110) 및 논문 문서 데이터(4120) 등이 포함되고 있다. 상기 키워드 DB부(4200)에는 문서에서 추출한 키워드가 문서 식별 정보와 함께 저장되어 있는 문서-키워드 DB(4210), 키워드에 대한 속성 정보가 저장되어 있는 키워드 DB(4220), 키워드 및 그 키워드와 코키워드 관계에 있는 키워드에 관한 제반 정보가 저장되어 있는 키워드-코키워드 DB(4230), 키워드별 추천 키워드에 관한 제반 정보가 저장되어 있는 키워드-추천 키워드 DB(4240) 및 키워드 추천을 위한 규칙, 함수, 가중치 등에 대한 정책 정보가 저장되어 있는 키워드 추천 규칙 DB(4250)를 포함하고 있다. 모델 지원 DB부(4300)에는 키워드별, 키워드-코키워드별 파라미터 정보가 저장되어 있는 키워드 파라미터 DB부(4310), 키워드별, 키워드-코키워드별 메타 정보가 저장되어 있는 키워드 메타 정보 DB부(4320)가 포함되어 있다. 비기술문서 DB부(4400)에는 위키피디어나 기타 비특허, 비논문 문서 데이터가 포함되어 있다. 언어 자원 데이터부(4500)에는 번역용 사전 등과 같은 각종 사전 데이터가 포함되어 있는 사전 데이터부(4510) 및 각종 기술 분야별 용어 데이터, 일렉트로피디어, 위키피디어 표제어, 워드넷 용어 등과 같은 가 포함되어 있는 용어 데이터부(4520)가 포함되어 있다.
이어, 도 15를 참조하면서 본 발명의 기술 키워드 추천 장치(100)의 기술 키워드 추천 처리 방법을 설명한다.
상기 기술 키워드 추천 장치(100)는 적어도 하나 이상의 개별 키워드를 입수(S10)하고, 입수 키워드에 대한 추천 키워드를 조회(S102)하며, 추천 키워드 리스트 및 추천 근거 정보를 입수(S103)하고, 추천 키워드 리스트 및 추천 근거 정보를 제공(S104)한다.
하기 표 6는 US 특허를 기준으로 하여 개별 키워드 convex optimization에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.
추천 키워드 추천 점수 추천 강도 추천 키워드 점수 추천 키워드 특허수 매개 키워드 매개 키워드 점수 매개 키워드 개수
channel state information priority 90.5 10 78.4 4 channel state 99.9 2
prioritized csi 90.7 10 91.2 5 channel state 99.9 2
channel state information priority 90.5 10 78.4 4 channel state information 99.9 2
prioritized csi 90.7 10 91.2 5 channel state information 99.9 2
dmri data 91.2 10 53.9 3 resonance imaging 99.9 1
app state information 90.6 10 79.8 8 state information 99.8 1
rm encoder 90.0 9 60.1 4 channel state 99.9 2
available data resource element 90.4 9 58.8 3 channel state 99.9 2
qcl assumption 90.1 9 93.8 11 channel state 99.9 2
channel state information reporting mode 90.4 9 58.6 4 channel state 99.9 2
reference signal resource set 90.2 9 57.4 3 channel state 99.9 2
rm encoder 90.0 9 60.1 4 channel state information 99.9 2
available data resource element 90.4 9 58.8 3 channel state information 99.9 2
qcl assumption 90.1 9 93.8 11 channel state information 99.9 2
channel state information reporting mode 90.4 9 58.6 4 channel state information 99.9 2
reference signal resource set 90.2 9 57.4 3 channel state information 99.9 2
processing circuitry set 90.0 9 60.0 8 magnetic resonance 99.8 2
minibatch 89.6 9 58.7 4 neural network 99.9 1
input feature map 89.7 9 98.8 8 neural network 99.9 1
long short term memory layer 89.8 9 92.1 9 neural network 99.9 1
하기 표 7는 US 특허를 기준으로 하여 바이오 산업 분야의 개별 키워드 genome wide association study에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.
천키드 추천 점수 추천 강도 추천 키워드 점수 추천 키워드 특허수 매개 키워드 매개 키워드 점수
acenratsu 86.6 10 73.7 8 copy number 79.6
acenratsu 86.6 10 73.7 8 sequence analysis 73.8
gtnere 85.2 9 51.4 4 large data 86.0
fo 83.9 9 51.2 6 video mode 93.6
ltoooto 82.4 8 65.9 8 copy number variation 99.1
l e ylien 82.4 8 65.9 8 copy number variation 99.1
egreioi 82.4 8 65.9 8 copy number variation 99.1
btifs 81.7 8 65.9 8 copy number variation 99.1
fnse y batpi 81.7 8 65.9 8 copy number variation 99.1
y batpi 81.7 8 65.9 8 copy number variation 99.1
olcin f ifrnrrmtto 81.7 8 65.9 8 copy number variation 99.1
81.7 8 65.9 8 copy number variation 99.1
e ylien 81.7 8 65.9 8 copy number variation 99.1
eeagntc rfln 81.7 8 65.9 8 copy number variation 99.1
ifrnrrmtto 81.7 8 65.9 8 copy number variation 99.1
ifrnrrmttocleto 81.7 8 65.9 8 copy number variation 99.1
iouua 82.5 8 57.4 9 copy number variation 99.1
condtbsopoesnsre 82.5 8 88.6 19 data set 42.1
rcsig evr condtbs 82.4 8 88.6 19 data set 42.1
eoassacdt 82.9 8 63.2 4 data set 42.1
하기 표 8는 US 특허를 기준으로 하여 바이오 산업 분야의 개별 키워드 improving meat quality에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.
추천 키워드 추천 점수 추천 강도 추천 키워드 점수 추천 키워드 특허수 매개 키워드 매개 키워드 점수 매개 키워드 개수
qpcr master mix 78.2 10 50.3 6 quantitative pcr 98.8 1
epigenetic variation 75.6 9 53.1 5 quantitative pcr 98.8 1
clinical complete remission 75.6 9 80.4 13 quantitative pcr 98.8 1
clinical partial remission 75.5 9 80.4 13 quantitative pcr 98.8 1
clinical stable disease 75.5 9 80.4 13 quantitative pcr 98.8 1
microrna expression signature 75.0 8 53.1 5 mirna expression 89.9 1
detecting cpg methylation 74.7 8 56.8 13 quantitative pcr 98.8 1
detecting cpg 74.3 8 51.1 17 quantitative pcr 98.8 1
droplet digital pcr 74.2 8 62.4 15 quantitative pcr 98.8 1
level of rna expression 74.9 8 60.2 22 quantitative pcr 98.8 1
caudal type homeobox 74.7 8 63.2 12 quantitative pcr 98.8 1
caudal type 74.6 8 59.6 12 quantitative pcr 98.8 1
tbx5 74.8 8 95.6 32 quantitative pcr 98.8 1
real time methylation specific pcr 74.8 8 59.0 20 quantitative pcr 98.8 1
let 7d 73.6 7 67.4 9 mirna expression 89.9 1
next generation sequencing technology 74.1 7 50.3 10 mirna expression 89.9 1
cpg methylation status 73.7 7 55.2 21 quantitative pcr 98.8 1
dna junction 74.0 7 65.3 19 quantitative pcr 98.8 1
digital pcr 73.8 7 93.4 151 quantitative pcr 98.8 1
lim homeobox 74.1 7 58.6 15 quantitative pcr 98.8 1
하기 표 9는 US 특허를 기준으로 하여 IT 산업 분야의 개별 키워드 convolutional neural network에 대한 추천 키워드 정보의 예시이다. 추천 키워드를 생성하기 위하여 매개 키워드를 사용했으며, 1개의 추천 키워드에 매개 키워드 2 이상이 사용되는 경우가 다수 있다.
추천 키워드 추천 점수 추천 강도 추천 키워드 점수 추천 키워드 특허수 매개 키워드 매개 키워드 점수 매개 키워드 개수
aggregated dependency 95.0 10 73.4 12 computer storage 99.5 2
candidate hotword 95.0 10 99.1 12 computer storage 99.5 2
data describing entity 94.2 10 65.0 5 computer storage 99.5 2
respective time to live 94.1 10 64.3 8 computer storage 99.5 2
acoustic feature of audio data 94.9 10 73.1 7 computer storage 99.5 2
audio data acoustic feature 94.9 10 73.1 7 computer storage 99.5 2
aggregated dependency 95.0 10 73.4 12 computer storage medium 99.9 2
candidate hotword 95.0 10 99.1 12 computer storage medium 99.9 2
data describing entity 94.2 10 65.0 5 computer storage medium 99.9 2
respective time to live 94.1 10 64.3 8 computer storage medium 99.9 2
acoustic feature of audio data 94.9 10 73.1 7 computer storage medium 99.9 2
audio data acoustic feature 94.9 10 73.1 7 computer storage medium 99.9 2
zero day malware 93.4 10 64.7 7 machine learning 100.0 1
computing resource service provider system 92.5 9 59.5 8 computer storage 99.5 1
hardware acceleration plane 92.0 9 52.6 11 computer storage 99.5 1
feature vector model 91.8 9 51.9 5 feature vector 95.8 1
use of machine learning technique 93.3 9 60.3 6 machine learning 100.0 1
machine learning technique use 93.3 9 60.3 6 machine learning 100.0 1
monitoring activity of software application 92.4 9 74.8 8 machine learning 100.0 1
software application monitoring activity 92.4 9 74.8 8 machine learning 100.0 1
본 발명은 기술 정보 산업, 연구 개발 지원 사업, 데이터 기술 산업, 텍스트 처리 산업, 인공 지능 산업 등에 광범위하게 활용할 수 있다.
100 : 기술 키워드 추천 장치
1000 : 키워드 데이터 생성 모듈
1000 : 키워드 데이터 생성 모듈
1100 : 기반 키워드 데이터 생성 모듈
1110 : 키워드 생성 모듈
1120 : 키워드 속성 생성 모듈
1130 : 키워드 평가 모듈
1200 : 키워드-코키워드 모듈
1210 : 코키워드 생성 모듈
1220 : 키워드-코키워드 속성 생성 모듈
1320 : 모델 검증 모듈
200 : 사용자 시스템
2000 : 추천 키워드 처리 모듈
2100 : 추천 키워드 생성 모듈
220 : 추천키워드 속성 생성 모듈
2300 : 추천 키워드 평가 모듈
2310 : 키워드-코키워드 평가 모듈
2400 : 입출력 모듈
3000 : 추천 키워드 예측 모듈
3100 : 변수 생성 모듈
3110 : 독립 변수 생성 모듈
3120 : 종속 변수 생성 모듈
3200 : 모델링 모듈
3210 : 모델 생성 모듈
3300 : 모델 적용 모듈
4000 : 데이터부
4000 : 데이터부
4100 : 기술 문서 데이터
4110 : 특허 문서 데이터
4120 : 논문 문서 데이터
4200 : 키워드 DB부
4210 : 문서-키워드 DB
4220 : 키워드 DB
4230 : 키워드-코키워드 DB
4240 : 키워드-추천 키워드 DB
4250 : 키워드 추천 규칙 DB
4300 : 모델 지원 DB부
4310 : 키워드 파라미터 DB부
4320 : 키워드 메타 정보 DB부
4400 : 비기술문서 DB부
500 : 유무선 네트워크
5000 : 서비스 지원부
5100 : 통신부
5200 : 관리부

Claims (9)

  1. 기술 키워드 추천 장치의 정보 처리 방법에 있어서, 상기 기술 키워드 추천 장치가
    (A)문서 집합에서 생성한 키워드-문서 식별자 정보를 사용하여 코키워드 매트릭스를 생성하는 단계;
    (B)상기 코키워드 매트릭스의 키워드-코키워드별로 키워드-코키워드 속성 데이터를 생성하는 단계;
    (C)개별 키워드에 대하여 상기 코키워드 매트릭스 및 키워드-코키워드 속성 데이터를 사용하여 상기 키워드의 추천 키워드 후보군을 생성하는 단계; 및
    (D) 상기 추천 키워드 후보군에서 상기 개별 키워드에 대한 추천 키워드를 선별하는 단계;를 포함하며,
    상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있는 적어도 하나 이상의 코키워드와 코키워드 관계에 있는 것이며,
    상기 (C) 단계에서 상기 추천 키워드는 상기 개별 키워드와 코키워드 관계에 있지 아니한 것이며,
    상기 코키워드 및 상기 추천 키워드는 적어도 하나 이상의 키워드 평가 속성을 가지는 것이며,
    상기 키워드-코키워드는 적어도 하나 이상의 키워드-코키워드 관계 평가 속성을 가지는 것이며,
    상기 키워드 평가 속성에는 시간 기준 키워드 평가 속성, 기업 기준 키워드 평가 속성, 연구자 기준 키워드 평가 속성, 투자 기준 키워드 평가 속성, R&D 연속성 기준 키워드 평가 속성, 관심도 기준 키워드 평가 속성 중 적어도 하나 이상을 포함하는 하위 키워드 평가 속성을 포함하는 것이며,
    상기 키워드 평가 속성을 사용하는 키워드 평가 속성값에는 상기 하위 키워드 평가 속성별 하위 키워드 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 키워드 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 키워드 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것이며,
    상기 키워드-코키워드 관계 평가 속성에는 시간 기준 관계 평가 속성, 기업 기준 관계 평가 속성, 연구자 기준 관계 평가 속성, 투자 기준 관계 평가 속성, R&D 연속성 기준 관계 평가 속성, 관심도 기준 관계 평가 속성, 관계 강도 속성 중 적어도 하나 이상을 포함하는 하위 관계 평가 속성을 포함하는 것이며,
    상기 키워드-코키워드 관계 평가 속성을 사용하는 관계 평가 속성값에는 상기 하위 관계 평가 속성별 하위 관계 속성값을 직접 사용하거나, 적어도 2 이상의 상기 하위 관계 평가 속성값을 변수화하여 사용하거나, 목적별 모델링을 통하여 상기 하위 관계 평가 속성값을 처리한 결과값 중 어느 하나 이상을 포함하고 있는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.,
  2. 삭제
  3. 제1항에 있어서,
    상기 키워드 평가 속성에는 상기 키워드가 포함되어 있는 키워드-문서 집합의 평가 속성을 포함하는 것인 것이며,
    상기 키워드-코키워드 관계 평가 속성에는 상기 키워드-코키워드별로 상기 키워드와 상기 코키워드가 모두 포함되어 있는 키워드-코키워드-문서 집합의 평가 속성을 포함하는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.,
  4. 제1항에 있어서,
    상기 (D) 단계는
    상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 추천 키워드 평가 함수로 처리하는 제1 방법 및
    상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 제2 방법 중 어느 하나 이상의 방법으로 수행되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
  5. 제1항에 있어서,
    상기 (D) 단계는
    상기 추천 키워드를 구성하는 문자열이 상기 키워드를 포함하고 있는 경우, 상기 추천 키워드를 배제하는 방식으로 처리되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
  6. 제1항에 있어서,
    상기 (A) 단계에서,
    상기 코키워드는 적어도 하나 이상의 키워드 평가 속성값을 가지는 것이며,
    상기 코키워드 매트릭스는 상기 코키워드에 대한 코키워드 평가 속성값이 기 설정된 기준 이상을 초과하는 코키워드만으로 구성되는 것인 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
  7. 제4항에 있어서,
    (A1) 상기 코키워드 매트릭스를 가공하여 매개 키워드 매트릭스를 생성하고 상기 생성된 매개 키워드 매트릭스를 사용하여 상기 (B)단계를 실행하는 단계;를 더 포함하며,
    상기 코키워드 매트릭스를 가공하여 매개 키워드 매트릭스를 생성하는 것은
    (A11) 키워드별로 코키워드에 대한 키워드 평가 속성 및 키워드-코키워드 관계 평가 속성을 반영하여 매개 키워드를 생성하는 단계; 및
    (A12) 상기 매개 키워드만으로 키워드-매개 키워드 매트릭스를 축약하는 단계;를 포함하는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
  8. 제4항에 있어서,
    상기 키워드 평가 속성값 및 상기 키워드-코키워드 관계 평가 속성값을 예측 모델로 처리하는 방법은
    (E1) 제1 기준 시점을 기준으로 생성된 키워드-추천 키워드 데이터를 생성하는 단계;
    (E2) 상기 제1 기준 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계;
    (E3) 상기 제1 기준 시점으로부터 제2 기준 시점까지의 기간을 대상으로 상기 키워드-추천 키워드에 대한 반응 변수값을 생성하는 단계;
    (E4) 상기 반응 변수값과 상기 독립 변수값을 대상으로 기 설정된 기계 학습 알고리즘을 적용하여 모델링을 수행하여 예측 모델을 생성하는 단계;
    (E5) 모델 적용 시점을 기준으로 상기 키워드-추천 키워드의 생성에 사용되는 상기 키워드, 상기 코키워드, 상기 추천 키워드 및 상기 키워드-코키워드 중 적어도 어느 하나 이상에 대한 독립 변수별 독립 변수값을 생성하는 단계;
    (E6) 상기 생성된 예측 모델에 상기 (E5) 단계에서 생성된 독립 변수값을 적용하여 예측 정보를 생성하는 단계; 및
    (E7) 상기 예측 정보를 사용하여, 상기 키워드-추천 키워드 평가 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 기술 키워드 추천 장치의 정보 처리 방법.
  9. 제1항, 제3항 내지 제8항의 방법 중 어느 하나의 방법을 실시하는 것을 특징으로 하는 기술 키워드 추천 장치.
KR1020180011377A 2018-01-30 2018-01-30 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법 KR102515655B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180011377A KR102515655B1 (ko) 2018-01-30 2018-01-30 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180011377A KR102515655B1 (ko) 2018-01-30 2018-01-30 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190092055A KR20190092055A (ko) 2019-08-07
KR102515655B1 true KR102515655B1 (ko) 2023-03-30

Family

ID=67621700

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180011377A KR102515655B1 (ko) 2018-01-30 2018-01-30 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102515655B1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101069177A (zh) 2004-11-05 2007-11-07 株式会社Ipb 关键字抽取装置
KR101060594B1 (ko) 2008-12-15 2011-08-31 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
KR101382069B1 (ko) * 2012-02-08 2014-04-14 숭실대학교산학협력단 키워드 추천 장치 및 그 방법
KR101353521B1 (ko) * 2012-05-10 2014-01-23 경북대학교 산학협력단 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치
KR101507521B1 (ko) 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치

Also Published As

Publication number Publication date
KR20190092055A (ko) 2019-08-07

Similar Documents

Publication Publication Date Title
Sugiyama et al. Exploiting potential citation papers in scholarly paper recommendation
Singh et al. Relevance feedback based query expansion model using Borda count and semantic similarity approach
Tang et al. Patentminer: topic-driven patent analysis and mining
Bagheri et al. Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews
Liu et al. Full‐text citation analysis: A new method to enhance scholarly networks
Jonnalagadda et al. A new iterative method to reduce workload in systematic review process
Kim et al. Enriching text representation with frequent pattern mining for probabilistic topic modeling
Joseph et al. Content based news recommendation via shortest entity distance over knowledge graphs
Krishnan et al. Leveraging semantic resources in diversified query expansion
Xue et al. Ontology alignment based on instance using NSGA-II
CN110162711A (zh) 一种基于网络嵌入法的资源智能推荐方法及系统
Karimzadehgan et al. Integer linear programming for constrained multi-aspect committee review assignment
Soriano et al. Text mining in computational advertising
Deng et al. Exploring and inferring user–user pseudo‐friendship for sentiment analysis with heterogeneous networks
Garigliotti et al. Identifying and exploiting target entity type information for ad hoc entity retrieval
US20110184956A1 (en) Accessing digitally published content using re-indexing of search results
Peng et al. Large language model based long-tail query rewriting in taobao search
Sun et al. A hybrid approach for article recommendation in research social networks
Spitz et al. Exploring entity-centric networks in entangled news streams
Nawaz et al. A segregational approach for determining aspect sentiments in social media analysis
Li et al. The power of selecting key blocks with local pre-ranking for long document information retrieval
Zhang et al. PatSearch: an integrated framework for patentability retrieval
Alguliev et al. pSum‐SaDE: A Modified p‐Median Problem and Self‐Adaptive Differential Evolution Algorithm for Text Summarization
Qiu et al. CLDA: An effective topic model for mining user interest preference under big data background
Gu et al. MANSOR: a module alignment method based on neighbor information for scientific workflow

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right