KR20210136368A

KR20210136368A - 통계추론모델에 기반한 특허 성과지표 출력장치 및 방법

Info

Publication number: KR20210136368A
Application number: KR1020200054513A
Authority: KR
Inventors: 박상성; 이주현
Original assignee: 청주대학교 산학협력단
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2021-11-17
Also published as: KR102380021B1

Abstract

본 발명의 일 실시예는 통계추론모델에 기반한 특허 성과지표를 출력하는 장치 및 방법에 관한 것으로, 통계추론모델에 기반한 특허 성과지표 출력 방법은, 서지정보와 정량정보를 포함하는 특허 데이터를 각 문서별로 수집하는 단계; 상기 각각의 문서에 대하여 상기 정량정보에 대한 성과지표를 산출하는 단계; 상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 단계; 및 그래프, 다이어그램, 네트워크 구조를 포함하는 시각화 도구를 이용하여 상기 네트워크를 시각적으로 출력하는 단계를 포함한다.

Description

통계추론모델에 기반한 특허 성과지표 출력장치 및 방법{PATENT PERFORMANCE INDICATOR OUTPUT APPARATUS AND METHOD BASED ON STATISTICAL INFERENCE MODEL}

본 발명은 통계추론모델에 기반한 특허 성과지표 출력장치 제공 장치 및 방법에 관한 것으로, 더욱 상세하게는 특허의 서지정보와 정량정보를 이용하여 통계추론모델에 기반한 성과지표를 시각화하여 출력하는 장치 및 방법에 관한 것이다.

특허는 빠르게 생성되며 축적된 양이 방대하고 다양한 형태의 정보를 포함하는 빅데이터이다. 특허 빅데이터의 정성분석은 많은 시간과 비용이 소모된다. 또한, 전문가 기반 특허 분석은 전문가 의견에 편향된 결과가 도출될 수 있다. 이를 개선하기 위해 데이터 기반 특허 분석이 필요하다. 그리고 특허에 존재하는 많은 질적 지표 및 텍스트 정보를 사용할 필요가 있다.

최근 특허는 머신러닝 알고리즘과 결합되어 IP-R&D(Intellectual Property-R&D)에 활용되는 사례가 증가하고 있다. 특허는 많은 양의 텍스트 정보를 포함하여 분야별로 전문적인 내용을 상세히 담고 있기 때문에 전문가에 의존하여 분석되어 왔다. 그러나 전문가 기반 IP-R&D는 전문가의 의견에 편향될 수 있고 많은 시간과 비용이 소모된다는 단점이 있다.

본 발명이 해결하고자 하는 과제는 서지정보와 정량정보에 기초하여 객관적 성과지표를 산출하고, 서지정보와 성과지표를 통계추론모델에 적용함으로써, 객관적인 결과를 제공하고자 한다.

또한, 본 발명의 또 다른 목적은 서지정보와 성과지표를 통계추론모델에 기초하여 산출한 객관적인 결과값을 가시성 높은 시각적 자료로 나타내어 비전문가가 용이하게 이해할 수 있도록 하는데 있다.

본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)을 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 데이터 처리 장치에서 통계추론모델에 기반한 특허 성과지표를 출력하는 방법으로서, 서지정보와 정량정보를 포함하는 특허 데이터를 각 문서별로 수집하는 단계; 상기 각각의 문서에 대하여 상기 정량정보에 대한 성과지표를 산출하는 단계; 상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 단계; 및 그래프, 다이어그램, 네트워크 구조를 포함하는 시각화 도구를 이용하여 상기 네트워크를 시각적으로 출력하는 단계를 포함한다.

본 발명의 일 실시예에서는, 통계추론모델에 기반한 특허 성과지표를 출력하는 방법은 특허 통계추론모델에 기반한 성과지표 출력 방법은 상기 서지정보의 정형데이터를 텍스트마이닝하고 상기 서지정보의 비정형데이터를 행렬 형태로 정형화하여 전처리하는 단계를 더 포함한다.

본 발명의 일 실시예에서는, 상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 단계는, 상기 서지정보로부터 단어의 빈도수에 기초하여 복수개의 키워드를 선정하고, 각각의 키워드와 성과지표 간의 관계를 나타내는 네트워크를 생성하는 것을 특징으로 한다.

본 발명의 일 실시예에서는, 상기 정량정보는 특허의 청구항 수, 피인용 수, 패밀리 국가 수, 패밀리 특허 수, IPC 코드 수 등 중 어느 하나 이상을 포함하는 것을 특징으로 하는 것을 특징으로 한다.

본 발명의 일 실시예에서는, 상기 통계추론모델은 선형회귀모델, 의사결정나무모델, 랜덤포레스트모델 등 중 어느 하나인 것을 특징으로 한다.

본 발명의 일 실시예에 따른 통계추론모델에 기반한 특허 성과지표 출력장치는, 프로세서(processor); 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 포함하는 컴퓨터 프로그램이 저장된 메모리(memory)를 포함하고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램은, 서지정보와 정량정보를 포함하는 특허 데이터를 각 문서별로 수집하는 데이터 수집 오퍼레이션; 상기 각각의 문서에 대하여 상기 정량정보를 통해 성과지표를 산출하는 성과지표산출 오퍼레이션; 상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 데이터처리 오퍼레이션; 및 그래프, 다이어그램, 네트워크 구조를 포함하는 시각화 도구를 이용하여 상기 네트워크를 시각적으로 출력하는 시각화 오퍼레이션을 포함한다.

본 발명의 일 실시예에서는, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램은, 상기 서지정보의 정형데이터를 텍스트마이닝하고 상기 서지정보의 비정형데이터를 미리 선정된 단어에 기초하여 행렬 형태로 정형화하여 전처리하는 전처리 오퍼레이션을 더 포함한다.

본 발명의 일 실시예에 따르면, 수집된 특허 데이터를 통해 기술분야에 대한 정량정보와 서지정보의 관계를 가시성 높은 시각적 도구를 이용하여 표시하므로 사용자가 분석 결과를 직관적으로 이해할 수 있도록 한다.

도 1은 본 발명의 일 실시예에 따른 통계추론모델에 기반한 특허 성과지표 출력장치의 구조를 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 통계추론모델에 기반한 특허 성과지표 출력 방법을 설명하는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 시각화를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습데이터와 검정데이터의 앙상블 수에 따른 정밀도(Precision)의 변화를 나타내는 그래프이다.
도 5는 본 발명의 일 실시예에 따른 앙상블 수에 따른 훈련데이터와 검정데이터의 정확도의 변화를 보여주는 그래프이다.
도 6은 본 발명의 일 실시예에 따른 성과지표별 변수 중요도를 네트워크를 시각화한 일 예를 나타낸 도면이다.

본 발명의 여러 실시예들을 상세히 설명하기 전에, 다음의 상세한 설명에 기재되거나 도면에 도시된 구성요소들의 구성 및 배열들의 상세로 그 응용이 제한되는 것이 아니라는 것을 알 수 있을 것이다. 본 발명은 다른 실시예들로 구현되고 실시될 수 있고 다양한 방법으로 수행될 수 있다. 또, 장치 또는 요소 방향(예를 들어 "전(front)", "후(back)", "위(up)", "아래(down)", "상(top)", "하(bottom)", "좌(left)", "우(right)", "횡(lateral)")등과 같은 용어들에 관하여 본원에 사용된 표현 및 술어는 단지 본 발명의 설명을 단순화하기 위해 사용되고, 관련된 장치 또는 요소가 단순히 특정 방향을 가져야 함을 나타내거나 의미하지 않는다는 것을 알 수 있을 것이다. 또한, "제 1(first)", "제 2(second)"와 같은 용어는 설명을 위해 본원 및 첨부 청구항들에 사용되고 상대적인 중요성 또는 취지를 나타내거나 의미하는 것으로 의도하지 않는다.

본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 통계추론모델에 기반한 특허 성과지표 출력장치 제공 장치 및 방법에 대해 더욱 상세하게 설명한다.

발명의 설명에 앞서, 본 명세서에 개시된 특허에 관해 간략 설명한다.

특허는 개발된 기술을 공개함으로써 출원인에게 독점권을 부여하는 제도이다. 특허는 기술의 내용을 공개함으로써 산업의 발전을 도모한다. 특허는 개발된 기술에 대한 제목, 요약, 청구항을 포함하여 출원된다. 그리고 특허청의 심사에 따라 IPC 코드를 부여받고, 해당 분류 심사관에 의해 등록 여부를 판정받는다. 등록된 특허는 다른 특허에 의해 인용되기도 한다. 또한, 다양한 국가에서 특허의 법적 권리를 행사하기 위해 출원인은 패밀리 특허를 출원한다. 특허는 출원, 심사, 등록의 과정을 거치면서 서지정보와 질적 지표를 갖게 된다.

도 1은 본 발명의 일 실시예에 따른 통계추론모델에 기반한 특허 성과지표 출력장치의 구조를 개략적으로 나타낸 블록도이다.

도 1을 참고하면 본 발명에서 제안하는 통계추론모델에 기반한 특허 성과지표 출력장치(100)는 하나 이상의 프로세서(110), 메모리(120), 송수신 장치(130), 입력 인터페이스(140), 출력 인터페이스(150) 및 스토리지(160)를 포함할 수 있다. 프로세서(110), 메모리(120), 송수신 장치(130), 입력 인터페이스 (140), 출력 인터페이스(150) 및 스토리지(160)는 공통 버스를 통하여 데이터를 송수신한다.

다만, 통계추론모델에 기반한 특허 성과지표 출력장치(100)에 포함된 각각의 구성요소들은 공통 버스가 아니라, 프로세서(110)를 중심으로 개별 인터페이스 또는 개별 버스를 통하여 연결될 수도 있다. 예를 들어, 프로세서(110)는 메모리(120), 송수신 장치(130), 입력 인터페이스 장치(140), 출력 인터페이스 장치(150) 및 스토리지(160) 중에서 적어도 하나와 전용 인터페이스를 통하여 연결될 수도 있다.

프로세서(110)는 메모리(120) 및 스토리지(160) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(110)는 메모리(120)에 로드(load)된 컴퓨터 프로그램을 실행하고, 메모리(120)는 상기 컴퓨터 프로그램을 스토리지(160)에서 로드(load) 한다.

메모리(120) 및 저장 장치(160) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.

프로세서(110)에 의해 실행되는 컴퓨터 프로그램은, 데이터 수집 오퍼레이션(121), 전처리 오퍼레이션(122), 성과지표산출 오퍼레이션(123), 데이터처리 오퍼레이션(124) 및 시각화 오퍼레이션(125)을 포함할 수 있다.

데이터 수집 오퍼레이션(121)은 외부의 특허 데이터베이스로부터 다운로드 등의 방법에 의해 특정 기술분야 대한 특허 데이터를 각 문서별로 수집한다. 이러한 특허 데이터는 서지정보, 공개된 특허공보 및 정량정보를 포함할 수 있다. 서지정보는 발명의 명칭(Title), 요약서(Abstract), 청구항 등을 포함할 수 있다.

발명의 명칭은 발명의 내용을 고려하여 발명의 범주가 구분되도록 간단명료하게 명사형으로 기재된 해당특허의 발명의 표제이다. 요약서는 발명내용을 요약 및 정리한 문서로서 짧은 시간 내에 발명의 내용을 파악할 수 있도록 발명의 구성과 효과가 기재되어 있다. 청구항은 특허의 권리 설정을 위해 종래기술과 구분되는 특허의 기술적 사상을 포함하도록 기재되어 있다.

정량정보는 특허의 청구항 수, 피인용 수, 패밀리 국가 수, 패밀리 특허 수 및 IPC 코드 수 등을 포함할 수 있다. 피인용 수는 각 문서에 인용되는 특허의 수를 말한다. 패밀리 특허는 특정 특허를 국내외 여러 국가에 출원했을 경우 각 국가에 출원된 특허이다. IPC 코드는 국제적으로 통일된 특허정보 분류체계에 의해 부여된 코드이다.

데이터 수집 오퍼레이션(121)은 분석 목적에 맞게 기술 중심 또는 출원인 중심으로 특허 데이터를 수집할 수 있다. 데이터 수집 오퍼레이션(121)에 의해서 수집된 특허 데이터는 스토리지(160)에 저장된다.

전처리 오퍼레이션(122)은 정형데이터를 텍스트마이닝하고 상기 서지정보의 비정형데이터를 행렬 형태로 정형화한다.

특히, 특허 데이터의 비정형 데이터인 문자를 분석 가능한 형태로 가공하기 위하여 먼저, 특허 데이터에 포함된 공백, 숫자, 구두점, 불용어 제거 등을 수행할 수 있다. 이후, 서지정보에 대해 각 문서당 단어 발생 빈도를 파악하여 빈도 기반의 DTM(Document-Term Matrix)을 구성할 수 있다.

DTM(Document-Term Matrix)은 특허 데이터에 포함된 각종 문서들과 문서들에 포함된 단어간의 관계를 나타낸 행렬로서, 각각의 문서와 단어에 대한 빈도를 각각 행과 열로 표시할 수 있다. 예를 들어, 각각의 단어 V1, V2, V3,…VP는 행에 각각의 문서 d1, d2, d3, d4 …d100 을 열(column)로 하고, 각 행렬의 성분을 단어의 빈도수로 할 수 있다.

성과지표산출 오퍼레이션(123)은 각각의 문서에 대하여 정량정보를 통해 성과지표를 산출한다. 성과지표의 산출방법은 도 2 내지 도 3을 참조하여 후술한다.

데이터처리 오퍼레이션(124)은 상기 서지정보와 상기 성과지표를 변수로 하여 통계추론모델에 적용한다.

통계추론모델은 회귀모델, 의사결정나무모델, 랜덤포레스트모델 등 중 어느 하나이다.

시각화 오퍼레이션(125)는 상기 통계추론모델에 적용한 분석 결과에 기초하여 성과지표별 변수 중요도를 네트워크로 도식화하여 출력한다. 네트워크로 도식화 하기 위하여 소셜 네트워크 분석(SNA) 방법을 활용할 수 있다. 사회 네트워크 분석(Social Network Analysis, SNA)은 점과 선으로 구성된 네트워크를 사회과학적 또는 통계적인 관점에서 분석한 것이다. 이전에는 사회과학 문제를 해결하기 위하여 사용되었으며 현재에는 마케팅, 고객관계관리 등 많은 영역에서 활용되고 있다. 기술과 기술 간의 관계를 이해하고 분석하여 대표기술을 신속하고 정확하게 찾을 수 있도록 사회 네트워크 분석을 이용한다. 사회 네트워크 분석에서을 통해 유의미한 서지사항(단어)과 성과지표 사이의 관계를 시각화할 수 있다.

다음, 도 2 내지 도 3을 참조하여, 도 1의 통계추론모델에 기반한 특허 성과지표 출력장치의 성과지표 출력방법을 설명한다.

도 2는 본 발명의 일 실시예에 따른 통계추론모델에 기반한 특허 성과지표 출력 방법을 설명하는 흐름도이고, 도 3은 본 발명의 일 실시예에 따른 시각화를 설명하기 위한 도면이다.

도 2를 참조하면, 단계 S100에서는, 특정 기술분야에 대하여 서지정보와 정량정보를 포함하는 특허 데이터를 각 문서별로 수집한다.

단계 S110에서는, 획득한 특허 데이터를 분석 가능한 형태로 가공하기 위하여 전처리를 수행한다. 먼저 특허 데이터를 정량정보와 서지정보로 구분하여 서지정보를 구조화되고 분석 가능한 형태로 가공한다.

특허 데이터의 비정형 데이터인 문자를 분석 가능한 형태로 가공하기 위하여 먼저, 특허 데이터에 포함된 공백, 숫자, 구두점, 불용어 제거 등을 수행할 수 있다. 이후, 각각의 문서와 단어에 대한 빈도를 각각 행과열로 표시할 수 있다. 예를 들어, 각각의 단어 V1, V2, V3,…VP는 행에 각각의 문서 d1, d2, d3, d4 …d100 을 열(column)로 하고, 각 행렬의 성분을 단어의 빈도수로 할 수 있다.

이 때, 특허 문서에서 기술적 특징을 나타내지 않지만 문서 전반에 걸쳐 많이 포함된 '발명' 등의 단어를 필터링한다. 예를 들어, 단어의 빈도수를 tf-idf에 의해 계산된 값으로 대체할 수 있다. tf-idf는 문서 전체에 나타나는 단어의 빈도수를 분모로하고, 특정 문서(예를 들어 요약문)에만 나타난 단어의 빈도수를 분자로 하여 계산될 수 있다.

단계 S120에서는, 각 문서에 대하여 정량정보를 통해 성과지표를 산출한다.

특허는 출원될 때, 권리 범위를 넓히기 위해 청구항에 기술의 내용을 기재한다. 청구항에 기술 내용이 기재된 특허는 출원된 뒤에 IPC 코드가 할당되며 심사관에 의해 신규성, 권리성, 기술성 등의 관점에서 평가된다. 평가 뒤 등록된 특허는 다른 특허에 인용되기도 한다. 그리고 다른 국가에서도 법적 권리범위를 행사하기 위해 패밀리 특허를 출원하기도 한다. 일반적으로 우수한 기술에 관련된 특허는 복잡하고 많은 청구항을 포함할 수 있고, 출원인은 다양한 국가에서 법적 권리를 행사하기 위해 많은 국가에 패밀리 특허를 출원한다. 또한, 다른 특허들은 우수한 특허의 법적 권리범위를 침해하지 않기 위해 인용하여 개선된 기술을 출원한다. 따라서 특허는 주로 청구항 수, 피인용 수, IPC 코드수, 패밀리 특허 수(국가 수) 등의 정량정보에 의해 가치가 평가될 수 있다. 특허의 질적 우수성 지표는 권리성, 기술성, 시장성, 기술다양성이다. 각각의 정량정보와 상기 지표는 연관이 있다. 예를 들어, 청구항 수는 특허의 권리성과 관련이 있고, 피인용 수는 특허의 기술성과 관련이 있으며, 패밀리 특허는 특허의 시장성과 관련이 있다. 또한, IPC 코드수는 기술의 다양성과 관련이 있다.

정량정보를 다음의 수학식 1에 대입하여 객관적인 결과값인 성과지표를 산출한다.

보유하고 있는 특허 중 i번째 특허에 대해 지표

에 대한 성과지표(PI, Performance Indicator)는 수학식 1에 의해 계산된다.

[수학식 1]

여기서,

는 정량정보이고,

는 i번째 특허의 정량정보

에 해당하는 값으로 0을 포함하는 자연수이다. 예를 들어 두 번째 특허의 청구항 수가 5이면

의 값이 5이다.

는 i번째 특허와 등록연도와 기술분류가 같은 특허들의 지표

의 평균값으로 성과지표의 정규화 값이다. 이 계산을 통해 산출된 성과지표는 1을 기준으로 1보다 큰 경우 해당 성과에서 우수한 특허라고 해석될 수 있다. 그리고 성과지표의 산술평균인 특허 품질 지표(PQI, Patent Quality Indicator)는 수학식 2로 계산된다.

[수학식 2]

수학식 2에 X는 사용된 지표

들의 집합으로 청구항 수, 피인용 수를 사용한 경우, {Cliam, Familypatent}이고 ｜X｜는 2이다.

단계 S130에서는, 상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성한다. 즉, 성과지표의 우수성에 영향을 주는 단어를 탐색하여 네트워크를 생성한다.

정형화된 서지정보인 DTM과 성과지표를 통계추론모델에 적용하여 각각의 문서에 대한 단어의 빈도수와 각 성과지표에 기초하여 각 성과지표에 대한 단어별 인자(가중치) 등을 산출한다. 산출된 인자에 기초하여 유의미한 단어를 산출할 수 있다.

통계추론모델은 변수의 중요도 산출을 통해 추론이 가능한 알고리즘을 기반으로 하는 선형회귀모델, 의사결정나무모델, 랜덤포레스트모델 등 중 어느 하나 이다.

선형회귀모델은 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다. 이렇게 만들어진 회귀식을 선형 모델이라고 한다.

의사결정나무모델은 예측 또는 분류를 위해 나무구조의 분류규칙을 생성하여 특정 변수의 값을 기준으로 순차적인 분기를 실시하는 알고리즘으로 수행된다. 이때, 특정 변수의 값으로 분할되는 집단은 지니계수나 엔트로피 계수를 통해 집단내 동질성과 집단간 이질성이 커지도록 나뉜다. 의사결정나무 모델은 분류규칙을 생성 후, 지니계수나 엔트로피 계수를 통해 변수들간의 상대적인 중요도를 추론하는 것이 가능하다. 랜덤 포레스트 모델은 단순한 의사결정나무 모델을 반복 적용하여 모델 복잡성이 낮지만, 추론이 가능하며 높은 예측 성능을 갖는 알고리즘을 의미한다.

단계 S140에서는, 생성된 네트워크를 시각적으로 출력한다.

도 3에 도시한 바와 같이, n개의 특허가 갖는 성과지표를 p개의 단어에 대하여 시각화하는 것이 가능하다.

시각화된 자료를 통해 수집된 특허의 성과지표가 연관된 단어를 직관적으로 파악할 수 있다.

본 발명의 일 실시예에 따른 방법의 적용 가능성을 확인하기 위해 실험을 진행하였다.

실험을 위해 '스마트카' 관련 특허 6,021건을 특허 데이터베이스인 위즈도메인에서 수집하였다. 수집된 특허는 공백, 숫자, 구두점, 불용어 제거 등의 전처리 과정을 거쳤고 1,330개의 단어로 요약되었다. 이를 통해 생성된 1,330 차원의 DTM은 TF-IDF 함수를 통해 실수공간으로 변환하여 실험에 사용되었다.

실험을 위해 추론모델은 랜덤 포레스트 모델을 사용하였다. 본 실험에서는 수집된 특허를 7대 3의 비율로 훈련데이터와 검정데이터로 구분하여 모델 최적화 과정을 진행하였다.

실험을 위한 지표

는 피인용 수, IPC 코드수, 청구항 수, 패밀리 국가 수로 한정하였다. 그리고 전술한 수학식1을 이용하여 지표

는 성과지표로 변환하였다. 추론모델의 학습을 위해 성과지표는 1을 기준으로 우수-클래스와 비우수-클래스로 범주화하였다. 도 4는 본 발명의 일 실시예에 따른 학습데이터와 검정데이터의 앙상블 수에 따른 정밀도(Precision)의 변화를 나타내는 그래프이다.

정밀도는 우수-클래스로 분류된 것 중 실제 우수-클래스의 비율을 보여준다. 정밀도가 높은 추론모델은 우수-클래스에 영향을 주는 변수들의 중요도가 높아지도록 학습된다. 정밀도를 통해 피인용 수와 IPC 코드 수에 관한 성과지표는 앙상블 수가 200일 때, 예측 성능과 일반화 성능이 우수한 것을 확인하였다. 그러나 청구항 수, 패밀리 국가 수, PQI는 앙상블 수가 많아짐에 따라 정밀도가 계속 높아지는 경향을 보였다. 따라서 정확도를 성능지표로 사용하여 나머지 성과지표에 대한 앙상블 수를 결정하였다.

도 5는 본 발명의 일 실시예에 따른 앙상블 수에 따른 훈련데이터와 검정데이터의 정확도의 변화를 보여주는 그래프이다. 정확도를 통해 청구항 수, 패밀리 국가 수, PQI는 앙상블 수가 50일 때 최적임을 알 수 있었다. 그리고 청구항 수, 패밀리 국가 수, PQI는 앙상블 수가 50일 때 모두 정밀도도 높은 것으로 확인되었다. 즉, 피인용 수, IPC 코드 수는 앙상블 수를 200으로 정했고 나머지 지표는 앙상블 수를 50으로 정했다. 그리고 랜덤 포레스트 모델을 통해 성과지표 예측을 위한 변수 중요도를 산출하였다. 성과지표별 변수 중요도를 네트워크로 표현하기 위해 Min-Max 스케일링하였다.

도 6은 본 발명의 일 실시예에 따른 성과지표별 변수 중요도를 네트워크를 시각화한 일 예를 나타낸 도면이다. PQI를 중심으로 피인용 수, IPC 코드수, 청구항 수, 패밀리 국가 수를 포함하는 4 가지 성과지표는 모두 연결되어 있으며 각 성과지표에 높은 영향을 주는 단어는 서로 연결되어 있다.

하나의 단어는 한 개 이상의 성과지표와 연결되어 있다. 단어에 관한 노드는 성과지표와 유사한 색으로 표현하여 가시성을 높였으며, 두 개 이상의 성과지표에 영향을 주는 단어 노드는 회색으로 동일하게 표현하였다. 네트워크를 통해 피인용 성과지표가 다른 성과지표보다 중복되는 키워드가 적은 것을 알 수 있다. 청구항 성과지표는 다른 성과지표와 중복되는 키워드가 가장 많은 것을 알 수 있다.

표1은 성과지표별 변수 중요도 상위 10개를 선정한 결과를 보여준다. 표1에서 bi-PI(binary-PI)는 두 개의 성과지표에 모두 중요하면서 성과지표의 평균이 상위에 속하는 단어들이다. ter-PI(ternary-PI)는 세 개의 성과지표에 모두 중요하면서 성과지표의 평균이 상위에 속하는 단어들이다. 도 6과 표 1을 통해, 피인용과 IPC는 'axis', 'perpendicular', 'wavelength', 'laser', 'airbag' 등과 같이 서로 중복되는 단어들이 많았다.

[표 1]

두 성과지표에서는 스마트카의 위치 인식을 위한 축(axis, perpendicular) 관련 기술과 센서(wavelength, laser) 관련 기술, 안전(airbag) 관련 기술이 중심을 이루고 있음을 알 수 있었다. 청구항 성과지표에서는 부품을 조합하기 위한 용어(collision, integration, involve, deploy, reflect)가 포함된 기술이 중요한 것을 알 수 있었다. 패밀리 국가 성과지표는 피인용과 IPC 성과지표와 같이 축 관련 기술뿐만 아니라 청구항 성과지표에서 중요했던 부품을 조합하는 기술들이 모두 포함된 것을 확인할 수 있었다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

100 : 통계추론모델에 기반한 특허 성과지표 출력장치
110 : 프로세서
120 : 메모리
121 : 데이터 수집 오퍼레이션
122 : 전처리 오퍼레이션
123 : 성과지표산출 오퍼레이션
124 : 데이터처리 오퍼레이션
125 : 시각화 오퍼레이션
130 : 송수신 장치
140 : 입력 인터페이스
150 : 출력 인터페이스
160 : 스토리지

Claims

데이터 처리 장치에서 통계추론모델에 기반한 특허 성과지표를 출력하는 방법으로서,
서지정보와 정량정보를 포함하는 특허 데이터를 각 문서별로 수집하는 단계;
상기 각각의 문서에 대하여 상기 정량정보에 대한 성과지표를 산출하는 단계;
상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 단계; 및
그래프, 다이어그램, 네트워크 구조를 포함하는 시각화 도구를 이용하여 상기 네트워크를 시각적으로 출력하는 단계;
를 포함하는 통계추론모델에 기반한 특허 성과지표 출력 방법.
제1항에 있어서,
상기 서지정보의 정형데이터를 텍스트마이닝하고 상기 서지정보의 비정형데이터를 행렬 형태로 정형화하여 전처리하는 단계
를 더 포함하는 통계추론모델에 기반한 특허 성과지표 출력 방법.
제1항에 있어서,
상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 단계는,
상기 서지정보로부터 단어의 빈도수에 기초하여 복수개의 키워드를 선정하고, 각각의 키워드와 성과지표 간의 관계를 나타내는 네트워크를 생성하는 것을 특징으로 하는 통계추론모델에 기반한 특허 성과지표 출력 방법.
제1항에 있어서,
상기 정량정보는 특허의 청구항 수, 피인용 수, 패밀리 국가 수, 패밀리 특허 수, IPC 코드 수 중 어느 하나 이상을 포함하는 것을 특징으로 하는 통계추론모델에 기반한 특허 성과지표 출력 방법.
제1항에 있어서, 상기 통계추론모델은 선형회귀모델, 의사결정나무모델, 랜덤포레스트모델 중 어느 하나인 것을 특징으로 하는 통계추론모델에 기반한 특허 성과지표 출력 방법.
프로세서(processor);
상기 프로세서를 통해 실행되는 적어도 하나의 명령을 포함하는 컴퓨터 프로그램이 저장된 메모리(memory)를 포함하고,
상기 프로세서에 의해 실행되는 컴퓨터 프로그램은,
서지정보와 정량정보를 포함하는 특허 데이터를 각 문서별로 수집하는 데이터 수집 오퍼레이션;
상기 각각의 문서에 대하여 상기 정량정보를 통해 성과지표를 산출하는 성과지표산출 오퍼레이션;
상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 데이터처리 오퍼레이션; 및
그래프, 다이어그램, 네트워크 구조를 포함하는 시각화 도구를 이용하여 상기 네트워크를 시각적으로 출력하는 시각화 오퍼레이션
을 포함하는 것을 특징으로 하는 통계추론모델에 기반한 특허 성과지표 출력장치.
제6항에 있어서,
상기 프로세서에 의해 실행되는 컴퓨터 프로그램은,
상기 서지정보의 정형데이터를 텍스트마이닝하고 상기 서지정보의 비정형데이터를 행렬 형태로 정형화하여 전처리하는 전처리 오퍼레이션
을 더 포함하는 통계추론모델에 기반한 특허 성과지표 출력장치.
제6항에 있어서,
상기 서지정보와 상기 성과지표를 통계추론모델에 적용하여, 성과지표 네트워크를 생성하는 단계는,
상기 서지정보로부터 단어의 빈도수에 기초하여 복수개의 키워드를 선정하고, 각각의 키워드와 성과지표 간의 관계를 나타내는 네트워크를 생성하는 것을 특징으로 하는 통계추론모델에 기반한 특허 성과지표 출력장치.
제6항에 있어서,
상기 정량정보는 특허의 청구항 수, 피인용 수, 패밀리 국가 수, 패밀리 특허 수, IPC 코드 수 중 어느 하나 이상을 포함하는 것을 특징으로 하는 통계추론모델에 기반한 특허 성과지표 출력장치.
제6항에 있어서, 상기 통계추론모델은 선형회귀모델, 의사결정나무모델, 랜덤포레스트모델 중 어느 하나인 것을 특징으로 하는 통계추론모델에 기반한 특허 성과지표 출력장치.