KR20230057114A

KR20230057114A - 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치

Info

Publication number: KR20230057114A
Application number: KR1020210141158A
Authority: KR
Inventors: 김현필; 김태성; 이창주
Original assignee: 삼성전자주식회사
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2023-04-28
Also published as: US20230126421A1; US11907278B2

Abstract

키워드 도출 방법, 키워드 도출 장치 및 컴퓨터 프로그램이 제공된다. 키워드 도출 방법은, 기술 분야와 관련된 검색어와 검색 연도 범위를 기초로 제1 내지 제5 데이터 필드를 포함하는 기술 문서를 검색하는 단계, 검색된 기술 문서의 상기 제1 내지 제3 데이터 필드를 이용하여 키워드 집합을 생성하고, 키워드 집합에 포함된 복수의 키워드를 점수화하고, 복수의 키워드 중 일부를 선별하는 단계, 선별된 키워드를 이용하여 기술 분야와 관련된 기술 문서를 재검색하는 단계, 재검색된 기술 문서를 점수화하여 기술 분야를 대표하는 대표 문서를 도출하는 단계, 및 대표 문서에 포함된 제2 데이터 필드를 이용하여, 기술 분야를 대표하는 대표 키워드를 도출하는 단계를 포함하되, 제1 데이터 필드는 기술 문서의 제목을 포함하고, 제2 데이터 필드는 기술 문서의 요약을 포함하고, 제3 데이터 필드는 기술 문서의 키워드를 포함한다.

Description

기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치 {Method and apparatus for deriving keywords based on technical document database}

본 발명은 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치에 관한 것이다. 구체적으로, 데이터 마이닝을 이용하여 기술 문서에 포함된 키워드 집합을 생성하여, 대표 키워드 및 대표 문서를 도출하는 방법 및 장치에 관한 것이다.

새로운 기술 트렌드가 어떻게 변하고, 또 현재의 기술을 더욱 고도화시키기 위하여 어떤 기술이 필요한지 파악하는 것은 어려운 일이다. 일례로, 여러 컨설팅 업체에서 분석하여 출판하는 기술 트렌드들은 델파이 기법이라는 전문가의 의견을 종합적으로 검토하여 결론을 도출하는 방식을 많이 사용하고 있는데, 그 정확도가 30% 안팎으로 낮은 편이다.

기술 트렌드를 분석하는 자료로, 언론에서 보도되는 뉴스나, 기업체의 공시 자료, 특허, 논문 등이 이용될 수 있다. 이 중, 언론에서 보도되는 뉴스나 기업체의 공시 자료는 세부 기술을 정의하기가 어렵고, 최상위 개념의 추상적인 키워드가 기술 용어로 사용되는 경우가 빈번하다. 이에 따라, 기술 트렌드를 정의하고 세부 기술을 도출하기에 부적합할 수 있다.

한편 특허의 경우, 해당 기술이 인용하고 있는 기술이 존재하므로 기술 트렌드 분석을 함에 있어 용이할 수 있다.

또한, 논문의 경우도 특허와 마찬가지로 인용 수 등을 참고하여 기술 트렌드 분석에 용이하게 사용될 수 있다.

본 발명이 해결하고자 하는 몇몇 기술적 과제는, 기술 문서에 포함된 데이터 필드를 이용하여, 기술 문서의 대표 키워드 및 대표 문서를 도출할 수 있는 키워드 도출 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 몇몇 기술적 과제는, 기술 문서에 포함된 데이터 필드를 이용하여, 기술 문서의 대표 키워드 및 대표 문서를 도출할 수 있는 키워드 도출 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 몇몇 기술적 과제는, 기술 문서에 포함된 데이터 필드를 이용하여, 기술 문서의 대표 키워드 및 대표 문서를 도출할 수 있는 컴퓨터 프로그램을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 몇몇 실시예에 따른 키워드 도출 방법은, 기술 분야와 관련된 검색어와 검색 연도 범위를 기초로 제1 내지 제5 데이터 필드를 포함하는 기술 문서를 검색하는 단계, 검색된 기술 문서의 제1 내지 제3 데이터 필드를 이용하여 키워드 집합을 생성하고, 키워드 집합에 포함된 복수의 키워드를 점수화하고, 복수의 키워드 중 일부를 선별하는 단계, 선별된 키워드를 이용하여 기술 분야와 관련된 기술 문서를 재검색하는 단계, 재검색된 기술 문서를 점수화하여 기술 분야를 대표하는 대표 문서를 도출하는 단계, 및 대표 문서에 포함된 제2 데이터 필드를 이용하여, 기술 분야를 대표하는 대표 키워드를 도출하는 단계를 포함하되, 제1 데이터 필드는 기술 문서의 제목을 포함하고, 제2 데이터 필드는 기술 문서의 요약을 포함하고, 제3 데이터 필드는 기술 문서의 키워드를 포함한다.

상기 기술적 과제를 달성하기 위한 몇몇 실시예에 따른 키워드 도출 장치는, 프로세서, 컴퓨터 프로그램을 저장하는 스토리지, 및 프로세서에 의해 실행되고, 컴퓨터 프로그램과 관련된 명령(instruction)을 로드(load)하는 메모리를 포함하되, 컴퓨터 프로그램은 실행 시, 프로세서로 하여금, 기술 분야와 관련된 검색어와 검색 연도 범위를 기초로 제1 내지 제5 데이터 필드를 포함하는 기술 문서를 검색하고, 검색된 기술 문서의 제1 내지 제3 데이터 필드를 이용하여 키워드 집합을 생성하고, 키워드 집합에 포함된 복수의 키워드를 점수화하고, 복수의 키워드 중 일부를 선별하고, 선별된 키워드를 이용하여 기술 분야와 관련된 기술 문서를 재검색하고, 재검색된 기술 문서를 점수화하여 기술 분야를 대표하는 대표 문서를 도출하고, 대표 문서에 포함된 제2 데이터 필드를 이용하여, 기술 분야를 대표하는 대표 키워드를 도출하도록 하되, 제1 데이터 필드는 기술 문서의 제목을 포함하고, 제2 데이터 필드는 기술 문서의 요약을 포함하고, 제3 데이터 필드는 기술 문서의 키워드를 포함한다.

상기 기술적 과제를 달성하기 위한 몇몇 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 기술 분야와 관련된 검색어와 검색 연도 범위를 기초로 제1 내지 제5 데이터 필드를 포함하는 기술 문서를 검색하는 단계, 검색된 기술 문서의 제1 내지 제3 데이터 필드를 이용하여 키워드 집합을 생성하고, 키워드 집합에 포함된 복수의 키워드를 점수화하고, 복수의 키워드 중 일부를 선별하는 단계, 선별된 키워드를 이용하여 기술 분야와 관련된 기술 문서를 재검색하는 단계, 재검색된 기술 문서를 점수화하여 기술 분야를 대표하는 대표 문서를 도출하는 단계, 및 대표 문서에 포함된 제2 데이터 필드를 이용하여, 기술 분야를 대표하는 대표 키워드를 도출하는 단계를 포함하되, 제1 데이터 필드는 기술 문서의 제목을 포함하고, 제2 데이터 필드는 기술 문서의 요약을 포함하고, 제3 데이터 필드는 기술 문서의 키워드를 포함하고, 복수의 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장된다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 키워드 도출 방법이 수행되는 것을 도시한 예시적인 도면이다.
도 2는 본 발명의 일 실시예에 따른 키워드 도출 방법을 설명하기 위한 흐름도이다.
도 3은 도 2의 단계 S100을 구체적으로 설명하기 위한 흐름도이다.
도 4는 키워드를 도출하기 위하여 검색되는 기술 문서를 설명하기 위한 예시적인 도면이다.
도 5는 키워드를 도출하기 위하여 검색되는 기술 문서를 설명하기 위한 예시적인 도면이다.
도 6은 키워드를 도출하기 위하여 검색되는 기술 문서를 설명하기 위한 예시적인 도면이다.
도 7은 도 2의 단계 S200을 구체적으로 설명하기 위한 흐름도이다.
도 8은 도 7의 단계 S210에서, 키워드 집합이 생성되는 과정을 구체적으로 설명하기 위한 예시적인 도면이다.
도 9는 도 7의 단계 S230에서, 키워드 집합에 포함된 키워드 중 배제되는 키워드들을 구체적으로 설명하기 위한 예시적인 도면이다.
도 10은 도 2의 단계 S300을 구체적으로 설명하기 위한 흐름도이다.
도 11은 도 10의 단계 S340에서, 검색된 기술 문서 중 분리되어 출력되는 기술 문서들을 구체적으로 설명하기 위한 예시적인 도면이다.
도 12는 도 2의 단계 S400을 구체적으로 설명하기 위한 흐름도이다.
도 13은 도 2의 단계 S500을 구체적으로 설명하기 위한 흐름도이다.
도 14는 도 13의 단계 S510에서, 대표 키워드를 도출하는 방법을 구체적으로 설명하기 위한 예시적인 도면이다.
도 15는 다른 실시예에 따른 기술 문서 데이터 베이스를 통한 키워드 도출 장치의 하드웨어를 개략적으로 도시한 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 기술적 사상에 따른 실시예들에 대해 설명한다.

도 1은 본 발명의 일 실시예에 따른 키워드 도출 방법이 수행되는 것을 도시한 예시적인 도면이다.

도 1을 참조하면, 키워드 도출 시스템은 키워드 도출 장치(100) 및 기술 문서(200)를 포함할 수 있다.

키워드 도출 장치(100)는 본 명세서에서 후술할 키워드 도출 방법을 수행할 수 있는 장치일 수 있다.

기술 문서(200)는 학술 정보를 담고 있는 문서를 의미할 수 있다. 예를 들어, 기술 문서(200)는 특허 문헌이나 논문을 포함할 수 있다. 하지만 본 발명의 기술적 사상이 이에 제한되는 것은 아니며, 기술 문서(200)에는 학술 정보를 포함하는 다른 여러가지 문서들이 포함될 수 있다.

키워드 도출 장치(100)는 기술 문서(200)에 포함된 데이터 필드를 이용하여, 해당 기술 분야의 대표 키워드(Representative keyword) 및 대표 문서(Representative documents)를 도출할 수 있다. 구체적인 방법인 이하 후술한다.

도 2는 본 발명의 일 실시예에 따른 키워드 도출 방법을 설명하기 위한 흐름도이다.

도 2를 참조하면, 대표 키워드 및 대표 문서를 획득하기 위하여, 원하는 기술 분야에 대한 기술 문서를 검색하고, 기술 문서를 획득할 수 있다(S100). 기술 문서를 검색하기 위하여, 해당 기술 분야와 관련된 검색 필드 용 키워드 및 검색될 기술 문서의 검색 연도 범위를 설정하여 입력할 수 있다.

이어서, 검색된 기술 문서를 통하여, 키워드를 도출할 수 있다(S200). 키워드를 도출하는 구체적인 방법은 후술한다.

이어서, 도출된 키워드를 이용하여, 다시 해당 기술 분야에 대한 기술 문서를 재검색할 수 있다(S300). 이 단계에서 재검색된 기술 문서는 단계 S100에서 검색된 기술 문서에 포함된 것일 수 있다.

이어서, 재검색된 기술 문서에 대하여 점수화를 수행하여 점수가 높은 기술 문서들을 도출할 수 있다. 점수가 높은 상위 몇몇의 기술 문서들을 통해 해당 기술 분야의 대표 문서를 도출할 수 있다(S400). 구체적인 내용은 후술한다.

이어서, 상기 대표 문서를 기초로, 단계 S200에서와 유사한 키워드 도출 방법을 이용하여 해당 기술 분야의 대표 키워드를 도출할 수 있다(S500). 구체적인 내용은 후술한다.

도 3은 도 2의 단계 S100을 구체적으로 설명하기 위한 흐름도이다.

도 3을 참조하면, 단계 S100의 기술 문서를 검색하고 획득하기 위하여, 먼저 원하는 검색어를 이용하여 기술 문서를 검색하는 단계가 수행될 수 있다(S110). 여기서, 원하는 검색어는 검색 필드 용 키워드와 기술 문서의 발행 연도 범위를 의미할 수 있다.

이어서, 검색된 기술 문서가 논문 또는 특허 문헌인지 여부를 판단할 수 있다(S120). 기술 문서가 논문 또는 특허 문헌이 아닌 경우(S120의 N), 검색된 기술 문서를 그대로 획득하여 키워드를 도출하기 위한 기술 문서로써 이용할 수 있다(S140).

한편, 검색된 기술 문서가 논문 또는 특허 문헌인 경우(S120의 Y), 신뢰성을 높이기 위하여 필터링을 거칠 수 있다(S130). 예를 들어, 검색된 논문 중 저명한 저널 및 학회에서 발행된 논문만을 이용하기 위하여 필터링이 수행될 수 있다. 마찬가지로 예를 들어, 검색된 특허 문헌 중 특정 회사나 기관에서 발명된 것이거나 출원된 특허 문헌만을 이용하기 위하여 필터링이 수행될 수 있다. 즉, 검색된 기술 문서가 논문 또는 특허 문헌인 경우에는 미리 설정한 출처에서 발행된 논문 또는 특허 문헌만을 이용하기 위하여 필터링이 수행될 수 있다.

구체적으로, 단계 S110에서 논문을 필터링하기 위한 인덱스가 입력될 수 있다. 상기 인덱스는 예를 들어 구글 스칼라에서 제공하는 해당 기술 분야에서 인용 비율이 높은 상위 20위의 저널 및 학회의 리스트를 의미할 수 있다. 하지만 본 발명의 기술적 사상이 이에 제한되는 것은 아니며, 상기 인덱스는 다른 방법을 통하여 획득한 저널 및 학회의 리스트로 구성될 수도 있다.

이어서, 필터링된 논문 또는 특허 문헌을 획득하여 키워드를 도출하기 위한 기술 문서로써 이용할 수 있다(S140).

도 4 내지 도 6은 키워드를 도출하기 위하여 검색되는 기술 문서를 설명하기 위한 예시적인 도면이다.

먼저 도 4를 참조하면, 기술 문서(200)는 대표 키워드 및 대표 문서를 도출하기 위하여 이용되는 제1 내지 제5 데이터 필드(DF1, DF2, DF3, DF4, DF5)를 포함할 수 있다. 제1 내지 제3 데이터 필드(DF1, DF2, DF3)는 먼저 키워드를 도출하기 위해 이용될 수 있다. 이어서, 제4 내지 제5 데이터 필드(DF4, DF5)와, 제1 내지 제3 데이터 필드(DF1, DF2, DF3)을 통해 도출한 키워드를 이용하여, 각각의 키워드를 점수화할 수 있다.

도 4 및 도 5를 참조하면, 제1 데이터 필드(DF1)는 기술 문서(200)의 제목(Title)에 대응될 수 있고, 제2 데이터 필드(DF2)는 기술 문서(200)의 요약(Summary)에 대응될 수 있으며, 제3 데이터 필드(DF3)는 기술 문서(200)의 저자가 입력한 키워드(Keyword)에 대응될 수 있다.

제1 데이터 필드(DF1)에 대응되는 기술 문서(200)의 제목은, 해당 기술 문서(200)가 설명하고자 하는 기술을 제한된 키워드로 명확히 서술할 수 있으므로, 대표 키워드를 도출하기 위하여 이용될 수 있다.

제2 데이터 필드(DF2)에 대응되는 기술 문서(200)의 요약은, 본문의 내용을 간략히 요약할 수 있어, 대표 키워드를 도출하기 위하여 이용될 수 있다.

마찬가지로, 제3 데이터 필드(DF3)에 대응되는 기술 문서(200)의 키워드는 검색에 용이하도록 작성되고, 주로 해당 기술 문서(200)가 포함된 기술 영역에 해당하는 키워드들을 포함하므로, 대표 키워드를 도출하기 위하여 이용될 수 있다.

반면에, 기술 문서(200)는 대표 키워드 및 대표 문서를 도출하기 위하여 이용되지 않는 제6 데이터 필드(DF6)를 포함할 수 있다. 제6 데이터 필드(DF6)는 기술 문서(200)의 본문(Main text)에 대응될 수 있다.

본문의 경우, 해당 기술 분야의 일반적인 단어가 많이 사용될 수 있고, 이에 따라 키워드를 추출하는 과정에서 노이즈(noise)가 발생할 수 있다. 따라서, 제6 데이터 필드(DF6)는 키워드를 도출하는 과정에서 이용되지 않을 수 있다.

도 6은 키워드를 도출하기 위하여 검색되는 기술 문서를 설명하기 위한 예시적인 도면이다. 구체적으로, 도 6은 웹(WEB) 상에서 기술 문서를 검색한 결과 화면을 도시한 도면이다.

도 4 및 도 6을 참조하면, 기술 문서를 검색하는 경우 복수의 기술 문서들이 검색될 수 있다. 예를 들어 도 6에 도시된 바와 같이, 제1 기술 문서(200_1), 제2 기술 문서(200_2), 제3 기술 문서(200_3) 등이 검색될 수 있다.

한편, 제4 데이터 필드(DF4)는 기술 문서(200)의 인용 횟수에 대응될 수 있고, 제5 데이터 필드(DF5)는 기술 문서(200)의 발행일 또는 출판일에 대응될 수 있다.

예를 들어, 도 6에서 제1 기술 문서(200_1)의 제4 데이터 필드는 DF4_X에 대응되고, 이는 제1 기술 문서(200_1)가 다른 기술 문서를 통하여 XXX번 인용되었음을 의미할 수 있다. 또한, 제1 기술 문서(200_1)의 제5 데이터 필드는 DF5_X에 대응되고, 이는 제1 기술 문서(200_1)가 20XX.XX.XX에 발행 또는 출판된 것임을 의미할 수 있다.

마찬가지로, 제2 기술 문서(200_2)의 제4 데이터 필드는 DF4_Y에 대응되고, 이는 제2 기술 문서(200_2)가 다른 기술 문서를 통하여 YYY번 인용되었음을 의미할 수 있다. 또한, 제2 기술 문서(200_2)의 제5 데이터 필드는 DF5_Y에 대응되고, 이는 제2 기술 문서(200_2)가 20YY.YY.YY에 발행 또는 출판된 것임을 의미할 수 있다.

마찬가지로, 제3 기술 문서(200_3)의 제4 데이터 필드는 DF4_Z에 대응되고, 이는 제3 기술 문서(200_3)가 다른 기술 문서를 통하여 ZZZ번 인용되었음을 의미할 수 있다. 또한, 제3 기술 문서(200_3)의 제5 데이터 필드는 DF5_Z에 대응되고, 이는 제3 기술 문서(200_3)가 20ZZ.ZZ.ZZ에 발행 또는 출판된 것임을 의미할 수 있다.

도 7은 도 2의 단계 S200을 구체적으로 설명하기 위한 흐름도이고, 도 8은 도 7의 단계 S210에서, 키워드 집합이 생성되는 과정을 구체적으로 설명하기 위한 예시적인 도면이며, 도 9는 도 7의 단계 S230에서, 키워드 집합에 포함된 키워드 중 배제되는 키워드들을 구체적으로 설명하기 위한 예시적인 도면이다.

도 7을 참조하면, 단계 S200의 키워드를 도출하기기 위하여, 먼저 키워드 집합을 생성할 수 있다(S210). 구체적으로, 상기 도 4 내지 도 5에서 설명한 기술 문서에 포함된 제1 내지 제3 데이터 필드(DF1, DF2, DF3)를 이용하여, 키워드 집합을 생성할 수 있다.

구체적으로 도 8을 함께 참조하면, 검색된 복수의 기술 문서 중 어느 하나의 기술 문서(200)의 제1 데이터 필드(DF1), 즉 제목이 "Methodology to find new trends and technology keywords from technical document database"라고 가정하면, 상기 제목에 대하여 N-gram lemmatization을 수행할 수 있다. 여기서 N-gram lemmatization이란 임의의 문장에 대하여 인접한 N 개의 단어로 구성된 단어군의 집합을 생성하는 과정을 의미할 수 있다. 이 때, 생성된 단어군의 집합이 키워드 집합(300)을 의미할 수 있다.

예를 들어, 상기 제목에 대해 N=2인 경우, 순서대로 "Methodology to", "to find", "find new" 등의 단어군들이 생성될 수 있고, 최종적으로 "document database"의 단어군이 생성될 수 있다. 이러한 방법을 순차적으로 N=6까지 적용하여, 최종적으로 "technology keywords from technical document database"가 생성될 수 있다.

한편, 위 단계에서 임의의 단어가 약어로 표시된 경우, 본딧말로 치환한 후에 키워드 집합(300)을 생성하기 위한 상기 단계가 수행될 수 있다.

예를 들어, 기술 문서(200)의 제1 내지 제3 데이터 필드(DF1, DF2, DF3)에서 신경망 처리 장치를 뜻하는 "Nural Process Unit"이 "NPU"처럼 약어로 기재된 경우에는, "Nural Process Unit"의 본딧말로 치환된 후 상기 키워드 집합(300) 생성 과정이 수행될 수 있다.

한편, 상기 N-gram lemmatization을 수행하는 단계에서 N=1인 경우에는 단어군이 결국 한 단어로 구성될 수 있다. 따라서 해당 키워드는 기술의 추상화 정도가 높아 구체적인 기술을 표현하기 어려우므로 키워드 집합(300) 생성 작업에서 배제될 수 있다.

또한, N=7인 경우에 해당 키워드는 7개 이상의 단어로 구성될 수 있다. 하지만 7개 이상의 단어로 구성되는 키워드는 일반적으로 존재하지 않으므로, 이 또한 키워드 집합(300) 생성 단계에서 배제될 수 있다.

그러나, N의 범위가 상술한 실시예에 제한되는 것은 아니며, N 값의 범위는 정확한 대표 키워드 및 대표 문서를 도출하기 위하여 얼마든지 변경될 수도 있다.

한편, 설명의 편의를 위해 상기 설명에서는 기술 문서(200)의 제1 데이터 필드(DF1)를 예로 들어 설명하였으나, 상술한 키워드 생성 방법이 제1 데이터 필드(DF1) 뿐만 아니라 제2 데이터 필드(DF2)에 대해서 수행될 수 있음은 자명하다.

다만, 제3 데이터 필드(DF3)의 경우는 이미 기술 문서(200)의 저자에 의하여 키워드로 분류되어 있으므로 상술한 키워드 생성 단계가 진행되지 않고, 기재된 그대로 키워드로 이용될 수 있다. 하지만, 이 경우에도 제3 데이터 필드(DF3)에 포함된 임의의 단어가 약어로 표시된 경우, 본딧말로 치환하는 단계가 수행될 수 있다.

이어서, 생성된 키워드 집합에 포함된 복수의 키워드가 사전에 명시되었는지 여부를 판단할 수 있다(S220). 구체적으로, 키워드 집합에 포함된 복수의 키워드가 미리 설정한 기술 사전에 명시되었는지 여부를 판단할 수 있다.

구체적으로 도 9를 함께 참조하면, 단계 S210에서 생성된 키워드 집합(300)은 M개의 키워드(Keyword_1, Keyword_2, …, Keyword_M-1, Keyword_M)를 포함할 수 있다.

이 때, 예를 들어 사전(310)에 제3 키워드(Keyword_3)가 명시된 경우에는 해당 키워드는 이미 저명하고 상용화된 것이므로 키워드 집합에서 제외될 수 있다. 상기와 같이 사전(310)에 의해 키워드 집합(300)이 필터링된 후에 최종 키워드 집합(320)이 생성될 수 있다.

한편, 상기 사전(310)은 기술 사전을 의미할 수 있다. 사전(310)은 IEEE 유의어 사전(Institute of Electrical and Electronics Engineers Thesaurus), taxonomy, Wikipedia 등을 포함할 수 있다.

이어서, 생성된 최종 키워드 집합에 포함된 키워드들을 점수화한다(S240). 키워드들을 점수화하기 위하여, 검색된 기술 문서의 제1 내지 제5 데이터 필드를 이용할 수 있다.

구체적으로, 키워드 집합에 포함된 각각의 키워드에 대하여 검색된 기술 문서 각각에서 몇 번 언급되는지 카운트할 수 있다. 이후, 각각의 기술 문서의 제4 데이터 필드 및 제5 데이터 필드와, 상기 카운트 횟수를 이용하여 해당 기술 문서에 대한 상기 키워드의 점수를 산출하고, 상기 과정을 검색된 기술 문서 모두에 수행하여 상기 키워드를 점수화한다. 즉, 키워드를 점수화하는 것은 하기와 같은 수학식을 통해 수행될 수 있다.

여기서, Keyword_count는 해당 기술 문서에서 해당 키워드를 언급한 횟수를 의미할 수 있고, W_month는 해당 기술 문서의 발행 또는 출판일을 반영한 가중치를 의미할 수 있으며, W_citation은 해당 기술 문서의 인용 횟수와 발행 또는 출판일을 반영한 가중치를 의미할 수 있다.

또한 여기서 W_month는 하기와 같은 수학식을 통하여 계산될 수 있다.

여기서, Month_whole은 기술 문서의 검색 연도 범위를 월로 환산한 기간을 의미할 수 있고, Month_pub은 현 시점으로부터 기술 문서의 발행일 또는 출판일까지의 기간을 월로 환산한 수치를 의미할 수 있다.

예를 들어, 검색 연도 범위가 3년이고, 기술 문서가 6개월 전에 출판된 경우에는 Month_whole은 36의 값을 가질 수 있고, 해당 기술 문서의 Month_pub은 6의 값을 가질 수 있다.

하지만 실시예가 이에 제한되는 것은 아니며, W_month는 최근에 발행 또는 출판된 문헌일수록 더 높은 가중치를 부여하도록 하는 다른 식을 통하여 계산될 수 있음은 자명하다.

한편, W_citation의 값은 해당 문서가 최신에 발행 또는 출판된 경우일수록 더 높은 점수가 계산되도록 가중치를 가질 수 있다.

예를 들어, 2021년에 발행된 기술 문서의 경우 1.2의 가중치를 부여하고, 2020년에 발행된 문서의 경우 1.15의 가중치를 부여한다고 가정하자. 임의의 기술 문서가 2021년에 발행되고 다른 기술 문서에 의해 100회 인용되었다면 W_citation의 값은 120일 수 있다. 반면에, 임의의 기술 문서가 2020년에 발행되고 다른 기술 문서에 의해 100회 인용되었다면 W_citation의 값은 115일 수 있다.

하지만 실시예가 이에 제한되는 것은 아니며, W_citation의 값은 최근에 발행 또는 출판된 문헌일수록 더 높은 가중치를 부여하도록 하는 다른 값을 가질 수 있음은 자명하다.

이어서 다시 도 7을 참조하면, 키워드 집합에 포함된 복수의 키워드 각각을 점수화한 후에, 파레토 법칙(Pareto`s law)에 의해 상위 20%의 키워드만을 출력할 수 있다(S250).

구체적으로, 파레토 법칙은 도출된 복수의 키워드 중 상위 20%의 키워드가 해당 기술 분야를 대표할 수 있는 것을 의미할 수 있다. 따라서 파레토 법칙을 적용하여, 키워드 집합에 포함된 복수의 키워드 중 점수가 높은 상위 20%의 키워드만을 도출할 수 있다.

도 10은 도 2의 단계 S300을 구체적으로 설명하기 위한 흐름도이며, 도 11은 도 10의 단계 S340에서, 검색된 기술 문서 중 분리되어 출력되는 기술 문서들을 구체적으로 설명하기 위한 예시적인 도면이다.

도 10을 참조하면, 단계 S300의 기술 문서를 재검색하기 위하여, 단계 S200에서 도출된 상위 20%의 키워드를 이용하여 다시 해당 기술 분야에서 기술 문서를 재검색할 수 있다(S310).

이어서, 도 3에서 설명한 바와 같이 재검색된 기술 문서가 논문 또는 특허 문헌인지 여부를 판단할 수 있다(S320). 또한 이에 따라 필터링이 동일하게 수행될 수 있다(S330).

한편, 재검색한 기술 문서의 제1 데이터 필드, 즉 제목에 특정한 단어가 포함되어 있는지 여부를 판단할 수 있다(S340).

구체적으로, 도 11을 참조하면 복수의 단어들이 포함된 제1 워드세트(Wordset_1)가 미리 설정될 수 있다. 제1 워드세트(Wordset_1)에는 "survey", "trend", "review" 등의 단어가 포함될 수 있다.

상기와 같은 단어가 제목에 포함된 기술 문서의 경우, 특정 분야의 요소 기술에 대한 트렌드나 장단을 비교한 기술 문서일 수 있다. 이에 따라, 이에 해당하는 기술 문서의 경우, 해당 기술의 개요를 작성할 때 활용하기 위하여 재검색된 기술 문서와 별개로 저장하거나, 혹은 별개로 출력할 수 있다(S350).

한편, 도 11에는 제1 워드세트(Wordset_1)에 "survey", "trend", "review"의 단어만이 포함된 것으로 도시되었으나, 이에 제한되지 않음은 자명하다. 즉, 해당 분야의 요소 기술을 설명하기 위하여 일반적으로 기술 문서의 제목에 사용되는 단어가 제1 워드세트(Wordset_1)에 더 포함될 수 있다.

이어서 다시 도 10을 참조하면, 단계 S350에서 별개로 저장 혹은 출력되는 기술 문서들을 제외하고, 대표 문서를 도출하기 위하여 점수화의 대상이 되는 메인 기술 문서를 획득할 수 있다(S360).

도 12는 도 2의 단계 S400을 구체적으로 설명하기 위한 흐름도이다.

도 12를 참조하면, 단계 S400의 기술 문서를 점수화하고 대표 문서를 도출하기 위하여, 먼저 단계 S300에서 획득한 메인 기술 문서를 점수화할 수 있다(S410). 메인 기술 문서를 점수화하는 방법은 단계 S240에서 설명한 방법과 동일할 수 있다.

이어서, 메인 기술 문서 중 상위 10개의 문서를 추출하여, 해당 기술 분야의 대표 문서로써 도출할 수 있다(S420).

도 13은 도 2의 단계 S500을 구체적으로 설명하기 위한 흐름도이고, 도 14는 도 13의 단계 S510에서, 대표 키워드를 도출하는 방법을 구체적으로 설명하기 위한 예시적인 도면이다.

도 13을 참조하면, 단계 S500의 해당 기술 분야의 대표 키워드를 도출하기 위하여, 먼저 단계 S420에서 도출된 대표 문서의 제2 데이터 필드, 즉 요약 부분을 이용하여 키워드 집합을 생성할 수 있다(S510).

구체적으로 도 14를 참조하면 복수의 단어들이 포함된 제2 워드세트(Wordset_2)가 미리 설정될 수 있다. 제2 워드세트(Wordset_2)에는 "propose", "suggest", "introduce", "new" 등의 단어가 포함될 수 있다.

상기와 같은 단어들은 특정 분야의 요소 기술에 대한 트렌드를 제안하거나, 앞으로 두각될 기술을 제시하는 의미를 가질 수 있다. 이에 따라, 도출된 대표 문서의 요약 부분에서 제2 워드세트(Wordset_2)에 포함된 단어를 포함하는 문장을 이용하여 키워드 집합을 생성할 수 있다.

구체적으로, 대표 문서의 요약 부분에 포함된 복수의 문장에 대하여 점수화를 수행하기 위한 알고리즘이 적용될 수 있다. 알고리즘은 복수의 문장에 대하여 제2 워드세트(Wordset_2)에 포함된 단어를 많이 포함하고 있는 문장에 대하여 더 높은 점수를 부여하도록 프로그래밍 되어있을 수 있다. 알고리즘의 예로 jaccard similarity 식이 사용될 수 있으나 실시예가 이에 제한되는 것은 아니며, 알고리즘은 제2 워드세트(Wordset_2)에 포함된 단어가 많은 문장일수록 더 높은 점수를 부여하도록 하는 다른 방식으로 구현될 수 있음은 자명하다.

상기 과정을 통하여 가장 높은 점수가 부여된 문장이 도출될 수 있다. 도출된 문장에 대하여 키워드 집합을 생성할 수 있다. 키워드 집합을 생성하는 방법은 단계 S210에서 설명한 방법과 동일할 수 있다.

이어서 생성된 키워드 집합을 이용하여, 키워드 집합에 포함된 복수의 키워드들을 점수화한다(S520). 복수의 키워드들을 점수화하는 방법은 단계 S240에서 설명한 방법과 동일할 수 있다.

이어서 가장 높은 점수를 획득한 키워드를 해당 기술 분야에 대한 대표 키워드로써 도출할 수 있다(S530).

도 15는 다른 실시예에 따른 기술 문서 데이터 베이스를 통한 키워드 도출 장치의 하드웨어를 개략적으로 도시한 블록도이다.

도 15를 참조하면, 컴퓨팅 장치(500)는 하나 이상의 프로세서(510), 버스(550), 통신 인터페이스(570), 프로세서(510)에 의하여 수행되는 컴퓨터 프로그램(591)을 로드(load)하는 메모리(530)와, 컴퓨터 프로그램(591)을 저장하는 스토리지(590)를 포함할 수 있다.

다만, 도 15에는 본 발명의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 15에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(510)는 컴퓨팅 장치(500)의 각 구성의 전반적인 동작을 제어할 수 있다. 프로세서(510)는 CPU(Central Processing Unit), MPU(Micro processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(510)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(500)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(530)는 각종 데이터, 명령 및/또는 정보를 저장할 수 있다. 메모리(530)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(590)로부터 하나 이상의 프로그램(591)을 로드(load)할 수 있다. 예를 들어, 컴퓨터 프로그램(591)이 메모리(530)에 로드되면, 메모리(530) 상에 구현될 수 있다. 메모리(530)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.

버스(550)는 컴퓨팅 장치(500)의 구성 요소 간 통신 기능을 제공할 수 있다. 버스(550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(570)는 컴퓨팅 장치(500)의 유무선 인터넷 통신을 지원할 수 있다. 통신 인터페이스(570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(570)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.

스토리지(590)는 하나 이상의 컴퓨터 프로그램(591)을 비임시적으로 저장할 수 있다. 스토리지(590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(591)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 명령(instruction)들을 포함할 수 있다. 컴퓨터 프로그램(591)이 메모리(530)에 로드되면, 프로세서(510)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.

상기 컴퓨터 프로그램(591)은 DVD-ROM, 플래시 메모리 장치 등의 기록매체에 저장된 것일 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

기술 분야와 관련된 검색어와 검색 연도 범위를 기초로 제1 내지 제5 데이터 필드를 포함하는 기술 문서를 검색하는 단계;
상기 검색된 기술 문서의 상기 제1 내지 제3 데이터 필드를 이용하여 키워드 집합을 생성하고, 상기 키워드 집합에 포함된 복수의 키워드를 점수화하고, 상기 복수의 키워드 중 일부를 선별하는 단계;
상기 선별된 키워드를 이용하여 상기 기술 분야와 관련된 기술 문서를 재검색하는 단계;
상기 재검색된 기술 문서를 점수화하여 상기 기술 분야를 대표하는 대표 문서를 도출하는 단계; 및
상기 대표 문서에 포함된 상기 제2 데이터 필드를 이용하여, 상기 기술 분야를 대표하는 대표 키워드를 도출하는 단계를 포함하되,
상기 제1 데이터 필드는 상기 기술 문서의 제목을 포함하고,
상기 제2 데이터 필드는 상기 기술 문서의 요약을 포함하고,
상기 제3 데이터 필드는 상기 기술 문서의 키워드를 포함하는 키워드 도출 방법.
제1항에 있어서,
상기 키워드 집합을 생성하는 것은,
상기 제1 데이터 필드 및 상기 제2 데이터 필드에 기재된 문장에 대하여 미리 결정된 N개의 인접한 단어로 구성된 단어군의 집합을 생성하는 것을 포함하는 키워드 도출 방법.
제1항에 있어서,
상기 기술 문서는 제4 및 제5 데이터 필드를 더 포함하고,
상기 제4 데이터 필드는 상기 기술 문서의 인용 횟수를 포함하고,
상기 제5 데이터 필드는 상기 기술 문서의 발행 또는 출판일을 포함하고,
상기 키워드 집합에 포함된 복수의 키워드를 점수화하는 것은,
상기 제4 데이터 필드와 상기 제5 데이터 필드를 기초로 상기 키워드 집합에 포함된 복수의 키워드를 점수화하는 것을 포함하는 키워드 도출 방법.
제1항에 있어서,
상기 생성된 키워드 집합에 포함되는 복수의 키워드 중 미리 설정한 기술 사전에 명시되어 있는 키워드는 상기 키워드 집합에서 배제하는 것을 더 포함하는 키워드 도출 방법.
제1항에 있어서,
상기 기술 문서를 검색하는 단계는,
상기 검색된 기술 문서가 논문 또는 특허 문헌인 경우, 미리 설정한 출처에서 발행된 논문 또는 특허 문헌만을 상기 검색된 기술 문서에 포함시키는 것을 포함하는 키워드 도출 방법.
제1항에 있어서,
상기 선별된 키워드를 이용하여 재검색된 기술 문서 중, 미리 설정한 제1 워드세트에 포함된 단어가 상기 제1 데이터 필드에 포함된 경우에는 별도로 출력하는 것을 더 포함하는 키워드 도출 방법.
프로세서;
컴퓨터 프로그램을 저장하는 스토리지; 및
상기 프로세서에 의해 실행되고, 상기 컴퓨터 프로그램과 관련된 명령(instruction)을 로드(load)하는 메모리를 포함하되,
상기 컴퓨터 프로그램은 실행 시, 상기 프로세서로 하여금,
기술 분야와 관련된 검색어와 검색 연도 범위를 기초로 제1 내지 제5 데이터 필드를 포함하는 기술 문서를 검색하고,
상기 검색된 기술 문서의 상기 제1 내지 제3 데이터 필드를 이용하여 키워드 집합을 생성하고, 상기 키워드 집합에 포함된 복수의 키워드를 점수화하고, 상기 복수의 키워드 중 일부를 선별하고,
상기 선별된 키워드를 이용하여 상기 기술 분야와 관련된 기술 문서를 재검색하고,
상기 재검색된 기술 문서를 점수화하여 상기 기술 분야를 대표하는 대표 문서를 도출하고,
상기 대표 문서에 포함된 상기 제2 데이터 필드를 이용하여, 상기 기술 분야를 대표하는 대표 키워드를 도출하도록 하되,
상기 제1 데이터 필드는 상기 기술 문서의 제목을 포함하고,
상기 제2 데이터 필드는 상기 기술 문서의 요약을 포함하고,
상기 제3 데이터 필드는 상기 기술 문서의 키워드를 포함하는 키워드 도출 장치.
제7항에 있어서,
상기 키워드 집합을 생성하는 것은,
상기 제1 데이터 필드 및 상기 제2 데이터 필드에 기재된 문장에 대하여 미리 결정된 N개의 인접한 단어로 구성된 단어군의 집합을 생성하는 것을 포함하는 키워드 도출 장치.
컴퓨팅 장치와 결합되어,
기술 분야와 관련된 검색어와 검색 연도 범위를 기초로 제1 내지 제5 데이터 필드를 포함하는 기술 문서를 검색하는 단계;
상기 검색된 기술 문서의 상기 제1 내지 제3 데이터 필드를 이용하여 키워드 집합을 생성하고, 상기 키워드 집합에 포함된 복수의 키워드를 점수화하고, 상기 복수의 키워드 중 일부를 선별하는 단계;
상기 선별된 키워드를 이용하여 상기 기술 분야와 관련된 기술 문서를 재검색하는 단계;
상기 재검색된 기술 문서를 점수화하여 상기 기술 분야를 대표하는 대표 문서를 도출하는 단계; 및
상기 대표 문서에 포함된 상기 제2 데이터 필드를 이용하여, 상기 기술 분야를 대표하는 대표 키워드를 도출하는 단계를 포함하되,
상기 제1 데이터 필드는 상기 기술 문서의 제목을 포함하고,
상기 제2 데이터 필드는 상기 기술 문서의 요약을 포함하고,
상기 제3 데이터 필드는 상기 기술 문서의 키워드를 포함하고,
상기 복수의 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장된 컴퓨터 프로그램.
제9항에 있어서,
상기 키워드 집합을 생성하는 것은,
상기 제1 데이터 필드 및 상기 제2 데이터 필드에 기재된 문장에 대하여 미리 결정된 N개의 인접한 단어로 구성된 단어군의 집합을 생성하는 것을 포함하는 컴퓨터 프로그램.