KR101374197B1 - 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체 - Google Patents

다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체 Download PDF

Info

Publication number
KR101374197B1
KR101374197B1 KR1020130117694A KR20130117694A KR101374197B1 KR 101374197 B1 KR101374197 B1 KR 101374197B1 KR 1020130117694 A KR1020130117694 A KR 1020130117694A KR 20130117694 A KR20130117694 A KR 20130117694A KR 101374197 B1 KR101374197 B1 KR 101374197B1
Authority
KR
South Korea
Prior art keywords
resources
similarity
multiple resources
time difference
time
Prior art date
Application number
KR1020130117694A
Other languages
English (en)
Inventor
정도헌
정한민
송사광
황명권
김진형
김장원
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020130117694A priority Critical patent/KR101374197B1/ko
Application granted granted Critical
Publication of KR101374197B1 publication Critical patent/KR101374197B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명의 일 실시예에 따른 다종 리소스들의 의미 기반 시차 조정 장치는 동일한 연구분야의 리소스 데이터를 포함하는 다종 리소스들의 시간에 따른 색인어 기반의 색인어 클러스터 집합들을 생성하는 클러스터 생성 모듈, 다종 리소스들의 색인어 클러스터 집합들을 시간 축에 따라 제 1 시간 단위로 이동시켜 발생된 시차마다 클러스터 집합들 간의 유사도를 측정하는 유사도 측정 모듈 및 측정된 유사도에 근거하여 다종 리소스들 간의 생성 시차를 보정하는 보정 모듈을 포함할 수 있다.

Description

다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체{a method for adjusting time difference based on meaning of diverse resources, an apparatus for adjusting time difference based on meaning of diverse resources and storage medium for storing a program adjusting time difference based on meaning of diverse resources}
본 발명은 다종 리소스들의 의미기반 시차 조정 방법, 장치 및 이와 관련된 프로그램을 저장하는 저장 매체에 관한 것으로 더욱 상세하게는 특허, 논문, 웹 데이터 등의 다양한 리소스들을 통합적으로 분석하기 위해 각 리소스의 데이터 생성 시기를 자동으로 추정하여 각 자원들을 조정된 시간축에서 재정렬하는 방법, 장치 및 이와 관련된 프로그램을 저장하는 저장 매체에 관한 것이다.
본 발명은 다종 리소스들의 의미기반 시차 조정 방법, 장치 및 이와 관련된 프로그램을 저장하는 저장 매체에 관한 것으로 더욱 상세하게는 특허, 논문, 웹 데이터 등의 다양한 리소스들을 통합적으로 분석하기 위해 각 리소스의 데이터 생성 시기를 자동으로 추정하여 각 자원들을 조정된 시간축에서 재정렬하는 방법, 장치 및 이와 관련된 프로그램을 저장하는 저장 매체에 관한 것이다.
정보 통신 기술이 발달함에 따라 날마다 방대한 양의 다양한 정보가 빠르게 생성되고 있다. 최근에는 방대한 양의 데이터를 분석하여 공통된 특성을 찾아내고, 특정 분야에 해당하는 기술의 발전 성숙도 또는 추이를 예측하기 위한 예측 시스템들이 각광을 받고 있다. 이와 같은 예측 시스템들은 특허, 논문, 웹 데이터 등의 데이터들을 분석을 위한 리소스(자원)들로 활용할 수 있으며, 리소스들은 시계열적 데이터로 이루어질 수 있다.
그러나 각 리소스들은 각각의 시계열적 특성을 가지고 있으므로 기술발전 추이에 대한 분석에 활용하기 위해서는 일정한 처리가 요구된다. 구체적으로, 상술한 리소스의 일 실시예인 특허나 논문의 경우, 웹 데이터와 달리 생성된 시간으로부터 공개되기까지 일정한 시간이 소요되는 것이 일반적이다. 웹 데이터는 특허 또는 논문이 공개/발표되기 이전 또는 이후라도 해당 시점에서 각광받는 기술 또는 제품 뿐만 아니라 향후 중요한 기술 또는 제품에 관한 내용을 개시하기 위해 생성될 수 있다. 반면 특허는 논문이 발표되기 이전 또는 이후라도 논문에 개시된 기술이나 아이디어를 권리화하기 위해 생성될 수 있다. 또한 특허는 출원 이후 1년 6개월이 지난 이후에 공개된다는 제도적 특성을 가지고 있다. 논문 역시 특허 출원 이전에 새로운 기술이나 아이디어를 발표하기 위해 생성될 수 있으며, 특허 출원 이전 뿐만 아니라 이후에도 공개될 수 있다. 또한, 논문이나 특허는 웹 데이터에 의해 대중에 공개되기 전에 신규한 기술이나 제품에 대한 내용을 위해 생성될 수 있다. 따라서 단순히 특허나 논문의 공개일을 기준으로 기술분석을 수행한다면 실제 기술의 생성 시점을 알 수 없기 때문에 기술 발전 추이의 예측 시점이 후행하는 결과를 가져올 수 있다.
따라서 본 발명에서는 기술 발전 추이의 예측하기 위하여, 리소스들의 데이터 생성 시기를 자동으로 추정하여 각 리소스들을 조정된 시간축에서 재정렬하는 방법, 장치 및 이와 관련된 프로그램을 저장하는 저장 매체를 제공한다. 특히 본 발명에서는 특정 분야 내에 해당하는 리소스들간의 시계열적인 연관성을 고려하여 각 리소스들을 조정된 시간축에 재정렬하는 방법을 중심으로 설명한다.
본 발명의 일 실시예에 따른 다종 리소스들의 의미 기반 시차 조정 방법은 동일한 연구분야의 리소스 데이터를 포함하는 다종 리소스들의 시간에 따른 색인어 기반의 색인어 클러스터 집합들을 생성하는 단계, 다종 리소스들의 색인어 클러스터 집합들을 시간 축에 따라 제 1 시간 단위로 이동시켜 발생된 시차마다 클러스터 집합들 간의 유사도를 측정하는 단계 및 측정된 유사도에 근거하여 상기 다종 리소스들 간의 생성 시차를 보정하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 리소스의 공개 일자를 기반으로 하여 클러스터를 생성하고, 생성된 클러스터의 시간축을 이동시켜 리소스들간의 유사도를 측정하므로 보다 정확한 리소스의 생성 시기를 자동으로 추정할 수 있다.
본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 리소스들의 생성 시기를 고려하여 처리하므로 더욱 정확한 기술 발전 또는 성숙도 분석 모델의 예측 결과를 획득할 수 있다.
도 1은 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치를 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 리소스의 의미기반 시차 조정 방법의 플로우 차트이다.
도 3은 본 발명의 일 실시예에 따른 리소스들 중 특허(patent)의 색인어 클러스터 집합의 시간축을 이동시켜 논문(paper)의 색인어 클러스터 집합과의유사도(sim_value)를 측정한 결과를 나타낸 차트이다.
도 4는 본 발명의 일 실시예에 따른 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 나타낸 도면이다.
도 5는 본 발명의 다른 실시예에 따른 다종 리소스들 기반 시차 보정 및 검증을 위한 테이블을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 센트로이드 백터를 생성하는 과정을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 리소스들의 생성 시점을 나타낸 시간축들을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 예측 결과의 정확성 향상 효과를 나타낸 그래프이다.
도 9는 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 방법의 플로우 차트이다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 아닌 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다. 이하 본 발명을 용이하게 설명할 수 있는 도면을 참조하여 본 발명의 실시예를 개시한다.
정보 통신 기술이 발달함에 따라 날마다 방대한 양의 다양한 정보가 빠르게 생성되고 있다. 최근에는 방대한 양의 데이터를 분석하여 공통된 특성을 찾아내고, 특정 분야에 해당하는 기술의 발전 성숙도 또는 추이를 예측하기 위한 예측 시스템들이 각광을 받고 있다. 이와 같은 예측 시스템들은 특허, 논문, 웹 데이터 등의 데이터들을 분석을 위한 리소스들로 활용할 수 있으며, 리소스들은 시계열적 데이터로 이루어질 수 있다.
그러나 각 리소스들은 각각의 시계열적 특성을 가지고 있으므로 기술발전 추이에 대한 분석에 활용하기 위해서는 일정한 처리가 요구된다. 구체적으로, 상술한 리소스의 일 실시예인 특허나 논문의 경우, 웹 데이터와 달리 생성된 시간으로부터 공개되기까지 일정한 시간이 소요되는 것이 일반적이다. 웹 데이터는 특허 또는 논문이 공개/발표되기 이전 또는 이후라도 해당 시점에서 각광받는 기술 또는 제품 뿐만 아니라 향후 중요한 기술 또는 제품에 관한 내용을 개시하기 위해 생성될 수 있다. 반면 특허는 논문이 발표되기 이전 또는 이후라도 논문에 개시된 기술이나 아이디어를 권리화하기 위해 생성될 수 있다. 또한 특허는 출원 이후 1년 6개월이 지난 이후에 공개된다는 제도적 특성을 가지고 있다. 논문 역시 특허 출원 이전에 새로운 기술이나 아이디어를 발표하기 위해 생성될 수 있으며, 특허 출원 이전 뿐만 아니라 이후에도 공개될 수 있다. 또한, 논문이나 특허는 웹 데이터에 의해 대중에 공개되기 전에 신규한 기술이나 제품에 대한 내용을 위해 생성될 수 있다. 따라서 단순히 특허나 논문의 공개일을 기준으로 기술분석을 수행한다면 실제 기술의 생성 시점을 알 수 없기 때문에 기술 발전 추이의 예측 시점이 후행하는 결과를 가져올 수 있다.
본 발명에서는 특허, 논문 등의 리소스들의 시계열적 특성을 고려하여 리소스들의 시차를 보정하여 리소스들의 데이터 생성시기를 자동으로 추정하여 리소스들을 재정렬할 수 있는 방법, 장치 및 이와 관련된 프로그램을 저장하는 저장 매체를 제시한다.
도 1은 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치를 나타낸 도면이다.
도 1에 도시된 바와 같이 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 클러스터 생성 모듈(1000), 유사도 측정 모듈(1100) 및 보정 모듈(1200)을 포함할 수 있다. 각 모듈의 명칭 및 각 모듈의 위치는 설계자의 의도에 따라 변경 가능하다. 이하 각 모듈에 대해 설명한다.
본 발명의 일 실시예에 따른 클러스터 생성 모듈(1000)은 복수의 리소스들 또는 각 리소스들의 색인어를 인풋 데이터로 입력받을 수 있다. 본 발명의 일 실시예에 따른 리소스는 시계열 데이터로서 논문, 특허, 웹 데이터를 포함할 수 있으며, 리소스의 종류는 설계자의 의도에 따라 추가 또는 변경가능하다. 인풋 데이터는 도면에는 도시되지 않았으나 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치 내에 포함된 데이터 베이스에 저장될 수도 있으며, 외부 데이터 베이스에 저장될 수도 있다. 이는 설계자 의도에 따라 변경 가능하다.
또한 본 발명의 일 실시예에 따른 인풋 데이터가 색인어인 경우, 색인어는 해당 리소스에서 사용되는 기술용어인 것을 일 실시예로 할 수 있다. 본 발명의 일 실시예에 따른 색인어는 도면에 도시되지 않았으나 색인어 추출 모듈에서 추출될 수도 있으며, 클러스터 생성 모듈(1000)에서 추출될 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
본 발명의 일 실시예에 따른 클러스터 생성 모듈(1000)은 입력된 인풋 데이터를 이용하여 특정 기술 분야에 포함된 적어도 2종의 리소스에 대해 각각 색인어 클러스터 (cluster) 집합을 생성할 수 있다. 상술한 바와 같이 인풋 데이터가 리소스인 경우, 클러스터 생성 모듈(1000)은 각 리소스로부터 색인어를 추출하여 일정 기간 마다 색인어 클러스터들을 생성할 수 있다. 또한 클러스터 생성 모듈(1000)은 복수의 색인어 클러스터들을 포함하는 색인어 클러스터 집합을 생성할 수 있다. 본 발명의 일 실시예에 따른 색인어 클러스터는 각 리소스별로 리소스의 공개 또는 발표 연도별 또는 월별 또는 특정 기간을 기반으로 생성될 수 있으며 이는 설계자의 의도에 따라 변경 가능하다. 또한 본 발명의 일 실시예에 따른 색인어 클러스터 집합은 각 리소스별로 구별될 수 있으며, 후술할 리소스 간의 시차 조정을 위한 단위로 사용될 수 있다.
본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 클러스터 생성 모듈(1000)에서 출력된 색인어 클러스터 집합들 간의 유사도를 측정할 수 있다. 상술한 바와 같이, 리소스들,특히 논문이나 특허는 생성 일자와 공개 일자가 다르다. 따라서 본원 발명에서는 리소스의 생성 일자를 추정하기 위하여 하나의 리소스의 색인어 클러스터 집합의 시간축을 일정 간격으로 이동하면서 다른 리소스의 색인어 클러스터 집합과의 유사도를 측정하여 리소스의 생성 일자를 추정하는 방법을 제안한다. 따라서 유사도 측정 모듈(1100)은 각 리소스들의 색인어 클러스터 집합을 시간축에 따라 이동시켜 색인어 클러스터 집합들 간의 유사도를 측정할 수 있다. 색인어 클러스터 집합의 시간축은 일정한 시간 간격에 따라 이동될 수 있으며, 시간 간격은 설계자의 의도에 따라 변경가능하다. 구체적인 과정은 후술한다.
보정 모듈(1200)은 유사도 측정 모듈(1100)에서 출력된 유사도를 이용하여 다종 리소스들의 시차를 보정 및 검증할 수 있다. 구체적인 과정은 후술한다.
도 2는 본 발명의 일 실시예에 따른 리소스의 의미기반 시차 조정 방법의 플로우 차트이다.
본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 인풋 데이터를 입력받을 수 있다(S2000). 상술한 바와 같이 본 발명의 일 실시예에 따른 클러스터 생성 모듈(1000)은 복수의 리소스들 또는 각 리소스들의 색인어를 인풋 데이터로 입력받을 수 있다. 본 발명의 일 실시예에 따른 리소스는 시계열 데이터로서 논문, 특허, 웹 데이터를 포함할 수 있으며, 리소스의 종류는 설계자의 의도에 따라 추가 또는 변경가능하다. 인풋 데이터는 도면에는 도시되지 않았으나 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치 내에 포함된 데이터 베이스에 저장될 수도 있으며, 외부 데이터 베이스에 저장될 수도 있다. 이는 설계자 의도에 따라 변경 가능하다.
또한 본 발명의 색인어는 해당 리소스에서 사용되는 기술용어인 것을 일 실시예로 할 수 있다. 본 발명의 일 실시예에 따른 색인어는 색인어 추출 모듈 또는 클러스터 생성 모듈(1000)에서 추출될 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
이후 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 리소스별 색인어 클러스터 집합을 생성할 수 있다(S2000). 도 1에서 설명한 바와 같이, 본 발명의 일 실시예에 따른 클러스터 생성 모듈(1000)은 입력된 인풋 데이터를 이용하여 특정 기술 분야에 포함된 적어도 2종의 리소스에 대해 각각 색인어 클러스터 집합을 생성할 수 있다. 본 발명의 일 실시예에 따른 색인어 클러스터 집합은 각 리소스별로 연도별 또는 월별 또는 특정 기간을 기반으로 생성될 수 있으며 이는 설계자의 의도에 따라 변경 가능하다.
본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 다종 리소스들간의 유사도를 측정할 수 있다(S2200). 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 클러스터 생성 모듈(1000)에서 출력된 색인어 클러스터 집합들 간의 유사도를 측정할 수 있다.
구체적으로 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 하나의 리소스의 색인어 클러스터 집합의 시간축을 일정 시간 단위로 이동시켜 색인어 클러스터 집합들간의 유사도를 측정할 수 있다. 본 발명에서는 시간축이 이동함에 따라 발생하는 시간 차이를 두 리소스의 시차라고 호칭할 수 있다. 즉, 시차는 유사판단이 대상이 되는 리소스들의 연도 차이 즉, 시간축이 이동되지 않은 리소스의 연도에서 시간축이 이동한 리소스의 연도를 뺀 값으로 정의될 수 있다. 따라서 시간축이 이동하지 않은 리소스의 색인어 클러스터의 연도가 2000년이고 시간축이 이동된 리소스의 색인어 클러스터의 연도가 2001년이면 시차는 -1로 계산될 수 있다. 반대로 시간축이 이동되지 않은 리소스의 색인어 클러스터가 생성된 연도가 2001년이고, 시간축이 이동된 리소스의 색인어 클러스터가 생성된 연도가 2000년이면 시차는 +1로 계산 될 수 있다.
양 리소스의 시차를 달리하여 색인어 클러스터 집합과의 유사도를 측정하는 경우, 각 시차마다 유사도가 다르게 측정될 수 있다. 따라서 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 복수의 유사도 중에서 특정 유사도를 대표값으로 선정하고 각 시차 및 각 시차에 해당하는 대표값을 이용하여 다종 리소스들 간의 시차 보정 및 검증을 수행할 수 있다(S2300). 이 경우, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 리소스들 중 웹 데이터가 가장 최신성이 있다는 위배 규칙하에 다종 리소스들간의 시차를 보정하거나 검증할 수 있다. 구체적인 과정은 후술한다.
이후 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 보정 및 검증된 시계열 데이터를 분할할 수 있다(S2400). 이 과정은 본 발명의 일 실시예에 보정 모듈(1200)에서 수행될 수 있다. 이는 설계자 의도에 따라 변경 가능하다. 또한, 본 발명의 일 실시예에 따른 리소스 의미기반 시차 조정 장치는 시계열 데이터를 분할하기 위하여 센트로이드 벡터를 생성하여 분할된 데이터를 생성할 수 있다. 센트로이드 벡터를 생성하는 구체적인 과정은 후술한다.
도 2에 도시된 바와 같이, 다종 리소스들 간의 유사도를 측정하는 과정, 다종 리소스들의 시차 보정 및 검증 과정 및 보정 및 검증된 시계열 데이터를 분할하는 과정은 다종 리소스들에 대해 반복적으로 수행될 수 있다. 구체적으로, 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는, 본 발명의 일 실시예에 따른 리소스인 특허 및 논문에 대해 유사도를 측정하고 유사도를 기반으로 보정 및 검증을 수행한 뒤 데이터를 분할한 이후, 다른 리소스인 웹 데이터와 특허 또는 웹 데이터와 논문에 대해서 상술한 과정을 반복적으로 수행할 수 있다.
이후, 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 아웃풋 데이터를 출력 및 저장할 수 있다(S2500). 아웃풋 데이터는 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치 내의 데이터 베이스에 저장될 수도 있고, 외부 데이터 베이스에 저장될 수도 있다.
또한, 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치 또는 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치내의 보정 모듈(1200)은 아웃풋 데이터를 시간축에 따라 재정렬한 시각적 콘텐츠를 생성할 수도 있다. 또한 본 발명의 종 리소스의 의미기반 시차 조정 장치의 디스플레이부는 시각적 콘텐츠를 디스플레이할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
도 3은 본 발명의 일 실시예에 따른 2종 리소스 간의 유사도를 나타낸 차트이다.
본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치의 유사도 측정 모듈(1100)은 기본적으로 2종 리소스에 대해 유사도 측정을 수행할 수 있다. 유사도 측정을 위한 리소스의 개수는 설계자의 의도에 따라 변경 가능하다.
상술한 바와 같이, 리소스들, 특히 논문과 특허는 공개 일자와 생성 일자간 시차가 발생할 수 있다. 따라서, 본 발명에서는 각 리소스의 생성 일자를 추정하기 위하여 하나의 리소스의 색인어 클러스터 집합의 시간축을 일정 간격으로 이동시켜서 다른 리소스의 색인어 클러스터 집합과의 유사도를 측정하므로서, 공개된 리소스들의 유사도를 기반으로 하여 도출된 각 리소스간의 시차를 이용하여 생성 일자를 추정하는 방법을 제안한다.
따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 하나의 리소스의 색인어 클러스터 집합을 기준으로 나머지 리소스의 색인어 클러스터 집합의 시간축을 일정 기간만큼 앞, 뒤로 이동시켜 색인어 클러스터 집합들간의 유사도를 측정할 수 있다. 본 발명에서는 리소스의 색인어 클러스터 집합의 시간축이 이동함에 따라 발생하는 시간 차이를 두 리소스의 시차라고 호칭하며, 시차는 유사 판단의 대상이 되는 리소스들의 클러스터 생성 연도의 차로 계산될 수 있다.
양 리소스의 시차를 달리하여 색인어 클러스터 집합과의 유사도를 측정하는 경우, 각 시차마다 양 리소스간의 유사도가 다르게 측정될 수 있다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1200)은 각 시차마다 추정된 유사도들의 평균값 또는 최고값 등을 해당 시차의 대표값으로 결정할 수 있으며, 대표값을 결정하는 방법은 설계자의 의도에 따라 변경가능하다.
또한, 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 상술한 방법과 동일한 방법으로 나머지 리소스와의 유사도 즉, 논문의 색인어 클러스터 집합과 웹 데이터의 색인어 클러스터 집합간의 유사도 및 특허의 색인어 클러스터 집합과 웹 데이터의 색인어 클러스터 집합간의 유사도를 측정할 수 있다.
따라서 본 발명의 일 실시예에 따른 보정 모듈(1200)은 유사도 측정 모듈(1200)로부터 다종 리소스들간의 시차 및 각 시차에 해당하는 대표값을 전달받고, 다종 리소스들 간의 시차 보정 및 검증을 수행할 수 있다. 이 경우 본 발명의 일 실시예에 따른 보정 모듈(1200)은 다종 리소스들 간의 시차 보정 및 검증을 수행하기 위한 테이블을 생성할 수 있다. 구체적인 내용은 후술한다.
도 3은 본 발명의 일 실시예에 따른 리소스들 중 특허(patent)의 색인어 클러스터 집합의 시간축을 이동시켜 논문(paper)의 색인어 클러스터 집합과의유사도(sim_value)를 측정한 결과를 나타낸 차트이다. 도 3에 도시된 차트는 논문과 특허의 색인어 클러스터 집합들이 2001년부터 2011년까지 각 연 단위로 생성된 경우로서, 각 연도별 논문과 특허의 클러스터 집합의 유사도를 연도마다 측정한 결과를 나타낸다. 색인어 클러스터 집합을 생성하는 시간 단위는 설계자의 의도에 따라 연단위, 반기 단위, 분기 단위 등으로 변경가능하다. 이하 도 3에 도시된 차트에 대해 설명한다.
도 3에 도시된 차트의 첫 번째 블록(3000)은 논문의 색인어 클러스터 집합과 특허의 색인어 클러스터 집합의 유사도를 측정한 것으로서, 특허의 색인어 클러스터 집합의 시간축을 이동시키지 않고 유사도를 측정한 경우를 나타낸다. 이 경우, 논문과 특허의 시차는 0으로 계산될 수 있다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 첫 번째 블록(3000)에 도시된 바와 같이, 2001년부터 2011년까지 각 연도별로 생성된 논문의 색인어 클러스터와 2001년부터 2011년까지 각 연도별로 생성된 특허의 색인어 클러스터간의 유사도를 각 연도마다 측정할 수 있다.
도 3에 도시된 차트의 두 번째 블록(3100)은 특허의 색인어 클러스터 집합의 시간축이 1년만큼 뒤로 이동된 경우를 나타낸다. 이 경우, 논문과 특허의 시차는 1로 계산될 수 있다. 두 번째 블록(3100)에 도시된 바와 같이, 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2002년에 해당하는 논문의 색인어 클러스터와 2001년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있으며, 2003년에 해당하는 논문의 색인어 클러스터와 2002년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있다.
또한 상술한 바와 같이 도 3에 도시된 특허의 색인어 클러스터는 2001년부터 2011년까지 각 연도별로 생성되므로 특허의 색인어 클러스터의 시간축이 1년 뒤로 이동되었을 때, 2001년에 해당하는 논문의 색인어 클러스터와 대응하는 특허의 색인어 클러스터는 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2001년에 해당하는 논문의 색인어 클러스터에 대해서는 유사도를 측정하지 않는다.
동일한 방식으로, 도 3에 도시된 논문의 색인어 클러스터는 2001년부터 2011년까지 각 연도별로 생성되므로 특허의 색인어 클러스터의 시간축이 1년 뒤로 이동되었을 때, 2011년에 해당하는 특허의 색인어 클러스터에 대응하는 논문의 색인어 클러스터는 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 리유사도 측정 모듈(1100)은 2011년에 해당하는 특허의 색인어 클러스터에 대해서는 유사도를 측정하지 않는다.
도 3에 도시된 차트의 세 번째 블록(3200)은 특허의 색인어 클러스터 집합의 시간축이 2년만큼 뒤로 이동된 경우를 나타낸다. 이 경우, 논문과 특허의 시차는 2로 계산될 수 있다. 세 번째 블록(3200)에 도시된 바와 같이, 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2003년에 해당하는 논문의 색인어 클러스터와 2001년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있으며, 2004년에 해당하는 논문의 색인어 클러스터와 2002년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있다.
또한 상술한 바와 같이 도 3에 도시된 특허의 색인어 클러스터는 2001년부터 2011년까지 연도별로 생성되므로 특허의 색인어 클러스터의 시간축이 2년 뒤로 이동되었을 때, 2001년 및 2002년에 해당하는 논문의 색인어 클러스터들과 대응하는 특허의 색인어 클러스터들은 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2001년 및 2002년에 해당하는 논문의 색인어 클러스터들에 대해서는 유사도를 측정하지 않는다.
동일한 방식으로, 도 3에 도시된 논문의 색인어 클러스터는 2001년부터 2011년까지 각 연도별로 생성되므로 특허의 색인어 클러스터들의 시간축이 2년 뒤로 이동되었을 때, 2010년 및 2011년에 해당하는 특허의 색인어 클러스터들에 대응하는 논문의 색인어 클러스터들은 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2010년 및 2011년에 해당하는 특허의 색인어 클러스터들에 대해서는 유사도를 측정하지 않는다.
도 3에 도시된 차트의 네 번째 블록(3300)은 두 번째 블록(3100)과 반대로 특허의 색인어 클러스터 집합의 시간축이 1년만큼 앞으로 이동된 경우를 나타낸다. 이 경우, 논문과 특허의 시차는 -1로 계산될 수 있다. 네 번째 블록(3300)에 도시된 바와 같이, 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2001년에 해당하는 논문의 색인어 클러스터와 2002년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있으며, 2002년에 해당하는 논문의 색인어 클러스터와 2003년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있다. 또한 상술한 바와 같이 도 3에 도시된 논문의 색인어 클러스터는 2001년부터 2011년까지 각 연도별로 생성되므로 2001년에 해당하는 특허의 색인어 클러스터와 대응하는 논문의 색인어 클러스터는 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2001년에 해당하는 특허의 색인어 클러스터에 대해서는 유사도를 측정하지 않는다.
동일한 방식으로, 도 3에 도시된 특허의 색인어 클러스터는 2001년부터 2011년까지 각 연도별로 생성되므로 특허의 색인어 클러스터의 시간축이 1년 앞으로 이동되었을 때, 2011년에 해당하는 논문의 색인어 클러스터에 대응하는 특허의 색인어 클러스터는 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2011년에 해당하는 논문의 색인어 클러스터에 대해서는 유사도를 측정하지 않는다.
도 3에 도시된 차트의 다섯 번째 블록(3400)은 세 번째 블록(3200)과 반대로 특허의 색인어 클러스터 집합의 시간축이 2년만큼 앞으로 이동된 경우를 나타낸다. 이 경우, 논문과 특허의 시차는 -2로 계산될 수 있다. 다섯 번째 블록(3400)에 도시된 바와 같이, 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2001년에 해당하는 논문의 색인어 클러스터와 2003년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있으며, 2002년에 해당하는 논문의 색인어 클러스터와 2004년에 해당하는 특허의 색인어 클러스터간의 유사도를 측정할 수 있다.
또한 상술한 바와 같이 도 3에 도시된 논문의 색인어 클러스터는 2001년부터 2011년까지 연도별로 생성되므로 특허의 색인어 클러스터들의 시간축이 2년 앞으로 이동되었을 때, 2001년 및 2002년에 해당하는 특허의 색인어 클러스터들과 대응하는 논문의 색인어 클러스터들은 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2001년 및 2002년에 해당하는 특허의 색인어 클러스터들에 대해서는 유사도를 측정하지 않는다.
동일한 방식으로, 도 3에 도시된 특허의 색인어 클러스터는 2001년부터 2011년까지 각 연도별로 생성되므로 특허의 색인어 클러스터들의 시간축이 2년 앞으로 이동되었을 때, 2010년 및 2011년에 해당하는 논문의 색인어 클러스터들에 대응하는 특허의 색인어 클러스터들은 존재하지 않는다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 2010년 및 2011년에 해당하는 논문의 색인어 클러스터들에 대해서는 유사도를 측정하지 않는다.
본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 색인어 클러스터 집합간의 평균값이 아닌 중위값(median)을 이용하여 유사도를 측정할 수 있다.
하기의 수학식 1은 본 발명의 일 실시예에 따른 리소스간의 유사도를 구하기 위한 수학식이다.
Figure 112013089443220-pat00001
수학식 1에 도시된 TpcGrppaper_i, TpcGrppatent_i는 각 연도별로 생성된 논문 및 특허의 색인어 클러스터를 나타내는 변수를 의미한다. 각 변수에 포함된 I는 연도를 나타낸다. 도 3에서 설명한 바와 같이 리소스의 색인어 클러스터 집합의 시간 축을 이동시키는 경우, 두 변수 중 시간 축이 이동되는 변수는 i 대신 i-N 또는 i+N으로 표현될 수 있다. N은 해당 리소스의 색인어 클러스터 집합의 시간축이 이동되는 시간 간격, 즉 시차의 절대값을 나타내며, -부호는 시간축이 앞으로 이동된 경우이며, +부호는 시간축이 뒤로 이동된 경우이다. N의 값 및 부호의 의미는 설계자의 의도에 따라 변경가능하다.
따라서, 도 3의 두 번째 블록(3100)의 경우, 특허의 색인어 클러스터 집합의 시간축이 1년만큼 뒤로 이동된 경우를 나타내므로, 수학식 1에 도시된 변수 TpcGrppatent_i는 TpcGrppatent_i-1로 수정될 수 있다.
측정된 유사도는 도 3에 도시된 차트와 같이 해당 자원의 색인어 클러스터 집합의 연도와 함께 표시된다. 상술한 바와 같이, 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 각 블록에 도시된 측정된 유사도 중 최대값을 대표값으로 결정할 수 있다. 따라서 시차가 0인 경우, 유사도 0.893이 대표값이 될 수 있으며, 시차가 1인 경우는 유사도 0.69가 대표값이 될 수 있고, 시차가 2인 경우는 유사도 0.544이 대표값이 될수 있다. 동일하게, 시차가 -1인 경우에는 유사도 0.811이 대표값이 될 수 있고, 시차가 -2인 경우에는 유사도 0.687이 대표값이 될 수 있다. 또한 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 각 블록에 도시된 유사도들의 평균을 계산하여 대표값으로 결정할 수도 있다. 이는 설계자의 의도에 따라 변경가능한 사항이다.
도 4는 본 발명의 일 실시예에 따른 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 나타낸 도면이다.
상술한 바와 같이, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 유사도 측정 모듈(1100)로부터 2종 리소스간 측정된 대표값 및 시차에 대한 정보를 전달받고 도 4에 도시된 테이블을 생성할 수 있다.
이 경우 본 발명의 일 실시예에 따른 보정 모듈(1200)은 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 생성하고, 리소스 중 웹 데이터가 특허, 논문보다 최신성이 높다는 위배 규칙하에 오류를 필터링하여 리소스들을 동일한 시간축에 배열할 수 있다.
이하 위배 규칙에 대해 설명한다. 본 발명의 일 실시예에 따른 위배 규칙은 제 1 위배 규칙과 제 2 위배 규칙을 포함할 수 있다.
제 1 위배 규칙은 웹 데이터는 최신성을 갖는 다는 점, 즉, 웹 데이터가 대중에게 일반적으로 인식되는 시점은 논문 및 특허가 대중에게 일반적으로 인식되는 시점이 보다 빠르다는 것을 의미한다. 일반적으로 논문 및 특허는 공개되더라도 일반 대중에게 널리 인식되기까지는 일정한 시간이 소요된다. 하지만 웹 데이터는 공개와 동시에 또는 공개 된 이후로 논문 및 특허에 비해 짧은 시간 내에 일반 대중에게 인식되는 경우가 많다. 따라서 논문 및 특허가 일반 대중에게 인식되는 시점의 연도는 웹 데이터가 일반 대중에게 인식되는 시점의 연도보다 큰 값을 가질 수 밖에 없으며, 논문과 웹 데이터의 시차 및 특허와 웹 데이터의 시차는 늘 0보다 큰 값에 해당한다.
제 1 위배 규칙은 다음의 수학식 2와 같이 표현될 수 있다.
Figure 112013089443220-pat00002
수학식 2에 표현된 변수 Timepaper, Timepatent 및 Timewebdata는 각각 논문, 특허 및 웹 데이터가 일반 대중에게 공개되어 인식되는 시점을 의미한다. 시점은 연도 또는 연도와 월 등으로 표현될 수 있다. 따라서 수학식 2는 논문과 웹 데이터의 시차 및 특허와 웹 데이터의 시차를 나타낸 수식으로, 각 시차는 늘 0보다 큰 값임을 나타낸다.
제 2 위배 규칙은 웹 데이터는 논문 또는 특허보다 빨리 공개된다는 것을 의미한다. 웹 데이터는 해당 분야의 새로운 기술이나 제품, 또는 미래에 각광을 받을 수 있는 기술이나 제품에 대한 내용을 개시할 수 있으므로 논문이나 특허보다 빨리 공개될 수 있다. 따라서 논문, 특허 및 웹 데이터의 공개 일자를 동일한 시간축 상에 표시했을 때 웹 데이터의 공개 일자는 현재를 기준으로 가장 앞에 배치될 수 있다. 또한, 웹 데이터는 최선성을 가지므로, 웹 데이터의 공개 일자와 가장 늦게 공개된 리소스의 공개 일자의 시차는 가장 큰 값을 가져야 한다.
상술한 바와 같이, 웹 데이터는 생성되자마자 공개되기 때문에, 생성 일자와 공개 일자간의 시차가 적다. 하지만 논문, 특허는 생성 일자와 공개 일자 간에 큰 시차가 발생할 수 있다. 따라서 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 각 리소스의 공개 일자를 동일한 시간축에 배치했을 때 제 1 위배 규칙 및 제 2 위배 규칙에 따라 가장 큰 유사도를 갖는 경우의 리소스들의 배치를 확인할 수 있다. 이후 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 각 리소스간의 시차를 이용하여 각 리소스의 생성 일자를 추정할 수 있으며, 추정된 생성 일자를 기준으로 다시 리소스들을 동일한 시간축에 배치할 수 있다.
이하 도 4에 도시된 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 설명한다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 상술한 제 1 및 제 2 위배 규칙에 따라 유사도 측정 모듈(1100)로부터 전달받은 시차 및 대표값을 이용하여 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 생성할 수 있다.
도 4에 도시된 바와 같이 다종 리소스들의 시차 보정 및 검증을 위한 테이블은 다섯 개의 열들(4000 내지 4400)로 구성될 수 있다. 도 4에 도시된 테이블에 도시된 리소스간의 시차는 최소 -2부터 최대 2까지의 값을 가질 수 있으며, 시차의 값은 설계자의 의도에 따라 변경 가능하다. 이하 각 열에 대해 설명한다.
첫 번째 열(4000)은 리소스들을 동일한 시간축에서 배열하기 위하여 기준이 되는 2종 리소스들의 공개 일자간의 시차 (time Diff.) 및 각 시차에 따른 대표값(Sim.Value)를 나타낸다. 도 4에 도시된 첫 번째 열(4000)은 논문과 특허의 공개 일자 간의 시차 및 그에 대응하는 대표값을 포함한다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 논문과 특허를 기준이 되는 2종 리소스로 결정할 수 있으나 이는 설계자의 의도에 따라 변경 가능하며, 논문과 특허의 공개 일자간의 시차는 “논문-특허의 시차”로 표현될 수 있다.
논문-특허의 시차가 -2인 경우는 도 3의 다섯 번째 블록(3400)에서 설명한 바와 같이 특허의 색인어 클러스터 집합의 시간축이 2년 앞으로 이동된 경우에 대응된다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.488을 테이블에 기재할 수 있다.
논문-특허의 시차가 -1인 경우는 도 3의 네 번째 블록(3300)에서 설명한 바와 같이 특허의 색인어 클러스터 집합의 시간축이 1년 앞으로 이동된 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.406을 테이블에 기재할 수 있다.
논문-특허의 시차가 0인 경우는 도 3의 첫 번째 블록(3000)에서 설명한 바와 같이 특허의 색인어 클러스터 집합의 시간축이 이동되지 않은 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.359를 테이블에 기재할 수 있다.
논문-특허의 시차가 1인 경우는 도 3의 두 번째 블록(3100)에서 설명한 바와 같이 특허의 색인어 클러스터 집합의 시간축이 1년 뒤로 이동된 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.313을 테이블에 기재할 수 있다.
논문-특허의 시차가 2인 경우는 도 3의 세 번째 블록(3200)에서 설명한 바와 같이 특허의 색인어 클러스터 집합의 시간축이 2년 뒤로 이동된 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.363을 테이블에 기재할 수 있다.
두 번째 열(4100)은 특허와 웹 데이터의 공개 일자간의 시차(time Diff.)와 유사도 측정 모듈(1100)에서 결정한 대표값(Sim.Value)을 포함한다. 특허와 웹 데이터의 공개 일자간의 시차는 “특허-웹 데이터의 시차”로 표현될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 특허-웹 데이터의 시차가 -2부터 2까지인 경우, 각 시차에 해당하는 대표값을 입력받을 수 있다. 즉, 웹 데이터의 색인어 클러스터 집합의 시간축을 이동시키면서 특허의 색인어 클러스터 집합과의 유사도를 측정한 경우에 해당한다. 이 경우, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 제 1 위배 규칙에 따라 시차가 -2 , -1인 경우의 대표값은 테이블에 기재하지 않는다. 다만, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 세 번째 열(4200)을 고려하여 시차가 0인 경우의 대표값은 테이블에 기재할 수 있다. 또한, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 첫 번째 열(4000)의 각 시차의 행마다 특허-웹 데이터의 시차가 0, 1, 2인 경우의 대표값을 중복하여 표시한다.
세 번째 열(4200)은 논문과 웹 데이터의 공개 일자간의 시차(time Diff.)와 대표값(Sim.Value)을 포함할 수 있다. 논문과 웹 데이터의 공개 일자간의 시차는 “논문-웹 데이터의 시차”로 표현될 수 있다.세 번째 열(4200)에 도시된 논문-웹 데이터의 시차는 첫 번째 열(4000)의 논문-특허의 시차와 두 번째 열(4100)의 특허-웹 데이터의 시차의 합에 해당한다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 유사도 측정 모듈(1100)로부터 전달받은 대표값들 중에서 각 시차에 대응하는 대표값을 테이블에 도시할 수 있다.
네 번째 열(4300)은 첫 번째 열(4000) 내지 세 번째 열(4200)에 각 행에 도시된 대표값의 합을 나타낸다.
다섯 번째 열(4400)은 전제 위반(premise violation) 여부를 나타낸다. 상술한 바와 같이 논문-웹 데이터의 시차가 음수 또는 0인 경우는 제 1 위배 규칙에 위배된다. 또한 시차가 양수인 경우라도, 제 2 위배 규칙에 따라 웹 데이터의 공개일이 가장 최선성을 가져야 한다. 따라서 본 발명의 일 실시예에 따른 보정 모듈(1200)은 다섯 번째 열(4400)의 1행부터 5행 및 7행에 해당하는 값들은 전제 위반에 해당한다고 표시할 수 있다. 또한 상술한 제 2 위배 규칙에 따르는 경우, 논문과 웹 데이터의 공개 일자 간의 시차가 가장 긴 것이 전제되어야 한다. 즉, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 시차의 범위가 -2에서 2까지이므로 가장 긴 시차를 2로 정의하고, 이에 따라 오류를 필터링 할 수 있다. 따라서 도 4의 색처리된 다섯 번째 열(4400)의 6행의 대표값은 네 번째 열(4300)에 도시된 대표값 중 최대값에 해당하나 웹 데이터와 논문의 공개 일자의 시차가 가장 긴 값이 아니므로, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 전제 위반에 해당한다고 표시할 수 있다.
도 5는 본 발명의 다른 실시예에 따른 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 나타낸 도면이다.
상술한 바와 같이 도 4에 도시된 다종 리소스들의 시차 보정 및 검증을 위한 테이블의 최대값에 해당하는 대표값은 전제 위반이 되므로 오류로 인정되어 필터링된다. 상술한 바와 같이, 다종 리소스들의 시차 보정 및 검증을 위한 테이블의 첫 번째 열은 소스들을 동일한 시간축에서 배열하기 위하여 기본이 되는 2종 리소스들 간의 시차(time Diff.) 및 각 시차에 따른 유사도 측정 모듈(1100)에서 결정한 대표값(Sim.Value)를 포함할 수 있다. 이때, 가장 큰 대표값이 전제에 위반된다는 것은 첫 번째 열에 도시된 기본 2종 리소스들의 배열이 잘못된 것임을 의미한다. 따라서 본 발명의 일 실시예에 따른 보정 모듈(1200)은 첫 번째 열에 도시되는 2종 리소스들의 시차를 반대로 조정하여 새로운 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 생성할 수 있다.
따라서 본 발명의 일 실시예에 따른 보정 모듈(1200)은 도 5에 도시된 바와 같이 특허의 공개 일자에서 논문의 공개 일자를 뺀 시차를 기반으로 하는 새로운 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 생성할 수 있다.
이하 도 5에 도시된 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 설명한다.
도 5에 도시된 다종 리소스들의 시차 보정 및 검증을 위한 테이블은 도 4와 동일하게 다섯 개의 열들(5000 내지 5400)로 구성될 수 있다. 도 5에 도시된 테이블에 도시된 리소스간의 시차는 최소 -2부터 최대 2까지의 값을 가질 수 있으며,시차의 값은 설계자의 의도에 따라 변경 가능하다. 이하 각 열에 대해 설명한다.
첫 번째 열(5000)은 리소스들을 동일한 시간축에서 배열하기 위하여 기준이 되는 2종 리소스들의 공개 일자간의 시차(time Diff.) 및 각 시차에 따른 유사도 측정 모듈(1100)에서 결정한 대표값(Sim.Value)를 나타낸다. 도 5에 도시된 첫 번째 열(5000)은 도 4에 도시된 첫 번째 열(4000)과 동일하나, 특허와 논문간의 시차와 대표값을 포함할 수 있다. 즉, 도 3에 도시된 특허의 색인어 클러스터 집합의 시간축이 이동된 경우와 반대로, 논문의 색인어 클러스터 집합의 시간축이 이동된 경우의 시차 및 대표값을 포함할 수 있다. 따라서 도 5에 도시된 첫 번째 열(5000)의 대표값은 도 4의 첫 번째 열(4000)의 대표값들의 역순으로 기재될 수 있다. 또한 특허와 논문의 공개 일자간의 시차는 “특허-논문의 시차”로 표현될 수 있다.
특허-논문의 시차가 -2인 경우는 논문의 색인어 클러스터 집합의 시간축이 2년 앞으로 이동된 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.363을 테이블에 기재할 수 있다.
특허-논문의 시차가 -1인 경우는 논문의 색인어 클러스터 집합의 시간축이 1년 앞으로 이동된 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.313을 테이블에 기재할 수 있다.
특허-논문의 시차가 0인 경우는 논문의 색인어 클러스터 집합의 시간축이 이동되지 않은 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.359를 테이블에 기재할 수 있다.
특허-논문의 시차가 1인 경우는 논문의 색인어 클러스터 집합의 시간축이 1년 뒤로 이동된 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.406을 테이블에 기재할 수 있다.
특허-논문의 시차가 2인 경우는 논문의 색인어 클러스터 집합의 시간축이 2년 뒤로 이동된 경우에 대응될 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 시차에 대응하는 대표값 0.488을 테이블에 기재할 수 있다.
두 번째 열(5200)은 논문과 웹 데이터의 공개 일자간의 시차(time Diff.)와 유사도 측정 모듈(1100)에서 결정한 대표값(Sim.Value)을 포함한다. 논문과 웹 데이터의 공개 일자간의 시차는 “논문-웹 데이터의 시차”로 표현될 수 있다.이 경우, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 도 4와 동일하게 제 1 위배 규칙에 따라 시차가 -2 , -1인 경우의 대표값은 테이블에 기재하지 않는다. 다만, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 세 번째 열(5200)을 고려하여 시차가 0인 경우의 대표값은 테이블에 기재할 수 있다. 또한, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 첫 번째 열(4000)의 각 시차의 행마다 논문-웹 데이터의 시차가 0, 1, 2인 경우의 대표값을 중복하여 표시한다.
세 번째 열(5200)은 특허와 웹 데이터의 공개 일자간의 시차(time Diff.)와 대표값(Sim.Value)을 포함할 수 있다. 특허와 웹 데이터의 공개 일자간의 시차는 “특허-웹 데이터의 시차”로 표현될 수 있다. 도 4와 마찬가지로 세 번째 열(5200)에 도시된 논문-웹 데이터의 시차는 첫 번째 열(5000)의 특허-논문의 시차와 두 번째 열(5100)의 논문-웹 데이터의 시차의 합에 해당한다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 유사도 측정 모듈(1100)로부터 전달받은 대표값들 중에서 각 시차에 대응하는 대표값을 테이블에 도시할 수 있다.
네 번째 열(5300)은 첫 번째 열(5000) 내지 세 번째 열(5200)에 각 행에 도시된 대표값의 합을 나타낸다.
다섯 번째 열(5400)은 전제 위반(premise violation) 여부를 나타낸다. 상술한 바와 같이 특허-웹 데이터의 시차가 음수 또는 0인 경우는 제 1 위배 규칙에 위배된다. 또한 시차가 양수인 경우라도, 제 2 위배 규칙에 따라 웹 데이터의 공개일이 가장 최선성을 가져야 한다. 따라서 본 발명의 일 실시예에 따른 보정 모듈(1200)은 다섯 번째 열(5400)의 1행부터 5행 및 7행에 해당하는 값들은 전제 위반에 해당한다고 표시할 수 있다. 또한 상술한 제 2 위배 규칙에 따르는 경우, 논문과 웹 데이터의 공개 일자 간의 시차가 가장 긴 것이 전제되어야 한다. 즉, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 시차의 범위가 -2에서 2까지이므로 가장 긴 시차를 2로 정의하고, 이에 따라 오류를 필터링 할 수 있다.
따라서 도 5의 다섯 번째 열(5400)에서 11행의 대표값은 네 번째 열(5300)에 도시된 대표값 중 최대값에 해당하고, 웹 데이터와 논문의 공개 일자의 시차가 가장 긴 값, 즉 2에 해당하므로, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 대표값에 해당하는 리소스들간의 시차를 이용하여 리소스들의 생성 일자를 추정하고, 리소스들을 동일한 시간축 상에서 배열할 수 있다. 리소스들의 생성 일자를 추정하는 구체적인 내용은 후술한다.
또한, 도 2에서 설명한 바와 같이 본 발명의 일 실시예에 따른 보정 모듈(1200)은 리소스들의 생성 일자를 추정하고, 리소스들을 동일한 시간축 상에서 배열하기 전에 앞서 보정 및 검증된 시계열 데이터를 분할할 수 있다. 즉, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 연단위 외에도 분기 단위, 월단위 등의 보다 정확한 리소스들간의 시차를 구하기 위하여, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 리소스의 색인어 클러스터 집합을 분할하여 분할된 색인어 클러스터 집합들끼리의 유사도를 다시 추정하고, 도 4 및 도 5에서 설명한 다종 리소스들의 시차 보정 및 검증을 위한 테이블을 생성할 수 있다. 이하 각 리소스별 시계열 데이터를 분할하는 방법을 설명한다.
도 6은 본 발명의 일 실시예에 따른 센트로이드 백터를 생성하는 과정을 나타낸 도면이다.
본 발명의 일 실시예에 따른 센트로이드 벡터는 리소스별로 각 연도마다 생성된 색인어 클러스터들을 더하고 2로 나누어 생성되며, 분기별 색인어 클러스터를 생성하기 위하여 사용될 수 있다.
도 6에 도시된 제 1 블록(6000)은 2011년의 색인어 클러스터 벡터를 나타낸다. 제 1 블록(6000)에 도시된 바와 같이, 색인어 클러스터 벡터는 용어 가중치 값이 곱해진 복수의 색인어들로 구성될 수 있다. 용어 가중치 값은 각 색인어 별로 다르게 설정된다. 구체적으로, 3D computed tomography 라는 색인어의 가중치 값은 0.7이며, Ablation Cahtheter라는 색인어의 가중치 값은 0.67이다.
도 6에 도시된 제 2 블록(6100)은 2012년의 색인어 클러스터 벡터를 나타낸다. 제 2 블록(6100)은 제 1 블록(6000)과 동일하게 용어 가중치 값이 곱해진 복수의 색인어들로 구성된 벡터를 나타내고 있다. 다만, 제 2 블록(6100)에 포함된 색인어들은 제 1 블록(6000)에 포함되지 않은 색인어들을 포함할 수 있으며, 제 1 블록(6000)에 포함된 색인어와 동일한 색인어가 있다 하더라도 연도마다 용어 가중치가 다르게 측정될 수 있다. 도 6에 도시된 바와 같이, 제 1 블록(6000)에 포함된 색인어 3D Computed Tomography의 가중치는 0.7이나 제 2 블록(6100)에 포함된 동일한 색인어 3D Computed Tomography의 가중치는 0.75로 다르다.
도 6에 도시된 제 3 블록(6200)은 센트로이드 벡터로서, 2011년 및 2012년 사이의 분기 점 즉, 2011년 6개월에 해당하는 색인어 클러스터 벡터를 나타낸다. 상술한 바와 같이 센트로이드 벡터는 리소스별로 각 연도마다 생성된 색인어 클러스터들을 더하고 2로 나누어 생성되며, 분기별 색인어 클러스터를 생성하기 위하여 사용될 수 있다. 즉, 제 3 블록(6200)에 도시된 바와 같이 색인어 3D Computed Tomography의 경우, 2011년의 용어 가중치 0.7과 2012년의 용어 가중치 0.75를 더하고 2로 나눈 값인 0.725의 용어 가중치를 갖게 됨을 알 수 있다. 본 발명의 일 실시예에 따른 보정 모듈(1200)은 나머지 색인어들에 대해서도 동일한 방식으로 계산하여 2011년 6개월에 해당하는 색인어 클러스터 벡터를 생성할 수 있으며 각 리소스별로 센트로이드 벡터들을 생성한 뒤, 도 2 내지 도 5에서 설명한 방식으로 유사도를 측정하여 각 리소스별 시차를 구할 수 있다. 또한 본 발명의 일 실시예에 따른 보정 모듈(1200)은 6개월 단위로 생성된 센트로이드 벡터들을 도 6에 도시된 방식으로 다시 분할하여 3개월 단위의 센트로이드 벡터들을 생성할 수 있다. 따라서 본 발명의 일 실시예에 따른 종 리소스의 의미기반 시차 조정 장치는 세분화된 시간 단위의 센트로이드 벡터들을 생성하고 유사도를 측정하므로서 보다 정확한 리소스들 간의 시차를 획득할 수 있다. 또한 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 기술 분야 별로 도 2 내지 도 6에서 설명한 방식에 따라 다종 리소스들의 생성 시점을 추정할 수 있다.
도 7은 본 발명의 일 실시예에 따른 리소스들의 생성 시점을 나타낸 시간축들을 나타낸 도면이다.
도 5에서 설명한 바와 같이, 도 5의 다섯 번째 열(5400)에서 11행의 대표값은 네 번째 열(5300)에 도시된 대표값 중 최대값에 해당하고, 웹 데이터와 논문의 공개 일자의 시차가 가장 긴 값, 즉 2에 해당하므로, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 해당 대표값에 해당하는 리소스들간의 시차를 이용하여 리소스들을 동일한 시간축 상에서 배열할 수 있다.
도 5에 도시된 바와 같이, 가장 큰 유사도, 즉, 대표값을 갖는 경우 리소스들의 배열은 웹 데이터-논문-특허의 순으로 나타나며, 특허가 가장 최근에 공개된 것을 확인할 수 있다. 또한 웹 데이터는 논문보다 1년 먼저 공개되고, 논문은 특허보다 1년 먼저 공개되며, 웹 데이터는 특허보다 2년 먼저 공개되었음을 알 수 있다.
상술한 바와 같이, 논문이나 특허는 웹 데이터에 비해 생성 이후 공개되는 데까지 일정 시간이 소요되나 웹 데이터는 생성 이후 곧바로 공개될 수 있다. 또한, 논문이나 특허는 웹 데이터에 의해 대중에 공개되기 전에 신규한 기술이나 제품에 대한 내용을 위해 생성될 수 있다.
따라서 웹 데이터의 공개 일자를 웹 데이터의 생성 일자와 동일하다고 가정하는 경우, 일정 시간 이후에 공개된 논문이나 특허가 특정 시점에서 생성된 웹 데이터와 유사하다는 의미는 웹 데이터와 유사한 논문이나 특허가 웹 데이터의 공개 일자보다 먼저 생성되었음을 의미할 수 있다.
본 발명의 일 실시예에 따른 보정 모듈(1200)은 유사도에 따른 웹 데이터와 논문, 웹 데이터와 특허 간의 시차를 시간축 상에서 역으로 적용하여 생성 일자를 추정할 수 있다. 구체적으로, 본 발명의 일 실시예에 따른 보정 모듈(1200)은 웹 데이터의 생성 일자를 현재 시점으로 가정하고 논문은 웹 데이터보다 1년 먼저 생성되며, 특허는 웹 데이터보다 2년 먼저 생성되는 것으로 추정될 수 있다.
도 7에 도시된 각 시간축들은 특정 기술 분야에 해당하는 리소스들의 생성 시점을 나타낸다. 이하 각 시간축을 설명한다.
7-(1)의 시간축은 전자 통신 분야의 리소스들의 배치를 나타낸다. 도 7-(1)의 시간축은 웹 데이터가 현재 생성되었다는 가정하에 배치된 경우, 논문은 웹 데이터보다 1년 6개월 이전에 생성되었음을 나타내며, 특허는 웹 데이터보다 3년 전에 생성되었음을 나타낸다. 이 경우, 최대 시차는 3년에 해당한다.
7-(2)의 시간축은 정보 기술 분야의 리소스들의 배치를 나타낸다. 도 7-(2)의 시간축은 웹 데이터가 현재 생성되었다는 가정하에 배치된 경우, 논문은 웹 데이터보다 6개월 이전에 생성되었음을 나타내며, 특허는 웹 데이터보다 2년 9개월 전에 생성되었음을 나타낸다. 이 경우 최대 시차는 3년 3개월에 해당한다.
7-(3)의 시간축은 의료 과학/의료 공학 분야의 리소스들의 배치를 나타낸다. 도 7-(3)의 시간축은 웹 데이터가 현재 생성되었다는 가정하에 배치된 경우, 논문은 웹 데이터보다 1년 3개월 이전에 생성되었음을 나타내며, 특허는 웹 데이터보다 9개월 전에 생성되었음을 나타낸다. 이 경우 최대 시차는 2년에 해당한다.
상술한 바와 같이 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치 또는 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치내의 보정 모듈(1200)은 아웃풋 데이터를 시간축에 따라 재정렬한 시각적 콘텐츠를 생성할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
도 8은 본 발명의 일 실시예에 따른 예측 결과의 정확성 향상 효과를 나타낸 그래프이다.
상술한 바와 같이 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치는 특허, 논문 등의 리소스들의 시계열적 특성을 고려하여 리소스들의 시차를 보정하여 리소스들의 데이터 생성시기를 자동으로 추정할 수 있다. 따라서 기술의 발전 성숙도 또는 추이를 예측하기 위한 예측 시스템은 리소스들의 데이터 생성시기를 통해 보다 정확한 기술의 발전 성숙도 또는 추이를 예측할 수 있다. 도 8에 도시된 바와 같이 기술 발전의 성숙도는 증가 단계(irruption), 급증 단계(frenzy), 선회 단계(turnning point), 시너지 단계(synergy 또는 golden age) 및 원숙 단계(maturity)로 구별될 수 있다. 세로축은 기술 혁명의 확산 정도(degree of diffusion of the technological revolution)를 나타내며 상단에 위치할수록 확산 정도가 높은 것으로 나타난다. 그래프의 구성은 설계자의 의도에 따라 변경 가능하다.
도 8에 도시된 그래프에는 기술 발전의 곡선을 포함하고 있으며, 각 기술, 제품 또는 시스템은 분석 결과에 따라 각 단계에 대응하는 위치에 표시될 수 있다. 구체적으로, 컴퓨터 비전 (computer vision) 기술은 증가 단계에 해당하며, 버쥬얼 바디(virtual body) 기술 및 인터랙션 테크놀로지(interaction technology) 기술은 선회단계에 해당하고, 모바일 디바이스(mobile device), 코디네이트 시스템(coordinate system), 버츄얼 월드(virtual world) 기술, 모바일 폰(mobile phone) 기술 및 트랙킹 시스템(tracking system)은 시너지 단계에 해당하는 것으로 표시된다.
도 8의 그래프는 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치의 아웃풋 데이터를 이용한 경우, 오그멘티드 리얼리티(augmented reality) 기술의 기술 발전의 성숙도가 수정되는 것을 나타낸다. 기존의 예측 결과에 따르면 오그멘티드 리얼리티 기술은 증가 단계에 해당하는 것(8000)으로 나타났으나, 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치의 아웃풋을 이용하는 경우, 오그멘티드 리얼리티 기술은 급증 단계(8100)에 해당하는 것으로 나타난다. 따라서 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치의 아웃풋 데이터를 이용한 경우, 기술의 발전 성숙도 또는 추이를 예측하기 위한 예측 시스템의 예측 결과의 정확성이 향상됨을 알 수 있다.
도 9는 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 방법의 플로우 차트이다.
도 1 및 도 2에서 상술한 바와 같이 본 발명의 일 실시예에 따른 클러스터 생성 모듈(1000)은 시간에 따른 다중 리소스 데이터로부터 추출된 색인어를 기반으로 적어도 2종의 리소스에 대해 시간에 따른 색인어 기반의 색인어 클러스터 집합들을 생성할 수 있다(S9000).
구체적으로, 본 발명의 일 실시예에 따른 클러스터 생성 모듈(1000)은 복수의 리소스들 또는 각 리소스들의 색인어를 인풋 데이터로 입력받을 수 있다. 본 발명의 일 실시예에 따른 리소스는 시계열 데이터로서 논문, 특허, 웹 데이터를 포함할 수 있으며, 리소스의 종류는 설계자의 의도에 따라 추가 또는 변경가능하다. 인풋 데이터는 도면에는 도시되지 않았으나 본 발명의 일 실시예에 따른 다종 리소스들의 의미기반 시차 조정 장치 내에 포함된 데이터 베이스에 저장될 수도 있으며, 외부 데이터 베이스에 저장될 수도 있다. 이는 설계자 의도에 따라 변경 가능하다.
또한 본 발명의 일 실시예에 따른 인풋 데이터가 색인어인 경우, 색인어는 해당 리소스에서 사용되는 기술용어인 것을 일 실시예로 할 수 있다. 본 발명의 일 실시예에 따른 색인어는 도면에 도시되지 않았으나 색인어 추출 모듈에서 추출될 수도 있으며, 클러스터 생성 모듈(1000)에서 추출될 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
본 발명의 일 실시예에 따른 클러스터 생성 모듈(1000)은 입력된 인풋 데이터를 이용하여 특정 기술 분야에 포함된 적어도 2종의 리소스에 대해 각각 색인어 클러스터 (cluster) 집합을 생성할 수 있다. 상술한 바와 같이 인풋 데이터가 리소스인 경우, 클러스터 생성 모듈(1000)은 각 리소스로부터 색인어를 추출하여 일정 기간 마다 색인어 클러스터들을 생성할 수 있다. 또한 클러스터 생성 모듈(1000)은 복수의 색인어 클러스터들을 포함하는 색인어 클러스터 집합을 생성할 수 있다. 본 발명의 일 실시예에 따른 색인어 클러스터는 각 리소스별로 리소스의 공개 또는 발표 연도별 또는 월별 또는 특정 기간을 기반으로 생성될 수 있으며 이는 설계자의 의도에 따라 변경 가능하다. 또한 본 발명의 일 실시예에 따른 색인어 클러스터 집합은 각 리소스별로 구별될 수 있으며, 후술할 리소스 간의 시차 조정을 위한 단위로 사용될 수 있다.
이후 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 색인어 클러스터 집합들을 시간 축에 따라 제 1 시간단위로 이동시켜 상기 클러스터 집합들 간의 유사도를 측정할 수 있다(S9100).
구체적으로 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 클러스터 생성 모듈(1000)에서 출력된 색인어 클러스터 집합들 간의 유사도를 측정할 수 있다. 상술한 바와 같이, 리소스들,특히 논문이나 특허는 생성 일자와 공개 일자가 다르다. 따라서 본원 발명에서는 리소스의 생성 일자를 추정하기 위하여 하나의 리소스의 색인어 클러스터 집합의 시간축을 일정 간격으로 이동하면서 다른 리소스의 색인어 클러스터 집합과의 유사도를 측정하여 리소스의 생성 일자를 추정하는 방법을 제안한다. 따라서 유사도 측정 모듈(1100)은 각 리소스들의 색인어 클러스터 집합을 시간축에 따라 이동시켜 색인어 클러스터 집합들 간의 유사도를 측정할 수 있다. 색인어 클러스터 집합의 시간축은 일정한 시간 간격에 따라 이동될 수 있으며, 시간 간격은 설계자의 의도에 따라 변경가능하다. 또한, 도 3에서 설명한 바와 같이, 하나의 리소스의 색인어 클러스터 집합을 기준으로 나머지 리소스의 색인어 클러스터 집합의 시간축을 일정 기간만큼 앞, 뒤로 이동시켜 색인어 클러스터 집합들간의 유사도를 측정할 수 있다. 본 발명에서는 리소스의 색인어 클러스터 집합의 시간축이 이동함에 따라 발생하는 시간 차이를 두 리소스의 시차라고 호칭하며, 시차는 유사 판단의 대상이 되는 리소스들의 클러스터 생성 연도의 차로 계산될 수 있다.
양 리소스의 시차를 달리하여 색인어 클러스터 집합과의 유사도를 측정하는 경우, 각 시차마다 양 리소스간의 유사도가 다르게 측정될 수 있다. 따라서 본 발명의 일 실시예에 따른 유사도 측정 모듈(1200)은 각 시차마다 추정된 유사도들의 평균값 또는 최고값 등을 해당 시차의 대표값으로 결정할 수 있으며, 대표값을 결정하는 방법은 설계자의 의도에 따라 변경가능하다.
또한, 본 발명의 일 실시예에 따른 유사도 측정 모듈(1100)은 상술한 방법과 동일한 방법으로 나머지 리소스와의 유사도 즉, 논문의 색인어 클러스터 집합과 웹 데이터의 색인어 클러스터 집합간의 유사도 및 특허의 색인어 클러스터 집합과 웹 데이터의 색인어 클러스터 집합간의 유사도를 측정할 수 있다. 구체적인 내용은 도 3에서 설명한 바와 같다.
이후 본 발명의 일 실시예에 따른 보정 모듈(1200)은 측정된 유사도에 근거하여 적어도 2종의 리소스 간의 시간 차이를 보정할 수 있다(S9200). 구체적으로 본 발명의 일 실시예에 따른 보정 모듈(1200)은 종 리소스 기반 시차 보정 및 검증을 위한 테이블을 생성하고, 리소스 중 웹 데이터가 특허, 논문 보다 최신성이 높다는 위배 규칙하에 오류를 필터링하여 리소스들을 동일한 시간축에 배열할 수 있다. 또한 본 발명의 일 실시예에 따른 보정 모듈(1200)은 보정 및 검증된 시계열 데이터를 분할할 수 있다. 구체적인 내용은 도 1 내지 도 7에서 설명한 바와 같다.

Claims (15)

  1. 동일한 연구분야의 리소스 데이터를 포함하는 다종 리소스들의 시간에 따른 색인어 기반의 색인어 클러스터 집합들을 생성하는 단계;
    상기 다종 리소스들의 색인어 클러스터 집합들을 시간 축에 따라 제 1 시간 단위로 이동시켜 발생된 시차마다 상기 클러스터 집합들 간의 유사도를 측정하는 단계; 및
    상기 측정된 유사도에 근거하여 동일한 시간축 상에서 상기 다종 리소스들의 배열 순서를 변경하여다종 리소스들 간의 생성 시차를 보정하는 단계를 포함하는, 다종 리소스들의 의미 기반 시차 조정 방법.
  2. 제 1 항에 있어서,
    상기 다종 리소스들은 논문, 특허문서, 웹 데이터를 포함하는 다종 리소스들의 의미 기반
    시차 조정 방법.
  3. 제 2 항에 있어서, 상기 유사도를 측정하는 단계는,
    상기 시차마다 2종 리소스들의 단위로 상기 다종 리소스들간의 유사도를 반복 측정하는 단계; 및
    상기 반복 측정된 유사도를 저장하는 단계를 더 포함하는 다종 리소스들의 의미 기반 시차 조정 방법.
  4. 제 3 항에 있어서, 상기 다종 리소스들 간의 생성 시차를 보정하는 단계는, 상기 시차마다 상기 다종 리소스들 중 최신성이 가장 높은 리소스를 기준으로 상기 다종 리소스들의 유사도의 합이 최대값이 되도록 상기 다종 리소스들을 동일한 시간축에 배열하는 단계를 더 포함하는 다종 리소스들의 의미 기반 시차 조정방법.
  5. 제 4 항에 있어서, 상기 다종 리소스들 간의 생성 시차를 보정하는 단계는, 각 시차별 상기 다종 리소스들의 배열마다 상기 최신성이 가장 높은 리소스와 다른 리소스들간의 시차가 적어도 0보다 크거나 같은지를 판단하는 단계; 및
    판단 결과 최신성이 가장 높은 리소스와 다른 리소스들간의 시차가 0보다 작은 다종 리소스들의 배열들을 필터링하는 단계; 및
    상기 필터링 단계를 거친 다종 리소스들의 배열들 중 유사도의 합이
    최대값을 갖는 다종 리소스들의 배열을 출력하는 단계;를 더 포함하는 다종
    리소스들의 의미 기반 시차 조정 방법
  6. 제 1 항에 있어서, 상기 유사도를 측정하는 단계는, 상기 제 1 시간 단위를 상기 제 1 시간 단위보다 더 작은 단위의 제 2 시간 단위로 분할하는 단계; 및
    상기 색인어 클러스터 집합들을 시간 축에 따라 상기 제 2 시간 단위로 이동시켜 발생된 시차마다 상기 클러스터 집합들 간의 유사도를 측정하는 단계;를 포함하는 다종 리소스들의 의미 기반 시차 조정 방법.
  7. 제 1 항에 있어서, 상기 보정된 다종 리소스들 간의 생성 시차를 이용하여 상기 다종 리소스들에 저장된 데이터가 포함된 기술의 발전 단계를 나타내는 시각적 콘텐츠를 제공하는 단계를 더 포함하는, 다종 리소스들의 의미 기반 시차 조정 방법.
  8. 동일한 연구분야의 리소스 데이터를 포함하는 다종 리소스들의 시간에 따른 색인어 기반의 색인어 클러스터 집합들을 생성하는 클러스터 생성 모듈;
    상기 다종 리소스들의 색인어 클러스터 집합들을 시간 축에 따라 제 1 시간 단위로 이동시켜 발생된 시차마다 상기 클러스터 집합들 간의 유사도를 측정하는 유사도 측정 모듈; 및
    상기 측정된 유사도에 근거하여 동일한 시간축 상에서 상기 다종 리소스들의 배열 순서를 변경하여 다종 리소스들 간의 생성 시차를 보정하는 보정 모듈을 포함하는, 다종 리소스들의 의미 기반 시차 조정 장치.
  9. 제 8 항에 있어서, 상기 다종 리소스들은 논문, 특허문서, 웹 데이터를 포함하는 다종 리소스들의 의미 기반 시차 조정 장치.
  10. 제 9 항에 있어서, 상기 유사도 측정 모듈은,
    상기 시차마다 2종 리소스들의 단위로 상기 다종 리소스들간의 유사도를 반복 측정하고, 상기 반복 측정된 유사도를 저장하는 것을 더 포함하는 다종 리소스들의 의미 기반 시차 조정 장치.
  11. 제 10 항에 있어서, 상기 보정 모듈은,
    상기 시차마다 상기 다종 리소스들 중 최신성이 가장 높은 리소스를 기준으로 상기 다종 리소스들의 유사도의 합이 최대값이 되도록 상기 다종 리소스들을 동일한 시간축에 배열하는 것을 더 포함하는 다종 리소스들의 의미 기반 시차 조정 장치.
  12. 제 11 항에 있어서, 상기 보정 모듈은 각 시차별 다종 리소스들의 배열마다 상기 최신성이 가장 높은 리소스와 다른 리소스들간의 시차가 적어도 0보다 크거나 같은지를 판단하고, 판단 결과 최신성이 가장 높은 리소스와 다른 리소스들간의 시차가 0보다 작은 다종 리소스들의 배열을 필터링하여, 상기 필터링을 거친 다종 리소스들의 배열들 중 유사도의 합이 최대값을 갖는 다종 리소스들의 배열을 출력하는 것을 더 포함하는 다종 리소스들의 의미 기반 시차 조정 장치.
  13. 제 8 항에 있어서, 상기 유사도 측정 모듈은,
    상기 제 1 시간 단위를 상기 제 1 시간 단위보다 더 작은 단위의 제 2 시간 단위로 분할하고, 상기 색인어 클러스터 집합들을 시간 축에 따라 상기 제 2 시간 단위로 이동시켜 발생된 시차마다 상기 클러스터 집합들 간의 유사도를 측정하는 것을 더 포함하는 다종 리소스들의 의미 기반 시차 조정 장치.
  14. 제 8 항에 있어서, 상기 보정 모듈은,
    상기 보정된 다종 리소스들 간의 시차를 이용하여 상기 다종 리소스들에 저장된 데이터가 포함된 기술의 발전 단계를 나타내는 시각적 콘텐츠를 제공하는 것을 더 포함하는, 다종 리소스들의 의미 기반 시차 조정 장치.
  15. 동일한 연구분야의 리소스 데이터를 포함하는 다종 리소스들의 시간에 따른 색인어 기반의 색인어 클러스터 집합들을 생성하고, 상기 다종 리소스들의 색인어 클러스터 집합들을 시간 축에 따라 제 1 시간 단위로 이동시켜 발생된 시차마다 상기 클러스터 집합들 간의 유사도를 측정하고, 상기 측정된 유사도에 근거하여 동일한 시간축 상에서 상기 다종 리소스들의 배열 순서를 변경하여 다종 리소스들 간의 생성 시차를 보정하여, 상기 다종 리소스들에 저장된 데이터가 포함된 기술의 발전 단계를 시각적 콘텐츠로 제공하는 프로그램을 저장하는 저장매체.
KR1020130117694A 2013-10-02 2013-10-02 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체 KR101374197B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130117694A KR101374197B1 (ko) 2013-10-02 2013-10-02 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130117694A KR101374197B1 (ko) 2013-10-02 2013-10-02 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체

Publications (1)

Publication Number Publication Date
KR101374197B1 true KR101374197B1 (ko) 2014-03-12

Family

ID=50648673

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130117694A KR101374197B1 (ko) 2013-10-02 2013-10-02 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체

Country Status (1)

Country Link
KR (1) KR101374197B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070084004A (ko) * 2004-11-05 2007-08-24 가부시키가이샤 아이.피.비. 키워드 추출 장치
KR20080005208A (ko) * 2005-04-25 2008-01-10 가부시키가이샤 아이.피.비. 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070084004A (ko) * 2004-11-05 2007-08-24 가부시키가이샤 아이.피.비. 키워드 추출 장치
KR20080005208A (ko) * 2005-04-25 2008-01-10 가부시키가이샤 아이.피.비. 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법

Similar Documents

Publication Publication Date Title
McNaught-Roberts et al. Galaxy And Mass Assembly (GAMA): the dependence of the galaxy luminosity function on environment, redshift and colour
CN103473472B (zh) 一种基于四分位图的数据质量检测方法及系统
CN103279643B (zh) 一种时间序列相似度的计算方法
Bhardwaj et al. Galactic bulge population II Cepheids in the VVV survey: period-luminosity relations and a distance to the Galactic centre
MX2015007248A (es) Metodo y dispositivo para visualizar software de aplicacion.
CN109558936A (zh) 异常判定方法和程序
CN104102696A (zh) 一种内容推荐方法及装置
De Groot Computing the risky steady state of DSGE models
CN102541920A (zh) 联合基于用户和项目的协同过滤提高准确度的方法及装置
CN103984862A (zh) 一种多元遥感信息协同的积雪参数反演方法
Elia et al. Modelling the clustering of dark matter haloes in resummed perturbation theories
KR20170056480A (ko) 리소스조합 처리방법, 장치, 설비 및 컴퓨터 저장매체
CN106383999A (zh) 一种多源时序数据的趋势分析方法和装置
Rezitis et al. Measuring the degree of market power in the Greek manufacturing industry
CN105677645B (zh) 一种数据表比对方法和装置
Carlsen et al. Evaluation of analytical performance based on partial order methodology
CN109543231B (zh) 一种服装参数化推版方法及系统
KR101374197B1 (ko) 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체
Edoli et al. Calibration of a multifactor model for the forward markets of several commodities
JP2015082928A (ja) 推定プログラム、推定装置及び推定方法
CN108287810A (zh) 一种业务数据显示方法、装置、设备及存储介质
AU2016244789A1 (en) Systems and methods for retirement planning
CN106920020A (zh) 成本计算方法以及设备
Alard Perturbative signature of substructures in strong gravitational lenses
US20140032445A1 (en) Methods, systems, and computer readable media for determining and presenting optimum social security retirement benefits filing strategies

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 6