KR20220125450A - 설명 가능한 롤 모델 추천 방법 및 그 장치 - Google Patents

설명 가능한 롤 모델 추천 방법 및 그 장치 Download PDF

Info

Publication number
KR20220125450A
KR20220125450A KR1020210029267A KR20210029267A KR20220125450A KR 20220125450 A KR20220125450 A KR 20220125450A KR 1020210029267 A KR1020210029267 A KR 1020210029267A KR 20210029267 A KR20210029267 A KR 20210029267A KR 20220125450 A KR20220125450 A KR 20220125450A
Authority
KR
South Korea
Prior art keywords
bibliographic
research
role model
study
author
Prior art date
Application number
KR1020210029267A
Other languages
English (en)
Other versions
KR102543273B1 (ko
Inventor
정재은
전현주
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020210029267A priority Critical patent/KR102543273B1/ko
Publication of KR20220125450A publication Critical patent/KR20220125450A/ko
Application granted granted Critical
Publication of KR102543273B1 publication Critical patent/KR102543273B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

설명 가능한 롤 모델 추천 방법 및 그 장치가 개시된다. 설명 가능한 롤 모델 추천 방법은, (a) 각각의 논문의 서지 정보를 이용하여 각각의 시점에서의 이기종 서지 개체를 추출한 후 이기종 서지 개체간의 연결 관계를 포함하도록 동적으로 서지 네트워크를 구성하는 단계-상기 이기종 서지 개체는 저자, 논문 및 저널을 포함함; (b) 상기 동적 서지 네트워크에서 각각의 서지 개체를 루트 노드로 하며 차수에 따른 인접성에 기반하여 규모가 상이한 복수의 서브그래프를 각각 연구패턴으로 추출하는 단계; (c) 상기 추출된 각각의 연구패턴을 벡터화하여 벡터 스페이스로 임베딩하는 단계; 및 (d) 상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 기반으로 타겟 저자에 대한 복수의 학계 롤 모델 리스트를 추출하는 단계를 포함한다.

Description

설명 가능한 롤 모델 추천 방법 및 그 장치{Explainable role model recommendation method and apparatus thereof}
본 발명은 동적 서지 네트워크 임베딩을 통한 설명 가능한 롤 모델 추천 방법 및 그 장치에 관한 것이다.
학술 데이터는 연구자들을 활발한 연구 활동으로 인해 논문 수가 매년 크게 증가하고 있으며, 새로운 연구자의 유입으로 인해 서지 네트워크는 지속적으로 복잡해지고 있다. 이는 함께 연구할 적합한 연구자가 많아짐에도 매우 많은 연구자들의 수로 인해 쉽게 가려질 수 있으며, 협업할 연구자를 검색하고 찾는데 어려움을 야기한다.
이로 인해, 다양한 내용을 검색하고 추천하기 위한 시스템들이 제안되어 왔다.종래의 경우, 유사한 연구자의 추천을 위해 연구자별 연구 성과 측정을 이용하였다. 연구 성과 측정을 위한 지표들은 대체적으로 1) 양적 접근법과 2) 네트워크 이론적 접근법에 근간을 두고 있다.
양적 접근법의 성과지표 특정 방법들은 대부분 인용수와 논문수의 통계적 산술 결과를 바탕으로 측정되는 지표들이며, 네트워크 이론적 접근법은 연구자들의 관계망 속 연결 관계의 정보를 바탕으로 측정되는 지표들이다.
이들 종래의 성과 지표 각각은 연구자의 성과를 다양한 관점에서 측정하는데 그치고 있다.
본 발명은 동적 서지 네트워크 임베딩을 통한 설명 가능한 롤 모델 추천 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 변화하는 연구 스타일을 반영하기 위해 네트워크 패턴을 시계열적으로 추출하여 임베딩하여 연구자의 시계열적 연구 성향 분석이 가능한 설명 가능한 롤 모델 추천 방법 및 그 장치를 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 설명 가능한 롤 모델 추천 방법이 제공된다.
본 발명의 일 실시예에 따르면, (a) 각각의 논문의 서지 정보를 이용하여 각각의 시점에서의 이기종 서지 개체를 추출한 후 이기종 서지 개체간의 연결 관계를 포함하도록 동적으로 서지 네트워크를 구성하는 단계-상기 이기종 서지 개체는 저자, 논문 및 저널을 포함함; (b) 상기 동적 서지 네트워크에서 각각의 서지 개체를 루트 노드로 하며 차수에 따른 인접성에 기반하여 규모가 상이한 복수의 서브그래프를 각각 연구패턴으로 추출하는 단계; (c) 상기 추출된 각각의 연구패턴을 벡터화하여 벡터 스페이스로 임베딩하는 단계; 및 (d) 상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 기반으로 타겟 저자에 대한 복수의 학계 롤 모델 리스트를 추출하는 단계를 포함하는 설명 가능한 롤 모델 추천 방법이 제공될 수 있다.
상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 도출시 연구 패턴들간의 연구 연수가 상이한 경우 더 작은 연구 연수로 조정하여 유사도를 도출할 수 있다.
상기 (d) 단계는, 저자 서지 개체의 연구 성과 지표를 더 고려하여 상기 학계 롤 모델 리스트를 추출할 수 있다.
상기 (c) 단계는, 상기 연구 이력에서의 시계열적 동시 출현 확률을 기반으로 상기 각각의 연구 패턴을 벡터화하여 임베딩할 수 있다.
상기 학계 롤 모델 리스트에 포함된 롤 모델의 연구 패턴을 시각화하여 제공하는 단계를 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, 설명 가능한 롤 모델 추천을 위한 장치가 제공된다.
본 발명의 일 실시예에 따르면, 적어도 하나의 명령어를 저장하는 메모리; 및 상기 메모리에 저장된 명령어를 실행하는 프로세서를 포함하되, 상기 명령어는, (a) 각각의 논문의 서지 정보를 이용하여 각각의 시점에서의 이기종 서지 개체를 추출한 후 이기종 서지 개체간의 연결 관계를 포함하도록 동적으로 서지 네트워크를 구성하는 단계-상기 이기종 서지 개체는 저자, 논문 및 저널을 포함함; (b) 상기 동적 서지 네트워크에서 각각의 서지 개체를 루트 노드로 하며 차수에 따른 인접성에 기반하여 규모가 상이한 복수의 서브그래프를 각각 연구패턴으로 추출하는 단계; (c) 상기 추출된 각각의 연구패턴을 벡터화하여 벡터 스페이스로 임베딩하는 단계; 및 (d) 상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 기반으로 타겟 저자에 대한 복수의 학계 롤 모델 리스트를 추출하는 단계를 수행하는 것을 특징으로 하는 컴퓨터 장치가 제공될 수 있다.
본 발명의 일 실시예에 따른 동적 서지 네트워크 임베딩을 통한 설명 가능한 롤 모델 추천 방법 및 그 장치를 제공함으로써, 변화하는 연구 스타일을 반영하기 위해 네트워크 패턴을 시계열적으로 추출하여 임베딩하여 연구자의 시계열적 연구 성향 분석이 가능한 이점이 있다.
또한, 본 발명은 연구자의 시계열적인 연구 성향의 유사도에 기반하여 벤치마킹이 가능한 잠재적 롤 모델을 추천할 수 있는 이점도 있다.
도 1은 본 발명의 일 실시예에 따른 설명 가능한 롤 모델 추천 방법을 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 서지 네트워크 및 서브그래프를 예시한 도면.
도 3은 본 발명의 일 실시예에 따른 서브그래프 추출 과정을 나타낸 의사코드.
도 4는 본 발명의 일 실시예에 따른 롤 모델 리스트를 시각화한 일 예를 도시한 도면.
도 5는 본 발명의 다른 실시예에 따른 롤 모델 리스트를 시각화한 일 예를 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 롤 모델 추천을 위한 컴퓨터 장치의 내부 구성을 개략적으로 도시한 블록도.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 설명 가능한 롤 모델 추천 방법을 나타낸 순서도이며, 도 2는 본 발명의 일 실시예에 따른 서지 네트워크 및 서브그래프를 예시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 서브그래프 추출 과정을 나타낸 의사코드이며, 도 4는 본 발명의 일 실시예에 따른 롤 모델 리스트를 시각화한 일 예를 도시한 도면이고, 도 5는 본 발명의 다른 실시예에 따른 롤 모델 리스트를 시각화한 일 예를 도시한 도면이다.
단계 110에서 컴퓨터 장치(100)는 각 연구자의 논문 서지 정보를 기초로 동적/이기종 서지 네트워크를 구축한다.
이러한 서지 네트워크는 각 시간에서의 기본적으로 연구자(
Figure pat00001
)와 논문(
Figure pat00002
)과 같은 서로 다른 종류의 서지 개체를 각각 서지 노드로 하여 동적으로 구성되는 이기종 네트워크일 수 있다. 또한, 서지 네트워크는 해당 논문이 게시된 저널 또는 컨퍼런스를 서지 객체로 포함할 수도 있다. 또한, 서지 네트워크는 서로 다른 종류의 서지 노드간의 연결 관계에 관한 정보를 포함할 수 있다.
예를 들어, 동적 서지 네트워크(N)은 각 시간 각 시간
Figure pat00003
에서 일련의 서지 네트워크 스냅샷으로 정의될 수 있다. 이를 공식화하면 수학식 1과 같이 나타낼 수 있다.
Figure pat00004
Figure pat00005
는 저자(연구자)(
Figure pat00006
)와 논문(
Figure pat00007
)과 같은 두 종류의 엔티티와 두 종류의 관계를 포함할 수 있다.
예를 들어, 만일 t시간에서 연구자
Figure pat00008
가 논문
Figure pat00009
를 출판했을 때,
Figure pat00010
의 인스턴스는 저술 관계
Figure pat00011
를 가질 수 있다. t에 저술 관계는
Figure pat00012
과 같은 매트릭스로 표현될 수 있다.
만일
Figure pat00013
Figure pat00014
Figure pat00015
를 공동 저작한 경우,
Figure pat00016
Figure pat00017
는 공저 관계
Figure pat00018
를 가질 수 있다. 따라서, 이를 공식화하면 수학식 2와 같이 나타낼 수 있다.
Figure pat00019
또한, 논문간의 인용 관계와 관련이 있으며, 인용 관계는
Figure pat00020
과 같이 나타낼 수 있다.
Figure pat00021
Figure pat00022
를 인용하는 경우, 인용 관계
Figure pat00023
를 가질 수 있다.
다시 정리하면, 서지 네트워크는 도 2에 도시된 바와 같이, 논문, 연구자 및 저널로 구성되는 서로 다른 종류의 서지 개체로 구성되며, 이들 이기종 서지 개체를 각각의 서지 노드로 가지는 이기종 네트워크일 수 있다. 또한, 서지 네트워크는 이들 서지 노드들간의 관계를 포함할 수 있다. 여기서, 서지 노드들간의 관계의 종류는 공저 관계, 인용 관계, 저널 인용 관계, 저술관계, 출판 관계 등을 포함할 수 있다.
또한, 서지 네트워크는 도 2에서 보여지는 바와 같이, 동적인 변화를 고려하기 위해 서로 다른 시간간의 관계 형성을 허용할 수 있다.
단계 115에서 컴퓨터 장치(100)는 서지 네트워크를 분석하여 저자 서지 개체(노드)를 루트로 하는 하부 구조(연구 패턴)을 추출하고, 다수의 차수(d)에 따른 하부 구조(연구 패턴)을 기초로 연구자(저자)의 연구 이력을 생성(발견)한다.
이에 대해 보다 상세히 설명하기로 한다.
도 2에 도시된 서지 네트워크를 가정하기로 한다. 도 2의 (a)는 동적 서지 네트워크의 일 예를 도시한 것이며, (b) 내지 (d)는 저자(연구자)
Figure pat00024
에 대한 각 시간 t에서의 차수 범위(1에서 3까지)에 따른 연구 패턴의 변화를 나타낸 것이다.
도 2를 참조하여 보다 상세히 설명하기로 한다.
도 2의 (a)는 동적 서지 네트워크의 일 예를 도시한 것이다. 도 2의 (a)에서
Figure pat00025
Figure pat00026
일 수 있다.
연구자(저자)의 연구 이력을 드러내기 위해, WL 라벨링 기법을 수정하여 서지 네트워크의 구조적 특징을 분석할 수 있다.
본 발명의 일 실시예에 따르면, time-aware 서브 그래프 추출 방법은 다중 스케일 하위 그래프를 사용하여 시간이 지남에 따라 공저자와 논문 간의 구조를 발견할 수 있다.
WL 라베링 기법은 각 저자 서지 개체(노드)를 루트로 하는 다중 스케일의 서브그래프(하부 구조)를 각각 추출할 수 있다. 그러나 서지 네트워크가 진화하는 시기와 네트워크가 어떻게 변경되는지에 대한 정보를 포함할 수 없는 단점이 있다. 예를 들어,
Figure pat00027
Figure pat00028
는 동일한 서지 네트워크 구조를 가질 수 있다. 그러나,
Figure pat00029
는 최근에 많은 논문을 작성한 반면,
Figure pat00030
는 몇 년 전에 많은 논문을 작성하였다고 가정하기로 한다. 이와 같은 경우, 저자의 하위 그래프가 정적 네트워크에서 동일하더라도 향후 진화하는 경향이 다를 수 있으나, WL 라벨링 기법은 이를 포함할 수 없는 단점이 있다.
본 발명의 일 실시예에서는 연구 이력을 추출하기 위해 WL 커널과 그래프 동형 WL 테스트를 기반으로 하는 time-aware WL 라벨링 기법을 제안할 수 있다.
Figure pat00031
는 서지 네트워크
Figure pat00032
내의 저자
Figure pat00033
의 연구 이력으로 정의하기로 한다.
이와 같은 경우 연구 이력
Figure pat00034
는 수학식 3과 같이 정의될 수 있다.
Figure pat00035
여기서,
Figure pat00036
는 저자
Figure pat00037
가 가지는 연구 패턴으로, 시간 t에서 차수
Figure pat00038
에 따라 규모별로 상이하게 추출될 수 있다.
Figure pat00039
를 루트로 가지는 서브그래프(하부 구조)는 t 시간에서 공저자, 논문, 논문의 인용 관계를 표현할 수 있다.
Figure pat00040
Figure pat00041
차수를 가지며,
Figure pat00042
의 이웃을 루트로 가지는 서브 그래프 집합을 나타낼 때,
Figure pat00043
는 수학식 4와 같이 나타날 수 있다.
Figure pat00044
여기서,
Figure pat00045
는 n시간에서 j번째 노드(
Figure pat00046
)를 나타내며,
Figure pat00047
Figure pat00048
차수를 가지는
Figure pat00049
의 서브 그래프를 나타내며,
Figure pat00050
Figure pat00051
와의 관계에 따라
Figure pat00052
과의 연결되는 에지를 나타낸다.
d차수의 연구 이력은 자신과
Figure pat00053
차수의 인접 노드를 기반으로 표현될 수 있다. 차수 d가 증가함에 따라, 서지 네트워크에서 더 넓은 범위로 저자 주변을 상세하게 표현할 수 있다.
저자 노드 측면에서의 서브그래프(하부 구조) 추출에 대해 도 2의 (b)를 참조하여 설명하기로 한다.
컴퓨터 장치(100)는
Figure pat00054
를 루트 노드로 하며, t 시간에서 서지 네트워크
Figure pat00055
에서 d 차수에 해당하는 서브 그래프를 추출할 수 있다. 예를 들어, 차수가
Figure pat00056
이면, 서브그래프는 저자 노드 그 자체일 수 있다. 따라서, 차수가
Figure pat00057
인 경우, 서지 네트워크에서
Figure pat00058
에 대한 서브그래프(하부 구조)는 추출되지 않는다. 이 경우, 노드
Figure pat00059
의 라벨은 노드 차입인 "a"로서 리턴될 수 있다.
다른 예를 들어, 차수가
Figure pat00060
인 경우를 가정하기로 한다.
Figure pat00061
노드를 루트로 하며, 서브그래프(하부 구조)는 해당 저자에 의해 작성된 논문과 공저자에 대한 정보를 포함할 수 있다(도 2의 (b) 참조)
또 다른 예를 들어, 차수가
Figure pat00062
인 경우 서브 그래프의 예시가 도 2의 (c)에 예시되어 있다. 도 2의 (c)를 참조하면, 서브그래프는 해당 저자 노드
Figure pat00063
의 공저자에 의해 작성된 논문과 이의 공저자에 관한 정보를 추가적으로 포함할 수 있다.
도 2의 (d)에 예시된 바와 같이, 차수가
Figure pat00064
인 경우, 인용된 논문을 작성한 저자의 정보가 서브그래프(하부 구조)에 추가될 수 있다.
연구 이력은 각각의 서지 네트워크에서 추출된 서브그래프(연구 패턴, 하부 구조)일 수 있다. 연구 이력은 각각의 시점에서 서지 네트워크의 저자 노드, 논문 노드 등을 각각 루트로 가지는 서브그래프(하부 구조)의 집합을 의미하는 것으로 이해되어야 할 것이다.
또한, 연구 이력에 포함되는 서브그래프(하부 구조)는 도 2를 참조하여 설명한 바와 같이, 차수에 따라 규모별로 서로 상이한 정보를 포함하여 추출될 수 있다.
도 3에는 time-aware WL 라벨링 기법을 사용하여 서지 네트워크에서 규모별로 서지 노드(엔티티)간의 인접성에 기반하여 차수에 따라 규모별로 서브그래프(하부 구조)를 추출하는 과정에 대한 의사 코드가 예시되어 있다.
이와 같이, 연구 이력은 서지 네트워크의 각 서지 노드(저자 노드, 논문 노드, 저널/컨퍼런스 노드)를 루트로 하되, 차수에 따른 규모별 인접성, 상호 작용의 친밀성, 단수화 정도와 같은 3가지 기준을 통해 추출되어 연구자(저자)의 다양한 연구 성향을 반영하도록 할 수 있다.
단계 120에서 컴퓨터 장치(100)는 서지 네트워크에서 각각의 서지 노드를 루트로 하여 차수에 따라 규모별로 추출된 서브그래프(하부 구조)를 벡터화하여 벡터 스페이스로 임베딩한다.
이에 대해 하기에서 보다 상세히 설명하기로 한다.
Figure pat00065
저자의 연구 이력은
Figure pat00066
저자 노드를 루트로 가지는 차수에 따라 상이한 규모를 가지는 복수의 서브그래프 세트를 포함할 수 있다. 이러한 과정에 의해 생성된 벡터는 서지 네트워크 구조의 인접성과 시간적 변화에 관한 정보로 구성될 수 있다. 그러나, 이러한 정보는 연구자들 사이의 연구 이력을 비교하고 시각화하기에는 문제가 있다.
서브그래프(하부 구조)는 특정 서지 노드의 네트워크 구조를 반영하므로, 서지 개체(노드)들의 네트워크 특징을 구분할 수는 있으나, 특징들간의 유사도 비교는 어려운 문제점이 있다.
따라서, Subgraph2Vec를 기반으로 연구 이력의 분산 표현이 학습된 이후, Graph2Vec을 적용하여 저자 측면에서 연구 이력의 분산 표현을 구성할 수 있다.
분산 표현을 통해 연구 이력간의 구조적 유사성을 나타낼 수 있을 뿐만 아니라 시간이 지남에 따라 저자가 어떻게 변하는지 시각화할 수 있다.
Figure pat00067
내에서 d차수를 가지는
Figure pat00068
의 이웃 노드로서
Figure pat00069
연구 이력의 동시 출현 확률은 수학식 5와 같이 나타낼 수 있다.
Figure pat00070
여기서,
Figure pat00071
는 벡터 표현을 위한 프로젝션 함수를 나타내고,
Figure pat00072
는 시그모이드 함수를 나타낸다.
Subgraph2Vec의 방사형 스킵 그램(skip-gram)과 네거티브 샘플링을 수정하여 연구 이력 표현을 위한 목적 함수를 정의할 수 있다. 이웃 노드에 대해 발생 확률을 최대화하고 이웃 노드에 포함되지 않는 연구 패턴을 최소화할 수 있으며, 이를 수학식으로 나타내면 수학식 6과 같이 공식화할 수 있다.
Figure pat00073
여기서,
Figure pat00074
는 서브그래프(
Figure pat00075
)의 잡음 분산을 나타내고,
Figure pat00076
는 서브그래프의 유니그램 분산을 나타내며,
Figure pat00077
Figure pat00078
의 이웃을 나타내며,
Figure pat00079
는 네거티브 샘플링의 개수를 나타낸다.
목적 함수는
Figure pat00080
Figure pat00081
가 이웃일 때,
Figure pat00082
Figure pat00083
이 서로 가깝다는 것을 의미한다. 만일 그렇지 않다면, 이들은 멀어진다. Subgraph2Vec은 공지된 모델이므로 상세한 설명은 생략하기로 한다.
본 발명의 일 실시예에 따르면, 각 시간 및 차수에 대한 연구 이력의 벡터 표현을 생성한다. 모든 차수에서 저자로부터의 벡터를 연결하기 위해 그래프에 Doc2Vec를 적용하여 노드를 나타내는데 사용되는 효과적인 Graph2Vec를 사용하였다. 각 노드의 서브 그래프의 발생에서 저자 벡터를 획득할 수 있다.
단계 125에서 컴퓨터 장치(100)는 임베딩된 벡터값을 이용하여 연구 패턴의 유사도를 기반으로 저자에 대한 학계 롤 모델을 추천한다. 학계 롤 모델 추천시 임베딩된 하부 구조의 벡터값만을 이용하는 것이 아니라 저자의 성과 지표를 더 고려할 수도 있다.
컴퓨터 장치(100)는 양적 지표만을 이용하여 롤 모델을 발굴하는 것이 아니라, 저자의 연구 이력과 타 저자의 유사한 경험을 바탕으로 롤 모델을 발굴할 수 있다.
이를 위해, 본 발명의 일 실시예에 따른 컴퓨터 장치(100)는 저자의 연구 이력간의 유사성을 측정하고, 롤 모델이 될 수 있는 저자를 식별하기 위해 저자의 연구 성과를 측정하며, 연도별 변화를 시각화하여 롤 모델 연구 이력을 제공할 수 있다.
즉, 컴퓨터 장치(100)는 유사한 연구 이력을 가지며, 높은 연구 성과를 가진 저자를 학계 롤 모델로서 검출할 수 있다.
Figure pat00084
저자의 롤 모델 리스트에 포함될 수 있는
Figure pat00085
저자의 확률은 연구 이력과 연구 성과의 유사성을 기반으로 추정될 수 있다.
Figure pat00086
Figure pat00087
성과 지표를 가지는
Figure pat00088
저자의 롤 모델이 될 수 있는
Figure pat00089
저자의 확률로 정의하며, 이를 수학식으로 나타내는 경우 수학식 7과 같이 나타낼 수 있다.
Figure pat00090
여기서,
Figure pat00091
Figure pat00092
Figure pat00093
사이의 유사성을 나타내며,
Figure pat00094
는 정규화된 성과 지표를 나타낸다.
연구 이력이 얼마나 유사한지를 측정하는 가장 간단한 방법은 저자 서지 개체(노드)에 대한 연구 패턴을 벡터화한 후 벡터 간의 거리를 비교하는 것이다. 그러나 벡터화 방법은 저자의 연구 이력을 비교하기에는 너무 상세하다. 또한, 저자가 연도별로 벡터 공간으로 표현되기 때문에 저자가 연구 이력을 가지고 있는 시기를 고려하는 것은 어려운 문제이다.
따라서, 연구 패턴에 따라 저자를 클러스터하고, 시간을 고려한 매트릭스를 기반으로 연구 이력의 유사성을 측정할 수 있다.
또한, 저자의 특정 성과 지표를 반영하여 롤 모델을 발견할 수 있다.
본 발명의 일 실시예에서는 벡터화된 연구 이력을 단순화하기 위해 연구 스타일 그룹을 클러스터링했다. 클러스터
Figure pat00095
의 집합을 가정하기로 한다. 여기서, N은 최대 클러스터 개수를 나타낸다.
클러스터와 저자의 상관 관계를 고려하기 위해 저자가 각 클러스터에 속할 확률에 따라 저자를 클러스터링하는 EM(expandationmaximization) 클러스터링 알고리즘을 적용하였다.
각 클러스터에는 여러 가우스 분포가 혼합되어 있다. 확률 오차를 측정하는 AIC(Akaike information criterion)과 에러를 최소화도록 N을 찾는 엘보우 방법을 사용하여 클러스터 개수 N을 최적화할 수 있다.
그럼에도 불구하고 한번에 같은 클러스터에 속한다고 하여 같은 연구 이력을 가지는 것은 아니기 때문에 전체 연구 이력 중 저자와 비슷한 연구 이력을 가지는 저자를 찾는 것을 어렵다. 또한, 저자가 동일한 클러스터에 속할지라도 일부 저자는 클러스터와 높은 상관 관계를 갖는 반면, 다른 저자는 그렇지 않을 수도 있다.
연구 이력이 각 연구 그룹에 속할 최적의 확률을 측정하여 저자의 연구 이력 매트릭스를 구성할 수 있다.
상관
Figure pat00096
은 최적 확률
Figure pat00097
를 나타낸다. 여기서, 저자
Figure pat00098
의 연구 스타일은 클러스터
Figure pat00099
에 포함될 수 있다. 이를 수학식으로 나타내면, 수학식 8과 같다.
Figure pat00100
여기서,
Figure pat00101
은 가우시안 밀도 함수를 나타내고,
Figure pat00102
은 평균을 나타내며,
Figure pat00103
은 클러스터
Figure pat00104
의 가우시안 분포 공분산을 나타낸다. 또한,
Figure pat00105
는 각 연구 그룹의 잠재 변수에 대한 군집화 매개 변수를 나타낸다.
Figure pat00106
를 저자
Figure pat00107
를 위한 연구 이력 매트릭스라고 가정하기로 한다.
Figure pat00108
는 수학식 9와 같이 나타낼 수 있다.
Figure pat00109
여기서,
Figure pat00110
는 클러스터
Figure pat00111
과 시간 t에서 저자
Figure pat00112
의 연구 스타일간의 상관 관계를 나타낸다.
이러한 매트릭스를 사용하여 각 저자의 연구 이력을 비교할 수 있다. 그러나, 연구 경험의 연수는 저자마다 다르기 때문에, 이러한 접근 방식은 여전히 문제가 있다.
이를 해결하기 위해 더 작은 연구 이력 매트릭스에 포함된 수에 따라 더 큰 연구 이력 매트릭스의 시간 단계 수를 조정할 수 있다.
예를 들어, 저자
Figure pat00113
는 t에서 t+5까지 5년의 연구 경험을 가지고 있고, 저자
Figure pat00114
와 저자
Figure pat00115
는 t+2에서 t+4까지 3년의 연구 경험을 가지고 있다고 가정하기로 한다. 이 경우 저자
Figure pat00116
Figure pat00117
Figure pat00118
에 위치되며, 저자
Figure pat00119
Figure pat00120
에 위치될 수 있으며, 저자
Figure pat00121
Figure pat00122
Figure pat00123
에 위치될 수 있는 것을 가정하기로 한다.
저자
Figure pat00124
와 저자
Figure pat00125
는 학문 분야의 초기 연구자이기 때문에, 저자
Figure pat00126
와의 비교를 위해 시간 단계를 조정할 수 있다. 즉, 저자가 어떤 클러스터에도 포함되지 않은 시간 단계를 줄이고 더 큰 매트릭스
Figure pat00127
가 더 작은 매트릭스
Figure pat00128
Figure pat00129
로 조정될 수 있다.
이와 같이 조정된 매트릭스를 기반으로 Frobeneius 거리를 사용하여 연구 이력간의 유사성을 측정할 수 있다.
이를 수학식으로 나타내면, 수학식 10과 같다.
Figure pat00130
여기서,
Figure pat00131
Figure pat00132
Figure pat00133
사이의 Frobeneius 거리를 나타낸다.
또한, 본 발명의 일 실시예에서는 롤 모델을 찾기 위해 비슷한 연구 경력을 가지는 상대적으로 성과가 좋은 저자를 추출할 수 있다.
본 발명의 일 실시예에서는 정량적 지표인
Figure pat00134
를 사용하는 것을 가정하기로 한다.
Figure pat00135
를 기반으로 측정된 저자
Figure pat00136
의 연구 성과는 수학식 11과 같이 수학식으로 나타낼 수 있다.
Figure pat00137
여기서,
Figure pat00138
는 마지막 시간 단계 T에서 저자
Figure pat00139
의 정규화된 연구 성과를 나타낸다.
Figure pat00140
의 확률을 추정하기 위해,
Figure pat00141
Figure pat00142
를 곱하여 연구 패턴의 유사도와 연구 성과를 결합(combine)할 수 있다. 이를 통해, 본 발명의 일 실시예에서는 각 저자에 대해 상위 k명의 롤 모델 리스트를 생성할 수 있다.
단계 130에서 컴퓨터 장치(100)는 롤 모델 리스트를 시각화하여 제공한다.
고차원 벡터를 직접 시각화하는 것은 어려운 문제이다. 따라서, 차원 감소 방법인 t-분산 확률적 이웃 임베딩(t-SNE: t-distributed stochastic neighbor embedding)을 적용하였다. T-SNE는 거리 분포를 사용하여 벡터간 유사성을 모델링하기 때문에 2차원 투영의 시각화를 통해 고차원 벡터에서 상대적으로 중요한 특징을 나타낼 수 있다.
도 4는 본 발명의 일 실시예에 따른 롤 모델을 시각환 일 예를 도시한 도면이다.
도 4의 (a)를 기준으로, (b), (c), (d)는 각각 상위 1, 2, 3위로 추천된 롤 모델이며, 연구 패턴의 변화가 (b), (c), (d) 순으로 유사한 것을 알 수 있다.
그러나, 공저자의 시각화 측면에서는 2차원 좌표를 해석하는 것은 여전히 어렵기 때문에, 병렬 범주 그림을 통해 다양한 연구자의 변화를 비교하는 것이 보다 유리할 수 있다.
이는 색상 변화에 따른 연구 패턴보다 위치 변화에 따른 연구 패턴의 비교가 용이하기 때문에 사용자의 가독성을 높일 수 있다. 평행 범주 그래프에서 각 세로축은 시간의 변화를 나타내며, 세로축의 블록은 각 연구 패턴을 가로 라인은 저자의 연구 패턴의 변화를 나타낸다. 또한, 각 가로라인의 색상은 롤 모델 추천의 순위를 나타낸다.
각 연구자별로 추천되는 롤 모델은 변하기 때문에, 그래프는 한번에 한명의 연구자만을 중심으로 시각화될 수 있다. 타겟 저자가 변하는 경우 해당 타겟 저자에 적합하게 새로운 그래프가 시각화될 수 있다.
도 5의 (a), (b), (c), (d)는 도 3의 (a) 내지 (d)와 일치하며, 해당 연구자의 롤 모델 순위 또한 일치한다.
도 5에 도시된 바와 같이, 평행 범주 그래프로 시각화하는 경우 어떤 저자가 얼마나 타겟 저자와 유사한지를 직관적으로 해석이 가능하며, 각 연구 패턴을 확인하여 추천된 연구자들을 설명할 수 있게 된다.
도 6은 본 발명의 일 실시예에 따른 롤 모델 추천을 위한 컴퓨터 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 컴퓨터 장치(100)는 메모리(610) 및 프로세서(620)를 포함하여 구성된다.
메모리(610)는 적어도 하나의 명령어를 저장한다.
프로세서(620)는 메모리(610)를 제어하며, 메모리(610)에 저장된 명령어를 실행할 수 있다.
프로세서(620)에 의해 실행된 명령어는 도 1 내지 도 5를 참조하여 설명한 바와 같은 롤 모델 추천 방법을 위한 각각의 단계를 수행할 수 있다. 이는 이미 전술한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
본 발명의 실시 예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 컴퓨터 장치
610: 메모리
620: 프로세서

Claims (12)

  1. (a) 각각의 논문의 서지 정보를 이용하여 각각의 시점에서의 이기종 서지 개체를 추출한 후 이기종 서지 개체간의 연결 관계를 포함하도록 동적으로 서지 네트워크를 구성하는 단계-상기 이기종 서지 개체는 저자, 논문 및 저널을 포함함;
    (b) 상기 동적 서지 네트워크에서 각각의 서지 개체를 루트 노드로 하며 차수에 따른 인접성에 기반하여 규모가 상이한 복수의 서브그래프를 각각 연구패턴으로 추출하는 단계;
    (c) 상기 추출된 각각의 연구패턴을 벡터화하여 벡터 스페이스로 임베딩하는 단계; 및
    (d) 상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 기반으로 타겟 저자에 대한 복수의 학계 롤 모델 리스트를 추출하는 단계를 포함하는 설명 가능한 롤 모델 추천 방법.
  2. 제1 항에 있어서,
    상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 도출시 연구 패턴들간의 연구 연수가 상이한 경우 더 작은 연구 연수로 조정하여 유사도를 도출하는 것을 특징으로 하는 설명 가능한 롤 모델 추천 방법.
  3. 제1 항에 있어서,
    상기 (d) 단계는,
    저자 서지 개체의 연구 성과 지표를 더 고려하여 상기 학계 롤 모델 리스트를 추출하는 것을 특징으로 하는 설명 가능한 롤 모델 추천 방법.
  4. 제1 항에 있어서,
    상기 (c) 단계는,
    상기 연구 이력에서의 시계열적 동시 출현 확률을 기반으로 상기 각각의 연구 패턴을 벡터화하여 임베딩하는 것을 특징으로 하는 설명 가능한 롤 모델 추천 방법.
  5. 제1 항에 있어서,
    상기 학계 롤 모델 리스트에 포함된 롤 모델의 연구 패턴을 시각화하여 제공하는 단계를 더 포함하는 설명 가능한 롤 모델 추천 방법.
  6. 제1 항에 있어서,
    상기 유사도는 하기 수학식을 이용하여 도출되는 것을 특징으로 하는 설명 가능한 롤 모델 추천 방법.
    Figure pat00143

    여기서,
    Figure pat00144
    Figure pat00145
    Figure pat00146
    사이의 frobeneius 거리를 나타내며,
    Figure pat00147
    Figure pat00148
    는 각각
    Figure pat00149
    저자와
    Figure pat00150
    저자의 연구 이력 매트릭스를 나타냄.
  7. 제1 항 내지 제6 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체.
  8. 적어도 하나의 명령어를 저장하는 메모리; 및
    상기 메모리에 저장된 명령어를 실행하는 프로세서를 포함하되,
    상기 명령어는,
    (a) 각각의 논문의 서지 정보를 이용하여 각각의 시점에서의 이기종 서지 개체를 추출한 후 이기종 서지 개체간의 연결 관계를 포함하도록 동적으로 서지 네트워크를 구성하는 단계-상기 이기종 서지 개체는 저자, 논문 및 저널을 포함함;
    (b) 상기 동적 서지 네트워크에서 각각의 서지 개체를 루트 노드로 하며 차수에 따른 인접성에 기반하여 규모가 상이한 복수의 서브그래프를 각각 연구패턴으로 추출하는 단계;
    (c) 상기 추출된 각각의 연구패턴을 벡터화하여 벡터 스페이스로 임베딩하는 단계; 및
    (d) 상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 기반으로 타겟 저자에 대한 복수의 학계 롤 모델 리스트를 추출하는 단계를 수행하는 것을 특징으로 하는 컴퓨터 장치.
  9. 제8 항에 있어서,
    상기 임베딩된 각 연구 패턴의 벡터간의 유사도를 도출시 연구 패턴들간의 연구 연수가 상이한 경우 더 작은 연구 연수로 조정하여 유사도를 도출하는 것을 특징으로 하는 컴퓨터 장치.
  10. 제8 항에 있어서,
    상기 (d) 단계 단계는,
    저자 서지 개체의 연구 성과 지표를 더 고려하여 상기 학계 롤 모델 리스트를 추출하는 것을 특징으로 하는 컴퓨터 장치.
  11. 제8 항에 있어서,
    상기 (c) 단계는,
    상기 연구 이력에서의 시계열적 동시 출현 확률을 기반으로 상기 각각의 연구 패턴을 벡터화하여 임베딩하는 것을 특징으로 하는 컴퓨터 장치.
  12. 제8 항에 있어서,
    상기 (d) 단계 이후에,
    상기 학계 롤 모델 리스트에 포함된 롤 모델의 연구 패턴을 시각화하여 제공하는 단계를 더 수행하는 것을 특징으로 하는 컴퓨터 장치.

KR1020210029267A 2021-03-05 2021-03-05 설명 가능한 롤 모델 추천 방법 및 그 장치 KR102543273B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210029267A KR102543273B1 (ko) 2021-03-05 2021-03-05 설명 가능한 롤 모델 추천 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210029267A KR102543273B1 (ko) 2021-03-05 2021-03-05 설명 가능한 롤 모델 추천 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20220125450A true KR20220125450A (ko) 2022-09-14
KR102543273B1 KR102543273B1 (ko) 2023-06-13

Family

ID=83279251

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210029267A KR102543273B1 (ko) 2021-03-05 2021-03-05 설명 가능한 롤 모델 추천 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102543273B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100725643B1 (ko) * 2006-06-09 2007-06-07 한국과학기술정보연구원 온톨로지 기반 참고문헌 분석을 통한 연구자 성과정보 구축및 서비스 시스템과 그 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR20090001742A (ko) * 2007-05-16 2009-01-09 한국과학기술정보연구원 지식정보의 계량화를 통한 유망연구영역 선정방법
KR20110059185A (ko) * 2009-11-27 2011-06-02 한국 한의학 연구원 연구 동향 분석을 위한 등고선 맵 생성 방법
KR20200082551A (ko) * 2018-12-30 2020-07-08 김산 가중치를 이용한 논문 인용 관계의 분석 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100725643B1 (ko) * 2006-06-09 2007-06-07 한국과학기술정보연구원 온톨로지 기반 참고문헌 분석을 통한 연구자 성과정보 구축및 서비스 시스템과 그 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR20090001742A (ko) * 2007-05-16 2009-01-09 한국과학기술정보연구원 지식정보의 계량화를 통한 유망연구영역 선정방법
KR20110059185A (ko) * 2009-11-27 2011-06-02 한국 한의학 연구원 연구 동향 분석을 위한 등고선 맵 생성 방법
KR20200082551A (ko) * 2018-12-30 2020-07-08 김산 가중치를 이용한 논문 인용 관계의 분석 방법 및 장치

Also Published As

Publication number Publication date
KR102543273B1 (ko) 2023-06-13

Similar Documents

Publication Publication Date Title
US11416867B2 (en) Machine learning system for transaction reconciliation
Xu et al. Applied data mining
Cao et al. Querying similar process models based on the Hungarian algorithm
Data Machine learning
Kaplunovich et al. Cloud big data decision support system for machine learning on AWS: Analytics of analytics
Tsoukalas et al. Machine learning for technical debt identification
Pereira et al. TS-stream: clustering time series on data streams
Nguyen et al. Subgraph mining in a large graph: A review
Wienhofen et al. Empirical big data research: a systematic literature mapping
KR102543273B1 (ko) 설명 가능한 롤 모델 추천 방법 및 그 장치
Karale Outlier detection methods and the challenges for their implementation with streaming data
JP7292235B2 (ja) 分析支援装置及び分析支援方法
Mahmud et al. Clustering approximation via a fusion of multiple random samples
Devi et al. Similarity measurement in recent biased time series databases using different clustering methods
Maingi A Survey on the Clustering Algorithms in Sales Data Mining
Graf et al. Frost: a platform for benchmarking and exploring data matching results
Wu et al. Explainable network pruning for model acceleration based on filter similarity and importance
Mercioni et al. Evaluating hierarchical and non-hierarchical grouping for develop a smart system
Ahmed et al. Mining coevolving induced relational motifs in dynamic networks
Shobanadevi et al. Studying the performance of clustering techniques for biomedical data using spark
Ma Clustering of Time Series Data: Measures, Methods, and Applications
Meng et al. Determining the number of clusters in co-authorship networks using social network theory
Liu et al. [Retracted] An Accurate Method of Determining Attribute Weights in Distance‐Based Classification Algorithms
Labhade et al. An overview of machine learning techniques and tools for predictive analytics
Singh et al. Maximum spanning tree based redundancy elimination for feature selection of high dimensional data.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant