KR102651469B1

KR102651469B1 - Ai기반 맞춤형 논문 추천 장치 및 방법

Info

Publication number: KR102651469B1
Application number: KR1020230011984A
Authority: KR
Inventors: 김진원; 윤병연; 김태환; 김태윤
Original assignee: 고려대학교 산학협력단
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2024-03-27

Abstract

AI 기반 맞춤형 논문 추천 장치 및 방법이 개시된다. 상기 논문 추천 방법은 적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되고, 사용자 데이터와 논문 데이터를 전처리하는 단계, 상기 사용자 데이터와 상기 논문 데이터의 키워드를 추출하는 단계, 상기 사용자 데이터와 상기 논문 데이터에 포함되는 복수의 논문들 각각의 유사도를 측정하는 단계, 가장 높은 유사도를 갖는 적어도 하나의 논문을 추천 논문으로 결정하는 단계를 포함한다.

Description

AI기반 맞춤형 논문 추천 장치 및 방법{DEVICE AND METHOD FOR AI-POWERED RESEARCH-PAPER RECOMMENDATION}

본 발명은 AI기반 맞춤형 논문 추천 장치 및 방법에 관한 것으로, 특히 학문용어사전 및 키워드 유사도 기반의 논문 추천 장치 및 방법에 관한 것이다.

연구논문 추천 시스템에 대하여 지난 10여년 동안 많은 연구가 수행되어 왔다(Beel, J., Gipp, B., Langer, S., & Breitinger, C. (2016). Research-paper recommendation systems: A literature survey. Intenational Journal on Digital Libraries, 17(4), 305-338.). Beel 등(2016)의 연구에 의하면, 논문 추천 시스템에 대한 연구 절반 이상이 콘텐츠 기반 필터링(55%)을 적용하였고, 협업 필터링의 접근법은 18%에 불가하였다. 또한, 최근에는 그래프 기반 추천 시스템 개발이 인기있는 접근법으로 부상하고 있다. 논문 추천을 위해서는 저자 정보, 인용 정보, 논문 본문, 초록, 키워드 등의 콘텐츠가 활용될 수 있으며, TF-IDF가 논문 추천 서비스에서 가장 흔히 사용되는 가중치 중 하나라고 알려져 있다.

본 발명에서는 단순히 논문 정보만을 활용하는 것이 아니라 학생들의 교육 데이터도 함께 활용하여 학생 맞춤형 논문 추천 서비스를 개발하고자 한다. 교원의 연구 업적은 연구통합관리시스템 등을 통해 체계적으로 관리되고 있는 반면, 학생들의 연구 업적에 대한 관리 체계는 미흡한 실정이다. 물론, 학생의 지도교수의 연구 업적을 통해서 그 학생의 관심연구 주제나 분야를 추론할 수 있지만 관심연구 주제가 상이할 경우 올바른 추천을 하는 데 한계가 있다. 따라서 본 발명에서는 실제로 학생이 어떤 도서를 읽고, 어떤 수업을 듣는지에 대한 정보도 함께 고려하고자 한다.

대한민국 공개특허 제2019-0138376호 (2019.12.13. 공개) 대한민국 등록특허 제1442719호 (2014.09.19. 공고) 대한민국 등록특허 제1361208호 (2014.02.11. 공고) 대한민국 등록특허 제1689499호 (2016.12.26. 공고)

Beel, J., Gipp, B., Langer, S., & Breitinger, C. (2016). Research-paper recommendation systems: A literature survey. Intenational Journal on Digital Libraries, 17(4), 305-338.

본 발명이 이루고자 하는 기술적인 과제는 AI기반 맞춤형 논문 추천 장치 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 논문 추천 방법은 적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되고, 사용자 데이터와 논문 데이터를 전처리하는 단계, 상기 사용자 데이터와 상기 논문 데이터의 키워드를 추출하는 단계, 상기 사용자 데이터와 상기 논문 데이터에 포함되는 복수의 논문들 각각의 유사도를 측정하는 단계, 및 가장 높은 유사도를 갖는 적어도 하나의 논문을 추천 논문으로 결정하는 단계를 포함한다.

또한, 본 발명의 일 실시예에 따른 논문 추천 장치는 사용자 데이터와 논문 데이터를 전처리하는 전처리부, 상기 사용자 데이터와 상기 논문 데이터의 키워드를 추출하는 키워드 추출부, 상기 사용자 데이터와 상기 논문 데이터에 포함되는 복수의 논문들 각각의 유사도를 측정하는 유사도 측정부, 및 가장 높은 유사도를 갖는 적어도 하나의 논문을 추천 논문으로 결정하는 논문 추천부를 포함한다.

본 발명의 실시예에 AI기반 맞춤형 논문 추천 장치 및 방법에 의할 경우, 사용자의 관심 연구 분야와 유사도가 높은 양질의 논문 정보를 제공할 수 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 수집된 최신논문에 대한 탐색적 데이터 분석 결과로써, 도 1a는 수집된 논문의 상위 30개 연구 분야를, 도 1b는 수집된 논문의 상위 100개 저자 키워드를 도시한다.
도 2는 활용 데이터의 개요를 도시한다.
도 3은 (A) 대학원생의 대출도서 최종 전처리 결과와 키워드 추출 결과와 (B) 학술논문 데이터 최종 전처리 결과를 도시한다.
도 4는 (A) 학생별 TF-IDF기반 최종 키워드 산출물 예시와 (B) 추천 논문별 최종 키워드 산출물 예시를 도시한다.
도 5는 (A) 용어사전 제작 과정과 (B) 연구 분야별 핵심 키워드 예시를 도시한다.
도 6a 내지 도 6d는 논문 추천 결과를 도시한다.
도 7은 논문 추천 서비스 형태 예시를 도시한다.
도 8은 클러스터링 시각화 결과를 도시한다.
도 9는 본 발명의 일 실시예에 따른 논문 추천 장치의 기능 블럭도이다.
도 10은 도 9에 도시된 논문 추천 장치에 의해 수행되는 논문 추천 방법을 설명하기 위한 흐름도이다.
도 11은 도 10에 도시된 논문 추천 방법을 설명하기 위한 개념도이다.
도 12는 학문용어사전(학문영역 매트릭스) 구축 과정을 설명하기 위한 개념도가 도시되어 있다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시예들을 상세히 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

본 발명에서는 학부생 및/또는 대학원생과 같은 사용자(구체적인 예로, 일반대학원 석사과정에 재학 중인 학생)의 연구 관심 주제 및/또는 분야와 유사한 (양질의) 논문을 추천하는 콘텐츠 기반 추천 모델에 관한 것이다. 교과 데이터, 비교과 데이터, 지도교수의 논문 데이터, 및 사용자가 선호하는 교수(선호교수)의 논문 데이터 중 적어도 하나를 활용하여 사용자의 프로파일을 생성하고, 추천하고자 하는 논문(예컨대, SCOPUS 및/또는 Web of Science(WOS)에 등재된 논문)의 프로파일을 생성하였다. 생성된 프로파일을 바탕으로 프로파일 간 유사도를 계산하여 사용자별로 유사도 높은 논문들을 파악할 수 있다. 또한, 사용자에게 이메일 등을 통해 유사도가 높은 복수의(예컨대, 10개의) 논문을 자동으로 발송하는 시스템을 개발하였다.

이하에서는, 본 발명에서 이용되는 분석 데이터에 대하여 상세히 설명한다. 본 발명에서는 사용자(예컨대, 고려대학교 서울캠퍼스에 소속되어 있는 일반 대학원 석사과정 재학생)의 교과 및 비교과 데이터, 지도교수의 논문 데이터를 활용한다. 구체적으로, 1) 지도교수 논문 데이터(또는 지도교수 논문 제목 데이터), 2) 선호하는 교원(선호교원 또는 선호교수)의 논문 데이터(또는 선호교원 이나 선호교수의 논문 제목 데이터), 3) 수강 과목의 교수 요목 데이터, 4) 도서 대출 데이터, 및 5) 검색 기록 데이터(예컨대, 도서관 홈페이지 검색 기록 데이터) 중 적어도 하나를 이용한다. 또한, 논문 데이터(예컨대, SCOPUS 및/또는 WOS에 등재되어 있는 해외 논문 제목 및 키워드 데이터)를 API로 수집하여, 논문 추천 과정에 활용할 수 있다.

A. 논문 데이터

논문은 크게 2가지 측면에서 수집할 수 있다. 첫째, 논문 추천 서비스를 제공받는 사용자(예컨대, 재학생)의 연구 관련 키워드를 선정하기 위하여 소정의 연구자 식별 정보(예컨대, KRI 연구자 번호)를 통해 교내 재직 중인 전임교원의 논문 데이터를 크롤링하여 수집하였다.

둘째, 학생에게 추천할 논문(예컨대, 최신논문)을 API로 호출하여 수집하였다. 구체적으로 최신논문은 3가지 단계로 수집될 수 있다. 먼저, 1) SCOPUS와 WOS 등재 저널 목록을 통해 해당 저널의 ISSN(International Standard Serial Number) 번호를 수집한다. 그 다음으로, 2) CrossRef API와 ISSN 번호를 통해 특정 기간에 출판된 논문의 리스트와 DOI(Digital Object Identifier) 번호를 수집한다. 마지막으로 3) DOI 번호와 SCOPUS API, WOS API를 통해 논문의 상세 정보를 수집한다.

3가지 단계로 수집된 최신논문에 대한 탐색적 데이터 분석은 도 1과 같다. 도 1A를 참조하면, Materials Science, Chemistry, Electrical and Electronic Engineering, Condesed Matter Physics 등의 연구 분야에 포함되는 논문들이 많이 수집된 것을 볼 수 있다. 또한 도 1B를 참조하면, 수집된 논문들이 주로 COVID-19, Machine learning, Deep learning, Inflammation, Mechanical properties 등의 키워드를 포함하고 있었다.

B. 교과 데이터

수강과목 교수요목 데이터는 일반대학원 석사과정 재학생의 관심과 흥미를 반영하기 위한 목적으로 활용될 수 있다. 전임교원에 대한 논문 데이터는 교내 시스템에서 관리되고 있지만, 대학원생의 논문 데이터는 관리되고 있지 않다. 논문을 추천할 때, 지도교수의 논문 데이터만을 활용하게 된다면 지도교수의 주 연구 관심사와 상이한 연구분야의 연구를 수행하는 학생들은 만족스럽지 못한 추천 결과를 얻을 수 있다. 따라서 본 연구에서는 일반대학원 석사과정 재학생의 수강과목의 교수요목 데이터를 활용하였다.

C. 비교과 데이터

수강과목 교수요목 데이터와 마찬가지로 일반대학원 석사과정 재학생의 연구 관심사를 반영하기 위한 목적으로 대출도서 데이터(예컨대, 대출도서 (영문) 제목 데이터)와 도서관 홈페이지 검색어 데이터(예컨대, (영문) 검색어 데이터)를 활용하였다. 국문 데이터를 활용할 수도 있으나, 국문의 경우 수업과 관련된 내용을 찾아보거나 연구와는 무관한 내용이 혼재되어 있을 가능성이 높기 때문에 영문 데이터를 활용할 경우 더 나은 효과를 나타낼 수 있다.

데이터 전처리 과정

이하에서는 데이터 전처리 과정을 설명한다. 본 발명에서는 영문 텍스트만을 활용하였고, 한국어, 일본어, 중국어 등의 영문 이외의 텍스트는 활용하지 않았다. 다만, 본 발명의 권리범위가 데이터에 사용된 언어에 제한되는 것은 아니며, 실시예에 따라 다양한 언어의 데이터가 활용될 수도 있다. 또한, 특수문자와 대출도서 관련 텍스트에서 연구와 밀접한 관련이 없는 단어(예컨대, TOEFL, Toefl, toefl, GRE, gre, HACKERS, Hackers, hackers 등)들이 제거될 수 있다. 불필요한 텍스트를 제거한 후 학생별로 모든 텍스트를 합쳐서(병합하여) 하나의 행을 만들었다. 이와 같은 방식으로 논문 텍스트, 교수요목 텍스트, 도서관 검색 데이터도 전처리 과정을 거칠 수 있다.

그 이후 텍스트 토큰화(Tokenization), 형태소 분석(Pos-tagging), 표제어 추출(Lemmatization), 불용어 제거(Removal of stopwords) 등의 과정을 수행할 수 있다. 표제어는 기본 사전형 단어를 의미하며 단어 형태가 적절히 보존될 수 있도록 하기 위해 표제어 추출을 진행하였다(예: watched => watch).

마지막으로, 영역마다 키워드의 개수를 다르게 하여 개별 사용자별로(학생별로) 중요도가 높은 복수의 단어들을 추출할 수 있다.(예컨대, 지도교수 논문 키워드: 최대 20개, 선호교수 논문 키워드: 최대 10개, 교수요목 키워드: 최대 5개, 대출도서 키워드: 최대 5개, 검색 기록: 최대 5개). 중요도가 높은 단어들은 TF-IDF Vectorizer(min_df=2)를 통해 선정할 수 있다. TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM(Document-Term Matrix; 문서 단어 행렬) 내의 각 단어들마다 중요한 정도를 가중치를 주는 방법이다. TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서의 검색 결과의 중요도를 구하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 널리 활용된다.

도 3은 (A) 대학원생의 대출도서 최종 전처리 결과와 키워드 추출 결과와 (B) 학술논문 데이터 최종 전처리 결과를 도시한다. 추천목록에 포함되는 최근 논문의 경우 중요도가 높은 단어들을 따로 추출하지 않고 토큰화된 제목 및 저자 키워드 텍스트를 모두 포함하였다.

추천 알고리즘: 코사인 유사도

앞서 언급한 전처리 과정을 거친 후에 논문 제목 데이터, 교수요목 데이터, 도서대출 제목 데이터, 검색기록 키워드를 학생별로 병합하여 학생의 키워드를 완성할 수 있다. 그리고 논문 추천을 진행하기 위해 SCOPUS 및 WOS 등재 저널 키워드와 학생별 키워드를 도 4와 같이 정리하였다.

추천 알고리즘: 용어사전 적용

본 발명에서는 TF-IDF 알고리즘으로 추출한 키워드를 기반으로 완성된 TF-IDF 행렬에 ASJC 연구분야 차원을 추가하고자 하였다. 본 발명의 가장 큰 목적이 대학원생들에게 최근에 출판된 (해외) 학술논문을 추천하는 시스템을 구축하는 것이므로 연구분야를 함께 고려하고자 하였다. 예를 들어, Computer라는 키워드는 여러 분야에서 활용되는 키워드일 수 있으나 Computer Science에서 중요도가 높은 키워드라고 할 수 있다. 또한, 도 5처럼 Mobile Robot, Reinforcement Learning 등은 인공지능 연구 분야에, Psychology, Therapist, Personality 등은 심리학 연구 분야에서 중요도가 높은 키워드이다. 따라서 앞서 제작한 키워드의 연구분야 별 중요도 지수(index)를 활용하여 키워드 그 자체뿐만 아니라 연구분야 차원을 고려하고자 하였다.

키워드 차원과 연구분야 차원으로 구성된 데이터프레임에서 TF-IDF 가중치를 이용한 문서단어행렬(Document-Term Matrix; DTM)을 생성하였다. 여기서 문서는 학생 혹은 논문에 해당하며, 단어는 키워드 및 연구분야에 해당한다. 즉, 학생에 대한 문서단어행렬과 논문에 대한 문서단어행렬이 각각 생성되거나, 학생과 논문에 대한 단일의 문서단어행렬이 생성될 수 있다.

학생과 논문들 간 유사도를 계산하기 위해 생성된 행렬을 기반으로 코사인 유사도를 계산하였다. TF-IDF 산출을 위한 일련의 과정은 Python sklearn의 Feature extraction 모듈을 사용하였다. 그중에서도 TfidfVectorizer라는 모듈을 사용하였다. 또한, 코사인 유사도를 계산하기 위해서 sklearn의 metrics.pairwise 모듈의 cosine_similarity를 사용하였다.

논문 추천 결과

도 6A 내지 도 6D는 심리학과 A학생(임상 및 상담심리전공), 경영학과 B학생(경영관리전공), 전기전자공학과 C학생(반도체 및 나노전공), 정보보안학과 D학생(사이버전)에게 추천된 논문 예시에 해당한다. 앞서 언급한 바와 같이 학생들의 교과 및 비교과 데이터, 지도교수의 논문 데이터 등을 활용해 학생별로 키워드를 도출하였다. 이를 토대로 학생의 키워드와 유사도가 높은 논문 10개를 대량 이메일 서비스를 활용해 (매달 20일에) 주기적으로 또는 비주기적으로 발송할 수 있다.

도 6에서 확인할 수 있듯이, 학과 및 전공과 유사한 연구 분야의 논문이 추천된 것을 확인할 수 있다. 예를 들어, 심리학과 A학생의 경우(그림 6A), 임상심리학 전공에서 많이 언급되는 정신장애 키워드(예: Depression, Anxiety, Schizophrenia, Obsessive compulsive disorder)를 포함하는 논문들이 추천되었다. 또한, 전기전자공학과 C학생의 경우에도(도 6C) 핵심적인 키워드인 ‘Nano’를 포함한 논문들이 추천되었다. 이처럼, 경영학과와 정보보안학과 학생의 경우에도 적절한 연구분야의 논문들이 추천되었음을 확인하였다.

논문 추천 이메일 서비스 형태

고려대학교 디지털정보처는 대학생을 위한 AI기반 학생 맞춤형 추천 서비스(AI선배)를 본교 포털 웹페이지를 통해 제공하였지만 대학원생 대상 ‘맞춤형 논문 추천 서비스’는 대학원생의 접근성과 편리함을 위해 이메일의 형태로 제공하는 것으로 방향을 설정하였다. 도 7은 파일럿 서비스 당시에 일반대학원 전기전자공학과 석사과정 재학생에게 발송된 맞춤형 논문 추천 서비스의 형태 예시에 해당한다. 유사도가 높은 논문이 상위에 위치하도록 하였으며, 논문에 대한 간략한 정보를 포함하였다. 먼저, 논문 제목, 논문 키워드, 연구 분야, 저널명, 저널 등급(예. SCIE)을 학생들이 확인할 수 있도록 하였다. 더불어, 논문의 자세한 내용을 살펴보기 원하는 학생들은 [원문보기]를 클릭하여 논문의 원문에 접근할 수 있도록 하였다.

논문 추천 알고리즘에 활용된 키워드에 대한 유사도 평가

맞춤형 논문 추천 서비스 제공 시 학생별 키워드의 가중치를 개선하는 목적에서 논문 추천에 활용된 키워드에 대한 평가를 설문조사를 통해 진행하였다. 학생별 모든 키워드를 제시하기에는 한계가 있어, 학생별로 TF-IDF 값이 높은 상위 단어 5개만을 학생들에게 제시하고 본인의 관심연구 분야와 얼마나 유사한지를 평가하도록 하였다. 하지만 5개의 대표 키워드는 학생들을 표현할 수 있는 많은 키워드 중에서 다른 학생들에 비해 가중치가 높은 키워드가 제시되므로, 관심연구 분야에 더 밀접한 관련이 있는 단어들이 키워드에는 존재하지만 상위 5개의 키워드에는 포함되지 않을 가능성이 있다. 총 355명이 설문조사에 응답하였다. 첫 번째, 두 번째 키워드는 각각 3.61점, 3.34점으로 준수한 결과를 얻었지만, 세 번째, 네 번째, 다섯 번째 키워드는 각각 3.00점, 2.90점, 3.00점으로 다소 떨어지는 점수를 얻었다. 맞춤형 논문 추천 서비스는 1점과 2점을 기록한 키워드는 학생별 기존 키워드 Pool에서 제거하고 학생들이 반영되기를 희망하는 키워드를 새롭게 포함하여 추천 결과가 향상될 수 있도록 하고 있다.

논문 추천 알고리즘에 활용된 키워드 기반 학생 클러스터링 결과

맞춤형 논문 추천 서비스에 활용된 키워드를 기반으로 학생 간 클러스터링을 진행하였다. 클러스터링은 UMAP 알고리즘을 활용하였으며 거리가 가까우면 가까울수록 키워드가 유사하다고 볼 수 있다. 도 8에서 볼 수 있듯이 유사한 학과의 학생들끼리 클러스터링이 잘되는 것을 확인할 수 있다. 이학, 공학, 의학 계열 학생들 간에도 유사한 연구 주제를 다루는 학과끼리 잘 클러스터링되는 것을 볼 수 있는데, 생명과학과 및 생명공학과 학생의 경우 의과학과, 의학과, 의생명융합과학과, 보건안전융합과학과 학생들과 거리가 가까운 것을 확인할 수 있었다.

논문 추천 서비스는 교수자 및 대학원생을 비롯한 연구자에게 필요한 서비스 중 하나이다. 연구자에게 주기적으로 개별 맞춤형 논문이 추천될뿐만 아니라 인용이 많이 되고 질적으로 우수한 저널의 논문들이 추천된다면 논문을 작성하거나 필요한 논문을 리뷰할 때 도움이 될 수 있다. 기존에 이미 많은 논문 추천 서비스가 있지만, 이와 차별점을 두기 위해 교육·연구 데이터를 통합 분석하여 학생에게 논문을 주기적으로 추천하고자 한다.

이를 위해 학생의 지도교수 논문과 선호하는 교수의 논문 데이터뿐만 아니라 교과·비교과 데이터를 통합하여 학생들의 특성을 도출하고자 하였다. 특수기호를 포함하여 불필요한 단어들을 제거한 후 텍스트 토큰화 및 표제어 추출 등을 통하여 텍스트를 정제하고 학생들을 표현할 수 있는 영역(예; 수강과목의 교수요목, 지도교수의 논문 제목, 대출도서 제목)별로 키워드 수를 다르게 설정하여 중요도가 높은 키워드를 TF-IDF 수치를 통해 추출하였다. 학생별로 추출된 키워드와 SCOPUS 및 WOS 등재 저널의 논문 키워드를 통합한 데이터프레임에서 TF-IDF 가중치 및 학술용어사전을 이용한 행렬을 생성한 후, 코사인 유사도 계산을 통해 학생별로 유사도가 높은 상위 10개의 논문을 제공하기 위한 배치 테이블을 형성하였다.

먼저, 심리학과(임상 및 상담심리 전공), 경영학과(경영관리전공), 전기전자공학과(반도체 및 나노전공), 정보보안학과(사이버전)의 학생을 무작위로 선정하여 추천된 논문 결과를 확인하였다. 그 결과, 대부분 해당 학과의 학문 분야에 해당하는 논문이 추천되는 것을 확인할 수 있었다. 예를 들어, 심리학과 학생의 논문 추천 결과를 확인하였을 때, "Mindfulness", "Depression", "Anxiety", "Schizophrenia Spectrum Disorder" 등의 심리학과의 학문 분야와 밀접한 관련이 있는 논문이 추천되었음을 볼 수 있다.

다음으로, 본 연구에서는 논문 추천 결과를 이메일로 발송할 수 있는 시스템을 구축하고자 하였다. 본 맞춤형 논문 추천 서비스는 21개 학과(전기전자공학과, 물리학과, 신소재공학과, 환경생태공학과, 화공생명공학과, 화학과, 생명공학과, 의과학과, 인공지능학과, 건축사회환경공학과, 심리학과, 교육학과 등)의 석사 및 박사과정 재학생에게 제공되었다. 결과 발송 시에는 학생들이 논문 내용을 탐색해볼 수 있도록 논문의 내용에 대한 간단한 정보(예. 제목, 키워드, 저널명, 연구분야)를 제공하였으며 원문보기 링크를 통해 논문의 초록 및 원문을 확인할 수 있도록 하였다.

마지막으로, 논문 추천 서비스를 제공받은 학생들을 대상으로 설문조사를 실시하였다. 총 355명의 학생들이 TF-IDF 수치를 통해 가중치가 고려된 대표 키워드 5개에 대한 평가를 진행하였다. 첫 번째 키워드, 두 번째 키워드의 경우 학생들이 관심연구 분야와 대체로 유사한 키워드라고 인식하였다. 반면, 세 번째 키워드, 네 번째 키워드와 다섯 번째 키워드는 유사도 평가에서 낮은 점수를 기록하였다.

본 발명은 교육·연구 데이터를 통합 분석하여 대학원생을 위한 맞춤형 논문 추천 서비스를 개발하였다는 점에 의의가 있다. 현재는 추천 서비스가 21개 학과의 석사 및 박사과정 재학생에 한정하여 제공되었기 때문에 추후 더 폭넓은 학과의 학생들에게도 서비스를 제공하고자 한다.

도 9는 본 발명의 일 실시예에 따른 논문 추천 장치의 기능 블럭도이고, 도 10은 도 9에 도시된 논문 추천 장치에 의해 수행되는 논문 추천 방법을 설명하기 위한 흐름도이다.

도 9와 도 10을 참조하면, 논문 추천 장치(10)는 적어도 프로세서(processor) 및/또는 메모리(memory)를 포함하는 컴퓨팅 장치로 구현될 수 있다. 따라서, 논문 추천 방법의 단계들 중 적어도 일부는 논문 추천 장치(10)를 이루는 컴퓨팅 장치의 프로세서의 동작으로 이해될 수도 있다. 컴퓨팅 장치는 PC(Personal Computer), 서버(server), 랩탑 컴퓨터, 태블릿 PC 등을 포함할 수 있다. 또한, 컴퓨팅 장치는 하나의 물리적 장치로 구현되거나, 복수의 물리적 장치로 구현될 수 있다.

논문 추천 장치(10)는 데이터 수집부(110), 전처리부(120), 키워드 추출부(130), 유사도 측정부(140), 및 논문 추천부(150) 중 적어도 하나를 포함할 수 있다. 실시예에 따라, 논문 추천 장치(10)는 저장부(160)를 더 포함할 수도 있다.

데이터 수집부(110)는 논문 추천을 위한 기본 데이터를 수집할 수 있다(S110). 기본 데이터는 유무선 통신망을 통하여 적어도 하나의 정보 제공 서버로부터 수신될 수 있다. 실시예에 따라, 기본 데이터는 USB 저장 장치와 같은 저장 장치로부터 소정의 입력 인터페이스를 통해 수신될 수도 있거나, 논문 추천 장치(10)의 저장부(160)에 미리 저장되어 있을 수도 있다.

기본 데이터는 사용자 데이터와 논문 데이터를 포함할 수 있다. 보다 구체적으로, 사용자 데이터는 1) 지도교수 논문 데이터(지도교수 논문 제목 데이터), 2) 선호하는 교원의 논문 데이터(선호하는 교원(예컨대, 선호 교수)의 논문 제목 데이터), 3) 수강 과목의 교수 요목 데이터, 4) 도서 대출 데이터(예컨대, 대출 도서 제목), 및 5) 검색 기록 데이터(예컨대, 도서관 홈페이지 검색 기록 데이터) 중 적어도 하나를 포함할 수 있다. 사용자 데이터는 복수의 사용자들 각각에 대한 데이터이므로, 사용자별로 수집되고 수집된 사용자 데이터는 저장부(160)에 저장될 수 있다.

논문 데이터는 복수의 논문들, 복수의 논문들 각각의 제목, 복수의 논문들 각각의 연구 분야, 및 복수의 논문들 각각의 키워드 중 적어도 하나를 포함할 수 있다. 수집된 논문 데이터는 저장부(160)에 저장될 수 있다. 또한, 논문 데이터는 제1 논문 데이터와 제2 논문 데이터를 포함할 수 있다. 제1 논문 데이터는 소정의 기관(예컨대, 논문 추천 서비스를 제공하는 기관으로써 학교를 의미할 수 있음) 소속의 연구원(예컨대, 교내 재직 중인 전임 교원)들의 논문 데이터를 의미할 수 있다. 제2 논문 데이터는 소정의 기관 소속이 아닌 연구원들의 논문 데이터를 의미할 수 있다. 예시적으로, 제2 논문 데이터는 최신(예컨대, 최근 a(a는 임의의 자연수로써 예시적인 값은 5임)년내의 (해외) 논문 데이터를 의미할 수 있다.

전처리부(120)는 수집된 기본 데이터에 대한 전처리 동작을 수행할 수 있다(S120).

실시예에 따라, 전처리부(120)는 수집된 데이터 내의 특수 문자를 제거할 수 있다. 또한, 전처리부(120)는 특정 데이터(예컨대, 도서 대출 데이터)에서 연구와 연관성이 없거나 낮은 데이터를 제거할 수도 있다. 예시적으로, TOEFL, Toefl, toefl, GRE, gre, HACKERS, Hackers, hackers 등과 같이 미리 정의된 단어를 포함하는 데이터는 도서 대출 데이터에서 제거될 수 있다. 이후, 전처리부(120)는, 사용자 별로, 수집된 기본 데이터를 병합할 수 있고, 이에 따라, 사용자별 기본 데이터는 하나의 행으로 생성될 수 있다.

또한, 실시예에 따라, 전처리부(120)는 토큰화(Tokenization) 동작, 형태소 분석(Pos-tagging) 동작, 표제어 추출(Lemmatization) 동작, 및 불용어 제거(Removal of stopwords) 동작 중 적어도 하나를 수행할 수 있다. 이에 따라, 각 사용자에 대한 사용자 데이터와 논문 데이터는 복수의 단어들을 포함하게 된다.

키워드 추출부(130)는 전처리된 데이터로부터 적어도 하나의 키워드를 추출할 수 있다(S130). 보다 구체적으로, 키워드 추출부(130)는 사용자 데이터의 데이터 영역별로 적어도 하나의 키워드들 추출할 수 있다. 데이터 영역은 수집된 데이터의 영역(예컨대, 지도교수 논문 데이터, 선호교수 논문 데이터 등)을 의미한다. 따라서, 키워드 추출부(130)는 지도교수 논문 데이터로부터 적어도 하나의 키워드(복수의 키워드를 의미할 수 있고, 예시적으로 최대 20개의 키워드가 될 수 있음)를 추출하고, 선호교수 논문 데이터로부터 적어도 하나의 키워드(복수의 키워드를 의미할 수 있고, 예시적으로 최대 10개의 키워드가 될 수 있음)를 추출하고, 교수요목 데이터로부터 적어도 하나의 키워드(복수의 키워드를 의미할 수 있고, 예시적으로 최대 5개의 키워드가 될 수 있음)를 추출하고, 대출도서 데이터로부터 적어도 하나의 키워드(복수의 키워드를 의미할 수 있고, 예시적으로 최대 5개의 키워드가 될 수 있음)를 추출하고, 검색 기록 데이터로부터 적어도 하나의 키워드(복수의 키워드를 의미할 수 있고, 예시적으로 최대 5개의 키워드를 의미할 수 있음)를 추출할 수 있다. 중요도가 높은 키워드들은 TF-IDF(Term frequency-Inverse Document Frequency)를 이용하여 추출될 수 있다. 예컨대, 데이터 영역별로 가장 높은 TF-IDF 가중치를 보이는 적어도 하나의 키워드가 선택될 수 있다. 결국, 각 데이터 영역별로 추출된 적어도 하나의 키워드를 병합하여, 사용자들 각각의 키워드를 생성할 수 있다.

또한, 키워드 추출부(130)는 논문 데이터의 키워드를 추출할 수 있는데, 전처리된 데이터, 즉 전처리 결과로서 생성된 단어들 각각을 키워드로 선택할 수 있다. 이에 따라, 각 논문의 키워드는 제목과 논문의 키워드(논문의 저자가 지정한 키워드로써, 저자 키워드로 명명될 수 있음)로부터 생성될 수 있다.

유사도 측정부(140)는 사용자들 각각의 연구 분야와 논문(제2 논문 데이터에 포함된 논문을 의미할 수 있음)의 유사도를 측정할 수 있다(S140).

이를 위하여, 유사도 측정부(140)는 사용자 및/또는 논문(제2 논문 데이터에 포함된 논문을 의미할 수 있음)과 키워드들에 관한 TF-IDF 행렬(문서단어 행렬로 명명될 수도 있음)을 생성할 수 있다. 여기서, 키워드들은 전체 사용자 및/또는 전체 논문의 키워드를 모두 포함하는 개념으로 이해될 수 있다. 또한, 문서단어 행렬의 문서는 사용자 또는 논문을 나타내고, 문서단어 행렬의 단어는 키워드를 나타낼 수 있다. 문서단어 행렬 내의 각 요소는 임의의 가중치(예컨대, TF-IDF 가중치)를 나타낼 수 있다.

실시예에 따라, 유사도 측정부(140)는 생성된 문서단어 행렬에 연구 분야 차원을 추가하여 확장된 문서단어 행렬(확장된 TF-IDF 행렬로 명명될 수도 있음)을 생성할 수도 있다. 따라서, 확장된 문서단어 행렬의 문서는 사용자 및/또는 논문이 되고, 확장된 문서단어 행렬의 단어는 키워드들과 연구 분야(복수의 개념으로, 학문 영역, 학문 분야, 연구 영역 등으로 명명될 수 있음)가 될 수 있다. 이를 위해, 유사도 측정부(140)는 저장부(160) 등에 미리 저장되어 있는 복수의 연구 분야별 키워드들(예시적으로, Scival에서 제공하는 학문 영역별 키워들)을 이용하여, 각 키워드가 연구 분야에서 차지하는 비중(중요도)를 산출할 수 있다. 이에 따른 산출 결과는 학문용어사전이라 명명될 수 있다.

이와 관련하여, 도 12에는 학문용어사전(학문영역 매트릭스) 구축 과정을 설명하기 위한 개념도가 도시되어 있다. Scival에서 제공하는 데이터에는 105,333개의 고유한 키워드가 329개의 학문 분야에 분포되어 있다. 이를 이용하여, 키워드-학문 분야 조합별 가중치(인덱스 밸류)가 산출될 수 있고, 인덱스 밸류는 0보다 크거나 같고 1보다 작거나 같은 값을 갖도록 정규화될 수 있다. 학문 분야 m에서 키워드 i에 대한 인덱스 밸류(K)는 수학식 1을 통해 산출될 수 있다. 이에 따라, 각 학문 분야별 키워드의 인덱스 밸류(K)가 산출될 수 있다.

[수학식 1]

확장된 문서단어 행렬에서 학문 영역-사용자(또는 논문) 조합에 해당하는 요소의 값은 해당 학문 영역에서 사용자(또는 논문)의 키워드들 각각의 가중치(인덱스 밸류)의 합(또는 이를 정규화한 값)이 될 수 있다.

결국, 유사도 산출부(140)는 전체 키워드의 개수와 전체 학문 영역의 개수의 합을 차원으로 갖는 사용자별 벡터 및/또는 논문별 벡터를 생성하는 개념으로 이해될 수도 있다.

마지막으로, 유사도 산출부(140)는 확장된 문서단어 행렬을 이용하여 사용자의 연구 분야와 각 논문과의 유사도를 측정할 수 있다. 이때, 측정되는 유사도는 코사인 유사도를 의미할 수 있다. 코사인 유사도는 확장된 문서단어 행렬 또는 생성된 벡터를 이용하여 산출될 수 있다.

논문 추천부(150)는 유사도 측정의 결과에 기초하여, 각 사용자에게 추천할 추천 논문을 선택할 수 있다(S150). 각 사용자별 추천 논문은 유사도가 가장 높은 적어도 하나의 논문이 될 수 있다. 예컨대, 논문 추천부(150)는 유사도가 높은 순으로 상위 m(m은 임의의 자연수로서, 예시적인 값은 10이 될 수 있음) 개의 논문을 선택할 수 있다.

또한, 논문 추천부(150)는 선택된 적어도 하나의 추천 논문에 관한 정보를 사용자의 단말로 송신할 수도 있다. 실시예에 따라, 논문 추천부(150)는 이메일 시스템을 통하여 등록된 사용자의 이메일로 추천 논문에 관한 정보를 전송할 수도 있다. 여기서, 추천 논문에 관한 정보는 논문의 제목, 연구 분야, 측정된 유사도, 및 논문의 원문을 열람할 수 있는 링크 중 적어도 하나를 포함할 수 있다.

저장부(160)에는 논문 추천 장치(10)의 동작에 필요한 OS(Operating System), 프로그램, 소스 코드 등이 저장되어 있을 수 있다. 또한, 저장부(160)에는 데이터 수집부(110)에 의해 수집된 데이터, 전처리부(120)에 의해 전처리된 결과, 키워드 추출부(130)에 의해 추출된 키워드들, 유사도 측정부(140)에 의한 유사도 측정의 결과, 논문 추천부(150)에 의한 논문 추천의 결과 등이 저장될 수 있다.

이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 집합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPA(Field Programmable array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(Operation System, OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(Collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(Embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성 요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

10 : 논문 추천 장치
110 : 데이터 수집부
120 : 전처리부
130 : 키워드 추출부
140 : 유사도 측정부
150 : 논문 추천부
160 : 저장부

Claims

적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 논문 추천 방법에 있어서,
사용자 데이터와 논문 데이터를 전처리하는 단계;
상기 사용자 데이터와 상기 논문 데이터의 키워드를 추출하는 단계;
상기 사용자 데이터와 상기 논문 데이터에 포함되는 복수의 논문들 각각의 유사도를 측정하는 단계; 및
가장 높은 유사도를 갖는 적어도 하나의 논문을 추천 논문으로 결정하는 단계를 포함하고,
상기 사용자 데이터는 지도교수 논문 데이터, 선호교수 논문 데이터, 수강 과목의 교수 요목 데이터, 도서 대출 데이터, 및 검색 기록 데이터를 포함하고,
상기 키워드를 추출하는 단계는, TF-IDF(Term Frequency-Inverse Document Frequency) 가중치에 기초하여, 상기 사용자 데이터를 구성하는 데이터 영역별로 적어도 하나의 키워드를 추출하고,
상기 유사도를 측정하는 단계는,
미리 저장되어 있는 연구 분야별 키워드들 각각에 대한 연구 분야별 가중치를 산출하는 단계;
상기 사용자와, 상기 사용자가 포함되는 복수의 사용자들 및 상기 논문 데이터에 포함되는 논문들의 키워드들에 대한 제1 문서단어 행렬을 생성하는 단계;
상기 논문 데이터에 포함된 논문들과, 상기 복수의 사용자들 및 상기 논문 데이터에 포함되는 논문들의 키워드들에 대한 제2 문서단어 행렬을 생성하는 단계; 및
상기 제1 문서단어 행렬 및 상기 제2 문서단어 행렬에 연구 분야 차원을 확장하여 확장된 제1 문서단어 행렬과 확장된 제2 문서단어 행렬을 생성하는 단계를 포함하고,
상기 문서단어 행렬의 각 요소는 TF-IDF 가중치이고,
상기 연구 분야 차원에 대응하는 각 사용자의 요소값은 각 사용자의 키워드들의 연구 분야별 가중치의 합에 기초하여 생성되고,
상기 연구 분야 차원에 대응하는 각 논문의 요소값은 각 논문의 키워드들의 연구 분야별 가중치의 합에 기초하여 생성되고,
상기 유사도를 측정하는 단계는, 상기 확장된 제1 문서단어 행렬과 상기 확장된 제2 문서단어 행렬을 이용하여 상기 사용자와 논문들 각각의 유사도를 산출하는 단계를 더 포함하는,
논문 추천 방법.
삭제
제1항에 있어서,
상기 논문 데이터는 사용자가 소속된 기관의 연구자들의 논문에 대한 데이터인 제1 논문 데이터와 상기 사용자가 소속된 기관의 연구자들 이외의 연구자의 논문에 대한 데이터인 제2 논문 데이터를 포함하고,
상기 논문 데이터는 논문의 제목과 논문의 저자 키워드를 포함하는,
논문 추천 방법.
제3항에 있어서,
상기 전처리하는 단계는, 토큰화 과정, 형태소 분석 과정, 표제어 추출 과정, 및 불용어 제거 과정 중 적어도 하나를 포함하는,
논문 추천 방법.
삭제
제1항에 있어서,
상기 키워드를 추출하는 단계는, 상기 논문 데이터에 포함되는 논문들 각각에 대하여, 전처리된 논문의 제목과 전처리된 저자 키워드를 키워드로 추출하는,
논문 추천 방법.
삭제
제1항에 있어서,
상기 추천 논문으로 결정하는 단계는, 가장 높은 유사도를 갖는 적어도 하나의 논문을 상기 추천 논문으로 결정하는,
논문 추천 방법.
제8항에 있어서,
상기 논문 추천 방법은,
상기 추천 논문에 관한 정보를 상기 사용자의 단말로 전송하는 단계를 더 포함하고,
상기 추천 논문에 관한 정보는 상기 추천 논문의 제목, 상기 추천 논문의 연구 분야, 상기 추천 논문이 유사도, 및 상기 추천 논문을 열람하기 위한 링크 중 적어도 하나를 포함하는,
논문 추천 방법.
삭제
사용자 데이터와 논문 데이터를 전처리하는 전처리부;
상기 사용자 데이터와 상기 논문 데이터의 키워드를 추출하는 키워드 추출부;
상기 사용자 데이터와 상기 논문 데이터에 포함되는 복수의 논문들 각각의 유사도를 측정하는 유사도 측정부; 및
가장 높은 유사도를 갖는 적어도 하나의 논문을 추천 논문으로 결정하는 논문 추천부를 포함하고,
상기 사용자 데이터는 지도교수 논문 데이터, 선호교수 논문 데이터, 수강 과목의 교수 요목 데이터, 도서 대출 데이터, 및 검색 기록 데이터를 포함하고,
상기 키워드 추출부는, TF-IDF(Term Frequency-Inverse Document Frequency) 가중치에 기초하여, 상기 사용자 데이터를 구성하는 데이터 영역별로 적어도 하나의 키워드를 추출하고,
상기 유사도 측정부는, 미리 저장되어 있는 연구 분야별 키워드들 각각에 대한 연구 분야별 가중치를 산출하고,
상기 사용자와, 상기 사용자가 포함되는 복수의 사용자들 및 상기 논문 데이터에 포함되는 논문들의 키워드들에 대한 제1 문서단어 행렬을 생성하고,
상기 논문 데이터에 포함된 논문들과, 상기 복수의 사용자들 및 상기 논문 데이터에 포함되는 논문들의 키워드들에 대한 제2 문서단어 행렬을 생성하고,
상기 제1 문서단어 행렬 및 상기 제2 문서단어 행렬에 연구 분야 차원을 확장하여 확장된 제1 문서단어 행렬과 확장된 제2 문서단어 행렬을 생성하고,
상기 문서단어 행렬의 각 요소는 TF-IDF 가중치이고,
상기 연구 분야 차원에 대응하는 각 사용자의 요소값은 각 사용자의 키워드들의 연구 분야별 가중치의 합에 기초하여 생성되고,
상기 연구 분야 차원에 대응하는 각 논문의 요소값은 각 논문의 키워드들의 연구 분야별 가중치의 합에 기초하여 생성되고,
상기 유사도 측정부는, 상기 확장된 제1 문서단어 행렬과 상기 확장된 제2 문서단어 행렬을 이용하여 상기 사용자와 논문들 각각의 유사도를 산출하는,
논문 추천 장치.