KR20220097631A - 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 - Google Patents

텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 Download PDF

Info

Publication number
KR20220097631A
KR20220097631A KR1020200187636A KR20200187636A KR20220097631A KR 20220097631 A KR20220097631 A KR 20220097631A KR 1020200187636 A KR1020200187636 A KR 1020200187636A KR 20200187636 A KR20200187636 A KR 20200187636A KR 20220097631 A KR20220097631 A KR 20220097631A
Authority
KR
South Korea
Prior art keywords
document
target
comparison
target keyword
text
Prior art date
Application number
KR1020200187636A
Other languages
English (en)
Inventor
송근일
김도엽
이인섭
Original Assignee
주식회사 프리딕션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 프리딕션 filed Critical 주식회사 프리딕션
Priority to KR1020200187636A priority Critical patent/KR20220097631A/ko
Publication of KR20220097631A publication Critical patent/KR20220097631A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은, 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템에 있어서, 제1 형식으로 작성된 타겟 문서에 대하여, 상기 타겟 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하고, 또한 미리 저장되어 있는, 적어도 하나의 제1 형식의 문서 및 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 키워드추출부; 각 비교 문서에 대하여, 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드와 해당 비교 문서에서 추출된 적어도 하나의 타겟 키워드 간의 유사도를 계산하는 유사도계산부; 및 상기 유사도계산부에서 계산된 각 비교 문서에 대한 유사도 중 가장 높은 유사도를 갖는 비교 문서를 추천하는 문서추천부를 포함하는, 관련 문서 추천 시스템 및 방법에 관한 것이다. 이로써, 보다 더 정확하고 효율적으로 매칭되는 관련 문서를 찾을 수 있다.

Description

텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체{Text-based related document recommendation system and method, computer program, and computer readable recording medium}
본 발명은 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는 보다 더 정확하고 효율적으로 매칭되는 관련 문서를 찾을 수 있는, 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법에 관한 것이다.
수 년째 이어지는 고용 한파로 첫 취업까지 걸리는 평균 소요 기간도 늘고 있고, 또한 취업시험 준비생의 규모도 급등하고 있다.
한편, 필요한 인력을 채용하려는 기업체들은 일정 기간 동안 채용공고를 내게 되고, 취업 준비생들은 다양한 분야의 기업체들의 채용공고를 수집하여 보여주는 채용정보사이트들을 이용하여 본인의 분야 및 경력에 맞는 채용공고를 검색하여 이력서를 제출하게 된다.
이때, 취업 준비생들은 채용정보사이트에서 제공해 주는 채용공고가 본인의 관심 분야 및 경력에 맞는지 채용공고 전체에 대해서 일일이 검토해 보아야 하므로, 많은 시간과 노력이 필요하다.
따라서, 보다 더 정확하고 효율적으로 본인의 이력서에 매칭되는 채용공고를 찾을 수 있도록 지원해 주는 채용공고 추천 시스템 및 방법에 대한 니즈가 존재한다.
KR 2019-0020800 A KR 2161666 B1
이로써, 본 발명의 목적은 보다 더 정확하고 효율적으로 본인의 이력서에 매칭되는 채용공고를 찾을 수 있도록 지원해 주는 채용공고 추천 시스템 및 방법을 제공하는 데 있다.
본 발명의 다른 목적은 보다 더 정확하고 효율적으로 매칭되는 관련 문서를 찾을 수 있는, 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법을 제공하는 데 있다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적은, 본 발명의 제1 측면에 따라,
텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템에 있어서,
제1 형식으로 작성된 타겟 문서에 대하여, 상기 타겟 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하고, 또한 미리 저장되어 있는, 적어도 하나의 제1 형식의 문서 및 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 키워드추출부;
각 비교 문서에 대하여, 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드와 해당 비교 문서에서 추출된 적어도 하나의 타겟 키워드 간의 유사도를 계산하는 유사도계산부; 및
상기 유사도계산부에서 계산된 각 비교 문서에 대한 유사도 중 가장 높은 유사도를 갖는 비교 문서를 추천하는 문서추천부를 포함하는,
관련 문서 추천 시스템에 의해 달성된다.
이때, 상기 유사도계산부는,
상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 모두와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 모두에 대하여, 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나 간의 유사도를 계산하여, 이를 평균할 수 있다.
나아가, 상기 평균은 타겟 키워드별 가중치가 적용된 가중평균일 수 있다.
이에 더하여, 상기 키워드추출부는,
word2vec 알고리즘을 이용하는 것을 특징으로 할 수 있다.
또한, 상기 키워드추출부는, 오직 상기 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여만, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 것을 특징으로 할 수 있다.
여기서, 상기 제1 형식은 이력서이고, 상기 제2 형식은 채용공고인 것을 특징으로 할 수 있다.
상기 목적은, 또한 본 발명의 제2 측면에 따라,
텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템에서 실행될 수 있는, 관련 문서 추천 방법에 있어서,
(a) 제1 형식으로 작성된 타겟 문서에 대하여, 상기 타겟 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계;
(b) 미리 저장되어 있는, 적어도 하나의 제1 형식의 문서 및 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계;
(c) 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 간의 유사도를 계산하는 단계;
(d) 상기 (b) 및 (c) 단계를 반복 수행하여, 가장 높은 유사도를 갖는 비교 문서를 추천하는 단계를 포함하는,
관련 문서 추천 방법에 의해 달성된다.
이때, 상기 (c) 단계는,
상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 모두와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 모두에 대하여, 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나 간의 유사도를 계산하여, 이를 평균하는 단계를 포함할 수 있다.
나아가, 상기 평균은 타겟 키워드별 가중치가 적용된 가중평균일 수 있다.
이에 더하여, 상기 (a) 및 (b) 단계는,
word2vec 알고리즘을 이용하여 수행되는 것을 특징으로 할 수 있다.
또한, 상기 (b) 단계는, 오직 상기 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여만, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계인 것을 특징으로 할 수 있다.
여기서, 상기 제1 형식은 이력서이고, 상기 제2 형식은 채용공고인 것을 특징으로 할 수 있다.
상기 목적은, 또한 본 발명의 제3 측면에 따라,
상기의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독가능 기록 매체에 의해 달성된다.
나아가, 상기 목적은, 또한 본 발명의 제4 측면에 따라,
상기의 방법을 하드웨어와의 결합을 통해 실행시키기 위한 매체에 저장된 컴퓨터 프로그램에 의해 달성된다.
상기한 바와 같은 본 발명의 관련 문서 추천 시스템 및 방법에 따르면 특히 상세하게 보다 더 정확하고 효율적으로 본인의 이력서에 매칭되는 채용공고를 찾을 수 있도록 지원해 준다는 장점이 있다.
또한 본 발명의 관련 문서 추천 시스템 및 방법에 따르면 보다 더 정확하고 효율적으로 매칭되는 관련 문서를 찾을 수 있는, 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법을 제공해준다는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 관련 문서 추천 방법이 실행될 수 있는 네트워크 구조도이다.
도 2는 도 1에 도시된 관련 문서 추천 시스템의 기능 블록도이다.
도 3은 본 발명의 일 실시예에 따른 관련 문서 추천 방법이 실행되는 흐름도이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 예시적 실시예를 상세하게 설명한다. 다만, 본 발명이 예시적 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예컨대, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
도 1은 본 발명의 일 실시예에 따른 관련 문서 추천 방법이 실행될 수 있는 네트워크 구조도이다.
도면을 참조하면, 본 발명의 관련 문서 추천 방법은, 타겟 문서에 대하여, 관련 문서를 추천받고자 원하는 사용자의 단말(10) 및 단말(10)과 네트워크로 연결되어 있고, 사용자가 원하는 관련 문서를 추천해주는 관련 문서 추천 시스템(20)에 의해 실행된다.
단말(10)은 바람직하게는 개인용 컴퓨터(Personal Computer)일 수 있으나, 이에 한정되지 않고, 네트워크를 통해 관련 문서 추천 시스템(20)에 접속할 수 있는, 예를 들어 스마트폰이나 타블렛 등의 전자 기기일 수도 있다. 사용자는 이를 이용해 타겟 문서를 관련 문서 추천 시스템(20)에 입력하고 이로써 관련 문서 추천 시스템(20)에 의해 검색된 추천 문서를 화면으로 출력받게 된다.
관련 문서 추천 시스템(20)은 다수의 단말(10)에 서비스를 제공해 줄 수 있는 고성능 컴퓨터로서, 단말(10)과 같이 네트워크 통신가능한 컴퓨팅 장치, 예를 들어 워크스테이션, 서버, 일반용 컴퓨터일 수 있고, 바람직하게 물리적으로 단일 서버 또는 복수의 서버로 구성될 수 있다.
도 2는 도 1에 도시된 관련 문서 추천 시스템(20)의 기능 블록도이다.
도 2를 참조하면, 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템(20)은, 제1 형식으로 작성된 타겟 문서에 대하여, 타겟 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하고, 또한 미리 저장되어 있는, 적어도 하나의 제1 형식의 문서 및 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여, 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 키워드추출부(21); 각 비교 문서에 대하여, 타겟 문서에서 추출된 적어도 하나의 타겟 키워드와 해당 비교 문서에서 추출된 적어도 하나의 타겟 키워드 간의 유사도를 계산하는 유사도계산부(22); 및 유사도계산부(22)에서 계산된 각 비교 문서에 대한 유사도 중 가장 높은 유사도를 갖는 비교 문서를 추천하는 문서추천부(23)를 포함한다.
키워드추출부(21)는, 제1 형식으로 작성된 타겟 문서와, 제1 형식 또는 제2 형식으로 작성된 비교 문서에서 타겟 키워드를 추출할 수도 있지만, 제1 형식이 아닌, 단지 제2 형식으로 작성된 문서만을 타겟 키워드를 추출하는 비교 문서의 대상으로 삼을 수 있다. 즉, 키워드추출부(21)는, 오직 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여만, 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출할 수 있다. 예를 들어, 제1 형식이 이력서이고, 제2 형식이 채용공고일 때, 보다 더 정확하고 효율적으로 본인의 이력서에 매칭되는 채용공고를 찾을 수 있도록 지원해 주게 된다.
이때 타겟 키워드는, 데이터베이스(30)에 미리 저장되어 있는, 비교 키워드와의 관련성에 기초하여 추출될 수 있고, 예를 들어, 타겟 문서가 이력서라면, 비교 키워드는 이력서가 제출될 수 있는 분야인, 직업군과 관련된 키워드일 수 있고, 타겟 키워드는 이러한 비교 키워드와 일정 수준 관련된 키워드일 수 있다.
키워드추출부(21)는, 타겟 문서에서, 그리고 비교 문서에서 각각 타겟 키워드를 추출할 때, 인공지능 안에서 단어를 수치화해 사용하는 방법 중 하나인 단어 임베딩 기술을 이용할 수 있는데, 특히 각 단어를 벡터 공간 내 하나의 벡터로 수치화하고, 이에 기초하여 간단한 수학적 함수(벡터 간 코사인 각도)를 이용해 산출되는 단어 간의 거리로 단어 간의 유사성 수준을 표현하는, word2vec 알고리즘을 이용할 수 있다.
유사도계산부(22)는, 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 모두와 비교 문서에서 추출된 적어도 하나의 타겟 키워드 모두에 대하여, 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나와 비교 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나 간의 유사도를 계산하여, 이를 평균할 수 있다. 이때 평균은 타겟 키워드별 가중치가 적용된 가중평균일 수 있다. 예를 들어, 타겟 문서가 이력서라면, 가중치는 직업 유사도를 반영할 수 있다. 또한, 이때 유사도를 계산하기 위해 상기에서 같이, 코사인 유사도를 이용할 수 있다.
문서추천부(23)는, 유사도계산부(22)에서 계산된, 타겟 문서와 각 비교 문서에 대한 유사도 중 가장 높은 유사도를 갖는 비교 문서를 사용자에게 추천한다. 이때 가장 높은 유사도를 갖는 비교 문서는 하나 또는 그 이상일 수 있음은 물론이다.
본 발명의 일 실시예에 따른 관련 문서 추천 방법은, 본 발명의 일 실시예에 따른 관련 문서 추천 방법을 보여주는 흐름도인 도 3을 참조하여 설명하기로 한다. 상기에서 본 발명의 일 실시예에 따른 관련 문서 추천 시스템에서 이미 언급된 내용은 중복을 회피하기 위해 이하에서 그 설명을 생략하기로 한다.
일반적으로, 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템에서 실행될 수 있는, 관련 문서 추천 방법은, (a) 제1 형식으로 작성된 타겟 문서에 대하여, 타겟 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계; (b) 미리 저장되어 있는, 적어도 하나의 제1 형식의 문서 및 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여, 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계; (c) 타겟 문서에서 추출된 적어도 하나의 타겟 키워드와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 간의 유사도를 계산하는 단계; (d) (b) 및 (c) 단계를 반복 수행하여, 가장 높은 유사도를 갖는 비교 문서를 추천하는 단계를 포함한다.
이를 본 발명의 일 실시예를 보여주는 도 3을 참조하여 살펴보면, 본 발명의일 실시예에 따른 관련 문서 추천 방법은, 이력서에서 키워드를 추출(S100)하고, 채용공고에서 키워드를 추출(S200)하고, 추출된 키워드들 간의 유사도를 계산(S300)하여, 이력서에 맞는 채용공고를 추천(S400)하게 된다. 이로써, 보다 더 정확하고 효율적으로 본인의 이력서에 매칭되는 채용공고를 찾을 수 있게 된다.
상기에서는 "서버"라는 표현을 사용하였으나, 분산 컴퓨팅 환경에서는 기능이나 부하를 다수의 서버로 분할하여 처리하는 것이 일반적이므로 "서버"는 반드시 단일한 하드웨어 구성요소를 지칭하지 아니하며, 기능적으로 구분되는 서버군을 포함할 수 있다.
상기에서는 네트워크라는 표현을 사용하였으나 이때 네트워크는 거리와 규모에 따라서는 LAN(Local Area Network), WAN(Wide Area Network), 접속경로의 특징에 따라서는 인트라넷, VPN(Virtual Private Network), 접속방식에 따라서는 WiFi, 블루투스 등과 같이 지칭되는 공지의 유무선 통신방식을 포괄하는 광의의 개념으로 해석되어야 한다.
한편, 본 발명의 실시예에 따른 방법들은 적어도 부분적으로 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 동작, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다.
상기 컴퓨터는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북, 스마트 폰, 또는 이와 유사한 것과 같은 컴퓨팅 장치일 수도 있고 통합될 수도 있는 임의의 장치일 수 있다. 컴퓨터는 하나 이상의 대체적이고 특별한 목적의 프로세서, 메모리, 저장공간, 및 네트워킹 구성요소(무선 또는 유선 중 어느 하나)를 가지는 장치다. 상기 컴퓨터는 예를 들어, 마이크로소프트의 윈도우와 호환되는 운영 체제, 애플 OS X 또는 iOS, 리눅스 배포판(Linux distribution), 또는 구글의 안드로이드 OS와 같은 운영체제(operating system)를 실행할 수 있다.
상기 프로그램 명령 형태는, 소프트웨어로 통칭될 수 있고, 이는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅 장치상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
일반적으로 본 명세서에서 사용된 용어는, 특히 청구항에서(예를 들어, 청구항의 본문) 일반적으로 "개방적인" 용어로 의도된다(예를 들어, "포함하는"은 "포함하나 이에 제한되지 않는"으로, "가지다"는 "적어도 그 이상으로 가지다"로, "포함하다"는 "포함하나 이에 제한되지 않는다"로 해석되어야 함) 도입된 청구항 기재에 대하여 특정한 개수가 의도되는 경우, 이러한 의도는 해당 청구항에서 명시적으로 기재되며, 이러한 기재가 부재하는 경우 이러한 의도는 존재하지 않는 것으로 이해된다.
본 발명의 특정 특징만이 본 명세서에서 도시되고 설명되었으며, 다양한 수정 및 변경이 당업자에 대하여 발생할 수 있다. 그러므로 청구항은 본 발명의 사상 내에 속하는 변경 및 수정을 포함하는 것으로 의도된다는 점이 이해된다.
10: 단말 20: 관련 문서 추천 시스템
30: 데이터베이스

Claims (14)

  1. 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템에 있어서,
    제1 형식으로 작성된 타겟 문서에 대하여, 상기 타겟 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하고, 또한 미리 저장되어 있는, 적어도 하나의 제1 형식의 문서 및 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 키워드추출부;
    각 비교 문서에 대하여, 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드와 해당 비교 문서에서 추출된 적어도 하나의 타겟 키워드 간의 유사도를 계산하는 유사도계산부; 및
    상기 유사도계산부에서 계산된 각 비교 문서에 대한 유사도 중 가장 높은 유사도를 갖는 비교 문서를 추천하는 문서추천부를 포함하는,
    관련 문서 추천 시스템.
  2. 제 1 항에 있어서, 상기 유사도계산부는,
    상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 모두와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 모두에 대하여, 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나 간의 유사도를 계산하여, 이를 평균하는,
    관련 문서 추천 시스템.
  3. 제 2 항에 있어서,
    상기 평균은 타겟 키워드별 가중치가 적용된 가중평균인,
    관련 문서 추천 시스템.
  4. 제 3 항에 있어서,
    상기 키워드추출부는,
    word2vec 알고리즘을 이용하는 것을 특징으로 하는,
    관련 문서 추천 시스템.
  5. 제 4 항에 있어서,
    상기 키워드추출부는, 오직 상기 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여만, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 것을 특징으로 하는,
    관련 문서 추천 시스템.
  6. 제 5 항에 있어서,
    상기 제1 형식은 이력서이고, 상기 제2 형식은 채용공고인 것을 특징으로 하는,
    관련 문서 추천 시스템.
  7. 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템에서 실행될 수 있는, 관련 문서 추천 방법에 있어서,
    (a) 제1 형식으로 작성된 타겟 문서에 대하여, 상기 타겟 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계;
    (b) 미리 저장되어 있는, 적어도 하나의 제1 형식의 문서 및 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계;
    (c) 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 간의 유사도를 계산하는 단계;
    (d) 상기 (b) 및 (c) 단계를 반복 수행하여, 가장 높은 유사도를 갖는 비교 문서를 추천하는 단계를 포함하는,
    관련 문서 추천 방법.
  8. 제 7 항에 있어서, 상기 (c) 단계는,
    상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 모두와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 모두에 대하여, 상기 타겟 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나와 상기 비교 문서에서 추출된 적어도 하나의 타겟 키워드 중 하나 간의 유사도를 계산하여, 이를 평균하는 단계를 포함하는,
    관련 문서 추천 방법.
  9. 제 8 항에 있어서,
    상기 평균은 타겟 키워드별 가중치가 적용된 가중평균인,
    관련 문서 추천 방법.
  10. 제 9 항에 있어서,
    상기 (a) 및 (b) 단계는,
    word2vec 알고리즘을 이용하여 수행되는 것을 특징으로 하는,
    관련 문서 추천 방법.
  11. 제 10 항에 있어서,
    상기 (b) 단계는, 오직 상기 적어도 하나의 제2 형식의 문서 중 선택된 비교 문서에 대하여만, 상기 비교 문서 내의 텍스트에서 적어도 하나의 타겟 키워드를 추출하는 단계인 것을 특징으로 하는,
    관련 문서 추천 방법.
  12. 제 11 항에 있어서,
    상기 제1 형식은 이력서이고, 상기 제2 형식은 채용공고인 것을 특징으로 하는,
    관련 문서 추천 방법.
  13. 제 7 항 내지 제 12 항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독가능 기록 매체.
  14. 제 7 항 내지 제 12 항 중 어느 한 항의 방법을 하드웨어와의 결합을 통해 실행시키기 위한 매체에 저장된 컴퓨터 프로그램.
KR1020200187636A 2020-12-30 2020-12-30 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 KR20220097631A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200187636A KR20220097631A (ko) 2020-12-30 2020-12-30 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200187636A KR20220097631A (ko) 2020-12-30 2020-12-30 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Publications (1)

Publication Number Publication Date
KR20220097631A true KR20220097631A (ko) 2022-07-08

Family

ID=82407594

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200187636A KR20220097631A (ko) 2020-12-30 2020-12-30 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Country Status (1)

Country Link
KR (1) KR20220097631A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190020800A (ko) 2016-09-30 2019-03-04 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 태스크 프로세싱 방법 및 분산 컴퓨팅 프레임워크
KR102161666B1 (ko) 2020-04-22 2020-10-05 한밭대학교 산학협력단 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190020800A (ko) 2016-09-30 2019-03-04 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 태스크 프로세싱 방법 및 분산 컴퓨팅 프레임워크
KR102161666B1 (ko) 2020-04-22 2020-10-05 한밭대학교 산학협력단 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Similar Documents

Publication Publication Date Title
US11455473B2 (en) Vector representation based on context
US9430776B2 (en) Customized E-books
US10025980B2 (en) Assisting people with understanding charts
US11263223B2 (en) Using machine learning to determine electronic document similarity
US10216834B2 (en) Accurate relationship extraction with word embeddings using minimal training data
CN107357917B (zh) 一种简历搜索方法及计算设备
CN106452809B (zh) 一种数据处理方法和装置
CN111274341A (zh) 一种网点选址方法和装置
US20170300596A1 (en) Presenting a trusted tag cloud
CN112703495A (zh) 利用实体链接和本体数据推断主题
US11061943B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
CN112470172A (zh) 使用随机序列嵌入的符号序列分析的计算效率
US20170155571A1 (en) System and method for discovering ad-hoc communities over large-scale implicit networks by wave relaxation
Daskalopoulos et al. Weak and smooth solutions for a fractional Yamabe flow: the case of general compact and locally conformally flat manifolds
Alberts et al. Data-parallel techniques for simulating a mega-scale agent-based model of systemic inflammatory response syndrome on graphics processing units
KR20220097631A (ko) 텍스트 기반의 문서에 대하여 관련 문서를 추천하는 관련 문서 추천 시스템 및 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
CN113361248B (zh) 一种文本的相似度计算的方法、装置、设备及存储介质
CN109857838B (zh) 用于生成信息的方法和装置
KR102046877B1 (ko) 텍스트 첨삭 제공 장치 및 방법
US10664517B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
CN107657035B (zh) 用于生成有向无环图的方法和装置
CN113742564A (zh) 目标资源的推送方法和装置
US20190205431A1 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
US11663251B2 (en) Question answering approach to semantic parsing of mathematical formulas
CN113342646B (zh) 用例生成方法、装置、电子设备和介质