KR102128659B1 - 키워드 추출 및 요약문 생성 시스템 및 방법 - Google Patents

키워드 추출 및 요약문 생성 시스템 및 방법 Download PDF

Info

Publication number
KR102128659B1
KR102128659B1 KR1020180123352A KR20180123352A KR102128659B1 KR 102128659 B1 KR102128659 B1 KR 102128659B1 KR 1020180123352 A KR1020180123352 A KR 1020180123352A KR 20180123352 A KR20180123352 A KR 20180123352A KR 102128659 B1 KR102128659 B1 KR 102128659B1
Authority
KR
South Korea
Prior art keywords
words
word
scores
pair
unit
Prior art date
Application number
KR1020180123352A
Other languages
English (en)
Other versions
KR20200042767A (ko
Inventor
송진우
박성철
박재환
서승현
Original Assignee
주식회사 포스코아이씨티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포스코아이씨티 filed Critical 주식회사 포스코아이씨티
Priority to KR1020180123352A priority Critical patent/KR102128659B1/ko
Publication of KR20200042767A publication Critical patent/KR20200042767A/ko
Application granted granted Critical
Publication of KR102128659B1 publication Critical patent/KR102128659B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

키워드 추출의 정확도를 향상시킬 수 있는 본 발명의 일 측면에 따른 요약문 생성 시스템은 형태소 분석을 통해 원본문서로부터 단어를 추출하는 단어 추출부; 상기 원본문서 내에서 상기 단어들의 출현 빈도수 및 상기 단어들의 분포도와 상기 단어들의 트렌드를 나타내는 시간 가중치를 이용하여 상기 단어들의 점수를 산출하는 제1 연산부; 및 상기 단어들의 점수를 기초로 상기 원본문서의 키워드를 선정하는 선정부를 포함하는 것을 특징으로 한다.

Description

키워드 추출 및 요약문 생성 시스템 및 방법{System and Method for Extracting Keyword and Generating Abstract}
본 발명은 문서 생성에 관련된 것으로서, 보다 구체적으로 키워드 추출 및 요약문 생성 시스템 및 방법에 관한 것이다.
최근 인터넷을 중심으로 방대한 양의 정보가 유입되고 있고, 스마트 폰 등 휴대용 기기의 소지자가 증가함에 따라 많은 양의 정보 중 필요한 정보만을 신속 정확하게 획득하는 기술이 주목되고 있다.
이를 위해, 다양한 문서들의 내용을 요약하는 문서 요약(Document summarization) 기술이 소개된 바 있다. 문서 요약 기술의 일 예가 대한민국 등록특허 제0435442호 및 등록특허 제0849272호에 개시되어 있다.
상술한 바와 같은 문서요약을 위해서 일반적으로 요약 대상이 되는 원문에 포함된 단어들의 빈도수와 단어 분포도를 기초로 키워드를 추출하고, 추출된 키워드를 이용하여 문서요약 작업이 수행된다.
하지만, 인간 언어의 복잡성으로 인해 단어의 빈도수와 분포도 만으로 키워드를 추출하는 경우 그 정확도가 낮아질 수 있다는 문제점이 있다.
특허문헌 1: 대한민국 등록특허 제10-0435442호(발명의 명칭: 문서요약방법 및 시스템, 공고일: 2004년 06월 10일) 특허문헌 2: 대한민국 등록특허 제10-0849272호(발명의 명칭: 마크업 문서 자동 요약 방법, 공고일: 2008년 07월 29일)
본 발명은 상술한 문제점을 해결하기 위해, 키워드 추출의 정확도를 향상시킬 수 있는 키워드 추출 및 요약문 생성 시스템 및 방법을 제공하는 것을 그 기술적 과제로 한다.
또한, 본 발명은 추출된 키워드와 쌍으로 출현되는 단어를 추가 키워드로 선정할 수 있는 키워드 추출 및 요약문 생성 시스템 및 방법을 제공하는 것을 다른 기술적 과제로 한다.
또한, 본 발명은 형태소 데이터베이스를 주기적으로 업데이트할 수 있는 키워드 추출 및 요약문 생성 시스템 및 방법을 제공하는 것을 또 다른 기술적 과제로 한다.
또한, 본 발명은 추출된 문장 내에서 하나 이상의 키워드를 블랭크 처리한 형태의 질문을 생성하여 사용자에게 제공할 수 있는 키워드 추출 및 요약문 생성 시스템 및 방법을 제공하는 것을 또 다른 기술적 과제로 한다.
또한, 본 발명은 키워드 선정시 해당 키워드의 질문선정 이력을 추가로 반영하여 키워드를 선정할 수 있는 키워드 추출 및 요약문 생성 시스템 및 방법을 제공하는 것을 또 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 키워드 추출 및 요약문 생성 시스템은 키워드 추출의 정확도를 향상시킬 수 있는 본 발명의 일 측면에 따른 요약문 생성 시스템은 형태소 분석을 통해 원본문서로부터 단어를 추출하는 단어 추출부; 상기 원본문서 내에서 상기 단어들의 출현 빈도수 및 상기 단어들의 분포도와 상기 단어들의 트렌드를 나타내는 시간 가중치를 이용하여 상기 단어들의 점수를 산출하는 제1 연산부; 및 상기 단어들의 점수를 기초로 상기 원본문서의 키워드를 선정하는 선정부를 포함하는 것을 특징으로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 키워드 추출 및 요약문 생성 방법은, 형태소 분석을 통해 원본문서로부터 단어를 추출하는 단계; 상기 원본문서 내에서 상기 단어들의 출현 빈도수, 상기 단어들의 분포도, 및 상기 단어들의 트렌드를 나타내는 시간 가중치를 이용하여 상기 단어들의 점수를 산출하는 단계; 상기 단어들의 점수를 텍스트랭크(TextRank) 알고리즘에 입력하여 상기 원본문서에 포함된 문장들의 점수를 산출하는 단계; 상기 문장들의 점수를 기초로 상위 m개의 주요 문장을 선정하는 단계; 및 상기 선정된 주요문장들을 이용하여 요약문을 생성하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 키워드 추출시 단어의 빈도수 및 단어의 분포도뿐만 아니라 단어의 시간가중치를 추가로 반영하여 키워드를 추출하기 때문에 키워드 추출작업의 정확도를 향상시킬 수 있다는 효과가 있다.
또한, 본 발명에 따르면 추출된 키워드와 쌍으로 출현되는 단어를 추가 키워드로 추출할 수 있기 때문에, 중요한 단어임에도 키워드 추출시 누락될 수 있는 단어를 추가 키워드로 추출함으로써 키워드 추출작업의 정확도를 극대화시킬 수 있다는 효과가 있다.
또한, 본 발명에 따르면 단어수집장치를 통해 형태소 데이터베이스를 주기적으로 업데이트함으로써 특정 도메인에 맞는 신조어와 복합단어도 키워드로 선정할 수 있다는 효과가 있다.
또한, 본 발명은 추출된 문장 내에서 하나 이상의 키워드를 블랭크 처리한 형태의 질문을 생성하여 사용자에게 제공함으로써 해당 요약문에 대한 사용자의 이해도를 검증할 수 있다는 효과가 있다.
또한, 본 발명은 키워드 선정시 해당 키워드의 질문선정 이력을 추가로 반영하여 키워드를 선정할 수 있도록 함으로써 키워드 및 문장 추출의 정확도를 극대화시킬 수 있다는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 키워드 추출 및 요약문 생성 시스템의 구성을 보여주는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 제1 연산부의 구성을 보여주는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 제2 연산부의 구성을 보여주는 블록도이다.
도 4는 일반적인 단어추출장치와 본 발명에 따른 키워드 추출 및 요약문 생성 시스템에 의해 추출된 키워드를 비교하여 보여주는 도면이다.
도 5는 본 발명의 일 실시예에 따른 키워드 추출 및 요약문 생성 방법을 보여주는 플로우차트이다.
본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
"적어도 하나"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제1 항목, 제2 항목 및 제 3항목 중에서 적어도 하나"의 의미는 제1 항목, 제2 항목 또는 제3 항목 각각 뿐만 아니라 제1 항목, 제2 항목 및 제3 항목 중에서 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미한다.
이하, 첨부되는 도면을 참고하여 본 발명의 실시예들에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 키워드 추출 및 요약문 생성 시스템의 구성을 보여주는 블록도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 키워드 추출 및 요약문 생성 시스템(100, 이하 '요약문 생성 시스템'이라 함)은 문서 입력부(110), 단어 추출부(120), 제1 연산부(130), 제1 데이터베이스(140), 선정부(150), 및 요약문 생성부(160)를 포함한다. 또한, 본 발명에 따른 요약문 생성 시스템(100)은 질문생성부(165), 제2 연산부(170), 제2 데이터베이스(190), 및 단어 수집장치(195)를 추가로 포함할 수 있다.
문서 입력부(110)는 외부로부터 문서들을 입력 받고, 입력된 문서들 중 사용자의 선택에 따라 적어도 하나를 요약문 생성 대상이 되는 원본문서로 선택한다. 일 실시예에 있어서, 문서 입력부(110)는 텍스트 형태의 문서를 직접 입력 받을 수도 있지만 링크정보를 입력 받을 수도 있다. 문서 입력부(110)는 링크정보가 입력되는 경우, 해당 링크정보에 접속함으로써 링크정보에 대응되는 문서를 획득할 수도 있다.
상술한 실시예에 있어서, 문서 입력부(110)는 복수개의 문서들 중 사용자의 선택에 따라 요약문 생성 대상이 되는 원본문서를 선택하는 것으로 설명하였지만, 이는 하나의 예일 뿐, 변형된 실시예에 있어서는 문서 입력부(110)가 미리 정해진 조건에 따라 자동으로 원본문서를 선택하거나 문서 입력부(110)가 원본문서만을 입력 받을 수도 있을 것이다. 이러한 경우 원본문서의 선택기능은 생략될 수도 있다.
단어 추출부(120)는 문서 입력부(110)에 의해 선택된 원본문서로부터 형태소 분석을 통해 단어를 추출한다. 구체적으로, 단어 추출부(120)는 원본문서를 문장단위로 분리하고, 형태소들이 그 품사정보와 함께 저장되어 있는 제2 데이터베이스(190)를 참조하여 형태소 분석을 통해 각 문장을 분석함으로써 각 문장으로부터 텍스트 마이닝(Textmining)을 위한 최소단위인 단어를 획득한다.
단어 추출부(120)는 획득된 단어 별로 해당 단어들의 품사정보를 태깅(Tagging)하여 태깅정보를 생성한다. 일 실시예에 있어서, 단어 추출부(120)는 태깅정보들 중 품사정보가 동사인 단어들의 품사정보를 명사로 변경함으로써 동사를 명사화한다.
본 발명에서 단어 추출부(120)가 동사를 명사화하는 이유는 일반적인 단어추출의 경우 단어들 중 품사정보가 명사인 단어만을 추출하는데, 문서 내에는 명사 이외에 동사도 중요한 의미를 가지는 경우가 많기 때문에 명사 이외에 동사도 추출하기 위한 것이다. 이와 같이, 단어 추출부(120)가 명사 이외에 동사도 함께 추출하는 이유는 키워드 선정시 명사뿐만 아니라 동사도 선정될 수 있도록 함으로써 다양한 의미를 가지고 있는 단어들의 선정을 통해 보다 정확한 요약문이 생성될 수 있도록 하기 위한 것이다.
특히, 본 발명의 경우 동사의 품사정보만을 명사로 변경하여 원본문서로부터 동사를 추출할 수 있기 때문에 일반적으로 사용되는 범용 단어추출부(120)를 이용해서도 명사 및 동사를 추출할 수 있으므로 적용범위를 확장시킬 수 있게 된다.
한편, 본 발명에 따른 요약문 생성 시스템(100)은 단어 추출부(120)가 신조어나 복합단어도 추출할 수 있도록 하기 위해, 미리 정해진 주기 마다 신조어나 복합단어를 수집하여 제2 데이터베이스(190)를 업데이트하는 단어 수집장치(195)를 더 포함할 수 있다.
구체적으로, 단어 수집장치(195)는 미리 정해진 주기 마다 복수개의 소스 문서들로부터 신조어 및 복합단어를 수집하고, 수집된 신조어 및 복합단어를 제2 데이터베이스(190)에 저장함으로써 제2 데이터베이스(190)를 업데이트한다. 이때, 단어 수집장치(195)는 기본적으로 사용되는 일반 사전뿐만 아니라 각 도메인 별로 사용되는 사전이나 다양한 종류의 문서를 분석하여 각 도메인별로 신조어 및 복합단어를 수집할 수 있다. 특히, 본 발명에 따른 단어 수집장치(195)는 백그라운드에서 지속적으로 단어수집동작을 수행함으로써 누락되는 단어를 최소화 시킬 수 있다.
예를 들면 본 발명에 따른 단어 수집장치(195)가 각 도메인 별로 신조어나 복합단어를 업데이트 하기 이전에는 단어 추출부(120)에 의해 [경영, 데이터, 기업, 활용, 분석, 현장, 생산, 스마트, 최적, 팩토리??] 과 같은 단어만이 추출될 수 밖에 없었지만, 단어 수집장치(195)가 특정 도메인에서 사용되는 신조어나 복합단어를 제2 데이터베이스(190)에 추가하게 되면, 단어 추출부(120)는 [스마트경영, 빅데이터, 4차산업혁명, 스마트팩토리, AI, IT??]과 같은 단어들을 추가로 추출할 수 있게 된다.
한편, 단어 수집장치(195)는 신조어나 복합단어가 아니더라도 사전에는 없지만 각 도메인 별 뉴스, 문서, 회의록, 또는 전문 서적 등과 같은 문서에 존재하는 것으로서 해당 도메인에서 중요하다고 판단되는 단어를 제2 데이터베이스(190)에 추가할 수도 있다. 일 실시예에 있어서, 단어 수집장치(195)는 각 문서에서 출현되는 단어들의 빈도수나 단어의 분포도를 기준으로 제2 데이터베이스(190)에 추가될 단어를 수집할 수 있다.
이와 같이, 본 발명에 따르면 단어 수집장치(195)를 통해 각 도메인에서 최근에 사용되는 신조어, 복합단어, 및 중요 단어를 제2 데이터베이스(190)에 추가할 수 있기 때문에, 단어 추출부(120)에 의해 수행되는 단어 추출의 정확도를 향상시킬 수 있게 된다.
제1 연산부(130)는 단어 추출부(120)에 의해 원본문서로부터 추출된 단어들의 출현 빈도수, 단어들의 분포도, 및 시간 가중치를 이용하여 각 단어의 점수 및 원본문서에 포함된 문장들의 점수를 산출한다.
본 발명에 따른 제1 연산부(130)의 구성을 도 2를 참조하여 보다 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른 제1 연산부의 구성을 보여주는 블록도이다. 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 제1 연산부(130)는 단어 빈도수 산출부(210), 단어 분포도 산출부(220), 시간 가중치 산출부(230), 제1 단어점수 산출부(240), 및 제1 문장점수 산출부(250)를 포함한다.
단어 빈도수 산출부(210)는 단어 추출부(120)에 의해 추출된 단어들의 출현 빈도수를 계산한다. 단어 빈도수 산출부(210)는 원본 문서 내에서 각 단어들이 출현된 빈도수를 카운팅함으로써 각 단어 별로 출현 빈도수를 산출한다.
단어 분포도 산출부(220)는 단어 추출부(120)에 의해 추출된 단어들의 분포도를 산출한다. 여기서, 분포도란 원본문서의 전체 양에 비해 해당 단어가 얼마나 자주 포함되는가를 나타낸다. 즉, 단어의 출현 빈도수가 절대적인 수치를 나타내는 것이라면 단어의 분포도는 상대적인 수치를 나타낸다. 일 예로, 단어 분포도 산출부(220)는 각 단어의 빈도수를 원본문서에 포함된 전체 문장의 개수 또는 원본문서를 구성하는 줄(Line)의 개로 제산하여 해당 단어의 분포도를 산출할 수 있다.
상술한 예에서는, 단어 분포도 산출부(220)가 단어의 분포도를 계산할 때, 원본문서의 양을 원본문서를 구성하는 문장의 개수 또는 줄의 개수로 정의하였지만 이는 하나의 예일 뿐 문장의 개수나 줄의 개수 이외에 다양한 방법으로 원본문서의 양을 정의할 수도 있을 것이다.
시간 가중치 산출부(230)는 각 단어의 시간 가중치를 산출한다. 여기서, 각 단어의 시간 가중치란 각 단어의 최근 쓰임새에 대한 트렌드를 나타내는 것으로서, 해당 단어가 얼마나 최근에 사용되었는지 여부를 나타낸다. 일 예로, 시간 가중치 산출부(230)는 최근에 자주 사용된 단어일수록 높은 가중치가 부여되도록 하고, 최근에 자주 사용되지 않은 단어일수록 낮은 가중치가 부여되도록 함으로써 최근에 사용된 단어가 키워드로 선정될 수 있도록 한다. 이때, 시간 가중치 산출부(230)는 키워드가 저장되어 있는 제1 데이터베이스(140)를 확인함으로써 각 단어의 최근 사용 여부를 결정할 수 있다.
예컨대, 제1 데이터베이스(140)에 이전 키워드 선정 결과로써 [임명, 불분명, 주장, 회의, 경영, 데이터, 기업, 활용, 분석??]과 같은 키워드가 기록되어 있을 경우, 시간 가중치 산출부(230)는 [임명, 불분명, 주장, 회의, 경영, 데이터, 기업, 활용, 분석??]이라는 단어의 점수가 높아질 수 있도록 해당 단어들의 시간 가중치를 높은 값으로 설정하는 것이다. 이를 통해, 다음 키워드 선정시에는 [경영, 데이터, 기업, 활용, 분석, 현장, 생산, 스마트, 최적, 팩토리??]과 같이 [경영, 데이터, 기업, 활용, 분석]등의 단어가 상위 키워드로 선정될 수 있게 된다.
일 실시예에 있어서, 시간 가중치 산출부(230)는 아래의 수학식 1을 이용하여 각 단어의 시간 가중치를 산출할 수 있다.
Figure 112018101935811-pat00001
상기 수학식에서 TWi는 i번째 단어의 시간가중치를 나타내는 것으로서, 0이상 1 이하의 값을 가질 수 있고, x는 현재시간정보와 i번째 단어가 직전에 출현되었던 시간정보간의 차이값을 나타내는 것으로서, x의 값이 증가할 때마다 y의 값은 감소하게 된다. 일 실시예에 있어서, 시간정보는 주 단위로 설정될 수 있고 x의 값은 12주가 지난 단어일 경우 키워드 선정시 완전히 배제될 수 있도록 설정될 수 있다. 이는 12주 동안 쓰이지 않은 단어는 트렌드에서 배제 되었다고 생각할 수 있기 때문이다.
제1 단어점수 산출부(240)는 단어들의 출현 빈도수, 단어들의 분포도, 및 단어들의 시간 가중치를 이용하여 각 단어의 점수를 산출한다. 일 실시예에 있어서, 제1 단어점수 산출부(240)는 아래의 수학식 2를 이용하여 각 단어들의 점수를 산출할 수 있다.
Figure 112018101935811-pat00002
수학식 2에서, Ws는 각 단어의 점수를 나타내고, tFi는 i번째 단어의 출현 빈도수를 나타내며, Di는 i번째 단어의 분포도를 나타내고, WTi는 i번째 단어의 시간 가중치를 나타낸다.
제1 단어점수 산출부(240)는 산출된 각 단어들의 점수를 각 단어와 매핑시켜 제1 데이터베이스(140)에 저장한다.
제1 문장점수 산출부(250)는 제1 단어점수 산출부(240)에 의해 산출된 각 단어들의 점수를 기초로 원본문서 내에 포함된 각 문장들의 점수를 산출한다. 일 실시예에 있어서, 제1 문장점수 산출부(250)는 각 단어들의 점수를 기초로 각 단어들 간의 관계를 그래프화하여 각 단어들 간의 관계점수를 산출하고, 산출된 각 단어들의 관계점수를 텍스트랭크(TextRank) 알고리즘에 입력함으로써 각 문장들의 점수를 산출할 수 있다. 텍스트랭크 알고리즘은 단어 또는 문장의 점수를 계산하기 위해 이용되는 그래프 기반 알고리즘으로써, 웹 페이지 간의 연결된 하이퍼랭크를 이용하여 각 웹 페이지 중요도를 파악하는데 활용되는 페이지랭크(PageRank) 알고리즘을 문장의 중요도를 계산하는데 맞게 변형한 것이다. 텍스트랭크 알고리즘의 내용은 이미 알려져 있는 것이므로 구체적인 설명은 생략하기로 한다.
제1 문장점수 산출부(250)는 산출된 각 문장의 점수를 해당 문장과 매핑시켜 제1 데이터베이스(140)에 저장한다.
다시 도 1을 참조하면, 제1 데이터베이스(140)에는 제1 단어점수 산출부(240)에 의해 산출된 각 단어들의 점수가 해당 단어와 매핑되어 저장된다. 또한, 제1 데이터베이스(140)에는 제1 문장점수 산출부(250)에 의해 산출된 각 문장들의 점수가 해당 문장과 매핑되어 저장된다. 또한, 제1 데이터베이스(140)에는 선정부(150)에 의해 선정된 키워드 및 주요문장과 요약문 생성부(160)에 의해 생성된 요약문이 저장된다.
선정부(150)는 제1 연산부(130)에 의해 산출된 각 단어들의 점수를 기초로 원본문서의 키워드를 선정한다. 또한, 선정부(150)는 제1 연산부(130)에 의해 산출된 각 문장들의 점수를 기초로 원본문서의 주요문장을 선정한다.
구체적으로, 선정부(150)는 제1 데이터베이스(140)를 참조하여 각 단어들의 점수를 확인하고, 단어들의 점수를 기초로 상위 n개의 단어를 원본문서의 키워드로 선정한다. 선정부(150)는 선정된 키워드를 제1 데이터베이스(140)에 저장한다.
또한, 선정부(150)는 제1 데이터베이스(140)를 참조하여 각 문장들의 점수를 확인하고, 문장들의 점수를 기초로 상위 m개의 문장을 원본문서의 주요문장으로 선정한다. 선정부(150)는 선정된 주요문장을 제1 데이터베이스(140)에 저장한다.
요약문 생성부(160)는 선정부(150)에 의해 선정된 m개의 문장을 이용하여 원본문서에 대한 요약문을 생성한다. 일 실시예에 있어서, 요약문 생성부(160)는 선정된 m개의 문장들을 해당 문장들이 원본문서 내에서 출현된 순서에 따라 순차적으로 배열함으로써 요약문을 생성할 수 있다. 이를 위해 제1 데이터베이스(140)에는 원본문서 내에서 각 문장들이 출현한 순서에 대한 정보가 각 문장들에 추가로 매핑되어 저장되어 있을 수 있다. 요약문 생성부(160)는 생성된 요약문을 사용자에게 제공함과 동시에 제1 데이터베이스(140)에 저장한다.
한편, 상술한 바와 같이, 본 발명에 따른 요약문 생성 시스템(100)은 질문생성부(165) 및 제2 연산부(170)를 더 포함할 수 있다.
질문생성부(165)는 선정부(150)에 의해 선정된 키워드들 중 질문으로 선정할 키워드를 선정하고, 원본문서 내에 포함된 문장들 중 적어도 하나의 문장 내에서 해당 키워드를 블랭크 처리함으로써 질문을 생성한다. 일 실시예에 있어서, 질문생성부(165)는 선정부(150)에 의해 선정된 주요문장들 내에서 질문으로 선정된 키워드를 블랭크 처리함으로써 질문을 생성할 수 있다. 질문생성부(165)는 생성된 질문을 사용자에게 배포하고, 사용자로부터 해당 질문에 대한 답변을 수집한다. 일 실시예에 있어서, 질문생성부(165)는 사용자로부터 수집된 답변을 분석하여 각 질문에 대한 사용자의 이해도 점수를 산출할 수 있다.
질문생성부(165)는 생성된 질문, 질문생성에 이용된 키워드, 해당 질문에 대한 사용자의 답변, 및 각 질문에 대한 사용자의 이해도 점수를 제1 데이터베이스(140)에 저장할 수 있다.
상술한 실시예에 있어서는 질문성생부(165)가 선정부(150)에 의해 선정된 키워드 만을 블랭크 처리할 대상 단어로 선택하는 것으로 설명하였지만, 변형된 실시예에 있어서 질문생성부(165)는 선정부(150)에 의해 선정된 키워드 외에 주요문장 내에 포함된 다른 단어들을 블랭크 처리할 대상 단어로 선택할 수도 있을 것이다.
제2 연산부(170)는 선정부(150)에 의해 선정된 키워드와 페어(Pair)로 출현되는 페어(Pair) 단어들을 기초로 페어 단어의 점수와 원본문서 내에 포함된 문장들의 점수를 산출한다.
본 발명에 따른 요약문 생성 시스템(100)이 제2 연산부(170)를 추가로 포함하는 경우, 선정부(150)는 제2 연산부(170)에 의해 산출된 페어 단어들의 점수를 기초로 추가 키워드를 선정하여 제1 데이터베이스(140)에 저장하고, 제2 연산부(170)에 의해 산출된 문장들의 점수를 제1 연산부(130)에 의해 산출된 문장들의 점수와 합산하고, 합산결과를 기초로 그 점수가 상위 m개인 문장들을 주요문장으로 선정할 수 있다.
본 발명에서 키워드 이외에 추가 키워드를 선정하는 이유는 키워드로 추출되지는 않았지만, 키워드와의 관계에서 키워드와 함께 자주 사용되는 단어들의 경우 의미가 있는 것으로 판단할 수 있기 때문에 해당 단어들을 추가 키워드로 선정함으로써 키워드 추출의 정확도를 향상시키기 위한 것이다.
이하, 본 발명에 따른 제2 연산부(170)의 구성을 도 3을 참조하여 구체적으로 설명한다.
도 3은 본 발명의 일 실시예에 따른 제2 연산부의 구성을 보여주는 블록도이다. 도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 제2 연산부(170)는 페어 단어 빈도수 산출부(310), 단어 이격거리 산출부(320), 질문선정 빈도 가중치 산출부(330), 제2 단어점수 산출부(340), 및 제2 문장점수 산출부(350)를 포함한다.
페어 단어 빈도수 산출부(310)는 단어 추출부(120)에 의해 추출된 단어들 중 원본문서 내에서 선정부(150)에 의해 선정된 키워드와 동시에 출현되는 페어 단어를 추출하고, 각 페어단어가 해당 키워드와 함께 출현되는 빈도수를 카운팅한다.
일 실시예에 있어서, 페어단어는 키워드로부터 미리 정해진 단어개수 이내에 출현되는 단어로 설정될 수 있다.
단어 이격거리 산출부(320)는 각 페어단어와 키워드 간의 단어 이격거리를 계산한다. 일 실시예에 있어서, 단어 이격거리는 페어 단어와 키워드 사이에 존재하는 단어의 개수로 정의될 수 있다.
질문선정 빈도 가중치 산출부(330)는 페어단어들 중 질문으로 선정된 이력을 기초로 해당 페어단어들의 질문선정 빈도 가중치를 산출한다. 본 발명에서 질문선정 빈도 가중치 산출부(330)를 통해 페어단어들의 질문선정 빈도 가중치를 산출하는 이유는 질문 생성을 위해 블랭크 처리할 단어 선정시 동일한 단어가 반복적으로 선정되는 것을 방지하기 위함이다. 이를 위해, 질문선정 빈도 가중치 산출부(330)는 질문선정 빈도가 높은 페어 단어일수록 낮은 가중치가 부여되고, 질문선정 빈도가 낮은 단어일수록 높은 가중치가 부여되도록 페어단어의 질문선정 빈도 가중치를 산출할 수 있다.
일 실시예에 있어서, 질문선정 빈도 가중치 산출부(330)는 아래의 수학식 3을 이용하여 페어단어들의 질문선정 빈도 가중치를 산출할 수 있다.
Figure 112018101935811-pat00003
수학식 3에서, QWi는 i번째 페어 단어의 질문선정 빈도 가중치를 나타내고, x는 i번째 페어 단어의 질문 선정 빈도수를 나타낸다.
상술한 실시예에 있어서는 질문선정 빈도 가중치 산출부(330)가 추가 키워드산출시 페어 단어에 대해 질문선정 빈도 가중치를 산출하는 것으로 설명하였지만, 변형된 실시예에 있어서 질문선정 빈도 가중치 산출부(330)는 제1 연산부(130)에도 포함됨으로써 키워드 선정시에도 질문선정 빈도가 반영되게 할 수도 있을 것이다.
상술한 질문선정 빈도 가중치 산출부(330)는 제1 데이터베이스(140)를 확인함으로써 각 페어 단어들의 질문선정 빈도에 대한 정보를 획득할 수 있다.
제2 단어점수 산출부(340)는 페어 단어들의 빈도수, 페어 단어들의 단어 이격거리, 및 페어 단어들의 질문선정 빈도 가중치를 이용하여 페어 단어들의 점수를 산출한다. 일 실시예에 있어서, 제2 단어점수 산출부(340)는 페어 단어들의 빈도수, 페어 단어들의 단어 이격거리, 및 페어 단어들의 질문선정 빈도 가중치를 승산함으로써 페어 단어들의 점수를 산출할 수 있다.
제2 단어점수 산출부(340)는 산출된 각 페어 단어들의 점수를 각 페어 단어와 매핑시켜 제1 데이터베이스(140)에 저장한다.
제2 문장점수 산출부(350)는 제2 단어점수 산출부(340)에 의해 산출된 각 페어 단어들의 점수를 기초로 원본문서 내에 포함된 각 문장들의 점수를 산출한다. 일 실시예에 있어서, 제2 문장점수 산출부(350)는 각 페어 단어들의 점수를 기초로 각 페어단어들 간의 관계를 그래프화하여 각 페어단어들 간의 관계점수를 산출하고, 산출된 각 페어단어들의 관계점수를 텍스트랭크(TextRank) 알고리즘에 입력함으로써 각 문장들의 점수를 산출할 수 있다. 제2 문장점수 산출부(350)는 산출된 각 문장의 점수를 해당 문장과 매핑시켜 제1 데이터베이스(140)에 저장한다.
이러한 실시예에 따르는 경우, 선정부(150)는 제2 단어점수 산출부(340)에 의해 산출된 페어 단어들 중 그 점수가 상위 k개인 페어 단어들을 추가 키워드로 선정하고, 제1 문장 점수 산출부(250)에 의해 산출된 문장점수와 제2 문장 점수 산출부(350)에 의해 산출된 문장점수의 합이 상위 m개인 문장들을 주요 문장으로 선정한다.
예컨대, 선정부(150)에 의해 [AI, IT, 스마트경영, 빅데이터, 4차산업혁명, 스마트팩토리??]등과 같은 단어들이 키워드로 선정되어 있다고 가정하면, 해당 키워드들과 동시에 출현되었던 페어 단어들 중 [기업, 활용, 경영자, 신기술, 관리, 최적, 경쟁력??]이라는 페어 단어들이 추가 키워드로 선정된다.
도 4에 본 발명에 따른 요약문 생성 시스템에 의해 선정된 키워드와 일반적인 단어추출장치를 이용하여 선정된 키워드가 도시되어 있다. 도 4에서 알 수 있듯이, 동일한 원본문서에 대해 일반적인 단어추출장치를 이용하여 키워드를 선정하였을 경우 [경영, 데이터, 기업, 활용, 분석, 스마트, 최적, 팩토리, 경쟁력, 제어] 등의 단어만이 키워드로 추출되었지만, 본 발명에 따른 요약문 생성 시스템으로 키워드를 선정하였을 경우 [AI, IT, 스마트경영, 빅데이터, 4차산업혁명, 스마트팩토리, 분석, 기업, 활용, 경영자, 데이터, 의사결정, 경쟁력, 가치, 제어, 한국전자통신] 등이 키워드로 선정되어 키워드 추출 정확도가 크게 개선되었다는 것을 알 수 있고, 일반적인 단어추출장치로는 선정이 불가능했던 단어, 복합단어, 및 신조어도 키워드로 선정할 수 있다는 것을 알 수 있다.
이하, 도 5를 참조하여 본 발명에 따른 키워드 추출 및 요약문 생성 방법에 대해 설명한다.
도 5는 본 발명의 일 실시예에 따른 키워드 추출 및 요약문 생성 방법을 보여주는 플로우차트이다. 도 5는 도 1에 도시된 키워드 추출 및 요약문 생성 시스템(이하, '요약문 생성 시스템'이라 함)에 의해 수행될 수 있다.
도 5에 도시된 바와 같이, 요약문 생성 시스템은 요약문 생성 대상이 되는 원본문서를 입력 받는다(S500). 일 실시예에 있어서, 입력되는 문서는 텍스트 형태의 문서 또는 링크정보일 수 있다. 요약문 생성 시스템은 링크정보가 입력되는 경우, 해당 링크정보에 접속함으로써 링크정보에 대응되는 문서를 획득한다.
이후, 요약문 생성 시스템은 원본문서로부터 형태소 분석을 통해 단어를 추출한다(S510). 구체적으로, 요약문 생성 시스템은 원본문서를 문장단위로 분리하고, 형태소 분석을 통해 각 문장을 분석함으로써 각 문장으로부터 텍스트 마이닝(Textmining)을 위한 최소단위인 단어를 획득하게 된다.
이때, 요약문 생성 시스템은 형태소들이 그 품사정보와 함께 저장되어 있는 데이터베이스(도 2의 제2 데이터베이스)를 참조함으로써 형태소 분석을 수행할 수 있다. 이때, 본 발명에 따른 요약문 생성 시스템은 신조어나 복합단어도 추출될 수 있도록 하기 위해, 백그라운드에서 신조어나 복합단어를 수집하여 제2 데이터베이스를 업데이트할 수 있다.
한편, 본 발명에 따른 요약문 생성 시스템은 단어 추출시 품사정보가 동사인 단어들의 품사정보를 명사로 변경함으로써 동사를 명사화한 후, 품사정보가 명사인 단어만을 추출한다. 본 발명에 따른 요약문 생성 시스템이 동사를 명사화하는 이유는 일반적인 단어추출의 경우 단어들 중 품사정보가 명사인 단어만을 추출하는데, 문서 내에는 명사 이외에 동사도 중요한 의미를 가지는 경우가 많기 때문에 명사 이외에 동사도 추출하기 위한 것이다.
이후, 요약문 생성 시스템은 S510에서 추출된 단어들의 출현 빈도수, 단어들의 분포도, 및 시간 가중치를 이용하여 각 단어의 점수를 산출한다(S520). 일 실시예에 있어서, 요약문 생성 시스템은 상술한 수학식 2를 이용하여 각 단어들의 점수를 산출할 수 있다. 각 단어들의 점수를 산출하기 위한 수학식 2에 대한 설명은 위에서 설명하였기 때문에 구체적인 설명은 생략하기로 한다.
여기서, 단어 빈도수는 원본 문서 내에서 각 단어들이 출현된 빈도수를 카운팅함으로써 산출될 수 있다. 단어 분포도는 원본문서의 전체 양에 비해 해당 단어가 얼마나 자주 포함되는가를 나타내는 것으로서, 각 단어의 빈도수를 원본문서에 포함된 전체 문장의 개수 또는 원본문서를 구성하는 줄(Line)의 개로 제산함으로써 산출될 수 있다. 시간 가중치는 각 단어의 최근 쓰임새에 대한 트렌드를 나타내는 것으로서 최근에 자주 사용된 단어일수록 높은 가중치가 부여되도록 하고, 최근에 자주 사용되지 않은 단어일수록 낮은 가중치가 부여되도록 설정된다. 일 예로, 시간 가중치는 상술한 수학식 1을 이용하여 산출될 수 있다.
이후, 요약문 생성 시스템은 S520에서 산출된 각 단어들의 점수를 기초로 원본문서에 포함된 문장들의 점수를 산출한다(S530). 일 실시예에 있어서, 요약문 생성 시스템은 각 단어들의 점수를 텍스트랭크(TextRank)알고리즘에 입력함으로써 각 문장들의 점수를 산출할 수 있다.
구체적으로, 요약문 생성 시스템은 각 단어들의 점수를 기초로 각 단어들 간의 관계를 그래프화하여 각 단어들 간의 관계점수를 산출하고, 산출된 각 단어들의 관계점수를 텍스트랭크 알고리즘에 입력함으로써 각 문장들의 점수를 산출한다. 각 단어들의 관계점수를 텍스트랭크 알고리즘에 입력함으로써 문장들의 점수를 산출하는 내용은 이미 알려져 있는 것이므로 구체적인 설명은 생략하기로 한다.
이후, 요약문 생성 시스템은 S530에서 산출된 문장들의 점수를 기초로 상위 m개의 주요 문장을 선정하고(S540), 선정된 m개의 주요 문장을 이용하여 원본문서에 대한 요약문을 생성한다(S550). 일 실시예에 있어서, 요약문 생성 시스템은 선정된 m개의 문장들을 해당 문장들이 원본문서 내에서 출현된 순서에 따라 순차적으로 배열함으로써 요약문을 생성할 수 있다.
한편, 본 발명에 따른 요약문 생성 방법은 도 5에 도시된 바와 같이 S520에서 산출된 단어들의 점수를 기초로 상위 n개의 단어들을 키워드로 선정하는 과정(S560)을 더 포함할 수 있다.
이러한 실시예에 따르는 경우 요약문 생성 시스템은 S540에서 생성된 주요문장 및 S560에서 선정된 키워드를 이용하여 질문을 생성하는 과정(S570)을 포함할 수 있다. 구체적으로, 요약문 생성 시스템은 S560에서 선정된 키워드들 중 질문으로 선정할 키워드를 선정하고, S540에서 선정된 주요문장들 내에서 질문으로 선정된 키워드를 블랭크 처리함으로써 질문을 생성한다. 이후, 요약문 생성 시스템은 생성된 질문을 사용자에게 배포하고, 사용자로부터 해당 질문에 대한 답변을 수집한 후 수집된 답변을 분석하여 각 질문에 대한 사용자의 이해도 점수를 산출할 수 있다.
한편, 본 발명에 따른 요약문 생성 방법은 도 5에 도시된 바와 같이, 키워드가 선정되면 특정 키워드와 페어(Pair)로 출현되는 페어(Pair) 단어들의 점수를 산출하여 추가 키워드를 선정하고(S580), 산출된 페어 단어들의 점수를 기초로 원본문서 내에 포함된 문장들의 점수를 추가로 산출하는 과정(S590)을 더 포함할 수 있다.
일 실시예에 있어서, 요약문 생성 시스템은 페어 단어들의 점수 산출시 S510에서 추출된 단어들 중 키워드와 동시에 출현되는 페어 단어를 추출하고, 각 페어단어가 해당 키워드와 함께 출현되는 빈도수, 각 페어단어와 키워드 간의 단어 이격거리, 및 페어단어들 중 질문으로 선정된 빈도수를 나타내는 질문선정 빈도 가중치를 이용하여 페어 단어들의 점수를 산출한다. 이때, 페어단어들의 질문선정 빈도 가중치는 상술한 수학식 3에 의해 계산될 수 있다.
한편, S590에서 문장 점수를 추가로 산출함에 있어서, 요약문 생성 S580에서 산출된 각 페어 단어들의 점수를 기초로 원본문서 내에 포함된 각 문장들의 점수를 기초로 각 페어단어들 간의 관계를 그래프화하여 각 페어단어들 간의 관계점수를 산출하고, 산출된 각 페어단어들의 관계점수를 텍스트랭크 알고리즘에 입력함으로써 각 문장들의 점수를 산출할 수 있다.
상술한 바와 같은 실시예에 따르는 경우 요약문 생성 시스템은 S540에서 주요 문장을 선정할 때, S530에서 산출된 문장점수와 S590에서 추가로 산출된 문장점수의 합이 상위 m개인 문장들을 주요 문장으로 선정하게 된다.
본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 요약문 생성 시스템 110: 문서 입력부
120: 단어 추출부 130: 제1 연산부
140: 제1 데이터베이스 150: 선정부
160: 요약문 생성부 165: 질문 생성부
170: 제2 연산부 190: 제2 데이터베이스
195: 단어 수집장치

Claims (22)

  1. 형태소 분석을 통해 원본문서로부터 단어를 추출하는 단어 추출부;
    상기 원본문서 내에서 상기 단어들의 출현 빈도수 및 상기 단어들의 분포도와 상기 단어들의 트렌드를 나타내는 시간 가중치를 이용하여 상기 단어들의 점수를 산출하는 제1 연산부;
    상기 단어들의 점수를 기초로 상기 원본문서의 키워드를 선정하는 선정부; 및
    상기 선정부에 의해 선정된 키워드와 페어(Pair)로 출현되는 페어(Pair) 단어들이 질문생성에 이용된 빈도를 나타내는 질문선정 빈도 가중치를 기초로 상기 페어 단어들의 점수를 산출하는 제2 연산부를 포함하고,
    상기 선정부는 상기 제2 연산부에 의해 산출된 페어 단어들의 점수를 기초로 추가 키워드를 선정하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 시스템.
  2. 제1항에 있어서,
    상기 단어 추출부는,
    상기 형태소 분석을 통해 상기 원본문서로부터 획득되는 단어들 중 품사정보가 동사인 단어들의 품사정보를 명사로 변환한 후 품사정보가 명사인 단어들을 추출하는 것을 특징으로 하는 키워드 추출 및 요약문 생성시스템.
  3. 제1항에 있어서,
    상기 제1 연산부는,
    수학식
    Figure 112018101935811-pat00004
    를 이용하여 상기 시간 가중치를 산출하는 시간 가중치 산출부를 포함하고,
    상기 수학식에서 TWi는 i번째 단어의 시간가중치를 나타내고, x는 현재시간정보와 i번째 단어가 직전에 출현되었던 시간정보간의 차이값을 나타내는 것을 특징으로 하는 키워드 추출 및 요약문 생성시스템.
  4. 제1항에 있어서,
    상기 제1 연산부는 수학식
    Figure 112018101935811-pat00005
    를 이용하여 상기 단어들의 점수를 산출하는 제1 단어점수 산출부를 포함하고,
    상기 수학식에서 Ws는 각 단어의 점수를 나타내고, tFi는 i번째 단어의 출현 빈도수를 나타내며, Di는 i번째 단어의 분포도를 나타내고, WTi는 i번째 단어의 시간 가중치를 나타내며,
    상기 선정부는 상기 단어들 중 점수가 높은 상위 n개의 단어를 상기 키워드로 추출하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 시스템.
  5. 삭제
  6. 제1항에 있어서,
    상기 제2 연산부는 상기 페어 단어들이 상기 키워드와 함께 출현되는 빈도수 및 상기 페어 단어들과 상기 키워드 사이의 단어 이격거리를 추가로 이용하여 상기 페어 단어들의 점수를 산출하는 제2 단어점수 산출부를 더 포함하고,
    상기 선정부는 상기 페어 단어들 중 점수가 높은 상위 k개의 단어를 상기 추가 키워드로 선정하는 것을 특징으로 하는 키워드 추출 및 요약문 생성시스템.
  7. 삭제
  8. 제6항에 있어서,
    상기 제2 연산부는,
    수학식
    Figure 112018101935811-pat00006
    를 이용하여 질문선정 빈도 가중치를 산출하는 질문선정 빈도 가중치 산출부를 더 포함하고,
    상기 수학식에서 QWi는 i번째 페어 단어의 질문선정 빈도 가중치를 나타내고, x는 i번째 페어 단어의 질문 선정 빈도수를 나타내고,
    상기 제2 단어점수 산출부는 상기 페어 단어들이 질문생성에 이용된 빈도를 나타내는 질문선정 빈도 가중치를 추가로 이용하여 상기 페어 단어들의 점수를 산출하는 것을 특징으로 하는 키워드 추출 및 요약문 생성시스템.
  9. 제1항에 있어서,
    상기 제1 연산부는 상기 단어들의 점수를 기초로 상기 원본문서에 포함된 문장들의 점수를 추가로 산출하고,
    상기 선정부는 상기 문장들의 점수를 기초로 상기 원본문서의 주요문장을 추가로 선정하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 시스템.
  10. 제9항에 있어서,
    상기 제1 연산부는 각 단어들의 점수를 텍스트랭크 알고리즘에 입력함으로써 상기 문장들의 점수를 산출하는 제1 문장점수 산출부를 포함하고,
    상기 선정부는 상기 문장들 중 점수가 높은 상위 m개의 문장을 주요 문장으로 선정하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 시스템.
  11. 제1항에 있어서,
    상기 제1 연산부는 상기 단어들의 점수를 기초로 상기 원본문서에 포함된 문장들의 점수를 추가로 산출하고,
    상기 제2 연산부는 상기 페어 단어들의 점수를 기초로 상기 원본문서에 포함된 문장들의 점수를 추가로 산출하며,
    상기 선정부는 상기 제1 연산부에 의해 산출된 문장들의 점수 및 상기 제2 연산부에 의해 산출된 문장들의 점수를 기초로 주요문장을 선정하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 시스템.
  12. 제11항에 있어서,
    상기 제2 연산부는 상기 페어 단어들의 점수를 텍스트랭크 알고리즘에 대입하여 상기 문장들의 점수를 산출하는 제2 문장점수 산출부를 포함하고.
    상기 선정부는 상기 제1 연산부에 의해 산출된 문장들의 점수 및 상기 제2 연산부에 의해 산출된 문장들의 점수를 합산한 값들 중 상위 m개의 문장을 주요 문장으로 추출하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 시스템.
  13. 제9항 내지 제12항 중 어느 하나의 항에 있어서,
    상기 선정부에 의해 선정된 주요문장들을 이용하여 요약문을 생성하는 요약문 생성부를 포함하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 시스템.
  14. 제1항에 있어서,
    상기 원본문서에 포함된 문장들 중 적어도 하나의 문장 내에서 상기 키워드나 상기 추가 키워드 중 적어도 일부를 블랭크 처리하여 질문을 생성하는 질문 생성부를 더 포함하는 것을 특징으로 하는 키워드 추출 및 요약문 생성시스템.
  15. 제1항에 있어서,
    상기 형태소 분석을 위한 형태소들이 저장되어 있는 형태소 데이터베이스; 및
    미리 정해진 주기 마다 복수개의 소스 문서들로부터 신조어 및 복합단어를 수집하고, 수집된 신조어 및 복합단어를 이용하여 상기 형태소 데이터베이스를 업데이트하는 단어수집장치를 더 포함하는 것을 특징으로 하는 키워드 추출 및 요약문 생성시스템.
  16. 제1 연산부가, 원본문서 내에서 포함된 단어들의 출현 빈도수, 상기 단어들의 분포도, 및 상기 단어들의 트렌드를 나타내는 시간 가중치를 이용하여 상기 단어들의 점수를 산출하는 단계;
    제1 연산부가, 상기 단어들의 점수를 텍스트랭크(TextRank) 알고리즘에 입력하여 상기 원본문서에 포함된 문장들의 점수를 산출하는 단계;
    선정부가, 상기 단어들의 점수를 기초로 상위 n개의 키워드를 추출하는 단계;
    제2 연산부가, 상기 키워드와 페어(Pair)로 출현되는 페어(Pair) 단어들이 질문생성에 이용된 빈도를 나타내는 질문선정 빈도 가중치를 이용하여 상기 페어 단어들의 점수를 산출하는 단계;
    상기 제2 연산부가, 상기 페어 단어들의 점수를 기초로 상기 문장들의 점수를 추가로 산출하는 단계;
    상기 선정부가, 상기 단어들의 점수를 기초로 산출된 문장들의 점수와 상기 페어 단어들의 점수를 기초로 추가로 산출된 문장들의 점수를 합산한 결과를 기초로 상위 m개의 문장을 주요 문장으로 선정하는 단계; 및
    요약문 생성부가, 상기 선정된 주요문장들을 이용하여 요약문을 생성하는 단계를 포함하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 방법.
  17. 제16항에 있어서,
    상기 단어들의 점수를 산출하는 단계 이전에, 단어 추출부가, 형태소 분석을 통해 상기 원본문서에 포함된 단어들 중 품사정보가 동사인 단어들의 품사정보를 명사로 변환한 후 품사정보가 명사인 단어들을 추출하는 단계를 더 포함하고,
    상기 단어들의 점수를 산출하는 단계에서, 상기 제1 연산부가, 상기 추출된 단어들의 점수를 산출하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 방법.
  18. 제16항에 있어서,
    상기 단어들의 점수를 산출하는 단계에서,
    상기 제1 연산부가 수학식
    Figure 112020001510283-pat00007
    를 이용하여 상기 시간 가중치를 산출하고. 상기 수학식에서 TWi는 i번째 단어의 시간가중치를 나타내고, x는 현재시간정보와 i번째 단어가 직전에 출현되었던 시간정보간의 차이값을 나타내는 것을 특징으로 하는 키워드 추출 및 요약문 생성 방법.
  19. 삭제
  20. 제16항에 있어서,
    상기 페어 단어들의 점수를 산출하는 단계에서, 상기 제2 연산부가 상기 키워드와 함께 출현되는 상기 페어 단어들의 빈도수 및 상기 페어 단어들과 상기 키워드 사이의 단어 이격거리를 추가로 이용하여 상기 페어 단어들의 점수를 산출하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 방법.
  21. 제20항에 있어서,
    상기 질문선정 빈도 가중치는 수학식
    Figure 112018101935811-pat00008
    를 이용하여 산출되고, 상기 수학식에서 QWi는 i번째 페어 단어의 질문선정 빈도 가중치를 나타내고, x는 i번째 페어 단어의 질문 선정 빈도수를 나타내는 것을 특징으로 하는 키워드 추출 및 요약문 생성 방법.
  22. 제16항에 있어서,
    질문 생성부가, 상기 주요 문장들 내에서 상기 키워드나 상기 페어 단어를 기초로 선정된 추가 키워드 중 적어도 일부를 블랭크 처리하여 질문을 생성하는 단계를 더 포함하는 것을 특징으로 하는 키워드 추출 및 요약문 생성 방법.
KR1020180123352A 2018-10-16 2018-10-16 키워드 추출 및 요약문 생성 시스템 및 방법 KR102128659B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180123352A KR102128659B1 (ko) 2018-10-16 2018-10-16 키워드 추출 및 요약문 생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180123352A KR102128659B1 (ko) 2018-10-16 2018-10-16 키워드 추출 및 요약문 생성 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20200042767A KR20200042767A (ko) 2020-04-24
KR102128659B1 true KR102128659B1 (ko) 2020-06-30

Family

ID=70466281

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180123352A KR102128659B1 (ko) 2018-10-16 2018-10-16 키워드 추출 및 요약문 생성 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102128659B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102417779B1 (ko) * 2020-09-17 2022-07-06 주식회사 한글과컴퓨터 컨테이너 포맷을 기반으로 전자 문서에 대한 지식 데이터화 파일을 생성하는 전자 장치 및 그 동작 방법
KR102466721B1 (ko) * 2020-10-13 2022-11-14 주식회사 한글과컴퓨터 전자 문서를 지식 데이터 문서로 변환하는 전자 장치 및 그 동작 방법
KR102500725B1 (ko) * 2020-11-17 2023-02-16 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
KR102534086B1 (ko) * 2020-12-08 2023-05-19 엔에이치엔애드 (주) 복수의 멀티미디어 컨텐츠들을 참조하여 사용자 단말기와 통신하는 네트워크 서버 및 방법
KR102655408B1 (ko) * 2020-12-30 2024-04-05 경북대학교 산학협력단 토픽 카테고리 기반의 요약문 생성 장치 및 방법
KR102540665B1 (ko) * 2021-04-15 2023-06-13 동국대학교 산학협력단 한국어 언어 모델에 기반한 핵심문장 추출장치 및 그 방법
CN114328826A (zh) * 2021-12-20 2022-04-12 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101548096B1 (ko) * 2015-02-02 2015-08-27 숭실대학교산학협력단 문서 자동 요약 방법 및 서버
KR101624909B1 (ko) 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100435442B1 (ko) 2001-11-13 2004-06-10 주식회사 포스코 문서 요약 방법 및 시스템
KR100849272B1 (ko) 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
KR20040017008A (ko) * 2002-08-20 2004-02-26 주식회사 케이랩 검색엔진을 활용한 정보 제공 시스템 및 그 방법
KR101318843B1 (ko) * 2011-08-30 2013-10-17 성균관대학교산학협력단 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치
KR20160057864A (ko) * 2014-11-14 2016-05-24 삼성전자주식회사 요약 컨텐츠를 생성하는 전자 장치 및 그 방법
KR102131404B1 (ko) * 2018-03-27 2020-07-08 라인 가부시키가이샤 메시지 제공 방법, 장치, 및 컴퓨터 프로그램과, 표시 제어 방법, 장치 및 컴퓨터 프로그램

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101624909B1 (ko) 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
KR101548096B1 (ko) * 2015-02-02 2015-08-27 숭실대학교산학협력단 문서 자동 요약 방법 및 서버

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
https://deeplearning4j.org/word2vec.html

Also Published As

Publication number Publication date
KR20200042767A (ko) 2020-04-24

Similar Documents

Publication Publication Date Title
KR102128659B1 (ko) 키워드 추출 및 요약문 생성 시스템 및 방법
JP2017511922A (ja) スマート質問回答の実現方法、システム、および記憶媒体
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
WO2007117298A2 (en) Event data translation system
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎系统与方法
JP2015060243A (ja) 検索装置、検索方法、およびプログラム
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN104298683A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
Sabri et al. Web data extraction approach for deep web using WEIDJ
US8140464B2 (en) Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
Sanchez-Gomez et al. Sentiment-oriented query-focused text summarization addressed with a multi-objective optimization approach
Lee et al. A structural and content‐based analysis for Web filtering
Rusu et al. Document visualization based on semantic graphs
Ciravegna et al. LODIE: Linked Open Data for Web-scale Information Extraction.
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
CN116450924A (zh) 智慧环保平台生态环境舆情监控系统的分析模块和方法
Sabri et al. WEIDJ: Development of a new algorithm for semi-structured web data extraction
Bakari et al. A logical representation of Arabic questions toward automatic passage extraction from the Web
JP2019003406A (ja) 情報収集装置、情報収集方法、および情報収集プログラム
JP2012104051A (ja) 文書インデックス作成装置
CN111444434A (zh) 一种互联网反馈评论的生成方法及系统
JP2015118415A (ja) 情報フィルタリングシステム及びフィルタリング方法
Prates et al. Contextual query based on segmentation and clustering of selected documents for acquiring web documents for supporting knowledge management

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant