KR101478016B1 - 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 - Google Patents

공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 Download PDF

Info

Publication number
KR101478016B1
KR101478016B1 KR1020130106174A KR20130106174A KR101478016B1 KR 101478016 B1 KR101478016 B1 KR 101478016B1 KR 1020130106174 A KR1020130106174 A KR 1020130106174A KR 20130106174 A KR20130106174 A KR 20130106174A KR 101478016 B1 KR101478016 B1 KR 101478016B1
Authority
KR
South Korea
Prior art keywords
term
sentence
search
unit
air
Prior art date
Application number
KR1020130106174A
Other languages
English (en)
Inventor
김태중
이석형
김환민
최호남
김광영
박정훈
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020130106174A priority Critical patent/KR101478016B1/ko
Application granted granted Critical
Publication of KR101478016B1 publication Critical patent/KR101478016B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법이 개시된다. 본 발명의 일 실시예에 의하면 네트워크를 통해 문헌을 수집하는 문헌 수집부, 문헌으로부터 문장을 추출하는 문장 추출부, 문장의 형태소를 분석하여 용어를 추출하는 문장 분석부, 용어들의 공기 관계를 분석하여 용어 벡터를 생성하는 벡터처리부 및 용어 벡터들을 이용하여 문장 클러스터를 형성하는 클러스터링 실행부를 포함하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치가 제공될 수 있다.

Description

공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법{APPARATUS AND METHOD FOR INFORMATION RETRIEVAL BASED ON SENTENCE CLUSTER USING TERM CO-OCCURRENCE}
본 발명은 문장 클러스터를 구축하고 상기 구축된 문장 클러스터를 활용하여 정보를 검색하는 방법에 관한 것으로서, 보다 상세하게는 문헌으로부터 추출된 용어들 사이의 공기 관계에 근거하여 생성된 용어 벡터를 이용하여 문장 클러스터를 형성하고, 이용자로부터 입력된 검색어의 공기 빈도수에 근거하여 관련 용어를 제공하는 장치 및 방법에 관한 것이다.
현재 인터넷 등의 급속한 발전으로 웹 상에는 수많은 정보가 존재하며 그 수가 기하급수적으로 증가하는 추세이다. 이에 따라 광범위하게 분산되어 있는 문헌들 중 의미 있는 정보를 효율적으로 관리하기 위해서 사회 전반적으로 정교한 정보검색 기술이 요구되고 있으며 또한 많은 연구들이 진행되고 있다.
현재 이용되는 일반적인 정보검색 시스템을 이용하여 사용자가 자신이 원하는 정보를 찾기 위해서는, 많은 시간과 노력을 들여 검색된 문서를 일일이 읽고 검토해야 하는 불편함이 있다.
전술한 불편을 해소하기 위한 종래기술로서 문서 요약 기법이 소개되어 있다. 문서 요약 기법이란 정보검색 기술 등과 같은 기법들을 이용하여 문서의 핵심과 내용의 일관성을 유지하고 양을 간략하게 줄여 사용자에게 요점을 제공하는 기술을 의미한다.
또한, 문서 요약 기법에는 문서 내에 존재하는 단어와 문장간의 관계를 기계학습과 확률적인 계산을 이용하여 요약하는 기법, 워드넷(Wordnet)과 같은 외부의 정보를 참조하여 문서 내에 존재하는 단어들간의 의미적인 관계를 분석하는 기법 등이 있다.
그러나, 이러한 종래기술은 문장 요약, 기계 번역 등에 활용하기 위한 것에 불과하였고, 사용자에게 실질적인 정보 검색 결과를 제공하기 위해서 다양한 출처로부터 수집된 문헌에 포함된 문장으로부터 핵심어를 추출한 후 벡터를 구성함으로써 문장 클러스터 구축하고 이를 통해 사용자의 정보검색을 지원할 수 없었다.
또한, 종래의 검색 지원 시스템의 경우 사용자에게 도움을 주기 위해서 검색어에 대한 검색결과와 함께 관련어를 제공하는 경우가 있으나, 문헌에 직접적으로 사용되거나 포함되어 있는 용어를 이용하여 관련어를 지원하지는 못하였으며, 이로 인하여 사용자가 관련어를 통해 검색결과를 확장하는 것이 불가능하다는 한계가 있었다.
대한민국등록특허공보 제10-0463376호 : 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법(2004.12.15)
본 발명의 실시예들은 네트워크를 통해서 문헌들을 수집하고, 수집된 문헌들로부터 추출된 문장에 대한 형태소 분석을 통해 용어 벡터를 구성하며, 이러한 용어 벡터들을 상호 연결시켜 문장 클러스터를 구축함으로써 사용자에게 실질적인 정보 검색 결과를 제공하고자 한다.
또한, 본 발명의 실시예들은 문헌에 직접적으로 사용되는 용어를 활용하여 검색어에 대한 관련어를 제공함으로써 사용자가 검색 결과를 용이하게 확장할 수 있도록 하고자 한다.
본 발명의 일 측면에 따르면 네트워크를 통해 문헌을 수집하는 문헌 수집부, 상기 문헌으로부터 문장을 추출하는 문장 추출부, 상기 문장의 형태소를 분석하여 용어를 추출하는 문장 분석부, 상기 용어들의 공기 관계를 분석하여 용어 벡터를 생성하는 벡터처리부 및 상기 용어 벡터들을 이용하여 문장 클러스터를 형성하는 클러스터링 실행부를 포함하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치가 제공된다.
또한, 상기 용어 벡터에는 상기 용어들의 공기 빈도수가 포함되는 것을 특징으로 할 수 있다.
또한, 사용자 검색 수단을 통해 검색어를 입력받거나 검색결과를 상기 사용자 검색 수단으로 전달하는 사용자 인터페이스부 및 상기 문장 클러스터를 탐색하여, 입력된 상기 검색어에 대한 제1 연관 용어를 제공하는 제1 제공부를 더 포함할 수 있다.
또한, 상기 제1 제공부는, 상기 검색어에 대한 공기 빈도수가 높은 순으로 상기 제1 연관 용어를 제공하는 것을 특징으로 할 수 있다.
또한, 시소러스 DB로부터 상기 검색어에 대한 관련어를 추출하는 관련어 탐색부 및 추출된 상기 관련어에 대한 공기 빈도수에 따라 제2 연관 용어를 제공하는 제2 제공부를 더 포함할 수 있다.
또한, 상기 제2 제공부는, 상기 관련어에 대한 공기 빈도수가 높은 순으로 상기 제2 연관 용어를 제공할 수 있다.
본 발명의 다른 측면에 의하면 컴퓨터 프로세서가 포함된 정보 검색 장치를 이용하여 문장 클러스터를 구축하고 정보를 검색하는 방법에 있어서, 네트워크를 통해 문헌을 수집하는 단계, 상기 문헌으로부터 문장을 추출하는 단계, 상기 문장의 형태소를 분석하여 용어를 추출하는 단계, 상기 용어의 공기 관계를 분석하여 용어 벡터를 생성하는 단계 및 상기 용어 벡터들을 이용하여 문장 클러스터를 형성하는 단계를 포함하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 방법이 제공된다.
또한, 상기 용어 벡터에는 상기 용어들의 공기 빈도수가 포함되는 것을 특징으로 할 수 있다.
또한, 사용자로부터 소정의 검색어를 입력받는 단계 및 상기 문장 클러스터를 탐색하여, 입력된 상기 검색어에 대한 제1 연관 용어를 제공하는 단계를 더 포함할 수 있다.
또한, 상기 검색어에 대한 공기 빈도수가 높은 순으로 상기 제1 연관 용어를 제공하는 것을 특징으로 할 수 있다.
또한, 시소러스 DB로부터 상기 검색어에 대한 관련어를 추출하는 단계 및 추출된 상기 관련어에 대한 공기 빈도수에 따라 제2 연관 용어를 제공하는 단계를 더 포함할 수 있다.
또한, 상기 관련어에 대한 공기 빈도수에 따라 제2 연관 용어를 제공하는 단계는 상기 관련어에 대한 공기 빈도수가 높은 순으로 상기 제2 연관 용어를 제공할 수 있다.
본 발명의 실시예들은 네트워크를 통해서 문헌들을 수집하고, 수집된 문헌들로부터 추출된 문장에 대한 형태소 분석을 통해 용어 벡터를 구성하며, 이러한 용어 벡터들을 상호 연결시켜 문장 클러스터를 구축함으로써 사용자에게 실질적인 정보 검색 결과를 제공할 수 있다.
또한, 본 발명의 실시예들은 문헌에 직접적으로 사용되는 용어를 활용하여 검색어에 대한 관련어를 제공함으로써 사용자가 검색 결과를 용이하게 확장할 수 있도록 하고, 정보 검색의 정확성과 편리성을 증대할 수 있다.
도 1은 본 발명의 실시예에 따른 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치의 각 구성을 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 방법의 각 단계를 나타낸 흐름도이다.
도 3은 본 발명의 실시예에 따른 문장 클러스터 구축을 통한 정보 검색 장치 또는 방법에 의한 검색 결과를 나타낸 화면이다.
본 명세서에서 개시되는 실시예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 특허청구범위에 의해 한정되지 않는 이상, 임의의 실시예는 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시예들로 한정되는 것을 의도하지 않는다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 정보를 이용한 문장 클러스터 기반의 정보 검색 장치(100)의 각 구성을 개략적으로 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 정보를 이용한 문장 클러스터 기반의 정보 검색 장치(100)는 문헌 수집부(110), 문장 추출부(120), 문장 분석부(130), 벡터처리부(140) 및 클러스터링 실행부(150)를 포함한다.
먼저 문헌 수집부(110)는 네트워크를 통해 분산되어 있는 문헌(10)을 수집한다. 이러한 문헌(10)에는 논문, 특허, 뉴스, 카페나 블로그 등에 등록된 각종 게시물 등 정보를 전달하기 위한 모든 유형의 텍스트가 포함되는 것으로 이해되어야 할 것이다. 또한, 문헌(10)에는 텍스트 이외에도 동영상, 음성, 이미지 등의 멀티미디어 매체가 더 포함될 수 있음은 당연하다. 한편, 문헌 수집부(110)는 네트워크는 물론 관리자로부터 각종 문헌을 직접 입력받을 수도 있다.
문장 추출부(120)는 문헌 수집부(110)에 의해 수집된 문헌(10)으로부터 문장을 추출하는 역할을 한다. 이 경우, 문장 추출부(120)는 적어도 하나 이상의 각 문헌(10)을 문장 단위로 분할하여 큐레이션을 통해 문장 테이블을 생성할 수 있다.
일 예로서, 문헌 수집부(110)에 의해 수집된 문헌(10)이 블로그 게시물인 경우를 가정할 수 있다. 일반적으로 블로그 게시물은 HTML 형태이므로, 문장 추출부(120)는 블로그 게시물에 대하여 HTML 파싱과 문장 토큰화 과정을 수행할 수 있으며, 이 경우 HTML 파싱과 문장 토큰화를 위해 당해 분야에 널리 이용되는 다양한 라이브러리를 사용할 수 있다.
문장 분석부(130)는 문장 추출부(120)를 통해 추출된 문장들에 대한 형태소 분석을 통해 문장의 성분별 구성 요소를 구분하여 용어를 추출하는 구성이다. 여기서 형태소란 언어에 있어서 최소의 의미를 가진 작은 단위로서 더 이상 분석이 불가능한 의미 요소를 말한다. 또한, 문장의 형태소를 분석함에 있어서 텍스트 마이닝(text mining) 등의 일반적인 기법 또는 알고리즘이 적용될 수 있다. 여기서 텍스트 마이닝(text mining)이란 문서 내에서 중요한 의미를 가지는 정보들을 자동으로 추출하는 기술로서 중요 키워드, 핵심 개념, 특정 사건, 인명, 지명, 날짜 등의 다양한 정형 정보를 추출하여 제공할 수 있다.
벡터처리부(140)는 문장 분석부(130)로부터 수신되는 용어들 사이의 공기 관계(co-occurrence)를 분석하고, 이러한 분석 결과에 따라 용어 벡터를 생성하기 위한 구성이다. 공기(共起) 관계란 임의의 두 단어가 문법적으로 어긋나지 않고 동일한 문장, 등에서 함께 나타나는 관련성을 의미한다.
예를 들어, '거기에 그가 산다'는 올바른 문장이지만, '거기에 학교가 산다'는 옳지 못한 문장이다. 따라서, 벡터처리부(140)는 '그'와 '산다'는 공기(共起) 관계를 가지는 것으로 판단하여 용어 벡터를 생성하지만, '학교'와 '산다'는 공기 관계를 가지지 않는 것으로 판단하여 용어 벡터의 생성 대상에서 제외하게 된다.
그리고, 용어 벡터는 문장 추출부(120)를 통해 추출된 문장별로 생성될 수 있다. 이러한 용어 벡터에는 각 용어가 문헌(10)에 출현하는 용어 빈도수 및 두 용어로 연결된 용어쌍이 문장 내에 동시에 출현하는 공기 빈도수가 포함될 수 있다. 또한, 용어 벡터에는 상기 용어 빈도수와 공기 빈도수에 별도로 설정된 가중치를 부여하여 생성된 벡터 자질값 또는 역문서빈도(inverse document frequency)가 더 포함될 수 있다.
공기 빈도수를 통해 각 용어가 문장 또는 이러한 문장이 포함된 문헌(10)의 주제 또는 내용을 얼마나 잘 표현하는지 확인 가능하며, 공기 빈도수가 가능 높은 용어를 특정 문헌(10)의 대표 키워드로 선정할 수도 있다. 이하 제시된 표 1 내지 표 3를 통해 더욱 구체적으로 설명하기로 한다.
구분 용어 1 용어 2 용어 3 용어 4
용어 빈도수 742 619 1383 2114
구분 용어 1 용어 2 용어 3 용어 4
문장 1 0 0 3 1
문장 2 1 2 0 5
문장 3 1 0 4 3
문장 4 3 0 1 2
.
.
.
.
.
.
.
.
.
.
구분 용어 1 용어 2 용어 3 용어 4
용어 1 - 17 393 776
용어 2 17 - 201 198
용어 3 393 201 - 54
용어 4 776 198 54 -
표 1는 용어 1 내지 용어 4 각각이 특정 문헌(10)에 출연하는 횟수, 즉 용어 빈도수를 나타낸 것이고, 표 2는 특정 문헌(10)에 포함된 문장 각각에 대한 용어 1 내지 용어 4의 출연 횟수를 나타낸 것이며, 표 3은 용어 1 내지 용어 4의 공기 빈도수를 나타낸 것이다.
표 3을 살펴보면, 용어 1과 용어 4의 공기 빈도수가 776으로 가장 높은 값을 보유하고 있다. 따라서, 용어 1과 용어 4는 서로 의미적으로 매우 밀접한 관계를 가지는 것으로 판단할 수 있으며, 이에 따라 용어 1과 용어 4를 모두 포함하는 문장들은 서로 동일한 주제 또는 내용을 표현하는 것으로 볼 수 있다. 또한, 용어 1과 용어 4의 용어 빈도수는 각각 742와 2114이므로, 용어 4가 이 문헌(10)에서 대표 용어로 선정될 수 있다. 그리고, 특정 문헌(10)의 대표 용어는 각 표의 수치에 대하여 가중치를 적용을 통한 연산에 의해 선정될 수도 있다. 한편, 표 1 내지 표 3에는 용어 1 내지 용어 4만이 제시되어 있으나 이보다 더 많은 용어가 포함될 수 있음은 물론이다.
클러스터링 실행부(150)는 벡터처리부(140)에 의해 벡터화된 용어, 즉 용어 벡터를 수신한 후 이들을 연결시켜 문장 클러스터를 형성하는 구성이다. 클러스터링 실행부(150)에 의해 형성된 문장 클러스터는 다음의 표 4와 같을 수 있다.
문헌 코드 문장 클러스터 문장 번호
AA001 1 2, 7, 30
2 4, 6, 11, 16, 28
3 1, 3, 5, 13, 22, 29
.
.
.
.
AA002 1 1, 2, 10, 55, 78
2 9, 39, 62
.
.
.
.
.
.
표 4는 문헌 수집부(110)에 수집된 문헌(10)별로 코드값을 부여한 후 벡터처리부(140)를 통해 생성된 용어 벡터들을 이용하여 특정 문헌(10)에 포함된 복수의 문장을 소정의 그룹으로 클러스터링한 예를 나타낸 것이다. 이 경우, 클러스터링에는 k-mean 클러스터링 등의 그룹화 알고리즘 등이 활용될 수 있다.
표 4를 참조하여 예를 들면, 문헌 코드가 AA001인 특정 문헌에 포함된 문장은 30개이며, 이들 각 문장은 1부터 30으로 번호가 부여될 수 있다. 문장 번호 1 내지 30의 문장들 각각은 상호간 연관도가 높거나 낮을 수 있다. 이 때, 벡터처리부(140)에 의해 생성된 용어 벡터를 이용하여 상호간 연관도가 높은 문장들끼리 분류하여 소정의 문장 클러스터를 형성할 수 있다. 여기서 용어 벡터를 이용한다는 것은 용어 벡터의 값을 그대로 이용하거나 용어 벡터의 값에 특정 수학식을 적용하여 도출된 값을 이용한다는 의미로 해석되어야 할 것이다. 즉, 표 4를 참조하면, 문장 클러스터 1에 포함된 문장 번호 2, 7, 30의 문장들은 그 외의 문장 클러스터들에 포함된 문장들보다 연관도가 높다는 것을 이해할 수 있다.
또한, 클러스터링 실행부(150)는 생성된 문장 클러스터를 내부 또는 외부에 구비된 클러스터 DB(200)에 저장하거나 상기 클러스터 DB(200)에 저장된 문장 클러스터를 검색할 수 있다. 한편 문헌별로 생성되는 문장 클러스터의 수는 정확성과 효율성을 향상시키기 위해 특정 범위 내로 미리 설정될 수 있다.
한편, 본 발명의 다른 실시예에 따른 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치(100)는 사용자 인터페이스부(160) 및 제1 제공부(170)를 더 포함할 수 있다.
사용자 인터페이스부(160)는 사용자 검색 수단(300)을 통해 검색어를 입력받거나 검색결과를 사용자 검색 수단(300)으로 전달하는 역할을 수행한다. 즉, 사용자가 외부에 구비된 사용자 검색 수단(300)을 통해 특정 검색어를 입력하면 이를 수신하여 제1 제공부(170), 제2 제공부(190) 또는 관련어 탐색부(180)에 전달한다. 또한, 사용자 인터페이스부(160)는 문장 클러스터 또는 시소러스 DB(400)로부터 전달받은 제1 연관 용어, 제2 연관 용어 또는 관련어 즉, 검색 결과를 사용자 검색 수단(300)으로 전달하여 사용자가 확인할 수 있도록 한다.
제1 제공부(170)는 문장 클러스터를 탐색하여 사용자로부터 입력된 검색어에 대한 제1 연관 용어를 제공한다. 보다 구체적으로 복수의 문헌 코드에 해당하는 문헌(10)들의 문장 클러스터에 대하여 상기 검색어에 대응되는 용어를 포함하는 문장을 추출한다. 이후, 상기 검색어에 대응되는 용어의 용어 벡터를 이용하여, 추출된 문장 내 동시에 출현하는 용어, 즉 제1 연관 용어를 수집한다. 이 때, 제1 연관 용어는 사용자로부터 입력된 검색어에 대한 공기 빈도수가 높은 순으로 제공될 수 있다.
도 3을 참조하여 예를 들면, 사용자가 검색어로서 '학교'를 입력하면 '학생', '교실', '방학', '3학년' 등의 용어가 제1 연관 용어로서 제공될 수 있다. 이 경우, '학교'에 대한 '학생', '교실', '방학', '3학년' 각각의 공기 빈도수가 111, 84, 51, 88이라면, 사용자 검색 수단(300)에는 공기 빈도수가 높은 '학생', '3학년', '교실', '방학' 순서로 디스플레이 될 수 있다.
또한, 본 발명의 다른 실시예에 따른 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치(100)는 관련어 탐색부(180) 및 제2 제공부(190)를 더 포함할 수 있다.
관련어 탐색부(180)는 시소러스 DB(400)로부터 상기 검색어에 대한 관련어를 추출하는 역할을 수행한다. 시소러스(thesaurus)란 데이터 검색을 위한 용어 간의 관계, 즉 동의어, 하위어, 관련어 등의 관계를 나타낸 사전을 의미한다. 일 예로서, 도 3을 참조하면 검색어로서 '학교'가 입력되는 경우 관련어 탐색부(180)는 외부 또는 내부에 구비된 시소러스 DB(400)를 탐색하여 '학원', '대학교', '대학원', '로스쿨' 등의 관련어를 추출할 수 있다.
제2 제공부(190)는 관련어 탐색부(180)에 의해 추출된 관련어에 대한 공기 빈도수에 따라 제2 연관 용어를 제공하는 구성이다. 보다 상세하게 설명하면, 관련어 탐색부(180)로부터 관련어가 수신되면, 문장 클러스터를 탐색하여 상기 관련어가 포함된 문장을 추출하고, 추출된 문장에 포함된 복수의 용어들을 상기 관련어와의 관계에서 공기 빈도수가 높은 순서로 정렬하여 제공할 수 있다. 도 3을 참조하여 예를 들면, 검색어 '학교'의 관련어 중 '학원'에 대하여 '수학', '대치동', '선행학습' 등의 제2 연관 용어가 사용자에게 제시될 수 있다.
이로써, 이미 구축되어 있는 시소러스 DB(400)를 단순히 이용하는 것을 넘어, 문헌에 직접 사용되는 용어를 이용해 관련어 및 관련어에 대한 연관 용어(즉, 제2 연관 용어)에 대한 지원이 가능해짐에 따라 사용자에게 실질적인 정보 검색의 정확성과 편리성을 제공하고, 사용자가 검색 결과를 확장할 수 있도록 한다는 장점이 있다.
한편, 검색결과로 제공되는 제1 연관 용어, 제2 연관 용어 또는 관련어의 수는 검색에 소요되는 시간, 연산량, 효율 등을 고려하여 사용자에 의해 별도로 설정될 수 있다.
도 2는 본 발명의 실시예에 따른 문장 클러스터 구축을 통한 정보 검색 방법의 각 단계를 나타낸 흐름도이다.
도 2를 참조하면, 본 발명의 실시예에 따른 문장 클러스터 구축을 통한 정보 검색 방법은 컴퓨터 프로세서가 적어도 하나 이상 포함된 정보 검색 장치(100)에 의해 수행된다.
우선, 문헌 수집부(110)가 네트워크를 통해 문헌(10)을 수집한다(S510). 이러한 문헌(10)에는 논문, 특허, 뉴스, 카페나 블로그 등에 등록된 각종 게시물 등의 텍스트는 물론 동영상, 음성, 이미지 등의 멀티미디어 매체가 더 포함될 수 있다.
다음으로, 문장 추출부(120)는 문헌 수집부(110)에 의해 수집된 문헌으로부터 문장을 추출한다(S520). 이 경우, 문장 추출부(120)는 적어도 하나 이상의 각 문헌을 문장 단위로 분할하여 큐레이션을 통해 문장 테이블을 생성할 수 있다.
이후, 문장 분석부(130)가 문장 추출부(120)를 통해 추출된 문장들에 대한 형태소 분석을 통해 문장의 성분별 구성 요소를 구분하여 용어를 추출한다(S530). 문장의 형태소를 분석함에 있어서 텍스트 마이닝(text mining) 등의 일반적인 기법 또는 알고리즘이 적용될 수 있다.
벡터처리부(140)는 문장 분석부(130)로부터 수신되는 용어들 사이의 공기 관계(co-occurrence)를 분석하고, 이러한 분석 결과에 따라 용어 벡터를 생성한다(S540). 이 경우 용어 벡터는 문장 추출부(120)를 통해 추출된 문장별로 생성될 수 있으며, 용어 벡터에는 용어 빈도수 및 공기 빈도수는 물론 용어 빈도수와 공기 빈도수에 별도로 설정된 가중치를 부여하여 생성된 벡터 자질값 또는 역문서빈도(inverse document frequency)가 더 포함될 수 있다.
다음으로, 클러스터링 실행부(150)는 벡터처리부(140)로부터 용어 벡터를 수신한 후 이들을 연결 또는 정렬하여 문장 클러스터를 형성한다(S550).
이후, 사용자 인터페이스부(160)는 사용자 검색 수단(300)을 통해 검색어를 입력받아(S560) 제1 제공부(170), 제2 제공부(190), 관련어 탐색부(180) 또는 클러스터링 실행부(150)에 전달한다.
제1 제공부(170)는 문장 클러스터를 탐색하여 사용자로부터 입력된 검색어에 대한 제1 연관 용어를 제공한다(S572). 이 때, 제1 연관 용어는 사용자로부터 입력된 검색어에 대한 공기 빈도수가 높은 순으로 제공될 수 있다.
한편, 관련어 탐색부(180)는 시소러스 DB(400)로부터 검색어에 대한 관련어를 추출한다(S574). 이후, 제2 제공부(190)는 관련어 탐색부(180)에 의해 추출된 관련어에 대한 공기 빈도수에 따라 제2 연관 용어를 제공한다(S576). 보다 상세하게는, 관련어 탐색부(180)로부터 관련어가 수신되면, 문장 클러스터를 탐색하여 상기 관련어가 포함된 문장을 추출하고, 추출된 문장에 포함된 복수의 용어들을 상기 관련어와의 관계에서 공기 빈도수가 높은 순서로 정렬하여 제공할 수 있다.
위에서 설명된 본 발명의 실시예들은 예시의 목적을 위해 개시된 것이며, 이들에 의하여 본 발명이 한정되는 것은 아니다. 또한, 본 발명에 대한 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 사상과 범위 안에서 다양한 수정 및 변경을 가할 수 있을 것이며, 이러한 수정 및 변경은 본 발명의 범위에 속하는 것으로 보아야 할 것이다.
10 : 문헌 100 : 정보 검색 장치
110 : 문헌 수집부 120 : 문장 추출부
130 : 문장 분석부 140 : 벡터처리부
150 : 클러스터링 실행부 160 : 사용자 인터페이스부
170 : 제1 제공부 180 : 관련어 탐색부
190 : 제2 제공부 200 : 클러스터 DB
300 : 사용자 검색 수단 400 : 시소러스 DB

Claims (12)

  1. 네트워크를 통해 문헌을 수집하는 문헌 수집부;
    상기 문헌으로부터 문장을 추출하는 문장 추출부;
    상기 문장의 형태소를 분석하여 용어를 추출하는 문장 분석부;
    상기 용어들의 공기 관계를 분석하여 용어 벡터를 생성하는 벡터처리부;
    상기 용어 벡터들을 이용하여 문장 클러스터를 형성하는 클러스터링 실행부;
    사용자 검색 수단을 통해 검색어를 입력받거나 검색결과를 상기 사용자 검색 수단으로 전달하는 사용자 인터페이스부;
    상기 문장 클러스터를 탐색하여, 입력된 상기 검색어에 대한 제1 연관 용어를 제공하는 제1 제공부;
    시소러스 DB로부터 상기 검색어에 대한 관련어를 추출하는 관련어 탐색부; 및
    추출된 상기 관련어에 대한 공기 빈도수에 따라 제2 연관 용어를 제공하는 제2 제공부;
    를 포함하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치
  2. 제1항에 있어서,
    상기 용어 벡터에는 상기 용어들의 공기 빈도수가 포함되는 것을 특징으로 하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치
  3. 삭제
  4. 제1항에 있어서,
    상기 제1 제공부는,
    상기 검색어에 대한 공기 빈도수가 높은 순으로 상기 제1 연관 용어를 제공하는 것을 특징으로 하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치
  5. 삭제
  6. 제1항에 있어서,
    상기 제2 제공부는,
    상기 관련어에 대한 공기 빈도수가 높은 순으로 상기 제2 연관 용어를 제공하는 것을 특징으로 하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치
  7. 적어도 하나 이상의 컴퓨터 프로세서가 포함된 정보 검색 장치를 이용하여 문장 클러스터를 구축하고 정보를 검색하는 방법에 있어서,
    네트워크를 통해 문헌을 수집하는 단계;
    상기 문헌으로부터 문장을 추출하는 단계;
    상기 문장의 형태소를 분석하여 용어를 추출하는 단계;
    상기 용어의 공기 관계를 분석하여 용어 벡터를 생성하는 단계;
    상기 용어 벡터들을 이용하여 문장 클러스터를 형성하는 단계;
    사용자로부터 소정의 검색어를 입력받는 단계;
    상기 문장 클러스터를 탐색하여, 입력된 상기 검색어에 대한 제1 연관 용어를 제공하는 단계;
    시소러스 DB로부터 상기 검색어에 대한 관련어를 추출하는 단계; 및
    추출된 상기 관련어에 대한 공기 빈도수에 따라 제2 연관 용어를 제공하는 단계;
    를 포함하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 방법
  8. 제7항에 있어서,
    상기 용어 벡터에는 상기 용어들의 공기 빈도수가 포함되는 것을 특징으로 하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 방법
  9. 삭제
  10. 제7항에 있어서,
    상기 검색어에 대한 공기 빈도수가 높은 순으로 상기 제1 연관 용어를 제공하는 것을 특징으로 하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 방법
  11. 삭제
  12. 제7항에 있어서,
    상기 관련어에 대한 공기 빈도수가 높은 순으로 상기 제2 연관 용어를 제공하는 것을 특징으로 하는 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 방법
KR1020130106174A 2013-09-04 2013-09-04 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 KR101478016B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130106174A KR101478016B1 (ko) 2013-09-04 2013-09-04 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130106174A KR101478016B1 (ko) 2013-09-04 2013-09-04 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101478016B1 true KR101478016B1 (ko) 2015-01-02

Family

ID=52587574

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130106174A KR101478016B1 (ko) 2013-09-04 2013-09-04 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101478016B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062929A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 비정형 문서 인명 식별 시스템
CN111639194A (zh) * 2020-05-29 2020-09-08 天健厚德网络科技(大连)有限公司 基于句向量的知识图谱查询方法及系统
CN113806524A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种文本内容的层级类目构建和层级结构调整方法及装置
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
KR102515927B1 (ko) 2022-11-25 2023-03-30 주식회사 무하유 인공지능 모델을 이용한 자연어 기반 소스 코드 검색 장치 및 그 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100080099A (ko) * 2008-12-31 2010-07-08 주식회사 솔트룩스 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
JP2010152561A (ja) * 2008-12-24 2010-07-08 Toshiba Corp 類似表現抽出装置、サーバ装置及びプログラム
KR20120005103A (ko) * 2010-07-08 2012-01-16 숭실대학교산학협력단 병렬말뭉치를 이용한 대체어 자동 추출 시스템 및 방법
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010152561A (ja) * 2008-12-24 2010-07-08 Toshiba Corp 類似表現抽出装置、サーバ装置及びプログラム
KR20100080099A (ko) * 2008-12-31 2010-07-08 주식회사 솔트룩스 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
KR20120005103A (ko) * 2010-07-08 2012-01-16 숭실대학교산학협력단 병렬말뭉치를 이용한 대체어 자동 추출 시스템 및 방법
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062929A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 비정형 문서 인명 식별 시스템
KR102162850B1 (ko) * 2018-11-27 2020-10-07 (주)아이와즈 비정형 문서 인명 식별 시스템
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
CN111639194A (zh) * 2020-05-29 2020-09-08 天健厚德网络科技(大连)有限公司 基于句向量的知识图谱查询方法及系统
CN111639194B (zh) * 2020-05-29 2023-08-08 天健厚德网络科技(大连)有限公司 基于句向量的知识图谱查询方法及系统
CN113806524A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种文本内容的层级类目构建和层级结构调整方法及装置
CN113806524B (zh) * 2020-06-16 2024-05-24 阿里巴巴集团控股有限公司 一种文本内容的层级类目构建和层级结构调整方法及装置
KR102515927B1 (ko) 2022-11-25 2023-03-30 주식회사 무하유 인공지능 모델을 이용한 자연어 기반 소스 코드 검색 장치 및 그 방법

Similar Documents

Publication Publication Date Title
Moussa et al. A survey on opinion summarization techniques for social media
Nastase et al. WikiNet: A Very Large Scale Multi-Lingual Concept Network.
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
Le et al. Unsupervised keyphrase extraction: Introducing new kinds of words to keyphrases
Maier et al. Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
Imam et al. An ontology-based summarization system for arabic documents (ossad)
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Kumar et al. Hashtag recommendation for short social media texts using word-embeddings and external knowledge
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
CN102681983A (zh) 一种文本数据的对齐方法和装置
Roy et al. Discovering and understanding word level user intent in web search queries
Nasser et al. n-Gram based language processing using Twitter dataset to identify COVID-19 patients
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
Feng et al. Question classification by approximating semantics
Daoud et al. Time-sensitive Arabic multiword expressions extraction from social networks
Yunus et al. Semantic method for query translation.
Li et al. Computational linguistics literature and citations oriented citation linkage, classification and summarization
Fauzi et al. Image understanding and the web: a state-of-the-art review
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
Noah et al. Evaluation of lexical-based approaches to the semantic similarity of Malay sentences
Chamorro-Padial et al. Finding answers to COVID-19-specific questions: An information retrieval system based on latent keywords and adapted TF-IDF

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170927

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180809

Year of fee payment: 5