KR100847376B1 - 질의어 자동 추출을 이용한 검색 방법 및 장치 - Google Patents

질의어 자동 추출을 이용한 검색 방법 및 장치 Download PDF

Info

Publication number
KR100847376B1
KR100847376B1 KR1020060119048A KR20060119048A KR100847376B1 KR 100847376 B1 KR100847376 B1 KR 100847376B1 KR 1020060119048 A KR1020060119048 A KR 1020060119048A KR 20060119048 A KR20060119048 A KR 20060119048A KR 100847376 B1 KR100847376 B1 KR 100847376B1
Authority
KR
South Korea
Prior art keywords
similarity
sentences
document
sentence
search
Prior art date
Application number
KR1020060119048A
Other languages
English (en)
Other versions
KR20070007001A (ko
Inventor
김준홍
엄용국
이원식
박범수
Original Assignee
김준홍
엄용국
이원식
박범수
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김준홍, 엄용국, 이원식, 박범수 filed Critical 김준홍
Priority to KR1020060119048A priority Critical patent/KR100847376B1/ko
Publication of KR20070007001A publication Critical patent/KR20070007001A/ko
Application granted granted Critical
Publication of KR100847376B1 publication Critical patent/KR100847376B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Abstract

본 발명은 인터넷에서 사용자가 질의어를 사용하여 정보를 검색하는 방법 및 장치에 관한 것으로서, 종래의 검색 기법의 한계를 극복하기 위하여 사용자가 특정 질의어를 사용하여 검색을 시행한 후 얻어진 검색 결과물을 이용하여 해당 검색 결과물들에 대한 '자동 문서요약'과 '키워드 추출' 등의 단계를 거쳐 사용자가 미리 인식하지 못했던 주제와 관련된 주제어를 자동 추출하는 것을 요지로 하는 검색 방법 및 장치에 관한 것이다. 이렇게 자동 추출된 주제어는 사용자가 해당 분야에 대해 미리 인지하지 못하고 있던 주제를 나타내게 되므로 사용자에게 새로운 정보를 제공할 수 있다. 동시에, 자동 추출된 주제어를 바탕으로 한 새로운 검색 결과들을 같이 돌려줌으로써 사용자의 시행착오와 반복 작업을 감소시켜 준다.
검색, 인터넷, 자동요약, 질의어, 클러스터, 유사도, 도합유사도

Description

질의어 자동 추출을 이용한 검색 방법 및 장치{Method and apparatus for searching information using automatic query creation}
도 1은 본 발명에 따른 검색 방법의 순서도.
도 2는 도 1의 결과문서 자동요약 단계의 세부 순서도.
도 3은 문장간의 유사도를 구하는 개념을 설명하는 그림.
도 4는 클러스터링 개념을 설명하는 그림.
도 5는 본 발명에 사용될 수 있는 클러스터링 처리 알고리즘의 일례를 설명하는 그림.
도 6은 새로운 질의어를 추출하는 개념을 나타내는 그림.
도 7은 특정 클러스터에서 주제어를 추출하는 개념을 설명하기 그림.
도 8은 본 발명에 따른 검색 장치의 블록 구성도.
본 발명은 인터넷에서 사용자가 질의어를 사용하여 정보를 검색하는 방법 및 장치에 관한 것이다.
종래의 인터넷 검색에 관련된 기술을 소개하면 다음과 같다.
- 질의어 확장(query extension)
검색시 사용자가 입력한 질의어와 관련된 다른 질의어들을 생성 혹은 관련 DB에서 추출하고 이 중 사용자가 원하는 질의어들을 선택해 사용한다. 이는 사용자가 입력한 질의어의 수와 조합을 증가시켜 검색의 정확도와 재현율 등을 높이려는 목적을 갖고 있다. 그러나 이는 목적 자체가 검색의 정확도/재현율을 높이려는 것으로 본 발명의 목적인 사용자가 미리 인지하지 못하는 정보 등에 대한 검색의 자동 확장과는 다르다. 또한 검색의 목적이 되는 분야마다 상이한 언어정보 DB를 구축해야 하는 어려움이 있다.
- 언어분석 기반의 자동질의 응답 시스템
문서들에 대한 언어분석을 통해 정답후보 어휘나 구들을 선별하고 이와 관련된 자연어 질문을 자동 생성하여 그 질문/정답 쌍들을 미리 색인하여 저장함으로써 사용자 질의시 질문의 유사도 비교를 통해 질의에 대한 양질의 정답 후보들을 순위적으로 빠르게 제시하는 언어분석 기반의 질의 응답 시스템에 대한 기술이다. 그러나 이는 분야 자체가 자연어 질의검색에 한정되어 있으며 미리 질문/응답쌍에 대한 색인DB를 갖고 있어야 하므로 자주 사용되는 질문들에 관한 한정된 분야 이외에는 쓰일 수 없는 단점이 있다.
이상에서와 같이, 종래의 인터넷 검색엔진은 사용자가 질의한 단어를 포함한 문서를 찾아 줄 뿐, 일반적으로 사용자는 한 번의 검색으로 원하는 사항을 찾지 못하게 되는 경우가 빈번하며 이러할 경우 여러가지로 질의어를 바꾸어서 검색을 시 도한다. 그러나 이는 사용자가 해당 분야의 지식 또는 사건에 대해 잘 알고 있어야 한다. 즉, 충분한 정도의 선지식을 갖고 있어야 한다. 만일 사용자가 정통하지 못한 분야에 대한 내용을 검색하고자 한다면 수많은 시행착오와 반복적인 검색작업을 필요로 한다.
이에 본 발명자는, 상기 종래의 검색 기법의 한계를 극복하기 위하여 사용자가 특정 질의어를 사용하여 검색을 시행한 후 얻어진 검색 결과물을 이용하여 해당 검색 결과물들에 대한 '자동 문서요약'과 '키워드 추출' 등의 단계를 거쳐 사용자가 미리 인식하지 못했던 주제와 관련된 주제어를 자동 추출하는 것을 요지로 하는 검색 방법 및 장치를 개발하였다.
이렇게 자동 추출된 주제어는 사용자가 해당 분야에 대해 미리 인지하지 못하고 있던 주제를 나타내게 되므로 사용자에게 새로운 정보를 제공할 수 있다. 동시에, 자동 추출된 주제어를 바탕으로 한 새로운 검색 결과들을 같이 돌려줌으로써 사용자의 시행착오와 반복 작업을 감소시켜 준다.
구현 측면에서는, 사용자의 1차 질의어에 대하여 나온 문서들만을 이용하여 통계적 방법을 위주로 하여 주제어를 자동 추출함으로써 언어학적 DB 구축을 최소화하면서도 다양한 분야에서의 일반적 검색에 사용할 수 있는 특징이 있다.
예를 들어, 사용자가 '세종대왕'을 검색어로 입력하면 그 결과물 중에서 '훈민정음', '한글창제', '조선왕조', '한글날' 등의 새로운 주제어를 추출하고 이 주제어에 따른 새로운 검색 결과들을 보여준다. 다른 예로서, 사용자가 '미국의 역 사'를 입력하면 그 결과물을 이용하여 '미국독립', '미국의 원주민', '인디언', '미국의 전쟁', '세계대전' 등의 새로운 주제어를 추출하고 이 주제어에 따른 새로운 검색 결과들을 보여준다.
도 1은 본 발명에 따른 검색 방법의 프로세스 흐름도를 나타내고, 도 8은 본 발명의 기술적 사상을 구현하기 위한 장치의 구성도를 나타낸다. 도 1의 프로세스를 설명하면서 도 8의 구성요소에 대해서 함께 설명하기로 한다.
사용자가 검색엔진을 통해 원하는 질의어(원질의어)를 입력하면(100), 입력한 원질의어에 대하여 질의어 검색 모듈(82)에서는 검색을 수행하고 검색결과를 출력한다(즉, 1차 검색)(200). 결과 자동요약 모듈(84)에서는 검색된 문서로부터 핵심적 의미를 지닌 문장을 추출함으로써 결과문서들을 자동으로 요약한다(300). 그리고 자동 요약된 문서로부터 핵심 문장들을 추출하고 각 핵심 문장에 대한 문서로 만든다(400). 클러스터링 모듈(86)에서는 핵심 문장을 문서화한 것에 대해서 유사한 내용을 갖는 문서들을 클러스터링(그루핑)하여 중복문을 제거한다(500). 그리고 각 클러스터별로 주제어(새로운 질의어)를 추출하기 위하여 단어별로 가중치 계산을 시행한다(600). 새로운 질의어 추출 모듈(88)에서는 소정의 정보 추출기법을 이용하여 주제어(또는 주제 문장), 즉, 새로운 질의어를 한 개 이상 추출하고, 질의어 검색 모듈(82)로 하여금 이를 이용해 2차 검색을 하도록 한다(700). 2차 검색은 질의어 검색 모듈(82)에 의해 새로운 질의어별로 수행되며, 각 질의어별로 검색된 결과를 출력한다(800).
이하에서는 보다 구체적으로 상기 방법의 구성에 대해서 설명한다.
우선, 결과문서 자동요약 및 핵심 문장 추출 단계(300, 400)에 대하여 설명한다. 문장 추출을 이용한 자동 문서 요약기법에 대해서는 다양한 공지기술이 발표되어 있으며, 본 출원인도 이에 대해서 2000년도에 논문으로 발표한 바 있다[참조: "Korean Text Summarization Using an Aggregative Similarity"(IRAL 2000), Hong Kong, China, pp.111-118, 2000]. 이에 대해서 개괄적으로 내용을 소개하면 다음과 같다(도 2 참조).
전처리단계(320) - 원본 문서로부터 문서의 오류나 불필요한 태그 등을 제거하고 문서를 문장별로 정렬한다.
명사 추출 및 복합명사 분해(330) - 각 문장에서 명사들만을 추출하고, 추출된 명사가 복합명사인 경우에는 이를 분해한다. 예를 들어, '미국전쟁'이 추출되었으면 이를 '미국'과 '전쟁'으로 분해한다. 그리고 각 문장을 명사들의 목록(리스트)으로 변환한다.
명사 목록간의 도합유사도 계산(340) - 다음, 상기 생성한 명사 목록간의 도합유사도(aggregative similarity)를 계산한다. 우선, 두 개의 문장 Si와 Sj에 동일 단어가 있을 경우 이를 카운트하는데, 해당 카운트값이 유사도를 의미한다. 이는 선형대수학(linear algebra)의 'Inner Vector Similarity'를 응용한 것이다. 임의의 두 문장(명사 목록) Si와 Sj 간의 유사도(similarity) sim(i,j)를 구하는 공식은 다음과 같다.
Figure 112006088523635-pat00001
다음, 도합유사도(약칭: asim)는 문서 내의 임의의 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합한 것이다. 그 개념을 도 3에 나타낸다. 전체 n개의 문장으로 이루어진 문서에서 Si의 도합유사도는 i번 자신의 문장을 제외한 전체 문장들간의 유사도를 구해 통합한 것이다. 이를 공식으로 나타내면 다음과 같다.
Figure 112006088523635-pat00002
다시 도 2로 돌아가서, 문서 자동 요약 단계에 대해서 나머지 설명을 한다.
중요문장 추출단계(350) - 위에서 구한 도합유사도를 이용하여 값이 가장 높은 문장들만을 추출한다. 이 때의 문장추출 비율은 전체문서 대비 10%, 20% 등으로 조절가능하다. 이렇게 하여 자동 요약문서가 생성된다(360).
한편, 도 1에서 문서 클러스터링 및 단어별 가중치계산 단계(500, 600)에 대해서 구체적으로 설명한다. 본 발명의 방법은 사용자가 원질의어를 선택하여 검색된 1차 검색결과 문서들에 대해 자동 요약을 실시하는 것을 목적으로 함은 앞에서 설명한 바 있다. 단일 문서에 대한 요약을 시행할 경우에는 중복된(즉, 동일한 내용의) 문장이 출력될 확률이 없으나, 수십, 수백 건의 문서에 대해 자동요약을 시 행할 경우에는 동일 의미의 문장이 다수 출력될 수 있다. 이러한 문장들은 문서 전체에 흩어져서 존재하게 된다. 이 경우 동일 내용을 담고 있는 문장들을 그루핑(grouping)하는 것이 클러스터링(clustering)이다(도 4 참조). 도 4에서 보는 바와 같이 좌측의 문서들 중에서 유사한 내용을 담고 있는 문서들을 클러스터링할 수 있다. 이렇게 그룹으로 묶인 문장들(도 4의 우측) 내에 다수 출현하는 단어에는 가중치를 부여한다.
클러스터링 처리 알고리즘에는 기본적으로 유사도(similarity) 기법을 이용한다. 즉, 요약 문서에 대해 각 문장 간의 유사도를 구해 각 유사도가 일정값(시험상수 C) 이상인 문장들만을 추출하여 그룹화한다. 도 5는 n개의 문장으로 이루어진 문서 내에서 임의의 i번째 문장과 클러스터를 이룰 문장들을 구하는 것으로 문서 내 각 문장간의 유사도를 구한 뒤 유사도값이 상수 C(여기서는 40)보다 큰 문장들만을 선출해 자동으로 클러스터링하는 개념을 나타낸다. 이 때 상수 C는 클러스터링 단계에서 자동으로 구해질 수 있다. 이렇게 i번째 문장과 그룹을 이룰 문장들을 구한 이후에는 다시 나머지 문장들 중에서 임의의 문장을 한 개 선택하여 위의 과정을 반복한다. 반복은 나머지 문장이 없거나 무시해도 좋을 만큼 적어질 때까지(가령, 1, 2개) 한다. 그 밖에 고려할 사항으로는, 1) 사용되는 유사도는 상술한 요약기법에서 사용한 'Inner Vector' 방식이 아닌 코사인 유사도 기법을 이용해야 성능이 좋다. 2) 이렇게 클러스터링된 그룹들에 대해서는 서픽스트리(suffix tree)나 파티션기법(partitional algorithm) 등의 방식으로 보정을 해 준다.
다시 도 1로 돌아가서, 새로운 질의어 추출 단계(700)에 대해 설명한다. 이 단계의 개념은 도 6에 나타낸다. 즉, 앞의 단계에서 얻은 클러스터별로 주제어를 추출하고 이들 주제어로서 새로운 질의어 목록을 만든다. 주제어 추출기는 자신에게 넘겨진 목록들 내에서 출현 빈도가 높은 단어(명사)들을 추출하여 단일명사 혹은 명사구로 만들어준다. 이는 여러 개의 문장에서 동시에 출현한 명사(또는 명사구)들은 여러 문장에서 중첩된 것으로서 복수개의 문장을 대표하는 키워드로 판단되는 것이며, 동시에 해당 명사(또는 명사구)를 이용해 검색을 시행하여도 동일한 문장(혹은 문서)들을 결과로 얻을 수 있기 때문이다.
이때의 단계에서는 앞의 "클러스터링" 단계에서 얻은 단어별 가중치를 고려한다. 도 7은 특정 클러스터에서 주제어를 추출하는 개념을 설명하기 위한 것이다.
한편, 지금까지 설명한 본 발명의 검색 방법 및 장치는 실제로 컴퓨터 프로그램에 의해 구현될 수 있고, 이 프로그램은 컴퓨터 기록 매체에 저장될 수 있다. 컴퓨터 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함한다. 그 예로는, ROM, RAM, CD, DVD-ROM, 자기테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송의 형태로 구현되는 것도 여기에 포함된다. 즉, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명에 따르면, 사용자가 특정 질의어를 사용하여 검색을 시행한 후 얻어진 검색 결과물을 이용하여 해당 검색 결과물들에 대한 '자동 문서요약'과 '키워드 추출' 등의 단계를 거쳐 사용자가 미리 인식하지 못했던 주제와 관련된 주제어를 자동 추출하므로써, 사용자가 선택한 질의어 이외에 해당 분야에 대해 미리 인지하지 못하고 있던 주제로써 사용자에게 새로운 정보를 제공할 수 있으며, 자동 추출된 주제어를 바탕으로 한 새로운 검색 결과들을 같이 돌려줌으로써 사용자의 시행착오와 반복 작업을 감소시켜 준다.

Claims (13)

  1. a) 사용자가 검색엔진을 통해 원하는 질의어(원질의어)를 입력하면, 입력한 원질의어에 대하여 검색을 수행하고 검색결과를 출력하는 단계,
    b) 검색된 문서로부터 핵심적 의미를 지닌 문장을 추출함으로써 결과문서들을 자동으로 요약하고, 자동 요약된 문서로부터 핵심 문장들을 추출하여 각 핵심 문장에 대한 문서를 만드는 단계,
    c) 핵심 문장을 문서화한 것에 대해서 유사한 내용을 갖는 문서들을 클러스터링(그루핑)하여 중복문을 제거하고, 각 클러스터별로 주제어(새로운 질의어)를 추출하기 위하여 단어별로 가중치 계산을 시행하는 단계,
    d) 상기 가중치를 근거로 새로운 질의어를 한 개 이상 추출하고, 이를 이용해 2차 검색을 하여 각 질의어별로 검색된 결과를 출력하는, 새로운 질의어 추출 단계를 포함하되,
    상기 b) 결과문서 자동요약 및 핵심 문장 추출 단계는
    원본 문서로부터 문서의 오류와 불필요한 태그를 제거하고 문서를 문장별로 정렬하는 전처리단계,
    각 문장에서 명사들만을 추출하고, 추출된 명사가 복합명사인 경우에는 이를 분해하는 명사 추출 및 복합명사 분해 단계,
    생성한 명사 목록간의 도합유사도(aggregative similarity)를 계산하는 명사 목록간의 도합유사도 계산 단계,
    위에서 구한 도합유사도값이 소정 기준보다 높은 문장들만을 추출하여 자동 요약문서를 생성하는 중요문장 추출단계를 포함하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 b) 단계의 도합유사도 계산 단계에서
    도합유사도는 문서 내의 임의의 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.
  4. 제3항에 있어서, 전체 n개의 문장으로 이루어진 문서에서 Si의 도합유사도는 i번 자신의 문장을 제외한 전체 문장들간의 유사도를 구해 아래와 같은 공식으로 계산되는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.
    Figure 112008011070416-pat00003
    (단, sim(i,j)는 임의의 두 문장(명사 목록) Si와 Sj 간의 유사도(similarity)를 의미하며, asim(i)는 전체 n개의 문장으로 이루어진 문서 내의 i번 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합한 도합유사도를 의미함)
  5. 제1항에 있어서, 상기 c) 문서 클러스터링 및 단어별 가중치계산 단계에서
    클러스터링 처리는, 요약 문서에 대해 각 문장 간의 유사도를 구해 각 유사도가 일정값(시험상수 C) 이상인 문장들만을 추출하여 그룹화하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.
  6. 제1항에 있어서, 상기 d) 새로운 질의어 추출 단계는
    상기 c) 단계에서 얻은 클러스터별로 주제어를 추출하고 이들 주제어로서 새로운 질의어 목록을 만들되,
    목록들 내에서 출현 빈도가 높은 단어(명사)들을 추출하여 단일명사 혹은 명사구로 만드는 단계를 포함하는, 질의어 자동 추출을 이용한 검색 방법.
  7. 제1, 3, 4, 5, 6항 중 어느 한 항의 방법을 구현하는 컴퓨터 프로그램을 기록한 컴퓨터 기록매체.
  8. 사용자가 검색엔진을 통해 원하는 질의어(원질의어)를 입력하면, 입력한 원질의어에 대하여 검색을 수행하고 검색결과를 출력하는 질의어 검색 모듈,
    검색된 문서로부터 핵심적 의미를 지닌 문장을 추출함으로써 결과문서들을 자동으로 요약하고, 자동 요약된 문서로부터 핵심 문장들을 추출하여 각 핵심 문장에 대한 문서를 만드는 결과문서 자동요약 모듈,
    핵심 문장을 문서화한 것에 대해서 유사한 내용을 갖는 문서들을 클러스터링(그루핑)하여 중복문을 제거하고, 각 클러스터별로 주제어(새로운 질의어)를 추출하기 위하여 단어별로 가중치 계산을 시행하는 클러스터링 모듈,
    상기 가중치를 근거로 새로운 질의어를 한 개 이상 추출하고, 상기 질의어 검색 모듈로 하여금 이를 이용해 2차 검색을 하여 각 질의어별로 검색된 결과를 출력하도록 하는 새로운 질의어 추출 모듈을 포함하되,
    상기 결과문서 자동요약 모듈은
    원본 문서로부터 문서의 오류와 불필요한 태그를 제거하고 문서를 문장별로 정렬하는 전처리수단,
    각 문장에서 명사들만을 추출하고, 추출된 명사가 복합명사인 경우에는 이를 분해하는 명사 추출 및 복합명사 분해 수단,
    생성한 명사 목록간의 도합유사도(aggregative similarity)를 계산하는 명사 목록간의 도합유사도 계산 수단,
    위에서 구한 도합유사도값이 소정 기준보다 높은 문장들만을 추출하여 자동 요약문서를 생성하는 수단을 포함하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.
  9. 삭제
  10. 제8항에 있어서, 상기 결과문서 자동요약 모듈의 도합유사도 계산 수단에서
    도합유사도는 문서 내의 임의의 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 이들을 합하여 계산되는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.
  11. 제10항에 있어서, 전체 n개의 문장으로 이루어진 문서에서 Si의 도합유사도는 i번 자신의 문장을 제외한 전체 문장들간의 유사도를 구해 아래와 같은 공식으로 계산되는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.
    Figure 112008011070416-pat00004
    (단, sim(i,j)는 임의의 두 문장(명사 목록) Si와 Sj 간의 유사도(similarity)를 의미하며, asim(i)는 전체 n개의 문장으로 이루어진 문서 내의 i번 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합한 도합유사도를 의미함)
  12. 제8항에 있어서, 상기 클러스터링 모듈에 의한 클러스터링 처리는, 요약 문서에 대해 각 문장 간의 유사도를 구해 각 유사도가 일정값(시험상수 C) 이상인 문장들만을 추출하여 그룹화하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.
  13. 제8항에 있어서, 상기 새로운 질의어 추출 모듈은
    상기 클러스터링 모듈에서 얻은 클러스터별로 주제어를 추출하고 이들 주제어로서 새로운 질의어 목록을 만드는 수단과,
    목록들 내에서 출현 빈도가 높은 단어(명사)들을 추출하여 단일명사 혹은 명사구로 만드는 수단을 포함하는, 질의어 자동 추출을 이용한 검색 장치.
KR1020060119048A 2006-11-29 2006-11-29 질의어 자동 추출을 이용한 검색 방법 및 장치 KR100847376B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060119048A KR100847376B1 (ko) 2006-11-29 2006-11-29 질의어 자동 추출을 이용한 검색 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060119048A KR100847376B1 (ko) 2006-11-29 2006-11-29 질의어 자동 추출을 이용한 검색 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20070007001A KR20070007001A (ko) 2007-01-12
KR100847376B1 true KR100847376B1 (ko) 2008-07-21

Family

ID=37871843

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060119048A KR100847376B1 (ko) 2006-11-29 2006-11-29 질의어 자동 추출을 이용한 검색 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100847376B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019511B2 (en) 2013-12-30 2018-07-10 Kt Corporation Biology-related data mining
US10515634B2 (en) 2017-06-07 2019-12-24 Hyundai Motor Company Method and apparatus for searching for geographic information using interactive voice recognition

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101056412B1 (ko) * 2009-02-24 2011-08-11 전북대학교산학협력단 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템 및그 방법
KR101140264B1 (ko) * 2010-07-14 2012-04-26 엔에이치엔(주) 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
EP2909744A4 (en) * 2012-10-19 2016-06-22 REALIZING RESEARCH BASED ON CRITERIA ASSOCIATED WITH AN ENTITY
CN103942226B (zh) * 2013-01-23 2018-07-10 腾讯科技(深圳)有限公司 获取热点内容的方法和装置
KR102034302B1 (ko) * 2018-03-20 2019-10-18 주식회사 딥서치 문장 추출 방법 및 시스템
KR102125407B1 (ko) * 2019-10-14 2020-06-22 주식회사 딥서치 문장 추출 방법 및 시스템
KR102594926B1 (ko) * 2021-10-18 2023-10-27 (주)아이와즈 치안정보 문서 작성 가이드 시스템 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010064269A (ko) * 1999-12-27 2001-07-09 오길록 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
KR20010108845A (ko) * 2000-05-31 2001-12-08 기민호 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
KR20030069640A (ko) * 2002-02-22 2003-08-27 이의범 계층적 및 개념적 클러스터링에 의한 정보검색 시스템 및그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010064269A (ko) * 1999-12-27 2001-07-09 오길록 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
KR20010108845A (ko) * 2000-05-31 2001-12-08 기민호 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
KR20030069640A (ko) * 2002-02-22 2003-08-27 이의범 계층적 및 개념적 클러스터링에 의한 정보검색 시스템 및그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019511B2 (en) 2013-12-30 2018-07-10 Kt Corporation Biology-related data mining
US10515634B2 (en) 2017-06-07 2019-12-24 Hyundai Motor Company Method and apparatus for searching for geographic information using interactive voice recognition

Also Published As

Publication number Publication date
KR20070007001A (ko) 2007-01-12

Similar Documents

Publication Publication Date Title
JP7282940B2 (ja) 電子記録の文脈検索のためのシステム及び方法
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
US8892550B2 (en) Source expansion for information retrieval and information extraction
US7809551B2 (en) Concept matching system
US20100094835A1 (en) Automatic query concepts identification and drifting for web search
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
CN104850574A (zh) 一种面向文本信息的敏感词过滤方法
US8812504B2 (en) Keyword presentation apparatus and method
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20210264115A1 (en) Analysis of theme coverage of documents
CN113221559B (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
CN108319583B (zh) 从中文语料库提取知识的方法与系统
WO2016121048A1 (ja) 文章生成装置及び方法
Chang et al. A comparison of named-entity disambiguation and word sense disambiguation
Jain et al. Context sensitive text summarization using k means clustering algorithm
Tasharofi et al. Evaluation of statistical part of speech tagging of Persian text
Subhashini et al. Shallow NLP techniques for noun phrase extraction
Mouratidis et al. Domain-specific term extraction: a case study on Greek Maritime legal texts
Zulen et al. Study and implementation of monolingual approach on indonesian question answering for factoid and non-factoid question
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
Ramachandran et al. Document Clustering Using Keyword Extraction
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130703

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140601

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee