KR101049984B1 - 기분석 사전 갱신장치 및 그 방법 - Google Patents

기분석 사전 갱신장치 및 그 방법 Download PDF

Info

Publication number
KR101049984B1
KR101049984B1 KR1020080138604A KR20080138604A KR101049984B1 KR 101049984 B1 KR101049984 B1 KR 101049984B1 KR 1020080138604 A KR1020080138604 A KR 1020080138604A KR 20080138604 A KR20080138604 A KR 20080138604A KR 101049984 B1 KR101049984 B1 KR 101049984B1
Authority
KR
South Korea
Prior art keywords
analysis
token
dictionary
unit
analysis dictionary
Prior art date
Application number
KR1020080138604A
Other languages
English (en)
Other versions
KR20100079992A (ko
Inventor
심보준
Original Assignee
주식회사 엔씨소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엔씨소프트 filed Critical 주식회사 엔씨소프트
Priority to KR1020080138604A priority Critical patent/KR101049984B1/ko
Publication of KR20100079992A publication Critical patent/KR20100079992A/ko
Application granted granted Critical
Publication of KR101049984B1 publication Critical patent/KR101049984B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기분석 사전 갱신장치 및 그 방법에 관한 것으로 색인하고자 하는 문서로부터 토큰을 얻는 토큰 분석부; 상기 얻어진 토큰이 기분석 사전에 존재하는가 판단하는 기분석사전 비교부; 기분석 사전에 존재하지 않는 토큰의 형태소를 분석하는 형태소 분석부; 상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 변환부; 상기 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인하는 색인부; 및 상기 변환된 데이터를 기분석 사전에 추가하는 기분석 사전 갱신부;를 구비하는 것을 특징으로 한다.
검색엔진, 형태소 분석기, 기분석 사전, 색인, 색인어,

Description

기분석 사전 갱신장치 및 그 방법{APPARATUS AND METHOD OF UPDATING ELECTRONIC DICTIONARY OF INFLECTED FORMS}
본 발명은 검색엔진의 색인과정에서 형태소 분석기를 사용할 때에 참조하는 기분석 사전의 갱신을 위한 갱신장치 및 그 방법에 관한 것이다.
인터넷 상의 문서의 양은 인터넷 보급초기에 비해 급격한 속도로 증가하고 있다. 이에, 검색엔진이 색인해야하는 문서의 양도 기하급수적으로 증가하고 있어, 보다 효율적인 방법론 연구의 중요성이 점차 확대되고 있는 추세이다.
이렇듯 기하급수적으로 증가하는 새로운 문서들을 얼마나 신속하게 색인하여 검색엔진에 반영하는가 하는 것은 검색결과의 품질에 직접적인 영향을 주는데, 색인 알고리즘 그 자체는 이미 1960년대부터 알려지기 시작하여 더 이상 큰 개선의 여지가 남아있지 않다.
결국, 색인어를 추출하는 방법이나 형태소 분석기의 성능에 따라서 검색엔진의 성능과 검색결과의 품질이 달라지게 된다.
한편, 형태소 분석기를 이용하여 색인 하는 경우를 따져보면 형태소 분석기를 통한 분석과정이 전체 색인시간의 3-40%를 차지할 정도로 중요한데, 형태소 분 석기를 통한 분석은 명사만을 추출할 것인지 모든 품사를 추출할 것인지, 기분석 사전을 사용할 것인지의 여부 등에 따라서 또한 크게 차이를 보이게 된다.
이때 기분석 사전이 주기적으로 갱신되어 신선도를 유지하고 있다면 형태소 분석에 소요되는 시간은 크게 줄어들 것임이 자명하다. 그럼에도 불구하고, 기분석 사전의 갱신은 큰 부하가 걸리는 작업일 뿐만 아니라, 충분한 데이터 축적을 요구하므로 빈번하게 이루어지기 어려운 것이 사실이며, 통상 수개월에 달하는 긴 기간마다 한번씩 갱신되는 것이 일반적이다.
본 발명은 색인 과정내에서 기분석 사전을 업데이트 함으로써 색인 자체의 속도를 향상시키고, 반복적인 분석과정을 배제할 수 있도록 하는 기분석 사전 갱신장치 및 그 방법의 제공을 목적으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 기분석 사전 갱신장치는 색인하고자 하는 문서로부터 토큰을 얻는 토큰 분석부;
상기 얻어진 토큰이 기분석 사전에 존재하는가 판단하는 기분석사전 비교부;
기분석 사전에 존재하지 않는 토큰의 형태소를 분석하는 형태소 분석부;
상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 변환부;
상기 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인하는 색인부; 및
상기 변환된 데이터를 기분석 사전에 추가하는 기분석 사전 갱신부;를 구비하는 것을 특징으로 한다.
한편, 상기와 같은 목적을 달성하기 위한 본 발명의 기분석 사전 갱신방법은 기분석 사전을 메모리에 적재하는 제 110 단계;
색인하고자 하는 문서로부터 토큰을 얻는 제 120 단계;
기분석 사전에 토큰이 존재하는지 판단하고, 없으면 형태소 분석을 하는 제 130 단계;
상기 형태소 분석결과 및 상기 토큰을 이용하여 기분석 사전의 포맷으로 변환하는 제 140 단계;
상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 150 단계; 및
상기 색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 130 단계로 분기하되, 다음 토큰이 없으면 종료하는 제 160 단계;를 구비하되,
제 130 단계 이후 상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분석결과를 이용하여 색인하는 제 131 단계;를 포함하는 것을 특징으로 한다.
한편, 상기와 같은 목적을 달성하기 위한 본 발명의 기분석 사전 갱신방법은 색인하고자 하는 문서로부터 토큰을 얻는 제 210 단계;
기분석 사전에 토큰이 존재하는지 판단하고, 존재하면 제 240 단계로 분기하되 존재하지 않으면 형태소 분석을 하는 제 220 단계;
상기 토큰 및 상기 형태소 분석결과를 저장하는 제 230 단계;
상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분석결과를 이용하여 색인하는 제 240 단계;
색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 220 단계로 분기하되, 다음 토큰이 없으면 다음 단계로 진행하는 제 250 단계;
상기 저장된 토큰 및 상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 제 260 단계;
상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 270 단계;로 이루어지는 것을 특징으로 한다.
상기와 같은 본 발명에 의하면 색인 과정에서 얻어진 데이터를 이용하여 기분석 사전을 업데이트함으로써 기분석 사전을 최신의 것으로 유지할 수 있다는 효과가 있으며,
아울러 이에 의하여 색인에 소요되는 시간(특히, 대용량 문서의 경우)을 대폭 줄일 수 있다는 효과가 있다.
검색엔진에서 색인에 소요되는 시간의 단축은 곧 검색엔진의 성능향상과 검색품질의 향상에 직접적인 영향을 주므로, 타 검색엔진 대비 경쟁력을 갖출 수 있도록 하는 효과가 있다.
이하에서는 첨부하는 도면을 참조하여 본 발명에 의한 기분석 사전 갱신장치의 구성을 상세히 살펴보기로 한다. 도 1은 본 발명에 의한 기분석 사전 갱신장치의 구성을 나타내는 기능블록도이다.
도 1에 의하면, 본 발명에 의한 기분석 사전 갱신장치(100)는 토큰 분석부(110), 기분석 사전 비교부(120), 형태소 분석부(130), 변환부(140), 색인부(150), 기분석 사전 갱신부(160), 임시저장부(170)를 구비한다.
검색엔진(Search Engine)은 문서(Document)의 색인시, 해당 문서로부터 토큰(Token)을 순차적으로 얻어온다. 한글로 이루어진 문서의 경우 어절 단위로 읽 어와 색인(Indexing)할 수 있다. 토큰 분석부(110)는 이렇듯 색인하고자 하는 문서로부터 순차적으로 토큰을 획득한다. 이때, 문서는 일반적으로 웹 문서(Web Document)일 수 있으나, 반드시 이에 한정되지는 않는다.
도 2에 도시된 예를 참조하면, 토큰 분석부(110)가 문서로부터 "대한민국의", "면적은"과 같은 어절을 순차적으로 획득함을 확인할 수 있다.
기분석 사전 비교부(120)는 토큰 분석부(110)가 문서로부터 얻어온 토큰이 기분석 사전에 포함되어 있는가 여부를 판단한다. 검색엔진의 색인시 후술하는 바와 같이 형태소 분석을 수행하여 색인어를 추출하게 되는데 이때, 기분석 사전을 이용하게 되면 기존에 형태소 분석을 한 어절과 동일한 어절에 대해서는 형태소 분석을 생략할 수 있게 된다. 일반적으로 기분석 사전은 그 용량이 매우 크기 때문에 토큰이 기분석 사전에 속하는가 여부를 판단하기 위해서는 빈번한 디스크 액세스가 발생한다. 그러나, 최근 메모리 가격의 하락으로 인해 대용량 메모리를 탑재하여 기분석 사전 전체를 메모리에 적재하는 것이 가능해졌으며 이에 의해 처리시간을 크게 줄일 수 있다. 뿐만 아니라, 메모리에 기분석 사전을 적재하는 경우 후술하는 바와 같이 기분석 사전의 신속한 업데이트가 가능한 객관적 환경이 마련된다.
한편, 형태소 분석기(130)는 상기 토큰이 기분석 사전에 존재하지 않는 경우 토큰을 분석하여 색인어를 추출한다. 이러한 형태소 분석과정은 한글의 경우 불규칙이나 음운변화 등 형태소의 형태적 변화를 분석하여 체언, 용언, 접사, 조사, 어미와 같은 품사를 나누고, 품사마다의 규칙에 따라 색인어를 추출하는 방법으로 이루어지는 것이 일반적이다.
이렇게 토큰을 형태소 분석기(130)가 분석함으로써 색인어를 추출하면 변환부(140)는 토큰과 분석결과에 해당하는 색인어를 취합하여 기분석 사전의 데이터 구조에 맞추어 포맷 변환을 수행한다.
이때, 이러한 분석결과를 색인과정이 모두 끝날 때까지 임시저장부(170)에 누적하여 파일로 저장하였다가 이후 이를 기분석 사전의 데이터 구조로 변환하여 일시에 기분석 사전에 반영하여 업데이트하거나, 또는 형태소 분석기(130)가 분석을 할 때마다 매번 그 결과를 이용 기분석 사전을 실시간으로 업데이트 할 수 있다. 기분석 사전을 실시간으로 업데이트하는 경우 메모리 가격하락으로 인해 메모리에 기분석 사전을 적재하는 것이 가능해졌기 때문에 기분석 사전에의 빈번한 액세스에도 불구하고 처리속도의 저하를 막을 수 있다.
색인부(150)는 상기 토큰 분석부(110)가 읽어온 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인한다.
한편, 기분석 사전 갱신부(160)는 상기 변환부에 의해 기분석 사전의 데이터구조로 변환된 데이터를 기분석 사전에 반영함으로써 업데이트한다. 상기에서 설명한 바와 같이 형태소 분석부(130)에 의한 분석이 이루어질 때마다 업데이트할 수도 있고, 문서에 대한 색인이 완료된 다음 일시에 업데이트할 수도 있다.
이하에서는 첨부하는 도면을 참조하여 상기와 같은 구성을 갖는 기분석 사전 갱신장치에서 기분석 사전의 업데이트가 이루어지는 과정을 살펴보기로 한다. 단, 상기에서 설명한 바와 중복되는 사항에 대해서는 그 설명을 생략한다.
도 2은 토큰 분석부가 문서로부터 토큰을 가져오는 과정을 개념적으로 설명하는 참고도이며, 도 3은 본 발명의 일 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이다.
도 3에 의하면 본 발명의 일 실시예에 의한 기분석 사전 갱신방법은 다음과 같이 이루어진다.
먼저 기분석 사전을 메모리에 적재한다(S110). 형태소 분석부(130)에 의한 형태소 분석이 이루어질 때마다 기분석 사전을 업데이트 하므로 기분석 사전에 대한 빈번한 액세스가 이루어진다. 따라서, 하드디스크와 같은 저장장치(Storage)에 저장된 채로 쓰기동작을 수행하게되면 색인과정 자체가 크게 지연될 수밖에 없다.
이후, 토큰 분석부(110)가 색인하고자 하는 문서로부터 토큰을 읽어온다(S120).
한편, 기분석 사전 비교부(120)가 기분석 사전에 상기 토큰에 해당하는 값이 존재하는가 여부를 판단하고, 있으면 S131 단계로 분기하되 없으면 형태소 분석부(130)가 상기 토큰에 대한 형태소 분석을 수행한다(S130).
형태소 분석부(130)에 의한 형태소 분석이 이루어지면, 변환부(140)가 그때마다 분석 결과와 상기 토큰을 이용하여 기분석 사전의 데이터 구조에 맞게 포맷변환을 수행한다(S140).
이후, 기분석 사전 갱신부(160)는 상기 변환된 데이터를 기분석 사전에 추가함으로써 갱신한다(S150).
한편, 기분석 사전의 상기 토큰에 해당하는 값 또는 형태소 분석결과를 이용 하여 상기 문서에 대한 색인을 한다(S131). 이러한 색인 과정은 S130단계 이후에 이루어지나 S140 및 S150 단계의 기분석 사전의 갱신과정과 비교할 때 반드시 어느것이 시간순으로 선행되어야만 하는 관계는 아니다.
기분석 사전이 갱신되면, 토큰 분석부(110)가 색인하고자 하는 문서로부터 다음 토큰을 읽어와 S130 단계로 분기한다. 만일 다음 토큰이 없는 경우 즉, 문서에 대한 색인이 완료되면 종료한다(S160).
결국, 형태소 분석을 수행할 때마다 기분석 사전을 업데이트 함으로써 하나의 문서를 색인하는 과정 내에서도 기존에 기분석 사전에 존재하지 않았던 토큰에 대해 형태소 분석을 반복하지 않아도 되는 효과가 발생한다.
도 2의 예에서 토큰 분석부(110)는 "대한민국의"라는 어절을 읽어온 다음 아랫줄에서 "대한민국의"이라는 어절을 재차 읽어온다. 이때, 기분석 사전에 "대한민국의"에 해당하는 값이 존재하지 않으면 동일 문서 내에서도 반복하여 형태소 분석을 하게 되는데, 상기와 같은 과정을 통해 이러한 문제점이 해소된다.
특히, 같은 어절이 자주 반복되는 대용량 문서의 경우 전체 색인 속도의 비약적인 향상이 가능하다.
한편, 이하에서는 첨부하는 도면을 참조하여 본 발명의 이실시예에 의한 기분석 사전 갱신방법을 살펴보기로 한다. 도 4는 본 발명의 이 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이다.
본 발명의 이 실시예는 문서에 대한 색인이 완료되면 누적하여 저장해두었던 형태소 분석결과 파일을 이용하여 기분석 사전을 갱신한다.
먼저 토큰 분석부(110)가 색인하고자 하는 문서로부터 토큰을 읽어온다(S210).
이후, 기분석 사전 비교부(120)는 기분석 사전에 상기 토큰에 해당하는 값이 존재하는가 여부를 판단하고, 존재하면 S240 단계로 분기하되, 존재하지 않으면 형태소 분석부(130)가 상기 토큰에 대한 형태소 분석을 수행한다(S220).
그 다음 임시저장부(170)에 토큰 및 형태소 분석결과를 저장하는데, 기 저장된 데이터가 존재하는 경우 누적하여 저장한다(S230).
한편, 색인부(150)는 기분석 사전의 상기 토큰에 해당하는 값 또는 상기 토큰에 대한 형태소 분석결과를 이용하여 색인을 진행한다(S240).
이때, 임시저장부(170)에 토큰 및 형태소 분석결과를 저장하는 S230 단계와 색인을 진행하는 S240 단계는 반드시 시간적으로 어느 것이 선행되어야 하는 것은 아니며, 그 반대여도 무방한 서로 병렬적인 관계이다.
이후, 토큰 분석부(110)는 색인하고자 하는 문서에 다음 토큰을 존재하는가 여부를 판단하여 존재하면 다음 토큰을 읽어와 S220 단계로 분기하되, 다음 토큰이 존재하지 않는 경우, 즉 문서에 대한 색인이 완료된 경우 다음 단계로 진행한다(S250).
색인이 완료되면 변환부(140)는 상기 임시저장부(170)에 저장된 토큰 및 이에 대한 형태소 분석결과를 기분석 사전의 데이터 구조에 적합하게 포맷변환을 수행한다(S260).
이후, 기분석 사전 갱신부(160)가 변환된 데이터를 기분석 사전에 추가함으로써 갱신한다(S270).
이상 몇가지의 실시예를 들어 본 발명을 상세히 살펴보았으나 본 발명은 이러한 실시예에 국한되어 해석되지 아니하며, 특허청구범위에 기재된 기술적 사상의 범위 내에서 자유롭게 변형 실시, 해석되어야 한다.
도 1은 본 발명에 의한 기분석 사전 갱신장치의 구성을 나타내는 기능블록도이며,
도 2은 토큰 분석부가 문서로부터 토큰을 가져오는 과정을 개념적으로 설명하는 참고도이며,
도 3은 본 발명의 일 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이며,
도 4는 본 발명의 이 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이다.
<도면의 주요 부분에 대한 부호의 설명>
110 : 토큰 분석부 120 : 기분석 사전 비교부
130 : 형태소 분석부 140 : 변환부
150 : 색인부 160 : 기분석 사전 갱신부
170 : 임시 저장부

Claims (11)

  1. 검색엔진의 색인시 사용되는 기분석 사전을 갱신하는 방법으로서 기분석 사전 갱신장치에서 실행되는 방법에 있어서,
    기분석 사전을 메모리에 적재하는 제 110 단계;
    색인하고자 하는 문서로부터 토큰을 얻는 제 120 단계;
    기분석 사전에 상기 획득한 토큰에 해당하는 항목이 존재하는지 판단하고, 없으면 형태소 분석을 하는 제 130 단계;
    상기 형태소 분석결과 및 상기 토큰을 이용하여 기분석 사전의 포맷으로 변환하는 제 140 단계; 및
    상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 150 단계;로 이루어지는 것을 특징으로 하는 기분석 사전 갱신방법.
  2. 제 1 항에 있어서,
    상기 색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 130 단계로 분기하되, 다음 토큰이 없으면 종료하는 제 160 단계;를 더 포함하는 것을 특징으로 하는 기분석 사전 갱신방법.
  3. 제 2 항에 있어서,
    제 130 단계 이후 상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분 석결과를 이용하여 색인하는 제 131 단계;를 더 포함하는 것을 특징으로 하는 기분석 사전 갱신방법.
  4. 제 1 항에 있어서,
    상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신방법.
  5. 검색엔진의 색인시 사용되는 기분석 사전을 갱신하는 방법으로서 기분석 사전 갱신장치에서 실행되는 방법에 있어서,
    색인하고자 하는 문서로부터 토큰을 얻는 제 210 단계;
    기분석 사전에 토큰이 존재하는지 판단하고, 존재하면 제 240 단계로 분기하되 존재하지 않으면 형태소 분석을 하는 제 220 단계;
    상기 토큰 및 상기 형태소 분석결과를 저장하는 제 230 단계;
    상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분석결과를 이용하여 색인하는 제 240 단계;
    색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 220 단계로 분기하되, 다음 토큰이 없으면 다음 단계로 진행하는 제 250 단계;
    상기 저장된 토큰 및 상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 제 260 단계;
    상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 270 단계;로 이루어지는 것을 특징으로 하는 기분석 사전 갱신방법.
  6. 제 5 항에 있어서,
    상기 제 210 단계 이전에 기분석 사전을 메모리에 적재하는 단계;를 더 구비하는 것을 특징으로 하는 기분석 사전 갱신방법.
  7. 제 5 항에 있어서,
    상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신방법.
  8. 색인하고자 하는 문서로부터 토큰을 얻는 토큰 분석부;
    상기 얻어진 토큰이 기분석 사전에 존재하는가 판단하는 기분석사전 비교부;
    기분석 사전에 존재하지 않는 토큰의 형태소를 분석하는 형태소 분석부;
    상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 변환부;
    상기 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인하는 색인부; 및
    상기 변환된 데이터를 기분석 사전에 추가하는 기분석 사전 갱신부;를 구비 하는 것을 특징으로 하는 기분석 사전 갱신장치.
  9. 제 8 항에 있어서,
    상기 변환부는 상기 형태소 분석부가 토큰에 대한 형태소를 분석할 때마다 분석결과를 기분석 사전의 포맷으로 변환하는 것을 특징으로 하는 기분석 사전 갱신장치.
  10. 제 8 항에 있어서,
    형태소 분석기가 분석한 데이터를 저장하는 임시 저장부;를 더 구비하되,
    상기 변환부는 상기 색인부를 통하여 상기 색인하고자 하는 문서에 대한 색인이 완료되면 상기 형태소 분석기가 분석한 결과를 기분석 사전의 포맷으로 변환하는 것을 특징으로 하는 기분석 사전 갱신장치.
  11. 제 8 항에 있어서,
    상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신장치.
KR1020080138604A 2008-12-31 2008-12-31 기분석 사전 갱신장치 및 그 방법 KR101049984B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080138604A KR101049984B1 (ko) 2008-12-31 2008-12-31 기분석 사전 갱신장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080138604A KR101049984B1 (ko) 2008-12-31 2008-12-31 기분석 사전 갱신장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100079992A KR20100079992A (ko) 2010-07-08
KR101049984B1 true KR101049984B1 (ko) 2011-07-19

Family

ID=42641009

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080138604A KR101049984B1 (ko) 2008-12-31 2008-12-31 기분석 사전 갱신장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101049984B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102347887B1 (ko) * 2015-10-30 2022-01-05 삼성에스디에스 주식회사 검색 엔진을 이용한 타임라인 관리 방법 및 그 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템

Also Published As

Publication number Publication date
KR20100079992A (ko) 2010-07-08

Similar Documents

Publication Publication Date Title
US9195738B2 (en) Tokenization platform
KR101122942B1 (ko) 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템
US8577155B2 (en) System and method for duplicate text recognition
US9552349B2 (en) Methods and apparatus for performing spelling corrections using one or more variant hash tables
CN107688488B (zh) 一种基于元数据的任务调度的优化方法及装置
US7941418B2 (en) Dynamic corpus generation
JP5629976B2 (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
KR101049984B1 (ko) 기분석 사전 갱신장치 및 그 방법
CN116340365B (zh) 一种缓存数据的匹配方法、匹配装置及终端设备
JP5145288B2 (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
US8438010B2 (en) Efficient stemming of semitic languages
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
CN115455040A (zh) 提高数据库sql查询效率的方法、装置、设备、介质
Kasthuri et al. An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering
Winarti et al. Improving stemming algorithm using morphological rules
JP5374938B2 (ja) 関連情報登録装置、関連情報登録方法および関連情報登録プログラム
JP4253483B2 (ja) 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
Fatmawati et al. Implementation of the common phrase index method on the phrase query for information retrieval
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
WO2020203276A1 (ja) 新語候補抽出装置、新語候補抽出方法、及びプログラム
JP5642229B2 (ja) 重要性判定システム、重要性判定方法及びコンピュータプログラム
US20230195734A1 (en) Machine learning enabled real time query handling system and method
JP2010140107A (ja) 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2007149022A (ja) 文書特徴抽出装置、方法及びプログラム
JP2010186349A (ja) 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140702

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150708

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160704

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170627

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180620

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190625

Year of fee payment: 9