KR20160056983A - 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법 - Google Patents

미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법 Download PDF

Info

Publication number
KR20160056983A
KR20160056983A KR1020140156951A KR20140156951A KR20160056983A KR 20160056983 A KR20160056983 A KR 20160056983A KR 1020140156951 A KR1020140156951 A KR 1020140156951A KR 20140156951 A KR20140156951 A KR 20140156951A KR 20160056983 A KR20160056983 A KR 20160056983A
Authority
KR
South Korea
Prior art keywords
dictionary
unregistered
unregistered word
word
morpheme
Prior art date
Application number
KR1020140156951A
Other languages
English (en)
Inventor
이충희
김현기
류법모
배용진
오효정
임수종
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140156951A priority Critical patent/KR20160056983A/ko
Priority to US14/939,016 priority patent/US20160132485A1/en
Publication of KR20160056983A publication Critical patent/KR20160056983A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에서는 언어 독립적인 미등록어 자동 추출 방법에 기반해서 미등록어를 자동으로 추출하고, 자동 추출된 미등록어를 기반으로 형태소 사전을 구축해서 자동평가 기반으로 사전 및 형태소분석 성능을 검증한다. 최종 검증을 통과해서 성능 개선에 유용한 사전만으로 형태소 사전을 지속적으로 구축하기 때문에 본 발명에 따르면 새로운 분야의 미등록어나 시간의 흐름에 따라 새로 등장하는 신조어에 대해서도 형태소분석이 제대로 수행될 수 있도록 하는 이점을 제공한다.

Description

미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법 {SYSTEM AND METHOD FOR GENERATING MORPHEME DICTIONARY BASED ON AUTOMATIC EXTRACTION OF UNKNOWN WORDS}
본 발명은 형태소 사전을 구축하는 시스템 및 방법에 관한 것으로서, 구체적으로는, 새로운 분야의 문서들로부터 미등록어를 추출하고 추출된 미등록어를 포함하는 형태소 사전을 구축하여 새로운 분야에 대한 형태소분석의 성능을 개선하는 형태소 사전 구축 시스템 및 방법에 관한 것이다.
형태소는 언어학에서 의미를 가진 최소 단위를 나타내며, 형태소분석기는 텍스트를 문맥에 가장 알맞은 형태소 단위로 분석하는 기능을 수행한다. 형태소분석기는 일반적으로 규칙 및 사전에 기반한 방법과 기계학습 방법에 기반한 방법으로 구분될 수 있다.
형태소분석과 관련된 논문인 "MACH: A Supersonic Korean Morphological Analyze(K.S. Shim, J.H. Yang, 2002)"에서는 사전에 기반하여 어절별로 가능한 모든 형태소 후보를 출력하고, 규칙에 기반하여 주변 문맥과 가장 알맞은 후보 1개를 선택한다.
이러한 방법은 분야가 한정적이어서 규칙이나 사전을 잘 만든 경우에는 매우 높은 형태소분석 성능을 달성할 수 있다. 하지만 규칙이나 사전을 수작업으로 만들기 때문에 비용이 많이 들고 분야가 달라지는 경우에는 성능이 낮아지는 문제점을 가진다.
다른 관련 논문인 "Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments (Kevin Gimpel, Nathan Schneider, Brendan O' Connor, Dipanjan Das, Daniel Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey Flanigan, and Noah A. Smith, 2011)"에서는 형태소분석 결과가 태깅된 학습데이터를 수작업으로 구축하고, 학습데이터로부터 주변 문맥정보를 자질로 추출하고 분류모델을 학습해서 형태소를 분석하는 기술을 소개한다.
이런 방법은 학습데이터가 잘 구축되어 있으면 형태소분석 성능이 우수한 장점이 있고, 새로운 분야에 대한 학습데이터만 잘 구축하면 엔진을 많이 수정하지 않고도 다양한 분야에 대한 형태소분석이 가능한 이점이 있다. 하지만 학습데이터 구축을 수작업으로 구축하는 비용이 많이 들기 때문에 현실적으로 분야가 바뀌면 성능이 낮아지는 문제점을 동일하게 가진다.
형태소분석과 관련된 특허인 "SEMI-SUPERVISED PART-OF-SPEECH TAGGING(US 8,275,607 B2)"에서는 사전에 기반하여 각 단어에 품사를 할당하고 사전에 없는 단어들에 대해서는 주변 문맥정보를 자질로 사용하여 베이지안 확률 값을 구해서 가장 알맞은 품사를 할당한다.
이 방법도 수작업으로 구축된 사전 및 학습셋을 필요로 하기 때문에 분야가 달라지면 성능이 낮아지는 문제점을 동일하게 가진다.
전술한 형태소분석과 관련된 연구, 특허에서 나타나는 형태소분석의 문제점은 데이터로 구축된 분야의 단어들에 대해서는 제대로 형태소분석이 되지만, 분야가 달라지면서 나타나는 미등록어나 시간의 흐름에 따라 새롭게 등장하는 미등록어에 대해서는 제대로 분석하지 못한다는 것이다.
이러한 신조어나 미등록어를 자동으로 추출하는 연구로는 "신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현(김동의, 이상곤, 2013)"이 있다.
이 연구에서는 뉴스와 같은 언론 자료를 수집하고 수집된 문서의 단어들에 대해서 초성/중성/종성을 분리하고 어미와 조사를 자동을 제거하여 단어 목록을 작성한다. 작성된 단어들 중에서 표준국어대사전의 표제어와 기존 신어 목록에 있는 단어들은 제거하여 미등록어 리스트를 작성한다. 그리고 작성된 미등록어 리스트들에 대해서는 수작업으로 미등록어 여부를 확정한다.
그러나 이 방법은 어미와 조사 등에 대한 목록을 미리 가지고 있어야 하므로 다른 언어에 대해서 그대로 적용할 수 없는 문제점이 있고, 미등록어 후보는 자동으로 추출하지만 최종적인 미등록어 여부는 사람이 판단해야하므로 미등록어 추출에 시간과 비용이 많이 드는 문제점이 존재한다.
본 발명은 전술한 문제점을 해결하기 위하여, 언어 독립적인 방법으로 미등록어를 자동으로 추출하고 추출된 미등록어를 기반으로 형태소 사전을 구축함으로써, 새로운 분야의 미등록어나 시간의 흐름에 따라 새로 등장하는 신조어에 대해서도 형태소분석이 제대로 동작할 수 있도록 하는 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 일면에 따르면, 수집된 문서에 포함된 미등록어의 빈도에 기초하여 제1 미등록어 사전을 생성하고 상기 제1 미등록어 사전에 포함된 미등록어를 포함하는 문맥의 패턴 분석을 통해 제2 미등록어 사전을 생성하는 미등록어추출부; 상기 제1 미등록어 사전과 상기 제2 미등록어 사전에 포함된 미등록어에 가중치를 부여하고 부여된 가중치에 따라 제3 미등록어 사전을 생성하는 미등록어검증부; 및 상기 제3 미등록어 사전을 이용하여 제1 평가셋의 형태소분석을 수행하고 상기 형태소분석 결과에 따라 제2 평가셋을 생성하며 상기 제2 평가셋의 형태소분석 결과에 따라 형태소 사전을 생성하는 형태소사전구축부를 포함하는 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템을 제공한다.
상기 미등록어추출부는, 상기 수집된 문서에서 동일한 유형의 토큰을 추출하고 추출된 토큰 중에서 사전에 기등록된 단어를 제거하며, 나머지 토큰 중 추출된 빈도가 기설정된 범위 이내인 토큰을 상기 제1 미등록어 사전에 저장한다.
상기 미등록어추출부는, 상기 제1 미등록어 사전에 포함된 미등록어를 포함하는 문장을 검색하고 검색된 문장에서 상기 미등록어를 중심으로 좌우 문맥을 패턴으로 생성하며, 상기 생성된 패턴과 동일한 패턴을 포함하는 문장을 검색하고 검색된 문장에서 상기 제1 미등록어 사전에 포함된 미등록어와 동일한 위치에 있는 미등록어를 추출한다. 그리고 상기 추출된 미등록어 중 사전에 기등록된 단어를 제거하고 나머지 미등록어 중 추출된 빈도가 기설정된 범위 이내인 미등록어를 상기 제2 미등록어 사전에 저장한다.
상기 미등록어추출부는, 상기 수집된 문서에서 미등록어가 추출되지 않을 때까지 상기 제1 미등록어 사전과 상기 제2 미등록어 사전의 생성 과정을 반복한다.
상기 미등록어검증부는, 상기 제1 미등록어 사전과 상기 제2 미등록어 사전에 포함된 미등록어의 빈도와 부여된 가중치를 곱하여 각 미등록어의 점수를 계산하고 계산된 점수가 기설정된 값 이상인 미등록어를 상기 제3 미등록어 사전에 저장한다.
상기 형태소사전구축부는, 상기 제3 미등록어 사전을 이용한 상기 제1 평가셋의 형태소분석 결과가 상기 제1 평가셋의 이전 분석 결과보다 낮지 않으면 상기 제1 평가셋의 명사 형태소를 상기 제3 미등록어 사전에 포함된 단어들로 변환하여 상기 제2 평가셋을 생성하고, 상기 제3 미등록어 사전을 이용한 상기 제2 평가셋의 형태소분석 결과가 상기 제2 평가셋의 이전 분석 결과보다 높으면 상기 제3 미등록어 사전을 상기 형태소 사전으로 생성한다.
본 발명의 다른 일면에 따르면, 수집된 문서에 포함된 미등록어를 추출하는 단계; 상기 추출된 미등록어를 검증하고 미등록어 사전을 생성하는 단계; 상기 생성된 미등록어 사전을 이용하여 평가셋의 형태소분석을 수행하는 단계; 및 상기 형태소분석의 결과에 따라 상기 생성된 미등록어 사전을 형태소 사전으로 구축하는 단계를 포함하는 미등록어 자동 추출에 기반한 형태소 사전 구축 방법을 제공한다.
본 발명에 따르면, 새로운 분야에 등장하는 미등록어를 자동으로 추출하여 형태소 사전을 구축함으로써 새로운 분야에서 형태소분석 성능이 낮아지는 문제를 개선한다. 또한, 새로운 문서를 지속적으로 수집하여 기존의 형태소 사전을 지속적으로 확장/개선함으로써 기존 형태소분석기의 성능을 지속적으로 개선할 수 있도록 한다.
도 1은 본 발명의 일실시예에 따른 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템의 구조를 나타낸 블록도이다.
도 2 내지 도 5는 본 발명의 일실시예에 따른 미등록어 자동 추출에 기반한 형태소 사전 구축 방법의 과정을 나타낸 흐름도이다.
도 6 내지 도 8은 본 발명의 일실시예에 따른 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템을 자연어 질의응답 시스템에 적용한 실시예를 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자에 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가함을 배제하지 않는다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템의 구조를 나타낸 것이다.
본 발명의 일실시예에 따른 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템은 문서수집부(100), 미등록어추출부(110), 미등록어검증부(120) 및 형태소사전구축부(130)를 포함한다.
문서수집부(100)는 뉴스, 블로그, 트위터 등에서 매일 작성되는 새로운 문서를 수집하거나 형태소분석기가 개발된 분야가 아닌 새로운 분야에 대한 문서를 수집한다. 문서 수집은 일반적인 기능으로 본 발명에서는 특정 문서나 특정 수집 방법으로 한정하지 않는다.
미등록어추출부(110)는 문서수집부(100)에 의해 수집된 문서로부터 미등록어를 추출하며, 제1 미등록어사전생성부(111)와 제2 미등록어사전생성부(112)를 포함한다.
제1 미등록어사전생성부(111)는 수집된 문서에 포함된 미등록어의 빈도에 기반하여 미등록어를 추출하며, 새로 수집된 문서들로부터 동일 유형의 토큰을 추출하고 추출된 토큰의 빈도를 기반으로 1차 미등록어를 자동으로 추출하여 제1 미등록어 사전을 생성한다.
제2 미등록어사전생성부(112)는 제1 미등록어사전생성부(111)에 의해 추출된 1차 미등록어의 패턴에 기반하여 미등록어를 추출한다. 1차 미등록어를 기반으로 미등록어 출현 문장을 자동으로 검색하고, 검색된 문장들로부터 미등록어 주변 문맥정보를 패턴화하며, 생성된 패턴을 수집된 문서에 적용하여 2차 미등록어를 자동으로 추출하여 제2 미등록어 사전을 생성한다.
미등록어추출부(110)는 생성된 제1 미등록어 사전과 제2 미등록어 사전을 미등록어검증부(120)로 전달한다.
미등록어검증부(120)는 제1 미등록어 사전과 제2 미등록어 사전에 포함된 미등록어를 통합하여 제3 미등록어 사전을 생성한다. 1차 미등록어와 2차 미등록어를 기반으로 공통 미등록어 > 2차 미등록어 > 1차 미등록어 순으로 가중치를 부여하여 순위화하고 상위 N개를 최종 미등록어로 추출하여 제3 미등록어 사전을 생성한다.
미등록어검증부(120)는 생성된 제3 미등록어 사전을 형태소사전구축부(130)로 전달한다.
형태소사전구축부(130)는 자동으로 추출된 미등록어는 명사라고 가정해서 형태소 사전을 구축하고, 신규 사전을 기반으로 형태소분석을 한 결과를 자동으로 평가해서 신규 사전을 검증한다. 미등록어 기반 신규 사전이 유용하다고 검증되면 미등록어를 기반으로 기존 평가셋(제1 평가셋)의 명사들을 치환해서 새로운 평가셋(제2 평가셋)을 생성한다. 수정된 평가셋(제2 평가셋)을 이용해서 신규 사전 기반 형태소분석 결과를 자동으로 평가해서 최종적으로 평태소분석 성능 개선 여부를 검증한다.
이하, 도 2 내지 도 5를 참조하여 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템의 작동 과정을 구체적으로 설명한다.
도 2는 제1 미등록어사전생성부(111)가 수집된 문서에 포함된 미등록어의 빈도에 기반하여 1차 미등록어를 추출하고 제1 미등록어 사전을 생성하는 과정을 나타낸 것이다.
제1 미등록어사전생성부(111)는 수집된 문서로부터 동일 유형의 토큰을 추출하고(S200), 추출된 토큰에 대한 사전 기반 필터링(S210), 빈도 기반 필터링(S220)을 수행하며, 필터링 과정을 거친 1차 미등록어를 저장하여(S230) 제1 미등록어 사전을 생성한다(S240).
수집된 문서로부터 동일 유형의 토큰을 추출하는 과정(S200)은 수집된 문서를 어절별로 동일 유형의 토큰을 분리한다. 동일 유형의 토큰은 국가별 언어, 심볼 등을 의미하며, 동일 유형의 토큰 추출의 실시예는 다음과 같다.
문장: 영국 중앙은행인 영란은행(BOE)과 베렌버그 은행(독일)도 공감했다.
상기 문장에 대한 어절별 토큰 추출 결과는 아래 표 1과 같다.
어절 토큰 분리 결과
영국 영국
중앙은행인 중앙은행인
영란은행(BOE)과 영란은행
(
BOE
)
베렌버그 베렌버그
은행(독일)도 은행
(
독일
)
공감했다. 공감했다
.
제1 미등록어사전생성부(111)는 추출된 토큰에 대한 사전 기반 필터링을 수행한다(S210). 사전 기반 필터링은 S200 단계에서 추출된 토큰들 중에 사전에 이미 등록된 단어들을 제거하는 기능을 수행한다.
사전 기반 필터링 과정에서 사용하는 사전은 형태소분석을 위해 기존에 구축된 사전이나 전자사전으로 구축된 단어 사전 등을 모두 포함하며 특정 사전으로 한정하지 않는다.
기존 사전에 등록된 단어와의 일치 여부는 토큰과 사전의 단어가 완전히 일치하는 경우와 토큰의 일부가 사전에 단어로 등록된 경우를 모두 고려한다. 또한, 심볼은 미등록어 대상이 아니므로 S210 단계에서 무조건 제거한다.
전술한 실시예에 대한 사전 기반 필터링 결과는 아래 표 2와 같다.
사전 단어: 영국, 은행, 중앙, 독일, 공감
S200: 토큰 리스트 S210: 사전 기반 필터링 결과
영국
중앙은행인
영란은행
(
BOE
)
BOE
베렌버그 베렌버그
은행
(
독일
)
공감했다
.
추출된 토큰에 대한 사전 기반 필터링이 완료되면 사전 기반 필터링에서 제거되고 남은 토큰들을 대상으로 빈도 기반 필터링을 수행한다(S220).
빈도 기반 필터링 과정에서는 S210 단계에서 필터링되고 남은 토큰들을 대상으로 수집된 문서에서의 빈도를 계산한다. 빈도는 대상 토큰이 1개 어절의 부분문자로 사용된 경우도 모두 고려해서 계산한다. 빈도 계산의 예제는 다음과 같다.
수집된 문서(빈도 계산에 사용된 토큰에 대해서 밑줄 표시)
영국 독일의 중앙은행은 BOE베렌버그이다. BOE의 설립연는 1901년이고 베렌버그는 1920년이다. BOE의 설립자는 영국인으로 남성인데 베렌버그도 남성이다. 독일(이칠란드)의...
토큰별 빈도
- BOE: 3
- 과: 1
- 베렌버그: 3
- 도: 3
빈도를 계산한 이후에는 빈도가 min과 max 사이에 있는 토큰만을 남기고 나머지는 제거한다. min과 max의 값은 실험을 통해서 최적의 값을 찾을 수 있으며 본 발명에서 특정 값으로 한정하지는 않는다.
위의 실시예는 빈도 계산의 예를 들기 위한 일부 문서이므로 "과", "도"의 빈도가 매우 낮게 나왔지만 실제로 "과", "도"와 같은 형식형태소는 전체 문서에서 매우 높은 빈도로 나오게 되므로 max 값보다 높을 확률이 높다. 그러므로 S220 단계를 거치면 BOE와 베렌버그만 토큰으로 남게 된다.
제1 미등록어사전생성부(111)는 전술한 과정을 통해 남은 토큰들을 1차 미등록어로 저장하여(S230) 제1 미등록어 사전을 생성한다(S240). 미등록어 저장시에는 토큰과 빈도 정보를 같이 저장한다. 저장 포맷은 자유롭게 정할 수 있으므로 본 발명에서 구체적으로 한정하지 않는다.
도 3은 제2 미등록어사전생성부(112)가 제1 미등록어 사전에 포함된 1차 미등록어의 패턴에 기반하여 2차 미등록어를 추출하는 과정을 나타낸 것이다.
제2 미등록어사전생성부(112)는 제1 미등록어사전생성부(111)에 의해 생성된 제1 미등록어 사전에 포함된 1차 미등록어들이 출현한 문장들을 검색한다(S300). 문장 검색 방법은 자체적으로 구현한 검색기를 사용하거나 오픈 소스로 배포된 검색기 등을 자유롭게 사용할 수 있으므로 본 발명에서는 특정 검색기로 한정하지 않는다.
전술한 실시예에 따라 제1 미등록어사전생성부(111)가 생성한 제1 미등록어 사전에 포함된 1차 미등록어에 기반한 문장검색의 결과의 예는 아래 표 3과 같다.
미등록어 문장검색결과
BOE 이 계약은 탑엔지니어링이 지난 2012년 BOE에 디스펜서를 납품한 이후 추가 공급한 것이다.
베렌버그 베렌버그 은행의 이코노미스트는 "ZEW 경기신뢰지수 하락은 우크라이나 사태로 인해 독일과 유로존 경기가 단기적으로 둔화될 위험을 확인시켜주고 있다"고 말했다.
제2 미등록어사전생성부(112)는 검색된 문장들로부터 미등록어를 중심으로 좌우 문맥정보를 패턴으로 구축한다(S310).
패턴으로 고려할 문맥정보의 거리는 실험을 통해서 최적 값을 찾아야 하므로 본 발명에서 특정 값으로 한정하지 않는다. 패턴은 정규식 등으로 표현할 수 있고, 자체적으로 분석이 가능한 형태로 만들 수도 있다.
S300 단계의 검색결과에 대한 패턴 구축의 예는 아래 표 4와 같다.
미등록어 BOE
문장검색결과 이 계약은 탑엔지니어링이 지난 2012년 BOE에 디스펜서를 납품한 이후 추가 공급한 것이다.
패턴 결과
(문맥거리:2)
지난 <숫자>년 < NE >에 <토큰>를 납품한
제2 미등록어사전생성부(112)는 1차 미등록어를 이용하여 패턴을 구축하면, 생성된 패턴에 일치하는 문장을 찾아서 개체명 부분인 <NE>에 해당하는 토큰을 2차 미등록어 후보로 추출한다(S320).
패턴에 기반하여 추출된 2차 미등록어의 예는 아래 표 5와 같다.
패턴 결과
(문맥거리:2)
지난 <숫자>년 <NE>에 <토큰>를 납품한
문장 ... 지난 2010년 이륙테크에 에나멜동선을 납품한 ...
... 지난 2011년 철도시설공단에 CCTV장비를 납품한 ...
미등록어후보 이륙테크
철도시설공단
제2 미등록어사전생성부(112)는 2차 미등록어의 후보가 추출되면 추출된 미등록어에 대한 사전 기반 필터링을 수행한다(S330).
S320에서 추출된 미등록어 후보들 중 사전이 이미 등록된 단어들을 제거하며, 사전 기반 필터링에서 사용하는 사전은 형태소분석을 위해 기존에 구축된 사전이나 전자사전으로 구축된 단어 사전 등을 모두 포함하며 특정 사전으로 한정하지 않는다. 기존 사전에 등록된 단어와의 일치 여부는 토큰과 사전의 단어가 완전히 일치하는 경우와 토큰의 일부가 사전에 단어로 등록된 경우를 모두 고려한다. 또한, 심볼은 미등록어 대상이 아니므로 무조건 제거한다.
제2 미등록어사전생성부는(112)는 사전 기반 필터링이 완료되고 남은 미등록어들을 대상으로 빈도 기반 필터링을 수행한다(S340).
남은 미등록어가 수집된 문서에 등장한 빈도를 계산하고 계산된 빈도가 min과 max 사이인 미등록어만 남기고 나머지는 제거한다. min과 max의 값은 실험을 통해서 최적의 값을 찾으며 본 발명에서 특정 값으로 한정하지 않는다.
제2 미등록어사전생성부(112)는 사전 기반 필터링과 빈도 기반 필터링을 통해 남은 미등록어를 제2 미등록어 사전에 저장하며(S350), 저장된 미등록어에 대하여 전술한 2차 미등록어 추출 과정을 수집된 문서에서 새로운 미등록어가 발견되지 않을 때까지 반복하여 수행한다.
도 4는 미등록어검증부(120)가 제1 미등록어사전생성부(111)와 제2 미등록어사전생성부(112)에 의해 생성된 미등록어를 통합하고 검증하는 과정을 나타낸 것이다.
미등록어검증부(120)는 빈도 기반 미등록어 추출의 결과물인 제1 미등록어 사전과 패턴 기반 미등록어 추출의 결과물인 제2 미등록어 사전을 통합한다(S400). 제1 미등록어 사전과 제2 미등록어 사전의 미등록어 중 동일한 미등록어에 대해서 각각의 빈도를 더해서 저장하고 각각 나타난 미등록어는 각각의 빈도만으로 저장한다.
미등록어검증부(120)는 S400 단계에서 통합된 미등록어에 대해 가중치를 부여하고(S410), 부여된 가중치에 기반한 필터링을 수행한다(S420).
미등록어검증부(120)는 아래 수학식 1, 2, 3을 통해 통합된 미등록어에 대한 점수를 계산할 수 있다.
Figure pat00001
Figure pat00002
Figure pat00003
이때,
Figure pat00004
는 제1 미등록어 사전과 제2 미등록어 사전에 동시에 출현한 미등록어를 의미하고,
Figure pat00005
는 제1 미등록어 사전에 출현한 미등록어를 의미하며,
Figure pat00006
는 제2 미등록어 사전에 출현한 미등록어를 의미한다. 그리고
Figure pat00007
는 미등록어
Figure pat00008
의 빈도,
Figure pat00009
Figure pat00010
의 가중치,
Figure pat00011
Figure pat00012
의 가중치,
Figure pat00013
Figure pat00014
의 가중치를 의미한다. 가중치 값인
Figure pat00015
,
Figure pat00016
,
Figure pat00017
는 실험을 통해서 최적 값을 구하고,
Figure pat00018
로 설정한다.
미등록어검증부(120)는 S410 단계에서 계산된 각 미등록어별 점수를 기반으로 모든 미등록어를 순위화하고 점수가 특정 임계값을 넘는 상위 N개의 미등록어만을 추출하여 제3 미등록어 사전으로 저장한다(S430). 임계값은 분야나 문서의 종류에 따라 최적 값을 구해야 하므로 본 발명에서 특정 값으로 한정하지는 않는다.
도 5는 형태소사전구축부(130)가 미등록어 추출 과정을 통해 구축된 제3 미등록어 사전을 이용하여 형태소 사전을 구축하고 구축된 형태소 사전을 자동으로 검증하고 저장하는 과정을 나타낸 것이다.
형태소사전구축부(130)는 미등록어 추출 과정을 통해 구축된 제3 미등록어 사전을 형태소 사전 포맷으로 재구축하여 미등록어 기반 사전을 생성한다(S500).
형태소 사전 포맷은 1개로 표준화된 것이 없으므로, 사용되는 형태소분석기 사전 포맷에 맞춰서 만들어준다. 본 발명에서는 형태소분석에서의 미등록어들이 대부분 명사인 경우가 많으므로, 자동으로 발견된 미등록어를 무조건 명사로 사전에 등록한다. 전술한 과정을 통해 생성된 형태소 사전의 예는 아래 표 6과 같다.
제3 미등록어 사전 이륙테크 240.89
철도시설공단 110.67
...
형태소 사전 이륙테크 NNG
철도시설공단 NNG
형태소사전구축부(130)는 S500 단계를 통해 구축된 신규 형태소 사전을 이용하여 제1 평가셋에 대한 형태소분석 성능을 자동으로 평가한다(S510).
제1 평가셋은 새로 추가된 미등록어와 상관없이 기존 형태소분석기를 평가하기 위해서 이미 가지고 있던 평가셋을 그대로 사용한다.
형식형태소나 기존 형태소의 부분 문자가 미등록어로 잘못 만들어지는 경우에는 기존 평가셋에 대해서 성능 저하를 일으키므로, 본 과정을 통해 새로 추출된 미등록어로 만들어진 형태소 사전을 이용한 경우에 형태소분석 성능이 이전보다 떨어지는지 여부를 평가한다. 평가 결과가 이전 성능보다 떨어지면 새로 구축된 미등록어가 문제가 있는 것으로 판단해서 형태소 사전으로 사용하지 않고 이번 단계에서 종료하며, 성능이 동일하거나 높은 경우에만 다음 단계로 진행한다.
형태소사전구축부(130)는 신규 형태소 사전을 이용한 제1 평가셋에 대한 형태소분석 성능이 이전 성능보다 낮지 않으면, 제1 평가셋의 모든 명사 형태소를 제3 미등록어 사전의 단어들로 변환해서 새로운 평가셋인 제2 평가셋을 구축한다(S520).
그리고 생성된 제2 평가셋을 대상으로 신규 형태소 사전을 이용해서 평가하는 과정을 수행한다(S530). S530 단계에서의 평가 성능이 이전 분석기의 성능보다 높은 경우에만 신규 사전이 검증을 통과한 것으로 판단해서 신규 사전을 형태소 사전으로 구축한다(S540).
전술한 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법은 형태소분석기의 성능 개선을 통해 자연어 질의응답(Natural Language Question Answering), 정보 추출(Information Extraction), 텍스트 마이닝(Text Mining), 텍스트 빅데이터 분석 등의 기술을 지원할 수 있다.
구체적으로 예를 들어 설명하면, 자연어 질의응답 서비스는 "이순신이 죽은 전투는?"과 같은 자연어 질문에 대해서 시스템이 자동으로 "노량 해전"이라는 정답을 제시해주는 서비스이다.
이러한 자연어 질의응답 서비스는 질문과 문서에 대해서 언어분석을 통한 의미 파악이 선행되어야 하기 때문에 본 발명은 형태소분석 성능 개선을 통한 정확한 질의응답 서비스를 지원할 수 있다.
예컨대, 스포츠나 의료와 같은 특정 도메인에 대해서 특화된 질의응답 시스템의 경우에 "북한에서는 대장장이를 야장공이라고 하는데, 까까쟁이라는 직업은 어떤 것을 말하는 것일까요?"라는 새로운 분야의 질문에 대해서 "야장공"과 "까까쟁이"와 같이 특수한 단어에 대해서 형태소분석 오류가 발생하면서 제대로 정답을 추출할 수 없다. 하지만, 본 발명에서는 새로운 분야의 문서로부터 기존 분야에서는 미등록어였던 "야장공"과 "까까쟁이"를 명사로 자동 추출해서 형태소 사전을 구축함으로써 정확한 정답 추출이 가능하도록 지원해준다.
도 6 내지 도 8은 자연어 질의응답 시스템의 오분석의 예와 본 발명의 일실시예에 따른 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법을 통해 자연어 질의응답 서비스를 지원한 예를 나타낸 것이다.
도 6에 도시된 바와 같이, "북한에서 야장공이라는 직업은 어떤 것을 말하는 것일까요?"라는 질문이 입력되면(S600) 질문 언어분석을 통해 입력된 질문에 대한 형태소분석 결과를 보여준다(S610). 그런데 질문 언어분석에서 기존 분야에 없던 "야장공"이라는 미등록어로 인해서 "야장"과 "공이"를 각각 단일명사로 오분석한다.
질문 언어분석이 완료되면 명사를 질의어로 추출하고(S620), 질의어가 출현하는 문서나 문장을 검색한다(S630). 검색결과 "북한"과 "야장"이 출현한 문장이 검색되어 "무용안무가"라는 오답을 정답으로 추출하게 된다(S640).
도 7은 본 발명에서 제안한 방법에 의해서 미등록어 "야장공"을 자동으로 추출하고 형태소 사전을 생성하는 예를 나타낸 것이다.
도 7에 도시된 바와 같이, 새로운 문서를 수집하고(S700) 수집된 문서에서 빈도 및 패턴에 기반하여 미등록어 후보를 추출하고 검증단계를 거쳐서 "야장공"을 미등록어로 추출한다(S710). 그리고 추출된 "야장공"을 명사로 형태소 사전을 구축한다(S720).
도 8은 도 7의 과정을 통해 구축된 형태소 사전을 사용하여 자연어 질의응답 시스템에서 정답을 추출하는 예를 나타낸 것이다.
종래의 자연어 질의응답 시스템에서는 미등록어로 인하여 S610 단계에서 잘못된 분석결과를 제공하지만, 도 7의 과정을 통해 구축된 형태소 사전에 의하여 질문 언어분석에서 "야장공"이 제대로 분석된다(S810). 그리고 질의어로 "야장공"이 정확히 추출되며(S820) 질의어인 "북한", "직업", "야장공"이 모두 출현하는 문장이 검색되고(S830) 질문에 대한 정답인 "대장장이"가 정답으로 정확하게 추출된다(S840).
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면, 본 발명의 본질적 특성을 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능하다. 따라서, 본 발명에 표현된 실시예들은 본 발명의 기술적 사상을 한정하는 것이 아니라, 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 권리범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 특허청구범위에 의하여 해석되어야 하고, 그와 동등하거나, 균등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 수집된 문서에 포함된 미등록어의 빈도에 기초하여 제1 미등록어 사전을 생성하고, 상기 제1 미등록어 사전에 포함된 미등록어를 포함하는 문맥의 패턴 분석을 통해 제2 미등록어 사전을 생성하는 미등록어추출부;
    상기 제1 미등록어 사전과 상기 제2 미등록어 사전에 포함된 미등록어에 가중치를 부여하고 부여된 가중치에 따라 제3 미등록어 사전을 생성하는 미등록어검증부; 및
    상기 제3 미등록어 사전을 이용하여 제1 평가셋의 형태소분석을 수행하고, 상기 형태소분석 결과에 따라 제2 평가셋을 생성하며, 상기 제2 평가셋의 형태소분석 결과에 따라 형태소 사전을 생성하는 형태소사전구축부
    를 포함하는 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  2. 제1항에 있어서, 상기 미등록어추출부는
    상기 수집된 문서에서 동일한 유형의 토큰을 추출하고 추출된 토큰 중에서 사전에 기등록된 단어를 제거하며, 나머지 토큰 중 추출된 빈도가 기설정된 범위 이내인 토큰을 상기 제1 미등록어 사전에 저장하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  3. 제1항에 있어서, 상기 미등록어추출부는
    상기 제1 미등록어 사전에 포함된 미등록어를 포함하는 문장을 검색하고 검색된 문장에서 상기 미등록어를 중심으로 좌우 문맥을 패턴으로 생성하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  4. 제3항에 있어서, 상기 미등록어추출부는
    상기 생성된 패턴과 동일한 패턴을 포함하는 문장을 검색하고 검색된 문장에서 상기 제1 미등록어 사전에 포함된 미등록어와 동일한 위치에 있는 미등록어를 추출하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  5. 제4항에 있어서, 상기 미등록어추출부는
    상기 추출된 미등록어 중 사전에 기등록된 단어를 제거하고 나머지 미등록어 중 추출된 빈도가 기설정된 범위 이내인 미등록어를 상기 제2 미등록어 사전에 저장하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  6. 제1항에 있어서, 상기 미등록어추출부는
    상기 수집된 문서에서 미등록어가 추출되지 않을 때까지 상기 제1 미등록어 사전과 상기 제2 미등록어 사전의 생성 과정을 반복하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  7. 제1항에 있어서, 상기 미등록어검증부는
    상기 제1 미등록어 사전과 상기 제2 미등록어 사전에 포함된 미등록어의 빈도와 부여된 가중치를 곱하여 각 미등록어의 점수를 계산하고 계산된 점수가 기설정된 값 이상인 미등록어를 상기 제3 미등록어 사전에 저장하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  8. 제1항에 있어서, 상기 미등록어검증부는
    상기 제1 미등록어 사전과 상기 제2 미등록어 사전에 모두 포함된 미등록어에 제1 가중치를 부여하고, 상기 제2 미등록어 사전에만 포함된 미등록어에 상기 제1 가중치보다 작은 제2 가중치를 부여하며, 상기 제1 미등록어 사전에만 포함된 미등록어에 상기 제2 가중치보다 작은 제3 가중치를 부여하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  9. 제1항에 있어서, 상기 형태소사전구축부는
    상기 제3 미등록어 사전을 이용한 상기 제1 평가셋의 형태소분석 결과가 상기 제1 평가셋의 이전 분석 결과보다 낮지 않으면 상기 제1 평가셋의 명사 형태소를 상기 제3 미등록어 사전에 포함된 단어들로 변환하여 상기 제2 평가셋을 생성하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  10. 제1항에 있어서, 상기 형태소사전구축부는
    상기 제3 미등록어 사전을 이용한 상기 제2 평가셋의 형태소분석 결과가 상기 제2 평가셋의 이전 분석 결과보다 높으면 상기 제3 미등록어 사전을 상기 형태소 사전으로 생성하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템.
  11. 수집된 문서에 포함된 미등록어를 추출하는 단계;
    상기 추출된 미등록어를 검증하고 미등록어 사전을 생성하는 단계;
    상기 생성된 미등록어 사전을 이용하여 평가셋의 형태소분석을 수행하는 단계; 및
    상기 형태소분석의 결과에 따라 상기 생성된 미등록어 사전을 형태소 사전으로 구축하는 단계
    를 포함하는 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  12. 제11항에 있어서, 상기 수집된 문서에 포함된 미등록어를 추출하는 단계는
    상기 수집된 문서에 포함된 미등록어의 빈도에 기반하여 제1 미등록어 사전을 생성하는 단계; 및
    상기 제1 미등록어 사전에 포함된 미등록어를 포함하는 문맥의 패턴 분석을 통해 제2 미등록어 사전을 생성하는 단계를 포함하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  13. 제12항에 있어서, 상기 제1 미등록어 사전을 생성하는 단계는
    상기 수집된 문서로부터 동일한 유형의 토큰을 추출하는 단계;
    상기 추출된 토큰 중 사전에 기등록된 단어를 제거하는 단계; 및
    나머지 토큰 중 빈도가 기설정된 범위 이내인 토큰을 포함하는 상기 제1 미등록어 사전을 생성하는 단계를 포함하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  14. 제12항에 있어서, 상기 제2 미등록어 사전을 생성하는 단계는
    상기 제1 미등록어 사전에 포함된 미등록어를 포함하는 문장을 검색하는 단계;
    상기 검색된 문장에서 상기 미등록어의 좌우 문맥을 패턴으로 생성하는 단계; 및
    상기 생성된 패턴과 일치하는 패턴의 문장으로부터 미등록어를 추출하여 상기 제2 미등록어 사전을 생성하는 단계를 포함하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  15. 제12항에 있어서, 상기 추출된 미등록어를 검증하고 미등록어 사전을 생성하는 단계는
    상기 제1 미등록어 사전과 상기 제2 미등록어 사전에 포함된 미등록어에 가중치를 부여하고 부여된 가중치에 따라 상기 미등록어 사전을 생성하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  16. 제15항에 있어서, 상기 추출된 미등록어를 검증하고 미등록어 사전을 생성하는 단계는
    상기 미등록어에 부여된 가중치와 상기 미등록어의 빈도를 곱하여 점수를 계산하고 계산된 점수가 기설정된 값 이상인 미등록어를 포함하는 상기 미등록어 사전을 생성하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  17. 제15항에 있어서, 상기 추출된 미등록어를 검증하고 미등록어 사전을 생성하는 단계는
    상기 제1 미등록어 사전과 상기 제2 미등록어 사전에 모두 포함된 미등록어에 제1 가중치를 부여하고, 상기 제2 미등록어 사전에만 포함된 미등록어에 상기 제1 가중치보다 작은 제2 가중치를 부여하며, 상기 제1 미등록어 사전에만 포함된 미등록어에 상기 제2 가중치보다 작은 제3 가중치를 부여하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  18. 제11항에 있어서, 상기 생성된 미등록어 사전을 이용하여 평가셋의 형태소분석을 수행하는 단계는
    상기 생성된 미등록어 사전을 이용하여 제1 평가셋의 형태소분석을 수행하는 단계; 및
    상기 형태소분석의 결과가 상기 제1 평가셋의 이전 분석 결과보다 낮지 않으면 상기 제1 평가셋에 포함된 명사 형태소를 상기 미등록어 사전에 포함된 미등록어로 변환하여 제2 평가셋을 생성하는 단계를 포함하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  19. 제18항에 있어서, 상기 생성된 미등록어 사전을 이용하여 평가셋의 형태소분석을 수행하는 단계는
    상기 제2 평가셋이 생성되면 상기 생성된 미등록어 사전을 이용하여 상기 생성된 제2 평가셋의 형태소분석을 수행하는 단계를 포함하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
  20. 제19항에 있어서, 상기 생성된 미등록어 사전을 형태소 사전으로 구축하는 단계는
    상기 제2 평가셋의 형태소분석 결과가 상기 제2 평가셋의 이전 분석 결과보다 높으면 상기 생성된 미등록어 사전을 상기 형태소 사전으로 구축하는 것
    인 미등록어 자동 추출에 기반한 형태소 사전 구축 방법.
KR1020140156951A 2014-11-12 2014-11-12 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법 KR20160056983A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140156951A KR20160056983A (ko) 2014-11-12 2014-11-12 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법
US14/939,016 US20160132485A1 (en) 2014-11-12 2015-11-12 System and method for constructing morpheme dictionary based on automatic extraction of non-registered word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140156951A KR20160056983A (ko) 2014-11-12 2014-11-12 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20160056983A true KR20160056983A (ko) 2016-05-23

Family

ID=55912346

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140156951A KR20160056983A (ko) 2014-11-12 2014-11-12 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법

Country Status (2)

Country Link
US (1) US20160132485A1 (ko)
KR (1) KR20160056983A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180104899A (ko) * 2017-03-14 2018-09-27 한국전자통신연구원 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법
KR20180109176A (ko) * 2017-03-27 2018-10-08 전북대학교산학협력단 용어사전 구축 장치 및 구축 방법이 구현된 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체
KR20230068092A (ko) * 2021-11-10 2023-05-17 동의대학교 산학협력단 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6722483B2 (ja) * 2016-03-23 2020-07-15 クラリオン株式会社 サーバ装置、情報システム、車載装置
CN107885725A (zh) * 2017-11-06 2018-04-06 山东浪潮云服务信息科技有限公司 一种处理招聘数据的方法及装置
CN109388695B (zh) * 2018-09-27 2022-11-25 深圳前海微众银行股份有限公司 用户意图识别方法、设备及计算机可读存储介质
CN110705285B (zh) * 2019-09-20 2022-11-22 北京市计算中心有限公司 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180104899A (ko) * 2017-03-14 2018-09-27 한국전자통신연구원 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법
US10691892B2 (en) 2017-03-14 2020-06-23 Electronics And Telecommunications Research Institute Online contextual advertisement intellectualization apparatus and method based on language analysis for automatically recognizing coined word
KR20180109176A (ko) * 2017-03-27 2018-10-08 전북대학교산학협력단 용어사전 구축 장치 및 구축 방법이 구현된 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체
KR20230068092A (ko) * 2021-11-10 2023-05-17 동의대학교 산학협력단 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Also Published As

Publication number Publication date
US20160132485A1 (en) 2016-05-12

Similar Documents

Publication Publication Date Title
KR20160056983A (ko) 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법
Yoshikawa et al. STAIR captions: Constructing a large-scale Japanese image caption dataset
Hossain et al. " President Vows to Cut< Taxes> Hair": Dataset and Analysis of Creative Text Editing for Humorous Headlines
Conrado et al. A machine learning approach to automatic term extraction using a rich feature set
CN107515877B (zh) 敏感主题词集的生成方法和装置
JP5526199B2 (ja) 文書分類装置および文書分類処理プログラム
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN108062304A (zh) 一种基于机器学习的商品评论数据的情感分析方法
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN107832781B (zh) 一种面向多源数据的软件缺陷表示学习方法
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN107301163B (zh) 包含公式的文本语义解析方法及装置
US20080201134A1 (en) Computer-readable record medium in which named entity extraction program is recorded, named entity extraction method and named entity extraction apparatus
Lipping et al. Crowdsourcing a dataset of audio captions
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
Youssef et al. MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion
KR20160066216A (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
CN106653006A (zh) 基于语音交互的搜索方法和装置
JP2017182646A (ja) 情報処理装置、プログラム及び情報処理方法
KR101092354B1 (ko) 복합 명사 인식 장치 및 그 방법
CN117520800A (zh) 一种营养学文献模型训练方法、系统、电子设备及介质
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination