KR102168319B1 - 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법 - Google Patents

신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102168319B1
KR102168319B1 KR1020180163190A KR20180163190A KR102168319B1 KR 102168319 B1 KR102168319 B1 KR 102168319B1 KR 1020180163190 A KR1020180163190 A KR 1020180163190A KR 20180163190 A KR20180163190 A KR 20180163190A KR 102168319 B1 KR102168319 B1 KR 102168319B1
Authority
KR
South Korea
Prior art keywords
sentences
entity name
sentence
new
candidate
Prior art date
Application number
KR1020180163190A
Other languages
English (en)
Other versions
KR20200074603A (ko
Inventor
최보람
서영철
김무중
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180163190A priority Critical patent/KR102168319B1/ko
Publication of KR20200074603A publication Critical patent/KR20200074603A/ko
Application granted granted Critical
Publication of KR102168319B1 publication Critical patent/KR102168319B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 신규 개체명 단어에 연관된 말뭉치 생성을 위한 신규 문장들을 자동으로 생성할 수 있는 문장 자동 생성 장치 및 그 동작 방법을 제시함으로써, 사용자가 음성인식기의 언어모델에 사용되는 말뭉치를 보다 손쉽게 구성할 수 있도록 지원할 수 있다.

Description

신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법{SENTENCES AUTOMATICALLY GENERATING APPARATUS FOR GENERATING A CORPUS ASSOCIATED WITH THE NEW OBJECT NAME WORD AND OPERATING METHOD THEREOF}
본 발명은 음성인식기의 언어모델에 사용되는 말뭉치를 구성하기 위한 기술들과 관련된다.
최근, 인공지능 기능이 탑재된 전자 장비들이 출시됨에 따라 사용자가 음성으로 명령을 인가하면, 사용자의 음성을 인식하여 제어를 수행하는 기술이 주목받고 있다.
높은 성능을 갖는 음성인식기를 구현하기 위해서는 많은 수의 말뭉치(corpus)의 확보가 필수적으로 수행되어야 한다. 말뭉치는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 확률/통계적 기법과 시계열적인 접근으로 전체를 파악할 수 있고, 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다.
확률분포 기반의 언어모델을 사용하는 음성인식기에서 확률분포 기반의 언어모델은 말뭉치를 기반으로 만들어지고, 해당 말뭉치 내의 다양한 단어 시퀀스에 대한 확률 분포를 반영해서 특정 단어의 예측 확률을 계산한다. 이로 인해, 언어모델에 신조어를 반영하기 위해서는 신조어가 포함된 다양한 유형의 문장이 다수 포함된 말뭉치를 만들어서 언어모델에 반영해 줄 필요가 있다.
특히, 인명, 지명, 기관명 등과 같은 개체명은 새롭게 생성되는 경우가 많다는 점에서 이러한 신규 개체명이 만들어지는 경우, 신규 개체명을 포함하는 문장으로 구성된 말뭉치를 만들어서 언어모델에 반영해 주어야 상기 신규 개체명을 포함하는 음성을 정확하게 인식할 수 있다.
하지만, 신규 개체명에 연관된 말뭉치를 생성하기 위해, 신규 개체명을 포함하는 문장을 개발자가 일일이 만들어내기에는 많은 어려움이 존재할 수 밖에 없다. 따라서, 신규 개체명에 연관된 말뭉치를 생성하기 위한 신규 문장들을 자동으로 생성할 수 있는 문장 자동 생성 기법에 대한 연구가 필요한 실정이다.
본 발명은 신규 개체명 단어에 연관된 말뭉치 생성을 위한 신규 문장들을 자동으로 생성할 수 있는 문장 자동 생성 장치 및 그 동작 방법을 제시함으로써, 사용자가 음성인식기의 언어모델에 사용되는 말뭉치를 보다 손쉽게 구성할 수 있도록 지원하고자 한다.
본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치는 미리 지정된 복수의 개체명 단어들과 상기 복수의 개체명 단어들 각각의 카테고리를 식별하기 위한 미리 지정된 카테고리 식별자가 대응되어 기록되어 있는 단어 테이블을 저장하여 유지하는 단어 테이블 유지부, 상기 복수의 개체명 단어들을 문장 내에 하나 이상 포함하는 사전 설정된 복수의 문장들이 저장되어 있는 문장 데이터베이스, 사용자로부터 신규 개체명 단어와 상기 신규 개체명 단어가 삽입된 복수의 예제 문장들 및 상기 신규 개체명 단어의 카테고리를 지시하는 제1 카테고리 식별자가 입력되면서, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 명령이 인가되면, 상기 단어 테이블로부터 상기 제1 카테고리 식별자에 대응되어 기록되어 있는 복수의 제1 개체명 단어들을 추출하는 개체명 단어 추출부, 상기 복수의 제1 개체명 단어들이 추출되면, 상기 문장 데이터베이스로부터 상기 복수의 제1 개체명 단어들을 문장 내에 하나 이상 포함하고 있는 복수의 제1 문장들을 추출하는 문장 추출부, 상기 복수의 제1 문장들이 추출되면, 상기 복수의 제1 문장들 중 상기 복수의 예제 문장들과의 문장 유사도가 미리 설정된 임계치를 초과하는 문장들을 선택하고, 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 복수의 후보 개체명 단어들로 선택하는 후보 단어 선택부 및 상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 복수의 후보 문장들로 추출하고, 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체함으로써, 상기 신규 개체명 단어가 포함된 복수의 신규 문장들을 생성하는 신규 문장 생성부를 포함한다.
또한, 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법은 미리 지정된 복수의 개체명 단어들과 상기 복수의 개체명 단어들 각각의 카테고리를 식별하기 위한 미리 지정된 카테고리 식별자가 대응되어 기록되어 있는 단어 테이블을 저장하여 유지하는 단계, 상기 복수의 개체명 단어들을 문장 내에 하나 이상 포함하는 사전 설정된 복수의 문장들이 저장되어 있는 문장 데이터베이스를 유지하는 단계, 사용자로부터 신규 개체명 단어와 상기 신규 개체명 단어가 삽입된 복수의 예제 문장들 및 상기 신규 개체명 단어의 카테고리를 지시하는 제1 카테고리 식별자가 입력되면서, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 명령이 인가되면, 상기 단어 테이블로부터 상기 제1 카테고리 식별자에 대응되어 기록되어 있는 복수의 제1 개체명 단어들을 추출하는 단계, 상기 복수의 제1 개체명 단어들이 추출되면, 상기 문장 데이터베이스로부터 상기 복수의 제1 개체명 단어들을 문장 내에 하나 이상 포함하고 있는 복수의 제1 문장들을 추출하는 단계, 상기 복수의 제1 문장들이 추출되면, 상기 복수의 제1 문장들 중 상기 복수의 예제 문장들과의 문장 유사도가 미리 설정된 임계치를 초과하는 문장들을 선택하고, 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 복수의 후보 개체명 단어들로 선택하는 단계 및 상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 복수의 후보 문장들로 추출하고, 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체함으로써, 상기 신규 개체명 단어가 포함된 복수의 신규 문장들을 생성하는 단계를 포함한다.
본 발명은 신규 개체명 단어에 연관된 말뭉치 생성을 위한 신규 문장들을 자동으로 생성할 수 있는 문장 자동 생성 장치 및 그 동작 방법을 제시함으로써, 사용자가 음성인식기의 언어모델에 사용되는 말뭉치를 보다 손쉽게 구성할 수 있도록 지원할 수 있다.
도 1은 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.
도 1은 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치(110)는 단어 테이블 유지부(111), 문장 데이터베이스(112), 개체명 단어 추출부(113), 문장 추출부(114), 후보 단어 선택부(115) 및 신규 문장 생성부(116)를 포함한다.
단어 테이블 유지부(111)는 미리 지정된 복수의 개체명 단어들과 상기 복수의 개체명 단어들 각각의 카테고리를 식별하기 위한 미리 지정된 카테고리 식별자가 대응되어 기록되어 있는 단어 테이블을 저장하여 유지한다.
여기서, 개체명 단어란 인명, 지명, 기관명, 사물의 명칭 등과 같은 고유명사나 명사구를 의미한다. 그리고, 미리 지정된 복수의 개체명 단어들은 이미 음성인식기를 위한 말뭉치가 생성되어 있는 개체명 단어들을 의미하며, 카테고리란 각 개체명 단어들이 속하는 분류를 의미하는 것으로, 특정 개체명 단어가 '불고기 피자'라고 한다면 '불고기 피자'는 '음식'이라는 분류에 속할 수 있기 때문에 '불고기 피자'라는 개체명에 대한 카테고리는 '음식'이 될 수 있다.
이때, '음식'이라는 카테고리에 대한 미리 지정된 카테고리 식별자를 '식별자 1'이라고 하고, '전자제품'이라는 카테고리에 대한 미리 지정된 식별자를 '식별자 2'라고 하며, '휴대폰 액세서리'라는 카테고리에 대한 미리 지정된 식별자를 '식별자 3'이라고 한다면, 상기 단어 테이블에는 하기의 표 1과 같이 정보가 기록되어 있을 수 있다.
복수의 개체명 단어들 카테고리 식별자
블랙타이거 슈림프 피자 식별자 1
햄버거 식별자 1
청국장 식별자 1
킹프론 씨푸드 피자 식별자 1
스마트폰 식별자 2
셀카봉 식별자 3
... ...
문장 데이터베이스(112)에는 상기 복수의 개체명 단어들을 문장 내에 하나 이상 포함하는 사전 설정된 복수의 문장들이 저장되어 있다.
문장 데이터베이스(112)에 저장되어 있는 상기 복수의 문장들은 음성인식기를 위한 말뭉치로 사용하기 위해 이미 구성완료되어 있는 문장들을 의미한다.
예컨대, 문장 데이터베이스(112)에는 하기의 표 2와 같이 복수의 문장들이 저장되어 있을 수 있다.
복수의 개체명 단어들 복수의 문장들
블랙타이거 슈림프 피자 1. 한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.
2. 이번에 신제품인 블랙타이거 슈림프 피자가 나온다고해서 출시날만 기다리다가 먹어봤어요.
...
햄버거 1. 햄버거 맛있게 먹어라.
2. 햄버거 하나 주세요.
...
청국장 1. 청국장 냄새가 코를 자극한다.
2. 고향에서 만든 청국장이 그립다.
...
킹프론 씨푸드 피자 1. 한컴피자가 여름 신제품 킹프론 씨푸드 피자 스페셜 세트 한정 판매한다.
...
스마트폰 1. 스마트폰을 이용하여 게임을 즐길 수 있습니다.
...
셀카봉 1. 사진을 찍을 때 셀카봉을 이용하십시오.
2. 셀카봉을 이용하여 셀카를 찍을 수 있습니다.
...
... ...
개체명 단어 추출부(113)는 사용자로부터 신규 개체명 단어와 상기 신규 개체명 단어가 삽입된 복수의 예제 문장들 및 상기 신규 개체명 단어의 카테고리를 지시하는 제1 카테고리 식별자가 입력되면서, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 명령이 인가되면, 상기 단어 테이블로부터 상기 제1 카테고리 식별자에 대응되어 기록되어 있는 복수의 제1 개체명 단어들을 추출한다.
예컨대, 사용자로부터 입력된 상기 신규 개체명 단어가 '훌랄라피자'라고 하고, 상기 복수의 예제 문장들이 하기의 표 3과 같다고 하며, 상기 제1 카테고리 식별자가 '식별자 1'이라고 하는 경우, 개체명 단어 추출부(113)는 상기 표 1과 같은 단어 테이블로부터 '식별자 1'에 대응되어 기록되어 있는 '블랙타이거 슈림프 피자, 햄버거, 청국장, 킹프론 씨푸드 피자, ...'라는 개체명 단어들을 상기 복수의 제1 개체명 단어들로 추출할 수 있다.
복수의 예제 문장들
한컴피자의 신제품 훌랄라피자를 추천합니다.
한컴피자 신제품 훌랄라피자 판매합니다.
매장에서만 훌랄라피자를 주문할 수 있습니다.
문장 추출부(114)는 상기 복수의 제1 개체명 단어들이 추출되면, 문장 데이터베이스(112)로부터 상기 복수의 제1 개체명 단어들을 문장 내에 하나 이상 포함하고 있는 복수의 제1 문장들을 추출한다.
관련해서, 전술한 예와 같이, '블랙타이거 슈림프 피자, 햄버거, 청국장, 킹프론 씨푸드 피자, ...'가 상기 복수의 제1 개체명 단어들로 추출되었다고 하는 경우, 문장 추출부(114)는 상기 표 2와 같은 문장 데이터베이스(112)로부터 '블랙타이거 슈림프 피자, 햄버거, 청국장, 킹프론 씨푸드 피자, ...'라는 개체명 단어를 문장 내에서 하나 이상 포함하고 있는 상기 복수의 제1 문장들을 추출할 수 있고, 그 결과는 하기의 표 4와 같이 나타낼 수 있다.
복수의 제1 문장들
1. 한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.
2. 이번에 신제품인 블랙타이거 슈림프 피자가 나온다고해서 출시날만 기다리다가 먹어봤어요.
...
1. 햄버거 맛있게 먹어라.
2. 햄버거 하나 주세요.
...
1. 청국장 냄새가 코를 자극한다.
2. 고향에서 만든 청국장이 그립다.
...
1. 한컴피자가 여름 신제품 킹프론 씨푸드 피자 스페셜 세트 한정 판매한다.
...
...
후보 단어 선택부(115)는 상기 복수의 제1 문장들이 추출되면, 상기 복수의 제1 문장들 중 상기 복수의 예제 문장들과의 문장 유사도가 미리 설정된 임계치를 초과하는 문장들을 선택하고, 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 복수의 후보 개체명 단어들로 선택한다.
이때, 본 발명의 일실시예에 따르면, 후보 단어 선택부(115)는 대응 예제 문장 선별부(117), 문장 선택부(118) 및 후보 선택 처리부(119)를 포함할 수 있다.
대응 예제 문장 선별부(117)는 상기 복수의 제1 문장들이 추출되면, 상기 복수의 예제 문장들 중 상기 복수의 제1 문장들 각각과의 문장 유사도가 최대인 예제 문장을 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장으로 선별한다.
문장 선택부(118)는 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장과 상기 복수의 제1 문장들 각각 간의 문장 유사도를 비교하여 상기 복수의 제1 문장들 중 대응 예제 문장과의 문장 유사도가 상기 임계치를 초과하는 문장들을 선택한다.
후보 선택 처리부(119)는 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 상기 복수의 후보 개체명 단어들로 선택한다.
이때, 본 발명의 일실시예에 따르면, 후보 단어 선택부(115)에서 사용되는 문장 유사도는 비교 대상이 되는 문장들을 구성하는 문자열에 대한 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이일 수 있다.
관련해서, 전술한 예시와 같이 복수의 예제 문장들이 표 3과 같고, 상기 복수의 제1 문장들이 표 4와 같다고 하였을 때, 후보 단어 선택부(115)의 동작을 예를 들어 상세히 설명하면 다음과 같다.
문장 추출부(114)를 통해서 상기 표 4와 같은 상기 복수의 제1 문장들이 추출되면, 대응 예제 문장 선별부(117)는 상기 복수의 제1 문장들 각각에 대해 상기 표 3과 같은 복수의 예제 문장들 각각과의 문장 유사도를 연산할 수 있다.
이때, 대응 예제 문장 선별부(117)는 상기 복수의 제1 문장들 각각에 대해 각 문장과 상기 복수의 예제 문장들 간의 LCS의 길이를 문장 유사도로 연산할 수 있다.
LCS란 두 개의 문자열에서 일치하는 연속된 문자열을 의미하는 것으로, 'ACAYKP'와 'CAPCAK'가 있다고 하였을 때, 두 문자열 간의 LCS는 'ACAK'이고, 이때 LCS의 길이는 '4'가 된다.
관련해서, 대응 예제 문장 선별부(117)는 '한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.'라는 문장과 상기 복수의 예제 문장들 각각 간의 LCS의 길이를 문장 유사도로 연산할 수 있고, '이번에 신제품인 블랙타이거 슈림프 피자가 나온다고해서 출시날만 기다리다가 먹어봤어요.'라는 문장과 상기 복수의 예제 문장들 각각 간의 LCS의 길이를 문장 유사도로 연산할 수 있다. 이러한 방식으로 대응 예제 문장 선별부(117)는 상기 복수의 제1 문장들 각각에 대해 상기 복수의 예제 문장들 각각과의 문장 유사도를 연산할 수 있다.
이렇게, 상기 복수의 제1 문장들 각각에 대한 상기 복수의 예제 문장들과의 문장 유사도가 연산되면, 대응 예제 문장 선별부(117)는 상기 복수의 예제 문장들 중 상기 복수의 제1 문장들 각각과의 문장 유사도가 최대인 예제 문장을 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장으로 선별할 수 있다.
예컨대, '한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.'라는 문장에 대해서 문장 유사도가 최대인 예제 문장이 '한컴피자의 신제품 훌랄라피자를 추천합니다.'라고 하는 경우, 대응 예제 문장 선별부(117)는 '한컴피자의 신제품 훌랄라피자를 추천합니다.'라는 예제 문장을 '한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.'라는 문장에 대한 대응 예제 문장으로 선별할 수 있다.
이렇게, 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장의 선별이 완료되면, 문장 선택부(118)는 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장과 상기 복수의 제1 문장들 각각 간의 문장 유사도를 비교하여 상기 복수의 제1 문장들 중 대응 예제 문장과의 문장 유사도가 임계치를 초과하는 문장들을 선택할 수 있다.
예컨대, '한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.'라는 문장과 그에 대한 대응 예제 문장인 '한컴피자의 신제품 훌랄라피자를 추천합니다.' 간의 LCS의 길이가 상기 임계치를 초과한다고 하는 경우, 문장 선택부(118)는 '한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.'라는 문장을 상기 임계치를 초과하는 문장 유사도를 갖는 문장으로 선택할 수 있다.
이러한 방식으로, 문장 선택부(118)는 상기 복수의 제1 문장들 중 대응 예제 문장과의 문장 유사도가 상기 임계치를 초과하는 문장들을 선택할 수 있다. 이때, 본 실시예에서는 상기 복수의 제1 문장들 중 대응 예제 문장과의 문장 유사도가 상기 임계치를 초과하는 문장들을 선택한 결과가 하기의 표 5와 같다고 가정하자.
선택된 문장들
한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.
한컴피자가 여름 신제품 킹프론 씨푸드 피자 스페셜 세트 한정 판매한다.
...
상기 표 5와 같이 문장 선택부(118)에서 문장들이 선택되면, 후보 선택 처리부(119)는 '블랙타이거 슈림프 피자, 햄버거, 청국장, 킹프론 씨푸드 피자, ...'라는 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 상기 복수의 후보 개체명 단어들로 선택할 수 있다.
만약, '블랙타이거 슈림프 피자, 햄버거, 청국장, 킹프론 씨푸드 피자, ...'라는 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들이 '블랙타이거 슈림프 피자, 킹프론 씨푸드 피자'라고 하는 경우, 후보 선택 처리부(119)는 '블랙타이거 슈림프 피자, 킹프론 씨푸드 피자'라는 개체명 단어들을 상기 복수의 후보 개체명 단어들로 선택할 수 있다.
지금까지 설명한 실시예에 따라 후보 단어 선택부(115)를 통해 상기 복수의 후보 개체명 단어들이 선택되면, 신규 문장 생성부(116)는 문장 데이터베이스(112)로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 복수의 후보 문장들로 추출하고, 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체함으로써, 상기 신규 개체명 단어가 포함된 복수의 신규 문장들을 생성한다.
이때, 본 발명의 일실시예에 따르면, 신규 문장 생성부(116)는 후보 문장 테이블 생성부(120) 및 신규 문장 생성 처리부(121)를 포함할 수 있다.
후보 문장 테이블 생성부(120)는 상기 복수의 후보 개체명 단어들이 선택되면, 문장 데이터베이스(112)로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 상기 복수의 후보 문장들로 추출한 후 상기 복수의 후보 문장들 각각이 기록된 후보 문장 테이블을 생성한다.
예컨대, 상기 복수의 후보 개체명 단어들이 '블랙타이거 슈림프 피자, 킹프론 씨푸드 피자'라고 하는 경우, 후보 문장 테이블 생성부(120)는 문장 데이터베이스(112)로부터 '블랙타이거 슈림프 피자, 킹프론 씨푸드 피자'를 하나 이상 포함하고 있는 문장들을 상기 복수의 후보 문장들로 추출한 후 상기 복수의 후보 문장들 각각이 기록된 후보 문장 테이블을 생성할 수 있고, 이때 상기 후보 문장 테이블은 하기의 표 6과 같이 나타낼 수 있다.
복수의 후보 개체명 단어들 복수의 후보 문장들
블랙타이거 슈림프 피자 한컴피자 신제품 블랙타이거 슈림프 피자 직접 먹어보고 추천합니다.
이번에 신제품인 블랙타이거 슈림프 피자가 나온다고해서 출시날만 기다리다가 먹어봤어요.
이번 신상 블랙타이거 슈프림 피자는 비린맛 1도 없고요.
...
킹프론 씨푸드 피자 한컴피자가 여름 신제품 킹프론 씨푸드 피자 스페셜 세트 한정 판매한다.
제가 주문한 피자는 킹프론 씨푸드 피자로 오리지널 도우에 라지사이즈입니다.
그래도 요즘 신메뉴로 잘 나간다는 킹프론 씨푸드 피자는 맛이 어떨지 궁금하더라고요.
...
신규 문장 생성 처리부(121)는 상기 후보 문장 테이블에서 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체하여 상기 신규 개체명 단어가 포함된 상기 복수의 신규 문장들을 생성할 수 있다.
관련해서, 상기 표 6과 같이 상기 후보 문장 테이블이 생성되었다고 하는 경우, 신규 문장 생성 처리부(121)는 상기 복수의 후보 문장들에 포함되어 있는 '블랙타이거 슈림프 피자, 킹프론 씨푸드 피자'를 상기 신규 개체명 단어인 '훌랄라피자'로 대체함으로써, 하기의 표 7과 같은 신규 문장들을 생성할 수 있다.
신규 문장들
한컴피자 신제품 훌랄라피자 직접 먹어보고 추천합니다.
이번에 신제품인 훌랄라피자가 나온다고해서 출시날만 기다리다가 먹어봤어요.
이번 신상 훌랄라피자는 비린맛 1도 없고요.
...
한컴피자가 여름 신제품 훌랄라피자 스페셜 세트 한정 판매한다.
제가 주문한 피자는 훌랄라피자로 오리지널 도우에 라지사이즈입니다.
그래도 요즘 신메뉴로 잘 나간다는 훌랄라피자는 맛이 어떨지 궁금하더라고요.
...
이때, 본 발명의 일실시예에 따르면, 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치(110)는 신규 저장부(122)를 더 포함할 수 있다.
신규 저장부(122)는 상기 복수의 신규 문장들이 생성되면, 상기 단어 테이블에 상기 신규 개체명 단어와 상기 제1 카테고리를 서로 대응시켜 기록하고, 문장 데이터베이스(112)에 상기 복수의 신규 문장들을 저장한다.
결국, 본 발명에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치(110)는 사용자에 의해 신규 개체명 단어와 상기 신규 개체명 단어가 포함된 소정의 예제 문장들이 입력되면, 상기 신규 개체명 단어와 동일 카테고리의 개체명 단어를 포함하고 있는 기존 문장들과 상기 예제 문장들 간의 문장 유사도를 비교하여 상기 기존 문장들 중 상기 예제 문장들과의 문장 유사도가 소정의 임계치를 초과하는 문장을 선별하고, 선별된 문장에 포함된 개체명 단어를 추출한 후 추출된 개체명 단어를 하나 이상 포함하고 있는 기존 문장들을 다시 선택하여 선택된 기존 문장들에 포함되어 있는 개체명 단어를 상기 신규 개체명 단어로 대체함으로써, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 신규 문장들을 자동으로 생성할 수 있다.
도 2는 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 미리 지정된 복수의 개체명 단어들과 상기 복수의 개체명 단어들 각각의 카테고리를 식별하기 위한 미리 지정된 카테고리 식별자가 대응되어 기록되어 있는 단어 테이블을 저장하여 유지한다.
단계(S220)에서는 상기 복수의 개체명 단어들을 문장 내에 하나 이상 포함하는 사전 설정된 복수의 문장들이 저장되어 있는 문장 데이터베이스를 유지한다.
단계(S230)에서는 사용자로부터 신규 개체명 단어와 상기 신규 개체명 단어가 삽입된 복수의 예제 문장들 및 상기 신규 개체명 단어의 카테고리를 지시하는 제1 카테고리 식별자가 입력되면서, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 명령이 인가되면, 상기 단어 테이블로부터 상기 제1 카테고리 식별자에 대응되어 기록되어 있는 복수의 제1 개체명 단어들을 추출한다.
단계(S240)에서는 상기 복수의 제1 개체명 단어들이 추출되면, 상기 문장 데이터베이스로부터 상기 복수의 제1 개체명 단어들을 문장 내에 하나 이상 포함하고 있는 복수의 제1 문장들을 추출한다.
단계(S250)에서는 상기 복수의 제1 문장들이 추출되면, 상기 복수의 제1 문장들 중 상기 복수의 예제 문장들과의 문장 유사도가 미리 설정된 임계치를 초과하는 문장들을 선택하고, 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 복수의 후보 개체명 단어들로 선택한다.
단계(S260)에서는 상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 복수의 후보 문장들로 추출하고, 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체함으로써, 상기 신규 개체명 단어가 포함된 복수의 신규 문장들을 생성한다.
이때, 본 발명의 일실시예에 따르면, 단계(S250)에서는 상기 복수의 제1 문장들이 추출되면, 상기 복수의 예제 문장들 중 상기 복수의 제1 문장들 각각과의 문장 유사도가 최대인 예제 문장을 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장으로 선별하는 단계, 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장과 상기 복수의 제1 문장들 각각 간의 문장 유사도를 비교하여 상기 복수의 제1 문장들 중 대응 예제 문장과의 문장 유사도가 상기 임계치를 초과하는 문장들을 선택하는 단계 및 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 상기 복수의 후보 개체명 단어들로 선택하는 단계를 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S250)에서 사용되는 문장 유사도는 비교 대상이 되는 문장들을 구성하는 문자열에 대한 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이일 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S260)에서는 상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 상기 복수의 후보 문장들로 추출한 후 상기 복수의 후보 문장들 각각이 기록된 후보 문장 테이블을 생성하는 단계 및 상기 후보 문장 테이블에서 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체하여 상기 신규 개체명 단어가 포함된 상기 복수의 신규 문장들을 생성하는 단계를 포함할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법은 상기 복수의 신규 문장들이 생성되면, 상기 단어 테이블에 상기 신규 개체명 단어와 상기 제1 카테고리를 서로 대응시켜 기록하고, 상기 문장 데이터베이스에 상기 복수의 신규 문장들을 저장하는 단계를 더 포함할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법은 도 1을 이용하여 설명한 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치
111: 단어 테이블 유지부 112: 문장 데이터베이스
113: 개체명 단어 추출부 114: 문장 추출부
115: 후보 단어 선택부 116: 신규 문장 생성부
117: 대응 예제 문장 선별부 118: 문장 선택부
119: 후보 선택 처리부 120: 후보 문장 테이블 생성부
121: 신규 문장 생성 처리부 122: 신규 저장부

Claims (12)

  1. 미리 지정된 복수의 개체명 단어들과 상기 복수의 개체명 단어들 각각의 카테고리를 식별하기 위한 미리 지정된 카테고리 식별자가 대응되어 기록되어 있는 단어 테이블을 저장하여 유지하는 단어 테이블 유지부;
    상기 복수의 개체명 단어들을 문장 내에 하나 이상 포함하는 사전 설정된 복수의 문장들이 저장되어 있는 문장 데이터베이스;
    사용자로부터 신규 개체명 단어와 상기 신규 개체명 단어가 삽입된 복수의 예제 문장들 및 상기 신규 개체명 단어의 카테고리를 지시하는 제1 카테고리 식별자가 입력되면서, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 명령이 인가되면, 상기 단어 테이블로부터 상기 제1 카테고리 식별자에 대응되어 기록되어 있는 복수의 제1 개체명 단어들을 추출하는 개체명 단어 추출부;
    상기 복수의 제1 개체명 단어들이 추출되면, 상기 문장 데이터베이스로부터 상기 복수의 제1 개체명 단어들을 문장 내에 하나 이상 포함하고 있는 복수의 제1 문장들을 추출하는 문장 추출부;
    상기 복수의 제1 문장들이 추출되면, 상기 복수의 제1 문장들 중 상기 복수의 예제 문장들과의 문장 유사도가 미리 설정된 임계치를 초과하는 문장들을 선택하고, 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 복수의 후보 개체명 단어들로 선택하는 후보 단어 선택부; 및
    상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 복수의 후보 문장들로 추출하고, 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체함으로써, 상기 신규 개체명 단어가 포함된 복수의 신규 문장들을 생성하는 신규 문장 생성부
    를 포함하고,
    상기 후보 단어 선택부는
    상기 복수의 제1 문장들이 추출되면, 상기 복수의 예제 문장들 중 상기 복수의 제1 문장들 각각과의 문장 유사도가 최대인 예제 문장을 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장으로 선별하는 대응 예제 문장 선별부;
    상기 복수의 제1 문장들 각각에 대한 대응 예제 문장과 상기 복수의 제1 문장들 각각 간의 문장 유사도를 비교하여 상기 복수의 제1 문장들 중 대응 예제 문장과의 문장 유사도가 상기 임계치를 초과하는 문장들을 선택하는 문장 선택부; 및
    상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 상기 복수의 후보 개체명 단어들로 선택하는 후보 선택 처리부
    를 포함하는 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 후보 단어 선택부에서 사용되는 문장 유사도는 비교 대상이 되는 문장들을 구성하는 문자열에 대한 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이인 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치.
  4. 제1항에 있어서,
    상기 신규 문장 생성부는
    상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 상기 복수의 후보 문장들로 추출한 후 상기 복수의 후보 문장들 각각이 기록된 후보 문장 테이블을 생성하는 후보 문장 테이블 생성부; 및
    상기 후보 문장 테이블에서 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체하여 상기 신규 개체명 단어가 포함된 상기 복수의 신규 문장들을 생성하는 신규 문장 생성 처리부
    를 포함하는 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치.
  5. 제1항에 있어서,
    상기 복수의 신규 문장들이 생성되면, 상기 단어 테이블에 상기 신규 개체명 단어와 상기 제1 카테고리를 서로 대응시켜 기록하고, 상기 문장 데이터베이스에 상기 복수의 신규 문장들을 저장하는 신규 저장부
    를 더 포함하는 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치.
  6. 미리 지정된 복수의 개체명 단어들과 상기 복수의 개체명 단어들 각각의 카테고리를 식별하기 위한 미리 지정된 카테고리 식별자가 대응되어 기록되어 있는 단어 테이블을 저장하여 유지하는 단계;
    상기 복수의 개체명 단어들을 문장 내에 하나 이상 포함하는 사전 설정된 복수의 문장들이 저장되어 있는 문장 데이터베이스를 유지하는 단계;
    사용자로부터 신규 개체명 단어와 상기 신규 개체명 단어가 삽입된 복수의 예제 문장들 및 상기 신규 개체명 단어의 카테고리를 지시하는 제1 카테고리 식별자가 입력되면서, 상기 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 명령이 인가되면, 상기 단어 테이블로부터 상기 제1 카테고리 식별자에 대응되어 기록되어 있는 복수의 제1 개체명 단어들을 추출하는 단계;
    상기 복수의 제1 개체명 단어들이 추출되면, 상기 문장 데이터베이스로부터 상기 복수의 제1 개체명 단어들을 문장 내에 하나 이상 포함하고 있는 복수의 제1 문장들을 추출하는 단계;
    상기 복수의 제1 문장들이 추출되면, 상기 복수의 제1 문장들 중 상기 복수의 예제 문장들과의 문장 유사도가 미리 설정된 임계치를 초과하는 문장들을 선택하고, 상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 복수의 후보 개체명 단어들로 선택하는 단계; 및
    상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 복수의 후보 문장들로 추출하고, 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체함으로써, 상기 신규 개체명 단어가 포함된 복수의 신규 문장들을 생성하는 단계
    를 포함하고,
    상기 복수의 후보 개체명 단어들로 선택하는 단계는
    상기 복수의 제1 문장들이 추출되면, 상기 복수의 예제 문장들 중 상기 복수의 제1 문장들 각각과의 문장 유사도가 최대인 예제 문장을 상기 복수의 제1 문장들 각각에 대한 대응 예제 문장으로 선별하는 단계;
    상기 복수의 제1 문장들 각각에 대한 대응 예제 문장과 상기 복수의 제1 문장들 각각 간의 문장 유사도를 비교하여 상기 복수의 제1 문장들 중 대응 예제 문장과의 문장 유사도가 상기 임계치를 초과하는 문장들을 선택하는 단계; 및
    상기 복수의 제1 개체명 단어들 중 상기 선택된 문장들에 한 번 이상 포함되어 있는 단어들을 상기 복수의 후보 개체명 단어들로 선택하는 단계
    를 포함하는 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법.
  7. 삭제
  8. 제6항에 있어서,
    상기 복수의 후보 개체명 단어들로 선택하는 단계에서 사용되는 문장 유사도는 비교 대상이 되는 문장들을 구성하는 문자열에 대한 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이인 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법.
  9. 제6항에 있어서,
    상기 복수의 신규 문장들을 생성하는 단계는
    상기 복수의 후보 개체명 단어들이 선택되면, 상기 문장 데이터베이스로부터 상기 복수의 후보 개체명 단어들을 하나 이상 포함하고 있는 문장들을 상기 복수의 후보 문장들로 추출한 후 상기 복수의 후보 문장들 각각이 기록된 후보 문장 테이블을 생성하는 단계; 및
    상기 후보 문장 테이블에서 상기 복수의 후보 문장들에 포함되어 있는 상기 복수의 후보 개체명 단어들을 상기 신규 개체명 단어로 대체하여 상기 신규 개체명 단어가 포함된 상기 복수의 신규 문장들을 생성하는 단계
    를 포함하는 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법.
  10. 제6항에 있어서,
    상기 복수의 신규 문장들이 생성되면, 상기 단어 테이블에 상기 신규 개체명 단어와 상기 제1 카테고리를 서로 대응시켜 기록하고, 상기 문장 데이터베이스에 상기 복수의 신규 문장들을 저장하는 단계
    를 더 포함하는 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치의 동작 방법.
  11. 제6항, 제8항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항, 제8항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020180163190A 2018-12-17 2018-12-17 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법 KR102168319B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180163190A KR102168319B1 (ko) 2018-12-17 2018-12-17 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180163190A KR102168319B1 (ko) 2018-12-17 2018-12-17 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20200074603A KR20200074603A (ko) 2020-06-25
KR102168319B1 true KR102168319B1 (ko) 2020-10-21

Family

ID=71400592

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180163190A KR102168319B1 (ko) 2018-12-17 2018-12-17 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102168319B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102375572B1 (ko) * 2020-11-17 2022-03-17 주식회사 한글과컴퓨터 기계 번역 모델 생성에 사용할 학습 문장을 자동으로 생성하는 전자 단말 장치 및 그 동작 방법
KR102395700B1 (ko) * 2020-12-23 2022-05-09 주식회사 한글과컴퓨터 사용자 입력 조건에 기초하여 음성 인식 모델 구축에 사용될 학습 데이터를 생성하는 전자 장치 및 그 동작 방법
KR102435849B1 (ko) * 2021-01-04 2022-08-25 호서대학교 산학협력단 문서에 포함된 텍스트 기반이 아닌 개체에 대한 검색결과를 제공하는 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160131730A (ko) * 2015-05-08 2016-11-16 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
KR101962113B1 (ko) * 2017-03-28 2019-07-19 (주)아크릴 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Zhang, Xiang et. al., Character-level convolutional networks for text classification, Advances in neural information processing systems (2015.) 1부.*
Zhang, Yizhe, et al. Adversarial feature matching for text generation. arXiv preprint arXiv:1706.03850. (2017.6.12.)
김주근, 반지도 학습법을 이용한 한국어 개체명 인식, 창원대학교 석사학위 논문 (2013)
박영민 외, 개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법 , 인지과학 27(1), pp.27-41 (2016)
안주희 외, 웹을 이용한 개체명 부착 말뭉치의 자동생성과 정제 , 제14회 한글및한국어정보처리 학술대회 pp.85-91 (2002)

Also Published As

Publication number Publication date
KR20200074603A (ko) 2020-06-25

Similar Documents

Publication Publication Date Title
US11487939B2 (en) Systems and methods for unsupervised autoregressive text compression
KR102168319B1 (ko) 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법
CN108345686B (zh) 一种基于搜索引擎技术的数据分析方法及系统
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
US10629205B2 (en) Identifying an accurate transcription from probabilistic inputs
JP6729095B2 (ja) 情報処理装置及びプログラム
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN110532354A (zh) 内容的检索方法及装置
CN115380260A (zh) 用于网络游戏的用户输入文本的语言检测
US8620961B2 (en) Mention-synchronous entity tracking: system and method for chaining mentions
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
CN112395867A (zh) 同义词挖掘方法、装置、存储介质及计算机设备
CN113641707A (zh) 知识图谱消歧方法、装置、设备及存储介质
CN109063182B (zh) 一种基于语音搜题的内容推荐方法及电子设备
JP2006178599A (ja) 文書検索装置および方法
KR102300427B1 (ko) 음성 인식기의 인식률 개선을 위한 학습용 단어 수집 장치 및 그 동작 방법
CN112691379A (zh) 游戏资源文本审核方法及装置、存储介质、计算机设备
KR102187528B1 (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
JP5117590B2 (ja) 文書処理装置およびプログラム
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
KR102287167B1 (ko) 번역 엔진에 미포함된 신규 개체명에 대한 번역 기능을 제공하기 위한 번역 처리 장치 및 그 동작 방법
KR102215580B1 (ko) 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법
CN114298048A (zh) 命名实体识别方法及装置
CN112817996A (zh) 一种违法关键词库的更新方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant