KR100992073B1 - 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법 - Google Patents

관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법 Download PDF

Info

Publication number
KR100992073B1
KR100992073B1 KR1020100046335A KR20100046335A KR100992073B1 KR 100992073 B1 KR100992073 B1 KR 100992073B1 KR 1020100046335 A KR1020100046335 A KR 1020100046335A KR 20100046335 A KR20100046335 A KR 20100046335A KR 100992073 B1 KR100992073 B1 KR 100992073B1
Authority
KR
South Korea
Prior art keywords
idiom
grammar
spacing
dictionary
corpus
Prior art date
Application number
KR1020100046335A
Other languages
English (en)
Inventor
이주승
조주형
Original Assignee
주식회사 예스피치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 예스피치 filed Critical 주식회사 예스피치
Priority to KR1020100046335A priority Critical patent/KR100992073B1/ko
Application granted granted Critical
Publication of KR100992073B1 publication Critical patent/KR100992073B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문법(Grammar) 자동 생성 장치에 관한 것으로, 보다 상세하게는 음성인식이 되는 키워드 및 문장에 대해 관용어 및 사용자 발성패턴을 적용하여 음성 인식률을 향상시킬 수 있는 띄어쓰기 문법을 자동 생성하는 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법에 관한 것이다.
이러한 본 발명은 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 방법에 있어서, 웹 환경에서 사용되는 검색어 코퍼스들을 수집하는 수집 과정과, 상기 수집된 검색어 코퍼스를 로딩하여 관용어구 사전을 참조하여 상기 검색어 코퍼스에 관용어구가 있는지를 검사하여 관용어구의 전후를 띄어쓰기하는 관용어구 띄어쓰기 과정과, 상기 관용어구 띄어쓰기된 검색어 코퍼스를 사용자 발성패턴 사전을 참조하여 사용자 발성패턴에 따른 띄어쓰기를 수행하는 발성패턴 띄어쓰기 과정과, 상기 띄어쓰기 수행된 검색어 코퍼스에 대한 문법을 생성하는 문법 생성 과정을 포함하는 것을 특징으로 한다.

Description

관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATICALLY CREATING GRAMMAR USING IDIOM AND UTTERANCE PATTEN}
본 발명은 문법(Grammar) 자동 생성 장치에 관한 것으로, 보다 상세하게는 음성인식 되는 키워드 및 문장에 대해 관용어 및 사용자 발성패턴을 적용하여 음성 인식률을 향상시킬 수 있는 띄어쓰기 문법을 자동 생성하는 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법에 관한 것이다.
정보통신 기술의 급격한 발전으로 웹을 통해 누구나 쉽게 원하는 정보를 공유할 수 있게 되었으며, 모바일 기술의 발전으로 언제 어디서나 원하는 웹 사이트에 접근하여 정보를 습득할 수 있는 무선 웹 환경이 구성되고 있다.
이와 같이 유무선 웹 환경, 즉 유무선 인터넷 환경이 발달함에 따라 인터넷에 접속하는 사용자는 다양하고 무수히 많은 정보들에 노출된다. 따라서 웹 환경 및 모바일 환경 하에서 많은 정보들 중 사용자가 찾고자 하는 정보를 찾기 위한 다양한 정보 검색 기술들이 개발되어 적용되고 있다.
통상 종래 정보 검색 기술들은 사용자가 웹 및 모바일 환경에서 단어, 구, 절 또는 문장 등의 키워드를 직접 타이핑하여 입력하고, 입력된 키워드에 대응하는 정보들을 검색하여 표시한다. 키워드를 타이핑하여 입력하는 방식은 고정된 장소에서 키워드의 입력이 용이한 개인용 컴퓨터 또는 노트북 등을 이용하는 경우에 사용자에게 편리하게 적용될 수 있을 것이다.
그러나 모바일 환경의 사용자 단말기들은 휴대성을 위해 소형으로 구성됨으로써 검색어를 타이핑하여 입력할 수 있는 입력수단을 구비하기 어려운 문제점이 있었다. 또한, 작은 키들로 구성되는 쿼티키보드를 구비하는 단말기의 경우에도 키들이 작아 입력이 어렵거나 가격이 비싸지는 문제점이 있었다.
이러한 문제점을 해결하고, 사용자가 검색어를 쉽게 입력할 수 있도록 하기 위해 음성으로 검색어를 입력할 수 있는 음성인식 기술이 컴퓨터 및 휴대용 단말기 등에 적용되고 있다.
통상적으로 음성인식 기술은 사용자로부터 발화된 음성 인식 시 발음을 포함하는 한글 표준 문법에 따른 사전을 참조하여 음성인식을 수행한다.
그러나 인터넷의 급속한 발달로 인하여 나날이 새로운 수많은 신조어들 및 외래어들이 등장하고 있다. 따라서 종래 음성인식 기술은 국어문법에 따른 고립어 인식인 경우에는 음성 인식률이 좋은 편이나, 구, 절 및 문장 등과 같은 자연어가 발화되는 경우, 사용자가 발화한 자연어에 표준 문법에는 등록되어 있지 않은 신조어, 외래어 및 관용어구 등이 포함되어 있는 경우에는 그 음성 인식률이 현저히 떨어지는 문제점이 있었다.
또한, 종래 음성인식 기술은 사용자가 쉬어 읽음으로써 발화된 자연어의 띄어쓰기와 표준 문법의 띄어쓰기가 달라 그 음성 인식률이 떨어지는 문제점이 있었다.
본 발명의 목적은 음성인식 되는 키워드 및 문장에 대해 관용어 및 사용자 발성패턴을 적용하여 음성 인식률을 향상시킬 수 있는 띄어쓰기 문법을 자동 생성하여, 음성인식 기술이 적용되는 웹 및 모바일 환경에서 운영되는 음성인식 장치에 적용함으로써 음성 인식률 향상을 도모하는 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법을 제공함에 있다.
본 발명의 목적을 달성하기 위한 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치는; 웹 환경에서 사용되는 검색어 코퍼스들을 저장하는 소스 데이터 저장부와, 웹 환경에서 사용되는 관용어구들에 대해 정의되어 있는 관용어구 사전부와, 사용자들의 발음 패턴에 따른 띄어쓰기 문법정보를 포함하는 사용자 발음패턴 사전부와, 상기 관용어구 사전부를 참조하여 각 검색어 코퍼스에 관용어구가 있는지를 검사하여 관용어구가 있으면, 관용어구를 전후로 관용어구 띄어쓰기를 수행하고, 상기 발음패턴 사전부를 참조하여 상기 관용어구 띄어쓰기 수행된 검색어 코퍼스에 사용자 발음패턴에 따른 발음패턴 띄어쓰기를 수행한 후, 상기 발음패턴 띄어쓰기된 검색어 코퍼스에 대한 문법을 생성하는 문법 생성부를 포함하는 것을 특징으로 한다.
상기 장치는; 형태소 분석을 위한 문법정보 및 형태소 분석에 따른 띄어쓰기 문법 정보를 포함하는 어휘 사전을 더 포함하고, 상기 문법 생성부는, 상기 검색어 코퍼스에 대한 관용어구 띄어쓰기 수행 후, 상기 어휘 사전을 참조하여 어휘 사전 띄어쓰기를 수행하며, 그 후 상기 발음패턴 띄어쓰기를 수행하는 것을 특징으로 한다.
상기 관용어구는 신조어 및 유행어 및 줄임말을 포함하는 것을 특징으로 한다.
상기 장치는; 특수문자 및 외국어들 및 특수문자 및 외국어의 자국어 변환 규칙 정보를 포함하는 특수문자 변환 사전을 더 포함하고, 상기 문법 생성부는, 상기 특수문자 변환 사전을 참조하여 상기 검색어 코퍼스에 특수문자가 있는지를 검색하고, 특수문자가 있으면 자국어로 변환한 후 상기 관용어구 띄어쓰기 및 발음패턴 띄어쓰기를 수행하는 것을 특징으로 한다.
상기 문법 생성부는, 상기 문법 생성 시 소스 데이터 저장부로부터 로드된 검색어 코퍼스의 스페이스를 제거하여 전부 붙여 쓰기를 수행한 후 상기 관용어구 띄어쓰기를 수행하는 것을 특징으로 한다.
상기 문법 생성부는, 상기 검색어 코퍼스에 존재하는 특수문자를 자국어로 변환한 후, 검색어 코퍼스의 스페이스를 제거하여 전부 붙여 쓰기를 수행한 후 상기 관용어구 띄어쓰기를 수행하는 것을 특징으로 한다.
상기 장치는; 형태소 분석을 위한 문법정보 및 형태소 분석에 따른 띄어쓰기 문법 정보를 포함하는 어휘 사전을 더 포함하고, 상기 문법 생성부는, 상기 검색어 코퍼스에 대한 관용어구 띄어쓰기 수행 후, 상기 어휘 사전을 참조하여 어휘 상전 띄어쓰기를 수행하며, 그 후 상기 발음패턴 띄어쓰기를 수행하는 것을 특징으로 한다.
상기 장치는; 상기 검색어 코퍼스에 상기 특수문자 사전, 어휘 사전 및 관용어구 사전에 포함되어 있는 특수문자, 외래어, 어휘 및 관용어구 이외의 어휘 존재 시 상기 어휘를 저장하는 등록 대기 관용어 저장부를 더 포함하고, 상기 문법 생성부는 관리자의 요청 시 상기 등록된 대기 관용어 저장부에 저장된 어휘들을 표시하고, 상기 관리자에 의해 선택되는 어휘를 관용어구 사전에 등록하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 방법은; 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 방법에 있어서, 웹 환경에서 사용되는 검색어 코퍼스들을 수집하는 수집 과정과,
상기 수집된 검색어 코퍼스를 로딩하여 관용어구 사전을 참조하여 상기 검색어 코퍼스에 관용어구가 있는지를 검사하여 관용어구의 전후를 띄어쓰기하는 관용어구 띄어쓰기 과정과, 상기 관용어구 띄어쓰기된 검색어 코퍼스를 사용자 발성패턴 사전을 참조하여 사용자 발성패턴에 따른 띄어쓰기를 수행하는 발성패턴 띄어쓰기 과정과, 상기 띄어쓰기 수행된 검색어 코퍼스에 대한 문법을 생성하는 문법 생성 과정을 포함하는 것을 특징으로 한다.
상기 방법은; 상기 수집된 각 검색어 코퍼스의 스페이스를 제거하여 붙여쓰기를 수행하는 붙여 쓰기 과정을 더 포함하되, 상기 붙여 쓰기 과정 후, 상기 관용어구 및 발성패턴 띄어쓰기 과정을 수행하는 것을 특징으로 한다.
상기 방법은; 어휘사전을 참조하여 상기 검색어 코퍼스에 대해 어휘 사전의 문법에 따른 띄어쓰기를 수행하는 어휘 사전 띄어쓰기 과정을 더 포함하는 것을 특징으로 한다.
상기 관용어구는 신조어 및 유행어를 포함하는 것을 특징으로 하는 방법.
상기 방법은; 상기 붙여 쓰기 과정 전에 특수문자 변환사전을 참조하여 상기 검색어 코퍼스에 특수문자 및 외국어가 있는지를 검사하고, 특수문자 및 외국어가 있으면 자국어로 변환하는 자국어 변환 과정을 더 포함하는 것을 특징으로 한다.
상기 방법은; 상기 붙여쓰기 과정 전에 특수문자 변환사전을 참조하여 상기 검색어 코퍼스에 특수문자 및 외국어가 있는지를 검사하고, 특수문자 및 외국어가 있으면 자국어로 변환하는 자국어 변환 과정을 더 포함하는 것을 특징으로 한다.
상기 방법은; 상기 검색어 코퍼스에 상기 특수문자 사전, 어휘 사전 및 관용어구 사전에 포함되어 있는 특수문자, 외래어, 어휘 및 관용어구 이외의 어휘 존재 시 상기 어휘를 등록 대기 관용어 저장부에 저장하는 관용어구 등록 대상 저장 과정과, 상기 등록 대기 관용어 저장부에 저장된 어휘들 중 관리자에 의해 선택된 어휘를 관용어구로써 상기 관용어구 사전에 등록하는 관용어구 등록 과정을 더 포함하는 것을 특징으로 한다.
본 발명은 신조어, 외래어를 포함하는 관용어구 사전부를 제작하고, 이에 따른 음성인식 문법을 자동 생성하고, 이를 웹 및 모바일 환경에 있는 단말기에 적용함으로써 웹 및 모바일 환경에서의 음성인식률을 향상시킬 수 있는 효과를 가진다.
또한, 본 발명은 신조어, 외래어 및 관용어구에 따른 띄어쓰기 및 사용자의 발성패턴에 따른 띄어쓰기 문법 정보를 가지는 문법을 자동 생성하고, 이를 웹 및 모바일 환경에 있는 단말기에 적용함으로써 웹 및 모바일 환경에서의 음성인식률을 향상시킬 수 있는 효과를 가진다.
도 1은 본 발명에 따른 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치의 구성을 나타낸 도면
도 2는 본 발명에 따른 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 방법을 나타낸 흐름도
이하 도면을 참조하여 본 발명에 따른 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법을 도면을 참조하여 설명한다.
도 1은 본 발명에 따른 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치의 구성을 나타낸 도면이다.
본 발명에 따른 문법 자동 생성 장치는 소스 데이터 저장부(20)와 문법 생성부(30)와 사전부(40)와 문법 저장부(50)를 포함한다.
소스 데이터 저장부(20)는 웹 환경 및 모바일 환경에서 사용되는 검색어 코퍼스들을 저장한다. 상기 검색어 코퍼스는 웹 환경, 다시 말하면, 인터넷 환경에서 검색어로 사용될 수 있는 문장을 의미한다. 예를 들면 상기 검색어 코퍼스는 "good luv 뭔가요", "빵꾸똥꾸 황혜라" "보핍보핍립싱크음악", "신봉선 무한걸스 제주도" 등과 같은 문장들이 될 수 있다.
사전부(40)는 본 발명에 따른 관용어구 및 사용자 발성패턴에 따른 씌어쓰기 문법을 생성하기 위한 정보들을 저장하는 다양한 사전들을 구비한다. 상기 사전부(40)는 특수문자 사전(41), 관용어구 사전(42), 발성패턴 사전(43) 및 어휘 사전부(44)를 포함한다.
상기 특수문자 사전(41)은 다수의 특수문자들 각각에 대응하는 자국어 발성패턴에 따른 어휘가 정의되어 있는 사전이다. 예를 들어, 특수문자 "*"는 "아스트리크"로 정의되어 있고, 외래어"good luv"는 "굿 러브"로 정의되어 있을 수 있다.
관용어구 사전(42)은 사용자들에 의해 생겨난 관용구, 신조어 및 외래어에 대한 어휘들을 정의한다. 예를 들어 관용어구로는 "빵꾸똥꾸", "보핍보핍" 등이 될 수 있을 것이다.
발성패턴 사전(43)은 웹 및 모바일 환경에서 검색 시 음성인식을 위해 사용자가 발성하는 키워드 및 문장들의 쉬어 읽기, 즉 띄어 읽기 기준으로 어절을 정의하여 발음상 붙여 읽거나 띄어 읽게 되는 발성패턴을 분류하여, 2어절 또는 3어절에 적용되는 발성패턴 규칙을 정의한다. 발성패턴 사전(43)은 문법에 어긋나는 문장형식이나, 어구라 할지라도 발성패턴에 부합하는 경우에는 문법에 맞지 않는 형태 그대로 발성패턴을 적용한 내용을 저장한다.
어휘 사전(44)은 사용자들에 의해 반복적으로 사용되는 어휘들 및 관용어구에 대해서 기존에 알고, 키워드 및 문장 등에 대해 띄어쓰기 규칙을 적용하기 위해 형태소 분석을 통한 의미가 있는 단위로 구분하여 텍스트 형태로 등록된다.
문법 저장부(50)는 생성된 검색어 코퍼스에 대해 생성된 띄어쓰기 문법을 저장한다.
문법 생성부(30)는 상기 사전부(40)를 참조하여 띄어쓰기 문법을 생성하여 문법 저장부(50)에 저장한다. 상기 문법 생성부(30)에 의한 띄어쓰기 문법 생성 방법은 후술할 도 2에서 상세한다.
또한, 본 발명의 문법 자동 생성 장치는 검색부(60)와 등록 대기 관용어 저장부(55)를 더 포함할 수도 있다.
등록 대기 관용어 저장부(55)는 상기 문법 생성부(30)에서 사전부를 참조하여 띄어쓰기 문법을 생성하면서 검색어 코퍼스의 어휘들 중 인식되지 않은 어휘를 저장한다. 상기 등록 대기 관용어 저장부(55)에 저장된 어휘는 상기 문법 생성부(30)에 의해 모두 관용어구 사전(42)에 등록되거나 저장된 어휘들 중 관리자에 의해 선택된 어휘만 관용어구 사전(42)에 등록된다.
또한, 본 발명의 문법 자동 생성 장치는 웹 환경의 검색 사이트를 통해 입력된 검색어에 대한 검색을 수행하는 검색부(60)를 더 포함할 수도 있다. 상기 검색부(60)는 문법 생성부(30)로부터 상기 등록 대기 관용어 저장부(55)에 저장된 어휘들을 입력받아 상기 어휘를 검색어로 하는 검색을 수행하고, 검색 결과에 따라 등록 대기 관용어 저장부(55)에 저장된 어휘를 관용어구 사전(42)에 등록하도록 할 수도 있을 것이다.
또한, 본 발명의 문법 자동 생성 장치는 소스 데이터 수집부(10)를 더 포함할 수도 있을 것이다. 상기 소스 데이터 수집부(10)는 웹 환경의 검색 사이트로부터 사용자들이 사용하는 검색어 코퍼스들을 수집하여 소스 데이터 저장부(20)에 저장하거나 관리자로부터 직접 검색어 코퍼스들을 입력받아 소스 데이터 저장부(20)에 저장한다.
도 2는 본 발명에 따른 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 방법을 나타낸 흐름도이다. 이하 도 1 및 도 2를 참조하여 본 발명에 따른 문법 생성부(30)에서의 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 방법을 설명한다.
우선, 문법 생성부(30)는 문법 생성 이벤트가 발생하는지를 검사한다(S210). 상기 문법 생성 이벤트는 일정 주기로 발생하도록 구성될 수도 있고, 관리자의 요청에 의해서 발생하도록 구성될 수도 있으며, 소스 데이터 저장부(20)에 저장되는 검색어 코퍼스의 수가 기준치 이상인 경우에 발생되도록 구성될 수도 있을 것이다.
상기 문법 생성 이벤트가 발생하면, 문법 생성부(30)는 소스 데이터 저장부(20)로부터 선택된 검색어 코퍼스를 로딩한다(S211).
검색어 코퍼스가 로딩되면 문법 생성부(30)는 특수문자 변환 사전(41)을 참조하여 상기 검색어 코퍼스에 특수문자가 있는지를 검사한다(S213). 상기 특수문자는 아스트리크, ?? 등과 같은 특수문자뿐만 아니라 good, Luv 등과 같은 외국어를 포함한다.
상기 검색어 코퍼스에 특수문자가 포함되어 있으면 문법 생성부(30)는 하기 표 1의 예와 같이 특수문자를 자국어인 한글로 변환한다(S215).
초기 입력 문장
(초기 검색어 코퍼스)
1차 특수문자 변환적용 변환 규칙
* 아스트리크 *->아스트리크
good luv뭔가요 굿러브 뭔가요 good luv ->굿러브
검색어 코퍼스 내의 특수문자가 자국어인 한글로 변환 후, 문법 생성부(30)는 상기 특수문자 변환된 검색어 코퍼스에 존재하는 스페이스를 제거한다(S217). 다시 말하면 문법 생성부(30)는 상기 검색어 코퍼스 내의 전체 음절을 붙여 쓴다.
상기 검색어 코퍼스 내의 스페이스 제거 후 문법 생성부(30)는 관용어구 사전(42)을 참조하여 상기 검색어 코퍼스 내에 관용구가 있는지를 검사한다(S219).
검색어 코퍼스 내에 관용구가 포함되어 있으면 문법 생성부(30)는 하기 표 2의 실시 예와 같이 관용어구 전후를 띄어쓰기 한다(S221).
입력 문장
(검색어 코퍼스)
관용어구 띄어쓰기 적용 관용어
빵꾸똥꾸황혜라 빵꾸똥꾸 황혜라 빵꾸똥꾸
빵꾸똥꾸하는모습동영상 빵꾸똥꾸 하는모습동영상
재미있는빵꾸똥꾸 재미있는 빵꾸똥꾸
보핍보핍립싱크음악 보핍보핍 립싱크음악 보핍보핍
보핍보핍장우영티 보핍보핍 장우영티
보핏보핏악보 보핏보핏 악보 보핏보핏
신봉선무한걸스제주도 신봉선 무한걸스 제주도 무한걸스
상기 관용어구 띄어쓰기 수행 후 문법 생성부(30)는 어휘 사전(44)을 참조하여 하기 표 3의 실시 예에서와 같이 형태소 분석을 통한 띄어쓰기를 수행한다(S223).
입력 문장
(검색어 코퍼스)
어휘사전 띄어쓰기 적용
빵꾸똥꾸 황혜라 빵꾸똥꾸 황혜라
빵꾸똥꾸 하는모습동영상 빵꾸똥꾸 하는 모습 동영상
재미있는 빵꾸똥꾸 재미있는 빵꾸똥꾸
보핍보핍 립싱크음악 보핍보핍 립싱크 음악
보핍보핍 장우영티 보핍보핍 장우영 티
보핏보핏 악보 보핏보핏 악보
신봉선 무한걸스 제주도 신봉선 무한걸스 제주도
상기 어휘 사전 띄어쓰기 후 문법 생성부(30)는 발성 패턴 사전(33)을 참조하여 하기 표 4의 실시 예에서와 같이 발성패턴에 따른 띄어쓰기를 수행한다(S225).
입력 문장
(검색어 코퍼스)
발성패턴 띄어쓰기 적용
빵꾸똥꾸 황혜라 빵꾸똥꾸 황혜라
빵꾸똥꾸 하는모습동영상 빵꾸똥꾸하는 모습 동영상
재미있는 빵꾸똥꾸 재미있는 빵꾸똥꾸
보핍보핍 립싱크음악 보핍보핍 립싱크 음악
보핍보핍 장우영티 보핍보핍 장우영 티
보핏보핏 악보 보핏보핏 악보
신봉선 무한걸스 제주도 신봉선 무한걸스 제주도
다시 말하면, 문법 생성부(30)는 어휘 사전 띄어쓰기에 의해 표 3의 "빵꾸똥꾸 하는 모습 동영상"과 같이 문법적으로 올바르게 띄어쓰기가 적용되었을지라도 사용자들의 발성 패턴이 "빵꾸똥꾸하는 모습 동영상"으로 분석된 경우 사용자 발성패턴에 따라 "빵꾸똥꾸하는 모습 동영상"으로 띄어쓰기를 적용한다.
상기와 같이 특수문자 변환, 스페이스 제거, 관용어구 띄어쓰기, 어휘 사전 띄어쓰기 및 발성패턴 띄어쓰기가 수행된 최종 검색어 코퍼스가 생성되면, 문법 생성부(30)는 상기 최정 검색어 코퍼스에 대한 띄어쓰기 문법을 생성하여 문법 저장부(50)에 저장한다(S227).
상기 문법 저장부(50)에 저장된 띄어쓰기 문법들은 음성인식 시스템, 예를 들면, ARS 시스템의 음성인식엔진에 적용될 수 있을 것이다. 이때, 본 발명의 문법 자동 생성 장치에 데이터를 근거리통신망 등의 통신망을 통해 송신하는 송신부(미도시)를 더 구비하도록 하여, 소스 데이터 저장부(20) 내의 검색어 코퍼스들 모두에 대한 띄어쓰기 문법 생성 시 상기 문법 생성부(30)가 송신부를 통해 해당 음성인식엔진을 가지는 시스템으로 자동 송신되도록 구성될 수도 있을 것이며, 관리자의 요청에 의해 송신되도록 구성될 수도 있을 것이다. 또한, 관리자가 직접 생성된 띄어쓰기 문법을 문법 저장부(50)에서 복사하여 해당 시스템의 음성인식엔진에 적용시키도록 구성될 수도 있을 것이다.
또한, 문법 생성부(30)는 상기 도 1에서 설명한 바와 같이 상기 S227의 문법 생성 후, 검색어 코퍼스의 어휘들 중 분석되지 않은 어휘를 등록 대기 관용어 저장부(55)에 저장하거나 분석되지 않은 어휘에 대해 검색부(60)를 통해 검색을 수행하여 검색결과에 따라 해당 어휘를 등록 대기 관용어 저장부(55)에 저장하도록 구성될 수 있다. 상기 등록 대기 관용어 저장부(55)에 저장된 어휘들은 추후 소스 데이터 저장부(20)에 저장된 모든 검색어 코퍼스에 대한 띄어쓰기 문법 생성 완료 시 자동으로 관용어구 사전(42)에 등록되도록 구성될 수 있다.
또한, 등록 대기 관용어 저장부(55)에 저장된 어휘들 중 관리자에 의해 선택된 어휘만을 관용어구 사전(42)에 등록하도록 구성될 수도 있을 것이다.
또한, 최종적으로 띄어쓰기된 검색어 코퍼스에 대해 생성된 최종 문법이 해당 음성인식 엔진에 적용된 후, 상기 음성인식 엔진으로 상기 검색어 코퍼스의 일부 어휘가 사용자로부터 발성되면 음성인식 엔진은 상기 검색어 코퍼스에서의 검출 어휘 뒤에 띄어쓰기된 후속 어휘가 있는지를 검사하고, 띄어쓰기된 어휘가 있으면 사용자 발성 입력을 종료하지 않고, 상기 후속 어휘의 입력을 대기한다. 예를 들면, 검색어 코퍼스인 "빵꾸똥꾸 황혜라"가 최종 문법으로 생성되어 음성인식 엔진에 적용된 후, 사용자로부터 발성된 상기 "빵꾸똥꾸"란 어휘가 인식되면 음성인식엔진은 상기 "빵꾸똥꾸"에 띄어쓰기된 후속 어휘, "황혜라"가 있으면 상기 띄어쓰기에 대응하여 미리 설정된 대기시간 동안 사용자로부터 다음 어휘의 입력을 대기한다.
한편, 본 발명은 전술한 전형적인 바람직한 실시 예에만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 개량, 변경, 대체 또는 부가하여 실시할 수 있는 것임은 당해 기술분야에서 통상의 지식을 가진 자라면 용이하게 이해할 수 있을 것이다. 이러한 개량, 변경, 대체 또는 부가에 의한 실시가 이하의 첨부된 특허청구범위의 범주에 속하는 것이라면 그 기술사상 역시 본 발명에 속하는 것으로 보아야 한다.
10: 소스 데이터 수집부 20: 소스 데이터 저장부
30: 문법 생성부 40: 사전부
41: 특수문자 사전부 42: 관용어구 사전부
43: 발성패턴 사전부 44: 어휘 사전부
50: 문법 저장부 55: 오디오 처리부
60: 검색부

Claims (15)

  1. 웹 환경에서 사용되는 검색어 코퍼스들을 저장하는 소스 데이터 저장부와,
    웹 환경에서 사용되는 관용어구들에 대해 정의되어 있는 관용어구 사전부와,
    사용자들의 발음 패턴에 따른 띄어쓰기 문법정보를 포함하는 사용자 발음패턴 사전부와,
    상기 관용어구 사전부를 참조하여 각 검색어 코퍼스에 관용어구가 있는지를 검사하여 관용어구가 있으면, 관용어구를 전후로 관용어구 띄어쓰기를 수행하고, 상기 발음패턴 사전부를 참조하여 상기 관용어구 띄어쓰기 수행된 검색어 코퍼스를 사용자 발음패턴에 따른 발음패턴 띄어쓰기를 수행한 후, 상기 발음패턴 띄어쓰기된 검색어 코퍼스에 대한 문법을 생성하는 문법 생성부를 포함하는 것을 특징으로 하는 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.
  2. 제1항에 있어서,
    형태소 분석을 위한 문법정보 및 형태소 분석에 따른 띄어쓰기 문법 정보를 포함하는 어휘 사전을 더 포함하고,
    상기 문법 생성부는, 상기 검색어 코퍼스에 대한 관용어구 띄어쓰기 수행 후, 상기 어휘 사전을 참조하여 어휘 사전 띄어쓰기를 수행하며, 그 후 상기 발음패턴 띄어쓰기를 수행하는 것을 특징으로 하는 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.
  3. 제1항에 있어서,
    상기 관용어구는 신조어 및 유행어를 포함하는 것을 특징으로 하는 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.
  4. 제1항에 있어서,
    특수문자 및 외국어들 및 특수문자 및 외국어의 자국어 변환 규칙 정보를 포함하는 특수문자 변환 사전을 더 포함하고,
    상기 문법 생성부는, 상기 특수문자 변환 사전을 참조하여 상기 검색어 코퍼스에 특수문자가 있는지를 검색하고, 특수문자가 있으면 자국어로 변환한 후 상기 관용어구 띄어쓰기 및 발음패턴 띄어쓰기를 수행하는 것을 특징으로 하는 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.
  5. 제1항에 있어서,
    상기 문법 생성부는,
    상기 문법 생성 시 소스 데이터 저장부로부터 로드된 검색어 코퍼스의 스페이스를 제거하여 전부 붙여 쓰기를 수행한 후 상기 관용어구 띄어쓰기를 수행하는 것을 특징으로 하는 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.
  6. 제4항에 있어서,
    상기 문법 생성부는,
    상기 검색어 코퍼스에 존재하는 특수문자를 자국어로 변환한 후, 검색어 코퍼스의 스페이스를 제거하여 전부 붙여 쓰기를 수행한 후 상기 관용어구 띄어쓰기를 수행하는 것을 특징으로 하는 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.

  7. 제6항에 있어서,
    형태소 분석을 위한 문법정보 및 형태소 분석에 따른 띄어쓰기 문법 정보를 포함하는 어휘 사전을 더 포함하고,
    상기 문법 생성부는, 상기 검색어 코퍼스에 대한 관용어구 띄어쓰기 수행 후, 상기 어휘 사전을 참조하여 어휘 상전 띄어쓰기를 수행하며, 그 후 상기 발음패턴 띄어쓰기를 수행하는 것을 특징으로 하는 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.

  8. 제7항에 있어서,
    상기 검색어 코퍼스에 상기 특수문자 사전, 어휘 사전 및 관용어구 사전에 포함되어 있는 특수문자, 외래어, 어휘 및 관용어구 이외의 어휘 존재 시 상기 어휘를 저장하는 등록 대기 관용어 저장부를 더 포함하고,
    상기 문법 생성부는 관리자의 요청 시 상기 등록된 대기 관용어 저장부에 저장된 어휘들을 표시하고, 상기 관리자에 의해 선택되는 어휘를 관용어구 사전에 등록하는 것을 특징으로 하는 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 장치.
  9. 관용어구 및 사용자 발성패턴을 이용한 문법 자동 생성 방법에 있어서,
    웹 환경에서 사용되는 검색어 코퍼스들을 수집하는 수집 과정과,
    상기 수집된 검색어 코퍼스를 로딩하여 관용어구 사전을 참조하여 상기 검색어 코퍼스에 관용어구가 있는지를 검사하여 관용어구의 전후를 띄어쓰기하는 관용어구 띄어쓰기 과정과,
    상기 관용어구 띄어쓰기된 검색어 코퍼스를 사용자 발성패턴 사전을 참조하여 사용자 발성패턴에 따른 띄어쓰기를 수행하는 발성패턴 띄어쓰기 과정과,
    상기 띄어쓰기 수행된 검색어 코퍼스에 대한 문법을 생성하는 문법 생성 과정을 포함하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서,
    상기 수집된 각 검색어 코퍼스의 스페이스를 제거하여 붙여쓰기를 수행하는 붙여 쓰기 과정을 더 포함하되,
    상기 붙여 쓰기 과정 후, 상기 관용어구 및 발성패턴 띄어쓰기 과정을 수행하는 것을 특징으로 하는 방법.
  11. 제9항 또는 제10항에 있어서,
    어휘사전을 참조하여 상기 검색어 코퍼스에 대해 어휘 사전의 문법에 따른 띄어쓰기를 수행하는 어휘 사전 띄어쓰기 과정을 더 포함하는 것을 특징으로 하는 방법.
  12. 제9항에 있어서,
    상기 관용어구는 신조어 및 유행어를 포함하는 것을 특징으로 하는 방법.
  13. 제9항 또는 제10항에 있어서,
    상기 붙여 쓰기 과정 전에 특수문자 변환사전을 참조하여 상기 검색어 코퍼스에 특수문자 및 외국어가 있는지를 검사하고, 특수문자 및 외국어가 있으면 자국어로 변환하는 자국어 변환 과정을 더 포함하는 것을 특징으로 하는 방법.
  14. 제11항에 있어서,
    상기 붙여쓰기 과정 전에 특수문자 변환사전을 참조하여 상기 검색어 코퍼스에 특수문자 및 외국어가 있는지를 검사하고, 특수문자 및 외국어가 있으면 자국어로 변환하는 자국어 변환 과정을 더 포함하는 것을 특징으로 하는 방법.
  15. 제14항에 있어서,
    상기 검색어 코퍼스에 상기 특수문자 사전, 어휘 사전 및 관용어구 사전에 포함되어 있는 특수문자, 외래어, 어휘 및 관용어구 이외의 어휘 존재 시 상기 어휘를 등록 대기 관용어 저장부에 저장하는 관용어구 등록 대상 저장 과정과,
    상기 등록 대기 관용어 저장부에 저장된 어휘들 중 관리자에 의해 선택된 어휘를 관용어구로써 상기 관용어구 사전에 등록하는 관용어구 등록 과정을 더 포함하는 것을 특징으로 하는 방법.
KR1020100046335A 2010-05-18 2010-05-18 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법 KR100992073B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100046335A KR100992073B1 (ko) 2010-05-18 2010-05-18 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100046335A KR100992073B1 (ko) 2010-05-18 2010-05-18 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR100992073B1 true KR100992073B1 (ko) 2010-11-04

Family

ID=43409348

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100046335A KR100992073B1 (ko) 2010-05-18 2010-05-18 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100992073B1 (ko)

Similar Documents

Publication Publication Date Title
EP0262938B1 (en) Language translation system
CN100452025C (zh) 自动检测文件中搭配错误的系统和方法
Fu et al. Chinese named entity recognition using lexicalized HMMs
Meng et al. Mandarin–English information (MEI): investigating translingual speech retrieval
JP2006277677A (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
EP1623412B1 (en) Method for statistical language modeling in speech recognition
CN103314369B (zh) 机器翻译装置和方法
Watts et al. Unsupervised and lightly-supervised learning for rapid construction of TTS systems in multiple languages fromfound'data: evaluation and analysis
CN101329667A (zh) 多语言语音互译的智能翻译设备及其控制方法
Fung et al. Multilingual spoken language processing
Scherrer et al. Natural Language Processing for the Swiss German Dialect Area.
Rosso et al. On the voice-activated question answering
CN103164397A (zh) 汉哈电子辞典及其自动转译汉哈语的方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
Jamro Sindhi language processing: A survey
CN101329669A (zh) 一种搜索引擎装置及搜索引擎方法
CN103164395A (zh) 汉柯电子辞典及其自动转译汉柯语的方法
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
KR100992073B1 (ko) 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법
Núñez et al. Phonetic normalization for machine translation of user generated content
CN113591497A (zh) 一种基于词素媒介的蒙汉机器翻译方法
Zhou et al. Combining probability models and web mining models: a framework for proper name transliteration
Meng et al. CU VOCAL: corpus-based syllable concatenation for Chinese speech synthesis across domains and dialects.
Sridhar et al. Enriching machine-mediated speech-to-speech translation using contextual information
Shukla et al. A Framework of Translator from English Speech to Sanskrit Text

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee