KR101482148B1 - 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법 - Google Patents

개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법 Download PDF

Info

Publication number
KR101482148B1
KR101482148B1 KR20110141604A KR20110141604A KR101482148B1 KR 101482148 B1 KR101482148 B1 KR 101482148B1 KR 20110141604 A KR20110141604 A KR 20110141604A KR 20110141604 A KR20110141604 A KR 20110141604A KR 101482148 B1 KR101482148 B1 KR 101482148B1
Authority
KR
South Korea
Prior art keywords
voice
pronunciation
data
mapping
group
Prior art date
Application number
KR20110141604A
Other languages
English (en)
Other versions
KR20130073643A (ko
Inventor
한영호
박재한
안동훈
류창선
박성찬
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR20110141604A priority Critical patent/KR101482148B1/ko
Priority to US13/727,128 priority patent/US20130166283A1/en
Publication of KR20130073643A publication Critical patent/KR20130073643A/ko
Application granted granted Critical
Publication of KR101482148B1 publication Critical patent/KR101482148B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Abstract

개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법이 제공된다. 보다 상세하게는 개인의 발성 패턴 및 단말 정보를 그룹핑하고, 그룹핑된 정보에 기초하여 그룹에 따라 발음열을 달리 생성한 데이터를 이용하여 음성 인식을 수행하는 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법이 제공된다.

Description

개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법{GROUP MAPPING DATA BUILDING SERVER, SOUND RECOGNITION SERVER AND METHOD THEREOF BY USING PERSONALIZED PHONEME}
개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법에 관한 것으로, 보다 상세하게는 개인의 발성 패턴 및 단말 정보를 그룹핑하고, 그룹핑된 정보에 기초하여 그룹에 따라 발음열을 달리 생성한 데이터를 이용하여 음성 인식을 수행하는 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법에 관한 것이다.
N 스크린(Screen) 서비스는 TV, PC, 태블릿 PC 또는 스마트폰 등의 다양한 기기에서 독립적으로 이용하던 서비스를 사용자 또는 컨텐츠를 중심으로 복합적으로 이용할 수 있게 해주는 서비스이다. 이러한 N 스크린 서비스가 제공됨에 있어서, 다양한 종류의 복수의 기기에서 동시에 동일한 컨텐츠를 재생시키는 기술 및 복수의 기기 중 어느 하나의 단말에서 재생하던 컨텐츠를 복수의 기기 중 다른 기기에서 끊임 없이(Seamless) 재생하는 기술 등이 요구된다. 이와 관련하여, 선행기술인 한국 특허공개번호 제2011-0009587에는 복수의 단말로 동영상 컨텐츠를 제공하는 컨텐츠 서버 간의 재생 이력 동기화를 구현하여 이 기종 단말 간의 동영상 컨텐츠 이어보기를 제공하는 구성이 개시되어 있다.
한편, 스마트폰의 폭넓은 보급에 따라 음성 인터페이스에 대한 관심이 고조되고 있다. 음성 인터페이스는 인간에 가장 편리한 음성을 통해 기기를 조작할 수 있는 기술로써 현재와 미래에 가장 중요한 인터페이스로 자리 잡을 것이다. 음성 인식은 일반적으로 음향 모델과 언어 모델이라는 두 가지의 통계적 모델링 기법을 이용한다. 언어 모델은 인식하고자 하는 목표 단어인 표제어와 그것을 실제 사람들의 발음으로 표기한 발음열을 통해 만들어지는 것인데, 이때 발음열을 얼마나 정확하게 만들어낼 수 있느냐가 음성 인식 성능의 관건이다.
그런데 영어의 경우, 교육 수준이나 연령에 따라 발음의 차이가 뚜렷하고, 또한, 사용 기기에 따라서도 발음의 차이가 생길 수 있다는 문제점이 있다. 예를 들어, "LG"라는 영어 단어를 "엘지"로 발음하는 사람과 "엘쥐"로 발음하는 사람이 있을 수 있다. 또한, 스마트폰의 경우는 바로 입 가까이에서 발음을 하기 때문에 "벡스코"라는 단어를 발음할 때는 일반적으로 "벡스코"라고 발음하게 된다. 하지만, 텔레비전의 경우는 일반적으로 2m 이상의 거리를 두고 말하기 때문에 "벡,쓰,코"로 또렷하게 발음하는 경향이 있다.
따라서, 언어 및 장치의 사용 기기의 종류에 의해 발생하는 발음열의 차이를 극복하기 위한 기술이 요구된다.
개인의 발성 패턴 및 단말 정보를 그룹핑하고자 한다. 이러한 그룹핑된 정보에 기초하여 그룹에 따라 발음열을 달리 생성한 데이터를 이용하여 음성 인식을 수행하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 복수의 사용자의 음성이 포함된 복수의 음성 데이터를 저장하고 있는 음성 데이터 DB, 상기 음성 데이터 DB로부터 수집된 상기 음성 데이터의 상기 음성의 패턴의 특징을 분석하는 스펙트럼 분석부, 상기 스펙트럼 분석부의 분석 결과를 이용하여, 상기 복수의 음성 데이터를 클러스터링하는 클러스터링부, 상기 클러스터링부에서 클러스터링된 상기 복수의 음성 데이터에 대해 발음 패턴에 따른 발음열 규칙을 정하여 그룹핑하는 발음 패턴 그룹핑부, 상기 발음 패턴 그룹핑부에 의해 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장하는 그룹 매핑 DB, 및 상기 그룹 매핑 DB에 저장된 상기 데이터를 이용하여, 상기 인덱스값에 해당하는 발음열 규칙을 생성하는 발음열 규칙 생성부를 포함하는 그룹 매핑 데이터 생성 서버를 제공할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 복수의 사용자의 음성 및 사용 기기에 따라 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장하는 그룹 매핑 DB, 및 상기 그룹 매핑 DB에 저장된 상기 데이터를 이용하여, 상기 인덱스값에 해당하는 발음열 규칙을 생성하는 발음열 규칙 생성부를 포함하는 그룹 매핑 데이터 생성 서버, 사용자의 음성을 추출하여 상기 음성이 속하는 그룹을 판단하여, 상기 그룹에 해당되는 상기 인덱스값을 상기 그룹 매핑 DB로부터 추출하는 그룹 인덱스 추정부, 상기 그룹 인덱스 추정부로부터 수신된 상기 인덱스값에 해당하는 발음열 규칙을 상기 발음열 규칙 생성부로부터 추출하는 발음열 매핑 컨버터, 표제어 및 발음열의 매핑 정보를 저장하고 있되, 상기 발음 매핑 컨버터에서 추출된 상기 발음열 규칙을 이용하여 갱신하는 검색 DB, 및 상기 검색 DB를 이용하여 상기 사용자의 상기 음성에 대한 음성 인식을 수행하는 음성 인식부를 포함하는 음성 인식 서버를 제공할 수 있다.
또한, 복수의 사용자의 음성 및 사용 기기에 따라 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장하는 그룹 매핑 데이터를 형성하는 단계, 상기 그룹 매핑 데이터를 이용하여, 상기 인덱스값에 해당하는 발음열 규칙을 생성하는 단계, 사용자의 음성을 추출하여 상기 음성이 속하는 그룹을 판단하여, 상기 그룹에 해당되는 상기 인덱스값을 추출하는 단계, 상기 추출된 인덱스값에 해당하는 발음열 규칙을 추출하는 단계, 상기 추출된 발음열 규칙을 이용하여 검색 DB를 갱신하는 단계, 및 상기 검색 DB를 이용하여 상기 사용자의 상기 음성에 대한 음성 인식을 수행하는 단계를 포함하는 음성 인식 방법을 제공할 수 있다.
그룹핑된 정보에 기초하여 그룹에 따라 발음열을 달리 생성한 데이터를 이용하여 음성 인식을 수행함으로써, 개인의 영어 발음 및 기기의 차이에 따른 음성 인식의 부정확을 극복하여 음성 인식의 정확도를 높일 수 있다. 또한, 검색 DB를 최적화하여 불필요한 탐색 공간을 줄일 수 있기 때문에 음성 인식의 속도가 빨라질 수 있다.
도 1은 본 발명의 일 실시예에 따른 컨텐츠 관리 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 코드 해석부(12) 및 서버 위치 저장부(13)의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 컨텐츠 코드의 구성을 나타낸다.
도 4는 본 발명의 일 실시예에서 단말의 종류에 따른 서버 위치 저장부(13) 및 컨텐츠 저장 서버(15)의 저장소의 형태를 나타낸다.
도 5는 본 발명의 일 실시예에 따른 컨텐츠 관리 및 제공 방법의 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 그룹 매핑 데이터 생성 서버의 구성도이다. 도 1을 참조하면, 그룹 매핑 데이터 생성 서버는 음성 데이터 DB(11), 스펙트럼 분석부(12), 클러스터링부(13), 클러스터 DB(14), 발음 패턴 그룹핑부(15), 그룹 매핑 DB(16) 및 발음열 규칙 생성부(17) 등을 포함할 수 있다. 다만, 이러한 도 1의 매핑 데이터 생성 서버는 일 실시예에 불과하므로 도 1을 통해 매핑 데이터 생성 서버가 한정 해석되는 것이 아니다.
음성 데이터 DB(11)는 복수의 사용자의 음성이 포함된 복수의 음성 데이터를 저장한다. 도 1을 통해 예시하면, 음성 데이터 DB(11)는 다양한 단말기를 사용하는 많은 사람의 각각의 단말기를 통한 음성을 수집하여 저장한다. 즉, 여기서 복수의 음성 데이터에는 음성이 송출된 기기 정보가 포함될 수 있다. 이러한 음성 데이터 DB(11)의 일 예에는 하드디스크드라이브, ROM(Read Only Memory), RAM(Random Access Memory), 플래쉬메모리 및 메모리카드 등이 포함된다.
스펙트럼 분석부(12)는 음성 데이터 DB(11)로부터 수집된 음성 데이터의 음성의 패턴의 특징을 분석한다. 즉, 스펙트럼 분석부(12)는 음성의 음향적 특징을 분석하는데, 음성의 음향적 특징은 발음 패턴과 유사성이 있을 수 있기 때문에, 클러스터링부(13)는 스펙트럼 분석부(12)의 분석 결과를 이용하여, 복수의 음성 데이터를 클러스터링하여 클러스터 DB(14)를 생성한다. 이때, 클러스터링부(13)는 음성이 송출된 기기 정보를 포함하여 복수의 음성 데이터를 클러스터링할 수 있다. 이러한 클러스터 DB(14)의 일 예에는 하드디스크드라이브, ROM(Read Only Memory), RAM(Random Access Memory), 플래쉬메모리 및 메모리카드 등이 포함된다.
발음 패턴 그룹핑부(15)는 클러스터링부(13)에서 클러스터링된 복수의 음성 데이터에 대해 발음 패턴에 따른 발음열 규칙을 정하여 그룹핑한다. 즉, 발음 패턴 그룹핑부(15)는 클러스터링부(13)에서 그룹핑된 클러스터를 활용하여 발음의 패턴에 따른 발음열 규칙을 찾아낸다. 예를 들어, 『제1그룹은 일반적으로 영어 "LG"를 발음할 때, "엘쥐"가 아닌 "엘지"와 같이 발음한다.』라는 규칙을 찾아낸다.
그룹 매핑 DB(16)는 발음 패턴 그룹핑부(15)에 의해 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장한다. 전술한 바와 같이, 클러스터링부(13)는 음성이 송출된 기기 정보를 포함하여 복수의 음성 데이터를 클러스터링하기 때문에, 그룹 매핑 DB(16)에 저장되는 그룹핑된 데이터는 사용자 및 기기가 맵핑된 인덱스값을 포함한다. 이러한 그룹 매핑 DB(16)의 일 예에는 하드디스크드라이브, ROM(Read Only Memory), RAM(Random Access Memory), 플래쉬메모리 및 메모리카드 등이 포함된다.
발음열 규칙 생성부(17)는 그룹 매핑 DB(16)에 저장된 데이터를 이용하여, 인덱스값에 해당하는 발음열 규칙을 생성하여 저장하고 있다.
도 2는 그룹 매핑 DB(16)에 저장되는 그룹핑된 데이터의 형식에 대한 예시이다. 다만, 이러한 도 2의 그룹핑된 데이터의 형식은 일 실시예에 불과하므로 도 2를 통해 그룹핑된 데이터의 형식이 한정 해석되는 것이 아니다.
도 2를 통해 예시하면, 사용자 A, B, C, D와 그들이 사용한 기기, 즉 태블릿, 휴대폰, TV 및 네비게이션 등이 매핑되어 인덱스를 저장하고 있다. 예를 들어, 사용자 A가 태블릿을 사용했을 때는 인덱스 "1" 값을 갖지만, TV를 사용했을 때는 인덱스 "3" 값을 갖게 된다. 즉, 동일한 사용자라도 사용하는 기기가 어떤 종류이냐에 따라 인식되는 발음 패턴이 달라지는 것이다.
따라서, 본 발명은 TV, PC, 태블릿 PC 또는 스마트폰 등의 다양한 기기에서 독립적으로 이용하던 서비스를 사용자 또는 컨텐츠를 중심으로 복합적으로 이용할 수 있게 해주는 N 스크린 서비스 상의 음성인터페이스 구축을 위해 반드시 필요한 기술이다. 왜냐하면, 현재의 음성인터페이스는 단말기의 종류에 따라 어플은 달라지지만 그것을 처리하는 엔진은 서버에 위치하며 이는 다양한 단말기에 모두 동일하게 적용되기 때문이다. 이는 인식 어휘 수가 늘어날수록 계산량이 기하급수적으로 늘어나기 때문에 그런 것인데, 본 발명에서 제시하고 있는 다양한 장치에 따른 발음열의 재구성 방식은 이러한 음성 인터페이스 시스템의 효율성 및 정확성을 높이는 중요한 기술이 된다.
도 3은 본 발명의 일 실시예에 따른 음성 인식 서버의 구성도이다. 도 3을 참조하면, 음성 인식 서버는 도 1의 매핑 데이터 생성 서버, 그룹 인덱스 추정부(32), 발음열 매핑 컨버터(33), 검색 DB(34) 및 음성 인식부(35) 등을 포함할 수 있다. 다만, 이러한 도 3의 음성 인식 서버는 일 실시예에 불과하므로 도 3을 통해 음성 인식 서버가 한정 해석되는 것이 아니다.
음성 인식 서버를 구성하는 도 3의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 다만, 도 1의 매핑 데이터 생성 서버 내부의 구성요소들은 일부 오프라인에서 작동된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(network)의 일 예에는 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network) 등이 포함되나 이에 한정되지는 않는다.
그룹 인덱스 추정부(32)는 사용자의 음성을 추출하여 해당 음성이 속하는 그룹을 판단하여, 그룹 매핑 DB(16)의 일 그룹에 해당되는 인덱스값을 그룹 매핑 DB(16)로부터 추출하고, 이 인덱스값을 후술할 발음열 매핑 컨버터(33)로 전송한다.
발음열 매핑 컨버터(33)는 그룹 인덱스 추정부(32)로부터 수신된 인덱스값에 해당하는 발음열 규칙을 발음열 규칙 생성부(17)로부터 추출한다. 즉, 발음열 매핑 컨버터(33)에서는 표제어를 발음열로 변환하여 검색 DB(34)로 전송한다.
검색 DB(34)는 표제어 및 발음열의 매핑 정보를 저장하고 있으며, 발음열 매핑 컨버터(33)에서 추출된 발음열 규칙을 이용하여 갱신을 수행한다. 이로써, 검색 DB(34)는 후술할 음성 인식부(35)에서 표제어를 찾기 위한 데이터를 제공할 수 있게 되는 것이다. 이러한 검색 DB(34)의 일 예에는 하드디스크드라이브, ROM(Read Only Memory), RAM(Random Access Memory), 플래쉬메모리 및 메모리카드 등이 포함된다.
음성 인식부(35)는 검색 DB(34)를 이용하여 사용자의 음성에 대한 음성 인식을 수행한다. 즉, 사용자 단말(31)로부터 수신된 음성과 검색 DB(34)에서 추출된 표제어 및 발음열의 매핑 정보를 이용하여 음성 인식을 수행하고, 그 결과를 사용자 단말(31)로 전송하게 된다.
상술한 바와 같이, 본 발명의 다양한 실시예들에 따르면 이러한 사용자 단말(31)은 다양한 종류의 단말일 수 있다. 예를 들어, 단말은 네트워크를 통해 원격지의 서버에 접속할 수 있는 TV 장치, 컴퓨터, 네비게이션 또는 휴대용 단말일 수 있다. 여기서, TV 장치의 일 예에는 스마트 TV, IPTV 셋톱박스 등이 포함되고, 컴퓨터의 일 예에는 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등이 포함되고, 휴대용 단말의 일 예에는 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치가 포함될 수 있다.
도 4는 본 발명의 일 실시예에 따른 음성 인식 방법의 동작 흐름도이다. 도 4에 도시된 실시예에 따른 음성 인식 방법은 도 1 또는 도 3에 도시된 실시예에 따른 그룹 매핑 데이터 생성 서버 및 음성 인식 서버에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 또는 도 3의 그룹 매핑 데이터 생성 서버 및 음성 인식 서버에 관하여 이상에서 기술된 내용은 도 4에 도시된 실시예에 따른 음성 인식 방법에도 적용된다.
단계 S41에서, 복수의 사용자의 음성 및 사용 기기에 따라 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장하는 그룹 매핑 데이터를 형성하여 그룹 매핑 DB(16)에 저장한다. 본 실시예에 따른 그룹 매핑 데이터의 형성은 복수의 사용자의 음성이 포함된 복수의 음성 데이터의 음성의 패턴의 특징을 분석하고, 분석의 결과를 이용하여 복수의 음성 데이터를 클러스터링하고, 클러스터링된 복수의 음성 데이터에 대해 발음 패턴에 따른 발음열 규칙을 정하여 그룹핑함으로써 생성된다.
단계 S42에서, 발음열 규칙 생성부(17)는 그룹 매핑 DB(16)의 그룹 매핑 데이터를 이용하여, 각각의 인덱스값에 해당하는 발음열 규칙을 생성한다. 이렇게 해서 생성된 각각의 인덱스값에 해당하는 발음열 규칙은 후술할 발음열 매핑 과정에서 이용된다.
단계 S43에서, 그룹 인덱스 추정부(32)는 사용자 단말(31)에서 송출된 사용자의 음성을 추출하여, 음성이 속하는 그룹을 판단한 후, 그룹 매핑 DB(16)에서 해당 그룹의 인덱스값을 추출한다. 즉, 사용자가 음성 인식 어플 등을 이용해 음성을 송출하면, 이 음성은 그룹 인덱스 추정부(32)와 후술할 음성 인식부(35)로 전송된다. 그룹 인덱스 추정부(32)는 이 음성이 그룹 매핑 DB(16)의 그룹 중 어디 속하는지를 판단하여 인덱스 값을 발음열 매핑 컨버터(33)로 전송한다.
S44에서, 발음열 매핑 컨버터(33)는 추출된 인덱스값에 해당하는 발음열 규칙을 발음열 규칙 생성부(17)로부터 추출한다. 즉, 발음열 매핑 컨버터(33)는 인덱스값에 맞는 발음열의 규칙을 발음열 규칙 생성부(17)로부터 추출하고, S45에서, 이를 이용하여 검색 DB(34)를 갱신/수정한다.
S46에서, 음성 인식부(35)는 수신된 사용자 음성에 대해 수정된 검색 DB(34)를 이용하여 음성 인식을 수행한다.
도 4를 통해 설명된 실시예들에 따른 컨텐츠 관리 및 제공 방법들 각각은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
도 5a 및 도 5b는 본 발명의 일실시예에 따른 음성 인식의 일예를 설명하기 위한 도면이다.
도 5a는 종래의 기법에 따른 음성 인식 방법에 관한 것이고, 도 5b는 본 발명의 일실시예에 따른 음성 인식 방법에 관한 것이다.
도 5a를 참조하면, 종래의 기법에서는 인식기로 들어온 "KT"에 대한 음성파형을 [케이티], [게이티], [케티], [깨이티] 등과 같은 발음열과 비교를 하여, 가장 높은 점수를 얻은 발음과 매핑된 인식 어휘를 인식 단어로 나타낸다. 이 경우 특정 개인의 발음 방식에 대한 정보나 사용 기기의 정보를 알 수 없기 때문에 "KT"를 "게이", "caty" 또는 "깨있다" 등으로 잘못 인식할 가능성이 크다. 예를 들어, 어떤 사용자가 "K"를 발음한다고 할 때, [케이]에서 [이] 발음을 너무 짧게 발음하여 마치 [케]로 발음하는 특징을 가진 사용자라거나, 사용 기기의 특성상 크고 명료하게 발음을 하게 되는 경우 [깨이티]로 발음한다면, 각각 "caty"와 "깨있다"로 잘못 인식될 것이다.
반면, 도 5b의 본 발명의 일실시예에 따라, 각 개인의 발성의 패턴을 알 수 있고 현재 사용한 기기의 정보를 알 수 있어, 이에 대한 충분한 데이터가 존재하여 발음의 패턴을 도 5b의 맵핑 테이블과 같이 그룹핑 시켜놓을 수 있다면, 음성과 함께 이러한 그룹핑 정보를 음성 인식부(35)로 보낼 수 있다. 따라서 음성 인식 서버의 입장에서는 그룹핑 인덱스를 이용하여 그룹에 대한 분류를 할 수 있고, 이 정보는 발음 매칭 컨버터(33)를 통해 기존의 발음열들이 매칭된 어휘를 그룹 특징에 맞게 변경시킬 수 있다. 예를 들어, "KT"를 [케티] 또는 [깨이티]로 발음하더라도 그룹 인덱스 정보를 이용하여 "KT"로 정확하게 인식할 수 있는 것이다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
11: 음성 데이터 DB
12: 스펙트럼 분석부
13: 클러스터링부
14: 클러스터 DB
15: 발음 패턴 그룹핑부
16: 그룹 매핑 DB
17: 발음열 규칙 생성부
32: 그룹 인덱스 추정부
33: 발음열 매핑 컨버터
34: 검색 DB
35: 음성 인식부

Claims (11)

  1. 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버에 있어서,
    복수의 사용자의 음성이 포함된 복수의 음성 데이터를 저장하고 있는 음성 데이터 DB;
    상기 음성 데이터 DB로부터 수집된 상기 음성 데이터의 상기 음성의 패턴의 특징을 분석하는 스펙트럼 분석부;
    상기 스펙트럼 분석부의 분석 결과를 이용하여, 상기 복수의 음성 데이터를 클러스터링하는 클러스터링부;
    상기 클러스터링부에서 클러스터링된 상기 복수의 음성 데이터에 대해 발음 패턴에 따른 발음열 규칙을 정하여 그룹핑하는 발음 패턴 그룹핑부;
    상기 발음 패턴 그룹핑부에 의해 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장하는 그룹 매핑 DB; 및
    상기 그룹 매핑 DB에 저장된 상기 데이터를 이용하여, 상기 인덱스값에 해당하는 발음열 규칙을 생성하는 발음열 규칙 생성부
    를 포함하되,
    상기 복수의 음성 데이터에는 상기 음성이 송출된 기기 정보가 포함되는 것인, 그룹 매핑 데이터 생성 서버.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 클러스터링부는 상기 기기 정보를 이용하여 상기 복수의 음성 데이터를 클러스터링하는, 그룹 매핑 데이터 생성 서버.
  4. 개인화된 발음열을 이용한 음성 인식 서버에 있어서,
    복수의 사용자의 음성 및 사용 기기에 따라 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장하는 그룹 매핑 DB, 및 상기 그룹 매핑 DB에 저장된 상기 데이터를 이용하여, 상기 인덱스값에 해당하는 발음열 규칙을 생성하는 발음열 규칙 생성부를 포함하는 그룹 매핑 데이터 생성 서버;
    사용자의 음성을 추출하여 상기 음성이 속하는 그룹을 판단하여, 상기 그룹에 해당되는 상기 인덱스값을 상기 그룹 매핑 DB로부터 추출하는 그룹 인덱스 추정부;
    상기 그룹 인덱스 추정부로부터 수신된 상기 인덱스값에 해당하는 발음열 규칙을 상기 발음열 규칙 생성부로부터 추출하는 발음열 매핑 컨버터;
    표제어 및 발음열의 매핑 정보를 저장하고 있되, 상기 발음 매핑 컨버터에서 추출된 상기 발음열 규칙을 이용하여 갱신하는 검색 DB; 및
    상기 검색 DB를 이용하여 상기 사용자의 상기 음성에 대한 음성 인식을 수행하는 음성 인식부
    를 포함하는 음성 인식 서버.
  5. 제 4 항에 있어서,
    상기 그룹 매핑 데이터 생성 서버는,
    복수의 사용자의 음성이 포함된 복수의 음성 데이터를 저장하고 있는 음성 데이터 DB;
    상기 음성 데이터 DB로부터 수집된 상기 음성 데이터의 상기 음성의 패턴의 특징을 분석하는 스펙트럼 분석부;
    상기 스펙트럼 분석부의 분석 결과를 이용하여, 상기 복수의 음성 데이터를 클러스터링하는 클러스터링부; 및
    상기 클러스터링부에서 클러스터링된 상기 복수의 음성 데이터에 대해 발음 패턴에 따른 발음열 규칙을 정하여 그룹핑하는 발음 패턴 그룹핑부
    를 추가로 포함하는, 음성 인식 서버.
  6. 제 5 항에 있어서,
    상기 복수의 음성 데이터에는 상기 음성이 송출된 기기 정보가 포함되는, 음성 인식 서버.
  7. 제 6 항에 있어서,
    상기 클러스터링부는 상기 기기 정보를 이용하여 상기 복수의 음성 데이터를 클러스터링하는, 음성 인식 서버.
  8. 개인화된 발음열을 이용한 음성 인식 방법에 있어서,
    복수의 사용자의 음성 및 사용 기기에 따라 그룹핑된 데이터를 인덱스값을 포함한 매핑 형식으로 저장하는 그룹 매핑 데이터를 형성하는 단계;
    상기 그룹 매핑 데이터를 이용하여, 상기 인덱스값에 해당하는 발음열 규칙을 생성하는 단계;
    사용자의 음성을 추출하여 상기 음성이 속하는 그룹을 판단하여, 상기 그룹에 해당되는 상기 인덱스값을 추출하는 단계;
    상기 추출된 인덱스값에 해당하는 발음열 규칙을 추출하는 단계;
    상기 추출된 발음열 규칙을 이용하여 검색 DB를 갱신하는 단계; 및
    상기 검색 DB를 이용하여 상기 사용자의 상기 음성에 대한 음성 인식을 수행하는 단계
    를 포함하는 음성 인식 방법.
  9. 제 8 항에 있어서,
    상기 그룹 매핑 데이터는,
    복수의 사용자의 음성이 포함된 복수의 음성 데이터의 상기 음성의 패턴의 특징을 분석하고, 상기 분석의 결과를 이용하여 상기 복수의 음성 데이터를 클러스터링하고, 상기 클러스터링된 상기 복수의 음성 데이터에 대해 발음 패턴에 따른 발음열 규칙을 정하여 그룹핑하여 생성되는, 음성 인식 방법.
  10. 제 9 항에 있어서,
    상기 복수의 음성 데이터에는 상기 음성이 송출된 기기 정보가 포함되는, 음성 인식 방법.
  11. 제 10 항에 있어서,
    상기 클러스터링을 수행할 때, 상기 기기 정보를 이용하여 상기 복수의 음성 데이터를 클러스터링하는, 음성 인식 방법.
KR20110141604A 2011-12-23 2011-12-23 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법 KR101482148B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR20110141604A KR101482148B1 (ko) 2011-12-23 2011-12-23 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
US13/727,128 US20130166283A1 (en) 2011-12-23 2012-12-26 Method and apparatus for generating phoneme rule

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20110141604A KR101482148B1 (ko) 2011-12-23 2011-12-23 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법

Publications (2)

Publication Number Publication Date
KR20130073643A KR20130073643A (ko) 2013-07-03
KR101482148B1 true KR101482148B1 (ko) 2015-01-14

Family

ID=48655411

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20110141604A KR101482148B1 (ko) 2011-12-23 2011-12-23 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법

Country Status (2)

Country Link
US (1) US20130166283A1 (ko)
KR (1) KR101482148B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200025065A (ko) * 2018-08-29 2020-03-10 주식회사 케이티 음성 인식 서비스를 제공하는 장치, 방법 및 컴퓨터 판독가능 매체
KR20210101971A (ko) 2020-02-11 2021-08-19 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9570074B2 (en) * 2014-12-02 2017-02-14 Google Inc. Behavior adjustment using speech recognition system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182683A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US6505161B1 (en) * 2000-05-01 2003-01-07 Sprint Communications Company L.P. Speech recognition that adjusts automatically to input devices
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US8825481B2 (en) * 2012-01-20 2014-09-02 Microsoft Corporation Subword-based multi-level pronunciation adaptation for recognizing accented speech

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182683A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200025065A (ko) * 2018-08-29 2020-03-10 주식회사 케이티 음성 인식 서비스를 제공하는 장치, 방법 및 컴퓨터 판독가능 매체
KR102323640B1 (ko) 2018-08-29 2021-11-08 주식회사 케이티 음성 인식 서비스를 제공하는 장치, 방법 및 컴퓨터 판독가능 매체
KR20210101971A (ko) 2020-02-11 2021-08-19 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
US20130166283A1 (en) 2013-06-27
KR20130073643A (ko) 2013-07-03

Similar Documents

Publication Publication Date Title
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
Le et al. Deep shallow fusion for RNN-T personalization
CN111883110B (zh) 语音识别的声学模型训练方法、系统、设备及介质
US11106868B2 (en) System and method for language model personalization
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US8370146B1 (en) Robust speech recognition
Sainath et al. No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models
US8972265B1 (en) Multiple voices in audio content
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
CN103092928B (zh) 语音查询方法及系统
WO2021051514A1 (zh) 一种语音识别方法、装置、计算机设备及非易失性存储介质
CN113113024A (zh) 语音识别方法、装置、电子设备和存储介质
CN113793591A (zh) 语音合成方法及相关装置和电子设备、存储介质
KR101482148B1 (ko) 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
JP2019219827A (ja) 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN115115984A (zh) 视频数据处理方法、装置、程序产品、计算机设备和介质
CN111222011B (zh) 一种视频向量确定方法和装置
US11328713B1 (en) On-device contextual understanding
CN113539241A (zh) 语音识别校正方法及其相应的装置、设备、介质
KR102541599B1 (ko) 디지털 악보 관리 시스템 및 방법
CN115359409B (zh) 视频拆分方法、装置、计算机设备和存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
Ravi et al. Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 6