KR102342571B1

KR102342571B1 - 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치

Info

Publication number: KR102342571B1
Application number: KR1020140161354A
Authority: KR
Inventors: 김영준
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2021-12-22
Also published as: KR20160059640A

Abstract

본 발명은 다중 음성인식모듈을 적용한 다중 음성 인식 방법 및 이를 위한 음성인식장치에 관한 것으로서, 특히, 키워드 음성인식과 연속 음성인식을 단계적으로 적용하여 발성한 음성을 분석한다. 이를 통해, 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리 및 마케팅 툴에 사용 가능하다. 또한, 음성인식의 정확도가 낮은 녹취 데이터에 대한 다중 음성인식 성능을 향상시킴으로써 빅 데이터 기반의 음성분석에 활용할 수 있다. 또한, 키워드 음성인식을 이용한 언어모델을 선정하여 연속 음성인식에 적용할 수 있기 때문에, 다양한 음성인식 서비스를 위한 음성인식 속도와 성능을 개선할 수 있다.

Description

다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치{Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof}

본 발명은 음성 인식 기술에 관한 것으로, 더욱 상세하게는 키워드 음성인식과 연속 음성인식을 단계적으로 적용하여 발성한 음성을 분석하는 다중 음성인식모듈을 적용한 다중 음성 인식 방법 및 이를 위한 음성인식장치에 관한 것이다.

음성인식 기술을 사용하여 기계와 사람간의 인터페이스를 보다 편리하고 자연스럽게 만들고자 하는 노력이 국내외에서 꾸준히 진행되어 오고 있으며, 그 결과 단순한 단어 인식 수준을 넘어 자연스럽게 발성한 음성도 처리할 수 있는 수준으로 발전되어 왔다. 음성인식 기술은 지난 20세기 후반의 지속적인 기술개발에 힘입어 다양한 분야에서 실생활에 이용될 수 있는 수준으로 발전되어 왔지만, 우리가 상상하는 수많은 응용 분야에 적극적으로 이용되기에는 아직 해결해야 할 기술적 과제가 산적해 있는 실정이다.

최근에 이러한 자연어 음성인식 처리 기술을 활용하여 사용자들에게 보다 편리한 서비스를 제공하려는 노력들이 국내에서도 통신사 및 금융기관을 중심으로 일어나고 있다. 스마트폰에서도 제한된 키보드를 통한 입력의 어려움을 개선하기 위해 음성인식 지원기능이 무선 모바일 기기 등에서 필수 기능이 되고 있다. 이에 대한 솔루션으로 현재 애플은 음성인식 서비스인 시리(Siri)를 안드로이드(Android) 진영에서는 구글 보이스를 사용하고 있다.

하지만, 구글에서는 아직까지 영어 이외의 언어에 대한 인식에는 크게 영향을 못 미치고 있어서, 각 언어별로 연구되고 있다. 음성인식은 일반적인 영역뿐 만 아니라, 시각 장애인들을 위한 여러 서비스들에서도 매우 유용하게 사용될 수 있는 기술이다.

실생활에서의 음성인식은 말하는 지식, 의미, 문법, 문장요소, 단어 등이 음성 근육의 움직임에 따라 생리학적으로 말이 듣는 사람 귀에 전달되어 의미화 지식이 전달되는 과정을 제공한다. 정보과학 분야에서는 음성에 포함된 음향학적 정보로부터 음운 및 언어적 정보를 취득하여 이를 사람이 아닌 기기가 인지하고 반응하게 만드는 일련의 과정이다. 특히, 음성 처리는 대화모드, 화자모드, 단어크기, 대화 스타일에 따라 분류되어 이 기준에 따라 음성인식 시스템을 구성한다.

이와 함께, 최근에는 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리, 마케팅 툴에 많이 사용하고 있다. 하지만, 녹취 데이터에 포함된 모든 음성데이터를 텍스트로 전환하는데 사용하는 음성인식 엔진의 성능은 많은 서비스를 가진 회사일수록 인식해야 할 대상이 많아지기 때문에, 낮은 성능을 가지게 된다.

한국공개특허 10-2004-0055417 A, 2004년 06월 26일 공개 (명칭: 대화체 연속음성인식 장치 및 방법)

이러한 종래의 문제점을 해결하기 위하여, 본 발명의 목적은 음성인식 대상을 한정하고, 이에 맞는 언어모델을 선택하여 적용함으로써, 성능 향상을 이루고자 하며, 키워드 음성인식을 이용하여 한정 분야를 선별하고, 선별된 분야에 대한 언어모델을 적용하여 연속 음성인식을 수행하는 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치를 제공하고자 한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성 인식 방법은 음성인식장치가 키워드 음성인식을 위한 다수의 키워드를 등록하는 단계와, 음성인식장치가 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행하는 단계와, 음성인식장치가 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하는 단계와, 음성인식장치가 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 단계 및 음성인식장치가 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 키워드를 등록하는 단계는 음성인식장치가 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록하는 것을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 키워드 음성인식을 수행하는 단계는 음성인식장치가 음성데이터 내 등록된 키워드와 매칭되는 키워드를 검색하는 단계 및 음성인식장치가 검색된 키워드를 카테고리 별로 구분하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 확인하는 단계는 음성인식장치가 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 중 적어도 하나를 포함하는 카테고리 별로 키워드 음성인식을 통해 검색된 키워드를 분류하는 단계 및 음성인식장치가 분류된 키워드 수를 각각의 카테고리 별로 확인하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 기준 카테고리를 결정하는 단계는 음성인식장치가 검색된 키워드 수에 따라 카테고리 순서를 정렬하는 단계 및 음성인식장치가 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 연속 음성인식을 수행하는 단계는 음성인식장치가 결정된 카테고리에 해당하는 언어모델을 선정하는 단계와, 음성인식장치가 음성데이터의 모든 문장을 어절 단위로 구분하는 단계 및 음성인식장치가 어절 단위로 구분된 음성데이터를 선정된 언어모델을 적용하여 인식하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.

본 발명의 실시 예에 따른 음성인식장치는 키워드 음성인식을 위한 다수의 키워드를 등록하고, 등록된 키워드를 검색 기준으로 하여 음성데이터에 대한 키워드 음성인식을 수행하고, 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하고, 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 키워드 음성인식모듈 및 키워드 음성인식모듈을 통해 결정된 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행하는 연속 음성인식모듈을 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 음성인식장치에 있어서, 외부로부터 입력되는 음성데이터 및 적어도 하나의 다른 장치로부터 수신되는 음성데이터를 수집하는 음성데이터 수집모듈을 더 포함하는 것을 특징으로 한다.

본 발명에 따르면, 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리 및 마케팅 툴에 사용 가능하다.

또한, 음성인식의 정확도가 낮은 녹취 데이터에 대한 다중 음성인식 성능을 향상시킴으로써 빅 데이터(Big data) 기반의 음성분석에 활용할 수 있다.

또한, 키워드 음성인식을 이용한 언어모델을 선정하여 연속 음성인식에 적용할 수 있기 때문에, 다양한 음성인식 서비스를 위한 음성인식 속도와 성능을 개선할 수 있다.

도 1은 본 발명의 실시 예에 따른 음성인식장치의 구성을 나타내는 블록도 이다.
도 2는 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성 인식 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 실시 예에 따른 키워드 음성인식 과정을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 연속 음성인식 과정을 설명하기 위한 흐름도이다.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하에서는 본 발명의 실시 예에 따른 음성인식장치는 통신망에 연결되어 다중 음성인식모듈을 통해 음성 인식을 수행하고, 음성 인식 결과를 송수신할 수 있는 이동통신단말기를 대표적인 예로서 설명하지만 단말기는 이동통신단말기에 한정된 것이 아니고, 모든 정보통신기기, 멀티미디어 단말기, 유선 단말기, 고정형 단말기 및 IP(Internet Protocol) 단말기 등의 다양한 단말기에 적용될 수 있다. 또한, 단말기는 휴대폰, PMP(Portable Multimedia Player), MID(Mobile Internet Device), 스마트폰(Smart Phone), 데스크톱(Desktop), 태블릿컴퓨터(Tablet PC), 노트북(Note book), 넷북(Net book) 및 정보통신 기기 등과 같은 다양한 이동통신 사양을 갖는 모바일(Mobile) 단말기일 때 유리하게 활용될 수 있다.

또한, 본 발명에 따른 음성인식장치에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현 예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현 예에서 본 프로세서는 멀티 쓰레드(Multi-threaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.

상술한 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성인식장치에 대하여 설명하도록 한다.

도 1은 본 발명의 실시 예에 따른 음성인식장치의 구성을 나타내는 블록도 이다.

도 1을 참조하면, 본 발명에 따른 음성인식장치(100)는 제어부(10), 입력부(20), 표시부(30), 저장부(40), 오디오처리부(50) 및 통신부(60)로 구성된다. 여기서, 제어부(11)는 키워드 음성인식모듈(11), 연속 음성인식모듈(12) 및 음성데이터 수집모듈(13)을 포함하고, 저장부(40)는 음성데이터(41) 및 키워드(42)를 포함한다.

입력부(20)는 숫자 및 문자 정보 등의 다양한 정보를 입력 받고, 각종 기능을 설정 및 음성인식장치(100)의 기능 제어와 관련하여 입력되는 신호를 제어부(10)로 전달한다. 또한, 입력부(20)는 사용자의 터치 또는 조작에 따른 입력 신호를 발생하는 키패드와 터치패드 중 적어도 하나를 포함하여 구성될 수 있다. 이때, 입력부(20)는 표시부(30)와 함께 하나의 터치패널(또는 터치스크린(touch screen))의 형태로 구성되어 입력과 표시 기능을 동시에 수행할 수 있다. 또한, 입력부(20)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치 외에도 향후 개발될 수 있는 모든 형태의 입력 수단이 사용될 수 있다. 특히, 본 발명에 따른 입력부(20)는 음성 인식을 위한 일련의 입력 신호를 감지하여 제어부(10)로 전달한다.

표시부(30)는 음성인식장치(100)의 기능 수행 중에 발생하는 일련의 동작상태 및 동작결과 등에 대한 정보를 표시한다. 또한, 표시부(30)는 음성인식장치(100)의 메뉴 및 사용자가 입력한 사용자 데이터 등을 표시할 수 있다. 여기서, 표시부(30)는 액정표시장치(LCD, Liquid Crystal Display), 초박막 액정표시장치(TFT-LCD, Thin Film Transistor LCD), 발광다이오드(LED, Light Emitting Diode), 유기 발광다이오드(OLED, Organic LED), 능동형 유기발광다이오드(AMOLED, Active Matrix OLED), 레티나 디스플레이(Retina Display), 플렉시블 디스플레이(Flexible display) 및 3차원(3 Dimension) 디스플레이 등으로 구성될 수 있다. 이때, 표시부(30)가 터치스크린(touch screen) 형태로 구성된 경우, 표시부(30)는 입력부(20)의 기능 중 일부 또는 전부를 수행할 수 있다. 특히, 본 발명에 따른 표시부(30)는 음성 인식 과정에서 발생하는 모든 화면 정보를 출력한다.

저장부(40)는 데이터를 저장하기 위한 장치로, 주 기억 장치 및 보조 기억 장치를 포함하고, 음성인식장치(100)의 기능 동작에 필요한 응용 프로그램을 저장한다. 이러한 저장부(40)는 크게 프로그램 영역과 데이터 영역을 포함할 수 있다. 여기서, 음성인식장치(100)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 제어부(10)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공하게 된다. 특히, 본 발명에 따른 저장부(40)는 음성인식장치(100)를 부팅시키는 운영체제, 키워드를 등록하는 프로그램, 키워드 음성인식을 수행하는 프로그램, 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하는 프로그램, 키워드 수를 기준으로 기준 카테고리를 결정하는 프로그램, 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행하는 프로그램 등을 저장한다. 또한, 저장부(40)는 외부로부터 입력되는 음성데이터 및 다른 장치로부터 수신되는 음성데이터를 저장하고, 키워드 음성인식에 적용되는 키워드를 저장한다.

오디오처리부(50)는 오디오 신호를 재생하여 출력하기 위한 스피커(SPK) 또는 마이크(MIC)로부터 입력되는 오디오 신호를 제어부(10)에 전달하는 기능을 수행한다. 이러한 오디오처리부(50)는 마이크를 통해 입력되는 아날로그 형식의 오디오 신호를 디지털 형식으로 변환하여 제어부(10)에 전달할 수 있다. 또한, 오디오처리부(50)는 제어부(10)로부터 출력되는 디지털 형식의 오디오 신호를 아날로그 신호로 변환하여 스피커를 통해 출력할 수 있다. 특히, 본 발명에 따른 오디오처리부(50)는 음성 인식 과정에서 발생하는 효과음 또는 실행음을 출력한다.

통신부(60)는 다른 장치와 통신망(미도시)을 통해 데이터를 송수신하기 위한 기능을 수행한다. 여기서, 통신부(60)는 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF 송신 수단과 수신되는 신호를 저잡음 증폭하고 주파수를 하강 변환하는 RF 수신 수단 등을 포함한다. 이러한 통신부(60)는 무선통신 모듈(미도시) 및 유선통신 모듈(미도시) 중 적어도 하나를 포함할 수 있다. 또한, 유선통신 모듈은 유선으로 데이터를 송수신하기 위한 것이다. 특히, 본 발명에 따른 통신부(60)는 외부의 다른 장치와 연동하여 음성데이터를 수집한다.

여기서, 통신망은 음성인식장치(100)와 다른 장치들 간의 데이터 전송 및 정보 교환을 위한 일련의 데이터 송수신 동작을 수행한다. 특히, 통신망은 다양한 형태의 통신망이 이용될 수 있으며, 예컨대, 무선랜(WLAN, Wireless LAN), 와이파이(Wi-Fi), 와이브로(Wibro), 와이맥스(Wimax), 고속하향패킷접속(HSDPA, High Speed Downlink Packet Access) 등의 무선 통신방식 또는 이더넷(Ethernet), xDSL(ADSL, VDSL), HFC(Hybrid Fiber Coax), FTTC(Fiber to The Curb), FTTH(Fiber To The Home) 등의 유선 통신방식이 이용될 수 있다. 한편, 통신망은 상기에 제시된 통신방식에 한정되는 것은 아니며, 상술한 통신 방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.

제어부(10)는 운영 체제(OS, Operation System) 및 각 구성을 구동시키는 프로세스 장치가 될 수 있다. 예컨대, 제어부(10)는 키워드 음성인식을 위한 다수의 키워드를 등록한다. 그리고, 제어부(10)는 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행한다.

제어부(10)는 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인한다. 그리고, 제어부(10)는 확인된 키워드 수를 기준으로 기준 카테고리를 결정한다. 이후, 제어부(10)는 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행한다.

이와 같이, 음성인식장치(100)의 기능을 보다 효과적으로 수행하기 위하여 제어부(10)는 복수의 모듈로 구성되는데, 상기 복수의 모듈은 키워드 음성인식모듈(11), 연속 음성인식모듈(12) 및 음성데이터 수집모듈(13)을 포함한다.

키워드 음성인식모듈(11)은 키워드 음성인식을 위한 다수의 키워드를 등록한다. 여기서, 키워드 음성인식모듈(11)은 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록한다. 예를 들어, 카테고리는 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등이 포함되며, 각각의 카테고리는 다수의 연관된 키워드를 포함할 수 있다. 이때, 카테고리 중 경제 카테고리는 금리, 경기, 간접세, 직접세, GDP, GNP, 주식, 증권 등의 키워드를 포함한다. 또한, 스포츠 카테고리는 축구, 야구, 메이저리그, 올림픽, 월드컵 등의 키워드를 포함한다. 또한, 문화 카테고리는 영화, 극장, 배우, 대종상, 레드카펫 등의 키워드를 포함한다. 또한, 교육 카테고리는 사교육, 대학교, 유학, 어린이집, 유치원 등의 키워드를 포함한다. 또한, 사회 카테고리는 학벌, 범죄, 대중교통, 축제, 노벨상 등의 키워드를 포함한다. 또한, 정치 카테고리는 선거, 국회, 법안, 개정, 대통령, 총리 등의 키워드를 포함한다. 또한, 복지 카테고리는 실버, 고령화, 출산, 병원, 건강검진 등의 키워드를 포함하다. 또한, 국제 카테고리는 에볼라, 전쟁, 핵, UN, 평화 등의 키워드를 포함한다. 또한, 과학 카테고리는 기술, 스마트폰, LTE, 싸이언스, 생명, 공대 등의 키워드를 포함한다.

키워드 음성인식모듈(11)은 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행한다. 여기서, 키워드 음성인식모듈(11)은 음성데이터 내 등록된 키워드와 매칭되는 키워드를 검색하고, 검색된 키워드를 카테고리 별로 구분한다. 즉, 키워드 음성인식모듈(11)은 키워드 인식을 위하여 특성 분석, 음성인식 단위 인식, 어휘 분석, 문장 분석 등을 수행한다. 예를 들어, 특성 분석은 음성 파형의 용장성 및 시간적 변동성 등으로 인한 불안정한 상황을 위해 수행되며, 스펙트럴 분석(Spectral analysis), 시간적 분석 등이 포함된다. 또한, 음성인식 단위 인식은 음성신호의 인식 단위인 단어, 준음절, 음절, 음소 등에 대하여, 음성인식 단위 순서로 인식을 수행한다. 또한, 어휘 분석은 인식된 음성 인식 단위 순서와 키워드 파일에서 일치하는 음성인식 단위 순서가 있는지 확인하며, 이를 위해 인식하고자 하는 모든 키워드들이 파일에 정의되어 있다. 또한, 문장 분석은 어휘적 분석에서 인식된 키워드들을 문법 파일에 정의된 문법에 의해 일치하는지 문장을 찾는 과정을 수행한다.

키워드 음성인식모듈(11)은 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인한다. 이때, 키워드 음성인식모듈(11)은 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등을 포함하는 카테고리 별로 키워드 음성인식을 통해 검색된 키워드를 분류하고, 분류된 키워드 수를 각각의 카테고리 별로 확인한다. 예를 들어, 키워드 음성인식모듈(11)은 키워드(A 내지 D)에 대하여, 키워드 음성인식을 수행한 결과, 키워드(A)는 카테고리(교육 10번, 과학 5번)에서 검색되고, 키워드(B)는 카테고리(과학 10번, 교육 6번, 사회 4번), 키워드(C)는 카테고리(문화 4번, 교육 1번), 키워드(D)는 카테고리(과학 3번, 교육 2번)에서 검색될 수 있다.

키워드 음성인식모듈(11)은 확인된 키워드 수를 기준으로 기준 카테고리를 결정한다. 즉, 키워드 음성인식모듈(11)은 검색된 키워드 수에 따라 카테고리 순서를 정렬하고, 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정한다. 예를 들어, 상기의 예와 같이, 키워드 음성인식모듈(11)은 키워드 수에 따라 카테고리 별로 구분된 데이터를 기준으로 기준 카테고리를 결정하는데, 키워드(A)는 카테고리(교육 67%, 과학 33%), 키워드(B)는 카테고리(과학 50%, 교육 30%, 사회 23%), 키워드(C)는 카테고리(문화 80%, 교육 20%), 키워드(D)는 카테고리(과학 60%, 교육 40%)일 경우, 수집된 정보들을 종합하여 최대의 키워드 수를 가지는 카테고리(교육)를 기준 카테고리로 설정할 수 있다.

연속 음성인식모듈(12)은 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행한다. 여기서, 연속 음성인식모듈(12)은 결정된 카테고리에 해당하는 언어모델을 선정한다. 그리고, 연속 음성인식모듈(12)은 음성데이터의 모든 문장을 어절(Syntagma) 단위로 구분하고, 어절 단위로 구분된 음성데이터를 선정된 언어모델을 적용하여 음성 인식을 수행한다. 즉, 연속 음성인식모듈(12)은 발화자의 특성에 따라 다른 어절에 분할될 것으로 예상되는 구간들이 하나의 어절이 되거나 하나의 어절이어야 할 구간이 두 개의 어절 형태로 나타나는 경우가 발생하기 때문에, 유성음과 무성음의 특성, 포만트(formant), 프레임 및 서브랜드 에너지 등을 이용하여 음절 단위 분할을 수행한다.

음성데이터 수집모듈(13)은 외부로부터 입력되는 음성데이터 및 다른 장치로부터 수신되는 음성데이터를 수집하여 관리한다.

음성데이터 수집모듈(13)은 수집된 음성데이터에서 실제 음성데이터와 잡음을 분리하는 기능을 수행한다. 즉, 외부에서 수집된 음성데이터에는 주변의 잡음이 섞여 있기 때문에, 신뢰성 높은 음성 인식을 위하여 노이즈 제거 과정을 수행한다. 예를 들어, 음성데이터 수집모듈(13)은 수집된 음성데이터 내 잡음 제거를 위하여 전방향 탐색에 의한 판별 기술, 심리 음향 기반의 추정 기술, 개선된 스펙트럼 차감에 의한 제거 기술 등을 적용할 수 있다.

한편, 음성인식장치(100)에 탑재되는 메모리는 그 장치 내에서 정보를 저장한다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛 일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛 일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.

도 2는 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성 인식 방법을 설명하기 위한 흐름도이고, 도 3은 본 발명의 실시 예에 따른 키워드 음성인식 과정을 설명하기 위한 흐름도이고, 도 4는 본 발명의 실시 예에 따른 연속 음성인식 과정을 설명하기 위한 흐름도이다.

도 2 내지 도 4를 참조하면, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 음성인식장치(100)는 S11 단계에서 키워드 음성인식을 위한 다수의 키워드를 등록한다. 여기서, 음성인식장치(100)는 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록한다. 예를 들어, 카테고리는 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등이 포함하며, 각각의 카테고리는 다수의 연관된 키워드를 포함할 수 있다. 이때, 카테고리 중 경제 카테고리는 금리, 경기, 간접세, 직접세, GDP, GNP, 주식, 증권 등의 키워드를 포함한다. 또한, 스포츠 카테고리는 축구, 야구, 메이저리그, 올림픽, 월드컵 등의 키워드를 포함한다. 또한, 문화 카테고리는 영화, 극장, 배우, 대종상, 레드카펫 등의 키워드를 포함한다. 또한, 교육 카테고리는 사교육, 대학교, 유학, 어린이집, 유치원 등의 키워드를 포함한다. 또한, 사회 카테고리는 학벌, 범죄, 대중교통, 축제, 노벨상 등의 키워드를 포함한다. 또한, 정치 카테고리는 선거, 국회, 법안, 개정, 대통령, 총리 등의 키워드를 포함한다. 또한, 복지 카테고리는 실버, 고령화, 출산, 병원, 건강검진 등의 키워드를 포함하다. 또한, 국제 카테고리는 에볼라, 전쟁, 핵, UN, 평화 등의 키워드를 포함한다. 또한, 과학 카테고리는 기술, 스마트폰, LTE, 싸이언스, 생명, 공대 등의 키워드를 포함한다.

음성인식장치(100)는 S13 단계에서 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행한다. 여기서, 음성인식장치(100)는 S31 단계에서 기 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성 인식을 실행한다. 그리고, 음성인식장치(100)는 음성데이터 내 등록된 키워드와 매칭되는 키워드를 검색하고, 검색된 키워드를 카테고리 별로 구분한다(S33 내지 S35).

즉, 음성인식장치(100)는 키워드 인식을 위하여 특성 분석, 음성인식 단위 인식, 어휘 분석, 문장 분석 등을 수행한다. 예를 들어, 특성 분석은 음성 파형의 용장성 및 시간적 변동성 등으로 인한 불안정한 상황을 위해 수행되며, 스펙트럴 분석, 시간적 분석 등이 포함된다. 또한, 음성인식 단위 인식은 음성신호의 인식 단위인 단어, 준음절, 음절, 음소 등에 대하여, 음성인식 단위 순서로 인식을 수행한다. 또한, 어휘 분석은 인식된 음성 인식 단위 순서와 키워드 파일에서 일치하는 음성인식 단위 순서가 있는지 확인하며, 이를 위해 인식하고자 하는 모든 키워드들이 파일에 정의되어 있다. 또한, 문장 분석은 어휘적 분석에서 인식된 키워드들을 문법 파일에 정의된 문법에 의해 일치하는지 문장을 찾는 과정을 수행한다.

음성인식장치(100)는 S15 단계에서 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인한다. 이때, 음성인식장치(100)는 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등을 포함하는 카테고리 별로 키워드 음성인식을 통해 검색된 키워드를 분류하고, 분류된 키워드 수를 각각의 카테고리 별로 확인한다. 예를 들어, 음성인식장치(100)는 키워드(A 내지 D)에 대하여, 키워드 음성인식을 수행한 결과, 키워드(A)는 카테고리(교육 10번, 과학 5번)에서 검색되고, 키워드(B)는 카테고리(과학 10번, 교육 6번, 사회 4번), 키워드(C)는 카테고리(문화 4번, 교육 1번), 키워드(D)는 카테고리(과학 3번, 교육 2번)에서 검색될 수 있다.

음성인식장치(100)는 S17 단계에서 확인된 키워드 수를 기준으로 기준 카테고리를 결정한다. 즉, 음성인식장치(100)는 검색된 키워드 수에 따라 카테고리 순서를 정렬하고, 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정한다. 예를 들어, 상기의 예와 같이, 음성인식장치(100)는 키워드 수에 따라 카테고리 별로 구분된 데이터를 기준으로 기준 카테고리를 결정하는데, 키워드(A)는 카테고리(교육 67%, 과학 33%), 키워드(B)는 카테고리(과학 50%, 교육 30%, 사회 23%), 키워드(C)는 카테고리(문화 80%, 교육 20%), 키워드(D)는 카테고리(과학 60%, 교육 40%)일 경우, 수집된 정보들을 종합하여 다수의 키워드를 포함하는 카테고리(교육)을 기준 카테고리로 설정할 수 있다.

음성인식장치(100)는 S19 단계에서 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행한다. 여기서, 음성인식장치(100)는 S41 단계에서 결정된 카테고리에 해당하는 언어모델을 선정한다. 그리고, 음성인식장치(100)는 음성데이터의 모든 문장을 어절(Syntagma) 단위로 구분하고, 어절 단위로 구분된 음성데이터를 선정된 언어모델을 적용하여 음성 인식을 수행한다(S43 내지 S45). 즉, 음성인식장치(100)는 발화자의 특성에 따라 다른 어절에 분할될 것으로 예상되는 구간들이 하나의 어절이 되거나 하나의 어절이어야 할 구간이 두 개의 어절 형태로 나타나는 경우가 발생하기 때문에, 유성음과 무성음의 특성, 포만트(formant), 프레임 및 서브랜드 에너지 등을 이용하여 음절 단위 분할을 수행한다.

컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

본 발명은 다중 음성인식모듈을 적용한 다중 음성 인식을 위하여, 키워드 음성인식과 연속 음성인식을 단계적으로 적용하여 발성한 음성을 분석한다. 이에 따라, 본 발명은 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리 및 마케팅 툴에 사용 가능하다. 또한, 음성인식의 정확도가 낮은 녹취 데이터에 대한 다중 음성인식 성능을 향상시킴으로써 빅 데이터 기반의 음성분석에 활용할 수 있다. 또한, 키워드 음성인식을 이용한 언어모델을 선정하여 연속 음성인식에 적용할 수 있기 때문에, 다양한 음성인식 서비스를 위한 음성인식 속도와 성능을 개선할 수 있다. 이는 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.

100: 음성인식장치 10: 제어부
11: 키워드 음성인식모듈 12: 연속 음성인식모듈
13: 음성데이터 수집모듈 20: 입력부
30: 표시부 40: 저장부
41: 음성데이터 42: 키워드
50: 오디오처리부 60: 통신부

Claims

음성인식장치가 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록하는 단계;
상기 음성인식장치가 상기 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행하는 단계;
상기 음성인식장치가 상기 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하는 단계;
상기 음성인식장치가 상기 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 단계; 및
상기 음성인식장치가 상기 기준 카테고리와 관련하여 선정된 언어모델을 적용하여 상기 확인된 키워드를 포함한 상기 음성데이터 전체에 대한 연속 음성인식을 수행하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
삭제
제1항에 있어서, 상기 키워드 음성인식을 수행하는 단계는
상기 음성인식장치가 상기 음성데이터 내 상기 등록된 키워드와 매칭되는 키워드를 검색하는 단계; 및
상기 음성인식장치가 상기 검색된 키워드를 카테고리 별로 구분하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
제1항에 있어서, 상기 확인하는 단계는
상기 음성인식장치가 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 중 적어도 하나를 포함하는 카테고리 별로 상기 키워드 음성인식을 통해 검색된 키워드를 분류하는 단계; 및
상기 음성인식장치가 상기 분류된 키워드 수를 각각의 카테고리 별로 확인하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
제1항에 있어서, 상기 기준 카테고리를 결정하는 단계는
상기 음성인식장치가 상기 검색된 키워드 수에 따라 카테고리 순서를 정렬하는 단계; 및
상기 음성인식장치가 상기 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
제1항에 있어서, 상기 연속 음성인식을 수행하는 단계는
상기 음성인식장치가 상기 결정된 카테고리에 해당하는 언어모델을 선정하는 단계;
상기 음성인식장치가 상기 음성데이터의 모든 문장을 어절 단위로 구분하는 단계; 및
상기 음성인식장치가 상기 어절 단위로 구분된 음성데이터를 상기 선정된 언어모델을 적용하여 인식하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
키워드 음성인식을 위한 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록하고, 상기 등록된 키워드를 검색 기준으로 하여 음성데이터에 대한 키워드 음성인식을 수행하고, 상기 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하고, 상기 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 키워드 음성인식모듈; 및
상기 키워드 음성인식모듈을 통해 결정된 기준 카테고리와 관련하여 선정된 언어모델을 적용하여 상기 확인된 키워드를 포함한 상기 음성데이터 전체에 대한 연속 음성인식을 수행하는 연속 음성인식모듈;
을 포함하는 것을 특징으로 하는 음성인식장치.
제7항에 있어서,
외부로부터 입력되는 음성데이터 및 적어도 하나의 다른 장치로부터 수신되는 음성데이터를 수집하는 음성데이터 수집모듈;
을 더 포함하는 것을 특징으로 하는 음성인식장치.