KR102383430B1

KR102383430B1 - 고속 음성 파일 처리 장치, 그를 포함한 시스템 및 그 방법

Info

Publication number: KR102383430B1
Application number: KR1020170078416A
Authority: KR
Inventors: 김준영; 허동필
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2022-04-07
Also published as: KR20180138330A

Abstract

본 발명은 고속 음성 파일 처리 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 본 발명의 실시예에 따른 고속 음성 처리 장치는 입력된 음성 파일을 인덱싱하여 분리하는 음성 파일 분리부; 분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리하는 병렬 음성 처리부; 상기 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성하는 결과 합성부를 포함할 수 있다.

Description

고속 음성 파일 처리 장치, 그를 포함한 시스템 및 그 방법{Apparatus for processing high -speed voice file, system having the same and method thereof}

본 발명은 고속 음성 파일 처리 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 음성 처리 시 분산 방식을 적용시킨 고속 음성 파일 처리 기술에 관한 것이다.

종래에는 컴퓨터에 명령을 전달하기 위해 키보드 또는 마우스 등의 장치를 이용하여 문자 인식을 통한 명령어 입력 방식으로 구현되었다 그러나 최근 컴퓨터뿐만 아니라 가정 내 가전제품, 전등, 도어락, 차량의 네비게이션, 스마트폰 등 다양한 분야에서 음성 인식을 통한 명령 전달 기술이 구현되고 있다. 이러한 음성인식 기술은 음성신호를 빠르고 정확하게 인식하는 것이 중요하다.

그러나 종래의 음성인식 기술은 음성신호 처리 시 입력된 음성신호를 그대로 음성 처리하게 되므로, 음성신호의 시간만큼 지연되어 처리됨에 따라 음성신호 시간만큼 음성인식이 지연되는 문제점이 있었다. 특히, 음성신호가 길면 길수록 지연이 길어져 실시간 음성인식이 더욱 어렵게 된다.

본 발명의 실시예는 음성 신호 인식 시 음성 파일을 분리하여 병렬 처리한 후 그 결과를 병합하여 출력함으로써 음성 처리 속도를 단축시킬 수 있는 고속 음성 파일 처리 장치, 그를 포함한 시스템 및 그 방법을 제공하고자 한다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 실시예에 따른 고속 음성 처리 장치는 음성 파일을 인덱싱하여 분리하는 음성 파일 분리부; 분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리하는 병렬 음성 처리부; 상기 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성하는 결과 합성부를 포함할 수 있다.

일실시예에서, 상기 결과 합성부에 의해 합성된 결과물을 교정하는 텍스트 교정부를 더 포함할 수 있다.

일실시예에서, 상기 텍스트 교정부는, 상기 복수개의 음성인식 결과의 문맥을 분석하는 텍스트 문맥 분석부; 상기 문맥 분석 결과 내의 문법을 체크하는 텍스트 패턴 처리부; 음성인식을 위한 텍스트 정보를 저장하는 텍스트 데이터베이스; 상기 문법이 체크된 결과물과 상기 텍스트 데이터베이스에 저장된 텍스트 정보를 매칭 수행하는 텍스트 매칭부; 및 상기 매칭결과에 따라 튜닝을 수행하는 텍스트 문맥 튜닝부;를 포함할 수 있다.

일실시예에서, 상기 음성 파일 분리부는, 상기 음성 파일에 대해 인덱싱 수행하여 인덱싱 지점을 추출하는 인덱싱 처리부; 상기 인덱싱 지점을 기준으로 상기 음성 파일을 분리하는 음성 파일 분할부;를 포함할 수 있다.

일실시예에서, 상기 인덱싱 처리부는, 상기 음성 파일의 세기를 산출하여 신호파형도를 생성하는 신호 세기 산출부; 상기 음성 파일의 억양 또는 발음을 감지하는 음성 억양감지부; 및 상기 음성 억양 감지부 결과를 기반으로 상기 음성 파일을 타임 도메인상에서 인덱싱을 수행하는 인덱싱부;를 포함할 수 있다.

일실시예에서, 상기 인덱싱 결과를 검증하는 인덱싱 검증부를 더 포함할 수 있다.

일실시예에서, 상기 인덱싱 결과를 헤더에 포함하고 상기 음성 파일의 신호 파형정보를 포함하는 음성 파일 구조를 생성하여 상기 병렬 음성처리부로 전송하는 음성 파일 전송부를 더 포함할 수 있다.

일실시예에서, 상기 병렬 음성처리부는, 상기 복수개의 음성 파일을 각각 병렬적으로 음성인식을 처리하는 복수개의 음성처리부; 음성인식을 위한 구문 및 단어정보를 저장하는 구문 데이터베이스; 상기 복수개의 음성처리부 각각의 음성인식 처리 결과를 상기 구문 데이터베이스와 매칭하여 검증하는 결과 보정부; 및 상기 검증된 복수개의 음성처리 결과들을 수집하는 텍스트 수집부를 포함할 수 있다.

본 발명의 실시예에 따른 고속 음성 처리 시스템은 음성 파일이 입력되면 상기 음성 파일의 신호 파형도상에 인덱싱을 하여 상기 인덱싱을 기준으로 상기 음성 파일을 분리하고, 분리된 음성 파일을 병렬 음성 처리하여 병렬 음성처리 결과들을 합성하여 출력하는 고속 음성 처리 장치; 및 상기 고속 음성 처리 장치에 의해 출력된 음성인식 결과에 따라 명령을 수행하는 차량 내 장치를 포함할 수 있다.

일실시예에서, 상기 고속 음성 처리 장치는, 입력된 음성 파일을 인덱싱하여 분리하는 음성 파일 분리부; 분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리하는 병렬 음성 처리부; 및 상기 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성하는 결과 합성부를 포함할 수 있다.

본 발명의 실시예에 따른 고속 음성 처리 방법은 입력된 음성 파일을 인덱싱하여 분리하는 단계; 분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리하는 단계; 및 상기 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성하는 단계;를 포함할 수 있다.

일실시예에서, 상기 합성된 결과물을 교정하는 단계를 더 포함할 수 있다.

일실시예에서, 상기 음성 파일을 인덱싱하여 분리하는 단계는, 상기 음성 파일에 대해 인덱싱 수행하여 인덱싱 지점을 추출하는 단계; 및 상기 인덱싱 지점을 기준으로 상기 음성 파일을 분리하는 단계;를 포함할 수 있다.

일실시예에서, 상기 인덱싱 지점을 추출하는 단계는, 상기 음성 파일의 세기를 산출하여 신호파형도를 생성하는 단계; 상기 음성 파일의 억양 또는 발음을 감지하는 단계; 및 상기 억양 또는 발음 감지 결과를 기반으로 상기 음성 파일을 타임 도메인상에서 인덱싱을 수행하는 단계;를 포함할 수 있다.

일실시예에서, 상기 인덱싱 지점을 추출하는 단계는, 상기 인덱싱 결과를 검증하는 단계를 더 포함할 수 있다.

일실시예에서, 상기 인덱싱 지점을 추출하는 단계는, 상기 인덱싱 결과를 헤더에 포함하고 상기 음성 파일의 신호 파형정보를 포함하는 음성 파일 구조를 생성하여 전송하는 단계를 더 포함할 수 있다.

일실시예에서, 상기 병렬적으로 음성인식 처리하는 단계는, 상기기 복수개의 음성 파일을 각각 병렬적으로 음성인식을 처리하는 단계; 및 상기 복수개의 음성인식 처리 결과를 구문 데이터베이스와 매칭하여 검증하는 단계;를 포함할 수 있다.

일실시예에서, 상기 합성된 결과물을 교정하는 단계는, 상기 복수개의 음성인식 결과의 문맥을 분석하는 단계; 상기 문맥 분석 결과 내의 문법을 체크하는 단계; 상기 문법이 체크된 결과물과 텍스트 데이터베이스에 저장된 텍스트 정보의 매칭을 수행하는 단계; 및 상기 매칭결과에 따라 튜닝을 수행하는 단계를 포함할 수 있다.

본 기술은 음성 인식 시 음성 인식 처리 시간을 단축시킬 수 있다.

도 1은 본 발명의 실시예에 따른 고속 음성 처리 장치의 구성도이다.
도 2는 도 1의 음성필터링부의 세부 구성도이다.
도 3은 도 2의 인덱싱 처리부의 세부 구성도이다.
도 4a는 도 3의 신호 세기 산출부에 의해 산출된 신호의 세기를 나타내는 음성신호 파형도이다.
도 4b는 도 3의 음성 억양감지부에 의해 음성신호 파형도 상에서 단어 사이의 지점을 산출한 예시도이다.
도 4c는 도 3의 인덱싱부에 의해 음성 신호 파형도에 인덱싱을 표시한 예시도이다.
도 4d는 도 3의 인덱싱 검증부에 의해 인덱싱된 값을 검증 하는 예시도이다.
도 4e는 본 발명의 실시예에 따른 인덱싱 값과 음성신호 파형도를 포함하는 음성 파일의 구조 예시도이다.
도 5는 도 1의 병렬 음성 처리부의 세부 구성도이다.
도 6은 본 발명의 실시예에 따른 병렬 음성 처리 방법을 예를 들어 설명하기 위한 도면이다.
도 7은 도 1의 텍스트 교정부의 세부 구성도이다.
도 8은 본 발명의 실시예에 따른 고속 음성 처리 시스템의 구성도이다.
도 9는 본 발명의 실시예에 따른 고속 음성 처리 방법을 나타내는 순서도이다.
도 10은 본 발명의 실시예에 따른 고속 음성 처리 방법을 적용한 컴퓨터 시스템의 구성도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 도 1 내지 도 10을 참조하여, 본 발명의 실시예들을 구체적으로 설명하기로 한다.

이처럼 본 발명의 실시예에 따른 고속 음성 처리 장치는 사용자의 음성 신호를 인식하고 처리할 수 있는 장치를 나타낸다. 이에 고속 음성 처리 장치는 사용자의 음성 신호로부터 특징값을 추출하고, 음향 모델(acoustic model) 및 언어 모델(language model)에 기초하여 특징값으로부터 음성 인식 결과인 텍스트를 생성할 수 있다. 고속 음성 처리 장치는 음성 인식을 수행하기 위한 각종 모듈들로 구성될 수 있고, 고속 음성 처리 장치를 구성하는 각종 모듈들은 하드웨어 모듈, 소프트웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 소프트웨어 모듈은 적어도 하나의 프로세서에 의하여 구동될 수 있다.

또한, 고속 음성 처리 장치는 사용자의 음성 신호를 처리할 수 있는 기기라면 그 종류에 제한이 없다. 고속 음성 처리 장치는 모바일 디바이스, 웨어러블 디바이스, 고정형 디바이스 등과 같은 다양한 형태로 존재할 수 있는데, 예를 들어, 고속 음성 처리 장치는 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 테블릿 등이 포함될 수 있다. 나아가, 고속 음성 처리 장치에 통신 기능이 더해지면서, 음성 인식 장치들이 통신 네트워크로 서로 연결되고 음성 인식 장치들 간의 정보 공유가 가능해 질 수 있다.

도 1은 본 발명의 실시예에 따른 고속 음성 처리 장치의 구성도이다.

본 발명의 실시예에 따른 고속 음성 처리 장치는 음성 파일 분리부(200), 병렬 음성 처리부(300), 결과 합성부(400), 텍스트 교정부(500)를 포함한다.

음성 파일 분리부(200)는 음성 신호(음성 파일)가 입력되면 음성신호의 세기를 산출하고, 음성신호의 발음(pronunciation) 및 억양(intonation)을 감지하여 시간주파수 분석을 통해 인덱싱을 하여 인덱싱 지점을 기준으로 음성 파일을 분리한다.

병렬 음성 처리부(300)는 분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리한다. 이처럼 음성 파일을 분리하여 병렬처리함으로써 음성 인식 속도를 단축시킬 수 있다.

결과 합성부(400)는 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성한다. 즉 분리되었던 음성 파일을 병렬처리한 결과를 다시 조합하여 최초에 입력된 음성 파일에 대한 음성인식 처리 결과를 출력한다.

텍스트 교정부(500)는 결과 합성부(400)에 의해 합성된 음성인식 결과물을 교정한다. 즉 합성된 결과물의 문맥을 분석하여 문법이 맞는지 체크하고 데이터베이스에 저장된 텍스트와 매칭하여 매칭률에 따라 최종 교정을 수행한다.

도 2는 도 1의 음성 파일 분리부(210)의 세부 구성도이다.

음성 파일 분리부(210)는 인덱싱 처리부(210), 압축/압축 해제부(220), 음성 파일 분할부(230)를 포함한다.

인덱싱 처리부(210)는 음성 파일에 대해 인덱싱 수행하여 인덱싱 지점을 추출한다.

압축/압축 해제부(220)는 인덱싱된 음성 파일의 압축 또는 압축 해제를 수행한다.

음성 파일 분할부(230)는 인덱싱 지점을 기준으로 음성 파일을 분리한다.

도 3은 도 2의 인덱싱 처리부(210)의 세부 구성도이고, 도 4a는 도 3의 신호 세기 산출부에 의해 산출된 신호의 세기를 나타내는 음성신호 파형도이다. 도 4b는 도 3의 음성 억양감지부에 의해 음성신호 파형도 상에서 단어 사이의 지점을 산출한 예시도이고, 도 4c는 도 3의 인덱싱부에 의해 음성 신호 파형도에 인덱싱을 표시한 예시도이다. 도 4d는 도 3의 인덱싱 검증부에 의해 인덱싱된 값을 검증 하는 예시도이고, 도 4e는 본 발명의 실시예에 따른 인덱싱 값과 음성신호 파형도를 포함하는 음성 파일의 구조 예시도이다.

인덱싱 처리부(210)는 신호 세기 산출부(211), 음성 억양 감지부(212), 인덱싱부(213), 인덱싱 검증부(214), 음성 파일 전송부(215)를 포함한다.

신호 세기 산출부(211)는 음성 파일의 세기를 산출하여 신호파형도를 생성한다. 도 4a를 참조하면, 사용자가 “I know where my cookie is”를 말한 경우, 해당 음성 신호의 SNR(Signal to Noise)을 산출하여 신호의 세기를 산출하고, 신호의 세기값을 이용하여 신호 파형도를 생성한다.

음성 억양 감지부(212)는 음성 파일의 억양 또는 발음을 감지한다. 도 4b를 참조하면, 노란색부분은 신호의 세기가 센 것을 의미하고 초록색 부분은 신호의 세기가 낮은 부분이다. 도 4b의 가로축은 시간단위이고 세로축은 주파수 대역 단위이다. 음성 억양 감지부(212)는 억양과 발음을 감지하여 단어 사이 또는 음절 사이를 감지하며 도 4b에서 화살표 부분이 단어 사이 또는 음절 사이가 감지된 부분이다.

인덱싱부(213)는 음성 억양 감지부(212)의 결과를 기반으로 음성 파일을 타임 도메인(time domain)상에서 인덱싱을 수행한다. 도 4c를 참조하면 단어와 단어 사이에 인덱싱이 된 것을 알 수 있다. 즉 “I know”와 “where” 사이에 39번이 인덱싱되고, “where”와 “my” 사이에 69번이 인덱싱된 것을 알 수 있다.

인덱싱 검증부(214)는 인덱싱 결과를 검증한다. 도 4d를 참조하면 인덱싱부(213)에서 인덱싱을 수행한 후 39번과 38번의 값이 유사한 경우, 다시 한번 재검증하여 39번인지 38번인지를 판단하여 인덱싱할 수 있다.

음성 파일 전송부(215)는 인덱싱 결과를 헤더에 포함하고 음성 파일의 신호 파형정보를 포함하는 음성 파일 구조를 생성하여 병렬 음성 처리부(300)로 전송한다. 도 4e를 참조하면 음성 파일의 헤더에 인덱싱 정보를 저장하여 신호파형과 함께 전송한다.

도 5는 도 1의 병렬 음성 처리부의 세부 구성도이고, 도 6은 본 발명의 실시예에 따른 병렬 음성 처리 방법을 예를 들어 설명하기 위한 도면이다.

도 5를 참조하면, 병렬 음성 처리부(300)는 복수개의 음성 처리부(310-1, 310-2…,310-N), 결과 보정부(320), 구문 데이터베이스(330), 텍스트 수집부(340)를 포함한다. 도 6을 참조하면, 음성 파일 분리부(200)에서 음성 파일의 신호파형도에서 인덱싱 지점(39, 69, 110) 각각의 오차범위(+3, -3) 내가 중복되도록 음성 파일이 분리되면 분리된 음성 파일이 병렬 음성 처리부(300)에서 병렬로 음성인식 처리 된다.

복수개의 음성 처리부(310-1, 310-2,…, 310-N)는 음성 파일 분리부(200)에서 분리된 N개의 음성 파일을 각각 병렬적으로 음성인식을 처리한다. 도 6을 참조하면 분리된 음성 파일이 각각 음성인식 처리되어 “I know”, “wher”, “ma”, “cookee”, “is”의 텍스트 상태로 변환된다.

결과 보정부(320)는 복수개의 음성 처리부(310-1, 310-2,… 310-N)에서 음성인식 처리된 N개의 음성인식 처리 결과를 보정한다. 도 6을 참조하면, 텍스트로 변환된 결과물 “I know”, “wher”, “ma”, “cookee”, “is”을 구문 데이터베이스(330)와 연동하여 올바른 구문 또는 단어로 인식되었는지를 검증하여 보정한다. 도 6에서는 “I know”, “wher”, “ma”, “cookee”, “is”가 “I know”, “where”, “my”, “cookie”, “is”로 보정됨을 알 수 있다.

구문 데이터베이스(330)는 검증 및 보정을 위한 단어, 구문 등을 저장한다.

텍스트 수집부(340)는 병렬 음성 처리되고 검증된 결과물인 단어들을 수집한다. 도 6을 참조하면 “I know”, “where”, “my”, “cookie”, “is”을 각각 수집하여 결과 합성부(400)로 전달한다.

도 7은 도 1의 텍스트 교정부(500)의 세부 구성도이다.

본 발명의 실시예에 따른 텍스트 교정부(500)는 텍스트 문맥 분석부(510), 텍스트 패턴 처리부(520), 텍스트 매칭부(530), 텍스트 데이터베이스(540), 텍스트 문맥 튜닝부(550)를 포함한다.

텍스트 문맥 분석부(510)는 복수개의 음성인식 결과의 문맥을 분석한다.

결과 합성부(400)에서 합성된 음성인식 최종 결과물이 “I know where my cookie is”인 경우 텍스트 문맥 분석부(510)는 최종 결과물에 대한 문맥을 분석하여 아래 표 1과 같이 여러 개의 후보리스트를 생성한다.

번호	음성인식 내용
1	I know where my cookie is.
2	I know where cookie is at.
3	I know where the cookie is.

텍스트 패턴 처리부(520)는 문맥 분석 결과 내의 문법을 체크한다.

즉 텍스트 패턴 처리부(520)는 표 1의 문맥 분석 리스트 중 문법이 맞는 문장을 체크한다.

이에 3개의 문맥 분석 리스트 중 문법에 3번이 문법이 젤 잘 맞는 경우, 3번을 선택하거나 3번의 문법이 약간 틀린 경우 3번에 대해 문법 수정을 추가할 수 있다. 예를 들어, 텍스트 패턴 처리부(520)의 최종 결과물은 “I know where the cookie is at.”이 될 수 있다.

텍스트 매칭부(530)는 문법이 체크된 결과물과 텍스트 데이터베이스(540)에 저장된 텍스트 정보를 매칭한다. 즉 텍스트 매칭부(530)는 과거형 사용량(past tense usage)과 문장 형식의 일반적 사용을 분석한다.

예를 들어, 텍스트 패턴 처리부(520)의 최종 결과물인 “I know where the cookie is at.”을 텍스트 데이터베이스(540)에 저장된 내용과 비교하여 해당 최종 결과물의 매칭률을 체크하고, 일반 사용 매칭률이 95% 이상이고, 과거형 사용량이 0인 경우 텍스트 문맥 튜닝부(550)로 최종 결과물을 전송한다.

텍스트 데이터베이스(540)는 텍스트 정보를 저장한다.

텍스트 문맥 튜닝부(550)는 매칭결과에 따라 최종 결과물에 대한 최종 튜닝을 수행한다. 예를 들어, 텍스트 패턴 처리부(520)의 최종 결과물인 “I know where the cookie is at.”의 매칭률이 95%이상인 경우 최종 튜닝 없이 해당 결과물을 그대로 음성인식 최종 결과로서 출력한다.

이와 같이, 본 발명은 비스트리밍 방식으로 음성 파일을 전송하더라도 스트리밍과 유사하게 실시간으로 음성인식을 처리해줌으로써 음성인식 시간을 단축시킬 수 있다.

또한 비스트리밍 방식으로 음성 파일을 전송함으로써 스트리밍 방식의 송신할때마다 접속을 확립하는 커넥션 오리엔티드(connection oriented)로 인한 프로세싱 자원 소모를 방지할 수 있다.

또한, 음성인식 시 인덱싱을 통해 음성 파일을 분리함으로써 음성 파일의 모호한 분리 문제를 해결하고 결과값을 검증함으로써, 음성 인식 에러를 최소화하여 음성 인식 성능을 증대시킬 수 있다.

도 8은 본 발명의 실시예에 따른 고속 음성 처리 시스템의 구성도이다.

본 발명의 실시예에 따른 고속 음성 처리 시스템은 고속 음성 처리 장치(100) 및 차량 내 장치(600)를 구비한다.

고속 음성 처리 장치(100)는 차량 내 장치(600)를 구동하기 위한 음성 파일이 입력되면 음성 파일의 신호 파형도상에 인덱싱을 하여 덱싱을 기준으로 성 파일을 분리하고, 분리된 음성 파일을 병렬 음성 처리하여 병렬 음성처리 결과들을 합성하여 출력한다. 이때, 고속 음성 처리 장치(100)는 도 1과 같은 세부 구성 및 기능을 가지며 앞서 설명된 바와 같으므로 구체적인 설명은 생략하기로 한다.

차량 내 장치(600)는 네비게이션, 텔레매틱스, 오디오, 등 차량 내 모든 장치를 포함할 수 있으며, 고속 음성 처리장치(100)를 통해 인식된 명령에 따라 동작을 수행할 수 있다. 또한, 도 8에서는 고속 음성 처리 장치(100) 및 차량 내 장치(600)가 분리된 구성을 도시하고 있으나 이에 한정되지 않고, 고속 음성 처리 장치(100)가 차량 내 장치(600) 내에 포함되도록 구성될 수 있다.

이와 같은 구성을 통해 차량 내에서 차량 내 장치(600)의 구동을 위해 음성 인식 시 음성 파일을 분리하여 병렬 처리함으로써 음성 인식 속도를 높여 음성 인식 시간을 단축시키면서 음성 인식 정확도를 높여, 차량 내에서의 사용자의 음성인식을 통한 명령 제어의 편리성을 증대시킬 수 있다.

이하, 도 9를 참조하여 본 발명의 실시예에 따른 고속 음성 처리 방법을 설명하기로 한다.

고속 음성 처리 장치(100)는 입력된 음성 파일을 인덱싱하여 인덱싱 지점을 기준으로 음성 파일을 분리한다(S100). 이를 위해, 고속 음성 처리 장치(100)는 음성 파일의 세기를 산출하여 신호파형도를 생성하고, 음성 파일의 억양 또는 발음을 감지하여 억양 또는 발음 감지 결과를 기반으로 음성 파일에 대해 타임 도메인상에서 인덱싱을 수행한다.

고속 음성 처리 장치(100)는 분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리한다(S200). 즉, 고속 음성 처리 장치(100)는 복수개의 음성 파일을 각각 병렬적으로 음성인식을 처리하고, 복수개의 음성인식 처리 결과를 구문 데이터베이스와 매칭하여 검증하고 검증된 복수개의 음성 처리 결과들을 수집하여 인덱싱 정보와 함께 전송한다.

그 후 고속 음성 처리 장치(100)는 병렬적으로 음성인식 처리된 복수개의 음성 인식 결과를 합성한다(S300).

고속 음성 처리 장치(100)는 합성된 복수개의 음성인식 결과를 교정한다(S400). 즉 고속 음성 처리 장치(100)는 복수개의 음성인식 결과의 문맥을 분석하고, 문맥 분석 결과 내의 문법을 체크하여 문법에 맞는 문장에 대해 텍스트 데이터베이스에 저장된 텍스트 정보의 매칭을 수행하여 최종 튜닝을 수행한 후 최종 음성인식 결과물을 출력한다.

본 발명의 음성 분리 및 병렬 음성인식 처리 기술은 스트리밍(streaming) 방식과 비스트리밍(Non-streaming) 방식에 모두 적용이 가능하나, 비스트리밍 방식에서의 음성 인식 시 실시간 음성 인식 처리 효율이 더욱 높아질 수 있다.

도 10은 본 발명의 실시예에 따른 고속 음성 처리 방법을 적용한 컴퓨터 시스템의 구성도이다.

도 10을 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다.

예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 고속 음성 처리 장치
200 : 음성 파일 분리부
300 : 병렬 음성 처리부
400 : 결과 합성부
500 : 텍스트 교정부
210 : 인덱싱 처리부
220 : 압축/압축해제부
230 : 음성 파일 분할부
211 : 신호 세기 산출부
212 : 음성억양감지부
213 : 인덱싱부
214 : 인덱싱 검증부

Claims

입력된 음성 파일을 인덱싱하여 분리하는 음성 파일 분리부;
분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리하는 병렬 음성 처리부;
상기 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성하는 결과 합성부를 포함하고
상기 음성 파일 분리부는,
상기 음성 파일에 대해 인덱싱 수행하여 인덱싱 지점을 추출하는 인덱싱 처리부를 포함하고,
상기 인덱싱 처리부는,
상기 음성 파일의 세기를 산출하여 신호파형도를 생성하는 신호 세기 산출부;
상기 음성 파일의 억양 또는 발음을 감지하는 음성 억양감지부; 및
상기 음성 억양 감지부 결과를 기반으로 상기 음성 파일을 타임 도메인상에서 인덱싱을 수행하는 인덱싱부;
를 포함하는 것을 특징으로 하는 고속 음성 처리 장치.
청구항 1에 있어서,
상기 결과 합성부에 의해 합성된 결과물을 교정하는 텍스트 교정부
를 더 포함하는 것을 특징으로 하는 고속 음성 처리 장치.
청구항 2에 있어서,
상기 텍스트 교정부는,
상기 복수개의 음성인식 결과의 문맥을 분석하는 텍스트 문맥 분석부;
상기 문맥 분석 결과 내의 문법을 체크하는 텍스트 패턴 처리부;
음성인식을 위한 텍스트 정보를 저장하는 텍스트 데이터베이스;
상기 문법이 체크된 결과물과 상기 텍스트 데이터베이스에 저장된 텍스트 정보의 매칭을 수행하는 텍스트 매칭부; 및
상기 매칭 결과에 따라 튜닝을 수행하는 텍스트 문맥 튜닝부;
를 포함하는 것을 특징으로 하는 고속 음성 처리 장치.
청구항 1에 있어서,
상기 음성 파일 분리부는,
상기 인덱싱 지점을 기준으로 상기 음성 파일을 분리하는 음성 파일 분할부;
를 포함하는 것을 특징으로 하는 고속 음성 처리 장치.
삭제
청구항 1에 있어서,
상기 인덱싱 결과를 검증하는 인덱싱 검증부
를 더 포함하는 것을 특징으로 하는 고속 음성 처리 장치.
청구항 6에 있어서,
상기 인덱싱 결과를 헤더에 포함하고 상기 음성 파일의 신호 파형정보를 포함하는 음성 파일 구조를 생성하여 상기 병렬 음성처리부로 전송하는 음성 파일 전송부
를 더 포함하는 것을 특징으로 하는 고속 음성 처리 장치.
청구항 6에 있어서,
상기 병렬 음성처리부는,
상기 복수개의 음성 파일을 각각 병렬적으로 음성인식을 처리하는 복수개의 음성처리부;
음성인식을 위한 구문 및 단어정보를 저장하는 구문 데이터베이스;
상기 복수개의 음성처리부 각각의 음성인식 처리 결과를 상기 구문 데이터베이스와 매칭하여 검증하는 결과 보정부; 및
상기 검증된 복수개의 음성처리 결과들을 수집하는 텍스트 수집부;
를 포함하는 것을 특징으로 하는 고속 음성 처리 장치.
음성 파일이 입력되면 상기 음성 파일의 신호 파형도상에 인덱싱을 하여 상기 인덱싱을 기준으로 상기 음성 파일을 분리하고, 분리된 음성 파일을 병렬 음성 처리하여 병렬 음성처리 결과들을 합성하여 출력하는 고속 음성 처리 장치; 및
상기 고속 음성 처리 장치에 의해 출력된 음성인식 결과에 따라 명령을 수행하는 차량 내 장치;를 포함하고,
상기 고속 음성 처리 장치는,
상기 음성 파일에 대해 인덱싱 수행하여 인덱싱 지점을 추출하는 인덱싱 처리부를 포함하고,
상기 인덱싱 처리부는,
상기 음성 파일의 세기를 산출하여 신호파형도를 생성하는 신호 세기 산출부;
상기 음성 파일의 억양 또는 발음을 감지하는 음성 억양감지부; 및
상기 음성 억양 감지부 결과를 기반으로 상기 음성 파일을 타임 도메인상에서 인덱싱을 수행하는 인덱싱부;
를 포함하는 것을 특징으로 하는 고속 음성 처리 시스템.
청구항 9에 있어서,
상기 고속 음성 처리 장치는,
입력된 음성 파일을 인덱싱하여 분리하는 음성 파일 분리부;
분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리하는 병렬 음성 처리부; 및
상기 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성하는 결과 합성부
를 포함하는 것을 특징으로 하는 고속 음성 처리 시스템.
입력된 음성 파일을 인덱싱하여 분리하는 단계;
분리된 복수개의 음성 파일을 병렬적으로 음성인식 처리하는 단계; 및
상기 병렬적으로 음성인식 처리된 복수개의 음성인식 결과를 합성하는 단계를 포함하고,
상기 음성 파일을 인덱싱하여 분리하는 단계는,
상기 음성 파일에 대해 인덱싱 수행하여 인덱싱 지점을 추출하는 단계를 포함하고,
상기 인덱싱 지점을 추출하는 단계는,
상기 음성 파일의 세기를 산출하여 신호 파형도를 생성하는 단계;
상기 음성 파일의 억양 또는 발음을 감지하는 단계; 및
상기 억양 또는 발음 감지 결과를 기반으로 상기 음성 파일을 타임 도메인상에서 인덱싱을 수행하는 단계;
를 포함하는 것을 특징으로 하는 고속 음성 처리 방법.
청구항 11에 있어서,
상기 합성된 결과물을 교정하는 단계
를 더 포함하는 것을 특징으로 하는 고속 음성 처리 방법.
청구항 11에 있어서,
상기 음성 파일을 인덱싱하여 분리하는 단계는,
상기 인덱싱 지점을 기준으로 상기 음성 파일을 분리하는 단계;
를 포함하는 것을 특징으로 하는 고속 음성 처리 방법.
삭제
청구항 11에 있어서,
상기 인덱싱 지점을 추출하는 단계는,
상기 인덱싱 결과를 검증하는 단계
를 더 포함하는 것을 특징으로 하는 고속 음성 처리 방법.
청구항 15에 있어서,
상기 인덱싱 지점을 추출하는 단계는,
상기 인덱싱 결과를 헤더에 포함하고 상기 음성 파일의 신호 파형정보를 포함하는 음성 파일 구조를 생성하여 전송하는 단계
를 더 포함하는 것을 특징으로 하는 고속 음성 처리 방법.
청구항 11에 있어서,
상기 병렬적으로 음성인식 처리하는 단계는,
상기 복수개의 음성 파일을 각각 병렬적으로 음성인식을 처리하는 단계;
상기 복수개의 음성인식 처리 결과를 구문 데이터베이스와 매칭하여 검증하는 단계;
를 포함하는 것을 특징으로 하는 고속 음성 처리 방법.
청구항 11에 있어서,
상기 합성된 결과물을 교정하는 단계는,
상기 복수개의 음성인식 결과의 문맥을 분석하는 단계;
상기 문맥 분석 결과 내의 문법을 체크하는 단계;
상기 문법이 체크된 결과물과 텍스트 데이터베이스에 저장된 텍스트 정보의 매칭을 수행하는 단계; 및
상기 매칭결과에 따라 튜닝을 수행하는 단계
를 포함하는 것을 특징으로 하는 고속 음성 처리 방법.