KR101791907B1

KR101791907B1 - 위치 기반의 음향 처리 장치 및 방법

Info

Publication number: KR101791907B1
Application number: KR1020110000576A
Authority: KR
Inventors: 김남훈; 김정수; 조정미
Original assignee: 삼성전자주식회사
Priority date: 2011-01-04
Filing date: 2011-01-04
Publication date: 2017-11-02
Anticipated expiration: 2031-01-04
Also published as: US20120173232A1; KR20120079342A; US8942979B2

Abstract

사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다. 음향 처리 장치 및 방법이 개시된다. 위치 기반의 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하고, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하고, 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성한다.

Description

위치 기반의 음향 처리 장치 및 방법{ACOUSTIC PROCESSING APPARATUS AND METHOD BASED ON POSITION INFORMATION}

사용자의 위치를 검출하고, 검출된 사용자의 위치에서의 가장 적합한 음향 모델을 선택하고, 선택된 음향 모델을 이용하여 사용자의 음성을 인식함으로써, 음성 인식 성능을 향상시킬 수 있는 기술과 관련된다.

최근에 다양한 장치들이 생산되고 있으며, 더불어 이러한 장치들을 편리하게 제어할 수 있는 방법들이 다양하게 제시되고 있다.

특히, 사용자가 음성을 이용하여 이러한 장치들을 제어할 수 있는 기술인 음성 인식 기반의 사용자 인터페이스(UI)에 대한 관심이 증가하고 있다. 일반적인 음성 인식 기반의 사용자 인터페이스는 사용자와 마이크 사이의 거리가 가까운 경우를 가정하고 제작되었다. 따라서, 사용자와 마이크 사이의 거리가 먼 경우, 음성 인식 기반의 사용자 인터페이스는 정확하게 음성을 인식할 수 없다. 다시 말해, 사용자와 마이크 사이의 거리가 먼 경우, 잔향(reverberation), 반향(echo) 등에 의한 환경적인 영향을 많이 받기 때문에, 일반적으로 음성 인식 성능이 현저하게 저하될 수 있다.

따라서, 사용자와 마이크 사이의 거리가 먼 경우에도, 음성을 정확하게 인식할 수 있는 기술에 대한 연구가 다양하게 진행되고 있다.

사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있는 음향 처리 장치 및 방법이 개시된다.

본 발명의 일 실시예에 따른 위치 기반의 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 제 1 추출부와, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 제 2 추출부 및 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 음향 모델 생성부를 포함할 수 있다.

음향 모델 생성부는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.

음향 모델 생성부는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성할 수 있다.

위치 기반의 음향 처리 장치는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출하는 위치 검출부를 더 포함할 수 있다.

위치 기반의 음향 처리 장치는 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식하는 음성 인식부를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 음향 처리 방법은 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 단계와, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 단계 및 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 단계를 포함할 수 있다.

제 3 음향 모델을 생성하는 단계는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성하는 단계를 포함할 수 있다.

음향 처리 방법은 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 단계를 더 포함할 수 있다.

음향 처리 방법은 사용자의 위치 정보를 검출하는 단계 및 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출하는 단계를 더 포함할 수 있다.

음향 처리 방법은 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식하는 단계를 더 포함할 수 있다.

개시된 내용에 따르면, 사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다.

도 1은 본 발명의 일 실시예와 관련된 음향 처리 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 또 다른 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음향 처리 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면을 참조하여 발명을 실시하기 위한 구체적인 내용에 대하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예와 관련된 음향 처리 장치를 설명하기 위한 도면이다.

도 1을 참조하면, 음향 처리 장치(100)는 위치 설정부(110), 위치 검출부(120), 제 1 추출부(130), 제 2 추출부(140), 음향 모델 생성부(150) 및 음성 인식부(160)를 포함한다.

위치 설정부(110)는 음성 인식 대상 영역에 다수의 위치를 설정할 수 있다. 예를 들면, 위치 설정부(110)는 음성 인식 대상 영역에 M*N 개의 위치를 설정할 수 있다.

음향 모델 생성부(150)는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성할 수 있다. 음향 모델은 음성 신호의 특성을 표현한 모델을 의미할 수 있다. 예를 들면, 음향 모델에는 각 음소들 및 각 음소들에 대한 음성 특징 정보들이 상호 매칭되어 저장될 수 있다. 예를 들면, 음향 모델은 hidden Markov model(HMM) 등일 수 있다. 실험 데이터는 각각의 설정된 위치에서 음성 신호를 재생하여 얻어진 데이터이거나 통화 품질 측정에 사용되는 artificial mouth와 같은 장치를 이용하여 얻어진 데이터일 수 있다. 예를 들면, 음향 모델 생성부(150)는 ML(Maximum Likelihood) 기법을 이용하여 해당 위치에 가장 적합한 음향 모델을 생성할 수 있다.

위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 위치 설정부(110)에서 설정된 제 1 위치를 검출할 수 있다. 사용자의 위치 정보는 물체의 위치를 검출할 수 있는 다양한 장치들에 의해 검출될 수 있다. 제 1 위치는 음성 인식 대상 영역에 존재하는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다. 사용자의 위치 정보에 정확하게 일치되는 설정된 위치가 없는 경우, 위치 검출부(120)는 설정된 위치들 중 사용자의 위치 정보에 가장 근접한 위치를 제 1 위치로써 검출할 수 있다.

제 1 추출부(130)는 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출할 수 있다.

제 2 추출부(140)는 제 1 위치의 주변에 존재하는 하나 또는 그 이상의 제 2 위치에 매칭된 제 2 음향 모델을 추출할 수 있다.

음향 모델 생성부(150)는 제 1 음향 모델 및/또는 제 2 음향 모델을 이용하여 제 1 위치에 매칭되는 제 3 음향 모델을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 CAT(Cluster Adaptive Training) 기법을 이용하여 제 3 음향 모델을 생성할 수 있다. 이와 같이, 음향 모델 생성부(150)는 제 1 음향 모델 및/또는 제 2 음향 모델에 기초하여 환경적인 특성을 반영한 제 3 음향 모델을 생성할 수 있다.

음향 모델 생성부(150)는 설정된 모든 위치에 대해 위와 같은 과정을 통해 새로운 음향 모델을 생성할 수 있다. 이에 대한 설명은 도 2를 참조하여 구체적으로 설명한다.

음성 인식부(160)는 제 1 위치로부터 수신되는 음성 신호를 음향 모델 생성부(150)에서 생성된 제 3 음향 모델을 이용하여 인식할 수 있다. 환경적 특성을 반녕한 제 3 음향 모델을 이용하여 음성 신호를 인식함으로써, 음성 인식부(160)는 수신되는 음성 신호를 더욱 정확하게 처리하고 인식할 수 있다.

음향 처리 장치는 현재 사용자의 위치에 대한 정보가 추출될 때마다, 사용자의 위치에 매칭되는 제 3 음향 모델을 생성하고, 생성된 제 3 음향 모델을 이용하여 음성 신호를 처리하고 인식할 수 있다.

또 다른 예를 들면, 음향 처리 장치는 각각의 설정된 위치에 매칭되는 제 3 음향 모델을 모두 생성한 후, 현재 사용자의 위치에 대한 정보가 추출되면 매칭된 제 3 음향 모델을 이용하여 음성 신호를 처리하고 인식할 수 있다. 다시 말하면, 음향 처리 장치는 제 3 음향 모델을 실시간으로 생성할 수도 있고, 미리 생성할 수도 있다.

음향 처리 장치는 사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다.

도 2는 본 발명의 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.

도 1 및 도 2를 참조하면, 위치 설정부(110)는 음성 인식 대상 영역에 5*4(20개)의 위치를 설정할 수 있다.

위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치(200)를 검출할 수 있다. 제 1 위치(200)는 설정된 위치들 중 검출된 사용자의 위치 정보에 매칭된 위치를 의미한다.

제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 제 2 위치들(210, 211, 212, 213, 214, 215, 216, 217)에 매칭된 제 2 음향 모델(λ₁, λ₂, λ₃, λ₄, λ₅, λ₆, λ₇, λ₈)을 추출할 수 있다. 이하에서는, 음향 모델을 λ로 표시한다.

제 2 추출부(140)가 8개의 제 2 위치들을 추출하는 경우를 가정하였으나, 이에 한정되지 않고, 제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출할 수 있다. 예를 들면, 제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 4개의 제 2 위치들(210, 212, 214, 216)에 매칭된 제 2 음향 모델들(λ₁, λ₃, λ₅, λ₇)을 추출할 수 있다.

음향 모델 생성부(150)는 제 2 음향 모델(λ₁, λ₂, λ₃, λ₄, λ₅, λ₆, λ₇, λ₈)을 이용하여 제 1 위치(200)에 매칭되는 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 2 음향 모델(λ₁, λ₂, λ₃, λ₄, λ₅, λ₆, λ₇, λ₈)에 가중치를 주고 선형 조합하여 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 수학식 1을 이용하여 제 3 음향 모델(λx)을 생성할 수 있다.

여기서, λ₁, λ₂, λ₃, λ₄, λ₅, λ₆, λ₇, λ₈는 제 2 음향 모델들, λx는 3 음향 모델 및 w는 가중치를 의미한다.

제 3 음향 모델(λx)은 각각의 제 2 음향 모델(λ₁, λ₂, λ₃, λ₄, λ₅, λ₆, λ₇, λ₈)에 가중치를 곱하고 선형 조합함으로써 얻어질 수 있다.

수학식 1은 일 실시예에 불과하며, 음향 모델 생성부(150)는 일부의 제 2 음향 모델에만 가중치를 주는 등과 같은 다양한 방법을 이용하여 제 2 음향 모델에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.

음향 모델 생성부(150)는 설정된 20개의 위치에 대해 위와 같은 과정을 통해 각 위치에 대응되는 20개의 새로운 음향 모델을 생성할 수 있다.

도 3은 본 발명의 또 다른 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.

도 1 및 도 3을 참조하면, 위치 설정부(110)는 음성 인식 대상 영역에 5*4(20개)의 위치를 설정할 수 있다.

위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치(300)를 검출할 수 있다. 제 1 위치(300)는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다.

제 1 추출부(130)는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치(300)에 매칭된 제 1 음향 모델(λ₁)을 추출할 수 있다.

제 2 추출부(140)는 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 311, 312, 313)에 매칭된 제 2 음향 모델(λ₂, λ₃, λ₄, λ₅)을 추출할 수 있다.

제 2 추출부(140)가 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 311, 312, 313)에 매칭된 제 2 음향 모델(λ₂, λ₃, λ₄, λ₅)을 추출하는 경우를 가정하였으나, 제 2 추출부(140)는 제 1 위치(300)의 주변에 존재하는 위치들 중 1개, 2개, 3개 등과 같이 적어도 하나의 위치에 매칭된 제 2 음향 모델을 추출할 수 있다. 예를 들면, 제 2 추출부(140)가 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 312)에 매칭된 제 2 음향 모델(λ₂, λ₄)을 추출할 수도 있다.

음향 모델 생성부(150)는 제 1 음향 모델(λ₁) 및 제 2 음향 모델(λ₂, λ₃, λ₄, λ₅)을 이용하여 제 1 위치(300)에 매칭되는 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 1 음향 모델(λ₁) 및 제 2 음향 모델(λ₂, λ₃, λ₄, λ₅)에 가중치를 주고 선형 조합하여 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 수학식 2를 이용하여 제 3 음향 모델(λx)을 생성할 수 있다.

여기서, λ는 음향 모델을 의미하고, w는 가중치를 의미한다.

여기서, λ₁은 제 1 음향 모델, λ₂, λ₃, λ₄, λ₅는 제 2 음향 모델들, λx는 3 음향 모델 및 w는 가중치를 의미한다.

수학식 2는 일 실시예에 불과하며, 음향 모델 생성부(150)는 제 1 음향 모델 및 제 2 음향 모델 중 일부에만 가중치를 주는 등과 같은 다양한 방법을 이용하여 제 2 음향 모델에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.

도 4는 본 발명의 일 실시예에 따른 음향 처리 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 음향 처리 장치는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성한다(400). 음향 처리 장치는 사용자의 위치 정보를 검출한다(410). 음향 처리 장치는 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출한다(420). 제 1 위치는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다. 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출한다(430). 음향 처리 장치는 제 1 위치의 주변에 존재하는 제 2 위치들 중 적어도 하나에 매칭된 제 2 음향 모델을 추출한다(440). 음향 처리 장치는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 1 위치에 매칭되는 제 3 음향 모델을 생성한다(450). 예를 들면, 음향 처리 장치는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다. 음향 처리 장치는 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식한다(460).

설명된 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

또한, 실시예는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술분야의 통상의 전문가라면 본 발명의 기술사상의 범위에서 다양한 실시예가 가능함을 이해할 수 있을 것이다.

또한, 본 발명의 일 실시예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

Claims

음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 제 1 추출부;
상기 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 제 2 추출부; 및
상기 제 1 음향 모델의 상기 제1 위치 및 상기 제 2 음향 모델의 조합에 기초하여 제 3 음향 모델을 생성하는 음향 모델 생성부를 포함하는 위치 기반의 음향 처리 장치.
제 1 항에 있어서,
상기 음향 모델 생성부는,
상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 상기 제 3 음향 모델을 생성하는 위치 기반의 음향 처리 장치.
제 1 항에 있어서,
상기 음향 모델 생성부는,
상기 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 상기 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 위치 기반의 음향 처리 장치.
제 1 항에 있어서,
사용자의 위치 정보를 검출하고, 상기 검출된 사용자의 위치 정보에 기초하여 상기 제 1 위치를 검출하는 위치 검출부를 더 포함하는 위치 기반의 음향 처리 장치.
제 1 항에 있어서,
상기 제 1 위치로부터 수신되는 음향 신호를 상기 제 3 음향 모델을 이용하여 인식하는 음성 인식부를 더 포함하는 위치 기반의 음향 처리 장치.
위치 기반의 음향 처리 장치의 음향 처리 방법에 있어서,
음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 단계;
상기 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 단계; 및
상기 제 1 음향 모델의 상기 제1 위치 및 상기 제 2 음향 모델의 조합에 기초하여 제 3 음향 모델을 생성하는 단계를 포함하는 위치 기반의 음향 처리 방법.
제 6 항에 있어서,
상기 제 3 음향 모델을 생성하는 단계는,
상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 상기 제 3 음향 모델을 생성하는 단계를 포함하는 위치 기반의 음향 처리 방법.
제 6 항에 있어서,
상기 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 상기 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
제 6 항에 있어서,
사용자의 위치 정보를 검출하는 단계; 및
상기 검출된 사용자의 위치 정보에 기초하여 상기 제 1 위치를 검출하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
제 6 항에 있어서,
상기 제 1 위치로부터 수신되는 음향 신호를 상기 제 3 음향 모델을 이용하여 인식하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.