KR101791907B1 - 위치 기반의 음향 처리 장치 및 방법 - Google Patents

위치 기반의 음향 처리 장치 및 방법 Download PDF

Info

Publication number
KR101791907B1
KR101791907B1 KR1020110000576A KR20110000576A KR101791907B1 KR 101791907 B1 KR101791907 B1 KR 101791907B1 KR 1020110000576 A KR1020110000576 A KR 1020110000576A KR 20110000576 A KR20110000576 A KR 20110000576A KR 101791907 B1 KR101791907 B1 KR 101791907B1
Authority
KR
South Korea
Prior art keywords
acoustic model
acoustic
user
matched
positions
Prior art date
Application number
KR1020110000576A
Other languages
English (en)
Other versions
KR20120079342A (ko
Inventor
김남훈
김정수
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020110000576A priority Critical patent/KR101791907B1/ko
Priority to US13/192,902 priority patent/US8942979B2/en
Publication of KR20120079342A publication Critical patent/KR20120079342A/ko
Application granted granted Critical
Publication of KR101791907B1 publication Critical patent/KR101791907B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다. 음향 처리 장치 및 방법이 개시된다. 위치 기반의 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하고, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하고, 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성한다.

Description

위치 기반의 음향 처리 장치 및 방법{ACOUSTIC PROCESSING APPARATUS AND METHOD BASED ON POSITION INFORMATION}
사용자의 위치를 검출하고, 검출된 사용자의 위치에서의 가장 적합한 음향 모델을 선택하고, 선택된 음향 모델을 이용하여 사용자의 음성을 인식함으로써, 음성 인식 성능을 향상시킬 수 있는 기술과 관련된다.
최근에 다양한 장치들이 생산되고 있으며, 더불어 이러한 장치들을 편리하게 제어할 수 있는 방법들이 다양하게 제시되고 있다.
특히, 사용자가 음성을 이용하여 이러한 장치들을 제어할 수 있는 기술인 음성 인식 기반의 사용자 인터페이스(UI)에 대한 관심이 증가하고 있다. 일반적인 음성 인식 기반의 사용자 인터페이스는 사용자와 마이크 사이의 거리가 가까운 경우를 가정하고 제작되었다. 따라서, 사용자와 마이크 사이의 거리가 먼 경우, 음성 인식 기반의 사용자 인터페이스는 정확하게 음성을 인식할 수 없다. 다시 말해, 사용자와 마이크 사이의 거리가 먼 경우, 잔향(reverberation), 반향(echo) 등에 의한 환경적인 영향을 많이 받기 때문에, 일반적으로 음성 인식 성능이 현저하게 저하될 수 있다.
따라서, 사용자와 마이크 사이의 거리가 먼 경우에도, 음성을 정확하게 인식할 수 있는 기술에 대한 연구가 다양하게 진행되고 있다.
사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있는 음향 처리 장치 및 방법이 개시된다.
본 발명의 일 실시예에 따른 위치 기반의 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 제 1 추출부와, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 제 2 추출부 및 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 음향 모델 생성부를 포함할 수 있다.
음향 모델 생성부는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성할 수 있다.
위치 기반의 음향 처리 장치는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출하는 위치 검출부를 더 포함할 수 있다.
위치 기반의 음향 처리 장치는 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식하는 음성 인식부를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 음향 처리 방법은 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 단계와, 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 단계 및 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 3 음향 모델을 생성하는 단계를 포함할 수 있다.
제 3 음향 모델을 생성하는 단계는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성하는 단계를 포함할 수 있다.
음향 처리 방법은 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 단계를 더 포함할 수 있다.
음향 처리 방법은 사용자의 위치 정보를 검출하는 단계 및 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출하는 단계를 더 포함할 수 있다.
음향 처리 방법은 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식하는 단계를 더 포함할 수 있다.
개시된 내용에 따르면, 사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다.
도 1은 본 발명의 일 실시예와 관련된 음향 처리 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 또 다른 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음향 처리 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 발명을 실시하기 위한 구체적인 내용에 대하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예와 관련된 음향 처리 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 음향 처리 장치(100)는 위치 설정부(110), 위치 검출부(120), 제 1 추출부(130), 제 2 추출부(140), 음향 모델 생성부(150) 및 음성 인식부(160)를 포함한다.
위치 설정부(110)는 음성 인식 대상 영역에 다수의 위치를 설정할 수 있다. 예를 들면, 위치 설정부(110)는 음성 인식 대상 영역에 M*N 개의 위치를 설정할 수 있다.
음향 모델 생성부(150)는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성할 수 있다. 음향 모델은 음성 신호의 특성을 표현한 모델을 의미할 수 있다. 예를 들면, 음향 모델에는 각 음소들 및 각 음소들에 대한 음성 특징 정보들이 상호 매칭되어 저장될 수 있다. 예를 들면, 음향 모델은 hidden Markov model(HMM) 등일 수 있다. 실험 데이터는 각각의 설정된 위치에서 음성 신호를 재생하여 얻어진 데이터이거나 통화 품질 측정에 사용되는 artificial mouth와 같은 장치를 이용하여 얻어진 데이터일 수 있다. 예를 들면, 음향 모델 생성부(150)는 ML(Maximum Likelihood) 기법을 이용하여 해당 위치에 가장 적합한 음향 모델을 생성할 수 있다.
위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 위치 설정부(110)에서 설정된 제 1 위치를 검출할 수 있다. 사용자의 위치 정보는 물체의 위치를 검출할 수 있는 다양한 장치들에 의해 검출될 수 있다. 제 1 위치는 음성 인식 대상 영역에 존재하는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다. 사용자의 위치 정보에 정확하게 일치되는 설정된 위치가 없는 경우, 위치 검출부(120)는 설정된 위치들 중 사용자의 위치 정보에 가장 근접한 위치를 제 1 위치로써 검출할 수 있다.
제 1 추출부(130)는 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출할 수 있다.
제 2 추출부(140)는 제 1 위치의 주변에 존재하는 하나 또는 그 이상의 제 2 위치에 매칭된 제 2 음향 모델을 추출할 수 있다.
음향 모델 생성부(150)는 제 1 음향 모델 및/또는 제 2 음향 모델을 이용하여 제 1 위치에 매칭되는 제 3 음향 모델을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 CAT(Cluster Adaptive Training) 기법을 이용하여 제 3 음향 모델을 생성할 수 있다. 이와 같이, 음향 모델 생성부(150)는 제 1 음향 모델 및/또는 제 2 음향 모델에 기초하여 환경적인 특성을 반영한 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부(150)는 설정된 모든 위치에 대해 위와 같은 과정을 통해 새로운 음향 모델을 생성할 수 있다. 이에 대한 설명은 도 2를 참조하여 구체적으로 설명한다.
음성 인식부(160)는 제 1 위치로부터 수신되는 음성 신호를 음향 모델 생성부(150)에서 생성된 제 3 음향 모델을 이용하여 인식할 수 있다. 환경적 특성을 반녕한 제 3 음향 모델을 이용하여 음성 신호를 인식함으로써, 음성 인식부(160)는 수신되는 음성 신호를 더욱 정확하게 처리하고 인식할 수 있다.
음향 처리 장치는 현재 사용자의 위치에 대한 정보가 추출될 때마다, 사용자의 위치에 매칭되는 제 3 음향 모델을 생성하고, 생성된 제 3 음향 모델을 이용하여 음성 신호를 처리하고 인식할 수 있다.
또 다른 예를 들면, 음향 처리 장치는 각각의 설정된 위치에 매칭되는 제 3 음향 모델을 모두 생성한 후, 현재 사용자의 위치에 대한 정보가 추출되면 매칭된 제 3 음향 모델을 이용하여 음성 신호를 처리하고 인식할 수 있다. 다시 말하면, 음향 처리 장치는 제 3 음향 모델을 실시간으로 생성할 수도 있고, 미리 생성할 수도 있다.
음향 처리 장치는 사용자의 위치에 대응되는 설정된 위치 및 설정된 위치 주변에 존재하는 위치에 대응되는 음향 모델에 기초하여 환경적 특성을 반영한 음향 모델을 생성하고, 생성된 음향 모델을 이용하여 입력되는 음성 신호를 처리함으로써, 사용자 위치 추정의 오류로 인해 잘못된 음향 모델이 선택되더라도 음성 신호를 정확하게 처리하고 인식할 수 있다.
도 2는 본 발명의 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 위치 설정부(110)는 음성 인식 대상 영역에 5*4(20개)의 위치를 설정할 수 있다.
위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치(200)를 검출할 수 있다. 제 1 위치(200)는 설정된 위치들 중 검출된 사용자의 위치 정보에 매칭된 위치를 의미한다.
제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 제 2 위치들(210, 211, 212, 213, 214, 215, 216, 217)에 매칭된 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)을 추출할 수 있다. 이하에서는, 음향 모델을 λ로 표시한다.
제 2 추출부(140)가 8개의 제 2 위치들을 추출하는 경우를 가정하였으나, 이에 한정되지 않고, 제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출할 수 있다. 예를 들면, 제 2 추출부(140)는 제 1 위치(200)의 주변에 존재하는 4개의 제 2 위치들(210, 212, 214, 216)에 매칭된 제 2 음향 모델들(λ1, λ3, λ5, λ7)을 추출할 수 있다.
음향 모델 생성부(150)는 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)을 이용하여 제 1 위치(200)에 매칭되는 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)에 가중치를 주고 선형 조합하여 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 수학식 1을 이용하여 제 3 음향 모델(λx)을 생성할 수 있다.
Figure 112011000512723-pat00001
여기서, λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8 는 제 2 음향 모델들, λx는 3 음향 모델 및 w는 가중치를 의미한다.
제 3 음향 모델(λx)은 각각의 제 2 음향 모델(λ1, λ2, λ3, λ4, λ5, λ6, λ7, λ8)에 가중치를 곱하고 선형 조합함으로써 얻어질 수 있다.
수학식 1은 일 실시예에 불과하며, 음향 모델 생성부(150)는 일부의 제 2 음향 모델에만 가중치를 주는 등과 같은 다양한 방법을 이용하여 제 2 음향 모델에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부(150)는 설정된 20개의 위치에 대해 위와 같은 과정을 통해 각 위치에 대응되는 20개의 새로운 음향 모델을 생성할 수 있다.
도 3은 본 발명의 또 다른 일실시예에 따른 도 1의 음향 처리 장치가 음향 모델을 생성하는 과정을 설명하기 위한 도면이다.
도 1 및 도 3을 참조하면, 위치 설정부(110)는 음성 인식 대상 영역에 5*4(20개)의 위치를 설정할 수 있다.
위치 검출부(120)는 사용자의 위치 정보를 검출하고, 검출된 사용자의 위치 정보에 기초하여 제 1 위치(300)를 검출할 수 있다. 제 1 위치(300)는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다.
제 1 추출부(130)는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치(300)에 매칭된 제 1 음향 모델(λ1)을 추출할 수 있다.
제 2 추출부(140)는 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 311, 312, 313)에 매칭된 제 2 음향 모델(λ2, λ3, λ4, λ5)을 추출할 수 있다.
제 2 추출부(140)가 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 311, 312, 313)에 매칭된 제 2 음향 모델(λ2, λ3, λ4, λ5)을 추출하는 경우를 가정하였으나, 제 2 추출부(140)는 제 1 위치(300)의 주변에 존재하는 위치들 중 1개, 2개, 3개 등과 같이 적어도 하나의 위치에 매칭된 제 2 음향 모델을 추출할 수 있다. 예를 들면, 제 2 추출부(140)가 제 1 위치(300)의 주변에 존재하는 제 2 위치들(310, 312)에 매칭된 제 2 음향 모델(λ2, λ4)을 추출할 수도 있다.
음향 모델 생성부(150)는 제 1 음향 모델(λ1) 및 제 2 음향 모델(λ2, λ3, λ4, λ5)을 이용하여 제 1 위치(300)에 매칭되는 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 제 1 음향 모델(λ1) 및 제 2 음향 모델(λ2, λ3, λ4, λ5)에 가중치를 주고 선형 조합하여 제 3 음향 모델(λx)을 생성할 수 있다. 예를 들면, 음향 모델 생성부(150)는 수학식 2를 이용하여 제 3 음향 모델(λx)을 생성할 수 있다.
Figure 112011000512723-pat00002
여기서, λ는 음향 모델을 의미하고, w는 가중치를 의미한다.
여기서, λ1은 제 1 음향 모델, λ2, λ3, λ4, λ5는 제 2 음향 모델들, λx는 3 음향 모델 및 w는 가중치를 의미한다.
수학식 2는 일 실시예에 불과하며, 음향 모델 생성부(150)는 제 1 음향 모델 및 제 2 음향 모델 중 일부에만 가중치를 주는 등과 같은 다양한 방법을 이용하여 제 2 음향 모델에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다.
음향 모델 생성부(150)는 설정된 20개의 위치에 대해 위와 같은 과정을 통해 각 위치에 대응되는 20개의 새로운 음향 모델을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 음향 처리 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 음향 처리 장치는 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성한다(400). 음향 처리 장치는 사용자의 위치 정보를 검출한다(410). 음향 처리 장치는 검출된 사용자의 위치 정보에 기초하여 제 1 위치를 검출한다(420). 제 1 위치는 설정된 위치들 중 사용자의 위치 정보에 매칭된 위치를 의미한다. 음향 처리 장치는 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출한다(430). 음향 처리 장치는 제 1 위치의 주변에 존재하는 제 2 위치들 중 적어도 하나에 매칭된 제 2 음향 모델을 추출한다(440). 음향 처리 장치는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 기초하여 제 1 위치에 매칭되는 제 3 음향 모델을 생성한다(450). 예를 들면, 음향 처리 장치는 제 1 음향 모델 및 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 제 3 음향 모델을 생성할 수 있다. 음향 처리 장치는 제 1 위치로부터 수신되는 음향 신호를 제 3 음향 모델을 이용하여 인식한다(460).
설명된 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
또한, 실시예는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술분야의 통상의 전문가라면 본 발명의 기술사상의 범위에서 다양한 실시예가 가능함을 이해할 수 있을 것이다.
또한, 본 발명의 일 실시예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

Claims (10)

  1. 음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 제 1 추출부;
    상기 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 제 2 추출부; 및
    상기 제 1 음향 모델의 상기 제1 위치 및 상기 제 2 음향 모델의 조합에 기초하여 제 3 음향 모델을 생성하는 음향 모델 생성부를 포함하는 위치 기반의 음향 처리 장치.
  2. 제 1 항에 있어서,
    상기 음향 모델 생성부는,
    상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 상기 제 3 음향 모델을 생성하는 위치 기반의 음향 처리 장치.
  3. 제 1 항에 있어서,
    상기 음향 모델 생성부는,
    상기 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 상기 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 위치 기반의 음향 처리 장치.
  4. 제 1 항에 있어서,
    사용자의 위치 정보를 검출하고, 상기 검출된 사용자의 위치 정보에 기초하여 상기 제 1 위치를 검출하는 위치 검출부를 더 포함하는 위치 기반의 음향 처리 장치.
  5. 제 1 항에 있어서,
    상기 제 1 위치로부터 수신되는 음향 신호를 상기 제 3 음향 모델을 이용하여 인식하는 음성 인식부를 더 포함하는 위치 기반의 음향 처리 장치.
  6. 위치 기반의 음향 처리 장치의 음향 처리 방법에 있어서,
    음성 인식 대상 영역에 설정된 위치들 중 제 1 위치에 매칭된 제 1 음향 모델을 추출하는 단계;
    상기 제 1 위치의 주변에 존재하는 적어도 하나의 제 2 위치에 매칭된 제 2 음향 모델을 추출하는 단계; 및
    상기 제 1 음향 모델의 상기 제1 위치 및 상기 제 2 음향 모델의 조합에 기초하여 제 3 음향 모델을 생성하는 단계를 포함하는 위치 기반의 음향 처리 방법.
  7. 제 6 항에 있어서,
    상기 제 3 음향 모델을 생성하는 단계는,
    상기 제 1 음향 모델 및 상기 제 2 음향 모델 중 적어도 하나에 가중치를 주고 선형 조합하여 상기 제 3 음향 모델을 생성하는 단계를 포함하는 위치 기반의 음향 처리 방법.
  8. 제 6 항에 있어서,
    상기 각각의 설정된 위치들에서 얻어진 실험 데이터들에 기초하여 상기 각각의 설정된 위치들에 매칭되는 음향 모델들을 생성하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
  9. 제 6 항에 있어서,
    사용자의 위치 정보를 검출하는 단계; 및
    상기 검출된 사용자의 위치 정보에 기초하여 상기 제 1 위치를 검출하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
  10. 제 6 항에 있어서,
    상기 제 1 위치로부터 수신되는 음향 신호를 상기 제 3 음향 모델을 이용하여 인식하는 단계를 더 포함하는 위치 기반의 음향 처리 방법.
KR1020110000576A 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법 KR101791907B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110000576A KR101791907B1 (ko) 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법
US13/192,902 US8942979B2 (en) 2011-01-04 2011-07-28 Acoustic processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110000576A KR101791907B1 (ko) 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120079342A KR20120079342A (ko) 2012-07-12
KR101791907B1 true KR101791907B1 (ko) 2017-11-02

Family

ID=46381534

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110000576A KR101791907B1 (ko) 2011-01-04 2011-01-04 위치 기반의 음향 처리 장치 및 방법

Country Status (2)

Country Link
US (1) US8942979B2 (ko)
KR (1) KR101791907B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9530407B2 (en) * 2014-06-11 2016-12-27 Honeywell International Inc. Spatial audio database based noise discrimination
KR102292546B1 (ko) 2014-07-21 2021-08-23 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US11676062B2 (en) 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
DE10122828A1 (de) * 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7099822B2 (en) * 2002-12-10 2006-08-29 Liberato Technologies, Inc. System and method for noise reduction having first and second adaptive filters responsive to a stored vector
US7548651B2 (en) * 2003-10-03 2009-06-16 Asahi Kasei Kabushiki Kaisha Data process unit and data process unit control program
US7475014B2 (en) * 2005-07-25 2009-01-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking signal sources with wrapped-phase hidden markov models
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置

Also Published As

Publication number Publication date
US8942979B2 (en) 2015-01-27
KR20120079342A (ko) 2012-07-12
US20120173232A1 (en) 2012-07-05

Similar Documents

Publication Publication Date Title
EP3707716B1 (en) Multi-channel speech separation
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN110832580B (zh) 重放攻击的检测
TWI620170B (zh) 應用於電子裝置的有向性關鍵字驗證方法及其電子裝置
US9536523B2 (en) Method and system for identification of speech segments
US9286897B2 (en) Speech recognizer with multi-directional decoding
Nakadai et al. Design and Implementation of Robot Audition System'HARK'—Open Source Software for Listening to Three Simultaneous Speakers
JP6140579B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP5328744B2 (ja) 音声認識装置及び音声認識方法
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
CN109410956A (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
Saffari et al. Ava (a social robot): Design and performance of a robotic hearing apparatus
JP2015070321A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
KR101791907B1 (ko) 위치 기반의 음향 처리 장치 및 방법
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
Martín-Morató et al. Analysis of data fusion techniques for multi-microphone audio event detection in adverse environments
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP2016042162A (ja) 生体検知装置、生体検知方法及びプログラム
Cirillo et al. Sound mapping in reverberant rooms by a robust direct method
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
Okuno et al. Computational auditory scene analysis and its application to robot audition: Five years experience
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant