KR20120072243A - 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법 - Google Patents

음향/음성 인식을 위한 잡음 제거 장치 및 그 방법 Download PDF

Info

Publication number
KR20120072243A
KR20120072243A KR1020100134080A KR20100134080A KR20120072243A KR 20120072243 A KR20120072243 A KR 20120072243A KR 1020100134080 A KR1020100134080 A KR 1020100134080A KR 20100134080 A KR20100134080 A KR 20100134080A KR 20120072243 A KR20120072243 A KR 20120072243A
Authority
KR
South Korea
Prior art keywords
signal
output
sound
low pass
microphone
Prior art date
Application number
KR1020100134080A
Other languages
English (en)
Inventor
이재연
한문성
조재일
김재홍
손주찬
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100134080A priority Critical patent/KR20120072243A/ko
Priority to US13/326,768 priority patent/US20120166190A1/en
Publication of KR20120072243A publication Critical patent/KR20120072243A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명에 따른 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 장치는, 상기 마이크를 통해 수신되는 신호를 미리 설정된 제1 차단 주파수를 근거로 필터링하는 제1 저역 통과 필터와, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 미리 설정된 제2 차단 주파수를 근거로 필터링하는 제2 저역 통과 필터와, 가산부/감산부의 출력 신호를 근거로 필터의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터의 출력 신호를 필터링하는 적응 필터와, 상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 가산부/감산부와, 상기 가산부/감산부로부터 출력되는 신호를 음성 인식하고, 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 제어부를 포함한다.

Description

음향/음성 인식을 위한 잡음 제거 장치 및 그 방법{Apparatus for removing noise for sound/voice recognition and method thereof}
본 발명은 코그노 TV(cogno TV)에서 잡음에 해당하는 TV 소리를 제거하거나 미리 알고 있는 소리를 근거로 간섭(interference)을 제거하고 음향 및/또는 음성 인식을 수행하는 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법에 관한 것이다.
영상 신호 제어 장치인 텔레비전(television : 이하 'TV'라 함)은 수신되는 방송 신호를 소정 신호 처리(디코딩, 증폭 등 포함)하고, 상기 소정 신호 처리된 방송 신호에 포함된 영상 데이터 및/또는 음성 데이터를 출력하는 장치이다.
특히 동작을 인식하고 인식된 동작을 근거로 TV의 동작을 제어하는 코그노 TV는 동작(또는, 제스처(gesture))의 경우에는 TV 소리와 상관이 없지만 음향 및/또는 음성 인식의 경우에는 TV 소리와의 상관 관계(correlation)가 높아 음향 및/또는 음성 인식률이 많이 낮아지게 된다.
또한, 일반적인 코그노 TV의 경우 레퍼런스로 이용할 수 있는 TV 소리에 대한 정보를 이용하여 시간 도메인(time domain)에서의 감소(subtraction) 방법, 스펙트럴 감소(spectral subtraction) 방법 등을 이용하여 음향 및/음성 인식을 수행하나, 레퍼런스로 이용되는 TV 소리와 음향 및/또는 음성 인식을 위해 사용되는 마이크 입력단에서의 TV 소리는 유사하지만 동일하지 않아 잡음에 해당하는 TV 소리를 정확하게 제거할 수 없게 되고 음향 및/또는 음성 신호도 일부 제거된다.
본 발명에서는 이러한 문제점을 해결하기 위해서 유사한 신호를 제거하기 위해 필터 계수를 적응(adaptation)할 수 있는 적응 필터(adaptive filter)를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하고 음향 및/또는 음성 인식을 수행하는 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법을 제공하는데 그 목적이 있다.
상기의 기술적 과제를 해결하기 위한 본 발명의 일 양태로서, 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 장치에 있어서, 상기 마이크를 통해 수신되는 신호를 미리 설정된 제1 차단 주파수를 근거로 필터링하는 제1 저역 통과 필터와, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 미리 설정된 제2 차단 주파수를 근거로 필터링하는 제2 저역 통과 필터와, 가산부/감산부의 출력 신호를 근거로 필터의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터의 출력 신호를 필터링하는 적응 필터와, 상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 가산부/감산부와, 및 상기 가산부/감산부로부터 출력되는 신호를 음성 인식하고, 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 제어부를 포함할 수 있다.
상기 마이크는, 카메라를 통해 수신되는 영상 정보 내에서 미리 설정된 물체의 움직임이 감지될 때, 상기 마이크를 통해 신호를 수신할 수 있다.
상기 제1 차단 주파수 또는 상기 제2 차단 주파수는, 8kHz일 수 있다.
상기 마이크를 통해 수신되는 신호는, 음향 신호, 음성 신호 및, 상기 스피커를 통해 출력되는 오디오 신호를 포함할 수 있다.
상기 제어부는, 상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 출력하거나 통신 연결된 임의의 단말에 전송할 수 있다.
상기 미리 설정된 물체의 움직임은, 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향으로의 슬라이딩 동작 및, 다각형을 그리는 동작 중 어느 하나를 포함할 수 있다.
상기 제어부는, 상기 스피커를 통해 출력되는 소리의 크기가 미리 설정된 크기 이상일 때, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 상기 물체의 움직임이 감지된 시점부터 제어할 수 있다.
상기 제어부는, 상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계(auto-correlation)를 수행할 수 있다.
본 발명의 다른 양태로서, 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 방법에 있어서, 카메라를 통해 수신되는 영상 정보에 포함된 물체의 움직임을 감지하는 단계와, 상기 감지된 물체의 움직임이 미리 설정된 움직임일 때, 상기 마이크를 통해 신호를 수신하는 단계와, 상기 마이크를 통해 수신되는 신호를 제1 저역 통과 필터를 통해 미리 설정된 제1 차단 주파수를 근거로 필터링하는 단계와, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 제2 저역 통과 필터를 통해 미리 설정된 제2 차단 주파수를 근거로 필터링하는 단계와, 가산부/감산부의 출력 신호를 근거로 적응 필터의 계수를 조정하고, 조정된 계수를 근거로 적응 필터를 통해 제2 저역 통과 필터의 출력 신호를 필터링하는 단계와, 상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 단계와, 상기 가산 또는 감산에 따른 출력 신호를 음성 인식하는 단계와, 및 상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계를 포함할 수 있다.
상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계는, 상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 프린터를 통해 출력하거나 또는, 통신 연결된 임의의 단말에 전송할 수 있다.
상기 스피커를 통해 출력되는 소리의 크기가 미리 설정된 크기 이상일 때, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 상기 물체의 움직임이 감지된 시점부터 제어하는 단계를 더 포함할 수 있다.
상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계하는 단계를 더 포함할 수 있다.
본 발명은 다음과 같은 효과가 있다.
첫째, 코그노 TV의 음향/음성 인식에서 적응 필터를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하여 음향 및/또는 음성 인식률을 높일 수 있다.
둘째, TV의 스피커의 출력 전의 디지털화된 신호를 레퍼런스 신호로 이용하여 적응 필터의 계수(coefficient)를 조정하여, TV 소리를 제거하고 음향 및/또는 음성 인식률을 높일 수 있다.
도 1은 본 발명의 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
이하의 실시예들은 본 발명의 구성 요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성 요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성 요소 또는 특징은 다른 구성 요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성 요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.
본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결" 되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.
또한, 본 명세서에서 기재한 모듈(module)이란 용어는 특정한 기능이나 동작을 처리하는 하나의 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현할 수 있다.
이하의 설명에서 사용되는 특정(特定) 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.
본 발명은 유사한 신호를 제거하기 위해 필터 계수를 적응할 수 있는 적응 필터를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하고 음향 및/또는 음성 인식을 수행하는 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법에 관한 것이다.
이하, 첨부된 도면들을 참조하여, 본 발명에 따른 실시예들에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치의 구성도이다.
본 발명의 일 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치(100)는, 입력부(110), 제1 저역 통과 필터(first low-pass filter)(120), 제2 저역 통과 필터(130), 적응 필터(140), 가산부/감산부(150) 및, 제어부(160)를 포함한다.
본 발명의 실시예에 따른 입력부(110)는 오디오 신호를 수신하기 위한 적어도 하나 이상의 마이크(미도시) 및/또는 비디오 신호를 수신하기 위한 적어도 하나 이상의 카메라(미도시)를 포함할 수 있다. 또한, 입력부(110)는 마이크를 통해 임의의 음향 신호(또는, 음향 정보) 및/또는 사용자의 음성 신호(또는, 사용자의 음성 정보)를 수신한다. 이때, 마이크를 통해 임의의 음향 신호 및/또는 사용자의 음성 신호를 수신하는 경우, 임의의 음향 신호 및/또는 사용자의 음성 신호 이외에도 스피커(300)를 통해 출력되는 TV의 오디오 신호가 함께 수신될 수 있다.
그리고 입력부(110)는 사용자에 의해 입력된 정보에 대응하는 신호를 수신하며, 키패드(Key Pad), 돔 스위치(Dome Switch), 조그셔틀, 마우스(mouse), 스타일러스 펜(Stylus Pen), 터치스크린(touch screen), 터치 패드(정압/정전), 터치 펜(Touch Pen) 등의 다양한 장치가 사용될 수 있다.
그리고 마이크는, 통화 모드, 녹음 모드, 음성 인식 모드, 영상 회의 모드, 영상 통화 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호(사용자의 음성(음성 신호 또는 음성 정보), 스피커(300)를 통해 출력되는 TV의 오디오 신호 등 포함)를 수신하여 전기적인 음성 데이터로 처리한다. 또한, 상기 처리된 음성 데이터(일 예로, 음향 신호, 음성 시호, TV의 오디오 신호 등에 대응하는 전기적인 음성 데이터 포함)는 스피커(300)를 통해 출력하거나 또는, 통신부(미도시)를 통하여 외부 단말기로 송신 가능한 형태로 변환되어 출력될 수 있다.
그리고 카메라는, 영상 통화 모드, 촬영 모드, 영상 회의 모드 등에서 이미지 센서(카메라 모듈 또는, 카메라)에 의해 얻어지는 정지영상(gif 형태, jpeg 형태 등 포함) 또는 동영상(wma 형태, avi 형태, asf 형태 등 포함) 등의 화상 프레임을 처리한다. 즉, 코덱(CODEC)에 따라 이미지 센서에 의해 얻어지는 해당 화상 데이터들을 각 규격에 맞도록 인코딩(부호화 : encoding)한다. 상기 처리된 화상 프레임은, 제어부(160)의 제어에 의해 디스플레이부(미도시)에 표시될 수 있다. 일 예로, 카메라는, 객체(또는, 피사체)(사용자 영상)를 촬영하고, 그 촬영된 영상(피사체 영상)에 대응하는 비디오 신호를 출력한다. 또한, 카메라에서 처리된 화상 프레임은, 저장부(미도시)에 저장되거나 통신부(미도시)를 통해 통신 연결된 임의의 외부 단말기에 전송될 수 있다.
즉, 입력부(110)는 마이크 및/또는 카메라를 통해 멀티미디어 정보를 수신한다. 여기서, 멀티미디어 정보(또는, 데이터 스트림)는, 마이크를 통해 수신되는 음향 정보, 음성 정보, 스피커(300)를 통해 출력되는 오디오 정보 및, 카메라를 통해 수신되는(또는, 촬상되는) 영상 정보(video information/image information : 정지 영상, 동영상 등 포함) 등을 포함한다.
본 발명의 실시예에 따른 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신된 데이터(음향 신호, 음성 신호, TV의 오디오 신호 중 하나 이상 포함)를 미리 설정된 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다. 또한, 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신된 데이터에 포함된 잡음을 제거하기 위한 다양한 잡음 제거 알고리즘을 적용할 수도 있다.
본 발명의 실시예에 따른 제2 저역 통과 필터(130)는 TV에 포함된 디코더(미도시) 또는 제어부(160)의 제어에 의해 임의의 방송 신호에 포함된 오디오 데이터를 디코딩하고, 상기 디코딩된 오디오 데이터를 미리 설정된 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다. 여기서, 디코딩된 오디오 데이터는 음향/음성 인식을 위한 잡음 제거 장치(100)에서의 레퍼런스 신호로 이용되며, 디지털화된 신호(digitized signal)이다. 또한, 디코딩된 오디오 데이터는 오디오 증폭부(200)를 통해 증폭되고, 증폭된 오디오 데이터는 스피커(300)를 통해 출력된다.
본 발명의 실시예에 따른 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정(또는, 업데이트)하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)의 출력 신호를 필터링하여 출력한다. 즉, 적응 필터(140)는 적응 필터(140)에 입력되는 신호 또는 시스템 파라미터가 변하는 경우, 자가 학습(self-learning)을 통해 필터의 계수를 조정하고, 조정된 계수를 이용하여 제2 저역 통과 필터(130)의 출력 신호를 필터링한다.
그리고 적응 필터(140)는 최소 평균 제곱(Least Mean Square : LMS) 알고리즘을 이용하여 필터의 계수를 조정한다. 즉, 적응 필터(140)는 아래 기재되는 수학식들을 이용하여 필터의 계수를 최적화시킨다.
가산부/감산부(150)로부터 출력되는 신호(또는, 에러 신호)는 다음과 같이 표현된다.
Figure pat00001
여기서, e(n)은 가산부/감산부(150)로부터 출력되는 에러 신호를 나타내고, d(n)은 제1 저역 통과 필터의 출력 신호를 나타내고, y(n)은 적응 필터(140)의 출력 신호를 나타낸다.
또한, y(n)은 다음의 수학식으로 표현된다.
Figure pat00002
여기서, w(n, k)는 필터의 계수(coefficient)를 나타내고, x(n-k)는 제2 저역 통과 필터(130)에 의해 필터링된 디지털화된 오디오 신호(또는, 레퍼런스 신호로 이용되는 디코딩된 오디오 데이터)를 나타낸다.
[수학식 1]에 대해 최소 평균 제곱 알고리즘을 적용하면, 다음의 수학식으로 표현된다.
Figure pat00003
여기서, E[]은 평균을 나타낸다.
웨이트(weight)가 1인 경우를 예를 들어 설명하며, [수학식 2]를 [수학식 3]에 대입하여 정리하면, 다음의 수학식으로 표현된다.
Figure pat00004
여기서, A=E[d2(n)], β=E[d(n)x(n)], C=E[x2(n)]이라 하면, [수학식 4]는 다음과 같이 표현된다.
Figure pat00005
[수학식 5]를 w(0)에 대해서 미분하면 다음의 값을 얻는다.
Figure pat00006
즉, [수학식 6]의 경우일 때, [수학식 5]는 최소값을 가지게 되고, d(n)으로 표시되는 제1 저역 통과 필터의 출력 신호와 y(n)으로 표시되는 적응 필터(140)의 출력 신호 간의 간섭이 최소화되는 경우이다.
또한, 다음 웨이트는 다음의 수학식으로 표현된다. 다음 웨이트에 의해 이전 웨이트는 대체된다.
Figure pat00007
본 발명의 실시예에 따른 가산부/감산부(150)는 제1 저역 통과 필터(120)로부터 출력된 데이터(일 예로, 음향 신호, 음성 신호, TV의 오디오 신호 등에 대응하는 전기적인 음성 데이터 포함)와 적응 필터(140)로부터 출력된 데이터(일 예로, 레퍼런스 신호에 해당하는 TV의 오디오 신호 등 포함)를 가산(또는, 감산)하여 입력부(110)를 통해 수신한 데이터에 포함된 TV의 오디오 신호를 제거한다. 그리고 가산부/감산부(150)는 가산부/감산부(150)의 출력을 적응 필터(140) 또는 제어부(160)에 전달한다.
본 발명의 실시예에 따른 제어부(160)는 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터(또는, 신호)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과를 근거로 임의의 기능(또는, 동작)을 수행하도록 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV를 제어한다.
그리고 제어부(160)는 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터로부터 특징 벡터를 추출하고, 추출된 특징 벡터를 근거로 화자를 인식한다. 이때, 특징 벡터의 추출 기술들로는 LSF(Line Spectral Frequencies), 주파수 대역별 에너지(Filter Bank Energy), 켑스트럼(Cepstrum), MFCC(Mel Frequency Cepstral Coefficients), 선형예측계수(LPC : Linear Predictive Coefficient) 등이 있다. 또한, 제어부(160)는 추출된 특징 벡터를 근거로 추출된 특징 벡터와 저장부(미도시)에 미리 저장된 하나 이상의 화자 모델 사이의 확률값을 계산하고, 계산된 확률값을 근거로 저장부에 기등록된 화자인지 아닌지 여부를 판단하는 화자 식별(Speaker Identification)이나, 올바른 사용자의 접근인지를 판단하는 화자 검증(Speaker Verification)을 수행한다. 즉 제어부(160)는 저장부에 미리 저장된 다수의 화자 모델들에 대한 최우추정법(Maximum Likelihood Estimation)을 수행한 결과, 가장 높은 확률 값을 갖는 화자 모델을 상기 음성을 발성한 화자로 선택하게 된다. 또한, 상기 수행 결과 가장 높은 확률 값이 기설정된 임계값보다 작거나 같은 경우에는 저장부에 기등록된 화자들 중에서는 상기 음성을 발성한 화자가 없는 것으로 판단하여, 상기 음성을 발성한 화자에 대해서는 화자 식별 결과 기등록된 화자가 아닌 것으로 판단하게 된다. 또한, 화자 검증의 경우에는, 로그 우도비(LLR : Log-Likelihood Ratio) 방법을 이용하여 올바른 화자 인지 여부를 판별하게 된다. 그리고 제어부(160)는 기등록된 화자가 아닌 것으로 판단한 경우, 추출된 특징 벡터를 근거로 화자 모델을 새로 생성한다. 이때, 제어부(160)는 신경망(Neural Network), GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 등을 이용하여 상기 화자 모델을 생성하게 된다. 또한, 제어부(160)는 추출된 특징 벡터를 근거로 EM(Expectation Maximazation) 알고리즘을 이용하여 화자 모델인 GMM을 생성할 수도 있다. 그리고 제어부(160)는 추출된 특징 벡터를 근거로 EM 알고리즘을 이용하여 UBM(Universal Background Model)을 생성하고, 생성된 UBM에 대해 저장부에 미리 저장된 적응 알고리즘(Adaptation Algorithm)을 수행하여 발성한 화자에 적응된 화자 모델 즉, GMM을 생성할 수 있다. 이때, 저장부에 미리 저장된 적응 알고리즘은, MAP(Maximum A Posteriori), MLLR(Maximum Likelihood Linear Regression) 또는, 아이겐보이스(Eigenvoice) 방법 등을 포함할 수 있다.
그리고 제어부(160)는 음성 인식된 데이터에 대해서 자연어 처리 과정(Natural Language Processing)을 수행하고, 상기 음성 인식된 데이터에 대한 자연어 처리 수행 결과를 근거로 임의의 기능(또는, 동작)을 수행하도록 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV를 제어할 수 있다.
그리고 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보(또는, 영상 신호)를 근거로 영상 정보에 포함된 임의의 물체(일 예로, 사용자)의 움직임이 기설정된 움직임에 해당될 때, 상기 구성 요소들(110, 120, 130, 140, 150)을 이용하여 입력부(110)에서 마이크를 통해 수신된 임의의 음향 신호, 사용자의 음성 신호, 스피커(300)를 통해 출력되는 TV의 오디오 신호 중 하나 이상을 포함하는 오디오 데이터에 포함된 TV의 오디오 신호를 제거하도록 구성할 수도 있다. 여기서, 사용자의 기설정된 움직임은 팔(또는, 손)을 이용하여 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 상하/좌우/대각선으로 선을 그리는 동작(또는, 임의의 방향으로의 슬라이딩 동작), 뫼비우스의 띠(또는, 8 모양)를 그리는 동작, 다각형을 그리는 동작 등을 포함할 수 있다.
그리고 제어부(160)는 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터(또는, 신호)를 근거로 음성 인식 과정을 수행하고, 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 TV의 디스플레이부(미도시)의 임의의 위치(또는, 좌표)에 대응시키고, 상기 음성 인식 수행 결과를 근거로 상기 대응된 좌표 상에 위치한 임의의 메뉴의 기능을 수행하거나, 상기 대응된 좌표 상에 위치한 임의의 화면을 출력하거나 또는, 통신 연결된 임의의 단말에 전송한다.
그리고 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보(또는, 영상 신호)를 근거로 영상 정보에 포함된 임의의 물체(일 예로, 사용자)의 움직임을 감지하고, 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터(또는, 신호)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 결과와 상기 감지된 물체의 움직임을 근거로 상기 음성 인식 결과에 대응하는 TV의 기능/동작(일 예로, 채널, 볼륨, 뮤트(mute), 환경(파라미터) 등 포함)을 상기 감지된 물체의 움직임에 대응하여 미리 설정된 기능/동작(일 예로, 업/다운, 기능 수행, 정지 등 포함)을 수행하도록 제어한다.
그리고 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보를 근거로 영상 정보에 포하된 임의의 물체의 움직임이 기설정된 움직임에 해당될 때, 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 채널 변경 기능, 볼륨 조절 기능, 뮤트(mute) 기능, TV의 환경(파라미터) 설정 기능 등을 수행하도록 제어할 수 있다. 여기서, 사용자의 기설정된 움직임은 팔(또는, 손)을 이용하여 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 상하/좌우/대각선으로 선을 그리는 동작(또는, 임의의 방향으로의 슬라이딩 동작), 뫼비우스의 띠(또는, 8 모양)를 그리는 동작, 다각형을 그리는 동작 등을 포함할 수 있다.
그리고 제어부(160)는 스피커를 통해 출력되는 소리의 크기가 미리 설정된 크기 이상일 때, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 상기 물체의 움직임이 감지된 시점부터 제어한다.
그리고 제어부(160)는 음성/음향 인식 구간을 찾기 위해서, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계(auto-correlation)를 수행한다.
본 발명의 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치(100)는 물체의 움직임을 감지하기 위해서 앞서 기재된 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 이용할 수도 있고, 물체의 움직임을 감지하는 동작 인식 센서(Motion Recognition Sensor)를 추가로 포함할 수도 있다. 여기서, 동작 인식 센서는 물체의 움직임이나 위치를 인식하는 센서, 지자기 센서(Geomagnetism Sensor), 가속도 센서(Acceleration Sensor), 자이로 센서(Gyro Sensor), 관성 센서(Inertial Sensor), 고도계(Altimeter), 진동 센서 등의 센서를 포함하며, 동작 인식에 관련된 센서들이 추가로 포함될 수 있다. 또한, 동작 인식 센서는 물체의 기울어진 방향, 기울어진 각도 및/또는 상기 기울어지는 속도, 상하/좌우/대각선 등의 방향으로의 진동 방향 및/또는 진동 횟수 등을 포함하는 정보를 감지한다. 여기서, 상기 감지되는 정보들(기울어진 방향, 기울어진 각도 및/또는 상기 기울어지는 속도, 진동 방향 및/또는 진동 횟수)은 디지털 신호 처리 과정을 통해 디지털화되어, 상기 디지털화된 정보들이 제어부(160)에 전달된다.
이와 같이, 유사한 신호를 제거하기 위해 필터 계수를 적응할 수 있는 적응 필터를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하고 음향 및/또는 음성 인식을 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
이하에서는 도 1 및 도 2를 이용하여 본 도면을 설명하도록 한다.
먼저 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다. 여기서, 마이크를 통해 수신되는 데이터는, 음향 신호, 음성 신호 및, TV의 스피커를 통해 출력되는 오디오 신호 등을 포함한다(S110).
그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S120).
그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S130).
그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S140).
그리고 제어부(160)는 가산부/감산부(150)의 출력 신호(일 예로, 마이크를 통해 수신되는 신호 중에서 TV 스피커(300)의 출력 오디오 신호가 제거된 음향 신호 및/또는 음성 신호)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과를 근거로 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 임의의 기능/동작 제어를 수행한다.
예를 들어, 제어부(160)는 가산부/감산부(150)의 출력 신호("화면 프린트"라는 음성 신호 포함)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과인 "화면 프린트"라는 내용을 근거로 TV의 디스플레이부에 표시되는 화면을 TV에 연결된 프린터(미도시)에 출력하도록 TV와 프린터를 제어한다(S150).
도 3은 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.
이하에서는 도 1 및 도 3을 이용하여 본 도면을 설명하도록 한다.
먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 감지하고, 감지된 물체의 움직임이 미리 설정된 움직임에 해당될 때, 입력부(110)에 포함된 마이크를 통해 데이터를 수신한다. 여기서, 마이크를 통해 수신되는 데이터는, 음향 신호, 음성 신호 및, TV의 스피커를 통해 출력되는 오디오 신호 등을 포함한다. 또한, 미리 설정된 움직임은 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향(일 예로, 상하 방향, 좌우 방향, 대각선 방향 등 포함)으로의 슬라이딩 동작 및, 다각형을 그리는 동작 등을 포함한다(S210).
그리고 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다(S220).
그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S230).
그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S240).
그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S250).
그리고 제어부(160)는 가산부/감산부(150)의 출력 신호(일 예로, 마이크를 통해 수신되는 신호 중에서 TV 스피커(300)의 출력 오디오 신호가 제거된 음향 신호 및/또는 음성 신호)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과를 근거로 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 임의의 기능/동작 제어를 수행한다.
예를 들어, 제어부(160)는 가산부/감산부(150)의 출력 신호("화면 전송"이라는 음성 신호 포함)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과인 "화면 전송"이라는 내용을 근거로 TV의 디스플레이부에 표시되는 화면을 TV에 포함된 통신부(미도시)와 통신 연결된 임의의 단말(미도시)에 전송한다(S260).
도 4는 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.
이하에서는 도 1 및 도 4를 이용하여 본 도면을 설명하도록 한다.
먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임(또는, 위치)을 감지하고, 감지된 물체의 움직임을 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 디스플레이부(미도시)의 임의의 위치(또는, 좌표)에 대응(또는, 매핑(mapping))시킨다.
예를 들어, 제어부(160)는 카메라를 통해 수신되는 영상 정보 내의 사용자의 손의 위치 정보를 감지하고, 감지된 손의 위치 정보를 TV의 디스플레이부의 위치(좌표)에 대응시킨다(S310).
그리고 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다(S320).
그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S330).
그리고 적응 필터(140)는 그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S340).
그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S350).
그리고 제어부(160)는 가산부/감산부(150)의 출력 신호(일 예로, 마이크를 통해 수신되는 신호 중에서 TV 스피커(300)의 출력 오디오 신호가 제거된 음향 신호 및/또는 음성 신호)를 근거로 음성 인식 과정을 수행한다(S360).
그리고 제어부(160)는 상기 음성 인식 수행 결과와 상기 TV의 디스플레이부의 임의의 위치(좌표)에 대응하는 화면을 근거로 임의의 기능/동작을 수행하도록 TV를 제어한다.
예를 들어, 제어부(160)는 가산부/감산부(150)의 출력 신호("화면 프린트"라는 음성 신호 포함)와 상기 TV의 디스플레이부의 임의의 위치(좌표)에 대응하는 화면(일 예로, 복수의 분할된 화면 중 제1 화면)을 근거로 TV의 디스플레이부에 표시되는 화면(일 예로, 상기 제1 화면)을 TV에 연결된 프린터(미도시)에 출력하도록 TV와 프린터를 제어한다(S370).
도 5는 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.
이하에서는 도 1 및 도 5를 이용하여 본 도면을 설명하도록 한다.
먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 감지한다(S410).
그리고 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다(S420).
그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S430).
그리고 적응 필터(140)는 그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S440).
그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S450).
그리고 제어부(160)는 가산부/감산부(150)의 출력 신호(일 예로, 마이크를 통해 수신되는 신호 중에서 TV 스피커(300)의 출력 오디오 신호가 제거된 음향 신호 및/또는 음성 신호)를 근거로 음성 인식 과정을 수행한다(S460).
그리고 제어부(160)는 상기 음성 인식 수행 결과와 상기 감지된 물체의 움직임을 근거로 임의의 기능/동작을 수행하도록 TV를 제어한다. 여기서, 상기 음성 인식 수행 결과에는, TV의 임의의 기능/동작에 대응하는 메시지(예를 들어, 채널, 볼륨, 뮤트 및, 환경(파라미터) 등 포함)가 포함된다.
일 예로, 제어부(160)는 상기 음성 인식 수행 결과에 '채널'이 포함되고 상기 감지된 물체의 움직임이 미리 설정된 반시계 방향으로 원을 그리는 동작인 경우, TV의 채널을 한 단계 감소시킨다.
다른 일 예로, 제어부(160)는 상기 음성 인식 수행 결과에 '뮤트'가 포함되고 상기 감지된 물체의 움직임이 미리 설정된 대각선 방향으로의 슬라이딩 동작인 경우, TV의 뮤트 기능을 수행한다(S470).
도 6은 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.
이하에서는 도 1 및 도 6을 이용하여 본 도면을 설명하도록 한다.
먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 감지한다(S510).
그리고 제어부(160)는 감지된 물체의 움직임이 미리 설정된 움직임에 해당되는지 판단한다. 여기서, 미리 설정된 움직임은 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향(일 예로, 상하 방향, 좌우 방향, 대각선 방향 등 포함)으로의 슬라이딩 동작 및, 다각형을 그리는 동작 등을 포함한다(S520).
상기 판단 결과, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 움직임에 해당되는 경우, 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 미리 설정된 기능을 제어한다. 즉, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 움직임에 해당되는 경우, TV의 채널 변경 기능, 볼륨 조절 기능, 뮤트 기능 및, 환경(또는, 파라미터) 설정 기능 중 어느 하나의 기능을 수행한다.
일 예로, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 시계 방향으로 원을 그리는 동작인 경우, TV의 볼륨을 한 단계 증가시킨다.
다른 일 예로, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 위에서 아래 방향으로의 슬라이딩 동작인 경우, TV의 채널을 한 단계 감소시킨다(S530).
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있다.
본 발명에 따른 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법은, 예를 들어, 필터 계수를 적응할 수 있는 적응 필터를 이용하여 유사한 신호를 제거하는 분야에는 어디든 적용가능하다.
100 : 잡음 제거 장치 110 : 입력부
120 : 제1 저역 통과 필터 130 : 제2 저역 통과 필터
140 : 적응 필터 150 : 가산부/감산부
160 : 제어부

Claims (14)

  1. 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 장치에 있어서,
    상기 마이크를 통해 수신되는 신호를 미리 설정된 제1 차단 주파수를 근거로 필터링하는 제1 저역 통과 필터;
    TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 미리 설정된 제2 차단 주파수를 근거로 필터링하는 제2 저역 통과 필터;
    가산부/감산부의 출력 신호를 근거로 필터의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터의 출력 신호를 필터링하는 적응 필터;
    상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 가산부/감산부; 및
    상기 가산부/감산부로부터 출력되는 신호를 음성 인식하고, 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 제어부;를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  2. 제1항에 있어서,
    상기 마이크는,
    카메라를 통해 수신되는 영상 정보 내에서 미리 설정된 물체의 움직임이 감지될 때, 상기 마이크를 통해 신호를 수신하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  3. 제1항에 있어서,
    상기 제1 차단 주파수 또는 상기 제2 차단 주파수는,
    8kHz인 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  4. 제2항에 있어서,
    상기 마이크를 통해 수신되는 신호는,
    음향 신호, 음성 신호 및, 상기 스피커를 통해 출력되는 오디오 신호를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  5. 제1항에 있어서,
    상기 제어부는,
    상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 출력하거나 통신 연결된 임의의 단말에 전송하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  6. 제2항에 있어서,
    상기 미리 설정된 물체의 움직임은,
    시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향으로의 슬라이딩 동작 및, 다각형을 그리는 동작 중 어느 하나를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  7. 제2항에 있어서,
    상기 제어부는,
    상기 물체의 움직임이 감지된 시점부터, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 제어하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  8. 제2항에 있어서,
    상기 제어부는,
    상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계(auto-correlation)를 수행하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
  9. 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 방법에 있어서,
    카메라를 통해 수신되는 영상 정보에 포함된 물체의 움직임을 감지하는 단계;
    상기 감지된 물체의 움직임이 미리 설정된 움직임일 때, 상기 마이크를 통해 신호를 수신하는 단계;
    상기 마이크를 통해 수신되는 신호를 제1 저역 통과 필터를 통해 미리 설정된 제1 차단 주파수를 근거로 필터링하는 단계;
    TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 제2 저역 통과 필터를 통해 미리 설정된 제2 차단 주파수를 근거로 필터링하는 단계;
    가산부/감산부의 출력 신호를 근거로 적응 필터의 계수를 조정하고, 조정된 계수를 근거로 적응 필터를 통해 제2 저역 통과 필터의 출력 신호를 필터링하는 단계;
    상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 단계;
    상기 가산 또는 감산에 따른 출력 신호를 음성 인식하는 단계; 및
    상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계;를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
  10. 제9항에 있어서,
    상기 마이크를 통해 수신되는 신호는,
    음향 신호, 음성 신호 및, 상기 스피커를 통해 출력되는 오디오 신호를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
  11. 제9항에 있어서,
    상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계는,
    상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 프린터를 통해 출력하거나 또는, 통신 연결된 임의의 단말에 전송하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
  12. 제9항에 있어서,
    상기 미리 설정된 물체의 움직임은,
    시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향으로의 슬라이딩 동작 및, 다각형을 그리는 동작 중 어느 하나를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
  13. 제9항에 있어서,
    상기 물체의 움직임이 감지된 시점부터 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 제어하는 단계;를 더 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
  14. 제9항에 있어서,
    상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계하는 단계;를 더 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
KR1020100134080A 2010-12-23 2010-12-23 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법 KR20120072243A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100134080A KR20120072243A (ko) 2010-12-23 2010-12-23 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법
US13/326,768 US20120166190A1 (en) 2010-12-23 2011-12-15 Apparatus for removing noise for sound/voice recognition and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100134080A KR20120072243A (ko) 2010-12-23 2010-12-23 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20120072243A true KR20120072243A (ko) 2012-07-03

Family

ID=46318141

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100134080A KR20120072243A (ko) 2010-12-23 2010-12-23 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20120166190A1 (ko)
KR (1) KR20120072243A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9781240B2 (en) 2014-08-12 2017-10-03 Samsung Electronics Co., Ltd. Method and user terminal for performing call using voice recognition
WO2019083130A1 (ko) * 2017-10-25 2019-05-02 삼성전자주식회사 전자 장치 및 그 제어 방법
KR101970731B1 (ko) * 2017-12-06 2019-05-17 주식회사 열림기술 인공지능 스피커 및 이의 제어 방법
WO2022059825A1 (ko) * 2020-09-21 2022-03-24 엘지전자 주식회사 제어장치 및 이를 포함하는 시스템

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5949421B2 (ja) * 2012-10-11 2016-07-06 富士通株式会社 情報処理装置、実行優先度変更方法およびプログラム
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
US20140285326A1 (en) * 2013-03-15 2014-09-25 Aliphcom Combination speaker and light source responsive to state(s) of an organism based on sensor data
US9697700B2 (en) 2013-11-20 2017-07-04 Honeywell International Inc. Ambient condition detector with processing of incoming audible commands followed by speech recognition
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
CN104658535A (zh) * 2015-02-26 2015-05-27 深圳市中兴移动通信有限公司 语音控制方法及装置
US9917565B2 (en) * 2015-10-20 2018-03-13 Bose Corporation System and method for distortion limiting
JP6199461B1 (ja) * 2016-09-13 2017-09-20 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
KR20180036032A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 영상처리장치 및 기록매체
CN106874833B (zh) * 2016-12-26 2021-05-28 中国船舶重工集团公司第七一0研究所 一种振动事件的模式识别方法
CN109218791A (zh) * 2017-06-30 2019-01-15 青岛海尔多媒体有限公司 一种电视机顶盒的语音控制方法、电视机及语音遥控设备
CN110493616B (zh) * 2018-05-15 2021-08-06 中国移动通信有限公司研究院 一种音频信号处理方法、装置、介质和设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9522204D0 (en) * 1995-10-30 1996-01-03 British Broadcasting Corp Method and apparatus for reduction of unwanted feedback
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
JP3607625B2 (ja) * 2001-02-08 2005-01-05 日本電信電話株式会社 多チャネル反響抑圧方法、その装置、そのプログラム及びその記録媒体
JP3664092B2 (ja) * 2001-03-27 2005-06-22 松下電工株式会社 遠隔制御システムのシステム間インタフェース
JP2004350992A (ja) * 2003-05-29 2004-12-16 Sony Corp テレビゲームシステム
JP4916394B2 (ja) * 2007-07-03 2012-04-11 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9781240B2 (en) 2014-08-12 2017-10-03 Samsung Electronics Co., Ltd. Method and user terminal for performing call using voice recognition
WO2019083130A1 (ko) * 2017-10-25 2019-05-02 삼성전자주식회사 전자 장치 및 그 제어 방법
US11282535B2 (en) 2017-10-25 2022-03-22 Samsung Electronics Co., Ltd. Electronic device and a controlling method thereof
KR101970731B1 (ko) * 2017-12-06 2019-05-17 주식회사 열림기술 인공지능 스피커 및 이의 제어 방법
WO2022059825A1 (ko) * 2020-09-21 2022-03-24 엘지전자 주식회사 제어장치 및 이를 포함하는 시스템

Also Published As

Publication number Publication date
US20120166190A1 (en) 2012-06-28

Similar Documents

Publication Publication Date Title
KR20120072243A (ko) 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US9324322B1 (en) Automatic volume attenuation for speech enabled devices
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP2987316B1 (en) Echo cancellation
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US9437188B1 (en) Buffered reprocessing for multi-microphone automatic speech recognition assist
JP6844608B2 (ja) 音声処理装置および音声処理方法
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
CN106098078B (zh) 一种可过滤扬声器噪音的语音识别方法及其系统
US10529331B2 (en) Suppressing key phrase detection in generated audio using self-trigger detector
KR20200132613A (ko) 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
CN110390953B (zh) 啸叫语音信号的检测方法、装置、终端及存储介质
WO2014194011A1 (en) Echo removal
KR20240017404A (ko) 탠덤 네트워크들을 사용한 잡음 억제
CN114911449A (zh) 音量控制方法、装置、存储介质和电子设备
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
WO2017166495A1 (zh) 一种语音信号处理方法及装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
EP3871214B1 (en) Audio pipeline for simultaneous keyword spotting, transcription, and real time communications
JP2019020678A (ja) ノイズ低減装置および音声認識装置
US9282279B2 (en) Quality enhancement in multimedia capturing
KR20200062320A (ko) 생기의 검출

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid