KR20090098891A - 강인한 언어 활동 검출 방법 및 장치 - Google Patents
강인한 언어 활동 검출 방법 및 장치 Download PDFInfo
- Publication number
- KR20090098891A KR20090098891A KR1020097014749A KR20097014749A KR20090098891A KR 20090098891 A KR20090098891 A KR 20090098891A KR 1020097014749 A KR1020097014749 A KR 1020097014749A KR 20097014749 A KR20097014749 A KR 20097014749A KR 20090098891 A KR20090098891 A KR 20090098891A
- Authority
- KR
- South Korea
- Prior art keywords
- language
- robust
- speech
- signals
- input signal
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 13
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 238000012935 Averaging Methods 0.000 claims abstract description 7
- 238000004891 communication Methods 0.000 claims description 41
- 230000001755 vocal effect Effects 0.000 claims 3
- 238000005311 autocorrelation function Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
강인한 언어 활동 검색 방법 및 장치가 개시된다. 상기 방법은 차수 통계학적 필터링을 이용하여 입력 신호들을 필터링함으로써 자기 상관들을 계산하는 단계(3200), 시간 기간 동안 상기 자기 상관들을 평균화하는 단계(3300), 상기 평균화된 자기 상관들로부터 음성 언어 특징 획득하는 단계(3400), 상기 획득된 음성 언어 특징에 기초하여 언어 및 비-언어 중 하나로 상기 입력 신호 분류하는 단계(3500), 상기 언어/비-언어 분류 정보와 함께 상기 입력 신호들 또는 분류된 언어 신호들만을 자동 언어 인식기로 출력하는 단계(3600)를 포함한다.
강인한 언어 활동 검색, 차수 통계학적 필터링, 자기 상관, 음성 언어 특징, 자동 언어 인식기
Description
본 발명은 전자 디바이스들에서 언어 검출에 관한 것이다.
ASR(automatic speech recognition), 언어 코딩, 화자 식별/인증 등과 같은 많은 언어-관련 기술들 및 시스템들의 효율성은 주로 잡음으로부터(또는 일반적으로 비-언어로부터) 언어를 구별하는 능력에 의존한다. ASR 시스템에서, 잡음 환경에서 언어 인식 정확성은 비-언어로부터 언어를 구별하기 위한 시스템의 능력에 크게 영향을 받는다. 인식에 영향을 주는 잡음은 예를 들어, 이용자를 둘러싸는 주변 및 음향 배경 잡음 또는 통신 시스템 자체에서 발생되는 전자 특성의 잡음일 수 있다. 이 잡음은 자동차의 GPS(global positioning system), 언어 제어 전화들 및 스테레오들 등과 같은 언어 인식에 의존하는 많은 전자 디바이스들에 영향을 준다. 시나리오를 구동할 때, 예를 들어, 사람이 말을 하고, 스테레오가 온(on)되고, 및/또는 창문이 내려져 있으면, 통상의 언어 인식 시스템은 언어 및 배경 잡음 간의 구분에 어려운 시간을 겪는다.
강인한 언어 활동 검출(robust speech activity detection) 방법 및 시스템이 개시된다. 상기 방법은 차수 통계학적 필터링을 이용하여 입력 신호들을 필터링함으로써 자기 상관들을 계산하는 단계, 시간 기간 동안 상기 자기 상관들을 평균화하는 단계, 상기 평균화된 자기 상관들로부터 음성 언어 특징 획득하는 단계, 상기 획득된 음성 언어 특징에 기초하여 언어 및 비-언어 중 하나로 상기 입력 신호 분류하는 단계, 및 상기 언어/비-언어 분류 정보와 함께 상기 입력 신호들 또는 분류된 언어 신호들만을 자동 언어 인식기로 출력하는 단계를 포함한다.
본 발명의 상기한 및 다른 이점들 및 특징들이 얻어지는 방법을 기술하기 위해, 상기 간략히 기술된 본 발명의 보다 특정한 기술이 첨부된 도면들에 에시된 특정한 실시예들을 참조하여 주어질 것이다. 이들 도면들이 본 발명의 전형적인 실시예들만을 도시하고 따라서 발명의 범위를 제한하는 것으로 고려되지 않는다는 것이 이해되고, 본 발명은 첨부된 도면을 이용하여 부가적인 전문성 및 상세들과 함께 기술되고 설명될 것이다.
도 1은 본 발명의 가능한 실시예에 따른 통신 네트워크에서 동작하는 강인한 언어 활동 검출기의 예시적 도면.
도 2는 본 발명의 가능한 실시예에 따른 강인한 언어 활동 검출기를 갖는 예시적 무선 통신 디바이스의 블록도.
도 3은 본 발명의 가능한 실시예에 따른 하나의 가능한 강인한 언어 활동 검출 프로세스를 도시하는 흐름도.
본 발명의 부가적인 특징들 및 이점들은 이하에 기술되고, 일부는 상기 기술로부터 명백해지고, 또는 본 발명의 실행에 의해 학습된다. 본 발명의 특징들 및 이점들은 첨부된 청구항에 특별히 언급된 기구들 및 조합들에 의해 실현되고 얻어질 수 있다. 본 발명의 이들 및 다른 특징들은 이하의 기술들 및 첨부된 청구항으로부터 보다 완전히 이해되고, 또는 본원에 언급된 대로 본 발명의 실행에 의해 학습될 수 있다.
본 발명의 다양한 실시예들이 이하 기술된다. 특정한 구현들이 논의되지만, 이들은 예시적인 목적으로만 이루어진 것을 이해해야 한다. 당업자는 다른 구성들 및 구성요소들이 본 발명의 정신 및 범위를 벗어나지 않고 이용될 수 있다는 것을 인식할 것이다.
본 발명은 방법 및 장치와 같은 다양한 실시예들 및 본 발명의 기본 개념과 관련된 다른 실시예들을 포함한다.
본 발명은 음성 언어 검출 프로세스(voiced speech detection process)에 기초한 강인한 언어 활동 검출에 관한 것이다. 본 발명의 주 모티브들 및 가정들은:
- 언어의 주기적 음성 부분들은 잡음 환경들에서 매우 강인하다
- 많은 실제 잡음들은 주기적 행동을 보이지 않는다는 것이다.
결론적으로, 파형의 세그먼트 내 전형적인 사람의 기본 주파수 F0(또한 피치(pitch)로 알려져 있음)의 범위 내 주기성의 양은 언어의 존재 및 부재를 나태낼 수 있고 따라서 많은 실제 잡음 상황에서 강인한 특징을 제공할 수 있다.
도 1은 본 발명의 가능한 실시예에 따른 통신 네트워크 환경(100)에서 동작 하는 강인한 언어 활동 검출기(120)의 예시적 도면이다. 특히, 상기 통신 네트워크 환경(100)은 통신 네트워크(110), 무선 통신 디바이스(140), 통신 서비스 플랫폼(150), 및 무선 통신 디바이스에 결합된 강인한 언어 활동 검출기(130)를 포함한다. 통신 네트워크(110)는 무선 전화 네트워크, 셀룰러 네트워크, 유선 전화 네트워크 인터넷, 무선 컴퓨터 네트워크, 인트라넷 위성 무선 네트워크 등을 포함하는 당업자에게 공지된 임의의 네트워크를 나타낸다. 무선 통신 디바이스들(120, 140)은 무선 전화, 유선 전화, 개인용 컴퓨터, 휴대용 라디오, PDA(personal digital assistant), MP3 플레이어, 위성 라디오, 위성 텔레비전, GPS(global positioning system) 수신기 등을 나타낸다.
상기 통신 네트워크(100)는 무선 통신 디바이스(120)로 하여금 무선 통신 디바이스(140)와 같은, 다른 무선 통신 디바이스들과 통신하도록 할 수 있다. 대안적으로, 무선 통신 디바이스(120)는 미디어 콘텐트, 네비게이션, 디렉토리 정보 등의 서비스들을 GPS 디바이스, 위성 라디오, MP3 플레이어, PDA, 라디오, 위성 텔레비전 등에 제공할 수 있는 통신 서비스 플랫폼(150)으로 통신 네트워크(110)로 통신할 수 있다.
도 2는 본 발명의 가능한 실시예에 따른 강인한 언어 활동 검출기(130)를 갖는 예시적 무선 통신 디바이스(120)의 블록도를 도시한다. 상기 예시적인 무선 통신 디바이스(120)는 버스(210), 프로세서(220), 메모리(230), 안테나(240), 트랜스시버(250), 통신 인터페이스(260), 자동 언어 인식기(270), 및 강인한 언어 활동 검출기(130)를 포함한다. 버스(210)는 상기 무선 통신 디바이스(120)의 구성요소들 사이의 통신을 허용한다.
프로세서(220)는 적어도 하나의 통상의 프로세서 또는 명령들을 해석 및 실행하는 마이크로프로세서를 포함할 수 있다. 메모리(230)는 RAM(random access memory) 또는 프로세서(220)에 의한 실행을 위해 정보 및 명령들을 저장하는 동적 저장 디바이스의 다른 타입일 수 있다. 메모리(230)는 또한 전형적인 ROM(read-only memory)디바이스 또는 프로세서(220)를 위한 정적 정보 및 명령들을 저장하는 정적 저장 디바이스의 다른 타입을 포함할 수 있는 ROM을 포함할 수 있다.
트랜스시버(250)는 하나 이상의 송신기들 및 수신기들을 포함할 수 있다. 상기 트랜스시버(250)는 임의의 네트워크 또는 통신 기지국과 인터페이스하도록 충분한 기능을 포함할 수 있고 당업자에게 공지된 방식으로 하드웨어 또는 소프트웨어에 의해 규정될 수 있다. 상기 프로세서(220)는 상기 통신 네트워크(110) 내의 동작들을 지원하기 위해 상기 트랜스시버(250)와 협조적으로 동작가능하다.
통신 인터페이스(260)는 상기 통신 네트워크(110)를 통한 통신을 용이하게 하는 임의의 메커니즘을 포함한다. 예를 들어, 통신 인터페이스(260)는 모뎀을 포함한다. 대안적으로, 통신 인터페이스(260)는 무선 접속을 통해 다른 디바이스들 및/또는 시스템들과 통신하는 트랜스시버(250)를 돕기 위한 다른 메커니즘을 포함할 수 있다.
상기 무선 통신 디바이스(120)는 예를 들어, 메모리(230)와 같은 컴퓨터 판독가능 매체에 포함된 명령들의 시퀀스들을 실행함으로써 프로세서(220)에 응답하여 상기 기능들을 수행할 수 있다. 이러한 명령들은 저장 디바이스와 같은 또 다른 컴퓨터 판독가능 매체로부터 또는 통신 인터페이스(260)를 통해 별도의 디바이스로부터 메모리(230)로 판독될 수 있다.
도 1 및 도 2에 도시된 상기 통신 네트워크(110) 및 상기 무선 통신 디바이스(120) 및 관련된 논의는 본 발명이 구현될 수 있는 적절한 컴퓨팅 환경의 간결하고, 일반적인 기술을 제공하도록 의도된다. 요구되지 않더라도, 본 발명은 적어도 부분적으로, 통신 서버와 같은 상기 무선 통신 디바이스(120) 또는 범용 컴퓨터에 의해 실행되는, 프로그램 모듈들과 같은 컴퓨터 실행가능 명령들의 일반적인 콘텍스트(context)로 기술될 것이다. 일반적으로, 프로그램 모듈들은 특정 업무(task)를 수행하거나 특정 추상 데이터 형들(abstract data type)을 구현하는 루틴 프로그램들, 객체들, 구성요소들, 데이터 구조들, 등을 포함한다. 또한, 당업자들은 본 발명의 다른 실시예들이 셀룰러 디바이스들, 이동 통신 디바이스들, 개인용 컴퓨터들, 휴대 디바이스들, 멀티-프로세서 시스템들, 마이크로프로세서-기반 또는 프로그램가능 가전 등을 포함하는 많은 유형들의 통신 설비 및 컴퓨터 시스템 구성들을 갖는 통신 네트워크 환경들로 실시될 수 있다는 것을 인식한다.
예시를 위해, 상기 강인한 언어 활동 검출 프로세스는 도 1 및 도 2에 도시된 블록도와 관련하여 이하 기술된다.
도 3은 본 발명의 가능한 실시예에 따른 강인한 언어 활동 검출 프로세스와 연관된 기본 단계들의 일부를 도시하는 예시적인 흐름도이다. 상기 프로세스는 단계 3100에서 시작하고 강인한 언어 활동 검출기(130)가 차수 통계학적 필터링을 이용해 상기 무선 통신 디바이스(120)에 의해 수신된 입력 신호들을 필터링함으로써 자동상관을 계산하는 단계 3200까지 계속한다.
공통 ASR 시스템에서, 상기 입력 파형은 예를 들어, 진보한 선단 ETSI 표준(Advanced Front End ETSI standard)에서 이용되는 25/10ms 프레임 길이/시프트와 같은 중첩하는 프레임들로 프레임화된다. 당업자가 인식하는 바와 같이, 상기 자동 상관 기능은 신호에서 주기성의 양을 측정한다. 전형적인 시스템들에서와 같이, 자동 상관이 상기 입력 언어 신호에 직접 적용되면, 다음과 같은 단점을 갖는다:
a) 고-주파수 주 포먼트(dominant formant)를 갖는(/i:/와 같이) 사운드의 상기 자동 상관 함수에서 상기 기본 주파수 F0에 대응하는 피크(peak)는 명확하게 관찰되지 않는다.
b) 고 계산적 부하(high computational load).
이들 단점들을 피하기 위해, 상기 강인한 언어 활동 검출기(130)는 차수 통계학적 필터링(OSF:order statistic filtering)이라 불리는 비선형 필터링 기술을 이용한다. 당업자는 OSF가 이미지 프로세싱 분야에서 강인한 에지 검출에 이용된다는 것을 인식한다. 또한 언어 프로세싱 분야에서, OSF는 강인함을 증가시키기 위해 언어 특징들의 시간 시퀀스에 적용된다.
일 실시예에서, 상기 강인한 언어 활동 검출기(130)는 인벨롭(envelope)을 추출하기 위해 상기 입력 신호 파형에 직접 OSF의 단순한 형태-최대 OSF-를 적용한다. 이러한 최대 OSF의 출력은 현재 샘플을 둘러싸는 샘플들의 간격의 최대 샘플 값이다. 예를 들어, 차수 3(OSF(3))의 최대 OSF가 본 구현에 이용될 수 있다. 따라 서, 시간 인덱스 n에서 출력은 y(n)=max[x(n-1), x(n), x(n+1)]이다. 이는 예를 들어, 매 두 번째 샘플 및 평균 제거가 뒤따른다. 더 높은 차수 OSF는 상기 언급된 2:1 비율보다 더 높은 샘플 감소 비율을 제안할 수 있다. 상기 샘플 감소는 OSF(3) 이후의 신호의 고 주파수에서 저 에너지 콘텐트로 인해 사전 저역통과 필터링 없이 적용될 수 있다(중요치 않은 위신호(aliasing)가 존재하지만 본 발명의 목적에 유해하지 않다). 따라서, 자동 상관의 계산 비용을 오리지널 자동 상관의 1/4로 삭감하는 더 적은 수의 샘플들이 이제 고려된다. 중요한 특성은 자동 상관 함수 결과로 도시되기 때문에 F0에 대응하는 특정한 레그(lag)에서 명백한 피크는 고 주파수 주요 포먼트를 갖는 사운드들의 경우에도 나타난다.
모든 자동 상관 레그들이 계산되어야 한다는 것을 주의한다. 자동 상관의 단지 한 측면만이 중요하고; 부가적으로, 예를 들어 60 - 200Hz의 F0의 범위에 대응하는 자동 상관 레그들 만이 계산되고, 더 높은 F0 주파수들은 그들의 두 번째 자동 상관 피크를 이 범위에서 가질 것이다. 따라서, 추가적인 계산 감소가 달성된다. 상기 결과적인 자동 상관들은 레그=0에서 그들의 값에 의해 정규화되어, 상기 범위가 -1.0과 1.0 사이가 된다. 임의의 경우에서, 상기된 방식으로 계산된 음성 언어(voiced speech)의 상기 자동 상관 함수는 광 범위의 정지하지 않고 주기적이지 않은 잡음들에 높은 강인함을 나타낸다.
단계 3300에서, 상기 강인한 언어 활동 검출기(130)는 시간 기간에 걸쳐 상기 자동 상관을 평균화한다. 상기 자동 상관의 시간 평균화는 잡음의 자동 상관에 의해 생성된 위조 피크들을 제거하는 것을 도와주는 중요한 단계이다. 음성 언어 신호에서, 연속적인 자동 상관 함수는 유사한 위치들에서 피크들과 밸리들(valleys)을 갖고, 잡음 신호에서 자동 상관 피크들 및 밸리들은 랜덤한 동작을 나타낸다.
시간에 따른 가능한 F0 변화를 고려하기 위해, 자동 상관 함수가 평균화되기 전에, 상기 연속적인 자동 상관에서 작은 레그 시프트(lag shift)(예를 들어 1 또는 2)가 시험된다. 예를 들어, 1 레그의 최대 시프트를 허용하면, 두 개의 연속하는 자동 상관들 사이의 1-레그 왼쪽 시프는 또는 1-레그 오른쪽 시프트는 결과적인 평균 자동 상관에서 더 높은 최대 값을 생성하고, 상기 자동 상관은 상기 다이렉트-노-시프트 평균화(direct-no-shift averaging) 대신 이 레그 시프트를 이용하여 평균화될 수 있다. 예를 들어, 총 5 개의 연속적인 자동 상관들이 이런 방식으로 평균화된다.
단계 3400에서, 상기 강인한 언어 활동 검출기(130)는 사기 평균화된 자동 상관들로부터 음성 언어 특징을 획득한다. 음성 언어 특징으로서, 미리 결정된 레그 간격으로부터 상기된 자동 상관 함수의 최대 값이 이용될 수 있다. 프로세싱의 이 단계에서, 매우 낮은 주파수 주기적 잡음의 영향이 감소될 수 있다. 이러한 잡음의 자동 상관들은 레그=0 주변에서 넓은 피크를 나타내고 이 값 변화들은 음성 언어 신호의 자동 상관과 비교할 때, 상기 레그와 함께 비교적 천천히 변한다. 이러한 높은 값을 감소하기 위해, 상기 선택된 자동 상관 최대 피크의 위치 주변, 예를 들어 +/-6의 위치들의 간격으로부터 상기 최소 자동 상관 값은 상기 피크 값과 비교될 수 있다. 이 최소 값이 상기 피크 값의 반(half) 보다 높으면, 상기 최소 값은 상기 피크 값으로부터 감산된다.
단계 3500에서, 상기 강인한 언어 활동 검출기(130)는 상기 획득된 언어 특징에 기초하여 상기 입력 신호들을 언어 입력 및 비-언어 신호들의 시퀀스로 분류한다. 상기 언어/비-언어 분류는 상기 음성 언어 특징이 간격 <-1, 1>에 있고 직관적이기 때문에 이 점에서 매우 단순하다: 특징의 높은 값은 상기 신호에서 주기성의 높은 양을 나타내어 음성 언어의 높은 확률을 나타낸다. 따라서, 단순한 문턱 값이 상기 강인한 언어 활동 검출기(130)에 의해 이용되어 신뢰성 있는 언어/비-언어 결정을 한다. 언어가 전체적으로 음성이 아니기 때문에, 어떤 언어 간격이 상기 강인한 언어 활동 검출기(130)에 의해 검출된 각각의 음성 언어 간격 전후에 첨부될 수 있다는 것을 주의한다.
단계 3600에서, 상기 강인한 언어 활동 검출기(130)는 입력 신호와 함께 상기 언어/비-언어 분류 정보 또는 상기 분류된 언어만을 상기 자동 언어 인식기(270)로 출력할 수 있다. 상기 자동 언어 인식기(270)는 원하는 방법으로, 예를 들어 상기 분류된 언어(음절, 음소, 음 등과 같은)의 구성요소를 인식하기 위해 임의의 공지된 인식 알고리즘을 이용하여 이 정보를 사용할 수 있고 추가 프로세싱을 위해 예를 들어 자연 언어 이해 유닛(natural language understanding unit)으로 출력한다. 상기 프로세스는 단계 3700으로 진행하고, 종료한다.
본 발명의 범위 내의 실시예들은 또한 저장된 컴퓨터 실행가능 명령들 또는 데이터 구조들을 운반 또는 갖는 컴퓨터 판독가능 매체를 포함한다. 이러한 컴퓨터 판독가능 매체는 범용 또는 특정 용도 컴퓨터에 의해 액세스될 수 있는 임의의 이 용가능한 매체일 수 있다. 예시로서, 제한 없이, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스, 또는 컴퓨터 실행가능 명령들 또는 데이터 구조의 형태로 바람직한 프로그램 코드 수단을 운반 또는 저장하는데 이용되는 임의의 다른 매체를 포함할 수 있다. 정보가 네트워크 또는 또 다른 통신 접속(유선, 무선 또는 이들의 조합)을 통해 컴퓨터로 전송 또는 제공되면, 상기 컴퓨터는 컴퓨터 판독가능 매체로서 상기 접속을 적절히 조사한다. 이에 따라, 임의이 이러한 접속이 컴퓨터 판독가능 매체로 적절히 부른다. 상기한 것들의 조합 또한 상기 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
컴퓨터 실행가능 명령들은 예를 들어, 범용 컴퓨터, 특정 용도 컴퓨터 또는 특정 용도 프로세싱 디바이스로 하여금 어떤 기능 또는 기능들의 그룹을 실행하도록하는 명령들 및 데이터를 포함한다. 컴퓨터 실행가능 명령들은 또한 독립형 또는 네트워크 환경들의 컴퓨터들에 의해 실행되는 프로그램 모듈들을 포함한다. 일반적으로, 프로그램 모듈들은 특정 업무를 수행하거나 특정 추상 데이터 형을 구현하는 루틴, 프로그램, 객체, 구성요소, 및 데이터 구조 등을 포함한다. 컴퓨터 실행가능 명령들, 연관된 데이터 구조들 및 프로그램 모듈들은 본원의 방법들의 단계들을 실행하기 위한 프로그램 코드 수단의 예들을 나타낸다. 이러한 실행가능한 명령들 또는 연관된 데이터 구조들의 특정 시퀀스는 이러한 단계들에서 기술된 기능들의 구현을 위한 대응하는 동작들의 예들을 나타낸다.
상기 기술들이 특정 상세들을 포함하지만, 어떠한 방식으로도 청구항들을 제 한하는 것으로 해석되어서는 안된다. 본 발명의 기술된 실시예들의 다른 구성들은 본 발명의 범위의 일부이다. 예를 들어, 본 발명의 원리는 각각의 사용자가 개별적으로 이러한 시스템을 전개하는 각각의 개별 사용자들에게 적용할 수 있다. 이는 각각의 사용자들로 하여금 많은 가능한 애플리케이션들 중 임의의 하나가 본원에 기술된 기능을 필요로 하지 않아도 본 발명의 이익들을 사용하도록 한다. 즉, 각각 다양한 가능한 방법들로 콘텐트를 프로세싱하는 도 1 및 도 2의 강인한 언어 활동 검출기(130)의 다양한 예들이 있을 수 있다. 이는 모든 최종사용자들에 의해 사용되는 하나의 시스템일 필요는 없다. 따라서, 주어진 특정한 예들이 아닌 첨부된 청구항들 및 이들의 법적 등가물들만이 본 발명을 규정한다.
Claims (20)
- 강인한 언어 활동 검출(robust speech activity detection) 방법에 있어서,차수 통계학적 필터링(order statistic filtering)을 이용하여 입력 신호들을 필터링함으로써 자기 상관들(autocorrelation)을 계산하는 단계;시간 기간 동안 상기 자기 상관들을 평균화하는 단계;상기 평균화된 자기 상관들로부터 음성 언어 특징(voiced speech feature)을 획득하는 단계;상기 획득된 음성 언어 특징에 기초하여 언어 입력 및 비-언어 입력 신호들의 시퀀스로 상기 입력 신호들을 분류하는 단계;상기 언어/비-언어 분류 정보와 함께 상기 입력 신호들 또는 언어 신호로 분류된 상기 입력 신호들만을 자동 언어 인식기로 출력하는 단계를 포함하는, 강인한 언어 활동 검출 방법.
- 제 1 항에 있어서,입력 신호는 최대 차수 통계학적 필터링을 상기 입력 신호의 파형에 직접 적용함으로써 필터링되는, 강인한 언어 활동 검출 방법.
- 제 1 항에 있어서,언어 및 비-언어 간의 분류는 주기성에 기초하는, 강인한 언어 활동 검출 방 법.
- 제 3 항에 있어서,상기 음성 언어 특징에 의해 지시되는 주기성 레벨이 미리 결정된 문턱값 이상이면, 입력 신호는 언어로 분류되는, 강인한 언어 활동 검출 방법.
- 제 1 항에 있어서,상기 차수 통계학적 필터링은 입력 신호의 인벨롭(envelope)을 획득하는데 이용되는, 강인한 언어 활동 검출 방법.
- 제 1 항에 있어서,언어 신호로 분류된 상기 입력 신호들을 인식하는 단계를 더 포함하는, 강인한 언어 활동 검출 방법.
- 강인한 언어 활동 검출 장치에 있어서,자동 언어 인식기; 및강인한 언어 활동 검출기로서, 차수 통계학적 필터링을 이용하여 입력 신호를 필터링함으로써 자기 상관들을 계산하고, 시간 기간 동안 상기 자기 상관들을 평균화하고, 상기 평균화된 자기 상관들로부터 음성 언어 특징을 획득하고, 상기 획득된 음성 언어 특징에 기초하여 언어 입력 및 비-언어 입력 신호들의 시퀀스로 상기 입력 신호들을 분류하고, 상기 언어/비-언어 분류 정보와 함께 상기 입력 신호들 또는 언어 신호들로서 분류된 상기 입력 신호들만을 상기 자동 언어 인식기로 출력하는, 상기 강인한 언어 활동 검출기를 포함하는, 강인한 언어 활동 검출 장치.
- 제 7 항에 있어서,상기 강인한 언어 활동 검출기는 최대 차수 통계학적 필터링을 입력 신호 파형에 직접 적용함으로써 입력 신호를 필터링하는, 강인한 언어 활동 검출 장치.
- 제 7 항에 있어서,언어 및 비-언어 간의 분류는 주기성에 기초하는, 강인한 언어 활동 검출 장치.
- 제 9 항에 있어서,상기 음성 언어 특징의 주기성이 미리 결정된 문턱값 이상이면, 상기 강인한 언어 활동 검출기는 입력 신호를 언어로 분류하는, 강인한 언어 활동 검출 장치.
- 제 7 항에 있어서,상기 강인한 언어 활동 검출기는 입력 신호의 인벨롭을 획득하기 위해 상기 차수 통계학적 필터링을 이용하는, 강인한 언어 활동 검출 장치.
- 제 7 항에 있어서,상기 자동 언어 인식기는 상기 입력 신호들을 언어 신호들로서 분류하는, 강인한 언어 활동 검출 장치.
- 제 7 항에 있어서,상기 장치는 언어-제어 GPS, 언어-제어 전화, 및 언어-제어 스테레오 중 하나의 부품인, 강인한 언어 활동 검출 장치.
- 무선 통신 디바이스로서,신호들을 송신 및 수신할 수 있는 트랜스시버;자동 언어 인식기; 및강인한 언어 활동 검출기로서, 차수 통계학적 필터링을 이용하여 입력 신호를 필터링함으로써 자기 상관들을 계산하고, 시간 기간 동안 상기 자기 상관들을 평균화하고, 상기 평균화된 자기 상관들로부터 음성 언어 특징을 획득하고, 상기 획득된 음성 언어 특징에 기초하여 언어 입력 및 비-언어 입력 신호들의 시퀀스로 상기 입력 신호들을 분류하고, 상기 언어/비-언어 분류 정보와 함께 상기 입력 신호들 또는 언어 신호들로서 분류된 상기 입력 신호들만을 상기 자동 언어 인식기로 출력하는, 상기 강인한 언어 활동 검출기를 포함하는, 무선 통신 디바이스.
- 제 14 항에 있어서,상기 강인한 언어 활동 검출기는 최대 차수 통계학적 필터링을 입력 신호 파형에 직접 적용함으로써 입력 신호를 필터링하는, 무선 통신 디바이스.
- 제 14 항에 있어서,언어 및 비-언어 간의 분류는 주기성에 기초하는, 무선 통신 디바이스.
- 제 16 항에 있어서,상기 음성 언어 특징의 주기성이 미리 결정된 문턱값 이상이면, 상기 강인한 언어 활동 검출기는 입력 신호를 언어로 분류하는, 무선 통신 디바이스.
- 제 14 항에 있어서,상기 강인한 언어 활동 검출기는 입력 신호의 인벨롭을 획득하기 위해 상기 차수 통계학적 필터링을 이용하는, 무선 통신 디바이스.
- 제 14 항에 있어서,상기 자동 언어 인식기는 상기 입력 신호들을 언어 신호들로서 분류하는, 무선 통신 디바이스.
- 제 14 항에 있어서,상기 무선 통신 디바이스는 언어-제어 GPS, 언어-제어 전화, 및 언어-제어 스테레오 중 하나인, 무선 통신 디바이스.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/611,469 US20080147389A1 (en) | 2006-12-15 | 2006-12-15 | Method and Apparatus for Robust Speech Activity Detection |
US11/611,469 | 2006-12-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20090098891A true KR20090098891A (ko) | 2009-09-17 |
Family
ID=39528601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097014749A KR20090098891A (ko) | 2006-12-15 | 2007-10-24 | 강인한 언어 활동 검출 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080147389A1 (ko) |
EP (1) | EP2100293A1 (ko) |
KR (1) | KR20090098891A (ko) |
CN (1) | CN101573749A (ko) |
WO (1) | WO2008076515A1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
CN104766607A (zh) * | 2015-03-05 | 2015-07-08 | 广州视源电子科技股份有限公司 | 一种电视节目推荐方法与系统 |
CN104867493B (zh) * | 2015-04-10 | 2018-08-03 | 武汉工程大学 | 基于小波变换的多重分形维数端点检测方法 |
CN106571138B (zh) * | 2015-10-09 | 2020-08-11 | 电信科学技术研究院 | 一种信号端点的检测方法、检测装置及检测设备 |
CN115699173A (zh) * | 2020-06-16 | 2023-02-03 | 华为技术有限公司 | 语音活动检测方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN184794B (ko) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6708146B1 (en) * | 1997-01-03 | 2004-03-16 | Telecommunications Research Laboratories | Voiceband signal classifier |
US6697457B2 (en) * | 1999-08-31 | 2004-02-24 | Accenture Llp | Voice messaging system that organizes voice messages based on detected emotion |
US7590538B2 (en) * | 1999-08-31 | 2009-09-15 | Accenture Llp | Voice recognition system for navigating on the internet |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US20050065779A1 (en) * | 2001-03-29 | 2005-03-24 | Gilad Odinak | Comprehensive multiple feature telematics system |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
SG161223A1 (en) * | 2005-04-01 | 2010-05-27 | Qualcomm Inc | Method and apparatus for vector quantizing of a spectral envelope representation |
US7536304B2 (en) * | 2005-05-27 | 2009-05-19 | Porticus, Inc. | Method and system for bio-metric voice print authentication |
-
2006
- 2006-12-15 US US11/611,469 patent/US20080147389A1/en not_active Abandoned
-
2007
- 2007-10-24 CN CNA2007800460605A patent/CN101573749A/zh active Pending
- 2007-10-24 EP EP07863481A patent/EP2100293A1/en not_active Withdrawn
- 2007-10-24 KR KR1020097014749A patent/KR20090098891A/ko active IP Right Grant
- 2007-10-24 WO PCT/US2007/082408 patent/WO2008076515A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2008076515A1 (en) | 2008-06-26 |
CN101573749A (zh) | 2009-11-04 |
US20080147389A1 (en) | 2008-06-19 |
EP2100293A1 (en) | 2009-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990143B2 (en) | Multi-mode audio recognition and auxiliary data encoding and decoding | |
US10026410B2 (en) | Multi-mode audio recognition and auxiliary data encoding and decoding | |
CN106663446B (zh) | 知晓用户环境的声学降噪 | |
Graf et al. | Features for voice activity detection: a comparative analysis | |
US11475907B2 (en) | Method and device of denoising voice signal | |
CN111402855A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
JP6268717B2 (ja) | 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム | |
US5970441A (en) | Detection of periodicity information from an audio signal | |
EP3411876B1 (en) | Babble noise suppression | |
KR101414233B1 (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
EP2089877A1 (en) | Voice activity detection system and method | |
US20110238417A1 (en) | Speech detection apparatus | |
JPH0916194A (ja) | 音声信号の雑音低減方法 | |
EP1973104A2 (en) | Method and apparatus for estimating noise by using harmonics of a voice signal | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
KR100639968B1 (ko) | 음성 인식 장치 및 그 방법 | |
US20230360666A1 (en) | Voice signal detection method, terminal device and storage medium | |
KR20090098891A (ko) | 강인한 언어 활동 검출 방법 및 장치 | |
US20120265526A1 (en) | Apparatus and method for voice activity detection | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
CN109102823A (zh) | 一种基于子带谱熵的语音增强方法 | |
Quast et al. | Robust pitch tracking in the car environment | |
JP2007093635A (ja) | 既知雑音除去装置 | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
N231 | Notification of change of applicant | ||
E701 | Decision to grant or registration of patent right | ||
NORF | Unpaid initial registration fee |