KR101019681B1

KR101019681B1 - 스피치 및 이외 다른 유형들의 오디오 자료를 포함하는 오디오 신호들에서 스피치의 세기 조절

Info

Publication number: KR101019681B1
Application number: KR1020057003479A
Authority: KR
Inventors: 마크 스튜어트 빈톤; 찰스 퀴토 로빈슨; 케네쓰 제임스 건드라이; 스티븐 조세프 베네지아; 제프리 찰스 리드밀러
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2002-08-30
Filing date: 2003-08-15
Publication date: 2011-03-07
Also published as: TW200404272A; CA2491570A1; WO2004021332A1; DE60305712D1; JP4585855B2; EP1532621A1; USRE43985E1; CN100371986C; MY133623A; US7454331B2; TWI306238B; AU2003263845B2; ATE328341T1; US20040044525A1; CN1679082A; DE60305712T2; JP2005537510A; KR20050057045A; AU2003263845A1; IL165938A

Abstract

스피치 및 이외 다른 유형들의 오디오 자료를 포함한 오디오 신호의 세기의 표시값은 오디오 정보의 세그먼트들을 스피치나 아니면 스피치가 아닌 것으로서 분류함으로써 얻어진다. 스피치 세그먼트들의 세기가 추정되고, 이 추정은 세기의 표시값을 도출하는데 사용된다. 세기의 표시값은 서로 다른 프로그램간에 스피치의 세기 변화들이 감소되게 오디오 신호 레벨들을 조절하는데 사용될 수 있다. 스피치 세그먼트들을 분류하는 바람직한 방법이 기술되어 있다.

Description

스피치 및 이외 다른 유형들의 오디오 자료를 포함하는 오디오 신호들에서 스피치의 세기 조절{CONTROLLING LOUDNESS OF SPEECH IN SIGNALS THAT CONTAIN SPEECH AND OTHER TYPES OF AUDIO MATERIAL}

본 발명은 스피치 및 이외 다른 유형들의 오디오 자료를 포함하는 오디오 신호들에서 스피치의 세기(loudness)를 측정 및 조절(control)하는 것에 관한 오디오 시스템들 및 방법들에 관한 것이다.

라디오 혹은 텔레비전 방송들을 듣는 동안, 청취자들은 스피치의 만족스러운 세기를 얻기 위해서 빈번하게 볼륨 조절 설정을 선택한다. 원하는 볼륨 조절 설정은 듣는 환경에서의 주위 잡음, 재생 시스템의 주파수 응답, 및 개인적인 선호도와 같은 많은 요인들에 의해 영향을 받는다. 볼륨 조절 설정을 선택한 후에, 일반적으로 청취자는 음악 혹은 사운드 효과와 같은 다른 프로그램 자료들이 있건 혹은 없건 간에 스피치의 세기가 비교적 일정한 상태에 있기를 원한다.

프로그램을 바꾸거나 다른 채널이 선택되었을 때, 새로운 프로그램에서의 스피치의 세기는 대부분 다르고, 이는 원하는 세기로 돌려놓기 위해 볼륨 조절 설정 변경을 필요로 한다. 대개는, 대부분의 아날로그 방송국들이 아날로그 방송 시스템에 의해 전달될 수 있는 최대 허용된 레벨에 가까운 스피치로 프로그램들을 배송 하기 때문에 아날로그 방송 기술들에 의해 배송된 프로그램들에서의 스피치의 세기를 조종하기 위해서는 설정을 약간 변경하는 것만이, 만약 해야 된다면, 필요하다. 이것은 일반적으로 방송 시스템의 여러 가지 구성요소들에 의해 야기되는 잡음에 비해서 스피치 신호 레벨을 높이기 위해 오디오 프로그램 자료의 동적범위(dynamic range)를 압축함으로써 행해진다. 그럼에도 불구하고, 서로 다른 채널들로 수신되는 프로그램들에서, 그리고 동일 채널로 수신되는, 이를테면 광고방송 및 이들이 삽입된 프로그램들과 같은 서로 다른 유형들의 프로그램들에서 바람직하지 않은 스피치의 세기에 차이가 있다.

디지털 방송 기술들의 도입은 디지털 방송국들이 동적범위를 압축하지 않고 또한 최대 허용된 레벨에 가깝게 스피치 레벨을 설정하지 않고서 적절한 신호 대 잡음 레벨로 신호들을 배송할 수 있기 때문에 이러한 문제를 아마 더 악화시킬 것이다. 결국, 동일 채널 상의 서로 다른 프로그램들간에 그리고 서로 다른 채널들로부터의 프로그램간에 스피치의 세기에 차이들이 훨씬 더 클 것이 확실하다. 예를 들면, 아날로그 및 디지털 텔레비전 채널들로부터 수신된 프로그램간에 스피치 레벨에 차이가 종종 20dB를 초과하는 것이 관찰되었다.

세기에 이러한 차이를 감소시킬 수 있는 한 방법은 모든 디지털 방송국들이 스피치의 레벨을 최대 레벨 훨씬 미만의 표준화한 세기로 설정하는 것인데, 이는 넓은 동적범위의 자료에 압축 혹은 제한을 행하지 않아도 될 충분한 여유를 가능하게 할 것이다. 불행히도, 이러한 해결책은, 일어나지도 않겠지만 방송관행의 변경을 요할 것이다.

또 다른 해결책은 미국에서 디지털 텔레비전 방송에 채택된 AC-3 오디오 코딩 기술에 의해 제공된다. AC-3 규격에 따르는 디지털 방송은 부호화된 오디오 데이터와 함께 메타데이터를 배송한다. 메타데이터는 균일한 혹은 정규화된 스피치 세기를 제공하기 위해 수신기에서 신호 레벨을 조정하는데에 사용될 수 있는 "다이얼노엄(dialnorm)"이라 알려진 제어정보를 포함한다. 즉, 다이얼노엄 정보에 의해 수신기는 청취자가 수동으로 행하여야 할 것을 자동으로 행하여 볼륨을 각 프로그램 혹은 채널에 적합하게 조절할 수 있다. 청취자는 특정 프로그램에 대해 원하는 레벨의 스피치 세기를 달성하기 위해 볼륨 조절 설정을 조정하고 수신기는 원하는 레벨이 확실히 유지되게 다이얼노엄 정보를 사용하는데, 이와 같이 하지 않았다면 서로 다른 프로그램들 혹은 채널들간엔 차이가 존재하였을 것이다. 다이얼노엄 정보를 기술하는 추가 정보는 2001, 8월 20일 발간된 "Revision A to Digital Audio Compression (AC-3) Standard" 명칭의 Advanced Television Systems Committee (ATSC) A/52A 문서, 및 1995년 10월 4일 발간된 "Guide to the Use of the ATSC Digital Television Standard" 명칭의 ATSC document A/54로부터 얻어질 수 있다.

다이얼노엄의 적합한 값은 AC-3에 따른 부호화된 신호를 생성하는 코딩 시스템의 부분에서 사용될 수 있어야 한다. 부호화 프로세스는 수신기로부터 나타나는 프로그램의 스피치의 세기를 유지하는데 사용될 수 있는 다이얼노엄의 값을 판정하기 위해서 특정 프로그램 내 스피치의 세기를 측정 혹은 액세스하는 방법을 필요로 한다.

스피치의 세기는 다양한 방법들로 추정될 수 있다. IEC(International Electrotechnical Commission)에 의해 발행된 "Integrating-averaging sound level meters" 명칭의 표준 IEC 60804 (2000-10)은 주파수 가중 및 시간 평균화한 음압(sound-pressure) 레벨들에 근거한 측정을 기술하고 있다. 국제 표준화 기구에 의해 발행된 "Method for calculating loudness level" 명칭의 ISO 표준 532: 1975은 주파수 서브-대역들에 대해 계산된 파워 레벨들의 조합으로부터 세기의 측정을 얻는 방법들을 기술하고 있다. 세기를 추정하는데 사용될 수 있는 사이코어쿠스틱 모델들의 예들이, Moore, Glasberg and Baer,"A model for the prediction of thresholds, loudness and partial loudness, "J. Audio Eng. Soc. , vol. 45, no. 4, April 1997, and in Glasberg and Moore, "A model of loudness applicable to time-varying sounds, "J. Audio Eng. Soc. , vol. 50, no. 5, May 2002에 기술되어 있다.

불행히도, 이들 및 그 외 알려진 기술들을 적용할 간편한 방법은 없다.

예를 들면, 방송 응용에서, 방송국은 오디오 자료의 구간을 선택하고, 선택한 구간 내 스피치의 세기를 측정 혹은 추정하고, 다이얼노엄을 AC-3에 따른 디지털 데이터 스트림에 삽입하는 장비에 그 측정한 것을 보내야 한다. 선택된 구간은 대표적인 스피치는 포함해야 하나, 그 외 세기 측정을 왜곡하게 될 다른 유형들의 오디오 자료는 포함하지 않아야 한다. 일반적으로, 프로그램은 스피치보다 의도적으로 더 큰 혹은 더 조용한 다른 성분들을 포함하기 때문에 오디오 프로그램의 전체 세기를 측정하는 것은 허용될 수 없다. 바람직한 스피치 레벨보다 음악 및 사운드 효과들의 더 큰 경로들이 현격히 더 큰 것이 대부분 바람직하다. 바람, 먼 교통소리, 혹은 완만히 흐르는 물과 같은 배경 사운드 효과들이 스피치와 동일한 세기를 갖는 것이 매우 바람직하지 못한 것이 또한 명백하다.

발명자들은 다이얼노엄 정보에 적합한 값을 설정하는 향상된 프로세스에서, 오디오 신호가 스피치를 포함하는지 여부를 판정하는 기술를 사용할 수 있음을 알았다. 스피치 검출의 다양한 기술들 중 어느 하나가 사용될 수 있다. 몇가지 기술들이 이하 인용하는 참조문헌들에 기술되어 있다.

1981년 7월 28일에 발행된 미국특허 4,281,218은 짧은 기간 파워와 같은 신호의 하나 혹은 그 이상의 특징들을 추출함으로써 신호를 스피치로서 아니면 스피치가 아닌 것으로 분류하는 기술을 기재하고 있다. 분류는 스피치 신호 및 스피치가 아닌 신호에 대해 적합한 신호 처리 방법을 선택하는데 사용된다.

1992년 3월 17일에 발행된 미국특허 5,097,510는 입력신호 진폭 포락선의 변화들을 분석하는 기술을 기재하고 있다. 급속히 변하는 변화들은 스피치인 것으로 간주하여 이는 신호로부터 제거된다. 나머지는 4가지 잡음 부류들 중 하나로 분류되고, 분류는 입력신호에 대해 다른 유형의 잡음감소 필터링을 선택하는데 사용된다.

1995년 10월 10일에 발행된 미국특허 5,457,769는 음성으로 조작되는 스위치를 조작하기 위해 스피치를 검출하는 기술을 기재하고 있다. 스피치는 서로 간에 약 150Hz만큼 떨어진 성분 주파수들을 갖는 신호들을 확인해 냄으로써 검출된다. 이러한 상태는 신호가 스피치 포만트를 갖고 있을 수 있음을 나타낸다.

1999년 10월 14일 공고된 유럽특허 출원공보 0 737 011 및 1999년 3월 2일 발행된 미국특허 5,878,391은 오디오 신호가 스피치 신호일 확률을 나타내는 신호를 생성하는 기술을 기재하고 있다. 이 확률은 신호로부터 하나 혹은 그 이상의 특징들로서 이를테면 스펙트럼의 서로 다른 부분들 간에 파워 비들의 변화들을 추출함으로써 도출된다. 이들 참조문헌들은 상당 수의 특징들이 도출에 사용된다면 도출되는 확률의 신뢰도가 향상될 수 있음을 나타내고 있다.

2000년 5월 9일 발행된 미국특허 6,061,647는 스피치가 없는 잡음의 모델을 저장해 두고, 입력신호를 스피치가 있는지를 판단하기 위해 모델과 비교하고, 보조 검출기를 사용해서 잡음 모델 갱신에 입력신호가 사용될 수 있는 시기를 결정함으로써, 스피치를 검출하는 기술을 기재하고 있다.

1998년 6월 25일 공개된 국제특허출원 공개 WO 98/27543는 입력신호로부터 한 세트의 특징들을 추출하고 각 특징에 대해 몇몇 유별 기술들 중 하나를 사용함으로써 음악으로부터 스피치를 식별하는 기술을 기재하고 있다. 최상의 한 세트의 특징들 및 각 특징에 사용할 적합한 유별 기술은 실험적으로 결정된다.

이들 참조문헌들에 기술된 기술들 및 그 외 모든 공지된 스피치-검출 기술들은 스피치가 아닌 신호들을 처리 혹은 조작하는데 사용되는 방법과는 다른 방법에 의해 스피치가 처리 혹은 조작될 수 있도록 스피치를 검출하거나 오디오 신호들을 유별하려고 있다.

1998년 10월 6일 발행된 미국특허 5,819,247은 광학 문자 인식 디바이스들과 같은 유별 디바이스들에서 사용할 가설을 구성하는 기술을 개시하고 있다. 예들로부터 대강의 가설이 구성된 후 평가된다. 가장 개략적인 가설들에 대해 반복 프로 세스에 의해 보다 확실한 가설들을 구성한다. 스피치 검출은 언급되어 있지 않으나 본 발명자들은 이러한 기술은 공지된 스피치 검출 기술들을 향상시키는데 사용될 수 있을 것임을 알았다.

본 발명의 목적은 스피치 및 이외 다른 유형들의 오디오 자료를 포함하는 신호들에서 스피치의 세기의 조절을 제공하는 것이다.

본 발명에 따라서, 입력신호를 수신하고, 오디오 신호 구간을 나타내는 오디오 정보를 상기 입력신호로부터 얻고, 상기 오디오 정보를 조사하여, 상기 오디오 정보의 세그먼트들을, 스피치 세그먼트들로서 혹은 스피치가 아닌 세그먼트들로서 분류하고, 상기 오디오 정보를 조사하여, 상기 스피치 세그먼트들의 추정된 세기를 구하고, 상기 스피치가 아닌 세그먼트들인 것으로 나타내어진 오디오 신호 부분들의 세기보다는 상기 스피치 세그먼트들의 상기 추정된 세기에 더 응답하는 조절정보를 생성함으로써 상기 오디오 신호 구간의 세기의 표시값을 제공함으로써, 신호가 처리된다.

세기의 표시값은 스피치 세그먼트들의 세기의 변화들을 감소시키기 위해 오디오 신호의 세기를 조절하는데 사용될 수 있다. 스피치가 아닌 세그먼트들로 나타내어진 오디오 신호의 부분들의 세기는 스피치 세그먼트들로 나타내어진 오디오 신호의 부분들의 세기가 증가될 때 증가된다.

본 발명 및 이의 바람직한 실시예들의 여러 가지 특징들은 다음의 설명 및 동일 구성요소에 동일 참조부호를 사용한 첨부한 도면을 참조하여 이해될 수 있다. 다음 설명 및 도면의 내용들은 단지 예로서 개시된 것이고 본 발명의 범위를 한정하는 것으로 이해되어서는 안 된다.

도 1은 본 발명의 여러 가지 면들을 포함할 수 있는 오디오 시스템의 개략적인 블록도이다.

도 2는 스피치 및 이외 다른 유형들의 오디오 자료를 포함하는 오디오 신호의 세기를 조절하는데 사용될 수 있는 장치의 개략적인 블록도이다.

도 3은 오디오 신호를 나타내는 오디오 정보 및 스피치의 세기를 나타내는 조절정보를 생성하여 전송하는데 사용될 수 있는 장치의 개략적인 블록도이다.

도 4는 오디오 신호를 및 다른 유형들의 오디오 자료를 포함하는 오디오 신호 내 스피치 세기 표시값을 제공하는데 사용될 수 있는 장치의 개략적인 블록도이다.

도 5는 오디오 정보의 세그먼트들을 유별하는데 사용될 수 있는 장치의 개략적인 블록도이다.

도 6은 본 발명의 여러 가지 면들을 구현하는데 사용될 수 있는 장치의 개략적인 블록도이다.

A. 시스템 개요

도 1은 송신기(2)가 경로(1)로부터 오디오 신호를 수신하고 오디오 신호를 처리하여 오디오 신호를 나타내는 오디오 정보를 생성하고 오디오 정보를 경로(3) 을 따라 전송하는 오디오 시스템의 개략적인 블록도이다. 경로(3)는 즉각적인 사용을 위해 오디오 정보를 전하는 통신로를 나타낼 수도 있고, 혹은 나중에 불러내어 사용하기 위해 오디오 정보를 저장하는 저장매체에 결합된 신호경로를 나타낼 수도 있다. 수신기(4)는 경로(3)로부터 오디오 정보를 수신하고, 오디오 정보를 처리하여 오디오 신호를 생성하고, 청취자에 제공하기 위해 경로(5)를 따라 오디오 신호를 전송한다.

도 1에 도시된 시스템은 신호 송신기 및 수신기를 포함하나, 본 발명은 복수의 송신기들 및/또는 복수의 수신기를 포함하는 시스템에서 사용될 수도 있다. 본 발명의 여러 가지 면들은 송신기(2)에만, 혹은 수신기(4)에만, 혹은 송신기(2) 및 수신기(4) 양측에 구현될 수 있다.

일 실시예에서, 송신기(2)는 오디오 정보가 낮은 대역폭을 갖는 채널들을 통해서 전송되거나 적은 공간의 매체들에 의해 저장될 수 있게, 오디오 신호보다 적은 정보 용량 요건들을 갖는 부호화된 오디오 정보로 오디오 신호를 부호화하는 처리를 수행한다. 디코더(4)는 부호화된 오디오 정보를, 바람직하게는 인지면에서 입력 오디오 신호와 유사하거나 동일한 오디오 신호를 생성하는데 사용될 수 있는 형태로 디코딩하는 처리를 수행한다. 예를 들면, 송신기(2) 및 수신기(4)는 AC-3 코딩 표준 혹은 MPEG(Motion Picture Experts Group)에 의해 공포된 몇가지 표준들 중 어느 하나에 따른 디지털 비트 스트림들을 부호화하고 디코딩할 수 있다. 본 발명은 부호화 및 디코딩 처리들을 적용하는 시스템들에서 유리하게 적용될 수 있으나, 이들 처리들은 본 발명을 실시하는데 필요한 것은 아니다.

본 발명이 아날로그 신호 처리 기술들에 의해 구현될 수도 있으나, 디지털 신호 처리 기술들에 의한 구현이 대개는 더 간편하다. 다음의 예들은 특히 디지털 신호 처리에 속한다.

B. 스피치 세기

본 발명은 스피치 및 다른 유형들의 오디오 자료를 포함하는 신호들 내 스피치의 세기를 조절하는 것에 관한 것이다. 표 I 및 표 III의 항목들은 서로 다른 프로그램들 내 여러 가지 유형들의 오디오 자료에 대한 사운드 레벨들을 나타낸 것이다.

표 I은 텔레비전 수신기들에 방송될 수 있는 것들과 같은 3개의 프로그램들 내 스피치의 상대적 세기에 대한 정보를 포함한다. 뉴스방송 1에서, 두 사람이 서로 다른 레벨들로 말하고 있다. 뉴스방송 2에서는 한 사람이 스피치보다 간혹 큰 다른 사운드들이 있는 장소에서 낮은 레벨로 말하고 있다. 광고에서, 한 사람이 매우 큰 레벨로 말하고 있고 음악이 간혹 더 크다.

[표 I]

본 발명에 따라 오디오 시스템은 3개의 프로그램들 내 오디오 자료의 세기를 자동으로 조절할 수 있으므로, 스피치 세기의 변화들이 자동으로 감소된다. 뉴스방송 1에서 오디오 자료의 세기 또한 조절될 수 있으므로 두 음성들의 레벨들 간 차이가 감소된다. 예를 들면, 모든 스피치에 대해 원하는 레벨이 -24dB이라면, 표 I에 나타낸 오디오 자료의 세기는 표 II에 나타낸 레벨들로 조정될 수도 있을 것이다.

[표 II]

표 III은 하나 혹은 그 이상의 동화상들로 된 3개의 서로 다른 장면들에서의 상이한 사운드들의 상대적 세기에 대한 정보를 포함한다. 장면 1에서, 사람들이 배의 갑판에서 말하고 있다. 배경 사운드들은 스피치 레벨보다 현격히 낮은 철썩거리는 파도소리 및 멀리서 들리는 포그 혼을 포함한다. 장면은 또한 배의 혼 소리를 포함하는데, 이는 스피치보다 현저히 크다. 장면 2에서, 사람들이 소곤대고 있고 배경에서 시계가 똑딱거리고 있다. 이 장면에서 음성들은 보통의 스피치만큼 크지 않으며 시계의 똑딱거리는 소리의 세기는 더욱 낮다. 장면 3에서, 사람들이 기계 근처에서 소리치고 있어 더욱 큰 소리를 만들어 내고 있다. 고함소리는 보통의 스피치보다 크다.

[표 III]

본 발명에 따라 오디오 시스템은 3개의 장면들에서의 오디오 자료의 세기를 자동으로 조절할 수 있으므로, 스피치 세기의 변화가 감소된다. 예를 들면, 오디 오 자료의 세기는 모든 장면들에서의 스피치의 세기가 동일 혹은 본질적으로 동일해지도록 조종될 수도 있을 것이다.

이에 택일적으로, 오디오 자료의 세기는 스피치 세기가 명시된 구간 내에 있도록 조정될 수 있다. 예를 들면, 스피치 세기의 명시된 구간이 -24dB 내지 -30dB이면, 표 III에 나타낸 오디오 자료의 레벨들은 표 IV에 나타낸 레벨들로 조정될 수도 있을 것이다.

[표 IV]

또 다른 구현에서, 오디오 신호 레벨은 추정된 세기의 어떤 평균이 원하는 레벨로 유지되게 조절된다. 평균은 명시된 구간, 이를테면 10분에 대해, 혹은 프로그램의 모든 혹은 일부 명시된 부분에 대해서 구해질 수 있다. 다시 표 III에 나타낸 세기 정보로 가서, 3개의 장면이 동일 동화이고 전체 동화상에 대한 스피치의 평균 세기가 -25dB인 것으로 추정되고 스피치의 원하는 세기는 -27dB인 것으로 가정한다. 3개의 장면들에 대한 신호레벨들은 각 장면에 대해 추정된 세기가 표 V에 나타낸 바와 같이 수정되도록 조절된다. 이 구현에서, 프로그램 혹은 동화상 내의 스피치 세기의 변화는 그대로 이나 다른 프로그램들 혹은 동화상 내 스피치의 평균 세기의 변동은 감소된다. 즉, 프로그램들 혹은 프로그램들의 부분들간의 스피치의 세기의 변화는 이들 프로그램들 혹은 프로그램의 부분들 내에서 동적범위 압축을 할 필요도 없이 달성될 수 있다.

[표 V]

동적범위의 압축이 바람직할 수도 있으나, 이 특징은 선택적인 것이고 요구될 때 제공될 수 있다.

C. 스피치 세기 조절

본 발명은 송신기 혹은 수신기 내에서 수행되는 독자적인 처리에 의해서, 혹은 송신기 및 수신기 내에서 연대하여 수행되는 연대 처리들에 의해서 수행될 수도 있다.

1. 독자적인 처리

도 2는 송신기나 수신기에서 독자적인 처리를 구현하는데 사용될 수 있는 장치의 개략적인 블록도이다. 장치는 경로 II로부터 오디오 신호의 구간을 나타내는 오디오 정보를 수신한다. 분류기(12)는 오디오 정보를 조사하여 오디오 정보의 세그먼트들을, 스피치로서 분류되는 오디오 신호 부분들을 나타내는 "스피치 세그먼트들"로서, 혹은 스피치로 분류되지 않는 오디오 신호 부분들을 나타내는 "스피치가 아닌 세그먼트들"로서 분류한다. 분류기(12)는 스피치가 아닌 세그먼트들을 다수의 종별들로 분류할 수도 있다. 오디오 정보의 세그먼트들을 분류하는데 사용될 수 있는 기술들은 위에 언급되었다. 바람직한 기술을 이하 설명한다.

오디오 정보의 세그먼트에 의해 나타내어지는 오디오 신호의 각 부분은 각각의 세기를 갖는다. 세기 추정기(14)는 스피치 세그먼트들을 조사하여 스피치 세그먼트들에 대해 세기의 추정을 구한다. 추정된 세기의 표시값은 경로(15)를 따라 보내진다. 다른 구현에서, 세기 추정기(14)는 스피치가 아닌 세그먼트들의 적어도 일부를 조사하여 이들 세그먼트들에 대한 추정된 세기를 구한다. 세기가 추정될 수 있는 일부 방법들이 위에 언급되어 있다.

제어기(16)는 경로(15)로부터 세기의 표시값을 수신하고, 경로(11)로부터 오디오 정보를 수신하고, 필요시 오디오 정보를 수정하여 스피치 세그먼트들로 나타내어진 오디오 신호 부분들의 세기의 변화를 감소시킨다. 제어기(16)가 스피치 세그먼트들의 세기를 증가시킨다면, 스피치 세그먼트들보다 더 큰 것들을 포함하는 스피치가 아닌 모든 세그먼트들의 세기를 또한 증가시킬 것이다. 수정된 오디오 정보는 후속의 처리를 위해 경로(17)를 따라 보내진다. 예를 들면, 송신기에서, 수정된 오디오 정보는 부호화될 수 있고, 아니면 전송 혹은 저장을 위해 준비될 수 있다. 수신기에서, 수정된 오디오 정보는 청취자가 듣게 처리될 수 있다.

분류기(12), 세기 추정기(14) 및 제어기(16)는 스피치 세그먼트들의 추정된 세기를 스피치 세그먼트들만이 아니라 스피치가 아닌 세그먼트들의 세기를 조절하는데 사용하게 구성된다. 이것은 다양한 방법들로 행해질 수 있다. 일 실시예에서, 세기 추정기(14)는 각 스피치 세그먼트에 대해 추정된 세기를 제공한다. 제어기(16)는 추정된 세기를 사용하여, 세기가 추정된 스피치 세그먼트의 세기에 어떤 필요한 조종을 행하고, 이 동일한 추정을 사용하여, 다음 스피치 세그먼트에 대해 새로운 추정이 접수될 때까지 스피치가 아닌 후속 세그먼트들의 세기에 어떤 필요한 조정을 행한다. 이러한 구현은 미리 검사될 수 없는 오디오 신호들에 대해 실시간으로 신호 레벨들이 조정되어야 할 때 적합하다. 오디오 신호가 미리 조사될 수 있을 때 더욱 적합할 수 있는 또 다른 구현에서, 프로그램의 모든 부분 혹은 대부분의 스피치 세그먼트들에 대한 평균 세기가 추정되고 이 추정은 오디오 신호에 어떤 필요한 조정을 행하는데 사용된다. 또 다른 구현에서, 추정된 레벨은 점선으로 나타낸 경로를 통해 분류기(12)에 의해 제공될 수 있는, 오디오 정보의 스피치 및 스피치가 아닌 세그먼트들의 하나 혹은 그 이상의 특성들에 응하여 알맞게 변경된다.

바람직한 실시예에서, 제어기(16)는 모든 세그먼트들에 대한 세기 혹은 신호 에너지 표시값을 수신하여, 어떤 임계값 미만의 세기 혹은 에너지 레벨을 갖는 세그먼트들 내에서만 세기의 조정을 행한다. 아니면, 분류기(12) 혹은 세기 추정기(14)는 세기에 조정을 행할 수 있는 세그먼트들의 표시값을 제어기(16)에 제공할 수 있다.

2. 연대 처리

도 3은 송신기에서 연대 처리 부분을 구현하는데 사용될 수 있는 장치의 개략적인 블록도이다. 송신기는 오디오 신호 구격을 나타내는 오디오 정보를 경로(11)로부터 수신한다. 분류기(12) 및 세기 추정기(14)는 실질적으로 전술한 바와 동일하게 동작한다. 세기 추정기(14)에 의해 제공되는 추정된 세기의 표시값은 경로(15)를 따라 보내진다. 도면에 도시된 구현에서, 엔코더(18)는 경로(11)로부터 수신된 오디오 정보를 부호화한 것을 경로(19)를 통해 생성한다. 엔코더(18)는 근본적으로, 소위 인지 코딩을 포함한, 바람직한 임의의 유형의 부호화를 적용할 수 있다. 예를 들면, 도 3에 도시된 장치는 어셈블리를 위해 AC-에 따른 데이터 스트림에 다이얼노엄 정보를 제공하기 위해 오디오 엔코더에 부가될 수 있다. 엔코더(18)는 본 발명에 필수는 아니다. 엔코더(18)를 생략한 택일적 구현에서, 오디오 정보 자체는 경로(19)를 따라 전달된다. 포맷터(20)는 경로(19)로부터 수신된 오디오 정보의 표현과 경로(15)로부터 수신된 추정된 세기의 표시값을 출력신호로 어셈블하고, 이는 전송 혹은 저장을 위해 경로(21)를 따라 보내진다.

어떤 도면에도 도시되지 않은 대응 수신기에서, 경로(21)를 따라 생성된 신호가 수신되고 처리하여 오디오 정보의 표현 및 추정된 세기의 표시값을 추출한다. 추정된 세기의 표시값은 오디오 정보의 표현으로부터 발생되는 오디오 신호의 신호 레벨들을 조절하는데 사용된다.

3. 세기 미터

도 4는 스피치 및 이외 다른 유형들의 오디오 자료를 포함한 오디오 신호 내 스피치에 대한 스피치 세기의 표시값을 제공하는데 사용될 수 있는 장치의 개략적인 블록도이다. 장치는 경로(11)로부터 오디오 신호의 구간을 나타내는 오디오 정보를 수신한다. 분류기(12) 및 세기 추정기(14)는 실질적으로 전술한 바와 동일하게 동작한다. 세기 추정기(14)에 의해 제공된 추정된 세기의 표시값은 경로(15)를 따라 전달된다. 이 표시값은 어떤 원하는 형태로 표시될 수도 있고, 혹은 후속 처리를 위해 또 다른 디바이스에 제공될 수도 있다.

D. 세그먼트 유별

본 발명은 근본적으로 오디오 정보의 세그먼트들을 스피치 유별을 포함한 두 개 혹은 그 이상의 유별로 분류할 수 있는 임의의 기술을 사용할 수 있다. 적합한 유별의 몇가지 예들이 위에 언급되었다. 바람직한 실시예서, 오디오 정보의 세그먼트들은 후술하는 어떤 형태의 기술을 사용하여 분류된다.

도 5는 바람직한 유별 기술에 따라 오디오 정보의 세그먼트들을 분류하는데 사용될 수 있는 장치의 개략적인 블록도이다. 샘플-레이트 변환기는 경로(11)로부터 오디오 정보의 디지털 샘플들을 수신하여 오디오 정보를 필요시 재-샘플링하여 명시된 레이트의 디지털 샘플들을 얻는다. 후술하는 구현에서, 명시된 레이트는 초당 16k 샘플들이다. 샘플 레이트 변환은 본 발명을 실시하는데 필요한 것은 아니나, 통상적으로, 입력 샘플 레이트가 오디오 정보를 분류하는데 필요한 것보다 높을 때 오디오 정보 샘플 레이트를 변환하는 것이 바람직하며 낮은 샘플 레이트는 유별 처리를 보다 효율적으로 수행될 수 있게 한다. 또한, 특징들을 추출하는 구성요소들의 구현은 통상 각 구성요소가 단지 한 샘플 레이트로 동작하게 설계된 경우 단순화될 수 있다.

도시된 구현에서, 오디오 정보의 특징들 혹은 특성들은 추출 구성요소들(31, 32, 33)에 의해 추출된다. 이에 택일적 구현에서, 사용가능한 처리 자원들에 의해 취급될 수 있는 하나의 특징만큼 적은 혹은 많은 특징들이 추출될 수 있다. 스피치 검출기(35)는 추출된 특징들을 수신하고 이들을 사용하여 오디오 정보의 세그먼트가 스피치로서 유별될 것인지를 판정한다. 특징 추출 및 스피치 검출을 이하 기 술한다.

1. 특징들

도 5에 도시된 특정한 구현에서, 예시 편의를 위해 오디오 정보로부터 단지 3개의 특징들을 추출하는 구성요소들이 도시되었다. 그러나, 바람직한 구현에서, 세그먼트 유별은 이하 기술되는 7 특징들에 근거한다. 각 추출 구성요소는 프레임들로 배열된 샘플 블록들에 대해 계산을 수행함으로써 오디오 정보의 특징을 추출한다. 7개의 특정 특징들 각각에 대해 사용되는 프레임 당 블록 크기 및 블록들의 수를 표 VI에 나타내었다.

[표 VI]

특징	블록크기 (샘플들)	블록길이 (msec)	프레임 당 블록
가중 스펙트럼 플럭스의 평균 제곱한 l₂-norm	1024	64	32
추정된 스펙트럼 파워 밀도에 의한 최적으로 부합되는 리그레시브 라인	512	32	64
휴기구간 카운트	256	16	128
제로 크로싱 레이트의 스큐 계수	256	16	128
제로 크로싱 레이트의 평균 대 중앙값	256	16	128
짧은 리듬 측정	256	16	128
긴 리듬 측정	256	16	128

이 구현에서, 각 프레임은 32,768 샘플들 또는 길이가 약 2.057초이다. 표에 나타낸 7 특징들 각각을 이하 기술한다. 다음 설명 전체를 통해, 한 블록의 샘플 수를 심볼 N으로 표기하며 프레임 당 블록들의 수를 심볼 M으로 표기한다.

a) 가중 스펙트럼 플럭스의 평균 제곱한 l ₂ -norm

가중 스펙트럼 플럭스의 평균 제곱한 l₂-norm은 보통 스피치가 빠르게 변하는 스펙트럼을 갖는다는 사실을 활용한다. 보통 스피치 신호들은 2가지 형태들, 즉 유성(voiced) 스피치라 하는, 음성과 같은 신호(tone-like signal)와 무성(unvoiced) 스피치라 하는, 잡음과 같은 신호 중 하나를 갖는다. 이들 두 형태들간에 천이는 스펙트럼에서 급격한 변화들을 야기한다. 또한, 유성 스피치의 기간들 동안에, 대부분의 화자들은, 강조, 혹은 언어습관을 위해, 혹은 변화들은 언어의 자연적인 부분이기 때문에, 피치를 변경한다. 음악과 같은, 스피치가 아닌 신호들도 급속한 스펙트럼 변화들을 가질 수 있지만 이들 변화들은 대개는 덜 빈번하다. 음악의 음성 세그먼트들도, 가수가 어떤 기간동안 동일한 빈도로 노래할 것이기 때문에 덜 빈번한 변화들은 갖는다.

가중 스펙트럼 플럭스의 평균 제곱한 l₂-norm을 계산하는 한 프로세스에서 제1 단계는 이산 푸리에 변환(DFT)와 같은 변환을 한 블록의 오디오 정보에 적용하여, 결과로 나타난 변환 계수들의 크기를 구한다. 한 블록의 샘플들은 변환을 적용하기에 앞서 해밍 윈도우와 같은 윈도우 함수 w[n]에 의해 가중치를 부여하는 것이 바람직하다. DFT 계수들의 크기는 다음 식에 나타낸 바와 같이 계산될 수 있다.

여기서 N= 블록 내 샘플들의 수, x[n]=블록 m 내 샘플 수 n, X_m[k]= 블록 m 내 샘플들에 대한 변환 계수 k이다.

다음 단계는 현재 블록 및 이전 블록의 평균 멱(power)으로부터 현재 블록에 대한 가중치 W를 계산한다. 샘플들 x[n]이 복소수 혹은 허수값들이 아닌 실수값을 갖는다면 다음 식에 나타낸 바와 같이 변환 계수들로부터, 파시벌의 이론을 사용하여, 평균 멱이 계산될 수 있다.

W_m = 현재 블록 m에 대한 가중치

다음 단계는 현재 블록의 스펙트럼 성분과 이전 블록의 스펙트럼 성분간 차이의 크기를 제곱하고, 그 결과를 식(2)에 따라 계산되는 현재 블록의 블록 가중치 W_m으로 나누어, 가중 스펙트럼 플럭스를 구한다. 이어서 l₂-norm 혹은 유클리드 거리를 계산한다. 가중 스펙트럼 플럭스 및 l₂-norm 계산들을 다음 식에 나타내었다.

여기서 ||l_m||= 블록 m에 대한 가중 스펙트럼 플럭스의 l₂-norm이다.

한 프레임의 블록들에 대한 특징은 프레임 내 블록들 각각에 대해 제곱한 I2-norm들의 합을 계산함으로써 얻어진다. 이 합을 다음 식에 나타내었다.

여기서 M = 프레임 내 블록들의 수이고, F₁(t) = 프레임 t에 대한 가중 스펙트럼 플럭스의 평균 제곱한 l₂-norm에 대한 특징이다.

b) 추정된 스펙트럼 파워 밀도를 통한 최적 부합의 리그레시브 라인의 스큐

로그 스펙트럼 파워 밀도에 의한 최적으로 부합되는 리그레시브 라인의 기울기는 신호의 스펙트럼 기울기 혹은 스펙트럼 강세의 추정을 제공한다. 신호가 저 주파수들에서 강세이면, 신호의 스펙트럼 형상을 근사화하는 선은 고 주파수들에서 아래쪽으로 기울고 선의 기술기는 음이다. 신호가 고 주파수들에서 강세이면, 신호의 스펙트럼 형상을 근사화하는 선은 고 주파수들에서 위쪽으로 기술어 선의 기울기는 양이다.

스피치는 유성 스피치의 구간들 동안엔 저 주파수들이 강세이며 무성 스피치의 구간들 동안엔 고 주파수들이 강세이다. 유성 스피치의 스펙트럼 형상을 근사화하는 선의 기울기는 음이고 무성 스피치의 스펙트럼 형상을 근사화하는 선의 형상은 양이다. 스피치는 주로 무성보단 유성이기 때문에, 스피치의 스펙트럼 형상을 근사화하는 선의 기울기는 대부분의 시간에서 음일 것이지만 양 기울기와 음 기울기간을 빠르게 전환한다. 결국, 선의 기울기의 분포는 음 값들쪽으로 강하게 스큐될 것이다. 음악 및 그외 유형들의 오디오 자료에 있어서 기술기의 분포는 보다 대칭적이다.

신호의 스펙트럼 형상을 근사화하는 선은 신호의 로그 스펙트럼 파워 밀도 추정을 통한 최적 부합의 리그레시브 라인을 계산함으로써 얻어질 수 있다. 신호의 스펙트럼 파워 밀도는 식(1)에 보인 것과 같은 변환을 사용하여 변환 계수들의 제곱을 계산함으로써 얻어질 수도 있다. 스펙트럼 파워 밀도에 대한 계산을 다음 식에 나타내었다.

이어서, 식(5)에서 계산된 파워 스펙트럼 밀도는 다음 식에 나타낸 바와 같이 로그-영역으로 변환된다.

이어서, 최적 부합의 리그레시브 라인의 기울기는 다음 식에 나타낸 바와 같이 계산되는데, 이 식은 최소 제곱방법으로부터 도출된다.

여기서 GM= 블록 m에 대한 리그레시브 계수이다.

프레임 t에 대한 특징은 다음 식에 주어진 바와 같이 프레임에 대한 스큐의 추정이다.

여기서 F₂(t)= 프레임 t에 대한 로그 스펙트럼 파워 밀드를 통한 최적 부합의 리그레시브 라인의 기울기에 대한 특징이다.

c) 휴지구간 카운트

휴지구간 카운트 특징은 오디오 파워가 거의 혹은 전혀 없는 신호의 휴지구간 혹은 짧은 구간들이 대개 스피치에는 있지만 다른 유형들의 오디오 자료에는 대 개는 이러한 휴지구간들이 없다는 사실을 활용한다.

특징 추출을 위한 제1 단계는 프레임 내 각 블록 m에서 오디오 정보의 파워 P[m]을 계산한다. 이것은 다음 식에 나타낸 바와 같이 하여 행해질 수 있다.

여기서 P[m]= 블록 m에서 계산된 파워이다.

제2 단계는 프레임 내 오디오 정보의 파워 P_F를 계산한다. 프레임 t 내에서 휴지구간들의 수에 대한 특징 F₃(t)은 각각의 파워 p[m]이 1/4P_F 이하인 프레임 내 블록들의 수와 같다. 1/4 값이 실험적으로 도출되었다.

d) 제로 크로싱 레이트의 스큐 계수

제로 크로싱 레이트는 오디오 정보로 표현된 오디오 신호가 시간 간격 내에서 제로를 통과하는 횟수이다. 제로 크로싱 레이트는 짧은 블록의 오디오 정보 샘플들에서 제로 크로싱 수를 카운트한 것으로부터 추정될 수 있다. 여기 기술된 구현에서, 블록들은 16msec에 256 샘플들의 기간을 갖는다.

개념적으로는 간단하나, 제로 크로싱 레이트로부터 도출되는 정보는 스피치가 오디오 신호에 있는지 여부에 대한 상당히 신뢰성 있는 표시를 제공할 수 있다. 스피치의 유성 부분들은 비교적 적은 제로 크로싱 레이트를 갖는 반면, 스피치의 무성 부분은 비교적 큰 제로 크로싱 레이트를 갖는다. 또한, 스피치는 통상 무성부분들보다 많은 유성 부분들 및 휴기구간들을 갖기 때문에, 제로 크로싱 레이트의 분포는 일반적으로 더 낮은 레이트들쪽으로 스큐된다. 프레임 t 내에 스큐의 표 시를 제공할 수 있는 한 특징은 다음 식으로부터 계산될 수 있는 제로 크로싱 레이트의 스큐 계수이다.

여기서 Z_m = 블록 m 내 제로 크로싱 카운트값이고,

F₄(t)=프레임 t에 대한 제로 크로싱 레이트의 스큐 계수의 특징이다.

e) 제로 크로싱 레이트의 평균 대 중앙값 비

프레임 t 내에 제로 크로싱 레이트들의 분포 스큐의 표시를 제공할 수 있는 또 다른 특징은 제로 크로싱 레이트의 평균 대 중앙값 비이다. 이것은 다음 식으로부터 얻어질 수 있다.

여기서, Z_median = 프레임 t 내의 모든 블록들에 대한 블록 제로 크로싱 레이트들의 중앙값이고, F₅(t) = 프레임 t에서 제로 크로싱 레이트의 평균 대 중앙값 비에 대한 특징이다.

f) 짧은 리듬 측정

앞에 기술한 특징들을 사용하는 기술들은 많은 유형들의 오디오 자료에서 스피치를 검출할 수 있으나, 이들 기술들은 소위 "랩(rap)" 및 대부분의 팝 음악과 같은 매우 리드미컬한 오디오 자료에선 종종 잘못 검출할 것이다. 오디오 정보의 세그먼트들은 매우 리드리컬한 자료를 검출하고 이러한 자료를 유별로부터 제거하거나 자료를 스피치로서 유별하는데 필요한 신뢰도 레벨을 높임으로써 보다 확실하게 스피치로서 유별될 수 있다.

짧은 리듬 측정은 다음 식에 나타낸 바와 같이 먼저 각 블록의 샘플들의 편차를 계산함으로써 프레임에 대해 계산될 수 있다.

여기서 σ² _x[m] = 블록 m 내 샘플들 x의 편차이고,

= 블록 m 내 샘플들 x의 평균이다.

제로-평균 시퀀스는 다음 식에 나타낸 바와 같이 프레임 내 모든 블록들에 대한 편차들로부터 도출된다.

여기서 σ[m] = 블록 m에 대한 제로-평균 시퀀스 내 원소이고,

= 프레임 내 모든 블록들에 대한 편차들의 평균이다.

제로-평균 시퀀스의 자기상관은 다음 식에 나타낸 바와 같이 하여 얻어진다.

여기서 A_t[l]은 프레임 t에 대해서 l의 블록 래그(lag)와의 자기상관 값이다.

짧은 리듬 측정에 대한 특징은 자기상관 스코어들의 최대 값으로부터 도출된다. 이 최대 스코어는 블록 래그가 l=0에 대한 스코어는 포함하지 않으므로, 최대 값은 블록 래그가 l ≥L에 대한 한 세트의 값들로부터 취해진다. 양(quantity) L은 예측된 가장 빠른 리듬의 구간을 나타낸다. 일 구현에서 L은 160 msec인 최소 구간을 나타내는 것인 10으로 설정된다. 특징은 블록 래그 l=0에 대한 자기상관 스코어로 최대 스코어를 나눔으로써 다음 식에 나타낸 바와 같이 하여 계산된다.

F₆(t) = 프레임 t의 짧은 리듬 측정에 대한 특징이다.

g) 긴 리듬 측정

긴 리듬 측정은 제로-평균 시퀀스 값들이 스펙트럼 가중치들로 대치되는 것을 제외하곤 짧은 리듬 측정에 대해 전술한 바와 유사하게 도출된다. 이들 스펙트럼 가중치들은 먼저 로그 스펙트럼 파워 밀도를 통한 최적 부합의 리그레시브 라인의 기울기의 스큐에 관련하여 기술한, 식(5) 및 식(6)로 위에서 나타낸 바와 같은 로그 파워 스펙트럼 밀도를 구함으로써 계산된다. 여기 기술된 구현에서, 긴 리듬 측정을 계산하기 위한 블록 길이는 기울이 스큐 계산에서 사용되는 블록 길이와는 같지 않다는 것을 지적해 두는 것이 도움이 될 수 있다.

다음 단계는 다음 식에 나타낸 바와 같이 각 블록에 대해 최대 로그-영역 파워 스펙트럼 값을 구한다.

여기서 O_m= 블록 m에서 최대 로그 파워 스펙트럼 값이다.

각 블록에 대한 스펙트럼 가중치는 (Omㆍα)인 임계값보다 큰 피크 로그-영역 파워 스펙트럼 값들의 수에 의해 결정된다. 이러한 결정은 다음 식으로 표현된다.

여기서 W[m] = 블록 m에 대한 스펙트럼 가중치이고,

sign(n) = +1 (n ≥0 ) 이고 -1( n < 0)이며

α = 실험으로 도출한 0.1인 상수이다.

각 프레임의 끝에서, 이전 프레임으로부터의 M 스펙트럼 가중치 시퀀스와 현 프레임으로부터의 M 스펙트럼 가중치 시퀀스를 서로 연결하여 2M 스펙트럼 가중치 시퀀스를 형성한다. 이어서, 이러한 긴 시퀀스의 자기상관은 다음 식에 따라 계산된다.

여기서 AL_t[l] = 프레임 t에 대한 자기상관 스코어이다.

긴 리듬 측정에 대한 특징은 자기상관 스코어들의 최대 값으로부터 도출된다. 이 최대 스커어는 블록 래그 l=0에 대한 스코어는 포함하지 않으므로, 최대 값은 블록 래그가 l≥ LL인 한 세트의 값들로부터 취해진다. 양(quantity) LL은 예상되는 가장 빠른 리듬 구간을 나타낸다. 여기 기술된 구현에서, LL은 10으로 설정된다. 특징은 최대 스코어를 블록 래그 l=0에 대한 자기상관 스코어로 나눔으로써 다음 식에 나타낸 바와 같이 하여 계산된다.

여기서 F₇(t) = 프레임 t에 대한 긴 리듬 측정에 대한 특징이다.

2. 스피치 검출

스피치 검출기(35)는 오디오 정보의 세그먼트가 스피치로서 분류되어야 할 것인지를 판정하기 위해 각 프레임에 대해 추출된 특징들을 결합한다. 특징들을 결합하는데 사용될 수 있는 한 방법은 한 세트의 단순 혹은 가(interim) 분류기들을 구현한다. 가 분류기는 위에서 기술된 특징들 중 하나를 임계값과 비교함으로써 바이너리 값을 계산한다. 이어서, 이 바이너리 값에 계수로 가중치를 부여한다. 각각의 가 분류기는 한 특징에 근거한 가(interim) 유별을 행한다. 하나 이상의 가 분류기에 의해 특정한 특징이 사용될 수도 있다. 가 분류기는 다음 식에 따라 수행되는 계산에 의해 구현될 수 있다.

C_j= 가 분류기 j에 의해 제공되는 바이너리 값의 유별;

c_j= 가 분류기 j에 대한 계수;

F_j= 오디오 정보로부터 추출된 특징 I;

Th_j= 가 분류기 j에 대한 임계값이다.

이러한 특정의 구현에서, 가 유별 Cj=1은 가 분류기 j에서, 오디오 프레임의 특정의 프레임이 스피치로서 분류될 것이라는 결정을 지지하려 함을 나타낸다. 가 유별 Cj=-1은 가 분류기 j에서 오디오 정보의 특정의 프레임이 스피치로서는 분류되지 않을 것이라는 결정을 지원하려 함을 나타낸다.

표 VII의 항목들은 오디오 정보의 프레임들을 유별하기 위한 한 구현에서 사용될 수 있는 몇몇의 가 분류기들에 대한 계수 및 임계값들 및 적합한 특징을 나타낸 것이다.

[표 VII]

마지막의 유별은 가 유별들의 조합에 근거한다. 이것은 다음 식에 나타낸 바와 같이 하여 행해질 수 있다.

여기서 C_final = 한 프레임의 오디오 정보의 마지막의 유별; 및

J= 유별하는데 사용되는 가 분류기들의 수이다.

스피치 검출기의 신뢰성은 가 분류기들의 선택을 최적화하고, 이들 가 분류기들에 대한 계수들 및 임계값들을 최적화함으로서 향상될 수 있다. 이러한 최적화는 앞서 인용한 미국특허 5,819,247, 및 Schapire, "A Brief Introduction to Boosting, " Proc. of the 16th Int. Joint Conf. on Artificial Intelligence, 1999에 개시된 기술들을 포함한 다양한 방법들로 수행될 수 있다.

또 다른 구현에서, 스피치 검출은 바이너리 값의 결정에 의해 나타나는 것이 아니라 유별의 등급 측정에 의해 나타난다. 측정은 스피치 분류에서 스피치의 추정된 확률 혹은 신뢰도 레벨을 나타낼 수도 있을 것이다. 이것은 예를 들면 식(21)에 나타낸 바와 같은 바이너리 값의 결과를 구하는 것이 아니라 가 유별들의 합으로부터 최종 유별을 얻는 것과 같이, 다양한 방법들로 행해질 수 있다.

3. 샘플 블록들

위에 기술된 구현은 고정된 길이의 연속하고, 겹쳐있지 않은 블록들로부터 특징들을 추출한다. 이에 택일적으로, 유별 기술은 연속하고 겹쳐있지 않은 가변길이의 블록들에, 고정된 혹은 가변길이의 겹쳐져 있는 블록들에, 혹은 고정된 혹은 가변길이의 연속하지 않은 블록들에 적용될 수도 있다. 예를 들면, 블록 길이는 각 블록 내 오디오 정보가 보다 일정하게 있도록 천이구간, 휴지구간 혹은, 오 디오 에너지가 거의 혹은 전혀 없는 구간들에 따라 이에 맞게 정해질 수 있다. 프레임 길이들은 또한 프레임 당 블록들의 수를 가변시킴으로써 및/또는 프레임 내 블록들의 길이들을 가변시킴으로써 맞게 정해질 수도 있다.

E. 세기 추정

세기 추정기(14)는 오디오 정보의 세그먼트들을 검사하여 스피치 세그먼트들에 대해 추정된 세기를 구한다. 일 실시예에서, 세기는 스피치 세그먼트로서 분류된 각 프레임에 대해 추정된다. 세기는 근본적으로 원하는 어떤 기간에 대해 추정될 수도 있다.

또 다른 구현에서, 추정 프로세스는 프로세스를 시작하라는 요청에 응하여 시작하여 프로세스 중지 요청이 수신될 때까지 계속된다. 예를 들면, 수신기(4)에서, 이들 요청들은 경로(3)로부터 수신된 신호 내 특정 코드들에 의해 전해질 수 있다. 아니면, 이들 요청들은 스위치 혹은 세기를 추정하는데 사용되는 장치 상에 설치된 다른 제어의 조작에 의해 제공될 수도 있다. 세기 추정기(14)로 하여금 처리를 보류해 두고 현 추정을 유지하게 하는 추가의 제어가 제공될 수도 있다.

일 구현에서, 세기는 스피치로서 분류된 오디오 정보의 모든 세그먼트들에 대해 추정된다. 그러나, 대체로, 세기는 예를 들면 임계값보다 큰 오디오 에너지 레벨을 갖는 세그먼트들과 같이, 선택된 스피치 세그먼트들만에 대해 추정될 수도 있을 것이다. 분류기(12)에서 저 에너지 세그먼트들을 스피치가 아닌 것으로서 분류하게 한 후 모든 스피치 세그먼트들에 대해 세기를 추정하게 함으로써 유사한 효과가 얻어질 수도 있을 것이다. 다른 변형예들이 가능하다. 예를 들면, 추정된 세기 계산에서 이전의 세그먼트들에는 보다 작은 가중치를 부여할 수 있다.

또 다른 구현에서, 세기 추정기(14)는 스피치가 아닌 세그먼트들 중 적어도 일부에 대해 세기를 추정한다. 스피치가 아닌 세그먼트들에 대해 추정된 세기를 오디오 정보 구간에 대한 세기의 계산에서 사용할 수도 있는데, 그러나, 이들 계산들은 스피치 세그먼트들에 대한 추정들에 응답해야 한다. 스피치가 아닌 세그먼트들에 대한 추정은 세그먼트들에 대한 유별의 등급 측정을 제공하는 구현들에서 사용될 수도 있다. 오디오 정보 구간에 대한 세기의 계산들은 유별의 등급 측정을 행하도록 스피치 세그먼트 및 스피치가 아닌 세그먼트에 대한 추정된 세기에 응할 수 있다. 예를 들면, 등급 측정은 오디오 정보의 세그먼트가 스피치를 포함한다는 신뢰도의 표시값을 나타낼 수도 있다. 세기 추정들은 추정된 세기 계산에서 이들 세그먼트들에 보다 큰 가중치를 부여함으로써 보다 높은 레벨의 신뢰도로 세그먼트들에 더욱 응답하게 할 수 있다.

세기는 전술한 것들을 포함하여 다양한 방법들로 추정될 수 있다. 어떠한 특정의 추정 기술도 본 발명에 중요하진 않지만, 소수의 계산자원들을 요하는 보다 간단한 기술이 실제적 구현에선 통상 바람직할 것으로 여겨진다.

F. 구현

본 발명의 여러 가지 면들은 범용 컴퓨터 시스템 혹은 범용 컴퓨터 시스템에서 볼 수 있는 것들과 유사한 구성요소들에 결합된 이를테면 디지털 신호 프로세서(DSP) 회로와 같은 보다 전용의 구성요소들을 포함하는 어떤 다른 장치 내 소프트웨어를 포함한 다양한 방법들로 구현될 수 있다. 도 6은 오디오 엔코딩 송신기 혹 은 오디오 디코딩 수신기에 본 발명의 다양한 면들을 구현하는데 사용될 수 있는 디바이스(70)의 블록도이다. DSP(72)는 계산자원들을 제공한다.

RAM(73)은 신호처리를 위해 DSP(72)에 의해 사용되는 시스템 랜덤 액세스 메모리(RAM)이다. RAOM(74)는 디바이스(70)를 동작시키는데 필요한 프로그램들을 저장하기 위한 이를테면 독출전용 메모리(ROM)와 같은 영구 저장장치의 어떤 형태를 나타낸다. I/O 제어장치(75)는 통신채널들(76, 77)로 신호들을 송수신하기 위한 인터페이스 회로를 나타낸다. 아날로그-디지털 변환기들 및 디지털-아날로그 변환기들은 아날로그 오디오 신호들을 수신 및/또는 송신하는데 요구될 때 I/O 제어장치(75)에 포함될 수 있다. 도시된 실시예에서, 모든 주요 시스템의 구성요소들은 하나 이상의 물리적 버스를 나타낸 버스(71)에 접속되는데, 버스구조는 본 발명 구현에 필요한 것은 아니다.

범용 컴퓨터 시스템에서 구현되는 실시예들에서, 이를테면 키보드 혹은 마우스 및 디스플레이와 같은 디바이스들에 인터페이스를 위해서, 그리고 자기테이프 혹은 디스크와 같은 기억매체 혹은 광학 매체를 구비한 저장 디바이스를 제어하기 위한 추가 구성요소들이 포함될 수도 있다. 저장매체는 운영시스템들, 유티릴티들 및 애플리케이션들을 위한 명령들의 프로그램들을 기록하는데 사용될 수 있고, 본 발명의 여러 가지 면들을 구현하는 프로그램들의 실시예들을 포함할 수도 있다.

본 발명을 실시하는데 필요한 기능들은 이산 논리 구성요소들, 하나 혹은 그 이상의 ASIC 및/또는 프로그램으로 제어되는 프로세서들을 포함한 다양한 방법들로 구현되는 전용의 구성요소들에 의해 수행될 수 있다. 이들 구성요소들이 구현되는 방식은 본 발명에 중요한 것은 아니다.

본 발명의 소프트웨어 구현들은 이를테면 초음파 내지 자외선 주파수들을 포함한 스펙트럼 전체를 통해 기저대 혹은 변조된 통신 경로들과 같은 다양한 기계 독출가능 매체들에 의해, 혹은 자기 테이프, 자기 디스크 및 광학 디스크를 포함한 근본적으로 어떤 자기 혹은 광학 기록기술을 사용하여 정보를 전달하는 것들을 포함한 저장매체들에 의해 전달될 수 있다. ROM 혹은 RAM의 다양한 형태로 실현되는 프로그램들에 의해 제어되는 ASIC, 범용 집적회로, 마이크로프로세서들과 같은 처리 회로에 의한 컴퓨터 시스템(70)의 여러 가지 구성요소들, 및 그 외 기술들로 여러 가지 면들이 구현될 수 있다.

Claims

신호처리 방법에 있어서,

입력신호를 수신하고, 오디오 신호 구간을 나타내는 오디오 정보를 상기 입력신호로부터 얻는 단계;

상기 오디오 정보를 조사하여, 상기 오디오 정보의 세그먼트들을, 스피치로서 분류되는 오디오 신호 부분들을 나타내는 스피치 세그먼트들로서 혹은 스피치로서 분류되지 않는 오디오 신호 부분들을 나타내는 스피치가 아닌 세그먼트들로서 분류하는 단계, 세그먼트로 나타내어진 오디오 신호의 각 부분은 각각의 세기를 가지며, 상기 스피치 세그먼트들의 세기는 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 세기보다 작으며;

상기 오디오 정보를 조사하여, 상기 스피치 세그먼트들의 추정된 세기를 구하는 단계; 및

상기 스피치가 아닌 세그먼트들인 것으로 나타내어진 오디오 신호 부분들의 세기보다는 상기 스피치 세그먼트들의 상기 추정된 세기에 더 응답하는 제어정보를 생성함으로써 상기 오디오 신호 구간의 세기의 표시값을 제공하는 단계를 포함하는, 신호처리방법.
제1항에 있어서, 상기 스피치 세그먼트들의 세기의 변화를 감소시키기 위해서 상기 제어정보에 응하여 상기 오디오 신호 구간의 세기를 조절하는 단계를 포함 하며, 상기 하나 혹은 그 이상의 스피치가 아닌 세그먼트들로 나타내어진 오디오 신호 부분들의 세기는 스피치 세그먼트들로 나타내어진 오디오 신호 부분들의 세기가 증가될 때 증가되는 것인, 신호처리방법.
제1항에 있어서, 상기 오디오 정보의 표현과 상기 제어정보를 출력신호로 어셈블하여 상기 출력신호를 전송하는 단계를 포함하는, 신호처리방법.
제1항 또는 제2항에 있어서, 상기 스피치 세그먼트들로 나타내어진 상기 오디오 신호를 주파수 가중한 것의 평균 파워를 계산함으로써 상기 스피치 세그먼트들의 추정된 세기를 구하는, 신호처리방법.
제1항 또는 제2항에 있어서, 세기의 사이코어쿠스틱 모델을 상기 오디오 정보에 적용함으로써 상기 스피치 세그먼트들의 추정된 세기를 구하는, 신호처리방법.
제1항 또는 제2항에 있어서, 상기 오디오 신호의 복수의 특성들을 상기 오디오 정보로부터 도출하고, 각각의 중요도 측정에 의해 각 특성에 가중치를 부여하고, 상기 가중된 특성들의 조합에 따라 상기 세그먼트들을 분류함으로써, 세그먼트들을 분류하는 것인, 신호처리방법.
제1항 또는 제2항에 있어서, 임계값 미만의 오디오 에너지 측정을 갖는 오디오 신호 구간들 동안에 대해서만 세기를 조종함으로써 상기 오디오 신호 구간의 세기를 조절하는, 신호처리방법.
제1항 또는 제2항에 있어서, 상기 오디오 신호 구간의 세기의 표시값은 상기 스피치 세그먼트들의 추정된 세기에만 응답하는, 신호처리방법..
제1항 또는 제2항에 있어서, 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 세기를 추정하는 것을 포함하며, 상기 오디오 신호 구간의 세기의 표시값은 상기 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 추정된 세기보다는 상기 스피치 세그먼트들의 추정된 세기에 더 응답하는, 신호처리방법.
제1항 또는 제2항에 있어서, 각각의 세그먼트로 나타내어진 상기 오디오 신호가 스피치의 특성을 갖는 정보를 나타내는 스피치 측정을 제공하는 단계; 및 상기 각각의 세그먼트들의 상기 스피치 측정들에 따라 각각의 세그먼트들의 추정된 세기에 응답하게, 상기 세기의 표시값을 제공하는 단계를 포함하는, 신호처리방법.
제1항 또는 제2항에 있어서, 세그먼트들의 시간순서에 따라 각각의 세그먼트들의 추정된 세기에 응답하게 세기의 표시값을 제공하는 것을 포함하는, 신호처리방법.
제1 또는 제2항에 있어서, 상기 오디오 정보의 특성들에 응하여 오디오 정보의 세그먼트들의 길이들을 맞추는 단계를 포함하는, 신호처리방법.
입력신호를 수신하고, 오디오 신호 구간을 나타내는 오디오 정보를 상기 입력신호로부터 얻는 단계;

상기 오디오 정보를 조사하여, 상기 오디오 정보의 세그먼트들을, 스피치로서 분류되는 오디오 신호 부분들을 나타내는 스피치 세그먼트들로서 혹은 스피치로서 분류되지 않는 오디오 신호 부분들을 나타내는 스피치가 아닌 세그먼트들로서 분류하는 단계, 세그먼트로 나타내어진 오디오 신호의 각 부분은 각각의 세기를 가지며, 상기 스피치 세그먼트들의 세기는 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 세기보다 작으며;

상기 오디오 정보를 조사하여, 상기 스피치 세그먼트들의 추정된 세기를 구하는 단계; 및

상기 스피치가 아닌 세그먼트들인 것으로 나타내어진 오디오 신호 부분들의 세기보다는 상기 스피치 세그먼트들의 상기 추정된 세기에 더 응답하는 제어정보를 생성함으로써 상기 오디오 신호 구간의 세기의 표시값을 제공하는 단계를 포함하는 신호처리 방법을 수행하게 디바이스에 의해 실행될 수 있는 명령들의 프로그램을 전달하는 것이며, 상기 디바이스에 의해 독출가능한 것인, 매체.
제13항에 있어서, 상기 방법은, 상기 스피치 세그먼트들의 세기의 변화를 감소시키기 위해서 상기 제어정보에 응하여 상기 오디오 신호 구간의 세기를 조절하는 단계를 포함하며, 상기 하나 혹은 그 이상의 스피치가 아닌 세그먼트들로 나타내어진 오디오 신호 부분들의 세기는 스피치 세그먼트들로 나타내어진 오디오 신호 부분들의 세기가 증가될 때 증가되는 것인, 매체.
제13항에 있어서, 상기 방법은 상기 오디오 정보의 표현과 상기 제어 정보를 출력신호로 어셈블하여 상기 출력신호를 전송하는 단계를 포함하는, 매체.
제13항 또는 제14항에 있어서, 상기 방법은 상기 스피치 세그먼트들로 나타내어진 상기 오디오 신호를 주파수 가중한 것의 평균 파워를 계산함으로써 상기 스피치 세그먼트들의 추정된 세기를 구하는, 매체.
제13항 또는 제14항에 있어서, 상기 방법은, 세기의 사이코어쿠스틱 모델을 상기 오디오 정보에 적용함으로써 상기 스피치 세그먼트들의 추정된 세기를 구하는, 매체.
제13항 또는 제14항에 있어서, 상기 방법은, 상기 오디오 신호의 복수의 특성들을 상기 오디오 정보로부터 도출하고, 각각의 중요도 측정에 의해 각 특성에 가중치를 부여하고, 상기 가중된 특성들의 조합에 따라 상기 세그먼트들을 분류함 으로써, 세그먼트들을 분류하는 것인, 매체.
제13항 또는 제14항에 있어서, 상기 방법은, 임계값 미만의 오디오 에너지 측정을 갖는 오디오 신호 구간들 동안에 대해서만 세기를 조종함으로써 상기 오디오 신호 구간의 세기를 조절하는, 매체.
제13항 또는 제14항에 있어서, 상기 오디오 신호 구간의 세기의 표시값은 상기 스피치 세그먼트들의 추정된 세기에만 응답하는, 매체.
제13항 또는 제14항에 있어서, 상기 방법은, 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 세기를 추정하는 것을 포함하며, 상기 오디오 신호 구간의 세기의 표시값은 상기 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 추정된 세기보다는 상기 스피치 세그먼트들의 추정된 세기에 더 응답하는, 매체.
제13항 또는 제14항에 있어서, 상기 방법은, 각각의 세그먼트로 나타내어진 상기 오디오 신호가 스피치의 특성을 갖는 정도를 나타내는 스피치 측정을 제공하는 단계; 및 상기 각각의 세그먼트들의 상기 스피치 측정들에 따라 각각의 세그먼트들의 추정된 세기에 응답하게, 상기 세기의 표시값을 제공하는 단계를 포함하는, 매체.
제13항 또는 제14항에 있어서, 상기 방법은, 세그먼트들의 시간순서에 따라 각각의 세그먼트들의 추정된 세기에 응답하게 세기의 표시값을 제공하는 것을 포함하는, 매체.
제13항 또는 제14항에 있어서, 상기 방법은, 상기 오디오 정보의 특성들에 응하여 오디오 정보의 세그먼트들의 길이들을 맞추는 단계를 포함하는, 매체.
신호 처리 장치에 있어서,

입력신호를 수신하는 입력단말;

메모리; 및 상기 입력단말 및 상기 메모리에 결합된 처리회로를 포함하고, 상기 처리회로는,

입력신호를 수신하고, 오디오 신호 구간을 나타내는 오디오 정보를 상기 입력신호로부터 얻고;

상기 오디오 정보를 조사하여, 상기 오디오 정보의 세그먼트들을, 스피치로서 분류되는 오디오 신호 부분들을 나타내는 스피치 세그먼트들로서 혹은 스피치로서 분류되지 않는 오디오 신호 부분들을 나타내는 스피치가 아닌 세그먼트들로서 분류하는 것으로, 세그먼트로 나타내어진 오디오 신호의 각 부분은 각각의 세기를 가지며, 상기 스피치 세그먼트들의 세기는 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 세기보다 작으며;

상기 오디오 정보를 조사하여, 상기 스피치 세그먼트들의 추정된 세기를 구하고;

상기 스피치가 아닌 세그먼트들인 것으로 나타내어진 오디오 신호 부분들의 세기보다는 상기 스피치 세그먼트들의 상기 추정된 세기에 더 응답하는 제어정보를 생성함으로써 상기 오디오 신호 구간의 세기의 표시값을 제공하도록 된 것인, 신호처리장치.
제25항에 있어서, 상기 처리회로는 상기 스피치 세그먼트들의 세기의 변화를 감소시키기 위해서 상기 제어정보에 응하여 상기 오디오 신호 구간의 세기를 조절하게 한 것으로, 상기 하나 혹은 그 이상의 스피치가 아닌 세그먼트들로 나타내어진 오디오 신호 부분들의 세기는 스피치 세그먼트들로 나타내어진 오디오 신호 부분들의 세기가 증가될 때 증가되는 것인, 신호처리장치.
제25항에 있어서, 상기 처리회로는 상기 오디오 정보의 표현과 상기 제어 정보를 출력신호로 어셈블하여 상기 출력신호를 전송하도록 된 것인, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 상기 스피치 세그먼트들로 나타내어진 상기 오디오 신호를 주파수 가중한 것의 평균 파워를 계산함으로써 상기 스피치 세그먼트들의 추정된 세기를 구하도록 된 것인, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 세기의 사이코어쿠스틱 모델 을 상기 오디오 정보에 적용함으로써 상기 스피치 세그먼트들의 추정된 세기를 구하도록 된, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 상기 오디오 신호의 복수의 특성들을 상기 오디오 정보로부터 도출하고, 각각의 중요도 측정에 의해 각 특성에 가중치를 부여하고, 상기 가중된 특성들의 조합에 따라 상기 세그먼트들을 분류함으로써, 세그먼트들을 분류하는 것인, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 임계값 미만의 오디오 에너지 측정을 갖는 오디오 신호 구간들 동안에 대해서만 세기를 조종함으로써 상기 오디오 신호 구간의 세기를 조절하는, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 오디오 신호 구간의 세기의 표시값은 상기 스피치 세그먼트들의 추정된 세기에만 응답하는, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 세기를 추정하는 것을 포함하며, 상기 오디오 신호 구간의 세기의 표시값은 상기 하나 혹은 그 이상의 스피치가 아닌 세그먼트들의 추정된 세기보다는 상기 스피치 세그먼트들의 추정된 세기에 더 응답하는, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 각각의 세그먼트로 나타내어진 상기 오디오 신호가 스피치의 특성을 갖는 정보를 나타내는 스피치 측정을 제공하며; 상기 각각의 세그먼트들의 상기 스피치 측정들에 따라 각각의 세그먼트들의 추정된 세기에 응답하기 위해, 상기 세기의 세기값을 제공하도록 된 것인, 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 세그먼트들의 시간순서에 따라 각각의 세그먼트들의 추정된 세기에 응답하게 세기의 표시값을 제공하도록 된 신호처리장치.
제25항 또는 제26항에 있어서, 상기 처리회로는 상기 오디오 정보의 특성들을 검출하고 검출된 특성들에 응하여 오디오 정보의 세그먼트들의 길이들을 맞추도록 된 것인, 신호처리장치.