KR20120094892A

KR20120094892A - 손상된 오디오 신호의 복구

Info

Publication number: KR20120094892A
Application number: KR1020127001822A
Authority: KR
Inventors: 마이클 엠. 굿윈; 카를로 머지아
Original assignee: 오디언스 인코포레이티드
Priority date: 2009-06-29
Filing date: 2010-06-21
Publication date: 2012-08-27
Also published as: JP2013527479A; WO2011002489A1; TW201113873A; FI20110428L; US8908882B2; US20110142257A1

Abstract

오디오 신호의 손상된 부분들이 검지되고 복구된다. 오디오 신호는 오디오 입력 장치로부터 수신될 수 있다. 오디오 신호는 다수의 순차적 프레임을 포함할 수 있다. 오디오 신호에 포함된 하나 이상의 손상된 프레임이 식별될 수 있다. 손상되지 않은 프레임을 근사하고 각각의 손상된 프레임에 대응하는 프레임이 구축될 수 있다. 각각의 손상된 프레임은 복구된 오디오 신호를 생성하기 위해 대응하는 손상된 프레임으로 대체될 수 있다. 복구된 오디오 신호는 오디오 출력 장치를 통해 출력될 수 있다.

Description

손상된 오디오 신호의 복구{REPARATION OF CORRUPTED AUDIO SIGNALS}

본 발명은 일반적으로 오디오 처리에 관한 것이다. 특히, 본 발명은 손상된 오디오 신호를 복구하는 것에 관한 것이다.

오디오 신호는 일련의 프레임 또는 기타 전송 단위를 포함할 수 있다. 오디오 신호는 그 오디오 신호에 포함된 하나 이상의 프레임이 손상되었을 때 손상될 수 있다. 프레임은 대개 시간 및/또는 주파수에서 로컬라이징된 다양한 이벤트의 결과로서 손상될 수 있다. 이러한 이벤트의 예로는 비정적 노이즈(non-stationary noise)(예를 들면, 충격 노이즈, 키보드 클릭, 문 닫는 소리, 등), 오디오 신호를 전달하는 통신 네트워크에서의 패킷 손실, 부정확한 노이즈 또는 에코 필터링에 의해 발생된 노이즈 버스트 누설, 및 스피치 컴포넌트와 같은 원하는 신호 컴포넌트의 오버 서프레션(oversuppression)을 포함한다. 이러한 이벤트는 원하는 신호 컴포넌트들이 주어진 오디오 신호의 하나 이상의 프레임에서 손실되거나 또는 심각하게 손상되기 때문에 일반적으로 '드롭아웃'이라고 할 수 있다.

텔레커뮤니케이션과 같은 다수의 애플리케이션에서, 오디오 신호에서의 손상은 문제점 또는 실수, 또는 더 나쁘면 중요한 통신의 급격한 장애가 될 수 있다. 노이즈 억제 기능을 가진 시스템에서 조차도, 이러한 노이스 서프레서(suppressor)는 드롭아웃과 같은 높은 비정적인 노이즈 이벤트를 추적하기에는 일반적으로 너무 느리기 때문에 사용자에 의해 처리된 신호에서 손상된 프레임이 들릴수 있다. 따라서, 손상된 프레임에 의해 손상되는 오디오 신호를 복구할 필요성이 있다.

본 기술의 실시예는 손상된 오디오 신호가 복구될 수 있도록 한다.

제 1 청구된 실시예에서, 손상된 오디오 신호를 복구하는 방법이 개시된다. 본 방법은 오디오 입력 장치로부터 오디오 신호를 수신하는 단계를 포함한다. 상기 오디오 신호는 복수의 순차적 프레임을 포함한다. 그런다음 복수의 순차적 프레임에서 손상된 프레임이 식별된다. 손상된 프레임에 해당하는 프레임이 구축된다. 구축된 프레임은 손상되지 않은 프레임에 근사한다. 손상된 프레임은 복구된 오디오 신호를 생성하기 위해 대응하는 구축된 프레임에 의해 대체된다. 복구된 오디오 신호는 오디오 출력 장치를 통해 출력된다.

제 2 청구된 실시예에서, 시스템이 제시된다. 시스템은 검출 모듈, 구축 모듈, 복구 모듈, 및 통신 모듈을 포함한다. 이들 모듈은 메모리에 저장되고 그에 대한 속성인 기능을 유발시키기 위해 프로세서에 의해 실행된다. 검출 모듈은 수신된 오디오 신호에 포함된 하나 이상의 손상된 프레임을 식별하기 위해 실행될 수 있다. 구축 모듈은 하나 이상의 손상된 프레임 각각에 대응하는 프레임을 구축하도록 실행될 수 있다. 각각의 구축된 프레임은 손상되지 않은 프레임에 근사할 수 있다. 복구 모듈은 복구된 오디오 신호를 생성하기 위해 대응하는 구축된 프레임으로 하나 이상의 손상된 프레임 각각을 대체하도록 실행될 수 있다. 통신 모듈은 오디오 출력 장치를 통해 복구된 오디오 신호를 출력하도록 실행될 수 있다.

제 3 청구된 실시예는 그 위에서 구현되는 프로그램을 포함하는 컴퓨터판독 가능한 저장 매체를 제시한다. 프로그램은 손상된 오디오 신호들을 복구하기 위한 방법을 실시하도록 프로세서에 의해 실행가능하다. 프로그램은 프로세서로 하여금 오디오 입력 장치로부터 오디오 신호를 수신할 수 있도록 실행될 수 있다. 오디오 신호는 복수의 순차적 프레임을 포함할 수 있다. 오디오 신호는 복수의 순차적 프레임을 포함할 수 있다. 하나 이상의 손상된 프레임이 오디오 신호에서 식별될 수 있다. 하나 이상의 손상된 프레임은 연속적(consecutive)이 될 수 있다. 하나 이상의 손상된 프레임 각각에 대응하는 프레임이 구축될 수 있다. 각각의 구축된 프레임은 손상되지 않은 프레임을 근사한다. 프로그램을 실행함으로써, 프로세서는 복구된 오디오 신호를 생성하고 오디오 출력 장치를 통해 복구된 오디오 신호를 출력하도록 하나 이상의 손상된 프레임 각각을 대응하는 구축된 프레임으로 대체할 수 있다.

본 발명에 의하면, 손상된 프레임에 의해 손상되는 오디오 신호를 복구할 수 있다.

도 1은 본 기술의 실시예를 실시하는 예시적인 환경의 블록도이다.
도 2는 예시적인 디지털 장치의 블록도이다.
도 3은 예시적인 신호 처리 엔진의 블록도이다.
도 4는 손상된 오디오 신호의 예시적인 복구를 도시한다.
도 5a 및 5b는 각각 예시적인 실시예에 따라 신호 처리 엔진에서의 상이한 신호 경로를 도시한다.
도 6은 신호 처리 엔진에 포함된 검출 모듈의 예시적인 프로세스 흐름을 도시한다.
도 7은 손상된 오디오 신호를 복구하기 위한 예시적인 방법의 플로우차트이다.

본 기술은 손상된 오디오 신호를 복구한다. 오디오 신호의 손상된 영역(예를 들면 하나 이상의 연속적인 프레임)이 검출될 수 있다. 손상된 영역이 검출되면, 상기 손상된 영역에 인접한 손상되지않은 영역으로부터 정보가 판정될 수 있다. 판정된 정보는 그의 새롭게 구축된 프레임 또는 부분으로서 상기 손상된 영역을 재합성(resynthesize)하도록 이용되어, 오디오 신호를 복구할 수 있다.

도 1을 참조하면, 본 기술의 실시예를 실시하기 위한 예시적인 환경(100)의 블록도가 도시된다. 도시된 바와 같이, 환경(100)은 사용자(105), 디지털 장치(110), 및 노이즈 소스(115)를 포함한다. 사용자(105) 또는 일부 기타 오디오 소스는 디지털 장치(110)로 오디오 신호를 제공할 수 있다. 추가로, 오디오 신호가 통신 네트워크(도시되지 않음)를 통해 상기 디지털 장치(110)와 통신하는 또다른 디지털 장치에 의해 상기 디지털 장치(110)로 제공될 수 있다. 예를 들면, 디지털 장치(110)는 사용자 또는 다른 전화기로부터의 오디오 신호를 수신할 수 있는 전화기를 포함할 수 있다. 디지털 장치(110)는 도 2와 함께 더 상세히 기술된다.

노이즈 소스(115)는 디지털 장치(110)에 의해 수신될 수 있는 노이즈를 도입한다. 이러한 노이즈는 사용자(105) 또는 기타 오디오 소스에 의해 제공된 오디오 신호를 손상시킬 수 있다. 노이즈 소스(115)가 도 1에서 단일한 위치로부터 발생하는 것으로 도시되었지만, 노이즈 소스(115)는 하나 이상의 위치로부터의 임의의 소리를 포함하고, 반향 및 에코를 포함할 수 있다. 노이즈 소스(115)는 정적 노이즈, 비정적 노이즈, 또는 이들 정적 노이즈와 비정적 노이즈 모두의 조합이 될 수 있다. 오디오 신호는 노이즈 소스(115) 이외의 다른 원인에 의해 손상될 수 있다는 것에 주의할 필요가 있다. 예를 들면, 오디오 신호는 네트워크를 통한 전송 동안 또는 오디오 신호에 포함된 정보가 손실되는 패킷 손실 또는 기타 신호 손실 메커니즘에 의한 것과 같은 처리 동안 손상될 수 있다.

도 2는 예시적인 디지털 장치(110)의 블록도이다. 도시된 바와 같은 디지털 장치(110)는 프로세서(205), 메모리(210), 입력 장치(215), 출력 장치(220), 및 그들 사이의 통신을 보조하는 버스(225)를 포함한다. 본 기술을 설명하기 위해 필수적이지 않은 기타 다양한 컴포넌트(도시되지 않음)들이 또한 예시적인 실시예에 따라 디지털 장치(110)에 포함될 수 있다. 도시된 바와 같이, 메모리(210)는 신호 처리 엔진(230)을 포함하고, 이는 도 3과 연결하여 더 상세히 논의된다. 다양한 실시예에 따라, 디지털 장치(110)는 전화(예를 들면, 이동 전화, 스마트폰, 회의 전화, 및 지상통신 전화), 텔레커뮤니케이션 액세서리(예를 들면, 핸드 프리 헤드셋 및 이어 버드), 핸드헬드 트랜스시버(예를 들면, 워키토키), 오디오 레코딩 시스템 등과 같은 오디오 정보 또는 신호를 수신하고 선택적으로 전송하는 임의의 장치를 포함할 수 있다.

프로세서(205)는 상술한 또는 그에 연관된 기능을 실시하기 위한 명령어 및/또는 프로그램을 실행할 수 있다. 이러한 명령어는 메모리(210)에 저장될 수 있다. 프로세서(205)는 마이크로컨트롤러, 마이크로프로세서, 또는 중앙처리장치를 포함할 수 있다. 일부 실시예에서, 프로세서는 일부의 온칩 ROM 및/또는 RAM을 포함할 수 있다. 이러한 온칩 ROM 및 RAM은 메모리(210)를 포함할 수 있다.

메모리(210)는 컴퓨터 판독가능한 저장 매체를 포함한다. 일반적인 형태의 컴퓨터 판독가능한 저장 매체는 예를 들면, 플로피 디스크, 플렉서블 디스크, 하드디스크, 자기테이프, 임의의 기타 자기 매체, CD-ROM 디스크, 디지털 비디오 디스크(DVD), 및 NAND 플래시 및 NOR 플래시와 같은 비휘발성 메모리를 포함한다. 추가로, 메모리(210)는 그것들이 가용하게 되는 기타 메모리 기술을 포함할 수 있다.

입력 장치(215)는 오디오 신호를 수신할 수 있는 임의의 장치를 포함할 수 있다. 예시적인 실시예에서, 입력 장치(215)는 마이크로폰 또는 환경(100)으로부터의 가청 소리를 오디오 신호로 변환할 수 있는 기타 전기음향 장치를 포함한다. 입력 장치(215)는 또한 통신 네트워크를 통해 다른 장치로부터 오디오 신호를 수신하는 송신 리시버를 포함할 수 있다. 이러한 통신 네트워크는 무선 네트워크, 유선 네트워크, 또는 그의 임의의 조합을 포함할 수 있다.

출력 장치(220)는 오디오 신호를 출력할 수 있는 임의의 장치를 포함할 수 있다. 예를 들면, 출력 장치(220)는 스피커 또는 환경(100)에서 오디오 신호를 가청하도록 만들수 있는 기타 전기음향 장치를 포함할 수 있다. 추가로, 출력 장치(220)는 통신 네트워크를 통해 오디오 신호를 다른 장치로 전송할 수 있는 송신기를 포함할 수 있다.

도 3은 예시적인 신호 처리 엔진(230)의 블록도이다. 도시된 바와 같이, 신호 처리 엔진(230)은 통신 모듈(305), 분석 모듈(310), 합성 모듈(315), 검출 모듈(320), 구축 모듈(325), 복구 모듈(330), 및 지연 모듈(335)을 포함한다. 도 2와 연결하여 언급된 바와 같이, 신호 처리 엔진(230) 및 그의 구성 모듈은 메모리(210)에 저장되고 그에 대응하는 기능을 실시하기 위해 프로세서에 의해 실행된다. 신호 처리 엔진(230)은 더 많거나 더 적은 모듈(또는 동일한 수의 조합)로 구성되고 여전히 본 기술의 범위 내에 있을 수 있다. 예를 들면, 구축 모듈(325) 및 복구 모듈(330)의 기능은 단일 모듈에 조합될 수 있다.

통신 모듈(305)의 실행은 프로세서(205)와 입력 장치(215) 및 출력 장치(220) 모두와의 사이에서의 통신을 촉진한다. 예를 들면, 통신 모듈(305)은 입력 장치(215)로부터의 오디오 신호를 프로세서(205)에서 수신하도록 실행될 수 있다. 유사하게, 통신 모듈(305)은 프로세서(205)로부터 출력 장치(220)로 오디오 신호를 송신하도록 실행될 수 있다.

예시적인 실시예에서, 수신된 오디오 신호는 오디오 신호의 상이한 주파수 구성성분을 나타내는 주파수 서브대역으로 분해된다. 주파수 서브대역이 처리되어 출력될 처리 오디오 신호로 재구축된다. 분석 모듈(310)의 실행은 프로세서(205)로 하여금 오디오 신호를 주파수 서브대역으로 분해하도록한다. 합성 모듈(315)은 분해된 오디오 신호로부터 오디오 신호를 재구축하도록 실행될 수 있다.

분석 모듈(310)과 합성 모듈(315) 모두는 다양한 실시예에 따라 필터 또는 필터 뱅크를 포함할 수 있다. 이러한 필터는 복소수값(complex-valued) 필터가 될 수 있다. 이러한 필터들은 제 2 오더 이상의 필터에 비해 연산 비용을 감소시키기 위해 제 1 오더의 필터(예를 들면, 단극, 복소수값)가 될 수 있다. 추가로, 필터들은 원하는 채널의 해(resolution)를 산출하도록 설계된 차단 주파수(cutoff frequency)를 가진 무한 임펄스 응답(IIR: infinite impulse response) 필터가 될 수 있다 일부 실시예에서, 필터는 특정 주파수 대역 내에서 신호를 억제 또는 출력하기위해 주파수 선택적이 되도록 설계될 수 있다. 일부 실시예에서, 필터는 특정 주파수 서브대역 내에서 신호를 억제 또는 출력하기위해 복소수 오디오 신호에 대한 다양한 계수로 변환(예를 들면, 힐버트 변환)을 실시할 수 있다. 다른 실시예에서, 필터들은 인간의 귀의 청각 반응을 시뮬레이션하기 위해 빠른 인공와우 변환(cochlear transform)을 실시할 수 있다. 필터들은 필터 캐스케이드로 조직화될 수 있어서, 하나의 필터의 출력은 캐스케이드에서의 다음 필터에서 입력이 된다. 캐스케이드에서의 필터의 세트는 옥타브로 분리될 수 있다. 집합적으로, 필터들의 출력은 주파수 서브대역 또는 오디오 신호의 컴포넌트들을 나타낼 수 있다.

검출 모듈(320)의 실행은 오디오 신호의 프레임에서의 데미지 또는 손상이 식별될 수 있도록 한다. 이러한 데미지 또는 손상은 프레임의 하나 이상의 서브대역에서 나타날 수 있다. 손상된 프레임의 예시가 도 4와 연결하여 논의된다. 예시적인 실시예에 따라, 데미지를 입은 또는 손상된 프레임은 대상 프레임을 그 대상 프레임에 인접한 하나 이상의 프레임과 비교함으로써 식별될 수 있다. 대상 프레임은 그것이 데미지 또는 손상을 입었는지를 판정하기 위해 현재 분석되는 프레임이다.

데미지를 입은 또는 손상된 프레임을 식별하기 위해 사용될 수 있는 하나의 비교는 스펙트럼 플럭스를 판정하는 것을 포함한다. 스펙트럼 플럭스는 신호의 크기 스펙트럼(magnitude spectrum) 또는 파워 스펙트럼이 얼마나 빨리 변하고 있는지의 측정치이다. 예를 들면, 스펙트럼 플럭스는 대상 프레임에 대한 크기 스펙트럼을 이전 프레임 및/또는 후속 프레임으로부터의 크기 스펙트럼과 비교함으로써 연산될 수 있다. 하나의 예시에 따라서, 오디오 신호의 스펙트럼 플럭스

(프레임 n에 대한)는 하기와 같이 될 수 있다:

여기서,

는 주파수 서브대역

에서의 대상 프레임 n의 크기 스펙트럼이고,

는 주파수 서브대역

에서의 대상 프레임 n에 선행하는 프레임 n-1의 크기 스펙트럼이고,

는 주파수 서브대역 만큼 변하는 스케일링 계수이고, z는 지수이다. 스케일링 계수

는, 예를 들면, 특정 주파수들이 비정적인 노이즈를 더 잘 지시할 때, 특정한 주파수들(예를 들면, 고 주파수)에 상이하게 가중치를 줄 수 있다. 예시적인 실시예에서, 지수 z=2이다. 추가로, 일부 실시예에서, 조건

(즉, 크기 스펙트럼이 증가하는)을 만족하는 상기 총합의 항들만이 스펙트럼 플럭스

연산시 활용된다.

발성시 일상적인 억양에 기인하여, 스펙트럼 플럭스 단독으로는 오디오 신호에서 손상된 또는 데미지를 입은 프레임을 식별하기에 충분하지 못할 수 있다. 예를 들면, 상승 모음 소리는 인접한 프레임들 중 어느것도 손상되지 않았음에도 인접한 프레임들 사이에 커다란 스펙트럼 플럭스를 가져올 수 있다. 손상된 프레임을 식별하기 위한 측정기준으로서 스펙트럼 플럭스를 보완하기 위해, 대상 프레임과 이전의 프레임 및/또는 후속하는 프레임 사이의 상관계수가 결정될 수 있다. 하나의 예시에서, 대상 프레임 n과 선행하는 프레임 n-1 사이의 상관계수

은 하기와 같이 될 수 있다:

및

는 각각 크기 스펙트럼

및

의 평균 또는 중간값에 대응한다. 이와 같이, 프레임 n과 프레임 n-1사이의 이득이 상이하지만, 각각의 스펙트럼 형상이 같다면, 프레임 n과 프레임 n-1 사이의 상관계수는 유니티(unity)가 될 것이다. 추가로, 예시적인 실시예에서,

과 같은 값이 데미지를 입은 또는 손상된 프레임을 식별하기 위해 사용될 수 있다. 이러한 값은 데미지를 입은 프레임을 지시하기 위해 임계값을 초과할 것이 요구된다.

일부 실시예에서, 손상된 프레임의 표시가 검출 모듈(320)에 제공될 수 있다는 것에 유의할 필요가 있다. 이러한 표시는 예를 들면 디지털 장치(110)와 통신하는 또다른 디지털 장치로부터 수신될 수 있다. 손상된 프레임의 표시는 손실, 삭제, 또는 손상된 패킷 또는 프레임을 식별할 수 있다. 손상된 프레임의 표시가 제공될 때, 그와는 달리 손상된 프레임을 검출하기 위해 검출 모듈(320)의 실행을 통해 수행된 신호 처리는 바이패스될 수 있다.

구축 모듈(325)은 프레임이 구축되거나 또는 검출 모듈(320)에 의해 식별된 각각의 손상된 프레임 또는 데미지를 입은 프레임에 대응하는 것으로 해석되도록 실행될 수 있다. 일반적으로, 손상된 프레임 또는 데미지를 입은 프레임에 대응하는 프레임은 원 오디오 신호를 포함하는 손상되지 않은 프레임에 근사하도록 구축될 수 있는데, 그것이 신호 손상이 있기 전의 것이기 때문이다. 구축된 프레임은 대응하는 손상된 프레임에 인접한 하나 이상의 프레임에 기초한다. 예를 들면, 구축된 프레임은 손상된 프레임에 선행하는 적어도 하나의 프레임으로부터의 외삽(extrapolation)인 오디오 신호를 포함할 수 있다. 다른 예시에서, 구축된 프레임은 손상된 프레임에 선행하는 적어도 하나의 프레임과 손상된 그 프레임에 후속하는 적어도 하나의 프레임 사이에서의 내삽(interpolation)인 신호를 포함한다. 예시적인 실시예에 따라, 내삽과 외삽이 서브대역 당 기준으로(a per subband basis) 수행될 수 있다. 구축된 프레임의 예시는 도 4를 참조하여 논의된다.

복구 모듈(330)의 실행은 손상된 프레임이 복구된 오디오 신호를 생성하도록 구축된 프레임을 대응시킴으로써 대체되도록 한다. 전체 프레임(모든 주파수 서브대역에 걸쳐서) 또는 개별 서브대역 프레임이 손상된 것으로 식별될 수 있다는 것에 유의하라. 따라서, 프레임에 대한 복구는 전체 프레임에 대해, 또는 프레임 내의 하나 이상의 개별 서브대역에 대해 수행될 수 있다. 예를 들면, 주어진 프레임의 일부 또는 모든 서브대역들이 구축 모듈(325)에 의해 번역된 정보에 의해 대체될 수 있다. 그와 달리 손상된 프레임의 주어진 서브대역이 신호의 손상되지 않은 컴포넌트를 포함한다면, 주어진 서브대역은 대체되지 않을 수 있다. 또한, 일부 실시예에서, 프레임의 손상된 서브대역이, 구축된 서브대역이 손상된 서브대역의 과소평가된 것일 때 그 프레임의 대응하는 구축된 서브대역에 의해 대체될 수 있다. 추가로, 그 동일한 프레임의 손상된 서브대역은 구축된 서브대역이 손상된 서브대역의 과대평가된 것일 때 그 프레임의 대응하는 구축된 서브대역에 의해 대체되지 않을 수 있다. 구축된 프레임은 평균화되거나, 또는 그렇지않으면 대응하는 손상된 프레임으로 조합될 수 있다. 구축된 프레임과 인접한 손상되지 않은 프레임 사이의 불연속성을 감소시키기 위해, 크로스 페이딩이 수행될 수 있다. 하나의 실시예에서, 20밀리초의 선형 크로스 페이딩이 활용된다. 이러한 크로스 페이딩은 크기와 위상을 포함한다.

일부 실시예에 따라, 하나 이상의 프레임만큼 신호들을 지연시키는 것이 유익하다. 지연 모듈(335)의 실행은 신호 처리 엔진(230)의 다양한 처리 단계동안 오디오 신호가 지연되도록 한다. 이러한 지연의 예시가 도 5b 및 6과 함께 더 기술된다.

도 4는 손상된 오디오 신호의 예시적인 복구(400)를 도시한다. 오디오 신호는 복구의 다양한 스테이지(405A-405C)에서 도시된다. 오디오 신호는 5개의 프레임(410A-410E)을 포함한다. 도시된 바와 같이, 스테이지(405C)에서의 프레임(410C)이 손상되었다. 이는 스테이지(405A)에서 프레임(410C)이 인접한 프레임(410B 및 410D)에 대해 낮은 상관관계와 높은 스펙트럼 플럭스를 가졌기 때문에 검출 모듈(320)에 의해 식별될 수 있다. 스테이지(405B)에서의 프레임(410C) 상에 놓인 구축된 데이터(415)가 도시된다. 구축된 데이터(415)는 프레임(410B)으로부터의 정보를 외삽함으로써 구축 모듈(325)에 의해 해석된다. 대안으로, 구축된 데이터(415)는 프레임(410B 및 410D) 사이에서 내삽될 수 있다. 스테이지(405C)에서, 구축된 데이터(415)는 복구된 오디오 신호를 제공하는 복구 모듈(330)의 실행을 통해 프레임(410C)을 대체한다. 구축된 데이터(415)는 그들 사이의 임의의 불연속성을 감소시키기 위해 스테이지(405C)에서 프레임(410D)으로 크로스 페이딩된다는 것에 유의하라.

도 5a 및 5b는 예시적인 실시예에 따라, 신호 처리 엔진(230)에서의 인터-모듈 신호 경로를 각각 도시한다. 도 5a에 도시된 실시예에서, 손상된 오디오 신호는 분석 모듈(310)에 의해 수신되고, 이는 손상된 오디오 신호를 주파수 서브대역으로 분할한다. 손상된 오디오 신호의 주파수 서브대역은 그런다음 복구 모듈(330)과 검출 모듈(320)에 의해 수신된다. 검출 모듈(320)이 오디오 신호에서 하나 이상의 손상된 프레임을 식별한 후에, 구축 모듈(325)은 대응하는 프레임을 생성 또는 구축하고, 수신된 오디오 신호에서 손상된 프레임을 대체하기 위해 구축된 프레임을 복구 모듈(330)로 통신한다. 일부 실시예에서, 복구된 주파수 서브대역은 복구된 오디오 신호로서 재구축되도록 복구 모듈(330)로부터 합성 모듈(315)로 전송된다. 예시적인 실시예에서, 프레임들은 손상이 검출되지 않을 때 단순히 신호 처리 엔진(230)의 다양한 모듈을 통과하여 지난다는 것에 유의하라.

도 5b에 도시된 실시예에서, 손상된 오디오 신호는 분석 모듈(310A)과 지연된 손상된 오디오 신호를 분석 모듈(310B)로 포워딩하는 지연 모듈(335)에 의해 수신된다. 분석 모듈(310A 및 310B)은 유사한 방식으로 구현될 수 있고, 도 3 및 5a와 연결하여 상술된 것과 유사한 방식으로 분석 모듈(310)에 대해 동작한다. 분석 모듈(310A 및 310B)은 복구 모듈(330)로 전송되는 손상된 오디오 신호와 지연된 손상된 오디오 신호를 주파수 서브대역으로 분리한다. 손상된 오디오 신호의 주파수 서브대역은 또한 손상된 프레임을 식별하기 위해 검출 모듈(320)에 의해 수신된다. 임의의 식별된 손상된 프레임 및 지연된 손상된 오디오 신호에 기초하여, 구축 모듈(325)에 의해 프레임들이 해석되고 구축될 수 있다. 식별된 손상된 프레임은 그런다음 복구 모듈(330)에 의한 대응하는 구축된 프레임으로 대체된다. 복구된 주파수 서브대역은 복구 모듈(330)로부터 합성 모듈(315)로 복구된 오디오 신호로서 재구축되도록 전송된다.

도 6은 검출 모듈(320)에 의해 수행되는 예시적인 프로세스 흐름(600)을 도시한다. 주파수 서브대역 데이터는 흐름의 포인트(605 및 635)에서 검출 모듈(320)에 의해 수신된다. 본문에 논의된 바와 같이, 주파수 서브대역은 오디오 신호의 분해를 통해 분석 모듈(310)에 의해 생성될 수 있다. 흐름 포인트(605)에서, 주파수 서브대역의 크기 스펙트럼이 결정된다. 크기 스펙트럼은 크기 스펙트럼과 지연된 크기 스펙트럼이 흐름 포인트(615 및 620)로 전달될 수 있도록 흐름 포인트(610)에서 지연된다. 지연 모듈(335)은 일부 실시예에 따라 크기 스펙트럼을 지연시킬수 있다. 흐름 포인트(615)에서, 대상 프레임에 대한 스펙트럼 플럭스는 크기 스펙트럼 및 지연된 크기 스펙트럼에 기초하여 판정된다. 대상 프레임에 대한 상관계수는 흐름 포인트(620)에서 크기 스펙트럼과 지연된 크기 스펙트럼에 기초하여 판정된다. 스펙트럼 플럭스와 상관계수는 흐름 포인트(625)에서 그들 사이의 비율과 같은것에 의해 조합된다. 대상 프레임이 손상되었는지 여부에 대한 판정은 흐름 포인트(630)에서 이루어진다. 추가로, 대상 프레임의 종료점은 흐름 포인트(635)에서 판정된다. 손상 판정은 대상 프레임을 손상된 프레임으로서 또는 손상되지 않은 프레임으로서 식별한다. 손상된 프레임의 식별 정보와 프레임의 종료점 정보는 복구 모듈(330)로 포워딩될 수 있다. 추가로, 구축 모듈(325)은 복구된 신호 프레임을 생성하기 위해 종료점 정보를 이용할 수 있다.

도 7은 손상된 오디오 신호를 복구하기 위한 예시적인 방법(700)의 플로우차트이다. 방법(700)의 단계들은 다양한 순서로 수행될 수 있다. 단계들이 추가되거나 또는 방법(700)으로부터 제거될 수 있고, 여전히 본 발명의 기술의 범위 내에 있을 수 있다.

단계(705)에서, 오디오 신호는 입력 장치(215)와 같은 오디오 입력 장치로부터 수신된다. 오디오 신호는 다수의 순차적인 프레임을 포함할 수 있다. 추가로, 통신 모듈(305)은 프로세서(205)가 입력 장치(215)로부터 오디오 신호를 수신하도록 실행될 수 있다.

단계(710)에서, 단계(705)에서 수신된 오디오 신호에 포함된 하나 이상의 손상된 프레임이 식별될 수 있다. 이러한 하나 이상의 손상된 프레임은 연속적일 수 있다. 다양한 실시예에 따라, 하나 이상의 손상된 프레임은 스펙트럼 플럭스 및/또는 하나 이상의 손상된 프레임과 인접한 손상되지 않은 프레임 사이의 상호관계에 기초하여 식별될 수 있다. 추가로, 검출 모듈(320)은 단계(710)를 수행하도록 실행될 수 있다.

단계(715)에서, 프레임은 하나 이상의 손상된 프레임 각각에 대응하도록 구축된다. 본문에 논의된 바와 같이, 각각의 구축된 프레임은 손상되지 않은 프레임에 근사한다. 단계(715)는 예시적인 실시예에 따라 구축 모듈(325)의 실행을 통해 수행된다.

단계(720)에서, 하나 이상의 손상된 프레임 각각은 복구된 오디오 신호를 생성하기 위해 대응하는 구축된 프레임으로 대체된다. 예시적인 실시예에서, 복구 모듈(330)은 단계(720)를 수행하도록 실행된다.

단계(725)에서, 복구된 오디오 신호는 출력 장치(220)와 같은 오디오 출력 장치를 통해 출력된다. 통신 모듈(305)은 예시적인 실시예에 따라 복구된 오디오 신호가 프로세서(205)로부터 출력 장치(220)로 전송되도록 실행될 수 있다.

다양한 실시예가 상술되었지만, 그것들은 예시에 의해서 제시된 것일 뿐 한정이 아니라는 것이 이해되어야 한다. 설명은 본문에 설명된 특정형태로 본 기술범위를 한정하는 것을 의도하지 않는다. 따라서, 바람직한 실시예의 넓이와 폭은 상술한 예시적인 실시예 중 어떠한 것에 의해서도 한정되어서는 안된다. 상기 설명은 예시이고 제한이 아니라는 것이 이해되어야 한다. 반대로, 본 설명은 첨부된 청구범위에 의해 정의된 기술의 취지와 범위 내에 포함될 수 있고, 그렇지 않으면 당업자에 의해 이해될 수 있는 이러한 대안, 변형, 및 등가물을 커버하도록 의도된다. 본 기술의 범위는 따라서 상기 설명에 대해 참조하지 않고 결정될 수 있지만, 대신에 그의 전체 등가물의 범위와 함께 첨부된 청구범위를 참조하여 결정되어야 한다.

Claims

손상된 오디오 신호를 복구하는 방법으로서,
복수의 순차적 프레임을 구비하는 오디오 신호를 오디오 입력 장치로부터 수신하는 단계;
상기 복수의 순차적 프레임에서 손상된 프레임을 식별하는 단계;
상기 손상된 프레임에 대응하는 프레임을 구축하는 단계로서, 구축된 프레임은 손상되지 않은 프레임에 근사하는, 단계;
복구된 오디오 신호를 생성하기 위해 손상된 프레임을 대응하는 구축된 프레임으로 대체하는 단계; 및
오디오 출력 장치를 통해 상기 복구된 오디오 신호를 출력하는 단계;
를 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 오디오 신호를 주파수 서브대역으로 분해하는 단계를 더 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 하나 이상의 손상된 프레임은 연속적인 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 손상된 프레임을 식별하는 단계는 서브대역 당 기준으로(a per subband basis) 수행되는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 식별하는 단계는 대상 프레임과 상기 대상 프레임에 인접한 하나 이상의 프레임 사이의 비교를 형성하는 단계를 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 5 항에 있어서, 상기 비교는 상기 대상 프레임과 상기 하나 이상의 인접한 프레임 사이의 스펙트럼 플럭스에 적어도 부분적으로 기초하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 5 항에 있어서, 상기 비교는 상기 대상 프레임과 상기 하나 이상의 인접한 프레임 사이의 상호관계에 적어도 부분적으로 기초하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 구축하는 단계는 상기 하나 이상의 손상된 프레임에 인접한 하나 이상의 프레임에 적어도 부분적으로 기초하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 구축하는 단계는 상기 하나 이상의 손상된 프레임에 선행하는 적어도 하나의 프레임으로부터 외삽(extrapolating)하는 단계를 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 구축하는 단계는 상기 하나 이상의 손상된 프레임에 선행하는 적어도 하나의 프레임과 상기 하나 이상의 손상된 프레임에 후속하는 적어도 하나의 프레임 사이에서 내삽(interpolating)하는 단계를 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 구축된 프레임과 인접한 손상되지 않은 프레임을 크로스페이딩(cross-fading) 하는 단계를 더 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 손상된 프레임을 식별하는 단계는 손상된 프레임의 표시를 수신하는 단계를 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
제 1 항에 있어서, 상기 손상된 프레임은 패킷 손실의 결과인 것을 특징으로 하는 손상된 오디오 신호를 복구하는 방법.
손상된 오디오 신호를 복구하는 시스템으로서,
메모리에 저장되고, 수신된 오디오 신호에 포함된 하나 이상의 손상된 프레임을 식별하도록 프로세서에 의해 실행가능한 검출 모듈;
메모리에 저장되고, 하나 이상의 손상된 프레임 각각에 대응하는 프레임을 구축하도록 프로세서에 의해 실행가능한 구축 모듈로서, 각각의 구축된 프레임은 손상되지 않은 프레임에 근사하는, 구축 모듈;
메모리에 저장되고, 복구된 오디오 신호를 생성하기 위해 하나 이상의 손상된 프레임의 각각을 대응하는 구축된 프레임으로 대체하도록 프로세서에 의해 실행가능한 복구 모듈; 및
메모리에 저장되고, 오디오 출력 장치를 통해 상기 복구된 오디오 신호를 출력하도록 프로세서에 의해 실행가능한 통신 모듈;
을 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 14 항에 있어서, 메모리에 저장되고, 상기 오디오 신호를 주파수 서브대역으로 분해하도록 프로세서에 의해 실행가능한 분석 모듈을 더 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 14 항에 있어서, 상기 통신 모듈은 오디오 입력 장치로부터 오디오 신호를 수신하도록 더 실행가능한 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 14 항에 있어서, 상기 검출 모듈로 하여금 상기 하나 이상의 손상된 프레임을 식별하도록 실행하는 것은 대상 프레임과 상기 대상 프레임에 인접한 하나 이상의 프레임 사이의 비교를 형성하는 것을 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 17 항에 있어서, 상기 비교는 상기 대상 프레임과 상기 하나 이상의 인접한 프레임 사이의 스펙트럼 플럭스에 적어도 부분적으로 기초하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 17 항에 있어서, 상기 비교는 상기 대상 프레임과 상기 하나 이상의 인접한 프레임 사이의 상호관계에 적어도 부분적으로 기초하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 14 항에 있어서, 상기 구축 모듈의 실행을 통해 상기 하나 이상의 손상된 프레임의 각각에 대응하는 프레임을 구축하는 것은 상기 하나 이상의 손상된 프레임에 인접한 하나 이상의 프레임에 적어도 부분적으로 기초하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 14 항에 있어서, 상기 구축 모듈로 하여금 상기 하나 이상의 손상된 프레임의 각각에 대응하는 프레임을 구축하도록 실행하는 것은 상기 하나 이상의 손상된 프레임에 선행하는 적어도 하나의 프레임으로부터 외삽하는 것을 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 14 항에 있어서, 상기 구축 모듈로 하여금 상기 하나 이상의 손상된 프레임의 각각에 대응하는 프레임을 구축하도록 실행하는 것은 상기 하나 이상의 손상된 프레임에 선행하는 적어도 하나의 프레임과 상기 하나 이상의 손상된 프레임에 후속하는 적어도 하나의 프레임 사이에서 내삽하는 것을 포함하는 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
제 14 항에 있어서, 상기 복구 모듈은 구축된 프레임과 인접한 손상되지 않은 프레임을 크로스페이딩하도록 더 실행가능한 것을 특징으로 하는 손상된 오디오 신호를 복구하는 시스템.
컴퓨터 판독가능한 저장 매체 상에서 구현되고, 손상된 오디오 신호를 복구하는 방법을 실행하도록 프로세서에 의해 실행가능한 프로그램을 구비한 상기 컴퓨터 판독가능한 저장 매체로서, 상기 방법은,
복수의 순차적 프레임을 구비하는 오디오 신호를 오디오 입력 장치로부터 수신하는 단계;
상기 오디오 신호에 포함된 하나 이상의 손상된 프레임을 식별하는 단계;
상기 하나 이상의 손상된 프레임의 각각에 대응하는 프레임을 구축하는 단계로서, 각각의 구축된 프레임은 손상되지 않은 프레임에 근사하는, 단계;
복구된 오디오 신호를 생성하기 위해 하나 이상의 손상된 프레임의 각각을 대응하는 구축된 프레임으로 대체하는 단계; 및
오디오 출력 장치를 통해 상기 복구된 오디오 신호를 출력하는 단계;
를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 저장 매체.
제 24 항에 있어서, 상기 구축된 프레임은 상기 하나 이상의 손상된 프레임에 인접한 하나 이상의 프레임에 적어도 부분적으로 기초하여 구축되는 것을 특징으로 하는 컴퓨터 판독가능한 저장 매체.