KR20180095123A

KR20180095123A - 오디오 신호 분류 및 코딩

Info

Publication number: KR20180095123A
Application number: KR1020187023536A
Authority: KR
Inventors: 에릭 노르벨; 스테판 브르흔
Original assignee: 텔레폰악티에볼라겟엘엠에릭슨(펍)
Priority date: 2014-05-15
Filing date: 2015-05-12
Publication date: 2018-08-24
Also published as: RU2668111C2; CN111192595B; RU2016148874A; WO2015174912A1; RU2016148874A3; MX368572B; CN106415717A; US10121486B2; US9666210B2; CN106415717B; AR105147A1; EP3143620A1; US20190057708A1; US20160260444A1; RU2765985C2; RU2018132859A; US10297264B2; US9837095B2; US20180047404A1; RU2018132859A3

Abstract

본 발명은 오디오 신호 특성에 기초한 코딩 모드의 선택 및 신호 분류를 위한 코덱과 신호 분류기 및 그 내부에서의 방법에 관한 것이다. 디코더에 의해 수행되는 방법 실시예는, 프레임(m)에 대해: 변환 도메인에서, 상기 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하는 단계를 포함한다. 각각의 그와 같은 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 방법은 상기 안정성 값 D(m)에 기초하여, 다수의 디코딩 모드로부터 어떤 디코딩 모드를 선택하는 단계; 및 상기 선택된 디코딩 모드를 적용하는 단계를 더 포함한다.

Description

오디오 신호 분류 및 코딩{AUDIO SIGNAL CLASSIFICATION AND CODING}

본 발명은 오디오 코딩에 관한 것으로, 특히 코딩을 위한 입력 신호 특성의 분석 및 매칭에 관한 것이다.

이동 통신 네트워크는 보다 높은 데이터 전송 속도, 향상된 용량 및 향상된 커버 범위 쪽으로 점차 발전해 가고 있다. 그러한 3세대 파트너쉽 프로젝트(3GPP) 표준체에 있어서, 몇 가지의 기술이 있으며, 또 현재 개발되고 있다.

롱 텀 에볼루션(LTE; Long Term Evolution)은 표준화된 기술의 예이다. LTE에 있어서, 직교 주파수 분할 다중화(OFDM; Orthogonal Frequency Division Multiplexing)를 기반으로 한 액세스 기술은 다운링크를 위해 사용되고, 싱글 캐리어(Single Carrier) FDMA(SC-FDMA)는 업링크를 위해 사용된다. 다운링크 및 업링크 모두에 따른 사용자 장비(UE)로도 알려진 무선 단말에 대한 리소스 할당은 보통 각 무선 단말의 순간적인 트래픽 패턴 및 무선 전파 특성을 고려하여, 고속 스케줄링을 이용하여 적절하게 수행된다. LTE를 통한 한가지 데이터 타입은 예컨대 음성 대화 또는 스트리밍 오디오를 위한 오디오 데이터가 있다.

낮은 비트레이트 스피치(speech) 및 오디오 코딩의 성능을 향상시키기 위해, 신호 특성에 대한 선험적인 지식을 활용하고 신호 모델링을 채용하는 것으로 알려져 있다. 좀더 복잡한 신호들의 경우, 몇가지 코딩 모델, 또는 코딩 모드가 그러한 신호의 각기 다른 부분들을 위해 사용된다. 이들 코딩 모드는 또한 채널 에러 및 손실 패키지를 핸들링하기 위한 각기 다른 전략을 포함할 것이다. 이는 어느 한 시점에 적절한 코딩 모드를 선택하는데 효율적이다.

본원에 기술된 해결책은 본원에서 코딩 모드의 선택으로서 요약되는 코딩 방법 선택 및/또는 에러 은폐 방법 선택 모두에 사용될 수 있는 신호 분류, 또는 식별의 복잡도가 낮은 안정된 적응(adaptation)과 관련된다. 에러 은폐의 경우에, 그러한 해결책은 디코더와 관련된다.

제1형태에 따르면, 오디오 신호를 디코딩하기 위한 방법이 제공된다. 그러한 방법은: 프레임(m)에 대해, 변환 도메인(transform domain)에서, 상기 프레임(m)의 스펙트럼 엔벨로프(envelope)의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값(stability value) D(m)을 결정하는 단계를 포함한다. 각각의 그와 같은 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 방법은 상기 안정성 값 D(m)에 기초하여, 다수의 디코딩 모드로부터 어떤 디코딩 모드를 선택하는 단계; 및 상기 선택된 디코딩 모드를 적용하는 단계를 더 포함한다.

제2형태에 따르면, 디코더는 오디오 신호를 디코딩하기 위해 제공된다. 상기 디코더는: 프레임(m)에 대해, 변환 도메인에서, 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하도록 구성된다. 각각의 그와 같은 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 디코더는 안정성 값 D(m)에 기초하여, 다수의 디코딩 모드로부터 어떤 디코딩 모드를 선택하고; 상기 선택된 디코딩 모드를 적용하도록 더 구성된다.

제3형태에 따르면, 오디오 신호를 인코딩하기 위한 방법이 제공된다. 상기 방법은: 프레임(m)에 대해, 변환 도메인에서, 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하는 단계를 포함한다. 각각의 그와 같은 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 값을 포함한다. 상기 방법은 안정성 값 D(m)에 기초하여, 다수의 인코딩 모드로부터 하나의 인코딩 모드를 선택하는 단계; 및 상기 선택된 인코딩 모드를 적용하는 단계를 더 포함한다.

제4형태에 따르면, 인코더가 오디오 신호를 인코딩하기 위해 제공된다. 상기 인코더는: 프레임(m)에 대해, 변환 도메인에서, 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하도록 구성된다. 각각의 그와 같은 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 인코더는 안정성 값 D(m)에 기초하여, 다수의 인코딩 모드로부터 하나의 인코딩 모드를 선택하고; 상기 선택된 인코딩 모드를 적용하도록 더 구성된다.

제5형태에 따르면, 오디오 신호 분류를 위한 방법이 제공된다. 상기 방법은: 오디오 신호의 프레임(m)에 대해, 변환 도메인에서, 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하는 단계를 포함하며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 값을 포함한다. 상기 방법은 안정성 값 D(m)에 기초하여 상기 오디오 신호를 분류하는 단계를 더 포함한다.

제6형태에 따르면, 오디오 신호 분류기가 제공된다. 상기 오디오 신호 분류기는: 오디오 신호의 프레임(m)에 대해, 변환 도메인에서, 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하고; 상기 안정성 값 D(m)에 기초하여 오디오 신호를 분류하도록 구성되며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 값을 포함한다.

제7형태에 따르면, 제2형태에 따른 디코더를 포함하는 호스트 장치가 제공된다.

제8형태에 따르면, 제4형태에 따른 인코더를 포함하는 호스트 장치가 제공된다.

제9형태에 따르면, 제6형태에 따른 신호 분류기를 포함하는 호스트 장치가 제공된다.

제10형태에 따르면, 적어도 하나의 프로세서에서 실행될 때, 상기 적어도 하나의 프로세서가 제1, 3 및/또는 6형태에 따른 방법을 수행하게 하는 명령들을 포함하는 컴퓨터 프로그램이 제공된다.

제11형태에 따르면, 제9형태의 컴퓨터 프로그램을 포함하는 캐리어가 제공되며, 여기서 상기 캐리어는 전자 신호, 광 신호, 라디오 신호, 또는 컴퓨터 판독가능 저장 매체 중 하나이다.

이제 수반되는 도면을 참조하여 예시의 형태로 본 발명이 기술된다:
도 1은 본원에 제공된 실시예들이 적용된 셀룰러 네트워크를 기술하는 개략도이고;
도 2a 및 2b는 예시 실시예들에 따른 디코더에 의해 수행된 방법을 기술하는 순서도이고;
도 3a는 필터된 안정성 값부터 안정성 파라미터까지 맵핑 커브를 나타내는 개략 그래프이고;
도 3b는 필터된 안정성 값부터 안정성 파라미터까지 맵핑 커브를 나타내는 개략 그래프이고, 여기서 그 맵핑 커브는 이산값들로부터 얻어지며;
도 4는 수신된 오디오 프레임의 신호의 스펙트럼 엔벨로프를 나타내는 개략 그래프이고;
도 5a-b는 패킷 손실 은폐 과정을 선택하기 위한 호스트 장치에서 수행된 방법을 기술하는 순서도이고;
도 6a-c는 예시 실시예들에 따른 디코더의 각기 다른 실시를 나타내는 개략 블록도이고;
도 7a-c는 예시 실시예들에 따른 인코더의 각기 다른 실시를 나타내는 개략 블록도이고;
도 8a-c는 예시 실시예들에 따른 분류기의 각기 다른 실시를 나타내는 개략 블록도이고;
도 9는 무선 단말의 일부 요소들을 나타내는 개략도이고;
도 10은 트랜스코딩 노드의 일부 요소들을 나타내는 개략도이고;
도 11은 컴퓨터 판독가능 수단을 포함하는 컴퓨터 프로그램 제품의 일 예이다.

이제 본 발명은 본 발명의 소정의 실시예들이 나타난 수반의 도면들을 참조하여 이후 좀더 전체적으로 상세히 기술한다. 그러나, 본 발명은 많은 다른 형태들로 실시되고, 본원에 기술된 실시예들로 한정하는 것으로 해석되지 않으며, 오히려 이들 실시예들은 본 개시가 전체적으로 완전해지고 통상의 기술자에게 본 발명의 범위를 충분히 전달하도록 예시에 의해 제공된다. 그러한 설명 전체에 걸쳐 유사한 요소에는 유사한 도면참조부호가 붙여진다.

도 1은 본원에 제공된 실시예들이 적용되는 셀룰러 네트워크(8)를 기술하는 개략도이다. 그러한 셀룰러 네트워크(8)는 하나의 코어 네트워크(3), 및 eNodeB 또는 eNB로도 알려진 진화된 Node B의 형태인 하나 또는 그 이상의 무선 기지국(1)을 포함한다. 그러한 무선 기지국(1)은 또한 Node B, BTS(Base Transceiver Station) 및/또는 BSS(Base Station Subsystem) 등의 형태일 수 있다. 상기 무선 기지국(1)은 다수의 무선 단말(2)에 대한 무선 연결을 제공한다. 그러한 용어 무선 단말은 또한 모바일 통신 단말, 사용자 장비(UE), 모바일 단말, 사용자 단말, 사용자 에이전트, 무선 장치, 머신-투-머신 장치 등으로도 알려져 있으며, 예를 들면 오늘날 무선 연결 또는 고정 탑재 단말을 갖춘 모바일 폰 또는 태블릿/랩탑으로 흔히 알려진 것들이 될 수 있다.

상기 셀룰러 네트워크(8)는 예컨대 이후 기술된 원리들이 적용될 수 있는 한 LTE(롱 텀 에볼루션), W-CDMA(광대역 코드 분할 다중), EDGE(모바일 통신용 글로벌 시스템(GSM) 에볼루션을 위한 향상된 데이터 전송 속도), GPRS(범용 패킷 무선 서비스), CDMA2000(코드 분할 다중 액세스 2000), 또는 LTE-어드밴스드와 같은 소정의 다른 현재 또는 미래의 무선 네트워크 중 어느 하나 또는 그 조합에 따른다.

무선 단말(2)과 무선 기지국(1)간 무선 단말(2)로부터의 업링크(UL; 4a) 통신 및 무선 단말(2)로의 다운링크(DL; 4b) 통신은 무선 라디오 인터페이스를 통해 수행된다. 각 무선 단말(2)에 대한 무선 라디오 인터페이스의 품질은, 페이딩(fading), 다중 경로 전파, 간섭 등의 영향으로 인해, 시간에 따라 그리고 무선 단말(2)의 위치에 따라 변할 수 있다.

상기 무선 기지국(1)은 또한 PSTN(공중 전화 교환망) 및/또는 인터넷과 같은 중심 기능 및 외부 네트워크(7)에 대한 연결을 위해 코어 네트워크(3)에 연결된다.

오디오 데이터는 예컨대 오디오의 트랜스코딩을 수행하기 위해 배열된 네트워크 노드인 트랜스코딩 노드(5) 및 무선 단말(2)에 의해 인코딩 및 디코딩될 수 있다. 상기 트랜스코딩 노드(5)는 예컨대 MGW(미디어 게이트웨이), SBG(세션 보더 게이트웨이)/BGF(보더 게이트웨이 펑션) 또는 MRFP(미디어 리소스 펑션 프로세서)에서 실행될 수 있다. 따라서, 상기 무선 단말(2) 및 트랜스코딩 노드(5)는 각각의 오디오 인코더 및 디코더를 포함하는 호스트 장치들이다.

세트의 에러 회복, 또는 에러 은폐 방법의 이용, 및 순간적인 신호 특성에 따른 적절한 은폐 전략의 선택은 많은 경우 복원된 오디오 신호의 품질을 향상시킬 수 있다.

최상의 인코딩/디코딩 모드를 선택하기 위해, 인코더 및/또는 디코더는 소위 폐쇄 루프 방식이라고도 부르는 합성에 의한 분석으로 모드 이용가능한 모드들을 조사해 보거나, 또는 소위 개방 루프 결정이라고도 부르는 신호 분석에 기초하여 코딩 모드를 결정하는 신호 분류기에 의존할 것이다. 스피치(speech) 신호들에 대한 통상적인 신호 클래스는 음성화 및 비음성화 스피치 발성이다. 일반적인 오디오 신호들에 있어서는 스피치, 음악 및 잠재적 배경인 노이즈 신호들 중에서 식별하는 것이 일반적이다. 에러 회복, 또는 에러 은폐 방법을 콘트롤하기 위해 유사한 분류가 사용될 수 있다.

그러나, 신호 분류기는 계산의 복잡성 및 메모리 리소스와 관련된 높은 비용이 신호 분석에 수반된다. 또한 모든 신호들에 대한 적절한 분류를 찾는 것은 어려운 문제이다.

계산의 복잡성에 대한 문제는 인코딩 또는 디코딩 방법에 이미 이용할 수 있는 코덱 파라미터들을 이용하는 신호 분류 방법의 사용에 의해 피할 수 있으며, 이에 따라 아주 작은 추가의 계산의 복잡성이 있을 뿐이다. 또한 신호 분류 방법은 코딩 모드가 변경되더라도 신뢰할 수 있는 콘트롤 파라미터를 제공하기 위해 가까운 코딩 모드에 따라 각기 다른 파라미터를 사용할 수도 있다. 이것은 코딩 방법 선택 및 에러 은폐 방법 선택 모두에 사용될 수 있는 신호 분류의 복잡도가 낮은 안정된 적응(adaptation)을 제공한다.

그러한 실시예들은 주파수 도메인 또는 변환 도메인에서 작동하는 오디오 코덱에 적용될 수 있다. 인코더에서, 입력 샘플

은 고정된 또는 가변 길이의 프레임 또는 타임 세그먼트들로 분할된다. 프레임(m)의 샘플들을 나타내기 위해,

을 이용한다. 일반적으로, 20 ms의 고정된 길이는 고속의 일시적 변경에서, 예컨대 일시적 사운드(transient sound)에서 보다 짧은 윈도우 길이 이용의 옵션으로 사용되었다. 그러한 입력 샘플들은 주파수 변환의 수단에 의해 주파수 도메인으로 변환된다. 많은 오디오 코덱들은 코딩의 적합성으로 인해 변형된 이산 코사인 변환(MDCT)를 채용한다. DCT(이산 코사인 변환) 또는 DFT(이산 퓨리에 변환)와 같은 다른 변환들 또한 사용될 수 있다. 프레임(m)의 MDCT 스펙트럼 계수는 이하의 식을 이용하여 구해진다:

여기서 X(m,k)는 프레임(m)에서의 MDCT 계수를 나타낸다. 그러한 MDCT 스펙트럼의 계수들은 그룹, 또는 대역들로 분할된다. 이들 대역은 통상 낮은 주파수를 위해 보다 좁은 대역을 이용하고 보다 높은 주파수를 위해 보다 넓은 대역폭을 이용하여 크기가 불균일하다. 이는 손실이 많은 코딩 체계에 대한 적절한 디자인 및 인간 청각 지각의 주파수 분해능을 모의하려는 것이다. 이 때 그러한 대역의 계수는 MDCT 계수의 벡터이다:

여기서 k _start(b) 및 k _end(b) 는 대역(b)의 시작 및 종료 인덱스(index)를 나타낸다. 이때 각 대역의 에너지 또는 제곱 평균(RMS)값은 아래와 같이 산출된다:

대역 에너지 E(m,b)는 MDCT 스펙트럼의 엔벨로프, 또는 거친 스펙트럼 구조를 형성한다. 이는 적절한 양자화 기술, 예컨대 벡터 양자화기(VQ), 또는 엔트로피 코딩과 결합한 차동 코딩을 이용하여 양자화된다. 그러한 양자화 단계는 디코더에 저장되거나 디코더로 전송될 양자화 인덱스를 생성하고, 또 그 대응하는 양자화된 엔벨로프 값

을 재생성한다. 상기 MDCT 스펙트럼은 정규화된 MDCT 스펙트럼 N(m,k)을 형성하기 위해 그러한 양자화 대역 에너지로 정규화된다:

상기 정규화된 MDCT 스펙트럼은 차동 코딩 및 엔트로피 코딩(entropy coding)과 조합한 스칼라 양자화기와 같은 적절한 양자화 기술, 또는 벡터 양자화 기술을 이용하여 더 양자화된다. 통상, 그러한 양자화는 각 대역을 인코딩하기 위해 사용된 각 대역 b에 대한 비트 할당 R(b)을 생성하는 것을 포함한다. 그러한 비트 할당은 청각적인 중요성에 기초하여 개별 대역들에 비트를 할당하는 청각적 모델을 포함하여 생성될 것이다.

그러한 신호 특성들에 대한 적응에 의해 인코더 및 디코더 프로세스를 더 안내하는 것이 바람직할 것이다. 만약 그러한 적응이 인코더 및 디코더 모두에 이용가능한 양자화된 파라미터들을 이용하여 행해지면, 그 적응은 추가적인 파라미터들의 전송 없이 인코더와 디코더간 동기화될 수 있다.

본원에 주로 기술된 해결책은 인코딩 또는 디코딩될 신호의 특성들에 인코더 및/또는 디코더 프로세스를 적응시키는 것과 관련된다. 간단히 말해서, 안정성 값/파라미터들이 신호를 위해 결정되고, 상기 결정된 안정성 값/파라미터에 기초하여 적절한 인코딩 및/또는 디코딩 모드가 선택되어 적용된다. 본원에 사용한 바와 같이, "코딩 모드"는 인코딩 모드 및/또는 디코딩 모드와 관련된다. 앞서 기술한 바와 같이, 코딩 모드는 채널 에러 및 손실 패키지들을 핸들링하기 위한 각기 다른 전략들을 포함할 것이다. 더욱이, 본원에 사용한 바와 같이, 표현 "디코딩 모드"는 디코딩과의 연관성 및 오디오 신호의 복원에 사용될 에러 은폐를 위한 방법 및/또는 디코딩 방법과 연관시키기 위한 것이다. 즉, 본원에 사용한 바와 같이, 각기 다른 디코딩 모드들은 동일한 디코딩 방법과 연관되지만, 다른 에러 은폐 방법들과 연관될 수 있다. 유사하게, 각기 다른 디코딩 모드들은 동일한 에러 은폐 방법과 연관되지만, 다른 디코딩 방법들과 연관될 수 있다. 코덱에 적용될 경우, 본원에 기술된 해결책은 오디오 신호 안정성과 관련된 새로운 측정에 기초하여 코딩 방법 및/또는 에러 은폐 방법을 선택하는 것과 관련된다.

예시 실시예

이하, 오디오 신호를 디코딩하기 위한 방법과 관련된 예시 실시예들이 도 2a 및 2b를 참조하여 기술된다. 그러한 방법은 오디오 디코딩을 위한 하나 또는 그 이상의 표준에 부합되도록 구성되는 디코더에 의해 수행된다. 도 2a에 기술된 방법은 오디오 신호의 프레임(m)에 대해, 변환 도메인에서 안정성 값 D(m)을 결정하는 단계(201)를 포함한다. 그러한 안정성 값 D(m)은 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 결정된다. 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 안정성 값 D(m)에 기초하여, 다수의 디코딩 모드로부터 하나의 디코딩 모드가 선택될 것이다(204). 예컨대, 디코딩 방법 및/또는 에러 은폐 방법이 선택될 것이다. 다음에, 그 선택된 디코딩 모드는 적어도 오디오 신호의 프레임(m)을 디코딩 및/또는 복원하기 위해 적용될 것이다(205).

도면에 나타낸 바와 같이, 상기 방법은 필터된 안정성 값

을 달성하기 위해 상기 안정성 값 D(m)을 저역 통과 필터링하는 단계(202)를 더 포함할 것이다. 다음에, 상기 필터된 안정성 값

은 안정성 파라미터 S(m)을 달성하기 위해 예컨대 시그모이드(sigmoid) 함수의 사용에 의해 [0,1]의 스칼라 범위로 맵핑될 것이다(203). 다음에, D(m)에 기초한 디코딩 모드의 선택은 D(m)으로부터 유도된 안정성 파라미터 S(m)에 기초하여 디코딩 모드를 선택함으로써 실현될 것이다. 그러한 안정성 값의 결정 및 안정성 파라미터의 유도는 오디오 신호의 세그먼트를 분류하는 방식과 관련되며, 여기서 그러한 안정성은 신호들의 소정 클래스(class) 또는 타입을 표시한다.

일 예로서, 기술된 그러한 디코딩 과정의 적응은 상기 안정성 값에 기초하여 에러 은폐를 위한 다수의 방법들 중에서 에러 은폐를 위한 방법을 선택하는 것과 관련될 것이다. 예컨대 디코더에 포함된 다수의 에러 은폐 방법들은 단일의 디코딩 방법, 또는 다른 디코딩 방법들과 연관될 것이다. 앞서 기술한 바와 같이, 본원에 사용된 용어 디코딩 모드는 디코딩 방법 및/또는 에러 은폐 방법과 관련된다. 안정성 값 또는 안정성 파라미터 및 가능하다면 또 다른 기준에 기초하여, 오디오 신호의 언급된 부분에 가장 적합한 에러 은폐 방법이 선택될 것이다. 그러한 안정성 값 및 파라미터는 언급된 오디오 신호의 세그먼트가 스피치 또는 음악을 포함하는지를 표시하며, 상기 오디오 신호가 음악을 포함할 경우: 상기 안정성 파라미터는 각기 다른 타입의 음악을 표시할 것이다. 그러한 에러 은폐 방법들 중 적어도 하나의 에러 은폐 방법은 음악보다 스피치에 더 적합하고, 그러한 다수의 에러 은폐 방법들 중 적어도 하나의 다른 에러 은폐 방법은 스피치보다 음악에 더 적합할 것이다. 다음에, 예컨대 이하 예시화된 바와 같이 다른 리파인먼트(refinement)와 가능하게 조합된 안정성 값 또는 안정성 파라미터가, 그 오디오 신호의 상기 언급된 부분이 스피치를 포함하는 것을 표시하면, 음악보다 스피치에 더 적합한 에러 은폐 방법이 선택될 것이다. 대응적으로, 그 안정성 값 또는 파라미터가, 그 오디오 신호의 상기 언급된 부분이 음악을 포함하는 것을 표시하면, 스피치보다 음악에 더 적합한 에러 은폐 방법이 선택될 것이다.

본원에 기술된 코덱 적응(codec adaptation)을 위한 새로운 방법은 안정성 파라미터를 결정하기 위한 오디오 신호(변환 도메인에서)의 세그먼트의 양자화된 엔벨로프의 범위를 사용하는 것이다. 인접한 프레임의 엔벨로프의 범위간 차이 D(m)은 아래와 같이 산출된다:

상기 대역들 b _start , ...., b _end 는 엔벨로프 차이 측정을 위해 사용된 대역들의 범위를 나타낸다. 이는 대역들의 연속 범위가 되거나, 또는 그 대역들이 분리되며, 그 경우 상기 표현 b _start -b _end +1은 그 범위 중의 정확한 대역의 수로 교체되어야 한다. 맨 첫번째 프레임에 대한 계산에 있어서, 값 E(m-1,b)는 존재하지 않고, 이에 따라 예컨대 빈 스펙트럼에 대응하는 엔벨로프 값으로 초기화된다.

상기 결정된 차이 D(m)의 저역 통과 필터링은 더 안정된 콘트롤 파라미터를 달성하기 위해 수행된다. 하나의 해결책은 아래와 같은 형태의 망각 요소, 또는 1차 AR(자동회귀)을 사용하는 것이다:

여기서 α는 AR 필터의 구성 파라미터이다.

코덱/디코더에서, 필터된 차이, 또는 안정성 값

의 사용을 용이하게 하기 위해, 좀더 적합한 사용 범위로 상기 필터된 차이

를 맵핑하는 것이 바람직할 것이다. 여기서, 시그모이드 함수는 아래와 같이 [0,1] 범위로 상기 값

을 맵핑하는데 사용된다:

여기서 S(m)∈[0,1]은 상기 맵핑된 안정성 값을 나타낸다. 예시의 실시예에 있어서, 그 콘텐츠 b, c, d는 b=6.11로, c=1.91로, 그리고 d=2,26으로 설정되나, b, c 및 d는 소정의 적절한 값으로 설정될 수 있다. 시그모이드 함수의 파라미터들은 입력 파라미터

의 조사된 동적 범위를 원하는 출력 결정 S(m)에 적응하도록 실험적으로 설정될 것이다. 그러한 시그모이드 함수는 그 변환점 및 동작 범위 모두가 콘트롤되기 때문에 소프트-결정 임계(soft-decision threshold)를 실행하기 위한 우수한 메카니즘을 제공한다. 그러한 맵핑 커브가 도 3a에 나타나 있으며,

는 수평축 상에 있고, S(m)은 수직축 상에 있다. 그러한 지수 함수가 계산상 복잡하기 때문에, 그 맵핑 함수를 룩업-테이블로 교체하는 것이 바람직할 것이다. 그러한 경우, 상기 맵핑 커브는, 도 3b에 원으로 나타낸 바와 같이,

및 S(m)의 쌍에 대한 이산점(discrete point)으로 샘플링될 것이다. 그러한 샘플링된 경우, 바람직하다면,

및 S(m)는 예컨대

및

을 나타낼 수 있고, 그 경우 적절한 룩업-테이블(lookup-table) 값

이 근사치

를

에 둠으로써, 예컨대 유클리디안 거리(Euclidian distance)를 이용하여 찾는다. 또한 시그모이드 함수는 그러한 함수의 대칭으로 인해 변이 커브의 1/2만이 나타날 수 있다는 것을 알아야 할 것이다. 상기 시그모이드 함수의 중점(S_mid)은 S_mid=c/b+d로서 규정된다. 그러한 중점(Smid)을 아래와 같이 뺌으로써:

앞서 기술한 바와 같이 양자화 및 룩업을 이용하여 대응하는 한-측면 맵핑 안정성 파라미터 S'(m), 및 아래와 같이 그 중점에 대한 위치에 따라 유도된 최종 안정성 파라미터를 얻을 수 있다:

더욱이, 엔벨로프 안정성 측정에 행오버 로직(hangover logic) 및 히스테리시스(hysteresis)를 적용하는 것이 바람직할 것이다. 또한, 일시적 검출기(transient detector)에 의한 측정을 보충하는 것이 바람직할 것이다. 행오버 로직을 이용한 일시적 검출기의 예가 이하 더 기술될 것이다.

다른 실시예는 통계적 변동의 조건에 따라 그 자체가 더 안정하거나 덜 안정한 엔벨로프 안정성 측정을 제공할 필요가 있다. 상기 언급한 바와 같이, 한가지 가능성은 그러한 엔벨로프 안정성 측정에 행오버 로직 또는 히스테리시스를 적용하는 것이다. 그러나, 많은 경우 이것은 충분하지 않으며, 반면 몇몇의 경우에는 안정성이 제한된 개별 출력을 생성하는 것만으로도 충분하다. 그와 같은 경우, 마르코포 모델을 채용하는 평활화기(smoother)를 이용하는 것이 효율적이라는 것을 알아냈다. 그와 같은 평활화기는 좀더 안정성을 제공하는데, 즉 그러한 엔벨로프 안정성 측정에 행오버 로직 또는 히스테리시스를 적용함에 따라 달성될 수 있는 것보다 덜 변동하는 출력값을 제공할 것이다. 다시, 예컨대 도 2a 및/또는 2b의 예시 실시예들을 참조하면, 안정성 값 또는 파라미터에 기초한 디코딩 모드의 선택, 예컨대 디코딩 방법 및/또는 에러 은폐 방법의 선택은 오디오 신호의 각기 다른 신호 특성들간 변이와 관련된 마르코프 모델 규정 상태 변이 특성(Markov model defining state transition probabilities)들에 더 기초하여 이루어질 것이다. 그러한 각기 다른 상태들은 예컨대 스피치 및 음악을 나타낸다. 이제 안정성이 제한된 개별 출력을 생성하기 위한 마르코프 모델을 이용하는 방식이 기술된다.

마르코프 모델

사용된 마르코프 모델은 M개의 상태들을 포함하며, 여기서 각각의 상태는 소정의 엔벨로프 안정성을 나타낸다. M이 2개로 선택된 경우, 그 한 상태(상태 0)는 심하게 변동하는 스펙트럼 엔벨로프를 나타내고, 반면 또 다른 상태(상태 1)는 안정된 스펙트럼 엔벨로프를 나타낸다. 더 많은 상태들로, 예컨대 중간 정도의 엔벨로프 안정성으로 이러한 모델을 확장할 수 있는 개념적인 차이는 전혀 없다.

이러한 마르코프 상태 모델은 이전 순간의 각 주어진 상태에서 현재 순간에 주어진 상태로 이동할 가능성을 나타내는 상태 변이 특성들로 특성화된다. 예컨대, 그러한 순간은 현재 프레임에 대한 프레임 인덱스(m) 및 앞서 정확하게 수신된 프레임에 대한 프레임 인덱스(m-1)에 대응할 것이다. 전송 에러로 인한 프레임 손실의 경우, 이것은 프레임 손실 없이 이용할 수 있는 이전 프레임과 다른 프레임이 될 수 있다는 것을 기억해 두자. 그러한 상태 변이 특성들은 변이 행렬(T)과 같은 수학적 표현으로 쓸 수 있으며, 여기서 각각의 요소는 상태 i로부터 야기될 때 상태 j로 변할 가능성 p(j│i)을 나타낸다. 바람직한 2-상태 마르코프 모델에 있어서, 그러한 변이 가능성 행렬은 다음과 같이 나타난다.

상대적으로 큰 값을 갖는 주어진 상태를 유지할 가능성들을 셋팅하는 한편, 작은 값을 갖는 현재 상태를 떠날 가능성(들)을 셋팅함으로써 원하는 평활화의 결과가 달성된다는 것을 알 수 있을 것이다.

게다가, 각각의 상태는 주어진 순간의 가능성과 연관된다. 그러한 이전의 정확하게 수신된 프레임(m-1)의 경우에, 그 상태 가능성들은 아래의 벡터로 주어진다.

각 상태의 발생에 대한 선험적인 가능성들을 산출하기 위해, 그러한 상태 가능성 벡터 Ps(m-1)는 아래와 같이 변이 가능성 행렬이 곱해진다:

그러나, 그러한 정확한 상태 가능성들은 이전 가능성 뿐만 아니라 현재 프레임 순간의 현재 관측과 연관된 가능성 Pp(m)에 좌우된다. 본원에 제공된 실시예들에 따르면, 평활화될 스펙트럼 엔벨로프 측정값들은 그와 같은 관측 가능성들과 연관된다. 상태 0은 변동하는 스펙트럼 엔벨로프를 나타내고, 상태 1은 안정된 엔벨로프를 나타내며, 엔벨로프 안정성 D(m)의 낮은 측정값은 상태 0에 대한 높은 가능성 및 상태 1에 대한 낮은 가능성을 의미한다. 반대로, 만약 엔벨로프 안정성 D(m)이 큰 것으로 측정되거나 관측된다면, 이것은 상태 1에 대한 높은 가능성 및 상태 0에 대한 낮은 가능성과 연관된다. 또한 상기 기술한 시그모이드 함수에 의한 엔벨로프 안정성 값들의 바람직한 처리에 적합한 상태 관측 가능성들에 대한 엔벨로프 안정성 측정값들의 맵핑은 상태 1의 상태 관측 가능성에 대한 D(m)의 1-대-1 맵핑 및 상태 0의 상태 관측 가능성에 대한 1-D(m)의 1-대-1 맵핑이다. 즉, 상기 시그모이드 함수 맵핑의 출력은 마르코프 평활화기에 입력이 될 것이다:

이러한 맵핑은 그 사용된 시그모이드 함수에 크게 좌우된다는 것을 알 수 있을 것이다. 이러한 함수의 변경은 각각의 상태 관측 가능성에 대한 D(m) 및 1-D(m)으로부터 리맵핑(remapping) 함수의 도입을 필요로 한다. 상기 시그모이드 함수 이외에 행해질 수도 있는 간단한 리맵핑은 추가적인 오프셋 및 스케일링(scaling) 인자의 적용이다.

다음의 처리 단계에서, 상태 관측 가능성의 벡터 Pp(m)는 프레임(m)에 대한 새로운 상태 가능성 벡터 Ps(m)을 제공하는 이전 가능성의 벡터 P _A (m)과 조합된다. 이러한 조합은 양 벡터의 요소별 곱셈에 의해 행해진다:

이러한 벡터의 가능성들이 1까지 합할 필요는 없기 때문에, 그 벡터는 재정규화되고, 이후 프레임(m)에 대한 최종 상태 가능성 벡터를 산출한다:

최종 단계에서, 프레임(m)에 대한 가장 가능한 상태는 평활화 및 이산화된 엔벨로프 안정성 측정과 같은 방법에 의해 리턴된다. 이는 그러한 상태 가능성 벡터 Ps(m)에서 최대 요소의 식별을 필요로 한다:

상기 엔벨로프 안정성 측정에 우수한 상기 기술된 마르코프 기반 평활화 방법을 수행하기 위해, 상태 변이 특성들이 적절한 방식으로 선택된다. 다음은 그러한 작업에 매우 적합한 찾아진 변이 가능성 행렬의 예를 나타낸다:

이러한 변이 가능성 행렬에서의 가능성들로부터, 상태 0을 유지할 가능성은 0.999로 매우 높은 반면 이 상태를 떠날 가능성은 0.001로 낮다는 것을 알 수 있다. 따라서, 상기 엔벨로프 안정성 측정의 평활화는 단지 그 엔벨로프 안정성 측정값들이 낮은 안정성을 나타내는 경우에만 선택한다. 안정된 엔벨로프를 나타내는 안정성 측정값들이 이들에 의해 비교적 안정하기 때문에, 이들에 대한 그 이상의 평활화는 더 이상 필요치 않다. 따라서, 상태 1을 떠나고 상태 1을 유지할 그러한 변이 가능성 값들은 0.5로 동일하게 설정된다.

그러한 평활화된 엔벨로프 안정성 측정 분석의 증가는 다수의 상태(M)를 증가시킴으로써 쉽게 달성될 수 있다는 것을 알 수 있을 것이다.

좀더 향상된 그러한 엔벨로프 안정성 측정의 평활화 방법의 가능성은 엔벨로프 안정성과의 통계적 관계를 나타내는 또 다른 측정을 포함하는 것이다. 그와 같은 추가의 측정은 상태 관측 가능성들과 엔벨로프 안정성 측정 관측 D(m)의 조합으로서 아날로그 방식으로 사용될 수 있다. 그와 같은 경우, 그러한 상태 관측 가능성들은 다른 사용된 측정들의 각각의 상태 관측 가능성들의 요소별 곱셈에 의해 산출된다.

상기 엔벨로프 안정성 측정, 그리고 특히 평활화 측정은 스피치/음악 분류에 특별히 유용하다는 것을 발견했다. 이러한 발견에 따라, 스피치는 낮은 안정성 측정과 연관될 수 있는데, 특히 상기 기술한 마르코프 모델의 상태 0과 연관될 수 있다. 반대로, 음악은 높은 안정성 측정과 연관될 수 있는데, 특히 상기 마르코프 모델의 상태 1과 연관될 수 있다.

명확성을 위해, 특정 실시예에 있어서, 상기 기술한 평활화 과정은 각 순간(m)에 다음의 단계에서 실행된다:

1. 현재 엔벨로프 안정성 측정값 D(m)을 상태 관측 가능성 P _p (m)과 조합.

2. 이전 순간(m-1)에 상태 가능성 P _s (m-1)과 관련되고 변이 가능성(T)과 관련된 이전 가능성들 P _A (m)을 계산.

3. 요소별 이전 가능성들 P _A (m)을, 현재 프레임(m)에 대한 상태 가능성 P _s (m)의 벡터를 산출하는, 재정규화를 포함하는 상태 관측 가능성들 P _p (m)과 곱함.

4. 그러한 상태 가능성 P _s (m)의 벡터에서의 최대 가능성을 갖는 상태를 확인하고 현재 프레임(m)에 대한 최종 평활화된 엔벨로프 안정성 측정 D _smo (m)으로 리턴.

도 4는 수신된 오디오 프레임의 신호들의 스펙트럼 엔벨로프(10)를 나타내는 개략 그래프이고, 여기서 각 대역의 진폭은 단일의 값으로 나타냈다. 수평축은 주파수이고, 수직축은 진폭, 예컨대 파워 등을 나타낸다. 그 도면은 보다 높은 주파수들에 대한 증가 대역폭의 통상적인 구성을 나타내지만, 소정 타입의 분할되는 균일 또는 비균일 대역이 사용될 수 있다는 것을 알아야 한다.

일시적 검출(transient detection)

앞서 언급한 바와 같이, 안정성 값 또는 안정성 파라미터를 오디오 신호의 일시적 특성의 측정과 조합하는 것이 바람직하다. 그와 같은 측정을 달성하기 위해, 일시적 검출기가 사용된다. 예컨대, 안정성 값/파라미터 및 일시적 측정에 기초하여 오디오 신호를 디코딩할 때 사용되는 노이즈 채움 또는 감쇠 제어의 타입이 결정될 수 있다. 행오버 로직을 이용하는 예시의 일시적 검출기가 이하 개략 기술된다. 상기 용어 '행오버'는 통상 오디오 신호 처리에 사용되고, 보통 결정 지연의 안전성을 고려할 경우, 변이 주기 중 불안정한 스위칭 동작을 피하기 위해 그러한 결정 지연의 개념과 관련된다.

상기 일시적 검출기는 코딩 모드에 따라 각기 다른 분석을 사용한다. 그것은 제로(zero)로 초기화된 행오버 로직을 핸들링하기 위해 행오버 카운터 no_att_hangover를 갖는다. 상기 일시적 검출기는 3개의 다른 모드들에 대한 규정된 동작을 갖는다:

· 모드 A: 엔벨로프 값들이 없는 낮은 대역 코딩 모드

· 모드 B: 엔벨로프 값들이 있는 정상적인 코딩 모드

· 모드 C: 일시적 코딩 모드

상기 일시적 검출기는 합성 신호의 장기적인 에너지 추정을 필요로 한다. 상기 코딩 모드에 따라 다르게 갱신된다.

모드 A

모드 A에 있어서, 그러한 프레임 에너지 추정 E _frameA (m)은 아래와 같이 산출된다:

여기서 bin_th는 모드 A의 합성된 낮은 대역에서의 최고의 인코딩된 계수이고,

는 프레임(m)의 합성된 MDCT 계수들이다. 인코더서, 이것들은 인코딩 프로세스에서 추출될 수 있는 로컬 합성 방법을 이용하여 재생성되고, 이것들은 디코딩 프로세스에서 얻어진 계수들과 동일하다. 상기 장기적인 에너지 추정(ELT)은 저역-통과 필터를 이용하여 갱신된다.

여기서 β는 0.93의 예시의 값을 갖는 필터링 인자이다. 만약 행오버 카운터가 1보다 크면, 그것은 감소한다.

모드 B

그러한 장기적인 에너지 추정 E _frameB (m)은 양자화된 엔벨로프 값들에 기초하여 갱신된다.

여기서 B _LF 는 낮은 주파수 에너지 산출에 포함된 최고 대역 b이다. 그러한 장기적인 에너지 추정은 모드 A에서와 같이 동일하게 갱신된다:

행오버 감소는 모드 A와 동일하게 수행된다.

모드 C

모드 C는 4개 서브프레임(각 서브프레임은 LTE에서 1에 대응)의 스펙트럼을 인코딩하는 일시적 모드이다. 그러한 엔벨로프는 일부의 주파수 순서가 유지되는 패턴으로 인터리브(interleave)된다. 4개의 서브프레임 에너지 E _sub , _SF , SF=0,1,2,3은 이하에 따라 산출된다:

여기서, subframeSF는 서브프레임 SF를 나타내는 엔벨로프 대역(b)들이고, │subframeSF│는 이러한 세트의 크기이다. 실제 실행은 엔벨로프 벡터의 인터리브된 서브프레임들의 배열에 좌우된다는 것을 염두해 두자.

프레임 에너지 E _frameC (m)은 그러한 서브프레임 에너지들을 합함으로써 형성된다:

일시적 테스트는 그러한 조건을 체킹함으로써 높은 에너지 프레임들에서 행해진다.

여기서 E _THR =100은 에너지 임계치이고, N _SF =4는 서브프레임의 수이다. 만약 상기 조건이 통과될 경우, 최대 서브프레임 에너지 차이가 얻어진다.

최종적으로, 만약 상기 조건 D _max (m)＞D _THR 이 참일 경우(여기서 D _THR =5는 실행 및 민감도 셋팅에 좌우되는 결정 임계치), 행오버 카운터는 아래의 최대값으로 셋팅된다.

여기서 ATT_LIM_HANGOVER=150은 구성가능한 일정한 프레임 카운터 값이다. 이제 상기 조건 T(m)=no_att_hangover(m)＞0이 참이면, 그것은 일시적인 검출을 의미하고 행오버 카운터가 아직 제로에 이르지 않았다는 것을 의미한다.

일시적 행오버 결정 T(m)은

에 따른 변형들이 T(m)이 참일 때에만 적용되도록 엔벨로프 안정성 측정

과 조합될 것이다.

특정 문제는 서브-대역 기준(또는 스케일 인자) 형태의 스펙트럼 엔벨로프의 표시를 제공하지 않는 오디오 코덱의 경우에 있어서의 그러한 엔벨로프 안정성 측정의 산출이다.

다음에 이러한 문제를 해결함과 더불어 상기 기술한 바와 같은 서브-대역 기준 또는 스케일 인자들에 기초하여 얻어진 엔벨로프 안정성 측정과 일치하는 유용한 엔벨로프 안정성 측정을 얻는 일 실시예를 기술한다.

그러한 해결책의 첫번째 단계는 주어진 신호 프레임의 스펙트럼 엔벨로프의 적절한 대안의 표시를 찾는 것이다. 하나의 그와 같은 표시는 선형 예측 계수(LPC 또는 단기 예측 계수)들에 기초한 표시이다. 이들 계수는 LPC 차수(order) P가 적절히 선택되면 스펙트럼 엔벨로프의 양호한 표시인데, 예컨대 광대역 또는 초광대역 신호들의 경우 16이다. 코딩, 양자화 및 보간 목적에 특히 적합한 LPC 파라미터의 표시는 라인 스펙트럼 주파수(LSF) 또는 관련된 파라미터 등인데, 예컨대 이미턴스 스펙트럼 주파수(ISF; immittance spectral frequency) 또는 라인 스펙트럼 쌍(LSP)이다. 그 이유는 이들 파라미터가 대응하는 LPC 합성 필터의 엔벨로프 스펙트럼과 양호한 관계를 나타내기 때문이다.

이전 프레임의 것들과 비교된 현재 프레임의 LSF 파라미터들의 안정성을 평가하는 종래의 매트릭(metric)은 ITU-T G.718 코덱의 LSF 안정성 매트릭으로 알려져 있다. 이러한 LSF 안정성 매트릭은 LPC 파라미터 보간에서 그리고 프레임 삭제의 경우에 사용된다. 이러한 매트릭은 다음과 같이 규정된다:

여기서 P는 LPC 필터 차수이고, a 및 b는 일부 적절한 상수이다. 게다가, lsf_stab 매트릭은 0에서 1까지의 간격으로 한정될 것이다. 1에 가까운 큰 수는 LSF 파라미터들이 매우 안정하다는 것, 즉 많이 변경되지 않는 다는 것을 의미하는 반면, 낮은 값은 그러한 파마리터들이 상대적으로 불안정하다는 것을 의미한다.

본원에 제공된 실시예들에 따른 한가지 발견은 그러한 LSF 안정성 매트릭이 서브-대역 기준(또는 스케일 인자) 형태의 현재 및 이전 스펙트럼 엔벨로프들을 비교하는 대안으로서 그 엔벨로프 안정성에 특히 유용한 표시자(indicator)로서 사용될 수도 있다는 것이다. 결국, 일 실시예에 따르면, 그러한 lst_stab 파라미터는 현재 프레임에서 산출된다(이전 프레임과 연관되어). 다음에 이러한 파라미터는 아래와 같은 적절한 다항식 변환에 의해 리스케일(rescale)된다.

여기서 N은 다항식 차수이고, α _n 은 다항식 계수이다.

그러한 리스케일링, 즉 다항식 차수 및 계수의 셋팅은 변환된 값

이 가능하면 상기의 대응하는 엔벨로프 안정성 값 D(m)과 유사하게 이루어지도록 행해진다. 많은 경우에 다항식 차수 1이 충분하다는 것을 알아냈다.

분류, 도 5a 및 5b

상기 기술된 방법은 일부의 오디오 신호를 분류하기 위한 방법으로 기술되며, 여기서 적절한 디코딩, 또는 인코딩, 모드 또는 방법이 그러한 분류의 결과에 기초하여 선택될 것이다.

도 5a-b는 예컨대 오디오를 위한 인코딩 모드의 선택을 돕기 위한 도 1의 무선 단말 및/또는 트랜스코딩 노드와 같은 호스트 장치의 오디오 인코더에서 수행된 방법들을 나타내는 순서도이다.

코덱 파라미터들을 획득하는 단계 501에서, 코덱 파라미터들이 획득될 수 있다. 그러한 코텍 파라미터들은 호스트 장치의 인코더 또는 디코더에서 이미 이용가능한 파라미터들이다.

분류 단계 502에서, 오디오 신호는 상기 코덱 파라미터들에 기초하여 분류된다. 그러한 분류는 예컨대 음성 또는 음악이 될 수 있다. 옵션으로, 전후 호핑(hopping)을 방지하기 위해 상기에서 좀더 상세히 기술한 바와 같은 히스테리시스가 이러한 단계에 사용된다. 대안으로 또는 추가로, 상기에서 좀더 상세히 설명한 바와 같이, 마르코프 체인과 같은 마르코프 모델이 그러한 분류의 안정성을 향상시키기 위해 사용될 수 있다.

예컨대, 상기 분류는 이러한 단계에서 계산되는 오디오 데이터의 스펙트럼 정보의 엔벨로프 안정성 측정에 기초하여 이루어질 수 있다. 이러한 계산은 예컨대 양자화된 엔벨로프 값에 기초하여 이루어질 수 있다.

옵션으로, 이러한 단계는, 계산의 필요성을 감소시키기 위해 선택적으로 룩업-테이블을 이용하여, 상기 S(m)으로 나타낸 바와 같은, 미리 규정된 스칼라 범위로 안정성 측정을 맵핑하는 것을 포함한다.

상기 방법은 오디오 데이터의 각 수신된 프레임에 대해 반복될 것이다.

도 5b는 일 실시예에 따른 오디오에 대한 인코딩 및/또는 디코딩 모드의 선택을 돕기 위한 방법을 나타낸다. 이러한 방법은 도 5a에 나타낸 방법과 유사하며, 도 5a와 관련하여 단지 새롭거나 변경된 단계들만이 기술될 것이다.

옵션의 코딩 모드를 선택하는 단계(503)에서, 코딩 모드는 상기 분류 단계 502로부터의 분류에 기초하여 선택된다.

옵션의 인코딩 단계 504에서, 오디오 데이터는 상기 코딩 모드 선택 단계 503에서 선택된 코딩 모드에 기초하여 인코딩 또는 디코딩된다.

실시

상기 기술한 방법 및 기술들은 예컨대 통신 장치의 일부인 인코더 및/또는 디코더에서 실시될 것이다.

디코더, 도 6a-6c

디코더의 예시 실시예는 도 6a의 통상의 방식으로 기술된다. 디코더는 디코딩하도록 구성된, 그렇지 않으면 오디오 신호를 복원하도록 구성된 디코더와 관련된다. 상기 디코더는 다른 타입의 신호들을 디코딩하도록 구성될 수도 있다. 상기 디코더(600)는 예컨대 상기 도 2a 및 2b와 관련하여 상기 기술한 방법 실시예들 중 적어도 하나를 수행하도록 구성된다. 상기 디코더(600)는 앞서 기술한 방법 실시예들과 동일한 기술적 특징, 목적 및 장점들과 관련된다. 상기 디코더는 오디오 코딩/디코딩을 위한 하나 또는 그 이상의 표준에 부합되도록 구성될 것이다. 상기 디코더는 불필요한 반복을 피하기 위해 개략적으로 기술될 것이다.

상기 디코더는 다음과 같이 실시 및/또는 기술된다:

상기 디코더(600)는 오디오 신호를 디코딩하도록 구성된다. 그러한 디코더(600)는 처리 회로, 또는 처리 수단(601) 및 통신 인터페이스(602)를 포함한다. 상기 처리 회로(601)는 디코더(600)가 프레임(m)에 대해, 변환 도메인에서: 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하게 하도록 구성되며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 처리 회로(601)는 상기 디코더가 상기 안정성 값 D(m)에 기초하여 다수의 디코딩 모드로부터 어떤 디코딩 모드를 선택하고; 그 선택된 디코딩 모드를 적용하게 하도록 더 구성된다.

상기 처리 회로(601)는 상기 디코더가 필터된 안정성 값

을 달성하도록 안정성 값 D(m)을 저역 통과 필터링하고; 다음에 디코딩 모드의 선택에 기초하여 안정성 파라미터 S(m)를 달성하도록 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 상기 필터된 안정성 값

을 맵핑하게 하도록 더 구성될 것이다. 예컨대 입력/출력(I/0) 인터페이스로도 나타낸 통신 인터페이스(602)는 다른 엔티티 또는 모듈로 데이터를 전송 및 그로부터 데이터를 수신하기 위한 인터페이스를 포함한다.

상기 처리 회로(601)는, 도 6b에 나타낸 바와 같이, 프로세서(603), 예컨대 CPU와 같은 처리 수단, 및 명령을 저장 또는 유지하기 위한 메모리(604)를 포함한다. 이 때 상기 메모리는 처리 수단(603)에 의해 실행될 때, 상기 디코더(600)가 상기 기술한 동작들을 수행하게 하는 명령들, 예컨대 컴퓨터 프로그램(605) 형태의 명령들을 포함한다.

상기 처리 회로(601)의 대안의 실시가 도 6c에 나타나 있다. 여기서, 상기 처리 회로는 디코더(600)가 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하는 관계를 결정하게 하도록 구성된 결정 유닛(606)을 포함하며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 처리 회로(601)는 상기 디코더가 상기 안정성 값 D(m)에 기초하여 다수의 디코딩 모드로부터 어떤 디코딩 모드를 선택하게 하도록 구성된 선택 유닛(609)을 더 포함한다. 상기 처리 회로는 상기 디코더가 상기 선택된 디코딩 모드를 적용하게 하도록 구성된 적용 유닛 또는 디코딩 유닛(610)을 더 포함한다. 상기 처리 회로(601)는 디코더가 필터된 안정성 값

을 달성하도록 안정성 값 D(m)을 저역 통과 필터링하게 하도록 구성된 필터 유닛(607)과 같은 더 많은 유닛을 포함할 수 있다. 상기 처리 회로는 상기 디코더가 다음에 디코딩 모드의 선택에 기초하여 안정성 파라미터 S(m)을 달성하도록 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 필터된 안정성 값

을 맵핑하게 하도록 구성된 맵핑 유닛(608)을 더 포함한다. 이들 옵션의 유닛은 도 6c에서 점선으로 나타냈다.

상기 기술한 디코더 또는 코덱들은 마르코프 모델의 사용 및 에러 은폐와 연관된 각기 다른 디코딩 모드들간 선택과 같은 본원에 기술된 각기 다른 방법 실시예들을 위해 구성될 것이다.

상기 디코더(600)는 통상의 디코더 기능을 수행하기 위한 다른 기능을 포함하는 것으로 간주한다.

인코더, 도 7a-7c

인코더의 예시 실시예가 통상의 방식으로 도 7a에 나타나 있다. 인코더는 오디오 신호를 인코딩하도록 구성된 인코더와 관련된다. 상기 인코더는 다른 타입의 신호들을 인코딩하도록 더 구성될 수 있다. 그러한 인코더(700)는 예컨대 도 2a 및 2b와 관련하여 상기 기술한 디코딩 방법들에 대응하는 적어도 하나의 방법을 수행하도록 구성된다. 즉, 도 2a 및 2b에서와 같이, 디코딩 모드를 선택하는 대신, 인코딩 모드가 선택 및 적용된다. 상기 인코더(700)는 앞서 기술한 방법 실시예들과 동일한 특징, 목적 및 장점들과 연관된다. 상기 인코더는 오디오 인코딩/디코딩을 위한 하나 또는 그 이상의 표준에 부합되도록 구성된다. 상기 인코더는 불필요한 반복을 피하기 위해 개략적으로 기술될 것이다.

상기 인코더는 다음과 같이 실시 및/또는 기술된다:

상기 인코더(700)는 오디오 신호를 인코딩하도록 구성된다. 그러한 인코더(700)는 처리 회로, 또는 처리 수단(701) 및 통신 인터페이스(702)를 포함한다. 상기 처리 회로(701)는 인코더(700)가 프레임(m)에 대해, 변환 도메인에서: 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하게 하도록 구성되며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 처리 회로(701)는 상기 인코더가 상기 안정성 값 D(m)에 기초하여 다수의 인코딩 모드로부터 하나의 인코딩 모드를 선택하고; 그 선택된 인코딩 모드를 적용하게 하도록 더 구성된다.

상기 처리 회로(701)는 상기 인코더가 필터된 안정성 값

을 달성하도록 안정성 값 D(m)을 저역 통과 필터링하고; 다음에 인코딩 모드의 선택에 기초하여 안정성 파라미터 S(m)를 달성하도록 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 상기 필터된 안정성 값

을 맵핑하게 하도록 더 구성될 것이다. 예컨대 입력/출력(I/0) 인터페이스로도 나타낸 통신 인터페이스(702)는 다른 엔티티 또는 모듈로 데이터를 전송 및 그로부터 데이터를 수신하기 위한 인터페이스를 포함한다.

상기 처리 회로(701)는, 도 7b에 나타낸 바와 같이, 프로세서(703), 예컨대 CPU와 같은 처리 수단, 및 명령을 저장 또는 유지하기 위한 메모리(704)를 포함한다. 이 때 상기 메모리는 처리 수단(703)에 의해 실행될 때, 상기 인코더(700)가 상기 기술한 동작들을 수행하게 하는 명령들, 예컨대 컴퓨터 프로그램(705) 형태의 명령들을 포함한다.

상기 처리 회로(701)의 대안의 실시가 도 7c에 나타나 있다. 여기서, 상기 처리 회로는 인코더(700)가 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하는 관계를 결정하게 하도록 구성된 결정 유닛(706)을 포함하며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 처리 회로(701)는 상기 인코더가 상기 안정성 값 D(m)에 기초하여 다수의 인코딩 모드로부터 하나의 인코딩 모드를 선택하게 하도록 구성된 선택 유닛(709)을 더 포함한다. 상기 처리 회로는 상기 인코더가 상기 선택된 인코딩 모드를 적용하게 하도록 구성된 적용 유닛 또는 인코딩 유닛(710)을 더 포함한다. 상기 처리 회로(701)는 인코더가 필터된 안정성 값

을 달성하도록 안정성 값 D(m)을 저역 통과 필터링하게 하도록 구성된 필터 유닛(707)과 같은 더 많은 유닛을 포함할 수 있다. 상기 처리 회로는 상기 인코더가 다음에 디코딩 모드의 선택에 기초하여 안정성 파라미터 S(m)을 달성하도록 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 필터된 안정성 값

을 맵핑하게 하도록 구성된 맵핑 유닛(708)을 더 포함한다. 이들 옵션의 유닛은 도 7c에서 점선으로 나타냈다.

상기 기술한 인코더 또는 코덱들은 마르코프 모델의 사용과 같이 본원에 기술된 각기 다른 방법 실시예들을 위해 구성될 것이다.

상기 인코더(700)는 통상의 인코더 기능을 수행하기 위한 다른 기능을 포함하는 것으로 간주한다.

분류기 도 8a-8c

분류기의 예시 실시예가 통상의 방식으로 도 8a에 나타나 있다. 분류는 오디오 신호들을 분류하는, 즉 오디오 신호들의 각기 다른 타입 또는 클래스(class)들간 식별하도록 구성된 분류기와 관련된다. 그러한 분류기(800)는 예컨대 도 5a 및 5b와 관련하여 상기 기술한 디코딩 방법들에 대응하는 적어도 하나의 방법을 수행하도록 구성된다. 상기 분류기(800)는 앞서 기술한 방법 실시예들과 동일한 특징, 목적 및 장점들과 연관된다. 상기 분류기는 오디오 인코딩/디코딩을 위한 하나 또는 그 이상의 표준에 부합되도록 구성된다. 상기 분류기는 불필요한 반복을 피하기 위해 개략적으로 기술될 것이다.

상기 분류기는 다음과 같이 실시 및/또는 기술된다:

상기 분류기(800)는 오디오 신호를 분류하도록 구성된다. 그러한 분류기(800)는 처리 회로, 또는 처리 수단(801) 및 통신 인터페이스(802)를 포함한다. 상기 처리 회로(801)는 분류기(800)가 프레임(m)에 대해, 변환 도메인에서: 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하게 하도록 구성되며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 처리 회로(801)는 상기 분류기가 상기 안정성 값 D(m)에 기초하여 오디오 신호를 분류하게 하도록 더 구성된다. 예컨대, 그러한 분류는 다수의 후보 오디오 신호 클래스들로부터 하나의 오디오 신호 클래스를 선택하는 것을 포함한다. 상기 처리 회로(801)는 상기 분류기가 예컨대 디코더 또는 인코더에 의해 사용을 위해 분류를 표시하게 하도록 더 구성된다.

상기 처리 회로(701)는 상기 분류기가 필터된 안정성 값

을 달성하도록 안정성 값 D(m)을 저역 통과 필터링하고; 오디오 신호의 분류에 기초하여 안정성 파라미터 S(m)를 달성하도록 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 상기 필터된 안정성 값

을 맵핑하게 하도록 더 구성될 것이다. 예컨대 입력/출력(I/0) 인터페이스로도 나타낸 통신 인터페이스(802)는 다른 엔티티 또는 모듈로 데이터를 전송 및 그로부터 데이터를 수신하기 위한 인터페이스를 포함한다.

상기 처리 회로(801)는, 도 8b에 나타낸 바와 같이, 프로세서(803), 예컨대 CPU와 같은 처리 수단, 및 명령을 저장 또는 유지하기 위한 메모리(804)를 포함한다. 이 때 상기 메모리는 처리 수단(803)에 의해 실행될 때, 상기 분류기(800)가 상기 기술한 동작들을 수행하게 하는 명령들, 예컨대 컴퓨터 프로그램(805) 형태의 명령들을 포함한다.

상기 처리 회로(801)의 대안의 실시가 도 8c에 나타나 있다. 여기서, 상기 처리 회로는 분류기(800)가 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하는 관계를 결정하게 하도록 구성된 결정 유닛(806)을 포함하며, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함한다. 상기 처리 회로(801)는 상기 분류기가 오디오 신호를 분류하게 하도록 구성된 분류 유닛(809)을 더 포함한다. 상기 처리 회로는 상기 분류기가 예컨대 인코더 또는 디코더에 상기 분류를 표시하게 하도록 구성된 표시 유닛(810)을 더 포함한다. 상기 처리 회로(801)는 상기 분류기가 필터된 안정성 값

을 달성하도록 안정성 값 D(m)을 저역 통과 필터링하게 하도록 구성된 필터 유닛(807)과 같은 더 많은 유닛을 포함할 수 있다. 상기 처리 회로는 상기 분류기가 오디오 신호의 분류에 기초하여 안정성 파라미터 S(m)을 달성하도록 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 필터된 안정성 값

을 맵핑하게 하도록 구성된 맵핑 유닛(808)을 더 포함한다. 이들 옵션의 유닛은 도 8c에서 점선으로 나타냈다.

상기 기술한 분류기는 마르코프 모델의 사용과 같이 본원에 기술된 각기 다른 방법 실시예들을 위해 구성될 것이다.

상기 분류기(800)는 통상의 분류기 기능을 수행하기 위한 다른 기능을 포함하는 것으로 간주한다.

도 9는 도 1의 무선 단말(2)의 일부 요소들을 나타내는 개략도이다. 프로세서(70)는 컴퓨터 프로그램 제품이 될 수 있는 메모리(74)에 저장된 소프트웨어 명령(76)들을 실행할 수 있는 하나 또는 그 이상의 적절한 중앙처리유닛(CPU), 멀티프로세서, 마이크로컨트롤러, 디지털 신호 프로세서(DSP), 주문형 집적회로 등의 소정 조합을 이용하여 제공된다. 상기 프로세서(70)는 상기 도 5a-b와 관련하여 기술한 방법들의 소정 하나 또는 그 이상의 실시예들을 실행하기 위한 소프트웨어 명령(76)들을 실행할 수 있다.

상기 메모리(74)는 RAM 및 ROM의 소정 조합이 될 수 있다. 또한 상기 메모리(74)는 예컨대 자기 메모리, 광학 메모리, 고체 상태 메모리 또는 심지어 원격 탑재 메모리의 단 하나 또는 조합이 될 수 있는 영구 저장장치를 포함한다.

상기 프로세서(70)에서 소프트웨어 명령들의 실행 동안 데이터를 읽고 그리고/또 저장하기 위한 데이터 메모리(73) 또한 제공된다. 그러한 데이터 메모리(73)는 RAM 및 ROM의 소정 조합이 될 수 있다.

더욱이 무선 단말(2)은 다른 외부 엔티티들과 통신하기 위한 I/O 인터페이스(72)를 포함한다. 또한 상기 I/0 인터페이스(72)는 마이크로폰, 스피커, 디스플레이 등을 포함하는 사용자 인터페이스를 포함한다. 옵션으로, 외부 마이크로폰 및/또는 스피커/헤드폰이 상기 무선 단말에 연결될 수 있다.

또한 상기 무선 단말(2)은 아날로그 및 디지털 요소들을 포함하는 하나 또는 그 이상의 트랜시버(71), 및 도 1에 나타낸 바와 같은 무선 단말들과의 무선 통신을 위한 적절한 수의 안테나(75)를 포함한다.

상기 무선 단말(2)은 오디오 인코더 및 오디오 디코더를 포함한다. 이들은 프로세서(70)에 의해 또는 분리된 하드웨어(나타내지 않음)를 이용하여 실행할 수 있는 소프트웨어 명령(76)들로 실행될 수 있다.

상기 무선 단말(2)의 다른 요소들은 본원에 나타낸 개념들을 불명확하게 하지 않도록 생략한다.

도 10은 도 1의 트랜스코딩 노드(5)의 일부 요소들을 나타내는 개략도이다. 프로세서(80)는 컴퓨터 프로그램 제품이 될 수 있는 메모리(84)에 저장된 소프트웨어 명령(66)들을 실행할 수 있는 하나 또는 그 이상의 적절한 중앙처리유닛(CPU), 멀티프로세서, 마이크로컨트롤러, 디지털 신호 프로세서(DSP), 주문형 집적회로 등의 소정 조합을 이용하여 제공된다. 상기 프로세서(80)는 상기 도 5a-b와 관련하여 기술한 방법들의 소정 하나 또는 그 이상의 실시예들을 실행하기 위한 소프트웨어 명령(86)들을 실행하도록 구성될 수 있다.

상기 메모리(84)는 RAM 및 ROM의 소정 조합이 될 수 있다. 또한 상기 메모리(84)는 예컨대 자기 메모리, 광학 메모리, 고체 상태 메모리 또는 심지어 원격 탑재 메모리의 단 하나 또는 조합이 될 수 있는 영구 저장장치를 포함한다.

상기 프로세서(80)에서 소프트웨어 명령들의 실행 동안 데이터를 읽고 그리고/또 저장하기 위한 데이터 메모리(83) 또한 제공된다. 그러한 데이터 메모리(83)는 RAM 및 ROM의 소정 조합이 될 수 있다.

더욱이 트랜스코딩 노드(5)는 무선 기지국(1)을 통해 도 1의 무선 단말과 같은 다른 외부 엔티티들과 통신하기 위한 I/O 인터페이스(82)를 포함한다.

상기 트랜스코딩 노드(5)는 오디오 인코더 및 오디오 디코더를 포함한다. 이들은 프로세서(80)에 의해 또는 분리된 하드웨어(나타내지 않음)를 이용하여 실행할 수 있는 소프트웨어 명령(86)들로 실행될 수 있다.

상기 트랜스코딩 노드(5)의 다른 요소들은 본원에 나타낸 개념들을 불명확하게 하지 않도록 생략한다.

도 11은 컴퓨터 판독가능 수단을 포함하는 컴퓨터 프로그램 제품(90)의 일 예를 나타낸다. 이러한 컴퓨터 판독가능 수단에, 컴퓨터 프로그램(91)이 저장될 수 있으며, 그러한 컴퓨터 프로그램은 프로세서가 본원에 기술된 실시예들에 따른 방법을 실행하게 할 수 있다. 이러한 예에 있어서, 그러한 컴퓨터 프로그램 제품은 CD 또는 DVD 또는 블루-레이 디스크와 같은 광학 디스크이다. 상기 설명한 바와 같이, 상기 컴퓨터 프로그램 제품은 또한 도 7의 컴퓨터 프로그램 제품(74) 또는 도 8의 컴퓨터 프로그램 제품(84)과 같은 장치의 메모리에 내장될 수 있다. 그러한 컴퓨터 프로그램(91)이 여기서 도시된 광학 디스크 상에 트랙(track)으로 개략적으로 나타냈지만, 그러한 컴퓨터 프로그램은 제거가능 고체 상태 메모리(예컨대, USB 스틱)와 같은 컴퓨터 프로그램 제품에 적합한 형태로 저장될 수 있다.

이제 여기서 본원에 나타낸 발명의 개념들을 통해 일부 형태를 더 예시하기 위해 일련의 실시예들을 열거한다.

1. 오디오에 대한 인코딩 또는 디코딩 모드의 선택을 돕기 위한 방법으로서, 오디오 인코더 또는 디코더에서 수행되는 상기 방법은:

코덱 파라미터들을 획득하는 단계(501); 및

상기 코덱 파라미터들에 기초하여 오디오 신호를 분류하는 단계(502)를 포함한다.

2. 실시예 1에 따른 방법은:

상기 분류에 기초하여 코딩 모드를 선택하는 단계(503)를 더 포함한다.

3. 실시예 2에 따른 방법은:

상기 선택 단계에서 선택된 코딩 모드에 기초하여 오디오 데이터를 인코딩 또는 디코딩하는 단계(504)를 더 포함한다.

4. 선행하는 실시예들 중 어느 한 실시예에 따른 방법에서, 상기 오디오 신호를 분류하는 단계(502)는 히스테리시스의 사용을 포함한다.

5. 선행하는 실시예들 중 어느 한 실시예에 따른 방법에서, 상기 오디오 신호를 분류하는 단계(502)는 마르코프 체인의 사용을 포함한다.

6. 선행하는 실시예들 중 어느 한 실시예에 따른 방법에서, 상기 분류하는 단계(502)는 오디오 데이터의 스펙트럼 정보의 엔벨로프 안정성 측정을 산출하는 단계를 포함한다.

7. 실시예 6에 따른 방법은 상기 분류의 단계에서, 엔벨로프 안정성 측정을 산출하는 단계는 양자화된 엔벨로프 값에 기초한다.

*8. 실시예 6 또는 7에 따른 방법에서, 상기 분류의 단계는 미리 규정된 스칼라 범위로 안정성 측정을 맵핑하는 단계를 포함한다.

9. 실시예 8에 따른 방법에서, 상기 분류의 단계는 룩업-테이블을 이용하여 미리 규정된 스칼라 범위로 안정성 측정을 맵핑하는 단계를 포함한다.

10. 선행하는 실시예들의 어느 한 실시예에 따른 방법에서, 상기 엔벨로프 안정성 측정은 프레임(m)의 엔벨로프, 및 선행 프레임(m-1)의 엔벨로프 특성들의 비교에 기초한다.

11. 오디오에 대한 인코딩 모드의 선택을 돕기 위한 호스트 장치(2, 5)로서, 상기 호스트 장치는:

프로세서(70, 80); 및

상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 코덱 파라미터들을 획득하고, 그 코덱 파라미터들에 기초하여 오디오 신호를 분류하게 하는 명령(76, 86)들을 저장하는 메모리(74, 80)를 포함한다.

12. 실시예 11에 따른 호스트 장치(2, 5)는, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 상기 분류에 기초하여 코딩 모드를 선택하게 하는 명령들을 더 포함한다.

13. 실시예 12에 따른 호스트 장치(2, 5)는, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 상기 선택된 코딩 모드에 기초하여 오디오 데이터를 인코딩하게 하게 하는 명령들을 더 포함한다.

14. 실시예 11 내지 13 중 어느 한 실시예에 따른 호스트 장치(2, 5)에서, 오디오 신호를 분류하기 위한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 히스테리시스를 사용하게 하는 명령들을 포함한다.

15. 실시예 11 내지 14 중 어느 한 실시예에 따른 호스트 장치(2, 5)에서, 상기 오디오 신호를 분류하기 위한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 마르코프 체인을 사용하게 하는 명령들을 포함한다.

16. 실시예 11 내지 15 중 어느 한 실시예에 따른 호스트 장치(2, 5)에서, 상기 분류하기 위한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 오디오 데이터의 스펙트럼 정보의 엔벨로프 안정성 측정을 산출하게 하는 명령들을 포함한다.

17. 실시예 16에 따른 호스트 장치(2, 5)에서, 상기 분류하기 위한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 양자화된 엔벨로프 값에 기초하여 엔벨로프 안정성 측정을 산출하게 하는 명령들을 포함한다.

18. 실시예 16 또는 17에 따른 호스트 장치(2, 5)에서, 상기 분류하기 위한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 미리 규정된 스칼라 범위로 안정성 측정을 맵핑하게 하는 명령들을 포함한다.

19. 실시예 18에 따른 호스트 장치(2, 5)에서, 상기 분류하기 위한 명령들은, 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 룩업-테이블을 이용하여 미리 규정된 스칼라 범위로 안정성 측정을 맵핑하게 하는 명령들을 포함한다.

20. 실시예 11 내지 19 중 어느 한 실시예에 따른 호스트 장치(2, 5)에서, 상기 분류하기 위한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 호스트 장치(2, 5)가 프레임(m), 및 선행 프레임(m-1)의 엔벨로프 특성들의 비교에 기초하여 엔벨로프 안정성 측정을 산출하게 하는 명령들을 포함한다.

21. 오디오에 대한 인코딩 모드의 선택을 돕기 위한 컴퓨터 프로그램(66, 91)으로서, 상기 컴퓨터 프로그램은 호스트 장치(2, 5) 상에서 실행될 때, 상기 호스트 장치(2, 5)가 코덱 파라미터들을 획득하고, 그 코텍 파라미터들에 기초하여 오디오 신호를 분류하게 하는 컴퓨터 프로그램 코드를 포함한다.

22. 컴퓨터 프로그램 제품(74, 84, 90)은 실시예 21에 따른 컴퓨터 프로그램 및 상기 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 수단을 포함한다.

본 발명은 주로 일부 실시예들과 관련지어 상기 기술되었다. 그러나, 통상의 기술자라면 용이하게 알 수 있는 바와 같이, 상기 개시된 것들과 다른 실시예들이 본 발명의 범주 내에서 동일하게 가능하다.

결론

본원에 기술된 단계들, 기능들, 과정들, 모듈들, 유닛들 및/또는 블럭들은 범용 전자 회로 및 주문형 회로 모두를 포함하는 개별 회로 또는 집적 회로와 같은 소정 기존의 기술을 이용하는 하드웨어에서 실시될 것이다.

특정 예들은 하나 또는 그 이상의 적절하게 구성된 디지털 신호 프로세서 및 다른 공지의 전자 회로들, 예컨대 특정 기능을 수행하도록 상호연결된 개별 로직 게이트, 또는 주문형 집적회로(ASIC)들을 포함한다.

대안으로, 상기 기술한 단계, 기능, 과정, 모듈, 유닛 및/또는 블록들의 적어도 일부는 하나 또는 그 이상의 처리 유닛을 포함하는 적절한 처리 회로에 의해 실행을 위한 컴퓨터 프로그램과 같은 소프트웨어로 실시될 것이다. 그러한 소프트웨어는 네트워크 노드에서 그러한 컴퓨터 프로그램의 사용 전 및/또는 사용 동안 전자 신호, 광 신호, 라디오 신호와 같은 캐리어, 또는 컴퓨터 판독가능 저장 매체에 의해 전송될 것이다. 상기 기술한 네트워크 노드 및 인덱싱 서버는 그러한 실행이 분배되는 것과 관련된 소위 클라우드 솔루션에서 실행되며, 이에 따라 상기 네트워크 노드 및 인덱싱 서버를 소위 가상 노드 또는 가상 머신이라 부른다.

본원에 제공된 순서도 또는 순서도들은 하나 또는 그 이상의 프로세서들에 의해 수행될 때의 컴퓨터 순서도 또는 순서도들과 관련될 것이다. 대응하는 장치는 기능 모듈들의 그룹으로서 규정되며, 여기서 그러한 프로세서에 의해 수행된 각 단계는 기능 모듈에 대응한다. 이러한 경우, 그러한 기능 모듈들은 프로세서 상에서 수행되는 컴퓨터 프로그램으로서 실행된다.

처리 회로의 예들은 한정하진 않지만 하나 또는 그 이상의 마이크로프로세서, 하나 또는 그 이상의 디지털 신호 프로세서(DSP), 하나 또는 그 이상의 중앙처리유닛(CPU), 및/또는 하나 또는 그 이상의 프로그램가능 로직 콘트롤러(PLC), 또는 하나 또는 그 이상의 필드 프로그램가능 게이트 어레이(FPGA)와 같은 소정의 적절한 프로그램가능 로직 회로를 포함한다. 즉, 상기 기술된 각기 다른 노드들에서의 그러한 구성의 유닛 또는 모듈들은 예컨대 메모리에 저장된 소프트웨어 및/또는 펌웨어로 구성된 하나 또는 그 이상의 프로세서, 및/또는 아날로그 및 디지털 회로의 조합에 의해 실시될 것이다. 하나 또는 그 이상의 이들 프로세서들 뿐만 아니라, 또 다른 디지털 하드웨어가 단일의 주문형 집적회로(ASIC), 또는 몇 개의 프로세서에 포함되고, 다양한 디지털 하드웨어가 개별 패키지되든 또는 시스템-온-칩(SoC)에 조립되든 몇 개의 분리된 요소들 중에 분배될 것이다.

또한 제안된 기술이 실시되는 유닛 또는 소정 기존 장치의 일반적인 처리 성능을 재사용할 수 있다는 것을 알아야 한다. 또한 예컨대 기존의 소프트웨어의 재프로그래밍에 의해 또는 새로운 소프트웨어 요소의 추가에 의해 기존의 소프트웨어를 재사용할 수도 있을 것이다.

상기 기술된 실시예들은 단지 예로서 주어진 것일 뿐이며, 그러한 제안된 기술이 그것으로 한정되지 않는다는 것을 알아야 할 것이다. 본 발명의 범주로부터 벗어나지 않고 상기 실시예들에 대한 다양한 변형, 조합 및 변경이 이루어질 수 있다는 것을 통상의 기술자라면 이해할 수 있을 것이다. 특히, 각기 다른 실시예들에 있어서의 각기 다른 부분의 해결책들은 기술적으로 가능한 다른 구성들에 조합될 수 있다.

단어 "포함" 또는 "포함하는"을 사용할 경우, 이것은 한정하지 않는 것으로 해석될 수 있는데, 즉 "적어도 ~로 이루어지는"것을 의미한다.

또한 몇몇 대안의 실시에 있어서, 블록으로 나타낸 기능/작용들은 그러한 순서도에 나타낸 순서에 따라 발생할 것이다. 예컨대, 연속으로 나타낸 2개의 블록은 사실상 거의 동시에 실행되거나 또는 종종 수반된 기능/작용에 따라 역순으로 실행될 수 있다. 더욱이, 순서도 및/또는 블록도의 주어진 블럭의 기능은 다수의 블록으로 분리되고, 그리고/또 그러한 순서도 및/또는 블록도의 2개 또는 그 이상의 블록의 기능은 적어도 부분적으로 통합될 수 있다. 최종적으로, 다른 블럭들이 나타낸 블록들 사이에 추가/삽입되고, 그리고/또 블럭/동작들이 발명의 개념들의 범주로부터 벗어나지 않고 생략될 수 있다.

본 개시 내의 유닛들의 명칭의 지정 뿐만 아니라 상호작용 유닛들의 선택은 단지 예시의 목적을 위한 것일 뿐이고, 상기 기술된 소정의 방법들을 실행하는데 적합한 노드들은 제안된 과정의 액션들을 실행할 수 있게 하기 위해 다수의 대안의 방식들로 구성될 수 있다는 것을 알아야 할 것이다.

또한 본 개시에 기술된 유닛들은 논리적 엔티티들로 간주되며, 필요에 따라 분리된 물리적 엔티티들로 간주되지 않는다.

Claims

오디오 신호를 디코딩하기 위한 방법으로서, 상기 방법은:
변환 도메인에서, 상기 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하는 단계로서, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함하는, 결정하는 단계와;
상기 안정성 값 D(m)에 기초하여 상기 오디오 신호를 분류하는 단계와;
상기 분류의 결과에 기초하여, 다수의 에러 은폐 방법 중 에러 은폐 방법을 선택하는 단계와;
선택된 에러 은폐 방법을 적용하는 단계를 포함하는, 오디오 신호 디코딩 방법.
청구항 1에 있어서,
- 필터된 안정성 값
을 달성하기 위해 안정성 값 D(m)을 저역 통과 필터링하는 단계(202)와;
- 안정성 파라미터 S(m)을 달성하기 위해 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 상기 필터된 안정성 값
을 맵핑하는 단계(203)를 더 포함하며,
상기 에러 은폐 방법을 선택하는 단계는 상기 안정성 파라미터 S(m)에 기초하여 이루어지는, 오디오 신호 디코딩 방법.
청구항 1 또는 2에 있어서,
상기 에러 은폐 방법을 선택하는 단계는 프레임(m)에 나타난 오디오 신호의 세그먼트가 스피치 또는 음악을 포함하는지를 결정하는 단계를 포함하는, 오디오 신호 디코딩 방법.
상기 항 중 어느 한 항에 있어서,
다수의 에러 은폐 방법 중 적어도 하나의 에러 은폐 방법은 음악보다 스피치에 적합하고, 적어도 하나의 에러 은폐 방법은 스피치보다 음악에 적합한, 오디오 신호 디코딩 방법.
상기 항 중 어느 한 항에 있어서,
상기 에러 은폐 방법을 선택하는 단계는 오디오 신호의 다른 신호 특성들간 변이와 관련된 마르코프 모델 규정 상태 변이 특성에 더 기초하여 이루어지는, 오디오 신호 디코딩 방법.
상기 항 중 어느 한 항에 있어서,
상기 에러 은폐 방법을 선택하는 단계는 오디오 신호의 스피치와 음악간 변이와 관련된 마르코프 모델 규정 상태 변이 특성에 더 기초하여 이루어지는, 오디오 신호 디코딩 방법.
상기 항 중 어느 한 항에 있어서,
안정성 값 D(m)은
으로 결정되며,
여기서 b_i는 프레임(m)의 스펙트럼 대역이고, E(m,b)는 프레임(m)의 대역(b)에 대한 에너지 측정을 나타내는, 오디오 신호 디코딩 방법.
오디오 신호를 디코딩하기 위한 디코더로서, 상기 디코더는:
변환 도메인에서, 상기 프레임(m)의 스펙트럼 엔벨로프의 범위와 인접한 프레임(m-1)의 스펙트럼 엔벨로프의 대응하는 범위간 차이에 기초하여 안정성 값 D(m)을 결정하고, 각각의 범위는 오디오 신호 세그먼트의 스펙트럼 대역의 에너지와 관련된 세트의 양자화된 스펙트럼 엔벨로프 값을 포함하며;
상기 안정성 값 D(m)에 기초하여 상기 오디오 신호를 분류하고;
상기 분류의 결과에 기초하여, 다수의 에러 은폐 방법 중 에러 은폐 방법을 선택하며;
선택된 에러 은폐 방법을 적용하도록 구성되는, 디코더.
청구항 8에 있어서,
- 필터된 안정성 값
을 달성하기 위해 안정성 값 D(m)을 저역 통과 필터링하고;
- 안정성 파라미터 S(m)을 달성하기 위해 시그모이드 함수의 사용에 의해 [0,1]의 스칼라 범위로 상기 필터된 안정성 값
을 맵핑(203)하는 것를 더 포함하며,
상기 에러 은폐 방법을 선택하는 것은 상기 안정성 파라미터 S(m)에 기초하여 이루어지도록 구성되는, 디코더.
청구항 8 또는 9에 있어서,
상기 에러 은폐 방법을 선택하는 것은 프레임(m)에 나타난 오디오 신호의 세그먼트가 스피치 또는 음악을 포함하는지를 결정하는 것을 포함하도록 더 구성되는, 디코더.
청구항 8 내지 10 중 어느 한 항에 있어서,
다수의 에러 은폐 방법 중 적어도 하나의 에러 은폐 방법은 음악보다 스피치에 적합하고, 적어도 하나의 에러 은폐 방법은 스피치보다 음악에 적합한, 디코더.
청구항 8 내지 11 중 어느 한 항에 있어서,
상기 에러 은폐 방법을 선택하는 것은 오디오 신호의 스피치와 음악간 변이와 관련된 마르코프 모델 규정 상태 변이 특성에 기초하도록 구성되는, 디코더.
청구항 8 내지 12 중 어느 한 항에 있어서,
안정성 값 D(m)은
으로 결정되며,
여기서 b_i는 프레임(m)의 스펙트럼 대역이고, E(m,b)는 프레임(m)의 대역(b)에 대한 에너지 측정을 나타내는, 디코더.
청구항 8 내지 13 중 어느 한 항에 따른 디코더를 포함하는, 호스트 장치.
적어도 하나의 프로세서에서 실행될 때, 상기 적어도 하나의 프로세서가 청구항 1 내지 7 중 어느 한 항에 따른 방법을 수행하게 하는 명령들을 포함하는 컴퓨터 프로그램.