KR20100044991A

KR20100044991A - 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법

Info

Publication number: KR20100044991A
Application number: KR1020080104001A
Authority: KR
Inventors: 손창용; 김도형; 우상옥; 이강은
Original assignee: 삼성전자주식회사
Priority date: 2008-10-23
Filing date: 2008-10-23
Publication date: 2010-05-03
Also published as: KR101499785B1; US8542839B2; US20100104106A1

Abstract

모바일 디바이스를 위한 오디오 처리 장치 및 방법이 제공된다. 오디오 처리 장치 및 방법은 음성 신호 및 오디오 신호에 대응하는 음원 위치들을 적절히 결정함으로써, 음성 통화 서비스 및 멀티미디어 서비스를 동시에 지원할 수 있다. 뿐만 아니라, 오디오 처리 장치 및 방법은 음성 통화 서비스 및 멀티미디어 서비스를 동시에 제공하더라도, 음성 통화 서비스의 품질을 보장할 수 있다.

오디오, 음성, 통화, 공간, 위치, 음원, 채널, 방향

Description

모바일 디바이스를 위한 오디오 처리 장치 및 그 방법{METHOD AND APPARATUS OF PROCESSING AUDIO FOR MOBILE DEVICE}

본 발명의 실시예들은 음성 통화 서비스 및 오디오 컨텐츠 서비스를 동시에 지원할 수 있는 오디오 처리 장치 및 그 방법에 관한 것이다.

휴대폰과 같이 음성 통화 기능을 지원하는 모바일 디바이스들은 사용자의 편의를 위하여 다양한 기능들을 더 지원하고 있다. 예를 들어, 휴대폰은 음성 통화뿐만 아니라, 음악, 동영상 또는 방송 컨텐츠와 같은 멀티미디어 서비스를 사용자에게 제공할 수 있다.

사용자들은 음성 통화 서비스 및 멀티미디어 서비스를 동시에 제공받기를 원할 수 있다. 예를 들어, 사용자들은 핸드폰을 통하여 방송 컨텐츠를 제공받는 도중 음성 통화가 요구되는 경우, 사용자들은 방송 컨텐츠의 제공을 중단함이 없이 음성 통화를 처리할 것을 원할 수 있다. 이 때, 핸드폰은 방송 컨텐츠 및 음성 통화를 동시에 제공하는 것과 같은 멀티태스킹 기능을 가지고 있어야 한다.

다만, 핸드폰은 높은 품질의 음성 통화 서비스를 제공해야 하므로, 핸드폰의 멀티태스킹 기능에도 불구하고 음성 통화 서비스의 품질은 유지되어야 한다. 예를 들어, 사용자가 핸드폰을 통하여 음악 청취 및 음성 통화를 동시에 제공받더라도, 음성 통화 서비스의 품질은 유지될 필요가 있다.

본 발명의 일실시예에 따른 모바일 디바이스를 위한 오디오 처리 장치는 음성 신호 및 상기 음성 신호와 구별되는 적어도 하나의 오디오 신호를 제공하는 신호 제공부 및 상기 음성 신호 및 상기 적어도 하나의 오디오 신호에 대응하는 음원 위치(sound source localization)들을 결정하는 음원 위치 결정부를 포함한다.

이 때, 오디오 처리 장치는 사용자로부터 상기 결정된 음원 위치들까지의 거리 또는 상기 결정된 음원 위치들에서 상기 음성 신호 및 상기 적어도 하나의 오디오 신호의 세기 중 적어도 하나를 결정하는 거리/세기 조절부 및 상기 음성 신호 및 상기 적어도 하나의 오디오 신호를 미리 결정된 적어도 하나의 채널로 합성(synthesis)하는 합성부를 더 포함할 수 있다.

또한, 본 발명의 일실시예에 따른 모바일 디바이스를 위한 오디오 처리 방법은 음성 신호 및 상기 음성 신호와 구별되는 적어도 하나의 오디오 신호를 제공하는 단계 및 상기 음성 신호 및 상기 적어도 하나의 오디오 신호에 대응하는 음원 위치(sound source localization)들을 결정하는 단계를 포함한다.

본 발명의 일실시예에 따른 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법은 음성 신호 및 오디오 신호에 대응하는 음원 위치들을 다르게 결정함으로써, 음성 통화 품질의 품질 저하 없이 멀티미디어 서비스 및 음성 통화 서비스를 동시에 제공할 수 있다.

또한, 본 발명의 일실시예에 따른 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법은 음원 위치들에 적합한 머리 전달 함수를 이용하여 음성 신호 및 오디오 신호를 합성함으로써, 높은 품질의 음성 통화 서비스를 제공할 수 있다.

또한, 본 발명의 일실시예에 따른 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법은 사용자의 조작에 따라 음원의 위치, 거리 또는 세기를 제어함으로써, 사용자의 편의를 증대할 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 오디오 처리 장치가 적용될 수 있는 모바일 디바이스를 개념적으로 도시한 도면이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 모바일 디바이스는 음성 신호 디코더(110), 오디오 신호 디코더(120) 및 오디오 처리 장치(130)를 포함한다. 오디오 처리 장치(130)의 출력은 스피커를 통하여 재생된다.

본 발명의 일실시예에 따른 모바일 디바이스는 핸드폰, PDA(Personal Digital Assistants) 등과 같이 음성 통화 기능을 제공하는 다양한 단말들을 포함한다.

모바일 디바이스의 음성 신호 디코더(110)는 사용자의 음성 통화 또는 영상 통화로 인해 발생하는 음성 신호를 디코딩한다.

또한, 본 발명의 일실시예에 따른 모바일 디바이스는 사용자에게 음성 통화 또는 영상 통화뿐만 아니라 음악, 동영상 또는 방송 컨텐츠와 같은 멀티미디어 서비스를 제공할 수 있다. 이 때, 음악, 동영상 또는 방송 컨텐츠와 같은 멀티미디어 서비스로 인해 발생하는 오디오 신호는 오디오 신호 디코더(120)를 통하여 처리된다.

오디오 처리 장치(130)는 음성 신호 및 오디오 신호를 적절히 처리하여, 처리 결과를 스피커로 제공한다. 사용자들은 음성 통화 서비스 및 멀티미디어 서비스를 동시에 제공받는 것을 요구하므로, 오디오 처리 장치(130)는 멀티미디어 서비스의 제공을 중단함이 없이 음성 통화 서비스를 제공하기 위하여 음성 신호 및 오디오 신호를 동시에 처리해야 한다. 이 때, 사용자는 음성 신호 및 오디오 신호를 동시에 들을 수 있다.

다만, 사용자가 음성 신호 및 오디오 신호를 동시에 듣더라도, 음성 통화 서비스의 품질이 보장되어야 한다. 이 때, 본 발명의 일실시예에 따른 오디오 처리 장치(130)는 공간 이미지(spatial image) 처리를 통하여 음성 신호 및 오디오 신호의 음원 위치들을 적절히 결정함으로써, 음성 통화 서비스의 품질을 유지하면서도 멀티미디어 서비스를 제공할 수 있다. 즉, 본 발명의 일실시예에 따른 오디오 처리 장치(130)는 공간 상에서 음성 신호의 음원 위치 및 오디오 신호의 음원 위치를 적절히 결정할 수 있다.

도 2는 본 발명의 일실시예에 따른 오디오 처리 장치를 나타낸 블록도이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 오디오 처리 장치는 신호 제공부(210), 음원 위치 결정부(220), 거리/세기 조절부(230), 컨트롤 정보 제공 부(240), 합성부(250) 및 디지털-아날로그 변환기(Digital to Analogue Converter, 260) 및 스피커(270)를 포함한다.

신호 제공부(210)는 음성 신호 및 음성 신호와 구별되는 적어도 하나의 오디오 신호를 제공한다. 이 때, 신호 제공부(210)의 출력은 디지털 신호들이고, 오디오 신호는 음악, 방송 컨텐츠, 동영상 등의 오디오 신호를 포함할 수 있다.

음성 신호의 샘플링 레이트는 오디오 신호의 샘플링 레이트보다 낮은 경우가 많다. 이 때, 신호 제공부(210)는 음성 신호 및 오디오 신호의 샘플링 레이트를 동일하게 조절할 수 있다. 예를 들어, 신호 제공부(210)는 음성 신호에 대해 업-샘플링을 수행하거나, 오디오 신호에 대해 다운-샘플링을 수행하여 음성 신호 및 오디오 신호의 샘플링 레이트를 동일하게 조절할 수 있다.

또한, 음성 신호는 일반적으로 시간 영역에서 압축 또는 복원된다. 그리고, 오디오 신호 또는 음성 신호에 대한 공간 이미지 처리는 주파수 영역에서 수행되는 것이 효율적일 수 있다. 이 때, 신호 제공부(210)는 시간 영역의 음성 신호를 주파수 영역의 음성 신호로 변환할 수 있다. 이러한 경우, 음원 위치 결정부(220)는 주파수 영역에서 음성 신호 및 오디오 신호의 음원 위치들을 결정할 수 있다.

또한, 음성 신호 디코더 및 오디오 신호 디코더(도시되지 않음)는 일반적으로 프레임 단위로 디코딩을 수행한다. 이 때, 음성 신호의 프레임 단위 및 오디오 신호의 프레임 단위가 동일하지 않은 경우가 많으므로, 신호 제공부(210)는 음성 신호 또는 오디오 신호 중 적어도 하나를 버퍼링함으로써, 공간 이미지 처리를 위한 음성 신호 및 오디오 신호의 프레임 단위를 조절할 수 있다.

또한, 음원 위치 결정부(220)는 음성 신호 및 오디오 신호에 대응하는 음원 위치들을 결정한다. 예를 들어, 복수의 공간 채널들이 존재하는 경우, 음성 신호 및 오디오 신호 각각은 적어도 하나의 공간 채널에 맵핑된다. 즉, 공간 상에서 음성 신호 및 오디오 신호의 음원 위치들을 적절히 분리함으로써, 사용자는 음성 신호 및 오디오 신호를 동시에 듣더라도, 음성 신호 및 오디오 신호 각각을 구별할 수 있다. 그리고, 음성 통화의 품질을 보장하는 것이 중요한 경우, 음원 위치 결정부(220)는 사용자가 음성 신호를 오디오 신호보다 더 잘 인지할 수 있도록 음원 위치들을 결정할 수 있다.

예를 들어, 음성 신호는 모노(mono) 방식의 신호이고, 오디오 신호는 스테레오(stereo) 방식의 신호라고 가정한다. 이 때, 음원 위치 결정부(220)는 음성 통화 서비스의 품질을 보장하기 위하여 음성 신호의 음원 위치를 사용자의 중심 방향으로, 오디오 신호의 음원 위치들을 사용자의 왼쪽 방향 및 오른쪽 방향으로 결정할 수 있다. 물론, 모노 방식의 음성 신호에 대응하는 음원 위치는 사용자의 왼쪽 방향 또는 오른쪽 방향으로 결정될 수 있다.

또한, 음원 위치 결정부(220)는 미리 결정된 개수만큼 음성 신호 및 오디오 신호의 음원 위치들을 결정할 수 있다. 예를 들어, 사용 가능한 공간 채널들의 개수가 10개인 경우, 음원 위치 결정부(220)는 음성 신호 및 오디오 신호를 위하여 10개의 공간 채널들 중 4개의 공간 채널들을 결정할 수 있다. 여기서, 공간 채널들의 방향은 음원 위치들에 대응된다.

또한, 거리/세기 조절부(230)는 사용자가 음성 신호 및 오디오 신호를 잘 구 별할 수 있도록, 사용자로부터 음원 위치들까지의 거리 또는 음원 위치들에서 음성 신호 및 오디오 신호의 세기를 결정한다. 이 때, 거리/세기 조절부(230)는 사용자가 음성 신호를 오디오 신호보다 잘 인지할 수 있도록 상기 거리 또는 상기 세기를 결정할 수 있다. 여기서, 사용자로부터 음원 위치들까지의 거리는 물리적인 거리가 아니라 사용자에 의해 인지되는 가상의 거리를 말한다.

예를 들어, 음성 신호의 음원 위치가 사용자를 기준으로 12시 방향으로, 오디오 신호의 음원 위치들이 사용자를 기준으로 3시 및 9시 방향으로 결정되었다고 가정한다. 이 때, 거리/세기 조절부(230)는 사용자가 음성 신호를 오디오 신호보다 더 잘 인지할 수 있도록 음성 신호의 음원 위치를 사용자와 가깝게 조절하거나, 음성 신호의 세기를 크게 조절할 수 있다.

또한, 음원 위치들, 음원 위치들로부터 사용자까지의 거리 및 음성 신호 또는 오디오 신호의 세기는 사용자의 조작에 의해 조절될 수 있다. 즉, 사용자는 음성 통화 서비스 또는 멀티미디어 서비스를 제공받는 도중, 다양한 조작들을 통하여 음원 위치들, 음원 위치들로부터 사용자까지의 거리 및 음성 신호 또는 오디오 신호의 세기를 변경할 수 있다. 이 때, 사용자의 조작에 응답하여, 컨트롤 정보 제공부(240)는 사용자의 조작에 대응하는 컨트롤 정보를 음원 위치 결정부(220) 또는 거리/세기 조절부(230)로 제공한다.

또한, 합성부(250)는 결정된 가상의 음원 위치들에 존재하는 음성 신호 및 오디오 신호를 적어도 하나의 채널로 합성한다.

예를 들어, 스피커(270)가 두 개의 채널들을 사용하고, 음성 신호 및 오디오 신호의 음원 위치들이 4개라고 가정한다. 이 때, 합성부(250)는 음성 신호 및 오디오 신호 각각이 입체적(공간적) 방향성을 유지하는 채로 음성 신호 및 오디오 신호를 합성하고, 두 개의 채널들을 통하여 전송되는 네 개의 바이너럴 사운드들을 생성한다. 즉, 사용자는 물리적으로 두 개의 채널들을 통하여 전송되는 바이너럴 사운드들을 듣더라도, 4 개의 공간 채널들을 통하여 음성 신호 및 오디오 신호를 듣는 것으로 느낄 수 있다.

여기서, 바이너럴 사운드 시스템은 사용자가 두 개의 귀들만을 가지고 소리의 방향을 인지할 수 있다는 사실을 이용한다. 즉, 바이너럴 사운드 시스템은 사용자가 두 개의 귀들을 통하여 들은 소리를 기초로 공간 상에서 음원 위치를 인지할 수 있도록, 음원 위치에 대응하는 머리 전달 함수를 사용하여 바이너럴 사운드를 생성하는 시스템을 말한다.

그리고, 머리 전달 함수들은 음원 위치들에 따라 달라진다. 이 때, 다양한 음원 위치들에 대응하는 머리 전달 함수들은 사전에 모의 실험들을 통하여 측정될 수 있으며, 합성부(250)는 측정된 머리 전달 함수들이 저장된 데이터베이스를 이용하여 음원 위치들에 대응하는 머리 전달 함수들을 적절히 선택할 수 있다.

본 발명의 일실시예에 따른 오디오 처리 장치는 머리 전달 함수들을 이용하여 바이너럴 사운드들을 생성함으로써, 사용자는 음원 위치들을 구별할 수 있고, 오디오 신호 및 음성 신호를 잘 구별할 수 있다. 따라서, 음성 통화 서비스 및 멀티미디어 서비스가 효율적으로 동시에 사용자에게 제공될 수 있을 뿐만 아니라, 음성 통화 서비스의 품질이 잘 보장될 수 있다.

또한, 디지털-아날로그 변환기(260)는 생성된 음원 위치들에 대응하는 바이너럴 사운드들을 아날로그 신호로 변환한다. 그리고, 변환된 아날로그 신호는 스피커(270)를 통해 재생된다.

다만, 이어폰 또는 헤드폰이 아니라 스피커(270)를 통하여 바이너럴 사운드들이 재생되는 경우, 크로스톡(crosstalk) 현상이 발생할 수 있으며, 크로스톡 현상을 제거하기 위한 이미 잘 알려진 기술들이 추가적으로 적용될 수 있다.

도 3은 도 2에 도시된 신호 제공부(210)의 일예를 나타낸 블록도이다.

도 3을 참조하면, 신호 제공부(210)는 음성 신호 디코더(310), 오디오 신호 디코더(320), 버퍼(330), 시간/주파수 변환부(340), 프레임 조절부(350) 및 레이트 조절부(360)를 포함한다.

음성 신호 디코더(310)는 디코딩된 음성 신호를 제공하며, 오디오 신호 디코더(320)는 디코딩된 오디오 신호를 제공한다. 이 때, 음성 신호 디코더(310) 및 오디오 신호 디코더(320)는 프레임 단위로 디코딩을 수행한다.

버퍼(330)는 음성 신호의 프레임 단위를 오디오 신호의 프레임 단위로 조절하기 위하여 음성 신호를 버퍼링한다. 왜냐 하면, 공간 이미지 처리를 위한 프레임 단위는 일정한 것이 효율적이기 때문이다. 다만, 본 발명의 일실시예에 따르면, 오디오 신호의 프레임 단위를 음성 신호의 프레임 단위로 조절하는 것도 가능하다.

또한, 시간/주파수 변환부(340)는 시간 영역의 음성 신호를 주파수 영역의 음성 신호로 변환한다. 일반적으로, 음성 신호 디코더(310)는 시간 영역에서 디코 딩을 수행하는 반면, 오디오 신호 디코더(320)는 주파수 영역에서 디코딩을 수행한다. 따라서, 공간 이미지 처리를 효율적으로 수행하기 위하여, 시간/주파수 변환부(340)는 주파수 영역의 음성 신호를 생성한다.

또한, 프레임 조절부(350)는 음성 신호의 프레임 단위를 오디오 신호의 프레임 단위로 조절하기 위하여, 버퍼(330) 및 시간/주파수 변환부(340)를 제어한다.

또한, 레이트 조절부(360)는 음성 신호 및 오디오 신호의 샘플링 레이트를 동일하게 조절하기 위하여 버퍼(330) 및 시간/주파수 변환부(340)를 제어한다. 일반적으로, 음성 신호의 샘플링 레이트가 오디오 신호의 샘플링 레이트보다 낮으며, 음성 신호를 업-샘플링함으로써 음성 신호 및 오디오 신호의 샘플링 레이트가 동일하게 조절될 수 있다.

도 4는 음원 위치들에 따라 달라지는 머리 전달 함수를 설명하기 위한 도면이다.

도 4를 참조하면, 사용자를 중심으로 가상의 공간이 형성되어 있음을 알 수 있다. 가상의 공간에는 다양한 음원 위치들(A, B, C, D, E)이 존재한다. 사용자의 앞면(중심 방향)에 존재하는 음원 위치는 A이며, 사용자의 오른쪽 방향에 존재하는 음원 위치들은 D, E이고, 사용자의 왼쪽 방향에 존재하는 음원 위치들은 B, C이다.

사용자는 두 귀들을 통하여 바이너럴 사운드를 들으며, 바이너럴 사운드를 기초로 음원 위치가 어디인지를 인지할 수 있다. 이 때, 바이너럴 사운드는 음원 위치에 대응하는 머리 전달 함수를 이용하여 생성된다. 예를 들어, 사용자는 음원 위치 D에 대응하는 머리 전달 함수 H_D를 이용하여 생성된 바이너럴 사운드 S_D를 두 귀를 통하여 들음으로써, 음원 위치 D에서 소리가 발생하였다는 사실을 인지할 수 있다.

음원 위치들에 따라 본 발명의 일실시예에 따른 오디오 처리 장치에 의해 적용되는 머리 전달 함수들은 달라진다. 머리 전달 함수를 구성하는 대표적 인자들은 사용자의 두 귀들에 도달하는 소리의 레벨 차이인 IID(Inter-aural Intensity Difference, IID)와 소리가 두 귀들에 도달하는 시간 차이인 ITD(Inter-aural time Difference, ITD)로 나타낼 수 있다. 이 때, 주파수 대역들 각각에 대하여 미리 저장된 IID 및 ITD를 이용하여 음원 위치들 각각에 대응하는 머리 전달 함수가 도출될 수 있다.

결국, 본 발명의 일실시예에 따른 오디오 처리 장치는 다양한 음원 위치들에 대응하는 머리 전달 함수들을 데이터베이스에 미리 저장하고, 적절히 머리 전달 함수들을 선택하여 사용함으로써, 바이너럴 사운드들을 생성할 수 있다.

도 5는 본 발명의 일실시예에 따른 음성 신호의 음원 위치 및 오디오 신호의 음원 위치를 나타낸 도면이다.

도 5를 참조하면, 음성 신호는 사용자의 중심 방향(앞면)인 음원 위치 A에 존재함을 알 수 있다. 또한, 오디오 신호는 사용자의 왼쪽 및 오른쪽 방향인 음원 위치 B, C에 존재한다.

음성 신호에는 음원 위치 A에 대응하는 머리 전달 함수(H_A)가 적용되고, 오 디오 신호에는 음원 위치들 B, C에 대응하는 머리 전달 함수들(H_B, H_C)가 적용되어, 바이너럴 사운드들(S_A, S_B, S_C)이 생성되었다고 가정한다. 이 때, 사용자는 바이너럴 사운드들(S_A, S_B, S_C)을 통하여 음성 신호의 음원 위치(A), 오디오 신호의 음원 위치들(B, C)를 구별할 수 있다.

도 6은 본 발명의 일실시예에 따른 오디오 처리 방법을 나타낸 동작 흐름도이다.

도 6을 참조하면, 본 발명의 일실시예에 따른 오디오 처리 방법은 음성 신호 및 상기 음성 신호와 구별되는 적어도 하나의 오디오 신호를 수신한다(S610).

또한, 본 발명의 일실시예에 따른 오디오 처리 방법은 공간 이미지 처리를 효율적으로 수행하기 위하여, 음성 신호 및 오디오 신호의 프레임 단위를 동일하게 조절한다(S620).

또한, 본 발명의 일실시예에 따른 오디오 처리 방법은 음성 신호 또는 오디오 신호 중 적어도 하나를 업-샘플링 또는 다운-샘플링함으로써, 음성 신호 및 오디오 신호의 샘플링 레이트를 동일하게 조절한다(S630).

또한, 본 발명의 일실시예에 따른 오디오 처리 방법은 상기 음성 신호 및 상기 적어도 하나의 오디오 신호에 대응하는 음원 위치들을 결정한다(S640).

또한, 본 발명의 일실시예에 따른 오디오 처리 방법은 사용자로부터 상기 결정된 음원 위치들까지의 거리 또는 상기 결정된 음원 위치들에서 상기 음성 신호 및 상기 적어도 하나의 오디오 신호의 세기 중 적어도 하나를 결정한다(S650).

또한, 본 발명의 일실시예에 따른 오디오 처리 방법은 상기 음성 신호 및 상기 적어도 하나의 오디오 신호를 미리 결정된 적어도 하나의 채널로 합성(synthesis)한다(S660).

또한, 본 발명의 일실시예에 따른 오디오 처리 방법은 적어도 하나의 채널로 합성하여 생성된 신호를 스피커, 헤드폰 또는 이어폰 등을 통하여 출력한다(S670).

본 발명의 일실시예에 따른 오디오 처리 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims

음성 신호 및 상기 음성 신호와 구별되는 적어도 하나의 오디오 신호를 제공하는 신호 제공부; 및

상기 음성 신호 및 상기 적어도 하나의 오디오 신호에 대응하는 음원 위치(sound source localization)들을 결정하는 음원 위치 결정부

를 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

상기 음성 신호 및 상기 적어도 하나의 오디오 신호를 미리 결정된 적어도 하나의 채널로 합성(synthesis)하는 합성부

를 더 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제2항에 있어서,

상기 합성부는

상기 음성 신호 및 상기 적어도 하나의 오디오 신호를 합성하여 상기 음원 위치들이 사용자에 의해 인지되도록 바이너럴 사운드(binaural sound)들을 생성하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제2항에 있어서,

상기 합성부는

상기 결정된 음원 위치들에 대응하는 머리 전달 함수(Head Related Transfer Function)들을 이용하여 상기 음성 신호 및 상기 적어도 하나의 오디오 신호를 합성하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제4항에 있어서,

상기 머리 전달 함수들은 상기 결정된 음원 위치들에 따라 미리 저장된 복수의 함수들 중 선택된 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

상기 음원 위치 결정부는

상기 음원 위치들을 미리 결정된 개수만큼 결정하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

상기 음원 위치 결정부는

사용자가 상기 적어도 하나의 오디오 신호보다 상기 음성 신호를 더 잘 인지할 수 있도록 상기 음원 위치들을 결정하는 것을 특징으로 하는 모바일 디바이스 를 위한 오디오 처리 장치.
제1항에 있어서,

상기 음원 위치 결정부는

상기 음성 신호에 대응하는 음원 위치를 상기 적어도 하나의 오디오 신호에 대응하는 음원 위치보다 사용자의 중심(center) 방향과 가깝게 결정하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

사용자로부터 상기 결정된 음원 위치들까지의 거리 또는 상기 결정된 음원 위치들에서 상기 음성 신호 및 상기 적어도 하나의 오디오 신호의 세기 중 적어도 하나를 결정하는 거리/세기 조절부

를 더 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제9항에 있어서,

상기 거리/세기 조절부는

상기 사용자가 상기 적어도 하나의 오디오 신호보다 상기 음성 신호를 더 잘 인지할 수 있도록 상기 사용자로부터 상기 결정된 음원 위치들까지의 거리를 결정하거나, 상기 결정된 음원 위치들에서 상기 음성 신호 또는 상기 적어도 하나의 오디오 신호의 세기를 결정하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제9항에 있어서,

사용자의 조작(operation)에 따라 컨트롤 정보를 제공하는 컨트롤 정보 제공부

를 더 포함하고,

상기 거리/세기 조절부는

상기 컨트롤 정보를 고려하여 상기 사용자로부터 상기 결정된 음원 위치들까지의 거리 또는 상기 결정된 음원 위치들에서 상기 음성 신호 및 상기 적어도 하나의 오디오 신호의 세기 중 적어도 하나를 결정하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

컨트롤 정보를 제공하는 컨트롤 정보 제공부

를 더 포함하고,

상기 음원 위치 결정부는

상기 제공된 컨트롤 정보를 고려하여 상기 음원 위치들을 결정하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제12항에 있어서,

상기 컨트롤 정보 제공부는

사용자의 조작(operation)에 따라 상기 컨트롤 정보를 제공하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

상기 신호 제공부는

상기 음성 신호 또는 상기 적어도 하나의 오디오 신호 중 적어도 하나의 샘플링 레이트(sampling rate)를 조절하는 레이트 조절부

를 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제14항에 있어서,

상기 음성 신호 또는 상기 적어도 하나의 오디오 신호 중 적어도 하나는 동일한 샘플링 레이트를 갖도록 처리되는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

상기 신호 제공부는

상기 음성 신호 또는 상기 적어도 하나의 오디오 신호 중 적어도 하나의 프레임 단위를 조절하는 프레임 조절부

를 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제16항에 있어서,

상기 음성 신호 또는 상기 적어도 하나의 오디오 신호 중 적어도 하나는 동일한 프레임 단위를 갖도록 처리되는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
제1항에 있어서,

상기 신호 제공부는

시간 영역의 상기 음성 신호를 주파수 영역의 상기 음성 신호로 변환하는 시간/주파수 변환부

를 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 장치.
음성 신호 및 상기 음성 신호와 구별되는 적어도 하나의 오디오 신호를 제공하는 단계; 및

상기 음성 신호 및 상기 적어도 하나의 오디오 신호에 대응하는 음원 위치(sound source localization)들을 결정하는 단계

를 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 방법.
제19항에 있어서,

상기 음성 신호 및 상기 적어도 하나의 오디오 신호를 미리 결정된 적어도 하나의 채널로 합성(synthesis)하는 단계

를 더 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 방법.
제19항에 있어서,

사용자로부터 상기 결정된 음원 위치들까지의 거리 또는 상기 결정된 음원 위치들에서 상기 음성 신호 및 상기 적어도 하나의 오디오 신호의 세기 중 적어도 하나를 결정하는 단계

를 더 포함하는 것을 특징으로 하는 모바일 디바이스를 위한 오디오 처리 방법.
제19항 내지 제21항 중 어느 한 항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.