KR100310283B1

KR100310283B1 - 음성의 3-ｄ 국소화를 향상시키는 방법

Info

Publication number: KR100310283B1
Application number: KR1019997008728A
Authority: KR
Inventors: 리비마크
Original assignee: 피터 엔. 데트킨; 인텔 코오퍼레이션
Priority date: 1997-03-26
Filing date: 1999-09-22
Publication date: 2001-09-29
Also published as: CN1251195A; DE69818238T2; DE69818238D1; EP0970464A1; EP0970464B1; CN1119799C; HK1025176A1; ATE250271T1; KR20010005660A; EP0970464A4; AU5734498A; TW403892B; US5864790A; WO1998043239A1

Abstract

컴퓨터 판독가능 매체는 프로세서에 의해 실행될 명령문의 시퀀스를 저장한다. 이 명령문은 프로세서가 음성 소스의 3-D 국소화를 향상시키기 위해 다음의 단계르 수행하게 한다. 디지털 음성 신호는 수신된다(200). 디지털 음성 신호의 최대 주파수는 결정된다(202). 디지털 음성 신호의 샘플링 속도가 증가된다(208). 다음에, 광대역 가우션 잡음은 고주파를 갖는 광대역 디지털 음성 신호를 발생하기 위해 디지털 음성 신호에 부가된다(210). 마지막으로, 광대역 디지털 음성 신호는 유한 충격 응답 필터를 경유하여 국소화될 수 있다.

Description

음성의 3-Ｄ 국소화를 향상시키는 방법{A METHOD FOR ENHANCING 3-Ｄ LOCALIZATION OF SPEECH}

보통의 사람 음성은 약 100 Hz(헤르쯔)에서 수 KHz(킬로헤르쯔)까지 일반적으로 변하는 폭 넓은 범위의 주파수 성분을 포함한다. 예를 들면, 사람 음성은 낮은 기본 주파수를 갖지만, 사람 음성의 고조파는 상당히 넓은 스케일을 갖는다. 사람 음성에서 발견되는 폭 넓은 범위의 주파수에 기인하여, 사람이 누군가에게 말할때의 음성 소스를 국소화할 수 있다. 환언하면, 사람은 특정한 개개의 음성 소스를 찾아내고 확인할 수 있다.

음성의 메세지 또는 명료함을 결정하기 위해, 수화자는 음성에 포함된 고주파 성분을 요구하지 않는다. 따라서, 음성 압축 알고리즘을 사용하는 셀룰라 폰, 비디오 폰 및 전화 시스템과 같은 많은 통신 시스템에서는 음성 소스에서 발견되는 고주파 정보가 소거된다. 4 킬로헤르쯔(KHz)이상의 대부분의 고주파 성분은 소거된다. 이 솔루션은 음성의 국소화가 필요하지 않을때 충분하다. 그러나, 음성의 국소화를 요구하고 바라는 응용(예를 들면, 가상현실)에 대해서, 음성의 고주파 성분의손실은 이롭지 않다. 이것은 고주파가 수화자에 의한 음성 국소화가 요구되기 때문이다. 음성에 있는 고주파 성분은 사운드가 위치된 곳을 수화자가 머리속에서 인식하는 것을 돕는다. 예를 들면, 고주파는 사운드가 수화자의 위에 또는 아래에, 또는 오른쪽에 또는 왼쪽에, 또는 앞에 또는 뒤에 있는지 수화자가 결정하는 것을 돕는다. 따라서, 필요한 것은 고주파 성분이 소거되고 통신 시스템을 통하여 전송된 음성을 변환하는 방법이다. 이 방법은 수화자가 음성의 어떤 명료함의 손실없이 변환된 음성을 국소화하게 한다.

발명의 개요

음성의 향상된 3-D(3차원) 국소화에 대한 컴퓨터 구현 방법이 개시된다. 초당 소정 속도로 샘플링된 음성 신호가 수신된다. 음성 신호에 대한 최대 주파수가 결정된다. 샘플링의 소정 속도가 증가된다. 저 레벨, 광 대역 잡음이 고주파 성분을 갖는 새로운 음성 신호를 발생하기 위해 부가된다.

본 발명은 음성 처리에 관한 것이다. 더 상세하게, 본 발명은 음성의 3-D(3차원) 국소화(localization)를 향상시키는 방법 및 장치에 관한 것이다.

본 발명은 예로써 도시되지만 참조로써 유사한 요소를 지시하는 첨부된 도면의 구성으로 제한되지는 않는다.

도 1은 본 발명이 구현될 수 있는 예시적 컴퓨터 시스템을 도시한다.

도 2는 본 발명의 일 실시예를 도시하는 흐름도이다.

도 3은 본 발명에 사용될 수 있는 하나의 하드웨어 실시예를 도시한다.

음성의 향상된 3-D(3차원) 국소화에 대한 방법 및 장치가 개시된다. 다음의설명에서, 본 발명의 철저한 이해를 제공하기 위해 많은 특정한 설명이 설명된다. 그러나, 본 발명이 특정한 설명없이 실행될 수 있다는 것은 해당 분야에 능숙한 당업자에게는 명백할 것이다. 다른 예로써, 공지된 구조와 디바이스는 본 발명의 불필요한 모호함을 피하기 위해 블록도 형태로 도시된다.

본 발명은 음성에 고주파 성분을 제공함으로써 음성의 3-D 국소화를 향상시킨다. 이것은 음성의 고주파 성분(예를 들면, 4KHz 이상)이 종종 전송동안 음성 압축 알고리즘에 의해 제거되기 때문에 요구된다. 결과로써, 공간 국소화 큐에 사용될 수 있는 음성에 있는 고주파 성분이 손실된다. 결과적으로, 압축되고 국소화된 음성의 수화자는 정확하게 음성 소스의 위치를 인식할 수 없다. 따라서, 본 발명은 샘플링 속도가 증가된 후에 그리고 국소화를 수행하기 전에 압축된 음성에 고주파, 광 대역 잡음을 부가함으로써 이 문제를 해결한다.

도 1에서, 본 발명의 실시예가 구현될 수 있는 예시적 컴퓨터 시스템이 100으로 도시된다. 컴퓨터 시스템(100)은 정보를 통신하는 버스 또는 다른 통신 디바이스(101)와, 버스(101)에 연결되어 정보를 처리하는 프로세서(102)를 포함한다. 시스템(100)은 버스(101)에 연결되어 프로세서(102)에 의해 실행될 명령문과 정보를 저장하는 RAM 또는 다른 동적 저장 디바이스(104)(메인 메모리로 언급됨)를 더 포함한다. 메인 메모리는 프로세서(102)에 의해 명령문이 실행되는 동안 임시 변수 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다.

컴퓨터 시스템(100)은 또한 버스(101)에 연결되어 프로세서(102)에 대한 정적 정보와 명령문을 저장하는 ROM 그리고/또는 다른 정적 저장 디바이스(106)를 또한 포함한다. 데이터 저장 디바이스(107)는 버스(101)에 연결되고 정보와 명령문을 저장한다. 자기 디스크 또는 광 디스크 및 그에 상응하는 디스크 드라이브같은 데이터 저장 디바이스(107)는 컴퓨터 시스템(100)에 연결될 수 있다. 네트워크 인터페이스(103)는 버스(101)에 연결된다. 네트워크 인터페이스(103)는 컴퓨터 시스템(100)을 컴퓨터 시스템의 네트워크(도시 생략)에 연결하도록 동작한다.

컴퓨터 시스템(100)은 컴퓨터 사용자에게 정보를 디스플레이하는 음극선관(CRT) 같은 디스플레이 디바이스(121)에 버스(101)를 통하여 또한 연결될 수 있다. 다른 키에 있는 영숫자를 포함하는 영숫자 입력 디바이스(122)는 프로세서(102)에 정보와 명령문 선택을 통신하는 버스(101)에 전형적으로 연결된다. 사용자 입력 디바이스의 또 다른 타입은 프로세서(102)에 방향 정보와 명령문 선택을 통신하고 디스플레이(121)상의 커서 움직임을 제어하는 커서 방향키, 트랙볼, 마스크 같은 커서 제어(123)이다. 상기 입력 디바이스는 전형적으로 두개의 자유도와 두개의 액세스, 즉 디바이스를 플레인에 있는 위치에 특정화하는 제 1 액세스(예를 들면, X)와 제 2 액세스(예를 들면, Y)를 갖는다.

대안으로, 스타일리스트 또는 펜과 같은 다른 입력 디바이스가 디스플레이와 상호동작하게 사용될 수 있다. 컴퓨터 스크린상에 디스플레이된 물체는 디스플레이된 물체를 터치하기 위해 스타일리스트 또는 펜을 사용함으로써 선택될 수 있다. 컴퓨터는 민감한 터치 스크린을 구현함으로써 선택을 검출할 수 있다. 예를 들면, 시스템은 또한 122같은 키보드를 필요로 할 수 있고 모든 인터페이스는 기록 도구(펜과 같은)로써 스타일리스트를 경유하여 제공되며 문서는 광학 문자 인식(OCR) 기술을 사용하여 구현된다. 부가하여, 압축 음성 신호는 또한 인터넷 또는 근거리 통신망(LAN) 연결과 같은 통신 채널을 경유하여 컴퓨터에 또한 도달할 수 있다.

도 2는 본 발명의 일 실시예를 도시한다. 단계(200)에서, 디지털 음성 소스(신호)는 통신 네트워크로부터 수신된다. 예를 들면, 가능한 디지털 음성 소스는 셀룰라 폰, 비디오 폰 및 원격지 화상 회의이다. 상기 시스템에서, 음성에서 발견된 고주파 성분(예를 들면, 4KHz이상)은 종종 소거된다. 이것은 음성의 명료성에 대해서는 음성의 고주파 성분이 필요하지 않기 때문이다. 더우기, 음성의 고주파 성분은 또한 음성 압축 알고리즘에 의해 소거된다.

단계(202)에서, 수신된 디지털 음성의 주파수 성분이 분석된다. 단계(204)에서, 디지털 음성 신호의 최대 주파수는 나이퀴스트의 법칙에 따라 수신된 신호의 샘플링 속도로부터 계산된다. 환언하면, 신호의 샘플링 속도는 전송된 신호의 최대 주파수의 두배로 가정된다. 예를 들면, 디지털 음성 소스의 표본 추출 비율이 8 KHz라면, 최대 주파수는 8 KHz의 반, 즉 4 KHz이다. 따라서, 전송된 신호의 최대 주파수는 4,000 HZ이다.

이점에서, 음성의 고주파 성분은 이미 제거되고(예를 들면, 음성 압축 알고리즘에 의해) 공간 큐를 경유하여 방향성을 제공하기 위해 사용되지 않을 수 있다. 더 많은 고주파 정보가 3-D 국소화를 향상시키기 위해 음성에 부가되어야 한다. 이것은 더 높은 속도로 음성을 먼저 재샘플링함으로써 이루어 진다. 단계(208)에서, 샘플링 속도(예를 들면, 8 KHz)는 전형적으로 초기 샘플링 속도보다 2 내지 6 배만큼 증가된다. 일 실시예에서, 샘플링 속도는 8 KHz로부터 16 KHz에서 48 KHz사이의범위에 있는 값까지 증가될 수 있다. 일 실시예에서, 샘플링 속도는 초당 8000번부터 초당 22,050번(또는 약 22 KHz)까지 증가된다. 초당 22,050번의 샘플링 속도는 중간 범위의 음악에 대한 표준 샘플링 속도이고 FM(주파수 변조) 라디오 품질에 유사하다. 예를 들면, 22 KHz에서, 어떤 사람은 단지 음성 이상을 듣고, 어떤 사람은 또한 악기의 음색과 효과음을 들을 수 있다. 따라서, 샘플링 속도는 증가되지만, 부가적인 고주파 성분이 증가되지는 않는다.

단계(210)에서, 광 대역 가우션 잡음은 증가된 샘플링 속도를 갖는 음성 신호에 부가된다. 전형적으로, 부가된 광 대역 가우션 잡음은 증가된 샘플링 속도에 대응하는 나이퀴스트 주파수에 존재한다. 예를 들면, 샘플링 속도가 초당 22 KHz 또는 초당 22,050번으로 증가된다면, 광 대역 가우션 잡음은 또한 증가된 샘플링 속도의 반 또는 11025 Hz의 주파수 대역을 가질 것이다. 가우션 잡음이 증가된 샘플링 속도보다 상이한 주파수를 가질 수 있다는 것이 이해될 것이다. 광 대역 가우션 잡음이 증가된 샘플링 속도에 비례하는 주파수를 갖을 수 있다는 것이 또한 이해될 것이다. 일 실시예에서, 부가된 광 대역 가우션 잡음은 약 8 KHz에서 약 24 KHz의 사이의 범위일 수 있다. 광 대역 가우션 잡음의 에너지는 음성의 명료성을 간섭하지 않도록 일반적으로 충분히 낮게 유지된다. 결과적으로, 부가된 광 대역 가우션 잡음은 처음에 수신된 디지털 음성 신호보다 더 낮은 대략 20에서 30 데시벨이다.

광 대역 가우션 잡음은 고주파 성분을 원시 디지털 음성 소스에 부가한다. 이것은 예를 들면, 가상 현실을 경험하고 있는 수화자를 위해, 음성 소스를 재생하기 위해 필터를 통과하는 음성의 향상된 3-D 국소화를 위해 중요하다. 일 실시예에서, 결과적인 광 대역 음성은 단계(212)에서 컴퓨터 시스템에 있는 3-D 음성 국소화 루틴으로 전송될 수 있다. 부가하여, 디지털 음성 소스에 관한 위치 정보는 이때 부가될 수 있다.

음성 소스에 대응하는 위치 정보는 더 실감있는 가상 경험을 창조한다. 예를 들면, 한 사람이 다른 다섯 사람과 다 지점 화상 회의를 하고, 그들의 화상을 컴퓨터 스크린상에서 각각 볼 수 있다면, 이 위치 정보는 음성을 디스플레이 스크린상의 적당한 사람의 화상에 연결한다. 예를 들면, 스크린의 왼쪽에 보이는 사람이 말하고 있다면, 음성 소스는 스크린의 왼쪽편으로부터 나오는 것같이 들린다. 음성은 마치 화상이 스크린의 오른쪽에 있는 사람으로부터 나오는 것처럼 수화자에게 인식되지 않는다.

본 발명의 또 다른 응용은 3-D 가상 현실 장면에 있는 것이다. 예를 들면, 사람들이 만나서 각 사람의 3-D 표현으로 대화하는 공유 가상 공간 또는 3-D 룸에 어떤 사람이 있다. 특정한 사람의 3-D 표현이 문구로써가 아닌 들을 수 있게 말한다면, 본 발명은 음성의 수화자가 음성을 음성 소스로서 3-D 표현과의 연결을 가능하게 한다. 따라서, 사용자가 화자의 한 그룹으로부터 다른 그룹으로 걷는다면, 사용자에 의해 수신된 음성은 따라서 변할 것이다.

본 발명의 하드웨어의 일 실시예(300)가 도 3에 도시된다. 디지털 음성 신호(301)는 수신기(303)에 의해 수신된다. 디지털 음성 신호(301)는 셀룰라 폰과 같은 통신 네트워크로부터 전송된다. 종종 사람 음성은 우선 아날로그 신호로 수신되고 다음에 디지털 음성 신호로 변환된다. 상기 디지털 음성 신호(301)는 종종 수신기(303)에 도달하기 전에 압축되거나 또는 대역 제한된다. 따라서, 디지털 음성 신호(301)의 고주파 성분(예를 들면, 4KHz이상)이 종종 제거된다.

수신기(303)는 또한 수신된 디지털 음성 신호의 최대 주파수를 결정한다. 일 실시예에서, 수신기(303)는 디지털 샘플링 속도에 따라 디지털 음성 신호의 최대 주파수를 결정하기 위해 나이퀴스트의 법칙을 이용한다. 예를 들면, 샘플링 속도가 6 KHz라면, 나이퀴스트의 법칙에 따른 최대 주파수는 3 KHz이고, 이것은 샘플링 속도의 반이다. 변환기(305)는 다음에 이 최소 샘플링 속도를 증가된 샘플링 속도로 변환하거나 또는 증가시킨다. 증가된 샘플링 속도는 일 실시예에서 이전 샘플링 속도보다 2 내지 6 배 더 클 수 있다.

발생기(307)는 다음에 수신된 디지털 음성 신호(301)의 고주파 성분을 증가시키기 위해 광대역 가우션 잡음을 발생시킨다. 이것은 음성의 고주파 성분이 수화자가 디지털 음성을 더 잘 국소화할 수 있게 하기 때문에 필요하다. 환언하면, 3-D 국소화후에, 음성의 고주파 성분은 수화자가 음성 소스가 수화자의 오른쪽 또는 왼쪽, 또는 위에 또는 아래에, 또는 앞에 또는 뒤에 위치하는지 결정하는 것을 가능하게 한다. 음성의 3-D 국소화를 통하여 음성에 대한 수화자의 체험을 향상시킨다. 증가된 샘플링 속도와 광대역 가우션 잡음을 갖는 음성 신호는 가산기(309)에서 결합된다. 결과적인 광대역 음성 신호는 다음에, 일 실시예에서, 필터 발생 유니트(313)로 전송되기 전에 메모리(311)에 저장된다. 이 필터는 일 실시예에서 유한 임펄스 응답(FIR) 필터일 수 있다. 다른 필터가 사용될 수 있다는 것이 이해될 것이다. 종래 기술에서, 고주파 성분(예를 들면, 4 KHz 이상)이 없는 디지털 음성 신호(301)는 종종 직접 필터 발생 유니트(313)로 전송된다. 결과적으로, 결과적인 디지털 음성은 종종 인식할 수 있는 3-D 국소화 큐가 필요하다. 대조적으로, 본 발명은 수화자가 음성 소스의 감지 또는 향상된 3-D 국소화 능력을 갖게한다. 따라서, 수화자는 더 실제적인 경험을 즐기게 된다.

상기 설명에서, 많은 특정한 설명이 실례를 들어 설명되었지만 본 발명을 제한하지는 않는다. 본 발명이 상기 특정한 설명없이 실행될 수 있다는 것을 해당 분야에 능숙한 당업자에게는 분명할 것이다. 더우기, 특정한 음성 처리 장치와 알고리즘은 본 발명을 불필요하게 모호하게 하지 않게하기 위해 상세하게 설명하지는 않았다. 따라서, 본 발명의 방법과 장치는 첨부된 청구 범위에 의해 분명해진다.

Claims

음성의 3-D 국소화 향상을 위한 컴퓨터 구현 방법에 있어서,

소정의 속도로 샘플링된 음성 신호를 수신하는 단계;

음성 신호에 대한 최대 주파수를 결정하는 단계;

음성 신호에 대한 샘플링의 속도를 증가시키는 단계; 및

고주파 성분을 갖는 새로운 음성 신호를 만들기 위해 음성 신호에 저레벨, 광대역 잡음을 부가하는 단계;를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 새로운 음성 신호를 전송하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 샘플링의 증가된 비율이 적어도 최대 주파수의 두배인 것을 특징으로 하는 방법.
제 3 항에 있어서, 샘플링의 속도는 2 내지 6배 사이의 범위만큼 증가되는 것을 특징으로 하는 방법.
제 1 항에 있어서, 저레벨, 광대역 잡음은 대략 증가된 샘플링 속도 주파수의 반인 것을 특징으로 하는 방법.
제 1 항에 있어서, 저레벨, 광대역 잡음은 음성 신호보다 더 낮은 대략 20 내지 30 데시벨인 것을 특징으로 하는 방법.
제 1 항에 있어서, 저레벨, 광대역 잡음은 약 8 KHz에서 약 24 KHz의 범위에 있는 주파수를 갖는 것을 특징으로 하는 방법.
명령문을 포함하는 저장된 명령문의 시퀀스를 그위에 갖는 컴퓨터 판독가능 매체에 있어서,

디지털 음성 신호를 수신하는 단계;

디지털 음성 신호에서 발생하는 최대 주파수를 결정하는 단계;

디지털 음성 신호에 대한 샘플링 속도를 결정하는 단계;

디지털 음성 신호의 샘플링 속도를 증가된 샘플링 속도로 증가시키는 단계;

고주파를 갖는 광대역 디지털 음성 신호를 발생시키기 위해 디지털 음성 신호에 광 대역 가우션 잡음을 부가하는 단계; 및

광대역 디지털 음성 신호를 전송하는 단계;를 프로세서가 수행하게 하는 것을 특징으로 하는 컴퓨터 판독가능 매체.
제 8 항에 있어서, 광대역 음성 신호에 대한 위치 정보를 제공하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능 매체.
제 8 항에 있어서, 최대 주파수는 약 4 KHz인 것을 특징으로 하는 컴퓨터 판독가능 매체.
제 10 항에 있어서, 증가된 샘플링 속도는 대략 16에서 48 KHz사이에 있는 것을 특징으로 하는 컴퓨터 판독가능 매체.
제 8 항에 있어서, 광대역 가우션 잡음은 증가된 샘플링 속도에 비례하는 주파수를 갖는 것을 특징으로 하는 컴퓨터 판독가능 매체.
제 8 항에 있어서, 광대역 가우션 잡음은 약 8 KHz에서 약 24 KHz의 범위에 있는 주파수를 갖는 것을 특징으로 하는 컴퓨터 판독가능 매체.
제 8 항에 있어서, 광대역 가우션 잡음은 디지털 음성 신호보다 더 낮은 대략 20에서 30 데시벨에 있는 것을 특징으로 하는 컴퓨터 판독가능 매체.
음성의 3D 국소화를 향상시키는 프로그램가능 장치에 있어서,

음성 신호를 수신하는 수신기;

수신기에 연결되며, 음성 신호의 샘플링 속도를 증가된 샘플링 속도로 증가시키는 변환기;

광대역 잡음을 발생시키는 발생기;

변환기와 발생기에 연결되며, 광대역 음성 신호를 발생하기 위해 광대역 잡음을 증가된 샘플링 속도를 갖는 음성신호에 결합하는 가산기; 및

가산기에 연결되며, 광대역 음성 신호를 저장하는 메모리;를 포함하는 것을 특징으로 하는 프로그램가능 장치.
제 15 항에 있어서, 메모리에 연결되며, 광대역 음성 신호를 국소화하는 필터를 더 포함하는 것을 특징으로 하는 프로그램가능 장치.
제 15 항에 있어서, 음성 신호는 디지털이고 약 4KHz의 주파수를 갖는 것을 특징으로 하는 프로그램가능 장치.
제 15 항에 있어서, 음성 신호는 4 KHz보다 더 적은 주파수를 갖는 것을 특징으로 하는 프로그램가능 장치.
제 15 항에 있어서, 변환기는 음성 신호의 최대 주파수를 결정하고 다음에 최대 주파수의 2 내지 6배 사이만큼 음성 신호의 샘플링 속도를 증가시키는 것을 특징으로 하는 프로그램가능 장치.
제 19 항에 있어서, 광대역 잡음은 대략 증가된 샘플링 속도의 대역폭의 대략 반인 것을 특징으로 하는 프로그램가능 장치.
제 15 항에 있어서, 광대역 잡음은 음성 신호보다 더 낮은 대략 20에서 30 데시벨인 것을 특징으로 하는 프로그램가능 장치.
제 21 항에 있어서, 광대역 잡음은 증가된 샘플링 속도의 주파수와 상이한 주파수를 갖는 것을 특징으로 하는 프로그램가능 장치.