KR20050021554A

KR20050021554A - 음성 마스킹 시스템 및 그 방법

Info

Publication number: KR20050021554A
Application number: KR10-2005-7001192A
Authority: KR
Inventors: 더블유.다니엘 힐리스; 브란 퍼렌; 러셀 휴; 브라이언 에노
Original assignee: 어플라이드 마인즈, 인크.
Priority date: 2002-07-24
Filing date: 2003-07-10
Publication date: 2005-03-07
Also published as: US20040019479A1; US7505898B2; JP2005534061A; WO2004010627A1; US7143028B2; US20060241939A1; EP1525697A4; US20060247924A1; JP4324104B2; EP1525697A1; AU2003248934A1; KR100695592B1; US7184952B2

Abstract

음성 스트림을 마스킹하는데 사용될 수 있는 모호한 음성 신호를 생성하는 간단하고 효과적인 방법을 공개한다. 마스킹될 음성 스트림을 나타내는 음성 신호가 획득된다. 상기 음성 신호는 다음으로 일시적으로 세그먼트로 분할되는데, 바람직하게는 음성 스트림 내 음소에 대응한다. 상기 세그먼트는 다음으로 메모리에 저장되고, 세그먼트의 일부 또는 전부는 이어서 선택, 검색, 및 음성 신호로 결합되거나 음성 스트림으로 재생성 및 결합될 때, 마스킹 효과를 제공하는 난해한 음성 스트림을 나타내는 모호한 음성 신호로 조합된다. 현재의 바람직한 실시예는 주로 개방형 사무실에서 쉽게 응용될 수 있으나, 식당, 교실, 및 텔레커뮤니케이션 시스템에서 사용하기 적절한 실시예가 또한 공개된다.

Description

음성 마스킹 시스템 및 그 방법{METHOD AND SYSTEM FOR MASKING SPEECH}

본 발명은 정보를 숨기는 시스템에 관한 것으로, 특히, 음성 스트림을 난해하게 하는 그러한 시스템에 관한 것이다.

인간의 청각 시스템은 배경 잡음에서 음성의 스트림을 구별하고 파악하는데 매우 숙련되어 있다. 이러한 능력은 음성이 잡음 환경에서 이해되도록 하기 때문에 대부분의 경우에 상당한 이점을 제공한다.

그러나, 대부분의 경우, 개방형 사무실 공간 등에서는, 화자에 대한 프라이버시를 제공하거나 가청 영역 내 사람들의 주의가 산만해 지는 것을 감소하기 위해 음성을 마스킹하는 것이 매우 바람직하다. 이러한 경우에, 배경 잡음의 존재시에 음성을 식별하는 인간의 능력은 특별한 도전이다. 예를 들어, 백색 잡음 또는 핑크 노이즈와 같은 확률성 잡음의 단순한 도입은, 기본적인 음성이 더이상 이해되지 않기 전에 도입된 잡음의 진폭이 불수용 레벨로 증가되어야 한다는 점에서, 전형적으로 성공할 수 없다.

따라서, 음성을 마스킹하고자 하는 많은 종래의 기술은, 음성의 스트림이 난해해지기 위해 요구되는 잡음의 세기를 낮추는 노력으로, 잡음을 마스킹하는 특수한 형태를 발생시키는데 촛점을 맞춰왔다. 예를 들어, 미국 특허 3,985,957(Torn)은 "개방형 사무실에서 대화를 마스킹" 하는 "사운드 마스킹 시스템"("sound masking system" for "masking conversation in an open plan office")을 공개한다. 여기서, "종래의 전기 랜덤 잡음 전류의 발생기는 그 출력을 상기 사무실 공간 위 플래넘(planum)에서 스피커 클러스터에 대한 조절가능한 전기 필터 수단을 통해 공급한다." 그러한 정교성(sophistication)에도 불구하고, 대부분의 경우 대화가 마스킹되기 위해 요구되는 배경 잡음의 레벨은 사실상 여전히 매우 불수용적이다.

더 복잡한 물리적 구성으로 마이크로폰 및 스피커를 배치하고 활성 잡음(active noise) 소거 알고리즘으로 이를 제어함으로써 더 이산적으로 마스킹하는 것을 제공하는 다른 접근법이 시도되었다. 예를 들어, 미국 특허 5,315,661(Gossman)은 "센서, 액츄에이터 및 활성 제어 시스템을 사용하여 패널을 통해(로부터) 사운드 전송을 제어하는" 시스템(system for "controlling sound transmission through (from) a panel using sensors, actuators and an active control system")을 기술한다. 상기 방법은 대형 패널을 형성하도록 차례로 결합되는 다수의 소형 패널 셀을 통해 사운드 전송을 제어하기 위해 활성 구조 음성 제어를 사용한다. 상기 발명은 "두껍고 무거운 패시브 방음 물질, 또는 사운드 무반향 물질(thick and heavy passive sound isolation material, or anechoic material)의 대체물"로서 역할을 하도록 한다. 그러한 시스템은 이론상 효과적이나, 실제로 구현하기가 어렵고, 과중한 비용이 종종 부과된다.

모호함(obfuscation)(종종 스크램블링(scrambling)이라고도 함)을 수행하는 몇가지 기술이 종래 기술에서 또한 발견되어진다. 미국 특허 4,068,094 (Schmid 등)은 "먼저 음성 주파수를 두개의 주파수 대역으로 분리하고 음성 정보를 변조하여 그 순서를 바꿈으로써 음성 전송을 스크램블링 또는 언스크램블링하는 방법"을 기술한다.

다소 다른 접근 방법으로, 미국 특허 4,099,027(Whitten)은 시간 영역에서 우선적으로 동작하는 시스템을 공개한다. 특히, "비보안 통신 채널로 전송하는 통신 신호를 난해하게 하는 음성 스크램블러는 시스템의 스크램블링부에 시간 지연 변조기와 코딩 신호 발생기 및 시스템의 언스크램블링부에 유사한 시간 지연 변조기와 역 신호를 발생시키는 코딩 발생기를 포함한다."

이러한 방법들은, 오리지널 음성 스트림 대신에 모호한 음성 스트림(obfuscated stream of speech)이 있을 때, 난해하고 모호한 음성 스트림을 생성하는데 효과적이다. 그러나, 이들은 모호한 음성 스트림의 중첩을 통해 음성 스트림을 난해하게 하는데는 덜 효과적이다. 이는 사무실 환경에서 대화를 마스킹하는 애플리케이션에 대해 중대한 결함을 나타내는데, 오리지날 음성 스트림에 대한 모호한 음성 스트림의 직접 대체는 불가능하지 않다면 비실용적이다. 게다가, 스크램블링의 특성(nature)으로 인해, 상기 모호한 음성 스트림은 수화자에게 음성처럼(speech-like) 들리지 않는다. 개방형 사무실과 같은 환경에서, 모호한 음성 스트림은 따라서 오리지날 음성 스트림보다 더 산만함을 입증할 수 있다.

미국 특허 4,195,202(McCalmont)는 사실상 이해가 조금 어려운 혼성 스트림(composit stream)을 생성할 수 있는 이러한 시스템에 대한 개선을 제안하고 있으나, 음성 같은 스크램블형 신호에 대한 필요를 다루고 있지 않다. 사실, 인간 음성의 키 특징(key features) 중의 하나를 경감하기 위한 특정 노력이 이루어졌다. "먼저 인코딩 장치가 전송될 보이스 신호를 둘 이상의 주파수 대역으로 분리한다. 하나 이상의 주파수 대역은 다른 주파수 대역과 시간 관련되어 전도, 지연되고 다음으로 원격 수신기에 전송을 위한 혼성 신호를 생성하는 다른 주파수 대역과 재결합되는 주파수이다. 보이스 신호가 대응하는 음성의, 마침꼴(cadence), 음절간(intersyllabic) 및 음소(phoneme) 발생율의 대략의 시간 상수에 대한 지연의 크기를 선택함으로써, 혼성 신호의 진폭 변동이 실질적으로 경감되고 신호의 마침꼴 컨텐츠가 효과적으로 위장된다."

개방형 사무실과 같은 환경에서 음성 스트림을 마스킹하는 간단하고 효과적인 시스템이 요구되는데, 여기서 모호한 음성 스트림이 오리지날 음성 스트림에 대체될 수 없고, 단지 추가된다. 상기 방법은 사실상 매우 난해한 음성 같은 모호한 음성 스트림을 제공하여야 한다. 또한, 오리지날 음성 스트림 및 모호한 음성 스트림의 조합은 또한 매우 난해한 음성 같은 결합된 음성 스트림을 생성하여야 한다.

도 1은 본 발명의 현재 바람직한 실시예에 따른 개방형 사무실에서 음성 스트림을 마스킹하는 장치를 도시한 도면이다.

도 2는 본 발명의 현재 바람직한 실시예에 따른 모호한 음성 신호를 생성하는 방법을 도시하는 흐름도이다.

도 3은 본 발명의 현재 바람직한 실시예에 따른 음성 신호를 세그먼트로 일시적으로 분할하고 세그먼트들을 저장하는 방법을 도시하는 상세한 흐름도이다.

도 4는 본 발명의 현재 바람직한 실시예에 따른 세그먼트들을 선택, 검색, 및 조합하는 방법을 도시하는 상세한 흐름도이다.

본 발명은 음성 스트림을 마스킹하는데 사용될 수 있는 모호한 음성 신호를 생성하는 간단하고 효과적인 방법을 제공하는 것이다. 마스킹될 음성 스트림을 나타내는 음성 신호가 획득된다. 상기 음성 신호는 다음으로, 바람직하게는 음성 스트림내 음소에 대응하는 세그먼트로 일시적으로 분할된다. 상기 세그먼트들은 다음으로 메모리에 저장되고, 세그먼트의 일부 또는 모두는 이어서 선택(select), 검색(retrieve), 및 음성 신호와 결합되거나 음성 스트림으로 재생성되고 결합될 때, 마스킹 효과를 제공하는, 난해한 음성 스트림을 나타내는 모호한 음성 신호로 조합(assembly)된다.

상기 모호한 음성 신호는 음성 스트림의 직접적인 마스킹을 허여하는, 실질적으로 실시간으로 생성되거나, 기록된 음성 신호로부터 생성될 수 있다. 모호한 음성 신호 생성시, 음성 신호내 세그먼트는 일 대 일 형식으로 재정리(reorder)될 수 있고, 세그먼트는 음성 신호내 세그먼트의 최근 히스토리로부터 무작위로 선택되고 검색될 수 있고, 또는 세그먼트는 분류되거나 식별되고 다음으로 음성 신호내 발생 주파수와 같은 정도의 상대 주파수로 선택된다. 최종적으로, 하나 이상의 선택, 검색, 및 조합 과정이 하나 이상의 모호한 음성 신호를 생성하는 것과 동시에 수행될 수 있는 것이 가능하다.

본 발명의 현재의 바람직한 실시예가 개방형 사무실과 같은 경우에 아주 쉽게 발견되나, 대안의 실시예가 예를 들어, 식당, 교실, 및 통신 시스템에서 발견될 수 있다.

본 발명은 음성 스트림을 마스킹하기 위해 사용될 수 있는 모호한 음성 신호를 생성하는 간단하고 효과적인 방법을 제공한다.

도 1은 본 발명의 현재 바람직한 실시예에 따른 개방형 사무실에서 음성 스트림을 마스킹하는 장치를 도시한 도면이다. 제1 큐비클(first cubicle)(21)내의 발화중인 회사원(speaking office worker)(11)이 개인적인 대화를 원한다. 인접한 큐비클(22)과 발화중인 회사원의 큐비클을 분리하는 파티션(partition)(30)은 인접한 큐비클내 청취하는 회사원(listening office worker)(12)이 대화를 엿듣는 것을 방지 할 수 있는 충분한 방음(acoustic isolation)을 제공하지 않는다. 이러한 상황은 발화중인 회사원의 프라이버시를 부정하고 청취하는 회사원을 산만하게 하고, 더 나쁘게는 비밀 대화를 엿들을 수 있기 때문에 바람직하지 않다.

도 1은 본 발명의 현재 바람직한 실시예가 이러한 상황을 개선할 수 있는 방법을 설명한다. 마이크로폰(40)은 발화중인 회사원(11)으로부터 나오는 음성 스트림을 습득할 수 있는 위치에 배치된다. 바람직하게는, 상기 마이크로폰은 원하는 음성 스트림 외의 최소 청각 정보가 포착될 수 있는 위치에 장착된다. 실질적으로 상기 발화중인 회사원(11) 위, 그러나 여전히 제1 큐비클(21) 내인 위치가 만족스러운 결과를 제공할 수 있다.

마이크로폰에 의해 획득된 음성 스트림을 나타내는 신호는 음성 스트림을 구성하는 음소들(phonemes)을 식별하는 프로세서(100)에 제공된다. 실시간으로 또는 실시간에 가까운 정도로, 모호한 음성 신호(obfuscated speech signal)가 식별된 음소들에 유사한 음소들의 시퀀스로부터 발생된다. 모호한 음성 스트림으로 재생될 때, 상기 모호한 음성 신호는 음성 같으나(speech-like), 난해(unintelligible)하다.

상기 모호한 음성 스트림은, 하나 이상의 스피커(50)를 사용하여, 인접한 큐비클(22) 내의 청취하는 회사원(12)을 포함하여, 발화중인 회사원의 대화 내용을 엿들을 가능성이 있는 회사원들에게 재생되어 표현된다. 오리지날 음성 스트림상에 중첩되어 들릴 때, 상기 모호한 음성 스트림은 난해한 혼성 음성 스트림을 산출하고, 따라서 오리지날 음성 스트림을 마스킹한다. 바람직하게는, 상기 모호한 음성 스트림은 오리지날 음성 스트림의 세기에 필적하는 세기로 표현된다. 생각컨대, 청취하는 회사원은 전형적인 인간 음성과 같은 정도의 세기로 제1 큐비클로부터 나오는 음성 같은 사운드를 듣는데 꽤 익숙해져 있다. 그러므로 청취하는 회사원이 본 발명에 의해 제공되는 혼성 음성 스트림에 의해 산만해지지 않을 것이다.

스피커(50)는 바람직하게는 청취하는 회사원에게는 들리나 발화중인 회사원에게는 들리지 않는 위치에 배치된다. 추가로, 청취하는 회사원이 지향성 큐(directional cue)를 사용하여 오리지날 음성 스트림을 모호한 음성 스트림과 분리할 수 없도록 주의를 기울여야 한다. 다중 스피커는, 서로 동일 평면상에 놓이지 않도록 배치되는 것이 바람직하고, 발화중인 회사원으로부터 나오는 오리지날 음성 스트림을 더 효과적으로 마스킹하는 복합 사운드 필드를 생성하기 위해 사용될 수 있다. 또한, 상기 시스템은, 스피커의 위치, 예를 들어 마이크로폰의 위치에 기초하여, 스피커의 위치에 대한 정보를 사용할 수 있고, 음성 마스킹의 최적의 분산을 달성하도록 다수의 스피커를 활성/비활성시킬 수 있다. 여기서, 개방형 사무실 환경은 스피커를 제어하고 다중 위치로부터 파생된 많은 모호한 대화를 믹싱하도록 모니터링됨으로써 몇몇 대화가 일어나고, 동시에, 마스킹된다. 예를 들어, 상기 시스템은 몇몇 마이크로폰으로부터 파생된 정보에 기초하여 다수의 스피커에 신호를 지시하고 가중할 수 있다.

도 2는 본 발명의 현재 바람직한 실시예에 따른 모호한 음성 신호를 생성하는 방법을 도시하는 흐름도이다. 바람직한 실시예에서, 이 방법은 도 1의 프로세서(100)에 의해 수행된다. 마스킹될 음성 스트림을 나타내는 음성 신호(200)는 도 1에서 도시된 바와 같이, 마이크로폰 또는 유사한 소스로부터 획득(단계 110)된다. 음성 신호(s(t))는 바람직하게는 일련의 이산 디지털 값(s(n))으로 획득되고 이어서 처리된다. 바람직한 실시예에서, 마이크로폰(40)이 아날로그 신호를 제공하고, 상기 신호는 아날로그/디지털 컨버터에 의해 디지털화될 것을 요구한다.

일단 획득된, 상기 음성 신호는 세그먼트(250)로 일시적으로 분할(단계 120)된다. 전술된 바와 같이, 상기 세그먼트는 음성 스트림 내 음소에 대응한다. 다음으로 상기 세그먼트는 메모리(135)에 저장(단계 130)되고, 따라서 선택된 세그먼트가 이어서 선택(단계 138), 검색(단계 140), 및 조합(단계 150) 될 수 있다. 조합 동작 결과는 모호한 음성 스트림을 나타내는 모호한 음성 신호(300)이다.

다음으로 상기 모호한 음성 신호는, 바람직하게는 도 1에 도시된 바와 같이 하나 이상의 스피커를 통해 재생될 수 있다. 바람직한 실시예에서, 하나 이상의 스피커는 아날로그 입력 신호를 요구하고, 디지털/아날로그 컨버터의 사용을 요구할 수 있다. 대안으로, 상기 음성 신호와 모호한 음성 신호가 결합되고, 결합된 신호가 재생성 될 수 있다.

상기 과정을 통한 데이터의 흐름이 도 2에서 보여지고 있으나, 상세한 동작은 실시간으로 실질적으로 데이터의 정상 상태 처리(steady state processing of data)를 제공함을 이해하는 것이 중요하다. 대안으로, 상기 과정은 사전-기록된 음성 신호에 적용되는 후-처리 동작으로 수행될 수 있다.

신호 세그먼트의 선택(단계 138), 검색(단계 140), 및 조합(단계 150)은 몇몇 방법 중의 하나로 성취될 수 있다. 특히, 음성 신호 내 세그먼트는 일 대 일 방법으로 재정리될 있고, 세그먼트는 음성 신호 내 세그먼트의 최근 히스토리로부터 무작위적으로 선택되고 검색될 수 있고, 세그먼트는 분류되거나 식별되고 다음으로 음성 신호 내 발생 주파수와 같은 크기의 상대 주파수로 선택될 수 있다. 또한, 몇몇 선택, 검색, 및 조합 과정은 몇몇 모호한 음성 신호를 생성하는데 동시에 수행될 수 있다.

도 3은 본 발명의 현재 바람직한 실시예에 따른 음성 신호를 세그먼트로 일시적으로 분할하고 세그먼트들을 저장하는 방법을 도시하는 상세한 흐름도이다. 여기서, 신호를 세그먼트로 일시적으로 분할하고 도 2에 도시된 메모리에 상기 세그먼트를 저장하는 것이 더 상세히 도시되어 있다. 분할 동작은 분할 결과 세그먼트가 음성 스트림 내 음소에 대응하는 방법으로 수행된다.

음성 신호(200)를 세그먼트로 분할하기 위해, 음성 신호는 제곱(단계 122)되고, 그 결과 신호(s²(n))는 세개의 시간 스케일, 즉, 단시간 스케일(T_s); 중간시간 스케일(T_m); 및 장시간 스케일(T_l)로 평균(단계 1231, 1232, 1233)된다. 상기 평균화는 바람직하게는 다음 표현식에 따라, 평균(V_i)의 어림 계산(calculation of running estimates of the averages)을 통해 수행된다.

V_i(n+1)=a_is(n)=(1-a_i)V_i(n), E[l,m,s]. (1)

이는, 다음을 갖는, N_i 샘플들의 슬라이딩 윈도우 평균(sliding window average of N_i samples)과 대략 동일하다.

(2)

여기서, f는 샘플링 레이트(sampling rate)이고 T_i는 시간 스케일이다.

바람직하게, 단시간 스케일(T_s)은 전형적인 음소의 듀레이션(duration of a typical phoneme) 특징으로 선택되고 중간시간 스케일(T_m)은 전형적인 단어(typical word)의 듀레이션 특징으로 선택된다. 장시간 스케일(T_l)은 전체적으로 음성 스트림의 앱 앤 플로우(ebb and flow) 특징의, 대화 시간 스케일이다. 본 발명의 현재 바람직한 실시예에서, 0.125, 0.250, 및 1.00 sec의 값이 각각 수용 가능한 시스템 수행에 제공되었으나, 본 발명의 이 실시예가 다른 시간 스케일 값으로 실시될 수 있음은 관련 분야 숙련자에게 이해될 것이다. 중간 시간 스케일 평균(단계 1232)의 결과는 가중(weighting)(125) 방법에 의해 곱해지고(단계 124), 다음으로 단시간 스케일 평균(단계 1231)의 결과로부터 빼진다(단계 126). 바람직하게는, 가중의 값은 0과 1 사이이고, 사실상, 1/2의 값이 수용가능함이 입증되었다.

그 결과 신호는 제로 크로싱(zero crossing)을 검출(단계 127)하도록 모니터링된다. 제로 크로싱이 검출되면, 참값이 복귀된다. 제로 크로싱은 중간시간 스케일 평균에 의해 탐지될 수 없는 음성 신호 에너지의 단시간 스케일 평균에서 급속한 증가 또는 감소를 반영한다. 따라서 제로 크로싱은 연속의 음소들 사이에서, 음소와 다음의 상대 정적(relative silence) 기간 사이에서, 또는 상대 정적 기간과 다음의 음소 사이에서 트랜지션(transition)이 발생하는 시간의 표시를 제공하는, 일반적으로 음소 경계에 대응하는 에너지 경계를 표시한다.

장시간 평균(단계 1233)의 결과는 임계 연산자(threshold operator)(128)로 전해진다. 상기 임계 연산자는 장시간 평균이 상한 임계값을 넘으면 "참"을 리턴하고 장시간 평균이 하한 임계값 아래이면 "거짓"을 리턴한다. 본 발명의 몇가지 실시예에서, 상기 상한 및 하한 임계값은 같을 수 있다. 바람직한 실시예에서, 임계 연산자는 상이한 상한 및 하한 임계값을 갖는, 사실상 히스터레틱(hysteretic)하다.

음성 신호(200)가 존재하고 그리고(1292) 임계 연산자(128)가 참값을 리턴하면, 음성 신호는 메모리(135)에 상주하는 버퍼들의 어레이 내에서 버퍼(136)에 저장된다. 신호가 저장되는 특정 버퍼는 저장 카운터(132)에 의해 결정된다.

제로 크로싱이 검출(단계 127)되고 그리고(1291) 임계 연산자(128)가 "참"값을 리턴하면, 저장 카운터(132)는 증분(단계 131)되고, 메모리(135) 내 버퍼들의 어레이 내에서 다음 버퍼(136)에 저장이 시작된다. 이러한 방법으로, 버퍼들의 어레이 내 각 버퍼는, 검출된 제로 크로싱에 의해 분할되고, 음성 신호의 음소 또는 인터스티셜 정적(interstitial silence)으로 채워진다. 버퍼들의 어레이 내 마지막 버퍼에 도달되면, 카운터는 리셋되고 제1 버퍼의 컨텐츠는 다음 음소 또는 인터스티셜 정적으로 대체된다. 따라서, 버퍼는 축적되고 다음으로 음성 신호내에 존재하는 세그먼트의 최근 히스토리를 유지한다.

본 방법은 음성 신호가 음소에 대응하는 세그먼트로 분할될 수 있는 다수의 방법 중 하나만을 나타낸 것이다. 연속 음성 인식 소프트웨어 패키지에 사용되는 것들을 포함하여 다른 알고리즘들이 또한 채용될 수 있다.

도 4는 본 발명의 현재 바람직한 실시예에 따른 세그먼트들을 선택, 검색, 및 조합하는 방법을 도시하는 상세한 흐름도이다. 여기서, 도 2에서 도시된 바와 같이 세그먼트를 선택(단계 138), 메모리로부터 세그먼트를 검색(단계 140) 및 세그먼트를 모호한 음성 신호로 조합(단계 150)하는 단계들이 상세히 도시되어 있다.

난수 발생기(random number generator)(144)는 검색 카운터(142)의 값을 결정하기 위해 사용된다. 카운터의 값에 의해 지시되는 버퍼(136)는 메모리(135)로부터 판독된다. 버퍼의 끝에 도달할 때, 난수 발생기는 검색 카운터에 또다른 값을 제공하고, 또다른 버퍼는 메모리로부터 판독된다. 버퍼의 컨텐츠는 연쇄 동작(catenation operation)(단계 152)을 통해 사전 판독된 버퍼의 컨텐츠에 추가되어 모호한 음성 신호(300)를 구성한다. 이러한 방법으로, 음성 신호(200) 내 세그먼트의 최근 히스토리를 반영하는 신호 세그먼트의 무작위 시퀀스가 결합되어 모호한 음성 신호(300)를 형성한다.

액티브한 대화의 순간 동안에만 마스킹을 제공하고자 하는 경우가 종종 있다. 따라서, 바람직한 실시예에서는, 버퍼가 가용이고 그리고(139) 도 3의 임계 연산자(128)가 "참"값을 리턴하면 버퍼들은 메모리로부터 판독만될 수 있다.

몇가지 다른 주목할 만한 특징들이 또한 본 발명의 현재 바람직한 실시예에 병합되었다. 먼저, 최소 세그먼트 길이가 시행된다. 제로 크로싱이 최소 세그먼트 길이 이하의 음소 또는 인터스티셜 정적을 지시한다면, 제로 크로싱이 무시되고 저장이 메모리(135) 내의 버퍼들의 어레이 내 현재 버퍼(136)에 계속된다. 또한, 버퍼 어레이 내 각 버퍼의 사이즈에 의해 결정되고, 최대 음소 길이가 시행된다. 저장하는 동안, 최대 음소 길이를 넘는다면, 제로 크로싱이 추론되고, 저장이 버퍼들의 어레이 내 다음 버퍼에 시작된다. 버퍼들의 어레이 내의 저장과 버퍼들의 어레이로부터의 검색 간 충돌을 피하기 위해, 특정 버퍼가 현재 판독되고 저장 카운터(132)에 의해 동시에 선택된다면, 저장 카운터는 다시 증분되고, 저장이 버퍼들의 어레이 내 다음 버퍼에 시작된다.

최종적으로, 연쇄 동작(152) 동안, 검색 카운터(142)에 의해 선택된 세그먼트의 헤드(head) 및 테일(tail)로 성형 함수(shaping function)를 적용하는 것이 바람직할 수 있다. 성형 함수는 모호한 음성 신호에서 연속의 세그먼트들 간의 더 부드러운 트랜지션(smooth transition)을 제공하고, 그럼으로써 재생(단계 160)시 더 자연스러운 소리를 내는 음성 스트림을 산출한다. 바람직한 실시예에서, 삼각 함수를 이용하여 각 세그먼트는 세그먼트의 헤드에서 부드럽게 위로 램핑되고 세그먼트의 테일에서 아래로 램핑된다. 상기 램핑은 최소 허용가능한 세그먼트보다 단축된 시간 스케일에 대해 수행된다. 이러한 마무리(smoothing)는 모호한 음성 신호 내 연속의 세그먼트들 간 트랜지션에서 가청 팝(pops), 클릭(clicks), 및 틱(ticks)을 경감시키는 역할을 한다.

여기서 기술되는 마스킹 방법은 사무실 공간 외 환경에서 사용될 수 있다. 일반적으로, 개인적인 대화를 엿들을 수 있는 경우에 채용될 수 있다. 그러한 공간으로는 예를 들어, 혼잡한 주거 공간, 공중 전화 부스, 및 식당 등이 포함된다. 상기 방법은 이해가능한 음성 스트림(intelligible stream of speech)이 흩어지는 상황에서 또한 사용될 수 있다. 예를 들어, 개방형 공간의 교실에서, 한 구획된 영역에 있는 학생들은 간섭성의 음성 스트림에 의해서 보다 인접 영역으로부터 나오는 난해한 보이스 같은 음성 스트림에 의해 덜 산만해질 수 있다.

본 발명은 또한 현실 에뮬레이션이나 난해한 보이스 같은 배경 잡음에 쉽게 확장될 수 있다. 이 애플리케이션에서, 상기 수정된 신호는 사전에 획득된 보이스 기록으로부터 발생될 수 있고, 그렇지 않으면 조용한 환경에서 나타내질 수 있다. 그 결과 사운드는 하나 이상의 대화가 가까이에서 수행되고 있다는 환상(illusion)을 나타낸다. 이러한 애플리케이션은 예를 들어, 식당에서, 식당주가 비교적 빈 식당이 다수의 고객들에 의해 차지되고 있다는 환상을 조성하고자 할 때, 또는 다수의 인파가 있다는 느낌을 주는 연기 제품(theatrical production)에 유용할 것이다.

채용된 특정 마스킹 방법이 두 통신측에 알려지면, 상술된 기술을 사용하여 오디오 신호를 비밀리 전송하는 것이 가능할 수 있다. 이 경우, 음성 신호는 모호한 음성 신호의 중첩에 의해 마스킹될 수 있고, 수신시 마스킹되지 않을 수 있다. 사용되는 특정 알고리즘이 통신측에만 알려진 키(key)에 의해 도입되어, 그럼으로써 전송을 차단하고 마스킹되지 않도록 하는 제 3자에 의한 시도를 방해할 수 있는 것이 또한 가능하다.

여기서 본 발명이 바람직한 실시예를 참조하여 기술되었으나, 본 발명의 기술 분야에 숙련된 자라면 본 발명의 사상과 범위를 벗어나지 않고 전술된 실시예를 대체할 수 있는 다른 애플리케이션이 가능함을 쉽게 이해할 것이다.

Claims

이해가능한 음성으로부터 실질적으로 난해하고, 모호한 음성 신호를 생성하는 방법에 있어서,

음성 스트림을 나타내는 음성 신호를 획득하는 단계;

상기 음성 신호를 다수의 세그먼트로 일시적으로 분할하는 단계로서, 상기 세그먼트가 상기 음성 신호 내 초기 순서로 발생하는, 상기 분할 단계;

상기 세그먼트 중에서 다수의 선택된 세그먼트를 선택하는 단계;

상기 초기 순서와 상이한 순서로, 상기 모호한 음성 신호를 생성하기 위해, 상기 선택된 세그먼트를 조합하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 일시적으로 분할하는 단계에 바로 이어서, 상기 세그먼트를 메모리에 저장하는 단계를 더 포함하고;

상기 선택 단계에 바로 이어서, 상기 메모리로부터 상기 선택된 세그먼트를 검색하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 모호한 음성 신호는 실질적으로 실시간으로 생성되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 음성 신호는 사전에 기록된 음성 스트림을 나타내는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 모호한 음성 신호는 난해한 배경 대화를 시뮬레이트하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 모호한 음성 신호는 텔레커뮤니케이션 네트워크를 통해 전송되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 조합 단계에 바로 이어서, 결합된 음성 신호를 생성하기 위해 상기 음성 신호 및 상기 모호한 음성 신호를 결합하는 단계를 더 포함하며;

상기 결합된 신호가 실질적으로 난해한 음성 스트림을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 조합 단계에 바로 이어서, 모호한 음성 스트림을 제공하기 위해 상기 모호한 음성 신호를 재생성하는 단계, 및

결합된 음성 스트림을 생성하기 위해 상기 음성 스트림 및 상기 모호한 음성 스트림을 결합하는 단계를 포함하며;

상기 결합된 음성 스트림이 실질적으로 난해한 것을 특징으로 하는 방법.
제1항에 있어서, 상기 음성 신호는 마이크로폰으로부터 획득되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 모호한 음성 신호는 라우드스피커에 의해 재생되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 음성 신호는 사무실 환경으로부터 획득되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 선택된 세그먼트는 상기 음성 스트림 내 각 세그먼트를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 선택된 세그먼트는 상기 음성 신호 내에 존재하는 세그먼트의 최근 히스토리를 포함하는 상기 메모리 내 다수의 세그먼트로부터 선택되는 것을 특징으로 하는 방법.
제13항에 있어서, 상기 선택된 세그먼트는 상기 메모리 내에 포함된 상기 다수의 세그먼트로부터 무작위적으로 선택되는 것을 특징으로 하는 방법.
제13항에 있어서, 상기 선택된 세그먼트 각각은 상기 음성 신호 내 발생 상대 주파수와 같은 크기의 상대 주파수로 선택되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 음성 신호는 디지털 값의 시퀀스를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 세그먼트는 상기 음성 스트림 내 음소를 나타내는 것을 특징으로 하는 방법.
제17항에 있어서, 상기 음소는 연속 음성 인식 시스템을 사용하여 결정되는 것을 특징으로 하는 방법.
제17항에 있어서, 상기 일시적으로 분할하는 단계는,

상기 음성 신호를 제곱하는 단계;

단시간 스케일에 대한 상기 음성 신호의 단시간 평균을 계산하는 단계;

중간시간 스케일에 대한 상기 음성 신호의 중간시간 평균을 계산하는 단계;

상기 단시간 평균 및 상기 중간시간 평균 사이의 차이를 계산하는 단계; 및

상기 차이에서 제로 크로싱을 검출하는 단계를 포함하며,

상기 제로 크로싱이 상기 세그먼트를 묘사하는 것을 특징으로 하는 방법.
제19항에 있어서, 상기 단시간 스케일은 상기 음성 스트림에 전형적인 음소의 길이를 부여하는 것을 특징으로 하는 방법.
제19항에 있어서, 상기 중간시간 스케일은 상기 음성 스트림에 전형적인 단어의 길이를 부여하는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 저장 단계는,

상기 음성 신호를 제곱하는 단계;

장시간 스케일에 대한 상기 음성 신호의 장시간 평균을 계산하는 단계;

상기 장시간 평균이 제1 임계값을 초과하고 상기 장시간 평균이 제2 임계값의 미만일 때를 결정하는 단계;

상기 장시간 평균이 상기 제2 임계값의 미만일 때 상기 메모리에 상기 세그먼트의 상기 저장을 중지하는 단계; 및

상기 장시간 평균이 상기 제1 임계값을 초과할 때 상기 메모리에 상기 세그먼트의 상기 저장을 재개하는 단계를 포함하는 것을 특징으로 하는 방법.
제22항에 있어서, 상기 장시간 스케일은 상기 음성 스트림의 대화 시간 스케일을 부여하는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 검색 단계는,

상기 음성 신호를 제곱하는 단계;

장시간 스케일에 대한 상기 음성 신호의 장시간 평균을 계산하는 단계;

상기 장시간 평균이 제1 임계값을 초과하고 상기 장시간 평균이 제2 임계값의 미만일 때를 결정하는 단계;

상기 장시간 평균이 상기 제2 임계값의 미만일 때 상기 메모리로부터 상기 세그먼트의 상기 검색을 중지하는 단계; 및

상기 장시간 평균이 상기 제1 임계값을 초과할 때 상기 메모리로부터 상기 세그먼트의 상기 검색을 재개하는 단계를 포함하는 것을 특징으로 하는 방법.
제24항에 있어서, 상기 장시간 스케일은 상기 음성 스트림의 대화 시간 스케일을 부여하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 조합 단계는, 상기 선택된 세그먼트 각각에 성형 함수를 적용하는 단계를 포함하며;

상기 성형 함수가 상기 모호한 음성 신호 내 연속의 세그먼트 간 부드러운 트랜지션을 제공하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 선택 및 조합 단계는 상기 음성 신호로부터 다수의 상기 모호한 음성 신호를 동시에 생성하는 것을 특징으로 하는 방법.
음성 스트림을 마스킹하는 방법에 있어서,

상기 음성 스트림을 나타내는 음성 신호를 획득하는 단계;

모호한 음성 신호를 형성하기 위해 상기 음성 신호를 변경하는 단계; 및

결합된 음성 신호를 생성하기 위해 상기 음성 신호 및 상기 모호한 음성 신호를 결합하는 단계를 포함하며,

상기 결합된 음성 신호가 실질적으로 난해한 결합된 음성 스트림을 나타내는 것을 특징으로 하는 방법.
음성 스트림을 마스킹하는 방법에 있어서,

상기 음성 스트림을 나타내는 음성 신호를 획득하는 단계;

모호한 음성 신호를 형성하기 위해 상기 음성 신호를 변경하는 단계;

모호한 음성 스트림을 제공하기 위해 상기 모호한 음성 신호를 재생성하는 단계; 및

결합된 음성 스트림을 생성하기 위해 상기 음성 스트림 및 상기 모호한 음성 스트림을 결합하는 단계를 포함하며,

상기 결합된 음성 스트림이 실질적으로 난해한 것을 특징으로 하는 방법.
이해가능한 음성으로부터 실질적으로 난해하고, 모호한 음성 신호를 생성하는 장치에 있어서,

음성 스트림을 나타내는 음성 신호를 획득하는 모듈;

상기 음성 신호를 다수의 세그먼트로 일시적으로 분할하는 모듈로서, 상기 세그먼트가 상기 음성 신호 내에서 초기 순서로 발생되는, 상기 분할 모듈;

상기 세그먼트 중에서 다수의 선택된 세그먼트를 선택하는 모듈; 및

상기 초기 순서와 상이한 순서로, 상기 모호한 음성 신호를 생성하기 위해, 상기 선택된 세그먼트를 조합하는 모듈을 포함하는 것을 특징으로 하는 장치.
제30항에 있어서,

상기 세그먼트를 저장하는 메모리; 및

상기 메모리로부터 상기 선택된 세그먼트를 검색하는 모듈을 포함하는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 모호한 음성 신호는 실질적으로 실시간으로 생성되는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 음성 신호는 사전에 기록된 음성 스트림을 나타내는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 모호한 음성 신호는 난해한 배경 대화를 시뮬레이트하는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 모호한 음성 신호를 텔레커뮤니케이션 네트워크를 통해 전송하는 모듈을 더 포함하는 것을 특징으로 하는 장치.
제30항에 있어서, 결합된 음성 신호를 생성하기 위해 상기 음성 신호 및 상기 모호한 음성 신호를 결합하는 모듈을 더 포함하며;

상기 결합된 신호가 실질적으로 난해한 음성 스트림을 포함하는 것을 특징으로 하는 장치.
제30항에 있어서, 모호한 음성 스트림을 제공하기 위해 상기 모호한 음성 신호를 재생성하는 모듈, 및

결합된 음성 스트림을 생성하기 위해 상기 음성 스트림 및 상기 모호한 음성 스트림을 결합하는 모듈을 포함하며;

상기 결합된 음성 스트림이 실질적으로 난해한 것을 특징으로 하는 장치.
제30항에 있어서, 상기 음성 신호를 획득하는 마이크로폰을 더 포함하는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 모호한 음성 신호를 재생하는 라우드스피커를 더 포함하는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 음성 신호는 사무실 환경으로부터 획득되는 것을 특징으로 하는 장치.
제31항에 있어서, 상기 선택된 세그먼트는 상기 음성 스트림 내 각 세그먼트를 포함하는 것을 특징으로 하는 장치.
제31항에 있어서, 상기 선택된 세그먼트는 상기 음성 신호 내에 존재하는 세그먼트의 최근 히스토리를 포함하는 상기 메모리 내 다수의 세그먼트로부터 선택되는 것을 특징으로 하는 장치.
제42항에 있어서, 상기 선택된 세그먼트는 상기 메모리 내에 포함된 상기 다수의 세그먼트로부터 무작위적으로 선택되는 것을 특징으로 하는 장치.
제42항에 있어서, 상기 선택된 세그먼트 각각은 상기 음성 신호 내 발생 상대 주파수와 같은 크기의 상대 주파수로 선택되는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 음성 신호는 디지털 값의 시퀀스를 포함하는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 세그먼트는 상기 음성 스트림 내 음소를 나타내는 것을 특징으로 하는 장치.
제46항에 있어서, 상기 음소는 연속 음성 인식 시스템을 사용하여 결정되는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 일시적으로 분할하는 모듈은,

상기 음성 신호를 제곱하는 모듈;

단시간 스케일에 대한 상기 음성 신호의 단시간 평균을 계산하는 모듈;

중간시간 스케일에 대한 상기 음성 신호의 중간시간 평균을 계산하는 모듈;

상기 단시간 평균 및 상기 중간시간 평균 사이의 차이를 계산하는 모듈; 및

상기 차이에서 제로 크로싱을 검출하는 모듈을 포함하며,

상기 제로 크로싱이 상기 세그먼트를 묘사하는 것을 특징으로 하는 장치.
제48항에 있어서, 상기 단시간 스케일은 상기 음성 스트림에 전형적인 음소의 길이를 부여하는 것을 특징으로 하는 장치.
제48항에 있어서, 상기 중간시간 스케일은 상기 음성 스트림에 전형적인 단어의 길이를 부여하는 것을 특징으로 하는 장치.
제31항에 있어서, 상기 메모리는,

상기 음성 신호를 제곱하는 모듈;

장시간 스케일에 대한 상기 음성 신호의 장시간 평균을 계산하는 모듈;

상기 장시간 평균이 제1 임계값을 초과하고 상기 장시간 평균이 제2 임계값의 미만일 때를 결정하는 모듈;

상기 장시간 평균이 상기 제2 임계값의 미만일 때 상기 메모리에 상기 세그먼트의 상기 저장을 중지하는 모듈; 및

상기 장시간 평균이 상기 제1 임계값을 초과할 때 상기 메모리에 상기 세그먼트의 상기 저장을 재개하는 모듈을 더 포함하는 것을 특징으로 하는 장치.
제51항에 있어서, 상기 장시간 스케일은 상기 음성 스트림의 대화 시간 스케일을 부여하는 것을 특징으로 하는 장치.
제31항에 있어서, 상기 검색 모듈은,

상기 음성 신호를 제곱하는 모듈;

장시간 스케일에 대한 상기 음성 신호의 장시간 평균을 계산하는 모듈;

상기 장시간 평균이 제1 임계값을 초과하고 상기 장시간 평균이 제2 임계값의 미만일 때를 결정하는 모듈;

상기 장시간 평균이 상기 제2 임계값의 미만일 때 상기 메모리로부터 상기 세그먼트의 상기 검색을 중지하는 모듈; 및

상기 장시간 평균이 상기 제1 임계값을 초과할 때 상기 메모리로부터 상기 세그먼트의 상기 검색을 재개하는 모듈을 포함하는 것을 특징으로 하는 장치.
제53항에 있어서, 상기 장시간 스케일은 상기 음성 스트림의 대화 시간 스케일을 부여하는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 조합 모듈은, 상기 선택된 세그먼트 각각에 성형 함수를 적용하는 모듈을 포함하며;

상기 성형 함수가 상기 모호한 음성 신호 내 연속의 세그먼트 간 부드러운 트랜지션을 제공하는 것을 특징으로 하는 장치.
제30항에 있어서, 상기 선택 및 조합 모듈은 상기 음성 신호로부터 다수의 상기 모호한 음성 신호를 동시에 생성하는 것을 특징으로 하는 장치.
음성 스트림을 마스킹하는 장치에 있어서,

상기 음성 스트림을 나타내는 음성 신호를 획득하는 모듈;

모호한 음성 신호를 형성하기 위해 상기 음성 신호를 변경하는 모듈; 및

결합된 음성 신호를 생성하기 위해 상기 음성 신호 및 상기 모호한 음성 신호를 결합하는 모듈을 포함하며,

상기 결합된 음성 신호가 실질적으로 난해한 결합된 음성 스트림을 나타내는 것을 특징으로 하는 장치.
음성 스트림을 마스킹하는 장치에 있어서,

상기 음성 스트림을 나타내는 음성 신호를 획득하는 모듈;

모호한 음성 신호를 형성하기 위해 상기 음성 신호를 변경하는 모듈;

모호한 음성 스트림을 제공하기 위해 상기 모호한 음성 신호를 재생성하는 모듈; 및

결합된 음성 스트림을 생성하기 위해 상기 음성 스트림 및 상기 모호한 음성 스트림을 결합하는 모듈을 포함하며,

상기 결합된 음성 스트림이 실질적으로 난해한 것을 특징으로 하는 장치.