KR101176732B1

KR101176732B1 - 이동장치 상의 음성 향상 복합 센서에 대한 방법 및 장치

Info

Publication number: KR101176732B1
Application number: KR1020050080141A
Authority: KR
Inventors: 마이클 제이. 싱클레어; 랜디 필리스 그래노버터; 젱유 장; 지쳉 리우
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-10-12
Filing date: 2005-08-30
Publication date: 2012-08-23
Also published as: CN1761265A; US20060079291A1; US7283850B2; CA2518640C; CA2812014A1; BRPI0503644A; EP1648150A2; CA2518640A1; EP1648150B1; RU2391716C2; JP2006115476A; JP4870953B2; AU2005203610A1; US20070036370A1; RU2005127851A; CA2812014C; MXPA05009800A; EP1648150A3; CN1761265B; KR20060050836A

Abstract

이동장치는 기도 마이크로폰 및 음성을 표시하는 대체 센서 신호를 제공하는 대체 센서를 포함한다. 통신 인터페이스는 이동장치가 다른 이동장치들과 직접 통신할 수 있게 해준다.

이동장치, 모바일 장치, 모바일폰, 이동전화, 휴대폰, 휴대전화, 마이크, 마이크로폰, 센서, 골도 센서, 골도 전화기, 네트워크, 인터페이스, 음성 인식, GPS

Description

이동장치 상의 음성 향상 복합 센서에 대한 방법 및 장치{METHOD AND APPARATUS FOR MULTI-SENSORY SPEECH ENHANCEMENT ON A MOBILE DEVICE}

도 1은 본 발명의 일 실시예의 사시도.

도 2는 사용자 머리의 좌측면에 위치한 도 1의 전화를 도시하는 도면.

도 3은 사용자 머리의 우측면에 위치한 도 1의 전화를 도시하는 도면.

도 4는 골도 마이크로폰의 블록도.

도 5는 본 발명의 대안적인 실시예의 사시도.

도 6은 본 발명의 일 실시예에서 다른 골도 마이크로폰의 단면도.

도 7은 본 발명의 이동장치의 목걸이 실시예의 정면도.

도 8은 도 7의 목걸이 실시예의 후면도.

도 9는 사용자가 착용한 도 7의 목걸이 실시예를 도시하는 도면.

도 10은 본 발명의 이동장치의 팔찌/시계 실시예의 사시도.

도 11은 본 발명의 일 실시예에서 이동장치의 블록도.

도 12는 본 발명의 일반 음성 처리시스템의 블록도.

도 13은 본 발명의 이동장치에서 가능한 통신 연결을 도시하는 블록도.

도 14는 회의 참석을 용이하게 하기 위한, 본 발명의 이동장치와의 다수의 통신 연결을 도시하는 블록도.

도 15은 파견 작업 순서를 용이하게 하기 위한, 본 발명의 이동장치와의 다수의 통신 연결을 도시하는 블록도.

도 16은 그룹 통신을 용이하게 하고 구조를 돕기 위한, 본 발명의 이동장치와의 다수의 통신 연결을 도시하는 블록도.

도 17은 게임을 용이하게 하기 위한, 본 발명의 이동장치와의 다수의 통신 연결을 도시하는 블록도.

도 18은 본 발명의 이동장치를 사용하여, 비디오 및 오디오를 저장, 편성 및 검토할 수 있는 능력을 도시하는 블록도.

도 19는 아이들/노인들의 위치확인 및 그들과의 통신을 용이하게 하기 위한, 본 발명의 이동장치와의 다수의 통신 연결을 도시하는 블록도.

도 20은 음성 번역을 요하는 회의를 용이하게 하기 위한, 본 발명의 이동장치와의 다수의 통신 연결을 도시하는 블록도.

도 21은 음성 번역을 요하는 회의를 용이하게 하기 위한, 본 발명의 이동장치의 다수의 통신 연결을 도시하는 블록도.

도 22는 본 발명의 이동장치와 다른 장치들간의 다수의 피어투피어 통신 연결을 도시하는 블록도.

<도면의 주요 부분에 대한 부호의 설명>

108, 508, 712: 기도 마이크로폰 110: 스피커

112, 114: 골도 마이크로폰 116: 근접 센서

512: 골도 마이크로폰과 근접 센서의 결합부

714: 대체 센서 716: 비디오 카메라

718: 처리 칩셋 720: GPS 수신기(720)

본 발명은 이동장치(mobile devices)에 관한 것으로, 특히 복합 센서 이동장치에 관한 것이다.

전화기능을 제공하거나 혹은 음성 입력을 수신하는 이동전화 및 PDA(personal digital assistants)와 같은 이동 핸드헬드 장치는 분주한 거리, 식당, 공항 및 차량에서와 같이 잡음이 있는 좋지않은 환경에서 종종 사용하게 된다. 이들 환경의 강한 주변 잡음은 사용자의 음성을 덮어버려서 사용자가 말하는 내용을 이해하기 어렵게 만들 수 있다. 또한 이러한 주변 잡음은 음성 인식의 정확도를 심각하게 저하시킨다.

잡음 모델을 기반으로 잡음을 제거하고자 하는 시도에서 잡음 필터링 시스템이 개발되어 왔지만, 이 시스템들은 모든 잡음을 제거할 수는 없었다. 특히, 이들 시스템의 다수는 배경에 있는 다른 사람들이 하는 말로 이루어진 잡음을 제거하기는 어려운 것으로 알려져 왔다. 이러한 이유중의 하나는 이들 시스템이 마이크로폰에 수신되는 음성 신호를 이동장치의 사용자 외의 다른 사람으로부터 온 것인지를 판정하는 것이, 불가능하지는 않다고 해도 극히 어렵다라는 사실에서 비롯된다.

사용자의 머리 또는 귀에 헤드셋을 두름으로써 사용자의 머리에 계속 위치하게 되는 전화 헤드셋의 경우, 헤드셋 내 추가 유형의 센서에 의존함으로써 보다 강한 잡음 필터링을 제공하도록 하는 시스템이 개발되었다. 일 예에서, 골도 센서(bone conduction sensor)는 헤드셋의 한 단부상에 위치하여, 헤드셋의 탄력에 의해 헤드셋 사용자의 두개골, 귀 또는 하악골을 덮고 있는 피부와의 접촉면으로 눌려진다. 골도 센서는 사용자가 말하고 있을 때에 생성되는 두개골, 귀 또는 하악골의 진동을 탐지한다. 이 시스템은 골도 센서로부터의 신호를 사용함으로써 사용자가 말하고 있을 때를 보다 잘 식별할 수 있고, 결과적으로 보다 양호하게 음성 신호에서 잡음을 필터링할 수 있다.

이러한 시스템들은 헤드셋에 있어서는 잘 작동하지만, 헤드셋은 전화로의 유선 연결을 이용하는 통신으로 제한되어 있다. 따라서, 그들의 사용은 폭넓은 통신 애플리케이션들에서는 제한된다. 또한 헤드셋은 하루 종일 착용하기에 불편할 뿐만 아니라 (크고 부피감이 있어) 시각적으로 보기가 좋지 못하므로, 결과적으로 사용자는 하루종일 헤드셋을 착용하기를 원하지는 않을 것 같다. 이러한 이유에서 헤드셋은 사용을 불편하게 만든다.

본 발명은 음성을 나타내는 대체 센서 신호를 제공하는 대체 센서와 기도 마이크로폰(air conduction microphone)을 포함한 이동장치를 제공한다. 이동장치는 통신 인터페이스에 의해 다른 이동장치와 직접 통신할 수 있다.

본 발명의 실시예는 기도 마이크로폰과, 음성 탐지 및 잡음 필터링에 사용될 수 있는 대체 센서 양자를 모두 포함하는 이동장치를 제공한다. 본 발명의 이동장치의 예는 휴대전화, PDA, 장신구 및 시계를 포함한다. 도 1은 이동장치가 이동전화(100)인 실시예를 제공한다. 이동전화(100)는 키패드(102), 디스플레이(104), 커서 제어부(106), 기도 마이크로폰(108), 스피커(110), 2개의 골도 마이크로폰(112, 114) 및 선택사양의 근접 센서(proximity sensor)(116)를 포함한다. 또한 이동장치(100)는 전화기 외부에서는 보이지 않는 배터리와 같은 전원, 프로세서, 위성위치확인 신호 탐지기(global positioning satellite signal detector)및 프로세서를 포함한다. 선택적으로, 이동전화(100)는 또한 맥박 센서, 산소측정 센서, 온도 센서 및 비디오 카메라를 포함할 수 있다.

터치패드(102)는 사용자가 숫자 및 텍스트를 이동전화에 입력할 수 있도록 해준다. 다른 실시예에서, 터치패드(102)는 터치 스크린의 형태로 디스플레이(104)와 결합된다. 사용자는 커서 제어부(106)를 통해 디스플레이(104)상의 정보를 하이라이트하여 선택하고, 디스플레이(104)보다 더 큰 영상 및 페이지를 스크롤링(scrolling)할 수 있다.

도 2 및 도 3에 도시된 바와 같이, 이동전화(100)가 전화 통화를 위한 표준 위치에 놓여질 때, 스피커(110)는 사용자의 좌측 귀(200) 또는 우측 귀(300) 부근에 위치되고, 기도 마이크로폰(108)은 사용자의 입(202) 부근에 위치된다. 도 2에서와 같이 전화가 사용자의 좌측 귀 부근에 위치될 때, 골도 마이크로폰(114)은 사용자의 두개골 또는 귀와 접촉하고, 기도 마이크로폰(108)에서 수신되는 음성 신 호로부터 잡음을 제거하는 데 사용될 수 있는 음성에 대한 정보를 제공하는 대체 센서 신호를 생성한다. 예를 들면, 대체 센서 신호로 제공되는 정보는 사용자가 말하고 있는 지의 여부뿐만 아니라 사용자의 음성에 관한 저주파 정보를 포함할 수 있다. 도 3에서와 같이 전화가 사용자의 우측 귀 부근에 위치할 때, 골도 마이크로폰(112)은 사용자의 두개골 또는 귀와 접촉하고, 음성 신호로부터 잡음을 제거하는 데 사용될 수 있는 대체 센서 신호를 생성한다.

선택사양의 근접 센서(116)는 전화가 사용자와 얼마나 가까이 있는 지를 가리킨다. 후술되는 바와 같이, 이 정보는 무잡음 음성값(clean speech value)의 생성시 골도 마이크로폰의 기여를 가중치매기는 데 사용된다. 통상적으로, 근접 탐지기는 전화가 사용자의 옆에 있음을 탐지할 때, 골도 마이크로폰 신호는 전화가 사용자로부터 소정 거리에 있는 경우보다 높게 가중치매겨진다. 이 조정은 골도 마이크로폰 신호가 사용자와 접촉시에 사용자의 말을 좀 더 잘 나타낸다는 사실을 반영한다. 사용자로부터 멀리 있는 경우, 골도 마이크로폰 신호는 주위 잡음에 좀더 취약하다. 사용자는 전화로 그들의 머리를 계속 누르고 있지는 않으므로, 본 발명의 일 실시예서는 근접 센서를 사용한다.

도 4는 본 발명의 골도 센서(400)의 일 실시예를 도시한다. 센서(400)에서, 소프트 엘라스토머 브릿지(elastomer bridge)(402)는 정규의 기도 마이크로폰(406)의 진동판(404)에 부착되어 있다. 이 소프트 브릿지(402)는 사용자의 스킨 접촉부(408)로부터 진동을 정규 골도 마이크로폰(406)의 진동판(404)으로 직접 전달한다. 진동판(404)의 움직임은 마이크로폰(406) 내 변환기(410)에 의해 전기신호로 변환 된다.

도 5는 본 발명의 핸드헬드 이동장치의 대안적인 이동전화 실시예(500)를 제공한다. 이동전화(500)는 키패드(502), 디스플레이(504), 커서 제어부(506), 기도 마이크로폰(508), 스피커(510) 및 골도 마이크로폰과 근접 센서의 결합부(512)를 포함한다.

도 6의 단면에 도시된 바와 같이, 골도 마이크로폰과 근접 센서의 결합부(512)는 사용자가 그들의 귀에 전화를 댈 때 사용자와 접촉하도록 설계된 외부면(602)을 가진, (유체 또는 엘라스토머인) 부드러운 소재로 채워진 패드(600)로 구성된다. 패드(600)는 전화(500)의 개구부에 위치하거나 혹은 개구부 바로 아래에 위치한 스피커(510)로부터의 사운드를 위한 통로를 제공하는 개구부 둘레로 링을 형성한다. 패드(600)는 이 형태로 제한되지 않으며, 임의의 다른 형태의 패드가 사용될 수 있다. 그러나 통상적으로, 패드(600)는 스피커(510)의 좌측 및 우측 부분을 포함함으로써, 사용자가 어느 귀에 전화를 대고 있는가에 관계없이 패드(600)의 적어도 일부분이 사용자와 접촉하도록 하는 것이 바람직하다. 패드 일부는 외부로 연결되거나 혹은, 외부와 분리된 채 전화 내에서 서로 유동적으로 연결될 수 있다.

전자 압력 변환기(electronic pressure transducer; 604)는 패드(600) 내 유체 또는 엘라스토머에 수압으로 연결되고, 패드(600) 내 유체의 압력을 도체(606) 상의 전기신호로 변환시킨다. 전자 압력 변환기(604)의 예로서 MEMS-기반 변환기를 들 수 있다. 통상적으로, 압력 변환기(604)는 고주파 응답을 가져야 한다.

도체(606) 상의 전기신호는 DC 성분과 AC 성분의 두 성분을 포함한다. 전화가 사용자의 귀로부터 소정 거리에 있을 때보다 사용자의 귀에 대고 눌려질 때에 패드(600)내 정적 압력이 보다 높아질 것이므로, DC 성분은 근접 센서 신호를 제공한다. 사용자의 두개골, 턱 또는 귀의 뼈에서의 진동이 패드(600) 내의 압력 변동을 야기하고, 이 압력 변동은 압력 변환기(604)에 의해 AC 전기신호로 변환되므로 전기신호의 AC 성분은 골도 마이크로폰 신호를 제공한다. 일 실시예에서, 필터가 전기신호에 적용됨으로써, 신호의 DC 성분과 최소 주파수 이상의 AC 성분이 통과할 수 있게 된다.

골도 센서의 두 예를 전술하였지만, 다른 형태의 골도 센서도 본 발명의 범주에 포함된다.

도 7 및 도 8은 본 발명의 이동장치의 다른 실시예의 정면도 및 후면도를 도시한다. 도 7 및 도 8에 있어서, 이동장치(700)는 목걸이 또는 초커(702)와 이어버드(ear bud)(704)로 구성된다. 목걸이(702)는 스트링 또는 와이어와 같은 목 고정물(708)로부터 달려있는 장식용 디스크 또는 펜던트(706)를 포함한다. 목 고정물은 이동장치가 사용자 몸에서 떨어지지 않도록 지탱하고, 사용자의 목 둘레에 부착되도록 설계된다. 장식용 디스크(706)는 마이크로폰 개구부(708)와 비디오 개구부(710)를 포함한다.

도 8의 후면도에 도시된, 이동장치(700)는 기도 마이크로폰(712), 대체 센서(714), 비디오 카메라(716), 처리 칩셋(718) 및 GPS 수신기(720)에 전력을 공급하는 배터리(710)를 포함한다. 처리 칩셋(718)은 기도 마이크로폰(712), 대체 센서 (714), 비디오 카메라(716) 및 GPS 수신기(720)에 연결된다. 처리 칩셋(718)은 프로세서, 메모리 저장소, 입/출력 인터페이스 및 통신 인터페이스를 포함한다. 프로세서는 통신 인터페이스를 통해 이어버드(704)내 프로세서와 통신할 수 있게 되며, 처리 칩셋(718)의 프로세서는 음향 정보를 나타내는 전기신호를 이어버스(704)로 전송할 수 있다. 또한 처리 칩셋(718)의 통신 인터페이스는 비디오 디스플레이, 퍼스널 컴퓨터, 라우터 및 다른 이동장치를 포함한 다른 장치 집합과 무선으로 통신할 수 있다. 이들 통신을 위해 사용되는 프로토콜은 802.11 프로토콜의 소정의 변경을 포함하는 임의의 공지된 프로토콜을 포함할 수 있다.

이어버드(704)는 외부 부분(730), 외이도(ear canal) 부분(732) 및 스피커 개구부(734)를 포함한다. 이어버드(704)는 처리 칩셋(718)으로부터 신호를 수신하고, 이 신호를 이어버드(704)의 내부에 있는 스피커를 통하여 청각신호로 변환한다. 이 청각 신호는 스피커 개구부(734)를 통하여 사용자의 귀속으로 들어간다. 이어버드(704)는 배터리(도시 생략) 및 처리 칩셋(718)의 통신 인터페이스와 통신할 수 있도록 해주는 통신 인터페이스를 포함한다.

도 9에 도시된 바와 같이, 목 고정물(708)은 통상 "아담의 사과(Adam's Apple)"로 불리는 후두 갑상연골의 약간 아래에 위치한 사용자의 목 앞부분과 펜던트가 접하도록 배치하기 위하여 사용자의 목(900) 둘레에 둘러져 있다. 이어버드(704)는 사용자의 귀 내부에 놓여져서 외이(outer ear)의 이주(tragus; 900)와 대이주(anti-tragus; 902) 사이에 펼쳐진다.

도 10은 본 발명의 이동장치의 다른 실시예의 회화도이다. 도 10에서, 이동 장치는 시계 또는 팔찌(1000)와 이어버드(1002)를 포함한다. 시계(1000)는 인클로저(enclosure)(1001)를 포함하는 데, 이 인클로저는 사용자의 손목 둘레로 고정되도록 설계된 밴드와 같은 손목 고정물(1006)상에 장착된다. 인클로저(1001)는 배터리, 프로세서, 메모리, 통신 인터페이스, 입/출력 인터페이스, GPS 수신기, 비디오 카메라, 스피커, 기도 마이크로폰, 맥박 센서, 산소측정 센서 및 온도 센서를 포함하는 전자장치셋을 수용하는 내부를 갖는다. 이들 장치는 도 11에서 보다 상세히 기술된다. 프로세서는 통신 인터페이스를 통해 이어버드(1002)의 프로세서와 통신할 수 있게 되고, 이로써 이어버드(1002)로 음향 정보를 전송하고 이어버드(1002)의 대체 센서(1018)로부터 데이터를 수신할 수 있다. 또한 통신 인터페이스는 하나 이상의 라우터, 퍼스널 컴퓨터 및 다른 이동장치들과의 무선 통신을 허용한다. 인클로저(1001)는 맥박 및 산소측정 미터기(1008), 기도 마이크로폰(1010) 및 비디오 카메라(1012)를 포함하는 인클로저 내 소정의 전자장치들에 대응하는 개구부들을 포함한다. 맥박 및 산소측정 미터기(1008)는 사용자가 그들의 손가락을 미터기 위에 대는 경우 사용자의 맥박을 측정하고, 또한 광원 및 광센서를 사용하여 사용자의 혈액 내 산소량을 측정한다. 또한 인클로저(1001)의 한 외부면은 디스플레이(1004)를 포함한다.

이어버드(1002)는 사용자의 귀구멍 내에 배치되도록 설계된 귀 부분(1014)과 스피커 개구부(1016)를 포함한다. 또한 이어버드(1002)는 대체 센서(1018)를 포함하는 데, 이 대체 센서(1018)는 이어버드(1002)가 사용자의 외이도에 있을 때에 사용자의 턱 방향으로 위치한다.

도 11은 본 발명의 다수 실시예에서의 이동장치(1100)를 도시하는 블록도이다. 이동장치(1100)는 전원(1152), 마이크로프로세서(1102), 메모리(1104), 입/출력(I/O) 인터페이스(1106) 및 원격 컴퓨터, 통신 네트워크 또는 다른 이동장치들과 통신하기 위한 통신 인터페이스(1108)를 포함한다. 일 실시예에서, 전술한 구성소자들은 서로와의 통신을 위해 적당한 버스(1110)를 통하여 연결된다. 또한 전력을 필요로 하는 모든 구성소자는 일반적으로 배터리인 전원(1152)에 연결된다. 도 11에서, 불필요하게 도면을 복잡하게 만드는 것을 피하기 위하여 전원(1152)과 나머지 구성소자들간의 연결은 도시되지 않았다.

메모리(1104)는 배터리 백업모듈(도시 생략)을 갖는 RAM과 같은 비휘발성 전자메모리로서 구현될 수 있으므로, 메모리(1104)에 저장된 정보는 이동장치(1100)로의 범용 전원이 차단될 때에 손실되지 않는다. 이와 달리, 메모리(1104)의 전부 또는 일부분이 휘발성 또는 비휘발성 착탈식 메모리일 수 있다. 메모리(1104)의 일부분은 바람직하게는 프로그램 실행을 위한 주소지정가능한 메모리로서 할당되는 반면에, 메모리(1104)의 다른 부분은 바람직하게는 디스크드실시간 상의 저장소를 시뮬레이션하는 것과 같이 저장소를 위해 사용된다.

메모리(1104)는 운영체제(1112), 애플리케이션 프로그램(1114) 및 객체 저장소(1116)를 포함한다. 운영되는 동안, 운영체제(1112)는 바람직하게는 메모리(1104)로부터 프로세서(1102)에 의해 실행된다. 바람직한 일 실시예에서, 운영체제(1112)는 마이크로소프트사의 상용 WINDOWS® CE 브랜드 운영체제이다. 운영체제(1112)는 바람직하게는 이동장치를 위해 설계된 것으로, 공개된 애플리케이션 프 로그래밍 인터페이스 및 방법셋을 통하여 애플리케이션(1114)에 의해 활용될 수 있는 데이터베이스 특징들을 구현한다. 객체 저장소(1116)의 객체들은 공개된 애플리케이션 프로그래밍 인터페이스 및 방법으로의 호출에 대해 적어도 부분적으로 응답하여 애플리케이션(1114) 및 운영체제(1112)에 의해 유지관리된다.

통신 인터페이스(1108)는 이동장치(1100)가 정보를 송수신할 수 있도록 해주는 다양한 장치들 및 기술들을 나타낸다. 소정 실시예에서, 통신 인터페이스(1108)는 전화를 걸고 받을 수 있도록 휴대전화망과 상호작용하는 휴대전화망 인터페이스를 포함한다. 다른 인터페이스는 몇가지 예를 들자면, PBx 전화 인터페이스, 802.11와 같은 무선 프로토콜 인터페이스 및 그의 변형물들, 위성 수신기 및 방송 튜너를 포함한다. 또한 이동장치(1100)들 간의 상호 데이터 교환을 위하여 컴퓨터에 직접 연결될 수도 있다. 이러한 경우, 통신 인터페이스(1108)는 스트리밍 정보(streaming information)를 전송할 수 있는 적외선 송수신기, 또는 직렬이나 병렬 통신 연결일 수 있다.

이동장치(1100)는 통신 인터페이스(1108)를 통해 외부 서버(1154) 및 원격 장치(1156)와 통신할 수 있는 데, 이는 다른 이동장치로의 직접 통신을 포함한다.

본 발명을 구현하기 위하여 프로세서(1102)에 의해 실행되는 컴퓨터 실행가능한 명령어들은 메모리(1104)에 저장되거나 혹은 통신 인터페이스(1108)를 통하여 수신될 수 있다. 이들 명령어들은 컴퓨터 저장매체 및 통신매체를 포함하는 컴퓨터 판독가능 매체에서 발견될 수 있는데, 다만 컴퓨터 판독가능 매체가 이에 한정되지는 않는다.

컴퓨터 저장매체는 컴퓨터 판독가능 명령어들, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보를 저장하기 위한 임의의 방법이나 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 고정식 매체를 포함한다. 컴퓨터 저장매체는 RAM, ROM, EEFROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD 또는 다른 광디스크 저장소, 자기 카세트, 자기 테잎, 자기 디스크 저장소나 다른 자기 저장장치, 또는 원하는 정보를 저장하는 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함하지만 이에 한정되지는 않는다.

통신매체는 전형적으로, 컴퓨터 판독가능 명령어들, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터신호로 다른 데이터를 구현하고, 임의의 정보 전달매체를 포함한다. "변조된 데이터신호"라는 요어는 신호 내 정보를 부호화하기 위한 소정의 방식으로 설정되거나 변경된 하나 이상의 특성을 갖는 신호를 의미한다. 예를 들면, 통신매체는 유선망 또는 다이렉트 유선접속(direct-wired connection)과 같은 유선 매체 및 음향, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함하지만 이에 한정되지는 않는다. 컴퓨터 판독가능 매체의 범주에는 전술한 것들의 임의의 조합도 포함된다.

입/출력 인터페이스(1106)는 GPS 수신기(1148), 비디오 카메라(1150), 스피커(1130), (버튼 하나 또는 버튼집합, 터치 스크린, 트랙볼, 마우스 패드, 롤러, 또는 사용자의 엄지 또는 손가락에 의해 조작될 수 있는 이들 구성소자의 결합과 같은) 손가락 입력부(digit input)(1132), 디스플레이(1134), 기도 마이크로폰(1136), 대체 센서(1138), 맥박 센서(1142), 산소측정 센서(1144) 및 온도 센서 (1146)를 포함하는 입력 및 출력장치 집합에 대한 인터페이스를 나타낸다. 일 실시예에서, 대체 센서(1138)는 골도 또는 인후 전도(throat conduction) 마이크로폰이다. 전술한 장치는 예시에 불과하며 이 모두가 이동장치(1100) 상에서 제공될 필요는 없다. 이동장치(100)에 부착되거나 혹은 발견될 수 있는 다른 입/출력 장치들 또한 본 발명의 범주에 포함된다.

본 발명의 실시예는 기도 마이크로폰과 대체 센서를 사용함으로써 향상된 음성 신호를 제공할 수 있다. 도 12는 향상된 음성 신호를 제공하는 본 발명의 실시예의 음성 처리 시스템의 기본적인 블록도를 도시한다.

도 12에서, 스피커(1200)는 기도 마이크로폰(1204)과 대체 센서(1206)에 의해 탐지되는 음성 신호(1202)를 발생한다. 대체 센서의 일 예는 (턱뼈와 같이) 사용자의 안면 또는 두개골 뼈에 위치하거나 혹은 인접한, 또는 사용자의 귀에 위치하거나 인접하여, 그 사용자의 음성에 대응하는 귀, 두개골 또는 턱의 진동을 감지하는 골도 센서이다. 대체 센서의 다른 예는 포인팅되어서 사용자의 입의 움직임을 탐지하는 적외선 센서이다. 대체 센서의 또다른 예는 사용자의 음성에 대응하는 그 사용자의 목구멍 내 진동을 감지하는 인후 센서이다. 기도 마이크로폰(1204)은 오디오 방송전파를 전기신호로 변환시키는 데 흔히 사용되는 마이크로폰 유형이다.

또한 기도 마이크로폰(1204)은 하나 이상의 잡음원(1210)에 의해 발생되는 잡음(1208)을 수신한다. 대체 센서의 유형과 잡음의 레벨에 따라 대체 센서(1206)에서는 잡음(1208)이 탐지될 수 있다. 그러나 본 발명의 대부분의 실시예에서, 대 체 센서(1206)는 일반적으로, 기도 마이크로폰(1204) 보다는 주위 잡음에 덜 민감하다. 따라서 대체 센서(1206)에 의해 발생되는 대체 센서 신호(1212)는 통상적으로 기도 마이크로폰(1204)에 의해 발생되는 기도 마이크로폰 신호(1214) 보다 적은 잡음을 포함한다.

대체 센서 신호(1212)와 기도 마이크로폰 신호(1214)는 무잡음 신호 추정기(1216)로 제공되고, 이 무잡음 신호 추정기(1216)는 대체 센서 신호(1212)와 기도 마이크로폰 신호(1214)로부터 무잡음 음성 신호(1218)를 추정한다. 무잡음 음성 신호(1218)는 필터링된 시간영역 신호이거나 혹은 특징영역 벡터일 수 있다. 무잡음 신호 추정(1218)이 시간영역 신호인 경우, 음성 처리부(1220)는 청취자, 휴대전화 송신기, 음성 부호화 시스템 또는 음성 인식 시스템의 형태를 취할 수 있다. 무잡음 음성 신호(1218)가 특징영역 벡터인 경우, 음성 처리부(1220)는 전형적으로 음성 인식 시스템일 것이다.

본 발명은 기도 마이크로폰 신호(1214)와 대체 센서 신호(1212)를 사용하여 무잡음 음성을 추정하기 위한 다수의 방법 및 시스템을 활용한다. 제1 시스템은 스테레오 학습 데이터(stereo training data)를 사용하여 대체 센서 신호를 위한 정정 벡터를 학습시킨다. 이들 정정 벡터가 이 후 테스트 대체 센서 벡터에 추가되는 경우 무잡음 신호 벡터의 추정을 제공한다. 이 시스템의 하나의 다른 확장은 먼저 시변 왜곡(time-varying distortions)을 추적하고 이 정보를 정정 벡터의 계산 및 무잡음 음성의 추정으로 사용하는 것이다.

제2 시스템은 정정 벡터에 의해 발생되는 무잡음 추정 신호와, 기도 신호에 서 기도 테스트 신호 내 현재의 추정 잡음을 감산하여 형성된 추정 사이에 보간(interpolation)을 제공한다. 제3 시스템은 대체 센서 신호를 사용하여 음성 신호의 피치(pitch)를 추정하고, 그 후 추정된 피치를 사용하여 무잡음 음성 신호에 대한 추정을 식별한다. 제4 시스템은 대체 센서 신호와 기도 신호가 대체 센서의 하나 이상의 채널 응답을 결정하는 데 사용되는 직접 필터링을 사용한다. 그 후, 채널 응답(들)을 사용하여 무잡음 음성 신호를 추정한다.

본 발명의 이동장치는 통신 인터페이스(1108)를 사용함으로써 도 13의 블록도에 도시된 바와 같은 상당수의 상이한 네트워크를 통하여 상당수의 다른 장치와 통신할 수 있다. 도 13에는 3개의 이동장치(1300, 1302, 1304)가 도시되어 있다. 이들 이동장치는 통신 인터페이스(1108)를 통하여 서로 통신할 수 있다. 하나의 특정 실시예에서, 802.11 통신 프로토콜이 이동장치들간의 통신에 사용된다. 이동장치는 이동장치(1300, 1302)로 하여금 이동장치(1304)와의 통신없이 통신을 가능하게 하는 것과 같이, 이동장치는 일대일(one-to-one) 기반으로 서로 통신할 수 있다. 또한 한 이동장치가 모든 다른 이동장치와 통신하지만 다른 이동장치는 서로 통신하지 않는 일 대 다수(one-to-many) 구성으로 통신할 수도 있다. 예를 들면, 이동장치(1300)는 이동장치(1302, 1304)와 통신하지만, 이동장치(1302)는 이동장치(1304)와 통신하지 않는 것이다. 또한 이동장치는 모든 이동장치가 서로서로 통신할 수 있는 다수 대 다수(many-to-many) 기반으로 통신할 수도 있다.

각 이동장치는 또한 휴대전화망(1306), PBx 전화망(1308) 및 근거리망/광역망(LAN/WAN; 1310)과 같은 복수의 네트워크 중 하나 이상과 통신할 수 있다. 이동 장치는 휴대전화망(1306)과 통신하기 위하여 통신 인터페이스(1108)를 통한 휴대전화 탑으로의 직통 연결(direct link)을 사용하거나, 혹은 802.11과 같은 로컬 프로토콜을 사용하여 휴대전화와 통신할 수 있다. 그 다음, 휴대전화는 휴대전화망(1306)의 휴대전화 탑으로의 이동장치 통신을 중계한다.

이동장치(1300, 1302, 1304)는 무선 신호를 PBx 전화망을 위한 유선 신호로 변환하는 PBx 허브(PBx hub)를 통하여 PBx 전화망(1308)과 통신할 수 있다. 이러한 허브를 위한 임의의 적당한 프로토콜이 본 발명에 사용될 수 있다. 이동장치는 랩탑 컴퓨터, 퍼스널 컴퓨터 또는 LAN/WAN 부분인 무선 라우터로의 무선접속을 통하여 LAN/WAN(1310)과 통신할 수 있다.

이동장치는 네트워크(1306, 1308, 1310)를 통하여 장치(1312, 1314)와 같은 다른 장치와 통신할 수 있다. 이들 다른 장치는 랩탑 컴퓨터, 퍼스널 컴퓨터, 또는 이동장치로 서비스를 제공하는 서버를 포함할 수 있다. 소정 실시예에서 이러한 서버는 음성 신호로부터 텍스트를 식별하는 음성 인식 서버 및/또는 한 언어의 텍스트를 다른 언어의 텍스트 또는 오디오로 번역하는 번역 서버를 포함한다. 또한 서버는 인스턴트 메시징(instant messaging)을 가능하게 하며, 사용자가 회의참석(meeting)을 위한 시간이 있는 지의 여부와 같은 출석 정보(presence information)를 추적하고, 오디오 및 비디오 통신의 모두를 포함한 실시간 회의(live meeting)동안에 문서상 실시간 협업이 가능하도록 통신을 조정하는, 실시간 통신 서버를 포함할 수 있다. 또한 서버는 이동장치의 위치를 관심있는 다른 지점에 관하여 표시하는 지도와 같이, 이동장치에 대한 위치 정보를 제공하는 위치기반 서버를 포함할 수도 있다.

본 발명의 이동장치는 기도 마이크로폰과 대체 센서 양자를 모두 사용하여 음성 신호를 감지하므로 다수의 애플리케이션에서 성능을 개선시킬 수 있는 향상된 음성 신호를 제공한다. 또한 본 발명의 이동장치는 이들 마이크로폰 및 대체 센서에, GPS 수신기, 비디오 카메라 및 예컨대 맥박 센서, 산소측정 센서 및 온도 센서와 같은 건강 센서와 같은 다른 장치를 결합함으로써 다수의 서버와 함께 사용되어 다수의 부서들 간에 통신을 용이하게 하기 위한 통합된 해결방안을 제공할 수 있다.

도 14는 이동장치를 지닌 사람의 위치를 알아내고, 회의참석을 요청하기 위하여 이동장치로 인스턴트 메시지를 보내고, 회의를 개최하기 위하여 실시간 통신 서버를 활용하는 능력을 제공하는, 서버와 이동장치간의 연결을 보여주는 블록도이다.

도 14에서, 이동장치(1400)는 GPS 수신기를 갖추고 있다. 이동장치(1400)는 GPS 수신기로부터의 정보를 사용하여, 휴대전화망 또는 LAN/WAN과 같은 네트워크 연결(1404)을 통하여 위치기반 서버(1402)에 자기의의 위치를 주기적으로 전달한다. 이것은 원격 사용자가 자기의 원격 컴퓨팅장치(1406) 상에서 사람 위치확인 애플리케이션(locate person application; 1408)을 사용하여 위치기반 서버(1402)로부터 네트워크 연결(1410)을 통하여 이동장치(1400)에 대한 위치 정보를 얻을 수 있도록 해준다. 이 위치 정보는 지도상의 위치를 보여주는 것과 같은 이동장치의 위치의 그래픽 표시 또는 주소를 포함할 수 있다.

이동장치(1400)는 또한 위치기반 서버(1402)에 연결하는데 사용되는 것과 동일한 네트워크 연결일 수도 있고 또는 다른 네트워크 연결일 수도 있는 네트워크 연결(1404)을 통하여 실시간 통신 서버(1412)와 통신할 수 있다. 이 연결을 통하여, 사용자가 휴대한 이동장치(1400)가 사용가능 상태이며 온라인 상인지를 표시할 수 있고, 사무실 내에 있는지 혹은 사무실 외부에 있는 지의 여부를 표시할 수 있다. 이것은 일반적으로 "출석" 정보로 알려져 있다.

또한 이동장치(1400)는 실시간 통신 서버(1412)를 통하여 인스턴트 메시지를 송신 및 수신할 수 있다. 이들 메시지는 원격 사용자장치(1406)로 및 원격 사용자장치(1046)로부터 전달되고, 이 원격 사용자장치(1406)는 인스턴트 메시지 애플리케이션(1414)을 사용하여 메시지를 송신 및 수신한다. 이로 인하여, 원격 사용자는 예컨대 이동장치(1400)의 사용자에게 실시간 회의에 참석토록 요청할 수 있다.

원격 사용자는 실시간 회의 애플리케이션(1418)을 사용하여 실시간 회의를 설정할 수 있고, 실시간 회의 애플리케이션(1418)은 실시간 통신 서버(1412)에 의해 제공되는 서비스를 사용함으로써 다수의 고객이 오디오 및 비디오 신호를 전달할 수 있고 공유 문서를 조작할 수 있게 하여, 이동장치(1400) 상에서 행해지는 문서의 변동이 원격 사용자의 컴퓨팅장치(1406)의 디스플레이 상에 실시간으로 나타나게 된다.

이동장치(1400)는 무선접속을 사용하여 랩탑 컴퓨터(1420)와 통신할 수 있다 . 이동장치(1400)는 기도 마이크로폰 신호와 대체 센서 신호 양자 모두를 구비함으로써 얻어지는 향상된 음성 신호를 사용하여, 명령을 나타내는 음성 신호를 랩탑 (1420)으로 송신할 수 있다. 랩탑(1420)의 명령/제어 애플리케이션(1422)은 음성 신호를 네트워크 연결(1426)을 통하여 음성 인식 서버(1424)로 전달한다. 음성 인식 서버(1424)는 이 음성 신호를 텍스트로 변환하고, 이 텍스트를 명령/제어 애플리케이션(1422)으로 반환한다. 명령/제어 애플리케이션(1422)은 인식된 명령을 기반으로 하나 이상의 애플리케이션(1428)을 개시하고, 그들의 동작을 제어한다.

명령/제어 유닛(1422)을 통하여 개시된 애플리케이션들 중 하나는 이동장치의 사용자가 원격 사용자(1406)에 의해 개최되는 실시간 회의에 참석할 수 있도록 해주는 실시간 회의 애플리케이션을 포함할 수 있다. 랩탑(1420)은 네트워크 연결(1430)을 통하여 실시간 통신 서버(1412)와 통신할 수 있다. 사용자는 랩탑(1420)상에서 직접, 또는 이동장치(1400)를 통하여 음성 명령을 랩탑(1420)으로 발행함으로써 실시간 회의와 대화할 수 있다. 또한 랩탑(1420)은 이동장치(1400)에 의해 생성된 음성 신호를 실시간 통신 서버(1412)를 통하여 원격 사용자장치(1406)로 중계할 수 있으므로, 실시간 회의의 오디오 부분을 제공할 수 있다. 이동장치의 사용자는 실시간 회의 애플리케이션을 사용하여 원격 사용자와 오디오, 비디오 및 문서를 공유할 수 있다. 이것은 이동장치의 사용자와 원격 사용자 양자 모두가 실시간으로 동일한 문서를 조작할 수 있는 능력을 포함한다.

따라서 도 14의 블록도를 사용하면, 원격 사용자는 이동장치(1400) 휴대자가 비행기에 탑승하지 않고 아직 공항에 있는 지를 결정할 수 있다. 원격 사용자는 이동장치의 휴대자에게 실시간 회의에 참석하도록 요청하는 인스턴트 메시지를 이동장치(1400) 휴대자에게 송신할 수 있다. 이동장치 휴대자가 회의에 참석할 수 있을 때에는 그들의 랩탑(1420)을 작동시키고, 이동장치(1400)를 통하여 명령을 발생하고, 원격 사용자(1406)에 의해 설정된 실시간 회의에 참석할 수 있다. 회의 동안에, 사용자는 실시간 회의에 오디오 입력을 제공하기 위하여 이동장치(1400)를 통해 말할 수 있다. 음성이 이동장치(1400)에서 향상되므로, 랩탑(1420)으로 제공되는 명령은 보다 효율적으로 신뢰성있게 동작하며, 이동장치(1400)에 의해 제공되는 음성은 실시간 회의가 진행되는 동안에 보다 명료해진다.

도 15는 본 발명의 이동장치가 파견자(dispatcher)에 의해 사용되어, 한 명 이상의 근로자(workers)에게 작업(jobs)을 할당하고 근로자들에게 작업을 수행하는 데 필요한 정보를 제공하기 위하여 그들과 대화하는 다른 실시예를 도시한다. 특히, 파견자는 도 15에서 이동장치(1500)를 휴대한다. 파견자는 PBx 기지국(1502)을 통하여 이동장치(1500)와 통신하는 PBx 전화망(1504)상에서 고객으로부터 전화 호출을 받는다. 특히, PBx 기지국(1502)은 이동장치(1500)에 무선접속을 제공하고, 무선접속을 따른 통신을 PBx 전화망(1504)상에서 운송될 수 있는 아날로그 신호로 변환시킨다.

작업 요청을 수신한 후에, 파견자는 복수 분야의 근로자들 중에 작업가능하며 작업 장소에 가장 가까운 근로자를 결정한다. 작업가능한 근로자를 결정하기 위하여, 파견자는 명령/제어 유닛(1506)으로 제공되는 음성 명령을 발생하기 위하여 이동장치(1500)에게 말한다. 명령 제어 유닛(1506)은 이동장치(1500)내 제공되거나, 혹은 랩탑이나 퍼스널 컴퓨터와 같은 독립된 장치에 있을 수 있다. 명령/제어 유닛(1506)은 음성 신호를 하나 이상의 명령으로 변환시킨다. 일 실시예에서, 명령/제어 유닛(1506)은 음성 신호를 네트워크(1510)를 통하여 음성 인식 서버(1508)로 전달함으로써 이 변환을 수행한다. 음성 인식 서버(1508)는 이 음성 신호를 명령을 나타내는 텍스트로 변환하고, 이 텍스트를 명령/제어 유닛(1506)으로 반환한다.

근로자가 작업가능한지를 결정하기 위하여, 명령 제어 유닛(1506)으로 제공되는 명령은 출석 애플리케이션(1512)을 사용하여 각 근로자의 "출석" 상태를 검사하라고 명령될 것이다. 출석 애플리케이션은 네트워크 연결(1516)을 통하여 실시간 통신 서버(1514)와 통신한다. 실시간 통신 서버는 각 근로자의 출석 상태를 저장 및 갱신한다. 특히, 각 근로자는 이동장치(1518, 1520, 1522)와 같이 네트워크 연결(1524)을 통하여 실시간 통신 서버(1514)에 연결된 이동장치를 갖는다. 비록 도 15에서 단일 네트워크 연결(1524)이 도시되었지만, 각 이동장치는 상이한 네트워크 연결 및 심지어 상이한 유형의 네트워크 연결을 통하여 연결될 수 있음을 주목한다. 이동장치(1518, 1520, 1522)는 네트워크 연결(1524)을 통하여 이동장치와 관련된 각 근로자의 출석 상태를 갱신할 수 있다.

이들 근로자가 작업가능한 경우, 파견자는 이동장치(1500)를 사용하여 사람 위치확인 애플리케이션(1530)을 오픈하라는 음성 명령을 명령/제어부(1506)에 발행함으로써 각 근로자의 현재 위치를 알아낸다. 사람 위치확인 애플리케이션(1530)은 네트워크 연결(1532)을 통하여 위치기반 서버(1534)와 통신한다. 위치기반 서버(1534)는 네트워크(1536)를 통해 위치 정보를 수신함으로써 이동장치(1158, 1520, 1522)의 위치를 계속 추적한다. 네트워크(1536)는 휴대전화망을 포함할 수 있는데, 이동장치의 위치는 이동장치가 그 휴대전화망 내 어느 탑과 통신하는가에 따라 결정된다. 다른 실시예에서, 각 이동장치(1518, 1520, 1522)는 GPS 수신기를 포함할 수 있고, GPS 수신기에 의해 결정되는 위치 정보는 네트워크(1536)를 통하여 위치기반 서버(1534)로 전달될 수 있다.

사람 위치확인 애플리케이션(1530)에 의한 요청에 응답하여, 위치기반 서버(1534)는 각 이동장치에 대한 위치 정보를 제공할 수 있다. 이 위치 정보는 주소 형태로, 또는 지도상에 각 이동장치의 위치를 보여주는 그래픽 표현의 형태일 수 있다.

각 근로자의 위치를 기반으로, 파견자는 근로자들 중 하나를 선택하여 그 작업을 할당한다. 일 실시예에서, 파견자는 인스턴트 메시지 애플리케이션(1538)을 개시하기 위하여 및 네트워크(1516), 실시간 통신 서버(1514), 네트워크(1524)를 통하여 이동장치(1518, 1520, 1522)중의 하나에 도달하도록 라우팅된 인스턴트 메시지를 생성하기 위하여 명령/제어부(1506)를 통해 음성 명령을 발행함으로써 그 근로자에게 인스턴트 메시지를 송신한다. 다른 실시예에서, 파견자는 이동장치(1500) 및 명령/제어부(1506)를 통하여 명령을 발행함으로써 보조 애플리케이션(1540)을 개시하고, 이 보조 애플리에이션(1540)은 근로자와 관련된 이동장치의 전화번호를 알아내기 위하여 연락 데이터베이스(1542)를 액세스한다. 이동장치(1500)는 이 전화번호를 사용하여 휴대전화망(1544)을 통해 근로자의 이동장치에 연결된다. 파견자는 이 휴대전화 연결을 사용하여 근로자가 작업 장소로 향하도록 지시한다.

근로자가 작업 장소로의 방위를 필요로 하는 경우, 파견자는 방위 애플리케이션(directions application)(1546)을 예시하기 위하여 이동장치(1500)를 통해 음성 명령을 발행하는데, 이 방위 애플리케이션은 위치기반 서버(1534)를 사용하여 이동장치(1518, 1520, 1522)를 통해 근로자들 중 하나에게 방위를 제공한다. 특히, 위치기반 서버(1534)는 파견자에 의해 이동장치(1500)를 통해 제공되는 이동장치의 위치와 작업의 위치를 사용하여 근로자의 현재 위치로부터 작업 장소의 위치에 도달하기 위한 지도 및 운전 방위를 생성한다.

일단 근로자가 그 위치에 도달했으면, 근로자는 이동장치(1518, 1520, 1522)와 같은 이동장치를 사용하여 파견자와의 실시간 회의를 설정하고, 작업에 대한 내역을 수신할 수 있다. 이것은 파견자로 하여금 이동장치(1500)를 사용하여 실시간 회의 애플리케이션을 호출함으로써 성취될 수 있는데, 실시간 회의 애플리케이션은 실시간 통신 서버(1514)와 통신하여 프로젝트를 위한 계획 및 주문 형식과 같은 문서의 공유 및 실시간 협업을 가능하게 해준다.

본 발명의 다른 실시예에서, 이동장치는 다양한 통신 모드들 간에 전환을 할 수 있다. 예를 들어 도 16에서, 이동장치(1600)는 일 대 다수 원리로 다른 이동장치(1602, 1604)로 직접 정보를 방송할 수 있다. 예를 들면, 이동장치(1600)는 오디오, 비디오, GPS 위치 정보 및 맥박, 산소측정, 온도와 같은 건강 정보와 같은 정보를 이동장치(1602, 1604)에 제공할 수 있다. 이러한 통신 모드동안에, 이동장치(1604)는 이동장치(1600)로부터의 위치 정보를 사용하여, 이동장치(1600) 휴대자의 그래픽 표시된 위치를 얻을 수 있다. 일 특정 실시예에서, 이동장치(1604)는 네트워크(1610)로의 무선접속을 통하여 위치 정보를 이동장치(1600)로부터 위치기반 서버(1608)로 제공할 수 있다. 그 다음, 위치기반 서버(1608)는 위치 정보를 사용하여 이동장치(1604)로 반환할 지도를 생성할 것이다. 이러한 실시예에서, 네트워크(1610)로의 무선접속은 라우터, 퍼스널 컴퓨터 또는 랩탑 컴퓨터를 통하여 행해질 수 있다.

이동장치(1600)는 네트워크 연결(1612)을 통하여 전술한 피어투피어 통신(peer-to-peer communication)으로부터 하나 이상의 서버와의 통신으로 전환될 수 있다. 예를 들면, 이동장치(1600) 휴대자가 점검(workout) 중 부상자를 만나는 경우, 휴대자는 이동장치들과의 일 대 다수 통신으로부터 네트워크(1612)를 통한 통신으로 전환할 수 있다. 이동장치(1600) 휴대자는 네트워크 연결을 사용하여 웹 서버(1614) 상에 저장된 웹페이지에 접근할 수 있으며, 이 웹 서버(1614)는 네트워크(1612)에 연결되어 구조대(1616)의 위치를 알아내고 통신하게 해준다.

일단 구조대(1616)와 연락이 되면, 부상자의 구조를 돕기 위하여 이동장치(1600)로부터의 정보를 수집하도록 구조 애플리케이션(1600)을 개시할 수 있다. 이 정보는 이동장치(1600)로부터 네트워크(1612)를 통해 위치기반 서버(1618)로 제공되는 GPS 위치 정보를 포함할 수 있다. 구조 애플리케이션(1620)은 위치기반 서버(1618)로 이동장치(1600) 위치의 그래픽 표시를 입수하라는 요청을 송신할 수 있는데, 그럼으로써 구조대(1616)가 이동장치 휴대자의 위치를 알아내기가 보다 수월해진다. 또한 구조 애플리케이션(1620)은 실시간 통신 서버(1622)를 사용하여, 구조대의 현재 위치, 도착 예정시간 뿐만 아니라 부상자를 돌보기 위한 지시사항과 같은 정보를 이동장치(1600) 휴대자와 공유할 수 있다. 이들 지시사항은 부상자를 다루는 방식을 나타내는 영상뿐만 아니라 부상자의 이동장치(1600)에 의해 포착되는 영상을 포함할 수 있다.

또한 부상자가 이동장치(1624)와 같은 이동장치를 휴대하고 있는 경우, 부상자에 대한 상태 정보를 제공하기 위하여 이 휴대장치는 실시간 통신 서버(1622)를 통하여 회의에 포함될 수 있다. .

부상이 심각한 것으로 보이는 경우, 구조대는 원격 비상 애플리케이션(remote emergency application; 1628)을 사용하여 실시간 회의에 참석할 것을 병원(1626)의 의료팀에게 문의할 수 있다. 이 원격 비상 애플리케이션은 이동장치(1624)에 의해 제공되는 건강상태 정보를 수집할 수 있고, 의료팀이 구조대(1616)에게 시청각적 지시사항을 제공할 수 있게 해준다. 또한 원격 비상애플리케이션(1628)에 의해, 의료팀은 진단장비 및 수술실과 같은 환자를 돌보는 데 필요한 병원내 자원의 스케줄링을 시작할 수 있게 된다.

또한 본 발명의 이동장치는 게임 환경에서 사용되어 게임 내 팀 멤버들 및 적들과 통신할 수 있게 해준다. 도 17에 도시된 바와 같이, 이동장치(1704, 1706)를 각각 휴대한 플레이어(players)(1700, 1702)와 같은 플레이어들은 게임 기지국(1708)과 상호작용한다.

일 실시예에서, 원격 플레이어(1710)는 플레이어 목록 애플리케이션(1712)에 액세스함으로써 플레이어(1700)의 작업가능 여부를 결정하는데, 플레이어 목록 애플리케이션(1712)은 네트워크 연결(1713)을 통하여 실시간 통신 서버(1714)에 연결 되어 있어서 플레이어(1700)의 출석 또는 작업가능성을 결정하게 해준다. 플레이어(1700)가 작업가능하다고 실시간 통신 서버(1714)에 의해 표시되는 경우, 플레이어(1710)는 그 플레이어(1700)에게 게임에 참가하도록 요청하기 위하여 실시간 통신 서버(1714)를 통하여 이동장치(1704)로 인스턴트 메시지를 송신할 수 있다. 일 실시예에서, 이 게임은 게임 서버(1718)에 의해 제어되는데, 이 게임 서버(1718)는 네트워크(1720)를 통하여 게임 기지국(1708)으로 연결되고, 네트워크(1722)를 통해 플레이어(1710)로 연결된다.

게임 동안에, 플레이어(1700, 1702)로부터의 오디오 및 비디오가 각 이동장치(1704, 1706)에 포착되며, 무선접속을 통하여 게임 기지국/PC(1708)로 제공된다. 이 오디오 및/또는 비디오는 네트워크 연결(1720)을 통하여 게임 서버(1718)로 제공되며, 게임 서버(1718)에 의해 플레이어(1710)에게 전달된다.

일 실시예에서, 네트워크(1720)를 통해 배포되는 오디오 정보의 대역폭을 감소시키기 위하여, 이동장치(1704, 1706)는 그 이동장치와 관련된 플레이어가 말하는 동안에 발생되지 않은 모든 사운드를 필터링하여 제거한다. 특히, 이동장치는 이 이동장치의 대체 센서를 이용함으로써 플레이어가 실제로 말하고 있을 때를 판정할 수 있다. 플레이어가 말하지 않을 때, 이동장치는 어떠한 오디오 데이터도 전송하지 않는다. 그 결과, 방에 있는 다른 플레이어로부터의 음성 신호, 또는 게임국에 의해 발생되는 스피커(1724)를 통한 음성 신호는 이동장치(1704, 1706)에 의해 오디오 데이터로서 출력되지 않는다. 이것은 게임 기지국(1708)으로 송신되는 정보량을 감소시키고, 따라서 네트워크(1720)를 통과하는 정보량을 감소시킨다. 이동장치(1704, 1706)에 의해 출력되는 정보량을 감소시킴으로써, 본 발명은 이동장치들(1704, 1706)로 하여금 원치않는 오디오 데이터를 필터링 및 방송할 것을 요구하지 않음으로써 이동장치들의 전력 소비를 감소시킨다. 전력 소비를 절약하는 보다 직접적인 방식은 사용자가 말하지 않을 때에 (마이크로폰 내) 처리를 턴오프하는 것이다.

또한 본 발명의 이동장치는 차후 검토될 수 있는 보다 양질의 오디오, 특히 음성 신호를 기록 및 저장할 수 있게 해준다. 도 18은 오디오 및 비디오 데이터의 저장 및 검토를 가능하게 하는 시스템의 블록도를 제공한다.

도 18에서, 이동장치(1800)는 오디오/비디오 메모리 저장소(1802)에 국부적으로 오디오 및 비디오 데이터를 저장한다. 퍼스널 컴퓨터(1804)로의 무선접속을 사용함으로써, 메모리 저장소(1802)에 저장된 오디오 및 비디오 데이터는 PC(1804)로 다운로드되어 다운로드 데이터(1806)가 될 수 있다. 오디오 및 비디오 데이터가 오디오/비디오 저장소(1802)에 저장될 때, 이동장치(1800)는 오디오 및 비디오가 포착되었을 때의 시간 및 날짜를 표시하는 타임스탬프(time stamp)뿐만 아니라, 오디오 및 비디오 데이터가 수집되었을 시에 이동장치(1800)의 위치를 나타내는 위치스탬프를 포함한다. 일 실시예에서, 타임스탬프는 클럭(1801)으로부터 생성되며, 위치스탬프는 GPS 수신기(1803)에 의해 생성된다. 타임스탬프와 위치스탬프는 각 오디오 및 비디오 클립과 함께 다운로드 데이터(1806)로 다운로드된다.

타임스탬프를 사용하여, 시간기반 편성기(time-based organizer)(1808)는 시간을 기반으로 한 데이터를 편성하여 시간-편성 데이터(1810)를 형성할 수 있다. 위치기반 편성기(1812)는 데이터와 관련된 위치스탬프를 기반으로 오디오 및 비디오 데이터를 편성하여 위치-편성 데이터(1814)를 형성한다. 그러면, 사용자는 퍼스널 컴퓨터(1804)의 디스플레이를 사용하여 시간-편성 데이터(1810) 또는 위치-편성 데이터(1814)를 검토할 수 있다.

다운로드 데이터(1806)에서 오디오 데이터는 복사 애플리케이션(transcription application)(1816)에 의해 복사될 수 있다. 복사 애플리케이션(1816)은 오디오 데이터를 복사하기 위하여 음성 인식 서버(1818)를 사용할 수 있는 데, 이 음성 인식 서버(1818)는 퍼스널 컴퓨터(1804)상에 국부적으로 발견되거나 혹은 네트워크 연결(1820)을 통하여 퍼스널 컴퓨터(1804)에 연결될 수 있다. 복사 애플리케이션(1816)은 오디오 신호를 나타내는 오디오 데이터를 음성 인식 서버(1818)로 송신하고, 음성 인식 서버(1818)는 이 오디오 데이터를 텍스트로 변환한다. 그 후, 텍스트는 이 텍스트를 사용하여 사본(transcript)(1822)을 생성하는 복사 애플리케이션(1816)으로 반환된다. 이동장치(1800)는 음성 데이터를 수집하기 위하여 대체 센서와 기도 마이크로폰을 사용하므로, 음성 인식 서버(1818)에 의해 수행되는 인식은 상당히 개선되며, 사본(1822)은 이동장치(1800)에 의해 수집되는 실제 음성을 보다 잘 반영한다.

일단 사본(1822)이 형성되면, 사용자는 특정 대화의 위치를 알아내기 위한 키워드로서 사본(1822)들을 검색할 수 있는 검색 애플리케이션(1824)을 호출할 수 있다.

또한 본 발명의 이동장치는 이동장치를 휴대한 아이들과 노인들의 위치를 알 아내고 통신하는데 사용될 수 있다. 예를 들면, 도 19의 이동장치(1900)는 아이 또는 노인이 휴대한 것이다. 이동장치는 네트워크(1902)를 통하여 위치기반 서버(1904)로 GPS 위치 정보를 제공한다. 또다른 사용자는 퍼스널 컴퓨터(1906)를 사용하여 이동장치(1900) 휴대자에 대한 위치 정보를 얻기 위하여 위치기반 서버(1904)와 연락할 수 있다. 이 위치 정보는 지도 내 휴대자의 위치를 표시하는 지도의 그래픽 표현 또는 주소의 형태로 제공될 수 있다. 다른 사용자는 또한 이동장치(1900)와 통신하는 전화망(1910)을 통하여 전화(1908)를 가지고 이동장치 휴대자와 연락할 수 있다. 이러한 전화망의 예로서 휴대전화망을 들 수 있다. 대체 센서와 기도 마이크로폰 센서를 사용함으로써, 이동장치(1900)는 전화망(1910)을 통한 통신에 있어서 보다 나은 음성 신호를 제공한다. 이것은 특히 이동장치(1900) 휴대자가 아이거나 노인인 경우에 중요한데, 왜냐하면 아이와 노인의 음성 신호는 보다 낮은 진폭을 갖는 경향이 있고 그에 따라 잡음 환경에서의 식별이 좀 더 어렵기 때문이다.

또한 본 발명의 이동장치는 자동 번역 서비스를 개선하는 데 사용될 수 있다. 예를 들어 도 20에서, 이동장치(2000)는 이동장치(2002) 휴대자와 외국인 대화자(foreign speaker; 2004)로부터의 음성 입력을 수신한다. 휴대자(2002)가 이동장치를 휴대하고 있기 때문에, 이동장치(2000)는 휴대자(2002)에 의해 생성된 음성과 외국인 대화자(2004)에 의해 생성된 음성을 구별할 수 있다. 따라서 외국인 대화자(2004)에 의해 생성된 음성은 자동적으로 이동장치(2000)에 의해 네트워크 연결(2008)을 통한 번역 서버(2006)로 라우팅될 수 있다. 그 다음, 번역 서버 (2006)는 외국인 대화자(2004)에 의해 생성된 음성의 번역된 오디오 또는 번역된 텍스트를 반환할 수 있다. 따라서 휴대자(2002)는 이동장치(2000) 상의 디스플레이 또는 이동장치(2000) 상의 스피커를 사용하여 외국인 대화자(2004)의 음성 내용을 이해할 수 있다. 이동장치(2000)는 두 음성 신호를 자동적으로 분리할 수 있으므로, 번역이 보다 수월하게 이루어질 수 있다.

또한 이동장치(2000)는 이동장치(2000)에 의해 포착된 외국인 대화자의 외국 음성, 번역된 음성 또는 번역된 텍스트 및 비디오를 원격 사용자(2010)와 공유할 수 있다. 일 실시예에서, 이 정보는 실시간 통신 서버(2012)를 통하여 공유되는데, 네트워크 연결(2014)을 통해 원격 사용자(2010)에 연결되며 네트워크 연결(2008)을 통해 이동장치(2000)에 연결된다. 원격 사용자(2010)는 실시간 통신 서버(2012)를 통한 연결을 사용하여 외국인 대화자(2004)와 통화할 수 있고, 이동장치(2000) 상의 디스플레이를 통하여 외국인 대화자(2004)에게 비디오 데이터를 제공할 수 있다. 원격 사용자(2010)에 의해 제공되는 음성은 이동장치(2000)에 의해 번역 서버(2006)로 라우팅되어 외국인 대화자의 언어로 번역될 수 있다. 그 다음, 이 번역을 기반으로 한 오디오 신호가 이동장치(2000) 상의 스피커를 통하여 외국인 대화자에게 제공된다.

도 21은 자동 번역 서비스를 개선하기 위한 본 발명의 다른 실시예를 제공한다. 도 21에서, 이동장치(2100)는 이동장치 휴대자(2102)와 외국인 대화자(2104)로부터의 음성 입력을 수신한다. 휴대자(2102)가 이동장치를 휴대하고 있기 때문에, 이동장치(2100)는 휴대자(2102)에 의해 생성되는 음성과 외국인 대화자(2104) 에 의해 생성되는 음성을 구별할 수 있다. 따라서, 외국인 대화자(2104)에 의해 생성되는 음성은 이동장치(2100)와 다른 이동장치(2105) 사이의 통신에서 식별될 수 있다. 이동장치(2105)는 이동장치(2100)에 의해 외국인 대화자로부터 온 것으로 식별되는 음성 데이터를 취하여, 이를 네트워크 연결(2108)을 통하여 번역 서버(2106)로 제공할 수 있다. 그 다음, 번역 서버(2106)는 외국인 대화자(2104)에 의해 생성된 음성의 번역된 오디오 또는 번역된 텍스트를 반환할 수 있다. 따라서 휴대자(2102)는 이동장치(2100) 상의 디스플레이 또는 이동장치(2100) 상의 스피커를 사용하여 외국인 대화자(2104)의 음성 내용을 이해할 수 있다. 이동장치(2100)는 자동적으로 두 음성 신호를 분리할 수 있으므로, 번역이 보다 수월하게 이루어진다.

이동장치(2105)는 또한 이동장치(2100)에 의해 포착된 외국인 대화자의 외국 음성, 번역된 음성 또는 번역된 텍스트 및 비디오를 복수의 원격 사용자(2110, 2120, 2130)와 공유할 수 있다. 일 실시예에서, 이 정보는 실시간 통신 서버(2112)를 통하여 공유되는데, 실시간 통신 서버(2112)는 네트워크 연결(2114)을 통해 원격 사용자(2110, 2120, 2130)에 연결되며 네트워크 연결(2108)을 통해 이동장치(2105)에 연결된 된다. 원격 사용자(2110, 2120, 2130)는 실시간 통신 서버(2112)를 통한 연결을 사용하여 외국인 대화자(2104)와 통화할 수 있고, 이동장치(2100) 상의 디스플레이를 통하여 외국인 대화자(2104)에게 비디오 데이터를 제공할 수 있다. 원격 사용자(211, 2120, 2130)에 의해 제공되는 음성은 이동장치(2105)에 의해 번역 서버(2106)로 라우팅되어 외국인 대화자의 언어로 번역될 수 있다. 그 다음, 이 번역을 기반으로 한 오디오 신호가 이동장치(2100)의 스피커를 통하여 외국인 대화자에게로 제공된다.

또한 본 발명의 이동장치는 프린터, 가전, 미디어 레코더, 미디오 플레이어 및 자동차와 같은 다른 장치와 피어투피어 모드로 통신할 수도 있다. 도 22는 이동장치(2200)가 장치(2202, 2204, 2206)와 같은 다른 장치와 통신하는 것을 보여주는 도면이다.

특정한 일 실시예에서, 802.11 통신 프로토콜이 이동장치와 다른 장치간의 통신에 사용된다. 이동장치(2200)가 장치(2204, 2206)와 통신하지 않고 장치(2202)와 통신하는 것과 같이, 이동장치는 일대일 기반으로 다른 장치와 통신할 수 있다. 이동장치는 또한 그 이동장치 또는 다른 장치들 중 하나가 그 이동장치를 비롯한 다른 모든 장치와 통신하지만 다른 장치들은 서로 통신하지 않는 일 대 다수 구성으로 통신할 수도 있다. 예를 들면, 이동장치(2200)는 장치(2202, 2204)와 통신하지만, 장치(2202)는 장치(2204)와 통신하지 않는다. 또한 장치들은 모든 장치들 및 이동장치가 서로서로 통신할 수 있는 다수 대 다수 기반으로 통신할 수도 있다.

본 발명은 특정 실시예를 참조하여 기술되었지만, 당업자라면 본 발명의 사상 및 범주를 벗어나지 않고서도 형태 및 상세사항에서 변경을 행할 수 있음을 알 것이다.

본 발명은 음성을 나타내는 대체 센서 신호를 제공하는 대체 센서와 기도 마 이크로폰을 모두 포함하는 이동장치를 제공함으로써 잡음이 있는 환경에서도 사용하기에 좋을 정도로 음성 인식의 정확도를 개선시킨다.

Claims

이동장치(mobile device)로서,

음성의 부분(portion)을 나타내는(representative) 음파를 전기 마이크로폰 신호(electric microphone signal)로 변환하는 기도 마이크로폰(air conduction microphone);

상기 전기 마이크로폰 신호와 별개로 상기 음성의 부분을 나타내는 정보를 감지하고, 상기 음성의 부분을 나타내는 정보를 포함하는 전기 대체 센서신호(electric alternative sensor signal)를 제공하는 대체 센서(alternative sensor) - 상기 이동장치는 다른 이동장치들과 직접 통신하고, 상기 이동장치는 네트워크상의 서버와 통신하며, 상기 서버와의 통신에는 또 다른 컴퓨팅 장치와 공유되는 문서의 이미지에 대응되는 데이터, 비디오, 및 오디오가 포함되며, 상기 이동장치는 상기 서버로 명령어들을 전송하되, 상기 명령어들은 상기 서버로 하여금 상기 명령어들에 기초하여 상기 문서를 수정하게(modify) 명령하고, 상기 문서의 상기 수정에 따른 데이터를 상기 다른 컴퓨팅 장치로 제공하게 하도록 명령함 -

를 포함하는, 이동장치.
제1항에 있어서,

상기 이동장치의 위치를 표시하는 위치값(position value)을 생성할 수 있는 GPS(global positioning satellite) 수신기

를 더 포함하는, 이동장치.
제2항에 있어서,

상기 서버와의 통신은 상기 서버로 상기 위치값을 제공하는 것을 포함하는, 이동장치.
제1항에 있어서,

상기 서버는 음성 인식 프로그램을 탑재하고(host),

상기 서버와의 통신은 상기 서버로 오디오 데이터를 제공하는 것, 및 상기 서버로부터 인식된 텍스트를 수신하는 것을 포함하는, 이동장치.
제1항에 있어서,

상기 서버는 번역 프로그램을 탑재하고,

상기 서버와의 통신은 상기 서버로 하나의 언어의 내용을 제공하는 것과 상기 서버로부터 또 다른 언어로 된 번역을 수신하는 것을 포함하는, 이동장치.
제1항에 있어서,

상기 이동장치는 휴대전화를 포함하는, 이동장치.
제1항에 있어서,

상기 이동장치는 PDA(personal digital assistant)를 포함하는, 이동장치.
제1항에 있어서,

상기 이동장치는 더 나아가 또 다른 장치와 직접 통신하는, 이동장치.
이동장치에서 수행되는 방법에 있어서,

음성의 프레임을 나타내는 정보를 포함하는 기도 마이크로폰 신호를 수신하는 단계;

음성의 프레임을 나타내는 정보를 포함하는 대체 센서 신호를 수신하는 단계;

음성의 프레임에 대한 상기 기도 마이크로폰 신호와 음성의 프레임에 대한 상기 대체 센서 신호를 기반으로 향상된 무잡음 음성값(enhanced clean speech value)을 추정하는 단계; 및

상기 향상된 무잡음 음성값을 다른 이동장치로 직접 제공하는 단계; 및

네트워크 상의 서버와 상기 이동장치 사이에서 통신하는 단계

- 상기 이동장치는 상기 이동장치로부터 상기 서버로 전송된 데이터에 기초하여 텍스트를 하나의 언어에서 다른 언어로 번역하기 위해 상기 서버 상에 번역 서비스를 이용하도록 상기 서버에 명령하고, 상기 이동장치는 상기 서버로부터 오디오 신호를 나타내는 값을 수신하고 상기 오디오 신호는 상기 텍스트의 상기 번역을 나타냄 -

를 포함하는, 방법.
제9항에 있어서,

상기 향상된 무잡음 음성값을 다른 이동장치로 직접 제공하는 단계는, 상기 이동장치와 상기 다른 이동장치 간의 일대일 통신을 하는 동안 상기 향상된 무잡음 음성값을 제공하는 단계를 포함하는, 방법.
제9항에 있어서,

상기 향상된 무잡음 음성값을 다른 이동장치로 직접 제공하는 단계는, 상기 이동장치와 복수의 다른 이동장치 간의 일 대 다수 통신을 하는 동안 상기 향상된 무잡음 음성값을 제공하는 단계를 포함하는, 방법.
제9항에 있어서,

상기 향상된 무잡음 음성값을 다른 이동장치로 직접 제공하는 단계는, 복수의 이동장치들 간에 다수 대 다수 통신을 하는 동안 상기 향상된 무잡음 음성값을 제공하는 단계를 포함하는, 방법.
제9항에 있어서,

상기 이동장치와 컴퓨팅 장치들의 네트워크 간에 통신하는 단계

를 더 포함하는, 방법.
제9항에 있어서,

텍스트의 번역을 나타내는 상기 텍스트를 상기 서버로부터 상기 이동장치로 반환하는 단계

를 더 포함하는, 방법.
이동장치에서 수행되는 방법에 있어서,

음성의 부분을 나타내는 음파를 전기 마이크로폰 신호로 변환하기 위해 기도 마이크로폰을 이용하는 단계;

상기 음성의 부분을 나타내는 정보를 포함하는 전기 대체 센서신호를 제공하기 위해, 상기 전기 마이크로폰 신호와 별개로 상기 음성의 부분을 나타내는 정보를 감지하는 대체 센서를 이용하는 단계;

상기 이동장치가 다른 이동장치들과 직접 통신하는 단계; 및

상기 이동장치가 네트워크상의 서버와 통신하는 단계 - 상기 서버와의 통신에는 또 다른 컴퓨팅 장치와 공유되는 문서의 이미지에 대응되는 데이터, 비디오, 및 오디오가 포함되며, 상기 이동장치는 상기 서버로 명령어들을 전송하되, 상기 명령어들은 상기 서버로 하여금 상기 명령어들에 기초하여 상기 문서를 수정하게 명령하고, 상기 문서의 상기 수정에 따른 데이터를 상기 다른 컴퓨팅 장치에 제공하게 하도록 명령함 -

를 포함하는, 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제