KR100619215B1

KR100619215B1 - 마이크로폰, 커뮤니케이션 인터페이스 시스템

Info

Publication number: KR100619215B1
Application number: KR1020057003369A
Authority: KR
Inventors: 요시다까 나까지마; 마꼬또 쇼자까이
Original assignee: 아사히 가세이 가부시키가이샤; 요시다까 나까지마
Priority date: 2002-08-30
Filing date: 2003-09-01
Publication date: 2006-09-06
Also published as: DE60333200D1; EP1538865B1; EP1538865A4; JP3760173B2; KR20050057004A; US20050244020A1; CN1679371B; AU2003261871A1; EP1538865A1; WO2004021738A1; CN1679371A; JPWO2004021738A1

Abstract

마이크로폰으로 외부로부터 채취한 공기 전도의 통상 음성을 분석 대상으로 하는 휴대 전화나 음성 인식의, 분석 대상 자체가 갖는 결점을 개선하여, 개인 휴대 정보 단말기에 있어서, 훈련의 필요가 없으며, 인간의 문화 습관에 따른 새로운 휴대 단말 커뮤니케이션을 실현한다.

인간의 체표에 청진기형 마이크로폰을 장착시켜, 성대의 규칙 진동을 이용하지 않는 발화 행동(입의 움직임)에 수반하여 조음되는 비가청 중얼거림의 육체 전도의 진동음을 채취한다. 증폭된 비가청 중얼거림의 육체 전도의 진동음은 속삭임과 유사하며, 그 자체가 인간에게 청취 이해 가능하므로, 그대로 휴대 전화에 의한 통화에 이용할 수 있다. 또한, 비가청 중얼거림의 육체 전도의 진동음을 분석·파라미터화의 대상으로 함으로써, 일종의 무음성 인식을 실현하여, 개인 휴대 정보 단말의 새로운 입력 방법으로 한다.

마이크로폰, 음성 인식, 커뮤니케이션 인터페이스, 발화 행동, 무음성 인식

Description

마이크로폰, 커뮤니케이션 인터페이스 시스템{MICROPHONE AND COMMUNICATION INTERFACE SYSTEM}

본 발명은 마이크로폰, 커뮤니케이션 인터페이스 시스템에 관한 것으로, 특히 발성 기관의 운동에 수반하는 공진 필터 특성 변화에 따라 조음된, 성대의 규칙 진동을 수반하지 않고, 주위 사람에게 들리게 할 의도를 갖지 않는, 극히 소량의 호흡량(호기량 및 흡기량)을 수반하는, 비가청의 호흡음이 체내 연부 조직(육체 등)을 전도(이하, '육체 전도'라 함)하는 진동음(이하, '비가청 중얼거림'이라 함)을 채취하는 마이크로폰, 및 이를 이용한 커뮤니케이션 인터페이스 시스템에 관한 것이다.

휴대 전화의 급속한 보급은 전동차나 버스 등의 공공 교통 기관에서의 통화 매너의 문제를 일으키고 있다. 휴대 전화에 있어서도 과거의 아날로그 전화와 인터페이스의 기본적 구조는 같아서, 공기 전도의 음성을 채취하므로, 주위에 사람이 있는 환경에서 휴대 전화에 의해 통화를 하면, 주위 사람에게 폐를 끼치는 불합리가 있다. 전동차내에서 타인의 휴대 전화에 의한 대화를 듣게 되는 불쾌감은 누구나가 경험할 것이다.

그와 함께, 이것도 공기 전도의 본질적 결점으로서, 주위 사람에게 통화 내 용을 청취당하게 되어, 정보가 누설될 위험성도 있어, 퍼블리시티 컨트롤의 곤란성은 피할 수 없다.

또한, 상대가 배경 잡음이 큰 장소에서 통화하고 있는 경우, 공기 전도이므로, 배경 잡음이 혼입된 상대의 음성을 청취하기 어렵다는 문제도 있다.

한편, 음성 인식은 약 30년의 역사를 갖고 축적된 기술이며, 대어휘 연속 음성 인식 등에 의해, 그 인식율도 딕테이션으로 단어 인식율이 90% 이상을 초과하기 까지에 이르고 있다. 음성 인식은 착용형 컴퓨터 등의 개인용 휴대 정보 단말이나 로봇에 대해서, 특별한 습득 기술이 불필요하여 누구나 사용할 수 있는 입력 방법이며, 또한 오랜 기간 인간의 문화로서 익숙해져 온 음성 언어 문화를 직접 정보 발신에 이용하는 방법으로서 유망시되어 왔다.

그러나, 예전에는 아날로그 전화 시대부터, 또 음성 인식 기술 개발이 시작된 당초부터, 음성 입력 기술이 대상으로 해 온 것은, 항상 입에서 떨어진 위치에 있는 외부 마이크로폰으로부터 채취한 음이었다. 고지향성 마이크로폰을 이용하거나, 노이즈의 삭감에 하드웨어적, 소프트웨어적 연구가 축적되고 있다고는 해도, 오늘날에 이르기까지 전혀 변함없이, 입으로부터 방사되어 공기 전도되어 외부 마이크로폰에 도달한 음성을 항상 분석 대상으로 해 왔다.

이 공기 전도된 통상 음성을 분석 대상으로 해 온 음성 인식은 긴 개발의 역사를 가지고, 다루기 쉬운 제품도 개발되고, 실제로 명령(command) 인식 뿐만 아니라, 딕테이션에 있어서 조차, 정온한 환경에서 충분히 실용화되는 정밀도를 가지고 있음에도 불구하고, 일부 카 네비게이션에서의 이용을 제외하고, 현실의 장면에서 컴퓨터나 로봇에의 입력에 사용되고 있는 장면을 조우하는 경우는 적다.

이 같은 이유로서 생각해볼 수 있는 것은 우선 공기 전도의 근본적인 결점으로서, 외부 배경 잡음의 혼입을 피할 수 없는 점이 있다. 정온한 환경의 사무실에서 조차, 다양한 잡음이 예기치 않은 장면에서 발생하여, 오인식을 유발한다. 로봇의 체표 등에 집음 장치가 있는 경우, 음성으로서 일단 발하게 된 정보는 배경 잡음의 영향에 의해, 오인식되어 위험한 명령으로 변환되어 버리는 경우를 생각해 볼 수 있다.

반대로, 정온한 환경에서 사용할 때에 문제가 되는 것이 음성을 발하는 것은 주위에의 소음이 된다는 것이다. 사무실내에서 각자가 음성 인식을 이용하려고 하면, 방을 분할하지 않으면 어렵고, 현실적인 문제로 인하여 사용은 곤란하다.

또한, 이와 관계하여 일본 문화의 특징으로서, '그다지 입 밖에 내어서 말하지 않는다','입 밖에 내는 것은 겸연쩍다'라는 경향도 음성 인식의 보급을 저해하는 한 요인으로 생각할 수 있다.

개인용 휴대 정보 단말을 옥외나 탈 것 내에서 사용하는 기회가 비약적으로 증가하는 장래를 고려하면, 이 결점은 본질적으로 중요한 문제이다.

음성 인식 기술의 연구 개발은 현재와 같은 글로벌한 네트워크 환경이나 개인 휴대 단말을 상정하여 시작된 것은 아니었다. 앞으로 점차 무선화·착용형화가 일반적이 됨을 생각하면, 개인용 휴대 정보 단말기에서 음성 인식 결과의 육안 검사와 수정을 하고 나서, 정보를 무선·유선으로 보내는 편이 훨씬 안전하다.

상기와 같이, 외부 마이크로폰으로 채취한 공기 전도의 통상 음성 신호를 파 라메터화하여 분석 대상으로 하는 휴대 전화나 음성 인식에 있어서는, 잡음 혼입성, 잡음 발생성, 정보 누설성, 수정 곤란성 등 분석 대상 자체가 갖는 결점이 있다.

이들을 근본적으로 개선하여, 현재 및 근미래적으로 이용되는 개인용 휴대 정보 단말기에 있어서, 간편하고 훈련의 필요가 없고, 인간의 긴 문화 습관에 따른 새로운 입력 방법 및 그를 실현하는 디바이스의 제공이 요구되고 있다.

한편, 통상 음성 신호를 공기 전도 이외의 수단으로 채취하는 방법으로서, 골전도에 의한 방법이 알려져 있다. 골전도의 원리는 성대를 진동시켜 발성할 때에, 성대의 진동이 두개골에 전도되고, 더욱이 소용돌이 형상의 달팽이관(내이)에 전도되어, 달팽이관 내부의 림프액의 진동에 의해 생성되는 전기 신호가 청각 신경에 보내어져 뇌가 음을 인식한다는 것이다.

음이 두개골을 전도하는 골전도의 원리를 이용한 골전도 스피커는 음을 바이브레이터에 의한 진동으로 변환하여, 바이브레이터를 귀, 귀 주위의 뼈, 관자놀이, 유상 돌기 등에 접촉시켜 두개골에 전함으로써, 배경 잡음의 크기 환경에서 또는 고막이나 이소골에 이상이 있는 난청자, 고령자라도 알아 듣기 쉽도록 할 목적으로 이용되고 있다.

예를 들면, 일본 특허공개 소59-191996호 공보에는, 바이브레이터를 두개골의 유상 돌기 상에 접촉시켜, 골전도와 공기 전도 모두를 이용한 청음기에 관한 기술이 개시되어 있다. 그러나, 동 공보에 개시되어 있는 기술은 인간의 발성을 채취하는 방법에 대해서 개시한 것은 아니다.

일본 특허공개 소50-113217호 공보에는 입으로부터 방사된 공기 전도한 음을 마이크로폰으로 채취한 음과 결후의 위에 장착된 마이크로폰으로 채취한 음을, 각각 이어폰과 두개골의 유상 모양 돌기 상에 장착된 바이브레이터로부터 듣는 음향 재생 장치에 관한 기술이 개시되어 있다. 그러나, 동 공보에 개시되어 있는 기술은 유상 돌기 바로 아래에 마이크로폰을 장착하여, 인간의 발성을 채취하는 방법에 대해서 개시한 것은 아니다.

일본 특허공개 평4-316300호 공보에는 이어폰형 마이크로폰과 그를 이용한 음성 인식에 관한 기술이 개시되어 있다. 동 공보에 개시되어 있는 기술에서는 성대를 규칙 진동시켜 발성한 음성 및 치교음 등의 체내 음성의, 구강으로부터 비강을 거쳐, 더욱이 이관 및 고막을 통하여 외이도와 이갑개강으로 이루어지는 외이에 전해진 진동을 채취한다. 이로써, 잡음 혼입성, 잡음 발생성, 정보 누설성, 수정 곤란성을 피할 수 있으며, 중얼거림 정도가 작은 소리더라도 명료하게 채취할 수 있다고 주장하고 있다. 그러나, 동 공보에 개시되어 있는 기술에서는 성대를 규칙 진동시키지 않는 비가청 중얼거림이 채취 가능함은 명시하고 있지 않다.

일본 특허공개 평5-333894호 공보에는 성대를 규칙 진동시켜 발성한 음성 및 치교음 등의 인체 신호를 검출하는 진동 센서를 구비한, 이어폰형 마이크로폰과 그를 이용한 음성 인식에 관한 기술이 개시되어 있다. 동 공보에 개시되어 있는 기술에서는 진동 센서를 고정하는 부위로서, 귀 구멍, 귀 주변, 두부의 표면, 안면의 표면을 명시하고 있다. 이 진동 센서에 의해 채취된 인체 진동은 마이크로폰이 채취한 신호 중에서, 발성자 본인이 발성한 시간 구간의 신호만을 추출 유별하고, 추 출 유별된 신호를 음성 인식 장치에 입력할 목적에서만 이용되고 있다. 그러나, 동 공보에 개시되어 있는 기술에서는 인체 진동 자체를 음성 인식 장치의 입력으로서, 또 휴대 전화의 통화에 이용할 수 있음을 명시하고 있지 않다. 게다가, 성대를 규칙 진동시키지 않는 비가청 중얼거림을, 음성 인식 장치의 입력으로서, 또 휴대 전화의 통화에 이용할 수 있음을 명시하고 있지 않다.

일본 특허공개 소60-22193호 공보에는 통상의 공기 전도를 채취하는 마이크로폰 신호 중에서, 결후에 장착하는 목 마이크로폰이나 이어폰형 골전도 마이크로폰이 인체 진동을 검출한 시간 구간만의 신호를 추출 유별하고, 추출 유별된 신호를 음성 인식 장치에 입력하는 기술이 개시되어 있다. 그러나, 동 공보에 개시되어 있는 기술에서는 인체 진동 그 자체를 음성 인식 장치의 입력으로서, 또 휴대 장치의 통화에 이용할 수 있음을 명시하고 있지 않다. 게다가, 성대를 규칙 진동시키지 않는 비가청 중얼거림을, 음성 인식 장치의 입력으로서, 또 휴대 전화의 통화에 이용할 수 있음을 명시하고 있지 않다.

일본 특허공개 평2-5099호 공보에는 통상의 공기 전도를 채취하는 마이크로폰 신호를, 목에 장착하는 목 마이크로폰이나 진동 센서가 성대의 규칙 진동을 검출한 시간 구간을 유성, 성대의 규칙 진동을 검출하지 않으나 일정 레벨 이상의 에너지를 갖는 시간 구간을 무성, 에너지가 일정 레벨 이하인 시간 구간을 무음으로 판정하는 기술이 개시되어 있다. 그러나, 동 공보에 개시되어 있는 기술에서는 인체 진동 그 자체를 음성 인식 장치의 입력으로서, 또 휴대 전화의 통화에 이용할 수 있음을 명시하고 있지 않다. 게다가, 성대를 규칙 진동시키지 않는 비가청 중 얼거림을, 음성 인식 장치의 입력으로서, 또 휴대 전화의 통화에 이용할 수 있음을 명시하고 있지 않다.

본 발명의 목적은 음향적인 배경 잡음의 혼입이 없고, 주위 사람에게 비가청이므로 발성 내용이 청취되지 않아, 정보 누설의 컨트롤이 가능하고, 사무실 등의 정온한 환경을 손상하지 않고, 음성 정보의 전달이나 입력을 가능하도록 하고, 컴퓨터, 휴대 전화 나아가서는 착용형 컴퓨터 등의 개인용 휴대 정보 단말의 새로운 입력 인터페이스로 할 수 있는 마이크로폰, 커뮤니케이션 인터페이스 시스템을 제공하는 것이다.

본 발명에서는, 휴대 전화 등의 원격 회화 미디어에 의한 통화나 음성 인식에 의한 커맨드 제어 및 문자나 데이터 등의 정보 입력 등의 분야에 있어서, 주위 사람이 청취 가능한, 공기 전도에 의해 전해지는 음성(성대를 규칙 진동시켜 주위 사람에게 들리게 할 의도를 가지고 다량의 호기량을 수반하는 통상 음성, 성대를 규칙 진동시키나 주위 사람에게 들리게 할 의도를 가지지 않는 약간 적은 호기량을 수반하는 중얼거림, 성대를 규칙 진동시켜 주위 사람에게 들리게 할 의도를 가지고 약간 적은 호기량을 수반하는 작은 목소리, 성대를 규칙 진동시키지 않으나 주위 사람에게 들리게 할 의도를 가지고 약간 적은 호기량을 수반하는 속삭임를 포함한다)을 입에서 떨어진 위치에 있는 마이크로폰에 의해 채취하는 것은 아니고, 마이크로폰을 이개(耳介)의 후하방부의 두개골의 유상 돌기(귀 뒤의 다소 뼈가 튀어 나온 부분) 직하의 흉쇄유돌근상의 피부(이하, '유상 돌기 바로 아래'로 약칭한다)에 장착하여, 발성 기관의 운동에 수반하는 공진 필터 특성 변화에 의해 조음된 성대의 규칙 진동을 수반하지 않고, 주위 사람에게 들리게 할 의도를 가지지 않은, 극히 소량의 호흡량(호기량 및 흡기량)을 수반하는, 비가청인 호흡음의 체내 연부 조직(육체 등)을 전도(이하, '육체 전도'라 부름)하는 진동음(이하, '비가청 중얼거림'이라 부름)을 채취한다. 이렇게 함으로써, 음향적인 배경 잡음의 혼입이 없고, 주위 사람에게 비가청이므로 발성 내용이 청취되지 않아, 정보 누설의 컨트롤이 가능하여, 사무실 등의 정온한 환경을 손상하지 않고, 음성 정보의 전달이나 입력을 가능하도록 하고, 컴퓨터, 휴대 전화 나아가서는 착용형 컴퓨터 등의 개인용 휴대 정보 단말의 새로운 입력 인터페이스가 되는 것이다.

이를 위해, 본 발명의 제1 양상에 따른 마이크로폰은 이개의 후하방부의 두개골의 유상 돌기 바로 아래의 흉쇄유돌근상의 피부 표면에 장착되어, 발성 기관의 운동에 수반하는 공진 필터 특성 변화에 따라 조음된, 성대의 규칙 진동을 수반하지 않는, 외부로부터는 비가청인 호흡음의 체내 연부 조직을 전도하는 진동음인 비가청 중얼거림, 및 가청이지만 성대를 규칙 진동시키지 않는 속삭임, 작은 소리, 중얼거림 등을 포함하는 성대의 규칙 진동을 이용하여 발성하는 음성, 치교음, 혀차는 소리 등의 다양한 음성 중 적어도 하나를 채취하는 것을 특징으로 한다. 이로써, 비가청 중얼거림을 채취할 수 있어, 휴대 전화 등에서의 통화나 음성 인식 처리 등에 이용할 수 있다. 또한, 비가청 중얼거림 이외의 가청음도 단일의 장치로 채취할 수 있다.

본 발명의 제2 양상에 따른 마이크로폰은 제1 양상에 있어서, 상기 피부 표면에 장착된 진동판과, 상기 진동판에 흡착하는 흡반을 포함하는 것을 특징으로 한다. 이와 같이 구성함으로써, 진동판은 흡반의 고정과 미소 밀폐 공간 반향의 두 가지 역할을 담당하게 된다. 또한, 진동판 1매를 체표에 붙이는 것만으로, 흡반은 언제라도 착탈할 수 있게 된다.

본 발명의 제3 양상에 따른 마이크로폰은 제1 양상 또는 제2항에 있어서, 안경, 헤드폰, 귀걸이형 이어폰, 모자, 헬멧 등, 인간의 두부에 장착하는 두부 장착물과 일체로 구성되어 있는 것을 특징으로 한다. 두부 장착물과 마이크로폰을 일체화함으로써, 마이크로폰을 위화감 없이 장착할 수 있다.

본 발명의 제4 양상에 따른 커뮤니케이션 인터페이스 시스템은 제1 양상 내지 제3 양상 중 어느 한 양상의 마이크로폰과, 상기 마이크로폰에 의해 채취된 신호에 대해서, 신호 처리를 수행하는 신호 처리 장치를 포함하고, 상기 신호 처리 장치에 의한 처리 결과를 커뮤니케이션에 사용하도록 한 것을 특징으로 한다. 마이크로폰에 의해 채취된 비가청 중얼거림에 대응하는 신호에 대해서, 증폭 또는 변조 등의 가공을 수행하여, 이 가공된 진동음을 그대로 또는 파라미터화하여, 휴대 단말 등에 의한 커뮤니케이션에 사용할 수 있다. 휴대 전화에 이용한 경우에는, 주위에 사람이 있는 환경에서도 주위 사람에게 발성 내용을 청취당하지 않고 통화할 수 있다.

본 발명의 제5 양상에 따른 커뮤니케이션 인터페이스 시스템은 제4 양상에 있어서, 상기 신호 처리 장치는 상기 마이크로폰에 의해서 채취된 신호를 양자화하는 아날로그 디지털 변환부와, 상기 아날로그 디지털 변환부에 의한 양자화 결과에 대해서 가공을 수행하는 프로세서부와, 상기 프로세서부에 의한 가공 결과를 외부에 송출하는 송출부를 포함하는 것을 특징으로 한다. 이와 같이 함으로써, 예를 들면, 이동 전화망 내의 장치에 있어서, 상기 가공 결과 이루어진 진동음 그대로, 또는 파라미터화된 신호에 대해서 처리를 수행할 수 있어, 신호 처리 장치의 구성을 단순화할 수 있다.

본 발명의 제6 양상에 따른 커뮤니케이션 인터페이스 시스템은 제4 양상에 있어서, 상기 신호 처리 장치는 상기 마이크로폰에 의해 채취된 신호를 양자화하는 아날로그 디지털 변환부와, 상기 아날로그 디지털 변환부에 의한 양자화 결과를 외부로 송출하는 송출부를 포함하고, 상기 양자화 결과의 가공을 외부 장치에 있어서 수행하도록 한 것을 특징으로 한다. 이렇게 함으로써, 예를 들면, 이동 전화망 내의 장치에 있어서, 상기 양자화 결과에 대해서 처리를 수행할 수 있어, 신호 처리 장치의 구성을 단순화할 수 있다.

본 발명의 제7 양상에 따른 커뮤니케이션 인터페이스 시스템은 제5 양상에 있어서, 상기 신호 처리 장치는 상기 마이크로폰에 의해 채취된 신호를 양자화하는 아날로그 디지털 변환부와, 상기 아날로그 디지털 변환부에 의한 양자화 결과에 대해서 가공을 수행하는 프로세서부와, 상기 프로세서부에 의한 가공 결과에 대해서 음성 인식 처리를 수행하는 음성 인식부를 포함하는 것을 특징으로 한다. 이와 같이, 신호 처리 장치를 구성하면, 비가청 중얼거림에 대해서, 가공된 진동음 그대로의 신호, 또는 파라미터화된 신호의 음성 인식 처리를 수행할 수 있다.

본 발명의 제8 양상에 따른 커뮤니케이션 인터페이스 시스템은 제7 양상에 있어서, 상기 음성 인식부에 의한 음성 인식 결과를 외부로 송출하는 송출부를 더 포함하는 것을 특징으로 한다. 음성 인식 결과를, 예를 들면, 이동 전화망에 송출함으로써, 음성 인식 결과를 각종의 처리에 이용할 수 있다.

본 발명의 제9 양상에 따른 커뮤니케이션 인터페이스 시스템은 제5 양상에 있어서, 상기 송출부에 의해 송출된 상기 프로세서부에 의한 가공 결과에 대해서, 이동 전화망 내의 장치에 의해 음성 인식 처리를 수행하는 것을 특징으로 한다. 이와 같이 이동 전화망 내의 장치에 의해 음성 인식 처리를 수행함으로써, 신호 처리 장치의 구성을 단순화할 수 있다.

본 발명의 제10 양상에 따른 커뮤니케이션 인터페이스 시스템은 제5 양상에 있어서, 상기 신호 처리 장치가 수행하는 신호 처리는 상기 프로세서부가 가청의 음성으로 변조하는 변조 처리인 것을 특징으로 한다. 이와 같이 변조 처리함으로써, 휴대 전화 등에 의한 통화가 가능하게 된다.

본 발명의 제11 양상에 따른 커뮤니케이션 인터페이스 시스템은 제10 양상에 있어서, 상기 변조 처리는 상기 비가청 중얼거림에 성대의 기본 주파수를 부여함으로써, 성대의 규칙 진동을 수반하는 가청의 음성으로 변환하는 처리인 것을 특징으로 한다. 모핑 처리 등을 수행함으로써, 휴대 전화 등에 의한 통화가 가능하게 된다. 또한, 성대의 기본 주파수의 산출 방법은 잘 알려져 있는 포먼트(formant) 주파수와 기본 주파수의 상관 관계를 이용하여, 비가청 중얼거림의 포먼트 주파수로부터 기본 주파수를 추정하는 방법일 수도 있다.

본 발명의 제12 양상에 따른 커뮤니케이션 인터페이스 시스템은 제10 양상에 있어서, 상기 변조 처리는 성대의 규칙 진동을 수반하지 않는 비가청 중얼거림의 스펙트럼으로부터, 성대의 규칙 진동을 이용하여 발성된 가청의 음성의 스펙트럼으로 변환하는 처리인 것을 특징으로 한다. 가청의 음성의 스펙트럼으로 변환함으로써, 휴대 전화 등에 의한 통화에 이용할 수 있다.

본 발명의 제13 양상에 따른 커뮤니케이션 인터페이스 시스템은 제12 양상에 있어서, 상기 변조 처리는 비가청 중얼거림의 스펙트럼을 이용하여, 음성 인식 장치에 의해 음절, 반음절, 음소, 2연접 음소, 3연접 음소 등의 음성 단위의 인식을 수행하고, 인식된 음성 단위로부터 음성 합성 기술에 의해, 성대의 규칙 진동을 이용하여 발성된 가청의 음성으로 변환하는 처리인 것을 특징으로 한다. 이에 따라, 합성 음성을 이용한 통화 등이 가능하게 된다.

본 발명의 제14 양상에 따른 커뮤니케이션 인터페이스 시스템은 제4 양상 내지 제13 양상 중 어느 한 양상에 있어서, 상기 마이크로폰에 의해 채취되는 음성의 다이나믹 레인지의 크기에 부합하여, 입력 게인을 제어하는 것을 특징으로 한다. 그렇게 함으로써, 다이나믹 레인지의 크기에 부합하여, 적절히 신호 처리 할 수 있다. 입력 게인을 제어하려면, 공지의 자동 게인 제어의 아날로그 회로 또는 소프트웨어를 이용하면 된다.

본 발명의 제15 양상에 따른 커뮤니케이션 인터페이스 시스템은 제7 양상 또는 제8항에 있어서, 상기 음성 인식부는 상기 비가청 중얼거림, 및 가청이지만 성대를 규칙 진동시키지 않는 속삭임, 작은 소리, 중얼거림 등을 포함하는 성대의 규칙 진동을 이용하여 발성하는 음성, 치교음, 혀차는 소리 등의 다양한 음성 중 적어도 하나를 모델화한 음향 모델을 이용하여, 음성 인식 처리를 수행하는 것을 특징으로 한다. 이렇게 함으로써, 비가청 중얼거림 이외의 가청음에 대해서, 음성 인식을 적절히 수행할 수 있다. 이들 다양한 음성을 모델화한 음향 모델은 당업자라면 은닉 마르코프 모델에 의해 용이하게 구성할 수 있다.

요컨대 본 발명은 비가청 중얼거림(non-audible murmur; NAM)을 커뮤니케이션에 이용하는 것이다. 성대를 규칙 진동시키지 않고 발성된 비가청 중얼거림은 혀와 입술, 턱, 연구개 등 조음 기관의 발화 운동에 의해, 통상의 성대를 규칙 진동시키는 음성과 거의 동일하게, 그 공진 필터 특성의 변화에 의해 조음됨과 동시에, 육체 전도한다.

본 발명에서는, 유상 돌기 바로 아래에 미소 밀폐 공간의 반향을 이용한 청진기형 마이크로폰을 밀착하여 장착시킨다. 이로써 채취한 비가청 중얼거림의 육체 전도의 진동음을 증폭하여 청취하면, 속삭임과 유사한 인간의 음성으로서 변별 이해 가능하다. 게다가, 통상 환경에서는 반경 1m 이내의 타인에게도 청취되지 않는다. 이 공기 전도가 아닌 비가청 중얼거림의 육체 전도의 진동음을 분석·파라미터화의 대상으로 한다.

증폭된 이 육체 전도의 진동음은 그 자체가 인간에게 청취 이해 가능하므로, 그대로 휴대 전화의 통화에 이용할 수 있다. 또한, 모핑 처리하여 가청의 음성으로 가공한 후, 휴대 전화의 통화에 이용할 수도 있다.

또한, 종래 음성 인식에서 사용되어 온 은닉 마르코프 모델(Hidden Markov Model; 이하, HMM으로 약칭하는 경우가 있다)의 기술을 이용하여, 통상 음성의 음향 모델을 비가청 중얼거림의 육체 전도의 진동음의 음향 모델로 치환함으로써, 음성 인식이 가능하므로, 일종의 무음성의 인식을 실현할 수 있어, 개인 휴대 정보 단말의 새로운 입력 방법으로서 이용 가능하다.

이와 같이 본 발명은 비가청 중얼거림을 인간 대 인간, 인간 대 컴퓨터의 새로운 커뮤니케이션 인터페이스로서 제안하는 것이다.

도 1은 본 발명에 따른 커뮤니케이션 인터페이스 시스템을 휴대 전화 시스템에 적용한 경우의 구성을 나타낸 블록도이다.

도 2는 본 발명에 따른 커뮤니케이션 인터페이스 시스템을 음성 인식 시스템에 적용한 경우의 구성을 나타낸 블록도이다.

도 3은 본 발명에 따른 마이크로폰의 일례를 나타낸 외관도이다.

도 4는 본 발명에 따른 마이크로폰의 일례를 나타낸 종단면도이다.

도 5는 본 발명에 따른 마이크로폰의 장착 위치를 나타낸 도면이다.

도 6은 갑상 연골(결후)에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 7은 갑상 연골(결후)에 장착한 경우에 채취되는 진동음의 스펙트럼을 나타낸 도면이다.

도 8은 턱의 하면에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 9는 턱의 하면에 장착한 경우에 채취되는 진동음이 스펙트럼을 나타낸 도 면이다.

도 10은 이하선부(하악골의 각)에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 11은 이하선부(하악골의 각)에 장착한 경우에 채취되는 진동음의 스펙트럼을 나타낸 도면이다.

도 12는 측경부에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 13은 측경부에 장착한 경우에 채취되는 진동음의 스펙트럼을 나타낸 도면이다.

도 14는 유상 돌기 바로 아래에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 15 유상 돌기 바로 아래에 장착한 경우에 채취되는 진동음의 스펙트럼을 나타낸 도면이다.

도 16 유상 돌기 상에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 17 유상 돌기 상에 장착한 경우에 채취되는 진동음의 스펙트럼을 나타낸 도면이다.

도 18은 협골부(귀의 바로 앞의 측두부)에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 19는 협골부(귀의 바로 앞의 측두부)에 장착한 경우에 채취되는 진동음의 스펙트럼을 나타낸 도면이다.

도 20은 협부(입의 옆)에 장착한 경우에 채취되는 진동음의 파형을 나타낸 도면이다.

도 21은 협부(입의 옆)에 장착한 경우에 채취되는 진동음의 스펙트럼을 나타낸 도면이다.

도 22는 통상의 외부 마이크로폰으로부터 채음한 통상 음성, 통상의 외부 마이크로폰으로부터 채음한 속삭임, 본원 발명의 위치가 아닌 이하선 부위에 본원 발명에 따른 마이크로폰을 장착하여 채음한 비가청 중얼거림의 음성 파형과 스펙트럼의 비교를 나타낸 도면이다.

도 23은 본원 발명의 장착 위치로부터 체표 장착 청진기형 마이크로폰으로 채취한 비가청 중얼거림의 음성 파형, 스펙트럼, F0(성대의 규칙 진동에서 오는 기본 주파수)를 나타낸 도면이다.

도 24는 본원 발명의 장착 위치로부터 체표 장착 청진기형 마이크로폰으로 채취한 비가청 중얼거림의 스펙트럼과, 비가청 중얼거림 성향 모델에 따른 HMM 음성 인식 결과로부터 자동 레이블링한 결과를 나타낸 도면이다.

도 25는 비가청 중얼거림을 근거로 하여 작성한 HMM 음향 모델의 모노폰(혼합 정규 분포의 혼합수 16) 정의 파일의 모두부를 나타낸 도면이다.

도 26은 음향 모델을 대어휘 연속 음성 인식 시스템에 내장하여, 녹음한 비가청 중얼거림을 인식한 인식 결과를 나타낸 도면이다.

도 27은 자동 얼라인먼트·세그먼테이션 결과를 나타낸 도면이다.

도 28은 단어 인식 성능을 나타낸 표이다.

도 29는 안경과 마이크로폰을 일체화한 예를 나타낸 도면이다.

도 30은 헤드폰과 마이크로폰을 일체화한 예를 나타낸 도면이다.

도 31은 귀걸이형 이어폰과 마이크로폰을 일체화한 예를 나타낸 도면이다.

도 32는 모자와 마이크로폰을 일체화한 예를 나타낸 도면이다.

도 33은 헬멧과 마이크로폰을 일체화한 예를 나타낸 도면이다.

도 34는 커뮤니케이션 인터페이스 시스템의 변형예를 나타낸 블록도이다.

도 35는 커뮤니케이션 인터페이스 시스템의 다른 변형예를 나타낸 블록도이다.

도 36은 음성 인식 처리 기능을 갖는 커뮤니케이션 인터페이스 시스템의 변형예를 나타낸 블록도이다.

도 37은 도 36의 커뮤니케이션 인터페이스 시스템의 변형예를 나타낸 블록도이다.

다음에, 도면을 참조하여 본 발명의 실시 형태에 대해서 설명한다. 이하의 설명에 있어서 참조하는 각 도면에서는, 다른 도면과 동등 부분은 동일 부호로 나타내어져 있다.

또한, 일본어의 경우, 발성의 대부분은 호흡의 호기를 이용하여 이루어진다. 따라서, 이하에는 호기를 이용한 비가청 중얼거림을 대상으로 한 경우에 대해서 설명하나, 흡기를 이용한 비가청 중얼거림을 대상으로 한 경우도 마찬가지로 실시할 수 있다.

또한, 비가청 중얼거림은 타인에게 들리게 하는 것을 전제로 하지 않는다. 이 점에서 적극적으로 타인에게 들리게 하려고 하는 속삭임과는 다르다. 그리고, 본 발명에서는 비가청 중얼거림을 공기 전도는 이용하지 않고, 육체 전도에 의해 마이크로폰으로 채취함에 특징이 있다.

(휴대 전화 시스템)

도 1은 본 발명의 커뮤니케이션 인터페이스 시스템을 휴대 전화 시스템에 응용한 경우의 개략 구성도이다.

청진기형 마이크로폰(1-1)을 유상 돌기 바로 아래(1-2)에 접착하여 장착하고, 이어폰 또는 스피커(1-3)를 귀 구멍에 장착한다.

청진기형 마이크로폰(1-1) 및 이어폰(1-3)은 휴대 전화기(1-4)와 유선 또는 무선의 통신 수단으로 접속되어 있다. 이어폰(1-3) 대신에 스피커를 이용할 수도 있다.

무선 네트워크(1-5)는 예를 들면, 무선 기지국(51a, 51b)과, 기지국 제어 장치(52a, 52b)와, 교환기(53a, 53b)와, 통신망(50)을 포함하여 구성되어 있다. 본 예에서는 휴대 전화기(1-4)가 무선 기지국(51a)과 무선 통신하고, 또 휴대 전화기(1-6)는 무선 기지국(51b)과 무선 통신함으로써, 휴대 전화기(1-4)와 휴대 전화기(1-6) 사이에서 통화가 가능하게 된다.

인간이 성대의 규칙 진동을 이용하지 않고 발성한 비가청 중얼거림은 혀와 입술, 턱, 연구개 등 조음 기관의 발화 운동에 의해, 통상의 성대를 규칙 진동시켜 발성하는 음성과 대략 마찬가지로, 그 공진 필터 특성의 변화에 의해 조음됨과 동시에, 육체 전도의 진동음으로서 유상 돌기 바로 아래(1-2)에 도달한다.

유상 돌기 바로 아래(1-2)에 도달한 비가청 중얼거림(1-7)의 진동음은 그곳에 장착되어 있는 청진기형 마이크로폰(1-1)에 의해 채취되고, 마이크로폰 내의 콘덴서 마이크로폰에 의해 전기 신호가 되고, 이 신호가 유선 또는 무선의 통신 수단에 의해 휴대 전화기(1-4)로 송신된다.

휴대 전화기(1-4)에 송신된 비가청 중얼거림의 진동음은 무선 네트워크 (1-5)를 통하여 통화 상대가 갖는 휴대 전화기(1-6)에 송신된다.

한편, 통화 상대의 음성은 휴대 전화기(1-6), 무선 네트워크(1-5), 휴대 전화기(1-4)를 경유하여, 유선 또는 무선의 통신 수단에 의해 이어폰 또는 스피커(1-3)로 송신된다. 또한, 휴대 전화(1-4)로부터 직접 듣는 경우에는 이어폰(1-3)이 필요 없다.

이에 따라, 통화 상대와 대화할 수 있다. 이 때, 비가청 중얼거림(1-7)을 발성하고 있으므로, 예를 들면, 반경 1m 이내의 타인에게도 청취되지 않는다. 또한, 반경 1m 이내의 타인의 폐가 되는 일도 없다.

요컨대, 본 예에서는 마이크로폰과, 신호 처리 장치로서의 휴대 전화기를 조합하여, 커뮤니케이션 인터페이스 시스템을 구성하고 있다.

(음성 인식 시스템)

도 2는 본 발명의 커뮤니케이션 인터페이스 시스템을 음성 인식 시스템에 응용한 경우의 개략 구성도이다.

도 1의 경우와 마찬가지로, 청진기형 마이크로폰(1-1)을 두개골의 이개의 후하방부의 유상 돌기 바로 아래(1-2)의 체표에 접착하여 장착한다.

인간이 'こんにちは'라고 발성한 비가청 중얼거림(1-7)은 혀와 입술, 턱, 연구개 등 조음 기관의 발화 운동에 의해, 통상의 성대를 규칙 진동시키는 음성과 대략 마찬가지로, 그 공진 필터 특성의 변화에 의해 조음됨과 동시에, 육체 전도하여 진동음으로서 유상 돌기 바로 아래(1-2)에 도달한다.

유상 돌기 바로 아래(1-2)에 도달한 'こんにちは'의 비가청 중얼거림(1-7)의 진동음은 청진기형 마이크로폰(1-1)에 의해 채취되어, 유선 또는 무선의 통신 수단에 의해 개인용 휴대 정보 단말(2-3)에 송신된다.

개인용 휴대 정보 단말(2-3)에 송신된 'こんにちは'의 비가청 중얼거림의 진동음은 개인용 휴대 정보 단말(2-3)에 내장된 음성 인식 기능에 의해 'こんにちは'로 음성 인식된다.

음성 인식 결과인 'こんにちは'의 문자열은 유선·무선 네트워크(2-4)를 통하여 컴퓨터(2-5), 로봇(2-6) 등에 송신된다.

컴퓨터(2-5), 로봇(2-6) 등은 그에 대한 음성이나 화상의 응답을 생성하고, 그들을 유선·무선 네트워크(2-4)를 통하여 개인용 휴대 정보 단말(2-3)로 반신한다.

개인용 휴대 정보 단말(2-3)은 음성 합성이나 화상 표시의 기능을 이용하여, 인간에 대해서 그들의 정보를 출력한다.

이 때, 비가청 중얼거림을 발성하고 있으므로, 반경 1m 이내의 타인에게 청 취되지 않는다.

요컨대, 본 예에서는 마이크로폰과 신호 처리 장치로서의 개인용 휴대 정보 단말을 조합하여, 커뮤니케이션 인터페이스 시스템을 구성하고 있다.

(마이크로폰의 구성)

도 3은 본 발명의 골자로 하는 청진기형 마이크로폰(1-1)의 단면도이다. 체표면에서 육체 전도에 의해 전파(propagation)하는 미소한 진동을 감지하기 위해서는, 우선 집음 장치인 마이크로폰의 연구가 불가결했다. 의료용 막형 청진기를 이용한 실험에서, 두부가 있는 부위에 청진기를 대면, 호흡음이 청취 가능하며, 이에 발화 운동이 더해지면, 성대의 규칙 운동을 이용하여 발한 음성과 마찬가지로, 비가청 중얼거림의 호흡음이 성도의 공진 필터 특성으로 조음되어, 속삭임과 유사한 음성이 청취 변별 가능함을 알 수 있었다. 이 때문에, 이 막형 청진기의 미소 밀폐 공간의 반향을 응용한 방법이 유효하다고 판단했다.

체표에 효과적으로 밀착하는 방법과 24시간 장착 가능한 구조를 실현하기 위해, 도 3에 도시되어 있는 바와 같은 구성을 채용했다. 즉, 점착면이 있는 폴리에스테르제의 원형 진동판(3-3; 청진기의 막부에 해당)과, 이 진동판(3-3)에 흡착하는 흡반부(3-9)를 조합하여 이용하도록 했다. 흡반부(3-9)에는, 합성 수지 흡반(엘라스토머 수지; 3-2)이 설치되어 있다. 이 합성 수지 흡반(3-2)을 진동판(3-3)의 표면에 흡착한 상태로 마이크로폰으로서 이용한다.

진동판(3-3)은 흡반부(3-9)의 고정과 진동 전도의 두 가지 역할을 담당하고, 흡반의 고정과 미소 밀폐 공간 반향의 두 가지 역할을 담당한다. 이렇게 하면, 디 스포저블의 진동판의 1매를 체표에 붙이는 것만으로, 흡반부(3-9)는 언제라도 착탈 가능하다. 또한, 흡반부(3-9)의 몸체 부분은 콘덴서 마이크로폰(3-1)을 매립하기 위한 장소가 되고, 주위의 합성 수지가 방음의 역할도 한다. 또한, AV(audio-visual) 기기 진동 방지용의 특수 합성 고무를 사용한 방음 고무부(3-6)로 피복하고, 간극부(3-8)는 에폭시 수지 접착제로 메워서 방음성과 밀폐성을 증가시켰다.

이와 같이 구성된 마이크로폰은 체내의 미약한 진동을 외부로부터의 직접 잡음을 혼입시킴 없이 감지하므로, 상시 체표에 밀착시킬 수 있고, 또 의료용 막형 청진기의 미소 밀폐 공간의 반향의 원리를 이용하므로, 접착한 진동판과 흡반을 이용하여 미소 밀폐 공간을 만들어 낼 수 있다.

이 청진기형 마이크로폰은 경량이고 비용이 저렴하다. 발명자는 24시간 장착 실험을 행했으나, 박리되지 않고, 또한 휴대형 음악 기기의 헤드폰보다도 귀를 덮지 않으므로, 특별히 신경쓰이는 점은 없었다.

(마이크로폰 앰프)

콘덴서 마이크로폰(3-1)의 구동에 필요한 마이크로폰 앰프는 시판되는 모노럴 마이크로폰 앰프 키트를 이용하여 작성했다. 발명자는 담배 상자 크기의 별도 장치로서 마이크로폰 앰프를 작성하고, 여기로부터 컴퓨터의 디지털 샘플링용 음원 보드에 입력했다. 이들 부분은 소형화, 칩화, 무선화가 가능하며, 도 3 중의 간극부(3-8)나 방음 고무부(3-6)에 매립할 수 있다.

마이크로폰 앰프의 출력을 그대로 오디오 기기의 메인 앰프의 외부 입력에 접속하면, 비가청 중얼거림이 청취 가능하다. 발화 내용도 속삭임과 유사한 소리 로서 변별 이해 가능하다. 흉부에 장착하면, 호흡음, 심음이나 심잡음도 청취할 수 있어 청진기 대용으로 사용할 수 있음도 알 수 있었다. 이 비가청 중얼거림의 음성 신호는 성도 공진 필터 특성을 포함하므로, 현재의 휴대 전화의 음성 하이브리드 부호화 기술 PSI-CELP(Pitch Synchronous Innovation-Code Excited Linear Prediction) 방식 등으로 압축된 후에도, 기본 주파수 음원 파형을 부여해 줌으로써 이용할 수 있어, 통상 음성에 가까운 소리로 변환하여 들을 수도 있게 된다.

(마이크로폰의 장착 위치)

다음에, 청진기형 마이크로폰의 장착 위치는 도 4 및 도 5에 도시되어 있는 위치이다. 이하, 이에 대해서 다른 위치에 장착한 경우와 비교하여 설명한다.

턱 아래로부터 이하선부, 측경부에 이르기까지 비가청 중얼거림을 청취할 수 있는 부위는 많다. 갑상 연골(결후), 턱의 하면, 이하선부(하악골의 각), 측경부, 유상 돌기 바로 아래, 유상 돌기 위, 협골부(귀의 바로 앞의 측두부), 협부(입의 옆)에 청진기형 마이크로폰을 장착한 상태로, 비가청 중얼거림에 의해 '카키쿠케코 타치츠테토 빠삐뿌뻬뽀 바비부베보'로 발성한 경우의 파형 및 스펙트럼이 도 6 내지 도 21에 도시되어 있다.

(갑상 연골의 위에 장착)

청진기형 마이크로폰을 갑상 연골(결후)의 위에 장착한 경우의 파형도가 도 6, 스펙트럼이 도 7에 도시되어 있다.

도 6에 도시되어 있는 바와 같이, 큰 파워로 비가청 중얼거림의 진동음을 채취할 수 있으나, 모음에 비해 자음의 파워가 너무 강해서, 대부분 오버플로우된다( 도 7의 스펙트럼에서는 종선이 된다). 오버플로우를 일으킨 자음은 모두 폭발음으로 들려, 자음의 판별은 불가능하다. 마이크로폰 앰프의 게인을 내리면, 오버플로우는 피할 수 있으나, 도 7에 도시되어 있는 바와 같이, 모음의 스펙트럼에 5모음 고유의 포먼트(Formant)의 상이함을 관측할 수 없어, 청취하더라도 음운성이 불명료하다.

(턱의 하면, 이하선부, 측경부에 장착)

청진기형 마이크로폰을 턱의 하면에 장착한 경우의 파형도가 도 8, 스펙트럼이 도 9에 도시되어 있다. 청진기형 마이크로폰을 이하선부(하악골의 각)에 장착한 경우의 파형도가 도 10, 스펙트럼이 도 11에 도시되어 있다. 청진기형 마이크로폰을 측경부에 장착한 경우의 파형도가 도 12, 스펙트럼이 도 13에 도시되어 있다.

청진기형 마이크로폰을 턱의 하면, 이하선부, 측경부에 장착한 경우, 도 8, 도 10, 도 12에 도시되어 있는 바와 같이, 음성 파형이 오버플로우하는 일이 많고, 오버플로우하지 않도록 마이크로폰 앰프의 게인을 조정하는 것이 곤란하다. 자음의 진폭이 오버플로우하기 쉽고, 모든 자음의 진폭의 오버플로우를 피하기 위해서는, 마이크로폰 앰프의 게인을 상당히 축소해야만 한다. 게인을 좁히면, 도 9, 도 11, 도 13에 도시되어 있는 바와 같이, 모음의 포먼트의 에너지가 약해져서, 모음의 식별이 곤란해 진다. 자음의 진폭이 완전히 진동한 자음은 잘 들으면 역시 파열음에 가까운 음이 되어 있어, 알고 있는 문장이라면 알아 들을 수 있으나, 미지문에서는 알아 들을 수 없는 것이 많다.

(유상 돌기 바로 아래에 장착)

청진기형 마이크로폰을 유상 돌기 바로 아래에 장착한 경우의 파형도가 도 14, 스펙트럼이 도 15에 도시되어 있다.

도 14에 도시되어 있는 바와 같이, 다른 부위와 명백하게 다른 유일 게인을 상당히 올리더라도 자음이 완전히 진동하지 않으므로, 마이크로폰 앰프의 게인 조절로 고생하지 않아도 된다. 또한, 다른 부위와 비교하여 들으면, 자음도 모음도 명료성이 두드러져 있다.

(유상 돌기 상에 장착)

청진기형 마이크로폰을 유상 돌기 상에 장착한 경우의 파형도가 도 16, 스펙트럼이 도 17에 도시되어 있다.

도 16에 도시되어 있는 바와 같이, 도 14의 경우와 비교하여, 자음도 모음도 명료성은 그다지 변함이 없으나, 파워가 명백하게 저하된다. 군데 군데 들어있는 노이즈는 머리카락의 노이즈이다. 청진기형 마이크로폰의 진동판이 머리카락에 걸려버리므로, 머리카락의 노이즈가 들어가기 쉽다.

(협골부에 장착)

청진기형 마이크로폰을 협골부(귀의 바로 앞의 측두부)에 장착한 경우의 파형도가 도 18, 스펙트럼이 도 19에 도시되어 있다.

도 18 및 도 19에 도시되어 있는 바와 같이, 유상 돌기 바로 아래와 마찬가지로 명료성도 모음 자음의 파워비도 좋으나, 턱의 움직임에 따른 노이즈가 들어간다. 이 노이즈의 영향을 경감할 수 있으면, 협골부(귀의 바로 앞의 측두부)도 유 상 돌기 바로 아래에 이어 적합한 장착 장소라 할 수 있다.

(협부에 장착)

청진기형 마이크로폰을 협부(입의 옆)에 장착한 경우의 파형도가 도 20, 스펙트럼이 도 21에 도시되어 있다.

도 20에 도시되어 있는 바와 같이, 입의 움직임에 따른 잡음이 들어가기 쉽고, 자음의 진폭이 오버플로우하는 일이 많다. 단, 제3(드물게 제4) 포먼트가 나오는 경우가 있는 것은 이 부위이다.

(장착 결과에 대한 검토)

전술한 바와 같이, 청진기형 마이크로폰을 갑상 연골(결후), 턱의 하면, 이하선부(하악골의 각), 측경부, 협부(입의 옆)에 장착한 경우는, 마찰음이나 파열음 등의 자음은 육체 전도했을 때의 파워가 매우 크고, 모두 파열음으로 들리게 되는 경우가 많다. 반하여 모음, 반모음은 성도의 공기의 공명 구조의 차이에 따라 변별되므로, 그 육체 전도의 파워는 작다. 실제로 이들의 부위에 청진기형 마이크로폰을 장착하여 채취한 음으로 음향 모델을 작성하더라도, 모음은 비교적 양호하게 인식하나, 자음에 대해서는 거의 변별 불능한 인식 시스템 밖에 될 수 없었다.

한편으로, 청진기형 마이크로폰을 유상 돌기 상, 협골부(귀의 바로 앞의 측두부)에 장착한 경우는 자음의 진폭이 오버플로우하는 일은 없으나, 일반적으로 골전도는 육체 전도에 비하여, 진동이 전달되기 어렵고, 소리가 작아져서, 신호와 잡음의 비가 낮아진다.

청진기형 마이크로폰을 유상 돌기 바로 아래에 장착하여 채취한 도 14의 파 형의 신호 잡음비와, 유상 돌기 상에 장착한 도 26의 파형의 신호 잡음비를 계측하면, 각각 19데시벨, 11데시벨이다. 이 때문에, 양자간에는 8데시벨이라는 큰 차가 있었다. 이 차는 무상 배포의 일본어 딕테이션 기본 소프트웨어의 음성 인식 엔진 Julius(2만 단어 규모)에서는 30%의 성능 향상(60%에서 90%)에 상당하여, 극히 큰 차이다.

이상에서 자음의 피크 파워와 모음의 피크 파워의 비율이 값 '1'에 가장 가까워지는 부위는 다양한 부위의 음성 인식율을 비교한 결과, 유상 돌기 바로 아래여야만 한다는 결론에 달했다.

(유상 돌기 바로 아래)

도 4를 이용하여 그 부위의 장소를 보다 상세하게 설명한다.

청진기형 마이크로폰(1-1)의 진동판의 중심이 이개의 후하방, 두개골의 유상 돌기(4-12)의 직하의 부위(4-13)에 위치한 케이스가 자음·모음 파워비의 최적 위치였다.

마찬가지로, 도 5에는 청진기형 마이크로폰을 장착하는데 최적인 유상 돌기 바로 아래의 부위가 이중 동그라미로 나타내어져 있다.

이 최적인 장착 부위는 머리카락이나 수염 등의 체모가 없는 장소이며, 장발인 경우에는 이개와 머리에 완전히 숨겨진다. 또한, 이 최적인 장착 부위는 다른 부위와는 달리, 연부 조직(육체 등)이 두껍고, 혀나 입술, 턱, 연구개 등의 조음 기관의 발화 운동의 움직임에 부수하는 잡음이 전혀 혼입되지 않는 장소이다. 더욱이, 체내 내부에 뼈가 존재하지 않는 간극의 위에 위치하고, 비가청 중얼거림의 진동음을 큰 게인으로 취득할 수 있다.

종래 의사는 청진기를 인체의 체표에 장착시켜 체내음을 청취할 때는, 뼈가 체내음을 내부에 반사시키는 사실에 근거하여, 가능한 한 뼈를 피하여 체표에 장착하는 것을 통상적으로 해오고 있다. 이들로부터, 도 4 및 도 5에 도시되어 있는 부위가 청진기형 마이크로폰을 장착시키는데 최적인 부위라는 결론을 얻었다.

(통상 음성, 속삭임, 비가청 중얼거림의 파형과 스펙트럼)

도 22에는 통상 음성, 속삭임(양자 모두 외부 마이크로폰 사용), 본원 발명의 위치가 아닌 일반의 비가청 중얼거림(자작 마이크로폰 체표 밀착 사용)에 대한 음성 신호와 스펙트럼이 도시되어 있다. 이는 이하선 부위에 마이크로폰을 장착하여 비가청 중얼거림을 채취한 것인데, 모음에 포먼트를 추출하기까지 볼륨을 올리면, 자음의 음성 신호의 파워가 완전히 진동되는 경우가 많다.

도 23 및 도 24에는 도 4에 도시되어 있는 최적 위치에 장착한 마이크로폰으로부터 채취한 비가청 중얼거림의 음성 신호와 스펙트럼이 도시되어 있다. 도 23을 참조하면, 비가청 중얼거림은 성대의 규칙 진동에 따른 기본 주파수 F0가 거의 출현하지 않고, 음운적 특징을 포함하는 저주파역의 포먼트 구조가 비교적 잘 유지되어 있음을 알 수 있다.

이와 같이 하여 채취한 남성 1명의 비가청 중얼거림을 이용하여, 음소 밸런스가 잡힌 예문을 4회씩 입 속에서 소리 내어 읽어 16kHz, 16bit로 디지털화하여 수록했다. 예문은 ATR 음성 변역 통역 연구소에 의한 ATR(Advanced Telecommunication Research) 음소 밸런스문 503문+추가 22문으로 했다.

본 예에서는 합계 2100 샘플의 raw 파일 데이터를 이용하여, 은닉 마르코프 모델 툴인 HTK(HMM Toolkit)를 사용했다. 그리고, 통상 음성 인식과 마찬가지로, 프레임 주기 10ms이고, 12차원 멜-켑스트럼(Mel-cepstrum)과 그 1차 차분 12개, 파워 1차 차분 1개의 합계 25파라미터를 추출하고, 모노폰 음성 인식용 음향 모델을 작성했다. 이 작성한 모노폰 음성 인식용 음향 모델의 예가 도 25에 도시되어 있다.

모노폰 모델이지만, 혼합 정규 분포의 혼합수를 16으로 늘리면, 비약적으로 인식율이 높아지고, 무상 배포의 일본어 딕테이션 기본 소프트웨어의 음성 인식 엔진 Julius(http://julius.sourceforge.jp/)의 음향 모델을 이와 치환하면, 녹음한 비가청 중얼거림으로 성별 비의존 통상 음성 모노폰 모델과 큰 차이 없는 단어 인식율을 얻을 수 있었다.

(음성 인식 결과의 예)

도 26에는 녹음 음성의 인식 결과예가 나타내어져 있다. 또한, 도 27에는 자동 음소 얼라인먼트 예가 나타내어져 있다. 또한, 도 24 중의 스펙트럼의 하단에 있는 음소 레이블은 이 자동 얼라인먼트·세그먼테이션의 결과로 표시한 것이다.

마찬가지로 남성 1명의 비가청 중얼거림으로 발성한 음소 밸런스문이나 신문 기사문 등을 약 4600 문장 수록하고, 불특정 남성 화자 통상 음성 모노폰 모델(5상태, 16혼합 정규 분포)을 초기 모델로서 연결 학습을 수행했다. 이를 Julius에 내장하여, 음향 모델 이외의 조건을 전혀 바꾸지 않고 사용한 경우의 단어 인식 성능 이 도 28에 도시되어 있다. 동 도면에 있어서, 1행째의 'CLEAN'은 조용한 실내에서의, 2행째의 'MUSIC'은 실내에서 클래식 음악의 BGM을 통상 음량으로 튼 경우의, 그리고, 3행째의 'TV-NEW'는 역시 실내에서 통상의 청취 음량으로 텔레비젼 뉴스를 튼 경우의 인식 결과이다.

조용한 실내에서는, 94%로 통상 음성에 떨어지는 단어 인식 성능을 얻을 수 있었다. 또한, 음악이나 TV음이 존재하는 경우에도, 각각 91%, 90%으로 높은 인식 성능을 얻을 수 있었으며, 공기 전도의 통상 음성에 비하여, 육체 전도의 비가청 중얼거림은 배경 잡음에도 비교적 강함을 알 수 있다.

청진기형 마이크로폰(1-1)의 흡반의 구멍의 실링이나 볼륨 등의 미조정에 의해, 통상 음성도 상기의 장착 부위로부터 채취할 수 있다. 이 때, 발성자의 바로 옆에서 제3자가 낭독 등을 행하더라도, 발성자의 음성은 공기 전도가 아닌 육체 전도이므로, 녹음된 음성에는 발성자 본인의 음성 밖에 기록되지 않는다.

청진기형 마이크로폰으로 픽업하는 비가청 중얼거림나 통상 음성은 그것을 사용하는 개인의 음향 모델을 학습하기만 하면 된다는 이점도 있다. 이상과 같이 이 체표 장착 청진기형 마이크로폰은 통상 음성 인식의 무잡음 마이크로폰으로서도 사용 가능하다.

지금까지 청진기형 마이크로폰을 유상 돌기 바로 아래에 장착하고, 비가청 중얼거림을 채취하고, 마이크로폰으로 증폭하여, 휴대 전화에서의 통화에 이용하는 방법 및 음성 인식 장치에 의한 음성 인식에 이용하는 방법에 대해 설명을 거듭해 왔다.

(음의 변조)

여기에서, 음의 변조에 대해서 설명한다. 음의 변조란 일반적으로 음의 청감상의 상태, 음질을 바꾸는 것을 말한다. 최근의 음성의 연구에서는, 모핑이라는 말이 변조의 의미로 사용되는 경우가 많다. 예를 들면, 음의 기본 주파수를 올리거나 내리거나, 포먼트 주파수를 올리거나 내리거나, 남자 목소리에서 여자 목소리, 또는 여자 목소리에서 남자 목소리로 연속적으로 변화시키거나, 또는 남자 목소리에서 다른 남성의 목소리로 연속적으로 변화시키거나 하는 기술의 총칭으로서, 모핑이라는 말이 사용되고 있다.

모핑의 기술로서, 각종의 방법이 제안되고 있으나, 대표적인 방법으로서는, 카와하라에 의한 STRAIGHT(카와하라 외, 신학 기법, EA96-28,1996)가 알려져 있다. 이 방법은 음의 음원 정보와 성도 정보를 정확히 분리함으로써, 기본 주파수(F0), 스펙트럼 포락, 발성 속도 등의 파라미터를 독립적으로 변화시킬 수 있는 점에 특징이 있다.

본 발명에 따르면, 도 22∼도 24에 도시되어 있는 바와 같이, 비가청 중얼거림의 스펙트럼이 산출 가능하며, 스펙트럼으로부터 스펙트럼 포락이 산출 가능하다.

도 22에 도시되어 있는 바와 같이, 동일의 문장에 대해서 성대의 규칙 진동을 이용하는, 가청의 통상 음성과 비가청 중얼거림의 두 가지의 말하기 방법으로 수록해 두고, 비가청 중얼거림의 스펙트럼으로부터 통상 음성의 스펙트럼으로의 변환 함수를 미리 구해 두는 것은 당업자라면 가능하다.

또한, 기본 주파수를 적절히 부여하면, 상기의 STRAIGHT 등의 방법에 의해, 비가청 중얼거림을 가청의, 보다 청취하기 쉬운 음성으로 변조할 수 있다.

또한, 본 발명에 따르면, 도 28에 도시되어 있는 바와 같이, 비가청 중얼거림을 음성 인식할 수 있다. 따라서, 비가청 중얼거림의 음성 인식 결과로부터 음절, 반음절, 음소, 2연접 음소, 3연접 음소 등의 음성 단위를 인식할 수 있으며, 음소 인식 결과로부터 공지의 텍스트로부터의 음성 합성 기술에 의해, 보다 청취하기 쉬운 음성으로 변조할 수도 있다.

(응용예)

이상은 마이크로폰만을 유상 돌기 바로 아래에 장착하는 경우에 대해서 설명했으나, 이것으로는 마이크로폰이 외부로부터 노출되므로, 외관상 위화감이 있다. 따라서, 마이크로폰을 안경, 헤드폰, 귀걸이형 이어폰, 모자, 헬멧 등 인간의 두부에 장착하는 두부 장착물과 일체로 구성할 수도 있다.

예를 들면, 도 29에 도시되어 있는 바와 같이, 안경(31)의 귀에 거는 줄부 (31a)의 단부에 마이크로폰(1-1)을 설치할 수도 있다.

또한, 도 30에 도시되어 있는 바와 같이, 헤드폰(32)의 귀 닿음부(32a) 내에 마이크로폰(1-1)을 설치할 수도 있다. 마찬가지로, 도 31에 도시되어 있는 바와 같이, 귀걸이형 이어폰(33)의 귀에 거는 줄부(33a)의 단부에 마이크로폰(1-1)을 설치할 수도 있다.

또한, 도 32에 도시되어 있는 바와 같이, 모자(34)와 마이크로폰(1-1)을 일체로 구성할 수도 있다. 마찬가지로, 도 33에 도시되어 있는 바와 같이, 헬멧(35) 과 마이크로폰(1-1)을 일체로 구성할 수도 있다. 이들과 마이크로폰을 일체화함으로써, 작업 현장이나 공사 현장에서 위화감 없이 마이크로폰을 사용할 수 있어, 비록 주위의 잡음이 큰 경우에도, 양호한 통화가 가능하게 된다.

이상과 같이, 각종의 두부 장착물과 마이크로폰을 일체화하면, 마이크로폰을 위화감 없이 장착할 수 있다. 게다가, 마이크로폰의 배치를 연구하면, 마이크로폰을 유상 돌기 바로 아래에 적절히 장착할 수 있다.

(변형예)

이하, 본 발명의 커뮤니케이션 인터페이스 시스템의 변형예에 대해서 설명한다.

도 34는 마이크로폰과 휴대 단말 사이에 신호 처리 장치를 설치한 변형예를 나타낸 블록도이다. 동 도면에 있어서, 신호 처리 장치(19-2)는 아날로그 디지털 변환기(19-3)와, 프로세서(19-4)와, 송출기(19-5)가 일체화된 구성이다.

이와 같은 구성에 있어서, 마이크로폰(1-1)에서 채취된 비가청 중얼거림의 진동음은 아날로그 디지털 변환기(19-3)에서 채취되어 양자화되어, 다지털 신호로 변환된다. 이 양자화 결과인 디지털 신호는 프로세서(19-4)에 보내어진다. 프로세서(19-4)는 아날로그 디지털 변환기(19-3)로부터 보내어진 디지털 신호에 대해, 증폭 또는 변환 등의 가공을 실시한다. 이 가공 결과는 송출기(19-5)로 보내어진다. 송출기(19-5)는 프로세서(19-4)에서 가공된 디지털 신호를 유선 또는 무선 중 어느 하나의 방법으로 휴대 전화기(1-4)에 대해서 송출한다. 또한, 이 신호 처리 장치(19-2)는 당업자라면 용이하게 작성할 수 있다. 이렇게 함으로써, 예를 들면, 이동 전화망 내의 장치에 있어서, 상기 가공 결과 이루어진 진동음 그대로, 또는 파라미터화된 신호에 대해서 처리를 수행할 수 있어, 신호 처리 장치의 구성을 단순화할 수 있다.

또한, 도 35도 마이크로폰과 휴대 단말 사이에 신호 처리 장치를 설치한 변형예를 나타낸 블록도이다. 동 도면에 있어서, 신호 처리 장치(19-2)는 아날로그 디지털 변환기(19-3)와, 송출기(19-5)가 일체화된 구성이다.

이와 같은 구성에 있어서, 마이크로폰(1-1)에서 채취된 비가청 중얼거림의 진동음은 아날로그 디지털 변환기(19-3)에서 채취되어 양자화되어, 디지털 신호로 변환된다. 이 양자화 결과인 디지털 신호는 송출기(19-5)로 보내어진다. 송출기(19-5)는 아날로그 디지털 변환기(19-3)에서 변환된 디지털 신호를 유선 또는 무선 중 어느 하나의 방법으로 휴대 전화기(1-4)에 대해서 송출한다. 이와 같이 구성하면, 채취되는 진동음의 가공을 휴대 전화 또는 휴대 전화의 기지국에서 수행할 수 있다. 이 때문에, 신호 처리 장치(19-2)의 구성을 단순화할 수 있다. 또한, 이 신호 처리 장치(19-2)는 당업자라면 용이하게 작성할 수 있다. 이렇게 함으로써, 예를 들면 이동 전화망 내의 장치에 있어서, 상기 양자화 결과에 대해서 처리를 수행할 수 있어, 신호 처리 장치의 구성을 단순화할 수 있다.

도 36에 도시되어 있는 바와 같이, 아날로그 디지털 변환기(19-3)와, 프로세서(19-4)와, 음성 인식부(19-6)를 일체화한 신호 처리 장치(19-2)를 이용할 수도 있다.

이와 같은 구성에 있어서, 마이크로폰(1-1)에서 채취된 비가청 중얼거림의 진동음은 아날로그 디지털 변환기(19-3)에서 채취되어 양자화되어, 디지털 신호로 변환된다. 이 양자화 결과인 디지털 신호는 프로세서(19-4)로 보내어진다. 프로세서(19-4)는 아날로그 디지털 변환기(19-3)로부터 보내어진 디지털 신호에 대해서, 증폭 또는 변환 등의 가공을 실시한다. 이 가공 결과에 대해서, 음성 인식부 (19-6)에 있어서 음성 인식 처리가 이루어진다. 또한, 이 신호 처리 장치(19-2)는 당업자라면 용이하게 작성할 수 있다. 이와 같이 신호 처리 장치를 구성하면, 비가청 중얼거림에 대해서, 가공된 진동음 그대로의 신호, 또는 파라미터화된 신호의 음성 인식 처리를 수행할 수 있다.

또한, 도 37에 도시되어 있는 바와 같이, 도 36의 구성에 송출기(19-5)를 더 추가한 구성으로 할 수도 있다. 이와 같은 구성에 있어서는, 음성 인식부(19-6)에 의한 음성 인식 처리 결과는 송출기(19-5)에 의해 외부로 송출된다. 또한, 이 신호 처리 장치(19-2)는 당업자라면 용이하게 작성할 수 있다. 음성 인식 결과를, 예를 들면, 이동 전화망으로 송출함으로써, 음성 인식 결과를 다양한 처리에 이용할 수 있다.

또한, 본 발명의 마이크로폰을 휴대 전화기 등에 내장시킬 수도 있다. 이 경우, 그 마이크로폰 부분을 유상 돌기 바로 아래의 흉쇄유돌근상의 피부 표면에 밀착하면, 비가청 중얼거림을 이용한 통화가 가능하게 된다.

본 발명에 따라, 목소리를 내지않는 휴대 전화에서의 통화나 목소리를 내지 않는 음성 인식 결과의 이용이 가능하게 된다.

즉, 휴대 전화에서의 통화나 컴퓨터 및 개인용 휴대 정보 단말기에의 정보 입력이 새로운 기술 습득 없이, 태어난 후 체득한 음성 언어 문화로 길러진 조음 기관의 발화 운동만으로 가능하게 된다.

게다가, 주위의 배경 잡음의 혼입이 없고, 또한 정온한 환경을 파괴하는 일도 없다. 특히, 음성 언어의 퍼블리시티가 컨트롤 가능하게 되어, 주위에의 정보 누설을 염려하지 않아도 된다.

또한, 통상 음성 인식에 있어서도, 이 채음 방법에 의해 잡음 혼입을 대폭 경감할 수 있다.

눈 앞이나 입 언저리에 마이크로폰을 장착하는 번거로움이나 휴대 전화를 한손으로 귀에 대는 동작에서 해방되어, 눈에 잘 띄지 않는 이개 후하방부에의 마이크로폰 장착만 하게 되고, 경우에 따라서는 머리카락에 숨길 수 있는 이점도 있다.

통상 음성을 발하지 않는, 새로운 언어 커뮤니케이션 문화가 생겨날 가능성이 있음과 동시에, 음성 인식 기술 전체의 실생활에의 보급을 크게 촉진할 것으로 생각된다. 또한, 성대 등을 제거한 사람이나 성대의 규칙 진동을 이용한 발성에 장애가 있는 사람에게도 최적으로 이용할 수 있다.

Claims

이개(耳介)의 후하방부의, 두개골의 유상 돌기 바로 아래의, 흉쇄유돌근상의 피부 표면에 장착되고,

발성 기관의 운동에 수반하는 공진 필터 특성 변화에 따라 조음된, 성대의 규칙 진동을 수반하지 않는, 외부로부터는 비가청인 호흡음의 체내 연부 조직을 전도하는 진동음인 비가청 중얼거림, 및 가청이지만 성대를 규칙 진동시키지 않는 속삭임, 작은 소리, 중얼거림 등을 포함하는 성대의 규칙 진동을 이용하여 발성하는 음성, 치교음, 혀차는 소리 등의 다양한 음성 중 적어도 하나를 채취하는 것을 특징으로 하는 마이크로폰.
제1항에 있어서,

상기 피부 표면에 장착된 진동판과, 상기 진동판에 흡착하는 흡반을 포함하는 것을 특징으로 하는 마이크로폰.
제1항 또는 제2항에 있어서,

안경, 헤드폰, 귀걸이형 이어폰, 모자, 헬멧 등, 인간의 두부에 장착하는 두부 장착물과 일체로 구성되어 있는 것을 특징으로 하는 마이크로폰.
제1항 내지 제3항 중 어느 한 항의 마이크로폰과, 상기 마이크로폰에 의해 채취된 신호에 대해서, 신호 처리를 행하는 신호 처리 장치를 포함하고,

상기 신호 처리 장치에 의한 처리 결과를 커뮤니케이션에 사용하도록 한 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제4항에 있어서,

상기 신호 처리 장치는, 상기 마이크로폰에 의해 채취된 신호를 양자화하는 아날로그 디지털 변환부와, 상기 아날로그 디지털 변환부에 의한 양자화 결과에 대해 가공을 행하는 프로세서부와, 상기 프로세서부에 의한 가공 결과를 외부로 송출하는 송출부를 포함하는 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제4항에 있어서,

상기 신호 처리 장치는, 상기 마이크로폰에 의해 채취된 신호를 양자화하는 아날로그 디지털 변환부와, 상기 아날로그 디지털 변환부에 의한 양자화 결과를 외부로 송출하는 송출부를 포함하고, 상기 양자화 결과의 가공을 외부 장치에서 행하도록 한 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제5항에 있어서,

상기 신호 처리 장치는, 상기 마이크로폰에 의해 채취된 신호를 양자화하는 아날로그 디지털 변환부와, 상기 아날로그 디지털 변환부에 의한 양자화 결과에 대해 가공을 행하는 프로세서부와, 상기 프로세서부에 의한 가공 결과에 대해 음성 인식 처리를 행하는 음성 인식부를 포함하는 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제7항에 있어서,

상기 음성 인식부에 의한 음성 인식 결과를, 외부로 송출하는 송출부를 더 포함하는 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제5항에 있어서,

상기 송출부에 의해 송출된 상기 프로세서부에 의한 가공 결과에 대해서, 이동 전화망 내의 장치에 의해 음성 인식 처리를 행하는 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제5항에 있어서,

상기 신호 처리 장치가 행하는 신호 처리는, 상기 프로세서부가 가청의 음성으로 변조하는 변조 처리인 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제10항에 있어서,

상기 변조 처리는, 상기 비가청 중얼거림에, 성대의 기본 주파수를 부여함으로써, 성대의 규칙 진동을 수반하는, 가청의 음성으로 변환하는 처리인 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제10항에 있어서,

상기 변조 처리는, 성대의 규칙 진동을 수반하지 않는, 비가청 중얼거림의 스펙트럼으로부터, 성대의 규칙 진동을 이용하여 발성된 가청의 음성의 스펙트럼으로 변환하는 처리인 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제12항에 있어서,

상기 변조 처리는, 비가청 중얼거림의 스펙트럼을 이용하여, 음성 인식 장치에 의해 음절, 반음절, 음소, 2연접 음소, 3연접 음소 등의 음성 단위의 인식을 행하고, 인식된 음성 단위로부터 음성 합성 기술에 의해, 성대의 규칙 진동을 이용하여 발성된 가청의 음성으로 변환하는 처리인 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제4항 내지 제13항 중 어느 한 항에 있어서,

상기 마이크로폰에 의해 채취되는 음성의 다이나믹 레인지의 크기에 따라, 입력 게인을 제어하는 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제7항 또는 제8항에 있어서,

상기 음성 인식부는, 상기 비가청 중얼거림, 및 가청이지만 성대를 규칙 진동시키지 않는 속삭임, 작은 소리, 중얼거림 등을 포함하는 성대의 규칙 진동을 이 용하여 발성하는 음성, 치교음, 혀차는 소리 등의 다양한 음성 중 적어도 하나를 모델화한 음향 모델을 이용하여, 음성 인식 처리를 행하는 것을 특징으로 하는 커뮤니케이션 인터페이스 시스템.
제1항 내지 제3항 중 어느 한 항의 마이크로폰과, 상기 마이크로폰에 의해 채취된 신호에 대해서 신호 처리를 행하는 것을 특징으로 하는 신호 처리 장치.