KR20240042461A

KR20240042461A - 무음 음성 검지

Info

Publication number: KR20240042461A
Application number: KR1020247006288A
Authority: KR
Inventors: 아비아드 마이젤스; 아비 발리야; 지오라 코른브라우; 요나탄 윅슬러
Original assignee: 큐(큐) 리미티드
Priority date: 2021-08-04
Filing date: 2022-05-16
Publication date: 2024-04-02
Also published as: CA3228015A1; AU2022323822A1; WO2023012527A1; AU2022321906A1; KR20240042466A; IL310465A; IL310468A; CA3228136A1; WO2023012546A1; CN117836823A

Abstract

감지 장치(20, 60)는 장치의 사용자의 귀(24)에 맞게 구성된 브래킷(22)을 포함한다. 광학 감지 헤드(28)는 사용자의 얼굴에 근접한 위치에 브래킷에 의해 고정되어 얼굴에서 반사되는 광을 감지하고 감지된 광에 응답하여 신호를 출력한다. 처리 회로(70, 75)는 신호를 처리하여 음성 출력을 생성한다.

Description

무음 음성 검지

(관련 출원에 대한 상호 참조)

본 출원은 2021년 8월 4일에 출원된 미국 가특허 출원 63/229,091의 효익을 주장하며, 이는 본 명세서에 참조로 포함된다.

(기술 분야)

본 발명은 일반적으로 생리학적 감지에 관한 것이며, 특히 인간의 음성을 감지하는 방법 및 장치에 관한 것이다.

음성(speech)의 프로세스는 가슴, 목, 얼굴의 신경과 근육을 활성화시킨다. 따라서 예를 들어 근전도 검사(EMG: electromyography)는 음성 감지 목적으로 근육 자극을 포착하는 데 사용되었다.

2차 반점 패턴은 인체 피부의 움직임을 모니터링하는 데 사용되었다. 2차 반점은 일반적으로 피부와 같은 거친 표면에서 레이저 빔이 확산 반사될 때 발생한다. 레이저 빔을 조사할 때 인간 피부에서 반사되어 생성되는 2차 반점의 시간적 변화와 진폭 변화를 모두 추적함으로써, 연구자들은 혈압과 기타 활력 징후를 측정했다. 예를 들어, 미국 특허 10,398,314에는 신체에 의해 생성된 일련의 반점 패턴을 나타내는 이미지 데이터를 사용하여 피험자 신체의 상태를 모니터링하는 방법이 설명되어 있다.

아래에 설명되는 본 발명의 실시예는 인간의 음성을 감지하기 위한 새로운 방법 및 장치를 제공한다.

또한, 본 발명의 실시예에 따르면, 장치 사용자의 귀에 맞게 구성된 브래킷과 사용자의 얼굴에 근접한 위치에서 상기 브래킷에 의해 고정되고 상기 얼굴에서 반사되는 광을 감지하고, 감지된 상기 광에 반응하여 신호를 출력하도록 구성되는 광학 감지 헤드를 포함하는 감지 장치가 제공된다. 처리 회로는 상기 신호를 처리하여 음성 출력을 생성하도록 구성된다.

일 실시예에서, 상기 브래킷은 이어 클립을 포함한다. 대안적으로, 상기 브래킷은 안경테를 포함한다. 개시된 실시예에서, 상기 광학 감지 헤드는 사용자의 뺨으로부터 반사된 광을 감지하도록 구성된다.

일부 실시예에서, 상기 광학 감지 헤드는 간섭성 광을 상기 얼굴을 향해 지향시키도록 구성된 이미터 및 상기 얼굴로부터의 상기 간섭성 광의 반사로 인해 2차 반점 패턴을 감지하도록 구성된 센서 어레이를 포함한다. 개시된 실시예에서, 상기 이미터는 상기 간섭성 광의 복수의 빔을 상기 얼굴의 상이한 각각의 위치를 향해 지향시키도록 구성되고, 상기 센서의 어레이는 상기 위치로부터 반사된 2차 반점 패턴을 감지하도록 구성된다. 추가적으로 또는 대안적으로, 상기 빔들에 의해 조명되고 상기 센서 어레이에 의해 감지된 상기 위치는 적어도 1㎠의 영역에 걸쳐 확장된다. 추가로 또는 대안적으로, 상기 광학 감지 헤드는 상기 얼굴의 상이한 각각의 영역을 덮는 상기 빔들의 각각의 그룹을 생성하도록 구성된 복수의 이미터를 포함하고, 상기 처리 회로는 상기 이미터 모두를 작동시키지 않고 상기 이미터의 서브세트를 선택하고 작동하도록 구성된다.

개시된 실시예에서, 상기 처리 회로는 상기 감지된 2차 반점 패턴의 변화를 검출하고 검출된 상기 변화에 응답하여 상기 음성 출력을 생성하도록 구성된다.

대안적으로 또는 추가적으로, 상기 처리 회로는 제1 프레임 속도에서 센서 어레이를 작동하고, 상기 제1 프레임 속도에서 작동하는 동안 상기 신호에 응답하여 상기 얼굴의 움직임을 감지하고, 상기 음성 출력을 생성하기 위해, 감지된 상기 움직임에 반응하여 상기 제1 프레임 속도보다 큰 제2 프레임 속도로 상기 프레임 속도를 증가시키도록 구성된다.

개시된 실시예에서, 상기 처리 회로는 사용자가 소리를 발화하지 않고도 상기 사용자의 피부 표면의 움직임으로 인해 상기 광학 감지 헤드에 의해 출력된 상기 신호의 변화에 응답하여 상기 음성 출력을 생성하도록 구성된다.

일반적으로 상기 광학 감지 헤드는 상기 사용자의 피부 표면에서 적어도 5mm 떨어진 위치에서 상기 브래킷에 의해 고정된다.

일 실시예에서, 상기 장치는 상기 사용자의 피부 표면과 접촉하도록 구성된 하나 이상의 전극을 포함하며, 상기 처리 회로는 상기 광학 감지 헤드에 의해 출력되는 상기 신호와 함께 상기 하나 이상의 전극에 의해 감지된 전기적 활동에 응답하여 상기 음성 출력을 생성하도록 구성된다.

추가적으로 또는 대안적으로, 상기 장치는 상기 사용자가 발화하는 소리를 감지하도록 구성된 마이크를 포함한다. 일 실시예에서, 상기 처리 회로는 상기 광학 감지 헤드를 교정하기 위해 상기 광학 감지 헤드에 의해 출력된 상기 신호를 상기 마이크에 의해 감지된 상기 소리와 비교하도록 구성된다. 추가적으로 또는 대안적으로, 상기 처리 회로는 상기 사용자가 발화하는 상기 소리의 감지에 응답하여 상기 장치의 작동 상태를 변경하도록 구성된다.

일부 실시예에서, 상기 장치는 통신 인터페이스를 포함하며, 상기 처리 회로는 인코딩된 상기 신호를 처리하여 상기 음성 출력을 생성하는 처리 장치로 상기 통신 인터페이스를 통해 전송하기 위해 상기 신호를 인코딩하도록 구성된다. 개시된 실시예에서, 상기 통신 인터페이스는 무선 인터페이스를 포함한다.

추가적으로 또는 대안적으로, 상기 장치는 상기 브래킷에 연결되고 상기 사용자에 의해 이루어진 제스처를 감지하도록 구성된 사용자 컨트롤을 포함하며, 여기서 상기 처리 회로는 감지된 상기 제스처에 응답하여 상기 장치의 작동 상태를 변경하도록 구성된다.

추가로 또는 대안적으로, 상기 장치는 상기 사용자의 상기 귀에 맞도록 구성된 스피커를 포함하고, 상기 처리 회로는 상기 스피커에 의한 재생을 위해 상기 음성 출력에 대응하는 오디오 신호를 합성하도록 구성된다.

또한, 본 발명의 실시예에 따르면, 피험자가 단어를 발성하지 않고 피부에 닿지 않고서, 상기 피험자가 말로 발음한 단어에 응답하여 인간 피험자의 얼굴 피부의 움직임을 감지하는 단계를 포함하는 감지 방법이 제공된다. 상기 감지된 움직임에 반응하여 말로 발음된 단어를 포함하는 음성 출력이 생성된다.

일부 실시예에서 상기 움직임을 감지하는 단계는 상기 피험자의 상기 얼굴에서 반사된 광을 감지하는 단계를 포함한다. 개시된 실시예에서, 광을 감지하는 단계는 간섭성 광을 상기 피부 쪽으로 지향시키는 단계와 상기 피부로부터 상기 간섭성 광의 반사로 인해 2차 반점 패턴을 감지하는 단계를 포함한다. 일 실시예에서, 상기 간섭성 광을 지향시키는 단계는 상기 얼굴 상의 상이한 각각의 위치를 향해 상기 간섭성 광의 다수의 빔을 지향시키는 단계, 및 센서 어레이를 사용하여 각각의 위치로부터 반사된 상기 2차 반점 패턴을 감지하는 단계를 포함한다.

개시된 실시예에서, 상기 음성 출력을 생성하는 단계는 상기 음성 출력에 대응하는 오디오 신호를 합성하는 단계를 포함한다. 대안적으로 또는 추가적으로, 상기 음성 출력을 생성하는 단계는 상기 피험자에 의해 말로 발음된 상기 단어를 전사하는 단계(transcribing)를 포함한다.

본 발명은 도면과 함께 고려된 실시예의 하기의 상세한 설명으로부터 더욱 완전하게 이해될 것이다:

도 1은 본 발명의 실시예에 따른 음성 감지 시스템의 개략적인 도식적인 예시이다.
도 2는 본 발명의 실시예에 따른 광학 감지 헤드의 개략적인 단면도이다.
도 3은 본 발명의 다른 실시예에 따른 음성 감지 장치의 개략적인 도식적인 예시이다.
도 4는 본 발명의 실시예에 따른 음성 감지 시스템의 기능적 구성요소를 개략적으로 도시하는 블록도이다.
도 5는 본 발명의 실시예에 따른 음성 감지 방법을 개략적으로 예시하는 흐름도이다.

사람들은 거의 모든 장소에서 항상 자신들의 휴대폰을 통해 통신한다. 공공장소에서 휴대전화를 널리 사용하면 소음이 발생하고 종종 사생활 보호 문제가 제기되는데, 대화 내용이 행인에게 쉽게 들리기 때문이다. 동시에, 통화 중인 당사자 중 한 사람이 시끄러운 장소에 있을 때, 다른 당사자 또는 당사자들은 배경 소음으로 인해 자신이 듣고 있는 내용을 이해하는 데 어려움을 겪을 수 있다. 문자 통신은 이러한 문제에 대한 해결책을 제공하지만 휴대폰에 대한 문자 입력은 느리고 사용자가 가고 있는 곳을 보는 사용자의 능력에 방해가 된다.

본 명세서에 기술된 본 발명의 실시예는 무성 음성(silent speech)을 사용하여 이러한 문제를 해결함으로써, 사용자가 실제로 단어를 발성하거나 어떤 소리도 발화하지 않고도 단어와 문장을 분명히 발음할 수 있게 한다. 정상적인 발성 과정에서는 가슴과 복부로부터, 목구멍을 통해, 입과 얼굴을 거쳐 올라가는 다수의 그룹의 근육과 신경이 사용된다. 주어진 음소를 발화하기 위해 운동 뉴런은 폐로부터의 공기 흐름을 추진하기 위한 준비시 얼굴, 후두 및 입의 근육 그룹을 활성화하며, 이 근육은 말하는 동안 계속 움직여 단어와 문장을 만든다. 이 공기 흐름이 없으면 입에서 소리가 나오지 않는다. 무성 음성은 폐에서 나오는 공기 흐름이 없을 때 발생하며, 그 반면에 얼굴, 후두 및 입의 근육은 원하는 소리를 계속해서 발음한다.

신경 및 근육 병리의 결과로 무성 음성이 발생할 수 있지만, 그러나 이는 예를 들어 우리가 단어를 분명하게 발음하지만 다른 사람이 듣고 싶지 않은 경우에 의도적으로 발생할 수도 있다. 이러한 분명한 발음은 입을 열지 않고 말한 단어를 개념화하는 경우에도 발생할 수 있다. 결과적으로 안면 근육이 활성화되어 피부 표면의 미세한 움직임이 발생한다. 발명자들은 이러한 움직임을 적절하게 감지하고 디코딩함으로써 사용자가 분명히 발음한 실제 단어 시퀀스를 신뢰성 있게 재구성할 수 있음을 발견했다.

따라서, 본 명세서에 기술된 본 발명의 실시예들은 발성 여부에 관계없이 피험자가 발음하는 단어에 대한 반응으로 발생하는 피험자 얼굴의 피부와 피하 신경 및 근육의 미세한 움직임을 감지하고, 감지된 움직임을 사용하여 발음된 단어를 포함하는 음성 출력을 생성한다. 이러한 실시예는 예를 들어 피험자의 얼굴에서 반사되는 광을 감지하여 피부에 접촉하지 않고 이러한 미세한 움직임을 감지하는 방법 및 장치를 제공한다. 따라서 이를 통해 사용자는 다른 사람이 실질적으로 인지할 수 없는 방식으로 다른 사람과 통신하거나 자신의 생각을 조용히 녹음할 수 있다. 이러한 실시예에 따른 장치 및 방법은 또한 주변 소음에 둔감하며 사용자가 주변에서 시선과 주의를 돌릴 필요 없이 거의 모든 환경에서 사용될 수 있다.

본 발명의 일부 실시예는 클립형 헤드폰 또는 안경과 같은 일반적인 소비자 품목의 형태를 갖는 감지 장치를 제공한다. 이러한 실시예에서, 광학 감지 헤드는 사용자의 귀에 맞거나 귀 위에 맞는 브래킷에 의해 사용자의 얼굴에 근접한 위치에 고정된다. 광학 감지 헤드는 예를 들어 뺨과 같은 얼굴 영역을 향해 간섭성 광을 지향하고 얼굴로부터의 간섭성 광의 반사로 인해 발생하는 2차 반점 패턴의 변화를 감지함으로써 얼굴에서 반사된 광을 감지한다. 장치의 처리 회로는 반사된 광으로 인해 광학 감지 헤드에 의해 출력된 신호를 처리하여 해당 음성 출력을 생성한다.

대안적으로, 본 발명의 원리는 이어 클립이나 다른 브래킷 없이 구현될 수 있다. 예를 들어, 대안적인 실시예에서, 간섭성 광원 및 센서를 포함하는 무성 음성 감지 모듈은 스마트폰과 같은 모바일 통신 장치에 통합될 수 있다. 이 통합 감지 모듈은 사용자가 모바일 통신 장치를 사용자의 얼굴에 근접한 적절한 위치에 들고 있을 때 무성 음성을 감지한다.

본 상세한 설명과 청구범위에 사용된 용어 "광"은 적외선, 가시광선 및 자외선 범위 중 일부 또는 전부의 전자기 방사선을 의미한다.

도 1은 본 발명의 실시예에 따른 음성 감지 시스템(18)의 개략적인 도식적 예시이다. 시스템(18)은 이어 클립(22) 형태의 브래킷이 장치 사용자(24)의 귀에 맞는 감지 장치(20)를 기반으로 한다. 이어 클립(22)에 부착된 이어폰(26)은 사용자의 귀에 끼워진다. 광학 감지 헤드(28)는 암(30)에 의해 이어 클립(22)에 연결되어 사용자의 얼굴에 근접한 위치에 고정된다. 도시된 실시예에서, 장치(20)는 마이크 대신에(또는 마이크에 추가로) 광학 감지 헤드를 갖춘 클립온 헤드폰의 형태와 외관을 갖는다.

광학 감지 헤드(28)는 하나 이상의 간섭성 광의 빔을 사용자(24) 얼굴의 서로 다른 각각의 위치를 향해 지향시켜서 얼굴의 영역(34) 위로(특히 사용자의 뺨 위로) 연장되는 스팟(32)의 어레이를 생성한다. 본 실시예에서, 광학 감지 헤드(28)는 사용자의 피부에 전혀 접촉하지 않고, 오히려 피부 표면으로부터 특정 거리에 유지된다. 전형적으로, 이 거리는 적어도 5mm이고, 예를 들어 피부 표면으로부터 적어도 1cm 또는 심지어 2cm 이상일 수도 있다. 안면 근육의 다른 부분의 움직임을 감지할 수 있도록 하기 위해, 스팟(32)으로 덮이고 광학 감지 헤드(28)에 의해 감지되는 영역(34)은 일반적으로 적어도 1㎠의 크기를 가지며; 예를 들어 최소 2㎠ 또는 심지어 4㎠보다 큰 면적이 유리할 수 있다.

광학 감지 헤드(28)는 얼굴의 스팟(32)에서 반사되는 간섭성 광을 감지하고 감지된 광에 응답하여 신호를 출력한다. 구체적으로, 광학 감지 헤드(28)는 시야 내 각 스팟(32)으로부터의 간섭성 광의 반사로 인해 발생하는 2차 반점 패턴을 감지한다. 충분히 큰 영역(34)을 커버하기 위해, 이 시야는 전형적으로 적어도 60°, 또는 가능하게는 70° 또는 심지어 90° 이상의 각도 폭을 갖는 넓은 각도 범위를 갖는다. 이 시야 내에서, 장치(20)는 스팟(32) 모두 또는 단지 스팟(32)의 특정 서브세트만의 2차 반점 패턴으로 인한 신호를 감지하고 처리할 수 있다. 예를 들어, 장치(20)는 발견된 스팟의 서브세트를 선택하여 사용자(24)의 피부 표면의 관련 움직임과 관련하여 유용하고 신뢰할 수 있는 정보를 가장 많이 제공할 수 있다. 광학 감지 헤드(28)의 구조 및 작동에 대한 세부 사항은 도 2를 참조하여 아래에 설명되어 있다.

시스템(18) 내에서, 처리 회로는 광학 감지 헤드(28)에 의해 출력되는 신호를 처리하여 음성 출력을 생성한다. 앞서 언급한 바와 같이, 처리 회로는 사용자(22)가 말을 발성하거나 다른 소리를 발화하지 않고도 사용자(22)의 피부 움직임을 감지하고 음성 출력을 생성할 수 있다. 음성 출력은 합성된 오디오 신호 또는 텍스트 전사(transcription) 또는 그 둘 모두의 형태를 취할 수 있다. 합성된 오디오 신호는 이어폰(26)의 스피커를 통해 재생될 수 있다(그리고 음성 출력에 관해 사용자(22)에게 피드백을 제공하는데 유용하다). 추가적으로 또는 대안적으로, 합성된 오디오 신호는 네트워크를 통해, 예를 들어 스마트폰(36)과 같은 모바일 통신 장치와의 통신 링크를 통해 전송될 수 있다.

시스템(18)의 처리 회로의 기능은 장치(20) 내에서 완전히 수행될 수 있거나, 대안적으로 장치(20)와 적절한 애플리케이션 소프트웨어를 실행하는 스마트폰(36)의 프로세서와 같은 외부 프로세서 사이에 분산될 수 있다. 예를 들어, 장치(20) 내의 처리 회로는 광학 감지 헤드(28)에 의해 출력된 신호를 디지털화 및 인코딩하고 통신 링크를 통해 스마트폰(36)에 인코딩된 신호를 전송할 수 있다. 이 통신 링크는 유선 또는 무선일 수 있으며, 예를 들어 스마트폰에 의해 제공되는 Bluetooth™ 무선 인터페이스를 이용한다. 스마트폰(36)의 프로세서는 음성 출력을 생성하기 위해 인코딩된 신호를 처리한다. 스마트폰(36)은 또한 예를 들어 데이터를 업로드하고 소프트웨어 업데이트를 다운로드하기 위해 인터넷과 같은 데이터 네트워크를 통해 서버(38)에 액세스할 수 있다. 처리 회로의 설계 및 동작의 세부 사항은 도 4를 참조하여 아래에 설명된다.

도시된 실시예에서, 장치(20)는 또한 이어 클립(22)에 연결되는 푸시버튼 또는 근접 센서 형태의 사용자 컨트롤(35)을 포함한다. 사용자 컨트롤(35)은 사용자 컨트롤을 누르는 것과 같은, 또는 그렇지 않으면 사용자의 손가락이나 손을 사용자 컨트롤에 근접하게 가져오는 것과 같이, 사용자에 의해 수행되는 제스처를 감지한다. 적절한 사용자 제스처에 응답하여 처리 회로는 장치(20)의 작동 상태를 변경한다. 예를 들어, 사용자(24)는 이러한 방식으로 장치(20)를 휴지 모드에서 활성 모드로 전환할 수 있으며, 따라서 장치가 음성 출력 감지 및 생성을 시작해야 한다는 신호를 보낼 수 있다. 이러한 종류의 스위칭은 장치(20)의 배터리 전력을 보존하는 데 유용하다. 대안적으로 또는 추가적으로, 예를 들어 도 5를 참조하여 아래에 기술된 바와 같이, 장치(20)의 작동 상태를 제어하고 불필요한 전력 소비를 줄이는 데 다른 수단이 적용될 수 있다.

도 2는 본 발명의 실시예에 따른 광 감지 헤드의 구성 요소 및 기능적 세부 사항을 보여주는 장치(20)의 광 감지 헤드(28)의 개략적인 단면도이다. 광학 감지 헤드(28)는 선택적인 마이크(54)과 함께 이미터 모듈(40) 및 수신기 모듈(48)을 포함한다.

이미터 모듈(40)은 간섭성 방사선의 입력 빔을 방출하는 적외선 레이저 다이오드(42)와 같은 광원을 포함한다. Damman 격자 또는 다른 적합한 유형의 회절 광학 엘리먼트(DOE)와 같은 빔 분할 엘리먼트(44)는 입력 빔을 복수의 출력 빔(46)으로 분할하며, 이는 영역(34)에 걸쳐 연장되는 위치 매트릭스에서 각각의 스팟(32)을 형성한다. 일 실시예에서(도면에 도시되지 않는), 이미터 모듈(40)은 사용자 얼굴의 영역(34) 내의 서로 다른 각각의 하위 영역을 커버하는 출력 빔(46)의 각 그룹을 생성하는 복수의 레이저 다이오드 또는 다른 이미터를 포함한다. 이 경우, 장치(20)의 처리 회로는 모든 이미터를 작동시키지 않고 이미터의 서브세트만을 선택하고 작동시킬 수 있다. 예를 들어, 장치(20)의 전력 소비를 줄이기 위해, 처리 회로는 사용자 얼굴의 영역을 조명하는 2개 이상의 이미터로 구성된 서브세트 또는 하나의 이미터만을 작동시킬 수 있으며, 이는 원하는 음성 출력 생성을 위한 가장 유용한 정보를 제공하는 것으로 밝혀졌다.

수신기 모듈(48)은 영역(34)을 어레이(52) 상에 이미징하기 위한 대물 광학 기기(50)를 갖는 CMOS 이미지 센서와 같은 광학 센서의 어레이(52)를 포함한다. 광학 감지 헤드(28)의 작은 치수와 피부 표면에 대한 근접성으로 인해, 수신기 모듈(48)은 위에서 언급한 바와 같이 충분히 넓은 시야를 가지며 법선에서 멀리 떨어진 높은 각도에서 많은 스팟(32)을 본다. 피부 표면의 거칠기 때문에, 스팟(32)의 2차 반점 패턴도 이러한 높은 각도에서 감지될 수 있다.

마이크(54)는 사용자(24)가 발화하는 소리를 감지하여 사용자(22)가 원할 때 장치(20)를 일반적인 헤드폰으로 사용할 수 있게 한다. 추가적으로 또는 대안적으로, 마이크(54)는 장치(20)의 무성 음성 감지 기능과 함께 사용될 수 있다. 예를 들어, 마이크(54)는 사용자(22)가 특정 음소 또는 단어를 발화하는 동안 광학 감지 헤드(28)가 피부의 움직임을 감지하는 교정 절차에 사용될 수 있다. 처리 회로는 광학 감지 헤드를 교정하기 위해 광학 감지 헤드(28)에 의해 출력된 신호를 마이크(54)에 의해 감지된 소리와 비교할 수 있다. 이러한 교정은 사용자의 뺨에 대해 원하는 위치에 광학 구성요소를 정렬하기 위해 사용자(22)가 광학 감지 헤드(28)의 위치를 이동하도록 유도하는 것을 포함할 수 있다.

다른 실시예에서, 마이크(54)에 의해 출력된 오디오 신호는 장치(20)의 동작 상태를 변경하는 데 사용될 수 있다. 예를 들어, 처리 회로는 마이크(54)가 사용자(24)의 단어 발성을 감지하지 못하는 경우에만 음성 출력을 생성할 수 있다. 광학 감지 헤드(28)와 마이크(54)에 의해 제공되는 광학 및 음향 감지의 조합의 다른 적용은 본 설명을 읽은 후 당업자에게 명백할 것이며 본 발명의 범위 내에 있는 것으로 간주된다.

도 3은 본 발명의 다른 실시예에 따른 음성 감지 장치(60)의 개략적인 도식적인 예시이다. 이 실시예에서, 이어 클립(22)은 안경테(62)와 통합되거나 그렇지 않으면 그에 부착된다. 비강 전극(nasal electrode)(64) 및 관자놀이 전극(66)은 프레임(62)에 부착되어 사용자의 피부 표면에 접촉된다. 전극(64 및 66)은 사용자의 안면 근육 활성화에 관한 추가 정보를 제공하는 체표면 근전도(sEMG) 신호를 수신한다. 장치(60)의 처리 회로는 장치(60)로부터 음성 출력을 생성할 때 광학 감지 헤드(28)로부터의 출력 신호와 함께 전극(64, 66)에 의해 감지된 전기 활동을 사용한다.

추가적으로 또는 대안적으로, 장치(60)는 사용자 얼굴의 다른 영역에서 피부 움직임을 감지하기 위해 광학 감지 헤드(28)와 유사한 하나 이상의 추가 광학 감지 헤드(68)를 포함한다. 이들 추가적인 광학 감지 헤드는 광학 감지 헤드(28)와 함께 또는 그 대신에 사용될 수 있다.

도 4는 본 발명의 실시예에 따른 음성 감지를 위한 시스템(18)의 기능적 구성요소를 개략적으로 예시하는 블록도이다. 도면의 시스템은 감지 장치(20), 스마트폰(36) 및 서버(38)를 포함하여 도 1에 표시된 구성 요소를 중심으로 구축된다. 대안으로, 도 4에 도시되고 아래에 설명된 기능은 시스템의 구성 요소 간에 다르게 구현되고 배포될 수 있다. 예를 들어, 스마트폰(36)에 속하는 처리 기능 중 일부 또는 전부는 감지 장치에서 구현될 수 있고; 또는 장치(20)의 감지 기능이 스마트폰(36)에서 구현될 수 있다.

위에서 설명한 바와 같이, 도시된 예에서, 감지 장치(20)는 이미터 모듈(40), 수신기 모듈(48), 스피커(26), 마이크(54) 및 사용자 컨트롤(UI)(35)을 포함한다. 완전성을 위해, 감지 장치(20)가 전극 및/또는 환경 센서와 같은 다른 센서(71)도 포함하며 도 4에 도시되어 있지만; 그러나 앞서 언급한 바와 같이, 감지 장치(20)는 이미터 및 수신기 모듈에 의해 수행된 비접촉 측정에만 기초하여 작동할 수 있다.

감지 장치(20)는 인코더(70) 및 컨트롤러(75) 형태의 처리 회로를 포함한다. 인코더(70)는 배선되거나 프로그래밍 가능할 수 있는 하드웨어 처리 로직 및/또는 수신기 모듈(48)로부터의 출력 신호의 특징을 추출하고 인코딩하는 디지털 신호 프로세서를 포함한다. 감지 장치(20)는 블루투스 인터페이스와 같은 통신 인터페이스(72)를 통해 인코딩된 신호를 스마트폰(36)의 대응하는 통신 인터페이스(77)로 전송한다. 배터리(74)는 감지 장치(20)의 구성 요소에 작동 전력을 제공한다.

컨트롤러(75)는 예를 들어 사용자 컨트롤(35), 수신기 모듈(48) 및 스마트폰(36)(통신 인터페이스(72)을 통해)으로부터 수신된 입력에 기초하여 감지 장치(20)의 작동 상태 및 작동 파라미터를 설정하는 프로그래밍 가능한 마이크로컨트롤러를 포함한다. 이 기능의 일부 양태는 도 5를 참조하여 아래에 설명된다. 대안적인 실시예에서, 컨트롤러(75)는 보다 강력한 마이크로프로세서 및/또는 감지 장치 내에서 로컬로 수신기 모듈(48)로부터의 출력 신호의 특징을 처리하고 스마트폰(36)과 독립적으로 음성 출력을 생성하는 처리 어레이를 포함한다.

그러나 본 실시예에서는, 감지 장치(20)로부터의 인코딩된 출력 신호가 스마트폰(36)의 메모리(78)에 수신되고 스마트폰(36)의 프로세서에서 실행되는 음성 생성 애플리케이션(80)에 의해 처리된다. 음성 생성 애플리케이션(80)은 출력 신호의 특징을 텍스트 및/또는 오디오 출력 신호의 형태로 일련의 단어로 변환한다. 통신 인터페이스(77)는 사용자에게 재생하기 위해 오디오 출력 신호를 감지 장치(20)의 스피커(26)로 다시 전달한다. 음성 생성 애플리케이션(80)으로부터의 텍스트 및/또는 오디오 출력은 녹음 애플리케이션뿐만 아니라 음성 및/또는 텍스트 통신 애플리케이션과 같은 다른 애플리케이션(84)에도 입력된다. 통신 애플리케이션은 예를 들어 데이터 통신 인터페이스(86)를 통해 셀룰러 또는 Wi-Fi 네트워크를 통해 통신한다.

인코더(70) 및 음성 생성 애플리케이션(80)의 동작은 로컬 훈련 인터페이스(82)에 의해 제어된다. 예를 들어, 인터페이스(82)는 수신기 모듈(48)에 의해 출력된 신호로부터 어떤 시간적 및 스펙트럼 특징을 추출할지 인코더(70)에 표시할 수 있고 특징을 단어로 변환하는 신경망의 계수를 음성 생성 애플리케이션(80)에 제공할 수 있다. 본 예에서, 음성 생성 애플리케이션(80)은 감지 장치(20)로부터 수신된 인코딩된 신호 특징에 대응할 확률이 가장 높은 단어 시퀀스를 찾는 추론 네트워크를 구현한다. 로컬 훈련 인터페이스(82)는 서버(38)로부터 추론 네트워크의 계수를 수신하고, 이는 계수를 주기적으로 업데이트할 수도 있다.

로컬 훈련 명령(82)을 생성하기 위해, 서버(38)는 훈련 데이터(90)의 집합으로부터의 반점 이미지 및 대응하는 실측(ground truth) 음성 단어를 포함하는 데이터 저장소(88)를 사용한다. 저장소(88)는 또한 현장의 감지 장치(20)로부터 수집된 훈련 데이터를 수신한다. 예를 들어, 훈련 데이터는 사용자가 특정 소리와 단어(아마도 무음과 발음 음성 모두 포함)를 발음하는 동안 감지 장치(20)로부터 수집된 신호를 포함할 수 있다. 일반 훈련 데이터(90)와 각 감지 장치(20)의 사용자로부터 수신된 개인 훈련 데이터의 이러한 조합은 서버(38)가 각 사용자에 대한 최적의 추론 네트워크 계수를 도출할 수 있게 한다.

서버(38)는 이미지 분석 도구(94)를 적용하여 저장소(88)의 반점 이미지로부터 특징을 추출한다. 이러한 이미지 특징은 대응하는 단어 사전(104) 및 언어 모델(100)과 함께 신경망(96)에 훈련 데이터로서 입력되고, 이는 모두 훈련 데이터에 사용되는 특정 언어의 음성 구조 및 구문 규칙을 정의한다. 신경망(96)은 반점 측정의 대응 시퀀스로부터 추출된 특징 세트의 입력 시퀀스를 대응 음소로 변환하고 궁극적으로 단어의 출력 시퀀스로 변환하는 추론 네트워크(102)에 대한 최적의 계수를 생성한다. 네트워크 아키텍처 및 훈련 프로세스에 대한 더 자세한 내용은 위에서 언급한 가특허 출원에 기술되어 있다. 서버(38)는 추론 네트워크(102)의 계수를 음성 생성 애플리케이션(80)에 사용하기 위해 스마트폰(36)에 다운로드한다.

도 5는 본 발명의 실시예에 따른 음성 감지 방법을 개략적으로 예시하는 흐름도이다. 이 방법은 편의와 명확성을 위해 도 1 및 도 4에 도시되고 상기에서 기술된 바와 같이 시스템(18)의 엘리먼트를 참조하여 기술된다. 대안적으로, 이 방법의 원리는 예를 들어 감지 장치(60)(도 3) 또는 이동 통신 장치에 통합된 감지 장치를 사용하여 다른 시스템 구성에 적용될 수 있다.

사용자(24)가 말하지 않는 한, 감지 장치(20)는 휴지 단계(110)에서 배터리(74)의 전력을 보존하기 위해 저전력 휴지 모드로 작동한다. 이 모드에서 컨트롤러(75)는 낮은 프레임 속도(예를 들어, 20프레임/초)로 수신기 모듈(48)의 센서 어레이(52)를 구동한다. 이미터 모듈(40)은 또한 감소된 출력 파워에서 동작할 수 있다. 수신기 모듈(48)이 이러한 낮은 프레임 속도에서 작동하는 동안, 컨트롤러(75)는 모션 검출 단계(112)에서 음성을 나타내는 얼굴의 움직임을 감지하기 위해 어레이(52)에 의해 출력된 이미지를 처리한다. 그러한 움직임이 감지되면, 컨트롤러(75)는 활성 캡처 단계(114)에서 무성 음성으로 인해 발생하는 2차 반점 패턴의 변화를 감지할 수 있도록 수신기 모듈(48)과 감지 장치(20)의 다른 구성 요소에 프레임 속도를 예를 들어 100-200 프레임/초의 범위로 증가시키도록 지시한다. 대안적으로 또는 추가적으로, 컨트롤러(75)는 사용자 컨트롤(35)의 작동 또는 스마트폰(36)으로부터 수신된 명령과 같은 다른 입력에 응답하여 프레임 속도를 증가시키고 감지 장치(20)의 다른 구성요소의 전원을 켤 수 있다.

수신기 모듈(48)에 의해 캡처된 이미지는 일반적으로 도 1에 도시된 바와 같이 투사된 레이저 스팟(32)의 매트릭스를 포함한다. 인코더(70)는 스팟 검출(116)에서 이미지의 스팟 위치를 검출한다. 인코더는 모든 스팟으로부터 특징을 추출할 수 있지만; 그러나 전력과 처리 자원을 절약하려면 인코더가 스팟의 서브세트를 선택하는 것이 바람직하다. 예를 들어, 로컬 훈련 인터페이스(82)는 어느 스팟의 서브세트가 사용자의 음성에 관해 가장 많은 양의 정보를 포함하는지 나타낼 수 있고, 인코더(70)는 이 서브세트에서 스팟을 선택할 수 있다. 인코더(70)는 크롭핑 단계(118)에서 선택된 스팟 중 하나를 포함하는 각 창을 가지고 각 이미지로부터 작은 창을 크롭핑한다.

인코더(70)는 특징 추출 단계(120)에서 각각의 선택된 스팟으로부터 반점의 움직임의 특징을 추출한다. 예를 들어, 인코더(70)는 대응하는 창의 픽셀의 평균 강도에 기초하여 각 반점의 총 에너지를 추정할 수 있고, 시간이 지남에 따라 각 반점의 에너지 변화를 측정할 수 있다. 추가적으로 또는 대안적으로, 인코더(70)는 선택된 스팟의 서브세트 내의 반점의 다른 시간적 및/또는 스펙트럼 특징을 추출할 수 있다. 인코더(70)는 이들 특징을 음성 생성 애플리케이션(80)(스마트폰(36)에서 실행됨)에 전달하고, 이는 특징 입력 단계(122)에서 서버(38)로부터 다운로드된 추론 네트워크(102)에 특징 값의 벡터를 입력한다.

시간이 지남에 따라 추론 네트워크에 입력되는 특징 벡터의 시퀀스에 기초하여, 음성 생성 애플리케이션(80)은 음성 출력 단계(124)에서 문장으로 함께 연결된 단어 스트림을 출력한다. 앞서 언급한 바와 같이, 음성 출력은 스피커(26)를 통한 재생을 위해 오디오 신호를 합성하는 데에 사용된다. 스마트폰(36)에서 실행되는 다른 애플리케이션(84)은 후처리 단계(126)에서 음성 및/또는 오디오 신호를 후처리하여 해당 텍스트를 기록하고 및/또는 네트워크를 통해 음성 또는 텍스트 데이터를 전송한다.

위에서 설명된 실시예들은 예시로서 인용되었으며, 본 발명은 위에서 구체적으로 도시되고 기술된 것에 한정되지 않는다는 것이 이해될 것이다. 오히려, 본 발명의 범위는 위에서 설명된 다양한 특징들의 조합 및 하위 조합뿐만 아니라 앞선 설명을 읽을 때 당업자에게 떠오를 수 있고 종래 기술에는 개시되지 않은 이들의 변형 및 수정을 모두 포함한다.

Claims

감지 장치로서:
상기 감지 장치의 사용자의 귀에 맞는 브래킷;
상기 브래킷에 의해 상기 사용자의 얼굴에 근접한 위치에 고정되며, 상기 얼굴에서 반사되는 광을 감지하고, 감지된 상기 광에 반응하여 신호를 출력하도록 구성된 광학 감지 헤드; 및
음성 출력을 생성하기 위해 상기 신호를 처리하도록 구성된 처리 회로;
를 포함하는 것을 특징으로 하는 감지 장치.
제1항에 있어서, 상기 브래킷은 이어 클립을 포함하는 것을 특징으로 하는 감지 장치.
제1항에 있어서, 상기 브래킷은 안경테를 포함하는 것을 특징으로 하는 감지 장치.
제1항에 있어서, 상기 광학 감지 헤드는 상기 사용자의 뺨에서 반사된 상기 광을 감지하도록 구성되는 것을 특징으로 하는 감지 장치.
제1항에 있어서, 상기 광학 감지 헤드는 간섭성 광(coherent light)을 상기 얼굴 쪽으로 지향시키도록 구성된 이미터 및 상기 얼굴로부터의 상기 간섭성 광의 반사로 인한 2차 반점 패턴을 감지하도록 구성된 센서 어레이를 포함하는 것을 특징으로 하는 감지 장치.
제5항에 있어서, 상기 이미터는 상기 간섭성 광의 다중 빔을 상기 얼굴의 서로 다른 각각의 위치를 향해 지향시키도록 구성되고, 상기 센서 어레이는 상기 위치로부터 반사된 상기 2차 반점 패턴을 감지하도록 구성되는 것을 특징으로 하는 감지 장치.
제6항에 있어서, 상기 빔에 의해 조명되고 상기 센서 어레이에 의해 감지된 상기 위치는 적어도 60°의 각도 폭을 갖는 시야에 걸쳐 연장되는 것을 특징으로 하는 감지 장치.
제6항에 있어서, 상기 빔에 의해 조명되고 상기 센서 어레이에 의해 감지된 상기 위치는 적어도 1㎠의 영역에 걸쳐 확장되는 것을 특징으로 하는 감지 장치.
제6항에 있어서, 상기 광학 감지 헤드는 상기 얼굴의 서로 다른 각각의 영역을 덮는 상기 빔의 각각의 그룹을 생성하도록 구성된 복수의 이미터를 포함하고, 상기 처리 회로는 모든 이미터를 작동시키지 않고 상기 이미터의 서브세트를 선택하고 작동시키도록 구성되는 것을 특징으로 하는 감지 장치.
제5항에 있어서, 상기 처리 회로는 감지된 상기 2차 반점 패턴의 변화를 감지하고 감지된 상기 변화에 반응하여 상기 음성 출력을 생성하도록 구성되는 것을 특징으로 하는 감지 장치.
제5항에 있어서, 상기 처리 회로는 제1 프레임 속도에서 상기 센서 어레이를 작동시키고, 상기 제1 프레임 속도에서 작동하는 동안 상기 신호에 응답하여 상기 얼굴의 움직임을 감지하고, 및 상기 음성 출력을 생성하기 위해 감지된 상기 움직임에 반응하여 상기 프레임 속도를 상기 제1 프레임 속도보다 큰 제2 프레임 속도로 증가시키는 것을 특징으로 하는 감지 장치.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 처리 회로는 상기 사용자에 의해 어떠한 소리를 발화하지 않고도 상기 사용자의 피부 표면의 움직임으로 인해 상기 광학 감지 헤드에 의해 출력된 상기 신호의 변화에 반응하여 상기 음성 출력을 생성하도록 구성되는 것을 특징으로 하는 감지 장치.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 광학 감지 헤드는 상기 사용자의 피부 표면으로부터 적어도 5mm 떨어진 위치에서 상기 브래킷에 의해 유지되는 것을 특징으로 하는 감지 장치.
제1항 내지 제11항에 있어서, 상기 사용자의 피부 표면과 접촉하도록 구성된 하나 이상의 전극을 포함하고, 상기 처리 회로는 상기 광학 감지 헤드에 의해 출력된 상기 신호와 함께 상기 하나 이상의 전극에 의해 감지된 전기 활동에 반응하여 상기 음성 출력을 생성하도록 구성되는 것을 특징으로 하는 감지 장치.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 사용자가 발화하는 소리를 감지하도록 구성된 마이크를 포함하는 것을 특징으로 하는 감지 장치.
제15항에 있어서, 상기 처리 회로는 상기 광학 감지 헤드를 교정하기 위해 상기 광학 감지 헤드에 의해 출력된 상기 신호를 상기 마이크에 의해 감지된 상기 소리와 비교하도록 구성되는 것을 특징으로 하는 감지 장치.
제15항에 있어서, 상기 처리 회로는 상기 사용자가 발화하는 소리의 감지에 반응하여 상기 장치의 작동 상태를 변경하도록 구성되는 것을 특징으로 하는 감지 장치.
제1항 내지 제11항 중 어느 한 항에 있어서, 통신 인터페이스를 포함하고, 상기 처리 회로는 상기 통신 인터페이스를 통해 처리 장치로 전송하기 위해 상기 신호를 인코딩하도록 구성되고, 상기 처리 장치는 인코딩된 상기 신호를 처리하여 상기 음성 출력을 생성하는 것을 특징으로 하는 감지 장치.
제16항에 있어서, 상기 통신 인터페이스는 무선 인터페이스를 포함하는 것을 특징으로 하는 감지 장치.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 브래킷에 연결되고 상기 사용자에 의해 이루어진 제스처를 감지하도록 구성된 사용자 컨트롤을 포함하고, 상기 처리 회로는 감지된 상기 제스처에 반응하여 상기 장치의 작동 상태를 변경하도록 구성되는 것을 특징으로 하는 감지 장치.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 사용자의 상기 귀에 맞게 구성된 스피커를 포함하고, 상기 처리 회로는 상기 스피커에 의한 재생을 위해 상기 음성 출력에 대응하는 오디오 신호를 합성하도록 구성되는 것을 특징으로 하는 감지 장치.
감지 방법으로서,
인간 피험자가 단어를 발음하지 않고 피부와 접촉하지 않으면서, 상기 피험자가 발음한 단어에 반응하여 상기 피험자의 얼굴의 피부 움직임을 감지하는 단계; 및
감지된 상기 움직임에 반응하여 발음된 단어를 포함하는 음성 출력을 생성하는 단계;
를 포함하는 것을 특징으로 하는 감지 방법.
제22항에 있어서, 상기 움직임을 감지하는 단계는 상기 피험자의 상기 얼굴에서 반사된 광을 감지하는 단계를 포함하는 것을 특징으로 하는 감지 방법.
제23항에 있어서, 상기 광을 감지하는 단계는 간섭성 광을 상기 피부를 향해 지향시키는 단계, 및 상기 피부로부터의 상기 간섭성 광의 반사로 인한 2차 반점 패턴을 감지하는 단계를 포함하는 것을 특징으로 하는 감지 방법.
제24항에 있어서, 상기 간섭성 광을 지향시키는 단계는 상기 얼굴 상의 서로 다른 각각의 위치를 향해 상기 간섭성 광의 다수의 빔을 지향시키는 단계, 및 센서 어레이를 사용하여 각각의 상기 위치로부터 반사된 상기 2차 반점 패턴을 감지하는 단계를 포함하는 것을 특징으로 하는 감지 방법.
제25항에 있어서, 상기 빔에 의해 조명되고 상기 센서 어레이에 의해 감지된 상기 위치는 적어도 60°의 각도 폭을 갖는 시야에 걸쳐 연장되는 것을 특징으로 하는 감지 방법.
제25항에 있어서, 상기 빔에 의해 조명되고 상기 센서 어레이에 의해 감지된 상기 위치는 상기 피험자의 뺨에서 적어도 1㎠의 영역에 걸쳐 연장되는 것을 특징으로 하는 감지 방법.
제24항에 있어서, 상기 음성 출력을 생성하는 단계는 감지된 상기 2차 반점 패턴의 변화를 검출하는 단계 및 검출된 상기 변화에 반응하여 상기 음성 출력을 생성하는 단계를 포함하는 것을 특징으로 하는 감지 방법.
제22항 내지 제28항 중 어느 한 항에 있어서, 상기 음성 출력을 생성하는 단계는 상기 음성 출력에 대응하는 오디오 신호를 합성하는 단계를 포함하는 것을 특징으로 하는 감지 방법.
제22항 내지 제28항 중 어느 한 항에 있어서, 상기 음성 출력을 생성하는 단계는 상기 피험자에 의해 발음된 단어를 전사하는 단계를 포함하는 것을 특징으로 하는 감지 방법.