KR20210076921A

KR20210076921A - 음성 분석을 통한 폐 용적 추정

Info

Publication number: KR20210076921A
Application number: KR1020217011820A
Authority: KR
Inventors: 일란 디. 샬롬
Original assignee: 코디오 메디칼 리미티드
Priority date: 2018-10-11
Filing date: 2019-10-03
Publication date: 2021-06-24
Also published as: US11610600B2; IL289561B1; IL269807A; AU2019356224B2; CA3114864A1; CN112822976A; US20200118583A1; IL289561B2; AU2019356224A1; US20210056983A1; JP7385299B2; JP2022502189A; IL289561A; EP3637433A1; WO2020075015A1; US10847177B2; CN112822976B; IL269807B

Abstract

회로(26, 42) 및 프로세스를 협력적으로 수행하도록 구성된 하나 이상의 프로세서를(28, 36) 포함하는 시스템(20)으로서, 상기 프로세스는 상기 회로로부터, 피험자(22)가 발화한 음성을 나타내는 음성 신호(62)를 수신하는 단계로서, 상기 음성은 하나 이상의 음성 세그먼트를 포함하는 것인, 상기 음성 신호를 수신하는 단계, 프레임의 하나 이상의 시퀀스(66)가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임(64)으로 분할하는 단계, 각 시퀀스에 대해, 상기 시퀀스에 속하는 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 그리고 상기 추정된 유량에 기초하여, 상기 추정된 총 공기 체적 중 각각을 계산함으로써, 상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계, 및 상기 추정된 총 공기 체적에 응답하여, 경고를 생성하는 단계를 포함한다.

Description

음성 분석을 통한 폐 용적 추정

본 발명은 일반적으로 의료 진단 분야, 특히, 폐 용적의 추정에 관한 것이다.

의료계는 폐 용적의 다양한 측정치를 인정한다. 예를 들어, 폐의 폐활량(VC: vital capacity)은 깊은 흡기 후 폐의 공기 용적과 깊은 호기 후 폐의 공기 체적 간의 차이로 정의된다. 일회 호흡량(TV: tidal volume)은 정상 흡기 후 공기 체적과 정상 호기 후 공기 체적 간의 차이이다. (휴식 중에는, TV가 VC의 10%만큼 낮아질 수 있다.) 전통적으로, 폐 용적은 폐활량계를 사용하여 병원이나 진료소에서 측정되었다. 천식, 만성 폐쇄성 폐 질환(COPD: chronic obstructive pulmonary disease) 및 울혈성 심부전(CHF: congestive heart failure)과 같은 질병을 앓고 있는 환자는 폐 용적 감소를 경험할 수 있다.

미국 특허 출원 공개 2015/0216448(그 내용이 본 명세서에 참조로 포함됨)은 만성 심부전, COPD 또는 천식을 검출하기 위해 사용자의 폐 용적 및 체력을 측정하는 컴퓨터화된 방법 및 시스템을 설명한다. 이 방법은 사용자의 모바일 통신 장치 상에 클라이언트 애플리케이션을 제공하는 단계를 포함하는데, 상기 클라이언트 애플리케이션은 사용자에게 숨을 내쉬는 동안 특정 범위의 음량(데시벨) 내에서 공기와 발화 발성음으로 사용자의 폐를 채우도록 지시하고; 모바일 통신 장치가 상기 사용자의 발성음을 수신하고 등록하고; 발성음의 등록을 중지하고; 상기 음량 범위 내에서 발성음을 수신하는 시간의 길이를 측정하고; 그리고 수신 시간의 길이를 이동 통신 장치 스크린 상에 표시하도록 하는 실행 가능한 컴퓨터 코드를 포함한다.

국제 특허 출원 공개 WO/2017/060828(그 내용이 본 명세서에 참조로 통합됨)은 네트워크 인터페이스 및 프로세서를 포함하는 장치를 설명한다. 이 프로세스는 네트워크 인터페이스를 통해, 과도한 체액 축적과 관련된 폐 질환을 앓고 있는 피험자의 음성을 수신하고, 음성을 분석하여 음성의 하나 이상의 음성 관련 파라미터를 식별하고, 음성 관련 파라미터에 응답하여, 폐 컨디션의 상태를 평가하고, 그리고 그것에 응답하여 폐 컨디션의 상태를 나타내는 출력을 생성하도록 구성된다.

국제 특허 출원 공개 WO/2018/021920은 적어도 제 1 센서 및 제 2 센서로부터 사용자와 연관된 입력 신호를 수신하고 입력 신호의 적어도 일부로부터의 기류의 추정된 형상 및 속도를 판정하도록 구성된 특징 추출 모듈을 포함하는 음성 기류 측정 시스템을 설명한다. 이 시스템은 적어도 사용자의 제 1 기류 내에 위치된 제 1 센서를 포함하는 헤드셋; 적어도 사용자의 제 2 기류 내에 위치하는 제 2 센서; 및 제 2 기류로부터 제 1 센서를 차폐하도록 구성된 차폐 부재를 포함하고, 이 차폐 부재는 사용자가 헤드셋을 사용하는 동안 차폐 부재와 사용자 얼굴 사이에 에어 갭을 제공하도록 구성된다.

미국 특허 출원 공개 2016/0081611은 정보 처리 시스템, 컴퓨터 판독 가능 저장 매체 및 사람의 건강과 관련된 기류를 분석하는 방법을 설명한다. 이 방법은 사람의 언어적 의사소통의 오디오 샘플을 획득하는 단계, 그 사람의 지리 정보를 획득하는 단계, 지리 정보에 기초하여 원격 서버에 질의(querying)하는 단계, 원격 서버로부터 지리 정보와 관련된 추가 정보를 획득하는 단계, 및 일정 시간 기간 동안 적어도 하나의 오디오 샘플로부터 진폭 변화의 윤곽을 추출하는 단계를 포함하고, 이 진폭의 윤곽은 사람의 기류 프로파일의 변화에 대응하여 변화한다. 이 방법은 또한 기류 관련 건강 문제의 전형적인 주기적 에피소드와 진폭 변화의 윤곽을 연관시키는 단계, 및 적어도 추가 정보에 기초하여, 진폭 변화의 윤곽이 지리 정보와 관련된 적어도 하나의 국부적인 환경적 요인으로부터 발생한 것인지 여부를 판정하는 단계를 포함한다 .

미국 특허 6,289,313은 디지털 음성 인코더로부터 출력된 성대 파라미터의 값을 관찰하여 인간의 생리적 및/또는 심리적 상태의 상태를 추정하는 방법을 설명한다. 사용자는 입력 음성을 아날로그에서 디지털 형식으로 변환하고, 파생된 디지털 신호에 대해 음성 인코딩을 수행하고, 추가 분석을 위해 음성 코딩 파라미터의 값을 로컬로 제공하는 장치에 말을 한다. 저장된 수학적 관계(예컨대, 사용자 별 성대 변환 매트릭스)는 메모리로부터 검색되고, 해당 조건 파라미터의 계산에 사용된다. 이러한 계산된 파라미터에 기초하여, 사용자 컨디션의 현재 상태의 추정이 도출될 수 있다.

미국 특허 출원 공개 2015/0126888은 피험자의 강제 호기 조작 소리의 디지털 오디오 파일을 처리하여 호기 흐름 기반 폐 기능 데이터를 생성하는 장치, 시스템 및 방법을 설명한다. 호기 흐름 기반 폐 기능 데이터를 생성하도록 구성된 모바일 장치는 마이크로폰, 프로세서 및 데이터 저장 장치를 포함한다. 마이크로폰은 피험자의 강제 호기 조작 소리를 디지털 데이터 파일로 변환 할 수 있다. 프로세서는 마이크로폰과 작동 가능하게 결합된다. 데이터 저장 장치는 프로세서와 작동 가능하게 결합되고 프로세서에 의해 실행될 때 프로세서가 디지털 데이터 파일을 처리하여 피험자의 폐 기능을 평가하기위한 호기 흐름 기반 폐 기능 데이터를 생성하도록하는 명령을 저장한다. 피험자의 강제 호기 조작 소리는 피험자의 입과 모바일 장치 사이의 접촉없이 디지털 데이터 파일로 변환 될 수 있다.

머튼 올리비아 엠. 등의 "비 대상성 심부전 환자의 음향 음성 분석: 파일럿 연구", 'The Journal of the Acoustical Society of America 142.4(2017):EL401-EL407'은 심장 내 충전 압력 증가와 말초 부종을 특징으로 하는 심부전(HF) 환자를 모니터링하기 위해 음향 음성 분석을 사용한 파일럿 연구를 설명한다. 성대와 폐의 HF 관련 부종은 발성 및 언어 호흡에 영향을 미치는 것으로 가정되었다. 음성 섭동 및 음성 호흡 특성의 음향 측정은 입원 환자 이뇨 치료를 받고 있는 10 명의 HF 환자으로부터 매일 기록된 지속적인 모음 및 음성 구절로부터 계산되었다. 치료 후, 환자는 자동으로 식별된 쉰 목소리(creaky voice)의 더 높은 비율, 기본 주파수 증가 및 켑스트럴(cepstral) 피크 돌출 변화 감소를 보였으며, 이는 음성 바이오마커가 HF의 초기 지표가 될 수 있음을 시사한다.

본 발명의 일부 실시 예에 따르면, 회로 및 하나 이상의 프로세서를 포함하는 시스템이 제공된다. 프로세서는 회로로부터 하나 이상의 음성 세그먼트를 포함하는, 피험자에 의해 발화된 음성을 나타내는 음성 신호를 수신하는 단계를 포함하는 프로세스를 협력적으로 수행하도록 구성된다. 프로세스는 또한 프레임의 하나 이상의 시퀀스가 각각 음성 세그먼트를 나타내도록 음성 신호를 다중 프레임으로 분할하는 단계를 더 포함한다. 프로세스는 또한 각 시퀀스에 대해 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬었던 각각의 추정된 유량을 계산하고, 그리고 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써, 음성 세그먼트가 발화되는 동안 피험자가 내쉬었던 각각의 추정된 총 공기 체적을 계산하는 단계를 포함한다. 프로세스는 또한 추정된 총 공 체적에 응답하여, 경고를 생성하는 단계를 포함한다.

일부 실시 예에서, 회로는 네트워크 인터페이스를 포함한다.

일부 실시 예에서, 회로는 음성을 나타내는 아날로그 신호를 음성 신호로 변환하도록 구성된 아날로그-디지털 변환기를 포함한다.

일부 실시 예에서, 하나 이상의 프로세서는 단일 프로세서로 구성된다.

일부 실시 예에서, 각 프레임의 지속 시간은 5 내지 40ms이다.

일부 실시 예에서,

하나 이상의 음성 세그먼트는 각각의 휴지기(pause) 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고

프로세스는 또한 음성 세그먼트를 나타내는 프레임의 시퀀스와 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 프레임의 시퀀스를 식별하는 단계를 포함한다.

일부 실시 예에서, 각각의 추정된 유량을 계산하는 것은, 시퀀스에 속하는 프레임의 각 프레임에 대해:

프레임의 하나 이상의 특징을 계산하는 단계, 및

특징들 중 적어도 하나를 추정된 유량에 매핑하는 함수를 특징들 중 적어도 하나에 적용함으로써 추정된 유량을 계산하는 단계를 포함한다.

일부 실시 예에서, 프로세스는 신호를 수신하는 단계 이전에,

피험자가 발화 한 다른 음성을 나타내는 교정 음성 신호를 수신하는 단계,

다른 음성을 발화하는 동안 피험자가 내쉬는 공기의 측정된 유량을 나타내는 기류 유량 신호를 수신하는 단계, 및

교정 음성 신호 및 기류 유량 신호를 사용하여 적어도 하나의 특징을 추정 된 유량에 매핑하는 함수를 학습하는 단계를 더 포함한다.

일부 실시 예에서, 특징 중 적어도 하나는 프레임의 에너지를 포함한다.

일부 실시 예에서, 함수는 특징 중 적어도 하나의 다항 함수이다.

일부 실시 예에서, 프로세스는:

특징에 기초하여, 프레임이 속한 음향 음성 유닛(APU: acoustic-phonetic unit)을 식별하는 단계, 및

APU에 응답하여 함수를 선택하는 단계를 더 포함한다.

일부 실시 예에서, APU의 유형은 음소(phoneme), 다이폰(diphone), 트라이폰(triphone) 및 합성 음향 유닛으로 구성된 APU 유형의 그룹으로부터 선택된다.

일부 실시 예에서,

하나 이상의 음성 세그먼트는 복수의 음성 세그먼트를 포함하고,

프로세스는 추정된 총 공기 체적의 하나 이상의 통계치를 계산하는 단계를 더 포함하고, 그리고

경보를 생성하는 단계는 기준 통계치에서 벗어난 통계치 중 적어도 하나에 응답하여 경보를 생성하는 단계를 포함한다.

일부 실시 예에서, 음성은 피험자가 누워있는 동안 피험자에 의해 발화된다.

일부 실시예에서, 프로세스는:

피험자가 누워 있지 않은 동안 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하는 단계, 및

다른 음성 신호로부터 기준 통계치를 계산하는 단계를 더 포함한다.

일부 실시 예에서, 프로세스는 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 기준 통계치를 계산하는 단계를 더 포함한다.

일부 실시예에서, 통계치 중 적어도 하나는 평균, 표준 편차 및 백분위수(percentile)로 구성된 통계치 그룹으로부터 선택된 통계치이다.

일부 실시 예에서, 음성은 오디오 센서에 의해 캡처되고, 프로세스는 각각의 추정된 총 공기 체적을 계산하는 단계 이전에, 음성이 발화되는 동안 획득된 입의 이미지에 기초하여 피험자의 입에 대한 오디오 센서의 위치를 고려하도록 음성 신호를 정규화하는 단계를 더 포함한다.

본 발명의 일부 실시 예에 따르면, 네트워크 인터페이스 및 프로세서를 포함하는 장치가 더 제공된다. 프로세서는 하나 이상의 음성 세그먼트를 포함하는, 피험자에 의해 발화된 음성을 나타내는 음성 신호를 네트워크 인터페이스를 통해 수신하도록 구성된다. 프로세서는 또한 프레임의 하나 이상의 시퀀스가 음성 세그먼트를 각각 나타내도록 음성 신호를 복수의 프레임으로 분할하도록 구성된다. 프로세서는 또한 각 시퀀스에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써, 음성 세그먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 최적을 계산하도록 더 구성된다. 프로세서는 추정된 총 공기 체적에 응답하여 경고를 생성하도록 더 구성된다.

일부 실시 예에서, 각 프레임의 지속 시간은 5 내지 40ms이다.

일부 실시 예에서,

하나 이상의 음성 세그먼트는 각각의 휴지기 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고

프로세서는 또한 음성 세그먼트를 나타내는 프레임의 시퀀스와 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 프레임의 시퀀스를 식별하도록 구성된다.

일부 실시 예에서, 프로세서는 시퀀스에 속하는 프레임의 각 프레임에 대해,

프레임의 하나 이상의 특징을 계산하고, 그리고

특징들 중 적어도 하나를 추정된 유량에 매핑하는 함수를 특징들 중 적어도 하나에 적용함으로써 추정된 유량을 계산함으로써, 각각의 추정된 유량을 계산하도록 구성된다.

일부 실시 예에서, 프로세서는 신호를 수신하기 전에:

피험자가 발화한 다른 음성을 나타내는 교정 음성 신호를 수신하고,

다른 음성을 발화하는 동안 피험자가 내쉬는 공기의 측정된 유량을 나타내는 기류 유량 신호를 수신하고,

교정 음성 신호 및 기류 유량 신호를 사용하여, 특징 중 적어도 하나를 추정 된 유량에 매핑하는 함수를 학흡하도록 더 구성된다.

일부 실시 예에서, 프로세서는

특징에 기초하여, 프레임이 속한 음향 음성 유닛(APU)를 식별하고, 그리고

APU에 응답하여 함수를 선택하도록 더 구성된다.

일부 실시 예에서, APU의 유형은 음소, 다이폰, 트라이폰 및 합성 음향 유닛으로 구성된 APU 유형의 그룹으로부터 선택된다.

일부 실시 예에서,

프로세서는 추정된 총 공기 체적에 대한 하나 이상의 통계치를 계산하도록 추가로 구성되고, 그리고

프로세서는 기준 통계치에서 벗어나는 통계치 중 적어도 하나에 응답하여 경고를 생성하도록 구성된다.

일부 실시 예에서, 프로세서는

피험자가 누워 있지 않은 동안 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하고, 그리고

다른 음성 신호로부터 기준 통계치를 계산하도록 더 구성된다.

일부 실시 예에서, 통계치 중 적어도 하나는 평균, 표준 편차 및 백분위수로 구성된 통계치 그룹으로부터 선택된 통계치이다.

일부 실시 예에서, 프로세서는 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 기준 통계치를 계산하도록 더 구성된다.

일부 실시예에서, 음성은 오디오 센서에 의해 캡처되고, 프로세서는 각각의 추정된 총 공기 체적을 계산하기 전에, 음성이 발화되는 동안 획득한 입의 이미지에 기초하여 피험자의 입에 대한 오디오 센서의 위치를 고려하도록 음성 신호를 정규화하도록 더 구성된다.

또한, 본 발명의 일부 실시 예에 따라, 하나 이상의 음성 세그먼트를 포함하는, 피험자가 발화한 음성을 나타내는 아날로그 신호를 디지털 음성 신호로 변환하도록 구성된 아날로그-디지털 변환기를 포함하는 시스템이 제공된다. 이 시스템은 프로세스를 협력적으로 수행하도록 구성된 하나 이상의 프로세서를 더 포함하며, 여기서 프로세스는 아날로그-디지털 변환기로부터 음성 신호를 수신하는 단계, 프레임의 하나 이상의 시퀀스가 각각 음성 세그먼트를 나타내도록 음성 신호를 복수의 프레임으로 분할하는 단계, 각각의 시퀀스의 대하여, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여 추정된 총 공기 체적 중 각각을 계산함으로써, 음성 세그먼트가 발화되는 동안 피험자가 내쉬는 각각의 예상 총 공기 체적을 계산하는 단계 및 추정된 총 공기 체적에 응답하여 경보를 생성하는 단계를 포함한다.

본 발명의 일부 실시 예에 따르면, 하나 이상의 음성 세그먼트를 포함하는, 피험자가 발화한 음성을 나타내는 음성 신호를 수신하는 단계를 포함하는 방법이 더 제공된다. 이 방법은 또한 프레임의 하나 이상의 시퀀스가 음성 세그먼트를 각각 나타내도록 음성 신호를 복수 프레임으로 분할하는 단계를 포함한다. 이 방법은 또한 각 시퀀스에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써 음성 세스먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계를 더 포함한다. 이 방법은 추정된 총 공기 체적에 응답하여 경보를 생성하는 단계를 더 포함한다.

또한, 본 발명의 일부 실시 예에 따르면, 프로그램 명령을 저장하는 유형의 비 일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 소프트웨어 제품이 제공된다. 이 명령은 프로세서에 의해 판독될 때, 프로세서로 하여금, 하나 이상의 음성 세그먼트를 포함하는, 피험자가 발화한 음성을 나타내는 음성 신호를 수신하고, 프레임의 하나 이상의 시퀀스가 음성 세그먼트를 각각 나타내도록 음성 신호를 복수 프레임으로 분할하고, 각 시퀀스에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써 음성 세스먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하고, 그리고 추정된 총 공기 체적에 응답하여 경보를 생성하도록 만든다. 본 발명은 도면과 함께 아래의 실시 예에 대한 상세한 설명을 읽을 때 보다 완전히 이해될 것이다.

도 1은 본 발명의 일부 실시 예에 따른 피험자의 폐 용적을 측정하기 위한 시스템의 개략도이다.
도 2-3은 본 발명의 일부 실시 예에 따른 도 1의 시스템을 교정하기 위한 기술을 개략적으로 도시한다.
도 4는 본 발명의 일부 실시 예에 따른 음성 신호 처리의 개략도이다.

(소개)

말하는 동안 사람은 짧은 호흡을 멈추는 동안 숨을 들이 쉬는 경향이 있는 반면, 호기(exhalation)는 연장되고 조절된다. 본 명세서에 사용된 용어 "음성 호기 용적"(SEV)은 호흡 일시 중지한 직후 폐에 있는 공기의 체적과 다음 호흡 일시 중지 직전에 폐에 있는 공기의 체적 사이의 차이를 의미한다. SEV는 일반적으로 휴지 상태에서의 TV보다 훨씬 크고 VC의 25%만큼 클 수 있다. SEV는 일반적으로 음성의 크기, 음성의 음성 성분(phonetic content) 및 음성의 운율(prosody)에 기초하여 호흡마다 다르다.

아래 설명에서, 벡터를 나타내는 심볼에는 밑줄이 그어져 있다. 예를 들어, 표기 "x"는 벡터를 나타낸다.

(개요)

폐 질환을 앓고 있는 많은 환자들은 환자의 상태가 악화되는 경우 조기 의학적 개입을 가능하게 하기 위해 정기적으로, 종종 심지어 매일, 그들의 폐 용적을 모니터링 받아야 한다. 그러나, 병원 또는 진료소에서의 정기적인 폐활량계 검사는 불편하고 비용이 많이들 수 있다.

따라서, 본 발명의 실시예는, 특히, 환자의 SEV는 환자가 진료소에 방문할 필요없이 효과적이고 편리한, 환자의 폐 용적을 측정하는 절차를 제공한다. 이 절차는 임의의 의료진의 직접적인 개입없이 환자 집에서 전화(예컨대, 스마트 폰 또는 기타 휴대폰), 태블릿 컴퓨터 또는 임의의 다른 적절한 장치를 사용하여 환자가 직접 수행할 수 있다.

보다 구체적으로, 여기에 설명된 실시 예에서, 환자의 음성은 장치에 의해 캡처된다. 그 다음, 음성은 자동으로 분석되고, 캡처된 음성으로부터 환자의 평균 SEV와 같은, 환자의 SEV와 관련된 통계치가 계산된다. 그 후, 이 통계치는 환자의 상태가 안정된 동안 수행된 이전 세션의 통계치와 같은 기준 통계치와 비교된다. 비교가 폐 용적의 감소를 나타낸다면, 그리고 따라서 환자의 상태가 악화되었다면, 경보가 생성된다.

위에서 설명한 절차에 앞서, 병원 또는 진료소에서는 일반적으로 교정 절차가 수행된다. 교정하는 동안, 환자는 마이크에 대고 말하고, 예컨대, 호흡기류계(pneumotachograph 또는 pneumotach)에 의해 환자의 순간 기류 유량이 측정된다. 환자의 음성 신호가 샘플링되고 디지털화된 후, 동일한 크기의 프레임 {x ₁, x ₂,… x _N}으로 분할되는데, 각 프레임은 일반적으로 길이가 5 내지 40ms(예컨대, 10 - 30ms)이고, 복수의 샘플을 포함한다. 그 다음, 각 프레임 x _n에서 특징 벡터 v _n가 추출된다. 그 후, 프레임의 특징으로부터 주어진 음성 프레임 동안 내쉬는 공기의 유량을 예측하는 음성 대 기류 유량 함수 Φ(v)는 특징 벡터 {v ₁, v ₂,… v _N} 및 호흡기류계 측정에서 파생된 대응하는 기류 유량 {Φ₁, Φ₂,… Φ_N}를 기초로 하여 학습된다.

예를 들어, 특징 벡터는 프레임의 총 에너지인 단일 수량,

만 포함할 수 있다. 이러한 실시 예에서, 음성 대 기류 유량 함수 Φ(v) = Φ(u)는 프레임 에너지에 대한 기류 유량을 회귀(regress)함으로써 학습될 수 있다. 따라서, 예를 들어, 이 함수는 Φ_U(u) = b₀ + b₁u + b₂u² +… + b_qu^q 형식의 다항식일 수 있다.

대안으로서, 특징 벡터는 프레임의 다른 특징을 포함할 수 있다. 이러한 특징에 기초하여, 음성 인식 기술을 사용하여, 각 프레임 또는 프레임의 시퀀스는 음소(phoneme), 다이폰(diphone), 트리폰(triphone) 또는 합성 음향 유닛과 같은 음향-음성 유닛(APU: acoustic-phonetic unit)에 매핑될 수 있다. 즉, 프레임 시퀀스 {x ₁, x ₂,… x _N}은 APU 시퀀스{y₁, y₂,… h₂,… h_M}에 맵핑될 수 있고, 여기서 R ≤ N인데, 이것은 고유한 APU의 세트{h₁, h₂, … h_M}로부터 도출된 것이다. 이어서, 프레임이 속한 APU(h)에 따라 달라지는 음성 대 기류 유량 함수 Φ(v) = Φ(u|h)가 학습될 수 있다. 예를 들어, 이 기류는 각 APU에 대해 상이한 다항식 계수 세트 {b₀, b₁,… b_q}가 얻어지도록, 각 APU에 대해 개별적으로 프레임 에너지에 대해 회귀될 수 있다. 따라서, 유리하게는, 음성 대 기류 유량 함수는 음성의 에너지뿐만 아니라 위에서 설명한 바와 같이 SEV에 영향을 미치는 음성의 성분도 고려할 수 있다.

교정 절차 후, 위에서 설명한대로 환자의 음성이 캡처된다. 캡처된 음성은 교정 절차에 대해 위에서 설명한대로 프레임으로 분할된다. 그 후, 각 프레임으로부터 특징 벡터, v _n가 추출되고 흡입 일시 중지가 식별된다. 연속적인 흡입 일시 정지 사이에 위치한 각 음성 프레임 시퀀스 {x ₁, x ₂,… x _L}는 상이한 각각의 단일 호기 음성 세그먼트(SESS)로서 식별된다. 그 후, 각 SESS에 대해 SEV가 계산된다. 특히, SESS의 특징 벡터 {v ₁, v ₂,… v _L}가 주어지면, SEV는

로 계산될 수 있고, 여기서 TL SESS의 지속 기간이다. 따라서, M개의 SESS가 주어지면, M개의 SEV 값{SEV₁, SEV₂,… SEV_M}이 계산된다.

그 후, SEV 값에 대한 통계치가 계산된다. 이러한 통계치는, 예를 들어, 평균, 중앙값, 표준 편차, 최대값 또는 80번째 백분위수와 같은 다른 백분위수를 포함할 수 있다. 위에서 설명한 바와 같이, 이러한 통계치는, 예를 들어, 통계치 간의 다양한 차이 또는 비율을 계산함으로써, 이전 분석의 통계치와 비교될 수 있다. 비교가 환자 상태의 악화를 나타내면, 알람이 발생될 수 있다. 예를 들어, 환자의 평균 SEV의 현저한 감소에 응답하여, 알람이 발생될 수 있다.

어떤 경우, 환자는 환자의 의학적 상태의 악화를 더 잘 나타낼 수 있는 자세로 말하도록 지시 받을 수 있다. 예를 들어, CHF는 종종 기좌호흡(orthopnea)(즉, 누울 때 숨가쁨)을 동반하므로, CHF 환자의 폐 기능의 작은 변화는 환자가 누워있을 때만 감지할 수 있다. 따라서, CHF 환자에 대한 보다 효과적인 진단을 위해, 환자는 누운 상태(예컨대, 앙와위(supine position)로 말하도록 지시받을 수 있다. 이 자세에 대해 계산된 SEV 통계치는 다른 자세(예컨대, 앉은 자세)에 대해 계산된 SEV 통계치와 비교될 수 있으며, 누워있는 자세에 대해 더 낮은 SEV가 관찰되면 알람이 발생될 수 있다. 대안으로서 또는 추가적으로, 누워 있는 자세에 대한 SEV 통계치 및/또는 누워 있는 자세와 다른 자세 사이의 불일치는 이전 세션과 비교될 수 있으며, 이에 응답하여 알람이 발생될 수 있다.

본 명세서에 기술된 실시예는 CHF, COPD, 간질성 폐 질환(ILD), 천식, 급성 호흡 곤란 증후군(ARDS), 파킨슨 병, 근 위축성 측삭 경화증(ALD), 또는 낭포성 섬유증(CF)과 같이 폐 용적에 영향을 미치는 모든 유형의 질환을 가진 환자에게 적용될 수 있다.

(시스템 설명)

먼저, 본 발명의 일부 실시 예에 따라 피험자(22)의 폐 용적을 측정하기 위한 시스템(20)의 개략도인 도 1을 참조한다.

시스템(20)은 피험자(22)에 의해 사용되는 휴대 전화, 태블릿 컴퓨터, 랩톱 컴퓨터 또는 데스크톱 컴퓨터와 같은 오디오 수신 장치(32)를 포함한다. 장치(32)는 오디오 센서(38)(예컨대, 마이크로폰), 프로세서(36) 및 일반적으로 A/D(Audio-to-Digital) 변환기(42) 및 네트워크 인터페이스 컨트롤러(NIC)(34)와 같은 네트워크 인터페이스를 포함하는 기타 회로를 포함한다. 일반적으로, 장치(32)는 솔리드 스테이트 플래시 드라이브와 같은 디지털 저장 장치, 스크린(예를 들어, 터치 스크린) 및/또는 키보드와 같은 다른 사용자 인터페이스 구성 요소를 더 포함한다. 일부 실시 예에서, 오디오 센서(38)(및 선택적으로 A/D 변환기(42))는 장치(32)의 외부에 있는 유닛에 속한다. 예를 들어, 오디오 센서(38)는 블루투스 연결과 같은 유선 또는 무선 연결에 의해 장치(32)에 연결된 헤드셋에 속할 수 있다.

시스템(20)은 프로세서(28), 하드 드라이브 또는 플래시 드라이브와 같은 디지털 저장 장치(30)( "메모리"라고도 함) 및 일반적으로 네트워크 인터페이스 컨트롤러(NIC)(26)와 같은 네트워크 인터페이스를 포함하는 다른 회로를 포함하는 서버(40)를 더 포함한다. 서버(40)는 스크린, 키보드 및/또는 임의의 다른 적절한 사용자 인터페이스 구성 요소를 더 포함할 수있다. 일반적으로, 서버(40)는 장치(32)로부터 멀리 떨어져, 예를 들어, 제어 센터에 위치하며, 서버(40) 및 장치(32)는 셀룰러 네트워크 및/또는 인터넷을 포함 할 수있는 그들 각각의 네트워크 인터페이스를 통해, 네트워크(24)를 통해, 서로 통신한다.

일반적으로, 장치(32)의 프로세서(36)와 서버(40)의 프로세서(28)는 아래에서 상세히 설명되는 폐 용적 평가 기술을 협력적으로 수행한다. 예를 들어, 사용자가 장치(32)에 말할 때, 사용자의 음성의 음파는 오디오 센서(38)에 의해 아날로그 음성 신호로 변환될 수 있으며, 이것은 차례로 A/D 변환기(42)에 의해 샘플링되고 디지털화될 수 있다. (일반적으로, 사용자의 음성은 8 내지 45kHz 사이의 레이트와 같은, 임의의 적절한 레이트로 샘플링될 수 있다. 결과적인 디지털 음성 신호는 프로세서(36)에 의해 수신될 수 있다. 프로세서(36)는 프로세서(28)가 NIC(26)로부터 음성 신호를 수신하도록 NIC(34)를 통해 서버(40)에 음성 신호를 전달할 수 있다.

그 후, 도 4를 참조하여 후술되는 바와 같이 음성 신호를 처리함으로써, 프로세서(28)는 피험자에 의해 다양한 음성 세그먼트가 발화되는 동안 피험자(22)에 의해 내쉬어진 총 공기 체적을 추정할 수 있다. 그 다음, 프로세서(28)는 추정된 총 공기 체적의 하나 이상의 통계치를 계산하고, 이들 통계치 중 적어도 하나를 저장 장치(30)에 저장된 기준 통계치와 비교할 수있다. 기준 통계치로부터 벗어나는 통계치 중 적어도 하나에 응답하여, 프로세서(28)는 청각적 또는 시각적 경고와 같은 경고를 생성할 수 있다. 예를 들어, 프로세서(28)는 피험자 및/또는 피험자의 의사에게 전화를 걸거나 문자 메시지를 보낼 수 있다. 대안으로서, 프로세서(28)는 프로세서(36)에 이러한 편차를 통지할 수 있고, 프로세서(36)는 그 다음, 예를 들어, 편차를 피험자에게 알리는 메시지를 장치(32)의 스크린 상에 디스플레이함으로써 경보를 생성할 수 있다.

다른 실시 예에서, 프로세서(36)는 디지털 음성 신호의 처리 중 적어도 일부를 수행한다. 예를 들어, 프로세서(36)는 피험자(22)가 내쉬는 총 공기 체적을 추정한 다음, 이러한 추정된 체적의 통계치를 계산할 수 있다. 그 후, 프로세서(36)는 그 통계치를 프로세서(28)에 전달할 수 있고, 프로세서(28)는 기준치에 대한 비교를 수행하고, 적절한 경우 경고를 생성할 수 있다. 대안으로서, 시스템(20)이 반드시 서버(40)를 포함할 필요가 없도록, 전체 방법이 프로세서(36)에 의해 수행될 수도 있다.

또 다른 실시 예에서, 장치(32)는 A/D 변환기 또는 프로세서를 포함하지 않는 아날로그 전화기를 포함한다. 이러한 실시 예에서, 장치(32)는 전화 네트워크를 통해 오디오 센서(38)로부터의 아날로그 오디오 신호를 서버(40)로 전송한다. 일반적으로, 전화 네트워크에서, 오디오 신호는 디지털화되고 디지털식으로 전달된 다음, 서버(40)에 도달하기 전에 다시 아날로그로 변환된다. 따라서, 서버(40)는 적절한 전화-네트워크 인터페이스를 통해 수신된 입력 아날로그 오디오 신호를 디지털 음성 신호로 변환하는 A/D 변환기를 포함 할 수 있다. 프로세서(28)는 A/D 변환기로부터 디지털 음성 신호를 수신한 다음 그 신호를 본 명세서 설명된 바와 같이 처리한다. 대안으로서, 서버(40)는 신호가 아날로그로 다시 변환되기 전에 전화 네트워크로부터 신호를 수신 할 수 있으므로, 서버는 반드시 A/D 변환기를 포함 할 필요는 없다.

전형적으로, 서버(40)는 복수의 상이한 피험자에 속하는 복수의 장치와 통신하고, 이들 복수의 피험자의 음성 신호를 처리하도록 구성된다. 일반적으로, 저장 장치(30)는 기준 통계치 및/또는 다른 이력 정보가 피험자에 대해 저장되어 있는 데이터베이스를 저장한다. 저장 장치(30)는 도 1에 도시 된 바와 같이 서버(40) 내부에 있거나 서버(40) 외부에 있을 수 있다. 프로세서(28)는 단일 프로세서로서, 또는 협력적으로 네트워크화된 또는 클러스터화된 프로세서의 세트로서 구현될 수 있다. 예를 들어, 제어 센터는 여기에 설명된 기술을 협력적으로 수행하는 각각의 프로세서를 포함하는 상호 연결된 복수의 서버를 포함할 수 있다.

일부 실시 예에서, 프로세서(28) 및/또는 프로세서(36)의 기능은 본 명세서에 설명 된 바와 같이, 예를 들어 하나 이상의 ASIC(Application-Specific Integrated Circuit) 또는 FPGA(Field-Programmable Gate Array)를 사용하여 하드웨어로만 구현된다. 다른 실시 예에서, 프로세서(28) 및 프로세서(36)의 기능은적어도 부분적으로 소프트웨어로 구현된다. 예를 들어, 일부 실시 예에서, 프로세서(28) 및/또는 프로세서(36)는 적어도 중앙 처리 장치(CPU) 및 랜덤 액세스 메모리(RAM)를 포함하는 프로그래밍된 디지털 컴퓨팅 장치로서 구현된다. 소프트웨어 프로그램 및/또는 데이터를 포함한 프로그램 코드는 CPU에서 실행 및 처리하기 위해 RAM에 로드된다. 프로그램 코드 및/또는 데이터는 예를 들어 네트워크를 통해 전자적 형태로 프로세서에 다운로드될 수 있다. 대안으로서 또는 부가적으로, 프로그램 코드 및/또는 데이터는 자기, 광학 또는 전자 메모리와 같은 비 일시적 유형 매체에 제공 및/또는 저장 될 수있다. 이러한 프로그램 코드 및/또는 데이터는 프로세서에 제공 될 때 본 명세서에 설명된 작업을 수행하도록 구성된 기계 또는 특수 목적 컴퓨터를 생성한다.

교정

이제, 본 발명의 일부 실시 예에 따른, 시스템(20)을 교정하기 위한 기술을 개략적으로 예시하는 도 2-3을 참조한다.

피험자(22)의 폐 용적을 측정하기 전에, 서버(40)가 피험자의 말의 특징 벡터 v를 피험자의 폐에서 나오는 공기의 유량 Φ에 매핑하는 함수 Φ(v)를 학습하는 교정 절차가 일반적으로 병원 또는 다른 진료소 환경에서 수행된다. 교정은 피험자의 음성을 캡처하고 동시에 피험자의 폐에서 나오는 기류의 속도를 측정하는 장치를 사용하여 수행되므로, 음성은 기류의 속도와 연관될 수 있다.

예를 들어, 보정은 호흡기류계(44)를 사용하여 수행 될 수 있다. 피험자(22)가 호흡기류계(44)에 말할 때, 예를 들어 마이크와 A/D 변환기를 포함하는 호흡기류계 내부에 배치된 사운드 캡처 유닛(52)은 피험자가 발화한 음성을 캡처하고 발화 한 음성을 나타내는 디지털 교정 음성 신호(56)를 서버(40)로 출력한다. 동시에, 호흡기류계는 음성을 발화하는 동안 피험자가 내쉬는 공기의 유량을 측정한다. 특히, 호흡기류계에 속하는 압력 센서(48)는 호흡기류계 스크린(46)에 대한 근위 및 원위 모두에서 압력을 감지하고, 감지된 압력을 나타내는 각각의 신호를 출력한다. 이러한 신호에 기초하여, 회로(50)는 스크린(46)을 가로 지르는 압력 강하를 계산하고, 그 압력 강하에 비례하는 피험자의 호기 유량을 추가로 계산한다. 회로(50)는 예를 들어 분당 리터 단위로 기류의 속도를 나타내는 디지털 기류 유량 신호(54)를 서버(40)에 출력한다. (회로(50)가 아날로그 신호를 출력하는 경우, 이 신호는 서버(40)에 속하는 A/D 변환기에 의해 디지털 기류-속도 신호(54)로 변환될 수 있다. 호흡기류계(44)는 일본 도쿄의 호야 코포레이션의 펜탁스 메디컬에 의해 제공되는는 'Phonatory Aerodynamic System^TM'과 같은 임의의 적합한 기성 제품을 포함할 수 있다. 사운드 캡쳐 유닛(52)은 호흡기류계의 제조 시 호흡기류계에 통합될 수도 있고, 또는 교정 전에 특별히 설치될 수도 있다.

교정 음성 신호(56) 및 기류 유량 신호(54)를 수신한 후, 서버(40)의 프로세서(28)는 2 개의 신호를 사용하여 Φ(v)를 학습한다. 먼저, 프로세서는 교정 음성 신호를 다수의 교정 신호 프레임(58)으로 분할하고, 각 프레임은 임의의 적절한 지속시간(예를 들어, 5-40ms) 및 임의의 적절한 샘플 수를 갖는다. 일반적으로, 모든 프레임은 동일한 지속시간 및 동일한 샘플 수를 갖는다. (도 3에서 각 프레임의 시작과 끝은 수평 축을 따라 짧은 세로 눈금으로 표시된다.)

다음으로, 프로세서는 프레임(58) 각각에 대한 관련 특징을 계산한다. 이러한 특징은, 예를 들어, 프레임의 에너지, 프레임의 제로 크로싱 레이트, 및/또는 프레임의 스펙트럼 엔벨로프(envelope)를 특징짓는 특징, 예를 들어, 선형 예측 계수(LPC) 또는 프레임의 캡스트럴 계수(cepstral coefficients)를 포함할 수 있으며, 이들은 본 명세서에 참조로서 통합된 푸루이, 사다오키, "디지털 음성 처리:합성 및 인식", CRC Press, 2000에 설명된 바와 같이 계산될 수 있다. 이러한 특징에 기초하여, 프로세서는 프레임의 하나 이상의 상위 레벨 특징을 계산할 수 있다. 예를 들어, 제로 크로싱의 에너지 및 레이트에 기초하여, 프로세서는, 예를 들어, 참조로서 통합된 바추 알. 등의 "에너지 및 제로 크로싱 레이트를 사용한 유성 음성 및 무성 음성 신호 분리", ASEE Regional Conference, West Point, 2008에서 설명된 바와 같이 프레임이 유성 음성 또는 무성 음성을 포함하는지 여부를 나타내는 특징을 계산할 수 있다. 그 후, 프로세서는 프레임에 대한 특징 벡터 v 내의 하나 이상의 계산된 특징을 포함한다.

추가적으로, 각각의 프레임에 대해, 프로세서는 예를 들어, 프레임에 걸쳐 있는 인터벌 상의 기류 유량 신호(54)의 중앙값을 평균화하거나 취하거나, 프레임의 중앙에서 신호(54)의 값을 취함으로써 기류 유량 Φ를 계산한다. 그 다음, 프로세서는 특징과 기류 유량 값 간의 상관 관계를 학습한다.

예를 들어, 프로세서는 교정 음성 신호(56)로부터 각각의 프레임의 각각의 프레임 에너지 u를 포함하는 프레임 에너지 신호(60)를 도출할 수 있다. 다음으로, 프로세서는 프레임 에너지에 대한 기류 유량을 회귀시킬 수 있다. 따라서, 프로세서는 Φ_U(u) = b₀ + b₁u + b₂u² +… + b_qu^q 형식의 다항식을 계산할 수 있으며, 이는 임의의 프레임 에너지 u가 주어지면, 추정된 기류 유량 Φ_U(u)을 반환한다. 일반적으로, 이 다항식의 경우 b₀ = 0이다. 일부 실시예에서, q = 2(즉, Φ_U(u)가 2 차 다항식임) 및 b1> 0 이다. 일반적으로, b₁, b₂의 정확한 수치 값 및 임의의 고차 계수는 오디오 센서(38)의 이득, A/D 변환기(42)의 스텝 크기, 기류 및 음성 신호가 표현되는 단위와 같은 다양한 파라미터에 의존한다.

일부 실시 예에서, 프로세서는 음성 인식 기술(예를 들어, 아래에 설명되는 히든 마르코프 모델 기술)을 사용하여 프레임의 특징에 기초하여, 각 프레임 또는 프레임 시퀀스가 속하는 APU h를 식별한다. 그 다음, 프로세서는 각 APU 또는 유사한 APU의 각 그룹에 대해 별도의 매핑 함수 Φ(v|h)를 학습한다.

예를 들어, 전술한 회귀는 각 APU에 대해 개별적으로 수행되어, 각 APU에 대해 각각의 다항식 Φ_U(u)이 학습될 수 있다. 일반적으로 음성 음소, 특히 모음의 경우, 화자는 상대적으로 적은 양의 호기 기류를 사용하여 상대적으로 높은 음성 에너지 레벨을 생성하는 반면, 무성 음소는 동일한 양의 음성 에너지를 생성하기 위해 더 많은 기류를 필요로 한다. 따라서, b₁은 무성 음소에 비해, 무성 음소에 대해 더 클 수 있다(예컨대, 4-10 배 더 클 수 있음). 따라서, 순전히 예시적인 예로서 Φ(u|/a/)(음소 "/a/"의 경우)가 0.2u-0.005u²이면, Φ(u|/s/)는 1.4u-0.06u²일 수 있다. 에너지와 기류 사이의 관계는 Φ가 전자에 대해 더 높은 차수의 항을 포함 할 수 있도록, 지속적인 자음(sustained consonants)에 비해, 명확한 전환을 가진 자음(예컨대, 파열음)에 대해 더 비선형적일 수 있다. 따라서, 위의 예를 계속하면, 파열음 /p/의 경우 Φ(u|/p/)는 u-0.2u²-0.07u³ 일 수 있다.

일반적으로, Φ(v)는 프레임 에너지와 관련하여 위에서 설명한 바와 같이 일변량(univariate) 다항 함수 또는 복수의 특징의 다변량(multivariate) 다항 함수를 포함 할 수 있다. 예를 들어, v는 K 개의 구성요소 v₁, v₂,… v_K(일반적으로 이러한 구성 요소 중 하나인 프레임 에너지)가 포함된 경우 Φ(v)는 b₀ + b₁v₁ +… + b_Kv_K + b₁₁v₁ ² + b₁₂v₁v₂ + … + b_1Kv₁v_K + b₂₂v₂ ² + b₂₃v₂v₃ +… + b_2Kv₂v_K +… + b_KKv_K ²형식의 다변량 2 차 다항식 일 수 있다. 대안으로서 또는 추가적으로, Φ(v)는 삼각 다항식(예를 들어, 프레임 에너지 u의 일변량 삼각 다항식) 또는 지수 함수와 같은 임의의 다른 유형의 함수를 포함할 수 있다.

일부 경우에, 피험자의 입과 사운드 캡처 유닛(52) 사이의 거리(d1)는 피험자의 입과 오디오 센서(38) 사이의 예상 거리(d2)와 상이할 수있다(예를 들어, 더 작을 수있다). 대안으로서 또는 추가적으로, pneumotach는 피험자의 음성 녹음을 방해할 수 있다. 대안으로서 또는 추가적으로, 사운드 캡처 유닛(52)의 속성은 오디오 센서(38)의 속성과 상이할 수 있다.

이러한 차이를 보상하기 위해, 예비 교정 절차가 수행될 수 있다. 이 절차 동안, 적절한 오디오 신호가 스피커로부터 호흡기류계로 재생되어, 오디오 신호가 사운드 캡처 유닛(52)에 의해 기록된다. 동일한 오디오 신호는 또한 호흡기류계없이 재생되고, 스피커로부터 거리(d2)에 배치된 오디오 센서(38)(또는 다른 동일한 오디오 센서)에 의해 기록된다. 이 예비 교정에 기초하여, 사운드 캡처 유닛(52)의 기록을 오디오 센서(38)의 기록에 매핑하는 전달 함수가 학습된다. 그 후, 이 전달 함수는 Φ(v)를 학습하기 전에 신호(56)에 적용된다.

일부 실시 예에서, 위에서 설명된 교정 절차를 사용하여, 각각의 Φ(v)가 각 피험자에 대해 학습된다. (Φ(v)가 APU에 의존하는 실시예의 경우, 교정 동안 피험자로부터 얻은 음성 샘플은 일반적으로 관심있는 각 APU에 대해 충분한 수의 샘플을 포함할 수있을 정도로 충분히 크고 다양하다.) 대안으로서, 피험자-독립적 인 Φ(_v)는 복수의 피험자로부터 얻은 대응하는 음성 및 기류 유량 신호의 큰 세트로부터 도출될 수 있다. 또 다른 대안으로서, Φ(v)는 복수의 피험자의 데이터를 사용하여 초기화될 수 있으며(따라서 관심 있는 모든 APU가 커버됨을 보장하며), 위에서 설명한 교정 절차를 사용하여 각 피험자에 대해 개별적으로 수정될 수 있다.

기류량 추정

이제, 본 발명의 몇몇 실시예에 따른 음성 신호 처리의 개략도인 도 4를 참조한다.

전술한 교정 절차에 이어서, 서버(40)의 프로세서(28)는 Φ(v)를 사용하여 피험자의 음성에 기초하여 피험자(22)의 폐 용적를 추정한다. 특히, 프로세서(28)는 먼저 장치(32)(도 1)를 통해 피험자에 의해 발화된 음성을 나타내는 음성 신호(62)를 수신한다. 그 다음, 프로세서는 음성 신호(62)를 복수의 프레임으로 분할하고, 신호(56)에 대해 도 3을 참조하여 전술한 바와 같이 프레임 각각에 대한 관련 특징을 계산한다. 이어서, 특징에 기초하여, 프로세서는 각각 음성의 음성 세그먼트(개요에서 "SESS"로 지칭됨)를 나타내는 프레임의 시퀀스(66)를 식별한다. 예를 들어, 피험자의 음성은 복수의 음성 세그먼트를 포함할 수 있으며, 음성 세그먼트 동안 피험자는 유성 또는 무성 음성을 생성하고, 음성 세그먼트는 음성이 생성되지 않는 각각의 휴지기(pause)에 의해 서로 분리되어 있어, 신호(62)는 휴지기를 나타내는 다른 프레임(64)에 의해 서로 분리된 복수의 시퀀스(66)를 포함한다. 이 경우, 프로세서는 음성 세그먼트를 나타내는 프레임과 다른 프레임(64)을 구별함으로써 시퀀스(66)를 식별한다. 이를 위해, 프로세서는 프레임을 APU에 매핑하는데 사용되는 것과 동일한 음성 인식 기술을 사용할 수 있다. (즉, 프로세서는 "비-음성" APU에 매핑되지 않은 임의의 프레임을 시퀀스(66)에 속하는 음성 프레임으로서 식별 할 수 있다.) 대안으로, 프로세서는 그 내용이 본 명세서에 참조로서 통합된 라미레즈, 하비에르 등의, "음성 활동 감지-기본 및 음성 인식 시스템 견고성", InTech, 2007에 설명 된 알고리즘과 같은 음성 활동 감지(VAD) 알고리즘을 사용할 수 있다. 각 시퀀스(66)는 단일 호기에 대응하는 것으로 가정되고, 시퀀스 사이의 휴지기는 각각의 흡입(inhalation)에 대응하는 것으로 가정된다.

그 후, 프로세서는 음성 세그먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산한다. 이 계산을 수행하기 위해, 프로세서는 각 시퀀스(66)에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산한 다음, 추정된 유량을 기반으로, 그 시퀀스에 대한 추정된 총 호기 체적(위에서 SEV라고도 함)을 계산한다. 예를 들어, 프로세서는 추정된 유량에 프레임의 지속 시간을 곱한 다음 추적된 볼륨을 적분함으로써, 각 프레임에 대한 추정된 체적을 계산할 수 있다. (시퀀스 내의 프레임이 동일한 지속 시간 인 경우, 이는 추정된 유량의 평균에 시퀀스의 총 지속 시간을 곱하는 것과 같다.)

예를 들어, 도 4는 14 개의 프레임{x ₁, x ₂,… x ₁₄}을 포함하는 예시적인 시퀀스를 보여준다. 이 시퀀스 동안 피험자가 내쉬는 공기의 추정된 총 체적을 계산하기 위해, 프로세서는 먼저 도 3을 참조하여 위에서 설명한 바와 같이, 프레임의 하나 이상의 특징을, 각각의 프레임{x ₁, x ₂,… x ₁₄}에 대해 계산한다. 즉, 프로세서는 특성 벡터 {v ₁, v ₂,… v ₁₄}를 계산하거나, 또는 단일 특징(예컨대, 프레임 에너지)만 사용되는 경우, 특성 스칼라 {v₁, v₂,… v₁₄}를 계산한다. 그 다음, 프로세서는 교정 절차 중에 학습된 적절한 매핑 함수 Φ(v)를 프레임의 특징 중 하나 이상에 적용하여 각 프레임에 대한 추정된 유량을 계산한다. 예를 들어, 프로세서는 프레임의 특징에 기초하여, 프레임이 속한 APU를 식별하고, 그 APU에 응답하여 적절한 매핑 함수를 선택한 다음 선택된 매핑 함수를 적용할 수 있다. 따라서, 프로세서는 추정 유량{Φ(v ₁), Φ(v ₂),… Φ(v ₁₄)}을 얻는다. 마지막으로, 프로세서는 추정된 유량을 사용하여 총 호기 체적을 계산한다.

하나 이상의 계산된 SEV 값에 응답하여, 프로세서는 도 1을 참조하여 전술 한 바와 같이 경보를 생성할 수 있다. 예를 들어, 단일 음성 세그먼트의 경우, 따라서 단일 SEV 값의 경우, 프로세서는 SEV를 기준 SEV와 비교할 수 있다. 현재 SEV가 기준 SEV보다(예를 들어, 미리 정의된 임계 백분율 이상) 작으면 경보가 생성될 수 있다. 대안으로서,(도 4에 예시 된 바와 같이) 복수의 음성 세그먼트의 경우, 프로세서는 SEV의 하나 이상의 통계치를 계산한 다음 이러한 통계치를 각각의 기준 통계치와 비교할 수 있다. (예를 들어, 미리 정의 된 임계 백분율 이상)기준치를 벗어나는 통계치 중 하나 이상에 응답하여, 경보가 생성될 수 있다. 통계치의 예는 평균, 표준 편차 및 50번째 백분위수(즉, 중앙값) 또는 100 번째 백분위 수(즉, 최대 값)와 같은 SEV 값의 적절한 백분위수를 포함한다. 일반적으로 SEV가 호흡마다 다르므로, 복수의 SEV 값의 통계치를 사용하면 보다 정확한 진단이 가능해진다.

일부 실시 예에서, 프로세서는 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 기준 SEV 또는 복수의 SEV의 기준 통계치를 계산한다. 예를 들어, 피험자의 상태가 안정된 이전 시간에 이전 음성이 발화되었을 수 있다.

일부 실시 예에서, 피험자는 누운 상태에서 말하도록 프롬프팅되어 신호(62)는 누운 동안 피험자의 음성을 나타낸다. 이러한 실시예에서, 기준 SEV 또는 기준 통계치는 누워 있지 않은 상태에서 피험자가 발화한 다른 음성으로부터 계산될 수 있다. (이러한 다른 음성은 피험자의 상태가 안정되기 이전 시간에, 또는 현 시간에, 신호(62)를 캡처하기 전 또는 후에 발화되었을 수 있다.) 누워있는 자세와 누워 있지 않은 자세 사이의 차이가 임계 차이를 초과하면, 경보가 생성될 수 있다. 예를 들어, 누워 있지 않은 자세에 대한 관련 통계치(예컨대, 평균 SEV)와 누워 있는 자세에 대한 관련 통계치 간의 백분율 차이가 미리 정의된 임계 백분율보다 크거나, 두 통계치 간의 비율이 미리 정의된 임계치 이상으로 1에서 벗어나는 경우 경고가 생성될 수 있다. 대안으로서 또는 추가적으로, 이 불일치가 이전 시간보다 큰 경우 경고가 생성 될 수 있다. 예를 들어, 피험자의 상태가 안정된 동안, 누워있는 자세에서 피험자의 평균 SEV가 누워 있지 않은 자세에서 보다 단지 5% 더 낮았으나 현재 피험자의 평균 SEV가 누워 있는 자세에서 10% 더 낮으면 경고가 생성될 수 있다.

일부 실시 예에서, 피험자(22)는 각 세션 동안 동일한 미리 정의된 음성을 발하도록 지시받는다. 다른 실시 예에서, 음성은 세션마다 변한다. 예를 들어, 피험자는 각 세션 동안 장치(32)의 스크린으로부터 다양한 개별 텍스트를 읽도록 지시받을 수 있다. 대안으로서, 피험자는 자유롭게 말하도록 지시받을 수 있고, 및/또는 "오늘 기분이 어떠세요?"와 같은 다양한 질문에 대답하도록 지시받을 수 있다. 또 다른 대안으로서, 피험자는 말하도록 프롬프팅되지 않고, 그보다는 피험자가 정상적인 전화 대화와 같은 정상적인 대화에 참여하는 동안 피험자의 음성이 포착될 수도 있다.

일부 실시 예에서, 도 3 및 도 4 모두에 도시된 바와 같이, 프로세서(28)에 의해 정의된 프레임들은 서로 겹치지 않는다. 그보다는 각 프레임의 첫 번째 샘플은 이전 프레임의 마지막 샘플 바로 뒤에 온다. 다른 실시 예에서, 신호(56) 및/또는 신호(62)에서 프레임은 서로 중첩 될 수 있다. 이러한 중첩은 수정될 수 있다. 예를 들어, 20ms의 프레임 기간을 가정하면, 각 프레임의 처음 10ms는 이전 프레임의 마지막 10ms와 겹칠 수 있다. (즉, 프레임에 있는 샘플의 처음 50%가 이전 프레임에 있는 샘플의 마지막 50%일 수 있다.) 대안으로서, 중첩 크기는 신호의 코스에 따라 달라질 수 있다.

일반적으로, 위의 설명에서 가정 한 것처럼 각 프레임은 동일한 지속시간을 갖는다. 대안으로, 프레임 지속 시간은 신호의 코스에 따라 달라질 수 있다. 전술한 기술은 다양한 프레임 기간에 쉽게 적응될 수 있다는 점에 유의한다. 예를 들어, 각 프레임 xn의 에너지

는 프레임의 샘플 수를 설명하기 위해 정규화될 수 있다.

음성 신호 정규화

일반적으로, 오디오 센서(38)에 의해 캡처된 음성의 진폭은 피험자의 입에 대한 오디오 센서의 위치 및 방향에 따라 달라진다. 오디오 센서의 위치 나 방향이 세션마다 다를 경우 서로 다른 세션의 SEV 통계치를 비교해도 의미있는 결과가 나오지 않을 수 있으므로 이는 도전과제을 제시한다.

이러한 문제를 극복하기 위해, 오디오 센서의 위치와 방향은, 예를 들어 피험자에게 장치(32)를 항상 귀에 대도록 지시함으로써, 또는 항상 오디오 센서의 위치와 방향이 고정된 헤드셋을 사용하도록 지시함으로써 고정될 수 있다. 대안으로서, 전술한 바와 같이, 각 세션 동안, 피험자는 피험자가 피험자의 입에 대해 거의 동일한 위치 및 방향으로 항상 장치를 유지하도록 장치(32)의 스크린으로부터 텍스트를 읽도록 지시받을 수 있다.

다른 대안으로서, 추정된 기류 유량을 계산하기 전에, 신호(62)는 예를 들어 피험자의 입에 대한 오디오 센서의 위치 및/또는 방향을 고려하도록 정규화 될 수 있다. 위치 및 방향을 확인하기 위해, 장치(32)에 속하는 카메라는 피험자가 말하는 동안 피험자의 입 이미지를 획득할 수 있으며, 이미지 처리 기술을 사용하여 이미지로부터 오디오 센서의 위치 및/또는 방향을 계산할 수 있다. 대안으로서 또는 추가적으로, 적외선 센서와 같은 장치에 속하는 다른 센서가 이 목적을 위해 사용될 수있다.

보다 구체적으로, 각 프레임 x _n은 정규화 방정식 x _n = G(p _n)^-1 z _n에 따라 신호(62)의 원시 프레임 z _n을 정규화함으로써 계산될 수 있으며, 여기서 p _n은 z _n이 발화되는 동안 피험자의 입에 대한 오디오 센서의 위치 및 방향을 나타내는 벡터이고, G(p _n)은 p _n이 주어졌을 때 오디오 센서로의 사운드 전파 효과를 모델링하는 선형 시불변 연산자이다. (프레임이 정규화되는 특정 위치 및 방향에 대해 G(p _n) = 1이다). G(p _n)은 유한 임펄스 응답(FIR) 시스템 또는 무한 임펄스 응답(IIR) 시스템으로 모델링될 수 있다. 경우에 따라, G(p _n)은 x _n = G(p _n)^-1 z _n이 스칼라 값 함수 g(p _n)에 대해 x _n = z _n/g(p _n)로 감소하도록, 순수 감쇠 시스템으로서 모델링될 수 있다. 일반적으로 G(p _n)은 다양한 방향에서 오디오 센서의 이득과 같은 오디오 센서의 관련 속성과 함께 사운드 전파의 물리적 원리에서 도출될 수 있다.

APU에의 프레임 매핑

일반적으로, 프레임을 APU에 매핑하기 위해 임의의 적절한 기술이 사용될 수 있다. 그러나, 일반적으로 본 발명의 실시예들은 HMM(Hidden Markov Model) 기술, DTW(Dynamic Time Warping) 및 신경망과 같이, 음성 인식에 일반적으로 사용되는 기술을 활용한다. (음성 인식에서, APU에의 프레임 매핑은 일반적으로 최종적으로 폐기되는 중간 출력을 구성한다.) 아래에서는, 음성 인식을 용이하게 하기 위해 음성 생성에 대해 단순화된 확률 모델을 사용하는 HMM 기술에 대해 간략하게 설명한다.

인간의 음성 생산 시스템은 복수의 조음 기관(articulatory organs)을 포함한다. 음성을 생성하는 동안, 생성되는 소리에 따라(예컨대, 각 기관의 위치 및 장력에 따라) 음성 생성 시스템의 상태가 변경된다. HMM 기술은 각 프레임 x_n 동안 음성 생성 시스템이 특정 상태 s_n에 있다고 가정한다. 이 모델은 한 프레임에서 다음 프레임으로의 상태 전환이 마르코프 랜덤 프로세스를 따른다고 가정한다. 즉, 다음 프레임에서 상태의 확률은 현재 프레임의 상태에만 의존한다.

HMM 기법은 확률 밀도 함수(pdf) f_s(v)가 현재 프레임의 상태 "s"에 의해 결정되는 랜덤 벡터의 인스턴스로서 특징 벡터를 처리한다. 따라서, 상태 시퀀스 {s₁, s₂,… s_N}을 알고 있는 경우, 특징 벡터 시퀀스 {v ₁, v ₂,… v _N}의 조건부 pdf는 f_s1(v ₁) * f_s2(v ₂) *… *f_sN(v _N)로 표현될 수 있다.

각 APU는 특정 초기 상태 확률 및 상태 간의 특정 전이 확률과 함께, 특정 상태 시퀀스로 표시된다. (위의 내용에도 불구하고 "합성 음향 장치"로 알려진 한 유형의 APU는 단일 상태만 포함함을 이해해야 한다.) 각 단어는 그 단어를 구성하는 APU의 각 상태 시퀀스를 연결한 상태 시퀀스로 표시된다. 단어가 다른 방식으로 발음될 수 있는 경우, 그 단어는 여러 상태 시퀀스로 표현될 수 있으며, 각 시퀀스는 발음에서 해당 변형이 발생할 가능성에 해당하는 초기 확률을 갖는다. 피험자의 발화를 구성하는 단어가 선험적으로 알려진 경우, 발화는 구성 단어의 각 상태 시퀀스의 연결인 상태 시퀀스로 표현될 수 있다. 그러나, 실제로, 피험자가 특정 텍스트를 읽도록 지시받은 경우에도 피험자가 잘못된 단어를 읽거나 단어를 건너 뛰거나 단어를 반복하는 등 실수를 할 수 있으므로 단어가 선험적으로 알려져있을 가능성은 낮다. 따라서, HMM 상태는 한 단어에서 다음 단어로의 전환 뿐만 아니라 단어 또는 APU의 삽입 또는 삭제를 허용하도록 구성된다. 텍스트가 선험적으로 알려지지 않은 경우, 모든 APU의 상태는 두 번째 APU가 피험자가 말하는 언어의 첫 번째 APU를 따르는 빈도를 반영하는 임의의 두 APU에 대한 전환 확률과 함께 임의의 APU에서 다른 APU 로의 전환을 허용하도록 구성된다.

(위에서 설명한 바와 같이, APU는 예를 들어 음소, 다이폰, 트라이폰 또는 합성 음향 유닛을 포함 할 수 있다. 각 합성 음향 장치는 단일 HMM 상태로 표시된다.) HMM 기술은 또한 상태 시퀀스가 마르코프 시퀀스라고 가정하여, 상태 시퀀스의 선험적 확률은 π[s₁] * a[s₁, s₂] * a[s₂, s₃] *… * a[s_N-1, s_N]로 주어지고, 여기서 π[s1]은 초기 상태가 s₁일 확률이고, a[s_i, s_j]는 s_i를 따르는 s_j에 대한 전이 확률이다. 따라서, 특징 벡터 시퀀스와 상태 시퀀스의 결합 확률은 π[s₁] * a[s1, s₂] * a[s₂, s₃] *… * a[s_N-1, s_N] * f_s1(v₁) * f_s2(v₂) *… * f_sN(v_N)과 같다. HMM 기술은 주어진 특성 벡터 시퀀스 {v₁, v₂,… v_N}에 대해 이 결합 확률을 최대화하는 상태 시퀀스 {s₁, s₂,… s_N}을 찾는다. (이는 예를 들어, Rabiner and Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993에 설명된 비터비(Viterbi) 알고리즘을 사용하여 수행 될 수 있으며, 그 개시 내용은 본 명세서에 참조로 포함된다.) 각 상태가 특정 APU에 해당하기 때문에 HMM 기술은 발화에 대해 APU 시퀀스 {y₁, y₂,… y_R}을 제공한다.

확률 밀도 함수 fs(v)의 파라미터와 초기 및 전환 확률은 대규모 음성 데이터베이스 상에서의 트레이닝에 의해 학습된다. 일반적으로, 이러한 데이터베이스를 구축하려면, HMM 모델이 피험자마다 다르지 않도록 복수의 피험자로부터 음성 샘플을 수집해야 한다. 그럼에도 불구하고, 일반 HMM 모델은 교정 절차 중에 녹음된 피험자의 음성을 기반으로 특정 피험자에 맞게 조정될 수도 있다. 이러한 적응은 폐 용적 추정에 사용되는 음성의 내용이 미리 알고 있고 교정 절차 중에 피험자로부터 이 음성의 샘플 발화를 얻은 경우 특히 유용할 수 있다.

본 발명이 위에서 특별히 도시되고 설명된 것에 제한되지 않는다는 것은 당업자에 의해 인식될 것이다. 오히려, 본 발명의 실시예의 범위는 전술 한 다양한 특징의 조합 및 하위 조합 뿐만 아니라, 전술한 설명을 읽을 때 당업자에게 일어날 수 있는 종래 기술에 없는 변형 및 수정을 모두 포함한다. 본 특허 출원에 참조로 포함된 문서는 본 명세서에서 명시적으로 또는 묵시적으로 만들어진 정의와 상충되는 방식으로 이러한 통합 문서에서 정의된 용어를 제외하고는 출원의 필수 부분으로 간주되어야 하고, 본 명세서의 정의만 고려되어야 한다.

Claims

회로; 및
프로세스를 협력적으로 수행하도록 구성된 하나 이상의 프로세서를 포함하고, 상기 프로세스는:
상기 회로로부터, 피험자가 발화한 음성을 나타내는 음성 신호를 수신하는 단계로서, 상기 음성은 하나 이상의 음성 세그먼트를 포함하는 것인, 상기 음성 신호를 수신하는 단계,
프레임의 하나 이상의 시퀀스가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임으로 분할하는 단계,
각 시퀀스에 대해,
상기 시퀀스에 속하는 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 그리고
상기 추정된 유량에 기초하여, 상기 추정된 총 공기 체적 중 각각을 계산함으로써,
상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계, 및
상기 추정된 총 공기 체적에 응답하여, 경고를 생성하는 단계를 포함하는 것을 특징으로 하는 시스템.@
제 1 항에 있어서, 상기 회로는 네트워크 인터페이스를 포함하는 것을 특징으로 하는 시스템.
제 1 항에 있어서, 상기 회로는 상기 음성을 나타내는 아날로그 신호를 상기 음성 신호로 변환하도록 구성된 아날로그-디지털 변환기를 포함하는 것을 특징으로 하는 시스템.
제 1 항에 있어서, 상기 하나 이상의 프로세서는 단일 프로세서로 구성된 것을 특징으로 하는 시스템.
제 1 항에 있어서, 상기 프레임 각각의 지속 시간은 5 내지 40ms인 것을 특징으로 하는 시스템.
제 1 항에 있어서,
상기 하나 이상의 음성 세그먼트는 각각의 휴지기 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고
상기 프로세스는 상기 음성 세그먼트를 나타내는 프레임의 시퀀스와 상기 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 상기 프레임의 시퀀스를 식별하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 추정 총 공기 체적 중 각각을 계산하는 것은 시퀀스에 속하는 프레임들 중 각 프레임에 대해,
상기 프레임의 하나 이상의 특징을 계산하는 단계, 및
상기 특징 중 적어도 하나를 상기 추정된 유량에 매핑하는 함수를, 상기 특징 중 적어도 하나에 적용함으로써 추정된 유량을 계산하는 단계를 포함하는 것을 특징으로 하는 시스템.
제 7 항에 있어서, 상기 프로세스는 상기 음성 신호를 수신하는 단계 이전에,
상기 피험자에 의해 발화된 다른 음성을 나타내는 교정 음성 신호를 수신하는 단계,
상기 다른 음성을 발화하는 동안 상기 피험자가 내쉬는 공기의 측정 유량을 나타내는 기류 유량 신호를 수신하는 단계, 및
상기 교정 음성 신호 및 상기 기류 유량 신호를 사용하여, 상기 특징 중 적어도 하나를 상기 추정된 유량에 매핑하는 함수를 확습하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
제 7 항에 있어서, 상기 특징 중 적어도 하나는 프레임 에너지를 포함하는 것을 특징으로 하는 시스템.
제 7 항에 있어서, 상기 함수는 상기 특징 중 적어도 하나의 다항 함수인 것을 특징으로 하는 시스템.
제 7 항에 있어서, 상기 프로세서는:
상기 특징에 기초하여, 상기 프레임이 속하는 음향 음성 유닛(APU)을 식별하는 단계; 및
상기 APU에 응답하여 상기 함수를 선택하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
제 11 항에 있어서, 상기 APU의 유형은 음소, 다이폰, 트라이폰 및 합성 음향 유닛으로 구성된 APU 유형의 그룹으로부터 선택되는 것을 특징으로 하는 시스템.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 하나 이상의 음성 세그먼트는 복수의 음성 세그먼트를 포함하고,
상기 프로세스는 상기 추정된 총 공기 체적의 하나 이상의 통계치를 계산하는 단계를 더 포함하고,
상기 경보를 생성하는 단계는 기준 통계치에서 벗어난 통계치 중 적어도 하나에 응답하여 경보를 생성하는 단계를 포함하는 것을 특징으로 하는 시스템
제 13 항에 있어서, 상기 음성은 상기 피험자가 누워 있는 동안 상기 피험자에 의해 발화되는 것을 특징으로 하는 시스템.
제 14 항에 있어서, 상기 프로세스는:
상기 피험자가 누워 있지 않은 동안 상기 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하는 단계, 및
상기 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
제 13 항에 있어서, 상기 프로세스는 상기 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
제 13 항에 있어서, 상기 통계치 중 하나 이상은 평균, 표준 편차 및 백분위 수로 구성된 통계치 그룹에서 선택된 통계치 것을 특징으로 하는 시스템.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 음성은 오디오 센서에 의해 캡처되고, 상기 프로세스는 상기 각각의 추정 총 공기 체적을 계산하는 단계 이전에, 상기 음성이 발화되는 동안 획득한 입의 이미지를 기초로 하여, 상기 피험자의 입에 대한 상기 오디오 센서의 위치를 고려하도록 상기 음성 신호를 정규화하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
피험자에 의해 발화 된 음성을 나타내는 음성 신호를 수신하는 단계로서, 상기 음성은 하나 이상의 음성 세그먼트를 포함하는 것인, 상기 음성 신호를 수신하는 단계;
하나 이상의 프레임의 시퀀스가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임으로 분할하는 단계;
상기 시퀀스 각각에 대하여,
상기 시퀀스에 속하는 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 그리고
상기 추정된 유량에 기초하여, 상기 추정 총 공기 체적 각각을 계산함으로서,
상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계; 및
상기 추정된 총 공기 체적에 응답하여, 경고를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제 19 항에 있어서, 각 프레임의 지속 시간은 5 내지 40ms인 것을 특징으로 하는 방법.
제 19 항에 있어서,
상기 하나 이상의 음성 세그먼트는 각각의 휴지기 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고
상기 방법은 상기 음성 세그먼트를 나타내는 프레임의 시퀀스와 상기 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 프레임의 시퀀스들을 식별하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 19 항 내지 제 21 항 중 어느 한 항에 있어서, 상기 각각의 추정 유속을 계산하는 것은, 상기 시퀀스에 속하는 상기 프레임의 각 프레임에 대하여,
상기 프레임의 하나 이상의 특징을 계산하는 단계; 및
상기 특징 중 적어도 하나를 상기 추정 유량에 매핑하는 함수를, 상기 특징 중 적어도 하나에 적용함으로써 추정 유량을 계산하는 단계
를 포함하는 것을 특징으로 하는 방법.
제 22 항에 있어서, 상기 음성 신호를 수신하는 단계 이전에,
상기 피험자가 발화한 다른 음성을 나타내는 교정 음성 신호를 수신하는 단계;
상기 다른 음성을 발화하는 동안 상기 피험자가 내쉬는 공기의 측정된 유량을 나타내는 기류-유량 신호를 수신하는 단계; 및
상기 교정 음성 신호 및 상기 기류-유량 신호를 사용하여, 상기 특징 중 적어도 하나를 상기 추정된 유량에 매핑하는 함수를 학습하는 단계를
더 포함하는 것을 특징으로 하는 방법.
제 22 항에 있어서, 상기 특징들 중 적어도 하나는 프레임의 에너지를 포함하는 것을 특징으로 하는 방법.
제 22 항에 있어서, 상기 함수는 특성 중 하나 이상의 다항 함수인 것을 특징으로 하는 방법.
제 22 항에 있어서, 상기 특징에 기초하여,
프레임이 속한 음향 음성 유닛(APU)을 식별하는 단계; 및
상기 APU에 따라 상기 함수를 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 26 항에 있어서, 상기 APU의 유형은 음소, 다이폰, 트라이폰 및 합성 음향 유닛로 구성된 APU 유형 그룹에서 선택되는 것을 특징으로 하는 방법.
제 19 항 내지 제 21 항 중 어느 한 항에 있어서,
상기 하나 이상의 음성 세그먼트는 복수의 음성 세그먼트를 포함하고,
상기 방법은 추정된 총 공기 체적의 하나 이상의 통계치를 계산하는 단계를 더 포함하고,
상기 경보를 생성하는 단계는 기준 통계치로부터 벗어난 통계치 중 적어도 하나에 응답하여 경보를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제 28 항에 있어서, 상기 음성은 상기 피험자가 누워있는 동안 상기 피험자에 의해 발화된 것을 특징으로 하는 방법.
제 29 항에 있어서,
상기 피험자가 누워 있지 않은 동안 상기 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하는 단계; 및
상기 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 28 항에 있어서, 상기 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 28 항에 있어서, 상기 통계치 중 하나 이상은 평균, 표준 편차 및 백분위 수로 구성된 통계 그룹에서 선택된 통계치인 것을 특징으로 하는 방법.
제 19 항 내지 제 21 항 중 어느 한 항에 있어서, 상기 음성은 오디오 센서에 의해 캡처되고, 그리고 상기 방법은 상기 각각의 추정된 총 공기 체적을 계산하는 단계 이전에, 상기 음성이 발화되는 동안 획득된 입의 이미지에 기초하여, 상기 피험자의 입에 대한 상기 오디오 센서의 위치를 고려하도록 상기 음성 신호를 정규화하는 단계를 더 포함하는 것을 특징으로 하는 방법.
프로그램 명령을 저장하는 유형의 비 일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 소프트웨어 제품으로서, 상기 프로그램 명령은 프로세서에 의해 판독 될 때 상기 프로세서로 하여금,
피험자가 발화한, 하나 이상의 음성 세그먼트를 포함하는 음성을 나타내는 음성 신호를 수신하고,
프레임의 하나 이상의 시퀀스가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임으로 분할하고,
상기 시퀀스 각각에 대해,
상기 시퀀스에 속한 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유속을 계산하고, 그리고
상기 추정된 유속에 기초하여, 상기 추정된 총 공기 체적 중 각각을 계산함으로써,
상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하고,
상기 추정된 총 공기 체적에 응답하여, 경보를 발생시키도록
만드는 것을 특징으로 하는 프로그램 명령을 저장하는 유형의 비 일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 소프트웨어 제품.