KR20210076921A - 음성 분석을 통한 폐 용적 추정 - Google Patents

음성 분석을 통한 폐 용적 추정 Download PDF

Info

Publication number
KR20210076921A
KR20210076921A KR1020217011820A KR20217011820A KR20210076921A KR 20210076921 A KR20210076921 A KR 20210076921A KR 1020217011820 A KR1020217011820 A KR 1020217011820A KR 20217011820 A KR20217011820 A KR 20217011820A KR 20210076921 A KR20210076921 A KR 20210076921A
Authority
KR
South Korea
Prior art keywords
speech
subject
voice
calculating
flow rate
Prior art date
Application number
KR1020217011820A
Other languages
English (en)
Inventor
일란 디. 샬롬
Original Assignee
코디오 메디칼 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코디오 메디칼 리미티드 filed Critical 코디오 메디칼 리미티드
Publication of KR20210076921A publication Critical patent/KR20210076921A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • A61B5/091Measuring volume of inspired or expired gases, e.g. to determine lung capacity
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7225Details of analog processing, e.g. isolation amplifier, gain or sensitivity adjustment, filtering, baseline or drift compensation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/746Alarms related to a physiological condition, e.g. details of setting alarm thresholds or avoiding false alarms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • A61B5/087Measuring breath flow

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physiology (AREA)
  • Pulmonology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)

Abstract

회로(26, 42) 및 프로세스를 협력적으로 수행하도록 구성된 하나 이상의 프로세서를(28, 36) 포함하는 시스템(20)으로서, 상기 프로세스는 상기 회로로부터, 피험자(22)가 발화한 음성을 나타내는 음성 신호(62)를 수신하는 단계로서, 상기 음성은 하나 이상의 음성 세그먼트를 포함하는 것인, 상기 음성 신호를 수신하는 단계, 프레임의 하나 이상의 시퀀스(66)가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임(64)으로 분할하는 단계, 각 시퀀스에 대해, 상기 시퀀스에 속하는 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 그리고 상기 추정된 유량에 기초하여, 상기 추정된 총 공기 체적 중 각각을 계산함으로써, 상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계, 및 상기 추정된 총 공기 체적에 응답하여, 경고를 생성하는 단계를 포함한다.

Description

음성 분석을 통한 폐 용적 추정
본 발명은 일반적으로 의료 진단 분야, 특히, 폐 용적의 추정에 관한 것이다.
의료계는 폐 용적의 다양한 측정치를 인정한다. 예를 들어, 폐의 폐활량(VC: vital capacity)은 깊은 흡기 후 폐의 공기 용적과 깊은 호기 후 폐의 공기 체적 간의 차이로 정의된다. 일회 호흡량(TV: tidal volume)은 정상 흡기 후 공기 체적과 정상 호기 후 공기 체적 간의 차이이다. (휴식 중에는, TV가 VC의 10%만큼 낮아질 수 있다.) 전통적으로, 폐 용적은 폐활량계를 사용하여 병원이나 진료소에서 측정되었다. 천식, 만성 폐쇄성 폐 질환(COPD: chronic obstructive pulmonary disease) 및 울혈성 심부전(CHF: congestive heart failure)과 같은 질병을 앓고 있는 환자는 폐 용적 감소를 경험할 수 있다.
미국 특허 출원 공개 2015/0216448(그 내용이 본 명세서에 참조로 포함됨)은 만성 심부전, COPD 또는 천식을 검출하기 위해 사용자의 폐 용적 및 체력을 측정하는 컴퓨터화된 방법 및 시스템을 설명한다. 이 방법은 사용자의 모바일 통신 장치 상에 클라이언트 애플리케이션을 제공하는 단계를 포함하는데, 상기 클라이언트 애플리케이션은 사용자에게 숨을 내쉬는 동안 특정 범위의 음량(데시벨) 내에서 공기와 발화 발성음으로 사용자의 폐를 채우도록 지시하고; 모바일 통신 장치가 상기 사용자의 발성음을 수신하고 등록하고; 발성음의 등록을 중지하고; 상기 음량 범위 내에서 발성음을 수신하는 시간의 길이를 측정하고; 그리고 수신 시간의 길이를 이동 통신 장치 스크린 상에 표시하도록 하는 실행 가능한 컴퓨터 코드를 포함한다.
국제 특허 출원 공개 WO/2017/060828(그 내용이 본 명세서에 참조로 통합됨)은 네트워크 인터페이스 및 프로세서를 포함하는 장치를 설명한다. 이 프로세스는 네트워크 인터페이스를 통해, 과도한 체액 축적과 관련된 폐 질환을 앓고 있는 피험자의 음성을 수신하고, 음성을 분석하여 음성의 하나 이상의 음성 관련 파라미터를 식별하고, 음성 관련 파라미터에 응답하여, 폐 컨디션의 상태를 평가하고, 그리고 그것에 응답하여 폐 컨디션의 상태를 나타내는 출력을 생성하도록 구성된다.
국제 특허 출원 공개 WO/2018/021920은 적어도 제 1 센서 및 제 2 센서로부터 사용자와 연관된 입력 신호를 수신하고 입력 신호의 적어도 일부로부터의 기류의 추정된 형상 및 속도를 판정하도록 구성된 특징 추출 모듈을 포함하는 음성 기류 측정 시스템을 설명한다. 이 시스템은 적어도 사용자의 제 1 기류 내에 위치된 제 1 센서를 포함하는 헤드셋; 적어도 사용자의 제 2 기류 내에 위치하는 제 2 센서; 및 제 2 기류로부터 제 1 센서를 차폐하도록 구성된 차폐 부재를 포함하고, 이 차폐 부재는 사용자가 헤드셋을 사용하는 동안 차폐 부재와 사용자 얼굴 사이에 에어 갭을 제공하도록 구성된다.
미국 특허 출원 공개 2016/0081611은 정보 처리 시스템, 컴퓨터 판독 가능 저장 매체 및 사람의 건강과 관련된 기류를 분석하는 방법을 설명한다. 이 방법은 사람의 언어적 의사소통의 오디오 샘플을 획득하는 단계, 그 사람의 지리 정보를 획득하는 단계, 지리 정보에 기초하여 원격 서버에 질의(querying)하는 단계, 원격 서버로부터 지리 정보와 관련된 추가 정보를 획득하는 단계, 및 일정 시간 기간 동안 적어도 하나의 오디오 샘플로부터 진폭 변화의 윤곽을 추출하는 단계를 포함하고, 이 진폭의 윤곽은 사람의 기류 프로파일의 변화에 대응하여 변화한다. 이 방법은 또한 기류 관련 건강 문제의 전형적인 주기적 에피소드와 진폭 변화의 윤곽을 연관시키는 단계, 및 적어도 추가 정보에 기초하여, 진폭 변화의 윤곽이 지리 정보와 관련된 적어도 하나의 국부적인 환경적 요인으로부터 발생한 것인지 여부를 판정하는 단계를 포함한다 .
미국 특허 6,289,313은 디지털 음성 인코더로부터 출력된 성대 파라미터의 값을 관찰하여 인간의 생리적 및/또는 심리적 상태의 상태를 추정하는 방법을 설명한다. 사용자는 입력 음성을 아날로그에서 디지털 형식으로 변환하고, 파생된 디지털 신호에 대해 음성 인코딩을 수행하고, 추가 분석을 위해 음성 코딩 파라미터의 값을 로컬로 제공하는 장치에 말을 한다. 저장된 수학적 관계(예컨대, 사용자 별 성대 변환 매트릭스)는 메모리로부터 검색되고, 해당 조건 파라미터의 계산에 사용된다. 이러한 계산된 파라미터에 기초하여, 사용자 컨디션의 현재 상태의 추정이 도출될 수 있다.
미국 특허 출원 공개 2015/0126888은 피험자의 강제 호기 조작 소리의 디지털 오디오 파일을 처리하여 호기 흐름 기반 폐 기능 데이터를 생성하는 장치, 시스템 및 방법을 설명한다. 호기 흐름 기반 폐 기능 데이터를 생성하도록 구성된 모바일 장치는 마이크로폰, 프로세서 및 데이터 저장 장치를 포함한다. 마이크로폰은 피험자의 강제 호기 조작 소리를 디지털 데이터 파일로 변환 할 수 있다. 프로세서는 마이크로폰과 작동 가능하게 결합된다. 데이터 저장 장치는 프로세서와 작동 가능하게 결합되고 프로세서에 의해 실행될 때 프로세서가 디지털 데이터 파일을 처리하여 피험자의 폐 기능을 평가하기위한 호기 흐름 기반 폐 기능 데이터를 생성하도록하는 명령을 저장한다. 피험자의 강제 호기 조작 소리는 피험자의 입과 모바일 장치 사이의 접촉없이 디지털 데이터 파일로 변환 될 수 있다.
머튼 올리비아 엠. 등의 "비 대상성 심부전 환자의 음향 음성 분석: 파일럿 연구", 'The Journal of the Acoustical Society of America 142.4(2017):EL401-EL407'은 심장 내 충전 압력 증가와 말초 부종을 특징으로 하는 심부전(HF) 환자를 모니터링하기 위해 음향 음성 분석을 사용한 파일럿 연구를 설명한다. 성대와 폐의 HF 관련 부종은 발성 및 언어 호흡에 영향을 미치는 것으로 가정되었다. 음성 섭동 및 음성 호흡 특성의 음향 측정은 입원 환자 이뇨 치료를 받고 있는 10 명의 HF 환자으로부터 매일 기록된 지속적인 모음 및 음성 구절로부터 계산되었다. 치료 후, 환자는 자동으로 식별된 쉰 목소리(creaky voice)의 더 높은 비율, 기본 주파수 증가 및 켑스트럴(cepstral) 피크 돌출 변화 감소를 보였으며, 이는 음성 바이오마커가 HF의 초기 지표가 될 수 있음을 시사한다.
본 발명의 일부 실시 예에 따르면, 회로 및 하나 이상의 프로세서를 포함하는 시스템이 제공된다. 프로세서는 회로로부터 하나 이상의 음성 세그먼트를 포함하는, 피험자에 의해 발화된 음성을 나타내는 음성 신호를 수신하는 단계를 포함하는 프로세스를 협력적으로 수행하도록 구성된다. 프로세스는 또한 프레임의 하나 이상의 시퀀스가 각각 음성 세그먼트를 나타내도록 음성 신호를 다중 프레임으로 분할하는 단계를 더 포함한다. 프로세스는 또한 각 시퀀스에 대해 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬었던 각각의 추정된 유량을 계산하고, 그리고 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써, 음성 세그먼트가 발화되는 동안 피험자가 내쉬었던 각각의 추정된 총 공기 체적을 계산하는 단계를 포함한다. 프로세스는 또한 추정된 총 공 체적에 응답하여, 경고를 생성하는 단계를 포함한다.
일부 실시 예에서, 회로는 네트워크 인터페이스를 포함한다.
일부 실시 예에서, 회로는 음성을 나타내는 아날로그 신호를 음성 신호로 변환하도록 구성된 아날로그-디지털 변환기를 포함한다.
일부 실시 예에서, 하나 이상의 프로세서는 단일 프로세서로 구성된다.
일부 실시 예에서, 각 프레임의 지속 시간은 5 내지 40ms이다.
일부 실시 예에서,
하나 이상의 음성 세그먼트는 각각의 휴지기(pause) 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고
프로세스는 또한 음성 세그먼트를 나타내는 프레임의 시퀀스와 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 프레임의 시퀀스를 식별하는 단계를 포함한다.
일부 실시 예에서, 각각의 추정된 유량을 계산하는 것은, 시퀀스에 속하는 프레임의 각 프레임에 대해:
프레임의 하나 이상의 특징을 계산하는 단계, 및
특징들 중 적어도 하나를 추정된 유량에 매핑하는 함수를 특징들 중 적어도 하나에 적용함으로써 추정된 유량을 계산하는 단계를 포함한다.
일부 실시 예에서, 프로세스는 신호를 수신하는 단계 이전에,
피험자가 발화 한 다른 음성을 나타내는 교정 음성 신호를 수신하는 단계,
다른 음성을 발화하는 동안 피험자가 내쉬는 공기의 측정된 유량을 나타내는 기류 유량 신호를 수신하는 단계, 및
교정 음성 신호 및 기류 유량 신호를 사용하여 적어도 하나의 특징을 추정 된 유량에 매핑하는 함수를 학습하는 단계를 더 포함한다.
일부 실시 예에서, 특징 중 적어도 하나는 프레임의 에너지를 포함한다.
일부 실시 예에서, 함수는 특징 중 적어도 하나의 다항 함수이다.
일부 실시 예에서, 프로세스는:
특징에 기초하여, 프레임이 속한 음향 음성 유닛(APU: acoustic-phonetic unit)을 식별하는 단계, 및
APU에 응답하여 함수를 선택하는 단계를 더 포함한다.
일부 실시 예에서, APU의 유형은 음소(phoneme), 다이폰(diphone), 트라이폰(triphone) 및 합성 음향 유닛으로 구성된 APU 유형의 그룹으로부터 선택된다.
일부 실시 예에서,
하나 이상의 음성 세그먼트는 복수의 음성 세그먼트를 포함하고,
프로세스는 추정된 총 공기 체적의 하나 이상의 통계치를 계산하는 단계를 더 포함하고, 그리고
경보를 생성하는 단계는 기준 통계치에서 벗어난 통계치 중 적어도 하나에 응답하여 경보를 생성하는 단계를 포함한다.
일부 실시 예에서, 음성은 피험자가 누워있는 동안 피험자에 의해 발화된다.
일부 실시예에서, 프로세스는:
피험자가 누워 있지 않은 동안 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하는 단계, 및
다른 음성 신호로부터 기준 통계치를 계산하는 단계를 더 포함한다.
일부 실시 예에서, 프로세스는 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 기준 통계치를 계산하는 단계를 더 포함한다.
일부 실시예에서, 통계치 중 적어도 하나는 평균, 표준 편차 및 백분위수(percentile)로 구성된 통계치 그룹으로부터 선택된 통계치이다.
일부 실시 예에서, 음성은 오디오 센서에 의해 캡처되고, 프로세스는 각각의 추정된 총 공기 체적을 계산하는 단계 이전에, 음성이 발화되는 동안 획득된 입의 이미지에 기초하여 피험자의 입에 대한 오디오 센서의 위치를 고려하도록 음성 신호를 정규화하는 단계를 더 포함한다.
본 발명의 일부 실시 예에 따르면, 네트워크 인터페이스 및 프로세서를 포함하는 장치가 더 제공된다. 프로세서는 하나 이상의 음성 세그먼트를 포함하는, 피험자에 의해 발화된 음성을 나타내는 음성 신호를 네트워크 인터페이스를 통해 수신하도록 구성된다. 프로세서는 또한 프레임의 하나 이상의 시퀀스가 음성 세그먼트를 각각 나타내도록 음성 신호를 복수의 프레임으로 분할하도록 구성된다. 프로세서는 또한 각 시퀀스에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써, 음성 세그먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 최적을 계산하도록 더 구성된다. 프로세서는 추정된 총 공기 체적에 응답하여 경고를 생성하도록 더 구성된다.
일부 실시 예에서, 각 프레임의 지속 시간은 5 내지 40ms이다.
일부 실시 예에서,
하나 이상의 음성 세그먼트는 각각의 휴지기 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고
프로세서는 또한 음성 세그먼트를 나타내는 프레임의 시퀀스와 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 프레임의 시퀀스를 식별하도록 구성된다.
일부 실시 예에서, 프로세서는 시퀀스에 속하는 프레임의 각 프레임에 대해,
프레임의 하나 이상의 특징을 계산하고, 그리고
특징들 중 적어도 하나를 추정된 유량에 매핑하는 함수를 특징들 중 적어도 하나에 적용함으로써 추정된 유량을 계산함으로써, 각각의 추정된 유량을 계산하도록 구성된다.
일부 실시 예에서, 프로세서는 신호를 수신하기 전에:
피험자가 발화한 다른 음성을 나타내는 교정 음성 신호를 수신하고,
다른 음성을 발화하는 동안 피험자가 내쉬는 공기의 측정된 유량을 나타내는 기류 유량 신호를 수신하고,
교정 음성 신호 및 기류 유량 신호를 사용하여, 특징 중 적어도 하나를 추정 된 유량에 매핑하는 함수를 학흡하도록 더 구성된다.
일부 실시 예에서, 특징 중 적어도 하나는 프레임의 에너지를 포함한다.
일부 실시 예에서, 함수는 특징 중 적어도 하나의 다항 함수이다.
일부 실시 예에서, 프로세서는
특징에 기초하여, 프레임이 속한 음향 음성 유닛(APU)를 식별하고, 그리고
APU에 응답하여 함수를 선택하도록 더 구성된다.
일부 실시 예에서, APU의 유형은 음소, 다이폰, 트라이폰 및 합성 음향 유닛으로 구성된 APU 유형의 그룹으로부터 선택된다.
일부 실시 예에서,
하나 이상의 음성 세그먼트는 복수의 음성 세그먼트를 포함하고,
프로세서는 추정된 총 공기 체적에 대한 하나 이상의 통계치를 계산하도록 추가로 구성되고, 그리고
프로세서는 기준 통계치에서 벗어나는 통계치 중 적어도 하나에 응답하여 경고를 생성하도록 구성된다.
일부 실시 예에서, 음성은 피험자가 누워있는 동안 피험자에 의해 발화된다.
일부 실시 예에서, 프로세서는
피험자가 누워 있지 않은 동안 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하고, 그리고
다른 음성 신호로부터 기준 통계치를 계산하도록 더 구성된다.
일부 실시 예에서, 통계치 중 적어도 하나는 평균, 표준 편차 및 백분위수로 구성된 통계치 그룹으로부터 선택된 통계치이다.
일부 실시 예에서, 프로세서는 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 기준 통계치를 계산하도록 더 구성된다.
일부 실시예에서, 음성은 오디오 센서에 의해 캡처되고, 프로세서는 각각의 추정된 총 공기 체적을 계산하기 전에, 음성이 발화되는 동안 획득한 입의 이미지에 기초하여 피험자의 입에 대한 오디오 센서의 위치를 고려하도록 음성 신호를 정규화하도록 더 구성된다.
또한, 본 발명의 일부 실시 예에 따라, 하나 이상의 음성 세그먼트를 포함하는, 피험자가 발화한 음성을 나타내는 아날로그 신호를 디지털 음성 신호로 변환하도록 구성된 아날로그-디지털 변환기를 포함하는 시스템이 제공된다. 이 시스템은 프로세스를 협력적으로 수행하도록 구성된 하나 이상의 프로세서를 더 포함하며, 여기서 프로세스는 아날로그-디지털 변환기로부터 음성 신호를 수신하는 단계, 프레임의 하나 이상의 시퀀스가 각각 음성 세그먼트를 나타내도록 음성 신호를 복수의 프레임으로 분할하는 단계, 각각의 시퀀스의 대하여, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여 추정된 총 공기 체적 중 각각을 계산함으로써, 음성 세그먼트가 발화되는 동안 피험자가 내쉬는 각각의 예상 총 공기 체적을 계산하는 단계 및 추정된 총 공기 체적에 응답하여 경보를 생성하는 단계를 포함한다.
본 발명의 일부 실시 예에 따르면, 하나 이상의 음성 세그먼트를 포함하는, 피험자가 발화한 음성을 나타내는 음성 신호를 수신하는 단계를 포함하는 방법이 더 제공된다. 이 방법은 또한 프레임의 하나 이상의 시퀀스가 음성 세그먼트를 각각 나타내도록 음성 신호를 복수 프레임으로 분할하는 단계를 포함한다. 이 방법은 또한 각 시퀀스에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써 음성 세스먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계를 더 포함한다. 이 방법은 추정된 총 공기 체적에 응답하여 경보를 생성하는 단계를 더 포함한다.
또한, 본 발명의 일부 실시 예에 따르면, 프로그램 명령을 저장하는 유형의 비 일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 소프트웨어 제품이 제공된다. 이 명령은 프로세서에 의해 판독될 때, 프로세서로 하여금, 하나 이상의 음성 세그먼트를 포함하는, 피험자가 발화한 음성을 나타내는 음성 신호를 수신하고, 프레임의 하나 이상의 시퀀스가 음성 세그먼트를 각각 나타내도록 음성 신호를 복수 프레임으로 분할하고, 각 시퀀스에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 추정된 유량에 기초하여, 추정된 총 공기 체적 중 각각을 계산함으로써 음성 세스먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하고, 그리고 추정된 총 공기 체적에 응답하여 경보를 생성하도록 만든다. 본 발명은 도면과 함께 아래의 실시 예에 대한 상세한 설명을 읽을 때 보다 완전히 이해될 것이다.
도 1은 본 발명의 일부 실시 예에 따른 피험자의 폐 용적을 측정하기 위한 시스템의 개략도이다.
도 2-3은 본 발명의 일부 실시 예에 따른 도 1의 시스템을 교정하기 위한 기술을 개략적으로 도시한다.
도 4는 본 발명의 일부 실시 예에 따른 음성 신호 처리의 개략도이다.
(소개)
말하는 동안 사람은 짧은 호흡을 멈추는 동안 숨을 들이 쉬는 경향이 있는 반면, 호기(exhalation)는 연장되고 조절된다. 본 명세서에 사용된 용어 "음성 호기 용적"(SEV)은 호흡 일시 중지한 직후 폐에 있는 공기의 체적과 다음 호흡 일시 중지 직전에 폐에 있는 공기의 체적 사이의 차이를 의미한다. SEV는 일반적으로 휴지 상태에서의 TV보다 훨씬 크고 VC의 25%만큼 클 수 있다. SEV는 일반적으로 음성의 크기, 음성의 음성 성분(phonetic content) 및 음성의 운율(prosody)에 기초하여 호흡마다 다르다.
아래 설명에서, 벡터를 나타내는 심볼에는 밑줄이 그어져 있다. 예를 들어, 표기 "x"는 벡터를 나타낸다.
(개요)
폐 질환을 앓고 있는 많은 환자들은 환자의 상태가 악화되는 경우 조기 의학적 개입을 가능하게 하기 위해 정기적으로, 종종 심지어 매일, 그들의 폐 용적을 모니터링 받아야 한다. 그러나, 병원 또는 진료소에서의 정기적인 폐활량계 검사는 불편하고 비용이 많이들 수 있다.
따라서, 본 발명의 실시예는, 특히, 환자의 SEV는 환자가 진료소에 방문할 필요없이 효과적이고 편리한, 환자의 폐 용적을 측정하는 절차를 제공한다. 이 절차는 임의의 의료진의 직접적인 개입없이 환자 집에서 전화(예컨대, 스마트 폰 또는 기타 휴대폰), 태블릿 컴퓨터 또는 임의의 다른 적절한 장치를 사용하여 환자가 직접 수행할 수 있다.
보다 구체적으로, 여기에 설명된 실시 예에서, 환자의 음성은 장치에 의해 캡처된다. 그 다음, 음성은 자동으로 분석되고, 캡처된 음성으로부터 환자의 평균 SEV와 같은, 환자의 SEV와 관련된 통계치가 계산된다. 그 후, 이 통계치는 환자의 상태가 안정된 동안 수행된 이전 세션의 통계치와 같은 기준 통계치와 비교된다. 비교가 폐 용적의 감소를 나타낸다면, 그리고 따라서 환자의 상태가 악화되었다면, 경보가 생성된다.
위에서 설명한 절차에 앞서, 병원 또는 진료소에서는 일반적으로 교정 절차가 수행된다. 교정하는 동안, 환자는 마이크에 대고 말하고, 예컨대, 호흡기류계(pneumotachograph 또는 pneumotach)에 의해 환자의 순간 기류 유량이 측정된다. 환자의 음성 신호가 샘플링되고 디지털화된 후, 동일한 크기의 프레임 {x 1, x 2,… x N}으로 분할되는데, 각 프레임은 일반적으로 길이가 5 내지 40ms(예컨대, 10 - 30ms)이고, 복수의 샘플을 포함한다. 그 다음, 각 프레임 x n에서 특징 벡터 v n가 추출된다. 그 후, 프레임의 특징으로부터 주어진 음성 프레임 동안 내쉬는 공기의 유량을 예측하는 음성 대 기류 유량 함수 Φ(v)는 특징 벡터 {v 1, v 2,… v N} 및 호흡기류계 측정에서 파생된 대응하는 기류 유량 {Φ1, Φ2,… ΦN}를 기초로 하여 학습된다.
예를 들어, 특징 벡터는 프레임의 총 에너지인 단일 수량,
Figure pct00001
만 포함할 수 있다. 이러한 실시 예에서, 음성 대 기류 유량 함수 Φ(v) = Φ(u)는 프레임 에너지에 대한 기류 유량을 회귀(regress)함으로써 학습될 수 있다. 따라서, 예를 들어, 이 함수는 ΦU(u) = b0 + b1u + b2u2 +… + bquq 형식의 다항식일 수 있다.
대안으로서, 특징 벡터는 프레임의 다른 특징을 포함할 수 있다. 이러한 특징에 기초하여, 음성 인식 기술을 사용하여, 각 프레임 또는 프레임의 시퀀스는 음소(phoneme), 다이폰(diphone), 트리폰(triphone) 또는 합성 음향 유닛과 같은 음향-음성 유닛(APU: acoustic-phonetic unit)에 매핑될 수 있다. 즉, 프레임 시퀀스 {x 1, x 2,… x N}은 APU 시퀀스{y1, y2,… h2,… hM}에 맵핑될 수 있고, 여기서 R ≤ N인데, 이것은 고유한 APU의 세트{h1, h2, … hM}로부터 도출된 것이다. 이어서, 프레임이 속한 APU(h)에 따라 달라지는 음성 대 기류 유량 함수 Φ(v) = Φ(u|h)가 학습될 수 있다. 예를 들어, 이 기류는 각 APU에 대해 상이한 다항식 계수 세트 {b0, b1,… bq}가 얻어지도록, 각 APU에 대해 개별적으로 프레임 에너지에 대해 회귀될 수 있다. 따라서, 유리하게는, 음성 대 기류 유량 함수는 음성의 에너지뿐만 아니라 위에서 설명한 바와 같이 SEV에 영향을 미치는 음성의 성분도 고려할 수 있다.
교정 절차 후, 위에서 설명한대로 환자의 음성이 캡처된다. 캡처된 음성은 교정 절차에 대해 위에서 설명한대로 프레임으로 분할된다. 그 후, 각 프레임으로부터 특징 벡터, v n가 추출되고 흡입 일시 중지가 식별된다. 연속적인 흡입 일시 정지 사이에 위치한 각 음성 프레임 시퀀스 {x 1, x 2,… x L}는 상이한 각각의 단일 호기 음성 세그먼트(SESS)로서 식별된다. 그 후, 각 SESS에 대해 SEV가 계산된다. 특히, SESS의 특징 벡터 {v 1, v 2,… v L}가 주어지면, SEV는
Figure pct00002
로 계산될 수 있고, 여기서 TL SESS의 지속 기간이다. 따라서, M개의 SESS가 주어지면, M개의 SEV 값{SEV1, SEV2,… SEVM}이 계산된다.
그 후, SEV 값에 대한 통계치가 계산된다. 이러한 통계치는, 예를 들어, 평균, 중앙값, 표준 편차, 최대값 또는 80번째 백분위수와 같은 다른 백분위수를 포함할 수 있다. 위에서 설명한 바와 같이, 이러한 통계치는, 예를 들어, 통계치 간의 다양한 차이 또는 비율을 계산함으로써, 이전 분석의 통계치와 비교될 수 있다. 비교가 환자 상태의 악화를 나타내면, 알람이 발생될 수 있다. 예를 들어, 환자의 평균 SEV의 현저한 감소에 응답하여, 알람이 발생될 수 있다.
어떤 경우, 환자는 환자의 의학적 상태의 악화를 더 잘 나타낼 수 있는 자세로 말하도록 지시 받을 수 있다. 예를 들어, CHF는 종종 기좌호흡(orthopnea)(즉, 누울 때 숨가쁨)을 동반하므로, CHF 환자의 폐 기능의 작은 변화는 환자가 누워있을 때만 감지할 수 있다. 따라서, CHF 환자에 대한 보다 효과적인 진단을 위해, 환자는 누운 상태(예컨대, 앙와위(supine position)로 말하도록 지시받을 수 있다. 이 자세에 대해 계산된 SEV 통계치는 다른 자세(예컨대, 앉은 자세)에 대해 계산된 SEV 통계치와 비교될 수 있으며, 누워있는 자세에 대해 더 낮은 SEV가 관찰되면 알람이 발생될 수 있다. 대안으로서 또는 추가적으로, 누워 있는 자세에 대한 SEV 통계치 및/또는 누워 있는 자세와 다른 자세 사이의 불일치는 이전 세션과 비교될 수 있으며, 이에 응답하여 알람이 발생될 수 있다.
본 명세서에 기술된 실시예는 CHF, COPD, 간질성 폐 질환(ILD), 천식, 급성 호흡 곤란 증후군(ARDS), 파킨슨 병, 근 위축성 측삭 경화증(ALD), 또는 낭포성 섬유증(CF)과 같이 폐 용적에 영향을 미치는 모든 유형의 질환을 가진 환자에게 적용될 수 있다.
(시스템 설명)
먼저, 본 발명의 일부 실시 예에 따라 피험자(22)의 폐 용적을 측정하기 위한 시스템(20)의 개략도인 도 1을 참조한다.
시스템(20)은 피험자(22)에 의해 사용되는 휴대 전화, 태블릿 컴퓨터, 랩톱 컴퓨터 또는 데스크톱 컴퓨터와 같은 오디오 수신 장치(32)를 포함한다. 장치(32)는 오디오 센서(38)(예컨대, 마이크로폰), 프로세서(36) 및 일반적으로 A/D(Audio-to-Digital) 변환기(42) 및 네트워크 인터페이스 컨트롤러(NIC)(34)와 같은 네트워크 인터페이스를 포함하는 기타 회로를 포함한다. 일반적으로, 장치(32)는 솔리드 스테이트 플래시 드라이브와 같은 디지털 저장 장치, 스크린(예를 들어, 터치 스크린) 및/또는 키보드와 같은 다른 사용자 인터페이스 구성 요소를 더 포함한다. 일부 실시 예에서, 오디오 센서(38)(및 선택적으로 A/D 변환기(42))는 장치(32)의 외부에 있는 유닛에 속한다. 예를 들어, 오디오 센서(38)는 블루투스 연결과 같은 유선 또는 무선 연결에 의해 장치(32)에 연결된 헤드셋에 속할 수 있다.
시스템(20)은 프로세서(28), 하드 드라이브 또는 플래시 드라이브와 같은 디지털 저장 장치(30)( "메모리"라고도 함) 및 일반적으로 네트워크 인터페이스 컨트롤러(NIC)(26)와 같은 네트워크 인터페이스를 포함하는 다른 회로를 포함하는 서버(40)를 더 포함한다. 서버(40)는 스크린, 키보드 및/또는 임의의 다른 적절한 사용자 인터페이스 구성 요소를 더 포함할 수있다. 일반적으로, 서버(40)는 장치(32)로부터 멀리 떨어져, 예를 들어, 제어 센터에 위치하며, 서버(40) 및 장치(32)는 셀룰러 네트워크 및/또는 인터넷을 포함 할 수있는 그들 각각의 네트워크 인터페이스를 통해, 네트워크(24)를 통해, 서로 통신한다.
일반적으로, 장치(32)의 프로세서(36)와 서버(40)의 프로세서(28)는 아래에서 상세히 설명되는 폐 용적 평가 기술을 협력적으로 수행한다. 예를 들어, 사용자가 장치(32)에 말할 때, 사용자의 음성의 음파는 오디오 센서(38)에 의해 아날로그 음성 신호로 변환될 수 있으며, 이것은 차례로 A/D 변환기(42)에 의해 샘플링되고 디지털화될 수 있다. (일반적으로, 사용자의 음성은 8 내지 45kHz 사이의 레이트와 같은, 임의의 적절한 레이트로 샘플링될 수 있다. 결과적인 디지털 음성 신호는 프로세서(36)에 의해 수신될 수 있다. 프로세서(36)는 프로세서(28)가 NIC(26)로부터 음성 신호를 수신하도록 NIC(34)를 통해 서버(40)에 음성 신호를 전달할 수 있다.
그 후, 도 4를 참조하여 후술되는 바와 같이 음성 신호를 처리함으로써, 프로세서(28)는 피험자에 의해 다양한 음성 세그먼트가 발화되는 동안 피험자(22)에 의해 내쉬어진 총 공기 체적을 추정할 수 있다. 그 다음, 프로세서(28)는 추정된 총 공기 체적의 하나 이상의 통계치를 계산하고, 이들 통계치 중 적어도 하나를 저장 장치(30)에 저장된 기준 통계치와 비교할 수있다. 기준 통계치로부터 벗어나는 통계치 중 적어도 하나에 응답하여, 프로세서(28)는 청각적 또는 시각적 경고와 같은 경고를 생성할 수 있다. 예를 들어, 프로세서(28)는 피험자 및/또는 피험자의 의사에게 전화를 걸거나 문자 메시지를 보낼 수 있다. 대안으로서, 프로세서(28)는 프로세서(36)에 이러한 편차를 통지할 수 있고, 프로세서(36)는 그 다음, 예를 들어, 편차를 피험자에게 알리는 메시지를 장치(32)의 스크린 상에 디스플레이함으로써 경보를 생성할 수 있다.
다른 실시 예에서, 프로세서(36)는 디지털 음성 신호의 처리 중 적어도 일부를 수행한다. 예를 들어, 프로세서(36)는 피험자(22)가 내쉬는 총 공기 체적을 추정한 다음, 이러한 추정된 체적의 통계치를 계산할 수 있다. 그 후, 프로세서(36)는 그 통계치를 프로세서(28)에 전달할 수 있고, 프로세서(28)는 기준치에 대한 비교를 수행하고, 적절한 경우 경고를 생성할 수 있다. 대안으로서, 시스템(20)이 반드시 서버(40)를 포함할 필요가 없도록, 전체 방법이 프로세서(36)에 의해 수행될 수도 있다.
또 다른 실시 예에서, 장치(32)는 A/D 변환기 또는 프로세서를 포함하지 않는 아날로그 전화기를 포함한다. 이러한 실시 예에서, 장치(32)는 전화 네트워크를 통해 오디오 센서(38)로부터의 아날로그 오디오 신호를 서버(40)로 전송한다. 일반적으로, 전화 네트워크에서, 오디오 신호는 디지털화되고 디지털식으로 전달된 다음, 서버(40)에 도달하기 전에 다시 아날로그로 변환된다. 따라서, 서버(40)는 적절한 전화-네트워크 인터페이스를 통해 수신된 입력 아날로그 오디오 신호를 디지털 음성 신호로 변환하는 A/D 변환기를 포함 할 수 있다. 프로세서(28)는 A/D 변환기로부터 디지털 음성 신호를 수신한 다음 그 신호를 본 명세서 설명된 바와 같이 처리한다. 대안으로서, 서버(40)는 신호가 아날로그로 다시 변환되기 전에 전화 네트워크로부터 신호를 수신 할 수 있으므로, 서버는 반드시 A/D 변환기를 포함 할 필요는 없다.
전형적으로, 서버(40)는 복수의 상이한 피험자에 속하는 복수의 장치와 통신하고, 이들 복수의 피험자의 음성 신호를 처리하도록 구성된다. 일반적으로, 저장 장치(30)는 기준 통계치 및/또는 다른 이력 정보가 피험자에 대해 저장되어 있는 데이터베이스를 저장한다. 저장 장치(30)는 도 1에 도시 된 바와 같이 서버(40) 내부에 있거나 서버(40) 외부에 있을 수 있다. 프로세서(28)는 단일 프로세서로서, 또는 협력적으로 네트워크화된 또는 클러스터화된 프로세서의 세트로서 구현될 수 있다. 예를 들어, 제어 센터는 여기에 설명된 기술을 협력적으로 수행하는 각각의 프로세서를 포함하는 상호 연결된 복수의 서버를 포함할 수 있다.
일부 실시 예에서, 프로세서(28) 및/또는 프로세서(36)의 기능은 본 명세서에 설명 된 바와 같이, 예를 들어 하나 이상의 ASIC(Application-Specific Integrated Circuit) 또는 FPGA(Field-Programmable Gate Array)를 사용하여 하드웨어로만 구현된다. 다른 실시 예에서, 프로세서(28) 및 프로세서(36)의 기능은적어도 부분적으로 소프트웨어로 구현된다. 예를 들어, 일부 실시 예에서, 프로세서(28) 및/또는 프로세서(36)는 적어도 중앙 처리 장치(CPU) 및 랜덤 액세스 메모리(RAM)를 포함하는 프로그래밍된 디지털 컴퓨팅 장치로서 구현된다. 소프트웨어 프로그램 및/또는 데이터를 포함한 프로그램 코드는 CPU에서 실행 및 처리하기 위해 RAM에 로드된다. 프로그램 코드 및/또는 데이터는 예를 들어 네트워크를 통해 전자적 형태로 프로세서에 다운로드될 수 있다. 대안으로서 또는 부가적으로, 프로그램 코드 및/또는 데이터는 자기, 광학 또는 전자 메모리와 같은 비 일시적 유형 매체에 제공 및/또는 저장 될 수있다. 이러한 프로그램 코드 및/또는 데이터는 프로세서에 제공 될 때 본 명세서에 설명된 작업을 수행하도록 구성된 기계 또는 특수 목적 컴퓨터를 생성한다.
교정
이제, 본 발명의 일부 실시 예에 따른, 시스템(20)을 교정하기 위한 기술을 개략적으로 예시하는 도 2-3을 참조한다.
피험자(22)의 폐 용적을 측정하기 전에, 서버(40)가 피험자의 말의 특징 벡터 v를 피험자의 폐에서 나오는 공기의 유량 Φ에 매핑하는 함수 Φ(v)를 학습하는 교정 절차가 일반적으로 병원 또는 다른 진료소 환경에서 수행된다. 교정은 피험자의 음성을 캡처하고 동시에 피험자의 폐에서 나오는 기류의 속도를 측정하는 장치를 사용하여 수행되므로, 음성은 기류의 속도와 연관될 수 있다.
예를 들어, 보정은 호흡기류계(44)를 사용하여 수행 될 수 있다. 피험자(22)가 호흡기류계(44)에 말할 때, 예를 들어 마이크와 A/D 변환기를 포함하는 호흡기류계 내부에 배치된 사운드 캡처 유닛(52)은 피험자가 발화한 음성을 캡처하고 발화 한 음성을 나타내는 디지털 교정 음성 신호(56)를 서버(40)로 출력한다. 동시에, 호흡기류계는 음성을 발화하는 동안 피험자가 내쉬는 공기의 유량을 측정한다. 특히, 호흡기류계에 속하는 압력 센서(48)는 호흡기류계 스크린(46)에 대한 근위 및 원위 모두에서 압력을 감지하고, 감지된 압력을 나타내는 각각의 신호를 출력한다. 이러한 신호에 기초하여, 회로(50)는 스크린(46)을 가로 지르는 압력 강하를 계산하고, 그 압력 강하에 비례하는 피험자의 호기 유량을 추가로 계산한다. 회로(50)는 예를 들어 분당 리터 단위로 기류의 속도를 나타내는 디지털 기류 유량 신호(54)를 서버(40)에 출력한다. (회로(50)가 아날로그 신호를 출력하는 경우, 이 신호는 서버(40)에 속하는 A/D 변환기에 의해 디지털 기류-속도 신호(54)로 변환될 수 있다. 호흡기류계(44)는 일본 도쿄의 호야 코포레이션의 펜탁스 메디컬에 의해 제공되는는 'Phonatory Aerodynamic SystemTM'과 같은 임의의 적합한 기성 제품을 포함할 수 있다. 사운드 캡쳐 유닛(52)은 호흡기류계의 제조 시 호흡기류계에 통합될 수도 있고, 또는 교정 전에 특별히 설치될 수도 있다.
교정 음성 신호(56) 및 기류 유량 신호(54)를 수신한 후, 서버(40)의 프로세서(28)는 2 개의 신호를 사용하여 Φ(v)를 학습한다. 먼저, 프로세서는 교정 음성 신호를 다수의 교정 신호 프레임(58)으로 분할하고, 각 프레임은 임의의 적절한 지속시간(예를 들어, 5-40ms) 및 임의의 적절한 샘플 수를 갖는다. 일반적으로, 모든 프레임은 동일한 지속시간 및 동일한 샘플 수를 갖는다. (도 3에서 각 프레임의 시작과 끝은 수평 축을 따라 짧은 세로 눈금으로 표시된다.)
다음으로, 프로세서는 프레임(58) 각각에 대한 관련 특징을 계산한다. 이러한 특징은, 예를 들어, 프레임의 에너지, 프레임의 제로 크로싱 레이트, 및/또는 프레임의 스펙트럼 엔벨로프(envelope)를 특징짓는 특징, 예를 들어, 선형 예측 계수(LPC) 또는 프레임의 캡스트럴 계수(cepstral coefficients)를 포함할 수 있으며, 이들은 본 명세서에 참조로서 통합된 푸루이, 사다오키, "디지털 음성 처리:합성 및 인식", CRC Press, 2000에 설명된 바와 같이 계산될 수 있다. 이러한 특징에 기초하여, 프로세서는 프레임의 하나 이상의 상위 레벨 특징을 계산할 수 있다. 예를 들어, 제로 크로싱의 에너지 및 레이트에 기초하여, 프로세서는, 예를 들어, 참조로서 통합된 바추 알. 등의 "에너지 및 제로 크로싱 레이트를 사용한 유성 음성 및 무성 음성 신호 분리", ASEE Regional Conference, West Point, 2008에서 설명된 바와 같이 프레임이 유성 음성 또는 무성 음성을 포함하는지 여부를 나타내는 특징을 계산할 수 있다. 그 후, 프로세서는 프레임에 대한 특징 벡터 v 내의 하나 이상의 계산된 특징을 포함한다.
추가적으로, 각각의 프레임에 대해, 프로세서는 예를 들어, 프레임에 걸쳐 있는 인터벌 상의 기류 유량 신호(54)의 중앙값을 평균화하거나 취하거나, 프레임의 중앙에서 신호(54)의 값을 취함으로써 기류 유량 Φ를 계산한다. 그 다음, 프로세서는 특징과 기류 유량 값 간의 상관 관계를 학습한다.
예를 들어, 프로세서는 교정 음성 신호(56)로부터 각각의 프레임의 각각의 프레임 에너지 u를 포함하는 프레임 에너지 신호(60)를 도출할 수 있다. 다음으로, 프로세서는 프레임 에너지에 대한 기류 유량을 회귀시킬 수 있다. 따라서, 프로세서는 ΦU(u) = b0 + b1u + b2u2 +… + bquq 형식의 다항식을 계산할 수 있으며, 이는 임의의 프레임 에너지 u가 주어지면, 추정된 기류 유량 ΦU(u)을 반환한다. 일반적으로, 이 다항식의 경우 b0 = 0이다. 일부 실시예에서, q = 2(즉, ΦU(u)가 2 차 다항식임) 및 b1> 0 이다. 일반적으로, b1, b2의 정확한 수치 값 및 임의의 고차 계수는 오디오 센서(38)의 이득, A/D 변환기(42)의 스텝 크기, 기류 및 음성 신호가 표현되는 단위와 같은 다양한 파라미터에 의존한다.
일부 실시 예에서, 프로세서는 음성 인식 기술(예를 들어, 아래에 설명되는 히든 마르코프 모델 기술)을 사용하여 프레임의 특징에 기초하여, 각 프레임 또는 프레임 시퀀스가 속하는 APU h를 식별한다. 그 다음, 프로세서는 각 APU 또는 유사한 APU의 각 그룹에 대해 별도의 매핑 함수 Φ(v|h)를 학습한다.
예를 들어, 전술한 회귀는 각 APU에 대해 개별적으로 수행되어, 각 APU에 대해 각각의 다항식 ΦU(u)이 학습될 수 있다. 일반적으로 음성 음소, 특히 모음의 경우, 화자는 상대적으로 적은 양의 호기 기류를 사용하여 상대적으로 높은 음성 에너지 레벨을 생성하는 반면, 무성 음소는 동일한 양의 음성 에너지를 생성하기 위해 더 많은 기류를 필요로 한다. 따라서, b1은 무성 음소에 비해, 무성 음소에 대해 더 클 수 있다(예컨대, 4-10 배 더 클 수 있음). 따라서, 순전히 예시적인 예로서 Φ(u|/a/)(음소 "/a/"의 경우)가 0.2u-0.005u2이면, Φ(u|/s/)는 1.4u-0.06u2일 수 있다. 에너지와 기류 사이의 관계는 Φ가 전자에 대해 더 높은 차수의 항을 포함 할 수 있도록, 지속적인 자음(sustained consonants)에 비해, 명확한 전환을 가진 자음(예컨대, 파열음)에 대해 더 비선형적일 수 있다. 따라서, 위의 예를 계속하면, 파열음 /p/의 경우 Φ(u|/p/)는 u-0.2u2-0.07u3 일 수 있다.
일반적으로, Φ(v)는 프레임 에너지와 관련하여 위에서 설명한 바와 같이 일변량(univariate) 다항 함수 또는 복수의 특징의 다변량(multivariate) 다항 함수를 포함 할 수 있다. 예를 들어, v는 K 개의 구성요소 v1, v2,… vK(일반적으로 이러한 구성 요소 중 하나인 프레임 에너지)가 포함된 경우 Φ(v)는 b0 + b1v1 +… + bKvK + b11v1 2 + b12v1v2 + … + b1Kv1vK + b22v2 2 + b23v2v3 +… + b2Kv2vK +… + bKKvK 2형식의 다변량 2 차 다항식 일 수 있다. 대안으로서 또는 추가적으로, Φ(v)는 삼각 다항식(예를 들어, 프레임 에너지 u의 일변량 삼각 다항식) 또는 지수 함수와 같은 임의의 다른 유형의 함수를 포함할 수 있다.
일부 경우에, 피험자의 입과 사운드 캡처 유닛(52) 사이의 거리(d1)는 피험자의 입과 오디오 센서(38) 사이의 예상 거리(d2)와 상이할 수있다(예를 들어, 더 작을 수있다). 대안으로서 또는 추가적으로, pneumotach는 피험자의 음성 녹음을 방해할 수 있다. 대안으로서 또는 추가적으로, 사운드 캡처 유닛(52)의 속성은 오디오 센서(38)의 속성과 상이할 수 있다.
이러한 차이를 보상하기 위해, 예비 교정 절차가 수행될 수 있다. 이 절차 동안, 적절한 오디오 신호가 스피커로부터 호흡기류계로 재생되어, 오디오 신호가 사운드 캡처 유닛(52)에 의해 기록된다. 동일한 오디오 신호는 또한 호흡기류계없이 재생되고, 스피커로부터 거리(d2)에 배치된 오디오 센서(38)(또는 다른 동일한 오디오 센서)에 의해 기록된다. 이 예비 교정에 기초하여, 사운드 캡처 유닛(52)의 기록을 오디오 센서(38)의 기록에 매핑하는 전달 함수가 학습된다. 그 후, 이 전달 함수는 Φ(v)를 학습하기 전에 신호(56)에 적용된다.
일부 실시 예에서, 위에서 설명된 교정 절차를 사용하여, 각각의 Φ(v)가 각 피험자에 대해 학습된다. (Φ(v)가 APU에 의존하는 실시예의 경우, 교정 동안 피험자로부터 얻은 음성 샘플은 일반적으로 관심있는 각 APU에 대해 충분한 수의 샘플을 포함할 수있을 정도로 충분히 크고 다양하다.) 대안으로서, 피험자-독립적 인 Φ(v)는 복수의 피험자로부터 얻은 대응하는 음성 및 기류 유량 신호의 큰 세트로부터 도출될 수 있다. 또 다른 대안으로서, Φ(v)는 복수의 피험자의 데이터를 사용하여 초기화될 수 있으며(따라서 관심 있는 모든 APU가 커버됨을 보장하며), 위에서 설명한 교정 절차를 사용하여 각 피험자에 대해 개별적으로 수정될 수 있다.
기류량 추정
이제, 본 발명의 몇몇 실시예에 따른 음성 신호 처리의 개략도인 도 4를 참조한다.
전술한 교정 절차에 이어서, 서버(40)의 프로세서(28)는 Φ(v)를 사용하여 피험자의 음성에 기초하여 피험자(22)의 폐 용적를 추정한다. 특히, 프로세서(28)는 먼저 장치(32)(도 1)를 통해 피험자에 의해 발화된 음성을 나타내는 음성 신호(62)를 수신한다. 그 다음, 프로세서는 음성 신호(62)를 복수의 프레임으로 분할하고, 신호(56)에 대해 도 3을 참조하여 전술한 바와 같이 프레임 각각에 대한 관련 특징을 계산한다. 이어서, 특징에 기초하여, 프로세서는 각각 음성의 음성 세그먼트(개요에서 "SESS"로 지칭됨)를 나타내는 프레임의 시퀀스(66)를 식별한다. 예를 들어, 피험자의 음성은 복수의 음성 세그먼트를 포함할 수 있으며, 음성 세그먼트 동안 피험자는 유성 또는 무성 음성을 생성하고, 음성 세그먼트는 음성이 생성되지 않는 각각의 휴지기(pause)에 의해 서로 분리되어 있어, 신호(62)는 휴지기를 나타내는 다른 프레임(64)에 의해 서로 분리된 복수의 시퀀스(66)를 포함한다. 이 경우, 프로세서는 음성 세그먼트를 나타내는 프레임과 다른 프레임(64)을 구별함으로써 시퀀스(66)를 식별한다. 이를 위해, 프로세서는 프레임을 APU에 매핑하는데 사용되는 것과 동일한 음성 인식 기술을 사용할 수 있다. (즉, 프로세서는 "비-음성" APU에 매핑되지 않은 임의의 프레임을 시퀀스(66)에 속하는 음성 프레임으로서 식별 할 수 있다.) 대안으로, 프로세서는 그 내용이 본 명세서에 참조로서 통합된 라미레즈, 하비에르 등의, "음성 활동 감지-기본 및 음성 인식 시스템 견고성", InTech, 2007에 설명 된 알고리즘과 같은 음성 활동 감지(VAD) 알고리즘을 사용할 수 있다. 각 시퀀스(66)는 단일 호기에 대응하는 것으로 가정되고, 시퀀스 사이의 휴지기는 각각의 흡입(inhalation)에 대응하는 것으로 가정된다.
그 후, 프로세서는 음성 세그먼트가 발화되는 동안 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산한다. 이 계산을 수행하기 위해, 프로세서는 각 시퀀스(66)에 대해, 그 시퀀스에 속하는 프레임 동안 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산한 다음, 추정된 유량을 기반으로, 그 시퀀스에 대한 추정된 총 호기 체적(위에서 SEV라고도 함)을 계산한다. 예를 들어, 프로세서는 추정된 유량에 프레임의 지속 시간을 곱한 다음 추적된 볼륨을 적분함으로써, 각 프레임에 대한 추정된 체적을 계산할 수 있다. (시퀀스 내의 프레임이 동일한 지속 시간 인 경우, 이는 추정된 유량의 평균에 시퀀스의 총 지속 시간을 곱하는 것과 같다.)
예를 들어, 도 4는 14 개의 프레임{x 1, x 2,… x 14}을 포함하는 예시적인 시퀀스를 보여준다. 이 시퀀스 동안 피험자가 내쉬는 공기의 추정된 총 체적을 계산하기 위해, 프로세서는 먼저 도 3을 참조하여 위에서 설명한 바와 같이, 프레임의 하나 이상의 특징을, 각각의 프레임{x 1, x 2,… x 14}에 대해 계산한다. 즉, 프로세서는 특성 벡터 {v 1, v 2,… v 14}를 계산하거나, 또는 단일 특징(예컨대, 프레임 에너지)만 사용되는 경우, 특성 스칼라 {v1, v2,… v14}를 계산한다. 그 다음, 프로세서는 교정 절차 중에 학습된 적절한 매핑 함수 Φ(v)를 프레임의 특징 중 하나 이상에 적용하여 각 프레임에 대한 추정된 유량을 계산한다. 예를 들어, 프로세서는 프레임의 특징에 기초하여, 프레임이 속한 APU를 식별하고, 그 APU에 응답하여 적절한 매핑 함수를 선택한 다음 선택된 매핑 함수를 적용할 수 있다. 따라서, 프로세서는 추정 유량{Φ(v 1), Φ(v 2),… Φ(v 14)}을 얻는다. 마지막으로, 프로세서는 추정된 유량을 사용하여 총 호기 체적을 계산한다.
하나 이상의 계산된 SEV 값에 응답하여, 프로세서는 도 1을 참조하여 전술 한 바와 같이 경보를 생성할 수 있다. 예를 들어, 단일 음성 세그먼트의 경우, 따라서 단일 SEV 값의 경우, 프로세서는 SEV를 기준 SEV와 비교할 수 있다. 현재 SEV가 기준 SEV보다(예를 들어, 미리 정의된 임계 백분율 이상) 작으면 경보가 생성될 수 있다. 대안으로서,(도 4에 예시 된 바와 같이) 복수의 음성 세그먼트의 경우, 프로세서는 SEV의 하나 이상의 통계치를 계산한 다음 이러한 통계치를 각각의 기준 통계치와 비교할 수 있다. (예를 들어, 미리 정의 된 임계 백분율 이상)기준치를 벗어나는 통계치 중 하나 이상에 응답하여, 경보가 생성될 수 있다. 통계치의 예는 평균, 표준 편차 및 50번째 백분위수(즉, 중앙값) 또는 100 번째 백분위 수(즉, 최대 값)와 같은 SEV 값의 적절한 백분위수를 포함한다. 일반적으로 SEV가 호흡마다 다르므로, 복수의 SEV 값의 통계치를 사용하면 보다 정확한 진단이 가능해진다.
일부 실시 예에서, 프로세서는 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 기준 SEV 또는 복수의 SEV의 기준 통계치를 계산한다. 예를 들어, 피험자의 상태가 안정된 이전 시간에 이전 음성이 발화되었을 수 있다.
일부 실시 예에서, 피험자는 누운 상태에서 말하도록 프롬프팅되어 신호(62)는 누운 동안 피험자의 음성을 나타낸다. 이러한 실시예에서, 기준 SEV 또는 기준 통계치는 누워 있지 않은 상태에서 피험자가 발화한 다른 음성으로부터 계산될 수 있다. (이러한 다른 음성은 피험자의 상태가 안정되기 이전 시간에, 또는 현 시간에, 신호(62)를 캡처하기 전 또는 후에 발화되었을 수 있다.) 누워있는 자세와 누워 있지 않은 자세 사이의 차이가 임계 차이를 초과하면, 경보가 생성될 수 있다. 예를 들어, 누워 있지 않은 자세에 대한 관련 통계치(예컨대, 평균 SEV)와 누워 있는 자세에 대한 관련 통계치 간의 백분율 차이가 미리 정의된 임계 백분율보다 크거나, 두 통계치 간의 비율이 미리 정의된 임계치 이상으로 1에서 벗어나는 경우 경고가 생성될 수 있다. 대안으로서 또는 추가적으로, 이 불일치가 이전 시간보다 큰 경우 경고가 생성 될 수 있다. 예를 들어, 피험자의 상태가 안정된 동안, 누워있는 자세에서 피험자의 평균 SEV가 누워 있지 않은 자세에서 보다 단지 5% 더 낮았으나 현재 피험자의 평균 SEV가 누워 있는 자세에서 10% 더 낮으면 경고가 생성될 수 있다.
일부 실시 예에서, 피험자(22)는 각 세션 동안 동일한 미리 정의된 음성을 발하도록 지시받는다. 다른 실시 예에서, 음성은 세션마다 변한다. 예를 들어, 피험자는 각 세션 동안 장치(32)의 스크린으로부터 다양한 개별 텍스트를 읽도록 지시받을 수 있다. 대안으로서, 피험자는 자유롭게 말하도록 지시받을 수 있고, 및/또는 "오늘 기분이 어떠세요?"와 같은 다양한 질문에 대답하도록 지시받을 수 있다. 또 다른 대안으로서, 피험자는 말하도록 프롬프팅되지 않고, 그보다는 피험자가 정상적인 전화 대화와 같은 정상적인 대화에 참여하는 동안 피험자의 음성이 포착될 수도 있다.
일부 실시 예에서, 도 3 및 도 4 모두에 도시된 바와 같이, 프로세서(28)에 의해 정의된 프레임들은 서로 겹치지 않는다. 그보다는 각 프레임의 첫 번째 샘플은 이전 프레임의 마지막 샘플 바로 뒤에 온다. 다른 실시 예에서, 신호(56) 및/또는 신호(62)에서 프레임은 서로 중첩 될 수 있다. 이러한 중첩은 수정될 수 있다. 예를 들어, 20ms의 프레임 기간을 가정하면, 각 프레임의 처음 10ms는 이전 프레임의 마지막 10ms와 겹칠 수 있다. (즉, 프레임에 있는 샘플의 처음 50%가 이전 프레임에 있는 샘플의 마지막 50%일 수 있다.) 대안으로서, 중첩 크기는 신호의 코스에 따라 달라질 수 있다.
일반적으로, 위의 설명에서 가정 한 것처럼 각 프레임은 동일한 지속시간을 갖는다. 대안으로, 프레임 지속 시간은 신호의 코스에 따라 달라질 수 있다. 전술한 기술은 다양한 프레임 기간에 쉽게 적응될 수 있다는 점에 유의한다. 예를 들어, 각 프레임 xn의 에너지
Figure pct00003
는 프레임의 샘플 수를 설명하기 위해 정규화될 수 있다.
음성 신호 정규화
일반적으로, 오디오 센서(38)에 의해 캡처된 음성의 진폭은 피험자의 입에 대한 오디오 센서의 위치 및 방향에 따라 달라진다. 오디오 센서의 위치 나 방향이 세션마다 다를 경우 서로 다른 세션의 SEV 통계치를 비교해도 의미있는 결과가 나오지 않을 수 있으므로 이는 도전과제을 제시한다.
이러한 문제를 극복하기 위해, 오디오 센서의 위치와 방향은, 예를 들어 피험자에게 장치(32)를 항상 귀에 대도록 지시함으로써, 또는 항상 오디오 센서의 위치와 방향이 고정된 헤드셋을 사용하도록 지시함으로써 고정될 수 있다. 대안으로서, 전술한 바와 같이, 각 세션 동안, 피험자는 피험자가 피험자의 입에 대해 거의 동일한 위치 및 방향으로 항상 장치를 유지하도록 장치(32)의 스크린으로부터 텍스트를 읽도록 지시받을 수 있다.
다른 대안으로서, 추정된 기류 유량을 계산하기 전에, 신호(62)는 예를 들어 피험자의 입에 대한 오디오 센서의 위치 및/또는 방향을 고려하도록 정규화 될 수 있다. 위치 및 방향을 확인하기 위해, 장치(32)에 속하는 카메라는 피험자가 말하는 동안 피험자의 입 이미지를 획득할 수 있으며, 이미지 처리 기술을 사용하여 이미지로부터 오디오 센서의 위치 및/또는 방향을 계산할 수 있다. 대안으로서 또는 추가적으로, 적외선 센서와 같은 장치에 속하는 다른 센서가 이 목적을 위해 사용될 수있다.
보다 구체적으로, 각 프레임 x n은 정규화 방정식 x n = G(p n)-1 z n에 따라 신호(62)의 원시 프레임 z n을 정규화함으로써 계산될 수 있으며, 여기서 p nz n이 발화되는 동안 피험자의 입에 대한 오디오 센서의 위치 및 방향을 나타내는 벡터이고, G(p n)은 p n이 주어졌을 때 오디오 센서로의 사운드 전파 효과를 모델링하는 선형 시불변 연산자이다. (프레임이 정규화되는 특정 위치 및 방향에 대해 G(p n) = 1이다). G(p n)은 유한 임펄스 응답(FIR) 시스템 또는 무한 임펄스 응답(IIR) 시스템으로 모델링될 수 있다. 경우에 따라, G(p n)은 x n = G(p n)-1 z n이 스칼라 값 함수 g(p n)에 대해 x n = z n/g(p n)로 감소하도록, 순수 감쇠 시스템으로서 모델링될 수 있다. 일반적으로 G(p n)은 다양한 방향에서 오디오 센서의 이득과 같은 오디오 센서의 관련 속성과 함께 사운드 전파의 물리적 원리에서 도출될 수 있다.
APU에의 프레임 매핑
일반적으로, 프레임을 APU에 매핑하기 위해 임의의 적절한 기술이 사용될 수 있다. 그러나, 일반적으로 본 발명의 실시예들은 HMM(Hidden Markov Model) 기술, DTW(Dynamic Time Warping) 및 신경망과 같이, 음성 인식에 일반적으로 사용되는 기술을 활용한다. (음성 인식에서, APU에의 프레임 매핑은 일반적으로 최종적으로 폐기되는 중간 출력을 구성한다.) 아래에서는, 음성 인식을 용이하게 하기 위해 음성 생성에 대해 단순화된 확률 모델을 사용하는 HMM 기술에 대해 간략하게 설명한다.
인간의 음성 생산 시스템은 복수의 조음 기관(articulatory organs)을 포함한다. 음성을 생성하는 동안, 생성되는 소리에 따라(예컨대, 각 기관의 위치 및 장력에 따라) 음성 생성 시스템의 상태가 변경된다. HMM 기술은 각 프레임 xn 동안 음성 생성 시스템이 특정 상태 sn에 있다고 가정한다. 이 모델은 한 프레임에서 다음 프레임으로의 상태 전환이 마르코프 랜덤 프로세스를 따른다고 가정한다. 즉, 다음 프레임에서 상태의 확률은 현재 프레임의 상태에만 의존한다.
HMM 기법은 확률 밀도 함수(pdf) fs(v)가 현재 프레임의 상태 "s"에 의해 결정되는 랜덤 벡터의 인스턴스로서 특징 벡터를 처리한다. 따라서, 상태 시퀀스 {s1, s2,… sN}을 알고 있는 경우, 특징 벡터 시퀀스 {v 1, v 2,… v N}의 조건부 pdf는 fs1(v 1) * fs2(v 2) *… *fsN(v N)로 표현될 수 있다.
각 APU는 특정 초기 상태 확률 및 상태 간의 특정 전이 확률과 함께, 특정 상태 시퀀스로 표시된다. (위의 내용에도 불구하고 "합성 음향 장치"로 알려진 한 유형의 APU는 단일 상태만 포함함을 이해해야 한다.) 각 단어는 그 단어를 구성하는 APU의 각 상태 시퀀스를 연결한 상태 시퀀스로 표시된다. 단어가 다른 방식으로 발음될 수 있는 경우, 그 단어는 여러 상태 시퀀스로 표현될 수 있으며, 각 시퀀스는 발음에서 해당 변형이 발생할 가능성에 해당하는 초기 확률을 갖는다. 피험자의 발화를 구성하는 단어가 선험적으로 알려진 경우, 발화는 구성 단어의 각 상태 시퀀스의 연결인 상태 시퀀스로 표현될 수 있다. 그러나, 실제로, 피험자가 특정 텍스트를 읽도록 지시받은 경우에도 피험자가 잘못된 단어를 읽거나 단어를 건너 뛰거나 단어를 반복하는 등 실수를 할 수 있으므로 단어가 선험적으로 알려져있을 가능성은 낮다. 따라서, HMM 상태는 한 단어에서 다음 단어로의 전환 뿐만 아니라 단어 또는 APU의 삽입 또는 삭제를 허용하도록 구성된다. 텍스트가 선험적으로 알려지지 않은 경우, 모든 APU의 상태는 두 번째 APU가 피험자가 말하는 언어의 첫 번째 APU를 따르는 빈도를 반영하는 임의의 두 APU에 대한 전환 확률과 함께 임의의 APU에서 다른 APU 로의 전환을 허용하도록 구성된다.
(위에서 설명한 바와 같이, APU는 예를 들어 음소, 다이폰, 트라이폰 또는 합성 음향 유닛을 포함 할 수 있다. 각 합성 음향 장치는 단일 HMM 상태로 표시된다.) HMM 기술은 또한 상태 시퀀스가 마르코프 시퀀스라고 가정하여, 상태 시퀀스의 선험적 확률은 π[s1] * a[s1, s2] * a[s2, s3] *… * a[sN-1, sN]로 주어지고, 여기서 π[s1]은 초기 상태가 s1일 확률이고, a[si, sj]는 si를 따르는 sj에 대한 전이 확률이다. 따라서, 특징 벡터 시퀀스와 상태 시퀀스의 결합 확률은 π[s1] * a[s1, s2] * a[s2, s3] *… * a[sN-1, sN] * fs1(v1) * fs2(v2) *… * fsN(vN)과 같다. HMM 기술은 주어진 특성 벡터 시퀀스 {v1, v2,… vN}에 대해 이 결합 확률을 최대화하는 상태 시퀀스 {s1, s2,… sN}을 찾는다. (이는 예를 들어, Rabiner and Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993에 설명된 비터비(Viterbi) 알고리즘을 사용하여 수행 될 수 있으며, 그 개시 내용은 본 명세서에 참조로 포함된다.) 각 상태가 특정 APU에 해당하기 때문에 HMM 기술은 발화에 대해 APU 시퀀스 {y1, y2,… yR}을 제공한다.
확률 밀도 함수 fs(v)의 파라미터와 초기 및 전환 확률은 대규모 음성 데이터베이스 상에서의 트레이닝에 의해 학습된다. 일반적으로, 이러한 데이터베이스를 구축하려면, HMM 모델이 피험자마다 다르지 않도록 복수의 피험자로부터 음성 샘플을 수집해야 한다. 그럼에도 불구하고, 일반 HMM 모델은 교정 절차 중에 녹음된 피험자의 음성을 기반으로 특정 피험자에 맞게 조정될 수도 있다. 이러한 적응은 폐 용적 추정에 사용되는 음성의 내용이 미리 알고 있고 교정 절차 중에 피험자로부터 이 음성의 샘플 발화를 얻은 경우 특히 유용할 수 있다.
본 발명이 위에서 특별히 도시되고 설명된 것에 제한되지 않는다는 것은 당업자에 의해 인식될 것이다. 오히려, 본 발명의 실시예의 범위는 전술 한 다양한 특징의 조합 및 하위 조합 뿐만 아니라, 전술한 설명을 읽을 때 당업자에게 일어날 수 있는 종래 기술에 없는 변형 및 수정을 모두 포함한다. 본 특허 출원에 참조로 포함된 문서는 본 명세서에서 명시적으로 또는 묵시적으로 만들어진 정의와 상충되는 방식으로 이러한 통합 문서에서 정의된 용어를 제외하고는 출원의 필수 부분으로 간주되어야 하고, 본 명세서의 정의만 고려되어야 한다.

Claims (34)

  1. 회로; 및
    프로세스를 협력적으로 수행하도록 구성된 하나 이상의 프로세서를 포함하고, 상기 프로세스는:
    상기 회로로부터, 피험자가 발화한 음성을 나타내는 음성 신호를 수신하는 단계로서, 상기 음성은 하나 이상의 음성 세그먼트를 포함하는 것인, 상기 음성 신호를 수신하는 단계,
    프레임의 하나 이상의 시퀀스가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임으로 분할하는 단계,
    각 시퀀스에 대해,
    상기 시퀀스에 속하는 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 그리고
    상기 추정된 유량에 기초하여, 상기 추정된 총 공기 체적 중 각각을 계산함으로써,
    상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계, 및
    상기 추정된 총 공기 체적에 응답하여, 경고를 생성하는 단계를 포함하는 것을 특징으로 하는 시스템.@
  2. 제 1 항에 있어서, 상기 회로는 네트워크 인터페이스를 포함하는 것을 특징으로 하는 시스템.
  3. 제 1 항에 있어서, 상기 회로는 상기 음성을 나타내는 아날로그 신호를 상기 음성 신호로 변환하도록 구성된 아날로그-디지털 변환기를 포함하는 것을 특징으로 하는 시스템.
  4. 제 1 항에 있어서, 상기 하나 이상의 프로세서는 단일 프로세서로 구성된 것을 특징으로 하는 시스템.
  5. 제 1 항에 있어서, 상기 프레임 각각의 지속 시간은 5 내지 40ms인 것을 특징으로 하는 시스템.
  6. 제 1 항에 있어서,
    상기 하나 이상의 음성 세그먼트는 각각의 휴지기 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고
    상기 프로세스는 상기 음성 세그먼트를 나타내는 프레임의 시퀀스와 상기 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 상기 프레임의 시퀀스를 식별하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 추정 총 공기 체적 중 각각을 계산하는 것은 시퀀스에 속하는 프레임들 중 각 프레임에 대해,
    상기 프레임의 하나 이상의 특징을 계산하는 단계, 및
    상기 특징 중 적어도 하나를 상기 추정된 유량에 매핑하는 함수를, 상기 특징 중 적어도 하나에 적용함으로써 추정된 유량을 계산하는 단계를 포함하는 것을 특징으로 하는 시스템.
  8. 제 7 항에 있어서, 상기 프로세스는 상기 음성 신호를 수신하는 단계 이전에,
    상기 피험자에 의해 발화된 다른 음성을 나타내는 교정 음성 신호를 수신하는 단계,
    상기 다른 음성을 발화하는 동안 상기 피험자가 내쉬는 공기의 측정 유량을 나타내는 기류 유량 신호를 수신하는 단계, 및
    상기 교정 음성 신호 및 상기 기류 유량 신호를 사용하여, 상기 특징 중 적어도 하나를 상기 추정된 유량에 매핑하는 함수를 확습하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  9. 제 7 항에 있어서, 상기 특징 중 적어도 하나는 프레임 에너지를 포함하는 것을 특징으로 하는 시스템.
  10. 제 7 항에 있어서, 상기 함수는 상기 특징 중 적어도 하나의 다항 함수인 것을 특징으로 하는 시스템.
  11. 제 7 항에 있어서, 상기 프로세서는:
    상기 특징에 기초하여, 상기 프레임이 속하는 음향 음성 유닛(APU)을 식별하는 단계; 및
    상기 APU에 응답하여 상기 함수를 선택하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  12. 제 11 항에 있어서, 상기 APU의 유형은 음소, 다이폰, 트라이폰 및 합성 음향 유닛으로 구성된 APU 유형의 그룹으로부터 선택되는 것을 특징으로 하는 시스템.
  13. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 하나 이상의 음성 세그먼트는 복수의 음성 세그먼트를 포함하고,
    상기 프로세스는 상기 추정된 총 공기 체적의 하나 이상의 통계치를 계산하는 단계를 더 포함하고,
    상기 경보를 생성하는 단계는 기준 통계치에서 벗어난 통계치 중 적어도 하나에 응답하여 경보를 생성하는 단계를 포함하는 것을 특징으로 하는 시스템
  14. 제 13 항에 있어서, 상기 음성은 상기 피험자가 누워 있는 동안 상기 피험자에 의해 발화되는 것을 특징으로 하는 시스템.
  15. 제 14 항에 있어서, 상기 프로세스는:
    상기 피험자가 누워 있지 않은 동안 상기 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하는 단계, 및
    상기 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  16. 제 13 항에 있어서, 상기 프로세스는 상기 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  17. 제 13 항에 있어서, 상기 통계치 중 하나 이상은 평균, 표준 편차 및 백분위 수로 구성된 통계치 그룹에서 선택된 통계치 것을 특징으로 하는 시스템.
  18. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 음성은 오디오 센서에 의해 캡처되고, 상기 프로세스는 상기 각각의 추정 총 공기 체적을 계산하는 단계 이전에, 상기 음성이 발화되는 동안 획득한 입의 이미지를 기초로 하여, 상기 피험자의 입에 대한 상기 오디오 센서의 위치를 고려하도록 상기 음성 신호를 정규화하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
  19. 피험자에 의해 발화 된 음성을 나타내는 음성 신호를 수신하는 단계로서, 상기 음성은 하나 이상의 음성 세그먼트를 포함하는 것인, 상기 음성 신호를 수신하는 단계;
    하나 이상의 프레임의 시퀀스가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임으로 분할하는 단계;
    상기 시퀀스 각각에 대하여,
    상기 시퀀스에 속하는 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유량을 계산하고, 그리고
    상기 추정된 유량에 기초하여, 상기 추정 총 공기 체적 각각을 계산함으로서,
    상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하는 단계; 및
    상기 추정된 총 공기 체적에 응답하여, 경고를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  20. 제 19 항에 있어서, 각 프레임의 지속 시간은 5 내지 40ms인 것을 특징으로 하는 방법.
  21. 제 19 항에 있어서,
    상기 하나 이상의 음성 세그먼트는 각각의 휴지기 만큼 서로 분리된 복수의 음성 세그먼트를 포함하고, 그리고
    상기 방법은 상기 음성 세그먼트를 나타내는 프레임의 시퀀스와 상기 휴지기를 나타내는 프레임의 시퀀스를 구별함으로써 프레임의 시퀀스들을 식별하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  22. 제 19 항 내지 제 21 항 중 어느 한 항에 있어서, 상기 각각의 추정 유속을 계산하는 것은, 상기 시퀀스에 속하는 상기 프레임의 각 프레임에 대하여,
    상기 프레임의 하나 이상의 특징을 계산하는 단계; 및
    상기 특징 중 적어도 하나를 상기 추정 유량에 매핑하는 함수를, 상기 특징 중 적어도 하나에 적용함으로써 추정 유량을 계산하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  23. 제 22 항에 있어서, 상기 음성 신호를 수신하는 단계 이전에,
    상기 피험자가 발화한 다른 음성을 나타내는 교정 음성 신호를 수신하는 단계;
    상기 다른 음성을 발화하는 동안 상기 피험자가 내쉬는 공기의 측정된 유량을 나타내는 기류-유량 신호를 수신하는 단계; 및
    상기 교정 음성 신호 및 상기 기류-유량 신호를 사용하여, 상기 특징 중 적어도 하나를 상기 추정된 유량에 매핑하는 함수를 학습하는 단계를
    더 포함하는 것을 특징으로 하는 방법.
  24. 제 22 항에 있어서, 상기 특징들 중 적어도 하나는 프레임의 에너지를 포함하는 것을 특징으로 하는 방법.
  25. 제 22 항에 있어서, 상기 함수는 특성 중 하나 이상의 다항 함수인 것을 특징으로 하는 방법.
  26. 제 22 항에 있어서, 상기 특징에 기초하여,
    프레임이 속한 음향 음성 유닛(APU)을 식별하는 단계; 및
    상기 APU에 따라 상기 함수를 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  27. 제 26 항에 있어서, 상기 APU의 유형은 음소, 다이폰, 트라이폰 및 합성 음향 유닛로 구성된 APU 유형 그룹에서 선택되는 것을 특징으로 하는 방법.
  28. 제 19 항 내지 제 21 항 중 어느 한 항에 있어서,
    상기 하나 이상의 음성 세그먼트는 복수의 음성 세그먼트를 포함하고,
    상기 방법은 추정된 총 공기 체적의 하나 이상의 통계치를 계산하는 단계를 더 포함하고,
    상기 경보를 생성하는 단계는 기준 통계치로부터 벗어난 통계치 중 적어도 하나에 응답하여 경보를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  29. 제 28 항에 있어서, 상기 음성은 상기 피험자가 누워있는 동안 상기 피험자에 의해 발화된 것을 특징으로 하는 방법.
  30. 제 29 항에 있어서,
    상기 피험자가 누워 있지 않은 동안 상기 피험자가 발화한 다른 음성을 나타내는 다른 음성 신호를 수신하는 단계; 및
    상기 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  31. 제 28 항에 있어서, 상기 피험자의 이전 음성을 나타내는 다른 음성 신호로부터 상기 기준 통계치를 계산하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  32. 제 28 항에 있어서, 상기 통계치 중 하나 이상은 평균, 표준 편차 및 백분위 수로 구성된 통계 그룹에서 선택된 통계치인 것을 특징으로 하는 방법.
  33. 제 19 항 내지 제 21 항 중 어느 한 항에 있어서, 상기 음성은 오디오 센서에 의해 캡처되고, 그리고 상기 방법은 상기 각각의 추정된 총 공기 체적을 계산하는 단계 이전에, 상기 음성이 발화되는 동안 획득된 입의 이미지에 기초하여, 상기 피험자의 입에 대한 상기 오디오 센서의 위치를 고려하도록 상기 음성 신호를 정규화하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  34. 프로그램 명령을 저장하는 유형의 비 일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 소프트웨어 제품으로서, 상기 프로그램 명령은 프로세서에 의해 판독 될 때 상기 프로세서로 하여금,
    피험자가 발화한, 하나 이상의 음성 세그먼트를 포함하는 음성을 나타내는 음성 신호를 수신하고,
    프레임의 하나 이상의 시퀀스가 각각 상기 음성 세그먼트를 나타내도록, 상기 음성 신호를 복수의 프레임으로 분할하고,
    상기 시퀀스 각각에 대해,
    상기 시퀀스에 속한 프레임 동안 상기 피험자가 내쉬는 공기의 각각의 추정된 유속을 계산하고, 그리고
    상기 추정된 유속에 기초하여, 상기 추정된 총 공기 체적 중 각각을 계산함으로써,
    상기 음성 세그먼트가 발화되는 동안 상기 피험자가 내쉬는 각각의 추정된 총 공기 체적을 계산하고,
    상기 추정된 총 공기 체적에 응답하여, 경보를 발생시키도록
    만드는 것을 특징으로 하는 프로그램 명령을 저장하는 유형의 비 일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 소프트웨어 제품.
KR1020217011820A 2018-10-11 2019-10-03 음성 분석을 통한 폐 용적 추정 KR20210076921A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/157,118 2018-10-11
US16/157,118 US10847177B2 (en) 2018-10-11 2018-10-11 Estimating lung volume by speech analysis
PCT/IB2019/058408 WO2020075015A1 (en) 2018-10-11 2019-10-03 Estimating lung volume by speech analysis

Publications (1)

Publication Number Publication Date
KR20210076921A true KR20210076921A (ko) 2021-06-24

Family

ID=68242253

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217011820A KR20210076921A (ko) 2018-10-11 2019-10-03 음성 분석을 통한 폐 용적 추정

Country Status (9)

Country Link
US (2) US10847177B2 (ko)
EP (1) EP3637433A1 (ko)
JP (1) JP7385299B2 (ko)
KR (1) KR20210076921A (ko)
CN (1) CN112822976B (ko)
AU (1) AU2019356224B2 (ko)
CA (1) CA3114864A1 (ko)
IL (2) IL269807B (ko)
WO (1) WO2020075015A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11484211B2 (en) 2020-03-03 2022-11-01 Cordio Medical Ltd. Diagnosis of medical conditions using voice recordings and auscultation
US20210298711A1 (en) * 2020-03-25 2021-09-30 Applications Technology (Apptek), Llc Audio biomarker for virtual lung function assessment and auscultation
US11417342B2 (en) 2020-06-29 2022-08-16 Cordio Medical Ltd. Synthesizing patient-specific speech models
US12023146B2 (en) * 2020-10-08 2024-07-02 International Business Machines Corporation Multi-modal lung capacity measurement for respiratory illness prediction
US20220257175A1 (en) * 2021-02-11 2022-08-18 Samsung Electronics Co., Ltd Speech-based pulmonary assessment
WO2024074687A1 (en) * 2022-10-07 2024-04-11 F. Hoffmann-La Roche Ag Assessment of lung capacity, respiratory function, abdominal strength and/or thoracic strength or impairment
WO2024074694A1 (en) * 2022-10-07 2024-04-11 F. Hoffmann-La Roche Ag Speech function assessment

Family Cites Families (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1219618A (en) 1968-08-07 1971-01-20 Vsesojusny Nii Med Priborostro Apparatus for acoustic examination of the lungs
US4838275A (en) 1985-11-29 1989-06-13 Lee Arnold St J Home medical surveillance system
JPH0482538A (ja) 1990-07-25 1992-03-16 Hitachi Ltd 呼吸音診断装置
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JPH09173320A (ja) 1995-12-25 1997-07-08 Casio Comput Co Ltd 音声検査装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5853005A (en) 1996-05-02 1998-12-29 The United States Of America As Represented By The Secretary Of The Army Acoustic monitoring system
FI2607U1 (fi) 1996-06-17 1996-09-27 Nokia Mobile Phones Ltd Lisäyksikkö, joka on tarkoitettu kytkettäväksi digitaaliseen langattomaan puhelimeen
US6168568B1 (en) 1996-10-04 2001-01-02 Karmel Medical Acoustic Technologies Ltd. Phonopneumograph system
SE9701477L (sv) 1997-04-21 1998-10-05 Siemens Elema Ab Mätanordning för samtidig bestämning av flöde av en strömmande gasblandning och koncentration av en specifik gas i gasblandningen.
US6241683B1 (en) 1998-02-20 2001-06-05 INSTITUT DE RECHERCHES CLINIQUES DE MONTRéAL (IRCM) Phonospirometry for non-invasive monitoring of respiration
US6389393B1 (en) 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
FI981508A (fi) 1998-06-30 1999-12-31 Nokia Mobile Phones Ltd Menetelmä, laite ja järjestelmä käyttäjän tilan arvioimiseksi
IL128000A0 (en) 1999-01-11 1999-11-30 Univ Ben Gurion A method for the diagnosis of thought states by analysis of interword silences
US6600949B1 (en) 1999-11-10 2003-07-29 Pacesetter, Inc. Method for monitoring heart failure via respiratory patterns
US6527729B1 (en) 1999-11-10 2003-03-04 Pacesetter, Inc. Method for monitoring patient using acoustic sensor
SE0004221L (sv) 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Metod och anordning för talanalys
US7016833B2 (en) 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US7035797B2 (en) 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
US7283962B2 (en) 2002-03-21 2007-10-16 United States Of America As Represented By The Secretary Of The Army Methods and systems for detecting, measuring, and monitoring stress in speech
US6983246B2 (en) 2002-05-21 2006-01-03 Thinkengine Networks, Inc. Dynamic time warping using frequency distributed distance measures
DE10228497B4 (de) 2002-06-21 2012-01-26 Nicolay Verwaltungs-Gmbh Verfahren und Vorrichtung zum Ermitteln eines Anteils eines für die Stoffwechselfunktion eines atmenden Lebewesens charakteristischen Bestandteils in der von dem Lebewesen ausgeatmeten Luft
DE10232916B4 (de) 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
US7226422B2 (en) 2002-10-09 2007-06-05 Cardiac Pacemakers, Inc. Detection of congestion from monitoring patient response to a recumbent position
WO2004043259A1 (ja) 2002-11-11 2004-05-27 Electronic Navigation Research Institute, An Independent Administrative Institution 心身診断システム
WO2004091503A2 (en) 2003-04-10 2004-10-28 Vivometrics, Inc. Systems and methods for respiratory event detection
IL155955A0 (en) 2003-05-15 2003-12-23 Widemed Ltd Adaptive prediction of changes of physiological/pathological states using processing of biomedical signal
US7033323B2 (en) * 2004-02-04 2006-04-25 Deepbreeze Ltd. Method and system for analyzing respiratory tract air flow
DE102004023824B4 (de) 2004-05-13 2006-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Beurteilung einer Güteklasse eines zu prüfenden Objekts
JP2006075447A (ja) 2004-09-13 2006-03-23 Hitachi Ltd 携帯ヘルスチェック装置およびそれを用いた呼気分析サービス方法
US20060116878A1 (en) 2004-11-30 2006-06-01 Kenji Nagamine Asthma diagnostic apparatus, asthma diagnostic method, and storage medium storing asthma diagnostic program
US7762264B1 (en) 2004-12-14 2010-07-27 Lsvt Global, Inc. Total communications and body therapy
US20060167385A1 (en) 2005-01-24 2006-07-27 3M Innovative Properties Company Analysis of auscultatory sounds using voice recognition
US9089275B2 (en) 2005-05-11 2015-07-28 Cardiac Pacemakers, Inc. Sensitivity and specificity of pulmonary edema detection when using transthoracic impedance
US7529670B1 (en) * 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US7398213B1 (en) 2005-05-17 2008-07-08 Exaudios Technologies Method and system for diagnosing pathological phenomenon using a voice signal
US7457753B2 (en) 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment
JP4786384B2 (ja) 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
US8684900B2 (en) 2006-05-16 2014-04-01 Bao Tran Health monitoring appliance
US20080013747A1 (en) 2006-06-30 2008-01-17 Bao Tran Digital stethoscope and monitoring instrument
US20080275349A1 (en) 2007-05-02 2008-11-06 Earlysense Ltd. Monitoring, predicting and treating clinical episodes
US8221323B2 (en) 2007-08-03 2012-07-17 Cardiac Pacemakers, Inc. Using acoustic energy to compute a lung edema fluid status indication
US20090043586A1 (en) 2007-08-08 2009-02-12 Macauslan Joel Detecting a Physiological State Based on Speech
US8249686B2 (en) 2007-09-14 2012-08-21 Corventis, Inc. Adherent device for sleep disordered breathing
US20090099848A1 (en) 2007-10-16 2009-04-16 Moshe Lerner Early diagnosis of dementia
WO2010123483A2 (en) 2008-02-28 2010-10-28 Mcclean Hospital Corporation Analyzing the prosody of speech
US20090326937A1 (en) 2008-04-21 2009-12-31 Microsoft Corporation Using personalized health information to improve speech recognition
EP2124223B1 (en) 2008-05-16 2018-03-28 Beyond Verbal Communication Ltd. Methods and systems for diagnosing a pathological phenomenon using a voice signal
GB0814442D0 (en) 2008-08-08 2008-09-10 Health Smart Ltd Breathing Monitor
US8320588B2 (en) 2009-02-10 2012-11-27 Mcpherson Jerome Aby Microphone mover
US8689606B2 (en) 2009-03-23 2014-04-08 Koninklijke Philips N.V. Gas sensing using ultrasound
US20120116186A1 (en) 2009-07-20 2012-05-10 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US20110021940A1 (en) 2009-07-21 2011-01-27 Edmond Chu Incentive audio for pulmonary function diagnostics
US9138167B1 (en) 2009-09-25 2015-09-22 Krispin Johan Leydon Means for rendering key respiratory measurements accessible to mobile digital devices
US9357921B2 (en) 2009-10-16 2016-06-07 At&T Intellectual Property I, Lp Wearable health monitoring system
US9492096B2 (en) 2009-11-03 2016-11-15 Vivaquant Llc ECG sensing apparatuses, systems and methods
US8758262B2 (en) 2009-11-25 2014-06-24 University Of Rochester Respiratory disease monitoring system
EP2526524A4 (en) 2010-01-21 2014-08-13 Asthma Signals Inc EARLY WARNING METHOD AND SYSTEM USED IN THE MANAGEMENT OF CHRONIC DISEASE
WO2012021900A1 (en) 2010-08-13 2012-02-16 Respiratory Motion, Inc. Devices and methods for respiratory variation monitoring by measurement of respiratory volumes, motion and variability
WO2012025579A1 (en) 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
US10376197B2 (en) 2010-09-07 2019-08-13 Penina Ohana Lubelchick Diagnosing system for consciousness level measurement and method thereof
US20130190641A1 (en) * 2010-09-22 2013-07-25 Meytar (Dital) Engineering Limited Modular acoustic spirometer
US8784311B2 (en) 2010-10-05 2014-07-22 University Of Florida Research Foundation, Incorporated Systems and methods of screening for medical states using speech and other vocal behaviors
EP2438863A1 (en) 2010-10-05 2012-04-11 Phibio Science AB System and methods for analysis of pause time durations in speech.
JP5519778B2 (ja) 2010-11-04 2014-06-11 パナソニック株式会社 生体音検査装置、及び、生体音検査方法
CN103338699A (zh) 2011-01-25 2013-10-02 诺华股份有限公司 医学用动作成像和捕捉系统及方法
CN102125427B (zh) 2011-01-29 2012-08-22 清华大学 一种手机体检系统
US10271767B2 (en) 2011-01-31 2019-04-30 Koninklijke Philips N.V. Automated spirogram analysis and interpretation
US9055861B2 (en) 2011-02-28 2015-06-16 Samsung Electronics Co., Ltd. Apparatus and method of diagnosing health by using voice
RU2611766C2 (ru) 2011-03-16 2017-02-28 Конинклейке Филипс Н.В. Оценка симптомов дыхательной недостаточности и отека
US9070357B1 (en) 2011-05-11 2015-06-30 Brian K. Buchheit Using speech analysis to assess a speaker's physiological health
US20130018274A1 (en) 2011-07-13 2013-01-17 O'neill Alfonso V System and device for testing pulmonary function
GB201113572D0 (en) 2011-08-05 2011-09-21 Morgan David A portable device for the monitoring of medical conitions
CN103987314A (zh) 2011-09-20 2014-08-13 伊索尼亚有限公司 用于测量呼吸率以及动态地预测呼吸发作的系统、方法和套件
CN202261466U (zh) 2011-10-09 2012-05-30 江苏省莱科信息技术有限公司 一种具有肺活量检测功能的移动终端
CN102423262A (zh) 2011-10-09 2012-04-25 江苏省莱科信息技术有限公司 一种具有肺活量检测功能的移动终端及其肺活量检测方法
CN102497472B (zh) 2011-11-29 2014-09-10 惠州Tcl移动通信有限公司 基于手机麦克风的肺活量测试系统
US20130158434A1 (en) 2011-12-20 2013-06-20 Delta Electronics, Inc. Apparatus for voice assisted medical diagnosis
CN110353685B (zh) 2012-03-29 2022-03-04 昆士兰大学 用于处理患者声音的方法与装置
CA2872785C (en) 2012-05-10 2021-06-29 University Of Washington Through Its Center For Commercialization Sound-based spirometric devices, systems, and methods
US20140073993A1 (en) 2012-08-02 2014-03-13 University Of Notre Dame Du Lac Systems and methods for using isolated vowel sounds for assessment of mild traumatic brain injury
AU2013311358A1 (en) 2012-09-05 2015-04-02 Countingapp Medical Ltd. System and method for measuring lung capacity and stamina
WO2014045257A1 (en) 2012-09-24 2014-03-27 Koninklijke Philips N.V. System and method for determining a person's breathing
US9922641B1 (en) 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
US9579056B2 (en) 2012-10-16 2017-02-28 University Of Florida Research Foundation, Incorporated Screening for neurological disease using speech articulation characteristics
CA2798337A1 (en) 2012-12-04 2014-06-04 University Of Winnipeg Cardiovascular pulse wave analysis method and system
WO2014107798A1 (en) 2013-01-14 2014-07-17 University Health Network Mask and method for breathing disorder identification, characterization and/or diagnosis
CN105592788A (zh) 2013-03-06 2016-05-18 塞罗拉公司 用于脑健康的多模态生理评估的形成因素
US9153231B1 (en) 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
US20140302472A1 (en) * 2013-04-09 2014-10-09 Xerox Business Services, Llc Lamaze breathing coach
US20140378810A1 (en) 2013-04-18 2014-12-25 Digimarc Corporation Physiologic data acquisition and analysis
US20140314212A1 (en) * 2013-04-22 2014-10-23 Avaya Inc. Providing advisory information associated with detected auditory and visual signs in a psap environment
US10265012B2 (en) 2013-05-20 2019-04-23 Beyond Verbal Communication Ltd. Method and system for determining a pre-multisystem failure condition using time integrated voice analysis
US9183830B2 (en) 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
WO2015168606A1 (en) 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
WO2016028495A1 (en) 2014-08-22 2016-02-25 Sri International Systems for speech-based assessment of a patient's state-of-mind
US10201307B2 (en) 2014-09-24 2019-02-12 International Business Machines Corporation System and method to measure, analyze, and model pulmonary function and disease utilizing temporal, spatial, and contextual data
JP6503559B2 (ja) * 2014-10-20 2019-04-24 ソニー株式会社 音声処理システム
RU2017124900A (ru) 2014-12-12 2019-01-14 Конинклейке Филипс Н.В. Система для мониторинга, способ мониторинга и компьютерная программа для мониторинга
US20160302003A1 (en) 2015-04-08 2016-10-13 Cornell University Sensing non-speech body sounds
WO2016166318A1 (en) 2015-04-16 2016-10-20 Koninklijke Philips N.V. Device, system and method for detecting a cardiac and/or respiratory disease of a subject
US10672385B2 (en) 2015-09-04 2020-06-02 Honeywell International Inc. Method and system for remotely training and commanding the speech recognition system on a cockpit via a carry-on-device in a connected aircraft
US10706873B2 (en) 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
DE102015218948A1 (de) 2015-09-30 2017-03-30 Brandenburgische Technische Universität Cottbus-Senftenberg Vorrichtung und Verfahren zur Bestimmung eines medizinischen Gesundheitsparameters eines Probanden mittels Stimmanalyse
EP3359023A4 (en) 2015-10-08 2019-05-22 Cordio Medical Ltd. ASSESSMENT OF A PULMONARY SUFFERING BY LANGUAGE ANALYSIS
WO2017068582A1 (en) 2015-10-20 2017-04-27 Healthymize Ltd System and method for monitoring and determining a medical condition of a user
WO2017187712A1 (ja) 2016-04-26 2017-11-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
WO2018021920A1 (en) 2016-07-27 2018-02-01 The University Of Canterbury Maskless speech airflow measurement system
CA3040703A1 (en) 2016-10-17 2018-04-26 Context Ai, Llc Systems and methods for medical diagnosis and biomarker identification using physiological sensors and machine learning
JP7208224B2 (ja) 2017-05-05 2023-01-18 カナリー・スピーチ,エルエルシー 病状を検出するモデルを構築するための音声特徴の選択
CN108875463B (zh) 2017-05-16 2022-08-12 富士通株式会社 多视角向量处理方法和设备
CN107440721A (zh) * 2017-08-31 2017-12-08 安徽信息工程学院 肺活量检测的方法
CN107622797B (zh) 2017-09-26 2020-07-28 李涵之 一种基于声音的身体状况确定系统及方法
US10896763B2 (en) 2018-01-12 2021-01-19 Koninklijke Philips N.V. System and method for providing model-based treatment recommendation via individual-specific machine learning models
CA3098581A1 (en) 2018-04-27 2019-10-31 Respira Labs, Inc. Systems, devices, and methods for performing active auscultation and detecting sonic energy measurements
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US10706329B2 (en) 2018-11-13 2020-07-07 CurieAI, Inc. Methods for explainability of deep-learning models
KR102655628B1 (ko) 2018-11-22 2024-04-09 삼성전자주식회사 발화의 음성 데이터를 처리하는 방법 및 장치

Also Published As

Publication number Publication date
US11610600B2 (en) 2023-03-21
IL289561B1 (en) 2024-01-01
IL269807A (en) 2020-04-30
AU2019356224B2 (en) 2022-07-14
CA3114864A1 (en) 2020-04-16
CN112822976A (zh) 2021-05-18
US20200118583A1 (en) 2020-04-16
IL289561B2 (en) 2024-05-01
AU2019356224A1 (en) 2021-05-06
US20210056983A1 (en) 2021-02-25
JP7385299B2 (ja) 2023-11-22
JP2022502189A (ja) 2022-01-11
IL289561A (en) 2022-03-01
EP3637433A1 (en) 2020-04-15
WO2020075015A1 (en) 2020-04-16
US10847177B2 (en) 2020-11-24
CN112822976B (zh) 2024-05-07
IL269807B (en) 2022-02-01

Similar Documents

Publication Publication Date Title
JP7385299B2 (ja) スピーチ分析による肺気量の推定
US11207049B2 (en) System and method for characterizing an upper airway using speech characteristics
Nallanthighal et al. Deep sensing of breathing signal during conversational speech
US7529670B1 (en) Automatic speech recognition system for people with speech-affecting disabilities
EP2744408B1 (en) A system for characterizing an upper airway using speech characteristics
CN111315302A (zh) 认知功能评估装置、认知功能评估系统、认知功能评估方法及程序
WO2019087757A1 (ja) 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム
Lulich et al. Subglottal resonances of adult male and female native speakers of American English
US11727954B2 (en) Diagnostic techniques based on speech-sample alignment
US11776561B2 (en) Diagnostic techniques based on speech models
CN113496696A (zh) 一种基于语音识别的言语功能自动评估系统和方法
US11752288B2 (en) Speech-based breathing prediction
EP3709300A1 (en) Diagnostic techniques based on speech-sample alignment
KR20230109645A (ko) 음성 분석을 통해 추출된 내쉬는 기체 농도와 스펙트럼 포락선으로부터 손상된 생리학적 기능 검출
Nallanthighal et al. COVID-19 detection based on respiratory sensing from speech
EP4000529A1 (en) Detecting impaired physiological function by speech analysis
CN1377629A (zh) 运用呼吸系统发出的声音决定呼吸系统状况的方法与装置