KR20230130642A - 발화-분석 기반 자동화된 생리학적 및 병리학적 평가 - Google Patents

발화-분석 기반 자동화된 생리학적 및 병리학적 평가 Download PDF

Info

Publication number
KR20230130642A
KR20230130642A KR1020237023339A KR20237023339A KR20230130642A KR 20230130642 A KR20230130642 A KR 20230130642A KR 1020237023339 A KR1020237023339 A KR 1020237023339A KR 20237023339 A KR20237023339 A KR 20237023339A KR 20230130642 A KR20230130642 A KR 20230130642A
Authority
KR
South Korea
Prior art keywords
word
words
speech
recording
segments
Prior art date
Application number
KR1020237023339A
Other languages
English (en)
Inventor
마르틴 크리스티안 스트람
얀-핑 장
치안 저우
Original Assignee
에프. 호프만-라 로슈 아게
유니버지퇴트슈피탈 바젤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에프. 호프만-라 로슈 아게, 유니버지퇴트슈피탈 바젤 filed Critical 에프. 호프만-라 로슈 아게
Publication of KR20230130642A publication Critical patent/KR20230130642A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/0205Simultaneously evaluating both cardiovascular conditions and different types of body conditions, e.g. heart and respiratory condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Cardiology (AREA)
  • Psychiatry (AREA)
  • Physiology (AREA)
  • Epidemiology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Pulmonology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

대상체의 병리학적 및/또는 생리학적 상태를 평가하는 방법, 심부전이 있는 대상체 또는 호흡곤란 및/또는 피로와 연관된 병태를 갖거나 가질 위험이 있는 것으로 진단된 대상체를 모니터링하는 방법, 및 대상체를 비대상성 심부전을 갖는 것으로 진단하는 방법이 제공된다. 상기 방법은 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계 - 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 옴 - , 및 음성 레코딩 또는 이의 일부분을 분석하는 단계를 포함한다. 분석하는 단계는 단일 단어 또는 음절에 대응하는 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 및 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값과 비교하는 단계를 포함할 수 있다. 관련 시스템 및 프로덕트가 또한 기재된다.

Description

발화-분석 기반 자동화된 생리학적 및 병리학적 평가
본 발명은 특히 단어-읽기 검사로부터의 음성 레코딩을 분석하는 것을 포함하는, 대상체의 생리학적 및/또는 병리학적 상태의 자동화된 평가를 위한 컴퓨터 구현 방법과 관련된다. 방법을 구현하는 컴퓨팅 장치도 역시 기재된다. 본 발명의 방법 및 장치는 호흡, 목소리 톤, 피로 및/또는 인지 능력에 영향을 미치는 병리학적 및 생리학적 상태의 임상적 평가에 적용될 수 있다.
다양한 상태의 환자에 대한 원격 모니터링은 많은 환자의 의료 결과, 품질 및 편안함을 개선할 수 있는 잠재력을 가진다. 따라서, 환자가 환자의 의료진이 평가할 수 있는 바이오마커 데이터를 스스로 수집하도록 사용할 수 있는 장치 및 방법을 개발하는 데 많은 관심이 있다. 원격 모니터링의 잠재적 이점은 만성 질환 또는 평생적 병태, 가령, 심장병 또는 천식의 맥락에서 특히 엄중하다. 비침습적 바이오마커 기반 접근법은 위험도가 낮기 때문에 특히 바람직하다. 예를 들어 심부전(Maor et al., 2018), 천식, 만성 폐쇄성 폐질환(COPD)(Saeed et al., 2017), 및 더 최근에는 COVID-19 (Laguarta et al., 2020)의 평가에서 이러한 바이오마커 정보를 수집하기 위한 음성 분석의 사용이 제안되었다.
그러나 이러한 모든 접근 방식에는 일관성 제한이 있다. 실제로 이들 접근 방식 중 다수는 자유 발화 또는 소리(가령, 기침) 또는 레인보우(Rainbow) 구절과 같은 정해진 표준 구절의 읽기에 의존한다(Murton et al., 2017). 자유 발화 또는 소리의 사용은 각 음성 레코딩의 내용이 광범위하게 다를 수 있기 때문에 환자 간 그리고 동일한 환자에 대한 반복 평가 간에 높은 변동성을 겪는다. 정해진 표준 구절의 사용은 내용으로 인한 이러한 내재적 가변성을 제어하지만 검사가 반복됨에 따라 대상체가 표준 텍스트에 익숙해지는 것과 관련된 신경 심리적 효과에 대한 간섭을 겪는다. 이는 원격 모니터링 맥락에서 음성 분석 바이오마커의 실제 사용에 강력한 제한을 부과한다.
따라서 환자의 부담을 최소화하면서 원격으로 쉽게 수행될 수 있는 병리학적 및 생리학적 상태를 자동으로 평가하는 개선된 방법이 여전히 필요하다.
본 발명자들은 특히 단어-읽기 검사로부터의 음성 레코딩을 분석하는 것을 포함하는, 대상체의 생리학적 및/또는 병리학적 상태의 자동 평가를 위한 새로운 장치 및 방법을 개발했다. 본 발명자들은 단어-읽기 검사, 가령, 스트룹(Stroop) 검사로부터의 레코딩이 대상체의 병리학적 및/또는 생리학적 상태의 평가와 특히, 호흡, 음성 톤, 피로, 및/또는 인지 능력에 영향을 미치는 상태의 평가를 위한 재현 가능하고 유익한 바이오마커를 도출하는 데 사용될 수 있음을 식별했다.
스트룹 검사(Stroop, 1935)는 세 부분으로 구성된 신경심리학 검사(단어, 색상 및 간섭)로 정신 및 신경 장애를 진단하는 데 사용되었다. 예를 들어, 이는 널리 사용되는 UHDRS(Unified Huntington's Disease Rating Scale)에 따라 헌팅턴병(HD) 중증도를 정량화하기 위해 수행되는 인지 검사 배터리의 일부를 구성한다. 스트룹 검사의 단어 및 색상 부분은 색상-단어가 검정 잉크로 인쇄되고 색상-패치가 일치하는 잉크 색상으로 인쇄되는 "일관 조건"을 나타낸다. 간섭 부분에서 색상-단어가 잉크 색상과 일치하지 않게 인쇄된다. 환자는 가능한 한 빨리 단어를 읽거나 잉크 색상의 이름을 지정해야 한다. 임상의는 응답을 올바르거나 잘못된 것으로 해석한다. 점수가 주어진 45초 동안 각 상태에서 정답의 수로 보고된다. 일관 조건은 처리 속도와 선택적 주의력을 측정하는 것으로 간주된다. 간섭 조건은 단어와 색상 사이의 정신적 전환을 필요로 하므로 인지적 유연성을 측정하기 위한 것이다.
본 명세서에 기재된 방법은 스트룹 검사에서 영감을 얻은 단어-읽기 검사의 레코딩으로부터, 바이오마커로서 사용할 수 있는 것으로 식별된 하나 이상의 메트릭을 자동으로 결정하는 것에 기초하며, 상기 메트릭은, 음성 피치, 정답 단어율, 호흡 퍼센티지 및 무음성/유음성 비 중에서 선택된다. 상기 방법은 언어 독립적이고 완전 자동화되며 재현 가능하며 호흡, 목소리 톤, 피로 및/또는 인지 능력에 영향을 미치는 다양한 병태에 적용될 수 있다. 따라서 이는 대규모 모집단에서, 이러한 병태의 증상, 진단 또는 예후의 원격 자체 평가 및 모니터링을 가능하게 한다.
따라서, 제1 양태에 따라, 대상체의 병리학적 및/또는 생리학적 상태를 평가하는 방법이 제공되며, 상기 방법은 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계 - 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 옴 - , 및 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값에 비교하는 단계에 의해, 상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계를 포함한다.
상기 방법은 다음 특징 중 임의의 하나 이상을 가질 수 있다.
단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 단계는 상기 음성 레코딩의 파워 멜 스펙트로그램을 획득하는 단계, 주파수 축을 따르는 상기 멜 스펙트로그램의 최대 강도 투사를 계산하는 단계, 및 상기 주파수 축을 따르는 상기 멜 스펙트로그램의 최대 강도 투사가 임계값과 교차하는 시간 포인트로서 세그먼트 경계를 정의하는 단계를 포함할 수 있다.
본 명세서에서 기재되는 단어/음절 분할에 대한 접근 방식은, 발화가 상대적으로 빠르게 진행되어(즉, 단어들 사이에 중단이 없거나 짧게 포함됨), 일반적으로 에너지 포락선을 기반으로 하는 기존 방법이 잘 수행되지 않을 수 있는 경우에도, 음성 레코딩에서 단어(및 일부 경우에는 다중 음절 단어의 음절)의 정확하고 민감한 분할을 가능하게 한다. 이는 또한 가령, 환자가 컴퓨팅 장치(가령, 본 명세서에서 차후 기재될 애플리케이션 또는 웹 애플리케이션을 통해 모바일 컴퓨팅 장치, 가령, 스마트폰 또는 태블릿 또는 개인 컴퓨터) 상에 디스플레이된 스스로 읽은 단어를 레코딩함으로써 단어 읽기 작업에서 식별된 유음성 세그먼트로부터 도출된 메트릭(가령, 호흡 %, 무음성/유음성 비, 및 속도, 가령, 정답 단어율)의 자동화된 정량화를 원격으로 단순하고 용이하게 획득될 수 있는 데이터로부터 가능하게 한다.
단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트는 두 개의 연속된 단어/음절 경계 사이에 포함된 세그먼트로 정의될 수 있다. 바람직하게는, 단일 단어/음절에 대응하는 음성 레코딩의 세그먼트는 멜 스펙트로그램(Mel spectrogram)의 최대 강도 투영이 낮은 값에서 높은 값으로 임계값과 교차하는 제1 경계와 멜 스펙트로그램의 최대 강도 투영이 높은 값에서 낮은 값으로 임계값을 교차하는 제2 경계 사이의 세그먼트로서 정의될 수 있다. 바람직하게는, 이 정의를 만족하지 않는 경계들 사이의 음성 레코딩의 세그먼트가 제외될 수 있다.
하나 이상의 메트릭의 값을 결정하는 것은 상기 음성 레코드에서 식별된 세그먼트들 사이의 시간의 퍼센티지, 또는 상기 레코딩에서 식별된 세그먼트들 사이의 시간과 상기 레코딩에서 식별된 세그먼트들 사이의 시간과 식별된 세그먼트 내 시간의 합의 비로서 상기 레코딩과 연관된 호흡 퍼센티지를 결정하는 것을 포함할 수 있다.
하나 이상의 메트릭의 값을 결정하는 것은 상기 레코딩에서 식별된 세그먼트들 사이의 시간과 상기 레코딩에서 식별된 세그먼트 내 시간의 비로서 상기 레코딩과 연관된 무음성/유음성 비를 결정하는 것을 포함할 수 있다.
하나 이상의 메트릭의 값을 결정하는 것은 올바르게 읽힌 단어에 대응하는 식별된 세그먼트의 수를 첫 번째 식별된 세그먼트의 시작부분과 마지막 식별된 세그먼트의 종료부분 간 지속시간으로 나눈 비를 계산함으로써, 상기 음성 레코딩과 연관된 정답 단어율을 결정하는 것을 포함할 수 있다.
하나 이상의 메트릭의 값을 결정하는 것은 식별된 세그먼트 각각에 대한 기본 주파수의 하나 이상의 추정치를 획득함으로써 레코딩과 연관된 음성 피치를 결정하는 것을 포함할 수 있다. 음성 피치의 값을 결정하는 것은 식별된 세그먼트 각각에 대한 기본 주파수의 복수의 추정치를 획득하는 것 및 상기 복수의 추정치에 필터를 적용시켜 필터링된 복수의 추정치를 획득하는 것을 포함할 수 있다. 음성 피치의 값을 결정하는 것은 복수의 세그먼트에 대한 요약된 음성 피치 추정치, 가령, 복수의 세그먼트에 대한 (선택적으로 필터링된) 복수의 추정치의 평균, 중앙값 또는 최빈값을 획득하는 것을 포함할 수 있다.
하나 이상의 메트릭의 값을 결정하는 것은 시간에 따라 음성 레코딩에서 읽히거나 올바르게 읽힌 단어에 대응하는 식별된 세그먼트의 수의 누적 합계를 계산하고 누적 합계 데이터에 적합되는 선형 회귀 모델의 기울기를 계산함으로써 음성 레코딩과 연관된 전체 또는 정답 단어율을 결정하는 것을 포함할 수 있다. 바람직하게는, 이 접근법은 전체 레코딩에 걸쳐 단위 시간당 읽히거나 올바르게 읽힌 단어의 수로서 전체 또는 정답 단어율의 강건한 추정을 도출한다. 이렇게 얻은 추정치는 이상치(가령, 정답 단어율의 고립된 순간적 변화를 유발할 수 있는 주의 산만)에 대해 강건할 수 있는 반면, 전체 또는 정답 단어율의 진정한 감속(가령, 진정한 피로, 호흡 및/또는 인지 장애로 인해 느린 발화가 있는 빈번한 세그먼트를 도출하는 경우)에 민감할 수 있다. 또한 이 접근 방식은 레코딩의 길이와 무관하다. 이와 같이, 이는 길이가 다른 음성 레코딩 또는 동일한 음성 레코딩의 상이한 부분에 대해 획득된 전체 또는 정답 단어율의 비교를 가능하게 할 수 있다. 또한, 인지 또는 호흡 장애와 관련되지 않은 이유로(가령, 대상체가 초기에 레코딩이 시작되었음을 인식하지 못한 이유로) 대상체가 발화를 일시 중지하거나 발화하지 않는 것과 같은 외부 요인에 강건할 수 있다. 또한, 이 접근 방식은 단어 시작의 특정 타이밍과 관련된 불확실성 및/또는 고려되는 단어 지속 시간의 변동에 유리하게 강건하다.
방법이 음성 레코딩에서 정답 단어율을 결정하는 단계를 포함하는 경우, 방법은, 값의 복수의 벡터를 획득하기 위해 각각의 세그먼트에 대해 하나 이상의 MFCC(Mel-frequency cepstral coefficients)를 계산하는 단계 - 각각의 벡터는 세그먼트와 연관됨 - , 복수의 값 벡터를 n개의 클러스터로 클러스터링하는 단계 - 각 클러스터는 n개의 단어 각각에 대응하는 n개의 가능한 라벨을 가짐 - , 라벨의 n! 순열 각각에 대해, 클러스터링된 값 벡터와 연관된 라벨을 사용하여 음성 레코딩에서 단어의 시퀀스를 예측하고 예측된 단어 시퀀스와 단어 읽기 검사에 사용된 단어 시퀀스 간의 시퀀스 정렬을 수행하는 단계, 최상의 정렬을 도출하는 라벨을 선택하는 단계 - 정렬에서의 매치는 음성 레코딩에서 올바르게 읽힌 단어에 대응함 - 를 포함할 수 있다.
바람직하게는, 본 명세서에 기재된 정답 단어율을 결정하기 위한 접근법은 전적으로 데이터에 의해 구동되며 그러한 모델 및 언어 독립적이다. 특히 클러스터링 단계는 비지도 학습 단계이므로 세그먼트의 각 그룹이 나타내는 실제 단어(그라운드 트루쓰)에 대한 지식이 필요하지 않다. 대안 실시예에서, 클러스터링이 지도 학습 방식, 가령, 은닉 마르코프 모델로 대체되는 것이 가능하다. 그러나 이러한 접근 방식은 각 언어에 대해 모델의 재훈련을 필요로 할 것이다.
바람직하게는, 본 명세서에 기재된 정답 단어율을 결정하는 것의 접근 방식은 종래의 단어 인식 방식이 올바르게 읽혔지만 틀리게 발음된 단어를 식별하지 못하게 할 수 있는 구음 장애와 같은 발화 장애를 추가로 처리할 수 있다. 이는 또한 단순하고 용이하게 원격으로 획득된, 가령, 환자가 컴퓨팅 장치(가령, 모바일 컴퓨팅 장치, 가령, 스마트폰 또는 태블릿) 상에 디스플레이되는 읽은 단어를 스스로 녹음함으로써 데이터로부터 단어 읽기 작업에서 정답 단어율의 자동화된 정량화를 가능하게 한다.
실시예에서, 클러스터링된 값 벡터와 연관된 라벨을 사용하여 음성 레코딩에서 단어의 시퀀스를 예측하는 것은 값 벡터가 파생된 세그먼트의 순서에 따라 순서화된 클러스터링된 값 벡터 각각에 대해 각자의 클러스터 라벨에 대응하는 단어의 시퀀스를 예측하는 것을 포함한다.
일부 실시예에서, 클러스터링된 값 벡터와 연관된 라벨을 사용하여 음성 레코딩에서 단어의 시퀀스를 예측하는 것은 하나 이상의 사전 결정된 기준을 충족하는 신뢰도를 갖는 클러스터에 할당된 클러스터링된 값 벡터 각각에 대해 각자의 클러스터 라벨에 대응하는 단어의 시퀀스를 예측하는 것을 포함한다. 즉, 클러스터링된 값 벡터와 연관된 라벨을 사용하여 음성 레코딩에서 단어의 시퀀스를 예측하는 것은 하나 이상의 사전 결정된 신뢰도를 가진 임의의 특정 클러스터와 연관되지 않은 클러스터링된 값 벡터에 대한 예측을 제외하는 것을 포함할 수 있다. 하나 이상의 사전 결정된 기준은 값의 벡터가 n개의 클러스터 중 하나에 속할 확률, 값 벡터와 n개의 클러스터 중 하나에 대한 대표적인 값 벡터(가령, 클러스터의 중간 또는 중심의 좌표) 사이의 거리, 또는 이들의 조합에 대한 임계값을 사용하여 정의될 수 있다.
일부 실시예에서, 클러스터링된 값 벡터와 연관된 라벨을 사용하여 음성 레코딩에서 단어의 시퀀스를 예측하는 것은 클러스터링된 값 벡터 각각에 대해 각자의 클러스터 라벨에 대응하는 단어의 시퀀스를 예측하는 것을 포함한다. 이러한 일부 실시예에서, 다음절 단어(특히 하나의 강조된 음절을 포함하는 다음절 단어)가 사용되는 경우, 다중 세그먼트가 식별되고 클러스터링될 수 있기 때문에 다중 음절 단어에 대해 다중 단어 예측이 예측될 수 있다. 이러한 상황에서 본 명세서에 기재된 방법에 따라 음성 레코딩에서 올바르게 읽은 단어의 수를 결정하는 것이 여전히 가능하다는 것이 밝혀졌다. 실제로, 앞서 설명된 바와 같이, 클러스터링 단계는 추가 음절에서 오는 "노이즈"의 존재에 강건할 수 있으므로 n개의 단어 각각에서의 단일 음절에 의해 주로 결정되는 클러스터가 여전히 식별될 수 있다고 여겨진다. 또한, 서열 정렬 단계는 단어 읽기 검사에서 사용되는 단어의 시퀀스에 존재하는 것으로 예상되지 않는 추가 예측된 단어의 존재로부터 도출되기 때문에 라벨의 n! 순열 각각에 대해 삽입이 존재할 경우 시퀀스 내 삽입으로서 추가 음절을 처리할 수 있을 것으로 여겨진다. 따라서 정렬에서 매치의 수는 여전히 음성 레코딩에서 올바르게 읽힌 단어의 수에 대응할 것이다.
실시예에서, 세그먼트에 대한 값 벡터를 획득하기 위해 하나 이상의 MFCC를 계산하는 것은 세그먼트의 각 프레임에 대해 i개의 MFCC의 세트를 계산하는 것 및 세그먼트 내 프레임에 걸쳐 있는 i개의 MFCC 각각에 의해 형성된 신호를 압축함으로써 세그먼트에 대한 j개의 값의 세트를 획득하여, 세그먼트에 대한 ixj 개의 값의 벡터를 획득하는 것을 포함한다. 예를 들어, 세그먼트의 프레임에 걸쳐 i개의 MFCC 각각에 의해 형성된 신호를 압축하는 것은 상기 신호의 선형 보간을 수행하는 것을 포함할 수 있다.
실시예에서, 세그먼트에 대한 값 벡터를 얻기 위해 하나 이상의 MFCC를 계산하는 것은 세그먼트의 각 프레임에 대한 i개의 MFCC의 세트를 계산하고 보간, 바람직하게는 선형 보간에 의해, 각 i에 대해 세그먼트에 대한 j개의 값의 세트를 획득하여, 세그먼트의 ixj개의 값의 벡터를 획득하는 것을 포함한다.
그 결과, 복수의 세그먼트의 각각에 대한 값 벡터는 모두 동일한 길이를 가진다. 이러한 값 벡터는 다차원 공간에서 점의 클러스터를 식별하는 임의의 클러스터링 접근 방식에 대한 입력으로 유리하게 사용될 수 있다.
세그먼트에 대한 값의 벡터를 얻기 위해 하나 이상의 MFCC를 계산하는 것은 전술한 바와 같이 수행될 수 있다. 통상의 기술자라면 이해할 바와 같이, 세그먼트에 대한 MFCC를 획득 위해 고정된 길이의 시간 창을 사용함은 세그먼트당 총 MFCC 수가 세그먼트의 길이에 따라 달라질 수 있음을 의미한다. 즉, 세그먼트는 다수의 프레임 f를 가질 것이며, 각각의 프레임은 i개의 MFCC의 세트와 연관되며, f는 세그먼트의 길이에 따라 다르다. 결과적으로 긴 음절/단어에 대응하는 세그먼트는 짧은 음절/단어에 해당하는 세그먼트보다 더 많은 수의 값과 연관될 것이다. 이들 값이 공통 공간에서 세그먼트를 클러스터링하기 위해 세그먼트를 나타내는 특징으로서 사용되는 경우 문제가 될 수 있다. 보간 단계는 이 문제를 해결한다. 실시예에서, 세그먼트에 대해 하나 이상의 MFCC를 계산하는 것은 세그먼트의 각 프레임에 대해 복수의 제2 내지 제13 MFCC를 계산하는 것을 포함한다. 제1 MFCC는 포함되지 않는 것이 바람직하다. 이론에 얽매이지 않고, 제1 MFCC는 주로 레코딩 조건과 관련이 있고 단어 또는 음절의 정체성과 관련된 정보를 거의 포함하지 않는 세그먼트의 에너지를 나타내는 것으로 가정한다. 이와 달리, (MFCC의 정의에 따라) 나머지 12개의 MFCC는 인간의 가청 범위를 커버하므로 인간이 단어를 생성하고 듣는 방식과 관련된 소리 특징을 캡처한다.
실시예에서, 복수의 제2 내지 제13 MFCC는 적어도 2개, 적어도 4개, 적어도 6개, 적어도 8개, 적어도 10개 또는 모두 12개의 제2 내지 제13 MFCC를 포함한다. 제2 내지 제13 MFCC는 간단한 클러스터링 접근 방식을 사용하여 단어를 초공간에서 점으로서 단어의 닫힌 세트로부터 구별하는 데 사용될 수 있는 정보를 유리하게 포함할 수 있다. 특히 앞서 설명한 것처럼 제2 내지 제13 MFCC는 인간의 가청 범위를 커버하므로 인간이 단어를 생성하고 듣는 방식과 관련된 소리 특징을 캡처하는 것으로 여겨진다. 이와 같이, 이들 12개의 MFCC를 사용하면 사람의 음성 레코딩에서 한 단어/음절을 다른 단어/음절과 구별하는 데 관련이 있다고 생각되는 정보를 유리하게 캡처할 수 있다.
본 명세서에 기재된 세그먼테이션 방법이 사용되는 경우, 식별된 세그먼트의 각 프레임에 대한 MFCC는 잘못된 검출을 나타내는 세그먼트를 제외하는 단계의 일부로서 이미 계산되었을 수 있다. 이러한 실시예에서, 이전에 계산된 MFCC는 음성 레코딩에서 올바르게 읽힌 단어의 수를 결정하기 위한 목적으로 값의 벡터를 얻는 데 유리하게 사용될 수 있다.
실시예에서, 파라미터 j는 클러스터링 단계에서 사용되는 모든 세그먼트에 대해 jf 가 되도록 선택된다. 다시 말해서, 파라미터 j는 보간이 신호의 압축을 도출하도록 선택될 수 있다(여기서 각 MFCC에 대해 신호는 세그먼트의 프레임에 걸친 상기 MFCC의 값임). 실시예에서, 파라미터 j는 클러스터링에 사용된 모든 세그먼트(또는 세그먼트의 적어도 설정된 비율, 가령, 90%)에 대해 40% 내지 60%의 신호의 압축을 도출하도록 선택될 수 있다. 통상의 기술자가 이해하는 바와 같이, 고정 파라미터 j를 사용하여 세그먼트에 적용되는 압축 수준은 세그먼트의 길이에 따라 달라질 수 있다. 40 내지 60%로의 신호 압축을 사용하면 각 세그먼트의 신호가 원래 신호 밀도의 약 절반으로 압축될 수 있다.
편리한 실시예에서, j는 10 내지 15, 가령, 12로 선택된다. 이론에 얽매이지 않고, 10ms의 단계 크기를 가진 25ms의 프레임이 소리 신호에 대한 MFCC의 계산에 일반적으로 사용된다. 또한 음절(및 단음절 단어)은 평균 약 250ms 길이일 수 있다. 이와 같이 j=12를 사용하면 평균 25개 값(250ms 세그먼트에서 25개 프레임에 대응)에서 이 값의 수의 약 절반으로 압축(즉, 평균 약 40 내지 60% 압축)될 수 있다.
실시예에서, 복수의 값 벡터를 n개의 클러스터로 클러스터링하는 것은 k-평균을 사용하여 수행된다. 바람직하게는, k-평균은 MFCC 값의 벡터로 표현되는 단어를 분리하는 데 잘 수행되는 것으로 밝혀진 간단하고 계산적으로 효율적인 접근 방식이다. 또는, 다른 클러스터링 방식, 가령, 중간점(medoid) 주위 분할 또는 계층적 클러스터링이 사용될 수 있다.
또한, 획득된 클러스터의 중심점(centroid)은 MFCC 공간 내 대응하는 단어 또는 음절의 표현에 대응할 수 있다. 이는 프로세스에 대한 유용한 정보(가령, 세그먼테이션 및/또는 클러스터링이 만족스럽게 수행되었는지 여부) 및/또는 음성 레코딩(따라서 대상체)에 대한 유용한 정보를 제공할 수 있다. 특히, 이러한 클러스터의 중심점은 개체들 사이에서 비교될 수 있고 및/또는 추가의 임상적으로 유익한 척도로서 사용될 수 있다(예를 들어, 음절 또는 단어를 명료화하는 대상체의 능력의 측면을 포착하기 때문).
실시예에서, 하나 이상의 MFCC는 클러스터링 및/또는 보간 전에 레코딩의 세그먼트에 걸쳐 정규화된다. 특히, 각각의 MFCC는 개별적으로 중심화되고 표준화될 수 있으며, 그 결과 각각의 MFCC 분포는 동일한 분산 및 0의 평균을 갖게 된다. 이는 클러스터링 프로세스의 성능을 유리하게 향상시킬 수 있는데, 이는 일부 MFCC가 높은 분산을 갖고 분포되는 경우 클러스터링을 "지배"하는 것을 방지할 수 있기 때문이다. 즉, 이는 클러스터링의 모든 특징(즉, 사용된 각 MFCC)이 클러스터링에서 유사한 중요도를 갖도록 보장할 수 있다.
실시예에서, 시퀀스 정렬을 수행하는 것은 정렬 점수를 획득하는 것을 포함한다. 이러한 일부 실시예에서, 최상의 정렬은 하나 이상의 지정된 기준을 만족하는 정렬이며, 이들 기준 중 적어도 하나는 정렬 점수에 적용된다. 실시예에서, 최상의 정렬은 정렬 점수가 가장 높은 정렬이다.
실시예에서, 시퀀스 정렬 단계는 로컬 시퀀스 정렬 알고리즘, 바람직하게는 스미스-워터맨(Smith-Waterman) 알고리즘을 사용하여 수행된다.
로컬 시퀀스 정렬 알고리즘은 이상적으로 닫힌 집합으로부터 선택된 두 개의 문자열을 정렬하는 작업에 적합한데, 여기서 문자열이 비교적 짧고 반드시 동일 길이를 가질 필요는 없다(읽기 작업 및/또는 단어 세그먼테이션 프로세스에서 단어가 누락될 수 있기 때문이다). 즉, 로컬 시퀀스 정렬 알고리즘, 가령, 스미스-워터맨 알고리즘이 부분적으로 겹치는 시퀀스의 정렬을 위해 특히 적합하다, 이는 미스매치 및 갭이 있는 정렬이 대상체가 100% 미만의 정답 단어 카운트를 달성하기 때문 및/또는 세그먼테이션 프로세스에서의 오류 때문에 예상되기 때문에 본 발명의 맥락에서 바람직하다.
실시예에서, 스미스-워터맨(Smith-Waterman) 알고리즘은 1과 2 사이의 갭 비용(바람직하게는 2) 및 매치 점수 = 3과 함께 사용된다. 이들 파라미터는 수동으로 주석이 달린 데이터에 비교됨으로써, 음성 레코딩에서의 단어의 정확한 식별을 이끌 수 있다. 이론에 구속되지 않고, 더 높은 갭 비용(가령, 1 대신 2)을 사용하면 검색 공간이 제한되고 정렬이 짧아질 수 있다. 이는 매치가 예상되는 상황을 바람직하게 포착할 수 있다(즉, 예측된 단어 시퀀스의 많은 문자가 알려진 단어 시퀀스의 문자와 정렬될 수 있도록 하는 클러스터 라벨 할당이 존재한다고 가정함).
실시예에서, 단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 것은 음성 레코딩의 파워 멜-스펙트로그램을 정규화하는 것을 더 포함한다. 바람직하게는, 파워 멜-스펙트로그램은 레코딩에서 가장 높은 에너지를 갖는 프레임에 대해 정규화된다. 즉, 파워 멜-스펙트로그램의 각 값은 파워 멜-스펙트로그램에서 가장 높은 에너지 값으로 나누어질 수 있다.
통상의 기술자가 이해하는 바와 같이, 파워 멜-스펙트로그램은 멜 척도(Mel scale)에 따른 소리 신호에 대한 파워 스펙트로그램을 의미한다. 또한, 멜-스펙트로그램을 획득하는 것은 음성 레코딩을 따라 프레임을 정의하고(여기서 프레임은 시간축을 따라 적용된 고정 폭의 창에서 신호에 대응할 수 있음) 각 프레임에 대한 멜 척도에 따른 파워 스펙트럼을 계산하는 것을 포함한다. 이 프로세스는 프레임(시간 빈)당 멜 단위(Mel unit)당 파워의 값의 행렬을 도출한다. 이러한 스펙트로그램에 대한 주파수 축에 대한 최대 강도 투영을 획득하는 것은 각 프레임에 대한 멜 스펙트럼 상의 최대 강도를 선택하는 것을 포함한다.
정규화는 동일하거나 상이한 대상체와 연관될 수 있는 상이한 음성 레코딩들 간 비교를 바람직하게 용이하게 한다. 이는 예를 들어 동일한 대상체로부터의 여러 개별 레코딩이 조합된 경우에 특히 바람직할 수 있다. 예를 들어, 이는 짧은 레코딩이 선호되는 경우(가령, 대상체가 피로하기 때문에), 표준 또는 원하는 길이의 단어 읽기 검사가 선호되는 경우에 특히 바람직할 수 있다. 레코딩에서 가장 높은 에너지를 갖는 프레임에 대해 멜-스펙트로그램을 정규화하는 것은 바람직하게도 임의의 레코딩에 대해 0dB의 상대 에너지 값(최대 강도 투영 이후의 값)을 갖는 레코딩 내 가장 소리가 큰 프레임을 도출한다. 그 밖의 다른 프레임은 0dB 미만의 상대 에너지 값을 가질 것이다. 또한, 파워 멜-스펙트로그램을 정규화하면 음성 레코딩들 간에 비교할 수 있는 상대 에너지(시간에 따른 dB 값)를 나타내는 최대 강도 투영을 도출시킴으로써, (사전 결정되거나 동적으로 결정될 수 있는) 공통 임계값이 바람직하게도 다수의 레코딩에 대해 사용될 수 있다.
단일 단어/음절 세그먼트에서 파생된 데이터에 이상치 검출 방법을 적용하면 잘못된 검출(가령, 부정확한 조음, 호흡 및 비-발화 소리에 의해 야기된 것)에 대응하는 세그먼트를 제거할 수 있다는 이점이 있다. 다차원 관측치의 세트에 적용할 수 있는 임의의 이상치 검출 방법이 사용될 수 있다. 예를 들어, 클러스터링 접근 방식이 사용될 수 있다. 실시예에서, 이상치 검출 방법을 복수의 값 벡터에 적용하는 것은 나머지 값 벡터로부터 사전 결정된 거리 보다 많이 위에 있는 값 벡터를 갖는 모든 세그먼트를 제외하는 것을 포함한다.
단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 것은 세그먼트의 멜-스펙트로그램에 걸쳐 스펙트럼 플럭스 함수를 계산함으로써 세그먼트들 중 적어도 하나에 대한 시작 검출을 수행하는 것, 및 하나의 세그먼트 내에서 시작이 검출될 때마다 추가 경계를 형성하여 두 개의 새로운 세그먼트를 형성하는 것을 더 포함할 수 있다.
실시예에서, 단일 단어/음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 것은 사전 결정된 임계값보다 짧은 세그먼트를 제거함으로써 잘못된 검출을 나타내는 세그먼트 및/또는 지정 임계값 미만의 평균 상대 에너지를 갖는 세그먼트를 제외하는 것을 더 포함한다. 예를 들어, 바람직하게는 100ms보다 짧은 세그먼트가 제외될 수 있다. 마찬가지로, 바람직하게는 -40 dB 미만의 평균 상대 에너지를 갖는 세그먼트가 제외될 수 있다. 이러한 접근 방식은 단어나 음절에 대응하는 세그먼트를 간단하고 효율적으로 제외시킬 수 있다. 바람직하게는, 앞서 설명된 바와 같이 세그먼트에 대한 MFCC를 계산하고 이상치 검출 방법을 적용하기 전에 짧은 및/또는 저 에너지 세그먼트를 제외하도록 세그먼트가 필터링된다. 실제로, 이로 인해 바람직하게도 잘못된 세그먼트에 대한 MFCC를 계산하는 불필요한 단계가 회피되고 이러한 잘못된 세그먼트가 이상치 검출 방법에서 추가 노이즈를 도입하지 못하게 한다.
임의의 양태의 일부 실시예에서, 음성 레코딩은 기준 톤을 포함한다. 예를 들어, 사용자가 수행한 읽기 검사를 레코딩하기 시작한 직후 기준 톤을 발산하도록 구성된 컴퓨팅 장치를 사용하여 레코딩이 얻어졌을 수 있다. 이는 사용자에게 읽기 작업을 시작할 때에 대한 지시자를 제공하는 데 유용할 수 있다. 음성 레코딩이 기준 톤을 포함하는 실시예에서, 방법의 하나 이상의 파라미터는 기준 톤이 단일 단어 또는 음절에 대응하는 세그먼트로서 식별되도록, 및/또는 기준 톤을 포함하는 세그먼트가 잘못된 검출을 제거하기 위해 프로세스에서 제외되도록 선택될 수 있다. 예를 들어, 잘못된 검출 제거 프로세스에서 사용되는 MFCC의 세트 및/또는 이 프로세스에서 사용되는 사전 결정된 거리는 각각의 음성 레코딩에서 기준 톤에 대응하는 세그먼트(또는 음성 레코딩의 적어도 선택된 퍼센티지)가 제거되도록 선택될 수 있다.
단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 것은 세그먼트에 대해 하나 이상의 MFCC(Mel-frequency cepstral coefficient)를 계산하여 복수의 값 벡터를 획득하고 - 각각의 벡터는 세그먼트와 연관됨 - , 이상치 검출 방법을 복수의 값 벡터에 적용함으로써, 잘못된 검출을 나타내는 세그먼트를 제외하는 것을 더 포함할 수 있다. 단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 것은 사전 결정된 임계값보다 짧은 세그먼트 및/또는 사전 결정된 임계값 미만의 평균 상대 에너지를 갖는 세그먼트를 제거함으로써 잘못된 검출을 나타내는 세그먼트를 제외하는 것을 더 포함할 수 있다.
n개의 단어는 단음절이거나 이음절일 수 있다. n개의 단어는 각각의 단어에 내재된 하나 이상의 모음을 포함할 수 있다. n개의 단어는 각각 하나의 강조된 음절을 포함할 수 있다. n개의 단어는 색 단어일 수 있으며, 선택적으로, 단어 읽기 검사에서 단어는 단일 색으로 디스플레이되거나 단어는 단어 읽기 검사에서 m개의 색상의 세트에서 독립적으로 선택된 색으로 디스플레이된다.
본 발명의 맥락에서 대상체는 인간 대상체이다. "대상체", "환자" 및 "개체"라는 단어는 본 개시내용 전반에 걸쳐 상호교환적으로 사용된다.
대상체로부터의 단어-읽기 검사로부터 음성 레코딩을 획득하는 것은 제1 단어-읽기 검사로부터의 음성 레코딩을 획득하고 제2 단어-읽기 검사로부터의 음성 레코딩을 획득하는 것을 포함하고, 단어-읽기 검사는 색 단어인 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하며, 단어는 제1 단어 읽기 검사에서 단일 색으로 디스플레이되며 제2 단어 읽기 검사에서 m개의 색의 세트로부터 독립적으로 선택된 색으로 디스플레이되고, 선택적으로, 제2 단어 읽기 검사에서의 단어의 시퀀스는 제1 단어 읽기 검사에서의 단어의 시퀀스와 동일하다.
단어의 시퀀스는 사전 결정된 수의 단어를 포함할 수 있으며, 사전 결정된 수는 레코딩이 하나 이상의 메트릭을 추정하기에 충분한 정보를 포함함을 보장 및/또는 하나 이상의 메트릭을 이전에 획득한 기준 값과 비교할 수 있도록 하기 위해 선택된다. 단어의 시퀀스는 적어도 20개, 적어도 30개 또는 대략 40개 단어를 포함할 수 있다. 예를 들어, 본 발명자들은 40개의 단어의 시퀀스를 포함하는 단어 읽기 검사가, 강력한 호흡곤란 및/또는 피로가 있는 대상체, 가령, 비대상성 심부전 환자에 대한 관리 가능한 노력을 나타내는 동안 모든 관심 메트릭을 추정하기에 충분한 정보를 제공함을 발견했다.
단어의 사전 결정된 수는 대상체의 예상되는 생리학적 및/또는 병리학적 상태에 따라 달라질 수 있다. 예를 들어, 특정 질병, 장애 또는 병태를 가진 대상체가 사전 결정된 시간 내에 단어의 시퀀스를 읽는 것으로 예상될 수 있도록 단어의 사전 결정된 수가 선택될 수 있다. 사전 결정된 주기당 예상 단어 수는 비교 훈련 코호트를 사용하여 결정될 수 있다. 바람직하게는, 비교 훈련 코호트는 의도된 사용자와 유사한 병태, 질병 또는 장애 및/또는 의도된 사용자와 유사한 수준의 피로 및/또는 호흡곤란을 가진 개체로 구성된다. 사전 결정된 시간 길이는 바람직하게는 120초 미만이다. 너무 긴 검사는 외부 파라미터, 가령, 지루함이나 신체적 약점에 의해 영향 받거나 및/또는 사용자에게 덜 편의적이어서 잠재적으로 이해도가 떨어질 수 있다. 사전 결정된 시간 길이는 다음 중에서 선택될 수 있다: 30초, 35초, 40초, 45초, 50초, 55초 또는 60초. 사전 결정된 시간 및/또는 단어 수는 표준 및/또는 비교 검사의 존재에 따라 선택될 수 있다.
바람직하게는, 레코딩은 대상체가 그들에게 디스플레이되는 단어의 시퀀스를 읽는 데 필요한 만큼의 길이를 가진다. 따라서, 컴퓨팅 장치는 대상체가 레코딩이 중지되어야 한다고 표시할 때까지 및/또는 대상체가 디스플레이되는 단어의 전체 시퀀스를 읽을 때까지 음성 레코딩을 녹음할 수 있다. 예를 들어, 컴퓨팅 장치는 대상체가 검사를 완료했음을 나타내는 사용자 인터페이스를 통해 입력을 제공할 때까지 음성 레코딩을 녹음할 수 있다. 다른 예로서, 컴퓨팅 장치는 사전 결정된 시간 길이 동안 음성 레코딩을 녹음할 수 있고, 레코딩은 단어의 시퀀스에서 예상되는 단어 수에 대응하는 수의 세그먼트를 포함하도록 크롭될 수 있다. 대안으로, 컴퓨팅 장치는 대상체가 사전 결정된 시간 동안 단어를 말하지 않았음을 검출할 때까지 음성 레코딩을 녹음할 수 있다. 다시 말해, 방법은 컴퓨팅 장치가 시작 신호를 수신한 때부터 컴퓨팅 장치가 정지 신호를 수신한 때까지 대상체와 연관된 컴퓨팅 장치가 음성 레코딩을 녹음하게 하는 것을 포함할 수 있다. 시작 및/또는 정지 신호는 사용자 인터페이스를 통해 대상체로부터 수신될 수 있다. 또는 시작 및/또는 정지 신호가 자동으로 생성될 수 있다. 예를 들어, 시작 신호는 컴퓨팅 장치가 단어를 디스플레이하기 시작함으로써 생성될 수 있다. 정지 신호는 예를 들어 2초, 5초, 10초 또는 20초와 같은 설정된 최소 기간 동안 컴퓨팅 장치가 어떠한 음성 신호도 검출되지 않았다고 결정함으로써 생성될 수 있다. 이론에 얽매이지 않고, 알려진 수의 단어(단어 세트의 단어 수에 대응)를 포함할 것으로 예상되는 음성 레코딩의 사용은 본 발명의 임의의 양태에서 특히 유리할 수 있다고 여겨진다. 실제로, 이러한 실시예는 바람직하게도 정렬 단계를 단순화할 수 있는데, 이는 알려진 단어 시퀀스가 임의의 레코딩에 대해 알려진 길이를 가질 것이기 때문이다.
레코딩은 복수의 레코딩을 포함할 수 있다. 각각의 레코딩은 적어도 20, 적어도 25 또는 적어도 30 단어의 시퀀스를 읽는 것을 포함하는 단어 읽기 검사로부터 온 것일 수 있다. 예를 들어, 가령 40개의 단어의 시퀀스를 읽는 것을 포함하는 단어 읽기 검사는 20개의 단어의 시퀀스를 읽는 것을 포함하는 두 개의 검사로 나뉠 수 있다. 이는 대상체의 병리학적 또는 생리학적 상태가 하나의 검사에서 사전 결정된 길이의 시퀀스를 읽을 수 없게 할 때 사전 결정된 길이의 시퀀스를 읽는 것을 포함하는 단어 읽기 검사로부터의 레코딩을 가능하게 할 수 있다. 다수의 개별 음성 레코딩을 사용하는 실시예에서, 단일 단어/음절에 대응하는 세그먼트를 식별하는 단계는 바람직하게는 개별 음성 레코딩에 대해 적어도 부분적으로 개별적으로 수행된다. 예를 들어, 정규화, 동적 스레숄딩, 스케일링 등을 포함하는 단계는 각각의 레코딩에 대해 개별적으로 수행되는 것이 바람직하다. 다수의 개별 음성 레코딩을 사용하는 실시예에서, 정렬 단계는 각각의 레코딩에 대해 개별적으로 수행될 수 있다. 이와 달리, 바람직하게도 클러스터링 단계는 다중 레코딩으로부터 결합된 데이터에 대해 수행될 수 있다.
단어 읽기 검사를 위한 단어의 시퀀스를 디스플레이하는 단계 및 단어 레코딩을 레코딩하는 단계는 분석 단계를 수행하는 컴퓨팅 장치에서 원격지인 컴퓨팅 장치에 의해 수행될 수 있다. 예를 들어, 디스플레이 및 레코딩 단계는 사용자의 개인 컴퓨팅 장치(PC 또는 모바일 장치, 모바일 전화기 또는 태블릿일 수 있음)에 의해 수행될 수 있는 반면, 음성 레코딩의 분석은 원격 컴퓨터, 가령, 서버에 의해 수행될 수 있다. 이는 예를 들어 환자의 집에서 임상적으로 관련된 데이터의 원격 획득을 가능하게 하는 동시에 분석을 위해 원격 컴퓨터인 향상된 컴퓨팅 기능을 활용한다.
실시예에서, 대상체와 연관된 컴퓨팅 장치는 모바일 컴퓨팅 장치, 가령, 모바일 폰 또는 태블릿이다. 실시예에서, 대상체와 연관된 컴퓨팅 장치가 단어의 시퀀스를 디스플레이하고 음성 레코딩을 레코딩하게 하는 단계는 대상체와 연관된 컴퓨팅 장치 상에 로컬하게 실행되는 소프트웨어 애플리케이션(모바일 장치의 맥락에서 "모바일 앱" 또는 "네이티브 앱"이라고도 지칭됨), 웹 브라우저에서 실행되는 웹 애플리케이션, 또는 네이티브 앱 내부의 모바일 웹사이트를 내장하는 하이브리드 애플리케이션일 수 있는 애플리케이션을 통해 수행된다.
실시예에서, 음성 레코딩을 획득하는 것은 음성 레코딩을 레코딩하고 음성 레코딩을 분석하는 단계를 수행하는 것을 포함하며, 여기서 획득 및 분석은 동일한 컴퓨팅 장치에 의해(즉, 로컬로) 수행된다. 이는 바람직하게도 분석을 위해 원격 장치에 연결할 필요성과 민감한 정보를 전송할 필요성을 제거할 수 있다. 분석 결과(예를 들어, 정답 단어율, 피치 등) 및 음성 레코딩 또는 그 압축 버전은 여전히 저장 및/또는 메타 분석을 위해 원격 컴퓨팅 장치로 통신될 수 있다.
이 방법은 호흡, 목소리 톤, 피로 및/또는 인지 능력에 영향을 미치는 병태를 갖거나 가질 위험이 있는 것으로 진단된 대상체의 상태를 평가하는 데 사용될 수 있다. 이 방법은 대상체가 호흡, 목소리 톤, 피로 및/또는 인지 능력에 영향을 미치는 병태를 가진 것으로 진단하는 데 사용될 수 있다. 본 발명의 맥락 내에서, 개체의 단어 읽기 검사와 같은 작업 수행이 심리적, 생리학적, 신경학적 또는 호흡기 요인에 의해 영향을 받는 경우 개체는 호흡, 목소리 톤, 피로 및/또는 인지 능력에 영향을 미치는 병태를 가진 것으로 간주될 수 있다. 대상체의 호흡, 목소리 톤, 피로 상태 또는 인지 능력에 영향을 미칠 수 있는 병태, 질병 또는 장애의 예는 다음과 같다:
(i) 심혈관 질환, 가령, 심부전, 관상 동맥 심장 질환, 심근 경색(심장 마비), 심방 세동, 부정맥(심장 리듬 장애), 심장 판막 질환,
(ii) 호흡기 질환, 장애, 또는 병태, 가령, 폐쇄성 폐질환(가령, 천식, 만성 기관지염, 기관지확장증 및 만성 폐쇄성 폐질환(COPD)), 만성 호흡기 질환(CRD), 기도 감염 및 폐 종양), 호흡기 감염(가령, COVID-19, 폐렴 등), 비만, 호흡곤란(가령, 심부전, 공황 발작(불안 장애), 폐색전증, 폐의 신체적 제한 또는 손상(가령, 갈비뼈 골절, 허탈 폐, 폐 섬유증 등과 연관된 호흡곤란), 폐고혈압, 또는 폐/심폐 기능에 영향을 미치는 그 밖의 다른 질환, 장애 또는 병태(가령, 폐기능검사(spiroergometry)로 측정 가능한 것) 등,
(iii) 신경혈관 질환 또는 장애, 가령, 뇌졸중, 신경퇴행성 질환, 근병증, 당뇨병성 신경병증 등,
(iv) 정신 질환 또는 장애, 가령, 우울증, 졸음, 주의력 결핍 장애, 만성 피로 증후군,
(v) 전신 메커니즘을 통해 개체의 피로 상태 또는 인지 기능에 영향을 주는 병태, 가령, 통증, 비정상적인 포도당 수치(가령, 당뇨병으로 인한 것), 신장 기능 장애(가령, 만성 신부전 또는 신기능 대치 요법의 맥락에서) 등.
이와 같이, 본 명세서에 기재된 방법은 상기 병태, 질환 또는 장애 중 임의의 것의 진단, 모니터링 또는 치료에서 용도를 찾을 수 있다.
본 발명의 맥락 내에서, 단어-읽기 검사(본 명세서에서 "단어 읽기 작업"이라고도 함)는 개체가 문장을 형성하도록 연결되지 않는 단어의 세트(본 명세서에서 "단어의 시퀀스"라고도 함)를 읽을 것을 요구하는 검사를 지칭하며, 여기서 단어는 지정 세트로부터 인출된다(가령, 단어는 세트로부터 랜덤하게 또는 의사 랜덤하게 인출될 수 있다). 예를 들어, 단어의 세트 내 모든 단어는 선택한 언어의 색의 세트에 대한 단어와 같은 명사일 수 있다.
통상의 기술자가 이해하는 바와 같이, 대상체로부터의 음성 레코딩을 분석하는 방법은 컴퓨터로 구현되는 방법이다. 실제로, 본 명세서에 기재된 음성 레코딩의 분석, 가령, 기재된 바 대로의 음절 검출, 분류 및 정렬이 정신 활동의 범위를 넘는 복잡한 수학적 작업을 통해 많은 양의 데이터의 분석을 요구한다.
제2 양태에 따르면, 심부전이 있는 대상체를 모니터링하거나, 대상체를 심부전의 악화 또는 비대상성 심부전을 가진다고 진단하는 방법이 제공되며, 상기 방법은 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계 - 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 옴 - , 및 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값에 비교하는 단계에 의해, 상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계를 포함한다. 방법은 제1 양태의 특징들 중 임의의 것을 더 포함한다.
제3 양태에 따르면, 심부전의 악화 또는 비대상성 심부전을 가진 대상체를 치료하는 방법이 제공되며, 상기 방법은 전술한 양태의 방법을 사용하여 대상체를 심부전의 악화 또는 비대상성 심부전이 있는 것으로 진단하는 단계, 및 심부전에 대해 대상체를 치료하는 단계를 포함한다. 방법은 질병의 진행을 모니터링하는 것, 임의의 전술한 양태의 방법을 사용하여 대상체의 치료 및/또는 회복을 모니터링하는 단계를 더 포함할 수 있다. 방법은 제1 시점 및 추가 시점에서 대상체를 모니터링하고, 제1 및 추가 시점과 연관된 하나 이상의 메트릭의 값을 비교하는 것이 대상체의 심부전 상태가 개선되지 않았음을 나타내는 경우 치료를 증가시키거나 그 밖의 다른 방식으로 수정하는 단계를 포함할 수 있다. 방법은 제1 시점 및 추가 시점에서 대상을 모니터링하고, 제1 시점 및 추가 시점과 연관된 하나 이상의 메트릭의 값을 비교하는 것이 대상체의 심부전 상태가 개선되었음을 나타내면 치료를 유지하거나 감소시키는 것을 포함할 수 있다.
제4 양태에 따르면, 호흡곤란 및/또는 피로와 연관된 병태를 갖거나 가질 위험이 있는 것으로 진단된 대상체를 모니터링하는 방법이 제공되며, 상기 방법은 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계 - 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 옴 - , 및 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값과 비교하는 단계에 의해, 상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계를 포함한다. 이 방법은 제1 양태와 관련하여 기재된 특징들 중 임의의 것을 가질 수 있다.
제5 양태에 따라서, 대상체의 호흡곤란 및/또는 피로의 수준을 평가하는 방법이 제공되며, 상기 방법은 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계 - 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 옴 - , 및 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계 - 바람직하게는 하나 이상의 메트릭은 정답 단어율을 포함함 - , 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값과 비교하는 단계에 의해, 상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계를 포함한다. 이 방법은 제1 양태와 관련하여 기재된 특징들 중 임의의 것을 가질 수 있다.
제6 양태에 따르면, 호흡곤란 및/또는 피로와 연관된 병태를 갖거나 가질 위험이 있는 것으로 진단된 대상체를 치료하는 방법이 제공되며, 상기 방법은 전술한 양태의 방법을 이용해 대상체에서 호흡곤란 및/또는 피로의 수준을 평가하는 단계, 및 평가의 결과에 따라 병태에 대해 대상체를 치료하거나 병태에 대한 대상체의 치료를 조절하는 단계를 포함한다. 방법은 제1 시점 및 추가 시점에서 평가를 수행하는 단계 및 제1 및 추가 시점과 연관된 하나 이상의 메트릭의 값을 비교하는 것이 대상체의 피로 및/또는 호흡곤란 수준이 증가되었거나 개선되지 않음을 나타내는 경우 치료를 증가시키거나 그 밖의 다른 방식으로 수정하는 단계를 포함할 수 있다. 방법은 제1 시점 및 추가 시점에서 평가를 수행하는 단계 및 제1 시점 및 추가 시점과 연관된 하나 이상의 메트릭의 값을 비교하는 것이 대상체의 피로 및/또는 호흡곤란 수준이 개선되었거나 증가되지 않음을 나타내는 경우 치료를 유지하거나 감소시키는 단계를 포함할 수 있다. 이 방법은 제1 양태와 관련하여 기재된 특징들 중 임의의 것을 가질 수 있다.
제7 양태에 따라서, 대상체를 호흡기 감염, 가령, COVID-19을 가진다고 진단하거나, 호흡기 감염으로 진단된 환자를 치료하는 방법이 제공되며, 상기 방법은 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계 - 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 옴 - , 및 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계 - 하나 이상의 메트릭은 적어도 음성 피치를 포함함 - , 및 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값과 비교하는 단계에 의해, 상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계를 포함한다. 방법은 제1 양태의 특징들 중 임의의 것을 더 포함할 수 있다.
상기 방법은 대상체가 호흡기 감염을 가지고 있음을 비교가 나타내는 경우 대상체를 호흡기 감염에 대해 치료하는 단계를 포함할 수 있다. 방법은 임의의 전술한 양태의 방법을 사용하여 대상체의 치료 및/또는 회복을 모니터링하는 것을 더 포함할 수 있다. 방법은 제1 시점 및 추가 시점에서 대상체를 모니터링하고, 제1 시점 및 추가 시점과 연관된 하나 이상의 메트릭의 값을 비교하는 것이 대상체의 호흡기 감염이 개선되지 않았음을 나타내는 경우 치료를 증가시키거나 그 밖의 다른 방식으로 수정하는 단계를 포함할 수 있다. 방법은 제1 시점 및 추가 시점에서 대상을 모니터링하고, 제1 시점 및 추가 시점과 연관된 하나 이상의 메트릭의 값을 비교하는 것이 대상체의 호흡기 감염이 개선되었음을 나타내면 치료를 유지하거나 감소시키는 것을 포함할 수 있다.
제8 양태에 따르면, 적어도 하나의 프로세서, 및 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 임의의 전술한 양태의 방법의 임의의 실시예의 단계를 포함하는 동작을 수행하게 하는 명령을 포함하는 적어도 하나의 비일시적 컴퓨터 판독형 매체를 포함하는 시스템이 제공된다.
적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 임의의 전술한 양태의 방법의 임의의 실시예의 단계를 포함하는 동작을 수행하게 하는 명령을 저장하는 하나 이상의 컴퓨터 판독형 매체.
적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 임의의 전술한 양태의 방법의 임의의 실시예의 단계를 포함하는 동작을 수행하게 하는 명령을 포함하는 컴퓨터 프로그램 프로덕트.
도 1은 본 발명의 실시예가 사용될 수 있는 예시적인 컴퓨팅 시스템을 도시한다.
도 2는 단어 읽기 검사로부터 정답 단어율을 결정함으로써 대상체의 생리학적 및/또는 병리학적 상태를 평가하는 방법을 설명하는 흐름도이다.
도 3은 단어 읽기 검사로부터 음성 피치, 호흡 % 및/또는 무음성/유음성 비를 결정함으로써 대상체의 생리학적 및/또는 병리학적 상태를 평가하는 방법을 설명하는 흐름도이다.
도 4는 대상체를 진단, 예후 또는 모니터링하는 방법을 개략적으로 도시한 것이다.
도 5의 A 및 B는 예시적인 실시예에 따라 단어 경계를 식별하기 위한 2단계 접근법을 도시한다. (A) 상대 에너지 측정치에서 대략적인 단어 경계가 식별되었다. 입력 오디오 입력의 멜-주파수 스펙트로그램이 구성되었고 주파수 축을 따라 멜 스펙트로그램의 최대 강도 투영이 상대 에너지(B)를 발생시켰다 하나의 대략적으로 세그먼테이션된 단어(회색으로 강조됨)가 시작 강도에 기초하여 두 개의 추정 단어로 나뉘었다.
도 6은 예시적인 실시예에 따른 이상치 제거 접근법을 도시한다. 모든 세그먼테이션된 단어는 처음 세 개의 MFCC(Mel-frequency cepstral coefficients)를 사용하여 파라미터화되었으며, 여기서 3-D 산점도에서 정상치(추정 단어, n = 75)는 회색으로 표시되고 이상치(비-발화 음, n = 3)는 검은색으로 표시되었다.
도 7의 A 및 B는 예시적인 실시예에 따라 단어를 식별하기 위한 클러스터링 접근법을 도시한다. 하나의 레코딩으로부터의 추정 단어(단어 읽기 검사에서 3개의 상이한 단어가 표시됨)는 K-평균 클러스터링을 적용함으로써 세 개의 상이한 클러스터로 그룹화되었다. 세 개의 구별되는 클러스터 내 단어의 시각적 모양이 상부 그래프(행당 하나의 단어)에 나타나 있고 대응하는 클러스터 중심이 하부 그래프에 나타나 있었다. 특히, (A)는 영어로 발화된 하나의 검사(단어 = 75)로부터의 3 단어-클러스터를 나타내고 (B)는 독일어로 발화된 또 다른 검사(단어 = 64)로부터의 3 단어-클러스터를 나타낸다.
도 8은 예시적인 실시예에 따른 단어 시퀀스 정렬 접근법을 도시한다.특히 스미스-워터맨(Smith-Waterman) 알고리즘을 10 단어 시퀀스에 적용한 것을 보여준다. 디스플레이된 시퀀스 RRBGGRGBRR 및 예측된 시퀀스 BRBGBGBRRB의 정렬은 부분적으로 겹치는 시퀀스를 발견하고 5개의 정답 단어를 도출했다: 일치(|), 간격(-) 및 불일치(:).
도 9의 A 및 B는 예시적인 실시예에 따른 무모델 단어 인식 알고리즘의 분류 정확도를 나타낸다. 정규화된 혼란 행렬(행 합계 = 1)로 표시되는 각 단어의 분류 정확도. 행은 수동 주석의 실제 라벨을 나타내고 열은 자동화된 알고리즘의 예측 라벨을 나타낸다. 올바른 예측은 검은색 배경으로 대각선으로 표시되고 잘못된 예측은 회색 배경으로 표시된다. (A) 영어 단어: /red/의 /r/ (n = 582), /green/의 /g/ (n = 581), 및 /blue/의 /b/ (n = 553). (B) 독일어 단어: /rot/의 /r/ (n = 460), //의 /g/ (n = 459), /blau/의 /b/ (n = 429).
도 10은 UHDRS-를 사용하여 한 세트의 헌팅턴병 환자에 대해 획득된 임상 스트룹(Stroop) 단어 점수와 예시적인 실시예에 따른 자동 평가 척도 사이의 산점도 비교를 보여준다. 변수들 간의 선형 관계는 회귀를 통해 결정되었다. 결과 회귀선(검은색 선)과 95% 신뢰 구간(회색 음영 영역)이 플로팅되었다. 피어슨(Pearson) 상관 계수 r과 p-값의 유의 수준이 그래프 상에 나타난다.
도 11a 및 11b는 영어. 프랑스어, 이탈리아어 및 스페인어로 된 레코딩의 세트에서 식별된 올바르게 읽힌 단어 수(A)와 단일 단어/음절 세그먼트 수(B)의 분포를 보여준다. 데이터는 단일 단어 내 다수의 음절이 개별 개체로서 식별되더라도(도 13b) 본 명세서에 기재된 방법에 따라 식별된 올바르게 읽힌 단어의 수가 단어의 길이의 변동에 강건함을 보여준다(도 13a).
도 12a 및 12b는 본 명세서에 기재된 바와 같이 분석된, 건강한 개체로부터의 매치된 스트룹 단어 읽기(A, 일관된 조건) 및 스트룹 색 단어 읽기(B, 간섭 조건) 검사의 결과를 보여준다. 각각의 하위도가 각 검사에서 디스플레이되는 단어의 세트(상단 패널), 중첩된 세그먼트 식별 및 단어 예측(각각의 세그먼트의 색으로 나타남)이 있는, 각자의 레코딩에 대한 정규화된 신호 진폭(중간 패널), 및 중간 패널에서 나타나는 신호에 대한 멜 스펙트로그램 및 동반되는 스케일(하단 패널)을 보여준다. 데이터는 세그먼트 식별 및 정답 단어 카운팅 프로세스가 일관된 조건과 간섭 조건 모두에 대해 동일하게 잘 수행됨을 보여준다.
도 13은 예시적인 실시예에 따른 웹 기반 단어 읽기 애플리케이션의 스크린샷을 도시한다. 참가자는 다음의 5가지 상이한 읽기 작업을 수행하는 것을 레코딩하도록 요청 받았다: (i) 텍스트의 고정된 사전 결정된 구절(환자 동의 진술) 읽기 - 이는 본 명세서에서 "읽기 작업"이라고도 지칭됨 - , (ii) 증가하는 연속 숫자의 세트 읽기 - 이는 본 명세서에서 "카운팅 작업"이라고도 지칭됨 - , (iii) 감소하는 연속 숫자의 세트 읽기 - 이는 본 명세서에서 "역 카운팅 작업"이라고도 지칭됨 - , (iv) 스트룹(Stroop) 단어 읽기 검사(일관 부분) - 검은색으로 디스플레이되는 색 단어의 랜덤하게 인출된 세트(고정된 개수) 읽기 - , 및 (v) 스트룹 색 단어 읽기 검사(간섭 부분) - 랜덤하게 인출된 색으로 디스플레이된 색 단어의 랜덤하게 인출된 세트(고정된 개수) 읽기 - .
도 14a 및 14b는 본 명세서에 기재된 바와 같이 분석된, 편안한 상태의(밝은 회색 데이터 시리즈) 또는 적당한 운동 후의 (4층 계단 오르기 - 짙은 회색 데이터 시리즈) 건강한 개체에 의해 수행된 스트룹 읽기 검사로부터의 음성 레코딩의 분석의 결과를 보여준다. 각 하위도는 본 명세서에 기재된 바이오마커 메트릭 중 하나에 대한 결과를 보여준다. 동일한 '검사일'(x축)의 각각의 점 쌍이 편안한 상태와 운동 후의 동일한 날에 동일한 개체에 대한 결과를 보여준다(동일한 검사에 대한 결과가 동일한 '검사일'에서의 하위도에 걸쳐 나타남, n=15일). (A) 피치 - 스트룹 색 단어 읽기 검사(간섭 조건) 레코딩(Hz)의 모든 유음성 세그먼트에 대한 추정된 평균 피치, 코헨(Cohen)의 d=2.75. (B) 정답 단어율(스트룹 색 단어 읽기 검사 레코딩에서 초당 정답 단어의 수), 코헨 d=-1.57. (C) 무음성/유음성 비(단위 없음 - 스트룹 색 단어 읽기 검사 레코딩에서 유음성 세그먼트의 시간의 합에 대한 유음성 세그먼트들 사이의 시간의 합), 코헨 d=1.44. (D) 호흡 %(% - 스트룹 색 단어 읽기 검사 레코딩에서, 유음성 세그먼트들 사이 및 유음성 세그먼트 내 시간의 합에 대한 유음성 세그먼트들 사이의 시간 합), 코헨 d=1.43. (A')-(D')는 (A)-(D)와 동일한 메트릭을 나타내지만 데이터가 (A)-(D)에 나타난 스트룹 색 단어 읽기 검사 레코딩 및 동일한 검사 세션으로부터의 스트룹 단어 읽기 검사 레코딩으로부터의 조합된 결과를 이용해 획득된 것을 보여준다. (A') 피치 - 조합된 검사, 코헨 d=3.47. (B') 정답 단어율 - 조합된 검사, 코헨 d= -2.26. (C') 무음성/유음성 비 - 조합된 검사, 코헨 d=1.25. (D') 호흡 % - 조합된 검사, 코헨 d=1.26.
도 15a 내지 15d는 세 개의 심부전 환자 그룹: 병원에 입원 중인 비대상성 심부전 환자("HF:입원"으로 라벨링됨, n=25), 병원에서 퇴원한 동일한 비대상성 심부전 환자("HF:퇴원"로 라벨링됨, n=25), 및 안정적인 외래 환자("OP:안정적"라고 라벨링됨, n=19)에서의 스트룹 읽기 검사(A-D, 간섭 조건; A'-D' 조합된 간섭과 일관 조건), 읽기 작업(E-G), 및숫자 카운팅 작업(H-J, 역 숫자 카운팅; H'-J', 조합된 순방향 카운팅과 역방향 카운팅)로부터의 음성 레코딩의 분석의 결과를 보여준다. (A) 환자 데이터에 중첩된, 호흡 %(%, 100*(무음성/(무음성+유음성))으로 계산됨)의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건)에서 호흡 %는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=1.75, 순열 검정 p-값=0.0000; HF:퇴원 vs OP:안정적: 코헨 d=1.77, 순열 검정 p-값=0.0000). (B) 환자 데이터에 중첩된, 무음성/유음성 비(단위 없음, 무음성/유음성으로서 계산됨)의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건)에서 무음성/유음성 비는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=1.31, 순열 검정 p-값=0.0000; HF:퇴원 vs OP:안정적: 코헨 d=1.52, 순열 검정 p-값=0.0000). (C) 환자 데이터에 중첩된, 정답 단어율(초당 정답 단어의 수)의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건)에서 정답 단어율은 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=-1.14, 순열 검정 p-값=0.0001; HF:퇴원 vs OP:안정적: 코헨 d=-0.87, 순열 검정 p-값=0.0035). (D) 환자 데이터에 중첩된, 발화 속도(초당 단어의 수)의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건)에서 발화 속도는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=-0.89, 순열 검정 p-값=0.0019; HF:퇴원 vs OP:안정적: 코헨 d=-0.98, 순열 검정 p-값=0.0011). (A') 환자 데이터에 중첩된, 호흡 %의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건과 일관 조건의 조합)에서 호흡 %는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=1.71, 순열 검정 p-값=0.0000; HF:퇴원 vs OP:안정적: 코헨 d=1.85, 순열 검정 p-값=0.0000). (B') 환자 데이터에 중첩된, 무음성/유음성 비의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건과 일관 조건의 조합)에서 무음성/유음성 비는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=1.41, 순열 검정 p-값=0.0000; HF:퇴원 vs OP:안정적: 코헨 d=1.71, 순열 검정 p-값=0.0000). (C') 환자 데이터에 중첩된, 정답 단어율의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건과 일관 조건의 조합)에서 정답 단어율은 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=-1.09, 순열 검정 p-값=0.0002; HF:퇴원 vs OP:안정적: 코헨 d=-0.81, 순열 검정 p-값=0.0053). (D') 환자 데이터에 중첩된, 발화 속도(초당 단어의 수)의 박스플롯. 단어 읽기 검사(단어 색 읽기 검사, 간섭 조건과 일관 조건의 조합)에서 발화 속도는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=-0.92, 순열 검정 p-값=0.0019; HF:퇴원 vs OP:안정적: 코헨 d=-0.95, 순열 검정 p-값=0.0013). (E) 환자 데이터에 중첩된, 호흡 %(%)의 박스플롯. 읽기 작업에서 호흡 %는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=1.54, 순열 검정 p-값=0.0000; HF:퇴원 vs OP:안정적: 코헨 d=1.28, 순열 검정 p-값=0.0000). (F) 환자 데이터에 중첩된, 무음성/유음성 비(단위 없음)의 박스플롯. 읽기 작업에서 무음성/유음성 비는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=1.35, 순열 검정 p-값=0.0000; HF:퇴원 vs OP:안정적: 코헨 d=0.89, 순열 검정 p-값=0.0002). (G) 환자 데이터에 중첩된 발화 속도(초당 단어의 수)의 박스플롯. 읽기 작업에서 발화 속도는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이했다(HF:입원 vs OP:안정적: 코헨 d=-1.60, 순열 검정 p-값=0.0000; HF:퇴원 vs OP:안정적: 코헨 d=-0.64, 순열 검정 p-값=0.0190). (H) 환자 데이터에 중첩된, 호흡 %(%)의 박스플롯. 역 카운팅 작업에서 호흡 %는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이하지 않았다(HF:입원 vs OP:안정적: 코헨 d=-0.24, 순열 검정 p-값=0.2251; HF:퇴원 vs OP:안정적: 코헨 d=-0.21, 순열 검정 p-값=0.2537). (I) 환자 데이터에 중첩된, 무음성/유음성 비(단위 없음)의 박스플롯. 역 카운팅 작업에서 무음성/유음성 비는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이하지 않았다(HF:입원 vs OP:안정적: 코헨 d=-0.19, 순열 검정 p-값=0.2718; HF:퇴원 vs OP:안정적: 코헨 d=-0.26, 순열 검정 p-값=0.2126). (J) 환자 데이터에 중첩된, 발화 속도(초당 단어의 수)의 박스플롯. 역 카운팅 작업에서 발화 속도는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이하지 않았다(HF:입원 vs OP:안정적: 코헨 d=0.19, 순열 검정 p-값=0.2754; HF:퇴원 vs OP:안정적: 코헨 d=0.22, 순열 검정 p-값=0.2349). (H') 환자 데이터에 중첩된, 호흡 %(%)의 박스플롯. 조합된 카운팅 작업에서 호흡 %는 비대상성 HF 환자와 안정적인 환자의 그룹 중 적어도 하나 간에 유의미하게 상이하지 않았다. (I') 환자 데이터에 중첩된, 무음성/유음성 비(단위 없음)의 박스플롯. 조합된 카운팅 작업에서 무음성/유음성 비는 비대상성 HF 환자와 안정적인 환자의 두 그룹 중 적어도 하나 간에 유의미하게 상이하지 않았다. (J') 환자 데이터에 중첩된, 발화 속도(초당 단어의 수)의 박스플롯. 조합된 카운팅 작업에서 발화 속도는 비대상성 HF 환자와 안정된 환자의 두 그룹 각각에서 유의미하게 상이하지 않았다. *p 값(순열 검정) < 0.05, **p 값(순열 검정) < 0.01, ***p 값(순열 검정) < 0.001, ****p 값(순열 검정) < 0.0001 ns=유의미하지 않음( >0.05). 모든 순열 검정은 10000번의 순열을 사용하여 수행되었다.
도 16은 다음의 3개의 심부전 환자 그룹에서, 평균 피치(점) 및 표준 편차(오차 막대) 측면에서 스트룹 읽기 검사로부터의 음성 레코딩의 분석의 결과를 보여준다: 병원에 입원 중인 비대상성 심부전 환자(검은색 데이터 시리즈, n=25), 병원에서 퇴원한 동일한 비대상성 심부전 환자(짙은 회색 데이터 시리즈, n=25) - 플롯의 좌측 상의 데이터 시리즈, 환자당 두 개의 점(입원 시와 퇴원 시) - , 및 안정된 외래환자(옅은 회색 데이터 시리즈, n=19 - 플롯의 우측 상의 데이터 시리즈). 오차 막대는 정규 조건과 간섭 조건 사이의 표준 편차를 나타낸다.
도 17의 A 및 B는 병원 입원("등록"에서 퇴원(각각의 환자에 대한 마지막 데이터 포인트)으로 라벨링됨)에서 선택된 비대상성 심부전 환자에서, 평균 피치 측면에서, 스트룹 읽기 검사로부터의 음성 레코딩의 분석의 결과를 보여준다. A. 여성 환자(n = 7). B. 남성 환자(n=17).
도 18의 A 및 B는 48명의 심부전 환자(A, 분석된 총 162쌍의 레코딩)에 대한 스트룹 단어 읽기 검사와 스트룹 색 읽기 검사 간 그리고 48명의 심부전 환자(B, 분석된 총 161쌍의 레코딩)에 대한 숫자 카운팅 검사와 역 숫자 카운팅 검사 간의 피치 측정치의 일치 수준을 평가하는 블랜드-알트만(Bland-Altman) 플롯을 보여준다. 각 데이터 포인트는 각 검사를 사용하여 추정된 평균 피치(Hz) 간의 차이를 보여준다. 점선은 평균 차이(중간선)와 ±1.96 표준 편차(SD) 간격을 나타낸다. 반복률은 일치 보고서(CR=2*SD)를 사용하여 정량화되었으며 숫자 카운팅 검사의 경우 27.76, 단어 읽기 검사의 경우 17.64이다.
도 19의 A 내지 D는 COVID-19 격리 기간(A, B)과 업무 복귀일(C) 동안 동일한 대상체에 의한 스트룹 읽기 검사(간섭 조건)로부터의 음성 레코딩을 분석한 결과(추정 음성 피치)를 보여준다. (A-C)는 멜-스펙트로그램이 중첩된 피치 윤곽선(흰색 점)을 보여준다. (D)는 자가 보고된 가벼운 피로 증상(수직선 - A로 나타난 바와 같이 추정된 피치=247 Hz) 및 가벼운 호흡곤란 증상(수직선 - B로 나타난 바와 같이 추정된 음 피치=223 Hz)이 있는 격리기간 중, 업무 복귀 일에 무증상(수직선 - C로 나타난 바와 같이 추정된 피치=201 Hz)인 COVID-19로 진단된 대상체에 대한 데이터를 10명의 건강한 여성 자원자(n = 1026 음성 샘플)에 대한 데이터 및 추정 정규 분포 확률 밀도 함수(평균 = 183, sd = 11; scipy.stats.norm으로부터의 적합 함수를 사용해 이들 1026 샘플을 적합화함으로써 추정됨)를 보여주는 히스토그램으로 보여준다.
여기에 배치된 도면이 본 발명의 실시예를 예시하는 경우, 이들은 본 발명의 범위를 제한하는 것으로 해석되어서는 안 된다. 적절한 경우, 예시된 실시예의 동일한 구조적 특징과 관련되도록 다른 도면에서 유사한 참조 번호가 사용될 것이다.
본 발명의 특정 실시예는 도면을 참조하여 아래에서 설명될 것이다.
도 1은 본 발명의 실시예가 사용될 수 있는 예시적인 컴퓨팅 시스템을 도시한다.
사용자(도시되지 않음)에게 제1 컴퓨팅 장치 - 일반적으로 모바일 컴퓨팅 장치, 가령, 모바일 전화기(1) 또는 태블릿이 제공된다. 대안으로, 컴퓨팅 장치(1)는 고정될 수 있는데, 가령, PC일 수 있다. 컴퓨팅 장치(1)는 적어도 하나의 실행 환경을 함께 제공하는 적어도 하나의 프로세서(101) 및 적어도 하나의 메모리(102)를 가진다. 일반적으로 모바일 장치는 운영 체제, 가령, iOS, Android 또는 Windows가 있는 적어도 하나의 정규 실행 환경(REE)에서 실행되는 펌웨어 및 애플리케이션을 가진다. 컴퓨팅 장치(1)는 또한 예를 들어 공개 인터넷(3)을 통해 컴퓨팅 인프라구조의 다른 요소와 통신하기 위한 수단(103)을 구비할 수 있다. 이들은 무선 원격통신 네트워크와 통신하기 위한 무선 원격통신 장치 및 예를 들어 Wi-Fi 기술을 사용하여 공개 인터넷(3)과 통신하기 위한 로컬 무선 통신 장치를 포함할 수 있다.
컴퓨팅 장치(1)는 통상적으로 디스플레이를 포함하는 사용자 인터페이스(104)를 포함한다. 디스플레이(104)는 터치 스크린일 수 있다. 그 밖의 다른 유형의 사용자 인터페이스, 가령, 스피커, 키보드, 하나 이상의 버튼(도시되지 않음) 등이 제공될 수 있다. 또한, 컴퓨팅 장치(1)는 마이크(105)와 같은 사운드 캡처 수단이 구비될 수 있다.
제2 컴퓨팅 장치(2)도 도 1에 도시되어 있다. 제2 컴퓨팅 장치(2)는 예를 들어 분석 제공자 컴퓨팅 시스템의 일부를 형성할 수 있다. 제2 컴퓨팅 장치(2)는 통상적으로 하나 이상의 프로세서(201)(예를 들어, 서버), 복수의 스위치(도시되지 않음) 및 하나 이상의 데이터베이스(202)를 포함하고, 사용된 제2 컴퓨팅 장치(2)의 세부사항이 본 발명의 실시예가 작동하고 구현될 수 있는 방식을 이해하는 데 불필요하기 때문에 본 명세서에서 더 기재되지 않는다. 제1 컴퓨팅 장치(1)는 네트워크 연결, 가령, 공개 인터넷(3)을 통해, 분석 제공자 컴퓨팅 장치(2)에 연결될 수 있다.
도 2는 단어 읽기 검사로부터 정답 단어율을 결정함으로써 대상체의 생리학적 및/또는 병리학적 상태를 평가하는 방법을 설명하는 흐름도이다. 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계(210)를 포함한다. 음성 레코딩은 n개의 단어의 (닫힌) 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 온 것이다.
실시예에서 단어는 색 단어이다. 이러한 일부 실시예에서, 단어 읽기 검사에서 단어는 단일 색으로 디스플레이된다. 이러한 설정에서, 사전 결정된 기간 동안 올바르게 읽힌 단어의 총 수는 세 부분으로 구성된 스트룹 검사의 제1 부분("일관된 조건"에서)으로부터의 스트룹 단어 카운트와 매칭될 수 있다. 실시예에서, 단어는 단일 단어의 의미와 반드시 일치하지 않는 색으로 디스플레이되는 색 단어이다. 예를 들어, 단어는 색 단어의 세트로부터 랜덤하게 또는 의사 랜덤하게 인출될 수 있으며, 색의 세트로부터 랜덤하게 또는 의사 랜덤하게 인출된 색으로 각각 디스플레이될 수 있다. 실시예에서, 단어는 단일 단어의 의미와 일치하지 않는(또는 반드시 일치하지는 않는, 즉 독립적으로 선택된) 색으로 디스플레이되는 색 단어이다. 예를 들어, 단어는 색 단어의 세트로부터 랜덤하게 또는 의사 랜덤하게 인출될 수 있으며, 디스플레이될 색 단어와 매칭되는 색의 세트로부터 랜덤하게 또는 의사 랜덤하게 인출된 색으로 각각 디스플레이될 수 있다. 디스플레이용 색의 세트의 색은 색 단어의 세트의 색과 동일하거나 상이할 수 있다. 이러한 실시예에서, 사전 결정된 기간 동안 올바르게 읽힌 단어의 총 수는 세 부분으로 구성된 스트룹 검사의 제3 부분("비일관 조건")으로부터의 스트룹 단어 카운트와 매칭할 수 있다. 실시예에서, 음성 레코딩은 n개의 단어의 (닫힌) 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터의 제1 레코딩 - 단어는 단일 색으로 디스플레이된 색 단어임 - , 및 n개의 단어의 (닫힌) 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터의 제2 레코딩 - 단어는 단일 단어의 의미와 반드시 일관되는 것은 아닌(가령, 단일 단어의 의미와 독립적으로 선택된) 색으로 디스플레이됨 - 을 포함한다.제1 레코딩 및 제2 레코딩에서 사용되는 단어의 시퀀스가 동일할 수 있다. 이와 같이, 제1 단어-읽기 검사 및 제2 단어-읽기 검사를 위한 단어는 n개의 단어의 세트로부터 한 번 인출될 수 있다. 이는 세그먼트 및 클러스터를 식별하는 데 사용할 수 있는 정보의 양을 바람직하게 증가시키고(아래 참조) 두 레코딩 사이에서 후속적으로 비교될 수 있는 하나 이상의 바이오마커를 측정하는 데 사용될 수 있는 두 레코딩을 제공한다(예를 들어 측정의 안정성을 평가하기 위함 및/또는 제1 단어-읽기 검사 대 제2 단어-읽기 검사에 대해 측정치 중 하나 이상에 영향을 미칠 가능성이 더 높은 효과를 조사하기 위함).
실시예에서, n은 2 내지 10이고, 바람직하게는 2 내지 5이며, 예컨대 3이다. 단어의 시퀀스에서 상이한 단어의 수 n은 적어도 2인 것이 바람직한데, 그렇지 않으면 대상체가 첫 번째 단어를 읽은 후 어떠한 단어도 읽을 필요가 없기 때문이다. 단어의 세트가 생성되는 상이한 단어의 수 n은 바람직하게는 10 또는 10 미만인데, 그렇지 않으면 각 단어가 음성 레코딩에 나타날 것으로 예상되는 횟수가 클러스터링 프로세스(아래 참조)의 정확도에 부정적인 영향을 미칠 정도로 낮을 수 있기 때문이다. 바람직하게는, 상이한 단어의 수 n은 각각의 단어가 대상체가 읽을 단어의 세트에 나타날 것으로 예상되는 횟수가 적어도 10이 되도록 선택된다. 통상의 기술자가 이해하는 바와 같이, 이는 적어도 단어의 세트의 길이 및 대상체가 자신의 상태(가령, 그들의 피로 및/또는 숨가쁨 수준)를 고려하여 수행할 수 있을 것으로 예상되는 레코딩의 예상 길이에 따라 달라질 수 있다. 상이한 단어의 수 n과 단어 세트의 길이에 대한 적절한 선택은 예를 들어 비교될만한 훈련 코호트를 사용하여 얻어질 수 있다.
n개의 단어는 색 단어, 가령, "빨강", "초록" 및 "파랑" 색상에 대한 단어일 수 있다(즉, 영어로: ['RED', 'GREEN', 'BLUE'], 독일어로: ['ROT', '', 'BLAU'], 스페인어로: ['ROJO', 'VERDE', 'AZUL'], 프랑스어로: ['ROUGE', 'VERT', 'BLEU'], 덴마크어로: ['', '', ''], 폴란드어로: ['CZERWONY','ZIELONY', 'NIEBIESKI'], 러시아어로: ['', '', ''], 일본어로: ['', '', ''], 이탈리아어로: ['ROSSO', 'VERDE', 'BLU'], 네델란드어로 ['ROOD', 'GROEN', 'BLAUW'], 등). 색 단어는 일반적으로 스트룹 읽기 검사의 단어 읽기 부분에서 사용된다. 색상 "빨강", "초록" 및 "파랑"에 대한 단어는 이 검사에 대한 일반적인 선택이며 따라서 바람직하게도 검사의 결과를 임상 맥락에서 스트룹 검사의 기존 구현과 비교하거나 통합시킬 수 있다.
실시예에서, n개의 단어는 각각 단일 모음을 포함하도록 선택된다. 실시예에서, n개의 단어는 각자의 단어의 내부에 있는 하나 이상의 모음을 포함하도록 선택된다. 실시예에서, 단어는 강조된 단일 음절을 포함한다.
임의의 양태의 바람직한 실시예에서, 단어는 단음절 단어 또는 이음절 단어이다. 모든 단어가 동일한 수의 음절을 갖는 것이 또한 바람직할 수 있다. 예를 들어, 모든 단어가 단음절이거나 이음절인 것이 바람직할 수 있다. 단음절 단어만을 사용하는 실시예는 이러한 실시예에서 각각의 세그먼트가 단일 단어에 대응하기 때문에 특히 바람직할 수 있다. 따라서 이러한 실시예는 바람직하게는 읽힌 단어의 수에 대응하는 세그먼트의 수의 카운트 및/또는 발화 속도(또는 발화의 리듬과 연관된 임의의 다른 특징)를 얻기 위해 직접 사용 가능한 세그먼트의 타이밍을 도출한다. 또한, 단음절인 n개의 단어는 클러스터링의 정확도를 향상시킬 수 있는데, 이는 각 단어에 대해 값의 단일 값 벡터가 예상되어 상대적으로 동질적일 것으로 예상되는 n개의 클러스터가 생성되기 때문이다. 단음절 단어의 사용은 또한 동일한 단어에 속하는 음절을 식별하는 것과 연관될 수 있는 임의의 잠재적인 문제를 제거하므로 발화 속도 결정의 정확도를 향상시킬 수 있다.
이음절 단어만을 사용하는 실시예는 바람직하게도 간단한 방식으로 읽힌 단어의 수(및 그에 따른 발화 속도/정답 단어율)와 관련될 수 있거나 및/또는 동일한 특성을 갖는 단어-읽기 검사로부터의 음성 레코딩에 걸쳐 비교될 수 있는 세그먼트의 수의 카운트를 도출할 수 있다.
이음절 단어를 사용하는 일부 실시예에서, 방법은 음성 레코딩에서 식별된 세그먼트의 수를 카운팅하기 전에 및/또는 음성 레코딩에서 올바르게 읽힌 단어의 수를 결정하기 전에, 단어의 두 개의 음절 중 특정된 하나에 대응하는 세그먼트를 제외시키는 것을 더 포함할 수 있다. 단어 내 두 개의 음절 중 하나에 대응하는 세그먼트는 두 개의 연속 세그먼트의 상대적 타이밍에 기초하여 식별될 수 있다. 예를 들어, 특정 시간(가령, 400ms) 미만까지 합산되는 세그먼트 및/또는 특정 시간(가령, 10ms) 미만만큼 분리되어 있는 세그먼트와 같이 서로 밀접하게 이어지는 세그먼트는 동일한 단어에 속한다고 가정할 수 있다. 제외되도록 특정된 세그먼트는 동일한 단어에 속한다고 가정되는 두 세그먼트 중 제1 또는 제2 세그먼트로서 더 식별될 수 있다. 또는, 두 개의 세그먼트에서 소리 신호의 특성에 기초하여 제외되도록 특정된 세그먼트가 식별될 수 있다. 예를 들어, 에너지가 가장 낮은 세그먼트가 제외될 수 있다. 다른 대안으로, 두 세그먼트의 상대적인 길이에 기초하여 제외될 특정 세그먼트가 식별될 수 있다. 예를 들어, 길이가 가장 짧은 세그먼트는 제외될 수 있다. 대안으로, 방법은 단어 내 두 개의 음절 중 특정된 음절에 대응하는 세그먼트를 상기 세그먼트를 가깝게 뒤따르거나 앞서는 세그먼트와 병합하는 것, 가령, 서로 특정 시간(가령, 10ms) 내에 있는 세그먼트들을 병합하는 것을 포함할 수 있다. 특정 이론에 얽매이지 않고, 빠른 발화를 분석할 때 동일한 단어의 음절에 대응하는 세그먼트를 병합하는 것이 특히 어려울 수 있다고 여겨진다. 이와 같이, 특정된 시간 내에 있는 세그먼트들을 서로 병합하는 것은 자유 발화와 유사하거나 그 이하의 속도를 갖는 발화에 특히 적합한 것으로 여겨진다. 발화가 비교적 빠를 것으로 예상되는 실시예에서, 세그먼트를 병합하거나 제외하는 것보다 직접 단음절에 대응한다고 가정되는 세그먼트를 사용하는 것이 바람직할 수 있다.
이음절 단어(또는 일반적으로 다음절 단어)를 사용하는 실시예에서, 이음절 단어는 바람직하게는 하나의 강조된 음절을 가진다. 특정 이론에 얽매이지 않고, 클러스터링 단계(이하 참조)가 음절 중 하나가 강조될 때 단어가 아닌 음절에 대응하는 세그먼트로부터 온 "노이즈"의 존재에 대한 강건성을 증가시킬 수 있다고 여겨진다. 실제로, 이러한 경우에 강조되지 않은 음절로부터의 신호가 클러스터링 프로세스에서 노이즈로 간주될 수 있으며, 이는 여전히 각 클러스터에 할당된 강조된 음절의 정체성 측면에서 동질적인 클러스터를 생성할 것이다.
실시예에서, 단어의 시퀀스는 적어도 20개, 적어도 30개, 적어도 40개, 적어도 50개 또는 약 60개의 단어를 포함한다. 실시예에서, 단어의 세트는 n개의 단어의 세트에서 무작위로 인출된다. 실시예에서, 방법은 n개의 단어의 세트로부터 랜덤하게 단어의 세트를 인출하는 단계와 대상체와 연관된 컴퓨팅 장치가 단어의 세트를 디스플레이하게 하는 단계를 포함한다. 실시예에서, 단어의 세트는 한 줄에 m개의 단어의 그룹으로 디스플레이되며, 여기서 m은 예를 들어 4일 수 있다. 한 줄에 4개의 단어를 디스플레이하는 것이 일반적인 스마트폰 화면 상에 디스플레이하는 맥락에서 편리한 것으로 나타났다. 통상의 기술자가 이해하는 바와 같이, 그룹으로 디스플레이되는 단어의 수(m)는 단어가 디스플레이되는 스크린/윈도의 크기에 따라 및/또는 사용자의 선호도(가령, 선호되는 글꼴 크기)에 따라 조절될 수 있다. 이러한 조정은 예를 들어 스크린 또는 윈도 크기의 자동 검출을 통해 자동으로 이루어질 수 있다. 바람직하게는, m개의 단어의 그룹이 동시에 디스플레이된다. 예를 들어, 4개의 단어로 구성된 한 라인에 있는 모든 단어가 동시에 디스플레이되는 것이 바람직하다. 이는 검사의 결과가 예를 들어 연속 단어의 디스플레이의 지연과 같은 외부 파라미터(즉, 단어 읽기 검사를 수행하는 사용자의 능력을 나타내지 않는 파라미터)에 의해 영향을 받는 위험을 줄일 수 있다. 실시예에서, n개의 단어의 일부가 동시에 디스플레이될 수 있으며, 이 부분은 예를 들어 개인이 아래로 스크롤하는 것과 같이 검사를 통해 사용자가 진행함에 따라 업데이트될 수 있다. 실시예에서, n개의 단어 모두가 동시에 디스플레이된다. 이러한 실시예는 예를 들어 연속적인 단어의 디스플레이에서의 지연, 사용자가 새로운 단어를 나타나게 하거나 단어 세트의 처음부터 다시 시작하도록 아래로 또는 위로 스크롤할 때의 딜레이 등과 같은 외부 파라미터의 영향을 바람직하게도 감소시킬 수 있다.
임의의 양태의 실시예에서, 음성 레코딩을 획득하는 것은 레코딩의 노이즈 레벨 및/또는 신호 대 노이즈 비를 결정함으로써 음성 레코딩의 품질을 평가하는 것을 포함한다. 레코딩에서의 신호(각자의 노이즈)는 신호(각자의 노이즈)에 대응하는 것으로 가정된 상대 에너지 값에 기초하여(예를 들어 평균을 취함으로써) 추정될 수 있다. 신호에 대응하는 것으로 가정된 상대 에너지 값은 예를 들어 레코딩에서 관찰된 상위 x(여기서 x는 예를 들어 10%일 수 있음)의 상대 에너지 값일 수 있다. 마찬가지로, 배경 노이즈에 대응하는 것으로 가정된 상대 에너지 값이 레코딩에서 관찰된 하위 x(여기서 x는 예를 들어 10%일 수 있음)의 상대 에너지 값일 수 있다. 바람직하게는, 상대 에너지가 사용되는 경우, 데시벨 단위의 신호 및/또는 노이즈에 대한 값은 10*log10(relE)로서 획득될 수 있으며, 여기서 relE는 상대 에너지 값, 가령, 레코딩에서 관찰된 상대 에너지 값의 상위 10% 또는 하위 10%의 평균 상대 에너지 값이다. 아래에서 추가로 설명하는 바와 같이, 상대 에너지 값은 레코딩에서 관찰된 가장 높은 값에 대해 관찰된 파워(에너지라고도 함) 값을 정규화함으로써 획득될 수 있다. 이는 상대 에너지가 0dB인 가장 높은 관측 에너지로 이어진다. 이러한 실시예에서, 신호 대 노이즈 비는 앞서 설명된 바와 같이 추정된 신호(가령, 레코딩에서 관찰된 relE의 상위 x%에 대한 평균 relE) 대 앞서 설명된 바와 같은 노이즈(가령, 레코딩에서 관찰된 relE의 상위 x%에 대한 평균 relE)의 비로서 결정될 수 있다. 이는 이 비의 log10을 취하고 그 결과에 10을 곱하여 dB 값으로 제공될 수 있다. 이러한 일부 실시예에서, 방법은 노이즈 레벨이 사전 결정된 임계값 미만임 및/또는 신호 레벨이 사전 결정된 임계값 초과임 및/또는 신호 대 노이즈 비가 사전 결정된 임계값 초과인 경우 음성 레코딩을 분석하는 단계를 포함할 수 있다. 노이즈 수준에 대한 적절한 임계값은 -70dB, -60dB, -50dB 또는 -40dB(바람직하게는 약 -50dB)로 선택될 수 있다. 신호 대 노이즈 비에 대한 적절한 임계값은 25dB, 30dB, 35dB 또는 40dB(바람직하게는 30dB 초과)로 선택될 수 있다. 실시예에서, 음성 레코딩을 획득하는 것은 이전에 획득한 음성 레코딩 오디오 파일에 하나 이상의 사전 처리 절차를 적용하는 것을 포함한다. 본 발명의 맥락 내에서, "전처리 절차"는 본 발명에 따른 분석 이전(즉, 단일 단어 세그먼트를 식별하기 이전)에 음성 레코딩 데이터에 적용되는 임의의 단계를 지칭한다. 실시예에서, 음성 레코딩을 획득하는 것은 이전에 획득된 음성 레코딩 오디오 파일의 크기를 감소시키기 위해 하나 이상의 전처리 절차를 적용하는 것을 포함한다. 예를 들어 다운 샘플링이 사용되어 사용되는 오디오 파일의 크기를 줄일 수 있다. 본 발명자들은 음성 레코딩 오디오 파일이 방법의 성능 손실 없이 16Hz로 다운샘플링될 수 있음을 발견하였다. 이는 분석이 원격 컴퓨팅 장치 상에서 수행되고 레코딩이 사용자 컴퓨팅 장치에서 획득되는 경우 특히 바람직할 수 있는데, 이는 사용자 컴퓨팅 장치에서 원격 컴퓨팅 장치로 음성 레코딩의 전송을 용이하게 하기 때문이다.
단계(220)에서, 단일 단어 또는 음절에 대응하는 음성 레코딩의 복수의 세그먼트가 식별된다. 단계 220은 도 3과 관련하여 아래에 설명된 바와 같이 수행될 수 있다(단계 320).
단계(230-270)에서, 음성 레코딩에서 정답 단어율(단위 시간당 올바르게 읽은 단어의 수)이 결정된다.
특히, 단계(230)에서, 단계(220)에서 식별된 세그먼트 각각에 대해 하나 이상의 MFCC(Mel-frequency cepstral coefficients)가 계산된다. 그 결과, 복수의 값 벡터가 획득되며, 각각의 벡터는 세그먼트와 연관된다. 도 2에 도시된 실시예에서, 레코딩 내의 세그먼트에 걸쳐 MFCC를 정규화하는 선택적 단계(232) 및 복수의 벡터 각각을 공통 크기로 압축하는 단계(234)가 도시되어 있다. 특히, 세그먼트의 각 프레임에 대해 i개의 MFCC의 세트(가령, 12개의 MFCC: MFCC 2 내지 13)가 계산되고 세그먼트 내 프레임에 걸쳐 i개의 MFCC 각각에 의해 형성되는 신호를 압축함으로써 세그먼트에 대한 j개의 값(가령, 12개의 값)의 세트가 획득되어, ixj개의 값(가령, 144개의 값)의 벡터를 획득할 수 있다.
단계(240)에서, 복수의 값 벡터는 (예를 들어, k-평균을 사용하여) n개의 클러스터로 클러스터링되며, 여기서 n은 단어-읽기 검사에서 상이한 단어의 예상되는 수이다. 특정 라벨(즉, 단어 신원)은 각 클러스터와 연관되지 않는다. 대신, 동일한 단어(단음절 단어의 경우) 또는 동일한 단어의 동일한 음절(이음절 단어의 경우)에 대응하는 세그먼트가 함께 클러스터링되는 MFCC에 의해 캡처된다고 가정한다. 이음절 단어의 경우, 단어의 음절들 중 하나가 클러스터링에서 우세할 수 있으며, 동일한 우세 음절에 대응하는 세그먼트는 함께 클러스터링되는 MFCC에 의해 캡처될 것으로 가정된다. 비-우세 음절은 클러스터링에서 노이즈로 효과적으로 작용할 수 있다. 이들 가정에 따라, 각각의 클러스터는 주로 n개의 단어 중 하나를 포함하는 세그먼트에 대응하는 값을 주로 그룹화해야 하며, 이들 클러스터에 대한 n개의 라벨의 n!개의 가능한 순열이 (알려지지 않음) 실제 라벨에 대응한다.
단계(250)에서, n개의 라벨의 n!개의 가능한 순열 각각에 대해 음성 레코딩 내 단어의 시퀀스가 예측된다. 예를 들어, n개의 라벨의 가능한 할당에 대해, 식별된 세그먼트에 대해 클러스터가 예측되고 대응하는 라벨이 식별된 세그먼트에서 캡처된 단어로서 예측된다. 일부 식별된 세그먼트는 클러스터와 연관되지 않을 수 있는데, 예를 들면 세그먼트에 대한 MFCC가 충분히 높은 신뢰도로 특정 클러스터에 속할 것으로 예측되지 않기 때문이다. 이러한 경우 이 세그먼트에 대해 어떠한 단어도 예측되지 않을 수 있다. 이는 예를 들어 음절/단어의 잘못된 검출에 대응하는 세그먼트 또는 다음절 단어의 강조되지 않은 음절에 대응하는 세그먼트의 경우일 수 있다.
단계(260)에서, 각각의 예측된 단어 시퀀스와 단어 읽기 검사에 사용된 단어의 시퀀스 사이에 시퀀스 정렬이 수행된다(예를 들어, 스미스-워터맨(Smith-Waterman) 알고리즘 사용). 단어 읽기 검사에 사용된 단어의 시퀀스는 메모리로부터 불러와지거나, 프로세서가 방법의 단계를 구현함으로써 (가령, 음성 레코딩과 함께) 수신될 수 있다.
단계(270)에서, 최상의 정렬을 도출하는 라벨(예를 들어, 가장 높은 정렬 점수를 도출하는 라벨)이 선택되고 클러스터에 대한 진정한 라벨인 것으로 가정된다. 정렬의 매칭은 음성 레코딩에서 올바르게 읽은 단어에 대응하는 것으로 가정되고 정답 단어율을 계산하는 데 사용될 수 있다. 예를 들어, 올바르게 읽힌 단어의 총 수(매칭)를 레코딩의 총 시간으로 나눔으로써, 정답 단어율이 획득될 수 있다. 대안으로, 각자의 시간 창 내 복수의 로컬 평균을 계산하고, 그 후, 복수의 도출된 정답 단어율 추정치를 고려하거나, 복수의 정답 단어 추정치에 대해 요약된 메트릭(가령, 평균, 중앙값, 최빈값)을 획득함으로써, 정답 단어율이 획득될 수 있다. 바람직하게는, 정답 단어율이 시간의 함수로서 읽힌 정답 단어의 누적 수에 적합된 선형 모델의 기울기로서 추정될 수 있다. 이러한 카운트는 올바르게 읽힌 단어에 대응하는 것으로 식별된 임의의 세그먼트의 시작에 대응하는 시간에서 한 단위씩 증가될 수 있다. 또 다른 실시예에서, 음성 레코딩과 연관된 정답 단어율을 결정하는 것은 레코딩을 다수의 동일한 시간 빈으로 나누고, 각각의 시간 빈에서 올바르게 읽힌 단어의 총 수를 계산하고, 시간 빈에 걸쳐 정답 단어율의 요약된 측정치를 계산하는 것을 포함한다. 예를 들어, 시간 빈에 걸친 평균, 절사 평균 또는 중앙값의 정답 단어율은 정답 단어율의 요약된 측정치로서 사용될 수 있다. 중앙값 또는 절사 평균의 사용은 예를 들어 어떠한 단어도 포함하지 않는 빈과 같은 이상치의 영향을 바람직하게 감소시킬 수 있다.
복수의 음성 레코딩이 획득될 때, 이들은 개별적으로 또는 적어도 부분적으로 함께 분석될 수 있다. 실시예에서, 동일한 대상체에 대해 복수의 음성 레코딩이 획득되고, 적어도 단계(220 및 230)는 각각의 음성 레코딩에 대해 개별적으로 수행된다. 실시예에서, 동일한 대상체에 대해 복수의 음성 레코딩이 획득되고, 적어도 단계(240)는 복수의 레코딩의 다수 레코딩으로부터의 값을 사용하여 공동으로 수행된다. 실시예에서, 단계(250-270)는 복수의 레코딩 중 하나 이상(가령 모두)의 값을 사용하여 수행된 클러스터링 단계(240)의 결과를 사용하여 각 레코딩에 대해 개별적으로 수행된다.
도 3은 단어 읽기 검사로부터 음성 피치, 호흡 % 및/또는 무음성/유음성 비를 결정함으로써 대상체의 생리적 및/또는 병리학적 상태를 평가하는 방법을 예시하는 흐름도를 예시하는 흐름도이다. 이 방법은 대상체로부터 단어-읽기 검사로부터 음성 레코딩을 획득하는 단계(310)를 포함한다. 음성 레코딩은 n개의 단어의 (닫힌) 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 온 것일 수 있다. 특히, 단어는 임의의 특정한 논리적 연결을 가지지 않는 것이 바람직하다.
단계(320)에서, 단일 단어 또는 음절에 대응하는 음성 레코딩의 복수의 세그먼트가 식별된다. 읽기 검사에 사용되는 단어가 단음절이면 각 세그먼트가 단일 단어에 대응하는 것으로 가정될 수 있으므로 세그먼트의 타이밍이 발화 속도와 직접 관련될 수 있으므로 특히 바람직하다. 이음절 단어(또는 다른 다음절 단어)가 사용되는 경우, 모든 단어가 동일한 수의 음절을 갖는 것이 발화 속도의 계산 및/또는 해석을 단순화시킬 수 있으므로 바람직할 수 있다.
단계(330)에서, 음성 레코딩과 연관된 호흡 % 및/또는 무음성/유음성 비 및/또는 음 피치가 음성 레코딩에서 식별된 세그먼트를 사용하여 적어도 부분적으로 결정된다.
호흡 퍼센티지는 유음성 세그먼트를 포함하는 레코딩에서의 시간의 비율을 반영한다. 이는 단계(320)에서 식별된 세그먼트들 사이의 시간과 레코딩 내 총 시간, 또는 단계(320)에서 식별된 세그먼트 내 시간의 합과 단계(320)에서 식별된 세그먼트들 사이의 시간의 비로서 계산될 수 있다. 무음성/유음성 비는 대상체가 발성을 내는 레코딩 내 시간의 양에 비해, 대상체가 호흡하거나 호흡하고 있다고 가정되는 레코딩 내 시간의 양을 나타낸다. 무음성/유음성 비는 (i) 단계(320)에서 식별된 세그먼트들 사이의 시간의 양, 및 (ii) 단계(320)에서 식별된 세그먼트 내 시간의 양의 비로 결정될 수 있다.
음성 레코딩 또는 그 세그먼트와 연관된 음성 피치는 레코딩에서 소리 신호의 기본 주파수의 추정치를 지칭한다. 따라서, 음성 피치는 본 명세서에서 F0 또는 f0으로 지정될 수 있으며, "f"는 주파수를 나타내고 "0" 인덱스는 이것이 추정되는 주파수가 기본 주파수로 가정됨을 나타낸다. 신호의 기본 주파수는 신호의 기본 주기의 역수이며, 여기서 신호의 기본 주기는 신호의 최소 반복 간격이다. 신호의 피치(또는 이의 기본 주파수)를 추정하기 위해 다양한 계산 방법이 사용될 수 있으며 이러한 모든 방법이 본 명세서에서 사용될 수 있다. 많은 계산상 피치 추정 방법은 신호를 시간 창으로 나눈 다음 각 창에 대해 (i) 신호의 스펙트럼을 추정하고(가령, 단시간 푸리에 변환 사용), (ii) (가령, 스펙트럼을 통해 적분 변환을 계산함으로써) 지정 범위 내 각각의 피치 후보에 대한 점수를 계산하며, (ii) 가장 높은 점수를 가진 후보를 추정 피치로서 선택함으로써, 신호의 피치를 추정한다. 이러한 방법은 복수의 피치 추정치(각 시간 창에 대해 하나씩)를 도출할 수 있다. 따라서, 신호에 대한 피치 추정치는 윈도에 걸친 요약된 추정치(가령, 윈도에 걸친 평균, 최빈값 또는 중앙값 피치) 및/또는 범위로서 제공될 수 있다. 더 최근에는, 딥 러닝에 기반한 방법이 제안되었으며, 그 중 일부는 신호에 대한 피치 추정치를 결정한다(즉, 신호의 복수의 창 각각에 대한 것이 아니라 신호에 대한 예측된 피치를 출력으로서 제공). 음성 피치를 결정하는 것은 단계(320)에서 식별된 각각의 세그먼트에 대한 음성 피치 추정치 또는 음성 피치의 추정된 범위를 획득하는 것을 포함할 수 있다. 세그먼트에 대한 음성 피치는 세그먼트에 걸쳐 음성 피치의 요약된 추정치, 가령, 세그먼트에 대한 복수의 음성 피치 추정치의 평균, 중앙값 또는 최빈값일 수 있다. 세그먼트에 대한 음성 피치 범위는 세그먼트에 대한 복수의 음성 피치 추정치의 사전 결정된 비율이 속할 것으로 예상될 수 있는 음성 피치의 범위일 수 있다. 예를 들어, 세그먼트에 대한 음성 피치 범위는 세그먼트에 대한 복수의 음성 피치 추정치로부터의 최저 피치 추정치와 최고 피치 추정치 사이의 간격일 수 있다. 대안으로, 세그먼트에 대한 음성 피치 범위는 세그먼트에 대한 복수의 음성 피치 추정치의 x번째 백분위수와 y번째 백분위수 사이의 구간일 수 있다. 다른 대안으로서, 세그먼트에 대한 음성 피치 범위는 세그먼트에 대한 복수의 음성 피치 추정치의 평균 음성 피치 주변의 신뢰 구간에 대응하는 구간일 수 있다. 이러한 신뢰 구간은 평균값 주변의 범위를 적용함으로써 획득될 수 있으며, 여기서 범위는 평균 주변의 추정 표준 편차의 단위로 표현된다(가령, 평균 ± n SD, 여기서 SD는 표준 편차이고 n은 임의의 사전 결정된 값일 수 있다). 음성 피치를 결정하는 것은 요약된 음성 피치 추정치 또는 단계(320)에서 식별되고 음성 피치 추정치 또는 음성 피치의 추정된 범위가 획득된 세그먼트에 걸친 음성 피치의 요약된 추정된 범위를 획득하는 것을 포함할 수 있다. 복수의 세그먼트에 걸친 요약된 음성 피치 추정치는 각각의 세그먼트에 대한 복수의 음성 피치 추정치의 평균, 중앙값 또는 최빈값으로서 획득될 수 있다. 각자의 세그먼트에 대한 추정된 음성 피치를 이용해(세그먼트당 복수의 음성 피치 추정치 또는 하나 - 가령, 요약된 것 - 를 포함하는지 여부에 무관하게), 세그먼트들에 걸친 음성 피치의 요약된 추정된 범위가 앞서 설명된 바와 같이 획득될 수 있다.
세그먼트에 대한 음성 피치(또는 복수의 음성 피치)는 해당 업계에 알려진 임의의 방법을 이용해 추정될 수 있다. 특히, Camacho and Harris(2008)에 기재된 SWIPE 또는 SWIPE' 방법을 사용하여 세그먼트에 대한 음성 피치가 추정될 수 있다. 바람직하게는, 세그먼트에 SWIPE'를 적용함으로써 세그먼트에 대한 음성 피치 추정치가 획득된다. 이 방법은 정확도와 계산 속도 사이에서 균형을 잘 맞추는 것으로 나타났다. SWIPE와 비교할 때, SWIPE'는 신호의 첫 번째 및 주요 고조파만 사용하므로 하위 고조파 오차를 감소시킨다. 대안으로, 피치 추정은 딥 러닝 접근법, 가령, Kim et al.(2018)에 기재된 CREPE 방법을 이용해 수행될 수 있다. 이 방법은 SWIPE 또는 SWIPE'와 같은 방법에 비해 계산 부담이 증가함에도 불구하고 강건한 피치 추정으로 이어지는 것으로 밝혀졌다. 대안적 방법, 가령 PYIN(Mauch and Dixon(2014)에 기재된 것 또는 Ardaillon and Roebel(2019)에 기재된 방법)이 사용될 수도 있다. 피치 추정은 일반적으로 시간 윈도(앞서 기재된 바와 같이, "프레임"이라고도 지칭됨)로부터의 신호를 사용하여 적용된다. 따라서, 세그먼트에 대한 피치 추정은 각각이 프레임에 대응하는 복수의 추정을 생성할 수 있다. 적절하게는, 예를 들어 중앙값 필터를 적용함으로써, 추정 오차를 감소시키기 위해 복수의 피치 추정(예를 들어 세그먼트 내 복수의 프레임에 대응하는 것과 같은)이 추가로 처리될 수 있다. 본 발명자들은 50ms 윈도를 사용하여 적용된 중앙값 필터가 특히 적합하다는 것을 발견했다. 세그먼트에 대한 이러한 필터링된 추정치의 평균은 세그먼트에 대한 피치 추정치로서 사용될 수 있다.
단일 단어 또는 음절에 대응하는 음성 레코딩의 복수의 세그먼트를 식별하기 위해 사용될 수 있는 방법이 지금부터 기재될 것이다. 해당 분야에 다른 방법이 존재하며, 이러한 다른 방법은 다른 실시예에서도 사용될 수 있다. 도 3에 도시된 실시예에서, 단계(322)에서, 음성 레코딩의 파워 멜-스펙트로그램이 획득된다. 이는 일반적으로 음성 레코딩을 따라 프레임을 정의하고(프레임은 시간 축을 따라 적용되는 고정 폭의 슬라이딩 윈도의 신호에 대응할 수 있음) 각각의 프레임에 대한 멜 스케일 상의 파워 스펙트럼을 계산함으로써(일반적으로 각각의 프레임에 대한 스펙트로그램을 획득한 후 인간 가청 범위에 대응하는 것으로 가정되는 주파수의 범위에 따라 중첩된 삼각 필터를 이용해 스펙트로그램을 멜 스케일에 매핑함으로써) 달성된다 이 프로세스는 시간 빈(여기서 시간 빈은 슬라이딩 윈도의 위치 중 하나에 대응함)당 멜 단위당 파워의 값의 행렬을 도출한다. 따라서, 임의의 양태의 실시예에서, 음성 레코딩의 파워 멜-스펙트로그램을 획득하는 것은 슬라이딩 윈도(바람직하게는 15 ms의 크기 및 10 ms의 스텝 크기를 가짐) 및 25.5 Hz 내지 8 kHz에 걸친 138개의 삼각 필터를 적용하는 것을 포함한다. 이론에 얽매이지 않고, 상대적으로 좁은 시간 윈도(예를 들어, 25ms 이상과 반대로 10-15ms)을 사용하는 것이 단일 단어 또는 음절에 대응하는 세그먼트를 식별하는 맥락에서 그리고 특히, 단어 또는 음절의 시작에 대응하는 세그먼트 경계를 식별하기 위한 목적으로 유용할 수 있다고 믿어진다. 상대적으로 좁은 시간 창을 사용하면 검출의 감도가 증가할 수 있는 반면, 더 넓은 시간 창은 정보가 될 수 있는 작은 신호를 평활화할 수 있기 때문이다.
통상의 기술자가 이해할 바와 같이, 주파수 스펙트로그램(Hz 스케일)에 적용되는 중첩 삼각 필터(일반적으로 138)는 일반적으로 멜 스케일로 스펙트로그램을 얻기 위해 사용된다. 또한, 25.5 Hz 내지 8 kHz 범위에 걸쳐 있는 것이 인간 가청 범위를 적절하게 캡처하므로 바람직한 것으로 밝혀졌다.
선택적으로, 파워 멜-스펙트로그램은 예를 들어 각 프레임에 대한 값을 레코딩에서 관찰된 가장 높은 에너지 값으로 나눔으로써 정규화(323)될 수 있다. 단계(324)에서, 주파수 축을 따르는 멜 스펙트로그램의 최대 강도 투영이 획득된다. 세그먼트 경계는 주파수 축을 따른 멜 스펙트로그램의 최대 강도 투영이 임계값을 교차하는 시점으로 식별된다(326). 특히, 멜 스펙트로그램의 최대 강도 투영이 제1 경계에서 낮은 값에서 높은 값으로 임계값을 교차하고, 멜 스펙트로그램의 최대 강도 투영이 제2 경계에서 높은 값에서 낮은 값으로 임계값을 교차하는 두 개의 연속 경계의 세트가 단일 단어 또는 음절에 대응하는 세그먼트를 정의하는 것으로 간주될 수 있다. 단계(326)에서 사용되는 임계값은 선택적으로 단계(325)에서 동적으로 결정될 수 있다(여기서 단어 "동적으로 결정된"은 임계값이 특정 레코딩에 독립적으로 사전 결정되는 것이 아니라 특정 음성 레코딩의 특징에 따라 특정 음성 레코딩에 대해 결정되는 것을 지칭한다).
따라서, 실시예에서, 임계값은 각각의 레코딩에 대해 동적으로 결정된다. 바람직하게는, 임계값은 레코딩에 대한 최대 강도 투영 값의 함수로서 결정된다. 예를 들어, 임계값은 신호에 대응한다고 가정된 상대 에너지 값과 배경 노이즈에 대응한다고 가정된 상대 에너지 값의 가중 평균으로 결정될 수 있다. 신호에 대응하는 것으로 가정된 상대 에너지 값은 예를 들어 레코딩에서 관찰된 상위 x(여기서 x는 예를 들어 10%일 수 있음)의 상대 에너지 값일 수 있다. 마찬가지로, 배경 노이즈에 대응하는 것으로 가정된 상대 에너지 값이 레코딩에서 관찰된 하위 x(여기서 x는 예를 들어 10%일 수 있음)의 상대 에너지 값일 수 있다. 프레임들에 걸쳐 상위 10% 상대 에너지 값의 평균값과 프레임들에 걸쳐 하위 10% 상대 에너지 값의 평균값의 사용이 특히 편리할 수 있다. 또는, 신호(즉, 음성 신호)에 대응하는 것으로 가정된 상대 에너지의 사전 결정된 값이 사용될 수 있다. 예를 들어, 약 -10dB의 값이 발명자들에 의해 일반적으로 관찰되었고 유용하게 선택될 수 있다. 마찬가지로, 배경 노이즈에 대응하는 것으로 가정된 상대 에너지의 지정 값이 사용될 수 있다. 예를 들어, 약 -60dB의 값이 발명자들에 의해 일반적으로 관찰되었고 유용하게 선택될 수 있다.
임계값이 신호에 대응하는 것으로 가정된 상대 에너지 값과 배경 노이즈에 대응하는 것으로 가정된 상대 에너지 값의 가중 평균으로 결정되는 경우, 후자에 대한 가중치는 0.5 내지 0.9 사이에서 선택될 수 있고 전자에 대한 가중치는 0.5 내지 0.1 사이에서 선택될 수 있다. 실시예에서, 배경 노이즈 기여에 대한 가중치가 신호 기여에 대한 가중치보다 높을 수 있다. 이는 하나 이상의 노이즈 제거 단계를 수행함으로써 음성 레코딩이 사전 처리된 경우에 특히 바람직할 수 있다. 실제로, 이러한 경우 신호의 하단 부분(낮은 상대 에너지)은 노이즈 제거를 위해 사전 처리되지 않은 신호에 대해 예상보다 더 많은 정보를 포함할 수 있다. 모바일 장치를 포함한 많은 현대의 컴퓨팅 장치는 이러한 방식으로 이미 어느 정도 전처리된 음성 레코딩을 생성할 수 있다. 따라서 상대 에너지 값의 하단을 어느 정도 강조하는 것이 유용할 수 있다. 신호 및 배경 노이즈 기여에 대해 각각 약 0.2 및 약 0.8의 가중치가 바람직할 수 있다. 또한, 바람직한 임계값은 시행 착오 및/또는 훈련 데이터를 사용하는 정식 훈련에 의해 결정될 수 있다. 이론에 얽매이지 않고, 동적으로 결정된 임계값의 사용은 음성 레코딩이 기준 톤을 포함하는 경우 및/또는 신호 대 노이즈 비가 좋은 경우(가령, 사전 결정된 임계값, 가령, 30 dB 이상)에 특히 바람직할 수 있다고 여겨진다. 반대로, 사전 결정된 임계값의 사용은 음성 레코딩이 기준 톤을 포함하지 않은 경우 및/또는 신호 대 노이즈 비가 나쁜 경우에 특히 바람직할 수 있다.
또 다른 실시예에서, 임계값은 사전 결정된다. 실시예에서, 사전 결정된 임계값은 -60 dB 내지 -40 dB에서 선택되는데, 가령, -60 dB, -55 dB, -50 dB, -45 dB, 또는 -40 dB이다. 바람직하게는, 사전 결정된 임계값은 약 -50dB이다. 본 발명자들은 이 임계값은 우수한 품질 음성 레코딩에서, 특히, 하나 이상의 노이즈 제거 단계를 이용해 사전 처리된 음성 레코딩에서 단어/음절 경계 식별의 민감도와 특이도 간 우수한 균형을 이룸이 발견됐다.
선택적으로, 세그먼트는 단계(326)에서 식별된 개별 세그먼트를 분석하고 추가(내부) 경계가 발견될 수 있는지 여부를 결정함으로써 "정제(refine)"될 수 있다. 따라서, 단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 것은 각각의 세그먼트에 대해 시작 검출을 수행하고 세그먼트 내에서 시작이 검출될 때마다 추가 경계를 정의하여, 2개의 새로운 세그먼트를 형성하는 것을 더 포함할 수 있다.
이는 세그먼트에 대한 멜-스펙트로그램에 대한 스펙트럼 플럭스 함수를 계산함으로써 세그먼트들 중 적어도 하나에 대한 시작 검출을 수행(327)하고 하나의 세그먼트 내 시작이 검출될 때마다 추가 (내부) 경계를 정의하여 두 개의 새로운 세그먼트를 형성함으로써(328) 수행될 수 있다. 스펙트럼 플럭스 함수를 사용한 시작 검출은 비트 검출을 위해 음악 레코딩의 분석에 일반적으로 사용된다. 통상의 기술자가 이해하는 바와 같이, 스펙트럼 플럭스 함수를 사용하는 시작 검출은 에너지 신호의 미분을 보는 방법이다. 즉, 스펙트럼 플럭스 함수는 신호의 파워 스펙트럼이 얼마나 빨리 변하는지 측정한다. 따라서 세그먼트 내에서 새로운 단어 또는 음절의 시작에 대응할 수 있는 신호 내 "밸리"(에너지 신호의 급격한 변화)를 식별하는 것이 특히 유용할 수 있다. 이는 바람직하게도 필요한 경우 세그먼테이션을 "정제"할 수 있다. 이 접근법은 덜 민감한 접근법을 사용하여 단어/음절 경계가 이미 식별되어 "대략적인" 세그먼트가 도출되는 "정제 단계"로서 특히 유용할 수 있다. 이는 적어도 부분적으로 세그먼트에 대한 적절한 파라미터(가령, 시작 검출을 위한 임계값)를 사용하여 접근법이 세그먼트에 독립적으로 적용될 수 있기 때문이다.
시작 검출을 수행하는 것(327)은 스펙트럼 플럭스 함수 또는 시작 강도 함수를 계산하는 것(327a), 세그먼트에 대한 시작 강도 함수를 0과 1 사이의 값으로 정규화하는 것(327b), (정규화된) 시작 강도 함수를 평활화하는 것(327c) 및 임계값을 스펙트럼 플럭스 함수 또는 이로부터 파생된 함수에 적용하는 것(327d)을 포함하며, 함수가 임계값보다 증가하면 시작이 검출된다. 따라서, 시작 검출을 수행하는 것은 스펙트럼 플럭스 함수 또는 이로부터 파생된 함수에 임계값을 적용하는 것을 포함할 수 있으며, 함수가 임계값보다 증가하면, 시작이 검출된다. 실시예에서, 시작 검출을 수행하는 것은 세그먼트에 대한 시작 강도 함수를 0과 1 사이의 값으로 정규화하는 것과 정규화된 시작 강도가 임계값보다 높은 경우 세그먼트를 서브세그먼트로 분리하는 것을 포함한다. 0.1 내지 0.4, 가령, 0.2 내지 0.3의 임계값은 정규화된 시작 강도 함수에 적용될 때 특히 낮은 위양성율을 도출할 수 있다. 적절한 임계값이 방법이 훈련 데이터에 적용될 때 위양성 검출율을 최소화하는 임계값으로서 정의될 수 있다.
실시예에서, 시작 검출을 수행하는 것은 S and Widmer G (2013)에 기술된 수퍼플럭스 방법을 사용하여, 파워 멜-스펙트로그램으로부터 시간에 따른 (스펙트럼 플럭스 함수에 기초하지만 공통 스펙트럼 플럭스 계산 방법으로의 스펙트럼-궤적 추적 스테이지를 포함하는) 시작 강도를 계산하는 것을 포함한다. 실시예에서, 시작 검출을 수행하는 것은 LibROSA 라이브러리(https://librosa.github.io/librosa/, 함수 librosa.onset.onset_strength 참조, McFee et al.(2015))에서 구현되는 수퍼플럭스 방법을 사용하여, 파워 멜-스펙트로그램으로부터 시간에 따른 시작 강도 함수를 계산하는 것을 포함한다. 바람직하게는, 시작 검출을 수행하는 것은 세그먼트에 대한 시작 강도 함수를 0 내지 1 사이의 값으로 정규화하는 것을 더 포함한다. 이는 예를 들어 시작 강도 함수의 각각의 값을 세그먼트 내의 최대 시작 강도로 나눔으로써 달성될 수 있다. 시작 강도 함수를 정규화하면 위양성 검출 횟수가 감소될 수 있다.
실시예에서, 시작 검출을 수행하는 것은 세그먼트에 대한 (선택적으로 정규화된) 시작 강도 함수를 평활화하는 것을 더 포함한다. 예를 들어, 고정된 윈도 크기로 이동 평균을 계산함으로써 평활화가 달성될 수 있다. 예를 들어, 10-15 ms, 가령, 11 ms의 윈도 크기가 유용할 수 있다. 평활화는 검출된 위양성율을 더 감소시킬 수 있다.
선택적 오류 검출 제거 단계(329)가 도 3에 도시되어 있다. 본 명세서에 기재된 바와 같이 올바르게 읽힌 단어를 식별하는 프로세스는 바람직하게는 적어도 어느 정도는 잘못 검출된 세그먼트의 존재에 내성이 있다. 이는 적어도 부분적으로 정렬 단계가 방법의 전체 정확도에 크게 영향을 미치지 않으면서 잘못된 검출에 대한 갭을 포함할 수 있기 때문이다. 따라서, 실시예에서 잘못된 검출 제거 단계는 생략될 수 있다. 도 3에 도시된 실시예에서, 잘못된 검출 제거 단계는 세그먼트에 대한 하나 이상의 멜-주파수 셉스트럴 계수(Mel-frequency cepstral coefficients, MFCC)(바람직하게는 처음 3개의 MFCC인데 이들은 노이즈와 실제 발화 사이를 구별하는 특징을 포착할 것으로 예상되기 때문)를 계산하여, 복수의 값 벡터를 획득하는 단계(329a) - 각각의 벡터는 세그먼트와 연관됨 - , 및 나머지 값 벡터로부터 지정 거리보다 많이 이격된 값 벡터를 갖는 모든 세그먼트를 제외하는 단계(329b)를 포함한다. 이 접근법은 대부분의 세그먼트가 올바른 검출(즉, 실제 발화에 대응)이고 실제 발화를 포함하지 않는 세그먼트는 올바른 검출과 상이한 MFCC 특징을 가지고 있다고 가정한다. 잘못된 검출과 연관되는 것으로 추정되는 복수의 값 벡터 중 일부를 제외하기 위해 그 밖의 다른 이상치 검출 방법이 적용될 수 있다.
실시예에서, 단일 단어/음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 것은 사전 결정된 임계값보다 짧은 세그먼트를 제거함으로써 잘못된 검출을 나타내는 세그먼트 및/또는 지정 임계값 미만의 평균 상대 에너지를 갖는 세그먼트를 제외하는 것을 더 포함한다. 예를 들어, 바람직하게는 100ms보다 짧은 세그먼트가 제외될 수 있다. 마찬가지로, 바람직하게는 -40 dB 미만의 평균 상대 에너지를 갖는 세그먼트가 제외될 수 있다. 이러한 접근 방식은 단어나 음절에 대응하지 않는 세그먼트를 간단하고 효율적으로 제외시킬 수 있다. 바람직하게는, 앞서 설명된 바와 같이 세그먼트에 대한 MFCC를 계산하고 이상치 검출 방법을 적용하기 전에 짧은 및/또는 저 에너지 세그먼트를 제외하도록 세그먼트가 필터링된다. 실제로, 이로 인해 바람직하게도 잘못된 세그먼트에 대한 MFCC를 계산하는 불필요한 단계가 회피되고 이러한 잘못된 세그먼트가 이상치 검출 방법에서 추가 노이즈를 도입하지 못하게 한다.
세그먼트에 대한 하나 이상의 MFCC(Mel-frequency cepstral coefficients)를 계산하는 것은 일반적으로 음성 레코딩의 세그먼트를 따라 프레임을 정의하는 것을 포함한다(여기서 프레임은 시간 축을 따라 적용된 고정된 폭의 윈도에서의 신호에 대응할 수 있음). 윈도는 일반적으로 슬라이딩 윈도, 즉, 정의된 단차 길이(가령, 3-10ms, 가령, 10ms)로 시간 축을 따라 이동된 설정 길이(가령, 10-25ms, 가령, 25ms)의 윈도여서, 부분적으로 겹치는 프레임을 도출한다. 하나 이상의 MFCC를 계산하는 것은 통상적으로 각각의 프레임에 대해, 프레임 내 신호의 푸리에 변환(FT)을 계산하는 것, (예를 들어, 삼각 중첩 필터를 사용해) 이렇게 얻어진 스펙트럼의 파워를 멜 스케일로 매핑하는 것, 멜 주파수 각각에서 파워의 로그를 취하는 것, 및 이렇게 획득된 신호의 이산 코사인 변환을 수행하는 것(즉, 스펙트럼의 스펙트럼을 획득)을 더 포함한다. 결과 스펙트럼의 진폭은 프레임에 대한 MFCC를 나타낸다. 앞서 설명한 것처럼, 일반적으로 파워 멜-스펙트럼에 대해 138개의 멜 값의 세트가 획득된다(즉, 주파수 범위는 일반적으로 138개의 중첩 삼각 필터를 사용하여 138개의 멜 스케일 값으로 매핑됨). 그러나 MFCC 계산 프로세스를 통해 이 정보는 값(MFCC)의 작은 세트, 일반적으로 13개 값으로 압축된다. 많은 경우에, 138 Mel 값의 배수에 포함된 정보는 이 신호의 압축이 정보성 신호의 유해한 손실을 초래하지 않도록 상관될 것이다.
특히, 세그먼트에 대한 하나 이상의 MFCC(Mel-frequency cepstral coefficient)를 계산하는 것은 Rusz et al. (2015)에 기재된 대로 수행될 수 있다. 세그먼트에 대해 하나 이상의 MFCC(Mel-frequency cepstral coefficient)를 계산하는 것이 LibROSA 라이브러리에서 구현된 대로 수행될 수 있다(https://librosa.github.io/librosa/; McFee et al. (2015); see librosa.feature.mfcc). 또는, 세그먼트에 대한 하나 이상의 MFCC를 계산하는 것은 라이브러리 "python_speech_features"에서 구현된 대로 수행될 수 있다(James Lyons et al., 2020).
실시예에서, 세그먼트에 대한 하나 이상의 MFCC(Mel-frequency cepstral coefficient)를 계산하는 것은 세그먼트의 각 프레임에 대해 적어도 처음 3개의 MFCC(선택적으로, 모두 13개 MFCC)를 계산하는 것과 세그먼트 내 프레임들에 걸쳐 각 MFCC에 대해 요약된 측정을 계산하여, 세그먼트에 대해 적어도 3개의 값(각각의 사용되는 MFCC에 대해 하나씩)의 벡터를 획득하는 것을 포함한다. 이상치 검출 방법에 사용되는 적어도 3개의 MFCC의 개수 및/또는 신원은 훈련 데이터 및/또는 내부 제어 데이터를 사용하여 결정될 수 있다. 예를 들어, 적어도 3개의 MFCC는 훈련 데이터에서 잘못된 검출의 퍼센티지(가령, 적어도 90% 또는 적어도 95%)을 제거하기에 충분한 MFCC의 최소 세트로서 선택될 수 있다. 다른 예로서, 적어도 3개의 MFCC는 내부 제어(예를 들어, 아래에서 더 설명되는 바와 같은 기준 톤)에 대응하는 세그먼트를 제거하기에 충분한 MFCC의 최소 세트로서 선택될 수 있다. 바람직하게는 처음 3개의 MFCC만이 이상치 검출 방법에 사용된다. 이는 바람직하게도 이상치 검출 프로세스를 혼란스럽게 할 수 있는 점의 개별 분포를 형성하는 상이한 단어를 도출할 수 있는 정보를 도입하지 않고, 잘못된 검출(예를 들어, 호흡, 비-발화 소리)로부터 진정한 단어/음절의 분리를 가능하게 하는 정보를 포착한다.
실시예에서, 이상치 검출 방법을 복수의 값 벡터에 적용하는 것은 나머지 값 벡터로부터 사전 결정된 거리 보다 많이 위에 있는 값 벡터를 갖는 모든 세그먼트를 제외하는 것을 포함한다. 특정 값 벡터와 나머지 값 벡터 사이의 거리는 마할라노비스 거리(Mahalanobis distance)를 사용하여 정량화될 수 있다. 마할라노비스 거리는 점과 분포 사이의 거리의 편리한 측정치이다. 이는 단위가 없고 스케일 불변이며 데이터의 상관 관계를 고려한다는 장점을 가진다. 또는 특정 값 벡터와 나머지 값 벡터 사이의 거리는 특정 값 벡터와 나머지 값 벡터에 대한 대표 값(가령, 평균 또는 중간값) 간의 거리(가령, 유클리드 거리, 맨하탄 거리)를 사용하여 정량화될 수 있다. 값은 예를 들어 이상치 검출을 적용하기 전에 각 좌표를 따라 단위 분산을 갖도록 선택적으로 스케일링될 수 있다. 사전 결정된 거리는 복수의 값 벡터에서 관찰된 변산도에 따라 선택될 수 있다. 예를 들어, 사전 결정된 거리는 데이터의 변산도의 다수의 척도, 가령, 표준 편차 또는 선택된 분위수의 값일 수 있다. 이러한 실시예에서, 사전 결정된 거리는 잘못된 검출의 예상 비율에 따라 선택될 수 있다. 복수의 값 벡터의 평균 주위의 1 내지 3 표준 편차의 임계값이 선택될 수 있고 이상치의 정확한 제거를 가능하게 할 수 있다. 2개의 표준 편차의 임계값은 특히 잘못된 검출의 예상 비율이 약 5%일 때 바람직한 것으로 나타났다.
잘못된 검출 제거에 대한 틀림없이 유사한 접근법이 Rusz et al. (2015)에 기재되어 있다. 그러나, 이 문서에 기재된 접근법은 본 개시의 것보다 훨씬 더 복잡하다. 특히, 이는 각 반복에서 상호 거리의 분포에 대한 분위수 기반 임계값을 사용하여 정상치 및 이상치가 식별된 후, 이전에 정의된 정상치와 이상치 간 거리의 분포에 대한 분위수-기반 임계값을 이용해 이상치가 제외되는 반복 프로세스에 의존한다. 본 명세서에 기재된 바와 같은 더 간단한 접근법이 본 발명의 맥락에서 바람직할 수 있다. 이론에 얽매이는 것을 원하지 않으며, 본 명세서에 기재된 잘못된 검출 제거에 대한 접근법은 잘못된 검출의 비율이 낮기 때문에 현재 상황에서 특히 바람직한 것으로 여겨진다. 이는 부분적으로 매우 높은 정확도를 갖는 본 명세서에 기재된 세그먼트 검출 접근법 때문일 수 있다. 이론에 얽매이지 않고, (10 ms 길이-3 ms 단차의 슬라이딩 윈도 내부의 12개의 MFCC로의 신호를 파라미터화하고, 처음 3개의 MFCC를 이용해 설명될 수 있는 저 주파수 스펙트럼 포락선을 검색한 후, 각각 포락선 내부 3개의 MFCC 각각의 평균을 계산하고 k-평균을 이용해 이들 점을 음절과 휴지기간(pauses)으로 분리하는 것에 의존하는) Rusz et al. (2015)에서 사용되는 음절 세그먼테이션에 대한 접근법이 본 명세서에서 기재된 것만큼 정확하지 않을 수 있다. 이는 적어도 부분적으로는 이는 단어가 모두 동일한 휴지기간과 단어간 대비를 식별하도록 설계되고, 부분적으로 Rusz et al. (2015)에서의 접근법이 참양성 세그먼트 식별 프로세스의 전체 정확도를 증가시키도록 반복적 이상치 검출 프로세스에 강하게 의존하기 때문이다. 실제로 Rusz et al. (2015) 접근법은 환자가 편안한 속도로 동일한 음절을 반복하도록 요청하는 음성 레코딩을 사용하여 음절 검출을 처리하기 위해 특별히 개발되었다. 따라서 데이터는 동종 콘텐츠의 세그먼트(휴지기간 및 음절)의 두 가지 예상 범주로만 구성된다. 이러한 경우, 세그먼트 식별을 위한 복잡한 반복 에러 감지 프로세스와 함께 처음 3개의 MFCC를 사용하면 우수한 정확도를 달성할 수 있다. 그러나 이는 적어도 둘 이상의 유형의 음절이 예상되기 때문에 단어-읽기 검사로부터의 음성 레코딩을 분석하는 맥락에서 정확도가 낮을 수 있다.
단계(320)에서 식별된 세그먼트는 도 2(단계 230-270)와 관련하여 기재된 바와 같이 단어 읽기 검사에서 올바르게 읽히는 단어, 따라서 정답 단어율을 결정하는 데 사용될 수 있다.
본 발명자들은 도 2 및 도 3과 관련하여 기재된 바와 같이 결정된 호흡 %, 무음성/유음성, 음성 피치 및 정답 단어율이 대상체의 생리학적 또는 병리학적 상태를 나타내는 바이오마커로 사용될 수 있음을 확인하였다. 특히, 본 명세서에 기재된 바와 같이 측정된 바이오마커는 대상체의 호흡곤란 및/또는 피로 수준, 특히 호흡 %, 무음성/유음성 및 정답 단어율 바이오마커의 특히 민감한 표시자인 것으로 밝혀졌다. 또한, 본 명세서에 기재된 음성 피치 추정치를 획득하는 방법은 특히 신뢰할 수 있는 추정치를 도출하는 것으로 밝혀졌으며, 따라서 이는 음성 피치 변화와 연관된 바이오마커 또는 임의의 생리학적 또는 병리학적 상태로서 사용될 수 있다. 이와 같이, 본 명세서에 기재된 방법은 호흡곤란, 피로 및/또는 음성 피치 변화와 연관된 임의의 병태, 질병 또는 장애의 진단, 모니터링 또는 치료에서의 용도를 찾을 수 있다.
도 4는 대상체의 질병, 장애 또는 병태와 관련하여 모니터링, 진단 또는 예후를 제공하는 방법을 개략적으로 도시한다. 질병, 장애 또는 병태는 호흡, 음성 톤, 피로 및/또는 인지 능력에 영향을 미치는 것이다.
이 방법은 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계(410)를 포함한다. 예시된 실시예에서, 음성 레코딩을 획득하는 것은 대상체와 연관된 컴퓨팅 장치(예를 들어, 컴퓨팅 장치 1)가 (가령, 디스플레이(104) 상에) 단어의 세트를 디스플레이하게 하는 것(310a) 및 컴퓨팅 장치(1)가 (가령, 마이크로폰(105)을 통해) 음성 레코딩을 레코딩하게 하는 것(310b)을 포함한다. 선택적으로, 음성 레코딩을 획득하는 것은 컴퓨팅 장치가 기준 톤을 방출하게 하는 것(310c)을 더 포함할 수 있다. 대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 것(310)은 이를 대신하여 또는 추가로 대상체와 연관된 컴퓨팅 장치(예를 들어, 컴퓨팅 장치 1)로부터 음성 레코딩을 수신하는 것을 포함할 수 있다.
방법은 단일 단어 또는 음절에 대응하는 음성 레코딩의 복수의 세그먼트를 식별하는 단계(420)를 더 포함한다. 이는 도 3과 관련하여 설명된 바와 같이 수행될 수 있다. 방법은 선택적으로 음성 레코딩에서 식별된 세그먼트의 수를 적어도 부분적으로 카운트함으로써 음성 레코딩과 연관된 발화 속도를 결정하는 단계(430)를 더 포함한다. 방법은 도 2와 관련하여 설명된 바와 같이 음성 레코딩에서 정답 단어율을 결정하는 단계(470)를 더 포함한다(단계(230-270)). 음성 레코딩으로부터 도출된 정답 단어율은 대상체의 인지 장애, 피로 및/또는 숨가쁨의 수준을 나타낼 수 있다. 방법은 선택적으로 도 3과 관련하여 설명된 바와 같이 음성 레코딩에서 호흡 퍼센티지를 결정하는 단계(430a)를 포함한다(단계(320-330)). 음성 레코딩으로부터 도출된 호흡 퍼센티지는 대상체의 인지 장애, 피로 및/또는 숨가쁨의 수준을 나타낼 수 있다. 방법은 선택적으로 도 3과 관련하여 설명된 바와 같이 음성 레코딩에서 무음성/유음성 비를 결정하는 단계(430b)를 포함한다(단계(320-330)). 음성 레코딩으로부터 도출된 무음성/유음성 비는 대상체의 인지 장애, 피로 및/또는 숨가쁨의 수준을 나타낼 수 있다. 방법은 선택적으로 도 3과 관련하여 설명된 바와 같이 음성 레코딩에서 음성 피치를 결정하는 단계(430c)를 포함한다(단계(320-330)). 음성 레코딩으로부터 도출된 음성 피치는 예를 들어 대상체, 가령, 호흡곤란, 심부전 대상부전, 감염(특히 폐 감염) 등을 경험하는 대상체의 생리학적 및/또는 병리학적 상태를 나타낼 수 있다. 방법은 단계(430 및 470)에서 얻은 메트릭을 동일한 대상체에 대해 이전에 획득된 하나 이상의 값 또는 하나 이상의 기준 값과 비교하는 단계(480)를 더 포함할 수 있다. 하나 이상의 기준 값은 동일한 대상체에 대해 이전에 획득된 하나 이상의 메트릭에 대한 하나 이상의 값을 포함할 수 있다. 따라서, 본 명세서에 기재된 임의의 방법은 하나 이상의 추가 기준점(tie point)에서 동일한 대상체에 대해 방법을 반복하는 단계(예를 들어, 단계(410-480)를 반복하는 것)를 포함할 수 있다. 하나 이상의 기준 값은 하나 이상의 기준 모집단(예를 들어, 하나 이상의 훈련 코호트)으로부터 이전에 획득된 하나 이상의 메트릭에 대한 하나 이상의 값을 포함할 수 있다.
동일한 대상체에 대해 이전에 획득된 값과의 비교는 질병, 장애 또는 병태를 갖는 것으로 진단된 대상체에서 질병, 장애 또는 병태를 모니터링, 예를 들면, 특히, 질병, 장애, 또는 병태의 징후(가령, 호흡곤란 및/또는 피로), 및/또는 질병, 장애, 또는 병태의 진행, 회복 또는 치료를 모니터링, 또는 징후, 가령, 호흡곤란 및/또는 피로를 포함하는 병태를 가질 가능성이 있다고 대상체를 진단하는 데 사용될 수 있다. 또는 동일한 대상체에 대해 이전에 획득된 값과의 비교가 사용되어 질병, 장애 또는 병태를 진단할 수 있다. 하나 이상의 기준 값과의 비교는 질병, 장애 또는 병태를 갖는 것으로 대상체를 진단하거나, 질병, 장애, 또는 병태의 진행, 회복 또는 치료를 모니터링, 예를 들어 특히, 질병, 장애 또는 병태의 징후를 모니터링하는 데 사용될 수 있다. 예를 들어, 기준 값은 질병에 걸리 모집단 및/또는 건강한 모집단에 대응할 수 있다. 대상체의 질병, 장애 또는 병태의 모니터링은 예를 들어 치료가 효과적인지 여부를 결정하기 위해 치료 과정을 자동으로 평가하는 데 사용될 수 있다.
단일 단어 또는 음절에 대응하는 음성 레코딩의 복수의 세그먼트를 식별하는 단계(420), 음성 레코딩과 연관된 호흡 %, 무음성/유음성 또는 피치를 결정하는 단계(430), 및 음성 레코딩에서 정답 단어율을 결정하는 단계(470)는 사용자 컴퓨팅 장치(1) 또는 분석 제공자 컴퓨터(2)에 의해 수행될 수 있다.
따라서, 본 개시내용은 일부 실시예에서 호흡, 목소리 톤, 피로 및/또는 인지 능력에 영향을 미치는 병태를 갖거나 가질 위험이 있는 것으로 진단된 대상체를 모니터링하는 방법에 관한 것으로, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다. 임의의 양태의 실시예에서, 방법은 질병, 장애 또는 병태에 대해 대상체를 치료하는 단계를 더 포함한다.
대상체는 특정 치료 과정을 겪고 있거나 겪었을 수 있다. 따라서 대상체를 모니터링하는 것에 대한 언급은 예를 들어 제1 시점 및 추가 시점에서 본 명세서에 개시된 하나 이상의 바이오마커를 측정하고 제1 및 추가 시점에서 측정된 바이오마커를 비교함으로써 대상체의 하나 이상의 징후가 제1 시점과 추가 시점 사이에서 개선되었는지 여부를 결정하는 것을 포함할 수 있다. 이러한 방법은 대상체의 치료 과정을 수정하거나, 비교가 대상체의 하나 이상의 징후가 개선되지 않았거나 충분히 개선되지 않았음을 나타내는 경우 대상체의 치료 과정이 수정될 것을 권고하는 것을 더 포함할 수 있다.
따라서, 호흡, 목소리 톤, 피로 및/또는 인지 능력에 영향을 미치는 병태를 갖는 것으로 진단된 대상체를 진단하는 방법에 관한 것으로, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다. 실시예에서, 하나 이상의 바이오마커가 호흡 %, 무음성/유음성 비 및 정답 단어율로부터 선택되고, 하나 이상의 기준 값은 병태를 갖는 환자 및/또는 병태를 갖지 않는 환자(예를 들어, 건강한 대상체)와 연관된 사전 결정된 값이다. 병태를 갖는 환자 및/또는 병태를 갖지 않는 환자와 연관된 사전 결정된 값은 하나 이상의 훈련 코호트를 사용하여 이전에 얻어졌을 수 있다. 실시예에서, 하나 이상의 바이오마커는 음성 피치를 포함하고, 하나 이상의 기준 값은 이전에 동일한 대상체로부터 획득된 값이다.
병태는 호흡곤란 및/또는 피로와 연관된 병태일 수 있다. 따라서, 본 개시내용은 호흡곤란 및/또는 피로와 연관된 병태를 갖거나 가질 위험이 있는 것으로 진단된 대상체를 모니터링하는 방법을 또한 제공하며, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다. 마찬가지로, 대상체에서 호흡곤란 및/또는 피로의 수준을 평가하는 방법이 또한 개시되며, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다.
병태는 심혈관 질환, 가령, 심부전, 관상 동맥 심장 질환, 심근 경색(심장 마비), 심방 세동, 부정맥(심장 리듬 장애), 심장 판막 질환일 수 있다. 특정 실시예에서, 병태는 심부전이다. 따라서, 본 개시는 비대상성 심부전을 갖는 것으로 심부전을 갖는 대상체를 식별하는 방법을 또한 제공하며, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다. 실시예에서, 하나 이상의 바이오마커는 호흡 %, 무음성/유음성 비 및 정답 단어율로부터 선택되고, 하나 이상의 기준 값은 비대상성 심부전 환자 및/또는 안정된 심부전 환자와 연관된 사전 결정된 값이다. 비대상성 심부전 환자 및/또는 안정된 심부전 환자와 연관된 사전 결정된 값은 하나 이상의 훈련 코호트를 사용하여 이전에 획득되었을 수 있다. 실시예에서, 하나 이상의 바이오마커는 음성 피치를 포함하고, 하나 이상의 기준 값은 이전에 동일한 대상체로부터 획득된 값이다.
따라서, 본 개시는 비대상성 심부전을 갖는 대상체를 모니터링하는 방법을 또한 제공하며, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다. 실시예에서, 하나 이상의 바이오마커는 호흡 %, 무음성/유음성 비 및 정답 단어율 중에서 선택되며, 하나 이상의 기준 값은 비대상성 심부전 환자 및/또는 안정된 심부전 환자 및/또는 회복중인 비대상성 심부전 환자와 연관된 사전 결정된 값이다. 비대상성 심부전 환자 및/또는 안정된 심부전 환자 및/또는 회복중인 비대상성 심부전 환자와 연관된 사전 결정된 값은 하나 이상의 훈련 코호트를 이용해 이전에 획득되었을 수 있다. 실시예에서, 하나 이상의 바이오마커는 음성 피치를 포함하고, 하나 이상의 기준 값은 동일한 대상체로부터 이전에 획득된 값이다. 예를 들어, 하나 이상의 기준 값은 대상체가 비대상성 심부전으로 진단되었을 때 획득된 하나 이상의 값을 포함할 수 있다.
실시예에서, 하나 이상의 바이오마커는 호흡 %를 포함하고, 사전 결정된 기준 값 또는 값 범위를 초과하는 호흡 %는 대상체가 호흡곤란 및/또는 피로와 연관된 병태를 가질 가능성이 있음을 나타내며, 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 가질 가능성이 높지 않은 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 호흡 %를 포함하고, 사전 결정된 기준 값 또는 값 범위 미만인 호흡 %는 대상체가 호흡곤란 및/또는 피로와 연관된 상태에서 회복 중일 가능성이 있음을 나타내고 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 가진 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 호흡 %를 포함하고, 사전 결정된 기준 값 또는 값 범위 미만인 호흡 %는 대상체가 호흡곤란 및/또는 피로와 연관된 병태에서 회복 중일 가능성이 있음을 나타내며, 여기서 대상체는 병태를 갖는 것으로 진단되었고 사전 결정된 기준 값 또는 값의 범위는 동일한 대상체로부터 이전에, 가령, 대상체를 병태를 갖는 것으로 진단한 때 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 호흡 %를 포함하고, 사전 결정된 기준 값 또는 값 범위 미만인 호흡 %가 대상체가 치료에 반응할 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 호흡 %를 포함하고, 사전 결정된 기준 값 또는 값 범위 이상인 호흡 %가 대상체가 치료에 반응하지 않을 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 병태는 비대상성 심부전일 수 있다.
실시예에서, 하나 이상의 바이오마커는 무음성/유음성 비를 포함하고, 사전 결정된 기준 값 또는 값 범위를 초과하는 무음성/유음성 비는 대상체가 호흡곤란 및/또는 피로와 연관된 병태를 가질 가능성이 있음을 나타내며, 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 가질 가능성이 높지 않은 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 무음성/유음성 비를 포함하고, 사전 결정된 기준 값 또는 값 범위 미만인 무음성/유음성 비는 대상체가 호흡곤란 및/또는 피로와 연관된 병태로부터 회복될 가능성이 있음을 나타내며, 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 갖는 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 무음성/유음성 비를 포함하고, 사전 결정된 기준 값 또는 값 범위 미만인 무음성/유음성 비는 대상체가 호흡곤란 및/또는 피로와 연관된 병태에서 회복 중일 가능성이 있음을 나타내며, 여기서 대상체는 병태를 갖는 것으로 진단되었고 사전 결정된 기준 값 또는 값의 범위는 동일한 대상체로부터 이전에, 가령, 대상체를 병태를 갖는 것으로 진단한 때 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 무음성/유음성 비를 포함하며, 사전 결정된 기준 값 또는 값 범위 미만인 무음성/유음성 비는 대상체가 치료에 반응할 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 무음성/유음성 비를 포함하며, 사전 결정된 기준 값 또는 값 범위 이상인 무음성/유음성 비는 대상체가 치료에 반응하지 않을 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 병태는 비대상성 심부전일 수 있다.
실시예에서, 하나 이상의 바이오마커는 정답 단어율을 포함하고, 사전 결정된 기준 값 또는 값 범위 미만의 정답 단어율은 대상체가 호흡곤란 및/또는 피로와 연관된 병태를 가질 가능성이 있음을 나타내며, 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 가질 가능성이 높지 않은 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 정답 단어율을 포함하고, 사전 결정된 기준 값 또는 값 범위를 초과하는 정답 단어율은 대상체가 호흡곤란 및/또는 피로와 연관된 병태로부터 회복중일 가능성이 있음을 나타내며, 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 갖는 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 정답 단어율을 포함하고, 사전 결정된 기준 값 또는 값 범위를 초과하는 정답 단어율은 대상체가 호흡곤란 및/또는 피로와 연관된 병태에서 회복 중일 가능성이 있음을 나타내며, 여기서 대상체는 병태를 갖는 것으로 진단되었고 사전 결정된 기준 값 또는 값의 범위는 동일한 대상체로부터 이전에, 가령, 대상체를 병태를 갖는 것으로 진단한 때 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 정답 단어율을 포함하고, 사전 결정된 기준 값 또는 값 범위를 초과하는 정답 단어율은 대상체가 치료에 반응할 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 정답 단어율을 포함하고, 사전 결정된 기준 값 또는 값 범위 이하의 정답 단어율은 대상체가 치료에 반응하지 않을 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 병태는 비대상성 심부전일 수 있다.
실시예에서, 하나 이상의 바이오마커는 음성 피치를 포함하고, 사전 결정된 기준 값 또는 값 범위와 유의미하게 상이한 음성 피치는 대상체가 호흡곤란 및/또는 피로와 연관된 병태를 가질 가능성이 있음을 나타내며, 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 가질 가능성이 높지 않은 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 음성을 포함하고, 사전 결정된 기준 값 또는 값 범위와 유의미하게 상이한 음성은 대상체가 호흡곤란 및/또는 피로와 연관된 병태로부터 회복중일 가능성이 있음을 나타내며, 여기서 사전 결정된 기준 값 또는 값의 범위는 병태를 갖는 대상체 또는 대상체 그룹과 연관된다. 실시예에서, 하나 이상의 바이오마커는 음성 피치를 포함하고, 사전 결정된 기준 값 또는 값 범위와 유의미하게 상이한 음성 피치는 호흡곤란 및/또는 피로와 연관된 병태에서 회복 중일 가능성이 있음을 나타내며, 여기서 대상체는 병태를 갖는 것으로 진단되었고 사전 결정된 기준 값 또는 값의 범위는 동일한 대상체로부터 이전에, 가령, 대상체를 병태를 갖는 것으로 진단한 때 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 음성 피치를 포함하고, 사전 결정된 기준 값 또는 값 범위와 유의미하게 상이한 음성 피치가 대상체가 치료에 반응할 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 실시예에서, 대상체는 호흡곤란 및/또는 피로와 연관된 병태를 갖는 것으로 진단되었고 병태에 대한 치료를 받고 있으며, 하나 이상의 바이오마커는 음성 피치를 포함하고, 사전 결정된 기준 값 또는 값 범위와 유의미하게 상이한 음성 피치가 대상체가 치료에 반응하지 않을 가능성이 있음을 나타낸다. 사전 결정된 기준 값 또는 값의 범위는 이전에, 가령, 대상체가 병태를 갖는 것으로 진단된 때 동일한 대상체로부터 또는 병태를 갖는 것으로 알려진 대상체의 그룹으로부터 획득되었을 수 있다. 바람직하게는, 사전 결정된 기준 값 또는 값의 범위는 동일한 대상체로부터 이전에 획득된 것이다.
병태는 호흡기 질환, 가령, 폐쇄성 폐질환(가령, 천식, 만성 기관지염, 기관지확장증 및 만성 폐쇄성 폐질환(COPD)), 만성 호흡기 질환(CRD), 기도 감염 및 폐 종양), 호흡기 감염(가령, COVID-19, 폐렴 등), 비만, 호흡곤란(가령, 심부전, 공황 발작(불안 장애), 폐색전증, 폐의 신체적 제한 또는 손상(가령, 갈비뼈 골절, 허탈 폐, 폐 섬유증 등과 연관된 호흡곤란), 폐고혈압, 또는 폐/심폐 기능에 영향을 미치는 그 밖의 다른 질환, 장애 또는 병태(가령, 폐기능검사(spiroergometry)로 측정 가능한 것) 등일 수 있다.
따라서, 대상체에서 폐 또는 심폐 기능을 평가하는 방법이 또한 개시되며, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다. 또한 본 명세서에 대상체를 호흡기 질환을 갖는 것으로 진단하는 방법이 제공되며, 상기 방법은 대상체로부터 단어 읽기 검사로부터의 음성 레코딩을 획득하는 단계, 복수의 단일 단어/음절 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 바이오마커의 값을 결정하는 단계, 및 하나 이상의 바이오마커의 값을 하나 이상의 각자의 기준 값에 비교하는 단계를 포함한다. 실시예에서, 하나 이상의 바이오마커가 호흡 %, 무음성/유음성 비 및 정답 단어율로부터 선택되고, 하나 이상의 기준 값은 호흡기 질환을 갖는 환자 및/또는 호흡기 질환을 갖지 않는 환자(예를 들어, 건강한 대상체)와 연관된 사전 결정된 값이다. 사전 결정된 값은 하나 이상의 훈련 코호트를 사용하여 이전에 획득되었을 수 있다. 실시예에서, 하나 이상의 바이오마커는 음성 피치를 포함하고, 하나 이상의 기준 값은 동일한 대상체로부터 이전에 획득된 값이다. 대신에 또는 이에 더하여, 하나 이상의 바이오마커는 음성 피치를 포함할 수 있고, 하나 이상의 기준 값은 호흡기 질환을 갖는 환자 및/또는 호흡기 질환을 갖지 않는 환자(가령, 건강한 대상체)와 연관된 값을 포함할 수 있다. 호흡기 질환은 호흡곤란과 연관된 질환인 것이 바람직하다. 실시예에서, 질환은 COVID-19이다.
대상체의 호흡 능력(가령, 불안 장애와 같은 정신 질환 포함), 피로(가령, 우울증 및 만성 피로 증후군과 같은 정신 질환 포함) 및/또는 인지 능력(가령, 주의력 결핍 장애와 같은 정신 질환 포함)에 영향을 미치는 임의의 병태가 바람직하게는 본 발명의 방법을 사용하여 진단되거나 모니터링될 수 있다. 따라서, 특히, 병태는 신경혈관 질환 또는 장애, 가령, 뇌졸중, 신경퇴행성 질환, 근병증, 당뇨병성 신경병증 등, 정신 질환 또는 장애, 가령, 우울증, 졸음, 주의력 결핍 장애, 만성 피로 증후군, 또는 전신 메커니즘을 통해 개체의 피로 상태 또는 인지 기능에 영향을 주는 병태, 가령, 통증, 비정상적인 포도당 수치(가령, 당뇨병으로 인한 것), 신장 기능 장애(가령, 만성 신부전 또는 신기능 대치 요법의 맥락에서) 등일 수 있다.
예 1: 질병 증상의 원격 모니터링을 위한 자동화된 스마트폰 기반 스트룹 단어-읽기 검사의 개발
이 예에서, 발명가는 자동화된 스마트폰 기반 스트룹 단어-읽기 검사(SWR)를 개발하고 헌팅턴병에서의 질병 증상의 원격 모니터링 가능성을 검사했다. 스마트폰 기반 SWR 검사에서는 랜덤으로 생성된 시퀀스에 따라 색 단어가 스크린 상에 검은색으로 디스플레이되었다(한 줄에 4개 단어, 총 60개 단어가 디스플레이된다). 내장 마이크로폰으로 발화 데이터가 레코딩되고 WiFi를 통해 클라우드에 업로드되었다. 본 발명가들은 발화 신호로부터 개별 단어를 세그먼테이션하고 분류하기 위한 언어 독립적 접근 방식을 개발했다. 마지막으로, 디스플레이된 단어 시퀀스를 예측된 단어 시퀀스에 비교함으로써, 게놈 시퀀스 정렬에 일반적으로 사용되는 스미스-워터맨 알고리즘을 사용하여 정답 단어의 수를 안정적으로 추정할 수 있었다.
방법
대상체 및 상대 임상 평가: HD OLE(오픈 라벨 확장) 연구(NCT03342053)의 일부로서, 캐나다, 독일 및 영국을 포함한 세 곳에서 46명의 환자가 모집되었다. 모든 환자는 기본 방문에서 광범위한 신경학적 및 신경심리학적 검사를 받았다. UHDRS(Unified Huntington's Disease Rating Scale)이 사용되어 질환 중증도를 정량화했다. 특히, 스트룹 단어-읽기 검사(SCWT1-단어 원시 점수)는 UHDRS 인지 평가의 일부이며 구음장애(UHDRS-구음장애 점수)는 UHDRS 운동 평가의 일부이다. 각 지역에서 현지에서 발화되는 언어가 사용되었다(즉, 캐나다와 영국에서 영어 n = 27, 독일에서 독일어 n = 19).
스마트폰 앱 및 자체 관리 발화 레코딩: 스마트폰 기반 스트룹 단어 읽기 검사는 맞춤형 Android 애플리케이션(대한민국, 서울, Samsung의 Galaxy S7)으로 개발되었다. 기본 방문에서 환자는 스마트폰을 받고 교육 세션에서 검사를 완료했다. 발화 검사는 매주 집에서 원격으로 수행되었다. 발화 신호는 16비트 분해능으로 44.1kHz에서 획득되었고 분석을 위해 16kHz로 다운 샘플링되었다. 데이터는 WiFi를 통해 원격 위치로 안전하게 전송되어, 처리 및 분석되었다. 이 예에 제시된 데이터는 첫 번째 자가 관리 가정용 검사(n = 46)만이었다. 랜덤하게 생성된 시퀀스에 따라 총 60개의 색 단어(행당 4 단어)가 검은색으로 디스플레이되었고 명시적으로 메타데이터로 저장되었다. 환자는 주어진 45초 동안 짧은 기준 톤(1.1 kHz, 50 ms) 후에 단어를 읽었다. 환자에게 45초의 시간 내에 60개의 단어를 읽는 것을 마치면 처음부터 다시 읽기를 시작하도록 지시하였다. 여기에서 분석된 모든 레코딩은 주변 소음 수준이 낮고(-56.7 ± 7.4 dB, n = 46) 신호 대 노이즈 비는 양호했다(44.5 ± 7.8 dB, n = 46).
스트룹 단어-읽기 검사를 분석하기 위한 언어 독립적 접근법: 다국어 및 다양한 질환이 있는 모집단 설정에서 잠재적인 사용을 고려해, 알고리즘은 임의의 사전-훈련된 모델 없이 설계되었다. 어떠한 문맥상 단서 없이 발화 신호로부터 직접 단어가 세그먼테이션되었다. 분류 단계에서, 단어 라벨은 디스플레이된 시퀀스와 예측된 시퀀스 간의 부분 겹침을 최대화하도록 선택되었다. 스트룹 단어-읽기 검사를 위한 완전 자동화된 접근 방식은 네 부분으로 나뉠 수 있다. 간략하게, 발명자들은 먼저 개별 단어의 매우 민감한 세그먼테이션을 달성하기 위해 2단계 접근법을 도입했다. 그런 다음 발명가는 주로 부정확한 조음, 호흡 및 비-발화 음에 의해 주로 발생하는 오류 검출을 필터링하기 위해 이상치 제거 단계를 전개했다. 그런 다음 144(12 x 12) MFCC(Mel-frequency cepstral coefficient) 함수로 표현되는 각 추정 단어를 변환하고 3-클래스 K-평균 클러스터링을 수행했다. 마지막으로, 발명자들은 정답 단어의 수를 추정하기 위해, 로컬 시퀀스 정렬 방법인 스미스-워터맨 알고리즘을 채택했다. 이들 단계 각각은 아래에서 자세히 설명될 것이다.
단어 경계 식별: 이 특정 예에서, 사용된 각 색 단어가 단일 음절로 구성된다, 즉, 영어에서는 /red/, /green/, /blue/, 독일어에서는 /rot/, //, /blau/이다. 따라서 단어 세그먼테이션은 일반적인 음절 검출 문제가 된다. 음운론에 따르면, 정점이라고도 하는 음절의 핵은 음절의 중심 부분(가장 일반적으로 모음)인 반면 자음은 그 사이의 경계를 형성한다(Kenneth, 2003). 연결된 발화에 대해 다수의 자동 음절 검출 방법이 기재되었다(가령, Xie and Niyogi, 2006; Wang and Narayanan, 2007; Rusz et al., 2016 참조). 예를 들어, 음절 핵은 주로 광대역 에너지 포락선(Xie and Niyogi, 2006) 또는 하위 대역 에너지 포락선(Wang and Narayanan, 2007)을 기반으로 식별되었다. 그러나 빠른 발화의 경우 서로 다른 음절 간의 전환을 에너지 포락선만으로 식별하기 어렵다. 단어 읽기 작업에서 빠른 템포와 음절 반복을 고려할 때 여전히 더 민감한 음절 핵 식별이 필요하다.
2-단계 접근법은 스펙트로그램의 강도 및 스펙트럼 플럭스의 육안 검사와 같이 음절 경계를 수동으로 수행하는 방법이 그 동기가 되었다. 간단히 말해, 파워 멜-스펙트로그램은 15ms의 슬라이딩 윈도 크기 및 10ms의 단차 크기, 25.5Hz 내지 8kHz 범위에 걸친 138개의 삼각 필터로 먼저 계산되었으며 45s 기간에서 가장 강한 프레임 에너지에 대해 정규화되었다. 그 후 발화 프레임의 최대 에너지는 주파수 축을 따라 멜-스펙트로그램의 최대 강도 투영과 동일한 강도를 나타내도록 도출되었다. 이런 식으로 가장 시끄러운 프레임은 상대 에너지 값이 0dB이고 다른 프레임은 그보다 낮은 값을 가진다. 예를 들어, 도 5의 A에 나타난 바와 같이 모든 음절 핵은 -50dB 초과의 상대 에너지를 가진다. 대략적인 단어 경계는 상대 에너지 측정에 대한 임계값으로 식별되었다.
이어서 멜-스펙트로그램의 스펙트럼 플럭스가 계산되어 각 단어의 정확한 경계를 식별했다. 이는 멜-스펙트로그램 상의 수직 에지 검출과 동일하다. 시작 강도는 and Widmer (2013)가 개발한 슈퍼플럭스 방법으로 계산되었고 0과 1 사이의 값으로 정규화됐다. 시작 강도가 임계값, 즉 0.2를 초과하면 세그먼트가 하위 세그먼트로 나뉜다. 대략적으로 세그먼테이션된 하나의 단어(회색으로 강조 표시됨)는 도 5의 B에 나타난 시작 강도에 기초하여 두 개의 추정 단어로 분할되었다.
모든 계산은 Librosa 라이브러리(https://librosa.github.io/librosa/, McFee et al., 2015]) 또는 python_speech_features 라이브러리https://github.com/jameslyons/python_speech_features, James Lyons et al., 2020)를 사용하여 파이썬(Python)으로 수행되었다. 시작 강도의 계산을 위해librosa.onset.onset_strength 함수가 파라미터 lag = 2(차이 계산을 위한 시간 지연(time lag)) 및 max_size = 3(로컬 최대 필터의 크기)과 함께 사용됐다. 도 5의 A 및 B에 나타난 예에서 첫 번째 단계에서 68개의 대략적인 세그먼트가 식별되었고 정제 단계에서 추가로 10개가 식별되었다.
주로 부정확한 조음, 호흡 및 비-발화 소리로 인한 잘못된 검출을 제거하기 위해 이상치 제거 단계가 구현되었다. 100ms 미만의 관측치와 -40dB 미만의 평균 상대 에너지 값이 먼저 제거되었다. MFCC(Mel-frequency cepstral coefficients)는 음성 인식 시스템의 기능으로 일반적으로 사용된다(Davis and Mermelstein, 198; Huang et al., 2001). 여기서, 13개의 MFCC의 행렬은 각 추정 단어에 대해 25ms의 슬라이딩 윈도 크기와 10ms의 단차 크기로 계산되었다. 가청 노이즈는 처음 3개의 MFCC에 의해 실제 단어와 다를 것으로 예상된다(Rusz et al., 2015). 따라서 단어는 처음 3개의 MFCC의 평균을 사용하여 파라미터화되었다. 이상치 검출은 마할라노비스 거리에 기초하여 이들에 대해 수행되었다. 이상치를 식별하기 위해 2개의 표준 편차의 컷-오프 값이 사용되었다. 도 6은 3D 산점도에서 정상치(추정 단어)가 회색으로 표시되고 이상치(비-발화 소리)가 검은색으로 표시되는 이 단계를 보여준다.
K-평균 클러스터링: K-평균은 관측치를 k 클러스터로 나누는 비지도형 클러스터링 알고리즘이다(Lloyd, 1982). 본 발명자들은 주어진 레코딩에서 대상체에 의해 발음된 단어가 단어 클러스터 내에서 유사한 스펙트럼 표현을 가질 것이고, 단어 클러스터들 간 상이한 패턴을 가질 것이라고 가정했다. 이러한 방식으로, 단어를 n개의 클러스터로 나눌 수 있으며, 여기서 n은 고유한 색 단어의 수와 같다(여기서 n=3). 그러나 단어의 지속 시간은 서로 다를 수 있다(평균 지속 시간은 0.23~0.35ms). 각 단어에 대해 동일한 크기의 특징 표현을 생성하는 단계는 다음과 같다: 이전에 계산된 13개의 MFCC 행렬에서 시작하여, (파워와 관련된) 첫 번째 MFCC가 행렬에서 제거되었다. 다양한 프레임 번호를 가진 나머지 12개의 MFCC 매트릭스는 이미지로 취급되고 시간 축을 따라 선형 보간에 의해 고정 크기 이미지(12 x 12 픽셀, 너비의 40%-60%로 축소됨)로 크기가 조정되었다. 결과적으로 각 단어는 지속 시간에 관계없이 총 144개의 MFCC 값(12 x 12 = 144)으로 변환되었다. K-평균 클러스터링을 적용함으로써, 하나의 레코딩으로부터의 추정 단어가 세 개의 상이한 클러스터로 분류됐다. 도 7은 상단 그래프(행당 한 단어)에 표시된 세 개의 구별되는 클러스터에서의 단어의 시각적 외형을 보여주고 하단 그래프에는 해당 클러스터 중심이 나타나며, 특히 도 7의 A는 영어로 된 한 검사에서 추출된 3개의 단어 클러스터를 나타내고(단어 = 75 ) 도 7의 B는 독일어로 된 한 검사에서 추출한 3개의 단어 클러스터를 나타낸다(단어 = 64).
단어 시퀀스 정렬: 음성 인식은 음성 내용을 이해하는 것을 말한다. 원칙적으로, 딥 러닝 모델(가령, Mozilla의 무료 음성 인식 프로젝트 DeepSpeech)과 은닉 마르코프(hidden Markov) 모델(가령, Carnegie Mellon University의 Sphinx 툴킷)을 사용하여 음성 인식을 수행할 수 있다. 그러나 이러한 사전 훈련된 모델은 건강한 모집단을 기반으로 하고 언어 종속적이며 언어 장애가 있는 환자에게 적용할 때 정확하지 않을 수 있다. 이 연구에서 발명가들은 음성 콘텐츠를 추론하기 위해 종단 간 모델 없는 솔루션을 도입했다. 그들은 그러한 단어 인식 작업을 게놈 서열 정렬 문제로 전환했다. 색 단어의 닫힌 세트는 DNA 코드의 문자와 같다. 세그먼테이션 및 클러스터링 단계에서 발생하는 판독 오류 및 시스템 오류는 유전자의 DNA 서열에서 발생하는 돌연변이, 결실 또는 삽입과 같다. 고립된 단어 인식을 수행하는 대신, 목표는 디스플레이된 시퀀스와 예측된 시퀀스 간의 중첩 시퀀스를 최대화하여 전체 발화 콘텐츠가 전체적으로 활용되도록 하는 것이었다.
스미스-워터맨 알고리즘은 로컬 시퀀스 정렬(즉, 일부 문자는 고려되지 않을 수 있음)을 수행하므로 부분적으로 겹치는 시퀀스에 적합하다(Smith and Waterman, 1981). 이 알고리즘은 가능한 모든 길이의 세그먼트를 비교할 수 있게 하고 스코어링 메트릭, 가령, 갭 비용 =2 매치 점수=3을 기반으로 유사성 측정을 최적화한다. 이 연구에서는 세그먼테이션된 단어의 수는 디스플레이되는 시퀀스에서의 검색 공간을 정의한다. 3-클래스 시나리오에서 단어 라벨의 가능한 순열은 6개(3!=6)이다. 각 순열에 대해, 예측된 시퀀스를 생성하고 디스플레이된 시퀀스와 정렬하고 유사성 점수가 가장 높은 세그먼트를 역추적할 수 있다. 발명자들은 대상체가 대부분의 시간에 디스플레이된 대로 단어를 읽는다고 가정했다. 따라서 세그먼트 길이는 문제에서 최대화를 위한 척도가 된다. 즉, 주어진 클러스터에 대한 최적의 라벨 선택은 중첩 시퀀스를 최대화하는 방식으로 발견된다. 결과적으로 각 단어는 각각의 클러스터 라벨에 따라 분류될 수 있다. 더욱이, 부분적으로 겹치는 시퀀스에서 발견된 정확한 매치는 대상체가 읽은 정답 단어에 대한 우수한 추정을 제공한다. 도 8은 디스플레이된 시퀀스 RRBGGRGBRRG와 예측 시퀀스 BRBGBGBRRB의 정렬을 예로 들며 10개의 읽힌 단어 중 5개의 정답 단어를 내놓는다.
수동 수준 그라운드 트루쓰: 모든 세그먼테이션된 단어(영어로 된 27개 레코딩에서 1938개 단어, 독일어로 된 19개 레코딩에서 1452개 단어)의 수동 주석화가 오디오 재생을 통해 블라인드로 수행되었다. 알고리즘이 설계된 후에 수동 라벨링을 수행했으며 파라미터 튜닝에는 사용하지 않았다. 각 단어의 시작/끝 시간은 제안된 2-단계 접근 방식으로 획득되었다. 단어는 각자의 텍스트로 라벨링되었는데, 즉, /red/ 및 /rot/에 대해 /r/, /green/ 및 //에 대해 /g/, /blue/ 및 /blau/에 대해 /b/이다. 어떤 이유로 주석을 달기 어려운 단어(가령, 부정확한 음절 분리, 호흡, 다른 단어 등)는 "가비지" 클래스로 /n/으로 라벨이 지정되었다.
결과 측정: 단어 세그먼테이션 및 분류 결과에 기초하여 다음의 두 가지 보완적인 검사 수준 결과 측정이 설계되었다: 즉, 인지 측정의 일부로 처리 속도를 정량화하기 위한 정답 단어 수와 발화 운동 성능을 정량화하기 위한 발화 속도. 특히, 발화 속도는 초당 단어 수로 정의되고 시간에 따라 세그먼테이션된 단어의 누적합에 대한 회귀선의 기울기로서 계산되었다.
통계 분석: 샤피로-윌크(Shapiro-Wilk) 검사가 정규 분포를 검사하는 데 사용되었다. 유의미한 관계를 조사하기 위해 피어슨(Pearson) 상관이 적용되었다. 피어슨 상관 계수를 평가하는 데 사용된 기준은 보통 (0.25-0.5의 값), 보통에서 양호 (0.5-0.75의 값) 및 우수(0.75 이상의 값)였다. 그룹 간 비교를 위해 독립 샘플에 대한 ANOVA 및 독립(unpaired) t-test가 수행됐다. 효과 크기는 코헨 d로 측정되었으며 d = 0.2는 작은 효과, d = 0.5는 중간 효과, d = 0.8은 큰 효과를 나타낸다.
결과
단어 분류 성능 평가: 제안된 무-모델 단어 인식 알고리즘의 분류 정확도를 추정하기 위해 수동 주석과 자동화된 알고리즘으로 획득된 라벨이 비교됐다. 전반적인 분류 정확도는 영어에서 평균 0.83점, 독일어에서 0.85점으로 높았다. 도 9의 정규화된 혼란 행렬은 단어 수준에서 무-모델 단어 분류기의 성능을 보여준다. 높은 분류 정확도는 제안된 단어 인식기가 45초 음성 레코딩에서 직접 발음, 음향 및 언어 내용을 포함한 발화 인식기의 모든 성분을 학습할 수 있음을 시사한다. 비지도 분류기 및 동적 로컬 시퀀스 정렬 전략을 활용하여 각 단어에 태그를 지정할 수 있다. 즉, 배치하는 동안, 언어 모델을 휴대할 필요가 없으므로 다언어 및 다양한 질병 모집단 환경의 적용예에 매우 실용적이다.
두 가지 보완적인 결과 측정의 임상 검증: 완전 자동화된 접근법에 의해 결정된 정답 단어의 수가 표준 임상 UHDRS-스트룹 단어 점수와 비교되었다. 일반적으로 정답 단어의 수와 관련하여, 도 10과 같이 스마트폰과 임상 측정이 높은 상관관계(피어슨 상관 계수 r = 0.81, p < 0.001)를 나타낸다.
추가 언어에서의 성능 평가: 이 연구에서 얻은 결과는 10개의 다른 언어를 사용하는 HD 환자를 포함한 연구로 더욱 확장되었다. 특히, 이 예에서 설명된 방법은 다음 단어를 사용하는 이 다국어 코호트에 적용되었다: '영어': ['RED', 'GREEN', 'BLUE'], '독일어': ['ROT', '', 'BLAU'], '스페인어': ['ROJO', 'VERDE', 'AZUL'], '프랑스어': ['ROUGE', 'VERT', 'BLEU'], '덴마크어': ['', '', ''], '폴란드어': ['CZERWONY','ZIELONY', 'NIEBIESKI'], '러시아어': ['', '', ''], '일본어': ['', '', ''], '이탈리아어': ['ROSSO', 'VERDE', 'BLU'], '네델란드어': ['ROOD', 'GROEN', 'BLAUW']. 주목할 점은 이러한 언어 중 일부에서 사용된 모든 단어는 단음절(가령, 영어, 독일어)인 반면 다른 언어에서는 일부 단어가 이음절(가령, 이탈리아어, 스페인어)이었다. 도 11a는 영어, 프랑스어, 이탈리아어 및 스페인어로 된 레코딩의 세트에서 결정된 올바르게 읽은 단어 수의 분포를 보여주고 도 11b는 이들 언어 각각에서 식별된 세그먼트 수의 분포를 보여준다(클러스터링 직전, 즉 정제 및 이상치 제거 후). 데이터는 단일 단어의 여러 음절이 별도의 개체로 식별되더라도(도 11b) 앞서 설명한 방법에 따라 식별된 올바르게 읽힌 단어의 수가 단어 길이의 변화에 강건함을 보여준다(도 11a).
결론
이 예는 환자의 집에서 원격으로 자가 관리할 수 있는 자동화된(스마트폰 기반) 스트룹 단어-읽기 검사의 임상적 적용 가능성을 설명하고 보여준다. 완전히 자동화된 접근법을 통해 발화 데이터의 오프라인 분석을 실행할 수 있다. 이 접근법은 비지도 분류기와 동적 로컬 시퀀스 정렬 전략을 사용하여 언어 독립적이며 언어 콘텐츠와 관련하여 각 단어에 태그를 지정한다. 단어는 사전 훈련된 모델 없이 영어 발화 환자에서 0.83, 독일어 발화 환자에서 0.85의 높은 전체 정확도로 분류되었다. 이 접근법은 HD 환자의 인지 기능 및 언어 운동 기능 평가를 가능하게 하는 것으로 나타났다. HD OLE 연구의 46명의 환자에서 하나는 인지 능력을 평가하기 위한 것이고 다른 하나는 언어 운동 장애를 평가하기 위한 것인, 두 개의 보완적인 결과 측정이 임상적으로 검증되었다. 요컨대, 본 명세서에 기재된 접근법은 대규모 모집단에서 스마트폰 기반 음성 검사를 사용하여 질병 증상의 자가 평가를 위한 기반을 설정하는 데 성공했다. 이는 궁극적으로 환자가 대부분의 삶의 질을 향상시키고 효과적인 치료법을 찾기 위한 임상 시험에 큰 이점을 가져올 수 있다.
예 2: 자동화된 스트룹 단어 읽기 검사 - 간섭 조건
이 예에서 발명가는 예 1에 요약된 접근법이 스트룹 단어 읽기 검사의 간섭 부분을 자동으로 수행하는 데 사용될 수 있는지 여부를 검사했다. 건강한 지원자 코호트가 예 1과 관련하여 기재된 스트룹 단어 읽기 검사와 스트룹 색 단어 읽기 검사를 모두 받았다. 또한, 발명자들은 스트룹 단어 읽기 검사와 스트룹 색 단어 읽기 검사에 대해 동일한 단어 시퀀스를 사용하여 레코딩을 분석함으로써 방법의 성능을 검사했으며, 이때 전자의 경우 검은색으로 단어가 디스플레이되고 후자의 경우 비일관적 색으로 디스플레이된다(도 12a 및 12b 참조). 이들 매칭된 검사를 수행하는 개체로부터 획득된 두 개의 음성 레코딩에 예 1에 설명된 방법을 적용한 결과가 도 12a 및 12b에 나와 있다. 이들 도면에서 세그먼트는 신호의 색상 섹션으로 각 도면의 가운데 패널에서 강조 표시되고 단어 예측은 세그먼트의 색상으로 각 도면의 가운데 패널에 표시된다. 데이터는 세그먼트 식별 및 정답 단어 카운팅 프로세스가 일관된 조건과 간섭 조건 모두에 대해 동일하게 잘 수행됨을 보여준다. 실제로 간섭 검사에서 개체가 읽은 잘못된 단어가 있음에도 불구하고 단어 읽기와 간섭 검사 사이의 클러스터 할당에는 불일치가 없다. 또한, 도 12b에서 볼 수 있는 바와 같이, 기재된 자동 평가 방법을 사용하여 획득된 올바르게 읽힌 단어의 예측 수는 음성 레코딩의 수동 주석에 의해 획득된 그라운드 트루쓰(ground truth) 데이터와 높은 상관 관계를 가진다.
예 3: 심부전 환자의 호흡 증상의 원격 모니터링 및 질병 증상 모니터링을 위한 자동화된 웹 기반 스트룹 단어-읽기 검사
이 예에서, 발명자들은 심부전 환자의 호흡곤란 및 질병 증상의 원격 모니터링과 관련하여 전술한 자동 스트룹 단어 읽기 검사(SWR: Stroop word-reading test)를 구현했다.
솔루션이 웹 기반 애플리케이션을 통해 배포되었다는 점을 제외하면 예 1과 유사한 설정이 사용되었다. 웹 기반 검사의 설정은 도 13에 나와 있다. (i) 읽기 작업(환자 동의서 읽기, 도 13의 상단 패널 참조), (ii) 숫자 카운팅 작업(1 내지 10의 숫자를 읽기), (iii) 역순 숫자 카운팅 검사 (10 내지 1의 숫자를 읽기), 및 (iv) 두 가지 단어-읽기 검사: 스트룹 단어 읽기 검사(일관 조건, 예 1에서 설명된 바와 같이 색 단어는 3의 세트로부터 랜덤하게 인출되고 검은색으로 디스플레이됨) 및 스트룹 색 단어 읽기 검사(간섭 조건, 색 단어는 3의 세트로부터 랜덤하게 인출되며 랜덤하게 인출된 색으로 디스플레이됨).
예 1과 달리 단어 읽기 검사를 위한 레코딩이 고정된 시간 길이가 아니었다. 대신, 각 레코딩이 개체가 디스플레이된 모든 단어(이 경우 40단어)를 읽는 데 걸리는 시간만큼의 길이를 가진다. 이는 심장 병태나 호흡 곤란이 있는 많은 환자들이 긴 검사를 수행할 수 있는 체력이 없을 때 바람직하다. 또한 스트룹 단어 읽기 검사와 스트룹 색 단어 읽기 검사에서 디스플레이되는 단어는 스트룹 색 낱말 읽기 검사에서 색의 변화만 있을 뿐 동일하였다. 이는 두 검사의 음성 내용이 유사해야 하기 때문에 두 검사의 레코딩을 비교할 수 있을 뿐만 아니라 클러스터링 단계에서 우수한 정확도를 위한 추가 데이터를 얻을 수 있기에 바람직하다. 실제로 두 개의 레코딩(즉, 스트룹 단어 읽기 검사와 스트룹 색 단어 읽기 검사에서 각각 40개의 총 80개의 단어)이 결합되어 클러스터링 단계에서 각 환자에 대해 사용되어서, 클러스터링 단계가 우수한 정확도를 갖기 위해 충분한 단어를 사용하여 수행됨을 보장할 수 있다. 세그먼트 식별 단계는 정렬 단계와 마찬가지로 두 레코딩에 대해 별도로 수행되었다. 또한, 예 1에서 기재된 세그먼트 식별 단계는 읽기 작업 및 숫자 카운팅/역 숫자 카운팅 레코딩에도 적용된다. 그런 다음 정렬 단계의 결과가 세그먼트 정보와 함께 사용되어 스트룹 단어 읽기 검사 및 스트룹 색 단어 읽기 검사에 대해 개별적으로 정답 단어율(초당 정답 단어 수로 계산됨)을 계산했다. 정답 단어율은 읽힌 정답 단어의 수를 검사 기간으로 나눈 값으로 추정되었다. 읽힌 누적 단어 수는 올바르게 읽은 단어에 해당하는 것으로 식별된 모든 세그먼트의 시작에 대응하는 시점에서 1씩 증가됐다. 발화 속도(즉, 정답 단어뿐만 아니라 모든 단어)도 읽힌 단어의 누적 수에 적합된 선형 모델의 기울기를 사용하여 예 1에 설명된 대로 계산되었다.
그런 다음 세그먼트 정보가 사용되어 각 검사에 대해 개별적으로 다음을 평가했다: 호흡 퍼센티지(호흡 %, 100*(세그먼트들 간 시간)/(세그먼트 내 시간 + 세그먼트 내 시간)으로 계산), 무음성/유음성 비(세그먼트들 사이의 시간/세그먼트 내 시간)으로 계산됨), 및 평균 음성 피치(각각의 세그먼트에 대해 추정된 개별 음성 피치의 평균으로서 계산됨). 각 세그먼트에서, 음성 피치는 r9y9 Python 래퍼(https://github.com/r9y9/pysptk)를 통해 Speech Signal Processing Toolkit(http://sp-tk.sourceforge.net/)에 구현된 SWIPE'를 사용하여 추정되었다. https://github.com/marl/crepe에서 사용할 수 있는 파이썬(Python) 패키지에서 구현된 대체 방법(CREPE)도 검사되었다. 여기에 표시된 결과는 SWIPE'를 사용하고 있다. 피치 추정 오차를 줄이기 위해 유음성 세그먼트로부터의 피치 추정에 크기 5(50ms 시간 윈도에 대응)를 갖는 중앙 필터가 적용됐다. 마지막으로 주어진 레코딩에 대해 단일 평균값이 획득되었다.
이 방법은 적당한 운동(계단 4개 층 오르기) 전후에 며칠 동안 검사를 수행한 건강한 대상체에게 먼저 검사되었다. 이 상황은 호흡곤란의 영향을 시뮬레이션하므로 앞서 설명한 메트릭이 호흡곤란의 바이오마커로 작용하는 능력을 검사한다. 이 분석의 결과는 여러 날(행)에서의 스트룹 색 단어 검사(간섭 조건 - 패널 A-D 및 간섭 및 일관 조건에 대한 결과의 평균 - 패널 A'-D') 레코딩에 대해 아래 표 1 및 도 14a 및 14b에 나타나며, 이때, 패널 A와 A'는 피치 추정치를 보여주고, 패널 B와 D'는 정답 단어율을 보여주고, 패널 C와 C'는 무음성/유음성 비를 보여주며, 패널 D와 D'는 호흡 %를 보여준다. 코헨 d가 운동 전후 결과 사이의 각 메트릭에 대해 계산되어 각 메트릭에서 숨가쁨과 관련된 효과 크기를 정량화했다. 피치 메트릭의 경우 효과 크기(코헨 d)는 조합된 검사 데이터의 경우 3.47이었고 간섭 조건 단독의 경우 코헨 d=2.75였다. 정답 단어율의 경우 조합된 검사 데이터의 경우 코헨 d가 -2.26이고 간섭 조건의 경우 코헨 d=-1.57였다. 무음성/유음성의 경우 조합된 검사 데이터에 대한 코헨 d는 1.25이고 간섭 조건에 대한 코헨 d=1.44였다. 호흡 %의 경우, 조합된 검사 데이터에 대한 코헨 d는 1.26이고 간섭 조건에 대한 코헨 d=1.43였다. 따라서 이들 각 메트릭은 휴식 상태와 숨가쁜 상태 사이의 현저한 차이를 보여주며(간섭 조건 홀로에서 색 단어 검사의 레코딩으로부터의 데이터를 사용하거나, 간섭 조건과 일관 조건에서 색 단어 검사 레코딩의 데이터를 조합하는지에 무관하게) 따라서 호흡곤란을 모니터링하는 데 사용될 수 있다.
표 1. 휴식 중 및 적당한 운동 후 건강한 개체로부터의 발화 검사 레코딩의 분석(p 값=순열 검정 p 값, mod.ex.=적당한 운동).
표 1의 데이터는 검사된 메트릭 각각이 휴식 상태와 숨가쁨 상태 사이에 현저한 차이를 나타내며 단어 검사(색 단어, 일관 조건) 및 색 단어 검사(색 단어, 간섭 조건)에서 일관됨을 보여준다(일관 조건에서 물론 더 높을 가능성이 높은 정답 단어율과는 별개이며, 일관 조건과 간섭 조건의 비교가 인지 능력과 관련하여 추가 표시를 더 제공할 수 있음). 따라서 이들 메트릭은 호흡 곤란을 모니터링하는 데 사용될 수 있다(단어 검사 또는 색 단어 검사에 대해 단독으로 또는 둘을 조합).
따라서, 본 발명자들은 이들 바이오마커가 심부전 환자를 모니터링하는 데에도 사용될 수 있는지 여부를 결정하기 시작했다. 다음의 심부전 환자의 2개 코호트에서 설명된 바와 같이 메트릭이 획득되었다: 비대상성으로 병원에 입원한 심부전 환자의 코호트(n=25) 및 안정된 심부전 외래 환자 코호트(n=19). 전자는 병원에 입원(HF:입원)하고 퇴원(HF:퇴원)할 때 모두 평가되었다. 이 분석의 결과는 표 2 및 3과 도 15a 내지 15d, 16 및 17에 나와 있다. 도 15a 및 15b 상의 데이터, 패널 A-D 및 A'-D'는 스트룹 단어 읽기 검사(A-D: 간섭 조건 단독, A'D': 간섭 조건과 일관 조건의 평균)로부터 도출된 선택된 메트릭이 비대상성 심부전 환자와 안정된 외래 환자 간에 유의미하게 상이했다. 또한, 호흡 %, 무음성/유음성 및 정답 단어율 메트릭은 이들 환자 그룹을 구별하는 데 특히 민감한 메트릭이었다. 도 15a 및 15b의 A'-D' 및 A-D의 데이터 특성은 다음과 같다.
스트룹 점수: 초당 정답 단어의 수(색 단어 읽기 검사와 조합됨, 도 15b의 C'):
HF:입원(평균 ± 표준 편차): 1.5 ± 0.4, n = 25
HF:퇴원(평균 ± 표준 편차): 1.6 ± 0.4, n = 25
OP:안정(평균 ± 표준 편차): 1.9 ± 0.2, n = 19
HF:입원 vs OP:안정: 코헨 d: -1.09, 순열 검정 p 값 = 0.0002
HF:퇴원 vs OP:안정: 코헨 d: -0.81, 순열 검정 p 값 = 0.0053
HF:입원 vs HF:퇴원: 코헨 d: -0.21, 순열 검정 p 값 = 0.2276
스트룹 점수: 초당 정답 단어의 수(색 단어 읽기 검사, 간섭 조건, 도 15a의 C):
HF:입원(평균 ± 표준 편차): 1.5 ± 0.4, n = 25
HF:퇴원(평균 ± 표준 편차): 1.6 ± 0.4, n = 25
OP:안정(평균 ± 표준 편차): 1.9 ± 0.2, n = 19
HF:입원 vs OP:안정: 코헨 d=-1.14, 순열 검정 p-값=0.0001
HF:퇴원 vs OP:안정: 코헨 d=-0.87, 순열 검정 p-값=0.0035
HF:입원 vs HF:퇴원: 코헨 d: -0.28, 순열 검정 p 값 = 0.1600
이 데이터는 단어 읽기 검사 레코딩으로부터의 정답 단어율이 사용되어 비대상성 심부전 환자와 안정 심부전 환자를 구별할 수 있음을 보여준다. 또한 이 메트릭은 비대상성 상태에서 환자의 회복을 모니터링하는 데에도 사용할 수 있다.
RST(발화 속도): 초당 단어 수(조합된 색 단어 읽기 검사, 도 15b의 D'):
HF:입원(평균 ± 표준 편차): 1.8 ± 0.3, n = 25
HF:퇴원(평균 ± 표준 편차): 1.8 ± 0.3, n = 25
OP:안정(평균 ± 표준 편차): 2.0 ± 0.2, n = 19
HF:입원 vs OP:안정: 코헨 d: -0.92, 순열 검정 p 값 = 0.0019
HF:퇴원 vs OP:안정: 코헨 d: -0.95, 순열 검정 p 값 = 0.0013
HF:입원 vs HF:퇴원: 코헨 d: -0.07, 순열 검정 p 값 = 0.4033
RST(발화 속도): 초당 단어의 수(색 단어 읽기 검사, 간섭 조건, 도 15a의 D):
HF:입원(평균 ± 표준 편차): 1.8 ± 0.3, n = 25
HF:퇴원(평균 ± 표준 편차): 1.7 ± 0.4, n = 25
OP:안정(평균 ± 표준 편차): 2.0 ± 0.2, n = 19
HF:입원 vs OP:안정: 코헨 d=-0.89, 순열 검정 p-값=0.0019
HF:퇴원 vs OP:안정: 코헨 d=-0.98, 순열 검정 p-값=0.0011
HF:입원 vs HF:퇴원: 코헨 d: 0.11, 순열 검정 p 값 = 0.3374
이 데이터는 단어 읽기 검사 레코딩으로부터의 발화 속도(발화 타이밍 속도, RST)를 사용하여 비대상성 심부전 환자와 안정된 심부전 환자를 구별할 수 있음을 보여준다. 그러나 이 메트릭은 비대상성 상태에서 환자가 병원에서 퇴원할 수 있는 회복 상태까지 환자의 회복을 모니터링하는 데 사용될 수 없으며 정답 단어율만큼 민감하지 않다. 발화 속도는 시간 경과에 따른 음성 레코딩에서 식별된 세그먼트 수의 누적 합계를 계산하고 누적 합계 데이터에 적합된 선형 회귀 모델의 기울기를 계산함으로써 결정되었다.
따라서, 이 데이터는 숨가쁨 및 피로와 관련된 효과를 결합함으로써(인지 능력에 더 민감한 동시에 숨가쁨 관련 효과를 포착하는 메트릭을 통해) 심부전 상태에 대한 더 민감한 바이오마커를 얻을 수 있음을 보여준다.
단어 읽기 검사에서 호흡 %(조합된 색 단어 읽기 검사, 도 15b의 A'):
HF:입원(평균 ± 표준 편차): 41.9 ± 8.2, n = 25
HF:퇴원(평균 ± 표준 편차): 42.0 ± 7.5, n = 25
OP:안정(평균 ± 표준 편차): 29.6 ± 5.1, n = 19
HF:입원 vs OP:안정: 코헨 d: 1.71, 순열 검정 p 값 = 0.0000
HF:퇴원 vs OP:안정: 코헨 d: 1.85, 순열 검정 p 값 = 0.0000
HF:입원 vs HF:퇴원: 코헨 d: -0.02, 순열 검정 p 값 = 0.4767
단어 읽기 검사에서 호흡 %(색 단어 읽기 검사, 간섭 조건, 도 15a의 A):
HF:입원 vs OP:안정: 코헨 d=1.75, 순열 검정 p-값=0.0000
HF:퇴원 vs OP:안정: 코헨 d=1.77, 순열 검정 p-값=0.0000
HF: 입원 vs HF:퇴원: 코헨 d: -0.00, 순열 검정 p 값 = 0.4973
단어 읽기 검사에서의 무음성/유음성 비(조합된 색 단어 읽기 검사, 도 15b의 B'):
HF:입원(평균 ± 표준 편차): 0.8 ± 0.3, n = 25
HF:퇴원(평균 ± 표준 편차): 0.8 ± 0.2, n = 25
OP:안정(평균 ± 표준 편차): 0.4 ± 0.1, n = 19
HF:입원 vs OP:안정: 코헨 d: 1.41, 순열 검정 p 값 = 0.0000
HF:퇴원 vs OP:안정: 코헨 d: 1.70, 순열 검정 p 값 = 0.0000
HF:입원 vs HF:퇴원: 코헨 d: 0.02, 순열 검정 p 값 = 0.4760
단어 읽기 검사에서의 무음성/유음성 비(섹 단어 읽기 검사, 간섭 조건, 도 15a의 B):
HF:입원 vs OP:안정: 코헨 d=1.31, 순열 검정 p-값=0.0000
HF:퇴원 vs OP:안정: 코헨 d=1.52, 순열 검정 p-값=0.0000
HF:입원 vs HF:퇴원: 코헨 d: 0.03, 순열 검정 p 값 = 0.4659
위의 데이터는 단어 읽기 검사 기록의 호흡 % 및 무음성/유음성 비를 사용하여 비대상성 심부전 환자와 안정 심부전 환자를 구별할 수 있음을 보여준다. 이들 메트릭은 비대상성 심부전 환자와 안정된 심부전 환자의 차이에 매우 민감하지만 입원과 퇴원 사이에는 유의미하게 다르지 않다. 이 두 메트릭은 2차 관계를 통해 관련되어 있다.
따라서, 위의 메트릭이 함께 사용되어 (정답 단어율, 호흡 % 및 유음성/무음성 비 중 임의의 것을 사용하여) 비대상성 심부전 환자 또는 안정된 심부전 환자를 식별하고, (정답 단어율을 이용해) 입원이 필요한 비대상성 심부전 환자를 식별하고, 병원에서 퇴원되기에 충분히 회복했으나 아직 안정되지 않은(따라서 선택적으로 호흡 % 및/또는 무음성/유음성 비와 조합되는 정답 단어율을 이용해 추가적인/더 광범위한 모니터링을 필요로 할 수 있는) 심부전 환자를 식별하며, (입원 동안의 정답 단어율, 및 입원 후의 정답 단어율, 호흡 % 및 유음성/무음성 비 중 임의의 것을 이용해) 입원 동안 또는 후에 회복을 모니터링할 수 있다.
단어 읽기 검사로부터의 바이오마커는 숫자 카운팅 및 읽기 검사로부터 획득된 대응하는 메트릭에도 비교되었다. 이들의 결과는 도 15c의 E-J 및 도 18의 A 및 B에 나타나 있다. 도 15c의 E-J의 데이터의 특성은 다음과 같다.
읽기 작업에서 호흡 %(도 15c의 E):
HF:입원 vs OP:안정: 코헨 d=1.54, 순열 검정 p-값=0.0000
HF:퇴원 vs OP:안정: 코헨 d=1.28, 순열 검정 p-값=0.0000
HF:입원 vs HF:퇴원: 코헨 d: 0.09, 순열 검정 p 값 = 0.3810
읽기 작업에서의 무음성/유음성 비(도 15c의 F):
HF:입원 vs OP:안정: 코헨 d=1.35, 순열 검정 p-값=0.0000
HF:퇴원 vs OP:안정: 코헨 d=0.89, 순열 검정 p-값=0.0002
HF:입원 vs HF:퇴원: 코헨 d: -0.03, 순열 검정 p 값 = 0.4734
읽기 작업에서의 발화 속도(초당 단어의 수)(도 15c의 G):
HF:입원 vs OP:안정: 코헨 d=-1.60, 순열 검정 p-값=0.0000
HF:퇴원 vs OP:안정: 코헨 d=-0.64, 순열 검정 p-값=0.0190
HF:입원 vs HF:퇴원: 코헨 d: -0.40, 순열 검정 p 값 = 0.0848
역 카운팅 작업에서 호흡 %(도 15c의 H):
HF:입원 vs OP:안정: 코헨 d=-0.24, 순열 검정 p-값=0.2151
HF:퇴원 vs OP:안정: 코헨 d=-0.21, 순열 검정 p-값=0.2537)
HF:입원 vs HF:퇴원: 코헨 d: -0.05, 순열 검정 p 값 = 0.4321
역 카운팅 작업의 무음성/유음성 비(도 15c의 I):
HF:입원 vs OP:안정: 코헨 d=-0.19, 순열 검정 p-값=0.2718
HF:퇴원 vs OP:안정: 코헨 d=-0.26, 순열 검정 p-값=0.2126
HF:입원 vs HF:퇴원: 코헨 d: 0.04, 순열 검정 p 값 = 0.4472
역 카운팅 작업에서의 발화 속도(도 15c의 J):
HF:입원 vs OP:안정: 코헨 d=0.19, 순열 검정 p-값=0.2754
HF:퇴원 vs OP:안정: 코헨 d=0.22, 순열 검정 p-값=0.2349
HF:입원 vs HF:퇴원: 코헨 d: 0.01, 순열 검정 p 값 = 0.4797
위의 데이터는 읽기 검사에서 호흡 %, 무음성/유음성 비 및 발화 속도가 각각 사용되어 비대상성 심부전 환자와 안정된 심부전 환자를 구별할 수 있음을 보여준다. 그러나 이들 메트릭 중 어느 것도 입원 시 비대상성 심부전 환자와 퇴원 시 비대상성 심부전 환자를 구별하는 데 사용될 수 없다. 또한 작업의 특성상 이 검사를 사용하여 정답 단어율에 상응하는 어떠한 메트릭도 획득될 수 없다. 이와 같이 읽기 검사로부터 도출된 바이오마커의 세트는 단어 읽기 검사로부터 도출된 것만큼 민감하지 않다.
데이터는 숫자 카운팅 검사에서 호흡 %, 무음성/유음성 비 및 발화 속도가 안정 심부전 환자와 비대상성 심부전 환자를 구별하는 데 사용될 수 없음을 추가로 보여준다. 이와 같이 숫자 카운팅 검사로부터 도출된 바이오마커의 세트는 단어 읽기 검사로부터 도출된 것만큼 민감하지 않다.
표 2. 심부전 환자의 음성 검사 레코딩의 분석.
표 3. 심부전 환자로부터의 음성 검사 레코딩의 분석 - 그룹 간 비교(p 값=순열 검정 p 값, HF:A=HF:입원, HF:D=HF:퇴원).
도 16 상의 데이터는 비대상성 심부전 환자(좌측에서 두 점으로서 나타남: 입원시(검은색) 및 퇴원시(짙은 회색)) 및 안정된 심부전 외래환자(우측에서, 연한 회색 점)에 대한 단어 읽기 검사(간섭 조건과 일관 조건에서 색 단어 읽기 검사로부터의 추정치의 평균, 오차 막대는 정상 조건과 간섭 조건 사이의 표준 편차를 나타냄)의 보컬 피치 추정치를 보여준다. 도 17의 A 및 B 상의 데이터는 입원(등록)부터 여러 날에서 비대상성 심부전 환자에 대한 음성 피치 추정치(간섭 및 일관 조건에서 색 단어 읽기 검사의 추정치의 평균)를 보여준다. 데이터는 대부분의 비대상성 심부전 환자의 경우 병원에서의 회복이 단어 읽기 검사의 피치 추정치 변화와 관련이 있음을 보여준다. 그러나 특정한 경향은 심부전 환자마다 다를 수 있으며 일부 환자는 입원 기간 동안 피치가 증가하고 다른 환자는 피치가 감소한다. 대부분의 환자는 회복하는 동안 피치가 감소하는 것을 보였다. 따라서 단어 읽기 검사로부터 도출된 음성 피치는 심부전 입원 중 회복을 모니터링하는 데 사용될 수 있다.
도 18의 A 및 B 상의 데이터는 48명의 심부전 환자(B, 분석된 총 161쌍의 레코딩)에 대한 숫자 카운팅 검사와 역 숫자 카운팅 검사에서 피치 측정들 간, 그리고 48명의 심부전 환자(A, 분석된 총 162 쌍의 레코딩)에 대한 스트룹 단어 읽기 검사(색 단어, 일관 조건) 및 스트룹 색 읽기 검사(색 단어, 간섭 조건)에서의 피치 측정들 간의 일치 수준을 평가하는 블랜드-알트만(Bland-Altman) 플롯을 보여준다. 각 데이터 포인트는 각 검사를 사용하여 추정된 평균 피치(Hz) 간의 차이를 보여준다. 점선은 평균 차이(중간선)와 ±1.96 표준 편차(SD) 간격을 나타낸다. 반복율은 일치 보고서(CR=2*SD)를 사용하여 정량화되었으며 숫자 카운팅 검사의 경우 27.76, 단어 읽기 검사의 경우 17.64이다. CR 값이 작을수록 더 높은 수준의 반복율을 나타낸다. 따라서 이 데이터는 단어 읽기 검사의 음성 레코딩으로부터 획득된 피치 추정치가 예를 들어 숫자 카운팅 검사와 같은 다른 읽기 검사의 음성 레코딩으로부터 획득된 피치 추정치보다 더 신뢰할 수 있음(변산도가 적음)을 보여준다. 발명자들은 단어 읽기 검사가 대상체가 단어의 시퀀스에 익숙해지는 것과 연관된 효과 및/또는 읽고 있는 텍스트의 인지 내용에 의해 영향을 받는 피치에 의해 덜 영향을 받기 때문에 이것이 적어도 부분적으로 가능하다고 생각한다. 또한, 이 예에서 사용된 단어(색 단어)는 바람직하게도 단어의 맥락 내에서 단일 모음을 포함하며, 동일한 대상체가 단어 내에서 모음을 발화하는 방식과 연관된 피치는, 피치를 평가하는 데 흔히 사용되는 모음 반복 검사보다 외부 요인에 의해 영향을 받을 가능성이 적다. 즉, 피치 추정에 적합한 소리를 포함하는 제한된 단어 세트를 사용하지만 이들 소리는 단어의 정규화 컨텍스트 내에 있지만 (모두 음성 피치에 영향을 미칠 수 있으므로 피치가 바이오마커로서 사용될 때 혼동 요인으로 작용하는) 인지적 내용이나 논리적 연결을 갖는 문자의 세트의 편향된 맥락이 없으므로 바람직하게도 더 신뢰할 수 있는 음성 바이오마커를 도출한다.
유사한 결론이 (다양한 정도로) 호흡 %, 발화 속도 및 무음성/유음성 비 메트릭에 적용되며, 이는 단어 읽기 검사 vs 색 단어 읽기 검사(즉, 일관 조건 vs 간섭 조건에서 읽힌 색 단어; 호흡 % CR=13.06, N=162; 발화 속도 CR=0.50, N=162; 무음성/유음성 CR=0.56, N=162)로부터 도출될 때, 숫자 카운팅 vs 역 숫자 카운팅 작업(호흡 % CR=19.39, N=161; 발화 속도: CR=1.00, N=161; 무음성/유음성 CR=0.60, N=161)으로부터 도출될 때보다 더 일관성이 있다.
마지막으로, COVID-19 상태를 진단하거나 모니터링하기 위한 본 방법의 가능성도 평가되었다. 본 바이오마커가 10명의 건강한 지원자 코호트와 COVID-19 진단을 받은 환자에서 설명된 대로 획득되었다. COVID-19로 진단된 환자에서 환자가 아직 어떠한 증상도 나타내지 않은 날(및 환자가 경미한 피로 또는 호흡곤란만 보고한 기간을 포함하는 수일)을 포함하는 여러 날에 바이오마커가 측정됐다. 이 분석 결과는 도 19의 A 내지 D에 나와 있다. 이 데이터는 매우 경미하거나 심지어 증상이 없는 환자에 대한 음성 피치 추정치가 건강한 지원자 코호트에 대한 음성 피치 추정치와 상이하고(상당히 더 높음) 경미한 증상이 있는 환자에 대한 음성 피치 추정치도 증상이 없는 회복된 환자의 음성 피치 추정치와 상이함을 보여준다.
따라서 도 19의 A 내지 D의 데이터는 증상이 없더라도 COVID-19 환자를 식별하고 질병의 진행(가령, 회복)을 모니터링하는 데 음성 피치 바이오마커가 사용될 수 있음을 시사한다.
참조 문헌
1. Maor et al. (2018). Vocal Biomarker Is Associated With Hospitalization and Mortality Among Heart Failure Patients. Journal of the American Heart Association. 2020;9:e013359.
2. Laguarta et al. (2020). COVID-19 Artificial Intelligence Diagnosis using only Cough Recordings. Open Journal of Engineering in Medicine and Biology. DOI: 10.1109/OJEMB.202.3026928.
3. Mauch and Dixon (2014)
4. Murton et al. (2017). Acoustic speech analysis of patients with decompensated heart failure: A pilot study. J. Acoust. Soc. Am. 142 (4).
5. Saeed et al. (2018), Study of voice disorders in patients with bronchial asthmas and chronic obstructive pulmonary disease. Egyptian Journal of Bronchology, Vol. 12, No. 1, pp 20-26.
6. Camacho and Harris (2008). A sawtooth waveform inspired pitch estimator for speech and music. The Journal of the Acoustical Society of America, 124(3), pp. 1638-1652.
7. Ardaillon and Roebel (2019). Fully-Convolutional Network for Pitch Estimation of Speech Signals. Insterspeech 2019, Sep 2019, Graz, Austria. ff10.21437/Interspeech.2019-2815ff. ffhal-02439798
8. Kim et al. (2018). CREPE: A Convolutional Representation for Pitch Estimation. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Calgary, AB, 2018, pp. 161-165, doi: 10.1109/ICASSP.2018.8461329
9. Kenneth, D.J., Temporal constraints and characterising syllable structuring. Phonetic Interpretation: Papers in Laboratory Phonology VI., 2003: p. 253-268.
10. Xie, Z.M. and P. Niyogi, Robust Acoustic-Based Syllable Detection. Interspeech 2006 and 9th International Conference on Spoken Language Processing, Vols 1-5, 2006: p. 1571-1574.
11. Wang, D. and S.S. Narayanan, Robust speech rate estimation for spontaneous speech. Ieee Transactions on Audio Speech and Language Processing, 2007. 15(8): p. 2190-2201.
12. Rusz, J., et al., Quantitative assessment of motor speech abnormalities in idiopathic rapid eye movement sleep behaviour disorder. Sleep Med, 2016. 19: p. 141-7.
13. , S. and G. Widmer, Maximum filter vibrato suppression for onset detection. 16th International Conference on Digital Audio Effects, Maynooth, Ireland, 2013.
14. Davis, S.B. and P. Mermelstein, Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. Ieee Transactions on Acoustics Speech and Signal Processing, 1980. 28(4): p. 357-366.
15. Huang, X., A. Acero, and H. Hon, Spoken Language Processing: A guide to theory, algorithm, and system development. Prentice Hall, 2001.
16. Rusz, J., et al., Automatic Evaluation of Speech Rhythm Instability and Acceleration in Dysarthrias Associated with Basal Ganglia Dysfunction. Front Bioeng Biotechnol, 2015. 3: p. 104.
17. Lloyd, S.P., Least-Squares Quantization in Pcm. Ieee Transactions on Information Theory, 1982. 28(2): p. 129-137.
18. Smith, T.F. and M.S. Waterman, Identification of common molecular subsequences. J Mol Biol, 1981. 147(1): p. 195-7.
19. Hlavnicka, J., et al., Automated analysis of connected speech reveals early biomarkers of Parkinson's disease in patients with rapid eye movement sleep behaviour disorder. Sci Rep, 2017. 7(1): p. 12.
20. Stroop, J.R., Studies of interference in serial verbal reactions. Journal of Experimental Psychology, 1935. General(18): p. 19.
21. McFee, B. et al., librosa: Audio and Music Signal Analysis in Python. PROC. OF THE 14th PYTHON IN SCIENCE CONF. (SCIPY 2015).
22. James Lyons et al. (2020, January 14). jameslyons/python_speech_features: release v0.6.1 (Version 0.6.1). Zenodo. http://doi.org/10.5281/zenodo.3607820
본 명세서에 언급된 모든 문서는 그 전체가 참조로 본 명세서에 포함된다.
"컴퓨터 시스템"이라는 용어는 전술한 실시예에 따른 시스템을 구현하거나 방법을 수행하기 위한 하드웨어, 소프트웨어 및 데이터 저장 장치를 포함한다. 예를 들어, 컴퓨터 시스템은 하나 이상의 연결된 컴퓨팅 장치로 구현될 수 있는 중앙 처리 장치(CPU), 입력 수단, 출력 수단 및 데이터 저장 장치를 포함할 수 있다. 바람직하게는 컴퓨터 시스템은 디스플레이를 갖거나 (예를 들어 비즈니스 프로세스의 설계에서) 시각적 출력 디스플레이를 제공하는 디스플레이를 갖는 컴퓨팅 장치를 포함한다. 데이터 저장소는 RAM, 디스크 드라이브 또는 그 밖의 다른 컴퓨터 판독 가능 매체를 포함할 수 있다. 컴퓨터 시스템은 네트워크에 의해 연결되고 그 네트워크를 통해 서로 통신할 수 있는 복수의 컴퓨팅 장치를 포함할 수 있다.
상기 실시예의 방법은 컴퓨터 프로그램으로서 또는 컴퓨터 프로그램 프로덕트 또는 컴퓨터 상에서 실행될 때 앞서 기재된 방법(들)을 수행하도록 배열된 컴퓨터 프로그램을 수반하는 컴퓨터 판독가능 매체로서 제공될 수 있다.
"컴퓨터 판독 가능 매체"라는 용어는 비일시적 매체 또는 컴퓨터 또는 컴퓨터 시스템에서 직접 읽고 액세스될 수 있는 매체를 포함하되 이에 국한되지 않는다. 매체는 자기 저장 매체, 가령, 플로피 디스크, 하드 디스크 저장 매체 및 자기 테이프, 광학 저장 매체, 가령, 광학 디스크 또는 CD-ROM, 전기 저장 매체, 가령, 메모리, 가령, RAM, ROM 및 플래시 메모리, 및 상기 나열되 ㄴ것, 가령, 자기/광학 저장 매체의 하이브리드 및 조합을 포함할 수 있으나 이에 국한되지는 않는다.
문맥상 달리 지시되지 않는 한, 앞서 설명된 특징 세트의 설명 및 정의는 본 발명의 임의의 특정 양태 또는 실시예에 제한되지 않으며 설명된 모든 양태 및 실시예에 동일하게 적용된다.
본 명세서에서 사용된 "및/또는"은 다른 하나가 있거나 없는 두 가지 특정 기능 또는 구성 요소 각각의 특정 공개로 간주된다. 예를 들어, "A 및/또는 B"는 마치 각각이 본 명세서에서 개별적으로 제시되는 것처럼, 각각의 (i) A, (ii) B 및 (iii) A 및 B의 특정 개시로 간주되어야 한다.
명세서 및 첨부된 청구범위에서 사용되는 단수 형태 "a", "an" 및 "the"는 문맥상 명백하게 달리 지시하지 않는 한 복수 지시대상을 포함한다는 점에 유의해야 한다. 범위는 본원에서 "약" 하나의 특정 값 및/또는 "약" 또 다른 특정 값으로 표현될 수 있다. 이러한 범위가 표현되는 경우, 또 다른 실시예가 하나의 특정 값에서 및/또는 다른 특정 값까지를 포함한다. 마찬가지로, 선행사 "약"을 사용하여 값이 근사치로 표현될 때, 특정 값이 다른 실시예를 형성한다는 것이 이해될 것이다. 숫자 값과 관련하여 "약"이라는 용어는 선택적이며 예를 들어 +/- 10%를 의미한다.
이하의 청구범위를 포함하여 본 명세서 전반에 걸쳐, 문맥상 달리 요구되지 않는 한, 단어 "포함하다(comprise)" 및 "포함하다(include)" 및 변형, 가령, "포함하다(comprises)", "포함하는(comprising)" 및 "포함하는(including)"은 명시된 정수 또는 단계 또는 정수 또는 단계 그룹의 포함 그러나 다른 정수 또는 단계 또는 정수 또는 단계 그룹을 제외하지 않는 것을 의미하도록 이해될 것이다.
본 발명의 다른 양태 및 구현예는 문맥상 달리 나타내지 않는 한 "구성되는" 또는 "본질적으로 구성되는"이라는 용어로 대체된 용어 "포함하는"과 함께 전술된 양태 및 구현예를 제공한다.
특정 형태로 표현된 또는 개시된 기능, 또는 개시된 결과를 획득하기 위한 방법 또는 프로세스를 수행하기 위한 수단의 측면에서 표현된, 상기의 설명, 다음 청구범위 또는 첨부된 도면에 개시된 특징은, 경우에 따라, 개별적으로, 또는 이러한 특징의 임의의 조합으로, 본 발명을 이의 다양한 형태로 구현하도록 사용될 수 있다.
본 발명은 위에서 설명된 예시적인 실시예와 관련하여 설명되었지만, 본 개시가 주어질 때 많은 등가 수정 및 변형이 통상의 기술자에게 명백할 것이다. 따라서, 앞서 설명된 본 발명의 예시적인 실시예는 예시적인 것으로 간주되며 제한되지 않는 것으로 간주된다. 설명된 실시예에 대한 다양한 변경이 본 발명의 사상 및 범위를 벗어나지 않고 이루어질 수 있다.
의심의 여지를 없애기 위해 여기에 제공된 이론적 설명은 독자의 이해를 향상시키기 위한 목적으로 제공된다. 본 발명자들은 이러한 이론적인 설명에 얽매이기를 원하지 않는다.
여기에 사용된 섹션 제목은 구성 목적으로만 사용되며 설명된 주제를 제한하는 것으로 해석되어서는 안 된다.

Claims (15)

  1. 대상체의 병리학적 및/또는 생리학적 상태를 평가하는 방법으로서,
    대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계로서, 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 오는, 단계; 및
    상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계로서, 이는, 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 및 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값에 비교하는 단계에 의해 수행되는, 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 단일 단어 또는 음절에 대응하는 음성 레코딩의 세그먼트를 식별하는 단계는, 상기 음성 레코딩의 파워 멜 스펙트로그램을 획득하는 단계, 주파수 축을 따르는 상기 멜 스펙트로그램의 최대 강도 투사를 계산하는 단계, 및 상기 주파수 축을 따르는 상기 멜 스펙트로그램의 최대 강도 투사가 임계값과 교차하는 시간 포인트로서 세그먼트 경계를 정의하는 단계를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 하나 이상의 메트릭의 값을 결정하는 단계는, 상기 음성 레코드에서 식별된 세그먼트들 사이의 시간의 퍼센티지, 또는 상기 레코딩에서 식별된 세그먼트들 사이의 시간과 상기 레코딩에서 식별된 세그먼트들 사이의 시간과 식별된 세그먼트 내 시간의 합의 비로서 상기 레코딩과 연관된 호흡 퍼센티지를 결정하는 단계를 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 하나 이상의 메트릭의 값을 결정하는 단계는, 상기 레코딩에서 식별된 세그먼트들 사이의 시간과 상기 레코딩에서 식별된 세그먼트 내 시간의 비로서 상기 레코딩과 연관된 무음성/유음성 비를 결정하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 하나 이상의 메트릭의 값을 결정하는 단계는, 식별된 세그먼트 각각에 대해 기본 주파수의 하나 이상의 추정치를 획득함으로써 상기 레코딩과 연관된 음성 피치를 결정하는 단계를 포함하며,
    선택적으로, 음성 피치의 값을 결정하는 단계는, 상기 식별된 세그먼트 각각에 대해 기본 주파수의 복수의 추정치를 획득하는 단계, 및 상기 복수의 추정치에 필터를 적용하여 필터링된 복수의 추정치를 획득하는 단계를 포함하고/하거나,
    상기 음성 피치의 값을 결정하는 단계는, 가령, 복수의 세그먼트에 대한 (선택적으로 필터링된) 복수의 추정치의 평균값, 중앙값 또는 최빈값 같은 복수의 세그먼트에 대해 요약된 음성 피치 추정치를 획득하는 단계를 포함하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 하나 이상의 메트릭의 값을 결정하는 단계는, 올바르게 읽힌 단어에 대응하는 식별된 세그먼트의 수를 첫 번째 식별된 세그먼트의 시작부분과 마지막 식별된 세그먼트의 종료부분 간 지속시간으로 나눈 비를 계산함으로써, 또는 시간에 따른 상기 음성 레코딩에서 올바르게 읽힌 단어에 대응하는 식별된 세그먼트의 수의 누적 합을 계산하고 상기 누적 합 데이터에 적합된 선형 회귀 모델의 기울기를 계산함으로써, 상기 음성 레코딩과 연관된 정답 단어율을 결정하는 단계를 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 하나 이상의 메트릭의 값을 결정하는 단계는, 상기 레코딩과 연관된 정답 단어율을 결정하는 단계를 포함하며, 상기 정답 단어율을 결정하는 단계는
    상기 식별된 세그먼트 각각에 대해 하나 이상의 멜 주파수 셉스트럴 계수(MFCC: Mel-frequency cepstral coefficient)를 계산하여 값의 복수의 값 벡터를 획득하는 단계로서, 각 벡터는 세그먼트와 연관되며, 선택적으로 하나 이상의 MFCC를 계산하여 세그먼트에 대한 값의 벡터를 획득하는 단계는 각 i에 대해 세그먼트의 각 프레임에 대한 i개의 MFCC의 세트를 계산하고 보간, 바람직하게는 선형 보간에 의해 상기 세그먼트에 대한 j개의 값의 세트를 획득하여 상기 세그먼트에 대해 ixj개의 값의 벡터를 획득하는 단계를 포함하는, 단계,
    복수의 값 벡터를 n개의 클러스터로 클러스터링하는 단계로서, 각 클러스터는 n개의 워드의 각각에 대응하는 n개의 가능한 라벨을 가지며, 선택적으로, 복수의 값 벡터를 n개의 클러스터로 클러스터링하는 것은 k-평균을 이용해 수행되는, 단계,
    라벨의 n! 순열의 각각에 대해, 클러스터링된 값 벡터와 연관된 라벨을 이용해 음성 레코딩 내 단어의 시퀀스를 예측하고, 단어의 예측된 시퀀스와 단어 읽기 검사에서 사용된 단어의 시퀀스 간 시퀀스 정렬을 수행하는 단계로서, 선택적으로, 시퀀스 정렬 단계는 로컬 시퀀스 정렬 알고리즘, 바람직하게는, 스미스-워터맨 알고리즘을 이용해 수행되는, 단계, 및
    최상의 정렬을 도출하는 라벨을 선택하는 단계로서, 정렬에서의 매치는 상기 음성 레코딩에서의 올바르게 읽힌 단어에 대응하며, 선택적으로, 시퀀스 정렬을 수행하는 단계는 정렬 점수를 획득하는 단계를 포함하며 최상의 정렬은 최고 정렬 점수를 갖는 정렬인, 단계
    를 포함하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 세그먼트를 식별하는 단계는
    (i) 바람직하게는 상기 레코딩에서 최고 에너지를 갖는 프레임에 대해, 상기 음성 레코딩의 파워 멜 스펙트로그램을 정규화하는 단계, 및/또는
    (ii) 상기 세그먼트의 멜 스펙트로그램에 걸쳐 스펙트럼 플럭스 함수를 계산함으로써, 세그먼트 중 적어도 하나에 대해 시작 검출을 수행하는 단계, 및
    세그먼트 내에서 시작이 검출될 때마다 추가 경계를 정의함으로써, 두 개의 새로운 세그먼트를 형성하는 단계, 및/또는
    (iii) 잘못된 검출을 나타내는 세그먼트를 제외하는 단계로서, 이는, 세그먼트에 대한 하나 이상의 멜-주파수 셉스트럴 계수(MFCC)를 계산하여 복수의 값 벡터를 획득하는 단계로서, 각 벡터는 세그먼트와 연관되는 단계, 및 이상치 검출 방법을 복수의 값 벡터에 적용하는 단계에 의해 수행되는, 단계, 및/또는
    (iv) 지정 임계값보다 짧은 세그먼트 및/또는 지정 임계값 미만의 평균 상대 에너지를 갖는 세그먼트를 제거함으로써, 잘못된 검출을 나타내는 세그먼트를 배제하는 단계
    를 더 포함하는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, n개의 단어는
    (i) 단음절 또는 이음절임, 및/또는
    (ii) 각각이 각자의 단어 내부의 하나 이상의 모음을 포함함, 및/또는
    (iii) 각각이 단일 강조된 음절을 포함함, 및/또는
    (iv) 색 단어이고, 선택적으로, 색 단어는 단어 읽기 검사에서 단일 색으로 디스플레이되거나, 단어는 단어 읽기 검사에서 m개의 색의 세트로부터 독립적으로 선택된 색으로 디스플레이되는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 대상체로부터의 단어-읽기 검사로부터 음성 레코딩을 획득하는 단계는 제1 단어-읽기 검사로부터의 음성 레코딩을 획득하고 제2 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계를 포함하고,
    단어-읽기 검사는, 색 단어인 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하며,
    단어는, 제1 단어 읽기 검사에서 단일 색으로 디스플레이되며 제2 단어 읽기 검사에서 m개의 색의 세트로부터 독립적으로 선택된 색으로 디스플레이되고,
    선택적으로, 제2 단어 읽기 검사에서의 단어의 시퀀스는 제1 단어 읽기 검사에서의 단어의 시퀀스와 동일한, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 단어의 시퀀스는 지정 개수의 단어, 선택적으로, 적어도 20, 적어도 30 또는 적어도 40개의 단어를 포함하고/하거나,
    음성 레코딩을 획득하는 단계는 상기 대상체와 연관된 컴퓨팅 장치로부터 단어 레코딩를 수신하는 단계를 포함하고,
    선택적으로, 음성 레코딩을 획득하는 단계는, 상기 대상체와 연관된 컴퓨팅 장치로 하여금 단어의 시퀀스를 디스플레이하게 하고/하거나, 음성 레코딩을 레코딩하게 하고/하거나, 고정 길이 톤을 발산한 후 음성 레코딩을 레코딩하게 하는 단계를 더 포함하는, 방법.
  12. 심부전이 있는 대상체를 모니터링하거나, 대상체를 심부전의 악화 또는 비대상성 심부전을 가진다고 진단하는 방법으로서, 상기 방법은
    대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계로서, 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 오는, 단계, 및
    상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계로서, 이는, 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값에 비교하는 단계에 의해 수행되는 단계
    를 포함하고,
    선택적으로 상기 방법은 청구항 제2항 내지 제11항 중 어느 한 항의 방법을 더 포함하는, 방법.
  13. 호흡곤란 및/또는 피로와 연관된 병태를 갖거나 가질 위험이 있는 것으로 진단된 대상체를 모니터링하는 방법으로서, 상기 방법은
    대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계로서, 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 오는, 단계, 및
    상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계로서, 이는, 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값과 비교하는 단계에 의해 수행되는, 단계
    를 포함하고,
    선택적으로 상기 방법은 청구항 제2항 내지 제11항 중 어느 한 항의 방법을 더 포함하는, 방법.
  14. 대상체의 호흡곤란 및/또는 피로의 수준을 평가하는 방법으로서, 상기 방법은
    대상체로부터 단어-읽기 검사로부터의 음성 레코딩을 획득하는 단계로서, 상기 음성 레코딩은 n개의 단어의 세트로부터 인출된 단어의 시퀀스를 읽는 것을 포함하는 단어-읽기 검사로부터 오는 단계, 및
    상기 음성 레코딩, 또는 이의 일부분을 분석하는 단계로서, 이는, 단일 단어 또는 음절에 대응하는 상기 음성 레코딩의 복수의 세그먼트를 식별하는 단계, 식별된 세그먼트에 적어도 부분적으로 기초하여 호흡 %, 무음성/유음성 비, 음성 피치 및 정답 단어율로부터 선택된 하나 이상의 메트릭의 값을 결정하는 단계, 상기 하나 이상의 메트릭의 값을 하나 이상의 각자의 기준 값과 비교하는 단계에 의해 수행되고, 바람직하게는 하나 이상의 메트릭은 정답 단어율을 포함하는, 단계
    를 포함하고,
    선택적으로 상기 방법은 청구항 제2항 내지 제11항 중 어느 한 항의 방법을 더 포함하는, 방법.
  15. 적어도 하나의 프로세서, 및
    상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 청구항 제1항 내지 제14항 중 어느 한 항에 기재된 동작을 포함하는 동작을 수행하게 하는 명령을 포함하는 적어도 하나의 비일시적 컴퓨터 판독형 매체
    를 포함하는 시스템.
KR1020237023339A 2021-01-13 2022-01-12 발화-분석 기반 자동화된 생리학적 및 병리학적 평가 KR20230130642A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21151442 2021-01-13
EP21151442.7 2021-01-13
PCT/EP2022/050545 WO2022152751A1 (en) 2021-01-13 2022-01-12 Speech-analysis based automated physiological and pathological assessment

Publications (1)

Publication Number Publication Date
KR20230130642A true KR20230130642A (ko) 2023-09-12

Family

ID=74183060

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237023339A KR20230130642A (ko) 2021-01-13 2022-01-12 발화-분석 기반 자동화된 생리학적 및 병리학적 평가

Country Status (6)

Country Link
US (1) US20240057936A1 (ko)
EP (1) EP4278351A1 (ko)
JP (1) JP2024504097A (ko)
KR (1) KR20230130642A (ko)
CN (1) CN116723793A (ko)
WO (1) WO2022152751A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024074694A1 (en) * 2022-10-07 2024-04-11 F. Hoffmann-La Roche Ag Speech function assessment
CN117953223B (zh) * 2024-03-26 2024-06-11 大连华璟科技有限公司 一种基于红外图像处理的动物智能检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US11011188B2 (en) * 2019-03-12 2021-05-18 Cordio Medical Ltd. Diagnostic techniques based on speech-sample alignment

Also Published As

Publication number Publication date
JP2024504097A (ja) 2024-01-30
US20240057936A1 (en) 2024-02-22
WO2022152751A1 (en) 2022-07-21
EP4278351A1 (en) 2023-11-22
CN116723793A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
EP3762942B1 (en) System and method for generating diagnostic health information using deep learning and sound understanding
Ghassemi et al. Learning to detect vocal hyperfunction from ambulatory neck-surface acceleration features: Initial results for vocal fold nodules
Kim et al. Automatic estimation of parkinson's disease severity from diverse speech tasks.
US20240057936A1 (en) Speech-analysis based automated physiological and pathological assessment
Reddy et al. The automatic detection of heart failure using speech signals
Moro-Velázquez et al. Modulation spectra morphological parameters: A new method to assess voice pathologies according to the grbas scale
Wu et al. Learning acoustic features to detect Parkinson’s disease
Perero-Codosero et al. Modeling obstructive sleep apnea voices using deep neural network embeddings and domain-adversarial training
KR20240135018A (ko) 감정 자극을 이용한 음성-기반 정신 건강 평가를 위한 멀티-모달 시스템 및 방법
US20230172526A1 (en) Automated assessment of cognitive and speech motor impairment
Agurto et al. Analyzing progression of motor and speech impairment in ALS
Svoboda et al. Assessing clinical utility of machine learning and artificial intelligence approaches to analyze speech recordings in multiple sclerosis: A pilot study
Sharma et al. Prediction of specific language impairment in children using speech linear predictive coding coefficients
Bayerl et al. Detecting vocal fatigue with neural embeddings
Karan et al. An investigation about the relationship between dysarthria level of speech and the neurological state of Parkinson’s patients
CN108766462B (zh) 一种基于梅尔频谱一阶导数的语音信号特征学习方法
Degila et al. The UCD system for the 2018 FEMH voice data challenge
Shabber et al. A review and classification of amyotrophic lateral sclerosis with speech as a biomarker
Shabber et al. AFM signal model for dysarthric speech classification using speech biomarkers
Gidaye et al. Unified wavelet-based framework for evaluation of voice impairment
Naikare et al. Classification of voice disorders using i-vector analysis
Melms et al. Training one model to detect heart and lung sound events from single point auscultations
Schraut et al. Machine learning based estimation of hoarseness severity using sustained vowels
Xu et al. Attention-Based Acoustic Feature Fusion Network for Depression Detection
Kurmi et al. Classification of Amyotrophic Lateral Sclerosis Patients using speech signals