KR20210091561A - 인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치 - Google Patents

인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치 Download PDF

Info

Publication number
KR20210091561A
KR20210091561A KR1020200004882A KR20200004882A KR20210091561A KR 20210091561 A KR20210091561 A KR 20210091561A KR 1020200004882 A KR1020200004882 A KR 1020200004882A KR 20200004882 A KR20200004882 A KR 20200004882A KR 20210091561 A KR20210091561 A KR 20210091561A
Authority
KR
South Korea
Prior art keywords
mci
content
unit
speech
feature
Prior art date
Application number
KR1020200004882A
Other languages
English (en)
Other versions
KR102314213B1 (ko
Inventor
윤기현
Original Assignee
주식회사 바이칼에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 바이칼에이아이 filed Critical 주식회사 바이칼에이아이
Priority to KR1020200004882A priority Critical patent/KR102314213B1/ko
Publication of KR20210091561A publication Critical patent/KR20210091561A/ko
Application granted granted Critical
Publication of KR102314213B1 publication Critical patent/KR102314213B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7465Arrangements for interactive communication between patient and care services, e.g. by using a telephone network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Neurology (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Neurosurgery (AREA)
  • Human Computer Interaction (AREA)
  • Nursing (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computational Linguistics (AREA)
  • Developmental Disabilities (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

본 발명은, 감지 대상자의 발화를 유도할 콘텐츠를 생성하는 콘텐츠 생성부와, 감지 대상자가 사용하는 접속 장치를 판별하고 이에 따라 콘텐츠를 제공하는접속 장치 판별 및 콘텐츠 제공부와, 감지 대상자의 발화 신호를 수신하여 음성 정보를 인식하고 상기 음성 정보에서 자음과 모음을 추출하는 자모음 분리부와, 분리된 자모음을 정렬하는 자모음 정렬부와, 자모음 정렬된 발화음을 주파수 영역으로 변환하는 스펙트럼 변환부와, 스펙트럼 변환부로부터 스펙트럼을 전달받아 적어도 하나의 발화 특징을 추출하는 특징 추출부와, 상기 적어도 하나의 발화 특징에 기초하여 경도 인지 장애(MCI) 여부를 감지하는 MCI 판별부를 포함하는 MCI 감지 장치를 제공한다.

Description

인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치{System and Method for detecting MCI based in AI}
본 발명은 경도 인지 장애를 감지하는 방법 및 장치에 관한 것이다.
2018년 전후하여 국내 베이비붐 세대가 60세를 넘기 시작하여 노인인구가 가파르게 증가하고 있고, 노인 인구의 10%가 치매 환자에 해당한다. 한편, 국내 50세 이상의 인구는 2019년 현재 2,100만명으로 국내 총 인구의 40%에 달하는 등 향후 10년 이내에 노인 인구의 폭발적 증가가 예정되어 있다.
치매로 인한 사회 문제는 현재에도 매우 심각한 단계에 있는데, 위와 같은 이유로 치매 환자의 증가세가 앞으로 더 가파라질 것으로 예상되며, 이로 인한 사회적 비용도 향후 40조원이 넘을 것으로 예측된다.
그런 한편, 치매를 완치하는 기술이나 치료제에 대해서는 아직 뚜렷한 성과를 내지 못하고 있으나, 치매의 진행을 지연시킬 수 있는 다양한 방법은 이미 개발되어 있다. 결국, 초기 진단이 가능하면 치료는 어렵더라도 현재의 의료 기술 수준으로도 치매 진행을 지연하여 더 질 높은 삶을 보장받을 수 있다.
따라서, 치매 초기 또는 치매 직전 단계인 경도 인지 장애(MCI)를 조기에 진단하는 것은 매우 중요하다.
그런데, 종래의 MCI나 치매 진단 방식은 병원에서 이루어지며 MRI, PET-CT 등 고가의 의료용 영상 장비를 통해서만 가능하므로 진단에 따른 개인적/사회적 비용이 높다는 문제점이 있다.
이와 같은 높은 진단 비용 및 병원 내방의 불편함 등으로 인하여 조기에 MCI 진단을 하지 못하는 경우가 많아서 많은 노인들이 치매 직전 또는 치매 초기에 적절한 대응을 하지 못하고 중증 단계로 넘어서고 있는 것이 현실이다.
전술한 문제점을 해결하기 위하여, 본 발명은 저렴한 비용으로 MCI 감지가 가능하며, 이용상 편의성이 높은 MIC 감지 방법 및 장치를 제공하고자 한다.
본 발명의 다른 목적은, 감지 대상자의 심리적 거부감과 실행상 불편함이 가장 적은 음성인식 기반의 대화형 MIC 감지 방법 및 장치를 제공하는 것이다.
또한, 인공지능 기술을 이용하여 충분한 정확도로 MCI 감지 감지를 수행하며, 감지 정확도가 점진적으로 더 높아지는 MCI 감지 방법 및 장치를 제공하고자 한다.
본 발명의 일면에 따른 경도 인지 장애(MCI) 감지 장치는, 감지 대상자의 발화를 유도할 콘텐츠를 생성하는 콘텐츠 생성부와, 감지 대상자가 사용하는 접속 장치를 판별하고 이에 따라 상기 콘텐츠를 제공하는 접속 장치 판별 및 콘텐츠 제공부와, 수신된 감지 대상자의 발화 신호로부터 음성 정보를 인식하여 자음과 모음을 추출하는 자모음 분리부와, 분리된 자모음을 정렬하는 자모음 정렬부와, 자모음 정렬된 발화음을 주파수 영역으로 변환하는 스펙트럼 변환부와, 스펙트럼 변환부로부터 스펙트럼을 전달받아 적어도 하나의 발화 특징을 추출하는 특징 추출부와, 상기 적어도 하나의 발화 특징에 기초하여 MCI 여부를 감지하는 MCI 판별부를 포함한다.
접속 장치 판별 및 콘텐츠 제공부는, 사용자가 이용하는 접속 장치가 음성 대화만 가능한 유선 전화인 경우에는 준비된 문자 콘텐츠를 음성으로 변환하여 전송하고, 디스플레이 장치가 있는 스마트 기기라면 음성 및 영상 콘텐츠를 전송한다.
자모음 정렬부는, 인식된 발화 음성으로부터 음소별 발화시간을 추출하여 특징 추출부로 전달하며, 추가로 각 단어 간의 공백 기간, 발화문 전체의 단어 간의 공백 기간의 평균, 특정 단어의 사용 빈도, 특정 단어와 뒤이은 단어의 공백 시간 중 적어도 하나를 추출하여 특징 추출부로 전달할 수 있다.
특징 추출부는, 음소별 포만트 값, 피치값, 데시벨 값 및 밀도값 중 적어도 하나를 특징값으로 추출한다. 또한 추출한 각 상기 특징값별로 일반적인 평균값과의 비교, 값들의 변화량의 분석, 값들의 변화양태의 분석을 통해 다른 음색과 구별될 수 있는 차별적 값을 추출하는 과정을 더 수행할 수 있다.
MCI 판별부는, 학습 단계에서 상기 적어도 하나의 발화 특징에 기초하여 지도 학습을 통해 학습 모델을 생성하고, 추론 단계에서 상기 적어도 하나의 발화 특징과 상기 학습 모델에 기초하여 MCI 여부를 감지한다.
본 발명의 다른 면에 따라, 발화 유도를 위한 콘텐츠에 대한 발화 응답을 수집하는 단계와, 상기 발화 응답으로부터 적어도 하나의 특징을 추출하는 단계와, 상기 적어도 하나의 특징에 기초하여 학습을 수행하여 학습 모델을 생성하는 단계와, 상기 학습 모델 및 감지 대상자의 발화 특징에 기초하여 상기 감지 대상자의 MCI 여부를 감지하는 단계를 포함하는 MCI 감지 방법이 제공된다.
MCI로 감지된 대상자에게 결과를 통지하고 병원 진단을 권유하는 안내를 제공하는 단계를 더 포함할 수 있고, 이에 더하여 또는 선택적으로 사전 계약된 병원에 진단 예약을 대행하고 그 예약 결과를 상기 감지 대상자에게 통지하는 단계를 더 포함할 수 있다.
또한, 학습의 수행시 정상인의 발화 데이터를 기초로 수행하지만, 이와 함께 또는 별도로 대상자 본인의 발화 데이터를 매 발화시 마다 지속적으로 축적하여 이를 기초로 학습하여 학습 모델을 구축하고 갱신할 수 있다.
본 발명에 따르면, 현재 병원 등 전문기관에서 진행하는 치매검진 과정에 비해 쉽고, 저렴하게 조기 MCI 진단이 가능하고, 이로 인하여 이용 편의성이 향상된다.
일시적인 또는 일회성의 검사가 아니라, 평소에 지속적인 상태 변화 데이터 축적으로 대상자에 대해서 지속 관찰된 결과로 MCI를 감지함으로써 감지 정확도를 높일 수 있으며, 조기에 MCI 감지가 가능하다.
또한, 음성 인식 기반의 감지 방식을 취함으로써, 진단 대상자는 AI 대화 서비스를 통해 거부감없이 진단에 참여할 수 있으며, 각종 정보의 제공 및 나아가 대상자 심리 상태에 대한 진단도 함께 수행할 수 있다.
종래의 방식에 비한 높은 참여도를 얻을 수 있어서 실사용자 중심의 MCI 감지용 학습/실증 데이터 구축이 용이하다.
도 1은 본 발명의 기본 사상을 설명하기 위한 개념도.
도 2는 본 발명의 일 실시예에 따른 MCI 감지 장치의 구성도.
도 3은 본 발명에 따라 MCI 감지 장치가 발화 음성의 음소별 포만트를 추출한 시간대-주파수 그래프.
도 4는 본 발명의 다른 실시예에 따른 MCI 감지 장치의 구성도.
도 5는 본 발명의 또 다른 실시예에 따른 MCI 감지 장치의 구성도.
도 6은 본 발명의 또 다른 실시예에 따른 MCI 감지 장치의 구성도.
도 7은 본 발명의 일 실시예에 따른 MCI 감지 방법의 순서도.
본 발명의 목적 및 효과는 이상에서 언급한 것으로 제한되지 않으며, 본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 이하의 각 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며 본 발명의 범위를 제한하고자 하는 것이 아니다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 또는 "구비"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...유닛", "...장치", "...디바이스", "...부" 또는 "...모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
한편, 본 발명의 각 실시예에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있으며, 각 구성요소들이 수행하는 전기, 전자, 기계적, 논리적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들, 프로그램 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
이하, 첨부 도면을 참조하며 본 발명 대하여 구체적으로 설명한다.
본 발명의 기본적 기술 사상은 대상자의 음성을 분석하여 경도인지장애(MCI) 여부를 감지하는 것이다. 즉, 도 1에 도시된 바와 같이 감지 대상자가 유선전화, 스마트폰, PC 등의 장치(200)를 통하여 자신의 음성을 원격의 MCI 감지 장치(100)로 전달하면, MCI 감지 장치는 인공지능 기반으로 MCI 징후를 감지하는 것이다. 현행 의료법상 최종 판정은 의료인이 해야 하므로, 본 발명의 MCI 감지 장치는 MCI 징후를 발견하면 대상자에게 알려서 병원을 방문하여 정밀 진단을 통한 MCI 판단을 받기를 유도함으로써, 조기에 MCI 여부를 진단받을 수 있도록 한다.
중기 이후의 치매환자의 말투는 정상인의 말투와 다른 어눌함이나 기타 특징이 있어서 전문지식이 없는 일반인이라도 비교적 쉽게 인지 또는 감지를 할 수 있는데, MCI는 치매 초기 단계 또는 치매 직전 단계에 해당하여 대상자 음성에서 MCI 여부를 확인하기가 상대적으로 용이하지 않으며 정확도도 낮다.
따라서, 본 발명에서는 대상자의 음성에서 자음과 모음을 분리하고, 모음의 파형 패턴을 분석하여 MCI 여부를 판단하되, 인공신경망 기반으로 정상인의 패턴과 MCI 환자의 패턴을 학습하여 MCI 여부를 추론한다.
나아가, 대화형 서비스를 통하여 대상자의 어휘 선택, 대화시 응답 속도, 대화의 내용 등 언어해석적 측면에 따른 MCI 감지를 추가하여 감지 정확도를 더 높인다.
본 발명의 가장 큰 장점은 정상 상태에서부터 지속적인 대화형 서비스를 통해 대상자 고유의 정상 상태의 특징 데이터(음성 패턴, 사용 어휘, 응답 속도, 대화 내용 등 포함)를 축적해 놓을 수 있다는 것이고, 이러한 대상자 특징 데이터와 타인의 빅 데이터를 종합하여 판단함으로써 MCI 감지 정확도를 더욱 더 높일 수 있다는 데 있다.
이하, 본 발명의 기본 구성에 대하여 보다 상세히 설명한다.
도 2에 도시된 바와 같이, 본 발명에 따른 MCI 감지 장치(100)는 콘텐츠 생성부(110), 접속 장치 판별 및 콘텐츠 제공부(120), 자모음 분리부(130), 자모음 정렬부(140), 스펙트럼 변환부(150), 특징 추출부(160) 및 MCI 판별부(170)를 포함한다.
콘텐츠 생성부(110)는 감지 대상자의 음성을 유도하기 위한 콘텐츠를 생성한다. 콘텐츠는 대상자가 이용하는 접속 장치(유선 전화, 스마트 기기, PC 등)에 따라서 영상, 음성, 문자 등 다양한 형태로 제공될 수 있으므로, 이들 각 형태별로 콘텐츠를 생성한다.
콘텐츠는 특정 발음(특정 단어)을 유도하는 발성 유도형 콘텐츠, 지적 능력을 파악하기 위한 단답형 콘텐츠(사슴, 코끼리, 사자를 순서대로 표출하고 이 순서를 말해보라는 식의 질문), 특정 주제나 시사적 이슈에 대한 내용있는 응답을 유도하는 내용 유도형 콘텐츠와 같이 대상자에게 발성 및 대화를 이끌어내는 질문이나 권유 형태를 취한다.
발성 유도형 콘텐츠는 본 발명의 기본 요지가 되는 음소 발성 패턴 분석을 통한 MCI 감지를 위하여 이용되는 것이고, 단답형 콘텐츠는 대상자의 지적 활동 수준을 분석하여 MCI 감지 보충을 위해서 이용되고, 내용 유도형 콘텐츠는 대상자의 대화 내용의 의미론적 분석을 통한 MCI 감지 보충을 위해서 이용될 수 있다.
대상자의 연령이 높다는 점을 감안할 때, 콘텐츠의 제공은 기본적으로 음성기반으로 이루어지는 것이 바람직하다. 예컨대, 동물 영상이 순서대로 제공된 후 동일 순서대로 동물 이름을 말해보라는 단답형 콘텐츠의 제공시에도 음성 안내가 함께 제공되는 것이 바람직하다.
이를 위해, 콘텐츠 생성부(110)는 인공지능 챗봇(미도시)을 포함하여 지속적으로 대상자의 응답을 이해하고 대화의 상대, 상태, 내용에 맞는 대화형 콘텐츠를 제공하여 대화가 진행되도록 하여 상호작용함이 바람직하다.
접속 장치 판별 및 콘텐츠 제공부(120)는, 대상자가 본 발명에 따른 MCI 감지 장치에 접속하는 사용자 장치가 유선 전화, 스마트 기기(스마트폰, 태블릿 등), PC(노트북 포함) 등 중에서 어떤 것인지를 판별하고, 콘텐츠 생성부(110)로부터 전달받은 콘텐츠를 각 사용자 장치에 맞게 제공한다.
예컨대, 사용자가 이용하는 접속 장치가 음성 대화만 가능한 유선 전화인 경우에는 준비된 문자 콘텐츠를 음성으로 변환하여 전송하고, 스마트 기기나 PC 라면 음성, 문자 및/또는 영상 콘텐츠를 전송한다. 스마트 기기/PC에서는 콘텐츠의 제공이 다양한 형태로 이루어질 수 있는데, 대상자가 발화할 문장을 스마트 기기/PC의 화면에 표출하도록 문자 콘텐츠를 전송하거나, 음성이나 영상을 전송하며 발화를 유도하도록 구성할 수도 있다.
접속 장치의 판별은 MCI 감지 장치에 접속하는 방식과 이용하는 통신망(이동통신, 공중전화망, 인터넷 망)으로부터 가능하며, 또는 대상자가 접속 장치를 이용하여 알려준 대로 장치의 유형을 파악하는 방법도 있다. 후자의 경우 접속 장치에 UI를 제공하고 대상자가 이 UI를 이용하여 장치 유형을 선택할 수 있도록 하면 대상자가 보다 용이하게 접속 장치 유형을 MIC 감지 장치로 알릴 수 있다.
전술한 설명에서는 이해의 편의를 위하여 대화형 콘텐츠 생성부(110) 및 접속 장치 판별 및 콘텐츠 제공부(115)를 각각 설명하였으나, 이들 구성요소(110, 115)는 별도의 SW 모듈 또는 별도의 HW 장치로 구현될 수도 있고, 하나의 SW 모듈 또는 HW 장치로 구현될 수 있다.
자모음 분리부(130)는 대상자의 음성이 접속 장치에서 전기적 신호로 변환되어 전송된 대상자의 발화 신호를 수신하여 음성 정보를 인식하고, 인식한 음성 정보를 음소 단위로 분리하여 자음과 모음을 추출하고 분류한다.
자모음 정렬부(140)는 개별 추출한 자음과 모음을 음파값과 매칭하여, 각 음소별 발화시간을 측정한다. 측정된 발화시간은 특징 추출부(160)로 전달한다.
이에 더하여 모델링된 발화 문장에서 각 단어 간의 공백 기간을 산출하는 과정을 더 수행할 수 있다. 이때 발화문 전체의 단어 간의 공백 기간의 평균, 특정 단어(예컨대, 아/음/이제/저와 같은 간투사, 감지 대상자별 많이 쓰는 단어 등)의 사용 빈도, 특정 단어와 뒤이은 단어의 공백 시간 등을 더 추출할 수 있다. 추출된 공백 기간, 사용 빈도 등은 특징 추출부(160)로 전달되어 학습 및 추론의 특징으로 이용될 수 있다.
스펙트럼 변환부(150)는 특징 파라미터를 추출하기 위하여, 자모음 정렬된 발화된 음파를 주파수 영역(스펙트럼)으로 변환하여 시간대별 각 음소의 주파수를 파악할 수 있도록 한다. 각 음소별 시간대-주파수 변환 그래프는 도 3에 도시된 바와 같다. 여기서 주파수는 음성의 특색에 큰 영향을 미치는 포만트(formant)의 주파수이며, f1, f2, f3 또는 그 이상의 포만트 주파수에 대하여 파악한다.
음소의 변환은 음색에 영향이 큰 모음에 대해서 변환하는 것이 좋으나, 이에 한정되지 않고 자음에 대해서 변환하거나 모음 및 자음에 대해서 모두 변환할 수 있음은 물론이다.
특징 추출부(160)는 변환된 음성 스펙트럼으로부터 포만트 값, 피치값, 데시벨 값, 밀도값 등을 주요 특징(feature)으로 추출한다. 또한, 추출한 각 특징별로 일반적인 평균값과의 비교, 값들의 변화량의 분석, 값들의 변화양태의 분석을 통해 다른 음색과 구별될 수 있는 차별적 값을 추출하여 이들도 특징에 포함시킬 수 있다.
또한, 음소 지속시간, 단어별 공백 시간(즉, 한 단어가 끝나고 다음 단어가 발화디는 순간까지의 공백 시간)도 특징값을 추가로 추출할 수 있다. 음소 지속시간은 자모음 정렬부(140)로부터 전달받을 수도 있고 스펙트럼 변환부(150)로부터 전달된 시간대-주파수 변환 그래프로부터 특징 추출부(160)가 직접 추출할 수도 있다. 단어별 공백 시간 역시 자모음 정렬부(140)가 추출하고 이로부터 전달받거나 자모음 정렬부(140)로부터 음성 정보를 전달받아 이로부터 특징 추출부(160)가 직접 추출할 수도 있다.
MCI 판별부(170)는 인공 신경망으로 구성되며, 학습 단계에서는 위 특징들의 일부 또는 전부를 이용하여 학습을 수행하고, 추론 단계에서는 학습 결과를 바탕으로 발화한 대상자의 MCI 여부를 감지한다.
학습은 기본적으로 정상인의 발화 음성에 대한 각 특징 데이터와, MCI 환자의 발화 음성에 대한 각 특징 데이터를 기초로 수행한다.
시간축을 기준으로 복수의 변수에 대한 값들을 특징값으로 하여 지도 학습을 통해 학습 모델을 생성하며, 딥러닝 기법 중 하나인 LSTM-VAE 기법을 이용할 수 있으나 이에 한정되는 것은 아니고 다른 기법을 이용할 수 있음은 물론이다.
추론은 대상자의 발화 음성에서 추출된 특징 데이터를 입력하여 정상인과 MCI 환자의 특징 데이터로 학습하여 생성된 학습 모델에 기반한 추론 과정을 통해 대상자의 MCI 여부를 감지한다.
한편, 정상 상태인 대상자의 발화 음성에서 추출된 특징 데이터를 지속적으로 누적하고 이에 대한 학습 모델을 별도로 구성하여 이를 토대로 또는 전술한 학습 모델에 반영하여 대상자 본인의 MCI 여부를 감지할 수도 있다. 개인별로 발화 특성이 차이가 있으므로 정상 상태였던 자신의 발화 특성이 다른 사람들에 대한 발화 특성 데이터에 비하여 더 정확한 추론 결과를 낼 수도 있다.
따라서, 대상자 본인의 정상 상태 발화 특성에 따른 추론 결과를 기초로 MCI 여부를 감지하거나, 또는 대상자 본인의 정상 상태 발화 특성에 따른 추론 결과와 타인의 발화 특성에 따른 빅데이터 학습 모델에 기초한 추론 결과를 병합하여 감지하되, 대상자 본인의 발화 특성에 기초한 추론결과에 가중치를 더 주고, 이후 대상자 본인의 발화 특성이 변화하더라도 병원의 확진 결과 정상이라면 가중치를 낮춰가는 방식으로 감지를 하는 것도 좋다.
본 발명의 다른 실시예로서, 도 4에 도시된 바와 같이, 본 발명의 MCI 감지 장치는 텍스트 변환부(180)과 자연어 처리부(190)를 더 포함하여, 언어적 측면의 MCI 감지를 병행하여 수행할 수 있다.
이를 위해, 텍스트 변환부(180)는 수신된 대상자의 발화 내용을 텍스트로 변환하여, 자연어 처리부(190)로 전달한다.
자연어 처리부(190)는 발화 내용상의 특징을 추출하는데, 질문에 대한 대상자의 응답에 대한 단어/문장어의 정확도, 이용하는 단어의 종류와 갯수에 대한 분석, 단어/문장의 의미적 관계 분석을 수행하고, 이 결과를 MCI 판별부(170)으로 전달하여, MCI 판별부(170)는 발화 특징뿐 아니라 언어론적 분석 결과를 종합하여 MCI 여부를 감지한다.
전술한 바와 같은 취지로, 정상 상태였던 대상자 본인의 언어론적 분석 결과를 기초 데이터로 삼아, 이를 기초로 또는 타인의 빅 데이터와 병합하여 MCI 여부를 감지하는 것도 좋다. 정상 상태일 경우에도 각 개인에 따라 이용하는 단어/문장어의 정확도, 이용하는 단어의 종류와 갯수에 대한 분석, 단어/문장의 의미적 관계에 대한 차이가 작지 않기 때문이다.
또 다른 실시예로서, 도 5에 도시된 바와 같이 콘텐츠 생성부(110)가 생성한 콘텐츠를 MCI 판별부(170)으로 전달하여 MCI 판별부가 질문에 대한 응답의 적정성 관계 분석을 하여 이를 MCI 감지를 위한 추론에 추가로 이용하는 것도 좋다.
다른 한편, 도 6에 도시된 바와 같이, MCI 판별부(170)가 이상 징후를 감지한 경우에는, 추가적인 판별을 위하여 콘텐츠 생성부(110)에 보다 정교한 질문 콘텐츠를 생성하거나 준비하도록 하고, 접속 장치 판별 및 콘텐츠 제공부(120)가 추가적 판별을 위한 콘텐츠 제공이 가능하도록 통지 또는 제어함이 바람직하다.
또는 자연어 처리부(190)의 처리 결과를 콘텐츠 생성부(110)가 지속적으로 입력받고 이를 판단하여 보다 정밀한 MCI 판별을 위한 대상자 발화 유도를 위한 콘텐츠 생성을 하는 구성도 가능하다. 콘텐츠 생성부(100)는 MCI 판별 기능은 없지만 미리 소정의 기준을 정하고, 이에 부합되지 않을 경우 정밀 대화를 위한 콘텐츠 생성을 하도록 구현할 수 있다.
도 2에 도시된 실시예에 비하여, 도 4 내지 도 6에 도시된 실시예가 보다 정확한 MCI 감지 결과를 도출할 수 있다.
이하, 도 7을 참조하며 본 발명의 MCI 감지 방법에 대하여 설명할 것이며, 이미 설명한 상세 부분에 대해서는 중복을 피하기 위하여 약술하거나 생략할 것이므로, 본 발명에 따른 MCI 감지 방법은 이하의 설명에 국한되지 않고 명세서 전반에 걸친 설명을 보충하여 이해함이 바람직하다.
우선 MCI 감지 장치는 감지 대상자가 이용하는 접속 장치를 인지하고(S710), 접속 장치에 따라 미리 준비한 또는 대상자의 응답에 따라 생성하거나 선택한 콘텐츠를 제공한다. 예컨대, 디스플레이 장치가 포함된 스마트 기기라면 발화문이나 발화 유도 질문을 전송하여 표시되도록 하고(S720), 유선 전화와 같이 음성 전용 장치라면 음성으로 변환하여 제공한다(S730).
발화자가 콘텐츠에 응답 또는 대화를 하면, 이 음성 정보를 수집하고(S740), 이로부터 특징을 추출하고(S750), 학습 단계에서는 이 특징에 기초하여 학습을 수행하여 학습 모델을 생성하고, 추론 단계는 학습 모델 및 수집된 음성 정보에 기초하여 추론하여 MCI 여부를 감지한다(S760).
콘텐츠의 제공 및 발화된 응답의 수집과 MCI 감지는 주기적으로 수행됨이 좋다. 본 발명은 대화기반의 감지 방식이므로 감지 대상자에게 주기적으로 전화를 걸어서 케어 서비스를 진행하면서 그 음성을 듣고, 감지 대상자가 정상인지, 경도인지 장애 상태인지를 조기에 식별해낼 수 있다. 뿐만 아니라, 대상자의 심리, 우울증상 등 여러 정신적 징후에 대해서도 MCI 판별부(170)가 조기에 판별하는 단계를 더 포함하도록 구현될 수 있다.
특히, 대상자의 흥미를 유발하기 위하여 사용자의 대화를 이끌어 갈 수 있는 대화 컨텍스트를 확보하고 자동으로 상황별 대화문을 제공할 수 있는 대화 시나리오 기술을 반영하여 상호 작용을 하면서 주기적으로 대상자의 발화 음성을 수집하는 것이 바람직하다.
또한, 대상자의 발화 특징을 지속적으로 수집하는 단계와, 수집된 데이터를 토대로 LSTM-VAE 기법 등을 이용하여 동일 대상자의 그 전의 특징과 비교하고 분석, 통계를 냄으로써 MCI 여부를 판별하는 단계를 더 포함할 수 있다.
한편, 본 명세서에서 MCI 판별부(170)는 그 용어에 불구하고 MCI 만을 판별하는 것으로 제한해서 볼 것이 아니라, 치매(AD), 심리 상태나 병적 징후도 판별하는 인공지능모듈이다.
또한, 본 발명에 따른 MCI 감지 장치는 의학 지식이나 기타 지식을 축적하고 감지 대상자의 질문에 응답하는 대화형 인공지능 장치로서 기능하도록 구현됨이 바람직하다. 되도록 많은 대화를 끌어내면서 발성 특성을 추출하고 이를 토대로 MCI 감지를 하거나 거나 발성 특성 분석과 언어론적 분석을 병행하여 MCI 감지를 함으로써 감지 정확도를 높일 수도 있고, 감지 대상자가 흥미있게 보다 적극적으로 발화문 수집에 참여하도록 유도할 수 있다.
또한, 본 발명에 따른 MCI 감지 방법은 MCI 징후가 감지된 경우, 이 결과를 통지하고 감지 대상자에게 병원에 가서 진단을 받아볼 것을 권유하는 절차를 수행한다.
이에 더하여, 미리 계약된 병원에 진단 예약을 대행하고 예약 결과를 감지 대상자에게 통지해주는 단계를 추가로 수행할 수 있다.
이상 본 발명의 구성에 대하여 바람직한 몇 실시예를 들어 상세히 설명하였으나, 이는 이해를 돕기 위한 예시에 불과한 것으로 본 발명의 보호범위가 각 실시예의 구성에 한정되는 것은 아니다. 본 발명의 기술적 사상의 범주 내에서 전술한 실시예의 다양한 변형 및 변경이 가능함은 물론이다. 예컨대, 본 발명의 MCI 감지 장치는 하나의 프로세서에 구현될 수도 있고, 둘 이상의 상이한 프로세서에 구현될 수도 있다.
따라서, 본 발명의 보호범위는 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

Claims (12)

  1. 요약경도 인지 장애(MCI) 감지 장치로서,
    감지 대상자의 발화를 유도할 콘텐츠를 생성하는 콘텐츠 생성부와,
    감지 대상자가 사용하는 접속 장치를 판별하고 이에 따라 상기 콘텐츠를 제공하는 접속 장치 판별 및 콘텐츠 제공부와,
    수신된 감지 대상자의 발화 신호로부터 음성 정보를 인식하여 자음과 모음을 추출하는 자모음 분리부와,
    분리된 자모음을 정렬하는 자모음 정렬부와,
    자모음 정렬된 발화음을 주파수 영역으로 변환하는 스펙트럼 변환부와,
    스펙트럼 변환부로부터 스펙트럼을 전달받아 적어도 하나의 발화 특징을 추출하는 특징 추출부와,
    상기 적어도 하나의 발화 특징에 기초하여 MCI 여부를 감지하는 MCI 판별부
    를 포함하는 MCI 감지 장치.
  2. 제1항에 있어서, 상기 콘텐츠 생성부는,
    특정 발음을 유도하는 발성 유도형 콘텐츠, 지적 능력 판단을 위한 단답형 콘텐츠, 특정 주제나 시사적 이슈에 대한 내용있는 응답을 유도하는 내용 유도형 콘텐츠 중 적어도 하나를 생성하는 것인 MCI 감지 장치.
  3. 제1항에 있어서, 상기 콘텐츠 생성부는,
    인공지능 챗봇을 더 포함하는 것인 MCI 감지 장치.
  4. 제1항에 있어서, 상기 접속 장치 판별 및 콘텐츠 제공부는,
    사용자가 이용하는 접속 장치가 음성 대화만 가능한 유선 전화인 경우에는 준비된 문자 콘텐츠를 음성으로 변환하여 전송하고, 디스플레이 장치가 있는 스마트 기기라면 음성 및 영상 콘텐츠를 전송하는 것인 MCI 감지 장치.
  5. 제1항에 있어서, 상기 자모음 정렬부는,
    음소별 발화시간을 측정하여 상기 특징 추출부로 전달하는 것인 MCI 감지 장치.
  6. 제1항에 있어서, 상기 자모음 정렬부는,
    모델링된 발화 문장에서 각 단어 간의 공백 기간, 발화문 전체의 단어 간의 공백 기간의 평균, 특정 단어의 사용 빈도, 특정 단어와 뒤이은 단어의 공백 시간 중 적어도 하나를 추출하는 것인 MCI 감지 장치
  7. 제1항에 있어서, 상기 특징 추출부는,
    포만트 값, 피치값, 데시벨 값 및 밀도값 중 적어도 하나를 특징값으로 추출하는 것인 MCI 감지 장치.
  8. 제7항에 있어서, 상기 특징 추출부는,
    추출한 각 상기 특징값별로 일반적인 평균값과의 비교, 값들의 변화량의 분석, 값들의 변화양태의 분석을 통해 다른 음색과 구별될 수 있는 차별적 값을 추출하는 과정을 더 수행하는 것인 MCI 감지 장치.
  9. 제1항에 있어서, 상기 MCI 판별부는,
    학습 단계에서 상기 적어도 하나의 발화 특징에 기초하여 지도 학습을 통해 학습 모델을 생성하고,
    추론 단계에서 상기 적어도 하나의 발화 특징과 상기 학습 모델에 기초하여 MCI 여부를 감지하는 것인 MCI 감지 장치.
  10. 발화 유도를 위한 콘텐츠에 대한 발화 응답을 수집하는 단계와,
    상기 발화 응답으로부터 적어도 하나의 특징을 추출하는 단계와,
    상기 적어도 하나의 특징에 기초하여 학습을 수행하여 학습 모델을 생성하는 단계와,
    상기 학습 모델 및 감지 대상자의 발화 특징에 기초하여 상기 감지 대상자의 MCI 여부를 감지하는 단계
    를 포함하는 MCI 감지 방법.
  11. 제10항에 있어서, 상기 감지하는 단계에서 MCI로 감지되면,
    상기 감지 대상자에게 결과를 통지하고 병원 진단을 권유하는 안내의 제공 및
    사전 계약된 병원에 진단 예약을 대행하고 그 예약 결과를 상기 감지 대상자에게 통지
    중 적어도 하나를 수행하는 단계를 더 포함하는 MCI 감지 방법.
  12. 제10항에 있어서, 상기 학습 모델을 생성하는 단계는 매 응답별 상기 감지 대상자 본인의 대화 내용을 지속적으로 축적하여 구축된 본인 응답 데이터를 기초로 학습 모델을 생성하는 과정을 포함하는 것인 MCI 감지 방법.
KR1020200004882A 2020-01-14 2020-01-14 인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치 KR102314213B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200004882A KR102314213B1 (ko) 2020-01-14 2020-01-14 인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200004882A KR102314213B1 (ko) 2020-01-14 2020-01-14 인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210091561A true KR20210091561A (ko) 2021-07-22
KR102314213B1 KR102314213B1 (ko) 2021-10-19

Family

ID=77158100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200004882A KR102314213B1 (ko) 2020-01-14 2020-01-14 인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102314213B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102487440B1 (ko) * 2022-06-09 2023-01-11 주식회사 하이 음성 데이터에 기초한 치매 식별 기법
KR102487420B1 (ko) * 2022-06-09 2023-01-11 주식회사 하이 치매 식별을 위한 디지털 바이오 마커 데이터인 음성 데이터를 획득하는 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380376B1 (ko) * 2021-12-08 2022-04-01 주식회사 세븐포인트원 인공지능 콜을 이용한 음성 질의응답 기반의 치매 검사 방법 및 서버
CN116583913A (zh) 2021-12-08 2023-08-11 启点医株式会社 利用人工智能呼叫的基于问答的痴呆检查方法及服务器
KR102431261B1 (ko) 2022-01-05 2022-08-10 주식회사 하이 테스트 결과 데이터에 기초하여 치매 식별 모델을 학습시키는 기법
KR102519725B1 (ko) * 2022-06-10 2023-04-10 주식회사 하이 사용자의 인지 기능 상태를 식별하는 기법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187028A (ja) * 1996-12-20 1998-07-14 Matsushita Electric Ind Co Ltd 発語訓練装置
KR20170028295A (ko) * 2014-07-08 2017-03-13 삼성전자주식회사 인지기능 검사 장치 및 방법
JP2018015139A (ja) * 2016-07-26 2018-02-01 ヤンマー株式会社 認知症検査システム
KR101998881B1 (ko) * 2018-05-03 2019-07-10 주식회사 에프티에치코리아 노인 치매 예방 및 안전 관리 시스템
KR20190129561A (ko) * 2018-05-11 2019-11-20 서원대학교산학협력단 경도 진단 정보 획득 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187028A (ja) * 1996-12-20 1998-07-14 Matsushita Electric Ind Co Ltd 発語訓練装置
KR20170028295A (ko) * 2014-07-08 2017-03-13 삼성전자주식회사 인지기능 검사 장치 및 방법
JP2018015139A (ja) * 2016-07-26 2018-02-01 ヤンマー株式会社 認知症検査システム
KR101998881B1 (ko) * 2018-05-03 2019-07-10 주식회사 에프티에치코리아 노인 치매 예방 및 안전 관리 시스템
KR20190129561A (ko) * 2018-05-11 2019-11-20 서원대학교산학협력단 경도 진단 정보 획득 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102487440B1 (ko) * 2022-06-09 2023-01-11 주식회사 하이 음성 데이터에 기초한 치매 식별 기법
KR102487420B1 (ko) * 2022-06-09 2023-01-11 주식회사 하이 치매 식별을 위한 디지털 바이오 마커 데이터인 음성 데이터를 획득하는 방법
US11759145B1 (en) 2022-06-09 2023-09-19 Haii Corp. Technique for identifying dementia based on voice data

Also Published As

Publication number Publication date
KR102314213B1 (ko) 2021-10-19

Similar Documents

Publication Publication Date Title
KR102314213B1 (ko) 인공지능 기술을 활용한 경도 인지 장애 감지 방법 및 장치
TWI403304B (zh) 隨身語能偵知方法及其裝置
US11826161B2 (en) Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium
Rohanian et al. Alzheimer's dementia recognition using acoustic, lexical, disfluency and speech pause features robust to noisy inputs
CN111315302A (zh) 认知功能评估装置、认知功能评估系统、认知功能评估方法及程序
Lien et al. Effects of phonetic context on relative fundamental frequency
JP2017156854A (ja) 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
Borrie et al. Syncing up for a good conversation: A clinically meaningful methodology for capturing conversational entrainment in the speech domain
JP6312014B1 (ja) 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム
CN113035232B (zh) 一种基于语音识别的心理状态预测系统、方法及装置
WO2023139559A1 (en) Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN108806686B (zh) 一种语音搜题应用的启动控制方法及家教设备
KR102444012B1 (ko) 말 장애 평가 장치, 방법 및 프로그램
Khan et al. Assessing Parkinson's disease severity using speech analysis in non-native speakers
Vojtech et al. Surface electromyography–based recognition, synthesis, and perception of prosodic subvocal speech
Usman et al. Heart rate detection and classification from speech spectral features using machine learning
JP2021110895A (ja) 難聴判定装置、難聴判定システム、コンピュータプログラム及び認知機能レベル補正方法
Qadri et al. A critical insight into multi-languages speech emotion databases
US20240023858A1 (en) Systems and methods for human-machine partnered ptsd prediction
Reilly et al. Voice Pathology Assessment Based on a Dialogue System and Speech Analysis.
JP6712028B1 (ja) 認知機能判定装置、認知機能判定システム及びコンピュータプログラム
Perrachione et al. Talker identification across source mechanisms: Experiments with laryngeal and electrolarynx speech
Coene et al. Linguistic factors influencing speech audiometric assessment
Klangpornkun et al. Classification of depression and other psychiatric conditions using speech features extracted from a Thai psychiatric and verbal screening test
Yang et al. Context-rich detection of user’s emotions using a smartphone

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant