KR20230028370A

KR20230028370A - 음향 신호를 분석하여 기침을 계수하는 방법, 이를 수행하는 서버 및 비일시성의 컴퓨터 판독 가능 기록 매체

Info

Publication number: KR20230028370A
Application number: KR1020237001174A
Authority: KR
Inventors: 송지영; 정지영; 강상연; 두경연; 김온섭; 이아라
Original assignee: 다인기술 주식회사
Priority date: 2020-07-13
Filing date: 2021-07-13
Publication date: 2023-02-28
Also published as: WO2022015010A1; US20230071233A1; US20240115158A1; US11877841B2

Abstract

본 출원의 일 실시예에 따른 음향 신호를 분석하여 기침을 계수하는 방법에 있어서, 상기 음향 신호에서 하나 이상의 온셋 신호를 추출하는 단계-상기 온셋 신호는 소리의 어텍(Attack)에 대응되는 신호를 포함하고, 시간 도메인에서의 기결정된 길이를 가짐-; 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득하는 단계; 기침 판별 모델을 이용하여, 상기 획득된 스펙트로그램이 기침 구간인지 판별하는 단계; 및 상기 온셋 신호의 스펙트로그램에 대하여 판별된 결과에 기초하여, 상기 음향 신호에서의 전체 기침 횟수를 계산하는 단계;를 포함하고, 상기 획득하는 단계 및 상기 판별하는 단계는, 상기 추출된 하나 이상의 온셋 신호의 각 온셋 신호에 대해서 수행되는, 방법이 제공될 수 있다.

Description

음향 신호를 분석하여 기침을 계수하는 방법, 이를 수행하는 서버 및 비일시성의 컴퓨터 판독 가능 기록 매체

실시예는 음향 신호에 기초하여 기침을 계수하는 방법, 이를 수행하는 서버 및 비일시성의 컴퓨터 판독 가능 기록 매체에 관한 것이다.

기침의 횟수는 기침의 정도를 객관적으로 평가할 수 있는 가장 기본적이고중요한 지표이나, 훈련된 인력이 기침 소리를 들으며 직접 횟수를 세는 방식이 유일한 실정이다.

구체적으로, 지속적인 관리가 필요한 호흡기 질환의 특성상, 병원에서의 24시간 녹음을 통한 기침 분석 외에 정량적인 모니터링 플랫폼 필요하지만, 현재는 1) 의료기관 내원 시 환자의 주관적 느낌과 기억에 의존한 기침의 빈도(Frequency), 강도 (Intensity), 기침으로 인한 생활의 불편(Disruption) 등을 설문/문진을 통하여 중증도를 진단하고 진료를 진행하거나, 2) 병원 진료 과정, 글로벌 제약사들의 임상 시험 과정에서도 기침의 정도를 평가 시 환자에게 녹음기를 부착하여 수십분-24시간 소리를 녹음한 후 훈련된 인력이 녹음 파일을 들으며 기침 횟수를 계수하고 있어, 객관성과 효율성이 담보된 의료 정보가 환자/의료진 모두에게 부족한 상황이다.

녹음 파일의 파형을 시각화하여 계수하는 방식이 제안되었으나, 이 방법도 마찬가지로 인력이 파형을 보며 직접 횟수를 계수하는 방식으로, 객관성과 효율성에 대한 근본적인 문제는 해결되지 못하고 있다("How to count coughs? Counting by ear, the effect of visual data and the evaluation of an automated cough monitor," R. D. Turner and G. H. Bothamley, Respiratory Medicine, Dec 2014 https://www.sciencedirect.com/science/article/pii/S0954611114003357).

이에 따라, 음향 신호에 기초하여 기침을 정확하게 계수하는 방법의 개발이 필요한 실정이다.

실시예는 음향 신호에 기초하여 기침을 정확하게 계수하는 방법을 제공하는 것을 일 목적으로 한다.

본 출원의 일 실시예에 따른 음향 신호를 분석하여 기침을 계수하는 방법에 있어서, 상기 음향 신호에서 하나 이상의 온셋 신호를 추출하는 단계-상기 온셋 신호는 소리의 어텍(Attack)에 대응되는 신호를 포함하고, 시간 도메인에서의 기결정된 길이를 가짐-; 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득하는 단계; 기침 판별 모델을 이용하여, 상기 획득된 스펙트로그램이 기침 구간인지 판별하는 단계; 및 상기 온셋 신호의 스펙트로그램에 대하여 판별된 결과에 기초하여, 상기 음향 신호에서의 전체 기침 횟수를 계산하는 단계;를 포함하고, 상기 획득하는 단계 및 상기 판별하는 단계는, 상기 추출된 하나 이상의 온셋 신호의 각 온셋 신호에 대해서 수행되고, 상기 전체 기침 횟수를 계산하는 단계에서는, 제1 온셋 신호의 시점과 제2 온셋 신호의 시점이 기준 시간을 초과하는 만큼 이격되어 있으면 둘로 계수되고, 상기 제1 온셋 신호의 시점과 상기 제2 온셋 신호의 시점이 기준 시간 이내이면 하나로 계수되며, 상기 제1 온셋 신호 및 상기 제2 온셋 신호는 기침으로 판별된 신호인, 방법이 제공될 수 있다.

본 출원의 일 실시예에 따른 음향 신호를 분석하여 기침을 계수하는 시스템에 있어서, 외부 장치에서 녹음된 소리를 포함하는 음향 신호를 획득하는 통신부; 기침 판별 모델을 로딩하기 위한 인스트럭션을 저장하는 메모리부; 상기 음향 신호에서 하나 이상의 온셋 신호를 추출하고-상기 온셋 신호는 소리의 어텍(Attack)에 대응되는 신호를 포함하고, 시간 도메인에서의 기결정된 길이를 가짐-, 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득하고, 상기 기침 판별 모델을 이용하여, 상기 획득된 스펙트로그램이 기침 구간인지 판별하고, 상기 온셋 신호의 스펙트로그램에 대하여 판별된 결과에 기초하여, 상기 음향 신호에서의 전체 기침 횟수를 계산하도록 구성되는 제어부; 를 포함하는, 서버가 제공될 수 있다.

실시예에 따르면, 음향 신호에 기초하여 기침을 계수함에 있어, 처리해야하는 연산량을 감소시키면서도 정확하게 기침을 계수하는 방법을 제공한다.

본 출원의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 출원이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은 본 출원의 일 실시예에 따른 기침을 계수하기 위한 전체 시스템(10)의 구성을 개략적으로 나타내는 도면이다.
도 2는 본 출원의 일 실시예에 따른 서버(2000)의 구성요소를 설명하기 위한 도면이다.
도 3은 본 출원의 일 실시예에 따른 기침을 계수하는 방법을 설명하기 위한 순서도이다.
도 4는 본 출원의 일 실시예에 따른 온셋 신호를 검출하는 방법을 설명하기 위한 도면이다.
도 5는 본 출원의 일 실시예에 따른 제어부(2300)에 포함된 온셋 신호를 검출하는 모듈을 설명하기 위한 도면이다.
도 6은 본 출원의 일 실시예에 따른 기침 판별 동작을 설명하기 위한 도면이다.
도 7은 본 출원의 일 실시예에 따른 기침 계수 방법에 관하여 설명하기 위한 도면이다.

발명의 실시를 위한 최선의 형태

본 출원의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 출원은 다양한 변경을 가할 수 있고 여러 가지 실시예들을 가질 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.

도면들에 있어서, 층 및 영역들의 두께는 명확성을 기하기 위하여 과장되어진 것이며, 또한, 구성요소(element) 또는 층이 다른 구성요소 또는 층의 "위(on)" 또는 "상(on)"으로 지칭되는 것은 다른 구성요소 또는 층의 바로 위 뿐만 아니라 중간에 다른 층 또는 다른 구성요소를 개재한 경우를 모두 포함한다. 명세서 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.

본 출원과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 출원의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

여기서, 상기 온셋 신호의 시간 도메인에서의 길이는 상기 기준 시간보다 긴, 방법이 제공될 수 있다.

여기서, 상기 온셋 신호를 추출하는 단계는, 상기 음향 신호에서 온셋 지점을 검출하는 단계; 및 상기 검출된 온셋 지점을 시점으로 상기 기결정된 길이의 시간 구간에 대응되는 신호를 추출하는 단계;를 포함하는, 방법이 제공될 수 있다.

여기서, 상기 스펙트로그램을 획득하는 단계는, 상기 추출된 온셋 신호를 주파수 도메인으로 변환하여 스펙트로그램을 획득하는 단계이고, 상기 추출된 온셋 신호에 대한 퓨리에 변환을 포함하는, 방법이 제공될 수 있다.

여기서, 상기 스펙트로그램을 획득하는 단계는, 상기 음향 신호를 주파수 도메인으로 변환하여 획득된 전체 스펙트로그램에서 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 추출하는 단계를 포함하는, 방법이 제공될 수 있다.

여기서, 상기 기침 판별 모델은 스펙트로그램 데이터를 입력받아 기침 또는 비기침으로 분류하도록 학습된 분류모델이고, 상기 스펙트로그램 데이터는, 시간도메인에서 기 결정된 길이를 가지는 스펙트로그램 이미지인, 방법이 제공될 수 있다.

여기서, 상기 기침 판별 모델은 상기 스펙트로그램 데이터 및 상기 스펙트로그램데이터에 라벨링된 태깅 정보를 포함하는 학습 데이터 셋을 이용하여 학습되고, 상기 태깅 정보는 상기 스펙트로그램 데이터가 기침에 대응되는 소리를 포함하는지 여부에 관한 정보를 포함하는, 방법이 제공될 수 있다.

여기서, 상기 판별하는 단계는, 상기 획득된 스펙트로그램에 대하여 리사이징(Resizing), 스케일링(Scaling) 및 RGB 변환 중 적어도 하나의 전처리를 수행하는 단계; 및 전처리된 스펙트로그램을 상기 기침 판별 모델에 적용하여, 상기 스펙트로그램이 기침 구간인지 판별하는 단계;를 포함하는, 방법이 제공될 수 있다.

여기서, 상기 계산하는 단계는, 기침으로 판별된 온셋 신호 들에 대하여, 시간 도메인에서 인접한 두 온셋 신호의 시점 사이의 간격이 상기 기준 시간 이내인지 판단하는 단계;를 포함하는, 방법이 제공될 수 있다.

여기서, 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체가 제공될 수 있다.

여기서, 상기 제어부는, 기침으로 판별된 온셋 신호 들에 대하여, 시간 도메인에서 인접한 두 온셋 신호의 시점 사이의 간격이 상기 기준 시간 이내인지 판단하도록 구성되는, 서버가 제공될 수 있다.

여기서, 상기 제어부는, 상기 획득된 스펙트로그램에 대하여 리사이징(Resizing), 스케일링(Scaling) 및 RGB 변환 중 적어도 하나의 전처리를 수행하고, 전처리된 스펙트로그램을 상기 기침 판별 모델을 이용하여, 상기 획득된 스펙트로그램이 기침 구간인지 판별하도록 구성되는, 서버가 제공될 수 있다.

여기서, 상기 기침 판별 모델은, 스펙트로그램 데이터를 입력받아 기침 또는 비기침으로 분류하도록 학습된 분류모델이고, 상기 스펙트로그램 데이터는, 시간도메인에서 기 결정된 길이를 가지는 스펙트로그램 이미지인, 서버가 제공될 수 있다.

여기서, 상기 기침 판별 모델은 상기 스펙트로그램 데이터 및 상기 스펙트로그램데이터에 라벨링된 태깅 정보를 포함하는 학습 데이터 셋을 이용하여 학습되고, 상기 태깅 정보는 상기 스펙트로그램 데이터가 기침에 대응되는 소리를 포함하는지 여부에 관한 정보를 포함하는, 서버가 제공될 수 있다.

도 1은 본 출원의 일 실시예에 따른 기침을 계수하기 위한 전체 시스템(10)의 구성을 개략적으로 나타내는 도면이다.

본 출원의 일 실시예에 따르면, 시스템(10)은 디바이스(1000) 및 서버(2000)를 포함할 수 있다. 다만, 도 1에 도시된 구성요소들이 필수적인 것은 아니고, 시스템(10)은 그보다 많은 구성요소를 갖거나 그보다 적은 구성요소를 가질 수 있다.

디바이스(1000)는 서버(2000)와 네트워크를 통해 연결되어, 필요한 데이터를 송/수신할 수 있다. 여기서, 네트워크는 근거리 통신망(LAN, Local Area Network), 도시권 통신망(MAN, Metropolitan Area Network), 광역 통신망(WAN, Wide Area Network), 와이파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), LTE 다이렉트(LTE Direct), 및/또는 블루투스(Bluetooth)를 포함할 수 있고, 이에 한정되지 않는다.

디바이스(1000)는 사람의 신체의 일부에 고정되어, 정해진 시간동안 소리를 녹음하는 기능을 수행할 수 있다. 디바이스(1000)의 마이크와 같은 입력 장치를 통해 외부의 소리가 정해진 시간 길이(예, 24시간)로 획득되어 녹음될 수 있고, 녹음된 소리를 포함하는 음향 신호는 네트워크를 통해 서버(2000)로 전송될 수 있다. 이 때, 디바이스(1000)는 마이크가 사람의 얼굴을 향하는 배치로, 사람의 배측에 고정되거나, 팔에 고정될 수 있다. 디바이스(1000)를 고정할 때에는 통상적으로 이용되는 벨트, 암밴드 등이 이용될 수 있다.

디바이스(1000)는 서버(2000)에 접속하여 데이터를 전송할 수 있는 기능이적용된 디지털 기기로, 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기일 수 있다. 일 예로, 디바이스(1000)는 스마트 글래스, 스마트 워치, 스마트 밴드, 스마트 링, 스마트 넥클리스 등과 같은 웨어러블 디바이스이거나 스마트폰, 스마트 패드, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같은 다소 전통적인 디바이스일 수 있다.

서버(2000)는 음향 신호를 분석하여 기침을 계수하는 기능을 수행할 수 있다. 서버(2000)는 음향 신호에서 하나 이상의 온셋 신호를 추출하고, 추출된 온셋 신호에 기초하여 획득된 입력 데이터를 기침 판별 모델에 적용함으로써 상기 음향 신호의 전체 기침 횟수를 계산할 수 있다.

본 출원의 일 실시예에 따르면, 서버(2000)는 하나 이상의 온셋 신호를 추출하여 기침/비기침을 판별하여, 전체 음향 신호 모두를 기침 판별 모델에 적용하는 동작을 생략할 수 있어, 기침 판별에 필요한 서버의 연산량을 급격하게 감소시킬 수 있는 장점이 도출될 수 있다. 또한, 본 출원의 일 실시예에 따르면, 서버(2000)는 전체 기침 횟수를 계산함에 있어 기 저장된 알고리즘을 통해 인접한 두 기침으로 판별된 온셋 신호의 시점 간 이격 시간을 토대로 하나 또는 둘로 계수하여, 기침 소리가 길게 녹음된 하나의 기침이 중복 계수되는 문제없이 정확한 전체 기침 횟수의 계산을 가능하게 하는 장점이 도출될 수 있다.

서버(2000)의 기능에 관하여는 아래에서 더 자세하게 알아보기로 한다.

한편, 본 명세서에서는, 기침을 계수하는 구체적인 방법이 서버(2000)에 의해 수행되는 것으로 설명되나, 이러한 설명은 예시적인 것이고 본 명세서에서 서버(2000)의 동작으로 설명되는 기능은 전체 또는 일부가 디바이스(1000)에 의해 수행될 수 있음은 당업자에게 자명하다.

또한, 본 명세서에서 개시하는 기침을 계수하는 방법이 디바이스(1000)에 의해 수행되는 경우, 디바이스(1000)에는 방법을 수행하기 위한 애플리케이션 프로그램이 더 포함되어 있을 수 있다. 이러한 애플리케이션은 디바이스(1000) 내에서 프로그램 모듈의 형태로 존재할 수 있다. 이러한 프로그램 모듈의 성격은 후술할 바와 같은 통신부(2100), 메모리부(2200) 및 제어부(2300)와 전반적으로 유사할 수 있다. 여기서, 애플리케이션은 그 적어도 일부가 필요에 따라 그것과 실질적으로 동일하거나 균등한 기능을 수행할 수 있는 하드웨어 장치나 펌웨어 장치로 치환될 수도 있다.

도 2는 본 출원의 일 실시예에 따른 서버(2000)의 구성요소를 설명하기 위한 도면이다. 도 2를 참조하면, 서버(2000)는 통신부(2100), 메모리부(2200) 및 제어부(2300)를 포함할 수 있다. 다만, 도 2에 도시된 구성요소들이 필수적인 것은 아니고, 서버(2000)는 그보다 많은 구성요소를 갖거나 그보다 적은 구성요소를 가질 수 있다.

본 출원의 일 실시예에 따르면, 서버(2000)의 각 구성요소는 물리적으로 하나의 서버에 포함될 수도 있고, 각각의 기능 별로 분산된 분산 서버일 수 있으며, 이에 한정되지 않는다.

본 출원의 일 실시예에 따르면, 서버(2000)의 통신부(2100), 메모리부(2200) 및 제어부(2300)는 그 중 적어도 일부가 외부 시스템(미도시됨)과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 서버(2000)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 서버(2000)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 출원에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

통신부(2100)는 서버(2000)가 외부 장치(예를 들어, 디바이스(1000)와 데이터를 송/수신하는 역할을 수행할 수 있다.

통신부(2100)는 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 통신부(2100)는 유선 방식을 통해 외부 기기와 통신할 수 있도록 하는 모듈을 포함할 수 있다. 또는, 통신부(2100)는 무선 방식을 통해 외부 기기와 통신할 수 있도록 하는 모듈을 포함할 수 있다. 또는, 통신부(2100)는 유선 방식을 통해 외부 기기와 통신할 수 있도록 하는 모듈 및 통신부(2100)는 무선 방식을 통해 외부 기기와 통신할 수 있도록 하는 모듈을 포함할 수 있다.

구체적인 예를 들어, 통신부(2100)는 LAN(Local Area Network)를 통해 인터넷 등에 접속하는 유선통신 모듈, 이동 통신 기지국을 거쳐 이동 통신 네트워크에 접속하여 데이터를 송수신하는 LTE(Long Term Evolution) 등의 이동 통신 모듈, 와이파이(Wi-Fi) 같은 WLAN(Wireless Local Area Network) 계열의 통신 방식이나 블루투스(Bluetooth), 직비(Zigbee)와 같은 WPAN(Wireless Personal Area Network) 계열의 통신 방식을 이용하는 근거리 통신 모듈, GPS(Global Positioning System)과 같은 GNSS(Global Navigation Satellite System)을 이용하는 위성 통신 모듈 또는 이들의 조합으로 구성될 수 있다.

본 출원의 일 실시예에 따르면, 통신부(2100)는 디바이스(1000)를 통해 음향 신호를 수신할 수 있다. 본 출원의 일 실시예에 따르면, 통신부(2100)는 디바이스(1000)에서 수신된 음향 신호에 대한 분석을 수행하여, 음향 신호에 대한 전체 기침 횟수를 디바이스(1000)로 전송할 수 있다.

메모리부(2200)는, 서버(2000)가 동작하는 데 필요한 각종 데이터 및 프로그램을 저장하고 있을 수 있다. 일 예로, 메모리부(2200)에는 음향 신호에 기초하여 기침을 계수하기 위한 서버(2000)를 구동하기 위한 운용 프로그램(OS: Operating System), 기침을 계수하는 방법이 수행되기 위해 서버(2000)에서 구동되어야 하거나 이용되는 각종 프로그램, 그리고 이들 프로그램에 의해 참조될 미디어에 관한 각종 데이터 등이 저장될 수 있다.

메모리부(2200)는 데이터를 임시적으로 또는 반영구적으로 저장할 수 있다. 메모리부(2200)의 예로는 하드디스크(HDD: Hard Disk Drive), SSD(Solid State Drive), 플래쉬 메모리(1400, flash memory), 롬(ROM: Read-Only Memory), 램(RAM: Random Access Memory) 또는 클라우드 스토리지(Cloud Storage) 등이 있을 수 있다. 또한, 메모리부(2200)는 데이터를 저장하기 위한 데이터베이스를 구축하여 저장할 수 있고, 이에 한정되지 않고, 데이터를 저장하기 위한 다양한 모듈로 구현될 수 있다.

본 출원의 일 실시예에 따르면, 메모리부(2200)는 기침 판별 모델을 저장할 수 있다. 본 출원의 다른 실시예에 따르면, 메모리부(2200)는 기침 판별 모델을 로딩하기 위한 인스트럭션(Instruction)을 저장할 수 있다.

기침 판별 모델은 지도 학습 알고리즘(예를 들어, 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine; SVM), 랜덤 포레스트(Random Forest) 등), 비지도 학습알고리즘, 인공 신경망(Artificial Neural Networks; ANN) 등의 머신 러닝 알고리즘으로 구성되거나, 완전 연결 네트워크(Fully-Connected Network), 합성곱 신경망(Convolutional Neural Network; CNN) 등의 딥 러닝 알고리즘으로 구성되는 것일 수 있다. 한편, 본 출원의 일 실시예에 따른 기침 판별 모델이 반드시 위의 열거된 것에만 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있다.

본 출원의 일 실시예에 따르면, 기침 판별 모델은 스펙트로그램 데이터를 입력받아 기침 구간인지에 대한 표지를 출력하도록 학습된 분류모델일 수 있다. 일 예로, 기침 판별 모델은 스펙트로그램 데이터를 입력받아 기침 또는 비기침으로 분류하도록 학습된 분류모델일 수 있다. 여기서, 스펙트로그램 데이터는, 시간도메인에서 기 결정된 길이를 가지는 스펙트로그램 이미지일 수 있다.

본 출원의 일 실시예에 따르면, 기침 판별 모델은 상기 스펙트로그램 데이터 및 상기 스펙트로그램 데이터에 라벨링된 태깅 정보를 포함하는 학습 데이터 셋을 이용하여 학습될 수 있다. 이 때, 태깅 정보는 상기 스펙트로그램 데이터가 기침에 대응되는 소리를 포함하는지 여부에 관한 정보를 포함할 수 있다. 이 때, 태깅 정보는, 의료 전문가에 의해서 사전 수행된 정보를 토대로 선택된 값일 수 있다. 일 예로, 기침에 대응되는 소리인지에 대한 라벨링은 의료 전문가에 의해 사전 수행된 데이터에 기초하여 결정될 수 있다.

본 출원의 일 실시예에 따른 기침 판별 모델을 학습시키는 과정은, 서버(2000)에 포함되는 제어부(2300)에 의해 수행되거나, 서버(2000)와는 별개의 엔터티(예를 들어, 서버(2000)와 구분되는 학습 서버 등)에서 수행될 수 있다.

그외에도, 메모리부(2200)에는 온셋 검출 모듈, 온셋 신호 추출 모듈, 스펙트로그램 획득 모듈(미도시), 데이터 전처리 모듈 및/또는 기침 판별 모듈(기침 판별 모델을 포함함)이 저장될 수 있다. 각 모듈은 기능적으로 구분되는 별개의 모듈로 서버(2000)에 존재할 수 있고, 또는, 복수의 기능적 모듈의 역할을 하나의 주체가 수행하여 물리적으로 일체된 모듈로 서버(2000)에 존재할 수 있다. 각 모듈의 그 기능과 동작에 대해서는 아래에서 설명하는 기침 계수 방법에 의해 명확하게 이해될 것 인바, 그에 대한 구체적인 설명은 생략하기로 한다.

제어부(2300)는 서버(2000)의 전반적인 동작을 총괄하고 제어하는 기능을 수행할 수 있다. 제어부(2300)는 각종 정보의 연산 및 처리를 수행하고 서버(2000)의 구성요소들의 동작을 제어할 수 있다.

제어부(2300)는 하드웨어, 소프트웨어 또는 이들의 조합에 따라 컴퓨터나 이와 유사한 장치로 구현될 수 있다. 제어부(2300)는 하드웨어적으로 전기적인 신호를 처리하여 제어 기능을 수행하는 CPU 칩 등의 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적인 제어부를 구동시키는 프로그램 형태로 제공될 수 있다.

본 출원의 일 실시예에 따르면, 제어부(2300)는 통신부(2100)를 통해 수신된 음향 신호에서 하나 이상의 온셋 신호를 추출할 수 있다. 제어부(2300)는 온셋 검출 모듈 및 온셋 신호 추출 모듈을 이용하여, 음향 신호에서 하나 이상의 온셋 신호를 추출할 수 있다. 온셋 신호는 소리의 어텍(Attack)에 대응되는 신호를 포함하고, 시간 도메인에서의 기결정된 길이를 가질 수 있다.

본 출원의 일 실시예에 따르면, 제어부(2300)는 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득할 수 있다. 제어부(2300)는 스펙트로그램 변환 모듈을 이용하여 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득할 수 있다. 또는 제어부(2300)는 스펙트로그램 변환 모듈을 이용하여 음향 신호에 대한 전체 스펙트로그램을 획득하고, 전체 스펙트로그램 중 추출된 온셋 신호에 대응되는 부분만 잘라내어(Crop), 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득할 수 있다.

본 출원의 일 실시예에 따르면, 제어부(2300)는 상기 획득된 스펙트로그램이 기침 구간인지 판별할 수 있다. 제어부(2300)는 기침 판별 모델에 스펙트로그램에 기초한 입력 데이터를 적용하여, 기침 구간인지 판별할 수 있다.

본 출원의 일 실시예에 따르면, 제어부(2300)는 온셋 신호의 스펙트로그램에 대하여 판별된 결과에 기초하여, 상기 음향 신호에서의 전체 기침 횟수를 계산할 수 있다. 이 때, 제어부(2300)는 온셋 신호에 대응되는 스펙트로그램을 획득하고, 획득된 스펙트로그램에 기초하여 기침구간인지 판별하는 동작을, 추출된 온셋 신호의 개수만큼 수행할 수 있다. 전체 기침 횟수를 계산하는 단계에서는, 제어부(2300)는 기침으로 판별된 온셋 신호의 시점을 비교할 수 있다. 제어부(2300)는 제1 온셋 신호의 시점과 제2 온셋 신호의 시점이 기준 시간을 초과하는 만큼 이격되어 있으면 둘로 계수하고, 상기 제1 온셋 신호의 시점과 상기 제2 온셋 신호의 시점이 기준 시간 이내이면 하나로 계수할 수 있고, 이 때, 제1 온셋 신호 및 상기 제2 온셋 신호는 기침으로 판별된 신호이다.

이하에서는, 음향 신호에 기초하여 기침을 계수하는 동작에 대해서 구체적으로 설명하기로 한다. 다만, 이하에서는, 특별한 언급이 없는 경우, 서버(2000)의 동작은 제어부(2300)의 제어에 의해 수행되는 것으로 해석될 수 있다.

도 3은 본 출원의 일 실시예에 따른 기침을 계수하는 방법을 설명하기 위한 순서도이다.

서버(2000)는 온셋 신호를 추출(S1000)할 수 있다. 서버(2000)는 통신부(2100)를 통해 수신된 음향 신호에 기초하여 온셋 신호를 추출할 수 있다. 서버(2000)는 수신된 음향 신호에서 온셋 신호를 추출하거나, 수신된 음향 신호에 대하여 노이즈 필터링을 수행하여 온셋 신호를 추출할 수 있다.

도 4는 본 출원의 일 실시예에 따른 온셋 신호를 검출하는 방법을 설명하기 위한 도면이다.

본 출원의 일 실시예에 따르면, 서버(2000)는 음향 신호(Sound Signal, SS)에서 온셋 지점(Onset Point, OP)을 추출할 수 있다.

서버(2000)는 샘플링 시간(예, 0.01s)마다 온셋 지점(OP)인지 판별하고, 온셋 지점(OP)으로 판별된 경우, 음향 신호(SS)에서 해당 시점부터 미리 결정된 길이의 시간(Onset length, OL)에 대응되는 시간 구간에의 신호를 잘라내어(Crop) 온셋 신호(Onset Signal, OS)를 획득할 수 있다. 온셋 신호(OS)는 소리의 어텍(Attack)에 대응되는 신호를 포함할 수 있다. 온셋 신호(OS)는 시간 도메인에서의 기결정된 길이(OL)를 가질 수 있다. 이 때, 획득되는 온셋 신호(OS)의 개수는, 판별되는 온셋 지점(OP)의 개수와 동일할 수 있다.

온셋 지점(OP)인지 판별하는 방법은, 정해진 샘플링 시간마다 획득된 온셋 강도가 기준 강도보다 큰 지점을 온셋 지점(OP)으로 선택하는 형태일 수 있다. 구체적인 예를 들어, 온셋 강도는 Mel-filter Bank를 통과한 Mel-Spectrogram에 기초하여 온셋 강도를 구할 수 있다. 구체적인 예를 들어, 제어부(2300)는 획득된 음향 신호(SS)를 둘 이상의 주파수 구간으로 구분하고, 구분된 각각의 신호를 Mel-filter Bank를 통과시켜 구해진 값을 더하여 온셋 강도를 구할 수 있다. 제어부(2300)는 구해진 온셋 강도가 기준 강도보다 큰 경우 온셋 지점(OP)인 것으로 판별할 수 있다. 제어부(2300)는 구해진 온셋 강도가 기준 강도보다 크고, 직전에 구해진 온셋 강도가 기준 강도보다 작은 경우 온셋 지점(OP)인 것으로 판별할 수 있다. 여기서, 기준 강도는 미리 정해진 상수값일 수 있다. 또는 기준 강도는 음향 신호(SS) 전체 또는 판별하는 지점 주변의 온셋 강도를 참조하여 가변적으로 정의될 수 있다.

도 5는 본 출원의 일 실시예에 따른 제어부(2300)에 포함된 온셋 신호를 검출하는 모듈을 설명하기 위한 도면이다.

본 출원의 일 실시예에 따르면, 온셋 검출 모듈(2310)은 수신된 음향 신호에 기초하여 온셋 지점을 검출하는 동작을 수행할 수 있다. 온셋 검출 모듈(2310)은 음향 신호의 전체 신호를 정해진 간격으로 스캐닝하면서 온셋 지점을 검출할 수 있다. 온셋 검출 모듈(2310)은 음향 신호에서 온셋 지점을 검출할 수 있고, 검출된 온셋 지점은 복수개일 수 있다.

온셋 신호 추출 모듈(2320)은 온셋 검출 모듈(2310)에 의해 검출된 온셋 지점에서 온셋 신호를 추출할 수 있다. 온셋 신호 추출 모듈(2320)은 검출된 온셋 지점 마다 온셋 신호를 추출할 수 있다. 온셋 신호 추출 모듈(2320)은 검출된 온셋 지점을 시점으로 하여 기 결정된 시간 길이만큼을 신호를 잘라내어 온셋 신호를 추출할 수 있다.

본 출원의 일 실시예에 따르면, 온셋 검출 모듈(2310) 및 온셋 신호 추출 모듈(2320)의 동작으로, 음향 신호로부터 제1 온셋 신호, 제2 온셋 신호, ?? 제N 온셋 신호가 추출될 수 있다. 여기서, 온셋 검출 모듈(2310)이 스캐닝을 수행하는 정해진 간격이 온셋 신호의 길이보다 작을 수 있고, 이 때, 제1 온셋 신호와 제2 온셋 신호는 중첩될 수 있다.

다시 도 3을 참조하면, 서버(2000)는 스펙트로그램을 획득(S2000)할 수 있다.

일 예로, 서버(2000)는 상기 추출된 온셋 신호를 기초로 스펙트로그램을 획득할 수 있다. 다른 예로, 서버(2000)는 음향 신호를 기초로 획득된 전체 스펙트로그램에서 추출된 온셋 신호에 대응되는 스펙트로그램을 추출할 수 있다.

시간 도메인에서의 진폭값을 가지는 신호를 주파수 도메인에서의 진폭값을 가지는 스펙트로그램으로 변환하는 방법은 통상적으로 알려진 방법에 따라 수행될 수 있다. 일 예로, 변환 대상 신호를 정해진 시간 구간으로 분할하고, 분할된 신호를 고속 푸리에 변환을 통해 개별 사인파로 분해하고, 분해된 주파수에 따른 크기 신호를 시간에 따른 주파수로 나타내면서 색상을 통해 진폭을 표시하는 형태로 스펙트로그램이 변환될 수 있다. 이에 한정되지 않고, 본 출원에서의 '스펙트로그램'은 통상적인 의미의 모든 스펙트로그램을 포함할 수 있다. 구체적인 예를 들어, 본 출원에서의 스펙트로그램은 주파수가 멜스케일로 변환된 멜 스펙트로그램일 수 있다.

본 출원의 일 실시예에 따르면, 음향 신호로부터 추출된 제1 온셋 신호, 제2 온셋 신호, ... 제N 온셋 신호에 각각 대응되는 제1 스펙트로그램, 제2 스펙트로그램, ... 제N 스펙트로그램이 획득될 수 있다. 스펙트로그램 획득 모듈은, 온셋 신호 추출 모듈(2320)에 의해 획득된 온셋 신호의 개수만큼 스펙트로그램을 획득할 수 있다. 일 예로, 스펙트로그램 획득 모듈은, 온셋 신호 추출 모듈(2320)에 의해 획득된 온셋 신호의 개수만큼, 온셋 신호를 스펙트로그램으로 변환하는 동작을 수행할 수 있다. 다른 예로, 스펙트로그램 획득 모듈은, 음향 신호에 대해서 전체 스펙트로그램으로 변환하는 동작을 수행하고, 온셋 신호 추출 모듈(2320)에 의해 획득된 온셋 신호의 개수만큼 전체 스펙트로그램에서 온셋 신호에 대응되는 스펙트로그램을 추출하는 동작을 수행할 수 있다.

서버(2000)는 기침구간인지 판별(S3000)할 수 있다. 서버(2000)는 S2000 단계에서 획득된 스펙트로그램에 기초하여, 기침구간인지 판별(S3000)할 수 있다.

도 6은 본 출원의 일 실시예에 따른 기침 판별 동작을 설명하기 위한 도면이다.

기침 판별 모듈(2330)은 온셋 신호에 대응되는 스펙트로그램에 기초하여 기침구간 인지를 판별할 수 있다. 기침 판별 모듈(2330)은 스펙트로그램 데이터를 입력받아 기침 또는 비기침으로 분류하도록 학습된 기침 판별 모델을 포함할 수 있다.

스펙트로그램 데이터는, 시간도메인에서 기 결정된 길이를 가지는 스펙트로그램일 수 있다. 스펙트로그램 데이터는, S1000단계에서 추출된 온셋 신호에 대응되는 스펙트로그램일 수 있다.

필요한 경우, 기침 판별 모듈(2330)에 스펙트로그램 데이터가 입력되기 이전에 데이터 전처리 모듈(2340)에 의해 전처리가 수행될 수 있다. 스펙트로그램 데이터는, S1000단계에서 추출된 온셋 신호에 대응되는 스펙트로그램에 대하여 데이터 전처리 모듈(2340)을 통해 리사이징(Resizing), 스케일링(Scaling) 및 gray to RGB 변환 중 적어도 하나의 전처리가 수행된 데이터일 수 있다. 구체적인 예를 들어, 스펙트로그램에 대하여 데이터 전처리 모듈(2340)을 통해 리사이징(Resizing)이 수행될 수 있다.

본 출원의 일 실시예에 따르면, 기침 판별 모델은 상기 스펙트로그램 데이터 및 상기 스펙트로그램 데이터에 라벨링된 태깅 정보를 포함하는 학습 데이터 셋을 이용하여 학습될 수 있다. 이 때, 태깅 정보는 상기 스펙트로그램 데이터가 기침에 대응되는 소리를 포함하는지 여부에 관한 정보를 포함할 수 있다.

구체적인 실험예에 있어서, EfficientNet을 이용해서 기침 판별 모델을 구축하였다.

실험예 1에 따르면, Efficient Net B5를 이용하여, 입력 데이터로 0.5s의 시간 길이를 가지는 스펙트로그램을 이용하였고, 출력 데이터로 녹음된 소리를 듣고 사람이 평가한 기침/비기침의 표지를 반영하였다. 입력 데이터의 경우 하나의 스펙트로그램을 주파수 구간별로 나누어 총 512개의 입력 노드에 나누어 입력하였고, 모델에 입력되기 전 스펙트로그램에 대하여 300*300 사이즈로 Resize를 수행하고, 최대값으로 나누는 Scaling을 수행하고, Gray to RGB 변환을 수행하였다. 총 350,000개의 학습 데이터를 이용해서 기침 판별 모델에 대한 학습을 수행하였고, 이 때, 기침 판별 모델은 정밀도(Precision) 0.84, 재현율(Recall) 0.93의 정확도를 나타냈다.

실험예 2에 따르면, Efficient Net B3를 이용하여, 입력 데이터로 0.5s의 시간 길이를 가지는 스펙트로그램을 이용하였고, 출력 데이터로 녹음된 소리를 듣고 사람이 평가한 기침/비기침의 표지를 반영하였다. 입력 데이터의 경우 하나의 스펙트로그램을 주파수 구간별로 나누어 총 512개의 입력 노드에 나누어 입력하였고, 모델에 입력되기 전 스펙트로그램에 대하여 300*300 사이즈로 Resize를 수행하고, 최대값으로 나누는 Scaling을 수행하고, Gray to RGB 변환을 수행하였다. 총 350,000개의 학습 데이터를 이용해서 기침 판별 모델에 대한 학습을 수행하였고, 이 때, 기침 판별 모델은 정밀도(Precision) 0.92, 재현율(Recall) 0.9의 정확도를 나타냈다.

일반적으로 Efficient Net B5가 더 정확하다고 알려져 있으나, 실제로 실험을 진행해보니 Efficient Net B3가 정밀도가 더 좋은 것을 확인하였고, 따라서, 기침 계수 모델을 구현함에 있어서 데이터 사이즈에 따른 모델 크기의 선택이 정확도에 영향을 미칠 수 있음을 확인하였다.

다시 도 3을 참조하면, 서버(2000)는 전체기침횟수를 계산(S4000)할 수 있다. 서버(2000)는 S3000 단계에서 획득된, 적어도 하나의 온셋 신호의 스펙트로그램에 대하여 판별된 결과에 기초하여, 상기 음향 신호에서의 전체 기침 횟수를 계산할 수 있다.

본 출원의 일 실시예에 따르면, S2000 및 S3000 단계는 추출된 하나이상의 온셋 신호의 각 온셋 신호에 대해서 수행될 수 있다. S2000 및 S3000 단계는 S1000에서 획득된 온셋 신호의 수에 대응되는 횟수만큼 수행될 수 있다.

서버(2000)는 S3000에서 기침으로 판별된 온셋 신호에 기초하여 전체 기침 횟수를 판별할 수 있다. 서버(2000)는 기침으로 판별된 온셋 신호를 계수하여 전체 기침 횟수를 판별할 수 있다.

기침은 급격한 음압의 변화를 수반하기 때문에, 온셋 지점을 판별하여 온셋 신호를 추출하면 전체 음향 신호에서 기침 구간을 포착할 수 있다. 따라서, 기침 구간을 포착하여 기침 판별 모델에 적용, 연산량을 감소시키기 위해 이러한 동작을 수행할 수 있다.

다만, 이경우, 1) 온셋 지점의 검출을 사용되는 통상적인 알고리즘에서 연속하는 두 샘플링 구간 사이의 시간 도메인에서의 중첩 영역이 존재하고, 2) 하나의 기침에서 둘 이상의 온셋 지점이 검출될 수 있는 기침 소리의 특성상, 정확한 기침의 계수를 위해서는 후처리를 수행할 필요가 있다.

본 출원의 일 실시예에 따르면, 서버(2000)는 기침으로 판별된 인접한 두 온셋 신호의 시점간의 이격 시간이 기준 시간(예, 0.5s) 이내일 때, 하나로 계수하도록 구현될 수 있다.

도 7은 본 출원의 일 실시예에 따른 기침 계수 방법에 관하여 설명하기 위한 도면이다.

도 7을 참조하면, 좌측 열의 '시점'은 음향 신호에서 온셋 신호의 시점의 시간값을 나타내는 것이다. 다시 말해, 온셋 지점이 음향 신호의 시작으로부터 15.5초에 검출되었다면, 온셋 신호의 시점은 00:00:15.5로 나타날 수 있다.

우측 열의 '태그'는 온셋 신호에 기초하여 기침 판별 모델이 판별한 결과값을 나타내는 것이다. 다시 말해, 온셋 신호를 기침 판별 모델에 입력하여 기침으로 분류(또는 예측)되었다면, 온셋 신호의 태그는 '기침'으로 나타날 수 있다.

서버(2000)는 인접한 두 온셋 신호의 시점 간의 이격 시간이 기준 시간 이내일 때 하나의 기침으로 계수할 수 있다. 즉, 기침으로 판별된 제1 온셋 신호(00:00:15.5), 기침으로 판별된 제2 온셋 신호(00:00:15.7), 기침으로 판별된 제3 온셋 신호(00:17:20), 기침으로 판별된 제4 온셋 신호(00:17:20.5) 및 기침으로 판별된 제5 온셋 신호(00:22:00)에서, 서버(2000)는 제1 온셋 신호의 시점와 제2 온셋 신호의 시점이 0.2sec 만큼 이격되어 기준 시간(0.25sec) 보다 작을 때, 하나의 기침으로 계수할 수 있다. 서버(2000)는 제3 온셋 신호의 시점와 제4 온셋 신호의 시점이 0.5sec 만큼 이격되어 기준 시간(0.25sec) 보다 클 때, 두개의 기침으로 계수할 수 있다.

본 출원의 일 실시예에 따르면, 서버(2000)는 제2 온셋 신호의 시점과 제3 온셋 신호의 시점의 이격 시간을 획득하지 않을 수 있다. 다시 말해, 서버(2000)는 이전 온셋 신호의 시점와 이후 온셋 신호의 시점 사이의 이격 시간이 기준 시간보다 이내에서 하나로 계수한 경우, 이후 온셋 신호를 사실상 '삭제'한 것과 유사하기 때문에, 이후 온셋 신호의 시점과 이후 온셋 신호의 다음차 온셋 신호의 시점을 비교하지 않을 수 있다. 따라서, 서버(2000)는 제2 온셋 신호의 시점과 제3 온셋 신호의 시점의 이격 시간을 획득하지 않고, 제3 온셋 신호와 제4 온셋 신호의 시점을 비교하여 기침 계수 절차를 이어갈 수 있다.

본 출원의 일 실시예에 따르면, 기준 시간은 0.5sec보다 작을 수 있다. 이는, 사람이 0.5초내에 2번의 기침을 완료하는 경우는 거의 없기 때문일 수 있다. 따라서, 본 출원의 일 실시예에 따르면 기준 시간은 0.25sec로 설정될 수 있고, 이에 한정되지 않고, 필요한 경우(예를 들어, 연속된 기침의 특징을 고려하는 경우)에는 그에 따른 조정된 값을 사용할 수 있다. 본 출원의 일 실시예에 따르면, 온셋 길이는 0.5sec보다 클 수 있다. 이는, 사람들은 대부분의 기침을 0.5초 이내에 완료하기 때문에, 0.5초는 기침의 유무를 판별하기에 충분한 길이이기 때문일 수 있다. 따라서, 본 출원의 일 실시예에 따르면 온셋 길이는 0.5sec로 설정될 수 있고, 이에 한정되지 않고, 필요한 경우(예를 들어, 기침의 종류를 판별하는 경우)에는 그에 따른 조정된 값을 사용할 수 있다. 온셋 신호의 시간 도메인에서의 길이(즉, 온셋 길이)는 기준 시간보다 길 수 있다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 비일시성의 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

발명의 실시를 위한 형태

전술한 바와 같이, 상기 발명의 실시를 위한 최선의 형태에서, 관련된 사항을 기술하였다.

Claims

음향 신호를 분석하여 기침을 계수하는 방법에 있어서,
상기 음향 신호에서 하나 이상의 온셋 신호를 추출하는 단계-상기 온셋 신호는 소리의 어텍(Attack)에 대응되는 신호를 포함하고, 시간 도메인에서의 기결정된 길이를 가짐-;
상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득하는 단계;
기침 판별 모델을 이용하여, 상기 획득된 스펙트로그램이 기침 구간인지 판별하는 단계; 및
상기 온셋 신호의 스펙트로그램에 대하여 판별된 결과에 기초하여, 상기 음향 신호에서의 전체 기침 횟수를 계산하는 단계;를 포함하고,
상기 획득하는 단계 및 상기 판별하는 단계는, 상기 추출된 하나 이상의 온셋 신호의 각 온셋 신호에 대해서 수행되고,
상기 전체 기침 횟수를 계산하는 단계에서는,
제1 온셋 신호의 시점과 제2 온셋 신호의 시점이 기준 시간을 초과하는 만큼 이격되어 있으면 둘로 계수되고,
상기 제1 온셋 신호의 시점과 상기 제2 온셋 신호의 시점이 기준 시간 이내이면 하나로 계수되며,
상기 제1 온셋 신호 및 상기 제2 온셋 신호는 기침으로 판별된 신호인, 방법.
제1 항에 있어서,
상기 온셋 신호의 시간 도메인에서의 길이는 상기 기준 시간보다 긴, 방법.
제1 항에 있어서,
상기 온셋 신호를 추출하는 단계는,
상기 음향 신호에서 온셋 지점을 검출하는 단계; 및
상기 검출된 온셋 지점을 시점으로 상기 기결정된 길이의 시간 구간에 대응되는 신호를 추출하는 단계;를 포함하는, 방법.
제3 항에 있어서,
상기 스펙트로그램을 획득하는 단계는,
상기 추출된 온셋 신호를 주파수 도메인으로 변환하여 스펙트로그램을 획득하는 단계이고, 상기 추출된 온셋 신호에 대한 퓨리에 변환을 포함하는, 방법.
제3 항에 있어서,
상기 스펙트로그램을 획득하는 단계는,
상기 음향 신호를 주파수 도메인으로 변환하여 획득된 전체 스펙트로그램에서 상기 추출된 온셋 신호에 대응되는 스펙트로그램을 추출하는 단계를 포함하는, 방법.
제1 항에 있어서,
상기 기침 판별 모델은 스펙트로그램 데이터를 입력받아 기침 또는 비기침으로 분류하도록 학습된 분류모델이고,
상기 스펙트로그램 데이터는, 시간도메인에서 기 결정된 길이를 가지는 스펙트로그램 이미지인, 방법.
제6 항에 있어서,
상기 기침 판별 모델은 상기 스펙트로그램 데이터 및 상기 스펙트로그램 데이터에 라벨링된 태깅 정보를 포함하는 학습 데이터 셋을 이용하여 학습되고,
상기 태깅 정보는 상기 스펙트로그램 데이터가 기침에 대응되는 소리를 포함하는지 여부에 관한 정보를 포함하는, 방법.
제1 항에 있어서,
상기 판별하는 단계는,
상기 획득된 스펙트로그램에 대하여 리사이징(Resizing), 스케일링(Scaling) 및 RGB 변환 중 적어도 하나의 전처리를 수행하는 단계; 및
전처리된 스펙트로그램을 상기 기침 판별 모델에 적용하여, 상기 스펙트로그램이 기침 구간인지 판별하는 단계;를 포함하는, 방법.
제1 항에 있어서,
상기 계산하는 단계는,
기침으로 판별된 온셋 신호 들에 대하여, 시간 도메인에서 인접한 두 온셋 신호의 시점 사이의 간격이 상기 기준 시간 이내인지 판단하는 단계;를 포함하는, 방법.
제1 항의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체.
음향 신호를 분석하여 기침을 계수하는 시스템에 있어서,
외부 장치에서 녹음된 소리를 포함하는 음향 신호를 획득하는 통신부;
기침 판별 모델을 로딩하기 위한 인스트럭션을 저장하는 메모리부;
상기 음향 신호에서 하나 이상의 온셋 신호를 추출하고-상기 온셋 신호는 소리의 어텍(Attack)에 대응되는 신호를 포함하고, 시간 도메인에서의 기결정된 길이를 가짐-,
상기 추출된 온셋 신호에 대응되는 스펙트로그램을 획득하고,
상기 기침 판별 모델을 이용하여, 상기 획득된 스펙트로그램이 기침 구간인지 판별하고,
상기 온셋 신호의 스펙트로그램에 대하여 판별된 결과에 기초하여, 상기 음향 신호에서의 전체 기침 횟수를 계산하도록 구성되는 제어부; 를 포함하는, 서버.
제11 항에 있어서,
상기 제어부는,
기침으로 판별된 온셋 신호 들에 대하여, 시간 도메인에서 인접한 두 온셋 신호의 시점 사이의 간격이 상기 기준 시간 이내인지 판단하도록 구성되는, 서버.
제11 항에 있어서,
상기 제어부는, 상기 획득된 스펙트로그램에 대하여 리사이징(Resizing), 스케일링(Scaling) 및 RGB 변환 중 적어도 하나의 전처리를 수행하고,
전처리된 스펙트로그램을 상기 기침 판별 모델을 이용하여, 상기 획득된 스펙트로그램이 기침 구간인지 판별하도록 구성되는, 서버.
제11 항에 있어서,
상기 기침 판별 모델은, 스펙트로그램 데이터를 입력받아 기침 또는 비기침으로 분류하도록 학습된 분류모델이고,
상기 스펙트로그램 데이터는, 시간도메인에서 기 결정된 길이를 가지는 스펙트토그램 이미지인, 서버.
제14 항에 있어서,
상기 기침 판별 모델은 상기 스펙트로그램 데이터 및 상기 스펙트로그램 데이터에 라벨링된 태깅 정보를 포함하는 학습 데이터 셋을 이용하여 학습되고,
상기 태깅 정보는 상기 스펙트로그램 데이터가 기침에 대응되는 소리를 포함하는지 여부에 관한 정보를 포함하는, 서버.