KR102484006B1

KR102484006B1 - 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치

Info

Publication number: KR102484006B1
Application number: KR1020210005571A
Authority: KR
Inventors: 임선; 김철기
Original assignee: 가톨릭대학교 산학협력단
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2022-12-30
Also published as: US20240021096A1; KR20220102974A; WO2022154217A1

Abstract

음성 자가 훈련을 위한 사용자 단말 장치는 사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치, 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치, 상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치, 상기 제1 가이드 콘텐츠를 출력하는 출력장치 및 상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함한다. 상기 연산장치는 상기 사용자의 음성에 대한 평가 결과에 따라 상기 음성 훈련 후보 프로그램들 중 제2 음성 훈련 프로그램을 선택하고, 상기 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 생성하고, 상기 출력장치는 상기 제2 가이드 콘텐츠를 출력한다.

Description

음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치{VOICE SELF-PRACTICE METHOD FOR VOICE DISORDERS AND USER DEVICE FOR VOICE THERAPY}

이하 설명하는 기술은 음성 자가 훈련을 위한 방법 및 장치에 관한 것이다.

음성 장애는 다양한 원인으로 발생할 수 있다. 음성 장애는 음성 남용, 외상이나 염증 등에 의한 기질적 장애와 스트레스나 신경계 질환에 의한 기능적 장애로 구분할 수 있다. 음성 장애를 치료하는 방법은 다양하며 기본적으로 음성 발성을 통한 음성 치료가 널리 사용된다.

Effect of Voice Reinforcement Method for Treatment of Vocal Nodules: Preliminary Study, Journal of the Korean Society of Laryngology, Phoniatrics and Logopedics, Volume 31 Issue 1, Pages.13-18, 2020

음성 치료는 의료진이 대면 진료를 통하여 환자에게 적절한 발성 훈련을 제시하는 방식이다. 전통적인 음성 치료 방식은 전문 지식을 가진 의료진을 통해 제공된다는 점에서 음성 장애 환자가 보편적으로 이용하기 어려울 수 있다.

이하 설명하는 기술은 IT 기술을 이용하여 스마트폰과 같은 사용자 단말을 통하여 음성 자가 훈련을 제공하고자 한다. 다만, 자가 훈련 경우 고령 환자는 청력 손실로 자신의 발성을 정확하게 인지하기 어렵다는 한계가 있다. 이하 설명하는 기술은 고령 환자도 직감적으로 자신의 발성의 상태를 파악할 수 있는 음성 자가 훈련을 제공하고자 한다.

음성 장애 환자를 위한 음성 자가 훈련 방법은 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계, 상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계, 상기 사용자 단말이 상기 음성을 분석하여 평가하는 단계, 상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계 및 상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함한다.

다른 측면에서 음성 장애 환자를 위한 음성 자가 훈련 방법은 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계, 상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계, 상기 사용자 단말이 상기 음성의 평가 결과를 진단자 단말로부터 수신하는 단계, 상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계 및 상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함한다.

상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이다.

이하 설명하는 기술은 환자가 사용자 단말을 통하여 쉽게 자가 훈련을 할 수 있게 한다. 이하 설명하는 기술은 시각적 객체를 이용하여 고령의 환자도 쉽게 자신의 발성 상태(발성 강도, 발성의 변화 등)를 파악하게 한다.

도 1은 음성 자가 훈련 시스템에 대한 예이다.
도 2는 음성 자가 훈련 시스템에 대한 다른 예이다.
도 3은 사용자의 음성 평가 및 음성 훈련 프로그램 제공하는 과정에 대한 예이다.
도 4는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 예이다.
도 5는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 다른 예이다.
도 6은 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 또 다른 예이다.
도 7은 음성 훈련 프로그램에 사용자 출력의 피드백에 대한 예이다.
도 8은 사용자 단말 장치에 대한 예이다.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

이하 설명하는 기술은 사용자가 사용자 단말 장치를 이용하여 자가 음성 훈련하는 기법이다. 사용자 단말 장치는 음성 입력, 음성 신호 처리 및 일정 정보 출력이 가능한 장치이다. 예컨대, 사용자 단말 장치는 PC, 노트북, 스마트폰, 스마트 기기, 스마트워치, 웨어러블 기기, 스마트 TV 등과 같은 장치일 수 있다.

도 1은 음성 자가 훈련 시스템(100)에 대한 예이다.

사용자(A)는 음성 장애 환자라고 가정한다. 사용자(A)는 사용자 단말 장치(110)를 이용하여 음성 자가 훈련을 진행한다. 도 1에서 사용자 단말 장치(110)는 PC 및 스마트폰을 예로 도시하였다.

사용자 단말 장치(110)는 음성 훈련을 위한 프로그램(이하 음성 훈련 프로그램)을 제공한다. 음성 훈련 프로그램은 다양한 음성 자가 훈련을 위한 프로그램이다. 여기서 프로그램은 훈련 콘텐츠를 의미한다. 사용자 단말 장치(110)는 사용자가 선택한 특정한 음성 훈련 프로그램을 제공할 수 있다. 사용자 단말 장치(110)는 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력한다. 가이드 콘텐츠는 시간의 흐름에 따라 사용자가 발성해야 할 음의 길이, 음의 높이, 음의 강도와 같은 정보를 사용자에게 손쉽게 전달하기 위한 정보이다. 가이드 콘텐츠에 대한 자세한 설명은 후술한다.

사용자는 사용자 단말 장치(110)에 출력되는 가이드 콘텐츠를 보고 현재 시점에 맞는 발성을 발화(출력)할 수 있다. 사용자 단말 장치(110)는 사용자로부터 음성 훈련 프로그램에 따른 음성을 입력받는다. 사용자가 음성 훈련 프로그램을 따라 발화한 음성을 훈련 음성이라고 명명한다.

사용자 단말 장치(110)는 훈련 음성을 평가자 단말(150)에 전달할 수 있다. 평가자 단말(150)은 훈련 음성에 대한 평가를 수행한다. 평가자 단말(150)은 훈련 음성을 출력하고, 출력된 훈련 음성을 평가자가 평가한 결과를 입력받을 수 있다. 이는 평가자의 주관적 평가를 의미한다. 평가자는 의료진일 수 있다.

한편, 훈련 음성의 평가는 자동으로 수행될 수도 있다. 평가자 단말(150)이 훈련 음성을 분석하여 평가 결과를 산출할 수도 있다. 음성 신호 분석은 다양한 기술이 사용될 수 있다. 음성 신호 분석은 주파수 대역에서의 특징을 기준으로 수행될 수 있다. 음성 신호 분석은 학습 모델(딥러닝 모델 등)을 이용하여 수행될 수도 있다.

사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과를 피드백 받는다. 나아가, 사용자 단말 장치(110)가 음성 평가 모델을 이용하여 훈련 음성을 분석하여 평가할 수도 있다.

또한, 사용자 단말 장치(110)는 평가자 단말(150)로부터 사용자 (A)에 대한 진단 정보를 수신할 수 있다. 사용자 단말 장치(110)는 사용자의 의료 정보를 보유한 별도의 객체로부터 진단 정보를 수신할 수도 있다. 예컨대, 사용자 단말 장치(110)는 병원의 EMR(Electronic Medical Record)로부터 진단 정보를 수신할 수 있다. 진단 정보는 인지 기능에 대한 평가 정보일 수 있다. 예컨대, 진단 정보는 MMSE(Mini-Mental State Examination) 점수일 수 있다. 진단 정보는 사용자 (A)에 대한 언어 장애 관련된 정보이다.

사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수 있다. 사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과 및 진단 정보를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수도 있다.

사용자 단말 장치(110)는 새롭게 선택된 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력할 수 있다. 사용자 (A)는 새로운 음성 훈련 프로그램에 따라 음성 훈련을 수행한다.

도 2는 음성 자가 훈련 시스템(200)에 대한 다른 예이다. 음성 자가 훈련 시스템(200)은 음성 훈련을 위한 서버를 이용하는 시스템에 해당한다.

사용자(A)는 음성 장애 환자라고 가정한다.

서비스 서버(220)가 음성 훈련 프로그램을 사용자 단말 장치(210)에 제공한다. 도 2에서 사용자 단말 장치(210)는 PC 및 스마트폰을 예로 도시하였다.

사용자 단말 장치(210)는 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력한다. 가이드 콘텐츠는 시간의 흐름에 따라 사용자가 발성해야 할 음의 길이, 음의 높이, 음의 강도와 같은 정보를 사용자에게 손쉽게 전달하기 위한 정보이다.

사용자는 사용자 단말 장치(210)에 출력되는 가이드 콘텐츠를 보고 현재 시점에 맞는 발성을 발화(출력)할 수 있다. 사용자 단말 장치(210)는 사용자로부터 음성 훈련 프로그램에 따른 훈련 음성을 입력받는다.

사용자 단말 장치(110)는 훈련 음성을 서비스 서버(220)에 전달할 수 있다. 서비스 서버(220)는 훈련 음성을 평가자 단말(250)에 전달할 수 있다. 평가자 단말(250)은 훈련 음성을 출력하고, 출력된 훈련 음성을 평가자가 평가한 결과를 입력받을 수 있다. 평가자는 의료진일 수 있다.

한편, 훈련 음성의 평가는 자동으로 수행될 수도 있다. 평가자 단말(250)이 훈련 음성을 분석하여 평가 결과를 산출할 수도 있다. 음성 신호 분석은 다양한 기술이 사용될 수 있다. 음성 신호 분석은 주파수 대역에서의 특징을 기준으로 수행될 수 있다. 음성 신호 분석은 학습 모델(딥러닝 모델 등)을 이용하여 수행될 수도 있다.

서비스 서버(220)는 훈련 음성에 대한 평가 결과를 피드백 받는다. 나아가, 서비스 서버(220)가 음성 평가 모델을 이용하여 훈련 음성을 분석하여 평가할 수도 있다.

또한, 서비스 서버(220)는 평가자 단말(150)로부터 사용자 (A)에 대한 진단 정보를 수신할 수 있다. 서비스 서버(220)는 사용자의 의료 정보를 보유한 별도의 객체로부터 진단 정보를 수신할 수도 있다. 예컨대, 서비스 서버(220)는 병원의 EMR로부터 진단 정보를 수신할 수 있다. 진단 정보는 인지 기능에 대한 평가 정보일 수 있다. 예컨대, 진단 정보는 MMSE 점수일 수 있다. 진단 정보는 사용자 (A)에 대한 언어 장애 관련된 정보이다.

서비스 서버(220)는 훈련 음성에 대한 평가 결과를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수 있다. 훈련 데이터베이스(DB, 225)는 다양한 음성 훈련 프로그램들을 저장한다. 서비스 서버(220)는 훈련 데이터베이스(225)가 보유한 음성 훈련 프로그램들 중 평가 결과에 매칭되는 음성 훈련 프로그램을 선택할 수 있다. 서비스 서버(220)는 훈련 음성에 대한 평가 결과 및 진단 정보를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수도 있다.

서비스 서버(220)는 새롭게 선택된 음성 훈련 프로그램을 사용자 단말 장치(210)에 전달할 수 있다. 사용자 단말 장치(210)는 새로운 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력할 수 있다. 사용자 (A)는 새로운 음성 훈련 프로그램에 따라 음성 훈련을 수행한다.

도 3은 사용자의 음성 평가 및 음성 훈련 프로그램 제공하는 과정에 대한 예이다. 도 3은 도 1의 사용자 단말 장치(110)를 기준으로 음성 훈련을 제공하는 과정에 대한 예이다.

사용자 단말 장치(110)는 음성 훈련 프로그램을 제공한다.

훈련 데이터베이스(115)는 다양한 음성 훈련 프로그램들을 사전에 저장한다. 음성 훈련 프로그램들은 각각 훈련 내용이 다르다. 음성 훈련 프로그램은 음성 장애의 유형이나 환자의 특징에 따라 다른 내용을 가질 수 있다. 훈련 데이터베이스(115)는 환자의 장애 유형에 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 훈련 데이터베이스(115)는 음성 평가 결과와 장애 유형에 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 훈련 데이터베이스(115)는 음성 평가 결과 및 진단 정보와 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 도 3의 훈련 데이터베이스(115)는 음성 평가 결과/진단 정보와 매칭되는 음성 훈련 프로그램들을 저장하는 예를 도시한다. 매칭 테이블은 환자의 특성을 정의하는 기준(장애 유형, 음성 평가 결과 및 진단 정보 중 적어도 하나)와 해당 기준에 따른 장애를 치료할 수 있는 음성 훈련 프로그램을 저장할 수 있다. 이때, 해당 기준과 기준에 매칭되는 음성 훈련 프로그램은 의료진에 의하여 사전에 결정될 수 있다.

사용자(A)는 사용자 단말 장치(110)를 이용하여 음성 자가 훈련을 진행한다. 먼저 사용자(A)는 음성 훈련에 사용할 음성 훈련 프로그램을 선택할 수 있다(①). 사용자(A)는 사용자 단말 장치(110)가 제공하는 훈련 정보를 기준으로 음성 훈련 프로그램을 선택할 수 있다. 또는 사용자(A)는 기본적으로 설정된(default) 음성 훈련 프로그램을 선택할 수도 있다. 이때 선택된 음성 훈련 프로그램을 제1 음성 훈련 프로그램이라고 가정한다. 제1 음성 훈련 프로그램은 음성 평가용 표본 수집을 위한 것일 수도 있다. 예컨대, 제1 음성 훈련 프로그램은 단순 모음('아'，'이'，'우'，'에'，'오')을 일정한 높이와 강도로 2~3초간 발성하는 프로그램일 수 있다.

사용자 단말 장치(110)는 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 화면에 출력한다(②). 사용자 단말 장치(110)는 사용자(A)로부터 제1 가이드 콘텐츠를 따라 출력한 훈련 음성을 입력받는다(③).

전술한 바와 같이 사용자 단말 장치(110)는 훈련 음성을 내장된 평가 모델을 이용하여 자체적으로 평가할 수도 있다. 또는 사용자 단말 장치(110)는 훈련 음성을 평가자 단말(150)에 전송할 수 있다(④).

평가자 단말(150)은 내장된 평가 모델을 이용하여 훈련 음성을 평가할 수 있다. 또는 평가자 단말(150)은 훈련 음성을 출력하고, 평가자로부터 일정한 지표에 따른 평가 점수를 입력받을 수도 있다.

평가자 단말(150)은 훈련 음성에 대한 평가 결과를 사용자 단말 장치(110)에 전달한다(⑤).

사용자 단말 장치(110)는 평가 결과를 기준으로 훈련 데이터베이스(115)에서 매칭되는 훈련 프로그램을 선택할 수 있다. 한편, 사용자 단말 장치(110)는 EMR(155)로부터 사용자 (A)의 진단 정보(MMSE 점수 등)를 수신할 수 있다. 이 경우 사용자 단말 장치(110)는 평가 결과 및 진단 정보를 기준으로 훈련 데이터베이스(115)에서 매칭되는 훈련 프로그램을 선택할 수 있다. 사용자 단말 장치(110)는 선택한 음성 훈련 프로그램을 제2 음성 훈련 프로그램으로 재설정한다(⑥).

사용자 단말 장치(110)는 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 화면에 출력한다(⑦). 사용자 (A)는 제2 가이드 콘텐츠에 따라 음성 훈련을 수행한다.

사용자(A)는 도 3에 설명한 방식에 따라 반복적으로 음성 훈련을 할 수 있다. 이를 통해 사용자(A)는 현재 자신의 상태에 최적인 음성 훈련을 수행할 수 있다. 예컨대, 음성 장애가 호전되면 사용자(A)는 그에 맞는 음성 훈련 프로그램을 제공받게되는 것이다.

사용자 음성을 평가하는 기법에 대하여 간략하게 설명한다. 평가 기법은 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나일 수 있다. 이 중 GRBAS를 예로 설명한다.

GRBAS는 종합애성도(Grade : G), 조조성(Rough : R), 기식성(Breathy : B), 노력성(Strinned: S) 및 무력성(Asthenic : A)인 5개의 평가항목으로 구성된다. 평가 척도는 0,1,2,3의 4단계로 점수화된다. 여기서 0은 정상이고 3은 음질이 가장 좋지 못한 상태를 나타낸다. 사용자는 '아'，'이'，'우'，'에'，'오'와 같은 단순 모음을 일정한 높이과 강도로 2초간 발성하고, 이를 대상으로 평가할 수 있다.

조조성(R)은 성대 진동이 불규칙하여 나는 소리로 거친 소리 흑은 불쾌한 소리로 표현할 수 있으며 불규칙한 성대 진동으로 연하여 기본주파수나 진폭이 불규칙하고 낮은 주파수 대역에서 잡음이 발생하는 소리이다. 기식성(B)은 성문페쇄부전으로 연한 공기가 새는 소리로 중음역 이하 대역의 잡음이다. 무력성(A)은 성대긴장부전에 의한 연약한 인상의 가냘픈 소리로 고음역에서 잡음 성분이 있고 기본주파수냐 진폭이 원만하게 하강하여 발성이 끝나는 현상이 있다. 노력성(S)은 성대가 비정상적으로 과긴장상태이거나 성대가 과도하게 단단하여 무리하게 힘을들여서 나는 소리이며 기본주파수가 높고 고음역에서 잡음과 조파성분의 증가가 있다. 종합애성도(G)는 상기의 여러 항목을 종합한 애성의 전체적인 인상을 의미한다.

평가자가 사용자 (A)의 훈련 음성을 기준으로 GRBAS 점수를 평가할 수 있다. 나아가, 사용자 단말 장치(110), 평가자 단말(150, 250) 또는 서비스 서버(220)가 사전에 구축된 평가 모델을 이용하여 훈련 음성을 평가할 수 있다. 설명한 바와 같이 GRBAS의 각 항목은 주파수별 특성을 기준으로 평가될 수 있다. 따라서, 평가 모델은 입력되는 훈련 음성을 주파수 대역으로 변환하고, 이를 기준으로 GRBAS 점수를 산출할 수 있다.

사용자 단말 장치(110) 또는 서비스 서버(220)는 평가 결과에 따라 사용자 (A)에 대한 음성 훈련 프로그램을 선택할 수 있다.

(1) 고령이고 목소리가 크기가 작아 거의 발성이 안 들리는 환자는 무력성(A) 점수가 가장 높을 수 있다. 이 경우 사용자 단말 장치(110) 또는 서비스 서버(220)는 목소리 강도를 높이는 방향으로 음성 훈련 프로그램을 변경하여 제공할 수 있다. 또한, 사용자 단말 장치(110, 210)는 목소리 강도를 직접 화면에서 확인할 수 있도록 사용자의 발화 음성에 대한 정보를 제공할 수도 있다.

(2) 뇌졸중 이후, 성대마비로 목소리에서 “쇠”소리가 들리는 환자는 조조성(R) 점수가 높을 수 있다. 이 경우 사용자 단말 장치(110) 또는 서비스 서버(220)는 발성시 음파의 불규칙성을 규칙적인 음성을 발성하도록 음성 훈련 프로그램을 제공할 수 있다. 또한, 사용자 단말 장치(110, 210)는 사용자(A)가 불규칙적인 음파를 발성하면, 이를 화면에 시각적으로 표시하여 피드백할 수 있다.

이하 음성 훈련 프로그램에 따라 사용자 단말 장치(110, 210)가 화면에 출력하는 가이드 콘텐츠에 대하여 설명한다.

도 4는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 예이다. 도 4는 사용자의 발화음을 일정한 파장 형태로 표현한 예이다.

도 4에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 4에서 세로축은 음의 높이를 나타낼 수 있다. 여기서 음의 높이는 피치(pitch)를 의미한다. 음의 높이는 주파수로 표현될 수 있다. 물론, 가이드 콘텐츠는 도 4와 다른 방식도 가능하다. 예컨대, 세로축이 음의 강도를 나타낼 수 있다. 음의 강도는 음파의 진폭(dB)로 표현될 수 있다.

도 4(A)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다. 가이드 콘텐츠는 음의 높이, 음의 높이의 변화 정도, 일정한 음의 발성 등으로 표현할 수 있다. 예컨대, D2 구간은 D1 구간에 비하여 음의 높이가 급격하게 높아진다.

도 4(B)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 다른 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다. 또한, 음파 형태를 나타내는 시각적 객체의 명암 또는 굵기로 음의 강도를 나타낼 수 있다. 예컨대, D2 구간은 D1 구간에 비하여 어둡게 표현되는데 이는 D2 구간에서 D1보다 강한 강도로 발성해야 하는 것으로 나타낼 수 있다.

도 4에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 도 4에서 가이드 콘텐츠는 음성에 대한 파형 객체이다. 파형 객체는 파형의 길이 및 높이로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타낼 수 있다. 또는 파형을 나타내는 객체의 특징(음영, 굵기 등)으로 음의 높이 내지 강도를 표현할 수도 있다.

도 5는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 다른 예이다. 도 5는 도 4와 같은 파형 객체인 가이드 콘텐츠를 도시한다. 도 5는 화면에 부가 정보를 출력한다.

도 5(A)는 음의 발성 방법을 추가로 표현하는 가이드 콘텐츠에 대한 예이다. 도 5(A)에서 B 영역에 추가 정보를 도시한다. D1 구간은 작은 원을 표시한다. 작은 원은 발성을 짧게 나누는 스타카토(staccato) 방식을 나타낸다. D2 구간은 물결 모양을 표시한다. 물결 모양은 음을 길게 늘려서 발성하는 레가토(legato) 방식을 나타낸다. 물론, 음을 발성하는 방식이나 해당 방식을 표현하는 객체는 도 5(A)와 다를 수 있다.

도 5(B)는 음의 발성 방법을 추가로 표현하는 가이드 콘텐츠에 대한 다른 예이다. 도 5(B)에서 C 영역에 추가 정보를 도시한다. C 영역에 표시되는 정보는 음의 강도 내지 조금 추상적인 발성 방법을 표현한다. D1 구간은 구름 객체를 표시한다. 구름 객체는 음을 부드럽게 내지 약하게 발성하는 방식을 나타낼 수 있다. D2 구간은 캔버스에 표현되는 객체 내지 스크래치(scratched)를 갖는 객체를 표시한다. D2의 객체는 음을 강하게 발성하는 방식을 나타낼 수 있다. 물론, 음을 발성하는 방식이나 해당 방식을 표현하는 객체는 도 5(B)와 다를 수 있다.

도 5에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 나아가 도 5의 가이드 콘텐츠는 추가적인 발성 방식을 표현할 수 있다.

도 6은 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 또 다른 예이다. 도 6은 파형 객체가 아는 다른 시각적 객체로 가이드 콘텐츠를 구성한 예이다. 시각적 객체는 도형, 캐릭터 등일 수 있다. 캐릭터는 동물, 사람, 애니메이션 등에 등장하는 시각적 객체일 수 있다. 도 6은 일정한 도형 객체를 도시한다. 다만, 가이드 콘텐츠는 도 6과 다른 도형 객체를 사용할 수도 있고, 도형 객체 대신 캐릭터 객체를 사용할 수도 있다.

도 6(A)에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 6(A)는 마름모 모양의 객체를 도시한다. 마름모 객체의 크기는 음의 높이 내지 강도를 표현할 수 있다. 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. 가이드 콘텐츠는 음이 출력되는 구간, 음의 높이 내지 강도를 표현할 수 있다.

도 6(B)에서 가로축은 시간이다. 세로축은 음의 높이를 나타낼 수 있다. 도 6(B)는 원형 객체를 도시한다. 세로축에서 원형 객체의 위치는 음의 높이를 나타낸다. 원형 객체의 크기는 음의 강도를 나타낼 수 있다. 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. 가이드 콘텐츠는 음이 출력되는 구간, 음의 높이 내지 강도를 표현할 수 있다.

물론, 도 6과 같은 가이드 콘텐츠도 도 5와 같은 부가 정보를 화면에 표시할 수 있다.

도 6에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 도 6에서 가이드 콘텐츠는 음성에 대한 도형 객체이다. 도형 객체는 도형의 위치 및 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타낼 수 있다. 나아가 도형 객체의 특징(음영, 굵기 등)으로 음의 강도 또는 다른 정보를 표현할 수도 있다.

도 7은 음성 훈련 프로그램에 사용자 출력의 피드백에 대한 예이다. 도 7은 도 가이드 콘텐츠가 출력되는 화면에 사용자가 실제 발화하는 음성에 대한 정보를 표현한 예이다. 사용자는 자신이 실제 발성한 음에 대한 정보를 보고 현재 시점의 발성을 조절하면서 훈련에 임할 수 있다. 도 7에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 7에서 세로축은 음의 높이를 나타낼 수 있다.

도 7(A)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다.

도 7(A)에서 사용자가 출력하는 음성은 파형 F로 표현한다. 사용자가 출력하는 음성에 대한 시각적 객체를 피드백 객체라고 명명한다. D1 구간은 가이드 콘텐츠인 파형 객체와 피드백 객체가 거의 동일하다. D2 구간은 파형 객체에 비하여 피드백 객체가 더 큰값으로 출력된다. 따라서, 사용자는 D2 구간의 피드백 객체를 보고 자신의 음성이 의도보다 높은 음으로 발성되었다는 것을 알 수 있다. 이후 사용자는 조금 낮은 음이 발성되도록 조절하면서 훈련에 임할 수 있다.

도 7(B)에서 사용자가 출력하는 음성은 파형 F로 표현한다. 도 7(B)는 사용자의 음성이 불규칙한 경우를 표현한 예이다. D1 구간은 피드백 객체가 곧은 직선 형태로 표현되어 사용자가 안정적인 음을 출력하는 것을 표현한다. D2 구간은 톱니 모양의 피드백 객체를 나타낸다. 톱니 모양은 사용자가 불규칙한 음을 출력하는 것을 나타낸다. 따라서, 사용자는 D2 구간의 피드백 객체를 보고 자신의 음성이 의도와 달리 불규칙하게 발성되었다는 것을 알 수 있다. 이후 사용자는 최대한 안정적인 음을 발성하도록 조절하면서 훈련에 임할 수 있다.

물론, 도 7과 다른 형태의 피드백 객체가 사용될 수도 있다. 예컨대, 사용자가 불규칙한 음을 발성하는 경우, 사용자 단말 장치는 흔들리는 객체를 출력할 수 있다.

도 8은 사용자 단말 장치(300)에 대한 예이다. 도 8의 사용자 단말 장치(300)는 도 1 내지 도 2의 사용자 단말 장치(110, 210)에 해당한다. 사용자 단말 장치(300)는 스마트기기, PC, 웨어러블 기기 등 다양한 형태로 구현될 수 있다.

사용자 단말 장치(300)는 저장 장치(310), 메모리(320), 연산장치(330), 인터페이스 장치(340), 통신 장치(350), 마이크(360) 및 출력장치(370)를 포함할 수 있다.

저장 장치(310)는 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장한다. 저장 장치(310)는 사용자 단말 장치(300)에 내장된 장치일 수 있다. 나아가 저장 장치(310)는 사용자 단말 장치(300)와 유선 또는 무선으로 연결된 별도의 저장 매체일 수도 있다.

음성 훈련 프로그램은 시간과 함께 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간 중 적어도 2개의 요소로 정의될 수 있다.

저장 장치(310)는 사용자의 훈련 음성을 저장할 수 있다.

저장 장치(310)는 훈련 음성을 평가하는 평가 모델을 저장할 수 있다.

저장 장치(310)는 훈련 음성을 평가한 평가 결과를 저장할 수도 있다.

메모리(320)는 사용자 단말 장치(300)가 음성 훈련 프로그램에 따른 가이드 콘텐츠를 제공하는 과정에서 발생하는 임시 데이터를 저장할 수 있다.

인터페이스 장치(340)는 사용자로부터 일정한 명령 내지 정보를 입력받는 장치이다. 인터페이스 장치(340)는 외부 입력장치로부터 일정한 명령 내지 데이터를 입력받을 수 있다. 인터페이스 장치(340)는 음성 훈련 프로그램에 대한 사용자의 선택 명령을 입력받을 수 있다.

통신 장치(350)는 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신 장치(350)는 평가자 단말과 같은 외부 객체로 훈련 음성을 송신할 수 있다. 또한, 통신 장치(350)는 훈련 음성에 대한 평가 결과를 수신할 수도 있다. 통신 장치(350)는 EMR 서버와 같은 외부 객체로부터 사용자의 진단 정보(MMSE 점수 등)를 수신할 수 있다.

통신 장치(350) 내지 인터페이스 장치(340)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신 장치(350) 내지 인터페이스 장치(340)를 입력장치라고 명명할 수도 있다.

연산 장치(330)는 사용자의 선택에 따라 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성한다.

연산 장치(330)는 훈련 음성에 대한 평가 결과를 기준으로 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성할 수 있다.

연산 장치(330)는 훈련 음성에 대한 평가 결과 및 사용자의 진단 정보를 기준으로 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성할 수 있다.

연산 장치(330)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.

마이크(360)는 사용자의 음성을 입력받는다. 마이크(360)는 가이드 콘텐츠를 보고 사용자가 발성하는 훈련 음성을 입력받는다.

출력 장치(370)는 자가 훈련 과정에 필요한 인터페이스 화면을 출력할 수 있다. 출력 장치(370)는 음성 훈련 프로그램에 따른 가이드 콘텐츠를 출력한다. 출력 장치(370)는 사용자 음성에 대한 피드백 객체를 출력할 수 있다.

출력 장치(370)는 음성 훈련 프로그램에 대한 설명을 출력할 수 있다.

또한, 상술한 바와 같은 음성 자가 훈련 방법 및 사용자 단말 장치의 동작 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

일시적 판독 가능 매체는 스태틱 램(Static RAM，SRAM), 다이내믹 램(Dynamic RAM，DRAM), 싱크로너스 디램 (Synchronous DRAM，SDRAM), 2배속 SDRAM(Double Data Rate SDRAM，DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM，ESDRAM), 동기화 DRAM(Synclink DRAM，SLDRAM) 및 직접 램버스 램(Direct Rambus RAM，DRRAM) 과 같은 다양한 RAM을 의미한다.

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims

사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계;
상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계;
상기 사용자 단말이 상기 음성을 분석하여 평가하는 단계;
상기 사용자 단말이 상기 평가 결과에 따라 상기 사용자의 상태에 매칭되는 훈련 프로그램에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계; 및
상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함하되,
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이고,
상기 시각적 객체는 도형 또는 캐릭터이고,
상기 시각적 객체는 특정 위치 기준한 상기 시각적 객체의 상대적 위치 및 상기 시각적 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내고,
음의 발성 방식에 따라 다른 종류의 시각적 객체가 출력되되, 상기 음의 발성 방식은 발성을 짧게 나누는 스타카토, 음을 길게 늘려서 발성하는 레가토, 약한 발성 및 강한 발성을 포함하는 음성 장애 환자를 위한 음성 자가 훈련 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 사용자 단말이 상기 제1 가이드 콘텐츠 또는 상기 제2 가이드 콘텐츠에 따라 사용자가 출력하는 음성의 길이, 음성의 높이, 음성의 강도 및 음성 발화의 안정도를 나타내는 그래픽 객체를 화면에 출력하는 단계를 더 포함하는 음성 장애 환자를 위한 음성 자가 훈련 방법.
제1항에 있어서,
상기 사용자 단말은 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나의 평가 기준에 따른 상기 평가 결과를 산출하는 음성 장애 환자를 위한 음성 자가 훈련 방법.
사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계;
상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계;
상기 사용자 단말이 상기 음성의 평가 결과를 진단자 단말로부터 수신하는 단계;
상기 사용자 단말이 상기 평가 결과에 따라 상기 사용자의 상태에 매칭되는 훈련 프로그램에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계; 및
상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함하되,
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이고,
상기 음성 훈련 프로그램은 연속된 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간으로 정의되고,
상기 시각적 객체는 도형 또는 캐릭터이고,
상기 시각적 객체는 특정 위치 기준한 상기 시각적 객체의 상대적 위치 및 상기 시각적 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내고,
음의 발성 방식에 따라 다른 종류의 시각적 객체가 출력되되, 상기 음의 발성 방식은 발성을 짧게 나누는 스타카토, 음을 길게 늘려서 발성하는 레가토, 약한 발성 및 강한 발성을 포함하는 음성 장애 환자를 위한 음성 자가 훈련 방법.
삭제
삭제
사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치;
사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치;
상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치;
상기 제1 가이드 콘텐츠를 출력하는 출력장치; 및
상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함하고,
상기 연산장치는 상기 사용자의 음성에 대한 평가 결과에 따라 상기 음성 훈련 후보 프로그램들 중 제2 음성 훈련 프로그램을 선택하고, 상기 제2 음성 훈련 프로그램에 따라 상기 사용자의 상태에 매칭되는 훈련 프로그램에 따른 제2 가이드 콘텐츠를 생성하고, 상기 출력장치는 상기 제2 가이드 콘텐츠를 출력하고,
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이고,
상기 시각적 객체는 도형 또는 캐릭터이고,
상기 시각적 객체는 특정 위치 기준한 상기 시각적 객체의 상대적 위치 및 상기 시각적 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내고,
음의 발성 방식에 따라 다른 종류의 시각적 객체가 출력되되, 상기 음의 발성 방식은 발성을 짧게 나누는 스타카토, 음을 길게 늘려서 발성하는 레가토, 약한 발성 및 강한 발성을 포함하는 음성 자가 훈련을 위한 사용자 단말 장치.
삭제
삭제
삭제
제10항에 있어서,
상기 출력장치는 상기 제1 가이드 콘텐츠 또는 상기 제2 가이드 콘텐츠에 따라 사용자가 출력하는 음성의 길이, 음성의 높이, 음성의 강도 및 음성 발화의 안정도를 나타내는 그래픽 객체를 화면에 출력하는 음성 자가 훈련을 위한 사용자 단말 장치.
제10항에 있어서,
상기 평가 결과는 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나의 평가 기준에 따른 분석 결과인 음성 자가 훈련을 위한 사용자 단말 장치.