KR102484006B1 - 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 - Google Patents
음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 Download PDFInfo
- Publication number
- KR102484006B1 KR102484006B1 KR1020210005571A KR20210005571A KR102484006B1 KR 102484006 B1 KR102484006 B1 KR 102484006B1 KR 1020210005571 A KR1020210005571 A KR 1020210005571A KR 20210005571 A KR20210005571 A KR 20210005571A KR 102484006 B1 KR102484006 B1 KR 102484006B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- training
- user
- guide content
- sound
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 50
- 208000011293 voice disease Diseases 0.000 title claims description 12
- 238000002560 therapeutic procedure Methods 0.000 title description 4
- 238000012549 training Methods 0.000 claims abstract description 122
- 238000011156 evaluation Methods 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 26
- 230000000007 visual effect Effects 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000001755 vocal effect Effects 0.000 claims description 5
- 206010003549 asthenia Diseases 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 13
- 238000003745 diagnosis Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000013210 evaluation model Methods 0.000 description 7
- 230000001788 irregular Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 208000035475 disorder Diseases 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 230000003920 cognitive function Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 208000011977 language disease Diseases 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- QNRATNLHPGXHMA-XZHTYLCXSA-N (r)-(6-ethoxyquinolin-4-yl)-[(2s,4s,5r)-5-ethyl-1-azabicyclo[2.2.2]octan-2-yl]methanol;hydrochloride Chemical compound Cl.C([C@H]([C@H](C1)CC)C2)CN1[C@@H]2[C@H](O)C1=CC=NC2=CC=C(OCC)C=C21 QNRATNLHPGXHMA-XZHTYLCXSA-N 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 208000014094 Dystonic disease Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 208000013200 Stress disease Diseases 0.000 description 1
- 208000005248 Vocal Cord Paralysis Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 208000010118 dystonia Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 201000009032 substance abuse Diseases 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/02—Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/02—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
- G09B7/04—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student characterised by modifying the teaching programme in response to a wrong answer, e.g. repeating the question, supplying a further explanation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Abstract
음성 자가 훈련을 위한 사용자 단말 장치는 사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치, 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치, 상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치, 상기 제1 가이드 콘텐츠를 출력하는 출력장치 및 상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함한다. 상기 연산장치는 상기 사용자의 음성에 대한 평가 결과에 따라 상기 음성 훈련 후보 프로그램들 중 제2 음성 훈련 프로그램을 선택하고, 상기 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 생성하고, 상기 출력장치는 상기 제2 가이드 콘텐츠를 출력한다.
Description
이하 설명하는 기술은 음성 자가 훈련을 위한 방법 및 장치에 관한 것이다.
음성 장애는 다양한 원인으로 발생할 수 있다. 음성 장애는 음성 남용, 외상이나 염증 등에 의한 기질적 장애와 스트레스나 신경계 질환에 의한 기능적 장애로 구분할 수 있다. 음성 장애를 치료하는 방법은 다양하며 기본적으로 음성 발성을 통한 음성 치료가 널리 사용된다.
Effect of Voice Reinforcement Method for Treatment of Vocal Nodules: Preliminary Study, Journal of the Korean Society of Laryngology, Phoniatrics and Logopedics, Volume 31 Issue 1, Pages.13-18, 2020
음성 치료는 의료진이 대면 진료를 통하여 환자에게 적절한 발성 훈련을 제시하는 방식이다. 전통적인 음성 치료 방식은 전문 지식을 가진 의료진을 통해 제공된다는 점에서 음성 장애 환자가 보편적으로 이용하기 어려울 수 있다.
이하 설명하는 기술은 IT 기술을 이용하여 스마트폰과 같은 사용자 단말을 통하여 음성 자가 훈련을 제공하고자 한다. 다만, 자가 훈련 경우 고령 환자는 청력 손실로 자신의 발성을 정확하게 인지하기 어렵다는 한계가 있다. 이하 설명하는 기술은 고령 환자도 직감적으로 자신의 발성의 상태를 파악할 수 있는 음성 자가 훈련을 제공하고자 한다.
음성 장애 환자를 위한 음성 자가 훈련 방법은 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계, 상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계, 상기 사용자 단말이 상기 음성을 분석하여 평가하는 단계, 상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계 및 상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함한다.
다른 측면에서 음성 장애 환자를 위한 음성 자가 훈련 방법은 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계, 상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계, 상기 사용자 단말이 상기 음성의 평가 결과를 진단자 단말로부터 수신하는 단계, 상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계 및 상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함한다.
음성 자가 훈련을 위한 사용자 단말 장치는 사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치, 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치, 상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치, 상기 제1 가이드 콘텐츠를 출력하는 출력장치 및 상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함한다. 상기 연산장치는 상기 사용자의 음성에 대한 평가 결과에 따라 상기 음성 훈련 후보 프로그램들 중 제2 음성 훈련 프로그램을 선택하고, 상기 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 생성하고, 상기 출력장치는 상기 제2 가이드 콘텐츠를 출력한다.
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이다.
이하 설명하는 기술은 환자가 사용자 단말을 통하여 쉽게 자가 훈련을 할 수 있게 한다. 이하 설명하는 기술은 시각적 객체를 이용하여 고령의 환자도 쉽게 자신의 발성 상태(발성 강도, 발성의 변화 등)를 파악하게 한다.
도 1은 음성 자가 훈련 시스템에 대한 예이다.
도 2는 음성 자가 훈련 시스템에 대한 다른 예이다.
도 3은 사용자의 음성 평가 및 음성 훈련 프로그램 제공하는 과정에 대한 예이다.
도 4는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 예이다.
도 5는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 다른 예이다.
도 6은 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 또 다른 예이다.
도 7은 음성 훈련 프로그램에 사용자 출력의 피드백에 대한 예이다.
도 8은 사용자 단말 장치에 대한 예이다.
도 2는 음성 자가 훈련 시스템에 대한 다른 예이다.
도 3은 사용자의 음성 평가 및 음성 훈련 프로그램 제공하는 과정에 대한 예이다.
도 4는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 예이다.
도 5는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 다른 예이다.
도 6은 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 또 다른 예이다.
도 7은 음성 훈련 프로그램에 사용자 출력의 피드백에 대한 예이다.
도 8은 사용자 단말 장치에 대한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 사용자가 사용자 단말 장치를 이용하여 자가 음성 훈련하는 기법이다. 사용자 단말 장치는 음성 입력, 음성 신호 처리 및 일정 정보 출력이 가능한 장치이다. 예컨대, 사용자 단말 장치는 PC, 노트북, 스마트폰, 스마트 기기, 스마트워치, 웨어러블 기기, 스마트 TV 등과 같은 장치일 수 있다.
도 1은 음성 자가 훈련 시스템(100)에 대한 예이다.
사용자(A)는 음성 장애 환자라고 가정한다. 사용자(A)는 사용자 단말 장치(110)를 이용하여 음성 자가 훈련을 진행한다. 도 1에서 사용자 단말 장치(110)는 PC 및 스마트폰을 예로 도시하였다.
사용자 단말 장치(110)는 음성 훈련을 위한 프로그램(이하 음성 훈련 프로그램)을 제공한다. 음성 훈련 프로그램은 다양한 음성 자가 훈련을 위한 프로그램이다. 여기서 프로그램은 훈련 콘텐츠를 의미한다. 사용자 단말 장치(110)는 사용자가 선택한 특정한 음성 훈련 프로그램을 제공할 수 있다. 사용자 단말 장치(110)는 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력한다. 가이드 콘텐츠는 시간의 흐름에 따라 사용자가 발성해야 할 음의 길이, 음의 높이, 음의 강도와 같은 정보를 사용자에게 손쉽게 전달하기 위한 정보이다. 가이드 콘텐츠에 대한 자세한 설명은 후술한다.
사용자는 사용자 단말 장치(110)에 출력되는 가이드 콘텐츠를 보고 현재 시점에 맞는 발성을 발화(출력)할 수 있다. 사용자 단말 장치(110)는 사용자로부터 음성 훈련 프로그램에 따른 음성을 입력받는다. 사용자가 음성 훈련 프로그램을 따라 발화한 음성을 훈련 음성이라고 명명한다.
사용자 단말 장치(110)는 훈련 음성을 평가자 단말(150)에 전달할 수 있다. 평가자 단말(150)은 훈련 음성에 대한 평가를 수행한다. 평가자 단말(150)은 훈련 음성을 출력하고, 출력된 훈련 음성을 평가자가 평가한 결과를 입력받을 수 있다. 이는 평가자의 주관적 평가를 의미한다. 평가자는 의료진일 수 있다.
한편, 훈련 음성의 평가는 자동으로 수행될 수도 있다. 평가자 단말(150)이 훈련 음성을 분석하여 평가 결과를 산출할 수도 있다. 음성 신호 분석은 다양한 기술이 사용될 수 있다. 음성 신호 분석은 주파수 대역에서의 특징을 기준으로 수행될 수 있다. 음성 신호 분석은 학습 모델(딥러닝 모델 등)을 이용하여 수행될 수도 있다.
사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과를 피드백 받는다. 나아가, 사용자 단말 장치(110)가 음성 평가 모델을 이용하여 훈련 음성을 분석하여 평가할 수도 있다.
또한, 사용자 단말 장치(110)는 평가자 단말(150)로부터 사용자 (A)에 대한 진단 정보를 수신할 수 있다. 사용자 단말 장치(110)는 사용자의 의료 정보를 보유한 별도의 객체로부터 진단 정보를 수신할 수도 있다. 예컨대, 사용자 단말 장치(110)는 병원의 EMR(Electronic Medical Record)로부터 진단 정보를 수신할 수 있다. 진단 정보는 인지 기능에 대한 평가 정보일 수 있다. 예컨대, 진단 정보는 MMSE(Mini-Mental State Examination) 점수일 수 있다. 진단 정보는 사용자 (A)에 대한 언어 장애 관련된 정보이다.
사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수 있다. 사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과 및 진단 정보를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수도 있다.
사용자 단말 장치(110)는 새롭게 선택된 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력할 수 있다. 사용자 (A)는 새로운 음성 훈련 프로그램에 따라 음성 훈련을 수행한다.
도 2는 음성 자가 훈련 시스템(200)에 대한 다른 예이다. 음성 자가 훈련 시스템(200)은 음성 훈련을 위한 서버를 이용하는 시스템에 해당한다.
사용자(A)는 음성 장애 환자라고 가정한다.
서비스 서버(220)가 음성 훈련 프로그램을 사용자 단말 장치(210)에 제공한다. 도 2에서 사용자 단말 장치(210)는 PC 및 스마트폰을 예로 도시하였다.
사용자 단말 장치(210)는 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력한다. 가이드 콘텐츠는 시간의 흐름에 따라 사용자가 발성해야 할 음의 길이, 음의 높이, 음의 강도와 같은 정보를 사용자에게 손쉽게 전달하기 위한 정보이다.
사용자는 사용자 단말 장치(210)에 출력되는 가이드 콘텐츠를 보고 현재 시점에 맞는 발성을 발화(출력)할 수 있다. 사용자 단말 장치(210)는 사용자로부터 음성 훈련 프로그램에 따른 훈련 음성을 입력받는다.
사용자 단말 장치(110)는 훈련 음성을 서비스 서버(220)에 전달할 수 있다. 서비스 서버(220)는 훈련 음성을 평가자 단말(250)에 전달할 수 있다. 평가자 단말(250)은 훈련 음성을 출력하고, 출력된 훈련 음성을 평가자가 평가한 결과를 입력받을 수 있다. 평가자는 의료진일 수 있다.
한편, 훈련 음성의 평가는 자동으로 수행될 수도 있다. 평가자 단말(250)이 훈련 음성을 분석하여 평가 결과를 산출할 수도 있다. 음성 신호 분석은 다양한 기술이 사용될 수 있다. 음성 신호 분석은 주파수 대역에서의 특징을 기준으로 수행될 수 있다. 음성 신호 분석은 학습 모델(딥러닝 모델 등)을 이용하여 수행될 수도 있다.
서비스 서버(220)는 훈련 음성에 대한 평가 결과를 피드백 받는다. 나아가, 서비스 서버(220)가 음성 평가 모델을 이용하여 훈련 음성을 분석하여 평가할 수도 있다.
또한, 서비스 서버(220)는 평가자 단말(150)로부터 사용자 (A)에 대한 진단 정보를 수신할 수 있다. 서비스 서버(220)는 사용자의 의료 정보를 보유한 별도의 객체로부터 진단 정보를 수신할 수도 있다. 예컨대, 서비스 서버(220)는 병원의 EMR로부터 진단 정보를 수신할 수 있다. 진단 정보는 인지 기능에 대한 평가 정보일 수 있다. 예컨대, 진단 정보는 MMSE 점수일 수 있다. 진단 정보는 사용자 (A)에 대한 언어 장애 관련된 정보이다.
서비스 서버(220)는 훈련 음성에 대한 평가 결과를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수 있다. 훈련 데이터베이스(DB, 225)는 다양한 음성 훈련 프로그램들을 저장한다. 서비스 서버(220)는 훈련 데이터베이스(225)가 보유한 음성 훈련 프로그램들 중 평가 결과에 매칭되는 음성 훈련 프로그램을 선택할 수 있다. 서비스 서버(220)는 훈련 음성에 대한 평가 결과 및 진단 정보를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수도 있다.
서비스 서버(220)는 새롭게 선택된 음성 훈련 프로그램을 사용자 단말 장치(210)에 전달할 수 있다. 사용자 단말 장치(210)는 새로운 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력할 수 있다. 사용자 (A)는 새로운 음성 훈련 프로그램에 따라 음성 훈련을 수행한다.
도 3은 사용자의 음성 평가 및 음성 훈련 프로그램 제공하는 과정에 대한 예이다. 도 3은 도 1의 사용자 단말 장치(110)를 기준으로 음성 훈련을 제공하는 과정에 대한 예이다.
사용자 단말 장치(110)는 음성 훈련 프로그램을 제공한다.
훈련 데이터베이스(115)는 다양한 음성 훈련 프로그램들을 사전에 저장한다. 음성 훈련 프로그램들은 각각 훈련 내용이 다르다. 음성 훈련 프로그램은 음성 장애의 유형이나 환자의 특징에 따라 다른 내용을 가질 수 있다. 훈련 데이터베이스(115)는 환자의 장애 유형에 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 훈련 데이터베이스(115)는 음성 평가 결과와 장애 유형에 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 훈련 데이터베이스(115)는 음성 평가 결과 및 진단 정보와 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 도 3의 훈련 데이터베이스(115)는 음성 평가 결과/진단 정보와 매칭되는 음성 훈련 프로그램들을 저장하는 예를 도시한다. 매칭 테이블은 환자의 특성을 정의하는 기준(장애 유형, 음성 평가 결과 및 진단 정보 중 적어도 하나)와 해당 기준에 따른 장애를 치료할 수 있는 음성 훈련 프로그램을 저장할 수 있다. 이때, 해당 기준과 기준에 매칭되는 음성 훈련 프로그램은 의료진에 의하여 사전에 결정될 수 있다.
사용자(A)는 사용자 단말 장치(110)를 이용하여 음성 자가 훈련을 진행한다. 먼저 사용자(A)는 음성 훈련에 사용할 음성 훈련 프로그램을 선택할 수 있다(①). 사용자(A)는 사용자 단말 장치(110)가 제공하는 훈련 정보를 기준으로 음성 훈련 프로그램을 선택할 수 있다. 또는 사용자(A)는 기본적으로 설정된(default) 음성 훈련 프로그램을 선택할 수도 있다. 이때 선택된 음성 훈련 프로그램을 제1 음성 훈련 프로그램이라고 가정한다. 제1 음성 훈련 프로그램은 음성 평가용 표본 수집을 위한 것일 수도 있다. 예컨대, 제1 음성 훈련 프로그램은 단순 모음('아','이','우','에','오')을 일정한 높이와 강도로 2~3초간 발성하는 프로그램일 수 있다.
사용자 단말 장치(110)는 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 화면에 출력한다(②). 사용자 단말 장치(110)는 사용자(A)로부터 제1 가이드 콘텐츠를 따라 출력한 훈련 음성을 입력받는다(③).
전술한 바와 같이 사용자 단말 장치(110)는 훈련 음성을 내장된 평가 모델을 이용하여 자체적으로 평가할 수도 있다. 또는 사용자 단말 장치(110)는 훈련 음성을 평가자 단말(150)에 전송할 수 있다(④).
평가자 단말(150)은 내장된 평가 모델을 이용하여 훈련 음성을 평가할 수 있다. 또는 평가자 단말(150)은 훈련 음성을 출력하고, 평가자로부터 일정한 지표에 따른 평가 점수를 입력받을 수도 있다.
평가자 단말(150)은 훈련 음성에 대한 평가 결과를 사용자 단말 장치(110)에 전달한다(⑤).
사용자 단말 장치(110)는 평가 결과를 기준으로 훈련 데이터베이스(115)에서 매칭되는 훈련 프로그램을 선택할 수 있다. 한편, 사용자 단말 장치(110)는 EMR(155)로부터 사용자 (A)의 진단 정보(MMSE 점수 등)를 수신할 수 있다. 이 경우 사용자 단말 장치(110)는 평가 결과 및 진단 정보를 기준으로 훈련 데이터베이스(115)에서 매칭되는 훈련 프로그램을 선택할 수 있다. 사용자 단말 장치(110)는 선택한 음성 훈련 프로그램을 제2 음성 훈련 프로그램으로 재설정한다(⑥).
사용자 단말 장치(110)는 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 화면에 출력한다(⑦). 사용자 (A)는 제2 가이드 콘텐츠에 따라 음성 훈련을 수행한다.
사용자(A)는 도 3에 설명한 방식에 따라 반복적으로 음성 훈련을 할 수 있다. 이를 통해 사용자(A)는 현재 자신의 상태에 최적인 음성 훈련을 수행할 수 있다. 예컨대, 음성 장애가 호전되면 사용자(A)는 그에 맞는 음성 훈련 프로그램을 제공받게되는 것이다.
사용자 음성을 평가하는 기법에 대하여 간략하게 설명한다. 평가 기법은 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나일 수 있다. 이 중 GRBAS를 예로 설명한다.
GRBAS는 종합애성도(Grade : G), 조조성(Rough : R), 기식성(Breathy : B), 노력성(Strinned: S) 및 무력성(Asthenic : A)인 5개의 평가항목으로 구성된다. 평가 척도는 0,1,2,3의 4단계로 점수화된다. 여기서 0은 정상이고 3은 음질이 가장 좋지 못한 상태를 나타낸다. 사용자는 '아','이','우','에','오'와 같은 단순 모음을 일정한 높이과 강도로 2초간 발성하고, 이를 대상으로 평가할 수 있다.
조조성(R)은 성대 진동이 불규칙하여 나는 소리로 거친 소리 흑은 불쾌한 소리로 표현할 수 있으며 불규칙한 성대 진동으로 연하여 기본주파수나 진폭이 불규칙하고 낮은 주파수 대역에서 잡음이 발생하는 소리이다. 기식성(B)은 성문페쇄부전으로 연한 공기가 새는 소리로 중음역 이하 대역의 잡음이다. 무력성(A)은 성대긴장부전에 의한 연약한 인상의 가냘픈 소리로 고음역에서 잡음 성분이 있고 기본주파수냐 진폭이 원만하게 하강하여 발성이 끝나는 현상이 있다. 노력성(S)은 성대가 비정상적으로 과긴장상태이거나 성대가 과도하게 단단하여 무리하게 힘을들여서 나는 소리이며 기본주파수가 높고 고음역에서 잡음과 조파성분의 증가가 있다. 종합애성도(G)는 상기의 여러 항목을 종합한 애성의 전체적인 인상을 의미한다.
평가자가 사용자 (A)의 훈련 음성을 기준으로 GRBAS 점수를 평가할 수 있다. 나아가, 사용자 단말 장치(110), 평가자 단말(150, 250) 또는 서비스 서버(220)가 사전에 구축된 평가 모델을 이용하여 훈련 음성을 평가할 수 있다. 설명한 바와 같이 GRBAS의 각 항목은 주파수별 특성을 기준으로 평가될 수 있다. 따라서, 평가 모델은 입력되는 훈련 음성을 주파수 대역으로 변환하고, 이를 기준으로 GRBAS 점수를 산출할 수 있다.
사용자 단말 장치(110) 또는 서비스 서버(220)는 평가 결과에 따라 사용자 (A)에 대한 음성 훈련 프로그램을 선택할 수 있다.
(1) 고령이고 목소리가 크기가 작아 거의 발성이 안 들리는 환자는 무력성(A) 점수가 가장 높을 수 있다. 이 경우 사용자 단말 장치(110) 또는 서비스 서버(220)는 목소리 강도를 높이는 방향으로 음성 훈련 프로그램을 변경하여 제공할 수 있다. 또한, 사용자 단말 장치(110, 210)는 목소리 강도를 직접 화면에서 확인할 수 있도록 사용자의 발화 음성에 대한 정보를 제공할 수도 있다.
(2) 뇌졸중 이후, 성대마비로 목소리에서 “쇠”소리가 들리는 환자는 조조성(R) 점수가 높을 수 있다. 이 경우 사용자 단말 장치(110) 또는 서비스 서버(220)는 발성시 음파의 불규칙성을 규칙적인 음성을 발성하도록 음성 훈련 프로그램을 제공할 수 있다. 또한, 사용자 단말 장치(110, 210)는 사용자(A)가 불규칙적인 음파를 발성하면, 이를 화면에 시각적으로 표시하여 피드백할 수 있다.
이하 음성 훈련 프로그램에 따라 사용자 단말 장치(110, 210)가 화면에 출력하는 가이드 콘텐츠에 대하여 설명한다.
도 4는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 예이다. 도 4는 사용자의 발화음을 일정한 파장 형태로 표현한 예이다.
도 4에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 4에서 세로축은 음의 높이를 나타낼 수 있다. 여기서 음의 높이는 피치(pitch)를 의미한다. 음의 높이는 주파수로 표현될 수 있다. 물론, 가이드 콘텐츠는 도 4와 다른 방식도 가능하다. 예컨대, 세로축이 음의 강도를 나타낼 수 있다. 음의 강도는 음파의 진폭(dB)로 표현될 수 있다.
도 4(A)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다. 가이드 콘텐츠는 음의 높이, 음의 높이의 변화 정도, 일정한 음의 발성 등으로 표현할 수 있다. 예컨대, D2 구간은 D1 구간에 비하여 음의 높이가 급격하게 높아진다.
도 4(B)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 다른 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다. 또한, 음파 형태를 나타내는 시각적 객체의 명암 또는 굵기로 음의 강도를 나타낼 수 있다. 예컨대, D2 구간은 D1 구간에 비하여 어둡게 표현되는데 이는 D2 구간에서 D1보다 강한 강도로 발성해야 하는 것으로 나타낼 수 있다.
도 4에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 도 4에서 가이드 콘텐츠는 음성에 대한 파형 객체이다. 파형 객체는 파형의 길이 및 높이로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타낼 수 있다. 또는 파형을 나타내는 객체의 특징(음영, 굵기 등)으로 음의 높이 내지 강도를 표현할 수도 있다.
도 5는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 다른 예이다. 도 5는 도 4와 같은 파형 객체인 가이드 콘텐츠를 도시한다. 도 5는 화면에 부가 정보를 출력한다.
도 5(A)는 음의 발성 방법을 추가로 표현하는 가이드 콘텐츠에 대한 예이다. 도 5(A)에서 B 영역에 추가 정보를 도시한다. D1 구간은 작은 원을 표시한다. 작은 원은 발성을 짧게 나누는 스타카토(staccato) 방식을 나타낸다. D2 구간은 물결 모양을 표시한다. 물결 모양은 음을 길게 늘려서 발성하는 레가토(legato) 방식을 나타낸다. 물론, 음을 발성하는 방식이나 해당 방식을 표현하는 객체는 도 5(A)와 다를 수 있다.
도 5(B)는 음의 발성 방법을 추가로 표현하는 가이드 콘텐츠에 대한 다른 예이다. 도 5(B)에서 C 영역에 추가 정보를 도시한다. C 영역에 표시되는 정보는 음의 강도 내지 조금 추상적인 발성 방법을 표현한다. D1 구간은 구름 객체를 표시한다. 구름 객체는 음을 부드럽게 내지 약하게 발성하는 방식을 나타낼 수 있다. D2 구간은 캔버스에 표현되는 객체 내지 스크래치(scratched)를 갖는 객체를 표시한다. D2의 객체는 음을 강하게 발성하는 방식을 나타낼 수 있다. 물론, 음을 발성하는 방식이나 해당 방식을 표현하는 객체는 도 5(B)와 다를 수 있다.
도 5에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 나아가 도 5의 가이드 콘텐츠는 추가적인 발성 방식을 표현할 수 있다.
도 6은 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 또 다른 예이다. 도 6은 파형 객체가 아는 다른 시각적 객체로 가이드 콘텐츠를 구성한 예이다. 시각적 객체는 도형, 캐릭터 등일 수 있다. 캐릭터는 동물, 사람, 애니메이션 등에 등장하는 시각적 객체일 수 있다. 도 6은 일정한 도형 객체를 도시한다. 다만, 가이드 콘텐츠는 도 6과 다른 도형 객체를 사용할 수도 있고, 도형 객체 대신 캐릭터 객체를 사용할 수도 있다.
도 6(A)에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 6(A)는 마름모 모양의 객체를 도시한다. 마름모 객체의 크기는 음의 높이 내지 강도를 표현할 수 있다. 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. 가이드 콘텐츠는 음이 출력되는 구간, 음의 높이 내지 강도를 표현할 수 있다.
도 6(B)에서 가로축은 시간이다. 세로축은 음의 높이를 나타낼 수 있다. 도 6(B)는 원형 객체를 도시한다. 세로축에서 원형 객체의 위치는 음의 높이를 나타낸다. 원형 객체의 크기는 음의 강도를 나타낼 수 있다. 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. 가이드 콘텐츠는 음이 출력되는 구간, 음의 높이 내지 강도를 표현할 수 있다.
물론, 도 6과 같은 가이드 콘텐츠도 도 5와 같은 부가 정보를 화면에 표시할 수 있다.
도 6에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 도 6에서 가이드 콘텐츠는 음성에 대한 도형 객체이다. 도형 객체는 도형의 위치 및 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타낼 수 있다. 나아가 도형 객체의 특징(음영, 굵기 등)으로 음의 강도 또는 다른 정보를 표현할 수도 있다.
도 7은 음성 훈련 프로그램에 사용자 출력의 피드백에 대한 예이다. 도 7은 도 가이드 콘텐츠가 출력되는 화면에 사용자가 실제 발화하는 음성에 대한 정보를 표현한 예이다. 사용자는 자신이 실제 발성한 음에 대한 정보를 보고 현재 시점의 발성을 조절하면서 훈련에 임할 수 있다. 도 7에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 7에서 세로축은 음의 높이를 나타낼 수 있다.
도 7(A)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다.
도 7(A)에서 사용자가 출력하는 음성은 파형 F로 표현한다. 사용자가 출력하는 음성에 대한 시각적 객체를 피드백 객체라고 명명한다. D1 구간은 가이드 콘텐츠인 파형 객체와 피드백 객체가 거의 동일하다. D2 구간은 파형 객체에 비하여 피드백 객체가 더 큰값으로 출력된다. 따라서, 사용자는 D2 구간의 피드백 객체를 보고 자신의 음성이 의도보다 높은 음으로 발성되었다는 것을 알 수 있다. 이후 사용자는 조금 낮은 음이 발성되도록 조절하면서 훈련에 임할 수 있다.
도 7(B)에서 사용자가 출력하는 음성은 파형 F로 표현한다. 도 7(B)는 사용자의 음성이 불규칙한 경우를 표현한 예이다. D1 구간은 피드백 객체가 곧은 직선 형태로 표현되어 사용자가 안정적인 음을 출력하는 것을 표현한다. D2 구간은 톱니 모양의 피드백 객체를 나타낸다. 톱니 모양은 사용자가 불규칙한 음을 출력하는 것을 나타낸다. 따라서, 사용자는 D2 구간의 피드백 객체를 보고 자신의 음성이 의도와 달리 불규칙하게 발성되었다는 것을 알 수 있다. 이후 사용자는 최대한 안정적인 음을 발성하도록 조절하면서 훈련에 임할 수 있다.
물론, 도 7과 다른 형태의 피드백 객체가 사용될 수도 있다. 예컨대, 사용자가 불규칙한 음을 발성하는 경우, 사용자 단말 장치는 흔들리는 객체를 출력할 수 있다.
도 8은 사용자 단말 장치(300)에 대한 예이다. 도 8의 사용자 단말 장치(300)는 도 1 내지 도 2의 사용자 단말 장치(110, 210)에 해당한다. 사용자 단말 장치(300)는 스마트기기, PC, 웨어러블 기기 등 다양한 형태로 구현될 수 있다.
사용자 단말 장치(300)는 저장 장치(310), 메모리(320), 연산장치(330), 인터페이스 장치(340), 통신 장치(350), 마이크(360) 및 출력장치(370)를 포함할 수 있다.
저장 장치(310)는 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장한다. 저장 장치(310)는 사용자 단말 장치(300)에 내장된 장치일 수 있다. 나아가 저장 장치(310)는 사용자 단말 장치(300)와 유선 또는 무선으로 연결된 별도의 저장 매체일 수도 있다.
음성 훈련 프로그램은 시간과 함께 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간 중 적어도 2개의 요소로 정의될 수 있다.
저장 장치(310)는 사용자의 훈련 음성을 저장할 수 있다.
저장 장치(310)는 훈련 음성을 평가하는 평가 모델을 저장할 수 있다.
저장 장치(310)는 훈련 음성을 평가한 평가 결과를 저장할 수도 있다.
메모리(320)는 사용자 단말 장치(300)가 음성 훈련 프로그램에 따른 가이드 콘텐츠를 제공하는 과정에서 발생하는 임시 데이터를 저장할 수 있다.
인터페이스 장치(340)는 사용자로부터 일정한 명령 내지 정보를 입력받는 장치이다. 인터페이스 장치(340)는 외부 입력장치로부터 일정한 명령 내지 데이터를 입력받을 수 있다. 인터페이스 장치(340)는 음성 훈련 프로그램에 대한 사용자의 선택 명령을 입력받을 수 있다.
통신 장치(350)는 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신 장치(350)는 평가자 단말과 같은 외부 객체로 훈련 음성을 송신할 수 있다. 또한, 통신 장치(350)는 훈련 음성에 대한 평가 결과를 수신할 수도 있다. 통신 장치(350)는 EMR 서버와 같은 외부 객체로부터 사용자의 진단 정보(MMSE 점수 등)를 수신할 수 있다.
통신 장치(350) 내지 인터페이스 장치(340)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신 장치(350) 내지 인터페이스 장치(340)를 입력장치라고 명명할 수도 있다.
연산 장치(330)는 사용자의 선택에 따라 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성한다.
연산 장치(330)는 훈련 음성에 대한 평가 결과를 기준으로 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성할 수 있다.
연산 장치(330)는 훈련 음성에 대한 평가 결과 및 사용자의 진단 정보를 기준으로 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성할 수 있다.
연산 장치(330)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
마이크(360)는 사용자의 음성을 입력받는다. 마이크(360)는 가이드 콘텐츠를 보고 사용자가 발성하는 훈련 음성을 입력받는다.
출력 장치(370)는 자가 훈련 과정에 필요한 인터페이스 화면을 출력할 수 있다. 출력 장치(370)는 음성 훈련 프로그램에 따른 가이드 콘텐츠를 출력한다. 출력 장치(370)는 사용자 음성에 대한 피드백 객체를 출력할 수 있다.
출력 장치(370)는 음성 훈련 프로그램에 대한 설명을 출력할 수 있다.
또한, 상술한 바와 같은 음성 자가 훈련 방법 및 사용자 단말 장치의 동작 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
Claims (15)
- 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계;
상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계;
상기 사용자 단말이 상기 음성을 분석하여 평가하는 단계;
상기 사용자 단말이 상기 평가 결과에 따라 상기 사용자의 상태에 매칭되는 훈련 프로그램에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계; 및
상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함하되,
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이고,
상기 시각적 객체는 도형 또는 캐릭터이고,
상기 시각적 객체는 특정 위치 기준한 상기 시각적 객체의 상대적 위치 및 상기 시각적 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내고,
음의 발성 방식에 따라 다른 종류의 시각적 객체가 출력되되, 상기 음의 발성 방식은 발성을 짧게 나누는 스타카토, 음을 길게 늘려서 발성하는 레가토, 약한 발성 및 강한 발성을 포함하는 음성 장애 환자를 위한 음성 자가 훈련 방법. - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
상기 사용자 단말이 상기 제1 가이드 콘텐츠 또는 상기 제2 가이드 콘텐츠에 따라 사용자가 출력하는 음성의 길이, 음성의 높이, 음성의 강도 및 음성 발화의 안정도를 나타내는 그래픽 객체를 화면에 출력하는 단계를 더 포함하는 음성 장애 환자를 위한 음성 자가 훈련 방법. - 제1항에 있어서,
상기 사용자 단말은 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나의 평가 기준에 따른 상기 평가 결과를 산출하는 음성 장애 환자를 위한 음성 자가 훈련 방법. - 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계;
상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계;
상기 사용자 단말이 상기 음성의 평가 결과를 진단자 단말로부터 수신하는 단계;
상기 사용자 단말이 상기 평가 결과에 따라 상기 사용자의 상태에 매칭되는 훈련 프로그램에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계; 및
상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함하되,
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이고,
상기 음성 훈련 프로그램은 연속된 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간으로 정의되고,
상기 시각적 객체는 도형 또는 캐릭터이고,
상기 시각적 객체는 특정 위치 기준한 상기 시각적 객체의 상대적 위치 및 상기 시각적 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내고,
음의 발성 방식에 따라 다른 종류의 시각적 객체가 출력되되, 상기 음의 발성 방식은 발성을 짧게 나누는 스타카토, 음을 길게 늘려서 발성하는 레가토, 약한 발성 및 강한 발성을 포함하는 음성 장애 환자를 위한 음성 자가 훈련 방법. - 삭제
- 삭제
- 사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치;
사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치;
상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치;
상기 제1 가이드 콘텐츠를 출력하는 출력장치; 및
상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함하고,
상기 연산장치는 상기 사용자의 음성에 대한 평가 결과에 따라 상기 음성 훈련 후보 프로그램들 중 제2 음성 훈련 프로그램을 선택하고, 상기 제2 음성 훈련 프로그램에 따라 상기 사용자의 상태에 매칭되는 훈련 프로그램에 따른 제2 가이드 콘텐츠를 생성하고, 상기 출력장치는 상기 제2 가이드 콘텐츠를 출력하고,
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이고,
상기 시각적 객체는 도형 또는 캐릭터이고,
상기 시각적 객체는 특정 위치 기준한 상기 시각적 객체의 상대적 위치 및 상기 시각적 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내고,
음의 발성 방식에 따라 다른 종류의 시각적 객체가 출력되되, 상기 음의 발성 방식은 발성을 짧게 나누는 스타카토, 음을 길게 늘려서 발성하는 레가토, 약한 발성 및 강한 발성을 포함하는 음성 자가 훈련을 위한 사용자 단말 장치. - 삭제
- 삭제
- 삭제
- 제10항에 있어서,
상기 출력장치는 상기 제1 가이드 콘텐츠 또는 상기 제2 가이드 콘텐츠에 따라 사용자가 출력하는 음성의 길이, 음성의 높이, 음성의 강도 및 음성 발화의 안정도를 나타내는 그래픽 객체를 화면에 출력하는 음성 자가 훈련을 위한 사용자 단말 장치. - 제10항에 있어서,
상기 평가 결과는 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나의 평가 기준에 따른 분석 결과인 음성 자가 훈련을 위한 사용자 단말 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210005571A KR102484006B1 (ko) | 2021-01-14 | 2021-01-14 | 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 |
PCT/KR2021/014866 WO2022154217A1 (ko) | 2021-01-14 | 2021-10-22 | 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 |
US18/251,840 US20240021096A1 (en) | 2021-01-14 | 2021-10-22 | Voice self-training method and user terminal device for voice impaired patient |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210005571A KR102484006B1 (ko) | 2021-01-14 | 2021-01-14 | 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220102974A KR20220102974A (ko) | 2022-07-21 |
KR102484006B1 true KR102484006B1 (ko) | 2022-12-30 |
Family
ID=82448240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210005571A KR102484006B1 (ko) | 2021-01-14 | 2021-01-14 | 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240021096A1 (ko) |
KR (1) | KR102484006B1 (ko) |
WO (1) | WO2022154217A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102621451B1 (ko) | 2023-02-01 | 2024-01-04 | 박상은 | 사용자 맞춤형 목소리 트레이닝 서비스 제공 방법, 장치 및 시스템 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186379A (ja) * | 2001-12-13 | 2003-07-04 | Animo:Kk | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム |
JP6234563B2 (ja) | 2014-05-22 | 2017-11-22 | 株式会社日立製作所 | 訓練システム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110021866A (ko) * | 2008-05-12 | 2011-03-04 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 치료 계획을 세우는 데 보조하기 위한 시스템 및 방법 |
KR20140128630A (ko) * | 2013-04-29 | 2014-11-06 | 주식회사 케이티 | 원격 치료 시스템 및 환자 단말 |
KR101702622B1 (ko) * | 2015-07-15 | 2017-02-22 | 대한민국 | 언어 재활 치료 방법 |
KR101921888B1 (ko) * | 2017-10-13 | 2018-11-28 | 대한민국 | 온라인 평가 기반 언어재활 훈련 방법 |
JP7239109B2 (ja) * | 2019-06-12 | 2023-03-14 | 株式会社モリタ製作所 | 推定装置、推定システム、推定装置の作動方法、および推定用プログラム |
-
2021
- 2021-01-14 KR KR1020210005571A patent/KR102484006B1/ko active IP Right Grant
- 2021-10-22 US US18/251,840 patent/US20240021096A1/en active Pending
- 2021-10-22 WO PCT/KR2021/014866 patent/WO2022154217A1/ko active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003186379A (ja) * | 2001-12-13 | 2003-07-04 | Animo:Kk | 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム |
JP6234563B2 (ja) | 2014-05-22 | 2017-11-22 | 株式会社日立製作所 | 訓練システム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102621451B1 (ko) | 2023-02-01 | 2024-01-04 | 박상은 | 사용자 맞춤형 목소리 트레이닝 서비스 제공 방법, 장치 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US20240021096A1 (en) | 2024-01-18 |
KR20220102974A (ko) | 2022-07-21 |
WO2022154217A1 (ko) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jing et al. | Prominence features: Effective emotional features for speech emotion recognition | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
Esposito | The effects of linguistic experience on the perception of phonation | |
Jürgens et al. | Authentic and play-acted vocal emotion expressions reveal acoustic differences | |
Baghai-Ravary et al. | Automatic speech signal analysis for clinical diagnosis and assessment of speech disorders | |
JP2017532082A (ja) | 患者の精神状態のスピーチベース評価のためのシステム | |
Garellek | The timing and sequencing of coarticulated non-modal phonation in English and White Hmong | |
US20210335364A1 (en) | Computer program, server, terminal, and speech signal processing method | |
Yap | Speech production under cognitive load: Effects and classification | |
Kamińska et al. | Recognition of human emotion from a speech signal based on Plutchik's model | |
Birkholz et al. | Manipulation of the prosodic features of vocal tract length, nasality and articulatory precision using articulatory synthesis | |
US20230237928A1 (en) | Method and device for improving dysarthria | |
KR102444012B1 (ko) | 말 장애 평가 장치, 방법 및 프로그램 | |
Moro-Velázquez et al. | Voice pathology detection using modulation spectrum-optimized metrics | |
Singh et al. | Modulation spectral features for speech emotion recognition using deep neural networks | |
Gustison et al. | Divergent acoustic properties of gelada and baboon vocalizations and their implications for the evolution of human speech | |
KR102484006B1 (ko) | 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 | |
MacIntyre et al. | Pushing the envelope: Evaluating speech rhythm with different envelope extraction techniques | |
US20180197535A1 (en) | Systems and Methods for Human Speech Training | |
Aharonson et al. | A real-time phoneme counting algorithm and application for speech rate monitoring | |
Alhinti et al. | Recognising emotions in dysarthric speech using typical speech data | |
WO2020235089A1 (ja) | 評価装置、訓練装置、それらの方法、およびプログラム | |
Bruggeman et al. | Question word intonation in Tashlhiyt Berber: Is ‘high’good enough? | |
Donohue | Fuzhou tonal acoustics and tonology | |
Kirkham et al. | Diachronic phonological asymmetries and the variable stability of synchronic contrast |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |