KR102434912B1

KR102434912B1 - 신경언어장애를 개선하는 방법 및 장치

Info

Publication number: KR102434912B1
Application number: KR1020220010219A
Authority: KR
Inventors: 송태진; 김유영; 김민정; 임상권
Original assignee: 주식회사 하이
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-08-23
Also published as: KR102434912B9; KR102495698B1; KR102442426B9; KR102495698B9; KR102442426B1; KR102499316B1; US20230237928A1; KR20230114166A; KR102499316B9

Abstract

프로세서 및 메모리를 포함하는 컴퓨팅 장치가 사용자에게 언어 훈련을 제공하는 방법은, 상기 언어 훈련에 대응하는 컨텐츠를 사용자 단말에 제공하는 단계; 상기 사용자의 음성 데이터를 상기 사용자 단말로부터 수신하는 단계; 상기 음성 데이터를 분석하여 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계; 상기 검출된 사용자의 음도 및 소리 크기에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계; 상기 측정된 사용자의 언어 레벨에 기초하여 실시간으로 피드백을 생성하는 단계; 상기 피드백이 나타나도록 상기 언어 훈련에 대응하는 컨텐츠를 업데이트하는 단계; 및 상기 피드백이 나타나는 업데이트된 컨텐츠를 실시간으로 상기 사용자 단말로 송신하여, 상기 사용자가 상기 피드백을 실시간으로 확인하도록 하는 단계를 포함한다.

Description

신경언어장애를 개선하는 방법 및 장치{METHOD AND DEVICE FOR IMPROVING DYSARTHRIA}

본 개시는 신경언어장애를 개선하는 장치 및 방법에 관한 것으로, 신경언어장애가 있는 사람에게 훈련을 제공하고, 훈련에 따른 음성을 수신하여 이를 시각화하여 보여주어 신경언어장애를 개선하는 장치 및 방법에 관한 것이다.

뇌손상 등 다양한 원인으로 발생한 신경언어장애를 개선시키기 위해, 현재 언어치료학을 기반으로하여 언어 치료가 사람에 의해 수행된다. 사람에 의해 수행되는 언어 치료는 주당 2~3회 수행되고 사람에 의한 것이므로 치료사에 따라 평가가 달라질 수 있다.

한국특허 공개번호 제10-2021-0051278호 한국특허 공개번호 제10-2015-0124561호 한국특허 공개번호 제10-2008-0136624호 한국특허 공개번호 제10-2016-0033450호 한국특허 공개번호 제10-2019-0051598호 한국특허 공개번호 제10-2019-0158038호 한국특허 공개번호 제10-2020-0010980호 한국특허 공개번호 제10-2020-0081579호 한국특허 공개번호 제10-2020-0102005호

본 개시는 게임적 요소를 부가하여 신경언어장애를 갖는 사람이 보다 집중하여 훈련을 수행하도록 할 수 있다. 본 개시는 신경언어장애를 갖는 사용자의 음성을 실시간으로 시각화하여 보여줌으로써 사용자가 실시간으로 자신의 발화를 확인하도록 할 수 있다.

본 개시의 일 형태로, 프로세서 및 메모리를 포함하는 컴퓨팅 장치가 사용자에게 언어 훈련을 제공하는 방법은, 상기 언어 훈련에 대응하는 컨텐츠를 사용자 단말에 제공하는 단계; 상기 사용자의 음성 데이터를 상기 사용자 단말로부터 수신하는 단계; 상기 음성 데이터를 분석하여 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계; 상기 검출된 사용자의 음도 및 소리 크기에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계; 상기 측정된 사용자의 언어 레벨에 기초하여 실시간으로 피드백을 생성하는 단계; 상기 피드백이 나타나도록 상기 언어 훈련에 대응하는 컨텐츠를 업데이트하는 단계; 및 상기 피드백이 나타나는 업데이트된 컨텐츠를 실시간으로 상기 사용자 단말로 송신하여, 상기 사용자가 상기 피드백을 실시간으로 확인하도록 하는 단계를 포함한다.

일 실시예에서, 상기 언어 훈련에 대응하는 컨텐츠는 에이전트와 오브젝트를 포함하는 이미지로, 상기 에이전트는 제1 이미지를 포함하고, 상기 오브젝트는 제1 이미지와 상이한 제2 이미지를 포함할 수 있다. 상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 소리 크기에 대응하여 상기 오브젝트를 향하여 이동하거나, 상기 오브젝트와 멀어지는 방향으로 이동하도록 상기 피드백을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 소리 크기가 선택된 임계치 이상이라고 판정되는 것에 대응하여 상기 에이전트를 상기 오브젝트를 향하는 제1 방향으로 이동시키고, 상기 검출된 사용자의 음성의 소리 크기가 상기 선택된 임계치보다 작다고 판정되는 것에 대응하여 상기 에이전트를 상기 제1 방향과 반대 방향인 제2 방향으로 이동시키는 피드백을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 제1 방향으로 이동하여 상기 오브젝트와 겹치는 것에 대응하여, 상기 에이전트와 겹치는 상기 오브젝트를 상기 컨텐츠에서 제거하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 언어 훈련에 대응하는 컨텐츠는 에이전트와 오브젝트를 포함하는 이미지로, 상기 에이전트는 제1 이미지를 포함하고, 상기 오브젝트는 제1 이미지와 상이한 제2 이미지를 포함할 수 있다. 상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 음도에 대응하여 상기 오브젝트의 위 방향으로 이동하거나, 상기 오브젝트의 아래 방향으로 이동하도록 상기 피드백을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 음도가 선택된 임계치보다 크다고 판정되는 것에 대응하여 상기 에이전트를 상기 오브젝트의 위 방향으로 이동시키고, 상기 검출된 사용자의 음성의 음도가 상기 선택된 임계치보다 작다고 판정되는 것에 대응하여 상기 오브젝트의 아래 방향으로 이동하도록 상기 피드백을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 언어 훈련에 대응하는 컨텐츠는 에이전트와 오브젝트를 포함하는 이미지로, 상기 에이전트는 제1 이미지를 포함하고, 상기 오브젝트는 제1 이미지와 상이한 제2 이미지 및 제3 이미지를 포함할 수 있다. 상기 제2 이미지는 제1 음도를 나타내고 상기 컨텐츠의 제1 위치에 배치되고, 상기 제3 이미지는 제1 음도와 상이한 제2 음도를 나타내고 상기 제1 위치와 상이한 제2 위치에 배치될 수 있다. 상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 음도에 대응하여 상기 제2 이미지와 일 직선 상에 배치되거나 상기 제3 이미지와 일 직선 상에 배치되도록 하는 단계를 포함할 수 있다.

일 실시예에서, 상기 언어 훈련에 대응하는 컨텐츠는 적어도 2음절의 단어 및 사람의 목 구조 이미지를 포함할 수 있다. 상기 사용자의 음성 데이터를 상기 사용자 단말로부터 수신하는 단계 이후에, 상기 사용자의 음성 데이터와 상기 적어도 2음절의 단어의 음절이 대응되는지 판단하는 단계, 및

상기 사용자의 음성 데이터와 상기 적어도 2음절의 단어의 음절이 대응하는 것에 대응하여 상기 목 구조 이미지를 변경하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 음성 데이터를 분석하여 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계는, 상기 사용자 음성의 데시벨 값을 구하는 단계를 포함할 수 있다. 상기 검출된 사용자의 음도 및 소리 크기에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계는, 상기 데시벨 값에 기초하여 상기 사용자의 소리 길이, 박자 정확도, 숨 참기 시간 중 적어도 하나를 획득하는 단계를 포함할 수 있다.

일 실시예에서, 상기 검출된 사용자의 음도 및 소리 크기에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계는, 상기 음도에 기초하여 상기 음도를 선택된 시간 동안 임계치 이상의 크기로 유지하였는지 판단하는 단계를 포함할 수 있다.

일 실시예에서, 상기 언어 훈련에 대응하는 컨텐츠는 문장을 포함할 수 있다. 상기 사용자의 음성 데이터를 상기 사용자 단말로부터 수신하는 단계 이후에, 상기 음성 데이터를 분석하여 상기 사용자의 발음 정확도를 평가하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 음성 데이터를 분석하여 상기 사용자의 발음 정확도를 평가하는 단계는, 음성 데이터를 텍스트로 변환하여 상기 언어 훈련에 대응하는 컨텐츠에 포함된 문장과 비교하여 텍스트 유사도 측정하는 단계 및 딥 러닝을 통한 발음 정확도를 측정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 언어 훈련에 대응하는 컨텐츠를 사용자 단말에 제공하는 단계 이후에, 상기 사용자의 얼굴 이미지 데이터를 상기 사용자 단말로부터 수신하는 단계, 및 상기 얼굴 이미지 데이터를 분석하여 사용자의 입술 모양, 볼 모양 및 혀의 움직임 중 적어도 하나를 검출하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 언어 훈련에 대응하는 컨텐츠는 상기 사용자의 호흡, 발성, 조음, 공명 및 운율을 훈련시키는 컨텐츠를 포함할 수 있다.

일 실시예에서, 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계 이후에, 상기 사용자의 음성 데이터에 기초하여 상기 언어 훈련에 대응하는 컨텐츠에 대한 상기 사용자의 훈련을 평가하여 훈련 평가를 생성하는 단계, 상기 훈련 평가를 상기 메모리에 저장하는 단계, 및 상기 훈련 평가에 기초하여 상기 사용자에게 제공하는 상기 언어 훈련을 결정하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 사용자의 훈련을 평가하여 훈련 평가를 생성하는 단계는, 상기 사용자의 음성 데이터를 분석하여 발음 정확도가 떨어지는 음소를 판정하는 단계, 및 상기 판정된 음소가 포함된 단어, 문장 및 문단 중 적어도 하나를 자동 생성하여 제공하는 단계를 포함할 수 있다.

본 개시의 상기 방법은 프로세서 및 메모리를 포함하는 컴퓨팅 장치에 의해 수행될 수 있다.

본 개시의 일 형태에서, 프로세서 및 메모리를 포함하는 컴퓨팅 장치가 사용자에게 언어 훈련을 제공하는 방법이 제공된다. 사용자에게 언어 훈련을 제공하는 방법은 상기 언어 훈련에 대응하는 컨텐츠를 사용자 단말에 제공하는 단계; 상기 사용자의 음성 데이터 및 음성 데이터에 기초해 수집된 상기 사용자 음성의 음도 및 데시벨을 상기 사용자 단말로부터 수신하는 단계; 상기 사용자 음성의 음도 및 데시벨에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계; 상기 측정된 사용자의 언어 레벨에 기초하여 실시간으로 피드백을 생성하는 단계; 상기 피드백을 상기 사용자 단말로 실시간으로 송신하는 단계; 상기 사용자 음성의 음도 및 데시벨에 기초하여 상기 언어 훈련에 대응하는 컨텐츠에 대한 상기 사용자의 훈련을 평가하여 훈련 평가를 생성하는 단계; 및 상기 훈련 평가를 상기 메모리에 저장하는 단계를 포함한다.

본 개시의 일 형태에서, 프로세서 및 메모리를 포함하는 컴퓨팅 장치가 사용자에게 언어 훈련을 제공하는 방법은, 상기 언어 훈련에 대응하고 제1 에이전트 이미지와 제1 오브젝트 이미지를 포함하는 제1 컨텐츠 및 제2 에이전트 이미지 및 제2 오브젝트 이미지를 포함하는 제2 컨텐츠를 사용자 단말에 제공하는 단계로, 상기 제1 컨텐츠는 상기 제1 에이전트 이미지가 상기 사용자의 음성의 음도 및 소리 크기에 대응하여 이동 가능하도록 구성되고, 상기 제2 컨텐츠는 상기 제2 오브젝트 이미지는 제1 음도를 나타내고 상기 제2 컨텐츠의 제1 위치에 배치되는 제1 음도 이미지와, 제1 음도와 상이한 제2 음도를 나타내고 상기 제1 위치와 상이한 제2 위치에 배치되는 제2 음도 이미지를 포함하여, 상기 제2 컨텐츠는 상기 제2 에이전트 이미지가 상기 사용자의 음도에 대응하여 상기 제1 음도 이미지 또는 상기 제2 음도 이미지와 일 직선을 이루도록 구성됨; 상기 사용자의 음성 데이터를 수신하는 단계; 상기 제1 컨텐츠 및 상기 제2 컨텐츠 각각에 대한 상기 사용자의 훈련 평가를 수신하는 단계; 상기 훈련 평가에 기초하여 상기 제1 컨텐츠 및 상기 제2 컨텐츠 중 어느 하나를 우선적으로 상기 사용자 단말에 제공하는 단계; 및 상기 음성 데이터 및 상기 훈련 평가를 상기 메모리에 저장하는 단계를 포함한다.

일 실시예에서, 단어, 문장 및 문단 중 적어도 하나를 포함하는 제3 컨텐츠를 상기 사용자 단말에 제공하는 단계, 상기 사용자의 음성 데이터를 분석하여 상기 제3 컨텐츠에 대한 훈련 평가를 생성하는 단계; 및 상기 제1 컨텐츠 및 상기 제2 컨텐츠 각각에 대한 훈련 평가 및 상기 제3 컨텐츠에 대한 훈련 평가에 기초하여, 상기 제1 내지 제3 컨텐츠 중 어느 하나를 우선적으로 상기 사용자 단말에 제공하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 제3 컨텐츠에 대한 훈련 평가를 생성하는 단계는, 상기 사용자의 음성 데이터를 분석하여 발음 정확도가 떨어지는 음소를 판정하는 단계, 및 상기 판정된 음소가 포함된 단어, 문장 및 문단 중 적어도 하나를 자동 생성하는 단계를 포함할 수 있다.

시간적 공간적 제약 없이 원하는 만큼 언어 치료가 가능하다. 개인형 맞춤 훈련 제공이 가능하다. 신경언어장애를 갖는 사용자의 음성을 실시간으로 시각화하여 보여줌으로써 사용자가 실시간으로 자신의 발화를 확인하도록 하여 훈련 효과를 높일 수 있다.

도 1은 본 개시의 일 실시예에 따른 신경언어장애의 개선을 위한 시스템의 블록도이다.
도 2는 본 개시의 일 실시예에 따른 신경언어장애의 개선 방법을 제공하는 장치의 블록도이다.
도 3은 본 개시의 일 실시예에 따른 신경언어장애의 개선 방법을 제공하는 장치의 블록도이다.
도 4는 본 개시의 일 실시예에 따른 신경언어장애의 개선 방법을 제공하는 순서도이다.
도 5a 내지 5c는 본 개시의 일 실시예에 따른 비구어 구강 운동을 제공하는 화면의 일 예이다.
도 6a 내지 6d는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다.
도 7a 내지 7c는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다.
도 8a 내지 8e는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다.
도 9a 내지 9c는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다.
도 10a 및 10b는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다.
도 11a 내지 11c는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다.

아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것 만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서", "A, B, 및 C를 수행하도록 구성된(또는 설정된) 모듈"은 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 개시에 기재된 선행 문헌은 그 전체가 참조로써 본 명세서에 결합되며, 선행 문헌에 기재된 내용을 본 기술 분야의 일반적인 지식을 가진 사람이 본 개시에 간략히 설명된 부분에 적용할 수 있음이 이해될 것이다.

이하, 도면을 참조하여 본 개시의 실시예에 따른 신경언어장애의 개선을 위한 장치 및 그 방법에 대하여 설명한다.

도 1은 본 개시의 일 실시예에 따른 신경언어장애의 개선을 위한 시스템(1000)의 블록도이다.

도 1을 참조하면 시스템(1000)은 단말 장치(100) 및 서버(200)를 포함한다. 단말(100)은 사용자(10)의 음성을 수신하여 서버(200)로 송신할 수 있다. 서버(200)는 수신한 사용자(10)의 음성을 분석하고, 분석에 기초하여 사용자(10)에게 제공할 피드백을 생성하도록 구성된다. 서버(200)는 생성한 피드백을 사용자(10)에게 제공할 수 있다. 또한, 서버(200)는 생성한 피드백을 의료진에게 제공할 수 있다.

일 실시에에서, 단말(100)은 사용자(10)의 개인 정보를 수신하고 이를 저장하거나 서버(200)에 송신할 수 있다. 서버(200)는 사용자(10)의 개인 정보를 저장할 수 있다. 개인 정보는, 사용자의 신상 정보 및 의료 정보일 수 있다. 예를 들면, 상기 개인 정보는 실명, 성별, 연령(생년월일), 전화번호, 신경 언어 장애 관련된 의료 정보 중 적어도 어느 하나일 수 있다. 단말(100)은 사용자(10)에게 설문을 제공하고 답변을 수신하여 이를 저장하거나 서버(200)에 송신할 수 있다. 단말(100)이 사용자(10)에게 제공하는 설문은 서버(200)로부터 수신한 설문을 포함할 수 있다.

서버(200)는 상기 설문에 대한 답변에 기초하여 훈련을 생성하거나 미리 저장된 훈련을 단말(100)을 통해 사용자(10)에게 제공할 수 있다. 일 실시예에서, 훈련은 호흡, 발성, 조음, 공명, 운율 중 적어도 하나를 훈련시키기 위한 훈련일 수 있다. 훈련은 사용자(10)에게 시각화되어 제공된다. 사용자(10)는 단말(100)을 통해 또는 단말(100)에 의해 제공되는 훈련에 대응하여 발화하여 훈련을 수행할 수 있다. 사용자(10)의 발화는 음성 데이터의 형태로 서버(200)로 송신될 수 있다. 훈련에 대해서는 나중에 상세히 설명한다.

서버(200)는 사용자(10)의 음성 데이터를 분석하여, 예를 들어, 사용자(10)의 음성의 크기(데시벨), 피치, 발음 정확도, 소리 길이, 음도 변화, 숨참기, 박자, 읽기 속도 중 적어도 어느 하나를 획득할 수 있다. 사용자(10)의 음성 데이터를 분석하는 방법은 나중에 상세히 설명한다.

서버(200)는 사용자(10)의 음성 데이터 분석 결과를 이용하여 사용자(10)에게 피드백을 제공할 수 있다. 일 실시예에서, 서버(200)는 사용자(10)에게 실시간으로 피드백을 제공할 수 있다. 예를 들어, 서버(200)는 사용자(10)에게 사용자(10)의 음성의 크기(데시벨), 피치, 발음 정확도, 소리 길이, 음도 변화, 숨참기, 박자, 읽기 속도 중 적어도 어느 하나가 실시간으로 어떤 상태인지 시각화하여 보여줄 수 있다. 서버(200)가 사용자(10)에게 제공하는 피드백에 대해서는 나중에 상세히 설명한다. 서버(200)는 분석 결과에 기초하여 사용자의 언어 레벨을 측정할 수 있다. 서버(200)는 사용자의 언어 레벨에 기초하여 사용자에게 피드백을 제공할 수 있다.

일 실시예에서, 언어 레벨은 사용자의 음도 또는 사용자의 소리 크기에 따라 상이하게 정해질 수 있다. 예를 들어, 사용자의 소리 크기 또는 음도가 선택된 범위에 속하는 경우, 언어 레벨은 정상으로 정해질 수 있다. 사용자의 소리 크기 또는 음도가 선택된 범위에 속하지 않는 경우, 언어 레벨은 정상이 아닌 값으로 정해질 수 있다.

서버(200)는 사용자(10)의 음성 데이터 분석 결과를 의료진(20)에게 제공할 수 있다. 의료진(20)은 음성 데이터 분석 결과에 기초하여 서버(200)로 의료진(20)의 진단 또는 의견을 제공할 수 있다. 서버(200)는 의료진(20)의 진단 또는 의견에 기초하여 사용자에게 제공할 피드백을 생성할 수 있다. 서버(200)는 의료진(20)의 진단 또는 의견, 또는 이에 기초하여 생성한 피드백을 사용자(10)에게 제공할 수 있다.

사용자(10)는 단말(100)을 통해 제공된 훈련을 따라서 발성을 하거나 발화를 하여 신경언어장애 훈련을 수행하고, 신경언어장애에 훈련에 대한 시각화된 피드백을 실시간으로 확인하며 사용자(10)의 발성, 발화 등을 실시간으로 제어하여, 신경언어장애를 개선시키는 훈련을 수행할 수 있다.

도 2는 본 개시의 일 실시예에 따른 신경언어장애의 개선 방법을 제공하는 장치의 블록도이다.

신경언어장애의 개선 방법을 제공하는 장치는 서버(200)를 포함할 수 있다. 서버(200)는 통신 모듈(210), 메모리(220), 훈련 유닛(230), 피드백 제공 유닛(240) 및 분석 유닛(250)을 포함한다.

통신 모듈(210)은 사용자(10)의 발성, 발화 등 사용자(10)의 입력을 수신하고, 서버(200)로부터 사용자(10)에게 훈련 및 피드백을 제공하도록 구성될 수 있다. 사용자(10)가 단말(100)에 입력한 정보(예를 들어, 사용자(10)의 발성, 발화, 피드백 등)은 통신 모듈(21)을 통해 서버(200)로 전달될 수 있다. 통신 모듈(210)은 사용자(10)의 발성, 발화 등의 음성 데이터를 실시간으로 수신할 수 있다. 실시간으로 수신된 음성 데이터는 분석 유닛(250)에 의해 분석될 수 있다.

예를 들어, 통신 모듈(210)의 통신 방식은 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등), WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access)에 따라 구축된 네트워크를 이용할 수 있으나, 이에 한정하는 것은 아니며 향후 개발될 모든 전송 방식 표준을 포함할 수 있다. 유/무선을 통하여 데이터를 주고받을 수 있는 것을 모두 포함할 수 있다. 통신 모듈(210)을 통하여 메모리에 저장되는 스크립트, 스크립트에 대응하는 시각 정보 등이 업데이트 될 수 있다.

메모리(220)는 프로세서(도시하지 않음)에 의해 수행되는 명령어를 저장하도록 구성된다. 메모리(220)는 훈련 유닛(230), 피드백 제공 유닛(240) 및 분석 유닛(250) 각각이 제공하는 훈련, 피드백, 분석 결과를 저장하도록 구성될 수 있다.

일 실시예에서, 메모리(220)는 컴퓨팅 디바이스에 의해 액세스될 수 있고 데이터 및 실행가능 명령어들(예를 들어, 소프트웨어 애플리케이션들, 프로그램들, 함수들 등)의 영구적 저장을 제공하는 데이터 저장 디바이스들과 같은 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 메모리(220)의 예들은 휘발성 메모리 및 비휘발성 메모리, 고정식 및 착탈식 매체 디바이스들, 및 컴퓨팅 디바이스 액세스를 위한 데이터를 유지하는 임의의 적절한 메모리 디바이스 또는 전자 데이터 저장소를 포함한다. 메모리(220)는 랜덤 액세스 메모리(RAM, random access memory), 판독 전용 메모리(ROM, read-only memory), 플래시 메모리 및 다양한 메모리 디바이스 구성의 다른 타입의 저장 매체의 다양한 구현예들을 포함할 수 있다. 메모리(220)는 프로세서와 함께 실행가능한 실행가능 소프트웨어 명령어들(예를 들어, 컴퓨터 실행가능 명령어들) 또는 모듈로서 구현될 수 있는 같은 소프트웨어 애플리케이션을 저장하도록 구성될 수 있다.

일 실시예에서, 훈련 유닛(230), 피드백 제공 유닛(240) 및 분석 유닛(250)은 프로세서와 메모리(220)에 저장된 프로세서와 함께 실행가능한 실행가능 소프트웨어 명령어들에 의하여 구현될 수 있다. 예를 들어, 메모리(220)는 훈련 유닛(230), 피드백 제공 유닛(240) 및 분석 유닛(250)의 기능을 수행하도록 하는 명령어들을 저장할 수 있다.

훈련 유닛(230)은 사용자(10)에게 훈련을 제공하도록 구성될 수 있다. 훈련은 신경언어장애를 개선시키기 위한 훈련으로, 비구어 구강운동, 연장 발성/소리 크기 증가, 음도 변화 훈련, 공명(연인두 폐쇄음) 훈련, 음절 반복 훈련, 읽기 훈련 중 적어도 하나를 포함할 수 있다. 훈련 유닛(230)이 제공하는 훈련은 메모리(220)에 기 저장되어 있을 수 있다.

일 실시예에서, 비구어 구강 운동은 말 산출에 관여하는 조음 기관의 강화를 위한 운동을 포함한다. 예를 들어, 비구어 구강 운동을 위한 훈련은 입술 운동, 볼 부풀리기 운동, 혀 운동을 위한 영상 가이드를 제공할 수 있다.

일 실시예에서, 입술 운동은 입술을 당기는 운동, 입술을 모으는 운동, 입술을 당기고 모으는 운동을 포함할 수 있다. 예를 들어, 입술 운동은 입술을 /이/ 모양으로 1초, 2초, 3초, 4초, 5초 등 유지하거나, 입술을 /오/ 모양으로 1초, 2초, 3초, 4초, 5초 등 유지하거나, 입술을 /이, 오/ 모양으로 2회, 3회, 4회, 5회 등을 반복하는 운동을 포함할 수 있다. 볼 부풀리기는 양쪽 볼, 오른쪽 볼, 왼쪽 볼 중 어느 하나를 부풀리고 일정 시간, 예를 들어 1초, 2초, 3초, 4초, 5초 등을 유지하는 운동을 포함할 수 있다. 혀 운동은 혀 내밀기, 혀 올리기, 혀로 볼을 밀기, 양 옆으로 혀를 움직이기, 입술 모양 따라 혀를 움직이기 등을 포함할 수 있다.

일 실시예에서, 연장 발성/소리 크기 증가 훈련은 말 명료도 향상을 위한 연장 발성, 소리 크기 강화 훈련을 포함한다. 예를 들어, 연장 발성/소리 크기 증가 훈련은 제시어를 제공하고, 목표 발성 시간 및 크기에 맞추어 사용자(10)가 일정한 음으로 제시어를 따라하는지 훈련을 제공할 수 있다.

일 실시예에서, 제시어는 자음과 모음을 조합한 형태로 제공될 수 있다. 연장 발성/소리 크기 증가 훈련은 이전 훈련 내용에 기초하여 목표(예를 들어, 소리 크기, 발성 시간 등)가 설정될 수 있다. 목표가 사용자(10)에게 제공될 수 있다. 사용자의 발성에 기초하여 분석 유닛(250) 및 피드백 제공 유닛(240)에 의해 연장 발성/소리 크기 증가 훈련의 실시간 분석이 제공될 수 있다. 연장 발성/소리 크기 증가 훈련은 소리 크기, 소리 길이, 높낮이를 통해 훈련 결과를 파악하는 훈련일 수 있다.

일 실시예에서, 음도 변화 훈련은 말의 운율 및 명료도 향상을 위한 훈련을 포함한다. 음도 변화 훈련은 음도가 상승하도록, 예를 들어 도, 레, 미를 제공하거나, 음도가 하강하도록, 예를 들어 미, 레, 도를 제공하고, 사용자(10)가 길고 크게 음도를 변화시키는지 확인하는 훈련을 포함한다. 음이 맞지 않는 경우에, 사용자(10)에게 피드백을 제공할 수 있다.

일 실시예에서, 공명 훈련은 연인두(바람 통로)를 폐쇄하는 근육의 힘을 기르는 훈련을 포함한다. 예를 들어, 사용자(10)가 정확한 발음으로 특정 모음, 예를 들어 악, 소리를 내어 혀 뒷부분이 목젖 부분에 닿은 상태로 숨참기를 선택한 시간, 예를 들어 1초, 3초, 5초, 7초 등 유지하는 것을 확인하는 훈련을 포함한다. 공명 훈련은 사용자(10)가 첫 소리를 내어 혀 뒷부분이 연인두를 막은 상태로 일정 시간 유지하는지 평가하는 훈련일 수 있다.

일 실시예에서, 음절 반복 훈련은 입술과 혀의 근육을 풀어, 조음 및 명료도를 향상시키기 위한 훈련을 포함할 수 있다. 예를 들어, 파열음으로 이루어진 음절, 예를 들어 1음절, 2음절, 3음절 등을 박자에 맞추어 반복 발성하도록 하는 훈련을 포함한다. 예를 들어, 음절 반복 연습은 속도를 달리하여 제공될 수 있다. 예를 들어, 음절이 제공되는 속도는 증가하거나 감소할 수 있다. 음절 반복 훈련은 제시어가 일정하게 발음되는지를 파악하기 위한 훈련일 수 있다. 음절 반복 훈련은 소리 크기와 일정한 속도로 반복하는지 파악하기 위한 훈련일 수 있다.

일 실시예에서, 읽기 훈련은 말 명료도 향상을 위한 훈련을 포함할 수 있다. 예를 들어, 읽기 훈련은 문장 또는 문단을 제공하고, 이를 사용자(10)가 끊어 읽도록 하는 훈련이다. 사용자(10)에게 문장, 문단 등을 제시하고, 사용자(10)가 박자에 맞추어 큰 소리로 여러 번 반복하여 읽도록 하는 훈련을 포함한다.

단어 읽기 훈련의 경우, 여러 음절의 단어가 제공될 수 있다. 1음절 단어는 초성/종성 소리가 포함된 제시어로 제공될 수 있다. 2, 3음절 단어는 초성/어중초성/종성 소리가 포함된 제시어로 제공될 수 있다. 이 때, 음운 변동으로 인한 단어는 제외될 수 있다.

훈련에 대한 상세한 설명은 도면과 함께 나중에 설명된다.

피드백 제공 유닛(240)은 사용자(10)에게 피드백을 제공한다. 일 실시예에서, 피드백 제공 유닛(240)은 실시간으로 수신한 사용자(10)의 음성 데이터의 분석 결과에 기초하여 사용자(10)에게 실시간으로 피드백을 제공할 수 있다. 피드백은 시각화된 이미지를 포함할 수 있다. 피드백은 사용자(10)가 훈련을 잘 수행하고 있는지를 사용자(10)에게 알려주도록 구성될 수 있다. 예를 들어, 피드백은 사용자(10) 음성의 크기, 음도, 소리 길이, 음도 변화, 숨 참는 시간, 박자, 읽기 속도 등을 알려주도록 구성된 이미지, 텍스트 중 적어도 어느 하나일 수 있다. 피드백에 대한 상세한 설명은 도면과 함께 나중에 설명된다.

분석 유닛(250)은 서버(200)가 실시간으로 수신한 사용자(10)의 음성 데이터를 분석하도록 구성된다. 분석 유닛(250)은 사용자(10)의 음성 데이터에 기초하여 사용자(10)의 음성의 크기(예를 들어, 데시벨)과 음도(피치)를 측정할 수 있다.

일 실시예에서, 신호 대비 잡음비(Signal to Noise ratio, SNR)을 이용하여 사용자(10)의 음성의 크기를 구할 수 있다. SNR이란 음성의 크기가 잡음의 크기보다 얼마나 큰지 나타내는 비율을 의미한다. SNR값이 크다는 것은 음성이 잡음보다 크다는 것을 의미하고, 0 데시벨은 음성과 잡음이 동일하다고 판단할 수 있다. 예를 들어, 스트리밍 음성의 일부에서 진폭값의 평균 제곱근(Root Mean Square, RMS)을 이용하여 세기를 구할 수 있다. 그 세기를 20*log 계산을 하여 SNR을 구한다. 그리고 주변 환경에 따라 SNR 값에 보정값을 더하거나 빼서 0점을 맞추는 방식을 사용한다. SNR을 이용하여 데시벨 크기를 구하는 방법은 종래에 알려져 있으므로 더 이상의 상세한 설명은 생략한다.

일 실시예에서, 음도는 음성의 주파수에 따른 변화를 통해 획득될 수 있다. 예를 들어, 들어오는 음성의 스펙트럼 데이터를 구하여 주파수를 계산한다. 스펙트럼 데이터는 음성 데이터를 스펙트로그램(spectrogram)으로 변환하여 구할 수 있다. 스펙트로그램은 음성신호처리의 기본이 되는 분석 방법으로서 연속적으로 주어지는 음성신호를 일정한 길이의 조각으로 나눈 다음, 이 조각에 대하여 푸리에 변환을 적용하여 수평축에는 조각의 시간 정보를 나타내고 수직축에는 주파수 성분의 크기를 데시벨 단위로 표현한 2차원 그림이다. 스펙트로그램으로부터 음성신호의 높이를 나타내는 피치 주파수와 각 음소별로 주파수 성분이 집중되어 있는 포만트(formant) 주파수를 획득할 수 있다.

스펙트럼 데이터를 샘플링 할 때 주파수 대역의 누출을 줄이기 위해서 빠른 푸리에 변환(Fast Fourier Transform, FFT) 알고리즘의 BlackmanHarris 형식의 윈도우를 사용할 수 있다. 음성 스펙트럼 데이터를 노멀라이징하여 주파수를 구한다. 노멀라이징은 샘플링된 데이터의 최대/최소값을 구하여 그 사이의 차이를 이용하여 튀지 않는 값들을 선별하는 단계를 포함한다. 이러한 방법은 종래에 알려져 있으므로 더 이상의 상세한 설명은 생략한다.

일 실시예에서, 음성 스펙트럼 데이타로부터 포먼트를 이용하여 분석할 수도 있다. 포먼트 분석은 발음 정확도, 유사도 측정 및 음도 변화에 이용할 수 있다. 포먼트 분석을 통해 모음과 자음에 대한 특정 주파수를 알 수 있고 이를 참고하여 평가에 이용할 수 있다.

분석 유닛(250)은 데시벨과 음도에 기초하여, 사용자(10)의 음성의 크기, 소리 길이, 음도 변화, 숨 참기, 박자 등을 획득할 수 있다. 예를 들어, 데시벨에 기초하여, 소리 크기, 소리 길이, 숨 참기, 박자를 획득하고, 음도에 기초하여 음도 변화를 획득할 수 있다. 또, 분석 유닛(250)은 음성을 텍스트로 변환(Speech to Text) 또는 인공 지능을 이용하여 발음 정확도를 구하도록 구성될 수 있다. 또, 분석 유닛(250)은 제시된 제시어, 문장을 사용자(10)가 발성한 길이와, 예시적으로 녹음된 제시어, 문장의 길이를 비교하여 사용자(10)의 읽기 속도를 획득할 수 있다.

일 실시예에서, 분석 유닛(250)은 다음과 같은 방법을 사용하여 소리 크기, 소리 길이, 소리 높낮이, 소리 길이, 음도 변화, 발음 정확도, 숨 참기 시간, 박자 정확도, 읽기 속도를 구할 수 있다.

소리 크기는 측정된 데시벨 값을 이용하여 임계치 이상의 크기를 유지하는지 확인하여 구한다. 훈련의 단계별 임계치를 조정하여 소리 크기가 선택된 크기 이상인지 확인할 수 있다. 예를 들어, 훈련 단계별로 정해진 시간 동안 임계치 이상의 크기인지 체크하여 임계치 이상 크기를 낸 횟수의 확률(%)을 계산하여 평가한다. 임계치는 선택된 값으로, 설정 가능함이 당업자에게 이해될 것이다. 임계치 이상 크기를 낸 횟수의 확률(%)은 사용자의 언어 레벨을 결정하기 위해 사용될 수 있다. 예를 들어, 확률이 선택된 값 이상인 경우 사용자의 언어 레벨은 정상 또는 훈련의 목표를 달성했다고 판단될 수 있다.

소리 길이는 소리가 끊겼는지를 이용하여 평가할 수 있다. 예를 들어, 소리 길이는 측정된 데시벨 값을 이용하여 임계치 이상의 크기로 일정 시간동안 유지하는지 확인하여 구한다. 단계별로 유지해야 하는 시간이 다양하게 정해질 수 있다. 예를 들어, 1단계(3초), 2단계(5초), 3단계(10초), 4단계(15초)로 기 정해질 수 있다. 1단계, 즉 예를 들어 3초를 유지하지 못하면 분석 유닛(250)은 소리 끊김이 있다고 판단할 수 있다. 1단계에서 소리 끊김이 없을 경우 다음 훈련 때 2단계로 난이도를 변경할 수 있다. 각 단계에서 유지해야하는 시간이 선택적으로 변경 가능함이 이해될 것이다.

소리 높낮이는 일정한 소리의 높낮이로 발생하는 지 여부를 확인하여 구할 수 있다. 예를 들어, 측정된 음도 값을 이용하여 임계치 범위로 음도 값을 유지해야 한다. 정해진 시간 동안 정해진 횟수로 체크하여 임계치 범위에서 벗어나지 않은 횟수의 확률(%)을 계산하여 평가한다. 이와 다르게, 측정된 음도 값과 포먼트 값이 각 음도에 맞게 선택된 시간, 예를 들어, 1초, 2초, 3초, 4초 동안 유지되는지 확인하여 구할 수 있다. 각 음도에 맞는 음도 값과 포먼트 값으로 선택된 시간 동안 정해진 횟수로 체크하여 유지한 횟수의 확률(%)을 계산하여 평가할 수 있다. 공명 연습을 위한 소리 크기 측정은, 제시어의 첫번째 단어와 두번째 단어를 발음할 때 측정된 데시벨 값의 평균값을 이용하여 정해진 크기의 데시벨 값 보다 클 때의 점수로 평가할 수 있다. 예를 들어, 평균 데시벨 값이 0, 20dB 이하, 20, 35, 50, 65dB 이상일 경우로 구분하여 평가할 수 있다. 각 음도에 맞는 음도 값과 포먼트 값으로 선택된 시간 동안 정해진 횟수로 체크하여 유지한 횟수의 확률(%)은 사용자의 언어 레벨을 결정하기 위해 사용될 수 있다. 예를 들어, 확률이 선택된 값 이상인 경우 사용자의 언어 레벨은 정상 또는 훈련의 목표를 달성했다고 판단될 수 있다.

소리 길이는 측정된 데시벨 값을 이용하여 임계치 이상의 크기로 일정 시간 동안 유지하는지에 기초하여 획득할 수 있다. 각 음도에 임계치 이상의 크기로 선택된 시간, 예를 들어 1초, 2초, 3초, 4초, 5초간 유지해야 하고, 선택된 시간, 예를 들어, 1초, 2초, 3초, 4초, 5초 동안 정해진 횟수로 체크하여 유지한 횟수의 확률(%)을 계산하여 평가한다. 유지한 횟수의 확률은 사용자의 언어 레벨을 결정하기 위해 사용될 수 있다. 예를 들어, 확률이 선택된 값 이상인 경우 사용자의 언어 레벨은 정상 또는 훈련의 목표를 달성했다고 판단될 수 있다.

발음 정확도는 복수의 단어(각각은 복수의 음절로 구성됨)을 발음하여 정확도에 따라 평가한다. 예를 들어, 3단어(6음절)를 발음하여 정확도에 따라 평가한다. 발음이 1음절, 2음절, 3음절, 4음절, 5음절 이상 맞았을 때 맞은 개수에 따라 평가한다. 제시어에 대한 포먼트 비교를 통해 맞는 음절인지 체크할 수 있다. 맞은 개수는 사용자의 언어 레벨을 결정하기 위해 사용될 수 있다. 예를 들어, 맞은 개수가 선택된 값 이상인 경우 사용자의 언어 레벨은 정상 또는 훈련의 목표를 달성했다고 판단될 수 있다.

숨참기 시간은 제시어의 첫번째 단어 발음 후 선택된 시간, 예를 들어, 1초, 2초, 3초, 4초, 5초, 6초, 7초, 8초, 9초, 10초 후 두번째 단어를 발음하는 사이에 측정된 데시벨 값이 임계치 이상일 경우를 체크하여 평가한다. 임계치 미만의 크기가 측정되는 숨참는 시간이 선택된 시간, 예를 들어 0, 1, 2, 3, 4, 5초이상 일 경우를 체크하여 제시어 개수에 대한 평균을 구하여 평가한다. 예를 들어, 제시어 10개를 연습했는데 선택된 시간 후에 두번째 단어를 임계치 이상의 데시벨로 발음한 횟수가 4회라면 이번 훈련은 5점 만점 중 4점으로 평가할 수 있다. 점수는 사용자의 언어 레벨을 결정하기 위해 사용될 수 있다. 예를 들어, 점수가 선택된 값 이상인 경우 사용자의 언어 레벨은 정상 또는 훈련의 목표를 달성했다고 판단될 수 있다.

일 실시예에서, 문장 및 단어 읽기 훈련에 대한 분석은 다음과 같을 수 있다. 일 예는 음성 파일을 음성 인식을 이용하여 텍스트 변환 후(STT) 원문과 비교하여 텍스트 유사도 측정(코사인 유사도 알고리즘, 라벤슈타인 거리 알고리즘 등)을 하는 것이고, 다른 예는 녹음된 음성 파일을 이용하여 딥 러닝을 통한 발음 정확도를 측정하는 것으로 과제에서 제시하는 단어, 문장, 문단에 대한 정확한 발음과 부정확한 발음에 대한 데이터 수집 후 각각의 데이터를 이용하여 모델링 후 학습하여 측정하는 방법을 포함한다. 상기의 두가지 방법을 조합하여 발음 정확도를 측정하는 것도 가능하다.

읽기 속도는 녹음된 음성의 전체 길이와 훈련에 사용된 제시 음성의 길이를 비교하여 분석할 수 있다.

도 3은 본 개시의 일 실시예에 따른 신경언어장애의 개선 방법을 제공하는 장치(300)의 블록도이다.

도 3을 참조하면, 신경언어장애의 개선 방법을 제공하는 장치(300)는 휴대 전화, 태블릿, 랩탑과 같은 휴대 장치를 포함할 수 있다. 즉, 장치(300)는 서버(200)로 음성 데이터를 전송하고 서버(200)에서 음성 데이터를 분석하고 피드백을 장치(300)로 제공하는 것 대신, 장치(300)에서 음성 데이터를 분석하고 피드백을 제공할 수 있다.

장치(300)는 통신 모듈(310), 메모리(320), 인터페이스(325), 훈련 유닛(330), 피드백 제공 유닛(340) 및 분석 유닛(350)을 포함할 수 있다.

통신 모듈(310)은 장치(300)와 외부 장치를 무선 또는 유선으로 연결하도록 구성된다. 장치(300)는 통신 모듈(310)을 통해 외부 장치(예를 들어 서버(200))로 정보를 송신하거나 외부 장치로부터 정보를 수신할 수 있다. 일 실시예에서, 정보는 의료진(20)에게 제공할 정보, 서버(200)로 제공할 정보이거나, 의료진(20)으로부터 수신하는 정보, 서버(200)로부터 수신하는 정보일 수 있다. 통신 모듈(310)은 통신 모듈(210)의 통신 방식과 유사하거나 동일할 수 있다.

메모리(320), 훈련 유닛(330), 피드백 제공 유닛(340) 및 분석 유닛(350)은 메모리(220), 훈련 유닛(230), 피드백 제공 유닛(240) 및 분석 유닛(250)과 실질적으로 동일하거나 유사하여 자세한 설명은 생략한다.

인터페이스(325)는 사용자(10)의 음성 정보를 수신하고, 훈련 및 피드백을 사용자(10)에게 제공하도록 구성된다. 일 실시예에서, 인터페이스(325)는 디스플레이, 터치 스크린, 마이크, 스피커 등 사용자(10)와 소통할 수 있는 모든 구성 중 적어도 어느 하나를 포함할 수 있다.

일 실시예에서, 장치(300)의 메모리(320), 훈련 유닛(330), 피드백 유닛(340) 및 분석 유닛(350)의 적어도 어느 하나의 일부의 기능이 서버(200)의 메모리(320), 훈련 유닛(330), 피드백 유닛(340) 및 분석 유닛(350)을 이용하여 구현될 수 있다는 것은 본 기술 분야의 일반적인 지식을 가진 자에게 이해될 것이다.

도 4는 본 개시의 일 실시예에 따른 신경언어장애의 개선 방법을 제공하는 순서도이다.

신경언어장애의 개선 방법을 제공하는 방법은 단말(100)을 통해 사용자(10)에게 제공될 수 있다. 일 실시예에서, 도 1에 도시된 것과 같이, 서버(200)는 단말(100)을 통해 사용자(10)에게 훈련을 제공할 수 있다. 그 다음, 단말(100)을 통해 훈련에 대응하는 사용자(10)의 음성 데이터가 서버(200)에 전달되고, 서버(200)에서 사용자(10)의 음성을 분석하여 피드백을 단말(100)에게 제공할 수 있다. 이와 다르게, 도 3에 도시된 장치(300)와 같이, 장치(300)가 사용자(10)의 음성 데이터를 분석하여 훈련 및 피드백을 사용자(10)에게 제공할 수 있다. 또, 음성 데이터의 수신, 훈련의 제공, 음성 데이터의 분석, 피드백의 생성 및 제공이 하나 이상의 장치에서 수행되어 사용자(10)에게 제공될 수 있음이 이해될 것이다. 이하에서는 서버(200)가 도 4에 도시된 방법을 수행하는 것으로 가정하고 설명한다.

단계 410에서, 서버(200)는 사용자(10)에게 훈련을 제공한다. 일 실시예에서, 훈련 유닛(330)이 사용자(10)에게 훈련을 제공하거나, 프로세서가 메모리(320)와 조합되어 훈련을 사용자(10)에게 제공할 수 있다. 훈련은 신경언어장애를 개선시키기 위한 훈련으로, 비구어 구강운동, 연장 발성/소리 크기 증가, 음도 변화 훈련, 공명(연인두 폐쇄음) 훈련, 음절 반복 훈련, 읽기 훈련 중 적어도 하나를 포함할 수 있다.

일 실시예에서, 훈련은 사용자(10)의 기존 훈련 결과에 기초하여 제공될 수 있다. 사용자(10)의 상태 및 기존 훈련 결과는 서버(200)의 메모리(220)에 저장된다. 훈련 유닛(230)은 사용자(10)의 상태 및 기존 훈련 결과에 기초하여 사용자(10)에게 적합한 훈련을 제공할 수 있다. 예를 들어, 소리 길이 훈련의 경우, 단계 별로 유지하는 호흡을 유지하는 시간이 상이하게 정해져 있고, 전 단계를 통과한 것을 확인한 후 다음 단계의 훈련을 제공할 수 있다. 복수의 단계를 포함하는 훈련의 경우, 훈련 유닛(230)은 각 단계를 통과한 것을 확인한 후 다음 단계의 훈련을 제공할 수 있다.

제공된 훈련에 대응하여 사용자(10)가 발성, 발화와 같은 음성 데이터에 대응하는 소리를 생성한다. 단계 420에서 서버(200)는 사용자(10)의 음성 데이터를 수신한다. 서버(200)는 통신 모듈(210)을 통해 사용자(10)의 음성 데이터를 수신할 수 있다. 서버(200)는 훈련에 대응되는 사용자(10)의 음성 데이터를 실시간으로 수신할 수 있다. 단계 430에서 분석 유닛(350)은 사용자의 음성 데이터를 분석한다. 일 실시예에서, 분석 유닛(250)은 사용자(10)의 음성 데이터에 기초하여 사용자(10)의 음성의 크기(예를 들어, 데시벨)과 음도(피치)를 측정할 수 있다. 분석 유닛(250)은 사용자(10)의 음성의 크기, 소리 길이, 음도 변화, 숨 참기, 박자 중 적어도 하나를 획득할 수 있다. 분석 유닛(250)은 연장 발성 소리 크기 증가를 위한 소리 크기, 소리 길이, 음도를 획득할 수 있다. 분석 유닛(250)은 음도 변화 훈련을 위한 소리 길이, 음도 변화를 획득할 수 있다. 분석 유닛(250)은 공명 연습을 위한 발음 정확도, 숨참기 시간, 소리 크기를 획득할 수 있다. 분석 유닛(250)은 음절 반복 연습을 위한 발음 정확도, 박자 정확도, 소리 크기를 획득할 수 있다. 분석 유닛(250)은 단어(예를 들어, 1, 2, 3음절) 읽기 훈련을 위한 발음 정확도, 읽기 속도, 소리 크기를 획득할 수 있다. 분석 유닛(250)은 3어절 이상의 문장 및 단어 읽기 훈련을 위한 발음 정확도, 읽기 속도, 소리 크기를 획득할 수 있다. 분석 유닛(250)이 획득하는 상기의 소리 크기, 소리 길이, 소리 높낮이, 음도 변화, 발음 정확도, 숨 참기 시간, 박자 정확도, 읽기 속도 등은 상술한 바이므로 자세한 설명은 생략한다.

단계 440에서, 피드백 제공 유닛(240)은 사용자(10)의 음성 데이터 및 상기 분석 결과에 기초하여 피드백을 생성한다. 피드백은 사용자(10)에게 사용자(10)의 발성 또는 발화가 어떤 상태인지 사용자(10)에게 알려주기 위해 시각화된 이미지를 포함할 수 있다. 피드백은 사용자(10)의 언어 레벨에 기초해 제공될 수 있다. 단계 450에서 피드백 제공 유닛(250)은 사용자(10)에게 피드백을 제공한다. 피드백 제공 유닛(250)은 사용자(10)에게 실시간으로 피드백을 제공할 수 있다. 예를 들어, 피드백 제공 유닛(250)은 사용자(10)의 음성의 소리 크기, 소리 높낮이, 소리 길이, 음도 변화, 발음 정확도, 숨 참기 시간, 박자 정확도, 읽기 속도 중 적어도 하나가 유지되거나 어떻게 변화하고 있는지 통지할 수 있다. 도시되지 않았지만, 서버(200)는 사용자(10)의 음성 데이터에 대한 분석 결과를 저장할 수 있다. 분석 결과는 사용자(10)가 훈련에 대응하여 수행한 결과를 포함할 수 있다. 분석 결과는 다음 훈련을 제공할 때 훈련 유닛(230)에 의해 참조될 수 있다.

일 실시예에서, 서버(200)는 사용자(10)의 개인 정보와 사용자(10)의 훈련 내용, 훈련에 대한 분석 및 피드백을 대응시켜 메모리(220) 저장하도록 구성될 수 있다. 이에 따라, 사용자(10) 별 개인화된 훈련, 분석, 피드백 제공이 가능하다. 일 실시예에서, 사용자에게 부족한 부분을 분석하여 맞춤형 훈련을 제공할 수 있다. 예를 들어, 분석 결과, 점수 또는 평가가 떨어지는 훈련을 최우선으로 하여 훈련을 제공할 수 있다. 점수 또는 평가는 사용자(10)가 각 훈련 후 스스로 입력한 점수 또는 평가일 수 있고 또는 서버(200)가 기 저장된 기준에 따라 평가한 점수 또는 평가일 수 있다. 예를 들어, 도 6c, 7c, 8d, 9c, 10b, 11c에 도시된 점수 또는 평가에 기초하여 맞춤형 훈련이 제공될 수 있다. 일 실시예에서, 음도 변화가 적다고 판정되는 것에 대응하여 음도 훈련이 일정 점수(또는 평가)에 도달하도록 계속 제공하거나, 아니면 다음 훈련 시작 시에 최우선으로 음도 훈련을 제공할 수 있다. 일 실시예에서, 사용자(10)의 읽기를 분석하여, 발음 정확도가 떨어지는 음소를 파악하고 해당 음소가 포함된 단어, 문장, 문단을 자동 생성하여 제공할 수 있다. 예를 들어. ㄹ,ㅅ 의 정확도 명료도가 떨어지는 환자에게 ㄹ,ㅅ이 많이 포함된 단어, 문장, 문단을 자동 생성하여 제공할 수 있다. 소리 크기에 문제가 있는 사용자(10)로 분석이 되면, 이전에 냈던 소리 크기를 기억하여, 그것보다 한 단계 크게 말 할 수 있도록 치료 목표를 조정한다. 예를 들어, 목표 데시벨을 제시하고, 결과를 서버(200)에 저장하여 맞춤 데시벨 제공하거나 다음 단계의 데시벨 제공을 할 수 있다. 부족한 부분에 해당하는 훈련은 반복 횟수를 늘려서 제공할 수 있다.

도 5a 내지 5c는 본 개시의 일 실시예에 따른 비구어 구강 운동을 제공하는 화면의 일 예이다.

도 5a 내지 5c를 참조하면, 비구어 구강 운동을 제공하는 화면은 현재 제공된 훈련이 어떤 훈련인지 표시하는 텍스트(510), 해당 훈련을 가이드하는 가이드 영상(520) 및 사용자(10)의 얼굴을 모니터링하는 모니터링부(530)를 포함할 수 있다. 텍스트(510), 가이드 영상(520) 및 모니터링부(530)은 하나의 화면에 표시되거나 다른 화면에 표시될 수 있다. 일 실시예에서, 가이드 영상(520) 및 모니터링부(530)는 동일 화면에 표시되고, 사용자(10)는 가이드 영상(520) 및 모니터링부(530)를 통해 가이드 영상(520)을 따라하면서 자신의 훈련을 모니터링할 수 있다.

도 6a 내지 6d는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다. 일 실시예에서, 도 6a는 연장 발성 소리 증가를 위한 훈련 화면 이미지일 수 있다.

도 6a를 참조하면, 훈련 및 피드백을 제공하는 화면은 에이전트(610), 오브젝트(620) 및 음량 표시(630)를 포함할 수 있다. 에이전트(610)는 사용자(10)의 음성에 반응하여 화면의 위, 아래, 좌, 우로 이동할 수 있다. 일 실시예에서, 에이전트(610)는 동물(예를 들어, 식물에 대응하는 생물군으로 육상 동물, 해양 동물) 이미지, 식물 이미지, 의인화된 이미지를 포함하는 이미지를 포함할 수 있다. 도 6a에서 에이전트(610)는 고래 이미지로 표현되었으나, 이에 한정되지 않음이 이해될 것이다. 오브젝트(620)는 화면에 적어도 하나 배치될 수 있다. 오브젝트(620)는 에이전트(610)가 동물인 경우, 동물이 섭취할 수 있는 동물의 이미지를 포함할 수 있다. 도 6a에서 오브젝트(620)는 새우 이미지로 표시되었으나 이에 한정되지 않음이 이해될 것이다. 오브젝트(620)는 에이전트(610)가 전진(예를 들어, 화면 우측)함에 따라, 에이전트(610)와 오브젝트(620)가 겹치는 경우 화면에서 사라질 수 있다. 이에 따라, 에이전트(610)가 오브젝트(620)를 섭취하는 것으로 보일 수 있다. 음량 표시(630)는 목표 음량을 표시하는 이미지를 표시할 수 있다. 음량 표시(630)는 실시간으로 사용자(10)의 음성의 크기를 보여주는 이미지를 표시할 수 있다.

도 6b은 에이전트(610)가 사용자(10)의 음성에 반응하여 화면의 위, 아래, 좌, 우로 이동하는 일 예를 보여준다. 일실시예에서 기준이 되는 음도는 훈련 시작할 때 사용자가 발성한 음을 기준으로 할 수 있다. 예를 들어, 선택된 시간 동안 사용자가 발성한 음을 기준으로 하여 에이전트(610) 및/또는 오브젝트(620)의 위치를 결정할 수 있다. 선택된 시간은 예를 들어 1초, 2초, 3초, 4초, 5초 등으로, 설정될 수 있다.

일 실시예에서, 사용자(10)가 발성하고, 소리 크기가 임계치 이상이라고 판정되는 것에 대응하여 에이전트(610)는 전진(예를 들어, 화면 우측으로 이동)할 수 있다. 소리 크기가 임계치보다 작다고 판정되는 것에 대응하여 에이전트(610)는 후진(예를 들어 화면 좌측으로 이동)할 수 있다. 음도가 임계치보다 크다고 판정되는 것에 대응하여 에이전트(610)는 화면 위 방향으로 상승하고, 음도가 임계치보다 작다고 판정되는 것에 대응하여 에이전트(610)는 화면 아래 방향으로 하강할 수 있다. 일 실시예에서, 에이전트(610)는 사용자(10)가 발성하고, 소리 크기가 임계치 이상이라고 판정되는 것에 대응하여 오브젝트(620)를 향해 이동할 수 있다. 여기서 에이전트(610)가 오브젝트(620)르 향하는 방향을 제1 방향이라고 할 수 있다. 에이전트(610)는 사용자(10)가 발성하고, 소리 크기가 임계치보다 작다고 판정되는 것에 대응하여 오브젝트(620)와 반대 방향(또는 멀어지는 방향)으로 이동할 수 있다. 여기서, 에이전트(610)가 오브젝트(620)와 멀어지는 방향 또는 제1 방향과 반대되는 방향을 제2 방향이라고 할 수 있다. 음도가 임계치보다 크다고 판정되는 것에 대응하여 에이전트(610)는 오브젝트(620)의 위 방향으로 상승하고, 음도가 임계치보다 작다고 판정되는 것에 대응하여 에이전트(610)는 오브젝트(620)의 아래 방향으로 하강할 수 있다.

사용자(10)의 발성의 크기와 음도를 측정하는 방법은 상술한 바 자세한 설명은 생략한다. 이와 같이, 서버(200)는 사용자(10)의 음성의 크기와 음도를 실시간으로 측정하고, 크기와 음도에 따라 시각화하여 에이전트(610)를 이동시켜 사용자(10)에게 실시간으로 피드백을 제공할 수 있다.

도 6c를 참조하면, 훈련 후에 훈련에 대한 피드백을 제공받을 수 있다. 훈련에 대한 피드백은, 사용자(10) 스스로 입력하거나, 서버(200)에서 선택된 기준과 사용자(10)의 음성 데이터를 비교하여 생성할 수 있다.

도 6d를 참조하면, 훈련 화면은 훈련의 목표를 표시할 수 있다. 일 실시예에서, 연장 발성 소리 증가 훈련의 경우, 연장 발성을 유지하는 시간, 발성 소리 크기의 목표를 화면에 표시할 수 있다. 소리 크기는 측정된 데시벨 값이 임계치 이상이 크기를 유지하였는지, 임계치 이상 크기를 낸 횟수의 확률을 계산하여 평가할 수 있다. 소리 길이는 측정된 데시벨 값을 이용하여 임계치 이상의 크기로 일정 시간동안 유지해야 하였는지 평가할 수 있다. 예를 들어, 단계별로 유지해야 하는 시간은 상이할 수 있다. 소리 높낮이는 측정된 음도 값이 임계치 범위로 유지되었는지 계산하여 평가할 수 있다.

도 7a 내지 7c는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다. 일 실시예에서, 도 7a 및 7b는 음도 훈련을 위한 화면 이미지일 수 있다.

도 7a 및 7b를 참조하면, 훈련 화면은 에이전트(710)와 음계를 표시할 수 있다. 일 실시예에서, 에이전트(710)는 동물(육상 동물, 해양 동물)을 포함하는 이미지를 포함할 수 있다. 도 7a 및 7b에서 에이전트(710)는 고래 이미지로 표현되었으나, 이에 한정되지 않음이 이해될 것이다. 에이전트(710)는 사용자(10)의 음성의 음도에 대응하여 화면의 위 방향 또는 아래 방향으로 이동하거나, 정지해 있을 수 있다. 예를 들어, 음도가 선택된 음계보다 크다고 판정되는 것에 대응하여 에이전트(710)는 화면 위 방향으로 상승하고, 음도가 선택된 음계보다 작다고 판정되는 것에 대응하여 에이전트(710)는 화면 아래 방향으로 하강할 수 있다. 음도가 선택된 음계와 동일하거나 일정 오차 범위 내인 경우, 에이전트(710)는 위 또는 아래로 이동하지 않을 수 있다. 도 7b를 참조하면, 에이전트(710)는 사용자(10)의 음성에 대응하여 화면에 표시된 /도/ 음계보다 높은 곳에 위치함을 알 수 있다. 즉, 사용자(10)가 /도/ 음도보다 높은 음도를 발성하는 것에 대응하여 에이전트(710)가 사용자(10)의 음성에 대응하여 화면에 표시된 /도/ 음계보다 높은 곳에 위치함을 알 수 있다.

도 7a 및 7b에 도시된 것과 같이, 일 실시예에서, 사용자(10)는 /도/ 음도를 유지하여 에이전트(710)가 /도/와 동일선상에 놓이도록 유지하고, 그 다음 /레/ 음도를 유지하여 /레/와 동일선상에 놓이도록 훈련할 수 있다. 다가오는 음계에 맞추어 음을 발성 하는 것에 대응하여, 음계는 제1 색(예를 들어, 파란색)으로 변할 수 있다. 다가오는 음에 맞추어 음을 발성하지 않는 것에 대응하여, 음계는 제2 색(예를 들어, 빨간색)으로 변할 수 있다. 화면에 나타나는 음계는 다양하게 변형이 가능하며, 사용자(10)는 화면에 나타난 음도에 맞게 발성하는 훈련을 수행할 수 있다. 사용자(10)의 발성의 음도를 측정하는 방법은 상술하여 자세한 설명은 생략한다. 이와 같이, 서버(200)는 사용자(10)의 음성의 크기와 음도를 실시간으로 측정하고, 크기와 음도에 따라 시각화하여 에이전트(710)를 이동시켜 사용자(10)에게 실시간으로 피드백을 제공할 수 있다.

도 7c를 참조하면, 훈련 후에 훈련에 대한 피드백을 제공받을 수 있다. 훈련에 대한 피드백은, 사용자(10) 스스로 입력하거나, 서버(200)에서 선택된 기준과 사용자(10)의 음성 데이터를 비교하여 생성할 수 있다. 소리 크기는 측정된 데시벨 값이 임계치 이상이 크기를 유지하였는지, 임계치 이상 크기를 낸 횟수의 확률을 계산하여 평가할 수 있다. 소리 길이는 측정된 데시벨 값을 이용하여 임계치 이상의 크기로 일정 시간동안 유지해야 하였는지 계산하여 평가할 수 있다. 소리 높낮이는 음도 값과 포먼트 값이 각 음도에 맞게 정해진 시간 동안 유지되었는지 계산하여 평가할 수 있다.

도 8a 내지 8e는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다. 일 실시예에서, 도 8a 내지 8c는 공명(연인두 폐쇄음) 훈련을 위한 화면 이미지 일 수 있다.

도 8a 내지 8c를 참조하면, 훈련 화면은 에이전트 이미지(810), 사람의 목 구조 이미지(820) 및 가이드 텍스트(830)를 포함할 수 있다. 에이전트 이미지(810)는 에이전트 및 사용자(10)가 발음해야 할 단어 이미지를 포함할 수 있다. 단어 이미지는 적어도 2음절의 단어를 포함할 수 있다. 도 8a 내지 8c를 참조하면, 에이전트 화면(810)에 사용자(10)가 발음해야 할 단어 이미지를 제공되고, 사용자(10)가 발음해야 할 음절에 강조 표시가 되며, 이에 대응하여 에이전트가 상이하게 표시됨을 알 수 있다. 예를 들어, 에이전트는 사용자(10)가 첫 글자를 발음하면 숨을 참는 모습으로 변하고, 목 구조 이미지(820)도 연인두가 폐쇄되는 모습으로 변한다. 사용자(10)가 숨을 참는 동안 에이전트는 숨을 참는 이미지로 변하고, 선택된 시간 전에 사용자(10)가 소리를 내면 너무 빨랐다는 피드백을 줄 수 있다. 선택된 시간 후 사용자(10)가 두번째 글자를 발음하면 에이전트는 물을 뿜고, 목 구조 화면(820)도 연인두를 통해 바람이 나오는 모습으로 변할 수 있다.

사람의 목 구조 이미지(820)은 연인두 폐쇄를 가이드하기 위한 시각화된 이미지를 포함하고, 가이드 텍스트(830)는 사용자(10)에게 훈련에 대한 가이드를 제공할 수 있다. 사용자(10)는 에이전트 이미지(810), 사람의 목 구조 이미지(820) 및 가이드 텍스트(830)를 참조하여 훈련을 수행할 수 있다. 일 실시예에서, 에이전트 화면(810)에 제공되는 단어는 2음절 단어이고, 첫 음절 발성 시 혀 뒷부분이 사용자(10)의 목젖 부분에 닿는 단어로 구성될 수 있다.

도 8d를 참조하면, 훈련 후에 훈련에 대한 피드백을 제공받을 수 있다. 훈련에 대한 피드백은, 사용자(10) 스스로 입력하거나, 서버(200)에서 선택된 기준과 사용자(10)의 음성 데이터를 비교하여 생성할 수 있다. 제시어의 첫번째 단어 발음 후 선택된 시간, 예를 들어, 1초, 2초, 3초, 4초, 5초 후 두번째 단어를 발음하는 사이에 측정된 데시벨 값이 임계치 이상일 경우를 체크하여 평가할 수 있다. 제시어의 첫번째 음절과 두번째 음절을 발음할 때 측정된 데시벨 값의 평균값을 이용하여 정해진 크기의 데시벨 값 보다 클 때의 점수로 평가할 수 있다. 발음 정확도는 제시어에 대한 포먼트 비교를 통해 맞는 음절인지 확인하여 평가할 수 있다. 소리 크기는 첫번째 단어와 두번째 단어를 발음할 때 측정된 데시벨 값의 평균값을 이용하여 정해진 크기의 데시벨 값 보다 큰지 확인하여 평가할 수 있다.

도 8e를 참조하면 훈련 후에 훈련에 대한 피드백을 제공받을 수 있다. 훈련에 대한 피드백은, 서버(200)에서 선택된 기준과 사용자(10)의 음성 데이터를 비교하여 생성할 수 있다.

도 9a 내지 9c는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다. 일 실시예에서, 도 9a 내지 9c는 음절 반복 훈련을 위한 화면 이미지 일 수 있다.

도 9a 및 9b를 참조하면, 사용자(10)가 정확한 발음으로 제공된 제시어를 발음하도록 하는 훈련이 제공된다. 사용자(10)의 발성에 맞추어 제시어를 감싸고 있는 풍선이 사라지고, 정확한 발음을 하였는지 하지 않았는지에 대응하여 제시어가 다른 색으로 표시될 수 있다. 일 실시예에서, 훈련은 1음절, 2음절, 3음절 등 하나의 음절 이상을 제시하는 제시어를 제공할 수 있다.

도 9c를 참조하면, 훈련 후에 훈련에 대한 피드백을 제공받을 수 있다. 훈련에 대한 피드백은, 사용자(10) 스스로 입력하거나, 서버(200)에서 선택된 기준과 사용자(10)의 음성 데이터를 비교하여 생성할 수 있다.

도 10a 및 10b는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다. 일 실시예에서, 도 10a 및 10b는 사용자(10)가 단어를 정확하게 발음하도록 하는 훈련을 위한 이미지 일 수 있다.

도 10a을 참조하면, 훈련 화면은 제시어 화면(1010), 녹음 버튼(1020) 및 들어보기 버튼(1030)을 포함할 수 있다. 제시어 화면은 사용자(10)의 발음 훈련을 위한 단어 및 단어를 묘사하는 이미지를 포함할 수 있다. 녹음 버튼(1020)은 사용자(10)의 선택에 따라 사용자의 발음을 녹음하는 버튼이다. 들어보기 버튼(1030)은 녹음한 단어를 사용자(10)에게 들려주는 버튼이다.

도 10b를 참조하면, 훈련 후에 훈련에 대한 피드백을 제공받을 수 있다. 훈련에 대한 피드백은, 사용자(10) 스스로 입력하거나, 서버(200)에서 선택된 기준과 사용자(10)의 음성 데이터를 비교하여 생성할 수 있다.

도 11a 내지 11c는 본 개시의 일 실시예에 따른 훈련 및 피드백을 제공하는 화면의 일 예이다. 일 실시예에서, 도 11a 및 11b는 사용자(10)에게 문장을 읽는 훈련을 제공하는 이미지일 수 있다.

도 11a 및 11b를 참조하면, 사용자(10)에게 문장을 제공하고, 들어보기, 함께읽기, 도움받기, 혼자하기를 포함하는 여러 사용자 모드를 제공할 수 있다. 들어보기는 연습할 문장을 기 저장된 목소리로 사용자(10)에게 들려준다. 함께 읽기는 연습할 문장을 기 저장된 목소리에 맞추어 사용자(10)가 함께 발성한다. 도움받기는 연습할 문장을 가이드 소리와 함께 사용자(10)가 발성한다. 혼자하기는 사용자(10) 혼자 발성한다. 혼자하기 모드에서는 자동으로 사용자의 발성을 녹음할 수 있다.

도 11c를 참조하면, 훈련 후에 훈련에 대한 피드백을 제공받을 수 있다. 훈련에 대한 피드백은, 사용자(10) 스스로 입력하거나, 서버(200)에서 선택된 기준과 사용자(10)의 음성 데이터를 비교하여 생성할 수 있다.

일 실시에서, 사용자(10)의 개인 정보와 사용자(10)의 훈련 결과가 서버(200)에 저장될 수 있다. 따라서, 사용자(10) 별로 이전의 훈련 결과에 따라 맞춤형 훈련이 제공 가능하다.

이상에서 설명된 장치 및 방법은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.

본 개시의 설명된 실시예들은 또한 어떤 태스크들이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 둘 다에 위치할 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

프로세서 및 메모리를 포함하는 컴퓨팅 장치가 사용자에게 언어 훈련을 제공하는 방법으로,
상기 언어 훈련에 대응하는 컨텐츠를 사용자 단말에 제공하는 단계;
상기 사용자의 음성 데이터를 상기 사용자 단말로부터 수신하는 단계;
상기 음성 데이터를 분석하여 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계; 및
상기 사용자의 음성 데이터에 기초하여 상기 언어 훈련에 대응하는 컨텐츠에 대한 상기 사용자의 훈련을 평가하여 훈련 평가를 생성하는 단계로, 상기 사용자의 음성 데이터를 분석하여 발음 정확도가 떨어지는 음소를 판정하는 단계, 및 상기 판정된 음소가 포함된 단어, 문장 및 문단 중 적어도 하나를 자동 생성하여 제공하는 단계를 포함하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제1항에 있어서,
상기 음성 데이터를 분석하여 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계 이후에,
상기 검출된 사용자의 음도 및 소리 크기에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계;
상기 측정된 사용자의 언어 레벨에 기초하여 실시간으로 피드백을 생성하는 단계;
상기 피드백이 나타나도록 상기 언어 훈련에 대응하는 컨텐츠를 업데이트하는 단계; 및
상기 피드백이 나타나는 업데이트된 컨텐츠를 실시간으로 상기 사용자 단말로 송신하여, 상기 사용자가 상기 피드백을 실시간으로 확인하도록 하는 단계를 더 포함하는
사용자에게 언어 훈련을 제공하는 방법.
제2항에 있어서,
상기 언어 훈련에 대응하는 컨텐츠는 에이전트와 오브젝트를 포함하는 이미지로, 상기 에이전트는 제1 이미지를 포함하고, 상기 오브젝트는 제1 이미지와 상이한 제2 이미지를 포함하고,
상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 소리 크기에 대응하여 상기 오브젝트를 향하여 이동하거나, 상기 오브젝트와 멀어지는 방향으로 이동하도록 상기 피드백을 생성하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제3항에 있어서,
상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 소리 크기가 선택된 임계치 이상이라고 판정되는 것에 대응하여 상기 에이전트를 상기 오브젝트를 향하는 제1 방향으로 이동시키고, 상기 검출된 사용자의 음성의 소리 크기가 상기 선택된 임계치보다 작다고 판정되는 것에 대응하여 상기 에이전트를 상기 제1 방향과 반대 방향인 제2 방향으로 이동시키는 피드백을 생성하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제4항에 있어서,
상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 제1 방향으로 이동하여 상기 오브젝트와 겹치는 것에 대응하여, 상기 에이전트와 겹치는 상기 오브젝트를 상기 컨텐츠에서 제거하는 단계를 더 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제2항에 있어서,
상기 언어 훈련에 대응하는 컨텐츠는 에이전트와 오브젝트를 포함하는 이미지로, 상기 에이전트는 제1 이미지를 포함하고, 상기 오브젝트는 제1 이미지와 상이한 제2 이미지를 포함하고,
상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 음도에 대응하여 상기 오브젝트의 위 방향으로 이동하거나, 상기 오브젝트의 아래 방향으로 이동하도록 상기 피드백을 생성하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제6항에 있어서,
상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 음도가 선택된 임계치보다 크다고 판정되는 것에 대응하여 상기 에이전트를 상기 오브젝트의 위 방향으로 이동시키고, 상기 검출된 사용자의 음성의 음도가 상기 선택된 임계치보다 작다고 판정되는 것에 대응하여 상기 오브젝트의 아래 방향으로 이동하도록 상기 피드백을 생성하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제2항에 있어서,
상기 언어 훈련에 대응하는 컨텐츠는 에이전트와 오브젝트를 포함하는 이미지로, 상기 에이전트는 제1 이미지를 포함하고, 상기 오브젝트는 제1 이미지와 상이한 제2 이미지 및 제3 이미지를 포함하며, 상기 제2 이미지는 제1 음도를 나타내고 상기 컨텐츠의 제1 위치에 배치되고, 상기 제3 이미지는 제1 음도와 상이한 제2 음도를 나타내고 상기 제1 위치와 상이한 제2 위치에 배치되고,
상기 피드백을 생성하는 단계는, 상기 에이전트가 상기 검출된 사용자의 음성의 음도에 대응하여 상기 제2 이미지와 일 직선 상에 배치되거나 상기 제3 이미지와 일 직선 상에 배치되도록 하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제1항에 있어서,
상기 언어 훈련에 대응하는 컨텐츠는 적어도 2음절의 단어 및 사람의 목 구조 이미지를 포함하고,
상기 사용자의 음성 데이터를 상기 사용자 단말로부터 수신하는 단계 이후에,
상기 사용자의 음성 데이터와 상기 적어도 2음절의 단어의 음절이 대응되는지 판단하는 단계, 및
상기 사용자의 음성 데이터와 상기 적어도 2음절의 단어의 음절이 대응하는 것에 대응하여 상기 목 구조 이미지를 변경하는 단계를 더 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제2항에 있어서,
상기 음성 데이터를 분석하여 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계는, 상기 사용자 음성의 데시벨 값을 구하는 단계를 포함하고,
상기 검출된 사용자의 음도 및 소리 크기에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계는, 상기 데시벨 값에 기초하여 상기 사용자의 소리 길이, 박자 정확도, 숨 참기 시간 중 적어도 하나를 획득하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제2항에 있어서,
상기 검출된 사용자의 음도 및 소리 크기에 기초하여 상기 사용자의 언어 레벨을 측정하는 단계는, 상기 음도에 기초하여 상기 음도를 선택된 시간 동안 임계치 이상의 크기로 유지하였는지 판단하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제1항에 있어서,
상기 언어 훈련에 대응하는 컨텐츠는 문장을 포함하고,
상기 사용자의 음성 데이터를 상기 사용자 단말로부터 수신하는 단계 이후에,
상기 음성 데이터를 분석하여 상기 사용자의 발음 정확도를 평가하는 단계를 더 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제12항에 있어서,
상기 음성 데이터를 분석하여 상기 사용자의 발음 정확도를 평가하는 단계는,
음성 데이터를 텍스트로 변환하여 상기 언어 훈련에 대응하는 컨텐츠에 포함된 문장과 비교하여 텍스트 유사도 측정하는 단계 및 딥 러닝을 통한 발음 정확도를 측정하는 단계를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
제1항에 있어서,
상기 언어 훈련에 대응하는 컨텐츠를 사용자 단말에 제공하는 단계 이후에
상기 사용자의 얼굴 이미지 데이터를 상기 사용자 단말로부터 수신하는 단계, 및
상기 얼굴 이미지 데이터를 분석하여 사용자의 입술 모양, 볼 모양 및 혀의 움직임 중 적어도 하나를 검출하는 단계를 더 포함하는
사용자에게 언어 훈련을 제공하는 방법.
제1항에 있어서,
상기 언어 훈련에 대응하는 컨텐츠는 상기 사용자의 호흡, 발성, 조음, 공명 및 운율을 훈련시키는 컨텐츠를 포함하는,
사용자에게 언어 훈련을 제공하는 방법.
삭제
제1항 내지 제15항 중 어느 한 항의 방법을 수행하는 프로세서 및 메모리를 포함하는 컴퓨팅 장치.
프로세서 및 메모리를 포함하는 컴퓨팅 장치가 사용자에게 언어 훈련을 제공하는 방법으로,
상기 언어 훈련에 대응하는 컨텐츠를 사용자 단말에 제공하는 단계;
상기 사용자의 음성 데이터 및 음성 데이터에 기초해 수집된 상기 사용자 음성의 음도 및 데시벨을 상기 사용자 단말로부터 수신하는 단계;
상기 음성 데이터를 분석하여 상기 사용자 음성의 음도 및 소리 크기를 검출하는 단계; 및
상기 사용자의 음성 데이터에 기초하여 상기 언어 훈련에 대응하는 컨텐츠에 대한 상기 사용자의 훈련을 평가하여 훈련 평가를 생성하는 단계로, 상기 사용자의 음성 데이터를 분석하여 발음 정확도가 떨어지는 음소를 판정하는 단계, 및 상기 판정된 음소가 포함된 단어, 문장 및 문단 중 적어도 하나를 자동 생성하여 제공하는 단계를 포함하는 단계; 및
상기 훈련 평가를 상기 메모리에 저장하는 단계를 포함하는
사용자에게 언어 훈련을 제공하는 방법.
프로세서 및 메모리를 포함하는 컴퓨팅 장치가 사용자에게 언어 훈련을 제공하는 방법으로,
상기 언어 훈련에 대응하고 제1 에이전트 이미지와 제1 오브젝트 이미지를 포함하는 제1 컨텐츠 및 제2 에이전트 이미지 및 제2 오브젝트 이미지를 포함하는 제2 컨텐츠를 사용자 단말에 제공하는 단계로, 상기 제1 컨텐츠는 상기 제1 에이전트 이미지가 상기 사용자의 음성의 음도 및 소리 크기에 대응하여 이동 가능하도록 구성되고, 상기 제2 컨텐츠는 상기 제2 오브젝트 이미지는 제1 음도를 나타내고 상기 제2 컨텐츠의 제1 위치에 배치되는 제1 음도 이미지와, 제1 음도와 상이한 제2 음도를 나타내고 상기 제1 위치와 상이한 제2 위치에 배치되는 제2 음도 이미지를 포함하여, 상기 제2 컨텐츠는 상기 제2 에이전트 이미지가 상기 사용자의 음도에 대응하여 상기 제1 음도 이미지 또는 상기 제2 음도 이미지와 일 직선을 이루도록 구성됨;
상기 사용자의 음성 데이터를 수신하는 단계;
상기 제1 컨텐츠 및 상기 제2 컨텐츠 각각에 대한 상기 사용자의 훈련 평가를 수신하는 단계;
상기 훈련 평가에 기초하여 상기 제1 컨텐츠 및 상기 제2 컨텐츠 중 어느 하나를 우선적으로 상기 사용자 단말에 제공하는 단계; 및
상기 음성 데이터 및 상기 훈련 평가를 상기 메모리에 저장하는 단계를 포함하는
사용자에게 언어 훈련을 제공하는 방법.
제19항에 있어서,
단어, 문장 및 문단 중 적어도 하나를 포함하는 제3 컨텐츠를 상기 사용자 단말에 제공하는 단계,
상기 사용자의 음성 데이터를 분석하여 상기 제3 컨텐츠에 대한 훈련 평가를 생성하는 단계; 및
상기 제1 컨텐츠 및 상기 제2 컨텐츠 각각에 대한 훈련 평가 및 상기 제3 컨텐츠에 대한 훈련 평가에 기초하여, 상기 제1 내지 제3 컨텐츠 중 어느 하나를 우선적으로 상기 사용자 단말에 제공하는 단계를 더 포함하는
사용자에게 언어 훈련을 제공하는 방법.
제20항에 있어서,
상기 제3 컨텐츠에 대한 훈련 평가를 생성하는 단계는
상기 사용자의 음성 데이터를 분석하여 발음 정확도가 떨어지는 음소를 판정하는 단계, 및
상기 판정된 음소가 포함된 단어, 문장 및 문단 중 적어도 하나를 자동 생성하는 단계를 포함하는
사용자에게 언어 훈련을 제공하는 방법.