KR102338563B1

KR102338563B1 - 영어 학습을 위한 음성 시각화 시스템 및 그 방법

Info

Publication number: KR102338563B1
Application number: KR1020210016463A
Authority: KR
Inventors: 이기헌
Original assignee: 이기헌
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-12-13
Anticipated expiration: 2041-02-05
Also published as: US12118898B2; US20240304099A1; WO2022169208A1; CA3204157A1

Abstract

본 발명에 따른 음성 시각화 시스템은, 영어로 발음된 문장의 음성 신호를 수신하는 음성 신호 수신부; 상기 음성 신호의 주파수, 에너지, 시간 및 상기 음성 신호에 대응하는 텍스트를 포함하는 음성 정보를 분석하여 적어도 하나의 세그먼트로 세그멘테이션하는 음성 정보 분석부; 상기 음성 정보의 세그먼트들을 플로우 유닛으로 분류하고, 상기 플로우 유닛을 적어도 하나의 단어를 포함하는 적어도 하나의 서브 플로우 유닛으로 분류하는 음성 정보 분류부; 상기 분석 및 분류된 음성 정보를 기초로 하여 음성 시각화를 위한 시각화 속성을 할당하는 시각화 속성 할당부; 및 상기 할당된 시각화 속성에 기초하여 시각화 처리를 수행하여 음성 시각화 데이터를 생성하는 시각화 처리부를 포함한다.

Description

영어 학습을 위한 음성 시각화 시스템 및 그 방법{SYSTEM FOR VISUALIZING VOICE FOR ENGLISH EDUCATION AND METHOD THEREOF}

본 발명은 영어 학습을 위한 음성 시각화 시스템 및 그 방법에 관한 것이다.

더욱 상세하게는 제2언어로서 영어를 학습하는 사용자를 위하여 듣기 및 말하기 연습을 지원하기 위한 영어 문장에 대응하는 음성을 시각화하여 제공하는 시스템 및 그 방법에 관한 것이다.

언어를 프로세스의 관점에서 보면, 언어는 패턴 매칭 프로세스(pattern matching process)의 하나로서 오랜 기간에 걸쳐 익힌 패턴을 통해 사람들 서로 간의 의사 소통과 감정 교류가 이루어지게 하는 프로세스이다.

언어를 분류함에 있어, 문자로 쓰여진 것과 발음하는 것이 거의 동일한 음성 언어(phonetic language)와 발음 규칙을 따르지 않는 비음성 언어(non-phonetic language)로 나눌 수 있다.

또 다른 분류로는 음절 중심 언어(syllable timed language)와 강세 중심 언어(stress timed language)로 나눌 수 있는데 음절 중심 언어(syllable timed language)의 경우 각 음절마다 같은 시간으로 발음되며 단어들 간의 음의 고/저가 중요하지 않은 언어인데 반해, 강세 중요 언어는 강세(stress)에 의한 발음이 발생하며, 한문장을 이루는 단어들 간의 음의 고/저, 장/단, 강/약 등이 중요한 언어이다.

영어의 경우에는 비 음성 언어(non-phonetic language)이고 강세 중심 언어(stress timed language)의 속성이 강하지만, 영어가 모국어가 아닌 나라의 언어는 이러한 특징을 공유하지 않는다.

예를 들어, 한국어는 음성 언어(phonetic language)에 속하며 음절 중심 언어(syllable timed language)이다. 따라서, 한국어가 모국어인 사용자는 한국어의 언어 특성에 기초한 학습을 수행하는 경우에는 영어의 듣기/말하기 학습의 한계가 존재한다.

이러한 영어의 언어적 특성을 파악하여 학습에 제공하지 않는 경우에는 제2언어로서 영어를 학습하는 사용자가 영어 학습에 어려움을 겪을 수밖에 없다. 따라서, 단어의 암기 위주와 읽기 쓰기 위주의 영어공부는 실생활에서 의사 교류/소통을 향상시키는데 도움이 되지 않는다. 영어를 학습할 때 단어보다는 문장을 듣고/말하기가 실질적인 효과를 제공한다. 많은 단어를 학습하여 주어-동사-목적어 등의 어순을 짜 맞추는 연습은, 가장 중요한 실제 영어 대화에서 발생하는 rhythm의 학습을 제공하지 않기 때문이다.

그러므로, 영어를 언어로서 습득하기 위해서는 것은 자신의 모국어 (first language)와 영어의 차이를 분명히 보여주고, 영어의 강세와 단어들 간의 조합이 어떻게 이뤄지는지에 대한 음성의 시각화가 반드시 필요하다.

한편 종래 기술에 있어서도 영어의 언어 특성을 반영하려는 시각화 기술이 개시된 바가 있다.

도 1은 종래 기술에 따른 영어 학습 시스템의 음성 시각화 예시를 도시한 도면이다.

한국공개특허 제 10-2016-0001332호가 제시하는 영어학습 시스템은 영어를 발음할 때의 음절은 컬러 영역으로 구분하고, 음절과 음절 사이는 도트로 표시한다. 한편, 단어와 단어 사이는 하이픈으로 표시하며, 강세는 볼드체로 표시하며, 연음은 링크선으로 표시하는 구성을 개시하고 있다.

이러한 가공 방식은 텍스트에서 발생하는 음절과 띄어쓰기를 단지 기호로서 표시하고, 강세에 해당하는 자음/모음을 볼드체로 표시하였을 뿐이기 때문에 한국어에 기반한 음절 중심 학습 방법의 한계를 벗어나지 못한다.

또한, 사용자에게는 영어 원어민 발음과 대응되지 않는 문장상 띄어쓰기와 단어내에서의 음절의 정보를 불필요하게 제공하여 듣기/말하기를 위한 학습 자료로서는 적합하지 않은 문제가 존재하였다.

따라서, 영어가 가진 비음성 언어 및 강세 중심 언어인 속성을 반영하고, 하나의 문장의 문맥에 따른 의미 단위(thought group) 을 반영한 발음과 강세를 시각화하여 보여줄 수 있는 음성 시각화 방법이 필요하다.

본 발명은 영어 문장의 문맥에 따른 의미 단위를 반영한 영어 음성의 시각화 시스템 및 장치를 제공한다.

또한, 본 발명은 텍스트 상의 음절과 띄어쓰기와 독립적인 영어의 언어적 특성을 반영한 음성 시각화 데이터를 제공한다.

또한, 본 발명은 실제 영어 발음과 강세를 직관적으로 파악 가능하며, 2개 이상의 영어 문장 발음을 상호 비교 가능한 음성 시각화 데이터를 제공한다.

또한, 본 발명은 사용자에게 영어 문장 발음의 시각화를 커스터마이징할 수 있는 음성 시각화 시스템 및 그 방법을 제공한다.

전술한 과제를 해결하기 위한, 본 발명의 실시예에 따른 음성 시각화 시스템은, 영어로 발음된 문장의 음성 신호를 수신하는 음성 신호 수신부; 상기 음성 신호의 주파수, 에너지, 시간 및 상기 음성 신호에 대응하는 텍스트를 포함하는 음성 정보를 분석하여 적어도 하나의 세그먼트로 세그멘테이션하는 음성 정보 분석부; 상기 음성 정보의 세그먼트들을 플로우 유닛으로 분류하고, 상기 플로우 유닛을 적어도 하나의 단어를 포함하는 적어도 하나의 서브 플로우 유닛으로 분류하는 음성 정보 분류부; 상기 분석 및 분류된 음성 정보를 기초로 하여 음성 시각화를 위한 시각화 속성을 할당하는 시각화 속성 할당부; 및 상기 할당된 시각화 속성에 기초하여 시각화 처리를 수행하여 음성 시각화 데이터를 생성하는 시각화 처리부를 포함하며, 상기 시각화 속성은 상기 서브 플로우 유닛의 시간축상의 배치와 상기 각각의 서브 플로우 유닛에서의 주파수의 고저 정보를 포함한다.

여기서, 상기 세그먼트는 연속된 발음이 이루어지는 시간을 기준으로 세그멘테이션될 수 있다.

한편, 상기 음성 정보 분석부는 자연어 처리를 수행하는 자연어 처리부를 포함하며, 상기 서브 플로우 유닛에 포함되는 적어도 하나의 단어의 속성은 의미를 보유하고 있는 컨텐츠 워드와 기능적으로만 사용되는 펑션 워드로 분류되고, 상기 서브 플로우 유닛의 상기 컨텐츠 워드와 상기 펑션 워드는 상이한 주파수 고저 정보로 시각화될 수 있다.

또한, 상기 시각화 속성 할당부는 상기 적어도 하나의 단어를 상기 서브 플로우 유닛 내 연결되어 발음되는 음절로 재조합하는 음절 재조합부를 포함할 수 있다.

또한, 상기 시각화 속성 할당부는 강세, 묵음, 연음, Schwa 및 이중 모음 중 적어도 하나를 속성을 부여하는 특수 속성 할당부를 포함할 수 있다.

여기서, 상기 시각화 유닛은 적어도 일면이 예각을 이룬 다각형으로 구성되어 주파수 축상의 배치를 정확하게 인식 가능하고 상기 시각화 유닛 상호간의 높낮이의 직관적 인식을 제공할 수 있다.

또한, 상기 음성 시각화 데이터 내에 속한 단어 중 소리가 나지 않는 모음 또는 자음은 하단 또는 작은 크기로 표시하여, 소리나는 부분을 강조하도록 시각화할 수 있다.

또는, 상기 음성 시각화 데이터의 외곽선의 상단 부분은 상이한 두께를 가지며, 상기 상단 부분의 두께에 따라 강세의 정도를 표시할 수 있다.

여기서, 상기 시각화 처리부는, 시각화 툴이 저장된 시각화 툴 데이터베이스;

상기 시각화 툴 데이터베이스에 저장된 시각화 툴의 선택을 제공하는 시각화 툴 선택부 및 상기 시각화 툴에 포함된 시각화 속성을 나타내는 시각화 유닛을 이용하여 상기 할당된 시각화 속성에 매칭하는 시각화 유닛 매칭부를 포함할 수 있다.

또한, 상기 음성 시각화 시스템은, 상기 음성 시각화 데이터를 상기 음성 신호에 동기 시켜 출력하는 출력부 및 상기 출력된 음성 시각화 데이터와 연습 사용자로부터 입력된 연습 음성 신호의 비교 결과값을 제공하는 비교 처리부를 더 포함할 수 있다.

또한, 상기 비교 처리부는 상기 연습 음성 신호에 기초한 연습 시각화 데이터를 생성하여 상기 출력된 음성 시각화 데이터와의 비교 결과를 표시할 수 있다.

본 발명의 실시예에 따른 음성 시각화 방법은, 주파수, 에너지 및 시간으로 표현된 음성 신호를 수신하는 단계; 상기 음성 신호에 포함된 에너지가 존재하는 시간 정보에 기초하여 상기 음성 신호를 적어도 하나의 세그먼트로 세그멘테이션하고, 자연어 처리를 수행하는 음성 정보 전처리 단계; 상기 전처리 단계를 이용하여 상기 음성 정보의 상기 세그먼트들을 플로우 유닛으로 분류하고, 상기 플로우 유닛을 적어도 하나의 단어를 포함하는 적어도 하나의 서브 플로우 유닛으로 분류하여 재조합 음성 정보를 생성하는 단계; 시각화 속성의 할당을 위하여 상기 플로우 유닛, 상기 서브 플로우 유닛, 상기 적어도 하나의 단어에 대한 메타 데이터를 부여하는 단계; 상기 시각화 속성을 이용하여 시각화 처리를 위한 시각화 툴의 선택을 제공하는 단계; 상기 시각화 툴이 선택되면 상기 메타 데이터가 부연된 상기 재조합 음성 정보를 이용하여 음성 시각화 데이터를 생성하는 단계; 및 상기 생성된 음성 시각화 데이터를 출력하는 단계를 포함하며, 상기 시각화 속성은 상기 서브 플로우 유닛의 시간축상의 배치와 상기 각각의 서브 플로우 유닛에서의 주파수의 고저 정보를 포함한다.

또한, 상기 음성 시각화 방법은, 상기 재조합 음성 정보를 생성하는 단계 이후, 강세, 묵음, 연음, Schwa 및 이중 모음 중 적어도 하나를 속성을 부여하는 특수 속성 할당하는 단계를 더 포함할 수 있다.

여기서, 상기 서브 플로우 유닛에 포함되는 적어도 하나의 단어는 단어의 속성은 의미를 보유하고 있는 컨텐츠 워드와 기능적으로만 사용되는 펑션 워드로 분류되고, 상기 서브 플로우 유닛의 상기 컨텐츠 워드와 상기 펑션 워드는 상이한 주파수 고저 정보로 시각화될 수 있다.

또한, 상기 음성 시각화 방법은 연습 사용자로부터 연습 음성 신호를 수신하는 단계; 상기 연습 음성 신호의 연습 음성 시각화 데이터를 생성하는 단계 및 상기 출력된 음성 시각화 데이터와 사이 연습 음성 시각화 데이터를 유사도를 비교한 결과값을 출력하는 단계를 더 포함할 수 있다.

이와 같은 본 발명에 의하면, 영어 문장의 문맥에 따른 의미 단위를 반영한 영어 음성의 시각화 데이터를 제공할 수 있다.

또한, 본 발명은 텍스트 표현의 음절과 띄어쓰기에 종속되지 않은 영어의 언어적 특성을 반영한 음성 시각화 데이터를 제공한다.

또한, 본 발명은 실제 영어 발음과 강세를 직관적으로 파악 가능한 음성 시각화 데이터를 제공한다.

또한, 제공된 음성 시각화 데이터를 이용하여 연습 사용자의 발음을 시각적으로 비교할 수 있는 음성 시각화 시스템 및 방법을 제공한다.

도 1은 종래 기술에 따른 영어 학습 시스템의 음성 시각화 예시를 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성 시각화 시스템의 동작 개요를 도시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 음성 시각화 시스템을 도시한 블록도이다.
도 4는 본 발명의 실시예에 따른 음성 정보 분석부의 구성을 도시한 상세 블록도이다.
도 5는 본 발명의 실시예에 따라 분석된 음성 정보의 예시이다.
도 6는 본 발명의 실시예에 따른 음성 정보 분류부의 구성을 도시한 상세 블록도이다.
도 7는 본 발명의 실시예에 따라 분류된 음성 정보의 예시이다.
도 8는 본 발명의 실시예에 따른 시각화 속성 할당부의 구성을 도시한 상세 블록도이다
도 9는 본 발명의 실시예 따라 시각화 속성이 부여된 예시를 도시한 도면이다.
도 10은 본 발명의 일 실시예에 따른 시각화 처리부의 상세 구성을 도시한 블록도이다.
도 11은 본 발명의 실시예에 따른 시각화 유닛의 예시를 도시한 도면이다.
도 12은 본 발명의 실시예에 시각화 유닛을 이용한 시각화 데이터의 예시를 도시한 도면이다.
도 13은 본 발명의 실시예에 따른 음성 시각화 데이터의 추가 예시를 도시한 도면이다.
도 14은 본 발명의 실시예에 따른 음성 시각화 데이터의 다양한 예시를 도시한 도면이다.
도 15는 본 발명의 실시예에 따른 비교 처리부의 상세 구성을 도시한 도면이다.
도 16는 본 발명의 실시예에 따른 음성 시각화 방법을 도시한 흐름도이다.
도 17은 본 발명의 실시예에 따른 음성 시각화 데이터의 비교 결과를 제공하는 방법을 도시한 도면이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 2는 본 발명의 실시예에 따른 음성 시각화 시스템의 동작 개요를 도시하는 도면이다.

음성 시각화 시스템(100)은 음성 입력 장치(A)를 통해 실제 음성 및/또는 스크립트를 수신한다. 음성 입력 장치(A)는 마이크로폰과 같은 실제 음성 센서로 구현 가능하며, 이미 제작된 음성 컨텐츠를 제공할 수도 있다. 한편, 음성과 텍스트는 상호 변환이 가능하기 때문에 음성이 단독으로 입력되는 경우에도 이를 스크립트로 변환하여 함께 음성 정보로서 이용하는 것이 가능하다.

또한, 영어 기반의 TTS(Text To Speech) 시스템을 이용하여 텍스트를 영어 원어민의 발음의 음성 정보로 변환하는 것도 가능하다. 이와 같이, 음성 입력 장치(A)는 특정 장치에 한정되지 않으며 입력된 음성의 문맥과 에너지 및 주파수를 측정할 수 있는 음성 정보를 입력, 전달, 수신하는 모든 기기가 해당될 수 있다.

수신된 음성 정보는 음성의 에너지와 주파수 정보를 가지고 있으며, 또한 문장 단위로 입력되는 경우에는 문맥 정보를 가지고 있다. 수신된 음성 정보는 음성 시각화 시스템(100)을 통해 시각화 데이터로 변환되어 음성과 동기화되어 출력 장치(B)로 출력된다.

출력 장치(B)는 스마트폰, 태블릿 컴퓨터, 랩탑 컴퓨터, 데스크탑 컴퓨터 등 디스플레이부, 메모리, 프로세스, 통신 인터페이스를 가지는 임의의 장치가 해당될 수 있다.

출력된 음성 시각화 데이터는 의미 단위로 구분된 플로우 유닛과, 컨텐츠 워드와 펑션 워드의 조합으로 구성된 서프 플로우 유닛으로 구성되며, 타임 스탬프 상에서 실제 발음에 대응되는 스페이스와 강세를 시각화하여 보여주게 된다.

연습 사용자 입력 장치(C)는 음성 시각화 시스템(100)에 자신이 음성 정보를 입력하여 동일한 방식의 연습 음성 시각화 데이터를 생성할 수 있다.

연습 음성 시각화 데이터는 주파수 및/또는 에너지 등의 물리적 상관값과, 음성 시각화 데이터 값을 상호 비교를 통해 얼마나 기준 음성 시각화 데이터의 발음과 얼마나 유사한지에 대한 결과값을 연습 사용자에게 제공하게 된다.

이하, 음성 시각화 시스템(100)의 상세 구성과 동작에 대해 예시를 통해 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 음성 시각화 시스템을 도시한 블록도이다.

본 발명의 일 실시예에 따른 음성 시각화 시스템은 음성 신호 입력부(110), 음성 정보 분석부(120), 음성 정보 분류부(130), 시각화 속성 할당부(140), 시각화 처리부(150), 출력부(160) 및 비교 처리부(170)를 포함한다.

음성 신호 입력부(110)는 영어 문장 발음에 대응하는 물리적 음성 신호를 수신한다. 음성 신호는 사용자가 기준 음성을 직접 발성하여 발생시킬 수도 있으며, TTS 방식의 자동화된 기준 음성도 해당된다. 음성 신호는 주파수, 진폭(에너지), 시간의 요소로 표현될 수 있다.

음성 정보 분석부(120)는 음성 정보 분석부는 음성 신호를 분석하고, 음성으로 표현된 문장 및 컨텍스트를 분석한다. 본 명세서에서 사용되는 '음성 정보'는 음성 신호를 포함된, 주파수, 진폭(에너지), 시간 및 음성으로 표현된 문장의 텍스트, 단어, 문맥 및 기타 의미 정보까지 모두 포함하는 용어로 사용된다. 음성 정보 분석부(120)은 음성을 적어도 하나의 세그먼트로 세그멘테이션하고, 음성 신호 입력부(110)로부터 수신된 음성 신호로부터 획득한 모든 정보 (예를 들어, 주파수, 에너지, 시간)에 대한 정보를 세그먼트 및 그 구성 요소에 매핑하게 된다.

음성 정보 분석부(120)의 자세한 구성은 추후 도 4 및 5를 통해 상술하기로 한다.

음성 정보 분류부(130)는 분석된 음성 정보를 이용하여 학습에 적합하도록 음성 정보의 구성 요소를 분류하게 된다. 음성 정보는 영어의 언어적 특성을 고려하여, 플로우 유닛(flow unit), 서브 플로우 유닛(sub flow unit)으로 분류될 수 있다. 상기 서브 플로우 유닛은 적어도 하나의 컨텐츠 워드와 적어도 하나의 펑션 워드로 분류될 수 있다.

음성 정보 분류부(130)의 자세한 구성은 추후 도 6 및 7를 통해 상술하기로 한다.

시각화 속성 할당부(140)는 분석 및 분류된 음성 정보를 기초로 하여 음성 시각화를 위한 속성을 음성 정보에 할당한다. 시각화 속성 할당부(140)는 주파수, 에너지, 시간에 대한 정보와 시각화를 위하여 재가공/재조합된 띄어쓰기, 음절에 관한 정보를 시각화 정보에 할당한다. 또한, 시각화 속성 할당부(140)는 학습용 시각화를 위하여 별도로 마련된 특수 속성도 할당할 수 있다.

시각화 속성 할당부(140)의 자세한 구성은 추후 도 8 및 9를 통해 상술하기로 한다.

시각화 처리부(150)는 음성 정보에 할당된 시각화 속성을 선택된 시각화 툴에 적용하여 시각화 처리를 수행한다. 시각화 처리된 음성 정보는 플로우 유닛, 서브 플로우 유닛에 대한 정보와, 컨텐츠 워드와 펑션 워드의 정보, 강세, 연음, 묵음, schwa의 정보를 포함한다. 또한, 영어 듣기/말하기 학습에 적합하도록 재가공/재조합된 띄어쓰기와 음절 구분된 문장이 음성 신호와 동기화된 타임스탬프를 가지고 생성되게 된다.

시각화 처리부(150)의 자세한 구성은 추후 도 10 내지 13을 통해 상술하기로 한다.

출력부(160)는 시각화 처리된 음성 시각화 데이터를 음성 신호와 동기화 하여 출력한다. 출력부(160)은 하나의 독립 장치일 수도 있으며, 온라인을 통해 결과물 출력이 가능한 서버 장치일 수도 있다.

비교 처리부(170)는 출력부(160)을 통해 출력된 기준 음성 시각화 정보와 연습 사용자가 새롭게 입력한 연습 음성 신호를 비교 처리하여 그 결과를 산출하여 제공한다. 연습 사용자가 입력한 음성 신호는 다시 연습 음성 시각 데이터를 생성하여 비교하고 그 비교값을 다시 시각화 데이터로 생성하여 그 유사도를 피드백 하는 것이 가능하다.

전술한 구성을 통하여, 기준 음성 신호는 영어의 언어 특성을 반영한 학습 요소를 포함하도록 재조합 및 재가공된 기준 음성 시각화 데이터로 변환되어 연습 사용자에게 제공될 수 있다.

연습 사용자는 기준 음성 시각화 데이터를 통해 직관적으로 영어 발음에 대한 특성을 이해하고, 자신의 연습 발음 역시 시각화 데이터로 생성하여 직관적인 비교 결과를 피드백 받을 수 있다.

이하, 본 발명의 일 실시예 따른 음성 시각화 데이터가 어떻게 생성되는지 세구 구성 요소를 참조하며 상세히 설명하도록 한다.

도 4는 본 발명의 실시예에 따른 음성 정보 분석부의 구성을 도시한 상세 블록도이다.

음성 정보 분석부(120)은 세그멘테이션부(121), 에너지/주파수 추출부(122), 자연어 처리부(123) 및 정보 매핑부(124)를 포함한다.

세그멘테이션부(121)는 입력된 음성 정보에 포함된 텍스트를 연속된 발음이 이뤄지는 시간을 기준으로 적어도 하나의 세그먼트로 세그멘테이션 한다. 세그먼트는 문법상의 띄어쓰기나 반드시 일치하지 않으며 실제 에너지가 존재하는 음성 신호의 시간 정보에 의해 생성될 수 있다.

에너지/주파수 추출부(122)는 음성 신호의 진폭과 주파수를 측정하여 이용 가능한 값으로 추출한다. 본 발명의 실시예에서는 진폭이 나타내는 값을 에너지라고 표현하기로 한다. 추출된 값은 음성 시각화에 필요한 범위나 정밀도로 샘플링되거나 정규화될 수 있다.

자연어 처리부(123)는 자체 자연어 처리 엔진 또는 외부 자연어 처리 엔진을 활용하여 입력된 음성 정보의 자연어 분석을 수행한다. 자연어 처리는 엔진의 성능에 따라 컴퓨터가 사람의 언어에 대해 형태소 분석(morphological analysis), 통사 분석(syntactic analysis), 의미 분석(semantic analysis) 및 화용 분석(pragmatic analysis) 등을 수행하는 기술이다. 본 발명이 실시예에서 자연어 처리부(123)는 입력된 음성 정보에 대해 플로우 그룹, 서브 플로우 그룹, 컨텐츠 워드, 펑션 워드, 특수 속성을 구분하는 수준의 자연어 처리 능력이 요구된다.

정보 매핑부(124)는 각각의 세그먼트들에 타임 스탬프를 부여하고 에너지/주파수 정보를 매핑한다. 또한, 정보 매핑부(124)는 자연어 처리된 결과에서 분석된 결과를 매핑에 추가로 반영한다.

도 5는 본 발명의 실시예에 따라 분석된 음성 정보의 예시이다.

입력된 기준 음성 정보의 텍스트인 “If you wanna be good at English, You should go for it now”는 도 5에 도시된 바와 같이 시간과 에너지(진폭)을 참조하여 세그멘테이션 된다. 예를 들어, 특정 시간 동안 에너지의 추출의 연속성이 발생한 발음에 대해 하나의 세그먼트로 세그멘테이션 할 수 있다. 도 5에서 확인할 수 있듯이 세그먼트는 문법상 띄어쓰기와 상이하게 분리된 것을 확인할 수 있다. 시간 축에 따라 나열된 세그먼트들은 에너지와 주파수 스펙트럼과 매핑됨으로써, 음성 정보의 각각의 세그먼트 각각에는 음성의 높낮이와 음압의 세기 정보가 분석되어 매핑된다.

도 6는 본 발명의 실시예에 따른 음성 정보 분류부의 구성을 도시한 상세 블록도이다.

음성 정보 분류부(130)은 플로우 유닛 추출부(131), 서브 플로우 유닛 추출부(132), 단어 속성 추출부(133) 및 메타 데이터 할당부(134)를 포함한다.

플로우 유닛 추출부(131)는 분석된 음성 정보에 대해 플로우 유닛을 식별하고 추출할 수 있다. 플로우 유닛은 본 발명의 실시예에서 문장에서 하나의 의미 그룹(thought group)에 기반하여 구분된다. 본 발명의 명세에서 플로우 유닛이란 하나의 의미 흐름을 제공하는 가장 큰 단위를 의미하며, 의미가 전환되었을 때 연습 사용자가 발음이 역시 전환되어야 함을 보여준다. 플로우 유닛은 하나의 문장 중에 적어도 하나가 존재하며, 문법상의 구(phrase)와 절(clause), 시간에 따른 주파수/에너지, 자연어 처리에 따른 의미 해석의 결과 중 적어도 하나 또는 그 조합을 이용하여 추출될 수 있다.

서브 플로우 유닛 추출부(132)는 플로우 유닛 내에서 더 작은 의미 그룹으로 묶일 수 있는 적어도 하나의 단어 또는 그 조합을 추출한다. 서브 플로우 유닛은 원어민들이 여러 단어를 개별적으로 다루지 않고, 실제로는 그 것을 조합하여 마치 하나의 단어처럼 듣고/말하는 물리적인 단위를 의미한다. 따라서, 본 발명의 실시예에서는 음성 정보 분석부(120)에서 세그멘테이션 된 적어도 하나의 세그먼트 또는 그 조합을 기초로 하여 서브 플로우 유닛을 추출할 수 있다.

단어 속성 추출부(133)는 서브 플로우 유닛을 구성하는 단어들의 속성을 추출하게 된다. 단어의 속성은 의미를 보유하고 있는 컨텐츠 워드와 기능적으로만 사용되는 펑션 워드로 구분될 수 있다. 컨텐츠 워드는 통상 명사, 동사, 형용사, 부사등이 될 수 있으며, 강세가 들어가는 경우가 많다. 펑션 워드는 대명사, 접속사, 관사, 전치사 등으로 강세없이 부드럽게 발음되는 경우가 많다. 한편, 하나의 음성 정보에서 가장 중요하고 강하게 발음되는 단어에 대해서는 포커스드 컨텐츠 워드(Focused content word)로 추가로 분류할 수 있다.

이와 같이, 플로우 유닛, 서브 플로우 유닛, 단어의 속성이 추출되면 메타 데이터 할당부(134)는 분석된 음성 정보로부터 추출된 분류를 메타 데이터로 생성하여 음성 정보에 할당하게 된다.

도 7는 본 발명의 실시예에 따라 분류된 음성 정보의 예시이다.

입력된 기준 음성 정보의 텍스트인 “If you wanna be good at English, You should go for it now”는 의미에 따라 도 7에서와 같이 2개의 플로우 유닛으로 구분될 수 있다. 즉, 제 1플로우 유닛(FU1) “If you wanna be good at English”과 제2플로우 유닛(FU2) ” You should go for it now로 분류된다.

하나의 플로우 유닛은 적어도 하나의 서브 플로우 유닛(SFU)로 구분되며, 하나의 서브 플로우 유닛은 적어도 하나의 단어를 포함하는 것을 확인할 수 있다.

예를 들어, 서브 플로우 유닛(SFU14)는 “good”과 “at”이 결합되어 하나의 서브 플로우 유닛을 형성한다. 이 서브 플로우 유닛(SFU14)는 마치 하나의 단어처럼 발음되지만, 컨텐츠 워드(CW) 속성인 “” 과 펑션 워드(FW) 속성인 “at”은 강세와 세기가 다르게 발음될 것이다.

만약, 서브 플로우 유닛(22)인 “go”가 가장 강조된 입력값을 가진다면, “go”는 포커스드 컨텐츠 워드(FCW)로 분류될 것이다.

도 8는 본 발명의 실시예에 따른 시각화 속성 할당부의 구성을 도시한 상세 블록도이다

시각화 속성 할당부(140)는 음성 정보 동기화부(141), 음절 재조합부(142), 띄어쓰기 재조합부(143), 특수 속성 제공부(144)를 포함한다.

음성 정보 동기화부(141)는 플로우 유닛, 서브 플로우 유닛, 단어의 시각화된 그래픽 데이터를 음성 정보의 타임 스탬프와 동기화 시키는 작업을 수행한다.

음절 재조합부(142)는 사전에서 정의하는 음절과 독립적으로 문장에서 실제 발음되는 음절을 음성 시각화 형식으로 구분하고 재조합하게 된다. 예를들어, 하나의 서브 플로우 유닛상에 포함된 2개의 단어는 서브 플로우 내에서 연결되어 발음될 때 음절 재조합부(142)에 의해 새롭게 음절이 재조합된다.

띄어쓰기 재조합부(143)은 음성 시각화 상에서 보여줄 띄어쓰기를 문법상의 띄어쓰기와 독립적으로 재조합한다. 이 띄어쓰기는 시간축 상에 일정 길의 스페이스로 표현될 수 있다.

특수 속성 제공부(144)는 강세, 묵음, 연음, schwa, 특이한 이중 모음 등 단어에 부여할 특수 속성을 제공할 수 있다.

전술한 바와 같이, 음성 시각화에 쓰일 음절과 띄어쓰기는 사전의 표기 방식 또는 문법과는 독립적으로 문장마다 재가공되고, 재조합된다. 따라서 본 발명의 실시예에 따르면 각각의 문장이 가지는 의미와 뉘앙스에 따라 재조합된 시각화 자료가 제공될 수 있으며, 연습 사용자는 듣기/말하기 연습을 통해 그 패턴을 숙지해 나갈 수 있는 것이다.

도 9는 본 발명의 실시예 따라 시각화 속성이 부여된 예시를 도시한 도면이다.

시각화를 위하여 각각의 서브 플로우 유닛은 시간축과 주파수축 사이에 나열된다. 주파수는 강세와 음의 고저의 기준이 되며, 본 발명의 실시예에서는 fl, fm, fh1, fh2, fh3 의 5단계로 구분될 수 있다. fm은 중간 주파수로서 평상적인 높이의 발음이며, fm 을 기준으로 높은 주파수와 낮은 주파수의 발음을 구분할 수 있다.

주파수의 고저에 관한 시각화 속성은 각각의 서브 플로우 유닛에 할당되며, 하나의 서브 플로우 유닛에서 주파수 고저의 변화를 확인할 수 있도록 할당된다. 즉, 서브 플로우 유닛은 발음의 연속성에서 의해 구분되어 시간적 지연을 시각화하며, 각각의 서브 플로우 유닛은 강세 또는 컨텐츠에 따른 주파수의 변화를 시각화하게 된다.

예를 들어, 서브 플로우 유닛(SFU12)인 “”는 약간 높은 주파수(fh1)로 발음되도록 시각화 될 것이며, 시간 구간(T) 동안 발음되도록 시각화 된다.

도 9에서 도시된 것과 같이 시각화를 위한 속성이 부여된 텍스트는 사전 표기 방식이나 문법이 정하는 음절과 띄어쓰기와 상이한 것을 확인할 수 있다. 예를 들어, “”과 “at”은 띄어쓰지 않으며, 다른 단어이지만 모음과 자음 재조합하여 새로움 음절인 “goo”과 “dat”을 형성하고, 새롭게 형성된 음절은 다시 다른 강세가 부여된 것을 확인할 수 있다. 이러한 시각화 속성은 기존의 학습 시스템에서 제공하지 못하였지만, 제2언어로서 영어를 학습하기 위해 가장 현실적이고 효과적인 데이터 가공 및 표현 방법이다.

도 10은 본 발명의 일 실시예에 따른 시각화 처리부의 상세 구성을 도시한 블록도이다.

시각화 처리부(150)는 시각화 툴 데이터베이스(151), 시각화 유닛 매칭부(152), 시각화 데이터 생성부(153) 및 시각화 툴 선택부(154)를 포함한다.

시각화 툴 데이터베이스(151)은 전술한 시각화 속성이 부여된 음성 정보를 시각화 할 수 있는 다수의 툴을 저장하고 있다. 즉, 본 발명의 실시예는 전술한 시각화 속성이 부여된 데이터를 이용한다면, 특정 시각화 디자인에 구속되지 않고 다양한 형태의 음성 시각화를 제공할 수 있다.

사용될 시각화 툴은 시각화 툴 선택부(154)를 통해 사용자가 다양한 시각화 방식을 선택을 제공하고, 유저 인터페이스를 통해 사전에 확인을 제공할 수도 있다.

선택된 시각화 툴에 포함된 속성을 나타내는 시각화 유닛은 시각화 유닛 매칭부(152)를 이용하여 매칭시킬 수 있다.

시각화 툴이 선택되고, 시각화 유닛이 매칭되면 시각화 데이터 생성부(153)는 시각화 데이터를 생성하여 출력부(160)를 통해 출력할 수 있다.

이하, 도 11 내지 도 14을 참조하여 본 발명의 실시예에 따른 음성 시각화 데이터에 대해 상세히 설명하도록 한다.

도 11은 본 발명의 실시예에 따른 시각화 유닛의 예시를 도시한 도면이다.

도 11에 도시된 예시와 같이, 시각화 유닛은 마름모, 육각형, 삼각형, 직삼각형으로 표시될 수 있다. 이러한 시각화 유닛은 전술한 서브플로우 유닛과 컨텐츠 워드 및 펑션 워드를 시간과 주파수 축상에 배치되어 직관적인 음성 시각화 효과를 제공할 수 있다. 또는 음성 시각화 데이터를 생성 및 저장하는 오퍼레이터 입장에서도 효과적인 인터페이스가 될 수 있다. 시각화 유닛은 마름모, 육각형, 삼각형, 직각 삼각형과 같은 다각형의 적어도 일면이 예각을 이루어 주파수 축상의 배치를 정확하게 인식 가능하고 시각화 유닛 상호간의 높낮이를 직관적으로 인식할 수 있는 것을 특징으로 한다.

도 12은 본 발명의 실시예에 시각화 유닛을 이용한 시각화 데이터의 예시를 도시한 도면이다.

도 12의 기준 음성 정보는 2개의 플로우 유닛과 13개의 서브 플로우 유닛으로 이뤄진 것을 시각적으로 확인할 수 있다. 아울러 시각화 유닛인 도형의 배치를 통해 사용자는 단어간의 시간적 간격, 음의 고저를 직관적으로 파악하고 어떠한 단어와 음절을 강조하여야 할지를 명확하게 파악할 수 있다.

도 13은 본 발명의 실시예에 따른 음성 시각화 데이터의 추가 예시를 도시한 도면이다.

하나의 시각화 유닛내에서 단어 중 일부 모음 또는 자음은 동일한 선상에서 표시되지 않을 수도 있다. 영어에서는 단어로서는 표기되지만 실제로 소리가 나지 않는 모음 또는 자음이 존재하며, 실제 사용자가 연습을 할 때는 소리나는 부분만 인지하고 연습하는 것이 매우 효과적이다. 도 13에서 도시된 바와 같이 'Friends and Family'를 발음함에 있어서, 실제 소리가 나지 않는 모음 또는 자음을 아래 부분 또는 작은 크기로 시각화 유닛에 배치하는 경우에 사용자은 소리나는 부분만을 용이하게 인식하여 원어민의 발음과 더 정확한 발음의 학습을 수행할 수 있다.

도 14은 본 발명의 실시예에 따른 음성 시각화 데이터의 다양한 예시를 도시한 도면이다.

도 12의 시각화 데이터를 통해 사용자는 다양한 시각화 유닛의 선택, 특수 속성의 표시, 시각화 툴을 선택함으로써 사용자에게 적합한 음성 시각화 데이터(O1 내지 O4)를 생성할 수 있다.

시각화 데이터(O1)은 시각화 유닛의 상부 외곽선만을 추출하여 사용자에게 좀더 가독성이 좋은 시각화 데이터를 제공한다. 이 때 외곽선의 상단 부분(D1, D2)는 두께를 달리하여 주파수의 고저외에도 강세의 정도를 표시할 수 있다. 시각화 데이터의 D2는 D1보다 두껍게 시각화됨으로써 더 센 강세를 표시하게 된다.

시각화 데이터(O2)는 서브 플로우 유닛 또는 단어 중에서 강하게 발음하는 부분을 볼드체로 추가로 표시함으로써 주파수 외에도 강세의 표시를 부가하였다.

시각화 데이터는(O3)는 특이한 발음 또는 특이한 축약형에 대해 특수 속성을 부여하고 이에 대한 설명 또는 개별 발음을 제공하는 링크 정보를 삽입한 것을 보 준다.

시각화 데이터(O4)는 텍스트 아래에 타원형의 도형을 추가하여 모음과 강세에 대한 추가 정보를 제공한다. 예를 들어, 일반 검정 타원은 단모음을 나타내며, 작은 회색 타원은 희미하게 발음되는Schwa를 의미한다. 장모음은 크기가 다른 2개의 타원을 이용하고 이중 모음의 경우에는 팔각형에 가까운 타원을 통해 식별될 수 있다. 이러한 모음에 관한 특수 속성도 설명 또는 개별 발음을 제공하는 링크 정보를 삽입하여 제공될 수 있다.

이와 같이, 본 발명의 실시예에 따르면, 영어의 언어 특성에 의해 고유하게 생성된 시각화 데이터를 기반으로 다양한 형태의 음성 시각화를 제공할 수 있는 것을 확인할 수 있다.

도 15는 본 발명의 실시예에 따른 비교 처리부의 상세 구성을 도시한 도면이다.

전술한 음성 시각화 데이터가 연습 사용자에게 제공되면, 연습 사용자는 직관적으로 발음 특성을 파악하고 이를 모사하는 연습 음성을 연습 신호 입력부(171)에 입력하게 된다.

연습 음성 신호가 입력되면, 연습 시각화 데이터 생성부(172)는 연습 음성 신호를 기반으로 연습 시각화 데이터를 생성할 수 있다. 연습 음성 시각화 데이터는 앞서 설명한 기준 음성 시각화 데이터와 동일한 방식이나 정보 재활용을 통해 더 간소한 방법으로 생성이 가능하다.

비교값 생성부(173)는 기준 음성 정보와 연습 음성 정보를 상호 비교하되, 각각의 시각화 데이터의 전부 또는 일부를 이용하여 비교값을 생성할 수 있다. 본 발명의 실시에에 따른 시각화 데이터는 실제 발음에 중요한 요소를 고려하여 재가공 및 재조합된 데이터이기 때문에, 시각화 데이터를 기반으로 한 유사도는 얼마나 실제 발음과 유사하게 발음하였는 지를 판단하는 기준으로 사용 가능한 것이기 때문이다.

이렇게 비교된 결과는 비교 시각화 데이터 생성부(174)가 유사도에 관한 수치값 또는 시각화 데이터에 비교 결과를 그래픽적으로 표시하는 비교 시각화 데이터를 생성하여 출력부(160)을 통해 제공하는 것이 가능하다.

전술한 구성을 통하여 연습 사용자는 실제 발음과 가장 유사한 정보를 가진 음성 시각화 데이터를 통해 학습을 하고, 자신의 연습 결과를 동일한 음성 시각화 인터페이스 상에서 평가받고 확인할 수 있다.

도 16는 본 발명의 실시예에 따른 음성 시각화 방법을 도시한 흐름도이다.

본 발명의 실시예에 따른 음성 시각화 방법의 실시예에 있어서 동일한 용어를 사용하는 구성 요소는 음성 시각화 시스템에서의 동일한 구성 요소를 지칭하는 것이므로 중복되는 설명은 생략한다.

단계(S100)에서 영어 문장 발음에 대응하는 물리적 음성 신호를 수신한다. 음성 신호는 사용자가 기준 음성을 직접 발성하여 발생시킬 수도 있으며, TTS 방식의 자동화된 기준 음성도 해당된다. 음성 신호는 주파수, 진폭(에너지), 시간의 요소로 표현될 수 있다.

수신된 음성 신호는 단계(S110)에서 적어도 하나의 세그먼트로 세그멘테이션된다. 세그먼트는 문법상의 띄어쓰기와 반드시 일치하지는 않으며 실제 에너지가 존재하는 음성 신호의 시간 정보에 의해 이뤄진다.

또한, 수신된 음성 신호는 단계(S111)에서 에너지와 주파수가 추출된다. 추출된 값은 음성 시각화에 사용가능한 수준으로만 샘플링되거나 정규화될 수 있다.

한편, 자연어 처리가 필요한 경우에는 단계(S112)에 자연어 처리가 수행된다. 상기 자연어 처리는 입력된 음성 정보에 대해 플로우 그룹, 서브 플로우 그룹, 컨텐츠 워드, 펑션 워드, 특수 속성을 구분하는 수준의 자연어 처리 능력이 요구된다.

단계(S120)에서는 단계(S110) 내지 단계(S112)의 전처리 결과를 활용하여, 재조합 음성 정보를 생성한다. 재조합 음성 정보에서의, 음절은 사전에서 정의하는 음절과 독립적으로 문장에서 실제 발음되는 음절을 음성 시각화 형식으로 구분하고 재조합된다. 예를 들어, 하나의 서브 플로우 유닛상에 포함된 2개의 단어는 서브 플로우 내에서 연결되어 발음될 때 음절 재조합부에 의해 새롭게 음절이 재조합된다.

띄어쓰기 역시, 음성 시각화 상에서 보여줄 띄어쓰기를 문법상의 띄어쓰기와 독립적으로 재조합한다. 이 띄어쓰기는 시간축 상에 스페이스로 표현될 수 있다.

단계(S130)는 음성 시각화에 표현될 음성 정보의 특수 속성을 할당한다. 음성 정보의 특수 속성은 강세, 묵음, 연음, schwa, 특이한 이중 모음 중 적어도 하나를 포함할 수 있다.

단계(S140)는 재조합되고 특수 속성이 할당된 음성 정보의 플로우 유닛, 서브 플로우 유닛, 컨텐츠 워드, 펑션 워드에 각각 대응하는 메타 데이터를 부여한다. 아울러 하나의 음성 정보에서 가장 중요하고 강하게 발음되는 단어에 대해서는 포커스드 컨텐츠 워드(Focused content word)의 속성의 메타데이터를 부여할 수 있다. 재조합된 음성 정보에 부여된 메타 데이터는 시각화 툴을 이용하여 시각화하는 것이 가능하다.

단계(S150)에서는 음성 시각화에 사용할 시각화 툴의 선택을 제공한다. 사용될 시각화 툴은 시각화 툴 데이터베이스로부터 사용자가 다양한 시각화 방식을 선택하고, 유저 인터페이스를 통해 사전에 확인을 제공할 수도 있다

시각화 툴이 선택되면, 시각화 툴과 메타 데이터가 부여된 재조합된 음성 정보를 이용하여 음성 시각화 데이터를 생성한다(S160).

생성된 음성 시각화 데이터는 출력부를 통해 출력된다(S170). 음성 시각화 데이터는 시각화 툴에서 미리 정해진 그래픽이나 애니메이션을 통해 출력되며, 음성 출력과 동기화되어 출력될 수 있다.

전술한 음성 시각화 데이터를 이용하여 연습 사용자는 영어의 언어적 특성과 실제 발음을 직관적으로 파악할 수 있는 듣기/말하기 연습을 수행할 수 있다.

도 17은 본 발명의 실시예에 따른 음성 시각화 데이터의 비교 결과를 제공하는 방법을 도시한 도면이다.

단계(S200)에서는 연습 사용자에게 연습 문장의 선택을 제공한다. 연습 문장은 도 15에 도시된 음성 시각화 방법에 의해 기준 음성 시각화 데이터에 대응하는 텍스트이다.

기준 음성 시각화 데이터가 제공되면 연습 사용자는 오디오 입력 장치를 이용하여 연습 음성 신호를 입력한다(S210).

연습자의 연습 음성 신호는 에너지와 주파수가 추출되어, 특수 속성이 할당되어 시각화 데이터를 생성하기 위한 전처리를 수행한다(S220, S230).

상기 전처리 결과를 이용하여 단계(S240)에서 연습 시각화 데이터가 생성된다. 연습 시각화 데이터는 연습의 대상인 기준 음성 시각화 데이터의 정보의 일부를 활용할 수 있기 때문에 기준 음성 시각화 데이터를 생성하는 것보다 적은 연산량에 의해 생성될 수 있다.

연습 시각화 데이터가 생성되면, 단계(S250)에서 기준 음성과 연습 음성의 유사도가 비교된다. 유사도 비교에 있어서, 각각의 시각화 데이터의 전부 또는 일부를 이용하여 비교값을 생성할 수 있다. 본 발명의 실시에에 따른 시각화 데이터는 실제 발음에 중요한 요소를 고려하여 재가공 및 재조합된 데이터이기 때문에, 시각화 데이터를 기반으로 한 유사도는 얼마나 실제 발음과 유사하게 하였는 지를 판단하는 기준으로 사용 가능하다.

단계(S260)에서는 유사도에 관한 수치값 또는 시각화 데이터에 비교 결과를 그래픽적으로 표시하는 비교 시각화 데이터를 생성하여 출력부에 비교 결과를 출력한다.

전술한 본 발명의 실시예에 따른 방법은 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 기록매체에 기록될 수 있다. 컴퓨터 판독 가능한 기록매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능한 기록매체에 기록되는 프로그램 명령은 본 발명의 실시예를 위하여 특별히 설계되고 구성된 것이거나, 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용가능한 것일 수 있다. 컴퓨터 판독 가능한 기록매체는, 하드디스크, 플로피디스크, 자기테이프 등의 자기기록 매체, CD-ROM, DVD 등의 광기록 매체, 플롭티컬디스크 등의 자기-광 매체, ROM, RAM, 플래시 메모리 등과 같이, 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어를 포함한다. 프로그램 명령은, 컴파일러에 의해 만들어지는 기계어 코드, 인터프리터를 사용하여 컴퓨터에서 실행될 수 있는 고급언어 코드를 포함한다. 하드웨어는 본 발명에 따른 방법을 처리하기 위하여 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있고, 그 역도 마찬가지이다.

본 발명의 실시예에 따른 방법은 프로그램 명령 형태로 전자장치에서 실행될 수 있다. 전자장치는 스마트폰이나 스마트패드 등의 휴대용 통신 장치, 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 가전 장치를 포함한다.

본 발명의 실시예에 따른 방법은 컴퓨터 프로그램 제품에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 기록매체의 형태로, 또는 어플리케이션 스토어를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

본 발명의 실시예에 따른 구성요소, 예컨대 모듈 또는 프로그램 각각은 단수 또는 복수의 서브 구성요소로 구성될 수 있으며, 이러한 서브 구성요소들 중 일부 서브 구성요소가 생략되거나, 또는 다른 서브 구성요소가 더 포함될 수 있다. 일부 구성요소들(모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 본 발명의 실시예에 따른 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

110: 음성 신호 입력부 120: 음성 정보 분석부
130: 음성 정보 분류부 140: 시각화 속성 할당부
150: 시각화 처리부 160: 출력부
170: 비교 처리부

Claims

음성 시각화 시스템에 있어서,
영어로 발음된 문장의 음성 신호를 수신하는 음성 신호 수신부;
상기 음성 신호의 주파수, 에너지, 시간 및 상기 음성 신호에 대응하는 텍스트를 포함하는 음성 정보를 분석하여 적어도 하나의 세그먼트로 세그멘테이션하는 음성 정보 분석부;
상기 음성 정보의 세그먼트들을 플로우 유닛으로 분류하고, 상기 플로우 유닛을 적어도 하나의 단어를 포함하는 적어도 하나의 서브 플로우 유닛으로 분류하는 음성 정보 분류부;
상기 분석 및 분류된 음성 정보를 기초로 하여 음성 시각화를 위한 시각화 속성을 할당하는 시각화 속성 할당부; 및
상기 할당된 시각화 속성에 기초하여 시각화 처리를 수행하여 음성 시각화 데이터를 생성하는 시각화 처리부를 포함하며,
상기 시각화 속성은 상기 서브 플로우 유닛의 시간축상의 배치와 상기 각각의 서브 플로우 유닛에서의 주파수의 고저 정보를 포함하며,
상기 시각화 처리부는,
시각화 툴이 저장된 시각화 툴 데이터베이스;상기 시각화 툴 데이터베이스에 저장된 시각화 툴의 선택을 제공하는 시각화 툴 선택부; 및 상기 시각화 툴에 포함된 시각화 속성을 나타내는 시각화 유닛을 이용하여 상기 할당된 시각화 속성에 매칭하는 시각화 유닛 매칭부를 포함하며,
상기 음성 시각화 데이터는 적어도 일면이 예각을 이룬 다각형으로 구성되어 주파수 축상의 배치를 정확하게 인식 가능하고 상기 시각화 유닛 상호간의 높낮이의 직관적 인식을 제공하는 것인 음성 시각화 시스템.
제 1 항에 있어서,
상기 세그먼트는 연속된 발음이 이루어지는 시간을 기준으로 세그멘테이션되는 것인 음성 시각화 시스템.
제1항에 있어서,
상기 음성 정보 분석부는 자연어 처리를 수행하는 자연어 처리부를 포함하며,
상기 서브 플로우 유닛에 포함되는 적어도 하나의 단어의 속성은 의미를 보유하고 있는 컨텐츠 워드와 기능적으로만 사용되는 펑션 워드로 분류되고,
상기 서브 플로우 유닛의 상기 컨텐츠 워드와 상기 펑션 워드는 상이한 주파수 고저 정보로 시각화되는 것인 음성 시각화 시스템.
제 1 항에 있어서,
상기 시각화 속성 할당부는 상기 적어도 하나의 단어를 상기 서브 플로우 유닛 내 연결되어 발음되는 음절로 재조합하는 음절 재조합부를 포함하는 것인 음성 시각화 시스템.
제1항에 있어서,
상기 시각화 속성 할당부는 강세, 묵음, 연음, Schwa 및 이중 모음 중 적어도 하나를 속성을 부여하는 특수 속성 할당부를 포함하는 것인 음성 시각화 시스템.
삭제
삭제
제1항에 있어서,
상기 음성 시각화 데이터 내에 속한 단어 중 소리가 나지 않는 모음 또는 자음은 하단 또는 작은 크기로 표시하여, 소리나는 부분을 강조하도록 시각화하는 것인 음성 시각화 시스템.
제1항에 있어서,
상기 음성 시각화 데이터의 외곽선의 상단 부분은 상이한 두께를 가지며, 상기 상단 부분의 두께에 따라 강세의 정도를 표시하는 것인 음성 시각화 시스템.
제1항에 있어서,
상기 음성 시각화 데이터를 상기 음성 신호에 동기 시켜 출력하는 출력부 및
상기 출력된 음성 시각화 데이터와 연습 사용자로부터 입력된 연습 음성 신호의 비교 결과값을 제공하는 비교 처리부를 더 포함하는 음성 시각화 시스템.
제 10 항에 있어서,
상기 비교 처리부는 상기 연습 음성 신호에 기초한 연습 시각화 데이터를 생성하여 상기 출력된 음성 시각화 데이터와의 비교 결과를 표시하는 것인 음성 시각화 시스템.
음성 시각화 방법에 있어서,
주파수, 에너지 및 시간으로 표현된 음성 신호를 수신하는 단계;
상기 음성 신호에 포함된 에너지가 존재하는 시간 정보에 기초하여 상기 음성 신호를 적어도 하나의 세그먼트로 세그멘테이션하고, 자연어 처리를 수행하는 음성 정보 전처리 단계;
상기 전처리 단계를 이용하여 상기 음성 정보의 상기 세그먼트들을 플로우 유닛으로 분류하고, 상기 플로우 유닛을 적어도 하나의 단어를 포함하는 적어도 하나의 서브 플로우 유닛으로 분류하여 재조합 음성 정보를 생성하는 단계;
시각화 속성의 할당을 위하여 상기 플로우 유닛, 상기 서브 플로우 유닛, 상기 적어도 하나의 단어에 대한 메타 데이터를 부여하는 단계;
상기 시각화 속성을 이용하여 시각화 처리를 위한 시각화 툴의 선택을 제공하는 단계;
상기 시각화 툴이 선택되면 상기 메타 데이터가 부연된 상기 재조합 음성 정보를 이용하여 음성 시각화 데이터를 생성하는 단계; 및
상기 생성된 음성 시각화 데이터를 출력하는 단계를 포함하며,
상기 시각화 속성은 상기 서브 플로우 유닛의 시간축상의 배치와 상기 각각의 서브 플로우 유닛에서의 주파수의 고저 정보를 포함하며,
상기 시각화 속성은 상기 서브 플로우 유닛의 시간축상의 배치와 상기 각각의 서브 플로우 유닛에서의 주파수의 고저 정보를 포함하며,
상기 음성 시각화 데이터는 적어도 일면이 예각을 이룬 다각형으로 구성되어 주파수 축상의 배치를 정확하게 인식 가능하고 상기 시각화 유닛 상호간의 높낮이의 직관적 인식을 제공하는 것인 음성 시각화 방법.
제 12 항에 있어서,
상기 재조합 음성 정보를 생성하는 단계 이후, 강세, 묵음, 연음, Schwa 및 이중 모음 중 적어도 하나를 속성을 부여하는 특수 속성 할당하는 단계를 더 포함하는 음성 시각화 방법.
제 12 항에 있어서,
상기 서브 플로우 유닛에 포함되는 적어도 하나의 단어는 단어의 속성은 의미를 보유하고 있는 컨텐츠 워드와 기능적으로만 사용되는 펑션 워드로 분류되고, 상기 서브 플로우 유닛의 상기 컨텐츠 워드와 상기 펑션 워드는 상이한 주파수 고저 정보로 시각화되는 것인 음성 시각화 방법.
삭제
제12항에 있어서,
상기 음성 시각화 데이터 내에 속한 단어 중 소리가 나지 않는 모음 또는 자음은 하단 또는 작은 크기로 표시하여, 소리나는 부분을 강조하도록 시각화하는 것인 음성 시각화 방법.
제13항에 있어서,
상기 음성 시각화 데이터의 외곽선의 상단 부분은 상이한 두께를 가지며, 상기 상단 부분의 두께에 따라 강세의 정도를 표시하는 것인 음성 시각화 방법.
제 12 항에 있어서,
연습 사용자로부터 연습 음성 신호를 수신하는 단계;
상기 연습 음성 신호의 연습 음성 시각화 데이터를 생성하는 단계 및
상기 출력된 음성 시각화 데이터와 사이 연습 음성 시각화 데이터를 유사도를 비교한 결과값을 출력하는 단계를 더 포함하는 음성 시각화 방법.