KR20230118425A

KR20230118425A - 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템

Info

Publication number: KR20230118425A
Application number: KR1020220015044A
Authority: KR
Inventors: 장현철
Original assignee: 주식회사 에듀서브; 장현철; 정명진; 공정환
Priority date: 2022-02-04
Filing date: 2022-02-04
Publication date: 2023-08-11

Abstract

어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템이 제공되며, 학습대상언어를 선택한 후, 레슨페이지에 접속하여 음가(Phonetic Value), 박자 및 음조(Fundamental Frequency)를 학습한 후 동영상을 시청하며, 예습과정에서 인공지능 모델 기반으로 음성발화를 표준발화와 비교하여 출력하고, 화상수업을 진행한 후 복습과정을 거쳐 과제물 검사를 받는 사용자 단말, 사용자 단말과 화상수업을 진행하는 강사 단말, 사용자 단말에서 제출한 과제물을 분석하고, 사용자 단말이 과제물 검사에서 기 설정된 기준을 만족하지 못한 경우, 사용자 단말과 화상교정을 진행하는 분석 단말 및 적어도 하나의 학습대상언어와 적어도 하나의 프로세스를 매핑하여 저장하는 저장부, 사용자 단말에서 레슨페이지에 접속한 경우 음가, 박자 및 음조를 학습한 후 동영상을 시청하도록 하는 준비부, 사용자 단말에서 예습과정을 진행한 후 강사 단말과 화상수업을 진행하도록 하는 예습수업부, 사용자 단말에서 복습을 할 때 인공지능 모델 기반으로 음성발화를 체크하도록 하는 인공지능부, 사용자 단말에서 과제물을 제출한 경우 적어도 하나의 말소리 분석툴 및 인공지능 모델을 이용하여 통과 여부를 체크하는 체크부, 통과를 못한 경우 분석 단말과 교정수업 예약을 한 후 화상교정을 진행하도록 하는 화상교정부를 포함하는 교육 서비스 제공 서버를 포함한다.

Description

어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템{SYSTEM FOR PROVIDING ONLINE FOREIGN Language EDUCATION SERVICE USING SPEECH ANALYSIS AND GENERATION}

본 발명은 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템에 관한 것으로, 음가, 박자 및 음조 레슨, 동영상, 예습, 화상수업, 복습, 과제물 제출 및 화상교정 프로세스를 진행하는 시스템을 제공한다.

의사소통 접근법이 영어 교육 현장에 도입되면서부터 정확한 발음보다는 의미 전달 위주의 발화에 대한 중요성이 부각되어 왔다. 영어 원어민 화자와 동일한 악센트 습득을 목표로 하기보다는 화자가 의도한 발화 내용을 청자에게 명확하게 전달할 수 있는 수준의 상호이해도를 중요시하게 되었다. 특히 한국어와 영어간의 발음과 음운 구조의 차이를 고려한다면 국내 EFL 환경에서 외국어로서의 영어 습득에 있어서 발음 교육의 목표 설정은 중요한 의미를 갖는데, 영어를 처음 접하는 어린 학습자들이 알파벳의 개별 소리 학습으로 시작하여 구어 발화를 최종 목표로 여기고 있는 만큼, 발음은 영어 학습의 첫 관문으로서의 역할을 하며 이에 대한 효과적이고 체계적인 교육이 아주 중요하다. 국내 EFL 환경에서의 발음 지도에 대한 환경적 결핍을 개선하고 한국인 교사 인적 자원을 적극적으로 활용하기 위해서는 온라인 매체가 효과적일 수 있다.

이때, 음성분석기술을 이용하여 시각적인 발음교정을 제공하거나, 국제음성기호를 이용하여 표준발음리스트를 생성한 후 발화자의 발음과 비교하는 구성이 각각 개시되었는데, 이와 관련하여, 선행기술인 한국공개특허 제2011-0046937호(2011년05월06일 공개) 및 한국공개특허 제2021-0131698호(2021년11월03일 공개)에는, 영어 발음의 공명주파수(Resonance Frequency) 중 포먼트(Formant)주파수가 시각화된 차트를 저장하고, 발화자로부터 발화된 음성을 입력 및 분석한 후 포먼트주파수 중 공명주파수를 추출하여 분석하며, 추출된 공명주파수를 차트에 디스플레이하는 구성과, 발화자가 발화한 텍스트의 표준발음음소리스트를 생성한 후, 발화자의 발화발음음소리스트와 비교할 때, 표준발음음소리스트 및 발화발음음소리스트로 생성된 발음 시뮬레이션 영상을 비교하여 출력함으로써 발화자가 표준발음을 하는 과정을 모사할 수 있도록 하는 구성이 각각 개시되어 있다.

다만, 전자의 경우 주파수 그래프만을 비교해줄 뿐이고, 후자의 경우에도 영상으로 혀의 위치를 비교해서 보여줄 뿐이므로 실제로 발화자가 주파수나 혀의 위치를 보고 발음의 감을 잡기란 쉽지 않은 일이다. 모국어는 교착어인 한국인이 굴절어나 고립어인 영어를 발화하기 위해서는 쓰이는 혀의 근육이나 모양이 달라지기 때문에 이를 영어가 모국어인 부모가 아이를 가르치듯 하나하나 교정을 해주지 않는 한 영어를 모국어처럼 발음하기는 어렵다. 이에, 예습과정에서 국제음성기호에 따라 어음을 분석 및 생성하면서 인공지능 기반으로 음성발화를 비교하고, 강사와 화상수업을 진행한 후, 복습과정에서 인공지능 기반으로 음성발화를 다시 비교하며, 말소리 분석 및 인공지능 기반 과제물 검사에 통과하지 못한 경우, 말소리 분석가와 함께 화상 교정을 진행하는 플랫폼의 연구 및 개발이 요구된다.

본 발명의 일 실시예는, 예습과정에서 국제음성기호에 따라 어음을 분석 및 생성하면서 인공지능 기반으로 음성발화를 비교하고, 강사와 화상수업을 진행한 후, 복습과정에서 인공지능 기반으로 음성발화를 다시 비교하며, 말소리 분석 및 인공지능 기반 과제물 검사에 통과하지 못한 경우, 말소리 분석가와 함께 화상 교정을 진행할 수 있는, 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 학습대상언어를 선택한 후, 레슨페이지에 접속하여 음가(Phonetic Value), 박자 및 음조(Fundamental Frequency)를 학습한 후 동영상을 시청하며, 예습과정에서 인공지능 모델 기반으로 음성발화를 표준발화와 비교하여 출력하고, 화상수업을 진행한 후 복습과정을 거쳐 과제물 검사를 받는 사용자 단말, 사용자 단말과 화상수업을 진행하는 강사 단말, 사용자 단말에서 제출한 과제물을 분석하고, 사용자 단말이 과제물 검사에서 기 설정된 기준을 만족하지 못한 경우, 사용자 단말과 화상교정을 진행하는 분석 단말 및 적어도 하나의 학습대상언어와 적어도 하나의 프로세스를 매핑하여 저장하는 저장부, 사용자 단말에서 레슨페이지에 접속한 경우 음가, 박자 및 음조를 학습한 후 동영상을 시청하도록 하는 준비부, 사용자 단말에서 예습과정을 진행한 후 강사 단말과 화상수업을 진행하도록 하는 예습수업부, 사용자 단말에서 복습을 할 때 인공지능 모델 기반으로 음성발화를 체크하도록 하는 인공지능부, 사용자 단말에서 과제물을 제출한 경우 적어도 하나의 말소리 분석툴 및 인공지능 모델을 이용하여 통과 여부를 체크하는 체크부, 통과를 못한 경우 분석 단말과 교정수업 예약을 한 후 화상교정을 진행하도록 하는 화상교정부를 포함하는 교육 서비스 제공 서버를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 예습과정에서 국제음성기호에 따라 어음을 분석 및 생성하면서 인공지능 기반으로 음성발화를 비교하고, 강사와 화상수업을 진행한 후, 복습과정에서 인공지능 기반으로 음성발화를 다시 비교하며, 말소리 분석 및 인공지능 기반 과제물 검사에 통과하지 못한 경우, 말소리 분석가와 함께 화상 교정을 진행할 수 있다.

도 1은 본 발명의 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 교육 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체 지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템(1)은, 적어도 하나의 사용자 단말(100), 교육 서비스 제공 서버(300), 적어도 하나의 강사 단말(400) 및 적어도 하나의 분석 단말(500)을 포함할 수 있다. 다만, 이러한 도 1의 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(Network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 사용자 단말(100)은 네트워크(200)를 통하여 교육 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 교육 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 사용자 단말(100), 적어도 하나의 강사 단말(400) 및 적어도 하나의 분석 단말(500)과 연결될 수 있다. 또한, 적어도 하나의 강사 단말(400)은, 네트워크(200)를 통하여 교육 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 적어도 하나의 분석 단말(500)은, 네트워크(200)를 통하여 적어도 하나의 사용자 단말(100), 교육 서비스 제공 서버(300)와 연결될 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital MulTimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.

적어도 하나의 사용자 단말(100)은, 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 음가, 박자 및 음조 레슨, 동영상, 예습, 화상수업, 복습, 과제물 제출 및 화상교정 프로세스를 진행하는 학생의 단말일 수 있다.

여기서, 적어도 하나의 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

교육 서비스 제공 서버(300)는, 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 교육 서비스 제공 서버(300)는, 음가, 박자 및 음조 레슨, 동영상, 예습, 화상수업, 복습, 과제물 제출 및 화상교정 프로세스를 제공하는 서버일 수 있다.

여기서, 교육 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

적어도 하나의 강사 단말(400)은, 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 사용자 단말(100)과 화상수업을 진행하는 강사의 단말일 수 있다.

여기서, 적어도 하나의 강사 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 강사 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 강사 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

적어도 하나의 분석 단말(500)은, 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 과제물을 분석하고 사용자 단말(100)과 연결되어 화상교정을 진행하는 분석가의 단말일 수 있다.

여기서, 적어도 하나의 분석 단말(500)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 분석 단말(500)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 분석 단말(500)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

도 2는 도 1의 시스템에 포함된 교육 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3 및 도 4는 본 발명의 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 2를 참조하면, 교육 서비스 제공 서버(300)는, 저장부(310), 준비부(320), 예습수업부(330), 인공지능부(340), 체크부(350), 화상교정부(360), 유사도산출부(370) 및 외부소스연동부(380)를 포함할 수 있다.

본 발명의 일 실시예에 따른 교육 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 사용자 단말(100), 적어도 하나의 강사 단말(400) 및 적어도 하나의 분석 단말(500)로 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 사용자 단말(100), 적어도 하나의 강사 단말(400) 및 적어도 하나의 분석 단말(500)은, 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 사용자 단말(100), 적어도 하나의 강사 단말(400) 및 적어도 하나의 분석 단말(500)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: World Wide Web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(Hyper Text Mark-up Language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(Chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(Application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(App)을 포함한다.

도 2를 설명하기 이전에 도 2에서 설명될 영어발음의 기본개념을 이하에서 설명하기로 한다. 이하에서 설명된 것들은 도 2에서 중복하여 기재하지 않는다.

<체계적 파닉스(Systematic Phonics) 접근법>

영어 발음 교육에 있어 파닉스 교수법은 크게 체계적 접근법(Systematic Approach)과 전언어적 접근법(Whole Language Approach)으로 분류할 수 있다. 전자는 영어 학습 초기부터 자음과 모음과 같은 개별적인 음소들을 정확히 발음하도록 하는 훈련이다. 반복적으로 훈련하여 표준식 발음을 지향하며 즉각적이고 지속적인 교정을 한다. 학습자들은 듣고 반복하는 식의 연습을 통한 음소 인지(Phonemic Awareness)와 최소대립쌍(Minimal Pairs)을 이루는 단어들을 통해 개별음을 배우는 식으로 훈련을 받는다. 후자는 개별적 음소에 대한 별도의 지도 없이 책 읽기 상황 속에서 자연스럽게 음소의 습득을 유도하는 접근법이다. 다양한 종류의 아동 문학과 읽기 자료들이 사용되며 학습자들은 의미에 초점을 두고 전언어적 활동에 혼합되어 있는 파닉스 규칙에 노출된다.

즉, 전언어적 접근법이 강도 높은 암시적 접근법이라면 체계적 접근법은 학습자들로 하여금 명시적으로 음소를 인지하도록 하고 개별음 지도를 목표로 하는 방식이다. 따라서 체계적 접근법은 외국어를 처음 배우는 어린 학습자들이나 문자 해독에 어려움을 겪는 학생들을 대상으로 유용하게 활용되고 전언어적 접근법에 비해 그 효과도 좋다고 알려졌으며 이런 이유로 연구도 꾸준히 진행되어 오고 있다. 음소 인지란 구어 단어의 음소에 초점을 두고 다룰 수 있는 능력으로 정의된다. 이는 음소 인지 뿐만 아니라 더 넓은 범위의 구어적 단위들에 대한 인지를 뜻하는 음운 인지(Phonological Awareness)와는 다른 개념으로 음운 인지 지도에는 음절(Syllable)과 운율(Rhyming) 등의 요소들이 포함된다.

파닉스(Phonics)는 초보자가 글자들이나 개별 글자의 음성적 가치 특히 분절음을 배움으로써 단어의 발음을 할 수 있도록 가르치는 방법이다. 파닉스는 알파벳 원리에 근거하여 읽기를 가르치는 시스템이며 여기서 가장 중심 요소는 철자와 발음을 일치시키는 것이라고 하였다. 다시 말해 체계적 파닉스 접근법은 음소 인지를 명시적이고 개별적으로 지도하는 것이다. 이러한 체계적 파닉스 접근법은 크게 분석적 파닉스(Analytic Phonics)와 통합적 파닉스(Synthetic Phonics)로 나뉜다. 첫째, 분석적 파닉스는 학습자들이 단어 자체에 포커스를 두고 두 단어를 비교하는 방식으로 이루어진다. 학습자들은 일련의 단어들 속에 공통된 음소를 분석하고 새로운 음소를 습득하도록 유도되지만 단어를 구성하는 모든 음소를 개별적으로 가르치지는 않는다. 반면, 통합적 파닉스는 개별 소리와 철자를 먼저 가르치고 학습자들이 배운 지식을 활용해 단어를 소리 내어 읽어보는 방식이다. 교사가 개별 음소를 지도하면 학생들은 이를 통합하여 단어를 읽게 되며 이후 점차 소리와 철자를 매칭하여 단어를 읽거나 듣고 해독(Decode)할 수 있게 된다. 다시 말해 학생들이 각 철자의 소리를 인식하고 이들을 함께 조합(Synthesizing, Blending)함으로써 단어를 읽도록 배우는 방식이다.

<초분절음(Suprasegmentals) 접근법>

초분절음이란 발화 내에서 자음과 모음같이 분절된 음보다 상위 계층의 요소이다. 예를 들면, 단어 강세(Word Stress), 발화속도(Speech Rate), 문장 강세(Sentence Stress), 피치(Pitch), 억양(Intonation), 리듬(Rhythm)과 같이 유창성의 기반이 되는 요소들을 특징으로 한다. 분절음에 비해 초분절음이 전반적인 문장의 의미 전달력이 크고 의사소통능력에 더 결정적인 역할을 하기에, 초분절음의 오류가 분절음의 오류보다 의미 전달에 있어 더 심각한 결과를 가져온다. 영어에서는 자음과 모음을 명확히 조음하지 못하더라도 의사전달에는 큰 문제가 없으나 강세와 리듬 및 억양과 같은 운율 단위가 잘못 발성 될 때는 메시지 자체 전달에 장애가 된다. 즉, 동일한 문장도 억양을 달리할 경우 화자가 의도하고자 하는 바가 다르게 전달될 수 있기 때문에 억양을 제대로 이해하지 못할 경우 초래되는 문제점은 결코 가볍지 않다.

의사소통중심 언어 접근법(Communicative Language Teaching Approach)이 도래하면서 초분절음에 대한 체계적 발음 지도의 필요성을 시사하는 연구들도 나타나기 시작하였다. 분절음과 초분절음 요소에 관해서 원어민과의 비원어민 발음 대조를한 결과, 초분절음에서 가장 큰 차이가 있음이 보고되었고 따라서 비원어민 견지에서 특히 초분절음 지도가 필요하다는 점을 시사한다. 초분절음 요소들이 L2 이해도와 악센트(Accentedness)에 대한 청자들의 판단에 미치는 영향에 대해서는, 발화 속도, 휴지, 강세, 피치 범위(Pitch Range) 측면에서 음향적으로(Acoustically) 분석한 결과, 악센트에 대한 평가는 피치 범위와 단어 강세로 가장 잘 예측되었고 이해도 점수와 가장 관련 있는 요소는 발화 속도로 밝혀졌다.

다만, 외국어 의사소통에 있어서 발음 교육의 중요성을 시사하고 있는 것과는 대조적으로 정작 한국의 영어교육에서는 발음 교육은 별도로 이루어지고 있지 않는 편이다. 초등학교 학생들이 정규 수업에서 집중적으로 학습하는 발음조차도 대부분 분절음에 편향되어 있다. 공교육에 비해 상대적으로 적극적인 영어 사교육 시장에서조차도 커리큘럼에서의 파닉스 프로그램 기간이 짧다는 것을 고려한다면 발음의 중요성에 대한 인지가 아직은 거의 없는 상황이다. 이에, 본 발명의 일 실시예에 따른 시스템에서는 발화자인 사용자의 어음(Speech)을 분석하고, 문장의 국제음성기호(International Phonetic Alphabet)로부터 어음을 생성한 후 양자를 비교함으로써 유사도를 측정하며, 차이 및 유사점을 시각적으로 표현하여 피드백함으로써 사용자가 직관적으로 파악하도록 하고, 과제물 검사를 진행할 때 적어도 하나의 말소리 분석툴을 이용하여 비교한 결과 기준점에 미치지 못하는 경우 전문가 및 말소리 분석툴을 이용하여 화상교정을 진행할 수 있도록 하는 외국어 교육 서비스를 제공하도록 한다.

도 2를 참조하면, 도 2를 참조하여 설명할 때 도 3 내지 도 4의 도면을 함께 참조로 하여 설명하기로 한다.

저장부(310)는, 적어도 하나의 학습대상언어와 적어도 하나의 프로세스를 매핑하여 저장할 수 있다. 도 3a를 참조하면, 본 발명의 일 실시예에 따른 시스템의 프로세스는 (1) 내지 (11)까지의 프로세스를 포함하고 있는데 이 각각의 플로우를 저장하고 진행 조건 등을 저장할 수 있다.

준비부(320)는, 사용자 단말(100)에서 레슨페이지에 접속한 경우 음가, 박자 및 음조를 학습한 후 동영상을 시청하도록 할 수 있다. 사용자 단말(100)은, 도 3b와 같이 학습대상언어를 선택한 후, 도 3c 및 도 3d와 같은 레슨페이지에 접속하여 음가(Phonetic Value), 박자 및 음조(Fundamental Frequency)를 학습한 후 도 3e와 같이 동영상을 시청할 수 있다.

예습수업부(330)는, 사용자 단말(100)에서 예습과정을 진행한 후 강사 단말(400)과 화상수업을 진행하도록 할 수 있다. 도 3f 내지 도 3i와 같이 사용자 단말(100)은, 예습과정에서 도 3j 내지 도 3m과 같은 인공지능 모델 기반으로 음성발화를 표준발화와 비교하여 출력하고 화상수업을 진행할 수 있다. 이때 유사도를 측정하기 위하여 대표적인 시퀀스 유사도 측정 방법인 레벤슈타인(Levenshtein) 거리를 이용할 수 있는데, 그 외에도 동적 타임워핑(Dynamic Time Warping, DTW) 거리, 니들만-브니쉬(Needleman-Wunsch) 유사도를 이용할 수 있다.

<시퀀스 유사도 측정 방법>

시퀀스(Sequence)란 두 개 이상의 항목들로 구성된 데이터로 이 항목들 간에 순서가 담긴 데이터를 말한다. 대표적인 시퀀스 데이터로는 웹 로그 데이터, 단백질 시퀀스 데이터가 있다. 시퀀스 데이터를 분석하여 웹 로그 파일에서 비슷한 사용자들을 그룹화하거나 비슷한 구조를 가지는 단백질 시퀀스들을 그룹화 하여 비슷한 기능을 갖는 단백질 시퀀스를 발견할 수도 있다. 항목간의 선후 관계가 존재하는 시퀀스 데이터에서 순서를 고려하여 유사도를 정의하는 것이 중요하며, 유사도를 계산하는 방법에 따라 다음과 같이 나눌 수 있다.

<편집 기반(edit-based) 유사도 측정 방법>

두 개의 문자열이 같아지기 위한 최소 수정 연산 횟수를 구하는 알고리즘이다. 수정 연산은 추가(Add), 대체(Substitute), 삭제(Delete) 연산을 말하며 가장 대표적인 알고리즘은 레벤슈타인(Levenshtein) 거리 알고리즘이 있다. 수정 연산 횟수가 유사도 판단 척도로 사용되며 그 값이 작을수록 두 문자열이 유사하다고 판단한다.

<정렬(Alignment) 유사도 측정 방법>

주로 단백질 서열이나 핵산 서열 사이의 상관관계 분석 시두 서열 간의 유사한 구역을 찾아낼 때 사용한다. 정렬 범위에 따라 국소(Local) 정렬 방법과 전역(Global) 정렬 방법이 있으며, 대표적인 국소 정렬 알고리즘으로는 스미스-워터맨(SmithWaterman) 알고리즘이 있고 전역 정렬 알고리즘으로 니들만-브니쉬(Needleman-Wunsch) 알고리즘이 있다. 두 알고리즘은 정렬 범위에 따라 두 시퀀스가 가장 유사하도록 공백(Gap)을 사용하여 정렬한다.

<집합 기반(set-based) 유사도 측정 방법>

문자열을 문자의 집합 혹은 토큰(Token)의 집합 형태로 바꾸어 계산한다. 집합 관계를 이용하여 연산하며 문자열을 토큰으로 나누는 경우에는 N-gram 개념을 사용하여 문자열을 길이가 N개의 기준 단위로 절단하여 사용한다. 대표적인 알고리즘으로는 자카드(Jaccard) 유사도가 있다. 자카드 유사도는 집합을 구성하는 원소들 간의 합집합과 교집합 간의 비율을 나타내며 0에서 1 사이의 값을 가진다.

<레벤슈타인(Levenshtein) 거리>

편집 거리 알고리즘으로도 알려져 있는 레벤슈타인 거리는 하나의 문자열을 다른 문자열로 변환하기 위해 필요한 연산의 최소 횟수를 의미한다. 두 문자열 간의 수정 연산은 추가(Insert), 대체(Substitute), 삭제(Delete) 연산을 말한다. 비교하고자 하는 두 문자열의 문자를 한자씩 비교하며 추가와 삭제 시 연산 비용은 1을 부여하고 대체 연산은 문자의 일치 유무에 따라 0 또는 1을 부여하여 유사도를 계산한다. 본 발명의 일 실시예에 적용될 때에는 도 4j와 같이 적용될 수 있다.

<동적 타임 워핑(DTW) 거리>

속도가 다른 두 개의 시계열 패턴의 유사성을 측정하는 알고리즘으로 음성인식, 필기체 문자인식 등에 사용된다. 두 시계열 간의 거리를 최소화하는 방향으로 움직이면서 거리를 계산하기 때문에 유클리디안(Euclidean) 거리로 계산할 때와 달리 부분적으로 왜곡되거나 변형된 파형에 대해서도 계산할 수 있다. 예를 들어, 두 개의 시계열 그래프 A와 B가 각각 벡터로 표현된다고 하면, 두 시계열 그래프 A, B에 대하여 동적 타임 워핑 유사도로 계산한 경우 유클리디안 유사도와 다르게 시계열 그래프의 한 점에서 다른 시계열 그래프의 하나 혹은 그 이상의 점에 대응하여 계산 할 수 있다. 이러한 특성으로 인해 서로 다른 길이의 시퀀스에 대해서도 효과적으로 유사도를 계산할 수 있다.

<니들만-브니쉬(Needleman-Wunsch) 유사도>

생물정보학(Bioinformatics) 분야에서 단백질이나 뉴클레오타이드(Nucleotide)의 시퀀스 간의 서열 비교를 위한 알고리즘으로, 두 시퀀스가 가장 유사도가 높도록 공백(Gap)을 사용하여 두 시퀀스를 정렬한다. 공백 패널티(Gap Penalty), 일치(Match), 불일치(Mismatch) 값은 사용자 지정 값으로 값에 따라 시퀀스 간의 정렬 결과가 달라진다. 레벤슈타인 거리와 같이 두 시퀀스에 대한 삽입, 삭제, 일치 연산 비용을 활용하여 두 시퀀스 간의 유사도를 계산한다. 물론 상술한 유사도 계산 방법 이외에도 다양한 방법이 이용될 수 있다.

강사 단말(400)은, 사용자 단말(100)과 화상수업을 진행할 수 있다. 도 3n과 같이 사용자 단말(100)의 사용자와 강사 단말(400)의 강사가 화상으로 수업을 진행할 수 있다.

인공지능부(340)는, 사용자 단말(100)에서 복습을 할 때 인공지능 모델 기반으로 음성발화를 체크하도록 할 수 있다. 사용자 단말(100)은, 복습과정을 거쳐 과제물 검사를 받을 수 있다. 복습과정은, 사용자 단말(100)에서 발화된 음성발화를 인공지능 모델 기반으로 표준발화와 비교하여 출력할 수 있다.

이때, 음성발화는 사용자 단말(100)의 사용자가 발화한 음성을 의미하고, 표준발화는 인공지능 모델이 발화한 음성을 의미하는 것으로 정의한다. 인공지능 모델은, 국제음성기호를 그대로 읽어 음성으로 발화를 하게 되는데 이를 표준발화라 한다. 이는 사용자의 발화인 음성발화와 비교 및 분석될 수 있다. 인공지능 모델은, 국제음성기호(International Phonetic Alphabet)에 따른 음소(Phoneme)를 조합하여 어음(Speech)을 생성하는 STP(Speech-To-Phoneme) API와, 음성발화의 음소를 국제음성기호로 표시하여 어음을 분석하는 PTS(Phoneme-To-Speech) API를 이용할 수 있다. 이때, STP API는, 음성발화를 어쿠스틱 모델(Acoustic Model)을 거쳐 토큰화(Tokenizer)를 진행하여 국제음성기호로 변환할 수 있다.

어쿠스틱 모델은, 음성신호(Audio Signal)와 음소(Phonemes) 또는 음성을 구성하는 다른 언어 단위간의 관계를 나타내기 위해 음성 인식에 사용된다. 이는 오디오 녹음이나 녹음의 트랜스크립션(Transcription)으로부터 학습되며, 녹음된 음성신호, 트랜스크립션, 그리고 소프트웨어를 사용하여 소리의 통계적 표현을 생성하여 각 단어를 구성하는 모델이다. 이때, 음성의 통계적 특성(Statistical Properties of Speech)을 나타내기 위해 어쿠스틱 모델과 언어 모델을 모두 이용할 수도 있다. 어쿠스틱 모델은, 오디오 신호와 언어의 음성 단위 간의 관계를 모델링해주는 역할을 하는데, 언어 모델은 언어의 단어 시퀀스에 대한 모델링을 책임진다. 이 두 개의 모델들은 결합되어 입력으로 주어진 오디오 세그멘트에 해당되는 단어 시퀀스를 얻는 역할을 하게 된다.

체크부(350)는, 사용자 단말(100)에서 과제물을 제출한 경우 적어도 하나의 말소리 분석툴 및 인공지능 모델을 이용하여 통과 여부를 체크할 수 있다. 분석 단말(500)은, 사용자 단말(100)에서 제출한 과제물을 분석할 수 있다. 도 4a와 같이 과제물을 제출할 때에는 사용자 단말(100)의 사용자가 문장을 읽고 제출버튼을 누르면 된다. 이때, 도 4b와 같이 말소리 분석툴로 분석한 결과가 도출되고 그 밑 코멘트는 분석 단말(500)의 분석가가 기재한 것일 수 있다. 이때, 적어도 하나의 말소리 분석툴은, ① 음성발화의 음성신호의 파형을 주파수별 진폭으로 변환하여 차트에 표시하는 FFT(Fast Fourier Transform) API, ② 포먼트(Formant) 주파수 중 F1 내지 F3 중 적어도 하나를 추출하여 실시간으로 차트에 표시하는 LPC(Linear Predictive Coding) API, ③ 음성발화 및 표준발화 간 발성길이 및 강약을 비교하여 표시하는 WaveForm API, ④ 피치 트래커(Pitch Tracker)를 이용하여 음성발화 및 표준발화 간 음조를 분석하는 FO(Fundamental Frequency) API를 포함할 수 있다. 이때, LPC는 도 4k와 같이 동작할 수 있다.

이때, 표준발화는, 사용자 단말(100)에서 발화한 문장에 대응하는 발음기호를 입력으로 받아, 멜 단위(Mel Unit)로 바꾼 스펙트로그램(Spectrogram)인 멜-스펙트로그램(Mel-Spectrogram) 및 어텐션 라인(Attention Line)을 기반으로, WaveForm API를 이용하여 인공지능 모델이 발화한 음성일 수 있다. 또, LPC API에서 실시간으로 차트에 표시할 때, 모음교정을 위하여 모음 스캐터 플롯(Vowel Scatter Plot) 및 유음, 경과음 및 비음을 포함한 자음교정을 위하여 주파수에 따른 이득(dB)을 표시하는 LP(Low Pass) 필터를 이용할 수 있다. 또, FFT API는 마찰음, 파찰음, 유성음 및 무성음의 교정을 위하여 이용될 수 있다.

<멜-스펙트로그램>

음성처리 분야에서는 주어진 데이터에 STFT(Short-Time Fourier Transform) 변환을 적용하여 주파수 특성과 시계열 특성을 모두 표현하는 형태로 가공하여 사용한다. STFT는 시간 정보를 갖지 못하는 푸리에 변환의 단점을 극복하기 위한 대안으로서 지정된 크기의 윈도우를 적절히 이동시키며 시간영역에 따른 주파수 정보를 얻어내는 방법이다. STFT를 통해 일차적인 전처리를 진행하고, 추가적으로 MFCC(Mel Frequency Cepstrum Coefficient) 기법을 더 사용할 수도 있다. MFCC는 STFT를 사용하여 추출된 결과값에 대해 각각 수학식 1의 멜-스케일 간격을 사용한 필터를 적용할 수 있다. 이때 f는 주파수를 의미한다.

높은 주파수 대역의 필터일수록 f가 증가함에 따라 필터의 폭이 넓어지며 고주파 특성에 대한 정보가 줄어들어 상대적으로 저주파에 집중하는 특성을 보인다. 인간의 음성발화에서 저주파 특성을 많이 띠는 경우, 저주파 집중도가 높은 MFCC와 이론적으로 부합한다는 점에서 해당 방법을 최종 전처리 기법으로 선정할 수 있다. MFCC를 통해 생성된 멜-스펙트로그램을 윈도우 분할을 통해 여러 개의 윈도우로 분할하여 모형의 입력으로 사용할 수 있다.

화상교정부(360)는, 통과를 못한 경우 분석 단말(500)과 교정수업 예약을 한 후 화상교정을 진행하도록 할 수 있다. 분석 단말(500)은, 사용자 단말(100)이 과제물 검사에서 기 설정된 기준을 만족하지 못한 경우, 사용자 단말(100)과 화상교정을 진행할 수 있다. 도 4c와 같이 분석 단말(500)의 분석가와 사용자 단말(100)의 사용자가 말소리 분석툴로 분석한 화면을 보면서 함께 교정과정을 진행할 수 있다. 화상교정수업에는 상술한 도 4d의 LPC API를 적용한 결과를 보면서 모음교정을 진행을 할 수도 있고, 도 4e의 LPC API를 적용한 결과를 보면서 자음교정을 진행할 수도 있으며, 도 4f의 FFT API의 결과를 보면서 마찰음, 파찰음, 무성음 및 유성음의 교정을 진행할 수도 있다. 도 4g와 같이 WaveForm API를 이용하여 파형을 보면서 강약이 비슷한지, 강세가 동일한지, 총 발성 길이는 동일한지, 휴지(Pause)는 적절했는지 등을 파악할 수 있다. 또 도 4h와 같이 음조를 분석함으로써 사용자의 음조와 표준발화된 음성의 음조는 어디에 위치하고 있는지를 비교할 수 있다.

유사도산출부(370)는, 인공지능 모델이, STP API로 생성된 어음인 표준발화와, PTS API로 분석된 어음인 음성발화 간 국제음성기호 차이를 표시하고, 유사도를 계산하여 숫자로 출력되도록 할 수 있다. 예를 들어, 국제음성기호가 총 4 개인데 1 개가 다르다면 75%의 유사도를 가지는 것이다. 이때, 기호 차이 외의 발음의 차이는 상술한 시퀀스 유사도 측정 방법을 이용할 수 있으며 그 외에도 다양한 유사도 측정 방법이 이용될 수 있음은 물론이라 할 것이다.

외부소스연동부(380)는, 표준발화의 소스로 사용자 단말(100)에서 적어도 하나의 외부 미디어 서버를 선택한 경우, 적어도 하나의 외부 미디어 서버에서 스트리밍되는 음성신호를 추출한 후 인공지능 모델을 이용하여 어음을 분석하여 표준발화로 지정할 수 있다. 도 4i를 참조하면, 외부 미디어 서버, 예를 들어 유튜브나 넷플릭스, 디즈니 플러스나 아마존 프라임 등과 같은 소스를 이용할 수 있는데, 사용자가 원하는 미디어 콘텐츠의 한 구절을 지정하면, 이 부분의 음성신호를 어음 분석한 후 비교할 수 있다.

덧붙여서, 본 발명의 일 실시예에 따른 시스템에서 발음을 교육 및 평가하기 위하여 사용하는 요소는 이하와 같을 수 있다.

<초분절음 접근법 분석 기준>

상호 이해도를 높이기 위해서는 개별음과 동시에 초분절음에 관한 지도도 이루어져야 한다. 초분절음은 속도(Rate), 휴지(Pause), 강세(Stress), 피치(Pitch), 억양(Intonation), 리듬(Rhythm) 등의 발화의 운율적 특징들을 일컫는다. 문장에서 강세가 들어간 음절은 높은 피치(High Pitch), 늘어진 길이(Longer Duration), 강한 세기(Increased Intensity)로 특징지어 진다. 더 크게 보면 강세가 있는 음절과 없는 음절들의 일련의 발화 흐름이 리듬과 억양의 근간을 이룬다. 한국어가 음절 박자 언어(Syllable-Timed Language)인 반면 영어는 강세 박자 언어(Stress-Timed Language)로써 음절 박자에 익숙한 한국어 학습자에게 초분절음 요소들은 도전적으로 여겨질 수 있으므로 명시적 지도의 필요성이 요구된다.

<발화 속도>

발화 속도는 초당 음절 수(Mean Number of Syllables per second excluding Pauses), 평균 발화 길이(Mean Length of Run), 휴지 전 후 발화된 음절 평균수(an Average Number of Syllables between Pauses) 등으로 측정된다. 원어민들이 빠른 조음 속도(초당 4.84음절)로 발화를 들었을 때 가장 이해도가 높고, 원어민의 평균 조음 속도는 초당 5 개 음절이며 상급 학습자의 경우 4.4개, 중급 학습자는 3.3개 음절 수를 발화한다. 이에 따라, 인공지능 모델의 발화속도를 이에 맞게 발화하도록 하고, 이를 표준발화로 기준을 설정한 후 사용자의 음성발화를 비교하여 측정할 수 있다.

<휴지>

휴지 길이(Pause Length)와 휴지 위치(Pause Placement)는 유창성과 관련되어 있다. 언어적 배경을 가진 조교들을 대상으로 연구한 결과 비원어민 화자의 휴지가 원어민보다 더 길고 불규칙적이라고 보고했다. 독일어를 모국어로 하는 영어 화자의 경우 휴지의 구조에 관한 연구에서 휴지 길이가 문법 단위의 발화와 인지에 있어서의 경계(Boundary)를 결정한다고 한다. 올바른 의미 단위에서 끊어 읽지 않고 적절하지 않은 곳에서 끊는다면 청자입장에서 이해하는데 어려움을 겪을 수 있다. 이에 따라, 인공지능 모델의 휴지를 이에 맞게 발화하도록 하고, 이를 표준발화로 기준을 설정한 후 사용자의 음성발화를 비교하여 측정할 수 있다.

<초점 강세>

초점 강세란 문장에서 새로운 정보를 담은 단어, 즉, 알고 있는 정보에 대해 대조적인 정보가 들어간 단어나 구(Phrase)에 강세가 주어지는 현상을 일컫는다. 문장 내 초점 강세가 가장 주요한 초분절음 요소인데, 비원어민 사이의 의사소통 단절의 핵심은 잘못된 초점 강세 때문이며, 초점 강세의 이동에 따른 상호 이해도가 달라진다. 이에 따라, 인공지능 모델의 초점 강세를 이에 맞게 발화하도록 하고, 이를 표준발화로 기준을 설정한 후 사용자의 음성발화를 비교하여 측정할 수 있다.

<어휘 강세>

초점 강세가 문장 계층의 강세라면 어휘 강세는 어휘 내에서 주어지는 강세이다. 단어를 인식하는데 있어서 음소의 배열만큼 중요한 것이 어휘의 강세인데, 어휘 강세는 단어와 문구를 구분하는데 핵심적인 역할을 하며 원어민 입장에서 잘못된 어휘 강세가 잘못된 음소보다 이해도를 방해하는 치명적인 요인이 될 수 있다. 따라서 공식처럼 일정하지 않은 어휘 강세는 외국어 학습자들에게는 어려운 부분일 수 있기 때문에 모든 학습자들에게 제공되어야 한다. 이에 따라, 인공지능 모델의 어휘 강세를 이에 맞게 발화하도록 하고, 이를 표준발화로 기준을 설정한 후 사용자의 음성발화를 비교하여 측정할 수 있다.

<억양>

억양은 담화 속에서 의미의 차이를 전달하기 위하여 소리의 높낮이를 이용하는 것, 즉 말의 멜로디(Speech Melody)이다. 대체적으로 원어민 화자는 새로운 정보를 사용할 때 올라가는 톤(Rising Tone)의 피치를 사용하고 주어진 정보를 말할 때 내려가는 톤(Falling Tone)의 피치로 전한다. 이러한 영어 억양은 발화에 있어서 새로운 정보를 강조하며 청자에게 발화의 초점을 어디에 둘지 전달하는 중요한 역할을 한다. 외국인 화자의 억양 패턴에 있어서 가장 큰 문제는 전반적으로 좁은 높낮이 범위(Narrow Pitch Range)이며 이는 운율적 단위(Prosodic Unit)를 인지(Identification)하기 어렵게 한다. 설사 분절음 구현을 잘 할 수 있다고 하더라도 비원어민의 불분명한 억양이나 무 억양은 정보 구조에 대한 잘못된 해석과 화자의 의도에 대한 오해의 원인이 될 수가 있다. 이에 따라, 인공지능 모델의 억양을 이에 맞게 발화하도록 하고, 이를 표준발화로 기준을 설정한 후 사용자의 음성발화를 비교하여 측정할 수 있다. 이때, 억양에 대하여 피치 디스플레이(Pitch Display)와 같은 시각적 지도도 함께 제공될 수 있다.

<리듬>

리듬은 강세의 강약과 더불어 영어가 가지고 있는 독특한 특징이다. 영어와 같은 강세 박자 언어는 고유의 강세 박자 리듬(Stress-Timed Rhythm)을 갖고 있어 강세 사이에 오는 비 강세 음절의 개수와는 관계없이 강세 음절이 규칙적인 간극으로 발생한다. 연구에 따르면 일본인 학습자를 대상으로 강세, 리듬, 억양, 소리 변화에 관한 평가에서, 비원어민과 원어민의 가장 큰 차이점으로 리듬과 음의 변화였다고 보고되었다. 이에 따라, 인공지능 모델의 리듬을 이에 맞게 발화하도록 하고, 이를 표준발화로 기준을 설정한 후 사용자의 음성발화를 비교하여 측정할 수 있다.

표준발화의 기준 및 음성발화의 분석 기준을 정리하면 이하 표 1과 같다.

요소	학습 세부 요소
발화 속도	평균 발화된 음절 길이, 발성에 걸리는 시간
휴지	휴지 길이, 휴지 빈도, 휴지 위치
초점 강세	모음 길이, 단어 강세 길이, 모음의 특질, 높은 피치
어휘 강세	단어 내 강세 세기, 단어 내 강세 모음 길이
억양	피치 높낮이(high and low), 피치 범위(narrow and wide)
리듬	연음(linking), 단순화(simplification), 등시간격성(isochrony)

요소	비주얼 학습 요소
발화 속도	문장 발화 시간 측정 타이머
휴지	끊어 읽기 표기(/), 휴지 시간 표시
초점 강세	볼드체(bold)/대문자 표기, 모음 발음 기호, 피치 디스플레이, 스펙토그램(spectogram)
어휘 강세	강세 음절 대문자 표기, 모음 발음 기호, 단어 내 강세 악센트 표시(′), 동그라미 크기로 표시, 피치 디스플레이, 스펙토그램
억양	파형(waveform), 계단식 억양 표기(staircase intonation), 피치 디스플레이, 스펙토그램
리듬	강세 들어간 타이밍에 박수치기, 등시간격성을 나타내는 묶음 괄호 ( )

온라인 프로그램에서 위와 같은 초분절음 요소들을 익힐 수 있도록 구현가능한 구체적인 비주얼 요소의 일 실시예는 표 2와 같지만 이에 한정되지는 않는다. 예를 들어 스펙토그램, 파형, 피치 디스플레이, 강세 음절 대문자 표기 등이며 이러한 비주얼 요소들이 발음 교육에 도움이 된다고 보고되어 왔다. 일반적으로 강세가 있는 음절이나 어휘는 긴 지속 시간(Duration), 높은 피치와 강한 세기(Intensity)를 보이는 반면 강세가 없는 경우 길이가 짧고 낮은 피치와 세기가 약해진다. 물론 상술한 요소 이외에도 표준발화의 기준 및 음성발화의 분석 기준이 될 수 있는 방법은 다양할 수 있다.

이와 같은 도 2 내지 도 4의 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5는 본 발명의 일 실시예에 따른 도 1의 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 5를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 5에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.

도 5를 참조하면, 교육 서비스 제공 서버는, 적어도 하나의 학습대상언어와 적어도 하나의 프로세스를 매핑하여 저장하고(S5100), 사용자 단말에서 레슨페이지에 접속한 경우 음가, 박자 및 음조를 학습한 후 동영상을 시청한다(S5200).

또, 교육 서비스 제공 서버는, 사용자 단말에서 예습과정을 진행한 후 강사 단말과 화상수업을 진행하고(S5300), 사용자 단말에서 복습을 할 때 인공지능 모델 기반으로 음성발화를 체크한다(S5400).

그리고, 교육 서비스 제공 서버는, 사용자 단말에서 과제물을 제출한 경우 적어도 하나의 말소리 분석툴 및 인공지능 모델을 이용하여 통과 여부를 체크하고(S5500), 통과를 못한 경우 분석 단말과 교정수업 예약을 한 후 화상교정을 진행한다(S5600).

상술한 단계들(S5100~S5600)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S5100~S5600)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.

이와 같은 도 5의 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5를 통해 설명된 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

학습대상언어를 선택한 후, 레슨페이지에 접속하여 음가(Phonetic Value), 박자 및 음조(Fundamental Frequency)를 학습한 후 동영상을 시청하며, 예습과정에서 인공지능 모델 기반으로 음성발화를 표준발화와 비교하여 출력하고, 화상수업을 진행한 후 복습과정을 거쳐 과제물 검사를 받는 사용자 단말;
상기 사용자 단말과 상기 화상수업을 진행하는 강사 단말;
상기 사용자 단말에서 제출한 과제물을 분석하고, 사용자 단말이 상기 과제물 검사에서 기 설정된 기준을 만족하지 못한 경우, 상기 사용자 단말과 화상교정을 진행하는 분석 단말; 및
적어도 하나의 학습대상언어와 적어도 하나의 프로세스를 매핑하여 저장하는 저장부, 상기 사용자 단말에서 레슨페이지에 접속한 경우 음가, 박자 및 음조를 학습한 후 동영상을 시청하도록 하는 준비부, 상기 사용자 단말에서 예습과정을 진행한 후 상기 강사 단말과 화상수업을 진행하도록 하는 예습수업부, 상기 사용자 단말에서 복습을 할 때 인공지능 모델 기반으로 음성발화를 체크하도록 하는 인공지능부, 상기 사용자 단말에서 과제물을 제출한 경우 적어도 하나의 말소리 분석툴 및 상기 인공지능 모델을 이용하여 통과 여부를 체크하는 체크부, 상기 통과를 못한 경우 상기 분석 단말과 교정수업 예약을 한 후 화상교정을 진행하도록 하는 화상교정부를 포함하는 교육 서비스 제공 서버;
를 포함하는 어음(Speech) 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 1 항에 있어서,
상기 인공지능 모델은,
국제음성기호(International Phonetic Alphabet)에 따른 음소(Phoneme)를 조합하여 어음(Speech)을 생성하는 STP(Speech-To-Phoneme) API;
상기 음성발화의 음소를 상기 국제음성기호로 표시하여 어음을 분석하는 PTS(Phoneme-To-Speech) API;
를 이용하는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 2 항에 있어서,
상기 STP API는,
상기 음성발화를 어쿠스틱 모델(Acoustic Model)을 거쳐 토큰화(Tokenizer)를 진행하여 국제음성기호로 변환하는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 2 항에 있어서,
상기 교육 서비스 제공 서버는,
상기 인공지능 모델이, 상기 PTS API로 생성된 어음인 표준발화와, 상기 STP API로 분석된 어음인 음성발화 간 국제음성기호 차이를 표시하고, 유사도를 계산하여 숫자로 출력되도록 하는 유사도산출부;
를 더 포함하는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 1 항에 있어서,
상기 복습과정은,
상기 사용자 단말에서 발화된 음성발화를 인공지능 모델 기반으로 표준발화와 비교하여 출력하는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 1 항에 있어서,
상기 적어도 하나의 말소리 분석툴은,
상기 음성발화의 음성신호의 파형을 주파수별 진폭으로 변환하여 차트에 표시하는 FFT(Fast Fourier Transform) API;
포먼트(Formant) 주파수 중 F1 내지 F3 중 적어도 하나를 추출하여 실시간으로 차트에 표시하는 LPC(Linear Predictive Coding) API;
상기 음성발화 및 표준발화 간 발성길이 및 강약을 비교하여 표시하는 WaveForm API;
피치 트래커(Pitch Tracker)를 이용하여 상기 음성발화 및 표준발화 간 음조를 분석하는 FO(Fundamental Frequency) API;
를 포함하는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 6 항에 있어서,
상기 표준발화는,
상기 사용자 단말에서 발화한 문장에 대응하는 발음기호를 입력으로 받아, 멜 단위(Mel Unit)로 바꾼 스펙트로그램(Spectrogram)인 멜-스펙트로그램(Mel-Spectrogram) 및 어텐션 라인(Attention Line)을 기반으로, 상기 WaveForm API를 이용하여 상기 인공지능 모델이 발화한 음성인 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 6 항에 있어서,
상기 LPC API에서 실시간으로 차트에 표시할 때,
모음교정을 위하여 모음 스캐터 플롯(Vowel Scatter Plot); 및
유음, 경과음 및 비음을 포함한 자음교정을 위하여 주파수에 따른 이득(dB)을 표시하는 LP(Low Pass) 필터;
를 이용하는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 6 항에 있어서,
상기 FFT API는 마찰음, 파찰음, 유성음 및 무성음의 교정을 위하여 이용되는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.
제 1 항에 있어서,
상기 교육 서비스 제공 서버는,
상기 표준발화의 소스로 상기 사용자 단말에서 적어도 하나의 외부 미디어 서버를 선택한 경우, 상기 적어도 하나의 외부 미디어 서버에서 스트리밍되는 음성신호를 추출한 후 상기 인공지능 모델을 이용하여 어음을 분석하여 상기 표준발화로 지정하는 외부소스연동부;
를 더 포함하는 것을 특징으로 하는 어음 분석 및 생성을 이용한 원격 외국어 교육 서비스 제공 시스템.