KR20080059180A

KR20080059180A - 발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단프로그램

Info

Publication number: KR20080059180A
Application number: KR1020087008240A
Authority: KR
Inventors: 마치 오쿠무라; 히로아키 코지마; 히로시 오무라
Original assignee: 도꾸리쯔교세이호진상교기쥬쯔소고겡뀨죠; 마치 오쿠무라
Priority date: 2005-09-29
Filing date: 2006-09-29
Publication date: 2008-06-26
Also published as: US20090305203A1; WO2007037356A1; TW200721109A; EP1947643A1; JP2007122004A; JP5120826B2; EP1947643A4

Abstract

본 발명의 발음진단 장치는, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 구강 내의 혀, 입술, 성문, 구개수, 비강, 치아, 턱의 상태의 어느쪽이든 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와, 말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하고, 추출된 음향적 특징에 기초하여, 조음적 속성에 관한 속성값을 추정하는 속성값 추정해, 추정된 속성값을 바람직한 조음적 속성 데이터와 비교함으로써 발성자의 발음에 관한 판정을 하는 것을 특징으로 한다.

발음진단, 음성, 음소, 조음, 속성, 주파수, 특징량, 음량, 지속 시간, 변화량, 속성값, 속성 데이터

Description

발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단 프로그램{PRONUNCIATION DIAGNOSIS DEVICE, PRONUNCIATION DIAGNOSIS METHOD, RECORDING MEDIUM, AND PRONUNCIATION DIAGNOSIS PROGRAM}

본 발명은 발음진단 장치, 발음진단 방법, 기록 매체 및, 발음진단 프로그램에 관한 것이다.

말하는 사람의 발음을 진단하기 위한 발음진단 장치로서 말하는 사람이 발한 단어에 관한 음성 신호를 취득하여 당해 음성 신호에 가장 가까운 철자의 단어를 데이터베이스로부터 추출하고, 추출한 단어를 말하는 사람에게 제시하는 장치가 알려져 있다(예를 들면, 특허 문헌 1을 참조).

　　 <특허 문헌 1> 일본국 특허공개 1999－202889호 공보

<발명이 해결하고자 하는 과제>

그렇지만, 상기의 발음진단 장치에서는, 말하는 사람이 발한 단어의 음성을 등록되어 있는 철자의 단어에 대응시킴으로써 발음을 진단하는 것이므로, 단어를 구성하는 음소마다, 올바른 조음(調音) 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단할 수가 없다.

그래서, 본 발명은 올바른 조음 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단 가능한 발음진단 장치, 발음진단 방법, 및, 발음진단 프로그램 및 이것들에 사용하는 조음적 속성 데이터를 기억하고 있는 기억 매체를 제공하는 것을 목적으로 하고 있다.

<과제를 해결하기 위한 수단>

본 발명의 한측면과 관련되는 발음진단 장치는, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와, 말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 수단과, 추출된 음향적 특징에 기초하여, 상기 조음적 속성에 관한 속성값을 추정하는 속성값 추정 수단과, 추정된 속성값을 상기 바람직한 조음적 속성 데이터와 비교함으로써 발성자의 발음에 관한 판정을 하는 수단을 구비한다.

상기 발음진단 장치에 있어서, 발성자의 발음진단 결과를 출력하는 수단을 더 구비하고 있는 것이 바람직하다.

본 발명의 다른 한측면과 관련되는 발음진단 장치는, 발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과, 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 조음적 속성 분포 형성 수단과, 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 수단을 구비한다.

본 발명의 또 다른 한측면과 관련되는 발음진단 장치는, 발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과, 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 제1 조음적 속성 분포 형성 수단과, 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 수단과, 제1 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 수단과, 제2 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 수단을 구비하고 있다.

상기 발음진단 장치에 있어서, 조음적 속성 판정 수단의 사용하는 역치를 가변하는 역치 가변 수단을 설치해 두는 것이 바람직하다.

상기 발음진단 장치로 진단하는 음소를 자음으로 하는 것이 바람직하다.

본 발명의 또 다른 한측면과 관련되는 발음진단 방법은, 말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 공정과, 추출된 음향적 특징에 기초하여, 조음적 속성에 관한 속성값을 추정하는 속성값 추정 공정과, 추정된 속성값을 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와 비교하여 발성자의 발음에 관한 판정을 하는 공정과, 발성자의 발음진단 결과를 출력하는 공정을 구비하고 있다.

본 발명의 또 다른 한측면과 관련되는 발음진단 방법은, 발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과, 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 조음적 속성 분포 형성 공정과, 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 공정을 구비하고 있다.

본 발명의 또 다른 한측면과 관련되는 발음진단 방법은, 발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과, 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제1 조음적 속성 분포 형성 공정과, 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 공정과, 제1 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 공정과, 제2 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 공정을 구비하고 있다.

상기 발음진단 방법에 있어서, 조음적 속성 판정 공정중에서 사용하는 역치를 가변으로 하는 역치 가변 공정을 더욱 준비해 두는 것이 바람직하다.

본 발명의 또 다른 한측면과 관련되는 기록 매체는, 음성 언어 체계마다, 그것을 구성하는 음소마다 조음적 속성을 가지는 조음적 속성 데이터베이스와 조음적 속성값을 추정하기 위한 역치를 가지는 역치 데이터베이스와, 단어 구분 조성 데이터베이스와, 특징축 데이터베이스와 교정 컨텐츠(contents) 데이터베이스 중 적어도 하나를 기억하고 있다.

본 발명에 의하면, 조음 기관의 상태나 조음의 양식의 상태, 즉 조음적 속성의 상태가 추정된다. 따라서, 본 발명에 의하면, 올바른 조음 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단하는 것이 가능하다.

이러한 구성에 의하면, 올바른 조음 기관의 상태나 조음의 양식으로 발음하기 위한 수법을 말하는 사람에게 제시하는 것이 가능하게 된다.

<발명의 효과>

본 발명과 관련되는 장치, 방법, 기록 매체 및 프로그램을 이용함으로써, 말하는 사람이 발한 단어의 음성을 등록되어 있는 철자의 단어에 대응시킴으로써 발음을 진단하는 것이므로, 단어를 구성하는 음소마다, 올바른 조음 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단할 수가 있다. 따라서, 본 발명과 관련되는 장치, 방법, 기록 매체 및 프로그램을 이용하여 말하는 사람에게 올바른 조음 기관의 상태나 양식으로 발음하도록 지도할 수가 있다.

도 1은 본 발명의 실시의 형태와 관련되는 발음진단 장치로서 동작하는 컴퓨터의 구성을 나타내는 도이다.

도 2는 발음진단 시스템의 구성을 나타내는 도이다.

도 3은 발음진단 프로그램의 처리의 흐름을 나타내는 도이다.

도 4는 발음진단 시스템의 데이터베이스 작성 순서를 나타내는 도이다.

도 5는 발음진단 시스템의 데이터베이스 작성 시스템의 구성을 나타내는 도이다.

도 6은 카테고리(category)의 예를 나타내는 도이다.

도 7은 단어 구분 조성 데이터베이스의 레코드의 일례를 나타내는 도이다.

도 8은 조음적 속성 데이터베이스의 레코드(record)의 일례를 나타내는 도이다.

도 9는 특징축 데이터베이스의 레코드의 일례를 나타내는 도이다.

도 10은 교정 컨텐츠 데이터베이스의 레코드의 일례를 나타내는 도이다.

도 11은 조음적 속성의 분포의 일례를 나타내는 도이다.

도 12는 음소 [s] 또는 음소 [sh]와 음소 [th]의 차이를 판별하는 조음적 속성 분포의 일례를 나타내는 도이다.

도 13은 음소 [s]와 음소 [th]의 발성시의 조음 기관의 상태를 나타내는 도이다.

도 14는 음소 [s]와 음소 [sh]의 차이를 판별하는 조음적 속성 분포의 일례를 나타내는 도이다.

도 15는 음소 [s]와 음소 [sh]의 발성시의 조음 기관의 상태를 나타내는 도이다.

도 16은 음성 신호 분석부의 구성을 나타내는 도이다.

도 17은 신호 처리부의 구성을 나타내는 도이다.

도 18은 음성 구분화 처리부의 구성을 나타내는 도이다.

도 19는 음향적 특징량 추출부의 구성을 나타내는 도이다.

도 20은 조음적 속성 추정부의 처리의 흐름을 나타내는 도이다.

도 21은 평가 카테고리마다의 처리의 흐름을 나타내는 도이다.

도 22는 판정 결과의 표시예를 나타내는 도이다.

도 23은 판정 결과의 표시예를 나타내는 도이다.

도 24는 교정 방법의 표시예를 나타내는 도이다.

<부호의 설명>

10　발음진단 장치 20　발음진단 시스템

22　인터페이스 제어부 24　음성 신호 분석부

26　조음적 속성 추정부 28　조음적 속성 데이터베이스

30　단어 구분 조성 데이터베이스

32　역치 데이터베이스 34　특징축 데이터베이스

36　교정 컨텐츠 생성부 38　발음 판정부

40　교정 컨텐츠 데이터베이스

이하, 도면을 참조하여 본 발명의 매우 적합한 실시 형태에 대해서 상세하게 설명한다. 도 1은 본 발명의 실시의 형태와 관련되는 발음진단 장치로서 동작하는 컴퓨터의 구성을 나타내는 도이다. 발음진단 장치(10)는 후술하는 발음진단 프로그램에 의해 동작하는 범용의 컴퓨터이다.

　발음진단 장치(10)로서 동작하는 컴퓨터는, 도 1에 나타내듯이, 중앙 처리장치(CPU)(12a), 메모리(12b), 하드디스크 드라이브(HDD)(12c), 모니터(12d), 키보드(12e), 마우스(12f), 프린터(12g), 음성 입출력 인터페이스(12h), 마이크로폰(12i), 및 스피커(12j)를 구비하고 있다.

CPU(12a), 메모리(12b), 하드디스크 드라이브(12c), 모니터(12d), 키보드(12e), 마우스(12f), 프린터(12g), 및 음성 입출력 인터페이스(12h)는, 시스템 버스(12k)를 통해 서로 접속되어 있고, 마이크로폰(12i), 및 스피커(12j)는, 음성 입출력 인터페이스(12h)를 통해 시스템 버스(12k)에 접속되어 있다.

이하, 컴퓨터를 발음진단 장치(10)로서 동작시키기 위한 발음진단 시스템에 대해서 설명한다. 도 2는 발음진단 시스템의 구성을 나타내는 도이다. 도 2에 나타내는 발음진단 시스템(20)은, 인터페이스 제어부(22), 음성 신호 분석부(24), 조음적 속성 추정부(26), 조음적 속성 데이터베이스(DB)(28), 단어 구분 조성 데이터베이스(DB)(30), 역치 데이터베이스(DB)(32), 특징축 데이터베이스(DB)(34), 교정 컨텐츠 생성부(36), 발음 판정부(38), 교정 컨텐츠 데이터베이스(DB)(40)를 구비하고 있다.

이하, 발음진단 장치(10)에 의한 발음진단의 처리의 흐름을 도 3을 참조하면서 개략적으로 설명한다. 이 발음진단에서는 발음진단을 해야 할 단어가 확정된다. 이 단어의 확정에서는, 우선 모니터(12d) 상에 단어의 리스트(list)가 표시된다(스텝 S11). 표시된 단어의 리스트로부터 사용자가 발음진단을 하는 단어를 선택한다(스텝 S12). 또 이 스텝에서는, 사용자가 단어를 직접 입력함으로써 발음진단을 하는 단어를 선택해도 좋고, 자동적으로, 임의로 혹은 정해진 차례로 제시된 단어를 발음진단을 하는 단어로서 선택해도 좋다.

다음에, 확정된 단어가 모니터(12d)에 표시되고(스텝 S13), 당해 단어를 사용자가 마이크로폰(12i)으로 향해 발성한다(스텝 S14). 이때의 음성은, 마이크로폰(12i)으로 집음되고 아날로그(analog) 음성 신호로서 음성 입출력 인터페이스(12h)에서 디지털(digital) 데이터로 변환된다. 이하, 이 디지털 데이터를, [음성 신호], 혹은 아날로그 신호의 파형을 디지털 데이터화한 것이라는 의미로 [음성 파형 데이터]라고 한다.

다음에, 이 음성 신호는, 음성 신호 분석부(24)로 입력된다. 음성 신호 분석부(24)는, 조음적 속성 DB(28) 및 단어 구분 조성 DB(30) 및 특징축 DB(34)를 이용하여, 음성 신호로부터, 발음된 단어에 포함되는 음소마다 음향적 특징을 추출하고, 평가 카테고리(category) 정보와 함께 조음적 속성 추정부(26)로 출력한다(스텝 S15). 이 [음향적 특징]은, 사람의 소리도 포함하는 음향 데이터로부터 측정할 수 있는, 강도, 크기, 주파수나 피치(pitch), 포먼트(formant), 또는 이러한 변화 율 등이고, 더욱 상세하게는 음향 데이터의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 가리킨다.

또, 모니터(12d)에 제시된 상술의 단어는, 조음적 속성 DB(28)와 단어 구분 조성 DB(30) 및 특징축 DB(34)의 검색에 이용된다. 또 후술하듯이 본 명세서에 있어서는, [단어 정보]라고 하는 표기가 있지만, 단어의 품사나 지역(미국/영국의 차이 등)을 포함하는 것이 [단어 정보]로 표기하고, 단어(단의의 철자)만의 경우를 단지 [단어]로 표기한다.

다음에, 음성 신호 분석부(24)에 의해 추출된 음향적 특징 및 평가 카테고리 정보로부터 조음적 속성 추정부(26)에 의해, 음소마다 조음적 속성의 추정이 행해지고, 이 결과, 조음적 속성값이 출력된다(스텝 S16). 또 [조음적 속성]은, 음성학적으로 인식되어 있는 발음시의 조음 기관의 상태나 조음의 양식이다. 구체적으로는, 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나의 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합의 것을 말한다. 또 [조음적 속성값]은, 조음적 속성의 상태를 수치화한 값이다. 예를 들면, 혀가 구개에 붙어 있는 상태를 1, 붙어 있지 않은 상태를 0으로 한다. 혹은, 혀와 경구개로부터 윗턱 치아의 선단까지의 부분에서의 협착 부분의 위치를 0∼1의 값으로 표현한다(경구개의 부분의 경우 를 0, 윗턱 치아의 선단 부분의 경우를 1로 하고, 중간 부분을, 0.25, 0.5, 0.75와 같이 5단계의 값으로 한다).

다음에, 조음적 속성값에 따라, 발음 판정이 행해지고, 판정 결과가 출력되고(스텝 S17), 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다(스텝 S18). 또한 교정 컨텐츠 생성부(36)에 의해 교정 컨텐츠 DB(40)가 참조되고, 판정 결과에 따른 교정 컨텐츠(문자, 정지화, 동화 등)가 출력되고(스텝 S19), 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다(스텝 S20).

이하, 발음진단 시스템(20)의 각 구성 요소에 대해서 상세하게 설명한다. 우선, 발음진단 시스템(20)에 있어서의 데이터베이스를 작성하기 위한 순서를 설명한다. 도 4는 발음진단 시스템(20)의 데이터베이스의 작성 순서를 나타내는 도이다.

도 4에 나타내듯이, 이 작성 순서에서는, 우선, 진단하고 싶은 음소를 선택하고, 음성 표본을 수집하기 위해서 그 음소를 포함하는 어구를 선택한다(스텝 S01). 또 사전에 일반적으로 이용되고 있는 소위 발음 기호에서는 동일한 음소라도 단어 내의 위치에 의해 엄밀하게는 다른 소리로 되는 것이 알려져 있다. 예를 들면 영어의 자음의 하나인 음소 [l]는, 어두, 어중, 어미, 또한 2개 이상의 자음이 연속하고 있는 경우(클러스터(cluster)로 불린다)에, 소리로서의 성질이 바뀌는 것이 있다. 즉, 음소에 따라서는 그 음소의 위치나 직전의 음소의 종류에 의해 소리가 변화한다. 따라서, 같은 발음 기호의 음소라도 음소의 위치나 직전의 음소의 종류에 의해 고유의 음소로서 취급할 필요가 있다. 이러한 관점으로부터, 특정 음소와 그것을 포함하는 어구의 집합체를 작성하고, 이것을 단어 데이터베이스(DB)로 한 다. 또, 이것을 기초로 후술하는 단어 구분 조성 DB(30)가 작성된다.

그 다음에, 특정한 어구의 발음을 기록한 음성 표본(문중, 단지 표본이라고도 부른다)을 수집하는(스텝 S02), 음성 표본은 동일한 어구를 복수의 말하는 사람에게 발음시켜, 예를 들면 음성 파일로서의 데이터 형식에 준거하도록, 강도가 상한·하한을 초과하지 않는 것, 발음의 개시전과 종료후에 일정한 무발음 구간을 마련하는 것 등 동일한 규격으로 녹음을 한다. 이와 같이 하여 수집하고, 말하는 사람이나 어구에 의해 체계를 세워서 정비한 표본군(sample group)을 음성 표본 데이터베이스(DB)로 한다.

그 다음에, 조음적 속성의 여러가지 종류를 엔트리(entry)로 한 카테고리를 책정한다(스텝 S03). 이 스텝 S03에서는. 표본 DB에 수록된 개개의 표본을 음성 학자가 듣고, 음성학적 관점에서의 올바른 발음 이외에 어떠한 발음으로 될 수 있을지를 조사한다. 이때에 조음 기관의 상태나 조음의 양식의 속성을 검지하고 기록한다. 즉, 임의의 음소에 대해, 그 음소를 조건부 조음 기관의 상태나 조음의 양식, 즉 조음적 속성의 여러가지 종류를 엔트리로 한 카테고리를 정의한다. 예를 들면, [입술의 형상]이라고 하는 카테고리에 대해서 [둥글게 하고 있다] [둥글게 하고 있지 않다] 등의 상태가 기술된다.

도 6에 카테고리의 예를 나타낸다.

예를 들면, 일본인에 있어 [lay]와[ray]는 함께 [레이]라고 하는 소리로 발음되는 경우가 많다. 음성학적인 파악의 방법에서는, 예를 들면 음소 [l]의 소리는, 측음이라고 말해지고 있듯이, 치아의 밑보다 안쪽의 부분에 혀의 선단을 꽉 눌 러 일단 혀의 양측으로부터 유성음인 공기를 흘린 후에, 혀끝을 구개로 부터 떼어 놓음으로써 발성하는 소리이다.

일본인이 이 음소 [l]의 소리를 발성하면, 음성학적으로 정의되어 있는 혀의 위치보다 2∼3㎜ 후방에 접하고, 게다가 측음은 아니고, 튕김 소리라고 일컬어지는 소리로 된다. 그것은 일본어의 [라행]의 소리를 발음할 때의 장소와 발음하는 방법이 영어를 발음할 때에도 잘못 이용되기 때문이다.

이와 같이, 하나의 음소에 대해서 1개 이상의 조음 기관의 상태나 조음의 양식, 즉, 조음적 속성(카테고리)이 특정되어 있다. 음소 [l]의 경우에는, 그것이, 측음인 것, 장소가 치아의 밑의 직후인 것, 유성음인 것 등이 음소 [l]의 올바른 조음적 속성으로 된다.

또, 다수의 말하는 사람에 의한 발음을 조사함으로써, 각 음소에 관해서 올바른 조음 기관의 상태나 조음의 양식에 속하지 않는 조음적 속성, 또는 완전히 별개의 음소의 조음적 속성에 분류되는 조음적 속성과 같이, 부정해의 조음적 속성도 특정할 수가 있다. 예를 들면, 음소 [l]의 경우에, [측음]이 아니다, [측음이 아니고 한편 튕김 소리], [혀의 위치가 너무 뒤에 있다], [자음으로서 너무 짧다·너무 길다] 등의 각 조음적 속성을 특정할 수가 있다.

이 스텝 S03에서는, 정의한 카테고리의 집합체를 카테고리 데이터베이스(DB)로 한다. 이 결과로부터, 조음적 속성 DB(28)가 작성된다. 또, 이때 도 7에 나타내듯이, 단어와 그 단어를 구성하는 세그먼트(segment)에 음소를 특정하는 정보(도 중, [M52] 등 )가 대응되어 단어 구분 조성 DB(30)의 레코드의 일부로 된다. 또, 도 8에 나타내듯이, 음소를 특정하는 정보와 그 음소에 대응의 평가 카테고리마다의 속성이 대응되어, 조음적 속성 DB(28)의 레코드의 일부로 된다. 또, 도 10에 나타내듯이, 음소를 특정하는 정보와, 평가 카테고리에 대응하여 바람직한 속성값으로부터 일탈하는 것으로 판정될 경우의 발음의 교정 방법에 관한 컨텐츠가 대응되어 교정 컨텐츠 DB(36)의 레코드(record)로 된다.

그 다음에, 수집한 음성 표본을, 스텝 S03로 정의한 카테고리를 기초로 평가하고, 음성학적으로 해당하는 카테고리로 분류하고 기록한다(스텝 S04). 스텝 S04에서는, 음성 표본 DB의 개개의 음성 표본에 대해서 카테고리에의 분류, 기록을 한 집합체를 발음 평가 데이터베이스(DB)로 한다.

그 다음에, 스텝 S04의 음성 평가를 거친 표본군을 대상으로, 같은 조음적 속성에 속하는 음성 표본이, 음향 데이터가 특징으로서의 어떠한 공통성을 가질지를 조사한다(스텝 S05).

구체적으로, 이 스텝 S05에서는, 개개의 음성 표본에 포함되는 음성 파형 데이터를, 음향적 특징의 시계열로 변환하고, 당해 음향적 특징의 시계열을 음소마다의 구간으로 분할한다. 예를 들면, 단어가 [berry]의 경우에는, 음소 [r]이 음성 파형 데이터의 시간축 상의 어느 구간에서 발음되어 있을지를 특정한다.

또한, 스텝 S05에서는, 특정한 구간의 음향적 특징(포먼트(formant)나 파워(power))과 각 특징의 값, 값의 변화율이나 구간 내에서의 평균 등의 값으로부터 산출 가능한 데이터(음향적 특징량)의 하나 이상을 조합하고, 대상의 구간의 음소로서 올바른 조음적 속성이 조합하여 가지는 음성 표본군과, 그 음소로서의 조건을 만족하지 않는다, 1항째 이상의 조음적 속성을 가지는 음성 표본군 과의 사이에, 어느 음향적 특징과 음향적 특징량이 각각의 표본군 중에서 공통성을 가지고, 한편 쌍방의 표본군을 구분할 수 있는 경향을 가질지를 조사한다. 그리고, 음향적 특징으로부터 조음적 속성과 관련하는 특징축을 선택한다. 이 결과를 기초로 특징축 DB(34)가 생성된다.

그 다음에, 스텝 S05에 의해 얻어진 음향적 특징을 정밀하게 조사하고, 조음적 속성과의 관련성을 검증한다(스텝 S06). 즉, 이 검증에 있어서는, 음향적 특징에 있어서의 음향적 특징량에 기초하는 조음적 속성의 판정과 음성 학자의 판정을 비교한다. 비교의 결과, 양자가 일치하지 않는 경우에는, 스텝 S05의 프로세스(process)를 실시하고 다른 음향적 특징을 작성한다. 이상의 결과를 기초로 음소에 대응하는 평가 카테고리마다 음향적 특징을 특정하는 특징축 DB(34)가 생성된다. 도 9에 특징축 DB의 레코드의 일례를 나타낸다. 또한 상기에서는, 스텝 S06에 있어서는 음성 학자의 판정에 의해 비교를 하였지만, 간단한 음성 평가 모델을 작성해 두고 자동적으로 판정을 할 수도 있다.

그 다음에, 스텝 S06의 프로세스에서 특정 음소의 판정에 유효하다고 하는 것이 확인된 음향적 특징에 대해서 역치를 확정한다(스텝 S07). 또, 이 역치는 항상 일정이 아니고 가변으로 하는 것도 가능하다. 그 경우에는, 역치 DB(32)의 등록을 변경하거나 외부로부터의 입력에 의해 역치를 바꿈으로써 판정기의 판정 기준을 변경할 수 있다. 즉, 스텝 S07에서는, 음소 각각에 대해서 조음적 속성에의 속하는지의 여부의 경계로 되는 특징량의 역치를 확정한다. 이와 같이 확정된 역치의 집 합체를 역치 DB(32)로 한다. 즉, 역치 DB(32)에는 복수의 음소 각각 관한 조음적 속성에의 속하는지의 여부를 판정하기 위한 특징량의 역치가 등록되어 있다.

상기 도 4에 있어서의 특징축선택(스텝 S05)의 처리에 대해서 보다 상세하게 설명한다. 도 11에는 음성 표본의 조음적 속성에의 속하는지의 여부를 판정하기 위해, 음소의 음향적 특징에 기초하여 조음적 속성의 분포를 형성하는 예가 나타나 있다. 즉, 지속 시간에 관한 특징량 F1 및 음성 파워에 관한 특징량 F2의 분포에 있어서, 단어 [belly]에 있어서의 음소 [l]이 혀끝의 튕김을 수반하는 발음(일본어적 발음)이기 때문에 부정해가 되는 경우의 조음적 속성 판정을 할 수 있다.

또, 도 4에 있어서의 역치 확정(스텝 S07)의 예로서 도 11에서는 특징량의 분포에 있어서 1차식으로 2분할 함으로써 역치를 확정하는 예가 나타나 있지만, 또, 역치로서 통계 모델을 이용한 일반적인 판정기에 있어서의 일반적인 판정 파라미터(parameter)를 가질 수도 있다. 또 조음적 속성의 종류에 의해, 그 조음적 속성에의 속하는지의 여부가, 역치에 의해 명확하게 2분할할 수 있는 경우와, 속하는지의 여부를 명확하게 나누지 않고 중간적인 판정을 하는 경우가 있다.

또, 도 12는 지속 시간에 관한 특징량 F3 및 음성 파워(power)에 관한 특징량 F4의 분포에 의해, 혀와 경구개로부터 윗턱 치아의 선단까지의 부분에서의 협착 부분의 위치의 차이의 조음적 속성 판정을 하는 예를 나타내고 있다. 이 결과, 음소 [th]와, 음소 [s] 또는 음소 [sh]의 차이를 판별할 수 있다. 도 13은 음소 [s]와 음소 [th]의 발성시의 조음 기관의 상태를 나타내고, 도 13(a)은 음소 [s]의 경우를 나타내고, 도 13(b)은 음소 [th]의 경우를 나타내고 있다. 또한, 도 14는 주 파수에 관한 특징량 F5 및 주파수에 관한 특징량 F6의 분포에 의해, 혀의 선단과 구개에 의해 만들어지는 협착 위치의 장소의 차이의 조음적 속성 판정을 하는 예를 나타내고 있다. 이 결과, 음소 [s]와 음소 [sh]의 차이를 판별할 수 있다. 도 15는 음소 [s]와 음소 [sh]의 발성시의 조음 기관의 상태를 나타내고, 도 15(a)는 음소 [s]의 경우를 나타내고, 도 15(b)는 음소 [sh]의 경우를 나타내고 있다.

이와 같이, 서로 유사한 음소 [s] [sh] [th]간의 조음적 속성을 판별하기 위해서, 입력된 음소의 한쪽의 음향적 특징에 따라, 제1의 조음적 속성 분포 형성을 하고, 또 이것과는 다른 유사하는 음소의 음향적 특징에 따라, 제2의 조음적 속성 분포를 형성하고, 각각 작성한 조음적 속성 분포에 있어서, 각각 대응하는 역치를 이용하여 소망의 조음적 속성에 속하는지의 여부를 판정할 수가 있다. 이와 같이 이상의 방법에 의하면 자음의 발음을 판정할 수가 있다.

도 5는 발음진단 시스템(20)에 있어서의 역치 DB(32)와 특징축 DB(34)를 작성하는 시스템(데이터베이스 작성 시스템(50))의 블록 구성도를 나타내는 것이다. 음성 표본 DB(54) 및 음성 평가 DB(56)는 상기 도 4에 나타내는 데이터베이스 작성 순서에 따라 작성된다. 또 특징축 선택부(521)를 가지는 조음적 속성 분포 형성부(52)의 처리 순서에 대해서도, 상기 도 4에 말한 순서로 처리를 하고, 이 결과 역치 DB(32)와 특징축 DB(34)가 작성된다. 이 데이터베이스 작성 시스템(50)은 발음진단 시스템(20)과는 독립적으로 동작시켜 데이터베이스를 작성할 수도 있고(오프라인(offline) 처리), 또 발음진단 시스템(20)에 조립해 넣어 역치 DB(32)나 특징축 DB(34)를 상시 갱신하는 구성으로 할 수도 있다(온라인(online) 처리).

이상과 같이, 음성 언어 체계마다, 그것을 구성하는 음소마다 조음적 속성을 가지는 조음적 속성 DB(28)와 조음적 속성값을 추정하기 위한 역치를 가지는 역치 DB(32)와, 단어 구분 조성 DB(30)와, 특징축 DB(34)와 교정 컨텐츠 DB(40) 중 적어도 하나를 하드디스크, CD－ROM 등의 기록 매체에 기록해 둠으로써 다른 기기로도 이용가치가 있다.

이하, 이와 같이 생성된 데이터베이스를 이용하는 발음진단 시스템(20)의 각 요소를 설명한다.

인터페이스 제어부(22)는 사용자로부터의 조작을 접수, 후속 프로그램 부분을 기동·제어한다.

음성 신호 분석부(24)는 음성 파형 데이터를 읽어 들이고, 이것을 음소의 구간으로 분할하고, 분할한 구분(세그먼트(segment))마다의 특징(음향적 특징)을 출력한다. 즉, 음성 신호 분석부(24)는 컴퓨터를 구분 수단 및 특징량 추출 수단으로서 기능시킨다.

도 16은 음성 신호 분석부의 구성을 나타내는 도이다. 음성 신호 분석부(24)에서는, 신호 처리부(241)에 있어서, 음성 신호(음성 파형 데이터)가 일정한 시간 간격으로 분석되고, 포먼트(formant) 궤적 관련 시계열 데이터(포먼트 주파수, 포먼트 파워 레벨, 기본 주파수, 음성 파워 등의 시계열 데이터)에 변환된다. 또 포먼트 궤적 대신에 케프스트럼(cepstrum) 등의 주파수적 특징을 이용해도 좋다.

이하, 신호 처리부(241)를 보다 상세하게 설명한다. 도 17은 신호 처리부(241)의 구성을 나타내는 도이다. 도 17에 나타내듯이, 신호 처리부(241)에서는, 선형 예측 분석부(241a)가 음성 파형 데이터에 대해서 일정한 시간 간격으로 전극형(全極型) 성도(聲道) 필터 모델에 의한 파라메트릭(parametric) 분석을 하고, 편상관(偏相關) 계수의 시계열 벡터를 출력한다.

또, 파형 초기 분석부(241b)가 고속 퓨리에(Fourier) 변환 등을 이용한 논파라메트릭(non-parametric) 분석에 의해 초기 음성 파라미터(기본 주파수(피치(pitch)), 음성 파워(power), 제로크로스(zero-cross) 파라미터 등)의 시계열을 출력한다. 우세한 음성 구간 추출부(241c)는 파형 초기 분석부(241b)의 출력으로부터 단어의 모체로 되는 우세한 음성 구간을 추출하고, 이것을 피치(pitch) 정보와 함께 출력한다.

또, 성도 필터 모델의 차수 결정부(241d)가 선형 예측 분석부(241a)와 우세한 음성 구간 추출부(241c)의 출력으로부터 일정한 기준에 기초하여 성도 필터의 차수를 결정한다.

그리고, 포먼트(formant) 궤적 추출부(241e)가 차수 결정한 성도 필터를 이용하여 포먼트 주파수, 포먼트 파워 레벨 등을 계산하고, 기본 주파수, 음성 파워 등과 함께 이것들을 포먼트 궤적 관련 데이터의 시계열로서 출력한다.

도 16으로 돌아와 단어 구분 조성 검색부(242)는 단어(철자)로부터 미리 준비되어 있는 단어 구분 조성 DB(30)를 검색하고, 그 단어에 대한 구분 조성 정보(구분 요소열, 예를 들어, 단어 [berry]의 경우, Vb/Vo/Vc/Vo)를 출력한다.

여기서, 단어 구분 조성 DB(30)에 대해서 설명한다. 단어의 발음에는 음향적으로 보면 유성음과 무성음이 있다. 또, 단어의 발음은 음향적으로 단일의 특성을 가지는 구간으로 분할할 수 있다(분할된 구간을 세그먼트(segment)라고 부른다). 세그먼트(segment)의 음향적 특성은 이하와 같이 분류할 수가 있다.

(1) 유성음의 분류예

　　강한 협착을 수반하는 자음(Vc)

　　강한 협착을 수반하지 않는 자음이나 모음(Vo)

　　유성 파열음(Vb)

(2) 무성음의 분류예

　　무성 파열음(Bu)

　　그 외의 무성음(Vl)

(3) 무음의 음간(Sl)

단어의 발음을 세그먼트(segment)에 구분하고, 상기 분류예에 따라 분류한 것을 단어 구분 조성이라고 부른다. 예를 들면, 단어 [berry]는 상기의 분류에 따르면 Vb/Vo/Vc/Vo 라고 하는 구분 조성으로 된다.

단어 구분 조성 DB(30)는 이러한 구분 조성을 단어마다 리스트화한 데이터베이스이다. 또 이하에서는 이 데이터베이스로부터 얻어진 단어 구분 조성 데이터를 [단어 구분 조성 정보]라고 부른다.

단어 구분 조성 검색부(242)는 이 단어 구분 조성 DB(30)로부터 선택된 단어에 대한 단어 구분 조성 정보를 검색하고, 음성 구분화 처리부(243)로 출력한다.

음성 구분화 처리부(243)는 신호 처리부(241)의 출력(포먼트 궤적 관련 데이터)을 단어 구분 조성 검색부(242)의 출력(단어 구분 조성 정보)에 기초하여 세그 먼트 분할 처리한다. 도 18은 음성 구분화 처리부(243)의 구성을 나타내는 도이다.

음성 구분화 처리부(243)에서는, 음성 구간 추출부(243a)가, 단어 구분 조성 검색부(242)로부터의 단어 구분 조성 정보에 기초하여, 포먼트 궤적 관련 시계열 데이터중의 음성 구간을 추출한다. 이 음성 구간은 신호 처리부(241)의 출력 구간의 양측에 존재할 수 있는 무성음성 혹은 파열음성 등의 피치 주기를 가지지 않는 음성 구간이 포함된다.

음성 구간 내 세그먼트 세분화 처리부(243b)는 음성 구간 추출부(243a)의 출력(음성 구간)과 단어 구분 조성 정보에 기초하여, 세그먼트의 세분화 처리를 필요한 회수만 반복하고, 이것을 시간 구분화 포먼트 궤적 관련 데이터로서 출력한다.

도 16에 있어서, 조음적 속성·특징축 검색부(244)는 입력된 단어(철자)로부터 그 단어의 판정 항목에 대응한 평가 카테고리 정보와 특징축 정보(복수의 음향적 특징축 정보를 포함하는 경우가 있다)를 음향적 특징량 추출부(245)로 출력한다. 또, 이 평가 카테고리 정보는 다음의 조음적 속성 추정부(26)로도 출력된다.

음향적 특징량 추출부(245)는 음성 구분화 처리부(243)로부터의 출력(시간 구분화 포먼트 궤 관련 데이터)과, 조음적 속성·특징축 검색부(244)로부터의 출력(평가 카테고리 정보와 특징축 정보)으로부터 입력된 음성 신호의 판정에 필요한 음향적 특징을 출력하고, 이것을 다음의 조음적 속성 추정부(26)로 출력한다.

도 19는 음향적 특징량 추출부(245)의 구성을 나타내는 도이다. 도 19에 나타내듯이, 음향적 특징량 추출부(245)에서는 일반적 음향적 특징량 추출부(245a)에 의해 각각의 세그먼트(segment)에 대한 포먼트 주파수, 포먼트 파워 레벨 등의 어 느 세그먼트에도 공통되는 음향적 특징에 대한 수치 데이터(일반적 음향적 특징량)가 추출된다.

또, 평가 카테고리별 음향적 특징량 추출부(245b)에 의해 조음적 속성·특징축 검색부(244)의 출력인 평가 카테고리 정보에 기초하여 단어에 의존하는 평가 카테고리별 음향적 특징량이 필요한 카테고리 수만큼 추출된다.

음향적 특징량 추출부(245)의 출력은 조음적 속성에 대한 이들 2종류의 음향적 특징량의 데이터 세트(set)이고, 이것이 다음의 조음적 속성 추정부(26)로 보내진다.

도 20은 조음적 속성 추정부(26)에 의한 처리의 흐름을 나타내는 도이다. 도 16에 나타내듯이, 조음적 속성 추정부(26)는, 단어마다, 단어 조성 구분 DB(30)로부터, 세그먼트(segment) 정보(도 7에 나타내는 음소를 특정하는 정보의 계열)를 취득하고(스텝 S11), 또한 음성 신호 분석부(24)로부터 각 세그먼트의 음소에 할당된 평가 카테고리 정보(도 8을 참조)를 취득한다(스텝 S12). 예를 들면, 단어 [belly]의 예에서는, 세그먼트(segment) 정보로서 I33, M03, M52, F02가 음소를 특정하는 정보의 계열로서 얻어지고, 또한 예를 들면 세그먼트 정보가 M52의 경우에는, 평가 카테고리 정보로서 [혀끝과 구개의 접촉], [입의 여는 방법], [혀끝이 구개에 붙어 있는 위치]가 얻어진다.

그 다음에, 조음적 속성 추정부(26)는 음성 신호 분석부(24)로부터 단어마다의 음향적 특징을 취득한다(스텝 S12). 단어가 [belly]이면, I33, M03, M52, F02의 각각 대응하여 일반적 특징량과 평가 카테고리별 특징량이 얻어진다.

그 다음에, 조음적 속성 추정부(26)는 평가 카테고리마다 조음적 속성 추정 처리를 한다(스텝 S13). 도 21은 각 평가 카테고리마다의 처리의 흐름을 나타내는 도이다.

스텝 S13의 처리는 평가 카테고리에 대응하는 역치 데이터를 역치 DB(32)로부터 읽어내고(스텝 S131), 평가 카테고리에 대응하는 음향적 특징을 취득한다(스텝 S132). 그리고, 취득한 음향적 특징을 상기의 역치 데이터와 비교하고(스텝 S133), 조음적 속성값(추정값)을 결정한다(스텝 S134).

조음적 속성 추정부(26)는 모든 평가 카테고리의 처리를 종료하면(스텝 S14), 다음의 세그먼트(segment)의 처리를 하고, 모든 세그먼트(segment) 처리가 종료하면(스텝 S15) 모든 평가 카테고리에 대응하는 조음적 속성값(추정값)을 출력하고(스텝 S16), 종료한다. 이와 같이 조음적 속성 추정부(26)는 컴퓨터를 속성값 추정 수단으로서 기능시킨다.

또한, 스텝 S133에 있어서의 비교 처리의 방법으로서는, 예를 들면 이하의 방법이 있다. 도 11에 나타내는 음향적 특징에 기초하는 음소의 조음적 속성 분포와 마찬가지로 어떤 평가 카테고리에 대응하는 특징축 정보(예를 들면, F1, F2)에 기초하는 2차원 좌표 상에 취득한 음향적 특징량을 플롯(plot)한다. 역치 데이터로부터 얻어진 역치축(예를 들면, 도 11에 나타내는 1차식)으로 분할한 영역의 다른 한쪽을 [정해 영역], 다른 한쪽을 [부정해 영역]으로 하고, 어느 쪽에 상기 플롯한 점이 존재하는지에 의해 조음적 속성값(추정값)을 결정한다(예를 들면, 정해 영역의 경우 1로 하고, 부정해영역의 경우 0으로 한다). 그 외에도 통계 모델을 이용한 일반적인 판정기를 이용하여 속성값을 결정할 수도 있다. 또, 조음적 속성의 종류에 의해 그 조음적 속성에의 속하는지의 여부를 역치에 의해 명확하게 분할하지 않고 중간적인 값으로 하는 경우가 있다(예를 들면, 0, 0.25, 0.5, 0.75, 1, 의 5단계의 값).

도 2에 있어서, 조음적 속성 추정부(26)로부터 출력되는 조음적 속성값(추정값)은 평가 카테고리마다 출력되므로, 예를 들면, 단어 [belly]에 있어서의 음소 [l]의 평가 카테고리인 [혀끝과 구개의 접촉]의 조음적 속성값(추정값)이 1인 경우에는, 도 8에 나타내듯이 [혀가 구개에 붙어 있다]라고 하는 판정 결과가 얻어진다. 이와 같이 발음 판정부(38)는, 조음적 속성값(추정값)으로부터 조음적 속성의 상태를 판정할 수 있다. 또, 조음적 속성 DB(28)로부터 바람직한 발음에 대한 조음적 속성값을 취득하고, 조음적 속성 추정부(26)로부터 출력되는 조음적 속성값(추정값)과 비교함으로써 바람직한 발음인지 아닌지의 판정 결과를 출력한다. 예를 들면, 음소 [r]의 발음 판정에서, 평가 카테고리 [혀끝과 구개의 접촉]의 조음적 속성값(추정값)이 1로, 바람직한 발음에 대한 조음적 속성값이 0인 경우, [혀가 구개에 붙어 있다]이기 때문에 [불합격]이라고 하는 판정 결과를 출력한다. 이와 같이 발음 판정부(38)는 컴퓨터를 발음 판정 수단으로서 기능시킨다.

또, 도 8에 나타내는 것 같은 메세지는 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다. 또, 도 10에 나타내는 교정 컨텐츠 생성부(36)는 교정 컨텐츠 DB(36)를 참조하여 부정해인 음소에 대해서 예를 들면 음소 [r]의 평가 카테고리인 [혀끝과 구개의 접촉]의 판정 결과가 [혀가 구개에 붙어 있다]이기 때문에 [불합격]인 경우에는, [혀가 입의 천정에 접하지 않게]라고 하는 메세지가 얻어지고, 이 메세지는 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다. 이것에 의해 발음의 교정을 촉구받는다. 이와 같이 인터페이스 제어부(22)는 컴퓨터를 상태 제시 수단 및 교정 방법 제시 수단으로서 기능시킨다.

판정 결과의 상세한 표시예로서는, 도 22에 나타내듯이, 부정해의 음소에 대해서 올바르게 발음되고 있지 않은 조음적 속성을 모두 표시하는 방법이나, 또한 발음한 단어 전체에 대해서 도 23과 같이 음소마다 합격·불합격을 나타낸 다음, 불합격인 음소에 대해서는 올바르게 발음되고 있지 않은 조음적 속성을 표시하는 등 방법이 있다.

또, 다른 방법으로서 조음 기관의 상태 등을 스케치나 사진 등의 정지화나, 애니메이션(animation)이나 비디오 등의 동화상으로 표시하거나 또 음성(합성음이나 녹음한 소리 등)을 사용하여 지시하는 등의 여러 가지의 수단이 생각될 수 있다.

마찬가지로 도 24의 표시예와 같이 올바르게 발음되지 않았던 조음적 속성을 표시한 다음, 그 교정 방법을 표시하도록 하고, 판정 결과와 교정 컨텐츠의 표시를 조합하는 방법도 있다. 또, 판정 결과의 표시와 마찬가지로 교정해야할 조음 기관의 상태를 스케치나 사진 등의 정지화나, 애니메이션이나 비디오 등의 동화상으로 표시하거나 또 음성(합성음이나 녹음한 소리 등)을 사용해 지시하는 등의 수단이 있다.

이상에 있어서, 도 2에 나타낸 조음적 속성 DB(28), 단어 구분 조성 DB(30), 역치 DB(32), 특징축 DB(34), 교정 컨텐츠 DB(36)는, 예를 들면 영국식 영어, 미국식 영어 등의 언어 체계마다 CD-ROM 등의 매체에 기록할 수가 있고, 발음진단 장치(10)에 있어서 이용할 수 있다. 즉, 하나의 언어 체계마다 하나의 CD-ROM에 기록하고, 언어 체계 다른 학습에 제공하는 것 등이 가능하다.

또, 도 3의 발음진단 프로그램 전체도 CD-ROM 등의 매체에 기록 할 수 있고, 발음진단 장치(10)에 있어서 이용할 수 있으므로 새로운 언어 체계의 추가나, 조음적 속성 데이터의 추가 등이 가능하다.

이상 설명한, 발음진단 장치(10)에 의하면, 이하의 효과가 주 된다. 즉, 발음진단 장치(10)를 사용함으로써, 장소를 불문하고 균일의 발음 교정을 할 수가 있기 때문에, 학습자는 자신의 형편에 맞추어 은밀하게 학습할 수가 있다. 또, 자습을 하기 위한 소프트웨어이기 때문에, 학교 교육 등에서는 현장의 효과를 높이기 위한 자택 학습에도 채용할 수가 있다.

또, 발음진단 장치(10)에 의하면, 조음 기관의 상태나 조음의 양식을 특정하고, 구체적으로 그 요인을 개선한다. 예를 들어, 음소 [r]의 발음시에, 입술이 둥글게 되고 있는지 어떤지, 일본어의 [라 ]와 같이, 경구개를 튕기고 있는지 어떤지 등과 같이 조음의 장소 및 방법을 특정하는 것도 가능하다. 이와 같이 특히 자음의 발음 학습에 효과를 발휘한다.

또, 발음진단 장치(10)에 의하면, 예를 들어, [ray]인가 [lay]와 같이 영어의 사전에 존재하는 말 중에서 제일 가까운 것을 선택하기 시작하는 방법은 아니 고, 예를 들어 일본어의 발음 방법으로 [레이]라고 발음되는 경우에, 조음 기관의 상태나 조음의 양식(성대, 혀의 위치와 형태, 입술의 형태나 입의 열림 상태, 소리를 만드는 방법 등)의 단위로 차이를 판정하고, 올바른 발음에 접근하기 위해서 어떠한 행동을 학습자가 취해야할 것인가를 구체적으로 제시할 수가 있다.

또, 발음진단 장치(10)에 의하면, 각 언어의 발음에 대해, 발화자의 모국어와 학습해야할 언어의 종래의 판별 태생의 비교를 기초로, 발음될 때 일어날 수 있는 부정해의 소리와, 그 소리의 조음의 상태를 예측하고, 미리 그 조음 특징 태생의 음성 분석과 음향 분석에 의해, 그 조음 특징을 가지는 구강 내의 상황도 예측하고, 차이를 지적하는 포인트(point)를 책정할 수가 있기 때문에 모든 언어의 발음 훈련에 대응할 수가 있다.

또, 발음진단 장치(10)에 의하면, 소리가 만들어질 때의 구강 내의 상태를 구체적으로 재현할 수 있으므로, 다언어의 습득, 또는 언어 요법을 위한 훈련이나 자습이 전문의 훈련사를 따르지 않고 하는 것이 가능하게 된다.

또, 발음진단 장치(10)에 의하면, 구강 내의 상황을 발화자에게 구체적으로 지적하고, 교정할 수가 있으므로, 학습자는 자기의 상황을 개선할 수 없다고 하는 욕구 불만과 스트레스를 느끼는 일 없이 학습을 진행시키는 것이 가능하게 된다.

또, 발음진단 장치(10)에 의하면, 예를 들면 영어 등의 외국어의 학습자가 자신의 발음의 특징을 알 수 있어 올바르지 않은 경우에는 교정법을 제시하시므로 올바른 반복 연습을 실현할 수 있다. 그 때문에, 종래의 음성인식기술을 이용한 발음 학습에 비해 단기간에 한편 효율적으로 발음의 학습을 할 수 있는 것만이 아니 라 교정법이 즉석에서 나타나므로 스트레스도 적은 학습이 가능하게 된다.

또, 발음진단 장치(10)에 의하면, 음소를 구성하는 조음 기관의 상태나 조음의 양식 등의 구체적인 구강 내의 요인과, 그 소리의 인과 관계를 해명할 수 있으므로, 그 소리의 데이터베이스로부터 구강 내의 상태를 재현할 수가 있다. 이에 의해, 발화자의 구강 내를 삼차원적으로 화면상에 비출 수가 있다.

또, 발음진단 장치(10)에 의하면, 단어 단위만이 아니라 문(文) 내지 문장까지도 하나가 연속한 음성의 시계열 데이터로 간주할 수가 있으므로 문장 전체의 발음진단이 가능하게 된다.

Claims

음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와,

말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 수단과,

상기 추출된 음향적 특징에 기초하여, 상기 조음적 속성에 관한 속성값을 추정하는 속성값 추정 수단과,

상기 추정된 속성값을 상기 바람직한 조음적 속성 데이터와 비교함으로써 발성자의 발음에 관한 판정을 하는 수단을 구비하는 발음진단 장치.
제1항에 있어서,

발성자의 발음진단 결과를 출력하는 수단을 구비하는 것을 특징으로 하는 발음진단 장치.
발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과,

상기 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 조음적 속성 분포 형성 수단과,

상기 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 수단을 구비하는 발음진단 장치.
발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과,

상기 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 제1 조음적 속성 분포 형성 수단과,

상기 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라, 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 수단과,

상기 제1 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 수단과,

상기 제2 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 수단을 구비하는 발음진단 장치.
제3항 또는 제4항에 있어서,

상기 역치를 가변하는 역치 가변 수단을 구비하는 것을 특징으로 하는 발음진단 장치.
제1항, 제3항, 및 제4항 중 어느 한 항에 있어서,

상기 음소는 자음인 것을 특징으로 하는 발음진단 장치.
말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 공정과,

상기 추출된 음향적 특징에 기초하여, 상기 조음적 속성에 관한 속성값을 추정하는 속성값 추정 공정과,

상기 추정된 속성값을 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와 비교하여 발성자의 발음에 관한 판정을 하는 공정과,

발성자의 발음진단 결과를 출력하는 공정을 구비하는 발음진단 방법.
발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과,

상기 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 조음적 속성 분포 형성 공정과,

상기 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 공정을 구비하는 발음진단 방법.
발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과,

상기 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술 의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제1 조음적 속성 분포 형성 공정과,

상기 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라, 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 공정과,

상기 제1 조음적 속성 분포 형성 공정으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 공정과,

상기 제2 조음적 속성 분포 형성 공정으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 공정을 구비하는 발음진단 방법.
제8항 또는 제9항에 있어서,

상기 역치를 가변하는 역치 가변 공정을 한층 더 구비하는 것을 특징으로 하 는 발음진단 방법.
음성 언어 체계마다, 그것을 구성하는 음소마다 조음적 속성을 가지는 조음적 속성 데이터베이스와 조음적 속성값을 추정하기 위한 역치를 가지는 역치 데이터베이스와, 단어 구분 조성 데이터베이스와, 특징축 데이터베이스와 교정 컨텐츠(contents) 데이터베이스 중 적어도 하나를 기억하고 있는 기록 매체.
컴퓨터에 제7항, 제8항, 제9항, 및 제10항 중 어느 한 항에 기재의 방법을 실행시키는 프로그램을 기록한 기록 매체.
컴퓨터에 제7항, 제8항, 제9항, 및 제10항 중 어느 한 항에 기재의 방법을 실행시키는 컴퓨터 프로그램.