KR20080059180A - 발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단프로그램 - Google Patents

발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단프로그램 Download PDF

Info

Publication number
KR20080059180A
KR20080059180A KR1020087008240A KR20087008240A KR20080059180A KR 20080059180 A KR20080059180 A KR 20080059180A KR 1020087008240 A KR1020087008240 A KR 1020087008240A KR 20087008240 A KR20087008240 A KR 20087008240A KR 20080059180 A KR20080059180 A KR 20080059180A
Authority
KR
South Korea
Prior art keywords
state
articulation
attribute
tongue
phoneme
Prior art date
Application number
KR1020087008240A
Other languages
English (en)
Inventor
마치 오쿠무라
히로아키 코지마
히로시 오무라
Original Assignee
도꾸리쯔교세이호진상교기쥬쯔소고겡뀨죠
마치 오쿠무라
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도꾸리쯔교세이호진상교기쥬쯔소고겡뀨죠, 마치 오쿠무라 filed Critical 도꾸리쯔교세이호진상교기쥬쯔소고겡뀨죠
Publication of KR20080059180A publication Critical patent/KR20080059180A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Abstract

본 발명의 발음진단 장치는, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 구강 내의 혀, 입술, 성문, 구개수, 비강, 치아, 턱의 상태의 어느쪽이든 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와, 말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하고, 추출된 음향적 특징에 기초하여, 조음적 속성에 관한 속성값을 추정하는 속성값 추정해, 추정된 속성값을 바람직한 조음적 속성 데이터와 비교함으로써 발성자의 발음에 관한 판정을 하는 것을 특징으로 한다.
Figure P1020087008240
발음진단, 음성, 음소, 조음, 속성, 주파수, 특징량, 음량, 지속 시간, 변화량, 속성값, 속성 데이터

Description

발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단 프로그램{PRONUNCIATION DIAGNOSIS DEVICE, PRONUNCIATION DIAGNOSIS METHOD, RECORDING MEDIUM, AND PRONUNCIATION DIAGNOSIS PROGRAM}
본 발명은 발음진단 장치, 발음진단 방법, 기록 매체 및, 발음진단 프로그램에 관한 것이다.
말하는 사람의 발음을 진단하기 위한 발음진단 장치로서 말하는 사람이 발한 단어에 관한 음성 신호를 취득하여 당해 음성 신호에 가장 가까운 철자의 단어를 데이터베이스로부터 추출하고, 추출한 단어를 말하는 사람에게 제시하는 장치가 알려져 있다(예를 들면, 특허 문헌 1을 참조).
   <특허 문헌 1> 일본국 특허공개 1999-202889호 공보
<발명이 해결하고자 하는 과제>
그렇지만, 상기의 발음진단 장치에서는, 말하는 사람이 발한 단어의 음성을 등록되어 있는 철자의 단어에 대응시킴으로써 발음을 진단하는 것이므로, 단어를 구성하는 음소마다, 올바른 조음(調音) 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단할 수가 없다.
그래서, 본 발명은 올바른 조음 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단 가능한 발음진단 장치, 발음진단 방법, 및, 발음진단 프로그램 및 이것들에 사용하는 조음적 속성 데이터를 기억하고 있는 기억 매체를 제공하는 것을 목적으로 하고 있다.
<과제를 해결하기 위한 수단>
본 발명의 한측면과 관련되는 발음진단 장치는, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와, 말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 수단과, 추출된 음향적 특징에 기초하여, 상기 조음적 속성에 관한 속성값을 추정하는 속성값 추정 수단과, 추정된 속성값을 상기 바람직한 조음적 속성 데이터와 비교함으로써 발성자의 발음에 관한 판정을 하는 수단을 구비한다.
상기 발음진단 장치에 있어서, 발성자의 발음진단 결과를 출력하는 수단을 더 구비하고 있는 것이 바람직하다.
본 발명의 다른 한측면과 관련되는 발음진단 장치는, 발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과, 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 조음적 속성 분포 형성 수단과, 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 수단을 구비한다.
본 발명의 또 다른 한측면과 관련되는 발음진단 장치는, 발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과, 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 제1 조음적 속성 분포 형성 수단과, 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 수단과, 제1 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 수단과, 제2 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 수단을 구비하고 있다.
상기 발음진단 장치에 있어서, 조음적 속성 판정 수단의 사용하는 역치를 가변하는 역치 가변 수단을 설치해 두는 것이 바람직하다.
상기 발음진단 장치로 진단하는 음소를 자음으로 하는 것이 바람직하다.
본 발명의 또 다른 한측면과 관련되는 발음진단 방법은, 말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 공정과, 추출된 음향적 특징에 기초하여, 조음적 속성에 관한 속성값을 추정하는 속성값 추정 공정과, 추정된 속성값을 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와 비교하여 발성자의 발음에 관한 판정을 하는 공정과, 발성자의 발음진단 결과를 출력하는 공정을 구비하고 있다.
본 발명의 또 다른 한측면과 관련되는 발음진단 방법은, 발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과, 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 조음적 속성 분포 형성 공정과, 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 공정을 구비하고 있다.
본 발명의 또 다른 한측면과 관련되는 발음진단 방법은, 발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과, 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제1 조음적 속성 분포 형성 공정과, 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 공정과, 제1 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 공정과, 제2 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 공정을 구비하고 있다.
상기 발음진단 방법에 있어서, 조음적 속성 판정 공정중에서 사용하는 역치를 가변으로 하는 역치 가변 공정을 더욱 준비해 두는 것이 바람직하다.
본 발명의 또 다른 한측면과 관련되는 기록 매체는, 음성 언어 체계마다, 그것을 구성하는 음소마다 조음적 속성을 가지는 조음적 속성 데이터베이스와 조음적 속성값을 추정하기 위한 역치를 가지는 역치 데이터베이스와, 단어 구분 조성 데이터베이스와, 특징축 데이터베이스와 교정 컨텐츠(contents) 데이터베이스 중 적어도 하나를 기억하고 있다.
본 발명에 의하면, 조음 기관의 상태나 조음의 양식의 상태, 즉 조음적 속성의 상태가 추정된다. 따라서, 본 발명에 의하면, 올바른 조음 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단하는 것이 가능하다.
이러한 구성에 의하면, 올바른 조음 기관의 상태나 조음의 양식으로 발음하기 위한 수법을 말하는 사람에게 제시하는 것이 가능하게 된다.
<발명의 효과>
본 발명과 관련되는 장치, 방법, 기록 매체 및 프로그램을 이용함으로써, 말하는 사람이 발한 단어의 음성을 등록되어 있는 철자의 단어에 대응시킴으로써 발음을 진단하는 것이므로, 단어를 구성하는 음소마다, 올바른 조음 기관의 상태나 조음의 양식으로 발음이 행해지고 있는지 아닌지를 진단할 수가 있다. 따라서, 본 발명과 관련되는 장치, 방법, 기록 매체 및 프로그램을 이용하여 말하는 사람에게 올바른 조음 기관의 상태나 양식으로 발음하도록 지도할 수가 있다.
도 1은 본 발명의 실시의 형태와 관련되는 발음진단 장치로서 동작하는 컴퓨터의 구성을 나타내는 도이다.
도 2는 발음진단 시스템의 구성을 나타내는 도이다.
도 3은 발음진단 프로그램의 처리의 흐름을 나타내는 도이다.
도 4는 발음진단 시스템의 데이터베이스 작성 순서를 나타내는 도이다.
도 5는 발음진단 시스템의 데이터베이스 작성 시스템의 구성을 나타내는 도이다.
도 6은 카테고리(category)의 예를 나타내는 도이다.
도 7은 단어 구분 조성 데이터베이스의 레코드의 일례를 나타내는 도이다.
도 8은 조음적 속성 데이터베이스의 레코드(record)의 일례를 나타내는 도이다.
도 9는 특징축 데이터베이스의 레코드의 일례를 나타내는 도이다.
도 10은 교정 컨텐츠 데이터베이스의 레코드의 일례를 나타내는 도이다.
도 11은 조음적 속성의 분포의 일례를 나타내는 도이다.
도 12는 음소 [s] 또는 음소 [sh]와 음소 [th]의 차이를 판별하는 조음적 속성 분포의 일례를 나타내는 도이다.
도 13은 음소 [s]와 음소 [th]의 발성시의 조음 기관의 상태를 나타내는 도이다.
도 14는 음소 [s]와 음소 [sh]의 차이를 판별하는 조음적 속성 분포의 일례를 나타내는 도이다.
도 15는 음소 [s]와 음소 [sh]의 발성시의 조음 기관의 상태를 나타내는 도이다.
도 16은 음성 신호 분석부의 구성을 나타내는 도이다.
도 17은 신호 처리부의 구성을 나타내는 도이다.
도 18은 음성 구분화 처리부의 구성을 나타내는 도이다.
도 19는 음향적 특징량 추출부의 구성을 나타내는 도이다.
도 20은 조음적 속성 추정부의 처리의 흐름을 나타내는 도이다.
도 21은 평가 카테고리마다의 처리의 흐름을 나타내는 도이다.
도 22는 판정 결과의 표시예를 나타내는 도이다.
도 23은 판정 결과의 표시예를 나타내는 도이다.
도 24는 교정 방법의 표시예를 나타내는 도이다.
<부호의 설명>
10 발음진단 장치 20 발음진단 시스템
22 인터페이스 제어부 24 음성 신호 분석부
26 조음적 속성 추정부 28 조음적 속성 데이터베이스
30 단어 구분 조성 데이터베이스
32 역치 데이터베이스 34 특징축 데이터베이스
36 교정 컨텐츠 생성부 38 발음 판정부
40 교정 컨텐츠 데이터베이스
이하, 도면을 참조하여 본 발명의 매우 적합한 실시 형태에 대해서 상세하게 설명한다. 도 1은 본 발명의 실시의 형태와 관련되는 발음진단 장치로서 동작하는 컴퓨터의 구성을 나타내는 도이다. 발음진단 장치(10)는 후술하는 발음진단 프로그램에 의해 동작하는 범용의 컴퓨터이다.
 발음진단 장치(10)로서 동작하는 컴퓨터는, 도 1에 나타내듯이, 중앙 처리장치(CPU)(12a), 메모리(12b), 하드디스크 드라이브(HDD)(12c), 모니터(12d), 키보드(12e), 마우스(12f), 프린터(12g), 음성 입출력 인터페이스(12h), 마이크로폰(12i), 및 스피커(12j)를 구비하고 있다.
CPU(12a), 메모리(12b), 하드디스크 드라이브(12c), 모니터(12d), 키보드(12e), 마우스(12f), 프린터(12g), 및 음성 입출력 인터페이스(12h)는, 시스템 버스(12k)를 통해 서로 접속되어 있고, 마이크로폰(12i), 및 스피커(12j)는, 음성 입출력 인터페이스(12h)를 통해 시스템 버스(12k)에 접속되어 있다.
이하, 컴퓨터를 발음진단 장치(10)로서 동작시키기 위한 발음진단 시스템에 대해서 설명한다. 도 2는 발음진단 시스템의 구성을 나타내는 도이다. 도 2에 나타내는 발음진단 시스템(20)은, 인터페이스 제어부(22), 음성 신호 분석부(24), 조음적 속성 추정부(26), 조음적 속성 데이터베이스(DB)(28), 단어 구분 조성 데이터베이스(DB)(30), 역치 데이터베이스(DB)(32), 특징축 데이터베이스(DB)(34), 교정 컨텐츠 생성부(36), 발음 판정부(38), 교정 컨텐츠 데이터베이스(DB)(40)를 구비하고 있다.
이하, 발음진단 장치(10)에 의한 발음진단의 처리의 흐름을 도 3을 참조하면서 개략적으로 설명한다. 이 발음진단에서는 발음진단을 해야 할 단어가 확정된다. 이 단어의 확정에서는, 우선 모니터(12d) 상에 단어의 리스트(list)가 표시된다(스텝 S11). 표시된 단어의 리스트로부터 사용자가 발음진단을 하는 단어를 선택한다(스텝 S12). 또 이 스텝에서는, 사용자가 단어를 직접 입력함으로써 발음진단을 하는 단어를 선택해도 좋고, 자동적으로, 임의로 혹은 정해진 차례로 제시된 단어를 발음진단을 하는 단어로서 선택해도 좋다.
다음에, 확정된 단어가 모니터(12d)에 표시되고(스텝 S13), 당해 단어를 사용자가 마이크로폰(12i)으로 향해 발성한다(스텝 S14). 이때의 음성은, 마이크로폰(12i)으로 집음되고 아날로그(analog) 음성 신호로서 음성 입출력 인터페이스(12h)에서 디지털(digital) 데이터로 변환된다. 이하, 이 디지털 데이터를, [음성 신호], 혹은 아날로그 신호의 파형을 디지털 데이터화한 것이라는 의미로 [음성 파형 데이터]라고 한다.
다음에, 이 음성 신호는, 음성 신호 분석부(24)로 입력된다. 음성 신호 분석부(24)는, 조음적 속성 DB(28) 및 단어 구분 조성 DB(30) 및 특징축 DB(34)를 이용하여, 음성 신호로부터, 발음된 단어에 포함되는 음소마다 음향적 특징을 추출하고, 평가 카테고리(category) 정보와 함께 조음적 속성 추정부(26)로 출력한다(스텝 S15). 이 [음향적 특징]은, 사람의 소리도 포함하는 음향 데이터로부터 측정할 수 있는, 강도, 크기, 주파수나 피치(pitch), 포먼트(formant), 또는 이러한 변화 율 등이고, 더욱 상세하게는 음향 데이터의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 가리킨다.
또, 모니터(12d)에 제시된 상술의 단어는, 조음적 속성 DB(28)와 단어 구분 조성 DB(30) 및 특징축 DB(34)의 검색에 이용된다. 또 후술하듯이 본 명세서에 있어서는, [단어 정보]라고 하는 표기가 있지만, 단어의 품사나 지역(미국/영국의 차이 등)을 포함하는 것이 [단어 정보]로 표기하고, 단어(단의의 철자)만의 경우를 단지 [단어]로 표기한다.
다음에, 음성 신호 분석부(24)에 의해 추출된 음향적 특징 및 평가 카테고리 정보로부터 조음적 속성 추정부(26)에 의해, 음소마다 조음적 속성의 추정이 행해지고, 이 결과, 조음적 속성값이 출력된다(스텝 S16). 또 [조음적 속성]은, 음성학적으로 인식되어 있는 발음시의 조음 기관의 상태나 조음의 양식이다. 구체적으로는, 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나의 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합의 것을 말한다. 또 [조음적 속성값]은, 조음적 속성의 상태를 수치화한 값이다. 예를 들면, 혀가 구개에 붙어 있는 상태를 1, 붙어 있지 않은 상태를 0으로 한다. 혹은, 혀와 경구개로부터 윗턱 치아의 선단까지의 부분에서의 협착 부분의 위치를 0∼1의 값으로 표현한다(경구개의 부분의 경우 를 0, 윗턱 치아의 선단 부분의 경우를 1로 하고, 중간 부분을, 0.25, 0.5, 0.75와 같이 5단계의 값으로 한다).
다음에, 조음적 속성값에 따라, 발음 판정이 행해지고, 판정 결과가 출력되고(스텝 S17), 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다(스텝 S18). 또한 교정 컨텐츠 생성부(36)에 의해 교정 컨텐츠 DB(40)가 참조되고, 판정 결과에 따른 교정 컨텐츠(문자, 정지화, 동화 등)가 출력되고(스텝 S19), 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다(스텝 S20).
이하, 발음진단 시스템(20)의 각 구성 요소에 대해서 상세하게 설명한다. 우선, 발음진단 시스템(20)에 있어서의 데이터베이스를 작성하기 위한 순서를 설명한다. 도 4는 발음진단 시스템(20)의 데이터베이스의 작성 순서를 나타내는 도이다.
도 4에 나타내듯이, 이 작성 순서에서는, 우선, 진단하고 싶은 음소를 선택하고, 음성 표본을 수집하기 위해서 그 음소를 포함하는 어구를 선택한다(스텝 S01). 또 사전에 일반적으로 이용되고 있는 소위 발음 기호에서는 동일한 음소라도 단어 내의 위치에 의해 엄밀하게는 다른 소리로 되는 것이 알려져 있다. 예를 들면 영어의 자음의 하나인 음소 [l]는, 어두, 어중, 어미, 또한 2개 이상의 자음이 연속하고 있는 경우(클러스터(cluster)로 불린다)에, 소리로서의 성질이 바뀌는 것이 있다. 즉, 음소에 따라서는 그 음소의 위치나 직전의 음소의 종류에 의해 소리가 변화한다. 따라서, 같은 발음 기호의 음소라도 음소의 위치나 직전의 음소의 종류에 의해 고유의 음소로서 취급할 필요가 있다. 이러한 관점으로부터, 특정 음소와 그것을 포함하는 어구의 집합체를 작성하고, 이것을 단어 데이터베이스(DB)로 한 다. 또, 이것을 기초로 후술하는 단어 구분 조성 DB(30)가 작성된다.
그 다음에, 특정한 어구의 발음을 기록한 음성 표본(문중, 단지 표본이라고도 부른다)을 수집하는(스텝 S02), 음성 표본은 동일한 어구를 복수의 말하는 사람에게 발음시켜, 예를 들면 음성 파일로서의 데이터 형식에 준거하도록, 강도가 상한·하한을 초과하지 않는 것, 발음의 개시전과 종료후에 일정한 무발음 구간을 마련하는 것 등 동일한 규격으로 녹음을 한다. 이와 같이 하여 수집하고, 말하는 사람이나 어구에 의해 체계를 세워서 정비한 표본군(sample group)을 음성 표본 데이터베이스(DB)로 한다.
그 다음에, 조음적 속성의 여러가지 종류를 엔트리(entry)로 한 카테고리를 책정한다(스텝 S03). 이 스텝 S03에서는. 표본 DB에 수록된 개개의 표본을 음성 학자가 듣고, 음성학적 관점에서의 올바른 발음 이외에 어떠한 발음으로 될 수 있을지를 조사한다. 이때에 조음 기관의 상태나 조음의 양식의 속성을 검지하고 기록한다. 즉, 임의의 음소에 대해, 그 음소를 조건부 조음 기관의 상태나 조음의 양식, 즉 조음적 속성의 여러가지 종류를 엔트리로 한 카테고리를 정의한다. 예를 들면, [입술의 형상]이라고 하는 카테고리에 대해서 [둥글게 하고 있다] [둥글게 하고 있지 않다] 등의 상태가 기술된다.
도 6에 카테고리의 예를 나타낸다.
예를 들면, 일본인에 있어 [lay]와[ray]는 함께 [레이]라고 하는 소리로 발음되는 경우가 많다. 음성학적인 파악의 방법에서는, 예를 들면 음소 [l]의 소리는, 측음이라고 말해지고 있듯이, 치아의 밑보다 안쪽의 부분에 혀의 선단을 꽉 눌 러 일단 혀의 양측으로부터 유성음인 공기를 흘린 후에, 혀끝을 구개로 부터 떼어 놓음으로써 발성하는 소리이다.
일본인이 이 음소 [l]의 소리를 발성하면, 음성학적으로 정의되어 있는 혀의 위치보다 2∼3㎜ 후방에 접하고, 게다가 측음은 아니고, 튕김 소리라고 일컬어지는 소리로 된다. 그것은 일본어의 [라행]의 소리를 발음할 때의 장소와 발음하는 방법이 영어를 발음할 때에도 잘못 이용되기 때문이다.
이와 같이, 하나의 음소에 대해서 1개 이상의 조음 기관의 상태나 조음의 양식, 즉, 조음적 속성(카테고리)이 특정되어 있다. 음소 [l]의 경우에는, 그것이, 측음인 것, 장소가 치아의 밑의 직후인 것, 유성음인 것 등이 음소 [l]의 올바른 조음적 속성으로 된다.
또, 다수의 말하는 사람에 의한 발음을 조사함으로써, 각 음소에 관해서 올바른 조음 기관의 상태나 조음의 양식에 속하지 않는 조음적 속성, 또는 완전히 별개의 음소의 조음적 속성에 분류되는 조음적 속성과 같이, 부정해의 조음적 속성도 특정할 수가 있다. 예를 들면, 음소 [l]의 경우에, [측음]이 아니다, [측음이 아니고 한편 튕김 소리], [혀의 위치가 너무 뒤에 있다], [자음으로서 너무 짧다·너무 길다] 등의 각 조음적 속성을 특정할 수가 있다.
이 스텝 S03에서는, 정의한 카테고리의 집합체를 카테고리 데이터베이스(DB)로 한다. 이 결과로부터, 조음적 속성 DB(28)가 작성된다. 또, 이때 도 7에 나타내듯이, 단어와 그 단어를 구성하는 세그먼트(segment)에 음소를 특정하는 정보(도 중, [M52] 등 )가 대응되어 단어 구분 조성 DB(30)의 레코드의 일부로 된다. 또, 도 8에 나타내듯이, 음소를 특정하는 정보와 그 음소에 대응의 평가 카테고리마다의 속성이 대응되어, 조음적 속성 DB(28)의 레코드의 일부로 된다. 또, 도 10에 나타내듯이, 음소를 특정하는 정보와, 평가 카테고리에 대응하여 바람직한 속성값으로부터 일탈하는 것으로 판정될 경우의 발음의 교정 방법에 관한 컨텐츠가 대응되어 교정 컨텐츠 DB(36)의 레코드(record)로 된다.
그 다음에, 수집한 음성 표본을, 스텝 S03로 정의한 카테고리를 기초로 평가하고, 음성학적으로 해당하는 카테고리로 분류하고 기록한다(스텝 S04). 스텝 S04에서는, 음성 표본 DB의 개개의 음성 표본에 대해서 카테고리에의 분류, 기록을 한 집합체를 발음 평가 데이터베이스(DB)로 한다.
그 다음에, 스텝 S04의 음성 평가를 거친 표본군을 대상으로, 같은 조음적 속성에 속하는 음성 표본이, 음향 데이터가 특징으로서의 어떠한 공통성을 가질지를 조사한다(스텝 S05).
구체적으로, 이 스텝 S05에서는, 개개의 음성 표본에 포함되는 음성 파형 데이터를, 음향적 특징의 시계열로 변환하고, 당해 음향적 특징의 시계열을 음소마다의 구간으로 분할한다. 예를 들면, 단어가 [berry]의 경우에는, 음소 [r]이 음성 파형 데이터의 시간축 상의 어느 구간에서 발음되어 있을지를 특정한다.
또한, 스텝 S05에서는, 특정한 구간의 음향적 특징(포먼트(formant)나 파워(power))과 각 특징의 값, 값의 변화율이나 구간 내에서의 평균 등의 값으로부터 산출 가능한 데이터(음향적 특징량)의 하나 이상을 조합하고, 대상의 구간의 음소로서 올바른 조음적 속성이 조합하여 가지는 음성 표본군과, 그 음소로서의 조건을 만족하지 않는다, 1항째 이상의 조음적 속성을 가지는 음성 표본군 과의 사이에, 어느 음향적 특징과 음향적 특징량이 각각의 표본군 중에서 공통성을 가지고, 한편 쌍방의 표본군을 구분할 수 있는 경향을 가질지를 조사한다. 그리고, 음향적 특징으로부터 조음적 속성과 관련하는 특징축을 선택한다. 이 결과를 기초로 특징축 DB(34)가 생성된다.
그 다음에, 스텝 S05에 의해 얻어진 음향적 특징을 정밀하게 조사하고, 조음적 속성과의 관련성을 검증한다(스텝 S06). 즉, 이 검증에 있어서는, 음향적 특징에 있어서의 음향적 특징량에 기초하는 조음적 속성의 판정과 음성 학자의 판정을 비교한다. 비교의 결과, 양자가 일치하지 않는 경우에는, 스텝 S05의 프로세스(process)를 실시하고 다른 음향적 특징을 작성한다. 이상의 결과를 기초로 음소에 대응하는 평가 카테고리마다 음향적 특징을 특정하는 특징축 DB(34)가 생성된다. 도 9에 특징축 DB의 레코드의 일례를 나타낸다. 또한 상기에서는, 스텝 S06에 있어서는 음성 학자의 판정에 의해 비교를 하였지만, 간단한 음성 평가 모델을 작성해 두고 자동적으로 판정을 할 수도 있다.
그 다음에, 스텝 S06의 프로세스에서 특정 음소의 판정에 유효하다고 하는 것이 확인된 음향적 특징에 대해서 역치를 확정한다(스텝 S07). 또, 이 역치는 항상 일정이 아니고 가변으로 하는 것도 가능하다. 그 경우에는, 역치 DB(32)의 등록을 변경하거나 외부로부터의 입력에 의해 역치를 바꿈으로써 판정기의 판정 기준을 변경할 수 있다. 즉, 스텝 S07에서는, 음소 각각에 대해서 조음적 속성에의 속하는지의 여부의 경계로 되는 특징량의 역치를 확정한다. 이와 같이 확정된 역치의 집 합체를 역치 DB(32)로 한다. 즉, 역치 DB(32)에는 복수의 음소 각각 관한 조음적 속성에의 속하는지의 여부를 판정하기 위한 특징량의 역치가 등록되어 있다.
상기 도 4에 있어서의 특징축선택(스텝 S05)의 처리에 대해서 보다 상세하게 설명한다. 도 11에는 음성 표본의 조음적 속성에의 속하는지의 여부를 판정하기 위해, 음소의 음향적 특징에 기초하여 조음적 속성의 분포를 형성하는 예가 나타나 있다. 즉, 지속 시간에 관한 특징량 F1 및 음성 파워에 관한 특징량 F2의 분포에 있어서, 단어 [belly]에 있어서의 음소 [l]이 혀끝의 튕김을 수반하는 발음(일본어적 발음)이기 때문에 부정해가 되는 경우의 조음적 속성 판정을 할 수 있다.
또, 도 4에 있어서의 역치 확정(스텝 S07)의 예로서 도 11에서는 특징량의 분포에 있어서 1차식으로 2분할 함으로써 역치를 확정하는 예가 나타나 있지만, 또, 역치로서 통계 모델을 이용한 일반적인 판정기에 있어서의 일반적인 판정 파라미터(parameter)를 가질 수도 있다. 또 조음적 속성의 종류에 의해, 그 조음적 속성에의 속하는지의 여부가, 역치에 의해 명확하게 2분할할 수 있는 경우와, 속하는지의 여부를 명확하게 나누지 않고 중간적인 판정을 하는 경우가 있다.
또, 도 12는 지속 시간에 관한 특징량 F3 및 음성 파워(power)에 관한 특징량 F4의 분포에 의해, 혀와 경구개로부터 윗턱 치아의 선단까지의 부분에서의 협착 부분의 위치의 차이의 조음적 속성 판정을 하는 예를 나타내고 있다. 이 결과, 음소 [th]와, 음소 [s] 또는 음소 [sh]의 차이를 판별할 수 있다. 도 13은 음소 [s]와 음소 [th]의 발성시의 조음 기관의 상태를 나타내고, 도 13(a)은 음소 [s]의 경우를 나타내고, 도 13(b)은 음소 [th]의 경우를 나타내고 있다. 또한, 도 14는 주 파수에 관한 특징량 F5 및 주파수에 관한 특징량 F6의 분포에 의해, 혀의 선단과 구개에 의해 만들어지는 협착 위치의 장소의 차이의 조음적 속성 판정을 하는 예를 나타내고 있다. 이 결과, 음소 [s]와 음소 [sh]의 차이를 판별할 수 있다. 도 15는 음소 [s]와 음소 [sh]의 발성시의 조음 기관의 상태를 나타내고, 도 15(a)는 음소 [s]의 경우를 나타내고, 도 15(b)는 음소 [sh]의 경우를 나타내고 있다.
이와 같이, 서로 유사한 음소 [s] [sh] [th]간의 조음적 속성을 판별하기 위해서, 입력된 음소의 한쪽의 음향적 특징에 따라, 제1의 조음적 속성 분포 형성을 하고, 또 이것과는 다른 유사하는 음소의 음향적 특징에 따라, 제2의 조음적 속성 분포를 형성하고, 각각 작성한 조음적 속성 분포에 있어서, 각각 대응하는 역치를 이용하여 소망의 조음적 속성에 속하는지의 여부를 판정할 수가 있다. 이와 같이 이상의 방법에 의하면 자음의 발음을 판정할 수가 있다.
도 5는 발음진단 시스템(20)에 있어서의 역치 DB(32)와 특징축 DB(34)를 작성하는 시스템(데이터베이스 작성 시스템(50))의 블록 구성도를 나타내는 것이다. 음성 표본 DB(54) 및 음성 평가 DB(56)는 상기 도 4에 나타내는 데이터베이스 작성 순서에 따라 작성된다. 또 특징축 선택부(521)를 가지는 조음적 속성 분포 형성부(52)의 처리 순서에 대해서도, 상기 도 4에 말한 순서로 처리를 하고, 이 결과 역치 DB(32)와 특징축 DB(34)가 작성된다. 이 데이터베이스 작성 시스템(50)은 발음진단 시스템(20)과는 독립적으로 동작시켜 데이터베이스를 작성할 수도 있고(오프라인(offline) 처리), 또 발음진단 시스템(20)에 조립해 넣어 역치 DB(32)나 특징축 DB(34)를 상시 갱신하는 구성으로 할 수도 있다(온라인(online) 처리).
이상과 같이, 음성 언어 체계마다, 그것을 구성하는 음소마다 조음적 속성을 가지는 조음적 속성 DB(28)와 조음적 속성값을 추정하기 위한 역치를 가지는 역치 DB(32)와, 단어 구분 조성 DB(30)와, 특징축 DB(34)와 교정 컨텐츠 DB(40) 중 적어도 하나를 하드디스크, CD-ROM 등의 기록 매체에 기록해 둠으로써 다른 기기로도 이용가치가 있다.
이하, 이와 같이 생성된 데이터베이스를 이용하는 발음진단 시스템(20)의 각 요소를 설명한다.
인터페이스 제어부(22)는 사용자로부터의 조작을 접수, 후속 프로그램 부분을 기동·제어한다.
음성 신호 분석부(24)는 음성 파형 데이터를 읽어 들이고, 이것을 음소의 구간으로 분할하고, 분할한 구분(세그먼트(segment))마다의 특징(음향적 특징)을 출력한다. 즉, 음성 신호 분석부(24)는 컴퓨터를 구분 수단 및 특징량 추출 수단으로서 기능시킨다.
도 16은 음성 신호 분석부의 구성을 나타내는 도이다. 음성 신호 분석부(24)에서는, 신호 처리부(241)에 있어서, 음성 신호(음성 파형 데이터)가 일정한 시간 간격으로 분석되고, 포먼트(formant) 궤적 관련 시계열 데이터(포먼트 주파수, 포먼트 파워 레벨, 기본 주파수, 음성 파워 등의 시계열 데이터)에 변환된다. 또 포먼트 궤적 대신에 케프스트럼(cepstrum) 등의 주파수적 특징을 이용해도 좋다.
이하, 신호 처리부(241)를 보다 상세하게 설명한다. 도 17은 신호 처리부(241)의 구성을 나타내는 도이다. 도 17에 나타내듯이, 신호 처리부(241)에서는, 선형 예측 분석부(241a)가 음성 파형 데이터에 대해서 일정한 시간 간격으로 전극형(全極型) 성도(聲道) 필터 모델에 의한 파라메트릭(parametric) 분석을 하고, 편상관(偏相關) 계수의 시계열 벡터를 출력한다.
또, 파형 초기 분석부(241b)가 고속 퓨리에(Fourier) 변환 등을 이용한 논파라메트릭(non-parametric) 분석에 의해 초기 음성 파라미터(기본 주파수(피치(pitch)), 음성 파워(power), 제로크로스(zero-cross) 파라미터 등)의 시계열을 출력한다. 우세한 음성 구간 추출부(241c)는 파형 초기 분석부(241b)의 출력으로부터 단어의 모체로 되는 우세한 음성 구간을 추출하고, 이것을 피치(pitch) 정보와 함께 출력한다.
또, 성도 필터 모델의 차수 결정부(241d)가 선형 예측 분석부(241a)와 우세한 음성 구간 추출부(241c)의 출력으로부터 일정한 기준에 기초하여 성도 필터의 차수를 결정한다.
그리고, 포먼트(formant) 궤적 추출부(241e)가 차수 결정한 성도 필터를 이용하여 포먼트 주파수, 포먼트 파워 레벨 등을 계산하고, 기본 주파수, 음성 파워 등과 함께 이것들을 포먼트 궤적 관련 데이터의 시계열로서 출력한다.
도 16으로 돌아와 단어 구분 조성 검색부(242)는 단어(철자)로부터 미리 준비되어 있는 단어 구분 조성 DB(30)를 검색하고, 그 단어에 대한 구분 조성 정보(구분 요소열, 예를 들어, 단어 [berry]의 경우, Vb/Vo/Vc/Vo)를 출력한다.
여기서, 단어 구분 조성 DB(30)에 대해서 설명한다. 단어의 발음에는 음향적으로 보면 유성음과 무성음이 있다. 또, 단어의 발음은 음향적으로 단일의 특성을 가지는 구간으로 분할할 수 있다(분할된 구간을 세그먼트(segment)라고 부른다). 세그먼트(segment)의 음향적 특성은 이하와 같이 분류할 수가 있다.
(1) 유성음의 분류예
  강한 협착을 수반하는 자음(Vc)
  강한 협착을 수반하지 않는 자음이나 모음(Vo)
  유성 파열음(Vb)
(2) 무성음의 분류예
  무성 파열음(Bu)
  그 외의 무성음(Vl)
(3) 무음의 음간(Sl)
단어의 발음을 세그먼트(segment)에 구분하고, 상기 분류예에 따라 분류한 것을 단어 구분 조성이라고 부른다. 예를 들면, 단어 [berry]는 상기의 분류에 따르면 Vb/Vo/Vc/Vo 라고 하는 구분 조성으로 된다.
단어 구분 조성 DB(30)는 이러한 구분 조성을 단어마다 리스트화한 데이터베이스이다. 또 이하에서는 이 데이터베이스로부터 얻어진 단어 구분 조성 데이터를 [단어 구분 조성 정보]라고 부른다.
단어 구분 조성 검색부(242)는 이 단어 구분 조성 DB(30)로부터 선택된 단어에 대한 단어 구분 조성 정보를 검색하고, 음성 구분화 처리부(243)로 출력한다.
음성 구분화 처리부(243)는 신호 처리부(241)의 출력(포먼트 궤적 관련 데이터)을 단어 구분 조성 검색부(242)의 출력(단어 구분 조성 정보)에 기초하여 세그 먼트 분할 처리한다. 도 18은 음성 구분화 처리부(243)의 구성을 나타내는 도이다.
음성 구분화 처리부(243)에서는, 음성 구간 추출부(243a)가, 단어 구분 조성 검색부(242)로부터의 단어 구분 조성 정보에 기초하여, 포먼트 궤적 관련 시계열 데이터중의 음성 구간을 추출한다. 이 음성 구간은 신호 처리부(241)의 출력 구간의 양측에 존재할 수 있는 무성음성 혹은 파열음성 등의 피치 주기를 가지지 않는 음성 구간이 포함된다.
음성 구간 내 세그먼트 세분화 처리부(243b)는 음성 구간 추출부(243a)의 출력(음성 구간)과 단어 구분 조성 정보에 기초하여, 세그먼트의 세분화 처리를 필요한 회수만 반복하고, 이것을 시간 구분화 포먼트 궤적 관련 데이터로서 출력한다.
도 16에 있어서, 조음적 속성·특징축 검색부(244)는 입력된 단어(철자)로부터 그 단어의 판정 항목에 대응한 평가 카테고리 정보와 특징축 정보(복수의 음향적 특징축 정보를 포함하는 경우가 있다)를 음향적 특징량 추출부(245)로 출력한다. 또, 이 평가 카테고리 정보는 다음의 조음적 속성 추정부(26)로도 출력된다.
음향적 특징량 추출부(245)는 음성 구분화 처리부(243)로부터의 출력(시간 구분화 포먼트 궤 관련 데이터)과, 조음적 속성·특징축 검색부(244)로부터의 출력(평가 카테고리 정보와 특징축 정보)으로부터 입력된 음성 신호의 판정에 필요한 음향적 특징을 출력하고, 이것을 다음의 조음적 속성 추정부(26)로 출력한다.
도 19는 음향적 특징량 추출부(245)의 구성을 나타내는 도이다. 도 19에 나타내듯이, 음향적 특징량 추출부(245)에서는 일반적 음향적 특징량 추출부(245a)에 의해 각각의 세그먼트(segment)에 대한 포먼트 주파수, 포먼트 파워 레벨 등의 어 느 세그먼트에도 공통되는 음향적 특징에 대한 수치 데이터(일반적 음향적 특징량)가 추출된다.
또, 평가 카테고리별 음향적 특징량 추출부(245b)에 의해 조음적 속성·특징축 검색부(244)의 출력인 평가 카테고리 정보에 기초하여 단어에 의존하는 평가 카테고리별 음향적 특징량이 필요한 카테고리 수만큼 추출된다.
음향적 특징량 추출부(245)의 출력은 조음적 속성에 대한 이들 2종류의 음향적 특징량의 데이터 세트(set)이고, 이것이 다음의 조음적 속성 추정부(26)로 보내진다.
도 20은 조음적 속성 추정부(26)에 의한 처리의 흐름을 나타내는 도이다. 도 16에 나타내듯이, 조음적 속성 추정부(26)는, 단어마다, 단어 조성 구분 DB(30)로부터, 세그먼트(segment) 정보(도 7에 나타내는 음소를 특정하는 정보의 계열)를 취득하고(스텝 S11), 또한 음성 신호 분석부(24)로부터 각 세그먼트의 음소에 할당된 평가 카테고리 정보(도 8을 참조)를 취득한다(스텝 S12). 예를 들면, 단어 [belly]의 예에서는, 세그먼트(segment) 정보로서 I33, M03, M52, F02가 음소를 특정하는 정보의 계열로서 얻어지고, 또한 예를 들면 세그먼트 정보가 M52의 경우에는, 평가 카테고리 정보로서 [혀끝과 구개의 접촉], [입의 여는 방법], [혀끝이 구개에 붙어 있는 위치]가 얻어진다.
그 다음에, 조음적 속성 추정부(26)는 음성 신호 분석부(24)로부터 단어마다의 음향적 특징을 취득한다(스텝 S12). 단어가 [belly]이면, I33, M03, M52, F02의 각각 대응하여 일반적 특징량과 평가 카테고리별 특징량이 얻어진다.
그 다음에, 조음적 속성 추정부(26)는 평가 카테고리마다 조음적 속성 추정 처리를 한다(스텝 S13). 도 21은 각 평가 카테고리마다의 처리의 흐름을 나타내는 도이다.
스텝 S13의 처리는 평가 카테고리에 대응하는 역치 데이터를 역치 DB(32)로부터 읽어내고(스텝 S131), 평가 카테고리에 대응하는 음향적 특징을 취득한다(스텝 S132). 그리고, 취득한 음향적 특징을 상기의 역치 데이터와 비교하고(스텝 S133), 조음적 속성값(추정값)을 결정한다(스텝 S134).
조음적 속성 추정부(26)는 모든 평가 카테고리의 처리를 종료하면(스텝 S14), 다음의 세그먼트(segment)의 처리를 하고, 모든 세그먼트(segment) 처리가 종료하면(스텝 S15) 모든 평가 카테고리에 대응하는 조음적 속성값(추정값)을 출력하고(스텝 S16), 종료한다. 이와 같이 조음적 속성 추정부(26)는 컴퓨터를 속성값 추정 수단으로서 기능시킨다.
또한, 스텝 S133에 있어서의 비교 처리의 방법으로서는, 예를 들면 이하의 방법이 있다. 도 11에 나타내는 음향적 특징에 기초하는 음소의 조음적 속성 분포와 마찬가지로 어떤 평가 카테고리에 대응하는 특징축 정보(예를 들면, F1, F2)에 기초하는 2차원 좌표 상에 취득한 음향적 특징량을 플롯(plot)한다. 역치 데이터로부터 얻어진 역치축(예를 들면, 도 11에 나타내는 1차식)으로 분할한 영역의 다른 한쪽을 [정해 영역], 다른 한쪽을 [부정해 영역]으로 하고, 어느 쪽에 상기 플롯한 점이 존재하는지에 의해 조음적 속성값(추정값)을 결정한다(예를 들면, 정해 영역의 경우 1로 하고, 부정해영역의 경우 0으로 한다). 그 외에도 통계 모델을 이용한 일반적인 판정기를 이용하여 속성값을 결정할 수도 있다. 또, 조음적 속성의 종류에 의해 그 조음적 속성에의 속하는지의 여부를 역치에 의해 명확하게 분할하지 않고 중간적인 값으로 하는 경우가 있다(예를 들면, 0, 0.25, 0.5, 0.75, 1, 의 5단계의 값).
도 2에 있어서, 조음적 속성 추정부(26)로부터 출력되는 조음적 속성값(추정값)은 평가 카테고리마다 출력되므로, 예를 들면, 단어 [belly]에 있어서의 음소 [l]의 평가 카테고리인 [혀끝과 구개의 접촉]의 조음적 속성값(추정값)이 1인 경우에는, 도 8에 나타내듯이 [혀가 구개에 붙어 있다]라고 하는 판정 결과가 얻어진다. 이와 같이 발음 판정부(38)는, 조음적 속성값(추정값)으로부터 조음적 속성의 상태를 판정할 수 있다. 또, 조음적 속성 DB(28)로부터 바람직한 발음에 대한 조음적 속성값을 취득하고, 조음적 속성 추정부(26)로부터 출력되는 조음적 속성값(추정값)과 비교함으로써 바람직한 발음인지 아닌지의 판정 결과를 출력한다. 예를 들면, 음소 [r]의 발음 판정에서, 평가 카테고리 [혀끝과 구개의 접촉]의 조음적 속성값(추정값)이 1로, 바람직한 발음에 대한 조음적 속성값이 0인 경우, [혀가 구개에 붙어 있다]이기 때문에 [불합격]이라고 하는 판정 결과를 출력한다. 이와 같이 발음 판정부(38)는 컴퓨터를 발음 판정 수단으로서 기능시킨다.
또, 도 8에 나타내는 것 같은 메세지는 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다. 또, 도 10에 나타내는 교정 컨텐츠 생성부(36)는 교정 컨텐츠 DB(36)를 참조하여 부정해인 음소에 대해서 예를 들면 음소 [r]의 평가 카테고리인 [혀끝과 구개의 접촉]의 판정 결과가 [혀가 구개에 붙어 있다]이기 때문에 [불합격]인 경우에는, [혀가 입의 천정에 접하지 않게]라고 하는 메세지가 얻어지고, 이 메세지는 인터페이스 제어부(22)를 통해서 모니터(12d)에 표시된다. 이것에 의해 발음의 교정을 촉구받는다. 이와 같이 인터페이스 제어부(22)는 컴퓨터를 상태 제시 수단 및 교정 방법 제시 수단으로서 기능시킨다.
판정 결과의 상세한 표시예로서는, 도 22에 나타내듯이, 부정해의 음소에 대해서 올바르게 발음되고 있지 않은 조음적 속성을 모두 표시하는 방법이나, 또한 발음한 단어 전체에 대해서 도 23과 같이 음소마다 합격·불합격을 나타낸 다음, 불합격인 음소에 대해서는 올바르게 발음되고 있지 않은 조음적 속성을 표시하는 등 방법이 있다.
또, 다른 방법으로서 조음 기관의 상태 등을 스케치나 사진 등의 정지화나, 애니메이션(animation)이나 비디오 등의 동화상으로 표시하거나 또 음성(합성음이나 녹음한 소리 등)을 사용하여 지시하는 등의 여러 가지의 수단이 생각될 수 있다.
마찬가지로 도 24의 표시예와 같이 올바르게 발음되지 않았던 조음적 속성을 표시한 다음, 그 교정 방법을 표시하도록 하고, 판정 결과와 교정 컨텐츠의 표시를 조합하는 방법도 있다. 또, 판정 결과의 표시와 마찬가지로 교정해야할 조음 기관의 상태를 스케치나 사진 등의 정지화나, 애니메이션이나 비디오 등의 동화상으로 표시하거나 또 음성(합성음이나 녹음한 소리 등)을 사용해 지시하는 등의 수단이 있다.
이상에 있어서, 도 2에 나타낸 조음적 속성 DB(28), 단어 구분 조성 DB(30), 역치 DB(32), 특징축 DB(34), 교정 컨텐츠 DB(36)는, 예를 들면 영국식 영어, 미국식 영어 등의 언어 체계마다 CD-ROM 등의 매체에 기록할 수가 있고, 발음진단 장치(10)에 있어서 이용할 수 있다. 즉, 하나의 언어 체계마다 하나의 CD-ROM에 기록하고, 언어 체계 다른 학습에 제공하는 것 등이 가능하다.
또, 도 3의 발음진단 프로그램 전체도 CD-ROM 등의 매체에 기록 할 수 있고, 발음진단 장치(10)에 있어서 이용할 수 있으므로 새로운 언어 체계의 추가나, 조음적 속성 데이터의 추가 등이 가능하다.
이상 설명한, 발음진단 장치(10)에 의하면, 이하의 효과가 주 된다. 즉, 발음진단 장치(10)를 사용함으로써, 장소를 불문하고 균일의 발음 교정을 할 수가 있기 때문에, 학습자는 자신의 형편에 맞추어 은밀하게 학습할 수가 있다. 또, 자습을 하기 위한 소프트웨어이기 때문에, 학교 교육 등에서는 현장의 효과를 높이기 위한 자택 학습에도 채용할 수가 있다.
또, 발음진단 장치(10)에 의하면, 조음 기관의 상태나 조음의 양식을 특정하고, 구체적으로 그 요인을 개선한다. 예를 들어, 음소 [r]의 발음시에, 입술이 둥글게 되고 있는지 어떤지, 일본어의 [라 ]와 같이, 경구개를 튕기고 있는지 어떤지 등과 같이 조음의 장소 및 방법을 특정하는 것도 가능하다. 이와 같이 특히 자음의 발음 학습에 효과를 발휘한다.
또, 발음진단 장치(10)에 의하면, 예를 들어, [ray]인가 [lay]와 같이 영어의 사전에 존재하는 말 중에서 제일 가까운 것을 선택하기 시작하는 방법은 아니 고, 예를 들어 일본어의 발음 방법으로 [레이]라고 발음되는 경우에, 조음 기관의 상태나 조음의 양식(성대, 혀의 위치와 형태, 입술의 형태나 입의 열림 상태, 소리를 만드는 방법 등)의 단위로 차이를 판정하고, 올바른 발음에 접근하기 위해서 어떠한 행동을 학습자가 취해야할 것인가를 구체적으로 제시할 수가 있다.
또, 발음진단 장치(10)에 의하면, 각 언어의 발음에 대해, 발화자의 모국어와 학습해야할 언어의 종래의 판별 태생의 비교를 기초로, 발음될 때 일어날 수 있는 부정해의 소리와, 그 소리의 조음의 상태를 예측하고, 미리 그 조음 특징 태생의 음성 분석과 음향 분석에 의해, 그 조음 특징을 가지는 구강 내의 상황도 예측하고, 차이를 지적하는 포인트(point)를 책정할 수가 있기 때문에 모든 언어의 발음 훈련에 대응할 수가 있다.
또, 발음진단 장치(10)에 의하면, 소리가 만들어질 때의 구강 내의 상태를 구체적으로 재현할 수 있으므로, 다언어의 습득, 또는 언어 요법을 위한 훈련이나 자습이 전문의 훈련사를 따르지 않고 하는 것이 가능하게 된다.
또, 발음진단 장치(10)에 의하면, 구강 내의 상황을 발화자에게 구체적으로 지적하고, 교정할 수가 있으므로, 학습자는 자기의 상황을 개선할 수 없다고 하는 욕구 불만과 스트레스를 느끼는 일 없이 학습을 진행시키는 것이 가능하게 된다.
또, 발음진단 장치(10)에 의하면, 예를 들면 영어 등의 외국어의 학습자가 자신의 발음의 특징을 알 수 있어 올바르지 않은 경우에는 교정법을 제시하시므로 올바른 반복 연습을 실현할 수 있다. 그 때문에, 종래의 음성인식기술을 이용한 발음 학습에 비해 단기간에 한편 효율적으로 발음의 학습을 할 수 있는 것만이 아니 라 교정법이 즉석에서 나타나므로 스트레스도 적은 학습이 가능하게 된다.
또, 발음진단 장치(10)에 의하면, 음소를 구성하는 조음 기관의 상태나 조음의 양식 등의 구체적인 구강 내의 요인과, 그 소리의 인과 관계를 해명할 수 있으므로, 그 소리의 데이터베이스로부터 구강 내의 상태를 재현할 수가 있다. 이에 의해, 발화자의 구강 내를 삼차원적으로 화면상에 비출 수가 있다.
또, 발음진단 장치(10)에 의하면, 단어 단위만이 아니라 문(文) 내지 문장까지도 하나가 연속한 음성의 시계열 데이터로 간주할 수가 있으므로 문장 전체의 발음진단이 가능하게 된다.

Claims (13)

  1. 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와,
    말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 수단과,
    상기 추출된 음향적 특징에 기초하여, 상기 조음적 속성에 관한 속성값을 추정하는 속성값 추정 수단과,
    상기 추정된 속성값을 상기 바람직한 조음적 속성 데이터와 비교함으로써 발성자의 발음에 관한 판정을 하는 수단을 구비하는 발음진단 장치.
  2. 제1항에 있어서,
    발성자의 발음진단 결과를 출력하는 수단을 구비하는 것을 특징으로 하는 발음진단 장치.
  3. 발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과,
    상기 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 조음적 속성 분포 형성 수단과,
    상기 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 수단을 구비하는 발음진단 장치.
  4. 발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 수단과,
    상기 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 의해 분포를 형성하기 위한 제1 조음적 속성 분포 형성 수단과,
    상기 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라, 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 수단과,
    상기 제1 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 수단과,
    상기 제2 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 수단을 구비하는 발음진단 장치.
  5. 제3항 또는 제4항에 있어서,
    상기 역치를 가변하는 역치 가변 수단을 구비하는 것을 특징으로 하는 발음진단 장치.
  6. 제1항, 제3항, 및 제4항 중 어느 한 항에 있어서,
    상기 음소는 자음인 것을 특징으로 하는 발음진단 장치.
  7. 말하는 사람이 발한 음성 신호로부터의 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합을 추출하는 공정과,
    상기 추출된 음향적 특징에 기초하여, 상기 조음적 속성에 관한 속성값을 추정하는 속성값 추정 공정과,
    상기 추정된 속성값을 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합에 관한 바람직한 발음에 대응하는 조음적 속성값을 가지는 조음적 속성 데이터와 비교하여 발성자의 발음에 관한 판정을 하는 공정과,
    발성자의 발음진단 결과를 출력하는 공정을 구비하는 발음진단 방법.
  8. 발음의 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과,
    상기 추출된 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 조음적 속성 분포 형성 공정과,
    상기 조음적 속성 분포 형성 수단으로 구분된 조음적 속성을 역치(threshold value)로 가지고서 판정하는 조음적 속성 판정 공정을 구비하는 발음진단 방법.
  9. 발음의 유사한 음소를 음향적 특징으로서의 주파수적 특징량, 음량, 지속 시간, 그러한 변화량, 또는 그러한 변화 패턴 및 그러한 적어도 하나 이상의 조합으로 추출하는 음향적 특징 추출 공정과,
    상기 추출된 유사한 한쪽의 음소의 음향적 특징에 따라, 음성 언어 체계마다, 그것을 구성하는 음소마다, 그 음소를 발성할 때의 조음적 속성으로서의 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술 의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제1 조음적 속성 분포 형성 공정과,
    상기 추출된 유사한 다른 한쪽의 음소의 음향적 특징에 따라, 발음자의 조음적 속성을 혀의 높이, 혀의 위치, 혀의 형상, 혀의 움직임, 입술의 형상, 입술을 여는 방법, 입술의 움직임, 성문의 상태, 성대의 상태, 구개수(palatine uvula)의 상태, 비강의 상태, 상하의 치아의 위치, 턱의 상태, 턱의 움직임의 어느 하나 또는 이러한 조음 기관 상태의 적어도 하나를 포함하는 그러한 조합, 상기 조음 기관 상태의 힘을 기울이는 방법, 및 호기(呼氣)의 상태의 조합으로 분포를 형성하기 위한 제2 조음적 속성 분포 형성 공정과,
    상기 제1 조음적 속성 분포 형성 공정으로 구분된 조음적 속성을 제1 역치(threshold value)로 가지고서 판정하는 제1 조음적 속성 판정 공정과,
    상기 제2 조음적 속성 분포 형성 공정으로 구분된 조음적 속성을 제2 역치(threshold value)로 가지고서 판정하는 제2 조음적 속성 판정 공정을 구비하는 발음진단 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 역치를 가변하는 역치 가변 공정을 한층 더 구비하는 것을 특징으로 하 는 발음진단 방법.
  11. 음성 언어 체계마다, 그것을 구성하는 음소마다 조음적 속성을 가지는 조음적 속성 데이터베이스와 조음적 속성값을 추정하기 위한 역치를 가지는 역치 데이터베이스와, 단어 구분 조성 데이터베이스와, 특징축 데이터베이스와 교정 컨텐츠(contents) 데이터베이스 중 적어도 하나를 기억하고 있는 기록 매체.
  12. 컴퓨터에 제7항, 제8항, 제9항, 및 제10항 중 어느 한 항에 기재의 방법을 실행시키는 프로그램을 기록한 기록 매체.
  13. 컴퓨터에 제7항, 제8항, 제9항, 및 제10항 중 어느 한 항에 기재의 방법을 실행시키는 컴퓨터 프로그램.
KR1020087008240A 2005-09-29 2006-09-29 발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단프로그램 KR20080059180A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JPJP-P-2005-00285217 2005-09-29
JP2005285217 2005-09-29
JP2006147171A JP5120826B2 (ja) 2005-09-29 2006-05-26 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
JPJP-P-2006-00147171 2006-05-26

Publications (1)

Publication Number Publication Date
KR20080059180A true KR20080059180A (ko) 2008-06-26

Family

ID=37899777

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087008240A KR20080059180A (ko) 2005-09-29 2006-09-29 발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단프로그램

Country Status (6)

Country Link
US (1) US20090305203A1 (ko)
EP (1) EP1947643A4 (ko)
JP (1) JP5120826B2 (ko)
KR (1) KR20080059180A (ko)
TW (1) TW200721109A (ko)
WO (1) WO2007037356A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015030471A1 (en) * 2013-08-26 2015-03-05 Seli Innovations Inc. Pronunciation correction apparatus and method thereof
KR102121227B1 (ko) * 2019-07-02 2020-06-10 경북대학교 산학협력단 정상압 수두증의 경과를 확인하기 위한 조음 상태 분류 방법 및 그 시스템
KR20210130494A (ko) * 2020-04-22 2021-11-01 한국외국어대학교 연구산학협력단 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법

Families Citing this family (149)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8271281B2 (en) * 2007-12-28 2012-09-18 Nuance Communications, Inc. Method for assessing pronunciation abilities
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP5157488B2 (ja) * 2008-01-31 2013-03-06 ヤマハ株式会社 パラメータ設定装置、音響生成装置およびプログラム
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8805673B1 (en) 2011-07-14 2014-08-12 Globalenglish Corporation System and method for sharing region specific pronunciations of phrases
US10469623B2 (en) * 2012-01-26 2019-11-05 ZOOM International a.s. Phrase labeling within spoken audio recordings
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
KR101599030B1 (ko) * 2012-03-26 2016-03-14 강진호 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9721563B2 (en) * 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
FR3000593B1 (fr) * 2012-12-27 2016-05-06 Lipeo Procede de communication entre un locuteur et un appareil electronique et appareil electronique associe
FR3000592B1 (fr) * 2012-12-27 2016-04-01 Lipeo Module de reconnaissance vocale
US9280906B2 (en) * 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9076347B2 (en) 2013-03-14 2015-07-07 Better Accent, LLC System and methods for improving language pronunciation
TWI508033B (zh) * 2013-04-26 2015-11-11 Wistron Corp 語言學習方法與裝置以及電腦可讀記錄媒體
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP5805804B2 (ja) * 2014-02-03 2015-11-10 山本 一郎 構音訓練用録画・録音装置
JP5843894B2 (ja) * 2014-02-03 2016-01-13 山本 一郎 構音訓練用録画・録音装置
US20150339950A1 (en) * 2014-05-22 2015-11-26 Keenan A. Wyrobek System and Method for Obtaining Feedback on Spoken Audio
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016045420A (ja) * 2014-08-25 2016-04-04 カシオ計算機株式会社 発音学習支援装置およびプログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR102278008B1 (ko) * 2014-12-19 2021-07-14 박현선 사용자 단말기를 이용한 보이스 컨설팅 제공 방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
GB201706078D0 (en) * 2017-04-18 2017-05-31 Univ Oxford Innovation Ltd System and method for automatic speech analysis
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11068659B2 (en) * 2017-05-23 2021-07-20 Vanderbilt University System, method and computer program product for determining a decodability index for one or more words
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
JP6909733B2 (ja) * 2018-01-26 2021-07-28 株式会社日立製作所 音声分析装置および音声分析方法
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
GB2575423B (en) 2018-05-11 2022-05-04 Speech Engineering Ltd Computer implemented method and apparatus for recognition of speech patterns and feedback
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102207812B1 (ko) * 2019-02-18 2021-01-26 충북대학교 산학협력단 발화 장애인들 및 외국인의 보편적 의사소통을 위한 음성 개선 방법
CN110491382B (zh) * 2019-03-11 2020-12-04 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
JP7131518B2 (ja) 2019-09-20 2022-09-06 カシオ計算機株式会社 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111047922A (zh) * 2019-12-27 2020-04-21 浙江工业大学之江学院 一种发音教学方法、装置、系统、计算机设备和存储介质
JP7316596B2 (ja) * 2020-02-19 2023-07-28 パナソニックIpマネジメント株式会社 口腔機能可視化システム、口腔機能可視化方法およびプログラム
CN111833859B (zh) * 2020-07-22 2024-02-13 科大讯飞股份有限公司 发音检错方法、装置、电子设备及存储介质
CN112687291B (zh) * 2020-12-21 2023-12-01 科大讯飞股份有限公司 一种发音缺陷识别模型训练方法以及发音缺陷识别方法
CN113077819A (zh) * 2021-03-19 2021-07-06 北京有竹居网络技术有限公司 发音评价方法和装置、存储介质和电子设备
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备
CN115376547A (zh) * 2022-08-12 2022-11-22 腾讯科技(深圳)有限公司 发音评测方法、装置、计算机设备和存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
US5536171A (en) * 1993-05-28 1996-07-16 Panasonic Technologies, Inc. Synthesis-based speech training system and method
US5340316A (en) * 1993-05-28 1994-08-23 Panasonic Technologies, Inc. Synthesis-based speech training system
JPH06348297A (ja) * 1993-06-10 1994-12-22 Osaka Gas Co Ltd 発音練習装置
JP2908720B2 (ja) * 1994-04-12 1999-06-21 松下電器産業株式会社 合成を基本とした会話訓練装置及び方法
JP2780639B2 (ja) * 1994-05-20 1998-07-30 日本電気株式会社 発声訓練装置
JPH08305277A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 発声訓練装置
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
JP4236815B2 (ja) * 1998-03-11 2009-03-11 マイクロソフト コーポレーション 顔合成装置および顔合成方法
JP2000242292A (ja) * 1999-02-19 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
JP3520022B2 (ja) * 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
US6728680B1 (en) * 2000-11-16 2004-04-27 International Business Machines Corporation Method and apparatus for providing visual feedback of speed production
AU2003283892A1 (en) * 2002-11-27 2004-06-18 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015030471A1 (en) * 2013-08-26 2015-03-05 Seli Innovations Inc. Pronunciation correction apparatus and method thereof
KR102121227B1 (ko) * 2019-07-02 2020-06-10 경북대학교 산학협력단 정상압 수두증의 경과를 확인하기 위한 조음 상태 분류 방법 및 그 시스템
KR20210130494A (ko) * 2020-04-22 2021-11-01 한국외국어대학교 연구산학협력단 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법

Also Published As

Publication number Publication date
US20090305203A1 (en) 2009-12-10
WO2007037356A1 (ja) 2007-04-05
TW200721109A (en) 2007-06-01
EP1947643A1 (en) 2008-07-23
JP2007122004A (ja) 2007-05-17
JP5120826B2 (ja) 2013-01-16
EP1947643A4 (en) 2009-03-11

Similar Documents

Publication Publication Date Title
JP5120826B2 (ja) 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
CN102498485B (zh) 用于有表现力的语言、发育失调和情绪评估的系统和方法
Drugman et al. Glottal source processing: From analysis to applications
US7401018B2 (en) Foreign language learning apparatus, foreign language learning method, and medium
CN109545189A (zh) 一种基于机器学习的口语发音检错与纠正系统
JP2012508903A (ja) 自動音声テキスト変換のためのシステムと方法
KR20150024180A (ko) 발음 교정 장치 및 방법
Arora et al. Phonological feature-based speech recognition system for pronunciation training in non-native language learning
Van Doremalen et al. Optimizing automatic speech recognition for low-proficient non-native speakers
Liu et al. Acoustical assessment of voice disorder with continuous speech using ASR posterior features
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP2007171944A (ja) 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム
WO2006034569A1 (en) A speech training system and method for comparing utterances to baseline speech
JP4811993B2 (ja) 音声処理装置、およびプログラム
KR20150024295A (ko) 발음 교정 장치
Suchato Classification of stop consonant place of articulation
Latorre et al. Speech intonation for TTS: Study on evaluation methodology
Middag et al. Towards an ASR-free objective analysis of pathological speech
JP4753412B2 (ja) 発音評定装置、およびプログラム
Huang et al. A review of automated intelligibility assessment for dysarthric speakers
Kyriakopoulos Deep learning for automatic assessment and feedback of spoken english
KR102333029B1 (ko) 발음 평가 방법 및 이를 이용한 디바이스
Fadhilah Fuzzy petri nets as a classification method for automatic speech intelligibility detection of children with speech impairments/Fadhilah Rosdi
JP5066668B2 (ja) 音声認識装置、およびプログラム
Rosdi Fuzzy Petri Nets as a Classification Method for Automatic Speech Intelligibility Detection of Children with Speech Impairments

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid