KR20030064116A - 음성 분석 방법 및 그 시스템 - Google Patents

음성 분석 방법 및 그 시스템 Download PDF

Info

Publication number
KR20030064116A
KR20030064116A KR1020020004567A KR20020004567A KR20030064116A KR 20030064116 A KR20030064116 A KR 20030064116A KR 1020020004567 A KR1020020004567 A KR 1020020004567A KR 20020004567 A KR20020004567 A KR 20020004567A KR 20030064116 A KR20030064116 A KR 20030064116A
Authority
KR
South Korea
Prior art keywords
pitch
intonation
voice
sound
time interval
Prior art date
Application number
KR1020020004567A
Other languages
English (en)
Inventor
공병구
Original Assignee
주식회사 엠티컴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엠티컴 filed Critical 주식회사 엠티컴
Priority to KR1020020004567A priority Critical patent/KR20030064116A/ko
Publication of KR20030064116A publication Critical patent/KR20030064116A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

본 발명은 인간 발성의 높낮이를 측정하고 이를 수치화하여 디스플레이하는 방법을 제공하는 것을 그 목적으로 한다. 상기와 같은 목적을 달성하기 위한 본 발명의 방법은 음의 세기를 측정하여 계산할 수 있는 컴퓨터 시스템의 모니터상에 음의 높낮이를 시각적으로 디스플레이하는 방법에 그 특징이 있으며, 이것은 음을 상기 컴퓨터 시스템에 입력하는 단계와, 상기 입력된 음의 세기를 측정하는 단계와, 상기 측정된 음의 세기 중에서 소정의 제1 시간 간격에 걸쳐 가장 센 음을 가지는 최대치간의 피치를 측정하는 단계와, 상기 측정된 피치의 역수를 상기 제1 시간 간격의 음높이로 설정하는 단계와, X축을 시간축으로 하고 Y축을 음높이로 하는 좌표 평면을 상기 모니터상에 디스플레이하는 단계와, 상기 X축상의 상기 제1 시간 간격의 중간점에 대응하도록 상기 설정된 음높이를 상기 좌표 평면상에 디스플레이하는 단계를 포함하는 것을 특징으로 한다.

Description

음성 분석 방법 및 그 시스템{METHODS FOR ANALYZING HUMAN VOICE AND SYSTEMS THEREOF}
본 발명은 인간의 발음을 분석하고 이를 수치화하는 방법 및 시스템에 관한 것으로서, 좀 더 상세하게는 인간의 발음 중에서 특히 발음의 높낮이인 억양을 분석하여 이를 수치화하고 디스플레이하는 방법 및 시스템에 관한 것이다.
일반적으로 사람이 어떤 문장이나 의미있는 단어를 발음할 때는 그 언어를 사용하는 지역이나 언어 자체의 특성으로 인해서 특정 문장에 대해 공통적이면서도 고유한 높낮이로 발음한다. 가령, 우리말에서 "식사 하셨습니까?" 라고 묻는 말은 일종의 의문문이므로 문장의 뒷부분에서 음이 높아지며, "먹었습니다"라고 긍정적인 답변을 할 때는 문장 뒷부분의 음이 낮아지면서 발성을 종결하게 된다.
이러한 문장의 높낮이 발음을 우리는 일반적으로 억양(INTONATION)이라고 부르며, 이것은 인간의 언어 의미 전달에 중요한 부분을 차지한다. 억양은 발성자의 감정을 담고 있는 것이므로 그 자체로 의미 전달의 상당 부분을 차지하고 있는데,특히 모국어가 아닌 외국어를 사용해서 대화하는 경우에 이 억양을 제대로 사용하지 못한다면 비록 의미 전달은 간신히 가능할지 모르지만 의사 및 감정을 정확히 표현한다고 볼 수 없다. TV에 등장하는 외국인들이 한국어를 제대로 구사하지 못한다고 생각되는 상당 경우가 우리말의 억양을 제대로 사용하지 못하기 때문에 발생하는 현상이라 할 수 있다.
따라서 억양을 학습하는 것은 외국어를 배우는데 있어서 상당히 중요한 과정이라 할 것이다. 하지만, 그럼에도 불구하고 외국어를 배우는 과정 중에 우리가 억양을 접하는 경우란, 가령 중학교 1학년 영어 교과서에 간단한 선으로 그려진 문장의 높낮이를 보고 어설픈 흉내를 내는 정도에 불과하다.
억양의 중요성에 비추어 볼 때 이 정도로 단순한 학습밖에 수행할 수 없었던 상황이 된 것은, 문장 발음에 있어서의 억양, 즉 발성의 높낮이를 측정하여 학습에 사용할 수 있을 정도로 구체화시킨 방법이 없었기 때문이다. 왜냐하면, 인간이 발성하는 음의 높낮이를 기계적으로 측정하면 상당히 복잡한 파형이 나타나는데 이를 그대로 학습 방법에 적용하기에는 무리가 따르기 때문이다. 따라서 지금까지는 이를 분석하여 체계적인 언어 학습 도구로 사용하기를 포기하고, 발성자가 원어민의 억양을 듣고 이를 따라서 발성하는 연습을 하는 정도에 그치는, 청각적이며 감각적인 외국어 교육 방법에만 치중해 왔다.
본 발명은 인간 발성의 높낮이를 측정하고 이를 수치화하여 디스플레이하는 방법을 제공하는 것을 그 목적으로 한다.
본 발명은 상기 측정된 발성의 높낮이를 측정하여 시각적으로 표현하되, 언어 학습에 사용할 수 있도록 그 형태를 변형함으로써, 언어 학습자가 손쉽게 자신의 발음의 높낮이를 인식하고 따라할 수 있도록 조력하는 것을 또 다른 목적으로 한다.
또한 본 발명은 학습자와 원어민간의 발성 높낮이를 측정하고 그 차이값을 점수화하여 표현함으로써, 언어 학습자가 자신의 발성을 좀 더 정교하게 교정할 수 있도록 조력하는 것을 또 다른 목적으로 한다.
나아가 본 발명은 인간의 발성 뿐 아니라 모든 소리의 높낮이를 측정하여 학습이나 분석에 사용될 수 있도록 변형시키는 방법을 제공함으로써 이를 다양한 응용 분야에 이용할 수 있도록 하는 것을 또 다른 목적으로 한다.
도 1은 발성 "아"의 음형을 모식적으로 나타낸 도면
도 2는 발성을 좀 더 높은 음으로 발성한 경우의 음형을 모식적으로 나타낸 도면
도 3은 본 발명의 음형 데이터 샘플링 구간 및 그 방법을 모식적으로 나타낸 도면
도 4는 상기 샘플링 구간에서 추출된 음의 높낮이를 나타낸 도면
도 5는 언어의 원어민과 외국인이 가지는 억양의 차이를 모식적으로 나타낸 도면
도 6 내지 도 7은 억양 데이터의 비교를 위한 정규화 단계의 과정을 나타낸 도면
도 8은 두 억양의 차이값을 산출하기 위한 모식도
도 9는 본 발명의 방법을 나타내는 플로우차트
상기와 같은 목적을 달성하기 위한 본 발명의 방법은 음의 세기를 측정하여 계산할 수 있는 컴퓨터 시스템의 모니터상에 음의 높낮이를 시각적으로 디스플레이하는 방법에 그 특징이 있으며, 이것은 음을 상기 컴퓨터 시스템에 입력하는 단계와, 상기 입력된 음의 세기를 측정하는 단계와, 상기 측정된 음의 세기 중에서 소정의 제1 시간 간격에 걸쳐 가장 센 음을 가지는 최대치간의 피치를 측정하는 단계와, 상기 측정된 피치의 역수를 상기 제1 시간 간격의 음높이로 설정하는 단계와, X축을 시간축으로 하고 Y축을 음높이로 하는 좌표 평면을 상기 모니터상에 디스플레이하는 단계와, 상기 X축상의 상기 제1 시간 간격의 중간점에 대응하도록 상기 설정된 음높이를 상기 좌표 평면상에 디스플레이하는 단계를 포함하는 것을 특징으로 한다. 또한, 상기와 같은 구성을 이용한 본 발명의 언어 학습 시스템은, 발성자의 발음을 입력받는 수단과, 상기 입력된 발음을 분석하여 전술한 방법으로 억양 데이터를 구간별로 추출하는 수단과, 추출된 두 개의 상이한 억양 중 어느 하나를 기준으로 나머지 한 억양의 데이터를 비례적으로 변경하여 정규화하는 수단과, 상기 정규화된 억양과 상기 기준이 된 억양을 동일한 크기를 가진 두 개의 화면 박스상에 각각 나란히 디스플레이 수단을 포함하여 구성된다. 또한, 본 발명은 컴퓨터 시스템을 이용하여 소정의 기준 억양을 가진 음성과 새로 입력되는 음성의 억양을 비교하여 그 차이를 계량화하는 시스템을 제공하는 것으로서, 이 시스템에서 입력되는 음성의 억양 데이터를 산출하기 위한 수단은, 입력된 음성의 세기를 측정하는 수단과, 상기 측정된 음성의 세기 중에서 소정의 시간 간격들에 걸쳐 가장 센 음을 가지는 최대치간의 피치들을 측정하는 수단과, 상기 측정된 피치들의 역수를 상기 측정된 시간 간격들 각각의 음높이로 설정하여 입력된 음성의 억양을 산출하는 수단을 포함하고 있으며, 또한 입력받은 음성을 상기 기준 억양을 가진 음성과 비교하여 계량화하는 수단은, 상기 기준 억양을 가지는 음성 데이터를 기준으로 상기 입력된 음성의 억양을 정규화하는 수단과, 상기 정규화된 음성의 억양 평균값과 상기 기준 음성의 억양 평균값의 차이값만큼 상기 정규화된 음성의 억양 데이터들을 상기 기준 억양의 데이터쪽으로 이동(shift)시키는 수단과, 상기 이동된 억양 데이터들과 상기 기준 억양 데이터들의 차이값들을 다수 개 추출하는 수단과, 상기 추출된 다수 개의 차이값들의 편차를 산출하는 수단을 포함하고 있다. 또한, 본 발명은 하드웨어적 구성 뿐 아니라 소프트웨어적 구성 및 이 소프트웨어를 기록한 기록 매체의 형태로 제공될 수 있다.
이하, 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다.
소리는 일반적으로 매질의 진동으로 전달되는 일종의 에너지 파(波)이다. 따라서 소리는 주파수 및 파의 진폭으로 표현될 수 있으며, 또한 일반적으로 어떤 특정 소리는 어떤 특정 파형을 가지고 있다. 도 1은 이에 대한 한 예로써, 우리말 "아"를 인간이 발성할 때 내는 파형을 모식적으로 표현한 것이다. 여기서 X축은 시간축이며 Y축은 소리의 크기, 즉 소리 파형이 가진 에너지를 나타낸 것이다.
도 1에서는 도시된 바와 같이 유사한 파형 패킷이 반복되어 나타남을 볼 수 있는데 이런 파형 패킷은 비록 서로 다른 사람이라 하더라도 동일음에 대해서는 유사한 모양을 가지고 있다고 알려져 있다. 또한 각 패킷마다 소리의 세기가 최고치인 피크 점(110, 110', 110")이 있는데, 일반적으로 이 최고 피크치들간의 간격을 피치(pitch)라고 칭한다.
소리의 높낮이는 이 피치가 어느 정도로 긴 것인가로 결정된다. 가령, 음계에 맞춰 "아"를 발성하면, 음계 도에 맞춘 "아"의 파형보다 음계 레에 맞춘 "아"의 파형이, 모양은 동일하지만 그 피치는 짧아진다. 즉, 도 1이 음계 도에 맞춘 "아"의 파형이려면, 도 2는 음계 레에 맞춘 "아"의 파형으로서, 파형 모양은 동일하지만 도 2의 파형이 도 1의 파형에 비해 그 피치가 더 짧아진 것을 볼 수 있다.
본 발명은 이러한 성질을 이용하여 소리의 피치를 측정한 후, 이로부터 억양을 수치적으로 찾아내어 학습에 이용할 수 있도록 가공 처리하는 새로운 방법을 제공하는 것이다.
도 3은 본 발명의 피치 측정 방법을 모식적으로 나타낸 것이다. 일단 소리의 파형을 측정하는 것은 일반적인 소리 센서, 가령 마이크 등으로 간단히 측정할 수 있다. 본 발명의 시스템은 마이크로부터 입력된 소리 신호를 전기 신호로 전환한 후, 가령 한 실시예로서 초당 16000개, 즉 16Khz로 데이터를 샘플링하여 전기 신호의 강약에 따른 소리 신호의 강약을 분석한다. 그 다음, 측정 단위로 지정된 일정한 시간 범위 내, 가령 10 msec~ 20 msec내의 최고 피크 값을 찾아내고 이 피크 값사이의 시간을 상기 측정 단위 시간의 피치값으로 정한다. 도 3은 이러한 방식을 모식적으로 나타낸 것이다. 만약, 상기 측정 시간 범위 내에 여러 개의 동일한 높이를 가진 피크 값이 나타난다면 피치값도 여러 개가 되지만, 일반적으로 상기 측정 시간 범위 내에서는 이 피치값들이 동일하거나 극히 유사하다. 따라서 약간씩 피치값이 다른 경우, 가장 많은 빈도를 가진 피치값을 이 구간 내의 피치값으로 선정할 수 있다. 또한, 상기 측정 시간 범위들(I, II, III..)은 서로 반씩 겹치도록 하여 피치값의 변화를 좀 더 연속적으로 측정하도록 조정할 수도 있다.
도 3에서는 예시적으로 시간이 진행될수록 피치가 점진적으로 길어지는 예를 도시하고 있다. 이것은 시간이 지날수록 음이 점점 낮아지는 것을 의미하는데, 왜냐하면 피치값이 클수록 저음을 나타내고 피치값이 작을수록 고음을 나타내기 때문이다. 또한 이 관계에서도 알 수 있듯이, 측정된 피치값들이 실제 음의 높낮이를 나타내게 하기 위해서는 이를 역수화하여야 한다.
도 4에서는 도 3에서 측정된 피치값을 역수로 환산하여 상기 각 측정 시간 범위의 중간 지점에 표시하고 이를 연속적으로 연결한 선을 나타내고 있다. 전술한 10 msec~ 20 msec의 짧은 측정 구간 내에서 불연속적으로 급격히 음이 높아지거나 낮아지는 일은 발생하지 않으므로 이러한 연결은 실제 음의 높낮이를 표현한 것이라 생각할 수 있다. 결과적으로 도 4에서 시간의 진행에 따른 음의 높낮이, 즉 억양이 시각적으로 표현되었음을 주목하기 바란다.
전술한 방법으로 음의 높낮이를 시각적으로 표현하는 본 발명의 방법은 구체적으로 외국어 등의 언어 학습에 다음의 실시예처럼 사용될 수 있다.
우선, 원어민의 발성으로부터 그 억양이 전술한 방법처럼 추출되어 시각적으로 표현된 후, 언어 학습자가 동일한 단어나 문장을 발음하고 역시 시각적으로 표현된 자신의 억양과 이를 비교하면, 두 억양의 차이점을 눈으로 쉽게 인지할 수 있게 된다. 기존의 방법이 청각만으로 학습하는 것이므로 분석적이라기보다는 감각적인 학습 방법에 많이 의존한 것이라 할 때, 본 발명이 제시하는 방법은 보다 정확하게 억양을 학습할 수 있는 새로운 학습 모델이 될 것이다. 도 5는 예시적으로 원어민의 억양 그래프(510)와 학습자의 억양 그래프(520)가 나란히 디스플레이되는 상황을 모식적으로 표현한 것이다.
좀 더 쉽고 정확한 비교를 위해서는 도 5처럼 억양 그래프가 동일한 크기의 사각형 디스플레이 내에 표현되어야 한다. 즉, 동일한 X축 길이와 동일한 Y축 길이를 가진 디스플레이 박스 내에 두 그래프가 나타나야 하는데, 이는 일단 발성의 높이와 발성 시간이 동일해야 함을 의미한다. 하지만, 일반적으로 같은 언어를 쓰는 사람들간에도 동일한 문장에 대해 동일한 시간 길이로 발음하는 일은 발생하지 않으며, 또한 억양의 높낮이의 모양도, 가령 여자의 경우 남자보다 좀 더 높은 음으로 발음하는 경우처럼 그 절대치도 다르다고 할 수 있다. 따라서 비교를 위해서는 이를 정규화하여 디스플레이 하는 방법이 필요한데, 이하에서는 본 발명에서 사용하는 정규화 방법의 한 실시예를 설명한다. 참고로 본 발명에서정규화(normalizing)란, 비교 대상이 되는 두 개의 상이한 억양들을 이하에서 설명하는 방식처럼 상대적인 값으로 변경하여 비교가 가능하도록 데이터를 변환하는 것을 말한다.
도 6에 보이는 것처럼 서로 다른 두 사람이 동일한 문장을 발성한 경우에 있어서의 억양 그래프(610, 620)를 실제로 측정하면, 그 발성의 시간적 길이(X1, X2)와 높낮이의 절대치(Y1, Y2)가 서로 다르다는 것은 전술한 바와 같다. 또한 중간에 억양이 측정되지 않는 구간(611, 621)이 나타나는데, 이것은 일반적으로 무성음이나 묵음 영역을 나타낸다고 할 수 있다.
이처럼 서로 다른 두 그래프를 정규화시키기 위해서는, 우선 상기 묵음 영역을 제거한 후, 그 양끝을 연결하여 도 7처럼 데이터를 처리한다. 그 다음, X1'과 X2'의 비례치를 측정하고 두 그래프 중 한 그래프의 값들을 이 비례치에 맞추어 X축 방향으로 확장하거나 축소시키고, Y1 및 Y2 역시 동일한 방식으로 두 값의 비례를 구하여 한 그래프의 측정치들을 조정하여 표현하면, 억양의 원래 모양이 유지된 채로 두 그래프는 동일한 디멘젼(dimension)으로 표현할 수 있게 된다. 예로서, 점선으로 표시된 모양(710)은 학습자의 억양 그래프를 원어민의 억양 그래프로 정규화시킨 모양을 나타낸 것이며, 이로써 본 발명에서 의도하는 정규화가 완료된다. 이는 마치 크기가 다른 두 사각형 고무판 중 한 고무판을 다른 고무판의 길이 및 높이에 맞추어 대각선 방향(720)으로 확장하거나 축소시키는 것과 동일하다.
도 8은 본 발명의 또 다른 실시예를 나타낸 것으로서, 언어 학습자가 발성한 억양을 원어민의 억양과 비교하여 그 차이값을 수치화 한 다음, 이를 점수로 표시하는 방법을 나타내고 있다. 점수로 표현하고자 하는 이유는 언어 학습 행동에 대한 정량적 평가를 통하여 학습의 진도를 측정하고 계속적인 학습 동기를 유발하기 위해서이다.
일단, 점수화의 가장 큰 요지는 특정 시점에서 두 억양 간의 편차가 얼마나 발생하느냐이며 이 편차가 클수록 두 억양의 모양은 서로 달라지므로 점수도 작아진다. 하지만 어떤 특정 시점만의 편차를 구하는 것은 별 의미가 없으므로, 각 측정 시점이 다수 개 지정된 일정 시간 영역의 총 표준편차를 구하고 이를 토대로 점수화하는 것이 타당하다.
구체적인 방법으로, 우선 원어민의 억양과 언어 학습자의 억양을 전술한 바와 같이 정규화 한 다음, 각각 그 Y축 평균값인 평균 억양 높이를 계산한다. 그 다음, 이 평균값들의 차이만큼 어느 한 그래프의 데이터들을 Y축 방향으로 이동시켜 두 그래프를 겹치도록 표시하면, 두 그래프간의 Y축 간격차는 각 시점에서의 편차를 나타낸다. 이렇게 평균값에 대한 이동을 하는 이유는 억양의 모양차가 중요하기 때문에, 이로부터 결정되는 점수를 알아내기 위해서이다.
도 8은 전술한 도 7의 그래프들을 이 방법으로 표현한 것이다. 점선으로 표시된 부분(810)이 학습자의 억양을 나타내며 실선은 원어민의 억양이다. 두 억양의 차이값들은 전술한 바와 같이 일정 시점들을 규칙적으로 지정하여 측정되는데, 측정된 차이값들(820)은 그 제곱들을 더한 합의 제곱근을 구하고 모수, 가령 총 측정값들의 갯수나 또는 측정 시간 구간의 길이로 나눠주면 편차가 구해진다. 점수는 100점에서 이 편차값을 빼주는 방식으로 표현될 수 있다.
도 9는 본 발명의 억양 측정 방법 및 이를 이용한 언어 학습 시스템의 작업 플로우차트를 나타낸 것이다. 먼저, 원어민의 억양을 녹음하는 과정인 스텝 A를 살펴보면, 원어민이 특정 문장이나 단어를 발음한 후, 이것은 시스템의 마이크 등을 통해 입력된다. 입력된 데이터들에 대해서는 전술한 방식으로 고속 샘플링하여 음파의 파형을 도출하고 소정 시간 구간 내의 피치 데이터를 산출한다. 그 다음, 이 피치 데이터를 역수로 환산하여 억양 데이터를 산출한다. 편의상 원어민의 억양 데이터를 A라 하였는데, 산출된 데이터 A는 후에 사용자의 학습시 비교 데이터로 사용되기 위해서 시스템이 정한 규칙에 따라 정규화되어 본 발명 시스템의 저장 장치에 저장된다. 본 발명의 시스템이란 본 발명이 구현될 수 있는 컴퓨터 시스템을 말하는 것으로서, 일반적인 PC 나 기타 상용화된 컴퓨터 서버 및 언어 학습 전용 단말기 등 다양한 형태를 포함하는 개념이다. 언어 학습자의 발성을 분석하는 스텝 B에서도 상기 스텝 A와 동일하거나 유사한 방식으로 학습자의 억양 데이터 B가 추출되어 정규화된다.
정규화된 두 데이터 A, B는 언어 학습자가 시각적으로 비교, 판단할 수 있도록 본 발명의 시스템에 연결된 화면상에서 동시에 또는 순차적으로 디스플레이된다.
또한 학습자가 원할 경우 두 데이터들의 차이를 구하여 점수화하는 과정을거칠 수 있는데, 이는 전술한 바와 같이 두 데이터들의 평균값 및 그 차이값을 구하고, 가령 데이터 B의 값들을 상기 차이값만큼 Y축으로 이동시킨 후, 전술한 방법으로 편차를 구해낸다. 그 다음, 100점인 만점에서 이 편차값을 빼면 본 발명의 점수가 될 수 있다. 점수의 분포를 더 벌리기 위해서 편차값에 1보다 큰 가중치를 곱하여 100점에서 삭감하는 방법으로 점수를 도출하는 것도 물론 가능하다.
본 발명은 언어 학습에 있어서 가장 중요한 학습 대상 중 하나인 억양을 시각적으로 표현하여 언어 학습자의 학습이 좀 더 효율적으로 수행되도록 한 것에 그 특징이 있다. 특히 언어 학습자는 기존처럼 청각만으로 원어민의 억양을 판단한 후, 자신의 발성이 적정한 억양을 띄고 있는지를 알지 못한 채 무작정 이를 모방하던 상황에서 벗어나, 시각적이며 계량적인 방법으로 양자간의 차이점을 인식하면서 학습할 수 있게 됨으로써 학습 효율이 향상되고 자신의 단점을 손쉽게 인지하여 교정할 수 있게 되었다.
또한, 본 발명을 이용하면 학습자의 억양과 원어민의 억양차를 계량화하고 수치화함으로써, 학습자가 매번 자신의 발성이 어느 정도 향상되었는지를 점수로 파악할 수 있다. 이러한 점수화는 곧 학습자 스스로 학습 동기를 유발하는 좋은 계기로 작용할 수 있을 것이다.
이러한 본 발명의 특징을 이해한 이 분야의 전문가라면, 본 발명의 범주를 벗어나지 않는 범위내에서 다양한 변형예를 손쉽게 생각해 낼 수 있을 것이다. 가령, 발성자의 억양이 시각적으로 표현되는 것과 동시에 그 억양이 문장의 어느 부분까지 진행된 억양인지를 문장과 함께 표현되도록 구성할 수도 있으며, 억양 발성 연습을 좀 더 흥미롭게 하기 위해서 점수화된 데이터로 동시에 2인 이상이 게임을 수행할 수도 있다. 또한, 본 발명에서 제시하는 두 음의 높낮이 비교 및 그 차이를 수치화하는 방법은 외국어 학습 외에도 청각장애자들의 언어 학습이나, 음악에 관련된 학습 등에도 사용될 수 있으며, 범죄 수사시 범인의 목소리 분석 등 다양한 응용 분야에 사용될 수 있음은 물론이다.

Claims (12)

  1. 음의 세기를 측정하여 계산할 수 있는 컴퓨터 시스템의 모니터상에 음의 높낮이를 시각적으로 디스플레이하는 방법에 있어서,
    음을 상기 컴퓨터 시스템에 입력하는 단계와,
    상기 입력된 음의 세기를 측정하는 단계와,
    상기 측정된 음의 세기 중에서 소정의 제1 시간 간격에 걸쳐 가장 센 음을 가지는 최대치간의 피치를 측정하는 단계와,
    상기 측정된 피치의 역수를 상기 제1 시간 간격의 음높이로 설정하는 단계와,
    X축을 시간축으로 하고 Y축을 음높이로 하는 좌표 평면을 상기 모니터상에 디스플레이하는 단계와,
    상기 X축상의 상기 제1 시간 간격의 중간점에 대응하도록 상기 설정된 음높이를 상기 좌표 평면상에 디스플레이하는 단계
    를 포함하는 것을 특징으로 하는 음높이의 시각적 디스플레이 방법.
  2. 제1항에 있어서,
    상기 소정 시간 간격에 인접하는 제2 시간 간격을 설정하는 단계와,
    상기 제2 시간 간격에 걸쳐 가장 센 음을 가지는 최대치간의 피치를 측정하는 단계와,
    상기 측정된 피치의 역수를 상기 제2 시간 간격의 음높이로 설정하는 단계와,
    상기 X축상의 상기 제2 시간 간격의 중간점에 대응하도록 상기 제2 시간 간격의 음높이를 상기 좌표 평면상에 디스플레이하는 단계와,
    상기 디스플레이된 제1 시간 간격 및 제2 시간 간격의 음높이들을 서로 연결하는 선을 디스플레이하는 단계를
    추가로 포함하여 음의 높낮이 변화를 디스플레이하는 것을 특징으로 하는 음높이의 시각적 디스플레이 방법.
  3. 제2항에 있어서, 상기 제1 시간 간격의 후반부와 상기 제2 시간 간격의 전반부는 시간적으로 서로 겹치는 것을 특징으로 하는 음높이의 시각적 디스플레이 방법.
  4. 제1항 내지 제4항에 있어서, 상기 음은 인간의 발성인 것을 특징으로 하고, 상기 음의 높낮이는 상기 발성의 억양인 것을 특징으로 하는 음높이의 시각적 디스플레이 방법.
  5. 언어 학습 시스템에 있어서,
    발성자의 발음을 입력받는 수단과,
    상기 입력된 발음을 분석하여 억양을 추출하는 수단과,
    추출된 두 개의 상이한 억양 중 어느 하나를 기준으로 나머지 한 억양의 데이터를 비례적으로 변경하여 정규화하는 수단과,
    상기 정규화된 억양과 상기 기준이 된 억양을 동일한 크기를 가진 두 개의 화면 박스상에 각각 나란히 디스플레이 수단
    을 포함하는 것을 특징으로 하는 언어 학습 시스템.
  6. 제5항에 있어서, 상기 정규화 수단이 상기 정규화를 수행하기에 앞서서, 상기 추출된 두 개의 억양으로부터 묵음 영역을 제거하는 전처리 과정을 수행하는 것을 특징으로 하는 언어 학습 시스템.
  7. 제5항에 있어서, 상기 기준이 되는 억양은 원어민의 억양이며, 상기 정규화된 억양은 외국어 학습자의 억양인 것을 특징으로 하는 언어 학습 시스템.
  8. 컴퓨터 시스템을 이용하여 소정의 기준 억양을 가진 음성과 새로 입력되는 음성의 억양을 비교하여 그 차이를 계량화하는 방법에 있어서,
    상기 입력되는 음성의 억양 데이터를 산출하기 위한 단계는,
    입력된 음성의 세기를 측정하는 단계와,
    상기 측정된 음성의 세기 중에서 소정의 시간 간격들에 걸쳐 가장 센 음을 가지는 최대치간의 피치들을 측정하는 단계와,
    상기 측정된 피치들의 역수를 상기 측정된 시간 간격들 각각의 음높이로 설정하여 입력된 음성의 억양을 산출하는 단계를 포함하고,
    상기 기준 억양을 가진 음성과 비교하여 계량화하는 단계는,
    상기 기준 억양을 가지는 음성 데이터를 기준으로 상기 입력된 음성의 억양을 정규화하는 단계와,
    상기 정규화된 음성의 억양 평균값과 상기 기준 음성의 억양 평균값의 차이값만큼 상기 정규화된 음성의 억양 데이터들을 상기 기준 억양의 데이터쪽으로 이동(shift)시키는 단계와,
    상기 이동된 억양 데이터들과 상기 기준 억양 데이터들의 차이값들을 다수 개 추출하는 단계와,
    상기 추출된 다수 개의 차이값들의 편차를 산출하는 단계
    를 포함하는 것을 특징으로 하는 억양 차이의 계량화 방법.
  9. 컴퓨터 시스템을 이용하여 소정의 기준 억양을 가진 음성과 새로 입력되는 음성의 억양을 비교하여 그 차이를 계량화하는 시스템에 있어서,
    상기 입력되는 음성의 억양 데이터를 산출하기 위한 수단은,
    입력된 음성의 세기를 측정하는 수단과,
    상기 측정된 음성의 세기 중에서 소정의 시간 간격들에 걸쳐 가장 센 음을 가지는 최대치간의 피치들을 측정하는 수단과,
    상기 측정된 피치들의 역수를 상기 측정된 시간 간격들 각각의 음높이로 설정하여 입력된 음성의 억양을 산출하는 수단을 포함하고,
    상기 기준 억양을 가진 음성과 비교하여 계량화하는 수단은,
    상기 기준 억양을 가지는 음성 데이터를 기준으로 상기 입력된 음성의 억양을 정규화하는 수단과,
    상기 정규화된 음성의 억양 평균값과 상기 기준 음성의 억양 평균값의 차이값만큼 상기 정규화된 음성의 억양 데이터들을 상기 기준 억양의 데이터쪽으로 이동(shift)시키는 수단과,
    상기 이동된 억양 데이터들과 상기 기준 억양 데이터들의 차이값들을 다수 개 추출하는 수단과,
    상기 추출된 다수 개의 차이값들의 편차를 산출하는 수단
    을 포함하는 것을 특징으로 하는 억양 차이의 계량화 시스템.
  10. 제9항에 있어서, 상기 기준 억양의 음성 데이터는 원어민의 음성 데이터이고 상기 새로 입력되는 음성 데이터는 외국어 학습자의 음성 데이터인 것을 특징으로 하는 억양 차이의 계량화 시스템.
  11. 제9항에 있어서, 상기 산출된 편차값을 미리 설정된 만점에서 삭감하여 도출되는 점수를 상기 두 억양의 차이값으로 제시하는 것을 특징으로 하는 억양 차이의 계량화 시스템.
  12. 음의 세기를 측정하여 계산할 수 있는 컴퓨터 시스템의 모니터상에 음의 높낮이를 시각적으로 디스플레이하는 컴퓨터 프로그램 기록 매체에 있어서,
    상기 컴퓨터 시스템에 입력된 음의 세기를 측정하는 수단과,
    상기 측정된 음의 세기 중에서 소정의 제1 시간 간격에 걸쳐 가장 센 음을 가지는 최대치간의 피치를 측정하는 수단과,
    상기 측정된 피치의 역수를 상기 제1 시간 간격의 음높이로 설정하는 수단과,
    X축을 시간축으로 하고 Y축을 음높이로 하는 좌표 평면을 상기 모니터상에 디스플레이하는 수단과,
    상기 X축상의 상기 제1 시간 간격의 중간점에 대응하도록 상기 설정된 음높이를 상기 좌표 평면상에 디스플레이하는 수단
    를 포함하는 것을 특징으로 하는 음높이를 시각적으로 디스플레이 컴퓨터 프로그램을 기록한 기록 매체.
KR1020020004567A 2002-01-25 2002-01-25 음성 분석 방법 및 그 시스템 KR20030064116A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020004567A KR20030064116A (ko) 2002-01-25 2002-01-25 음성 분석 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020004567A KR20030064116A (ko) 2002-01-25 2002-01-25 음성 분석 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR20030064116A true KR20030064116A (ko) 2003-07-31

Family

ID=32219444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020004567A KR20030064116A (ko) 2002-01-25 2002-01-25 음성 분석 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR20030064116A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030068308A (ko) * 2002-02-15 2003-08-21 주식회사 엘지이아이 음성 코덱을 이용한 그래픽 표시장치 및 방법
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05289607A (ja) * 1992-04-06 1993-11-05 Yoshio Hayama 語学教習具
JPH10207349A (ja) * 1997-01-22 1998-08-07 Mamiya Op Co Ltd カード式語学学習機および音声比較システム
JP2000019941A (ja) * 1998-06-30 2000-01-21 Oki Hokuriku System Kaihatsu:Kk 発音学習装置
JP2000250401A (ja) * 1999-02-25 2000-09-14 Anritsu Corp 言語学習方法、言語学習装置およびプログラムを記録した媒体
JP2000347560A (ja) * 1999-06-08 2000-12-15 Yamaha Corp 発音採点装置
KR20010088140A (ko) * 2000-03-10 2001-09-26 백승헌 외국어 학습을 위한 문장의 화면출력장치 및 방법
KR20010092176A (ko) * 2000-03-21 2001-10-24 이동익 언어 학습 방법과 그의 인터넷을 이용한 구현 방법 및그를 위한시스템
JP2001318592A (ja) * 2000-03-10 2001-11-16 Dong Ick Rhee 言語学習装置及びその言語分析方法
KR20020087709A (ko) * 2001-05-16 2002-11-23 오원록 어학 발음 학습장치

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05289607A (ja) * 1992-04-06 1993-11-05 Yoshio Hayama 語学教習具
JPH10207349A (ja) * 1997-01-22 1998-08-07 Mamiya Op Co Ltd カード式語学学習機および音声比較システム
JP2000019941A (ja) * 1998-06-30 2000-01-21 Oki Hokuriku System Kaihatsu:Kk 発音学習装置
JP2000250401A (ja) * 1999-02-25 2000-09-14 Anritsu Corp 言語学習方法、言語学習装置およびプログラムを記録した媒体
JP2000347560A (ja) * 1999-06-08 2000-12-15 Yamaha Corp 発音採点装置
KR20010088140A (ko) * 2000-03-10 2001-09-26 백승헌 외국어 학습을 위한 문장의 화면출력장치 및 방법
JP2001318592A (ja) * 2000-03-10 2001-11-16 Dong Ick Rhee 言語学習装置及びその言語分析方法
KR20010092176A (ko) * 2000-03-21 2001-10-24 이동익 언어 학습 방법과 그의 인터넷을 이용한 구현 방법 및그를 위한시스템
KR20020087709A (ko) * 2001-05-16 2002-11-23 오원록 어학 발음 학습장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030068308A (ko) * 2002-02-15 2003-08-21 주식회사 엘지이아이 음성 코덱을 이용한 그래픽 표시장치 및 방법
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치

Similar Documents

Publication Publication Date Title
Molholt Computer‐assisted instruction in pronunciation for Chinese speakers of American English
US8972259B2 (en) System and method for teaching non-lexical speech effects
RU2690863C1 (ru) Система и способ компьютеризированного обучения музыкальному языку
Zielinski The segmental/suprasegmental debate
Hincks Technology and learning pronunciation
KR20020007597A (ko) 인터넷 상에서의 자동발음 비교방법을 이용한 외국어 발음학습 및 구두 테스트 방법
US20060053012A1 (en) Speech mapping system and method
KR101329999B1 (ko) 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
Busa New perspectives in teaching pronunciation
CN102723077B (zh) 汉语教学语音合成方法及装置
Sztahó et al. A computer-assisted prosody pronunciation teaching system.
Peabody et al. Towards automatic tone correction in non-native mandarin
KR101599030B1 (ko) 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
KR20070103095A (ko) 주파수 대역폭을 이용한 영어 학습 방법
Zechner et al. Automatic scoring of children’s read-aloud text passages and word lists
KR20030064116A (ko) 음성 분석 방법 및 그 시스템
Öster Auditory and visual feedback in spoken L2 teaching
Hirose Accent type recognition of Japanese using perceived mora pitch values and its use for pronunciation training system
CN111508523A (zh) 一种语音训练提示方法及系统
Sadeghi et al. Persian sentence stress production by Mandarin Chinese speakers
JP7060857B2 (ja) 語学習得装置及び語学習得プログラム
Sbattella et al. Kaspar: a prosodic multimodal software for dyslexia
Widagsa Intonation of English declarative sentence produced by English Department students
Li et al. A study of assessment model of oral English Imitation reading in college entrance examination
KR102610871B1 (ko) 청각장애인 음성언어훈련 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application