KR101193362B1

KR101193362B1 - 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체

Info

Publication number: KR101193362B1
Application number: KR1020120038741A
Authority: KR
Inventors: 최병기
Original assignee: 최병기
Priority date: 2012-04-13
Filing date: 2012-04-13
Publication date: 2012-10-19
Also published as: US20150051911A1; WO2013154296A1

Abstract

본 발명은 문자열에서 어조 표현을 위해 데이터를 추출할 수 있는 발음 단위 분할 방법 및 발음 단위별로 추출된 데이터에 의하여 문자열이 디스플레이되는 동영상 프레임 내의 문자 속성을 변화시킴으로써 문자열의 어조를 표현하는 방법에 관한 것이다. 본 발명에 따른 문자열을 발음 단위로 분할하는 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계 및 상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계 및 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계를 포함한다. 또한, 본 발명에 따른 문자열의 어조 표현 방법은 상기 문자열을 발음 단위로 분할하는 방법에 의하여 문자열을 발음 단위로 분할하는 단계, 상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계, 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계를 포함한다.

Description

문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체{METHOD FOR DIVIDING STRING INTO PRONUNCIATION UNIT, METHOD FOR REPRESENTATION OF THE TONE OF STRING USING THEREOF AND STORAGE MEDIUM STORING VIDEO CLIP REPRESENTING THE TONE OF STRING}

본 발명은 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체에 관한 것으로, 더욱 상세하게는 문자열의 어조 표현을 위해 어조 데이터를 추출할 수 있도록 문자열을 발음 단위로 분할하는 방법, 발음 단위별로 추출된 어조 데이터에 의하여 문자열이 디스플레이되는 동영상 프레임 내의 문자 속성을 변화시켜 문자열의 어조를 표현하는 방법 및 상기 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체에 관한 것이다.

종래에 음원 데이터에 의해 구현되는 사운드의 주파수의 높고 낮음에 따라 음원 데이터에 해당하는 문자의 크기를 조절하는 방법이 있다.

또한, 문자열에 부가되는 음성 정보를 직관적으로 인식할 수 있도록 발음의 강약에 따라 문자의 높이를 다르게 하는 방법이 있다.

또한, 텍스트 문을 표시할 때, 내용이나 감정 또는 기분이 잘 드러날 수 있도록 문자 데이터에 속성 데이터를 부가하는 방법이 있다.

특허문헌 1은 '문자 크기 조절 가능한 오디오 플레이어 및 그 제어 방법'에 관한 것으로, 종래에 오디오 문자 표시 기능 및 템포 표기 기능이 부가된 오디오 플레이어에서 재생되는 오디오 정보의 높낮이를 확인할 수 없던 문제를 개선하여, 음원 데이터에 의해 구현되는 사운드의 주파수를 제1, 제2 기준 주파수와 비교하여 고음, 중간음 및 저음으로 구분하고 음원 데이터에 해당하는 문자가 상기 고음, 중간음 및 저음 중 어디에 해당하는지에 따라 대, 중, 소 중 어느 한 크기로 표시되게 함으로써 문자열의 템포와 높낮이를 동시에 시각적으로 확인할 수 있도록 하는 장치 및 방법이 개시되어 있다.

특허문헌 2는 '음성정보표시장치'에 관한 것으로, 종래에 발음의 고저나 강약 및 포즈(pose)를 표현하려 할 때 특별한 기호를 사용함으로써 직관적인 이해가 곤란하다는 문제를 해결하기 위하여, 문자의 색, 위치, 형상 등을 변경하여 발음정보를 표현함으로써 문자열을 읽을 때 발음이 어떻게 되는지를 직관적으로 알 수 있도록 하는 장치가 개시되어 있다.

특허문헌 3은 '텍스트문의 표시장치'에 관한 것으로, 종래에 단조로운 문자열로 표현되는 텍스트문에서 작성자의 의사를 명확히 이해할 수 없는 문제를 해결하기 위하여, 텍스트문 작성자의 표현이나 감정에 따라 문자의 표시위치, 크기, 두께, 폰트, 농도, 색 및 윤곽성 등의 속성 데이터를 문자에 부가하거나 점멸, 크기변화, 회전, 농도 및 색 변화 등 시간적인 속성 데이터를 부가함으로써, 텍스트문 작성자의 감정이나 기분이 효과적으로 전해지도록 하는 장치가 개시되어 있다.

그러나 종래 기술들에 따르면 문자 단위로 높이, 선굵기, 크기, 색, 위치, 형상 등 문자가 시각적으로 표현되는 속성(이하 '문자 속성'이라 한다)을 변경시키기 때문에 문자열을 발음할 때 실제 발음되는 단위(이하 '발음 단위'라 한다)별로 어조가 어떻게 변화되는지 알 수 없다는 문제점이 있다.

또한, 하나의 문자는 설정된 문자 속성에 고정되어 표현되기 때문에 문자가 발음되는 도중에 어조의 변화가 있더라도 어조를 제대로 표현할 수 없다는 문제점이 있다.

KR 10-2008-0016183 A (2008. 02. 21.) JP 특개평08-179789 A (1996. 12. 26.) JP 특개2005-215888 A (2005. 08. 11.)

본 발명은 위와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명에서 해결하고자 하는 과제는 문자열을 발음 단위별로 분할하고, 발음 단위별로 어조를 나타낼 수 있는 데이터를 추출하는 방법을 제공하는 것이다.

본 발명에서 해결하고자 하는 또 다른 과제는 상기 추출된 데이터에 의하여 문자열이 디스플레이되는 동영상에서 문자 속성을 프레임 단위로 변화시킴으로써 문자 또는 문자열의 어조를 자연스럽게 표현하는 방법을 제공하는 것이다.

위와 같은 과제를 해결하기 위한 본 발명에 따른 문자열을 발음 단위로 분할하는 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계, 상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계 및 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계를 포함하는 것을 기술적 특징으로 한다.

또한, 본 발명에 따른 문자열의 어조 표현 방법은 상기 문자열을 발음 단위로 분할하는 방법에 의하여 문자열을 발음 단위로 분할하는 단계, 상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계, 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계를 포함하는 것을 기술적 특징으로 한다.

본 발명에 따른 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체는 문자열을 발음 단위에 따라 분할하여 어조를 표현할 수 있다.

또한, 동영상으로 디스플레이되는 문자 속성을 프레임 단위로 변화시킴으로써 문자열의 어조를 자연스럽게 표현할 수 있다.

도 1은 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법의 순서도
도 2는 본 발명에서 음성 파형을 근사시켜 얻고자 하는 결과의 예시도
도 3은 문자열을 발음했을 때 음성 강도 패턴의 예시도
도 4는 특정 극대점과 인접한 다른 극대점의 관계에 따라 발음 단위가 분할되는 것을 보인 예시도
도 5는 도 3의 음성 강도 패턴이 3개의 발음 단위로 분할된 결과도
도 6은 발음 단위 내에서 음성 피치가 변화하는 경우의 수를 도시한 예시도
도 7은 음성 강도 및 음성 피치에 따라 문자에 속성을 부여한 예시도

아래에서는 본 발명에 따른 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체를 첨부된 도면을 통해 더욱 상세히 설명한다.

도 1은 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법을 순서도로 도시한 것이다.

본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계(S100), 상기 추출된 극대점을 그룹핑(grouping)하여 그룹을 형성하는 단계(S200), 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점(이하 '극소점 등'이라 한다) 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계(S300), 발음 단위별 대표 어조 데이터를 추출하는 단계(S400), 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500) 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계(S600)를 포함한다.

도 2는 본 발명에서 음성 파형을 근사시켜 얻고자 하는 결과의 예시도이다. 문자열을 발음한 것을 측정하면 도 2에 점선으로 표시된 것과 같은 들쭉날쭉한 음성 강도 파형을 얻을 수 있다. 문자열의 어조를 표현하기 위해서는 연속적인 음성 파형을 분석하기보다 분할된 음성 파형을 분할하는 것이 간단하므로 문자열을 소정의 기준으로 분할할 필요가 있다. 그런데 인간은 통상 발음이 일정 시간 이상 끊어지거나 음성 강도가 급격히 변하는 때에 발음이 구분됨을 느끼고, 연음 또는 음성 강도가 완만하게 변할 때에는 발음이 연속된다고 느끼므로, 문자열의 어조를 표현하기 위해서는 문자열을 발음 단위로 분할하는 것이 자연스럽다.

문자열을 발음 단위로 분할하는 데는 여러 가지 방법이 있겠으나, 산과 골이 반복되는 꺾어진 직선으로 음성 파형을 근사시켜 문자열을 발음 단위로 분할하는 것이 본 발명에 따른 문자열을 발음 단위로 분할하는 방법의 기술사상이다. 그런데, 산과 골이 반복되는 꺾어진 직선이란 1 개의 극대점과 상기 극대점의 양쪽에 있는 2 개의 극소점을 잇는 삿갓 모양으로 꺾어진 직선의 집합이므로, 문자열을 발음 단위로 구분하기 위해서는 1 개의 극대점과 그 양쪽의 2 개의 극소점을 추출하면 된다.

본 발명은 상기 1 개의 극대점과 그 양쪽의 2 개의 극소점을 추출하여 형성된 발음 단위를 하나 또는 둘 이상 연속적으로 배치하여 문자열의 어조를 표현할 수 있도록 하고, 최종적으로는 문자열의 어조를 표현할 수 있는 동영상 데이터를 제공한다.

아래에서는 먼저 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법을 단계별로 상세히 설명한다.

1) 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계(S100)

도 3은 문자열을 발음했을 때 음성 강도 패턴의 예시도이다. 음성 강도 패턴으로부터 음성 강도값이 극대 또는 극소가 되는 점을 구할 수 있다. 도 3의 예에서 음성 강도는 시각 0.06sec, 0.11sec, 0.19sec, 0.28sec, 0.45sec에서 각각 80㏈, 85㏈, 82㏈, 87㏈, 78㏈의 극대값을 가지고, 0.09sec, 0.15sec, 0.24sec, 0.36sec에서 각각 77㏈, 75㏈, 72㏈, 76㏈의 극소값을 가진다.

2) 추출된 극대점을 그룹핑하는 단계(S200)

그런데 인간은 너무 짧은 시간 간격으로 음성 강도가 변하거나 특정 음성 강도 이상의 변화가 없으면 음성 강도가 변화한 것을 느끼지 못하므로, 상기 너무 짧은 시간 간격으로 음성 강도가 변하는 경우 또는 특정 음성 강도 이상의 변화가 없는 경우에는 인접한 극대값을 그룹핑하여 그룹을 형성하고 하나의 극대값으로 표현하더라도 어조의 변화를 표현하기에 충분하다.

따라서 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법은 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t₁ 미만인 경우는 상기 특정 극대점과 인접한 다른 극대점을 그룹핑하고 극대값 중 큰 값을 그룹의 대표값으로 한다.

또한, 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t₁ 이상 t₂ 미만인 경우는 상기 특정 극대점과 인접한 다른 극대점의 극대값의 차이가 소정 크기 I(㏈) 미만일 때는 상기 특정 극대점과 인접한 다른 극대점을 그룹핑하여 극대값 중 큰 값을 그룹의 대표값으로 하고, 상기 특정 극대점과 인접한 다른 극대점의 극대값의 차이가 소정 크기 I(㏈) 이상일 때는 상기 특정 극대점과 인접한 다른 극대점을 별개의 그룹으로 하고, 상기 특정 극대점의 극대값과 인접한 다른 극대점의 극대값이 각각 그룹의 대표값이 되도록 한다.

또한, 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t₂ 이상인 경우는 상기 특정 극대점과 인접한 다른 극대점을 별개의 그룹으로 하고, 상기 특정 극대점의 극대값과 인접한 다른 극대점의 극대값이 각각 그룹의 대표값이 되도록 한다.

3) 그룹의 양쪽에 있는 극소점 등 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계(S300)

극대점이 그룹핑되면, 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열이 발음 단위로 분할된다. 발음 단위는 음성 강도 그래프에서 항상 삼각형 모양으로 분할되고, 상기 방법으로 분할되는 발음 단위가 여러 개 모여서 문자열의 어조를 표현하게 된다.

도 4는 특정 극대점과 인접한 다른 극대점의 관계에 따라 발음 단위가 분할되는 것을 보인 예시도이다.

도 4(a)는 2 개의 극대점 P, Q 간의 시간 간격이 t₁ 미만인 경우를 도시한 것인데, 둘 중 극대값이 큰 Q가 그룹의 대표값이 되며, P와 Q의 양쪽에 있는 극소점 p와 r가 각각 발음 단위의 음성 시작점과 음성 종료점이 된다.

도 4(b)는 극대점 R, S 간의 시간 간격 및 S, U 간의 시간 간격이 모두 t₁ 이상 t₂ 미만인 경우를 도시한 것인데, 극대점 R와 S의 차이는 I(㏈) 미만이므로 둘 중 극대값이 큰 R이 그룹의 대표값이 되며, 극대점 S와 U의 차이는 I(㏈) 이상이므로 U가 별도의 그룹의 대표값이 된다. 따라서, 도 4(b)의 경우 극대점 R와 S를 중심으로 양쪽에 있는 극소점 r와 u가 첫 번째 발음 단위의 음성 시작점과 음성 종료점이 되며, 극대점 U를 중심으로 양쪽에 있는 극소점 u와 v가 두 번째 발음 단위의 음성 시작점과 음성 종료점이 된다. 즉, 도 4(b)와 같은 음성 강도 패턴은 2 개의 발음 단위로 구분된다.

도 4(c)는 극대점 V, W 간의 시간 간격이 t₂ 이상인 경우를 도시한 것인데, V와 W가 모두 별개의 그룹의 대표값이 되며 극대점 V의 양쪽에 있는 극소점 v와 w가 첫 번째 발음 단위의 음성 시작점과 음성 종료점이 되며, 극대점 W의 양쪽에 있는 극소점 w와 x가 두 번째 발음 단위의 음성 시작점과 음성 종료점이 된다. 즉, 도 4(c)와 같이 음성 강도 패턴의 두 극대점 간의 시간 간격이 t₂ 이상인 경우에는 발음 단위가 구분된다.

구체적인 수치를 적용하여 다시 도 3의 경우를 설명한다. 통상 연음되어 발음을 끊을 수 없는 시간이 약 0.06sec, 어절이 구분되는 평균시간이 약 0.10sec, 인간이 소리의 크기 변화를 느낄 수 있는 음성 강도 차이가 약 3.5㏈인 점을 감안하여 t₁ = 0.06sec, t₂ = 0.10sec, I = 3.5㏈로 설정하는 경우에, 첫 번째 극대점 A(0.06sec, 80㏈)와 두 번째 극대점 B(0.11sec, 85㏈) 간의 시간 간격인 0.05sec가 t₁ 미만이므로, 두 극대점 중 극대값이 큰 B(0.11sec, 85㏈)가 첫 번째 그룹의 대표값이 된다. 다음으로, 두 번째 극대점 B(0.11sec, 85㏈)와 세 번째 극대점 C(0.19sec, 82㏈) 간의 시간 간격인 0.08sec가 t₁ 이상 t₂ 미만이고 두 극대값의 차이가 3㏈로 I 미만이므로 두 극대점 중 극대값이 큰 B(0.11sec, 85㏈)가 대표값이 되는데 B는 이미 첫 번째 그룹의 대표값이므로 최종적으로 B가 A, B, C 세 극대값이 그룹핑된 A, B, C 그룹(이하 극대값이 포함된 그룹을 이와 같이 칭한다)의 대표값이 된다. 만약, 위의 경우에서 A, B 그룹의 대표값과 B, C 그룹의 대표값이 다르다면 그 중 큰 대표값이 A, B, C 그룹의 대표값이 된다.

세 번째 극대점 C(0.19sec, 82㏈)와 네 번째 극대점 D(0.28sec, 87㏈) 간의 시간 간격 0.09sec는 t₁ 이상 t₂ 미만이고 두 극대값의 차이인 5㏈는 I 이상이므로 두 극대점 중 극대값이 큰 D(0.28sec, 87㏈)가 D 그룹의 대표값이 된다.

네 번째 극대점 D(0.28sec, 87㏈)와 다섯 번째 극대점 E(0.45sec, 78㏈) 간의 시간 간격 0.17sec는 t₂ 이상이므로, 다섯 번째 극대점 E(0.45sec, 78㏈)가 E 그룹의 대표값이 된다.

상기 과정을 거쳐 도 3에 도시된 음성 강도 패턴의 예에서, 대표값은 B(0.11sec, 85㏈), D(0.28sec, 87㏈), E(0.45sec, 78㏈)로 압축되며, B가 제1 구간 0 ~ 0.24sec에서 A, B, C 그룹의 대표값이 되고, D가 제2 구간 0.24 ~ 0.36sec에서 D 그룹의 대표값이 되며, E가 제3 구간 0.36 ~ 0.50sec에서 E 그룹의 대표값이 된다.

음성이 없을 때의 기본 소음 정도를 50㏈라 할 때, 제1 구간은 음성 시작점 a(0sec, 50㏈), B(0.11sec, 85㏈), 극소점 d(0.24sec, 72㏈)를 잇는 꺾어진 직선으로, 제2 구간은 극소점 d(0.24sec, 72㏈), D(0.28sec, 87㏈), 극소점 e(0.36sec, 76㏈)를 잇는 꺾어진 직선으로, 제3 구간은 극소점 e(0.36sec, 76㏈), E(0.45sec, 78㏈), 음성 종료점 f(0.50sec, 50㏈)를 잇는 꺾어진 직선으로 표현되며, 상기 결과를 도시하면 도 5와 같다. 즉, 도 3의 음성 강도 패턴은 3개의 발음 단위로 분할된다.

본 실시예에서는 t₁ = 0.06sec, t₂ = 0.10sec, I = 3.5㏈인 경우에 대하여 설명하였으나, 상기 t₁, t₂, I의 구체적인 값은 언어, 남녀의 차이, 말의 빠르기 등을 고려하여 발음 단위가 잘 구분될 수 있도록 적절히 채택될 수 있다.

4) 발음 단위별 대표 어조 데이터를 추출하는 단계(S400)

발음 단위가 분할되면 발음 단위별로 어조를 대표하는 대표 어조 데이터를 추출한다.

음성 강도에 관한 대표 어조 데이터는 위의 3) 그룹핑된 극대점들의 양쪽 끝에 있는 극소점 등을 경계로 문자열을 발음 단위로 분할하는 단계(S300)에서 추출된 발음 단위별 2 개의 경계점(극소점 등)과 1개의 극대점을 채택함으로써 용이하게 추출할 수 있다.

이때, 상기 추출된 대표 어조 데이터는 시간적인 간격을 두고 5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)에서 활용될 수 있도록 별도로 저장될 수 있다.

다음으로 음성 피치에 관한 대표 어조 데이터는 추출된 발음 단위 내에서 음성 피치의 형태에 따라 몇 가지 경우의 수로 나누어 추출할 수 있다. 음성 피치는 발음 단위 내에서 증가, 감소, 증가 후 감소 및 감소 후 증가로 패턴을 구분한다. 음성 피치가 발음 단위 내에서 증가, 감소를 반복하는 경우도 있을 수는 있으나, 실제로는 추출되는 발음 단위의 시간이 짧아 증가, 감소가 반복된다 하더라도 증가, 감소, 증가 후 감소 및 감소 후 증가 중 어느 하나와 유사하게 느끼게 되므로 패턴에서 제외한다. 또한, 음성 피치는 무성음이 있는 구간에서 측정되지 않을 수 있으나, 무성음 전후의 유성음의 음성 피치값을 보간함으로써 유사 음성 피치를 구할 수 있다. 음성 피치의 경우도 음성 강도의 경우와 마찬가지로 발음 단위 내에서 음성 피치의 극대점 및 극소점을 찾아 비교함으로써 패턴을 구분할 수 있다.

도 6은 발음 단위 내에서 음성 피치가 변화하는 몇 가지 경우의 수를 도시한 것이다. 도 6(a)는 음성 피치가 발음 단위 내에서 증가하는 경우를 도시한 것으로, 발음 단위의 음성 시작점에서 음성 피치값보다 음성 종료점에서 음성 피치값이 크고, 음성 피치의 극대값 또는 극소값이 없거나 있더라도 모두 발음 단위의 음성 시작점에서 음성 피치값보다는 크고, 음성 종료점에서 음성 피치값보다는 작은 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값이 된다.

도 6(b)는 음성 피치가 발음 단위 내에서 감소하는 경우를 도시한 것으로, 발음 단위의 음성 시작점에서 음성 피치값보다 음성 종료점에서 음성 피치값이 작고, 음성 피치의 극대값 또는 극소값이 없거나 있더라도 모두 발음 단위의 음성 시작점에서 음성 피치값보다는 작고, 음성 종료점에서 음성 피치값보다는 큰 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값이 된다. 즉, 음성 피치가 증가 또는 감소하는 경우의 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값이다.

도 6(c)는 음성 피치가 증가 후 감소하는 경우를 도시한 것으로, 발음 단위 내의 음성 피치의 극대값 중 최대값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 큰 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 발음 단위 내의 음성 피치의 극대값 중 최대값 및 발음 단위의 음성 종료점에서 음성 피치값이 된다.

도 6(d)는 음성 피치가 감소 후 증가하는 경우를 도시한 것으로, 발음 단위 내의 음성 피치의 극소값 중 최소값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 작은 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 발음 단위 내의 음성 피치의 극소값 중 최소값 및 발음 단위의 음성 종료점에서 음성 피치값이 된다. 즉, 음성 피치가 증가 후 감소 또는 감소 후 증가하는 경우의 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 음성 종료점에서 음성 피치값 및 발음 단위 내의 음성 피치의 극대값 중 최대값 또는 극소값 중 최소값이다.

만약 발음 단위 내의 음성 피치의 극소값 중 최소값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 작고, 발음 단위 내의 음성 피치의 극대값 중 최대값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 큰 경우라면 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 음성 종료점에서 음성 피치값, 발음 단위 내의 음성 피치의 극대값 중 최대값 및 발음 단위 내의 음성 피치의 극소값 중 최소값이 된다.

위와 같이 추출된 발음 단위별 대표 어조 데이터는 후술할 5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)에 활용된다.

본 실시예에서는 대표 어조 데이터로 음성 강도 및 음성 피치를 함께 채택하는 경우에 대하여 설명하였으나, 대표 어조 데이터는 음성 강도 또는 음성 피치 중 어느 하나만 채택할 수도 있고 어조를 나타낼 수 있는 요소라면 음성 강도 및 음성 피치 외에 다른 어떠한 유형의 데이터라도 채택 가능하다.

5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)

상기 추출된 대표 어조 데이터는 음성 강도 및 음성 피치가 변화하는 시점 및 그 시점에서의 값이므로, 각각의 동영상 프레임마다 문자가 어떻게 표현되는지에 대한 정보는 포함하고 있지 않다. 따라서 동영상에서 문자가 어조에 따라 자연스럽게 표현되기 위해서는 동영상 프레임별로 음성 강도 또는 음성 피치 등의 어조 데이터에 따라 음성 데이터에 해당하는 문자(이하 '해당 문자'라 한다)에 속성을 부여해야 한다. 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법은 대표 어조 데이터 간 보간(interpolation)에 의해 각 동영상 프레임이 설정된 시각에서 어조 데이터(음성 강도 또는 음성 피치 등)를 계산한 후, 상기 계산된 동영상 프레임별 어조 데이터에 기반하여 동영상 프레임 내의 해당 문자에 속성을 부여한다.

도 7은 음성 강도 및 음성 피치에 따라 해당 문자에 속성을 부여한 예시도이다. 도 7의 예시에서 음성 강도는 문자의 선굵기에 음성 피치는 문자의 높이에 대응되도록 하였다. 대표 어조 데이터 간 보간에 의해 동영상 프레임 k₁, k₂, k₃, …, k_n에서 음성 강도 및 음성 피치값을 계산하고, 상기 계산된 음성 강도 및 음성 피치값에 비례하여 해당 문자의 선굵기 및 높이를 동영상 프레임별로 부여하면, 도 7의 하단의 문자 A와 같이 문자에 속성이 부여되어 표시됨을 알 수 있다. 본 실시예에서는 음성 강도 및 음성 피치가 문자의 선굵기 및 높이에 대응되도록 하였으나, 음성 강도 및 음성 피치는 선굵기 및 높이뿐만 아니라 색깔, 계조(gradation), 폭, 기울기, 크기(포인트) 등 문자의 시간에 따른 변화를 표현할 수 있는 속성이라면 어떠한 것에도 대응될 수 있다.

위와 같은 방법으로 동영상 프레임별로 해당 문자에 속성이 부여되면 영상 데이터인 동영상 프레임 데이터 및 동영상 프레임에서 해당 문자의 어조를 표현하는 속성 데이터를 포함하는 동영상 데이터를 저장매체에 저장하여 재생장치에서 재생되도록 할 수 있다. 이때, 상기 동영상 데이터는 문자열에 관련된 영상, 설명문, 음성 데이터, 메타데이터 등을 포함하여 저장될 수 있다.

6) 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계(S600)

5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)에서 동영상 프레임별로 문자 속성을 부여한 후 동영상 프레임을 일정 시간 간격으로 디스플레이하면 문자 속성(선굵기 또는 높이)이 어조에 따라 자연스럽게 변화하는 동영상이 재생된다.

동영상을 재생하는 경우 문자와 음성이 동기화(synchronization)되어야 하는데, 문자와 음성을 동기화하는 방법으로는 음성의 비트스트림 파일 내부에 동영상 프레임에 대한 동기 정보를 삽입한 후 상기 동기 정보를 이용하여 음성과 동영상 프레임의 동기를 맞추는 방법, 음성을 발음 기호에 맞춰 유성음 및 무성음으로 분리한 후 음성학적 처리를 통해 음성과 동영상 프레임의 동기를 맞추는 방법 등이 있으나, 구체적인 방법은 본 발명의 범위를 넘어서므로 자세한 설명을 생략한다.

A, B, C, D, E, P, Q, R, S, U, V, W: 극대점
b, c, d, e, q, s, u, w: 극소점

Claims

문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계(S100);
상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계(S200) 및
상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계(S300)를 포함하는 문자열을 발음 단위로 분할하는 방법.
청구항 1에 있어서,
각 발음 단위는 1 개의 극대값을 대표값으로 포함하는 것을 특징으로 하는 문자열을 발음 단위로 분할하는 방법.
청구항 2에 있어서,
상기 추출된 극대점을 그룹핑하는 단계(S200)는
음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t₁ 미만인 경우 또는 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t₁ 이상 t₂ 미만이면서 상기 특정 극대점과 인접한 다른 극대점의 극대값의 차이가 소정 크기 I(㏈) 미만인 경우에는 상기 특정 극대점과 인접한 다른 극대점을 그룹핑하고 극대값 중 큰 값을 그룹의 대표값으로 하는 것을 특징으로 하는 문자열을 발음 단위로 분할하는 방법.
청구항 2에 있어서,
상기 추출된 극대점을 그룹핑하는 단계(S200)는
음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t₂ 이상인 경우 또는 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t₁ 이상 t₂ 미만이면서 상기 특정 극대점과 인접한 다른 극대점의 값의 차이가 소정 크기 I(㏈) 이상인 경우에는 상기 특정 극대점과 인접한 다른 극대점을 별개의 그룹으로 하고, 상기 특정 극대점의 극대값과 인접한 다른 극대점의 극대값이 각각 그룹의 대표값이 되도록 하는 것을 특징으로 하는 문자열을 발음 단위로 분할하는 방법.
문자열을 발음 단위로 분할하는 단계;
상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계(S400);
상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500) 및
상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계(S600)를 포함하되,
상기 문자열을 발음 단위로 분할하는 단계는 청구항 1 내지 청구항 4 중 어느 한 항의 방법에 따라 이루어지는 것을 특징으로 하는 문자열의 어조 표현 방법.
청구항 5에 있어서,
상기 대표 어조 데이터는 음성 강도 또는 음성 피치인 것을 특징으로 하는 문자열의 어조 표현 방법.
청구항 6에 있어서,
음성 강도에 관한 대표 어조 데이터는 발음 단위별 2 개의 경계점과 1개의 극대점인 것을 특징으로 하는 문자열의 어조 표현 방법.
청구항 6에 있어서,
음성 피치에 관한 대표 어조 데이터는 발음 단위에서 음성 피치가 증가 또는 감소일 경우 발음 단위의 음성 시작점에서 음성 피치값 및 음성 종료점에서 음성 피치값이고,
음성 피치가 증가 후 감소 또는 감소 후 증가하는 경우 발음 단위의 음성 시작점에서 음성 피치값, 음성 종료점에서 음성 피치값 및 발음 단위 내의 음성 피치의 극대값 중 최대값 또는 극소값 중 최소값인 것을 특징으로 하는 문자열의 어조 표현 방법.
청구항 5에 있어서,
상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)는
대표 어조 데이터 간 보간(interpolation)에 의해 각 동영상 프레임이 설정된 시각에서 어조 데이터를 계산한 후, 상기 계산된 동영상 프레임별 어조 데이터에 기반하여 동영상 프레임 내의 문자에 속성을 부여하는 것을 특징으로 하는 문자열의 어조 표현 방법.
청구항 9에 있어서,
문자에 부여되는 상기 속성은 선굵기, 높이, 색깔, 계조, 폭, 기울기, 크기 중 어느 하나 이상인 것을 특징으로 하는 문자열의 어조 표현 방법.
청구항 10에 있어서,
상기 어조 데이터 중 음성 강도에 대한 어조 데이터는 문자의 선굵기에, 음성 피치에 대한 어조 데이터는 문자의 높이에 대응되는 것을 특징으로 하는 문자열의 어조 표현 방법.
삭제
삭제