KR101193362B1 - 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체 - Google Patents

문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체 Download PDF

Info

Publication number
KR101193362B1
KR101193362B1 KR1020120038741A KR20120038741A KR101193362B1 KR 101193362 B1 KR101193362 B1 KR 101193362B1 KR 1020120038741 A KR1020120038741 A KR 1020120038741A KR 20120038741 A KR20120038741 A KR 20120038741A KR 101193362 B1 KR101193362 B1 KR 101193362B1
Authority
KR
South Korea
Prior art keywords
voice
string
point
maximum
value
Prior art date
Application number
KR1020120038741A
Other languages
English (en)
Inventor
최병기
Original Assignee
최병기
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최병기 filed Critical 최병기
Priority to KR1020120038741A priority Critical patent/KR101193362B1/ko
Application granted granted Critical
Publication of KR101193362B1 publication Critical patent/KR101193362B1/ko
Priority to US14/387,841 priority patent/US20150051911A1/en
Priority to PCT/KR2013/002764 priority patent/WO2013154296A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 문자열에서 어조 표현을 위해 데이터를 추출할 수 있는 발음 단위 분할 방법 및 발음 단위별로 추출된 데이터에 의하여 문자열이 디스플레이되는 동영상 프레임 내의 문자 속성을 변화시킴으로써 문자열의 어조를 표현하는 방법에 관한 것이다. 본 발명에 따른 문자열을 발음 단위로 분할하는 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계 및 상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계 및 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계를 포함한다. 또한, 본 발명에 따른 문자열의 어조 표현 방법은 상기 문자열을 발음 단위로 분할하는 방법에 의하여 문자열을 발음 단위로 분할하는 단계, 상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계, 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계를 포함한다.

Description

문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체{METHOD FOR DIVIDING STRING INTO PRONUNCIATION UNIT, METHOD FOR REPRESENTATION OF THE TONE OF STRING USING THEREOF AND STORAGE MEDIUM STORING VIDEO CLIP REPRESENTING THE TONE OF STRING}
본 발명은 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체에 관한 것으로, 더욱 상세하게는 문자열의 어조 표현을 위해 어조 데이터를 추출할 수 있도록 문자열을 발음 단위로 분할하는 방법, 발음 단위별로 추출된 어조 데이터에 의하여 문자열이 디스플레이되는 동영상 프레임 내의 문자 속성을 변화시켜 문자열의 어조를 표현하는 방법 및 상기 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체에 관한 것이다.
종래에 음원 데이터에 의해 구현되는 사운드의 주파수의 높고 낮음에 따라 음원 데이터에 해당하는 문자의 크기를 조절하는 방법이 있다.
또한, 문자열에 부가되는 음성 정보를 직관적으로 인식할 수 있도록 발음의 강약에 따라 문자의 높이를 다르게 하는 방법이 있다.
또한, 텍스트 문을 표시할 때, 내용이나 감정 또는 기분이 잘 드러날 수 있도록 문자 데이터에 속성 데이터를 부가하는 방법이 있다.
특허문헌 1은 '문자 크기 조절 가능한 오디오 플레이어 및 그 제어 방법'에 관한 것으로, 종래에 오디오 문자 표시 기능 및 템포 표기 기능이 부가된 오디오 플레이어에서 재생되는 오디오 정보의 높낮이를 확인할 수 없던 문제를 개선하여, 음원 데이터에 의해 구현되는 사운드의 주파수를 제1, 제2 기준 주파수와 비교하여 고음, 중간음 및 저음으로 구분하고 음원 데이터에 해당하는 문자가 상기 고음, 중간음 및 저음 중 어디에 해당하는지에 따라 대, 중, 소 중 어느 한 크기로 표시되게 함으로써 문자열의 템포와 높낮이를 동시에 시각적으로 확인할 수 있도록 하는 장치 및 방법이 개시되어 있다.
특허문헌 2는 '음성정보표시장치'에 관한 것으로, 종래에 발음의 고저나 강약 및 포즈(pose)를 표현하려 할 때 특별한 기호를 사용함으로써 직관적인 이해가 곤란하다는 문제를 해결하기 위하여, 문자의 색, 위치, 형상 등을 변경하여 발음정보를 표현함으로써 문자열을 읽을 때 발음이 어떻게 되는지를 직관적으로 알 수 있도록 하는 장치가 개시되어 있다.
특허문헌 3은 '텍스트문의 표시장치'에 관한 것으로, 종래에 단조로운 문자열로 표현되는 텍스트문에서 작성자의 의사를 명확히 이해할 수 없는 문제를 해결하기 위하여, 텍스트문 작성자의 표현이나 감정에 따라 문자의 표시위치, 크기, 두께, 폰트, 농도, 색 및 윤곽성 등의 속성 데이터를 문자에 부가하거나 점멸, 크기변화, 회전, 농도 및 색 변화 등 시간적인 속성 데이터를 부가함으로써, 텍스트문 작성자의 감정이나 기분이 효과적으로 전해지도록 하는 장치가 개시되어 있다.
그러나 종래 기술들에 따르면 문자 단위로 높이, 선굵기, 크기, 색, 위치, 형상 등 문자가 시각적으로 표현되는 속성(이하 '문자 속성'이라 한다)을 변경시키기 때문에 문자열을 발음할 때 실제 발음되는 단위(이하 '발음 단위'라 한다)별로 어조가 어떻게 변화되는지 알 수 없다는 문제점이 있다.
또한, 하나의 문자는 설정된 문자 속성에 고정되어 표현되기 때문에 문자가 발음되는 도중에 어조의 변화가 있더라도 어조를 제대로 표현할 수 없다는 문제점이 있다.
KR 10-2008-0016183 A (2008. 02. 21.) JP 특개평08-179789 A (1996. 12. 26.) JP 특개2005-215888 A (2005. 08. 11.)
본 발명은 위와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명에서 해결하고자 하는 과제는 문자열을 발음 단위별로 분할하고, 발음 단위별로 어조를 나타낼 수 있는 데이터를 추출하는 방법을 제공하는 것이다.
본 발명에서 해결하고자 하는 또 다른 과제는 상기 추출된 데이터에 의하여 문자열이 디스플레이되는 동영상에서 문자 속성을 프레임 단위로 변화시킴으로써 문자 또는 문자열의 어조를 자연스럽게 표현하는 방법을 제공하는 것이다.
위와 같은 과제를 해결하기 위한 본 발명에 따른 문자열을 발음 단위로 분할하는 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계, 상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계 및 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계를 포함하는 것을 기술적 특징으로 한다.
또한, 본 발명에 따른 문자열의 어조 표현 방법은 상기 문자열을 발음 단위로 분할하는 방법에 의하여 문자열을 발음 단위로 분할하는 단계, 상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계, 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계를 포함하는 것을 기술적 특징으로 한다.
본 발명에 따른 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체는 문자열을 발음 단위에 따라 분할하여 어조를 표현할 수 있다.
또한, 동영상으로 디스플레이되는 문자 속성을 프레임 단위로 변화시킴으로써 문자열의 어조를 자연스럽게 표현할 수 있다.
도 1은 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법의 순서도
도 2는 본 발명에서 음성 파형을 근사시켜 얻고자 하는 결과의 예시도
도 3은 문자열을 발음했을 때 음성 강도 패턴의 예시도
도 4는 특정 극대점과 인접한 다른 극대점의 관계에 따라 발음 단위가 분할되는 것을 보인 예시도
도 5는 도 3의 음성 강도 패턴이 3개의 발음 단위로 분할된 결과도
도 6은 발음 단위 내에서 음성 피치가 변화하는 경우의 수를 도시한 예시도
도 7은 음성 강도 및 음성 피치에 따라 문자에 속성을 부여한 예시도
아래에서는 본 발명에 따른 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체를 첨부된 도면을 통해 더욱 상세히 설명한다.
도 1은 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법을 순서도로 도시한 것이다.
본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법은 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계(S100), 상기 추출된 극대점을 그룹핑(grouping)하여 그룹을 형성하는 단계(S200), 상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점(이하 '극소점 등'이라 한다) 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계(S300), 발음 단위별 대표 어조 데이터를 추출하는 단계(S400), 상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500) 및 상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계(S600)를 포함한다.
도 2는 본 발명에서 음성 파형을 근사시켜 얻고자 하는 결과의 예시도이다. 문자열을 발음한 것을 측정하면 도 2에 점선으로 표시된 것과 같은 들쭉날쭉한 음성 강도 파형을 얻을 수 있다. 문자열의 어조를 표현하기 위해서는 연속적인 음성 파형을 분석하기보다 분할된 음성 파형을 분할하는 것이 간단하므로 문자열을 소정의 기준으로 분할할 필요가 있다. 그런데 인간은 통상 발음이 일정 시간 이상 끊어지거나 음성 강도가 급격히 변하는 때에 발음이 구분됨을 느끼고, 연음 또는 음성 강도가 완만하게 변할 때에는 발음이 연속된다고 느끼므로, 문자열의 어조를 표현하기 위해서는 문자열을 발음 단위로 분할하는 것이 자연스럽다.
문자열을 발음 단위로 분할하는 데는 여러 가지 방법이 있겠으나, 산과 골이 반복되는 꺾어진 직선으로 음성 파형을 근사시켜 문자열을 발음 단위로 분할하는 것이 본 발명에 따른 문자열을 발음 단위로 분할하는 방법의 기술사상이다. 그런데, 산과 골이 반복되는 꺾어진 직선이란 1 개의 극대점과 상기 극대점의 양쪽에 있는 2 개의 극소점을 잇는 삿갓 모양으로 꺾어진 직선의 집합이므로, 문자열을 발음 단위로 구분하기 위해서는 1 개의 극대점과 그 양쪽의 2 개의 극소점을 추출하면 된다.
본 발명은 상기 1 개의 극대점과 그 양쪽의 2 개의 극소점을 추출하여 형성된 발음 단위를 하나 또는 둘 이상 연속적으로 배치하여 문자열의 어조를 표현할 수 있도록 하고, 최종적으로는 문자열의 어조를 표현할 수 있는 동영상 데이터를 제공한다.
아래에서는 먼저 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법을 단계별로 상세히 설명한다.
1) 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계(S100)
도 3은 문자열을 발음했을 때 음성 강도 패턴의 예시도이다. 음성 강도 패턴으로부터 음성 강도값이 극대 또는 극소가 되는 점을 구할 수 있다. 도 3의 예에서 음성 강도는 시각 0.06sec, 0.11sec, 0.19sec, 0.28sec, 0.45sec에서 각각 80㏈, 85㏈, 82㏈, 87㏈, 78㏈의 극대값을 가지고, 0.09sec, 0.15sec, 0.24sec, 0.36sec에서 각각 77㏈, 75㏈, 72㏈, 76㏈의 극소값을 가진다.
2) 추출된 극대점을 그룹핑하는 단계(S200)
그런데 인간은 너무 짧은 시간 간격으로 음성 강도가 변하거나 특정 음성 강도 이상의 변화가 없으면 음성 강도가 변화한 것을 느끼지 못하므로, 상기 너무 짧은 시간 간격으로 음성 강도가 변하는 경우 또는 특정 음성 강도 이상의 변화가 없는 경우에는 인접한 극대값을 그룹핑하여 그룹을 형성하고 하나의 극대값으로 표현하더라도 어조의 변화를 표현하기에 충분하다.
따라서 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법은 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t1 미만인 경우는 상기 특정 극대점과 인접한 다른 극대점을 그룹핑하고 극대값 중 큰 값을 그룹의 대표값으로 한다.
또한, 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t1 이상 t2 미만인 경우는 상기 특정 극대점과 인접한 다른 극대점의 극대값의 차이가 소정 크기 I(㏈) 미만일 때는 상기 특정 극대점과 인접한 다른 극대점을 그룹핑하여 극대값 중 큰 값을 그룹의 대표값으로 하고, 상기 특정 극대점과 인접한 다른 극대점의 극대값의 차이가 소정 크기 I(㏈) 이상일 때는 상기 특정 극대점과 인접한 다른 극대점을 별개의 그룹으로 하고, 상기 특정 극대점의 극대값과 인접한 다른 극대점의 극대값이 각각 그룹의 대표값이 되도록 한다.
또한, 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t2 이상인 경우는 상기 특정 극대점과 인접한 다른 극대점을 별개의 그룹으로 하고, 상기 특정 극대점의 극대값과 인접한 다른 극대점의 극대값이 각각 그룹의 대표값이 되도록 한다.
3) 그룹의 양쪽에 있는 극소점 등 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계(S300)
극대점이 그룹핑되면, 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열이 발음 단위로 분할된다. 발음 단위는 음성 강도 그래프에서 항상 삼각형 모양으로 분할되고, 상기 방법으로 분할되는 발음 단위가 여러 개 모여서 문자열의 어조를 표현하게 된다.
도 4는 특정 극대점과 인접한 다른 극대점의 관계에 따라 발음 단위가 분할되는 것을 보인 예시도이다.
도 4(a)는 2 개의 극대점 P, Q 간의 시간 간격이 t1 미만인 경우를 도시한 것인데, 둘 중 극대값이 큰 Q가 그룹의 대표값이 되며, P와 Q의 양쪽에 있는 극소점 p와 r가 각각 발음 단위의 음성 시작점과 음성 종료점이 된다.
도 4(b)는 극대점 R, S 간의 시간 간격 및 S, U 간의 시간 간격이 모두 t1 이상 t2 미만인 경우를 도시한 것인데, 극대점 R와 S의 차이는 I(㏈) 미만이므로 둘 중 극대값이 큰 R이 그룹의 대표값이 되며, 극대점 S와 U의 차이는 I(㏈) 이상이므로 U가 별도의 그룹의 대표값이 된다. 따라서, 도 4(b)의 경우 극대점 R와 S를 중심으로 양쪽에 있는 극소점 r와 u가 첫 번째 발음 단위의 음성 시작점과 음성 종료점이 되며, 극대점 U를 중심으로 양쪽에 있는 극소점 u와 v가 두 번째 발음 단위의 음성 시작점과 음성 종료점이 된다. 즉, 도 4(b)와 같은 음성 강도 패턴은 2 개의 발음 단위로 구분된다.
도 4(c)는 극대점 V, W 간의 시간 간격이 t2 이상인 경우를 도시한 것인데, V와 W가 모두 별개의 그룹의 대표값이 되며 극대점 V의 양쪽에 있는 극소점 v와 w가 첫 번째 발음 단위의 음성 시작점과 음성 종료점이 되며, 극대점 W의 양쪽에 있는 극소점 w와 x가 두 번째 발음 단위의 음성 시작점과 음성 종료점이 된다. 즉, 도 4(c)와 같이 음성 강도 패턴의 두 극대점 간의 시간 간격이 t2 이상인 경우에는 발음 단위가 구분된다.
구체적인 수치를 적용하여 다시 도 3의 경우를 설명한다. 통상 연음되어 발음을 끊을 수 없는 시간이 약 0.06sec, 어절이 구분되는 평균시간이 약 0.10sec, 인간이 소리의 크기 변화를 느낄 수 있는 음성 강도 차이가 약 3.5㏈인 점을 감안하여 t1 = 0.06sec, t2 = 0.10sec, I = 3.5㏈로 설정하는 경우에, 첫 번째 극대점 A(0.06sec, 80㏈)와 두 번째 극대점 B(0.11sec, 85㏈) 간의 시간 간격인 0.05sec가 t1 미만이므로, 두 극대점 중 극대값이 큰 B(0.11sec, 85㏈)가 첫 번째 그룹의 대표값이 된다. 다음으로, 두 번째 극대점 B(0.11sec, 85㏈)와 세 번째 극대점 C(0.19sec, 82㏈) 간의 시간 간격인 0.08sec가 t1 이상 t2 미만이고 두 극대값의 차이가 3㏈로 I 미만이므로 두 극대점 중 극대값이 큰 B(0.11sec, 85㏈)가 대표값이 되는데 B는 이미 첫 번째 그룹의 대표값이므로 최종적으로 B가 A, B, C 세 극대값이 그룹핑된 A, B, C 그룹(이하 극대값이 포함된 그룹을 이와 같이 칭한다)의 대표값이 된다. 만약, 위의 경우에서 A, B 그룹의 대표값과 B, C 그룹의 대표값이 다르다면 그 중 큰 대표값이 A, B, C 그룹의 대표값이 된다.
세 번째 극대점 C(0.19sec, 82㏈)와 네 번째 극대점 D(0.28sec, 87㏈) 간의 시간 간격 0.09sec는 t1 이상 t2 미만이고 두 극대값의 차이인 5㏈는 I 이상이므로 두 극대점 중 극대값이 큰 D(0.28sec, 87㏈)가 D 그룹의 대표값이 된다.
네 번째 극대점 D(0.28sec, 87㏈)와 다섯 번째 극대점 E(0.45sec, 78㏈) 간의 시간 간격 0.17sec는 t2 이상이므로, 다섯 번째 극대점 E(0.45sec, 78㏈)가 E 그룹의 대표값이 된다.
상기 과정을 거쳐 도 3에 도시된 음성 강도 패턴의 예에서, 대표값은 B(0.11sec, 85㏈), D(0.28sec, 87㏈), E(0.45sec, 78㏈)로 압축되며, B가 제1 구간 0 ~ 0.24sec에서 A, B, C 그룹의 대표값이 되고, D가 제2 구간 0.24 ~ 0.36sec에서 D 그룹의 대표값이 되며, E가 제3 구간 0.36 ~ 0.50sec에서 E 그룹의 대표값이 된다.
음성이 없을 때의 기본 소음 정도를 50㏈라 할 때, 제1 구간은 음성 시작점 a(0sec, 50㏈), B(0.11sec, 85㏈), 극소점 d(0.24sec, 72㏈)를 잇는 꺾어진 직선으로, 제2 구간은 극소점 d(0.24sec, 72㏈), D(0.28sec, 87㏈), 극소점 e(0.36sec, 76㏈)를 잇는 꺾어진 직선으로, 제3 구간은 극소점 e(0.36sec, 76㏈), E(0.45sec, 78㏈), 음성 종료점 f(0.50sec, 50㏈)를 잇는 꺾어진 직선으로 표현되며, 상기 결과를 도시하면 도 5와 같다. 즉, 도 3의 음성 강도 패턴은 3개의 발음 단위로 분할된다.
본 실시예에서는 t1 = 0.06sec, t2 = 0.10sec, I = 3.5㏈인 경우에 대하여 설명하였으나, 상기 t1, t2, I의 구체적인 값은 언어, 남녀의 차이, 말의 빠르기 등을 고려하여 발음 단위가 잘 구분될 수 있도록 적절히 채택될 수 있다.
4) 발음 단위별 대표 어조 데이터를 추출하는 단계(S400)
발음 단위가 분할되면 발음 단위별로 어조를 대표하는 대표 어조 데이터를 추출한다.
음성 강도에 관한 대표 어조 데이터는 위의 3) 그룹핑된 극대점들의 양쪽 끝에 있는 극소점 등을 경계로 문자열을 발음 단위로 분할하는 단계(S300)에서 추출된 발음 단위별 2 개의 경계점(극소점 등)과 1개의 극대점을 채택함으로써 용이하게 추출할 수 있다.
이때, 상기 추출된 대표 어조 데이터는 시간적인 간격을 두고 5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)에서 활용될 수 있도록 별도로 저장될 수 있다.
다음으로 음성 피치에 관한 대표 어조 데이터는 추출된 발음 단위 내에서 음성 피치의 형태에 따라 몇 가지 경우의 수로 나누어 추출할 수 있다. 음성 피치는 발음 단위 내에서 증가, 감소, 증가 후 감소 및 감소 후 증가로 패턴을 구분한다. 음성 피치가 발음 단위 내에서 증가, 감소를 반복하는 경우도 있을 수는 있으나, 실제로는 추출되는 발음 단위의 시간이 짧아 증가, 감소가 반복된다 하더라도 증가, 감소, 증가 후 감소 및 감소 후 증가 중 어느 하나와 유사하게 느끼게 되므로 패턴에서 제외한다. 또한, 음성 피치는 무성음이 있는 구간에서 측정되지 않을 수 있으나, 무성음 전후의 유성음의 음성 피치값을 보간함으로써 유사 음성 피치를 구할 수 있다. 음성 피치의 경우도 음성 강도의 경우와 마찬가지로 발음 단위 내에서 음성 피치의 극대점 및 극소점을 찾아 비교함으로써 패턴을 구분할 수 있다.
도 6은 발음 단위 내에서 음성 피치가 변화하는 몇 가지 경우의 수를 도시한 것이다. 도 6(a)는 음성 피치가 발음 단위 내에서 증가하는 경우를 도시한 것으로, 발음 단위의 음성 시작점에서 음성 피치값보다 음성 종료점에서 음성 피치값이 크고, 음성 피치의 극대값 또는 극소값이 없거나 있더라도 모두 발음 단위의 음성 시작점에서 음성 피치값보다는 크고, 음성 종료점에서 음성 피치값보다는 작은 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값이 된다.
도 6(b)는 음성 피치가 발음 단위 내에서 감소하는 경우를 도시한 것으로, 발음 단위의 음성 시작점에서 음성 피치값보다 음성 종료점에서 음성 피치값이 작고, 음성 피치의 극대값 또는 극소값이 없거나 있더라도 모두 발음 단위의 음성 시작점에서 음성 피치값보다는 작고, 음성 종료점에서 음성 피치값보다는 큰 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값이 된다. 즉, 음성 피치가 증가 또는 감소하는 경우의 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값이다.
도 6(c)는 음성 피치가 증가 후 감소하는 경우를 도시한 것으로, 발음 단위 내의 음성 피치의 극대값 중 최대값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 큰 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 발음 단위 내의 음성 피치의 극대값 중 최대값 및 발음 단위의 음성 종료점에서 음성 피치값이 된다.
도 6(d)는 음성 피치가 감소 후 증가하는 경우를 도시한 것으로, 발음 단위 내의 음성 피치의 극소값 중 최소값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 작은 경우이다. 이 경우 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 발음 단위 내의 음성 피치의 극소값 중 최소값 및 발음 단위의 음성 종료점에서 음성 피치값이 된다. 즉, 음성 피치가 증가 후 감소 또는 감소 후 증가하는 경우의 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 음성 종료점에서 음성 피치값 및 발음 단위 내의 음성 피치의 극대값 중 최대값 또는 극소값 중 최소값이다.
만약 발음 단위 내의 음성 피치의 극소값 중 최소값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 작고, 발음 단위 내의 음성 피치의 극대값 중 최대값이 발음 단위의 음성 시작점에서 음성 피치값과 음성 종료점에서 음성 피치값보다 모두 큰 경우라면 음성 피치에 관한 대표 어조 데이터는 발음 단위의 음성 시작점에서 음성 피치값, 음성 종료점에서 음성 피치값, 발음 단위 내의 음성 피치의 극대값 중 최대값 및 발음 단위 내의 음성 피치의 극소값 중 최소값이 된다.
위와 같이 추출된 발음 단위별 대표 어조 데이터는 후술할 5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)에 활용된다.
본 실시예에서는 대표 어조 데이터로 음성 강도 및 음성 피치를 함께 채택하는 경우에 대하여 설명하였으나, 대표 어조 데이터는 음성 강도 또는 음성 피치 중 어느 하나만 채택할 수도 있고 어조를 나타낼 수 있는 요소라면 음성 강도 및 음성 피치 외에 다른 어떠한 유형의 데이터라도 채택 가능하다.
5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)
상기 추출된 대표 어조 데이터는 음성 강도 및 음성 피치가 변화하는 시점 및 그 시점에서의 값이므로, 각각의 동영상 프레임마다 문자가 어떻게 표현되는지에 대한 정보는 포함하고 있지 않다. 따라서 동영상에서 문자가 어조에 따라 자연스럽게 표현되기 위해서는 동영상 프레임별로 음성 강도 또는 음성 피치 등의 어조 데이터에 따라 음성 데이터에 해당하는 문자(이하 '해당 문자'라 한다)에 속성을 부여해야 한다. 본 발명에 따른 문자열을 발음 단위로 분할하는 방법 및 이를 이용하는 문자열의 어조 표현 방법은 대표 어조 데이터 간 보간(interpolation)에 의해 각 동영상 프레임이 설정된 시각에서 어조 데이터(음성 강도 또는 음성 피치 등)를 계산한 후, 상기 계산된 동영상 프레임별 어조 데이터에 기반하여 동영상 프레임 내의 해당 문자에 속성을 부여한다.
도 7은 음성 강도 및 음성 피치에 따라 해당 문자에 속성을 부여한 예시도이다. 도 7의 예시에서 음성 강도는 문자의 선굵기에 음성 피치는 문자의 높이에 대응되도록 하였다. 대표 어조 데이터 간 보간에 의해 동영상 프레임 k1, k2, k3, …, kn에서 음성 강도 및 음성 피치값을 계산하고, 상기 계산된 음성 강도 및 음성 피치값에 비례하여 해당 문자의 선굵기 및 높이를 동영상 프레임별로 부여하면, 도 7의 하단의 문자 A와 같이 문자에 속성이 부여되어 표시됨을 알 수 있다. 본 실시예에서는 음성 강도 및 음성 피치가 문자의 선굵기 및 높이에 대응되도록 하였으나, 음성 강도 및 음성 피치는 선굵기 및 높이뿐만 아니라 색깔, 계조(gradation), 폭, 기울기, 크기(포인트) 등 문자의 시간에 따른 변화를 표현할 수 있는 속성이라면 어떠한 것에도 대응될 수 있다.
위와 같은 방법으로 동영상 프레임별로 해당 문자에 속성이 부여되면 영상 데이터인 동영상 프레임 데이터 및 동영상 프레임에서 해당 문자의 어조를 표현하는 속성 데이터를 포함하는 동영상 데이터를 저장매체에 저장하여 재생장치에서 재생되도록 할 수 있다. 이때, 상기 동영상 데이터는 문자열에 관련된 영상, 설명문, 음성 데이터, 메타데이터 등을 포함하여 저장될 수 있다.
6) 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계(S600)
5) 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)에서 동영상 프레임별로 문자 속성을 부여한 후 동영상 프레임을 일정 시간 간격으로 디스플레이하면 문자 속성(선굵기 또는 높이)이 어조에 따라 자연스럽게 변화하는 동영상이 재생된다.
동영상을 재생하는 경우 문자와 음성이 동기화(synchronization)되어야 하는데, 문자와 음성을 동기화하는 방법으로는 음성의 비트스트림 파일 내부에 동영상 프레임에 대한 동기 정보를 삽입한 후 상기 동기 정보를 이용하여 음성과 동영상 프레임의 동기를 맞추는 방법, 음성을 발음 기호에 맞춰 유성음 및 무성음으로 분리한 후 음성학적 처리를 통해 음성과 동영상 프레임의 동기를 맞추는 방법 등이 있으나, 구체적인 방법은 본 발명의 범위를 넘어서므로 자세한 설명을 생략한다.
A, B, C, D, E, P, Q, R, S, U, V, W: 극대점
b, c, d, e, q, s, u, w: 극소점

Claims (13)

  1. 문자열의 음성 파형에서 음성 강도(Intensity)의 극대점과 극소점을 추출하는 단계(S100);
    상기 추출된 극대점을 그룹핑하여 그룹을 형성하는 단계(S200) 및
    상기 그룹의 양쪽에 있는 극소점, 음성 시작점 또는 음성 종료점 중 그룹 양쪽으로 가장 근접되어 있는 점을 경계로 문자열을 발음 단위로 분할하는 단계(S300)를 포함하는 문자열을 발음 단위로 분할하는 방법.
  2. 청구항 1에 있어서,
    각 발음 단위는 1 개의 극대값을 대표값으로 포함하는 것을 특징으로 하는 문자열을 발음 단위로 분할하는 방법.
  3. 청구항 2에 있어서,
    상기 추출된 극대점을 그룹핑하는 단계(S200)는
    음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t1 미만인 경우 또는 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t1 이상 t2 미만이면서 상기 특정 극대점과 인접한 다른 극대점의 극대값의 차이가 소정 크기 I(㏈) 미만인 경우에는 상기 특정 극대점과 인접한 다른 극대점을 그룹핑하고 극대값 중 큰 값을 그룹의 대표값으로 하는 것을 특징으로 하는 문자열을 발음 단위로 분할하는 방법.
  4. 청구항 2에 있어서,
    상기 추출된 극대점을 그룹핑하는 단계(S200)는
    음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t2 이상인 경우 또는 음성 강도의 특정 극대점과 인접한 다른 극대점 간의 시간 간격이 소정 시간 t1 이상 t2 미만이면서 상기 특정 극대점과 인접한 다른 극대점의 값의 차이가 소정 크기 I(㏈) 이상인 경우에는 상기 특정 극대점과 인접한 다른 극대점을 별개의 그룹으로 하고, 상기 특정 극대점의 극대값과 인접한 다른 극대점의 극대값이 각각 그룹의 대표값이 되도록 하는 것을 특징으로 하는 문자열을 발음 단위로 분할하는 방법.
  5. 문자열을 발음 단위로 분할하는 단계;
    상기 분할된 발음 단위별로 대표 어조 데이터를 추출하는 단계(S400);
    상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500) 및
    상기 문자 속성이 부여된 동영상 프레임을 동영상으로 재생하는 단계(S600)를 포함하되,
    상기 문자열을 발음 단위로 분할하는 단계는 청구항 1 내지 청구항 4 중 어느 한 항의 방법에 따라 이루어지는 것을 특징으로 하는 문자열의 어조 표현 방법.
  6. 청구항 5에 있어서,
    상기 대표 어조 데이터는 음성 강도 또는 음성 피치인 것을 특징으로 하는 문자열의 어조 표현 방법.
  7. 청구항 6에 있어서,
    음성 강도에 관한 대표 어조 데이터는 발음 단위별 2 개의 경계점과 1개의 극대점인 것을 특징으로 하는 문자열의 어조 표현 방법.
  8. 청구항 6에 있어서,
    음성 피치에 관한 대표 어조 데이터는 발음 단위에서 음성 피치가 증가 또는 감소일 경우 발음 단위의 음성 시작점에서 음성 피치값 및 음성 종료점에서 음성 피치값이고,
    음성 피치가 증가 후 감소 또는 감소 후 증가하는 경우 발음 단위의 음성 시작점에서 음성 피치값, 음성 종료점에서 음성 피치값 및 발음 단위 내의 음성 피치의 극대값 중 최대값 또는 극소값 중 최소값인 것을 특징으로 하는 문자열의 어조 표현 방법.
  9. 청구항 5에 있어서,
    상기 추출된 대표 어조 데이터로부터 동영상 프레임별 어조 데이터를 계산하여 동영상 프레임별로 문자 속성을 부여하는 단계(S500)는
    대표 어조 데이터 간 보간(interpolation)에 의해 각 동영상 프레임이 설정된 시각에서 어조 데이터를 계산한 후, 상기 계산된 동영상 프레임별 어조 데이터에 기반하여 동영상 프레임 내의 문자에 속성을 부여하는 것을 특징으로 하는 문자열의 어조 표현 방법.
  10. 청구항 9에 있어서,
    문자에 부여되는 상기 속성은 선굵기, 높이, 색깔, 계조, 폭, 기울기, 크기 중 어느 하나 이상인 것을 특징으로 하는 문자열의 어조 표현 방법.
  11. 청구항 10에 있어서,
    상기 어조 데이터 중 음성 강도에 대한 어조 데이터는 문자의 선굵기에, 음성 피치에 대한 어조 데이터는 문자의 높이에 대응되는 것을 특징으로 하는 문자열의 어조 표현 방법.
  12. 삭제
  13. 삭제
KR1020120038741A 2012-04-13 2012-04-13 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체 KR101193362B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020120038741A KR101193362B1 (ko) 2012-04-13 2012-04-13 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
US14/387,841 US20150051911A1 (en) 2012-04-13 2013-04-03 Method for dividing letter sequences into pronunciation units, method for representing tones of letter sequences using same, and storage medium storing video data representing the tones of letter sequences
PCT/KR2013/002764 WO2013154296A1 (ko) 2012-04-13 2013-04-03 발명의 명칭 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120038741A KR101193362B1 (ko) 2012-04-13 2012-04-13 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체

Publications (1)

Publication Number Publication Date
KR101193362B1 true KR101193362B1 (ko) 2012-10-19

Family

ID=47288420

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120038741A KR101193362B1 (ko) 2012-04-13 2012-04-13 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체

Country Status (3)

Country Link
US (1) US20150051911A1 (ko)
KR (1) KR101193362B1 (ko)
WO (1) WO2013154296A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017067903A (ja) * 2015-09-29 2017-04-06 ヤマハ株式会社 音響解析装置
CN112530213A (zh) * 2020-12-25 2021-03-19 方湘 一种汉语音调学习方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6073540B2 (ja) * 2014-11-25 2017-02-01 三菱電機株式会社 情報提供システム
JP6784022B2 (ja) * 2015-12-18 2020-11-11 ヤマハ株式会社 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
CN113760210A (zh) * 2021-08-20 2021-12-07 联想(北京)有限公司 一种处理方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313251B2 (en) * 1993-11-18 2007-12-25 Digimarc Corporation Method and system for managing and controlling electronic media
US6005519A (en) * 1996-09-04 1999-12-21 3 Com Corporation Tunable microstrip antenna and method for tuning the same
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
KR200197477Y1 (ko) * 2000-03-10 2000-09-15 이동익 언어 학습 장치
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
KR100540190B1 (ko) * 2004-05-13 2005-12-29 주식회사 금영 노래반주기의 이미지가사 디스플레이방법
US7418387B2 (en) * 2004-11-24 2008-08-26 Microsoft Corporation Generic spelling mnemonics
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
KR20080016183A (ko) * 2006-08-18 2008-02-21 엘지전자 주식회사 문자 크기 조절 가능한 오디오 플레이어 및 그 제어 방법
CN100445903C (zh) * 2007-02-15 2008-12-24 北京飞天诚信科技有限公司 一种对智能电器设备进行控制的方法和系统
US8306356B1 (en) * 2007-09-28 2012-11-06 Language Technologies, Inc. System, plug-in, and method for improving text composition by modifying character prominence according to assigned character information measures
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US10134385B2 (en) * 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017067903A (ja) * 2015-09-29 2017-04-06 ヤマハ株式会社 音響解析装置
CN112530213A (zh) * 2020-12-25 2021-03-19 方湘 一种汉语音调学习方法及系统
CN112530213B (zh) * 2020-12-25 2022-06-03 方湘 一种汉语音调学习方法及系统

Also Published As

Publication number Publication date
US20150051911A1 (en) 2015-02-19
WO2013154296A1 (ko) 2013-10-17

Similar Documents

Publication Publication Date Title
US8907195B1 (en) Method and apparatus for musical training
JP3578464B2 (ja) 自動作曲方法
KR101193362B1 (ko) 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
Benoı̂t et al. Audio-visual speech synthesis from French text: Eight years of models, designs and evaluation at the ICP
CN108763190A (zh) 基于语音的口型动画合成装置、方法及可读存储介质
US20120026174A1 (en) Method and Apparatus for Character Animation
CN106653037B (zh) 音频数据处理方法和装置
US20100235166A1 (en) Apparatus and method for transforming audio characteristics of an audio recording
US9997153B2 (en) Information processing method and information processing device
WO2017136854A9 (en) Mapping characteristics of music into a visual display
JP2017513049A (ja) カラオケ曲の演奏に関するフィードバックをユーザに提供する方法
CN103093750A (zh) 音乐数据显示控制设备及方法
CN106133824A (zh) 用于滚动乐谱的方法、设备以及计算机程序产品
US8514230B2 (en) Recasting a legacy web page as a motion picture with audio
CN112995736A (zh) 语音字幕合成方法、装置、计算机设备及存储介质
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP2005241997A (ja) 音声解析装置、音声解析方法及び音声解析プログラム
JP2013161205A (ja) 情報処理装置、情報処理方法、及びプログラム
CN112799771A (zh) 一种动态壁纸的播放方法、装置、电子设备及存储介质
CN108922505B (zh) 信息处理方法及装置
JP3755503B2 (ja) アニメーション制作システム
CN115619897A (zh) 图像处理方法、装置、电子设备及存储介质
JP5434679B2 (ja) 歌詞音節数提示装置及びプログラム
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151006

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160908

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171016

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181009

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190930

Year of fee payment: 8