KR20120060757A - 음성 합성 정보 편집 장치 - Google Patents
음성 합성 정보 편집 장치 Download PDFInfo
- Publication number
- KR20120060757A KR20120060757A KR1020110127618A KR20110127618A KR20120060757A KR 20120060757 A KR20120060757 A KR 20120060757A KR 1020110127618 A KR1020110127618 A KR 1020110127618A KR 20110127618 A KR20110127618 A KR 20110127618A KR 20120060757 A KR20120060757 A KR 20120060757A
- Authority
- KR
- South Korea
- Prior art keywords
- phoneme
- information
- feature
- compression
- editing
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 79
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 79
- 230000006835 compression Effects 0.000 claims abstract description 141
- 238000007906 compression Methods 0.000 claims abstract description 141
- 238000012545 processing Methods 0.000 claims description 39
- 230000006837 decompression Effects 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 22
- 230000007423 decrease Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 240000006829 Ficus sundaica Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
음성 합성 정보 편집 장치에 있어서, 음소 저장 유닛은 합성되는 음성의 음소마다 기간을 지정하는 음소 정보를 저장한다. 특징 저장 유닛은 음성의 특징의 시간 변화를 지정하는 특징 정보를 저장한다. 편집 처리 유닛은 음소 정보에 의해 지정된 각 음소의 기간을, 특징 정보에 의해 음소에 대응하여 지정되는 특징에 따른 신장/압축 정도로 변경한다.
Description
본 발명은 음성 합성에 사용되는 정보(음성 합성 정보)를 편집하는 기술에 관한 것이다.
종래의 음성 합성 기술에서는, 합성의 대상이 되는 음성(이하, 합성 음성이라고 일컬음)의 음소마다 기간이 가변적으로 지정된다. 일본 공개 특허 평06-67685호 공보에는, 대상인 임의의 문자열로부터 특정되는 음소의 시계열에 대해 시간축 상에서의 신장 또는 압축이 지시된 경우, 음소의 종류(모음/자음)에 따른 신장/압축 정도로 각 음소의 기간을 증가/감소시키는 기술이 개시되어 있다.
그러나, 실제의 음성에 있어서의 각 음소의 기간은 음소의 종류만에 의존하는 것은 아니기 때문에, 일본 공개 특허 평06-67685호 공보에 기재된 바와 같이 음소의 종류만에 따른 신장/압축 정도로 각 음소의 기간을 신장/압축하는 구성에서는, 청감적으로 자연스러운 음성을 합성하는 것이 곤란하다.
이상의 사정을 고려하여, 본 발명은, 시간축 상에서 신장/압축을 행하는 경우라도 청감적으로 자연스러운 음성을 합성하는 것이 가능한 음성 합성 정보를 생성하는(나아가서는, 자연스러운 음성을 합성하는) 것을 목적으로 한다.
이 목적을 달성하기 위해 본 발명은 다음의 수단을 채택한다. 이하의 설명에 있어서, 이해를 용이하게 하기 위해, 후술하는 실시 형태의 요소를 본 발명의 요소에 대응시켜 괄호로 부기하지만, 그러한 괄호의 부기는 본 발명의 범위를 실시 형태로 한정하려는 취지가 아니다.
본 발명의 제1 양태에 따른 음성 합성 정보 편집 장치는, 합성되는 음성의 음소마다 기간을 지정하는 음소 정보(예를 들어, 음소 정보 SA)를 저장하는 음소 저장 유닛(예를 들어, 저장 디바이스(12)), 음성의 특징의 시간 변화를 지정하는 특징 정보(예를 들어, 특징 정보 SB)를 저장하는 특징 저장 유닛(예를 들어, 저장 디바이스(12)), 및 상기 음소 정보에 의해 지정된 각 음소의 기간을, 상기 특징 정보에 의해 음소에 대응하여 지정되는 특징에 따른 신장/압축 정도(예를 들어, 신장/압축 정도 K(n))로 변경하는 편집 처리 유닛(예를 들어, 편집 프로세서(24))을 포함한다. 이 구성에 있어서는, 각 음소의 특징에 따른 신장/압축 정도로 대응하는 음소의 기간이 변경(신장/압축)되기 때문에, 음소의 종류만에 따라 신장/압축 정도를 설정하는 구성에 비해, 청감적으로 자연스러운 음성을 합성할 수 있는 음성 합성 정보를 생성할 수 있다.
예를 들어, 특징 정보가 피치의 시간 변화를 지정하는 구성에서는, 합성되는 음성을 신장할 경우, 상기 편집 처리 유닛은, 상기 특징 정보에 의해 지정된 음소의 피치가 높아질수록 음소의 기간의 신장의 정도가 커지도록, 상기 신장/압축 정도를 상기 특징에 따라 가변하도록 설정하는 것이 바람직하다. 이 양태에 의하면, 피치가 증가할수록 신장의 정도를 증가시키는 경향을 반영한 자연스러운 음성을 생성할 수 있다. 또한, 합성 음성을 압축할 경우에, 상기 편집 처리 유닛은, 특징 정보에 의해 지정되는 음소의 피치가 낮아질수록 음소의 기간의 압축의 정도가 증가하도록, 신장/압축 정도를 상기 특징에 따라 가변하도록 설정할 수 있다. 이 양태에 의하면, 피치가 낮아질수록 압축의 정도를 증가시키는 경향을 반영한 자연스러운 음성을 생성할 수 있다.
또한, 특징 정보가 다이내믹스의 시간 변화를 지정하는 구성에서는, 합성 음성을 신장할 경우, 상기 편집 처리 유닛은, 특징 정보에 의해 지정되는 음소의 다이내믹스가 커질수록 음소의 기간의 신장의 정도가 증가하도록, 신장/압축 정도를 상기 특징에 따라 가변하도록 설정하는 것이 바람직하다. 이 양태에서는, 다이내믹스가 증가할수록 신장의 정도를 증가시키는 경향을 반영한 자연스러운 음성이 생성된다. 또한, 합성 음성을 압축할 경우에, 편집 처리 유닛은, 특징 정보에 의해 지정되는 음소의 다이내믹스가 작아질수록 음소의 기간의 압축의 정도가 증가하도록, 편집 처리 유닛은, 신장/압축 정도를 상기 특징에 따라 가변하도록 설정한다. 이 양태에 따르면, 다이내믹스가 감소할수록 압축의 정도를 증가시키는 경향을 반영한 자연스러운 음성을 생성할 수 있다.
또한, 특징과 신장/압축 정도 간의 관계는 전술한 예로 한정되지 않는다. 예를 들어, 피치가 감소할수록 신장의 정도가 증가한다는 것을 전제로 하여, 피치가 높은 음소에 대한 신장의 정도가 감소하도록 신장/압축 정도가 설정되고, 다이내믹스가 증가할수록 신장의 정도가 감소한다는 것을 전제로 하여, 다이내믹스가 큰 음소에 대한 신장의 정도가 감소하도록 신장/압축 정도가 설정된다.
본 발명의 바람직한 실시 형태에 따른 음성 합성 정보 편집 장치는, 음소 정보에 의해 지정된 기간에 따라 설정된 길이를 가지며 음성의 음소에 대응하여 시간축을 따라 배열된 음소 지시자(예를 들어, 음소 지시자(42))의 열인 음소열 화상(예를 들어, 음소열 화상(32))과, 특징 정보에 의해 지정된 특징의 시계열을 나타내는 특징 프로파일 화상(예를 들어, 특징 프로파일 화상(34))을, 동일한 시간축을 따라 배치시켜 포함하는 편집 화면을 표시 디바이스에 표시시키고, 편집 처리 유닛의 처리의 결과에 기초하여 편집 화면을 갱신하는 표시 제어 유닛을 더 포함한다. 이 양태에 있어서는, 음소열 화상과 특징 프로파일 화상이 공통의 시간축 상에서 표시 디바이스에 표시되기 때문에, 유저는 각 음소의 신장/압축을 직감적으로 파악할 수 있다.
본 발명의 바람직한 양태에 있어서, 특징 정보는, 시간축을 따라 배열된 음소들의 편집점(예를 들어, 편집점 α)마다 특징을 지정하고, 편집 처리 유닛은, 각 음소의 발음 구간에 대한 편집점의 위치가 음소의 발음 기간의 변경 전후에 유지되도록, 특징 정보를 갱신한다. 이 양태에 따르면, 각 음소의 발음 구간에 있어서 시간축 상의 편집점들의 위치들을 유지하면서, 각 음소를 신장/압축할 수 있다.
본 발명의 바람직한 양태에 있어서, 편집 처리 유닛은, 특징의 시간 변화가 갱신되는 경우, 음소 정보에 의해 나타내어지는 음소의 발음 구간 내의 편집점의 시간축 상의 위치를 음소의 종류에 따른 양만큼 이동시킨다. 이 양태에서는, 편집점의 시간축 상의 위치가 편집점에 대응하는 음소의 종류에 따른 양만큼 이동하기 때문에, 모음 음소에 대한 편집점의 이동량과 자음 음소에 대한 편집점의 이동량을 시간축 상에서 상이하게 하는 복잡한 편집 처리를 간편하게 실현할 수 있다. 따라서, 특징의 시간 변화를 편집하는 유저의 부담이 경감된다. 이 양태의 구체예는 제2 실시 형태로서 후술된다.
합성 음성의 특징(예를 들어, 피치)의 시간 변화를 유저가 지정하게 해주는 종래의 음성 합성 기술은 이미 제안되어 있다. 특징의 시간 변화는, 시간축을 따라 배열된 복수의 편집점(break points)을 연결하는 꺽은선으로서 표시 디바이스에 표시된다. 그러나, 특징의 시간 변화를 변경(편집)하기 위해서는 각 편집점을 유저가 개별적으로 이동시킬 필요가 있어서, 유저의 부담이 증가한다. 이러한 사정을 고려하여, 본 발명의 제2 실시 형태의 음성 합성 정보 편집 장치는, 합성되는 음성을 구성하기 위해 시간축을 따라 배열된 복수의 음소를 지정하는 음소 정보(예를 들어, 음소 정보 SA)를 저장하는 음소 저장 유닛(예를 들어, 저장 디바이스(12)), 시간축을 따라 배열되고 음소들에 할당되는 편집점들(예를 들어, 편집점 α[m])에서의 음성의 특징을 지정하는 특징 정보(예를 들어, 특징 정보 SB)를 저장하는 특징 저장 유닛(예를 들어, 저장 디바이스(12)), 및 음소의 발음 구간 내의 시간축 상의 편집점(예를 들어, 편집점 α[m])의 위치를, 음소의 종류에 따른 양(예를 들어, 양 δT[m])만큼 시간축 방향으로 이동시키는 편집 처리 유닛(예를 들어, 편집 프로세서(24))을 포함한다. 이 구성에 따르면, 편집점의 시간축 상의 위치가, 편집점에 대응하는 음소의 종류에 따른 양만큼 이동되기 때문에, 모음 음소에 대한 편집점의 이동량과 자음 음소에 대한 편집점의 이동량을 시간축 상에서 상이하게 하는 복잡한 편집 처리를 간편하게 실현할 수 있다. 따라서, 특징의 시간 변화를 편집하는 유저의 부담이 경감된다. 이 양태의 구체예는 제2 실시 형태로서 후술된다.
이상의 양태들에 있어서 음성 합성 정보 편집 장치는, 음성 합성 정보의 생성에 전용으로 이용되는 디지털 신호 프로세서(Digital Signal Processor(DSP)) 등의 하드웨어(전자 회로)에 의해 실현되고, 또한 중앙 처리 유닛(Central Processing Unit(CPU)) 등의 범용의 연산 처리 장치 및 프로그램의 협동에 의해 실현된다. 본 발명의 제1 양태에 따른 프로그램은, 음성 합성 정보 편집 처리를 컴퓨터에 실행시킬 수 있고, 상기 음성 합성 정보 편집 처리는, 합성되는 음성의 음소마다 기간을 지정하는 음소 정보를 제공하는 단계, 음성의 특징의 시간 변화를 지정하는 특징 정보를 제공하는 단계, 및 상기 음소 정보에 의해 지정된 각 음소의 기간을, 상기 특징 정보에 의해 음소에 대응하여 지정되는 특징에 따른 신장/압축 정도로 변경하는 단계를 포함한다. 또한, 본 발명의 제2 양태에 따른 프로그램은 음성 합성 정보 편집 처리를 컴퓨터에 실행시킬 수 있고, 상기 음성 합성 정보 편집 처리는, 합성되는 음성을 구성하기 위해 시간축을 따라 배열된 복수의 음소를 지정하는 음소 정보를 제공하는 단계, 시간축을 따라 배열되고 음소들에 할당되는 편집점들에서의 음성의 특징을 지정하는 특징 정보를 제공하는 단계, 및 음소의 발음 구간 내의 시간축 상의 편집점의 위치를, 음소의 종류에 따른 양만큼 시간축 방향으로 이동시키는 단계를 포함한다. 전술한 양태의 프로그램들에 따르면, 본 발명의 음성 합성 정보 편집 장치와 마찬가지의 작용 및 효과가 얻어진다. 본 발명의 프로그램들은, 컴퓨터 판독가능 기록 매체에 저장되어, 유저에게 제공되며 컴퓨터에 인스톨된다. 또한, 프로그램들은 서버 디바이스로부터 통신 네트워크를 통해 전송 형태로 제공되고 컴퓨터에 인스톨된다.
본 발명은 음성 합성 정보를 생성하는 방법으로서도 특정된다. 본 발명의 제1 양태의 음성 합성 정보 편집 방법은, 합성되는 음성의 음소마다 기간을 지정하는 음소 정보를 제공하는 단계, 음성의 특징의 시간 변화를 지정하는 특징 정보를 제공하는 단계, 및 상기 음소 정보에 의해 지정된 각 음소의 기간을, 상기 특징 정보에 의해 음소에 대응하여 지정되는 특징에 따른 신장/압축 정도로 변경하는 단계를 포함한다. 또한, 본 발명의 제2 양태의 음성 합성 정보 편집 방법은, 합성되는 음성을 구성하기 위해 시간축을 따라 배열된 복수의 음소를 지정하는 음소 정보를 제공하는 단계, 시간축을 따라 배열되고 음소들에 할당되는 편집점들에서의 음성의 특징을 지정하는 특징 정보를 제공하는 단계, 및 음소의 발음 구간 내의 시간축 상의 편집점의 위치를, 음소의 종류에 따른 양만큼 시간축 방향으로 이동시키는 단계를 포함한다. 전술한 양태의 음성 합성 정보 편집 방법들에 따르면, 본 발명의 음성 합성 정보 편집 장치와 마찬가지의 작용 및 효과가 얻어진다.
도 1은 본 발명의 제1 실시 형태에 따른 음성 합성 장치의 블록도이다.
도 2는 편집 화면의 모식도이다.
도 3은 음성 합성 정보(음소 정보, 특징 정보)의 모식도이다.
도 4는 합성 음성을 신장/압축하는 절차의 설명도이다.
도 5의 (A) 및 도 5의 (B)는 제2 실시 형태에 따른 편집점의 시계열을 편집하는 절차의 설명도이다.
도 6은 편집점의 이동의 설명도이다.
도 2는 편집 화면의 모식도이다.
도 3은 음성 합성 정보(음소 정보, 특징 정보)의 모식도이다.
도 4는 합성 음성을 신장/압축하는 절차의 설명도이다.
도 5의 (A) 및 도 5의 (B)는 제2 실시 형태에 따른 편집점의 시계열을 편집하는 절차의 설명도이다.
도 6은 편집점의 이동의 설명도이다.
<A: 제1 실시 형태>
도 1은 본 발명의 제1 실시 형태에 따른 음성 합성 장치(100)의 블록도이다. 음성 합성 장치(100)는 원하는 합성 음성을 합성하는 음향 처리 장치이며, 연산 처리 디바이스(10), 저장 디바이스(12), 입력 디바이스(14), 표시 디바이스(16), 및 음향 출력 디바이스(18)를 포함하는 컴퓨터 시스템으로서 실현된다. 입력 디바이스(14)(예를 들어, 마우스나 키보드)는 유저로부터의 지시를 접수한다. 표시 디바이스(16)(예를 들어, 액정 디스플레이)는 연산 처리 디바이스(10)에 의해 지정된 화상을 표시한다. 음향 출력 디바이스(18)(예를 들어, 스피커나 헤드폰)는 음성 신호 X에 기초하여 음향을 재생한다.
저장 디바이스(12)는, 연산 처리 디바이스(10)가 실행하는 프로그램 PGM과 정보(예를 들어, 음성 원소 그룹 V와 음성 합성 정보 S)를 저장한다. 반도체 기록 매체나 자기 기록 매체 등의 공지의 기록 매체, 또는 복수 종류의 기록 매체의 조합이 저장 디바이스(12)로서 임의로 채택될 수 있다.
음성 원소 그룹 V는, 상이한 음성 원소에 대응하는 복수의 원소 데이터(예를 들어, 음성 원소의 파형의 샘플 계열)로 구성되어, 음성 합성의 소재로서 이용되는 음성 합성용 라이브러리이다. 음성 원소는, 언어의 의미를 식별하는 최소 단위(예를 들어, 모음이나 자음)에 대응하는 음소, 또는 복수의 음소를 연결해서 구성된 음소 체인이다. 음성 합성 정보 S는 합성되는 음성의 음소나 특징을 지정한다(상세한 것은 후술한다).
연산 처리 디바이스(10)는, 저장 디바이스(12)에 저장된 프로그램 PGM을 실행하여, 음성 신호 X를 생성하기 위해 필요한 복수의 기능(표시 콘트롤러(22), 편집 프로세서(24), 및 음성 합성 유닛(26))을 실현한다. 음성 신호 X는 합성 음성의 파형을 나타낸다. 또한, 이 구성에서는 연산 처리 디바이스(10)의 각 기능을 전용의 전자 회로(DSP)로서 실현하지만, 연산 처리 디바이스(10)의 각 기능을 복수의 집적 회로에 분산시킨 구성도 채택할 수 있다.
표시 콘트롤러(22)는, 합성되는 음성의 편집시에 유저가 시인하는, 도 2에 도시된 편집 화면(30)을 표시 디바이스(16)에 표시시킨다. 도 2에 도시된 바와 같이, 편집 화면(30)은 합성 음성을 구성하는 복수의 음소의 시계열을 유저에게 표시하는 음소열 화상(32)과, 합성 음성의 특징의 시간 변화를 표시하는 특징 프로파일 화상(34)을 포함한다. 음소열 화상(32)과 특징 프로파일 화상(34)은 시간축(횡축)(52)을 공통으로 기초하여 배치된다. 제1 실시 형태에서는, 특징 프로파일 화상(34)이 표시하는 특징으로서 합성 음성의 피치를 나타낸다.
음소열 화상(32)은, 시간축(52)의 방향으로 시계열로 배열된, 합성 음성의 각 음소를 나타내는 음소 지시자(42)를 포함한다. 시간축(52)의 방향에 있어서의 음소 지시자(42)의 위치(예를 들어, 1개의 음소 지시자(42)의 좌측 단부점)는 각 음소의 발음의 시점이고, 시간축(52)의 방향에 있어서의 1개의 음소 지시자(42)의 길이는 각 음소의 발음이 계속되는 시간의 길이(이하, '기간'이라고 일컬음)를 의미한다. 유저는, 편집 화면(30)을 확인하면서 입력 디바이스(14)를 적절하게 조작함으로써, 음소열 화상(32)의 편집을 지시할 수 있다. 예를 들어, 유저는, 음소열 화상(32)의 임의의 점에 대한 음소 지시자(42)의 추가, 기존의 음소 지시자(42)의 삭제, 특정 음소 지시자(42)에 대한 음소의 지정, 지정된 음소의 변경 등을 지시한다. 표시 콘트롤러(22)는, 음소열 화상(32)에 대한 유저로부터의 지시에 따라 음소열 화상(32)을 갱신한다.
도 2에 도시된 특징 프로파일 화상(34)은 시간축(52)과 피치축(종축)(54)이 설정되는 평면 상에 합성 음성의 피치의 시간 변화(궤적)를 표현하는 천이선(56)을 나타낸다. 천이선(56)은, 시간축(52)을 따라 시계열로 배열된 복수의 편집점(break points)을 연결한 꺽은선이다. 유저는, 편집 화면(30)을 확인하면서 입력 디바이스(14)를 적절하게 조작함으로써 특징 프로파일 화상(34)의 편집을 지시할 수 있다. 예를 들어, 유저는, 특징 프로파일 화상(34)의 임의의 점에 대한 편집점 α의 추가, 또는 기존의 편집점 α의 이동이나 삭제를 지시한다. 표시 콘트롤러(22)는, 특징 프로파일 화상(34)에 대한 유저로부터의 지시에 따라 특징 프로파일 화상(34)을 갱신한다. 예를 들어, 유저가 편집점 α의 이동을 지시하면, 특징 프로파일 화상(34)의 편집점 α를 이동시키고 이동된 편집점 α를 천이선(56)이 통과하도록 천이선(56)을 갱신하도록, 특징 프로파일 화상(34)이 갱신된다.
도 1에 도시된 편집 프로세서(24)는 편집 화면(30)의 내용에 대응하는 음성 합성 정보 S를 생성하고, 음성 합성 정보 S를 저장 디바이스(12)에 저장하고, 편집 화면(30)에 대한 유저의 편집의 지시에 따라 음성 합성 정보 S를 갱신한다. 도 3은 음성 합성 정보 S의 모식도이다. 도 3에 도시된 바와 같이, 음성 합성 정보 S는, 음소열 화상(32)에 대응하는 음소 정보 SA와, 특징 프로파일 화상(34)에 대응하는 특징 정보 SB를 포함한다.
음소 정보 SA는 합성 음성을 구성하는 음소의 시계열을 지정하고, 음소열 화상(32)에 설정된 각 음소에 대응하는 단위 정보 UA의 시계열로 구성된다. 단위 정보 UA는 음소 식별 정보 a1과, 발음 개시 시간 a2와, 기간(즉, 음소의 발음이 계속하는 기간) a3을 지정한다. 편집 프로세서(24)는 음소열 화상(32)에 음소 지시자(42)가 추가될 때, 그 음소 지시자(42)에 대응하는 단위 정보 UA를 음소 정보 SA에 추가하고, 유저의 지시에 따라 단위 정보 UA를 갱신한다. 구체적으로는, 편집 프로세서(24)는, 각 음소 지시자(42)에 대응하는 단위 정보 UA마다, 각 음소 지시자(42)에 의해 지정된 음소의 식별 정보 a1을 설정하고, 시간축(52)의 방향에 있어서의 음소 지시자(42)의 위치 및 길이에 따라 발음 개시 시간 a2 및 기간 a3을 설정한다. 단위 정보 UA가 발음 개시 시간과 종료 시간을 포함하는 구성(발음 개시 시간과 종료 시간 사이의 시간이 기간 a3으로서 특정되는 구성)을 채택할 수 있다.
특징 정보 SB는 합성 음성의 피치(특징)의 시간 변화를 지정하고, 도 3에 도시된 바와 같이, 특징 프로파일 화상(34)의 상이한 편집점 α에 대응하는 복수의 단위 정보 항목 UB의 시계열로 구성된다. 각 단위 정보 UB는 편집점 α의 시간 b1과, 편집점 α에 할당된 피치 b2를 지정한다. 편집 프로세서(24)는 특징 프로파일 화상(34)에 편집점 α가 추가될 때, 편집점 α에 대응하는 단위 정보 UB를 특징 정보 SB에 추가하고, 유저의 지시에 따라 단위 정보 UB를 갱신한다. 구체적으로, 편집 프로세서(24)는 편집점 α에 대응하는 단위 정보 UB에 대해, 각 편집점 α의 시간축(52) 상의 위치에 따라 시간 b1을 설정하고, 편집점 α의 피치축(54) 상의 위치에 따라 피치 b2를 설정한다.
도 1에 도시된 음성 합성 유닛(26)은, 저장 디바이스(12)에 저장된 음성 합성 정보 S에 의해 지정되는 합성 음성의 음성 신호 X를 생성한다. 구체적으로, 음성 합성 유닛(26)은, 음성 합성 정보 S의 음소 정보 SA의 단위 정보 UA가 지정하는 식별 정보 a1에 대응하는 원소 데이터를 음성 원소 그룹 V로부터 순차적으로 취득하고, 원소 데이터를, 단위 정보 UA의 기간 a3과, 특징 정보 SB의 단위 정보 UB가 나타내는 피치 b2로 조정하고, 원소 데이터 항목들을 연결하고, 단위 정보 UA의 발음 개시 시간 a2에 원소 데이터를 배치함으로써, 음성 신호 X를 생성한다. 음성 합성 유닛(26)에 의한 음성 신호 X의 생성은, 예를 들어, 편집 화면(30)을 참조하여 합성 음성을 지정한 유저가 입력 디바이스(14)를 조작해서 음성 합성을 행하도록 지시하는 경우에 실행된다. 음성 합성 유닛(26)이 생성한 음성 신호 X는 음향 출력 디바이스(18)에 공급되어 음파로서 재생된다.
음소열 화상(32)의 음소 지시자(42)의 시계열과 특징 프로파일 화상(34)의 편집점 α의 시계열이 지정되면, 위상이 연속적인 복수(N)의 음소를 포함하는 임의의 구간(이하, 신장/압축 대상 구간이라고 일컬음)을 입력 디바이스(14)의 조작에 의해 지정하고, 그와 동시에, 신장/압축 대상 구간의 신장 또는 압축을 지시하는 것이 가능하다. 도 4의 (A)는, "sonanoka"라는 발음에 대응하는 8개(N=8)의 음소 σ[1] 내지 σ[N]의 시계열(/s/, /o/, /n/, /a/, /n/, /o/, /k/, /a/)을 유저가 신장/압축 대상 구간으로서 지정하는 경우의 편집 화면(30)을 도시한다. 신장/압축 대상 구간 내의 N개의 음소 σ[1] 내지 σ[N]이 도 4의 (A)에 있어서 동등한 기간 a3을 갖는 것으로 편의상 상정된다.
현실의 발성시(예를 들어, 회화의 경우)에 음성을 신장 또는 압축할 경우, 음성의 피치에 따라 신장/압축의 정도가 변화하는 경향이 경험적으로 파악된다. 구체적으로는, 피치가 높은 부분(전형적으로, 회화에서 강조할 필요가 있는 부분)이 신장되고, 피치가 낮은 부분(예를 들어, 덜 강조되는 부분)이 압축된다. 이러한 경향을 고려하여, 신장/압축 대상 구간 내의 각 음소의 기간 a3(음소 지시자(42)의 길이)을 그 음소에 할당된 피치 b2에 따른 정도로 증가/감소시킨다. 또한, 자음과 비교해서 모음은 신장 및 압축하기 쉽다는 것을 고려하여, 모음 음소를 자음 음소보다 더 크게 압축 및 신장시킨다. 이제, 신장/압축 대상 구간 내의 각 음소의 신장/압축을 이하 상세하게 설명한다.
도 4의 (B)는, 도 4의 (A)에 도시된 신장/압축 대상 구간을 신장하는 경우의 편집 화면(30)을 도시한다. 유저가 신장/압축 대상 구간의 신장을 지시하는 경우, 도 4의 (B)에 도시된 바와 같이, 신장/압축 대상 구간 내의 특징 정보 SB에 의해 지정되는 피치 b2가 높아질수록 신장의 정도를 증가시키고, 모음 음소의 신장의 정도가 자음 음소에 비해 커지도록, 신장/압축 대상 구간 내의 음소가 신장된다. 예를 들어, 도 4의 (B)에 있어서의 제2 음소 σ[2]와 제6 음소 σ[6]은 동일한 종류 /o/를 갖지만, 특징 정보 SB에 의해 지정되는 제2 음소 σ[2]의 피치 b2는 제6 음소 σ[6]의 것보다 높기 때문에, 제2 음소 σ[2]는 제6 음소 σ[6]의 기간 a3(= Lb[6])보다 긴 기간 a3(=Lb[2])으로 신장된다. 또한, 음소 σ[2]는 모음 /o/인 것에 대해 제3 음소 σ[3]은 자음 /n/이기 때문에, 음소 σ[2]는 음소 σ[3]의 기간 a3(=Lb[3])보다 긴 기간 a3(=Lb[2])으로 신장된다.
도 4의 (C)는, 도 4의 (A)에 도시된 신장/압축 대상 구간을 압축하는 경우의 편집 화면(30)을 도시한다. 유저가 신장/압축 대상 구간의 압축을 지시하는 경우, 도 4의 (C)에 도시된 바와 같이, 신장/압축 대상 구간에 있어서, 특징 정보 SB에 의해 지정되는 피치 b2가 낮아질수록 압축의 정도가 증가하고, 또한 모음 음소는 자음 음소에 비해 더 큰 정도로 압축되도록, 신장/압축 대상 구간 내의 음소들이 압축된다. 예를 들어, 음소 σ[6]의 피치 b2는 음소 σ[2]의 피치보다 낮기 때문에, 음소 σ[6]은 음소 σ[2]의 기간 a3(=Lb[2])보다 짧은 기간 a3(=Lb[6])으로 압축된다. 또한, 음소 σ[2]는 음소 σ[3]의 기간 a3(=Lb[3])보다 짧은 기간 a3=(Lb[2])으로 압축된다.
이상에서 언급한 음소의 신장 및 압축을 위해 편집 프로세서(24)가 실행하는 연산을 이하에서 상세하게 설명한다. 신장/압축 대상 구간의 신장이 지시된 경우, 편집 프로세서(24)는, 제n (n=1 내지 N) 음소 σ[n]의 신장/압축 계수 k[n]을 이하의 수학식 1의 연산에 따라 산출한다.
[수학식 1]
수학식 1의 기호 La[n]은, 도 4의 (A)에 도시된 바와 같이, 신장 전의 음소 σ[n]에 대응하는 단위 정보 UA가 지정하는 기간 a3을 의미한다. 수학식 1의 기호 R은, 음소마다(음소의 종류마다) 사전에 설정된 음소 신장/압축 비율을 의미한다. 음소의 신장/압축 비율 R(테이블)은 사전에 선택되어, 저장 디바이스(12)에 저장된다. 편집 프로세서(24)는, 단위 정보 UA가 지정한 식별 정보 a1의 음소 σ[n]에 대응한 음소 신장/압축 비율 R을 저장 디바이스(12)로부터 검색해서 수학식 1의 연산에 음소 신장/압축 비율 R을 적용한다. 모음 음소의 음소 신장/압축 비율 R이 자음 음소의 것보다 커지게 되도록, 각 음소의 음소 신장/압축 비율 R이 설정된다. 따라서, 모음 음소의 신장/압축 계수 k[n]은 자음 음소의 것보다 큰 값으로 설정된다.
수학식 1의 기호 P[n]은 음소 σ[n]의 피치를 의미한다. 예를 들어, 편집 프로세서(24)는 천이선(56)이 나타내는 피치를 음소 σ[n]의 발음 구간 내에서 평균한 수치, 또는 천이선(56)의 음소 σ[n]의 발음 구간 내의 특정 점(예를 들어, 시점이나 중점)에서의 피치를, 수학식 1의 피치 P[n]으로서 결정하고, 결정된 수치를 수학식 1의 연산에 적용한다.
편집 프로세서(24)는, 수학식 1의 신장/압축 계수 k[n]을 적용한 하기의 수학식 2의 연산을 통해 신장/압축 정도 K[n]을 산출한다.
[수학식 2]
수학식 2의 기호 Σ(k[n])은, 신장/압축 대상 구간 내에 수반되는 모든(N개) 음소에 대한 신장/압축 계수 k[n]의 총합(Σ(k[n]) = k[1] + k[2] + …… + k[N])을 의미한다. 즉, 수학식 2는 신장/압축 계수 k[n]을 1 이하의 양수로 정규화하는 연산에 상당한다.
편집 프로세서(24)는, 수학식 2의 신장/압축 정도 K[n]을 적용한 하기의 수학식 3의 연산을 통해 신장 후의 음소 σ[n]의 기간 Lb[n]을 산출한다.
[수학식 3]
수학식 3의 기호 △L은, 신장/압축 대상 구간의 신장/압축량(절대값)을 의미하고, 유저에 의한 입력 디바이스(14)의 조작에 따라 가변 값으로 지정된다. 도 4의 (A) 및 도 4의 (B)에 도시된 바와 같이, 신장 후의 신장/압축 대상 구간의 총합 길이 Lb[1] + Lb[2] +……+ Lb[N]과 신장 전의 신장/압축 대상 구간의 총합 길이 La[1] + La[2] +……+ La[N] 간의 차분의 절대값이 신장/압축량 △L에 상당한다. 수학식 3으로부터 이해되는 바와 같이, 신장/압축 정도 K[n]은, 신장/압축 대상 구간의 전체적인 신장/압축량 △L에 대한 음소 σ[n]의 신장 부분의 비율을 의미한다. 수학식 3의 연산의 결과, 음소 σ[n]의 피치 P[n]가 높을수록 신장의 정도가 증가하고, 또한 자음 음소보다 모음 음소 σ[n]의 신장 정도가 커지도록, 신장 후의 각 음소 σ[n]의 기간 Lb[n]이 설정된다.
신장/압축 대상 구간의 압축이 지시된 경우, 편집 프로세서(24)는, 신장/압축 대상 구간 내의 제n 음소 σ[n]의 신장/압축 계수 k[n]을 하기의 수학식 4의 연산에 따라 산출한다.
[수학식 4]
수학식 4의 변수 La[n], R, 및 P[n]의 의미는 수학식 1의 것과 마찬가지이다. 편집 프로세서(24)는, 수학식 4를 통해 산출한 신장/압축 계수 k[n]을 수학식 2에 적용함으로써 신장/압축 정도 K[n]을 산출한다. 수학식 4로부터 이해되는 바와 같이, 피치 P[n]이 낮은 음소 σ[n]의 신장/압축 정도 K[n](신장/압축 계수 k[n])은 큰 수치로 설정된다.
편집 프로세서(24)는 신장/압축 정도 K[n]을 적용한 하기의 수학식 5의 연산을 통해 압축 후의 음소 σ[n]의 기간 Lb[n]을 산출한다.
[수학식 5]
수학식 5로부터 이해되는 바와 같이, 음소 σ[n]의 피치 P[n]이 낮을수록 압축의 정도가 증가하고, 또한 자음 음소보다 모음 음소 σ[n]의 압축의 정도가 커지도록, 압축 후의 각 음소 σ[n]의 기간 Lb[n]이 가변 값으로 설정된다.
이상, 신장 및 압축 후의 기간 Lb[n]의 연산을 설명했다. 신장/압축 대상 구간 내의 N개의 음소 σ[1] 내지 σ[N]에 대해 전술한 절차를 통해 기간 Lb[n]을 산출하면, 편집 프로세서(24)는, 음소 정보 SA 중에서 각 음소 σ[n]에 대응하는 단위 정보 UA가 지정하는 기간 a3을 신장/압축 전의 기간 La[n]으로부터 신장/압축 후의 기간 Lb[n](수학식 3 또는 수학식 5의 연산값)으로 변경하고, 신장/압축 후의 각 음소 σ[n]의 기간 a3에 대해 각 음소 σ[n]의 발음 개시 시간 a2를 갱신한다. 또한, 표시 콘트롤러(22)는, 편집 화면(30)의 음소열 화상(32)을, 편집 프로세서(24)에 의한 갱신 후의 음소 정보 SA에 대응하는 내용으로 변경한다.
도 4의 (B) 및 도 4의 (C)에 도시된 바와 같이, 각 음소 σ[n]의 발음 구간에 대한 편집점 α의 상대적인 위치가 신장/압축 대상 구간의 신장/압축의 전후에 유지되도록, 편집 프로세서(24)는 특징 정보 SB를 갱신하고, 표시 콘트롤러(22)는 특징 프로파일 화상(34)을 갱신한다. 즉, 특징 정보 SB가 지정하는 편집점 α에 대응하는 시간 b1은, 시간 b1과 신장/압축 전의 각 음소 σ[n]의 발음 구간 간의 관계가 신장/압축 후에 유지되도록, 적절하게 또는 비례적으로 변경된다. 따라서, 각 편집점 α에 의해 지정되는 천이선(56)은, 각 음소 σ[n]의 신장/압축에 대응하도록 신장/압축된다.
이상으로 설명한 제1 실시 형태에서는, 각 음소 σ[n]의 피치 [Pn]에 따라 각 음소 σ[n]의 신장/압축 정도 K[n]이 가변하도록 설정된다. 따라서, 음소의 종류(모음/자음)만에 기초하여 신장/압축 정도 K[n]을 설정하는 일본 공개 특허 평06-67685호에 개시된 구성에 비해, 청감적으로 자연스러운 음성을 합성할 수 있는 음성 합성 정보 S를 생성할 수 있다(또한, 음성 합성 정보 S를 이용하여 자연스러운 음성을 생성할 수 있다).
구체적으로, 신장/압축 대상 구간을 신장할 경우, 음소의 피치가 증가할수록 음소의 신장의 정도가 커지는 경향을 반영한 자연스러운 음성이 생성되고, 신장/압축 대상 구간을 압축할 경우, 음소의 피치가 감소할수록 음소의 압축의 정도가 커지는 경향을 반영한 자연스러운 음성이 생성된다.
<B: 제2 실시 형태>
본 발명의 제2 실시 형태를 하기에서 설명한다. 제2 실시 형태에서는, 특징 정보 SB가 지정한 각 편집점 α의 시계열(피치의 시간 변화를 나타내는 천이선(56))의 편집에 기초한다. 하기의 양태에 있어서, 작용 및 기능이 제1 실시 형태의 것과 동등한 요소에 대해서는 전술한 설명에서 부기된 부호를 이용하여 상세한 설명을 적절하게 생략한다. 또한, 음소의 시계열의 신장/압축이 지시되는 경우의 동작은 제1 실시 형태와 마찬가지이다.
도 5의 (A) 및 도 5의 (B)는 복수의 편집점 α의 시계열(천이선(56))을 편집하는 절차의 설명도이다. 도 5의 (A)는 "kai"라는 발음에 대응하는 복수의 음소 /k/, /a/, /i/의 시계열과, 유저가 지정하는 피치의 시간 변화를 도시한다. 유저는 입력 디바이스(14)를 적절하게 조작함으로써, 특징 프로파일 화상(34)에서 편집되는 직사각형의 영역(이하, "선택 영역"이라고 일컬음)(60)을 지정한다. 선택 영역(60)은, 이웃하는 복수(M)의 편집점 α[1] 내지 α[M]을 포함하도록 지정된다.
도 5의 (B)에 도시된 바와 같이, 유저는 입력 디바이스(14)를 조작해서, 예를 들어, 선택 영역(60)의 코너부 ZA를 이동시킴으로써, 선택 영역(60)을 신장/압축(도 5의 (B)의 경우에서는 신장)시키는 것이 가능하다. 유저가 선택 영역(60)을 신장/압축하는 경우, 선택 영역(60) 내에 수반되는 M개의 편집점 α[1] 내지 α[M]이 선택 영역(60)의 신장/압축에 응답하여 이동(즉, M개의 편집점 α[1] 내지 α[M]은 신장/압축된 선택 영역(60) 내에 분포)되도록, 편집 프로세서(24)는 특징 정보 SB를 갱신하고, 표시 콘트롤러(22)는 특징 프로파일 화상(34)을 갱신한다. 선택 영역(60)의 신장/압축은 천이선(56)의 갱신을 목적으로 한 편집이기 때문에, 각 음소의 기간 a3(음소열 화상(32) 내의 각 음소 지시자(42)의 길이)은 변경되지 않는다.
이제, 선택 영역(60)을 신장/압축하는 경우의 각 편집점 α의 이동에 대해서 하기에서 상세하게 설명한다. 또한, 하기의 설명에서는 도 6에 도시된 바와 같이 제m 편집점 α[m]의 이동에 기초하지만, 실제로는, 도 5의 (B)에 도시된 바와 같이 선택 영역(60) 내의 M개의 편집점 α[1] 내지 α[M]을 같은 규칙에 따라 이동시킨다.
도 6에 도시된 바와 같이, 유저는 입력 디바이스(14)를 조작해서 선택 영역(60)의 코너부 ZA를 이동시킴으로써, 코너부 ZA의 대각의 코너부(이하, '기준점'이라고 일컬음) Zref를 고정한 채 선택 영역(60)을 신장 또는 압축(도 6의 경우에서는 신장)할 수 있다.
구체적으로는, 피치축(54)의 방향에 있어서의 선택 영역(60)의 길이 LP가 신장/압축 △LP만큼 신장되고, 시간축(52) 방향에 있어서의 선택 영역(60)의 길이 LT가 신장/압축 △LT만큼 신장되는 것을 상정한다.
편집 프로세서(24)는 피치축(54)의 방향에 있어서의 편집점 α[m]의 이동량 δP[m]과, 시간축(52)의 방향에 있어서의 편집점 α[m]의 이동량 δT[m]을 산출한다. 도 6에 있어서, 피치 차이 PA[m]은, 이동 전의 편집점 α[m]과 기준점 Zref 간의 피치 차이를 의미하고, 시간차 TA[m]은, 이동 전의 편집점 α[m]과 기준점 Zref 간의 시간 차이를 의미한다.
편집 프로세서(24)는 다음의 수학식 6의 연산을 통해 이동량 δP[m]을 산출한다.
[수학식 6]
즉, 피치축(54)의 방향에 있어서의 편집점 α[m]의 이동량 δP[m]은, 기준점 Zref에 대한 이동 전의 피치 차이 PA[m]과, 피치축(54)의 방향에 있어서의 선택 영역(60)의 신장/압축의 정도(△LP/LP)에 따라 가변적으로 설정된다.
또한, 편집 프로세서(24)는, 다음의 수학식 7의 연산을 통해 이동량 δT[m]을 산출한다.
[수학식 7]
즉, 시간축(52)의 방향에 있어서의 편집점 α[m]의 이동량 δT[m]은, 기준점 Zref에 대한 이동 전의 시간차 TA[m]과, 시간축(52)의 방향에 있어서의 선택 영역(60)의 신장/압축의 정도(△LT/LT) 외에도 음소 신장/압축 비율 R에 따라 가변적으로 설정된다.
제1 실시 형태와 마찬가지로, 각 음소의 음소 신장/압축 비율 R은 저장 디바이스(12)에 미리 저장된다. 편집 프로세서(24)는, 음소 정보 SA가 지정하는 복수의 음소 중에서 이동 전의 편집점 α[m]을 발음 구간 내에 포함하는 1개의 음소에 대응하는 음소 신장/압축 비율 R을 저장 디바이스(12)로부터 검색하고, 검색된 음소 신장/압축 비율을 수학식 7의 연산에 적용한다. 제1 실시 형태와 마찬가지로, 모음 음소의 음소 신장/압축 비율이 자음 음소의 것보다 더 크도록 음소마다 음소 신장/압축 비율 R이 설정된다. 따라서, 기준점 Zref에 대한 시간차 TA[m], 또는 시간축(52)의 방향에 있어서의 선택 영역(60)의 신장/압축의 정도 △LT/LT가 일정하면, 모음 음소에 대응하는 편집점 α[m]의 경우가 자음 음소에 대응하는 편집점 α[m]의 경우보다, 시간축(52)의 방향에 있어서의 편집점 α[m]의 이동량 δT[m]이 큰 수치가 된다.
선택 영역(60) 내의 M개의 편집점 α[1] 내지 α[M]의 각각에 대해서 이동량 δP[m] 및 이동량 δT[m]을 산출하면, 편집 프로세서(24)는 특징 정보 SB의 단위 정보 UB에 의해 지정되는 각 편집점 α[m]이 피치축(54)의 방향으로 이동량 δP[m]만큼 이동하고, 그와 동시에, 시간축(52)의 방향으로 이동량 δT[m]만큼 이동하도록, 단위 정보 UB를 갱신한다. 구체적으로는, 도 6으로부터 이해되는 바와 같이, 편집 프로세서(24)는, 특징 정보 SB 중에서 편집점 α[m]의 단위 정보 UB가 지정하는 시간 b1에 수학식 7의 이동량 δT[m]을 가산하고, 단위 정보 UB가 지정하는 피치 b2로부터 수학식 6의 이동량 δP[m]을 감산한다. 표시 콘트롤러(22)는, 편집 화면(3O)의 특징 프로파일 화상(34)을, 편집 프로세서(24)에 의한 갱신 후의 특징 정보 SB에 따른 내용으로 갱신한다. 즉, 도 5의 (B)에 도시된 바와 같이, 선택 영역(60) 내의 M개의 편집점 α[1] 내지 α[M]을 이동시키고, 이동된 편집점 α[1] 내지 α[M]을 통과하도록 천이선(56)을 갱신한다.
전술한 바와 같이, 제2 실시 형태에서는 편집점 α[m]이 음소의 종류(음소 신장/압축 비율 R)에 따른 이동량 δT[m]만큼 시간축(52) 방향으로 이동된다. 즉, 도 5의 (B)에 도시된 바와 같이, 모음 음소 /a/ 및 /i/에 대응하는 편집점 α[m]은, 자음 음소 /k/에 대응하는 편집점 α[m]에 비해, 선택 영역(60)의 신장/압축에 의존하여 시간축(52)의 방향으로 큰 정도로 이동된다. 따라서, 선택 영역(60)의 신장 또는 압축의 간단한 조작을 통해, 자음 음소에 대응하는 편집점 α[m]의 시간축(52) 상의 이동을 억제하면서, 모음 음소에 대응하는 편집점 α[m]을 이동시키는 복잡한 편집을 실현할 수 있다.
전술한 예에서는, 피치 P[n]에 따라 각 음소 σ[n]을 신장/압축시키는 제1 실시 형태의 구성과, 음소의 종류에 기초하여 편집점 α[ml을 이동시키는 제2 실시 형태의 구성 둘다를 포함하지만, 제1 실시 형태의 구성(각 음소의 신장/압축)은 생략될 수 있다.
그런데, 전술한 방법을 통해 각 편집점 α를 이동시키는 경우, 선택 영역(60)의 단부 근방에 배치된 편집점 α(예를 들어, 도 5의 (B)의 편집점 α[M])와, 선택 영역(60)의 외측에 배치된 편집점 α(예를 들어, 도 5의 (B)의 우측으로부터 두번째 편집점 α)의 시간축(52) 상의 위치들은, 선택 영역(60)의 신장/압축 전후로 변경될 가능성이 있다. 또한, 선택 영역(60)의 내부에서도, 음소들의 신장/압축 비율 R 간의 차이로 인해(예를 들어, 전방의 편집점 α에 대응하는 음소의 음소 신장/압축 비율 R이 후방의 편집점 α에 대응하는 음소의 것보다 충분히 큰 경우), 각 편집점 α의 위치는 선택 영역(60)의 신장/압축 전후에 변경될 수 있다. 이에 따라, 각 편집점 α의 시간축(52) 상의 위치 또는 순서 관계가 선택 영역(60)의 신장/압축 전후에 변경되지 않도록 하는 제약 조건을 설정하는 것이 바람직하다. 구체적으로는, 다음의 수학식 7a의 제약 조건이 성립하도록 수학식 7의 이동량 δT[m]이 산출된다.
[수학식 7a]
예를 들어, 유저에 의한 선택 영역(60)의 신장/압축을 수학식 7a의 제약 조건이 성립하는 범위 내로 제한하는 구성, 각 편집점 α에 대응하는 음소 신장/압축 비율 R을 수학식 7a의 제약 조건이 성립하도록 동적으로 조정하는 구성, 또는 수학식 7에 의해 산출된 이동량 δT[m]을 수학식 7a의 제약 조건이 성립하도록 보정하는 구성이 적절하게 채택될 수 있다.
<C: 변형예>
전술한 실시 형태들은 여러가지 방식으로 변형될 수 있다. 변형 형태의 구체적인 양태를 하기에서 설명한다. 다음의 예로부터 임의로 선택되는 2 이상의 형태가 병합될 수도 있다.
(1) 변형예 1
제1 실시 형태에서는 피치 P[n]에 따라 각 음소 σ[n]을 신장/압축시켰지만, 각 음소의 신장/압축 정도 K[n]에 반영되는 합성 음성의 특징은 피치 P[n]에 한정되지 않는다. 예를 들어, 음성의 다이내믹스에 따라 각 음소의 신장/압축의 정도가 변화된다(예를 들어, 다이내믹스가 큰 부분이 신장되기 쉽다)는 것을 전제로 하여, 다이내믹스 또는 음량의 시간 변화를 지정하도록 특징 정보 SB를 생성하여, 제1 실시 형태에서 설명한 각 연산의 피치 P[n]을, 특징 정보 SB가 나타내는 다이내믹스 D[n]으로 치환하는 구성이 채택된다. 즉, 예를 들어, 다이내믹스 D[n]이 큰 음소 σ[n]가 신장의 정도가 커지고, 다이내믹스 D[n]이 작은 음소 σ[n]가 압축의 정도가 커지도록, 신장/압축 정도 K[n]이 다이내믹스 D[n]에 따라 가변적으로 설정된다. 신장/압축 정도 K[n]의 산출에 적합한 특징으로서는 피치 P[n] 및 다이내믹스 D[n] 외에도 음성의 명료도가 상정될 수 있다.
(2) 변형예 2
제1 실시 형태에서는 음소마다 신장/압축 정도 K[n]을 설정했지만, 음소마다 개별적인 신장/압축이 적절하지 않을 경우도 있다. 예를 들어, "string"이라는 단어의 선두로부터 3개의 음소 /s/, /t/, 및 /r/ 각각을 상이한 신장/압축 정도 K[n]으로 신장 또는 압축하면, 결과적으로 부자연스러운 음성이 될 수 있다. 따라서, 신장/압축 대상 구간 중에서 특정 음소들(예를 들어, 유저가 선택한 음소들이나 소정의 조건을 충족시키는 음소들)의 신장/압축 정도 K[n]을 동등한 수치로 설정하는 구성도 채택할 수 있다. 예를 들어, 3개 이상의 자음 음소가 연속할 경우에는, 그들의 신장/압축 정도 K[n]을 동등한 수치로 설정한다.
(3) 변형예 3
제1 실시 형태에서는, 수학식 1 또는 수학식 4에 적용되는 음소 신장/압축 비율 R이 인접한 음소 σ[n-1] 및 음소 σ[n] 간에 급격하게 변화할 가능성이 있다. 따라서, 복수의 음소에 걸쳐 음소 신장/압축 비율 R의 이동 평균(예를 들어, 음소 σ[n-1]의 음소 신장/압축 비율 R과 음소 σ[n]의 음소 신장/압축 비율 R의 평균값)을 수학식 1 또는 수학식 4의 음소 신장/압축 비율 R로서 사용하는 구성을 채택하는 것이 바람직하다. 제2 실시 형태에 있어서도, 편집점 α[m]에 대해 결정되는 음소 신장/압축 비율 R의 이동 평균을 수학식 7의 연산에 적용하는 구성이 채택될 수 있다.
(4) 변형예 4
제1 실시 형태에서는 특징 정보 SB로부터 산출되는 피치를 직접 수학식 1 또는 수학식 4의 피치로서 적용했지만, 특징 정보 SB에 의해 특정되는 피치 p에 대한 소정의 연산을 통해 피치 P[n]을 산출하는 구성도 채택될 수 있다. 예를 들어, 피치 p의 지수승(예를 들어, p2)을 피치 P[n]으로서 사용하는 구성, 또는 피치 p의 연산 또는 대수값(log p)을 피치 P[n]으로서 사용하는 구성을 채택하는 것이 바람직하다.
(5) 변형예 5
이상의 실시 형태들에서는 음소 정보 SA와 특징 정보 SB를 단일 저장 디바이스(12)에 저장했지만, 음소 정보 SA와 특징 정보 SB를 별개의 저장 디바이스(12)에 각각 저장한 구성도 채택할 수 있다. 즉, 본 발명은 음소 정보 SA를 저장하는 요소(음소 저장 유닛)와, 특징 정보 SB를 저장하는 요소(특징 저장 유닛)를 별개/일체로 하든 불문한다.
(6) 변형예 6
이상의 실시 형태들에서는, 음성 합성 유닛(26)을 포함하는 음성 합성 장치(100)를 기술했지만, 표시 콘트롤러(22) 또는 음성 합성 유닛(26)은 생략될 수 있다. 표시 콘트롤러(22)를 생략한 구성(편집 화면(30)의 표시, 또는 편집 화면(30)을 편집하기 위한 유저로부터의 지시가 생략되는 구성)에서는, 유저로부터의 편집 지시를 필요로 하지 않고 자동으로 음성 합성 정보 S의 작성 및 편집이 실행된다. 이상의 구성들에서는, 편집 프로세서(24)에 따른 음성 합성 정보 S의 작성 및 편집을 유저로부터의 지시에 따라 온/오프하는 것이 바람직하다.
또한, 표시 콘트롤러(22) 또는 음성 합성 유닛(26)이 생략되는 장치에서는, 편집 프로세서(24)가 음성 합성 정보 S를 작성 및 편집하는 디바이스(음성 합성 정보 편집 디바이스)로서 구성될 수 있다. 음성 합성 정보 편집 디바이스가 생성한 음성 합성 정보 S를 별개의 음성 합성 장치(음성 합성 유닛(26))에 제공함으로써 음성 신호 X가 생성된다. 예를 들어, 저장 디바이스(12)와 편집 프로세서(24)를 포함하는 음성 합성 정보 편집 디바이스(서버 장치)와, 표시 콘트롤러(22) 또는 음성 합성 유닛(26)을 포함하는 통신 단말기(예를 들어, 퍼스널 컴퓨터 또는 휴대 통신 단말기)가 통신 네트워크를 통해 서로 통신하는 통신 시스템에 있어서, 음성 합성 정보 S를 작성 및 편집하는 서비스(클라우드 컴퓨팅 서비스)를 음성 합성 정보 편집 디바이스로부터 단말기에 제공할 경우에도, 본 발명이 적용된다. 즉, 음성 합성 정보 편집 디바이스의 편집 프로세서(24)는, 통신 단말기로부터의 요구에 따라서 음성 합성 정보 S를 작성 및 편집하고, 통신 단말기에 음성 합성 정보 S를 송신한다.
100: 음성 합성 장치
10: 연산 처리 디바이스
12: 저장 디바이스
14: 입력 디바이스
16: 표시 디바이스
18: 음향 출력 디바이스
22: 표시 콘트롤러
24: 편집 프로세서
26: 음성 합성 유닛
30: 편집 화면
32: 음소열 화상
34: 특징 프로파일 화상
42: 음소 지시자
52: 시간축
54: 피치축
56: 천이선
60: 선택 영역
10: 연산 처리 디바이스
12: 저장 디바이스
14: 입력 디바이스
16: 표시 디바이스
18: 음향 출력 디바이스
22: 표시 콘트롤러
24: 편집 프로세서
26: 음성 합성 유닛
30: 편집 화면
32: 음소열 화상
34: 특징 프로파일 화상
42: 음소 지시자
52: 시간축
54: 피치축
56: 천이선
60: 선택 영역
Claims (17)
- 음성 합성 정보 편집 장치로서,
합성되는 음성의 음소마다 기간을 지정하는 음소 정보를 저장하는 음소 저장 유닛,
음성의 특징의 시간 변화를 지정하는 특징 정보를 저장하는 특징 저장 유닛, 및
상기 음소 정보에 의해 지정된 각 음소의 기간을, 상기 특징 정보에 의해 음소에 대응하여 지정되는 특징에 따른 신장/압축 정도로 변경하는 편집 처리 유닛을 포함하는 음성 합성 정보 편집 장치. - 제1항에 있어서,
상기 특징 정보에 의해 지정되는 특징은 피치이고, 상기 편집 처리 유닛은, 음성을 신장할 경우에, 상기 특징 정보에 의해 지정된 음소의 피치가 높아질수록 음소의 기간의 신장의 정도가 증가하도록, 상기 신장/압축 정도를 상기 특징에 따라 가변하도록 설정하는, 음성 합성 정보 편집 장치. - 제1항에 있어서,
상기 특징 정보에 의해 지정되는 특징은 피치이고, 상기 편집 처리 유닛은, 음성을 압축할 경우에, 상기 특징 정보에 의해 지정된 음소의 피치가 낮아질수록 음소의 기간의 압축의 정도가 증가하도록, 상기 신장/압축 정도를 상기 특징에 따라 가변하도록 설정하는, 음성 합성 정보 편집 장치. - 제1항에 있어서,
상기 특징 정보에 의해 지정되는 특징은 다이내믹스이고, 상기 편집 처리 유닛은, 음성을 신장할 경우에, 상기 특징 정보에 의해 지정된 음소의 다이내믹스가 커질수록 음소의 기간의 신장의 정도가 증가하도록, 상기 신장/압축 정도를 상기 특징에 따라 가변하도록 설정하는, 음성 합성 정보 편집 장치. - 제1항에 있어서,
상기 특징 정보에 의해 지정되는 특징은 다이내믹스이고, 상기 편집 처리 유닛은, 음성을 압축할 경우에, 상기 특징 정보에 의해 지정된 음소의 다이내믹스가 작아질수록 음소의 기간의 압축의 정도가 증가하도록, 상기 신장/압축 정도를 상기 특징에 따라 가변하도록 설정하는, 음성 합성 정보 편집 장치. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 음소 정보에 의해 지정된 기간에 따라 설정된 길이를 각각 가지며, 음성의 음소들에 대응하여 시간축을 따라 배열된 음소 지시자의 열인 음소열 화상과, 상기 특징 정보에 의해 지정된 특징의 시계열을 나타내는 특징 프로파일 화상을 포함하며, 동일한 시간축을 따라 배치된 편집 화면을 표시 디바이스에 표시시키고, 상기 편집 처리 유닛의 처리의 결과에 기초하여 상기 편집 화면을 갱신하는 표시 제어 유닛을 더 포함하는, 음성 합성 정보 편집 장치. - 제6항에 있어서,
상기 특징 정보는, 시간축 상에 배열된 음소의 편집점마다 특징을 지정하고, 상기 편집 처리 유닛은, 음소의 발음 구간에 대한 상기 편집점의 위치가 각 음소의 기간의 변경 전후에 유지되도록, 상기 특징 정보를 갱신하는, 음성 합성 정보 편집 장치. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 특징 정보는, 시간축 상에 배열된 음소의 편집점마다 특징을 지정하고, 상기 편집 처리 유닛은, 음소의 발음 구간에 대한 상기 편집점의 위치가 각 음소의 기간의 변경 전후에 유지되도록, 상기 특징 정보를 갱신하는, 음성 합성 정보 편집 장치. - 제8항에 있어서,
상기 편집 처리 유닛은, 상기 특징의 시간 변화가 갱신된 경우에, 상기 음소 정보에 의해 나타내어지는 음소의 발음 구간 내의 상기 편집점의 시간축 상의 위치를, 음소의 종류에 따른 양만큼 이동시키는, 음성 합성 정보 편집 장치. - 제9항에 있어서,
상기 편집 처리 유닛은, 모음 종류의 음소에 대한 편집점의 이동량이 자음 종류의 음소에 대한 편집점의 이동량과 상이하도록, 음소의 발음 구간 내의 편집점의 위치를 음소의 종류에 따른 양만큼 이동시키는, 음성 합성 정보 편집 장치. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 편집 처리 유닛은, 상기 음소 정보에 의해 지정되는 음소들 중의 특정 음소들에 대한 상기 신장/압축 정도를 동일한 값으로 설정하는, 음성 합성 정보 편집 장치. - 음성 합성 정보 편집 장치로서,
합성되는 음성을 구성하기 위해 시간축 상에 배열된 복수의 음소를 지정하는 음소 정보를 저장하는 음소 저장 유닛,
시간축 상에 배열되고 음소들에 할당되는 편집점들에서의 음성의 특징을 지정하는 특징 정보를 저장하는 특징 저장 유닛, 및
음소의 발음 구간 내의 시간축 상의 편집점의 위치를, 음소의 종류에 따른 양만큼 시간축 방향으로 이동시키는 편집 처리 유닛을 포함하는, 음성 합성 정보 편집 장치. - 제12항에 있어서,
상기 편집 처리 유닛은, 모음 종류의 음소에 대한 편집점의 이동량이 자음 종류의 음소에 대한 편집점의 이동량과 상이하도록, 음소의 발음 구간 내의 편집점의 위치를 음소의 종류에 따른 양만큼 이동시키는, 음성 합성 정보 편집 장치. - 컴퓨터에 사용하기 위한 머신 판독가능 저장 매체로서, 상기 매체는 음성 합성 정보 편집 처리를 컴퓨터에 실행시킬 수 있는 프로그램 명령들을 포함하고, 상기 음성 합성 정보 편집 처리는,
합성되는 음성의 음소마다 기간을 지정하는 음소 정보를 제공하는 단계,
음성의 특징의 시간 변화를 지정하는 특징 정보를 제공하는 단계, 및
상기 음소 정보에 의해 지정된 각 음소의 기간을, 상기 특징 정보에 의해 음소에 대응하여 지정되는 특징에 따른 신장/압축 정도로 변경하는 단계를 포함하는, 머신 판독가능 저장 매체. - 컴퓨터에 사용하기 위한 머신 판독가능 저장 매체로서, 상기 매체는 음성 합성 정보 편집 처리를 컴퓨터에 실행시킬 수 있는 프로그램 명령들을 포함하고, 상기 음성 합성 정보 편집 처리는,
합성되는 음성을 구성하기 위해 시간축 상에 배열된 복수의 음소를 지정하는 음소 정보를 제공하는 단계,
시간축 상에 배열되고 음소들에 할당되는 편집점들에서의 음성의 특징을 지정하는 특징 정보를 제공하는 단계, 및
음소의 발음 구간 내의 시간축 상의 편집점의 위치를, 음소의 종류에 따른 양만큼 시간축 방향으로 이동시키는 단계를 포함하는, 머신 판독가능 저장 매체. - 음성 합성 정보 편집 방법으로서,
합성되는 음성의 음소마다 기간을 지정하는 음소 정보를 제공하는 단계,
음성의 특징의 시간 변화를 지정하는 특징 정보를 제공하는 단계, 및
상기 음소 정보에 의해 지정된 각 음소의 기간을, 상기 특징 정보에 의해 음소에 대응하여 지정되는 특징에 따른 신장/압축 정도로 변경하는 단계를 포함하는, 음성 합성 정보 편집 방법. - 음성 합성 정보 편집 방법으로서,
합성되는 음성을 구성하기 위해 시간축 상에 배열된 복수의 음소를 지정하는 음소 정보를 제공하는 단계,
시간축 상에 배열되고 음소들에 할당되는 편집점들에서의 음성의 특징을 지정하는 특징 정보를 제공하는 단계, 및
음소의 발음 구간 내의 시간축 상의 편집점의 위치를, 음소의 종류에 따른 양만큼 시간축 방향으로 이동시키는 단계를 포함하는, 음성 합성 정보 편집 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110127618A KR20120060757A (ko) | 2010-12-02 | 2011-12-01 | 음성 합성 정보 편집 장치 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2010-269305 | 2010-12-02 | ||
KR1020110127618A KR20120060757A (ko) | 2010-12-02 | 2011-12-01 | 음성 합성 정보 편집 장치 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140049198A Division KR101542005B1 (ko) | 2010-12-02 | 2014-04-24 | 음성 합성 정보 편집 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20120060757A true KR20120060757A (ko) | 2012-06-12 |
Family
ID=46611597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110127618A KR20120060757A (ko) | 2010-12-02 | 2011-12-01 | 음성 합성 정보 편집 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20120060757A (ko) |
-
2011
- 2011-12-01 KR KR1020110127618A patent/KR20120060757A/ko active Application Filing
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101542005B1 (ko) | 음성 합성 정보 편집 장치 | |
JP6665446B2 (ja) | 情報処理装置、プログラム及び音声合成方法 | |
JP2015034920A (ja) | 音声解析装置 | |
WO2017033612A1 (ja) | 表示制御方法および合成音声編集装置 | |
JP6507579B2 (ja) | 音声合成方法 | |
US9552806B2 (en) | Sound synthesizing apparatus | |
US7457752B2 (en) | Method and apparatus for controlling the operation of an emotion synthesizing device | |
JP2017045073A (ja) | 音声合成方法および音声合成装置 | |
US11437016B2 (en) | Information processing method, information processing device, and program | |
JP5614262B2 (ja) | 音楽情報表示装置 | |
JP5157922B2 (ja) | 音声合成装置、およびプログラム | |
KR20120060757A (ko) | 음성 합성 정보 편집 장치 | |
JP6413220B2 (ja) | 合成情報管理装置 | |
JP3785892B2 (ja) | 音声合成装置及び記録媒体 | |
US12014723B2 (en) | Information processing method, information processing device, and program | |
JP5935831B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5552797B2 (ja) | 音声合成装置および音声合成方法 | |
JP6372066B2 (ja) | 合成情報管理装置および音声合成装置 | |
JP6435791B2 (ja) | 表示制御装置および表示制御方法 | |
JP3515268B2 (ja) | 音声合成装置 | |
JP5641266B2 (ja) | 音声合成装置、音声合成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E601 | Decision to refuse application | ||
A107 | Divisional application of patent |