KR101014462B1 - 음성 읽어내기를 위한 장치, 기록 매체 및 방법 - Google Patents

음성 읽어내기를 위한 장치, 기록 매체 및 방법 Download PDF

Info

Publication number
KR101014462B1
KR101014462B1 KR1020080061596A KR20080061596A KR101014462B1 KR 101014462 B1 KR101014462 B1 KR 101014462B1 KR 1020080061596 A KR1020080061596 A KR 1020080061596A KR 20080061596 A KR20080061596 A KR 20080061596A KR 101014462 B1 KR101014462 B1 KR 101014462B1
Authority
KR
South Korea
Prior art keywords
phoneme
data
length
pose
reading
Prior art date
Application number
KR1020080061596A
Other languages
English (en)
Other versions
KR20090004586A (ko
Inventor
리까 니시이께
히또시 사사끼
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20090004586A publication Critical patent/KR20090004586A/ko
Application granted granted Critical
Publication of KR101014462B1 publication Critical patent/KR101014462B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

문자 데이터의 음성 읽어내기에 관한 것으로, 음소 길이의 조정에 의해 음성 읽어내기의 인식성을 높인다. 포즈, 장음, 촉음 또는 자음을 포함하는 문자 데이터를 음성으로 변환하여 읽어내는 장치(음성 읽어내기 장치(2)), 프로그램 및 방법에 관한 것으로, 포즈, 장음, 촉음 또는 자음 중 어느 하나 또는 2 이상을 포함하는 문자 데이터로부터 포즈, 장음, 촉음 또는 자음의 존재를 인식하고, 포즈, 장음, 촉음 또는 자음의 음소 길이를 제어한다. 이 음소 길이의 제어는 예를 들면, 읽어내기 속도에 따라서 실행하며, 읽어내기 속도가 저속인 경우에는, 포즈, 장음, 촉음 또는 자음의 음소 길이를 신장시키지 않거나 또는 그 음소 길이를 단축시키는 구성이다.
Figure R1020080061596
문자 데이터, 음성 읽어내기, 음소 길이, 포즈, 장음, 촉음, 자음

Description

음성 읽어내기를 위한 장치, 기록 매체 및 방법{TEXT-TO-SPEECH APPARATUS, RECORDING MEDIUM, AND METHOD}
본 발명은, 문서 등의 표음 문자를 포함하는 문자 데이터를 음성으로 변환하여 출력하는 음성 읽어내기를 위한 장치, 프로그램 및 방법에 관한 것으로, 음소 길이를 읽어내기 속도에 따라서 제어하고, 특히, 저속 읽어내기에서는 특정한 음소 길이를 신장하지 않거나 또는 단축하는 것을 가능하게 하는 음성 읽어내기를 위한 장치, 프로그램 및 방법에 관한 것이다.
표음 문자를 포함하는 문자 데이터를 해석하고, 그 문자 데이터로부터 음성 합성법에 의해 음성 합성을 행하고, 문자 데이터를 음성으로서 출력하는 소위 음성 읽어내기의 기술이 알려져 있다. 휴대 전화기 등의 휴대 단말 장치에 있어서는, 메일 등의 자유 문장을 읽어내는 음성 합성 기능이 보급되기 시작하고 있다. 또한, 퍼스널 컴퓨터(PC)에 있어서는, 스크린 리더라 불리는 소프트웨어가 보급되기 시작하고 있다. 문장의 내용을 음성에 의해 이해하는 경우에는, 청각에 작용하는 모음, 자음, 포즈 등을 나타내는 음소의 길이가 인식성을 높이는데 있어서 중요한 팩터로 된다.
이러한 음성 읽어내기에 관한 것으로, 특허 문헌 1에는, 발화 속도 정보가 미리 정해진 값 미만일 때는, 발화 속도를 그 정보에 기초하여 표준보다 빨리 하기 위해서, 모라 길이를 최소한으로 설정하고, 발화 속도 정보에 따른 짧은 프레임 주기를 설정하고, 발화 속도 정보가 미리 정해진 값 이상일 때는, 발화 속도를 그 정보에 기초하여 표준보다 느리게 하기 위해서, 발화 속도 정보에 따른 긴 모라 길이를 설정하고, 프레임 주기를 최대값으로 설정하는 음성 합성이 개시되어 있다.
[특허 문헌 1] 특허 공개 평6-149283호 공보(요약 및 도 1 등)
그런데, 읽어내기 속도(화속)를 설정 가능하게 한 경우, 화속에 반비례하여 각 음소 길이가 설정되는 것으로 한다. 예를 들면, 화속을 2배의 속도로 하면, 그 음소 길이는 1/2로 되고, 화속을 1/2로 느리게 하면, 음소 길이는 2배로 된다. 이와 같이 화속과 음소 길이와의 관계를 단순한 관계로 설정하고, 즉, 화속과 음소 길이를 단순하게 반비례로 하면, 통상의 화속에서는 자연스러운 경우(알아듣기 쉬운 경우)이어도, 고속 읽기나 저속 읽기의 경우에는, 알아듣기 어려워, 위화감이 있어, 인식성을 저하시키는 경우가 있다.
이러한 요구나 과제에 대하여, 특허 문헌 1에는 그 개시나 시사는 없으며, 그것을 해결하는 구성 등에 대한 개시나 시사는 없다.
따라서, 본 발명의 목적은, 문자 데이터의 음성 읽어내기에 관한 것으로, 음소 길이의 조정에 의해 음성 읽어내기의 인식성을 높이는 것에 있다.
이러한 목적은, 포즈, 장음, 촉음 또는 자음을 포함하는 문자 데이터의 음소에 대한 인식성이 읽어내기 속도에 따라서 영향을 받는다고 하는 지견에 기초하는 것이다.
이러한 목적을 구체적으로 설명하면, 문자 데이터의 음성 읽어내기에 관한 것으로, 청감상, 읽어내어지는 음성의 알아듣기 쉬움을 향상시키는 것에 있다.
상기 목적을 달성하기 위해, 본 발명은, 포즈, 장음, 촉음 또는 자음을 포함하는 문자 데이터를 음성으로 변환하여 읽어내는 장치, 프로그램 및 방법에 관한 것으로, 포즈, 장음, 촉음 또는 자음 중 어느 하나 또는 2 이상을 포함하는 문자 데이터로부터 포즈, 장음, 촉음 또는 자음의 존재를 인식하고, 포즈, 장음, 촉음 또는 자음의 음소 길이를 제어한다. 이 음소 길이의 제어는 예를 들면, 읽어내기 속도에 따라서 실행하고, 읽어내기 속도가 저속인 경우에는, 포즈, 장음, 촉음 또는 자음의 음소 길이를 신장시키지 않거나 또는 그 음소 길이를 단축시키는 구성이다. 이러한 구성에 의해, 청감상, 읽어낼 수 있는 음성의 알아듣기 쉬움이 향상되어, 음성 읽어내기의 인식성을 높이고 있다.
따라서, 상기 목적을 달성하기 위해, 본 발명의 제1 측면은, 문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 장치로서, 상기 문자 데이터로부터 포즈 또는 음소의 종류를 판정하는 음소 판정부와, 음소에 읽어내기 속도에 따라서 음소 길이를 설정하고, 포즈, 장음, 촉음 또는 자음 중 어느 하나 또는 2 이상을 포함하는 경우에, 상기 음소 판정부의 판정 결과에 기초하여, 상기 포즈, 상기 장 음, 상기 촉음 또는 상기 자음의 음소 길이를 조정하는 음소 길이 조정부를 구비하는 구성이다.
이러한 구성에 의하면, 문자 데이터, 표음 문자열로부터 음소의 종류를 판별하고, 읽어내기 속도에 따른 음소 길이를 설정함과 함께, 포즈, 장음, 촉음 또는 자음의 음소 길이를 조정하므로, 읽어내기 속도가 저속으로 되어도, 알아듣기 어려움이 없고, 또한, 음 끊김 등의 위화감을 발생시키지 않아, 음성의 인식성이 높여진다.
상기 목적을 달성하기 위해, 본 발명의 제2 측면은, 문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 장치로서, 상기 문자 데이터로부터 음소를 판정하는 음소 판정부와, 음소에 읽어내기 속도에 따라서 음소 길이를 설정하고, 상기 음소가 화두인 경우에, 상기 음소 판정부의 판정 결과에 기초하여, 상기 화두의 음소의 음소 길이를 조정하는 음소 길이 조정부를 구비하는 구성이다.
이러한 구성에 의하면, 화두의 음소 길이 즉, 포즈 직후의 음소 길이를 조정하므로, 이미 설명한 바와 같이, 읽어내기 속도가 저속으로 되어도, 알아듣기 어려움이 없고, 또한, 음 끊김 등의 위화감을 발생시키지 않아, 음성의 인식성을 높일 수 있다.
상기 목적을 달성하기 위해서는, 상기 음성 읽어내기 장치에서, 바람직하게는, 음소의 읽어내기 속도를 판정하는 속도 판정부를 구비하고, 상기 음소 길이 조정부는, 상기 읽어내기 속도의 판정 결과에 기초하여, 상기 읽어내기 속도가 저속 인 경우에, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 신장 시키지 않거나 또는 그 음소 길이를 단축시키는 구성으로 하여도 된다. 이러한 구성에 의하면, 읽어내기 속도가 저속으로 되어도, 알아듣기 어려움이 없으며, 또한, 음 끊김 등의 위화감을 발생시키지 않아, 음성의 인식성을 높일 수 있다.
상기 목적을 달성하기 위해서는, 상기 음성 읽어내기 장치에서, 바람직하게는, 호기 단락의 길이를 연산하는 호기 단락 연산부를 구비하고, 상기 음소 길이 조정부는, 상기 음소 길이의 조정분을 상기 호기 단락 연산부의 연산 결과에 기초하여, 상기 호기 단락의 각 음소 길이를 비례 배분하여 증감시키는 구성으로 하여도 된다. 이러한 구성에 의하면, 호기 단락을 단위로 하여 음소 길이를 조정할 수가 있어, 재생 시간을 늘리지 않고, 알아듣기 쉬움을 높일 수 있다.
상기 목적을 달성하기 위해서는, 상기 음성 읽어내기 장치에서, 바람직하게는, 읽어내기 문장의 길이를 연산하는 문장 연산부를 구비하고, 상기 음소 길이 조정부는, 상기 음소 길이의 조정분을 상기 문장 연산부의 연산 결과에 기초하여, 상기 문장의 각 음소 길이를 비례 배분하여 증감시키는 구성으로 하여도 된다. 이러한 구성에 의하면, 읽어내기 문장의 길이를 단위로 하여 음소 길이를 조정할 수가 있어, 재생 시간을 늘리지 않고, 알아듣기 쉬움을 높일 수 있다.
상기 목적을 달성하기 위해서는, 본 발명의 제3 측면은, 문자 데이터를 음성으로 변환하여 읽어내는 수순을 컴퓨터에 실행시키는 음성 읽어내기 프로그램으로서, 상기 문자 데이터로부터 음소의 종류를 판정하는 수순과, 음소에 읽어내기 속도에 따른 음소 길이를 설정하는 수순과, 포즈, 장음, 촉음 또는 자음 중 어느 하나 또는 2 이상을 포함하는 경우에, 상기 판정 결과에 기초하여, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 조정하는 수순을 상기 컴퓨터에 실행시키는 구성이다. 이러한 구성에 의하면, 제1 측면에서 설명한 바와 같이, 상기 목적을 달성할 수 있다.
상기 목적을 달성하기 위해, 본 발명의 제4 측면은, 문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 방법으로서, 상기 문자 데이터로부터 음소의 종류를 판정하는 단계와, 음소에 읽어내기 속도에 따른 음소 길이를 설정하는 단계와, 포즈, 장음, 촉음 또는 자음 중 어느 하나 또는 2 이상을 포함하는 경우에, 상기 판정의 결과에 기초하여, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 조정하는 단계를 포함하는 구성이다. 이러한 구성에 의하면, 제1 측면에서 설명한 바와 같이, 상기 목적을 달성할 수 있다.
본 발명에 의하면, 다음과 같은 효과가 얻어진다.
(1) 포즈, 장음, 촉음 또는 자음을 포함하는 문자 데이터를 음성으로 변환하여 읽어내는 음소에 대하여, 읽어내기 속도에 따라서 음소 길이를 설정함과 함께, 문자 데이터 내의 포즈, 장음, 촉음 또는 자음을 인식하고, 이들의 음소 길이를 조정하므로, 알아듣기 쉽게 할 수 있어, 인식성을 높일 수 있다.
(2) 포즈, 장음, 촉음 또는 자음을 포함하는 문자 데이터를 음성으로 변환하여 읽어내는 음소에 대하여, 읽어내기 속도에 따라서 포즈, 장음, 촉음 또는 자음의 음소 길이를 신장시키지 않거나 또는 음소 길이를 단축하므로, 알아듣기 쉽게 할 수 있어, 인식성을 높일 수 있다.
(3) 화두의 음소 길이를 단축하는 등, 조정하면, 읽어내기 속도에 따른 일정한 비율로 음소 길이를 삭감하는 경우보다도 알아듣기 쉽게 할 수 있다.
그리고, 본 발명의 다른 목적, 특징 및 이점은, 첨부 도면 및 각 실시 형태를 참조함으로써, 한층 명확하게 될 것이다.
<제1 실시 형태>
본 발명의 제1 실시 형태에 대하여, 도 1 및 도 2를 참조한다. 도 1은, 음성 읽어내기 장치의 구성예를 도시하는 블록도, 도 2는, 음성 읽어내기 장치의 음소 길이 제어부의 구성예를 도시하는 블록도이다.
상기 음성 읽어내기 장치(2)는, 본 발명의 음성 읽어내기를 위한 장치, 프로그램 및 방법의 구성예로서, 컴퓨터로 구성되고, 예를 들면, 텍스트 문장(일본어에서는 한자 가나 혼용문) 등, 포즈, 장음, 촉음 또는 자음을 포함하는 문자 데이터를 음성으로 변환하여 읽어내는 음성 합성 장치로 구성되며, 문자 데이터 내의 포즈, 장음, 촉음 또는 자음의 음소가 갖는 음소 길이를 화속(읽어내기 속도)에 따라서 제어함으로써, 문자 데이터로부터 얻은 출력 음성의 알아듣기 쉬움을 높여, 합성 음성(읽어내기 출력)의 인식성을 향상시킨 것이다. 여기에서, 문자 데이터는 음성 읽어내기의 대상으로서, 포즈, 장음, 촉음 또는 자음을 포함하는 표음 문자, 그 문자열을 포함하는 데이터이고, 표음 문자 또는 그 표음 문자열은, 음성 합성에서 사용하는 운율 기호가 붙은 발음 기호로 이루어지는 중간 언어로서, 운율 기호가 붙은 발음 기호(요미가나)이다. 포즈는, 음성으로 변환되지 않는 구간 등의 무 음 구간이다(단, 파열음 직전의 휴지 기간이나 촉음은 제외됨). 예를 들면, 「卒業して、信用金庫に …(졸업하여, 신용 금고에 …)」(로마자 표기: so tsugyoushi te, shinyou kin koni …)와 같은 일본어 문장에서는, 「卒業して」와, 「信用金庫」사이에, 무음 구간으로 되는 구점 「、」이 존재하고, 이것이 포즈의 일례이다. 또한, 이 포즈와 호기 단락의 관계에 대하여, 호기 단락은 인간이 한숨에 발성하는 단위이고, 이 호기 단락의 전후의 한숨 돌림에는 이미 설명한 포즈가 들어가게 된다.
장음은, 길게 늘여서 발하는 음이며, 단음이 아닌 것이다. 촉음은, 이야기중에 있어서 다음 음절의 처음 자음과 동일한 조음의 구조에서 중지적 파열 또는 마찰을 없애고, 1음절을 이루는 것으로서, 예를 들면, 「さっき(아까)」와 같이 「っ」로 나타낸다. 또한, 자음은, 발음 기관에서 만들어지는 방해(폐쇄, 좁힘 등)를 숨이 통과함으로써 발하여지는 음이며, 모음에 대한 것이다.
상기 기능을 실현하기 위해, 이 음성 읽어내기 장치(2)에서는, 도 1에 도시하는 바와 같이 언어 처리부(4)와, 단어 사전(6)과, 파라미터 생성부(8)와, 피치 잘라내기·겹치기부(10)와, 파형 사전(12)이 구비되어 있다.
언어 처리부(4)는, 한자 가나 혼용문을 입력하여, 단어 사전(6)을 참조하여 단어를 해석하고, 음독, 액센트, 인토네이션을 결정하여, 표음 문자열(중간 언어)을 출력하는 언어 처리 수단이다. 또한, 단어 사전(6)에는, 단어의 종류(품사 등)와 음독이나, 액센트의 위치 등이 저장되어 있다.
액센트와, 인토네이션은, 물리적으로는 피치 주파수의 시간적 변화 패턴과 밀접하게 관계되어 있다. 구체적으로는, 액센트 위치에서 피치 주파수는 높아지고, 인토네이션이 올라가면, 피치 주파수가 높아진다. 따라서, 언어 처리부(4)에서는, 입력 텍스트에서의 구두점이나, 단어 해석에 의해 추출된 문절에 기초하여, 이미 설명한 호기 단락으로 분할한다.
파라미터 생성부(8)는, 음소 계속 시간, 포즈 계속 시간이나 피치 주파수 패턴의 설정을 행하는 파라미터 생성 수단이다. 이 파라미터 생성부(8)에서는, 화속에 따라서 음소 길이의 제어를 행하고 있다.
상기 파라미터 생성부(8)에는, 도 1에 도시하는 바와 같이, 음소 길이 설정부(14)와, 음소 길이 테이블(16)과, 음소 길이 제어부(18)와, 피치 패턴 생성부(20)가 구비되어 있다.
언어 처리부(4)에서 생성된 표음 문자열의 단계에서, 어느 음소를 음성 합성할지가 결정된다. 따라서, 음소 길이 설정부(14)에서는, 각 음소에 관한 음소 길이 설정 수단으로서, 표준적인 화속에서의 음소 길이가 설정된다. 음소 길이 테이블(16)은, 해당 음소와 전후의 음소에 따른 표준적인 화속에서의 음소 길이를 저장하는 수단이다. 따라서, 음소 길이의 설정 예로서는, 해당 음소와 전후의 음소에 따른 표준적인 화속에서의 음소 길이(데이터베이스로부터 추출한 값)를 음소 길이 테이블(16)에 저장해 두고, 이 값을 참조하여 음소 길이가 설정된다. 이 음소 길이는, 다른 파라미터 요소로써 수정하는 구성으로 하여도 된다.
음소 길이 제어부(18)는, 음소 길이 설정부(14)에서 설정된 표준적인 화속에서의 음소 길이를 화속에 따라서 제어하는 음소 길이 제어 수단이다. 화속은, 도 시하지 않은 읽어내기 속도(유저 설정 등)의 조정 수단 등으로부터 제어 정보로서 음소 길이 제어부(18)에 가해진다.
음소 길이 제어부(18)에는, 도 2에 도시하는 바와 같이, 음소 길이 조정부(24)와, 화속 판정부(26)와, 음소 판정부(28)가 포함된다. 음소 길이 조정부(24)는, 화속 판정부(26) 및 음소 판정부(28)의 각 판정 출력을 받아, 음소의 길이나 포즈의 길이를 조정한다. 화속 판정부(26)는, 입력된 화속을 판정하고, 그 화속이 표준 속도, 고속 또는 저속 중 어느 것인지를 판정하여, 그 판정 출력을 음소 길이 조정부(24)에 가한다. 이 경우, 화속 판정부(26)가 출력하는 판정 출력에는, 표준 속도, 고속 또는 저속을 나타내는 출력, 그 화속 레벨을 나타내는 출력이 포함된다. 또한, 음소 판정부(28)는, 음소 길이 설정부(14)(도 1)에서 설정된 음소 길이를 갖는 음소나 포즈 등 외에, 음소나 포즈 등의 문장 데이터 내의 위치로서 예를 들면, 화두에 있는지의 여부 등을 판정하여, 그 판정 출력을 음소 길이 조정부(24)에 가한다.
따라서, 이와 같은 음소 길이 제어부(18)에 의하면, 예를 들면, 표준적인 화속에 대한 소정의 화속에 반비례한 음소 길이로 하고, 구체적인 수치를 예시하면, 표준적인 화속을 매초 7 모라를 기준으로 한 경우, 매초 14 모라의 화속이 설정되어 있으면, 각 음소 길이를 반으로 하고, 매초 6 모라의 화속이 설정되어 있으면, 7/6의 음소 길이로 한다. 여기에서, 모라란, 박자를 나타내고, 대략 가나 쓰기로 하였을 때의 1 문자 상당의 단위로서, 요음(작은 「ゃ」 「ゅ」 「ょ」) 「きゃ」 등은 1 모라이다. 일본어의 경우, 1 문자의 모라가 유사한 길이를 갖는 언어이다.
피치 패턴 생성부(20)는, 표음 문자열에서의 액센트 정보 등을 가미하여, 각 음소에서의 피치 주기를 설정하는 패턴 생성 수단이다.
피치 잘라내기·겹치기부(10)는 예를 들면, PSOLA법(Pitch-Synchro아니오us 0verlap-add: 파형의 가산 중첩에 의한 피치 변환 방법)을 사용하는 피치 잘라내 ·겹치기 수단이다. 또한, 파형 사전(12)에는 음성 파형과, 어느 부분이 어느 음소인지를 나타내는 음소 라벨, 유성음에 대하여 피치 주기를 나타내는 피치 마크가 저장되어 있다. 따라서, 피치 잘라내기·겹치기부(10)에서는, 파라미터 생성부(8)에서 생성된 파라미터를 바탕으로 파형 사전(12)으로부터 2주기분의 음성 파형을 잘라내고, 창함수(예를 들면 해닝창)를 곱하고, 필요에 따라서 진폭 조정의 게인을 곱하는 처리를 실행하고, 파형 사전(12)에서의 피치 주파수와 원하는 피치 주파수가 다르면 피치 변환하고, 잘라 내어진 파형을 오버랩시켜 가산함으로써, 합성 음성 신호가 출력된다.
상기 음성 읽어내기 장치의 하드웨어에 대하여, 도 3, 도 4 및 도 5를 참조한다. 도 3은, 음성 읽어내기 장치를 탑재한 휴대 단말 장치의 일례를 도시하는 블록도, 도 4는, 휴대 단말 장치의 구성예를 도시하는 도면, 도 5는, 화면 표시예를 도시하는 도면이다.
상기 휴대 단말 장치(200)는, 이미 설명한 음성 읽어내기 장치(2)가 적용된 일례로서, 이러한 구성에 본 발명의 음성 읽어내기를 위한 장치, 방법 또는 프로그램이 한정되는 것은 아니다. 이 휴대 단말 장치(200)에서는, 통신 기능이나, 메일 문 등의 텍스트 문장(일본어에서는 한자 가나 혼용문) 등, 문자 데이터를 음성으로 변환하여 출력하는 기능을 갖는다. 따라서, 이 휴대 단말 장치(200)에는, 도 3에 도시하는 바와 같이, 프로세서(202)와, 기억부(204)와, 무선부(206)와, 입력부(208)와, 표시부(210)와, 음성 입력부(212)와, 음성 출력부(214)가 구비되어 있다.
프로세서(202)는, 전화 통신이나, 음성 합성 등의 음성 읽어내기의 실행, 그 밖의 제어를 행하는 제어 수단으로서, CPU(Central Processing Unit) 또는MPU(Micro Processor Unit)로 구성되며, 기억부(204)에 있는 OS(Operating System)이나 어플리케이션 프로그램을 실행한다. 이 어플리케이션 프로그램에는 음성 읽어내기의 처리 수순을 실행하는 프로그램 등이 포함된다.
기억부(204)는 프로세서(202)에 의해 실행되는 프로그램이나, 그 실행에 이용하는 각종 데이터를 저장함과 함께, 처리 에리어를 형성하는 기록 매체로서, 프로그램 기억부(216), 데이터 기억부(218), RAM(Random-Access Memory; 220)으로 구성되어 있다. 프로그램 기억부(216)에는 OS나 어플리케이션 프로그램이 저장되고, 데이터 기억부(218)에는 단어 사전(6), 파형 사전(12) 및 음소 길이 테이블(16)(도 1)이 형성되며, 이미 설명한 데이터가 저장되어 있다. RAM(220)은, 워크 에리어를 구성한다.
무선부(206)는 기지국과 무선에 의해 음성 신호 전파나 패킷 신호 전파 등의 송수신을 행하기 위한 무선 통신 수단으로서, 프로세서(202)에 의해 제어된다.
입력부(208)는 유저의 조작에 의해 제어 데이터나 표시부(210)에 전개되는 다이얼로그에 대한 응답을 입력하기 위한 수단으로서, 키보드나 터치 패널 등으로 구성된다.
표시부(210)는 프로세서(202)에 의해 제어되고, 문자나 도형 등을 표시하는 표시 수단으로서, 예를 들면, LCD(Liquid Crystal Display) 소자로 구성된다. 이 표시부(210)에는 음성 읽어내기의 텍스트 문장 등이 표시된다.
음성 입력부(212)는 프로세서(202)에 의해 제어되는 음성 입력 수단으로서, 마이크로폰(222)을 구비한다. 입력 음성은 마이크로폰(222)에 의해 음성 신호로 변환되며, 그 음성 신호가 디지털 신호로 변환되어 프로세서(202)에 공급된다.
음성 출력부(214)는 프로세서(202)에 의해 제어되는 음성 출력 수단으로서, 음성 변환 수단으로서 리시버(224)와, 스피커(226R, 226L)를 구비하고 있다. 음성 읽어내기의 합성 음성은, 이들 리시버(224), 스피커(226R, 226L)로부터 재생된다.
상기 휴대 단말 장치(200)에서, 이미 설명한 음성 읽어내기 장치(2)는 예를 들면, 프로세서(202), 기억부(204), 표시부(210), 음성 출력부(214) 등으로 구성된다.
그리고, 이 휴대 단말 장치(200)는, 도 4에 도시하는 바와 같이, 일례로서 케이스(228)에 제1 케이스부(230)와, 제2 케이스부(232)가 포함되고, 이들 케이스부(230, 232)는 힌지부(234)로 연결되어 절첩 가능하게 구성되며, 케이스부(230)에는 입력부(208), 마이크로폰(222)이 배치되고, 케이스부(232)에는 표시부(210), 리시버(224), 스피커(226R, 226L)가 설치되어 있다. 입력부(208)에는 문자 등의 입력에 이용하는 복수의 기호 키(236), 커서 키(238), 결정 키(240) 등이 배치되어 있다.
따라서, 이 휴대 단말 장치(200)에 의한 음성 읽어내기에서는, 메일문이나 소설문 등의 각종 텍스트문이 대상으로 되며, 표시부(210)의 화면 상에 전개되는 문장 등이 음성 합성되어 리시버(224)나 스피커(226R, 226L)로부터 재생된다. 그 경우, 도 5에 도시하는 바와 같이 표시부(210)에 전개된 메일문 표시 화면(242)에는 메일문이 표시되고, 이 메일문이 음성으로서 출력된다. 이 예에서는, 메일문 표시 화면(242)에 「山梨縣の 高校を 卒業して、信用金庫に 入って 4年目 です。(야마나시현의 고교를 졸업하고, 신용 금고에 들어간지 4년째입니다.」로 표시되어 있으며, 이것이 음성으로서 재생된다.
다음으로, 음소 길이의 제어에 대하여, 도 6을 참조한다. 도 6은, 제1 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다
상기 처리 수순은, 음성 읽어내기를 위한 프로그램 또는 방법의 일례로서, 제1 실시 형태에서는, 저속 읽어내기 시에 음소 길이를 화속에 따라서 고정배로 설정함과 함께, 호기 단락의 종단의 포즈 길이를 신장시키지 않는 수순 또는 단계를 포함하고 있다. 이 처리 수순은, 음성 읽어내기 장치(2)(도 1)의 음소 길이 제어부(18)(도 2)에서 실행된다.
따라서, 이 처리 수순은, 도 6에 도시하는 바와 같이 언어 처리(스텝 S101), 음소 길이 설정 처리(스텝 S102)를 실행한다. 언어 처리(스텝 S101)는, 언어 처리부(4)에서 실행되고, 입력 데이터로부터 표음 문자열을 생성하며, 이 단계에서 어느 음소를 음성 합성할지가 결정된다. 다음으로, 음소 길이 설정 처리(스텝 S102)는, 음소 길이 설정부(14)에서 실행되고, 포즈를 포함하는 각 음소에 대하여, 표준 적인 화속에서의 음소 길이가 설정된다. 이 경우, 음소 길이는, 해당 음소와 전후의 음소에 따른 표준적인 화속에서의 음소 길이가 음소 길이 테이블(16)을 참조하여 설정된다.
이와 같은 음소 길이의 설정 처리 후, 호기 단락 내의 음소에 대한 처리로서, 음소 번호 n을 초기화(n=1)하고(스텝 S103), 화속에 따른 음소 길이의 제어를 행한다(스텝 S104∼S108). 이 음소 길이의 제어는 호기 단락을 단위로 하여 실행되며, 스텝 S103∼S108이 호기 단락의 음소 처리의 루프이다. 이 음소 길이의 제어에는, 제어 대상인 음소의 판정 처리, 그 판정 결과에 대응한 음소 길이의 조정 처리가 포함된다.
음소 길이 제어부(18)에서는 입력된 화속 정보가 인식되고, 그 화속에 따라서 고정배의 음소 길이가 설정된다(스텝 S104). 이 경우, 포즈 길이도 화속에 따른 고정배의 길이로 조정된다. 이와 같은 음소 조정의 후, 음소 번호 n의 갱신(n=n+1)을 행하고(스텝 S105), 호기 단락 내의 음소는 종료하였는지, 즉, 호기 단락 내의 음소 번호 n이 음소수 n에 도달하였는지의 여부가 판정되고(스텝 S106), 호기 단락 내의 모든 음소에 대한 처리가 실행된다.
호기 단락 내의 음소의 처리가 행해진 후, 화속에 대한 판단으로서, 저속 읽기인지의 여부가 판정되고(스텝 S107), 저속 읽기가 아니면(스텝 S107의 아니오), 호기 단락의 종단의 포즈 길이를 화속에 따라서 고정배로 하고(스텝 S108), 또한, 저속 읽기이면(스텝 S107의 예), 스텝 S108을 건너뛰고, 종료 판정으로 이행한다(스텝S109). 이 종료 판정에서는, 입력 데이터의 전체 데이터의 처리가 완료하였 는지의 여부가 판정되고(스텝 S109), 모든 데이터의 처리가 완료할 때까지, 스텝 S103으로부터 스텝 S109의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되고 (스텝 S110), 음성이 출력된다.
이와 같이, 호기 단락 단위에서의 화속에 따른 음소 길이가 설정됨과 함께, 화속이 저속인 경우에는, 종단의 포즈 길이를 화속에 따라서 신장시키지 않는 처리로 하므로, 포즈 길이가 저속 읽기에 의한 음소 길이의 신장에 비하여 짧아지기 때문에, 늘어짐감을 방지할 수 있으며, 또한, 읽어내기 시간을 짧게 할 수 있다.
<제2 실시 형태>
다음으로, 제2 실시 형태에 대해서, 도 7을 참조한다. 도 7은, 제2 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 제2 실시 형태에서는, 저속 읽기이며 또한 장음 또는 촉음인지의 여부의 판정을 행하여, 저속 읽어내기 시에, 장음 또는 촉음 이외의 음소의 음소 길이를 화속에 따라서 고정배로 하여 신장시키는 것에 대하여, 장음 또는 촉음의 음소의 음소 길이를 신장시키지 않음으로써, 장음과 촉음의 음소 길이를 표준 길이로서 변경시키지 않으므로, 읽어내기의 토탈 재생 시간을 극단적으로 연장시키지 않아, 알아듣기 쉬움을 높이고 있다.
상기 제2 실시 형태에서는, 음소 길이를 신장할 음소를 특정하기 위해서, 음소 판정부(28)(도 2)에서, 장음 또는 촉음인지의 여부를 판정하고, 그 판정에 기초 하여, 장음 또는 촉음의 음소 길이를 표준 길이로 하고 있다.
따라서, 이 처리 수순에서는, 도 7에 도시하는 바와 같이, 언어 처리(스텝 S201), 음소 길이 설정 처리(스텝 S202)를 실행한다. 이들 언어 처리(스텝 S201) 및 음소 길이 설정 처리(스텝 S202)의 후, 호기 단락 내의 음소 처리로서, 음소 번호 n을 초기화(n=1)한다(스텝 S203).
상기 초기화의 후, 읽어내기가 저속 읽기이며, 또한, 음소가 장음 또는 촉음인지 여부의 판정을 행하여(스텝 S204), 저속 읽기에서 음소가 장음 또는 촉음이 아니면(스텝 S204의 아니오), 화속에 따른 음소 길이를 설정한다(스텝 S205). 즉, 음소 길이 제어부(18)에서는 입력된 화속 정보의 인식에 기초하여, 그 화속에 따라서 고정배의 음소 길이가 설정된다(스텝 S205). 저속 읽기이며 또한 음소가 장음 또는 촉음이면(스텝 S204의 예), 스텝 S205를 걸쳐 음소 번호 n의 갱신(n=n+1)을 행하여(스텝 S206), 호기 단락 내의 음소는 종료하였는지의 여부가 판정되고(스텝 S207), 호기 단락 내의 모든 음소에 대한 처리가 실행된다.
호기 단락 내의 음소의 처리가 행해지고, 호기 단락의 종단의 포즈에 도달한 경우에는, 그 포즈 길이를 화속에 따라서 고정배로 하고(스텝 S208), 종료 판정이 행하여진다(스텝 S209). 모든 데이터의 처리가 완료할 때까지, 스텝 S203으로부터 스텝 S209의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되며(스텝S210), 음성이 출력된다.
이와 같이, 호기 단락 단위에서의 음소 길이가 화속에 따라서 수정되지만, 음소에 장음 또는 촉음이 포함되는 경우에는, 장음 또는 촉음의 음소 길이는 표준 으로 설정되고, 신장되지 않으므로, 알아듣기 쉬움을 높일 수 있어, 음성으로 변환된 읽어내기문의 인식성을 높일 수 있다.
<제3 실시 형태>
다음으로, 제3 실시 형태에 대하여, 도 8을 참조한다. 도 8은, 제3 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 제3 실시 형태에서는, 제2 실시 형태의 음소 길이의 조정 외에, 포즈 길이를 표준적인 길이로 하여 신장시키지 않음으로써, 알아듣기 쉬움을 높이고 있다.
상기 제3 실시 형태에서는, 음소 길이를 조정할 음소를 특정하기 위해서, 음소 판정부(28)(도 2)에서, 포즈 또는 장음 또는 촉음인지의 여부를 판정하고, 그 판정에 기초하여, 포즈 또는 장음 또는 촉음을 표준 길이로 하여, 신장시키지 않는 처리를 실행하고 있다.
따라서, 이 처리 수순에서는, 도 8에 도시하는 바와 같이 언어 처리(스텝 S301), 음소 길이 설정 처리(스텝 S302)를 실행한다. 이들 언어 처리(스텝 S301) 및 음소 길이 설정 처리(스텝 S302), 음소 길이의 설정 처리 후, 호기 단락 내의 음소 처리로서, 음소 번호 n을 초기화(n=1)한다(스텝 S303).
이 초기화의 후, 읽어내기가 저속 읽기이며, 또한, 포즈 또는 음소가 장음 또는 촉음인지 여부의 판정을 행하여(스텝 S304), 저속 읽기이며 또한 포즈 또는 장음 또는 촉음이 아니면(스텝 S304의 아니오), 화속에 따라서 음소 길이를 설정한다(스텝S305). 즉, 음소 길이 제어부(18)에서는 입력된 화속 정보의 인식에 기초하여, 그 화속에 따라서 고정배의 음소 길이가 설정된다(스텝 S305). 저속 읽기에서 포즈 또는 장음 또는 촉음이면(스텝 S304의 예), 스텝 S305를 걸쳐 음소 번호 n의 갱신(n=n+1)을 행하고(스텝 S306), 호기 단락 내의 음소는 종료하였는지의 여부가 판정되어(스텝 S307), 호기 단락 내의 모든 음소에 대한 처리가 실행된다.
호기 단락 내의 음소 처리가 행해지고, 호기 단락의 종단의 포즈에 도달한 경우에는, 그 포즈 길이를 화속에 따라서 고정배로 하여(스텝 S308), 종료 판정이 행하여진다(스텝 S309). 모든 데이터의 처리가 완료할 때까지, 스텝 S303으로부터 스텝 S309의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되고(스텝 S310), 음성이 출력된다.
이와 같이, 호기 단락 단위에서의 음소 길이가 화속에 따라서 수정되지만, 포즈 또는 장음 또는 촉음이 포함되는 경우에는, 포즈 또는 장음 또는 촉음의 음소 길이는 표준으로 설정되어, 신장되지 않으므로, 알아듣기 쉬움을 높일 수 있어, 음성으로 변환된 읽어내기문의 인식성을 높일 수 있다.
<제4 실시 형태>
다음으로, 제4 실시 형태에 대하여, 도 9 및 도 10을 참조한다. 도 9는, 제4 실시 형태에 따른 음소 길이 제어부를 도시하는 블록도, 도 10은, 제4 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다. 도 9에서, 도 2와 동일 부분에는 동일 부호를 붙이고 있다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 제4 실시 형태에서는, 제1 실시 형태의 음소 길이의 조정 외에 저속 읽기에서 포즈 길이를 늘리지 않는 대신에, 즉, 포즈 길이의 음소 길이의 신장에 대하여, 포즈 이외의 음소를 약간 길게 하여 전체 길이를 유지하면서, 늘어짐감을 방지한 것으로, 구체적으로는, 호기 단락의 전체 길이를 계산하고, 소정의 길이로 되도록, 포즈 이외의 전체 음소에 비례 배분함으로써, 늘어짐감을 억제하면서, 알아듣기 쉬움을 높이고 있다.
따라서, 이 제4 실시 형태에서는, 음성 읽어내기 장치(2)(도 1)의 음소 길이제어부(18)(도 2)에 관한 것으로, 호기 단락 길이 연산부(30)가 설치되고, 이 호기 단락 길이 연산부(30)는, 음소 길이 조정부(24)의 출력으로부터 호기 단락의 전체 길이를 연산한다. 그 연산 결과는 제어 정보로서 음소 길이 조정부(24)에 가해지고, 음소 길이 조정부(24)는, 포즈 길이를 화속에 따라서 고정배로 한 후, 호기 단락 전체 길이를 계산하고, 그 신장분을 호기 단락 내의 전체 음소에 비례 배분하여, 호기 단락의 읽어내기 시간의 길이가 소정의 길이로 되도록 제어하고 있다.
상기 처리 수순은, 도 10에 도시하는 바와 같이, 언어 처리(스텝 S401), 음소 길이 설정 처리(스텝 S402), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S403), 화속에 따른 음소 길이의 제어를 행한다(스텝 S404∼S408). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제1 실시 형태와 마찬가지이다.
음소 길이 제어부(18)에서는 입력된 화속 정보의 인식에 기초하여, 그 화속에 따라서 고정배의 음소 길이가 설정된다(스텝 S404). 이 경우, 포즈 길이도 화속에 따른 고정배의 길이로 조정된다. 이와 같은 음소 조정의 후, 음소 번호 n의 갱신(n=n+1)을 행하고(스텝 S405), 호기 단락 내의 음소는 종료하였는지, 즉, 호기 단락 내의 음소 번호 n이 음소수 n에 도달하였는지의 여부가 판정되어(스텝 S406), 호기 단락 내의 모든 음소에 대한 처리가 실행된다.
호기 단락 내의 음소 처리가 행해진 후, 화속에 대한 판단으로서, 저속 읽기인지의 여부가 판정되어(스텝 S407), 저속 읽기가 아니면(스텝 S407의 아니오), 호기 단락의 종단의 포즈에 도달한 경우에는, 그 포즈 길이를 화속에 따라서 고정배로 하고(스텝 S408), 또한, 저속 읽기이면(스텝 S407의 예), 호기 단락 전체 길이를 계산하고(스텝 S409), 호기 단락의 길이가 소정의 길이 예를 들면, 음소 길이를 신장하지 않은 경우의 길이와 동등 또는 동등 정도의 길이로 되도록 포즈 이외의 전체 음소의 음소 길이를 비례 배분하여 조정하여(스텝 S410), 종료 판정이 행하여진다(스텝 S411). 모든 데이터의 처리가 완료할 때까지, 스텝 S403으로부터 스텝 S411의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되고(스텝 S412), 음성이 출력된다.
이와 같이, 저속 읽기에서 호기 단락의 종단의 포즈의 음소 길이를 늘리지 않는 대신에, 포즈 이외의 음소가 약간 길게 설정되어, 읽어내기문의 전체 길이를 유지하면서, 늘어짐감이 없어, 알아듣기 쉬움이 개선된다.
<제5 실시 형태>
다음으로, 제5 실시 형태에 대하여, 도 11 및 도 12를 참조한다. 도 11은, 제5 실시 형태에 따른 음소 길이 제어부를 도시하는 블록도, 도 12는, 제5 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다. 도 11에서, 도 2와 동일 부분에는 동일 부호를 붙이고 있다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 제5 실시 형태에서는, 제1 실시 형태의 음소 길이의 조정 외에 저속 읽기에서 호기 단락의 종단의 포즈 길이를 늘리지 않는 대신에, 즉, 포즈 길이의 음소 길이의 신장에 대하여, 문장 전체 길이를 계산하고, 소정의 길이로 되도록, 전 음소에 비례 배분함으로써, 늘어짐감을 억제하면서, 알아듣기 쉬움을 높이고 있다. 이 경우, 제4 실시 형태와 마찬가지로, 포즈 이외의 음소를 약간 길게 함으로써 전체 길이를 유지하면서, 늘어짐감을 방지하는 구성으로 하여도 된다.
상기 제5 실시 형태에서는, 음성 읽어내기 장치(2)(도 1)의 음소 길이 제어부(18)(도 2)에 관한 것으로, 도 11에 도시하는 바와 같이, 문장 전체 길이 연산부(32)가 설치되고, 이 문장 전체 길이 연산부(32)는, 음소 길이 조정부(24)의 출력으로부터 문장 전체의 길이를 연산한다. 그 연산 결과는 제어 정보로서 음소 길이 조정부(24)에 가해지고, 음소 길이 조정부(24)는, 포즈 길이를 화속에 따라서 고정배로 한 후, 그 신장하지 않은 분 또는 단축분을 문장 전체의 전체 음소에 비례 배분하여 전체 음소의 각 음소 길이를 조정하고, 문장의 읽어내기 시간의 길이가 소정의 길이로 되도록 제어하는 기능을 갖추고 있다.
상기 처리 수순은, 도 12에 도시하는 바와 같이 언어 처리(스텝 S501), 음소 길이 설정 처리(스텝 S502), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S503), 화속에 따른 음소 길이의 제어를 행한다(스텝 S504∼S508). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제1 실시 형태와 마찬가지이다.
음소 길이 제어부(18)에서는 입력된 화속 정보의 인식에 기초하여, 그 화속에 따라서 고정배의 음소 길이가 설정된다(스텝 S504). 이 경우, 포즈 길이도 화속에 따른 고정배의 길이로 조정된다. 이러한 음소 조정의 후, 음소 번호 n의 갱신(n=n+1)을 행하고(스텝 S505), 호기 단락 내의 음소는 종료하였는지, 즉, 호기 단락 내의 음소 번호 n이 음소수 n에 도달하였는지의 여부가 판정되어(스텝 S506), 호기 단락 내의 모든 음소에 대한 처리가 실행된다.
호기 단락의 음소 처리가 행해진 후, 화속에 대한 판단으로서, 저속 읽기인지의 여부가 판정되어(스텝 S507), 저속 읽기가 아니면(스텝 S507의 아니오), 호기 단락의 종단의 포즈에 도달한 경우에는, 그 포즈 길이를 화속에 따라서 고정배로 하고(스텝 S508), 또한, 저속 읽기이면(스텝 S507의 예), 종료 판정이 행하여진다(스텝 S509). 이 종료 판정에서는, 전체 데이터의 처리를 종료하였는지의 여부를 판정하고, 종료 판정의 후, 문장 전체의 길이를 계산하고(스텝 S510), 문장의 길이가 소정의 길이 예를 들면, 음소 길이를 신장하지 않은 경우의 길이와 동등 또는 동등 정도의 길이로 되도록 전체 음소의 음소 길이를 비례 배분하여 조정하여(스텝 S511), 음성 합성이 실행되고(스텝 S512), 음성이 출력된다.
이와 같이, 저속 읽기에서 호기 단락의 종단 포즈의 음소 길이를 늘리지 않는 대신에, 이 실시 형태에서는, 문장 전체를 단위로 하여 음소가 약간 길게 설정되고, 읽어내기문의 전체 길이를 유지하면서, 늘어짐감이 없어, 알아듣기 쉬움이 개선된다.
<제6 실시 형태>
다음으로, 제6 실시 형태에 대하여, 도 13을 참조한다. 도 13은, 제6 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 제6 실시 형태에서는, 장음 또는 촉음의 음소 길이를 단축하는 대신에, 모음의 음소 길이를 신장시킴으로써 대강 전체 길이를 유지하면서, 듣기 어려움을 경감하고 있다. 이 경우, 저속 읽기의 화속으로서 예를 들면, 표준 속도의 0.8〔배〕이거나 그보다도 느린 속도를 상정하지만, 음소 길이는 표준의 음소 길이에 대한 일정 비율로서 예를 들면, 0.8〔배〕를 상정하고 있다. 장음 또는 촉음의 음소 길이가 단축되어도, 모음의 음소 길이가 신장되므로, 읽어내기문의 음성 변환 시간을 신장시키지 않고, 알아듣기 쉬움을 높일 수 있다.
따라서, 이 처리 수순에서는, 도 13에 도시하는 바와 같이, 언어 처리(스텝S601), 음소 길이 설정 처리(스텝 S602), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S603), 화속에 따른 음소 길이의 제어를 행한다(스텝 S604∼S611). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제2 실시 형 태(도 7)와 마찬가지이다.
상기 제6 실시 형태에서도, 화속에 따른 고정배의 음소 길이의 설정(스텝S604), 저속 읽기 또한 음소가 장음 또는 촉음인지 여부의 판정(스텝 S605), 화속이 저속 읽기 또한 장음 또는 촉음이면(스텝 S605의 예), 그 음소 길이를 소정배로서 예를 들면, 0.8〔배〕로 설정하고(스텝 S606), 화속이 저속 읽기 또한 장음 또는 촉음이 아니면(스텝 S605의 아니오), 저속 읽기 또한 음소가 모음인지의 여부가 판정된다(스텝 S607). 화속이 저속 읽기 또한 모음이면(스텝 S607의 예), 그 음소 길이가 소정배로서 예를 들면, 1.1〔배〕로 설정, 즉, 조정되고(스텝 S608), 또한, 모음이 아니면(스텝 S607의 아니오), 스텝 S604에서 화속에 따라서 고정배로 설정된 음소 길이가 유지된다.
그리고, 이미 설명한 바와 같이, 음소 번호 n의 갱신(n=n+1)(스텝 S609), 호기 단락 내의 음소의 종료 판정(스텝 S610), 호기 단락의 종단의 포즈에 도달한 경우의 포즈 길이를 화속에 따른 고정배의 설정(스텝 S611), 종료 판정(스텝 S612), 음성 합성(스텝 S613)이 실행된다.
이와 같이, 저속 읽기에서 장음 또는 촉음의 음소 길이가 표준의 음소 길이 보다도 짧게 설정되고, 모음에서는 그 음소 길이가 신장되므로, 음성 출력의 전체 재생 시간의 신장을 초래하지 않아, 대강 전체 길이를 동일하게 유지하면서, 합성 음성의 알아듣기 쉬움을 높일 수 있어, 음성으로 변환된 읽어내기문의 인식성이 개선된다.
<제7 실시 형태>
다음으로, 제7 실시 형태에 대하여, 도 14를 참조한다. 도 14는, 제7 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 9)를 이용하여 실행되는데, 이 실시 형태에서는, 장음 또는 촉음의 음소 길이를 단축하는 것에 대하여, 그 단축분의 음소 길이를 장음 또는 촉음 이외의 전체 음소에 비례 배분하여 신장시킴으로써, 호기 단락의 길이를 유지하면서, 즉, 읽어내기문의 음성 변환 시간을 신장시키지 않고, 알아듣기 쉬움을 높이고 있다. 이 경우, 그 일례로서, 화속은 표준 속도의 0.8〔배〕보다 느리게 하고, 음소 길이의 단축 비율은 0.8〔배〕로 설정하고 있다.
따라서, 이 처리 수순에서는, 도 14에 도시하는 바와 같이, 언어 처리(스텝S701), 음소 길이 설정 처리(스텝 S702), 호기 단락 내의 음소의 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S703), 화속에 따른 음소 길이의 제어를 행한다(스텝S704∼S709). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제2 실시 형태(도 7)와 마찬가지이다.
상기 제7 실시 형태에서도, 화속에 따른 고정배의 음소 길이의 설정(스텝S704), 저속 읽기 또한 장음 또는 촉음인지 여부의 판정(스텝 S705), 화속이 저속 읽기 또한 장음 또는 촉음이면(스텝 S705의 예), 그 음소 길이를 소정배로서 예를 들면, 0.8〔배〕로 설정하고(스텝 S706), 저속 읽기 또한 음소가 장음 또는 촉음이 아니면(스텝 S705의 아니오), 스텝 S704에서 화속에 따라서 고정배로 설정된 음소 길이가 유지된다.
이와 같은 처리 후, 음소 번호 n의 갱신(n=n+1)(스텝 S707), 호기 단락 내의 음소의 종료 판정(스텝 S708), 호기 단락의 종단의 포즈에 도달한 경우의 포즈 길이를 화속에 따른 고정배의 설정(스텝 S709) 후, 호기 단락 전체 길이를 계산하고(스텝 S710), 호기 단락의 길이가 소정의 길이 예를 들면, 음소 길이를 신장하지 않는 경우의 길이와 동등 또는 동등 정도의 길이로 되도록, 장음 또는 촉음 이외의 전체 음소의 음소 길이를 비례 배분하여 조정하여(스텝 S711), 종료 판정이 행하여진다(스텝 S712). 모든 데이터의 처리가 완료할 때까지, 스텝 S703으로부터 스텝S712의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되고(스텝 S713), 음성이 출력된다.
이와 같이, 음소 길이는 화속에 따라서 고정배로 설정된 후, 저속 읽기 또한 장음 또는 촉음인 경우에는 그 음소 길이가 설정되어 있는 음소 길이보다 단축되고, 호기 단락 내의 음소 길이의 전체 길이를 계산한 후, 장음 또는 촉음의 단축 분을 장음 또는 촉음 이외의 호기 단락 내의 전체 음소에 비례 배분하여 신장시키므로, 호기 단락의 길이가 유지됨과 함께, 알아듣기 어려움이 경감되어, 음성으로 변환된 읽어내기문의 인식성이 개선된다.
<제8 실시 형태>
다음으로, 제8 실시 형태에 대하여, 도 15를 참조한다. 도 15는, 제8 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 실시 형태에서는, 저속 읽기이며 또한 장음 또는 촉음인 경우에는 음소 길이를 단축하고, 그 밖의 음소 길이를 단축하지 않으므로, 대강 전체 길이를 유지하면서, 즉, 읽어내기문의 음성 변환 시간을 신장시키지 않고, 알아듣기 쉬움을 높이고 있다.
따라서, 이 처리 수순에서는, 도 15에 도시하는 바와 같이, 언어 처리(스텝S801), 음소 길이 설정 처리(스텝 S802), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S803), 화속에 따른 음소 길이의 제어를 행한다(스텝 S804∼S809). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제2 실시 형태(도 7)와 마찬가지이다.
상기 제8 실시 형태에서도, 화속에 따른 고정배의 음소 길이의 설정(스텝S804), 저속 읽기 또한 장음 또는 촉음인지 여부의 판정(스텝 S805), 화속이 저속읽기 또한 장음 또는 촉음이면(스텝 S805의 예), 그 음소 길이를 소정배로서 예를 들면, 0.8〔배〕로 설정(스텝 S806), 저속 읽기 또한 장음 또는 촉음이 아니면(스텝 S805의 아니오), 스텝 S804에서 화속에 따라서 고정배로 설정된 음소 길이가 유지된다.
이와 같은 처리 후, 음소 번호 n의 갱신(n=n+1)(스텝 S807), 호기 단락 내의 음소의 종료 판정(스텝 S808), 호기 단락의 종단 포즈에 도달한 경우의 포즈 길이를 화속에 따른 고정배의 설정(스텝 S809), 종료 판정이 행하여진다(스텝 S810). 모든 데이터의 처리가 완료할 때까지, 스텝 S803으로부터 스텝 S810의 처리가 반복 된다. 이 종료 판정의 후, 음성 합성이 실행되고(스텝 S811), 음성이 출력된다.
이와 같이, 저속 읽기에서 장음 또는 촉음의 음소 길이가 단축되고, 그 밖의 음소가 표준 길이로 되며, 다른 음소의 음소 길이에 대하여 장음 또는 촉음의 음소 길이가 단축되므로, 전체 문장의 읽어내기 길이가 유지됨과 함께, 합성 음성의 알아듣기 쉬움을 높일 수 있어, 음성으로 변환된 읽어내기문의 인식성이 개선된다.
<제9 실시 형태>
다음으로, 제9 실시 형태에 대하여, 도 16을 참조한다. 도 16은, 제9 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 9)를 이용하여 실행되는데, 이 실시 형태에서는, 저속 읽기 포즈 또는 장음 또는 촉음인 경우에, 그 음소 길이를 신장하지 않으므로, 포즈 또는 장음 또는 촉음 이외의 음소는 화속에 따라서 고정배로 되어 신장되고, 또한, 호기 단락을 단위로 하여 포즈 또는 장음 또는 촉음 이외의 전체 음소에 대하여, 포즈 또는 장음 또는 촉음의 음소 길이를 신장하지 않는 분을 비례 배분하여 신장시키고 있다.
따라서, 이 처리 수순에서는, 도 16에 도시하는 바와 같이, 언어 처리(스텝S901), 음소 길이 설정 처리(스텝 S902), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S903), 화속에 따른 음소 길이의 제어를 행한다(스텝 S904∼S909). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제2 실시 형태(도 7)와 마찬가지이다.
상기 제9 실시 형태에서는, 저속 읽기 또한 포즈 또는 장음 또는 촉음인지의 여부가 판정되고(스텝 S904), 화속이 저속 읽기 또한 포즈 또는 장음 또는 촉음이 아니면(스텝 S904의 아니오), 그 음소 길이를 화속에 따라서 고정배의 설정을 하고(스텝 S905), 화속이 저속 읽기 또한 포즈 또는 장음 또는 촉음이면(스텝 S904의 예), 스텝 S905를 건너뛰고, 음소 번호 n을 갱신(n=n+1)한다(스텝 S906). 호기 단락 내의 음소의 종료 판정(스텝 S907)의 후, 호기 단락의 종단 포즈에 도달한 경우의 포즈 길이를 화속에 따라서 고정배의 설정을 행한다(스텝 S908).
또한, 호기 단락 전체의 길이를 계산하고(스텝 S909), 호기 단락의 길이가 소정의 길이 예를 들면, 음소 길이를 신장하지 않은 경우의 길이와 동등 또는 동등정도의 길이로 되도록 포즈 또는 장음 또는 촉음 이외의 음소 길이를 비례 배분하여 조정하여(스텝 S910), 종료 판정이 행하여진다(스텝 S911). 모든 데이터의 처리가 완료할 때까지, 스텝 S903으로부터 스텝 S911의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되고(스텝 S912), 음성이 출력된다.
이와 같이, 저속 읽기에서 포즈 또는 장음 또는 촉음의 음소 길이를 신장하지 않는 분만큼 다른 음소를 호기 단락을 단위로 하여 포즈 또는 장음 또는 촉음 이외의 각 음소에 비례 배분하여 신장시키므로, 전체 문장의 읽어내기 길이가 유지됨과 함께, 합성 음성의 알아듣기 쉬움을 높일 수 있어, 음성으로 변환된 읽어내기문의 인식성이 개선된다.
<제10 실시 형태>
다음으로, 제10 실시 형태에 대하여, 도 17을 참조한다. 도 17은, 제10 실 시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 실시 형태에서는, 저속 읽기 또한 음소가 자음인 경우, 그 음소 길이의 신장을 하지 않는 처리로서, 표준 화속 그대로로 하는 처리를 행한다.
따라서, 이 처리 수순에서는, 도 17에 도시하는 바와 같이, 언어 처리(스텝S1001), 음소 길이 설정 처리(스텝 S1002), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)를 행한다(스텝 S1003).
상기 제10 실시 형태에서는, 저속 읽기 또한 음소가 자음인지의 여부가 판정되어(스텝 S1004), 화속이 저속 읽기 또한 음소가 자음이 아니면(스텝 S1004의 아니오), 그 음소 길이를 화속에 따라서 고정배의 설정을 하며(스텝 S1005), 화속이 저속 읽기 또한 음소가 자음이면(스텝 S1004의 예), 스텝 S1005를 건너뛰고, 음소 번호 n을 갱신(n=n+1)한다(스텝 S1006). 호기 단락 내의 음소의 종료 판정(스텝 S1007)의 후, 호기 단락의 종단 포즈에 도달한 경우의 포즈 길이를 화속에 따라서 고정배의 설정을 행하고(스텝 S1008), 종료 판정이 행하여진다(스텝 S1009). 모든 데이터의 처리가 완료할 때까지, 스텝 S1003으로부터 스텝 S1009의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되고(스텝 S1010), 음성이 출력된다.
이와 같이, 저속 읽기인 경우에 자음에 대해서는 음소 길이를 신장하지 않는 즉, 표준 화속 그대로로 함으로써, 합성 음성의 알아듣기 쉬움을 높일 수 있어, 음성으로 변환된 읽어내기문의 인식성이 개선된다.
<제11 실시 형태>
다음으로, 제11 실시 형태에 대하여, 도 18을 참조한다. 도 18은, 제11 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 2)를 이용하여 실행되는데, 이 실시 형태에서는, 저속 읽기 또한 선두 음소인 경우, 그 음소 길이의 신장을 하지 않은 처리로서, 표준 화속 그대로로 하는 처리를 행한다.
따라서, 이 처리 수순에서는, 도 18에 도시하는 바와 같이, 언어 처리(스텝S1101), 음소 길이 설정 처리(스텝 S1102), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)를 행한다(스텝 S1103).
상기 제11 실시 형태에서는, 저속 읽기 또한 음소가 선두 음소(n=-1)인지가 판정되어(스텝 S1104), 저속 읽기 또한 음소가 선두 음소(n==1)가 아니면(스텝S1104의 아니오), 그 음소 길이를 화속에 따라서 고정배로 하고(스텝 S1105), 저속 읽기 또한 음소가 선두 음소(n==1)이면(스텝 S1104의 예), 선두 음소를 표준 길이 그대로로 한다.
이와 같은 처리 후, 음소 번호 n을 갱신(n=n+1)하고(스텝 S1106), 호기 단락내의 음소의 종료 판정(스텝 S1107)의 후, 호기 단락의 종단 포즈에 도달한 경우의 포즈 길이를 화속에 따라서 고정배의 설정을 행하고(스텝 S1108), 종료 판정이 행하여진다(스텝 S1109). 모든 데이터의 처리가 완료할 때까지, 스텝 S1103으로부터 스텝 S1109의 처리가 반복된다. 이 종료 판정의 후, 음성 합성이 실행되고(스텝 S1110), 음성이 출력된다.
이와 같이, 저속 읽기인 경우에 음소가 선두 음소가 아닌 경우에는, 음소 길이를 화속에 따라서 고정배로서 신장시키고, 선두 음소인 경우에는, 음소 길이를 신장시키지 않으므로, 합성 음성의 알아듣기 쉬움을 높일 수 있어, 음성으로 변환된 읽어내기문의 인식성이 개선된다.
<제12 실시 형태>
다음으로, 제12 실시 형태에 대하여, 도 19를 참조한다. 도 19는, 제12 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 11)를 이용하여 실행되는데, 이 실시 형태에서는, 장음 또는 촉음의 음소 길이를 단축 등, 조정하는데 대하여, 그 조정분을 문장 전체의 전체 음소에 비례 배분하여 조정시킴으로써, 호기 단락의 길이를 유지하면서, 즉, 읽어내기문의 음성 변환 시간을 신장시키지 않고, 알아듣기 쉬움을 높이고 있다. 이 경우, 그 일례로서, 화속은 표준 속도의 0.8〔배〕보다 느리게 하고, 음소 길이의 단축 비율은 0.8〔배〕로 설정하고 있다. 이 경우, 제7 실시 형태와 마찬가지로, 장음 또는 촉음의 음소 길이를 단축 등, 조정하는 것에 대하여, 그 조정분을 장음 또는 촉음 이외의 전체 음소의 음소 길이에 비례 배분하여 조정하는 구성으로 하여도 된다.
따라서, 이 처리 수순에서는, 도 19에 도시하는 바와 같이, 언어 처리(스텝S1201), 음소 길이 설정 처리(스텝 S1202), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S1203), 화속에 따른 음소 길이의 제어를 행한다(스텝S1204∼S1209). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제2 실시 형태(도 7)와 마찬가지이다.
상기 제12 실시 형태에서도, 화속에 따른 고정배의 음소 길이의 설정(스텝S1204), 저속 읽기 또한 장음 또는 촉음인지 여부의 판정(스텝 S1205), 화속이 저속 읽기 또한 장음 또는 촉음이면(스텝 S1205의 예), 그 음소 길이를 소정배로서 예를 들면, 0.8〔배〕로 설정하고(스텝 S1206), 저속 읽기 또한 음소가 장음 또는 촉음이 아니면(스텝 S1205의 아니오), 스텝 S1204에서 화속에 따라서 고정배로 설정된 음소 길이가 유지된다.
이와 같은 처리 후, 음소 번호 n의 갱신(n=n+1)(스텝S1207), 호기 단락 내의 음소의 종료 판정(스텝 S1208), 호기 단락의 종단의 포즈에 도달한 경우의 포즈 길이를 화속에 따른 고정배의 설정(스텝 S1209)의 후, 종료 판정이 행하여진다(스텝S1210). 이 종료 판정에서는, 전체 데이터의 처리를 종료하였는지의 여부를 판정하고, 종료 판정의 후, 문장 전체의 길이를 계산하고(스텝 S1211), 문장의 길이가 소정의 길이 예를 들면, 음소 길이를 단축하지 않은 경우의 길이와 동등 또는 동등 정도의 길이로 되도록 전체 음소의 음소 길이를 비례 배분하여 조정하여(스텝 S1212), 음성 합성이 실행되고(스텝 S1213), 음성이 출력된다.
이와 같이, 저속 읽기에서 장음 또는 촉음의 음소 길이의 조정으로서, 장음또는 촉음의 음소 길이를 단축한 대신에, 이 실시 형태에서는, 문장 전체를 단위로하여 음소가 약간 길게 설정되고, 읽어내기문의 전체 길이를 유지하면서, 늘어짐감 이 없어, 알아듣기 쉬움이 개선된다.
<제13 실시 형태>
다음으로, 제13 실시 형태에 대하여, 도 20을 참조한다. 도 20은, 제13 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트이다.
상기 처리 수순은, 음성 읽어내기의 프로그램 또는 방법의 일례로서, 이미 설명한 음성 읽어내기 장치(2)(도 1) 및 음소 길이 제어부(18)(도 11)를 이용하여 실행되는데, 이 실시 형태에서는, 저속 읽기에서 포즈 또는 장음 또는 촉음인 경우에, 그 음소 길이의 조정으로서 예를 들면, 그 음소 길이를 신장하지 않으므로, 포즈 또는 장음 또는 촉음 이외의 음소는 화속에 따라서 고정배로 하여 신장되고, 게다가, 문장 전체를 단위로 하여 전체 음소에 대하여, 포즈 또는 장음 또는 촉음의 음소 길이를 조정하지 않는 분 즉, 신장하지 않는 분을 비례 배분하여 조정하고 있다. 이 경우, 제9 실시 형태와 마찬가지로, 포즈 또는 장음 또한 촉음의 음소 길이를 단축 등, 조정함으로써, 그 조정분을 포즈 또는 장음 또는 촉음 이외의 전체 음소의 음소 길이에 비례 배분하여 조정하는 구성으로 하여도 된다.
따라서, 이 처리 수순에서는 도 20에 도시하는 바와 같이, 언어 처리(스텝S1301), 음소 길이 설정 처리(스텝 S1302), 호기 단락 내의 음소 처리로서, 음소 번호 n의 초기화(n=1)(스텝 S1303), 화속에 따른 음소 길이의 제어를 행한다(스텝S1304∼S1308). 이 음소 길이의 제어가 호기 단락을 단위로 하는 것은 제2 실시 형태(도 7)와 마찬가지이다.
상기 제13 실시 형태에서는, 저속 읽기 또한 포즈 또는 장음 또는 촉음인지 의 여부가 판정되고(스텝 S1304), 화속이 저속 읽기 또한 포즈 또는 장음 또는 촉음이 아니면(스텝 S1304의 아니오), 그 음소 길이를 화속에 따라서 고정배의 설정을 하고(스텝 S1305), 화속이 저속 읽기 또한 포즈 또는 장음 또는 촉음이면(스텝 S1304의 예), 스텝 S1305를 건너뛰고, 음소 번호 n을 갱신(n-n+1)한다(스텝 S1306). 호기 단락 내의 음소의 종료 판정(스텝 S1307)의 후, 호기 단락의 종단 포즈에 도달한 경우의 포즈 길이를 화속에 따라서 고정배의 설정을 행하고(스텝 S1308), 종료 판정이 행하여진다(스텝 S1309). 이 종료 판정에서는, 전체 데이터의 처리를 종료하였는지의 여부를 판정하고, 종료 판정의 후, 문장 전체의 길이를 계산하고(스텝 S1310), 문장의 길이가 소정의 길이 예를 들면, 음소 길이를 신장하지 않는 경우의 길이와 동등 또는 동등 정도의 길이로 되도록 전체 음소의 음소 길이를 비례 배분하여 조정하여(스텝 S1311), 음성 합성이 실행되고(스텝 S1312), 음성이 출력된다.
이와 같이, 저속 읽기에서 포즈 또는 장음 또는 촉음의 음소 길이를 신장하지 않는 대신에, 이 실시 형태에서는, 문장 전체를 단위로 하여 음소가 약간 긴 듯하게 설정되고, 읽어내기문의 전체 길이를 유지하면서, 늘어짐감이 없어, 알아듣기 쉬움이 개선된다.
<그 밖의 실시 형태>
이상과 같이, 각 실시 형태에 대하여 설명하였지만, 본 발명은, 이하에 기재하는 그 밖의 실시 형태도 포함하는 것이다.
(1) 음소 길이 제어부(18)에 입력하는 화속 정보에 대하여, 도 21을 참조한 다. 도 21은, 화속 조정부를 구비하는 파라미터 생성부를 도시하는 블록도이다. 상기 실시 형태에서는, 음소 길이 제어부(18)에 화속 정보를 입력하고 있지만, 도 21에 도시하는 바와 같이, 외부로부터 화속을 조정 가능한 화속 조정부(22)를 파라미터 생성부(8)에 설치하고, 외부로부터 임의의 화속 설정을 가능한 구성으로 하여도 된다.
(2) 제1 실시 형태에서는, 저속 읽기가 아닌 경우에 호기 단락의 종단의 포즈 길이를 화속에 따라서 고정배로 하였지만, 도 22에 도시하는 바와 같이, 저속 읽기인지의 여부 판정(스텝 S107)의 후, 저속 읽기이면(스텝 S107의 예), 종단의 포즈 길이를 화속에 따라서 고정배로서 신장시키고(스텝 S108), 저속 읽기가 아니면(스텝 S107의 아니오), 그 포즈 길이를 변화시키지 않는 구성으로 하여도 된다. 즉, 고속 읽기의 경우에는, 포즈 길이를 단축시키지 않게 되어, 알아듣기 쉬움을 높일 수 있다.
(3) 도 23에 도시하는 플로우차트는, 제2 실시 형태(도 7), 제3 실시 형태(도 8), 제9 실시 형태(도 16), 제10 실시 형태(도 17), 제11 실시 형태(도 18), 제13 실시 형태(도 20)의 플로우차트의 변형예이다. 도 23에서, 스텝 S2001은, 스텝 S204, S304, S904, S1004, S1104, S1304에 대응한다. 상기 실시 형태에서, 음소 길이를 화속에 따라서 고정배(스텝 S2002)로 하는 음소 길이의 신장에 대하여, 스텝 S2003을 설정하고, 음소 길이를 단축하는 처리로서 표준 음소 길이의 예를 들면, 0.8〔배〕로 하는 처리 수순으로 하여도 된다.
(4) 호기 단락 길이를 단위로 하는 처리에 관한 것으로, 제4 실시 형태(도 10)에서는 포즈 이외의 전체 음소에 음소 길이의 조정분을 비례 배분하고(스텝 S410), 제7 실시 형태(도 14)에서는 저속 읽기이며 또한 장음 또는 촉음의 음소 길이의 단축분을 장음 또는 촉음 이외의 전체 음소에 비례 배분하고(스텝 S711), 제9 실시 형태(도 16)에서는 저속 읽기이며 또한 포즈 또는 장음 또는 촉음의 음소 길이의 단축분을 포즈 또는 장음 또는 촉음 이외의 전 음소에 비례 배분하고(스텝S910), 호기 단락을 단위로 하여 음소 길이의 비례 배분 처리를 행하고 있지만, 이와 같은 처리는, 포즈, 장음 또는 촉음의 조정분 이외의 음소, 예를 들면, 자음에 관한 조정분을 전체 음소에 비례 배분하는 구성으로 하여도 된다.
(5) 문장 전체 길이를 단위로 하는 처리에 관한 것으로, 제5 실시 형태(도12), 제12 실시 형태(도 19), 제13 실시 형태(도 20)에서는 소정 길이로 되도록 전 체 음소에 비례 배분하고, 문장 전체를 단위로 하여 음소 길이의 비례 배분 처리를 행하고 있지만, 이와 같은 처리는, 포즈, 장음 또는 촉음의 조정분 이외의 음소, 예를 들면, 자음에 관한 조정분을 전체 음소에 비례 배분하는 구성으로 하여도 된다. 이 경우, 호기 단락을 단위로 하는 처리와 마찬가지로, 문장 전체 길이를 단위로 하는 처리에 관한 것으로, 포즈, 장음, 촉음 또는 자음 등의 음소 길이를 조정한 경우, 문장 전체의 음소 길이의 조정으로부터 그 조정분을 제외하고 다른 음소에 대하여 비례 배분하는 구성으로 하여도 된다.
(6) 제1 실시 형태에 휴대 단말 장치(200)(도 3, 도4)를 예시하였지만, 본 발명은, 휴대 정보 단말기(PDA: Personal Digital Assistant)나, 퍼스널 컴퓨터 등, 컴퓨터를 탑재하여 음성을 출력하는 전자 기기나, 전자 기기 유닛을 탑재하는 각종 기기에 적용할 수 있는 것으로, 본 발명은, 상기 실시 형태에 한정되는 것은 아니다.
<실시예>
<실시예 1>
실시예 1에 대하여, 도 24 및 도 25를 참조한다. 도 24는, 도 6의 플로우차트에 대응하는 비교예인 플로우차트, 도 25는, 언어 처리 결과를 나타내는 도면이다.
상기 음성 읽어내기 장치(2)(도 1)에서는, 화속에 따라서 각 음소의 음소 길이를 마찬가지로 신장하는 경우에는, 도 24에 도시하는 플로우차트의 처리로 되고, 포즈 후의 화두의 음소 길이를 조정하지 않은 경우의 처리를 나타내고 있다. 즉, 도 24의 플로우차트는, 도 6의 플로우차트로부터 스텝 S107의 처리 수순이 없는 경우와 동일로서, 언어 처리(스텝 S1401), 음소 길이 설정 처리(스텝 S1402), 음소 번호의 초기화(스텝 S1403), 음소 길이의 고정배 처리(스텝 S1404), 음소 번호의 갱신(스텝 S1405), 호기 단락 내의 음소 종료 판정(스텝 S1406), 종단 포즈 길이의 고정배 처리(스텝 S1407), 종료 판정(스텝 S1408) 및 음성 합성(스텝 S1409)의 처리로부터 명백한 바와 같이, 음소 길이의 화속에 따른 고정배 처리, 종단의 포즈 길이의 화속에 따른 고정배 처리를 실행하고 있다.
이와 같은 처리에서, 입력 텍스트의 문례가 예를 들면,
「山梨縣の高校を卒業して、信用金庫に入って4年目です。(도 5)
라고 하면, 그 단어 해석 결과는 도 25에 도시하는 바와 같이, 입력 텍스트, 품사, 표음 문자열로 나타낼 수 있다.
이 문례의 「山梨縣の高校を卒業して、信用金庫に入って4年目です」에서, 「山梨」는 명사이며, 그 표음 문자열은「ヤマナシ'」로 되고, 「縣」은 명사이며, 그 표음 문자열은 「ケン」으로 되고, 「の」는 조사이며, 그 표음 문자열은 「ノ」로 되고, 이 「の」의 뒷부분은 액센트구 경계에서 공백으로 되고, 「高校」는 명사이며, 그 표음 문자열은 「コ―コ―」로 되고, 「を」는 조사이며, 그 표음 문자열은 「オ」로 되고, 그 뒷부분은 액센트구 경계에서 공백으로 되고, 「卒業し」는 동사(연용형)이며, 그 표음 문자열은 「ソツギョ―シ」로 되고, 「て」는 조사이며, 그 표음 문자열은 「テ」로 되고, 「、」는 호기 단락 경계(포즈 길이는 중)이며, 그 표음 문자열은 「、」로 되고, 「信用」은 명사이며, 그 표음 문자열은 「シンヨ―」로 되고, 「金庫」는 명사이며, 그 표음 문자열은 「キ'ンコ」로 되고, 「に」는 조사이며, 그 표음 문자열은 「ニ」로 되고, 그 뒷부분은 액센트구 경계에서 공백으로 되고, 「入っ」는 동사(연용형, 촉음편)이며, 그 표음 문자열은 「ハ*イッ」로 되고, 「て」는 조사이며, 그 표음 문자열은 「テ」로 되고, 그 뒷부분은 호기 단락 경계(포즈 길이는 소)로 되고, 그 표음 문자열은 「ㆍ」로 되고, 「4」는 수사이며, 그 표음 문자열은 「ヨ」로 되고, 「年」은 조수사이며, 그 표음 문자열은 「ネン」으로 되고, 「目」은 조수사의 후치사이며, 그 표음 문자열은 「メ'」로 되고, 「です」는 조동사이며, 그 표음 문자열은 「デス」로 되고, 「。」는 호기 단락 경계(포즈 길이는 대)이며, 그 표음 문자열은 「。」로 된다. 따라서, 상기 문례의 표음 문자열은,
「ヤマナシ' ケンノ コ―コ―オ ソツギョ―シテ、 シンヨ―キ'ンコニ ハ*イッテㆍヨネンメ'デス。」로 된다.
<실시예 2>
실시예 2는 포즈 길이를 신장하지 않은 <제1 실시 형태>의 실시예이다. 이 실시예 2의 처리 결과를 나타내는 파형에 대하여, 도 26 및 도 27을 참조한다. 도26은, 비교예인 음성 합성 파형을 도시하는 도면, 도 27은, 실시예 2에 따른 음성 합성 파형을 도시하는 도면이다. 도 26에서,A는, 표준 속도의 경우의 파형이며, B는, 저속 읽어내기의 경우의 파형이다. 도 26의 A에서 a, B에서 b는, 포즈 구간이다.
이것에 대하여, 도 27에서,A는, 제1 실시 형태(도 6의 플로우차트)의 처리의 표준 속도인 경우의 파형, B는, 저속 읽어내기에 대응하고, c의 포즈 구간은, 도 27의 A의 표준 속도와 마찬가지로, 포즈 길이를 신장하지 않는다.
<실시예 3>
실시예 3은 자음의 음소 길이를 신장하지 않거나 또는 단축하는 경우 <제10 실시 형태>와, 화두의 음소 길이를 신장하지 않거나 또는 단축하는 경우 <제11 실시 형태>의 실시예이다. 이 실시예 3의 처리 결과를 나타내는 파형에 대하여, 도 28 및 도 29를 참조한다. 도 28은, 비교예인 음성 합성 파형을 도시하는 도면, 도 29는, 실시예 3에 따른 음성 합성 파형을 도시하는 도면이다. 도 28에서,A는, 표준 속도인 경우의 파형이며, B는, 저속 읽어내기인 경우의 파형이다. 도 28의 B에서,d는, 이 경우, 화두에서 자음의 음소 길이가 125〔msec〕이며, 화속 비례대로 이다.
이것에 대하여, 도 29에서,A는, 제9, 제10 실시 형태(도 16, 도 17의 플로우차트)의 처리의 표준 속도인 경우의 파형, B는, 저속 읽어내기에 대응하고, e의 화두에서 자음의 음소 길이는, 화속 비례보다도 짧아져 있다.
<실시예 4>
실시예 4는 자음의 음소 길이를 신장하지 않거나 또는 단축하는 경우 <제10 실시 형태>와, 화두의 음소 길이를 신장하지 않거나 또는 단축하는 경우 <제11 실시 형태>의 실시예이다. 이 실시예 4의 처리 결과를 나타내는 파형에 대하여, 도 30 및 도 31을 참조한다. 도 30은, 비교예인 음성 합성 파형을 도시하는 도면, 도 31은, 실시예 4에 따른 음성 합성 파형을 도시하는 도면이다. 실시예 1, 2, 3이 일본어인 것에 대하여, 실시예 4는 영어문 「ha-ppy, sho-ck, shoo-t」를 읽어낸 경우이다. 도 30에서,A는, 표준 속도의 경우의 파형이며, B는, 저속 읽어내기인 경우의 파형이다. 도 30의 B에서,f는, 이 경우, 화두에서 자음의 음소 길이가 106〔msec〕, g는, 마찬가지로, 화두에서 자음의 음소 길이가 122〔msec〕이며, 화속 비례대로이다.
이것에 대하여, 도 31에서,A는, 제9, 10 실시 형태(도 16, 도 17의 플로우차트)의 처리의 표준 속도인 경우의 파형, B는, 저속 읽어내기에 대응하고, h는, 화두에서 자음의 음소 길이가 86〔msec〕, i는, 마찬가지로, 화두에서 자음의 음소 길이가 97〔msec〕으로 되어 있어, 화속 비례보다도 신장하지 않는 즉, 단축되어 있다.
<실시예 5>
실시예 5는 포즈 길이를 신장하지 않은 경우 <제1 실시 형태>로서, 영어문 「happy sho ck shoo t」를 읽어낸 경우이다. 이 실시예 5의 처리 결과를 나타내는 파형에 대하여, 도 32를 참조한다. 도 32에서,A는, 표준 속도인 경우의 파형, B는, 저속 읽어내기에 대응하고, B는, 저속 읽기를 위해, A와 비교하여 신장한 파형으로 되어 있지만, l, m의 포즈 구간만은, j, k의 포즈 구간과 마찬가지로, 동일한 길이로 하고, 신장하지 않은 경우를 나타내고 있다.
다음으로,이상 설명한 본 발명의 실시 형태로부터 추출되는 기술적 사상을 청구항의 기재 형식에 준하여 부기로서 열거한다. 본 발명에 따른 기술적 사상은 상위 개념으로부터 하위 개념까지, 다양한 레벨이나 베리에이션에 의해 파악할 수 있는 것이며, 이하의 부기에 본 발명이 한정되는 것은 아니다.
<부기 1>
문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 장치로서,
상기 문자 데이터로부터 포즈 또는 음소의 종류를 판정하는 음소 판정부와,
음소에 읽어내기 속도에 따른 음소 길이를 설정하고, 포즈, 장음, 촉음 또는 자음 중 어느 하나 또는 2 이상을 포함하는 경우에, 상기 음소 판정부의 판정 결과에 기초하여, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 조정하는 음소 길이 조정부를 구비하는 것을 특징으로 하는 음성 읽어내기 장치.
<부기 2>
문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 장치로서, 상기 문자 데이터로부터 음소를 판정하는 음소 판정부와,
음소에 읽어내기 속도에 따라서 음소 길이를 설정하고, 상기 음소가 화두인 경우에, 상기 음소 판정부의 판정 결과에 기초하여, 상기 화두의 음소의 음소 길이를 조정하는 음소 길이 조정부
를 구비하는 것을 특징으로 하는 음성 읽어내기 장치.
<부기 3>
부기 1의 음성 읽어내기 장치에 있어서,
음소의 읽어내기 속도를 판정하는 속도 판정부를 구비하고, 상기 음소 길이 조정부는, 상기 읽어내기 속도의 판정 결과에 기초하여, 상기 읽어내기 속도가 저속인 경우에, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 신장시키지 않거나 또는 그 음소 길이를 단축시키는 것을 특징으로 하는 음성 읽어내기 장치.
<부기 4>
부기 1 또는 2의 음성 읽어내기 장치에 있어서,
호기 단락의 길이를 연산하는 호기 단락 연산부를 구비하고, 상기 음소 길이 조정부는, 상기 음소 길이의 조정분을 상기 호기 단락 연산부의 연산 결과에 기초하여, 상기 호기 단락의 각 음소 길이를 비례 배분하여 증감시키는 것을 특징으로 하는 음성 읽어내기 장치.
<부기 5>
부기 1 또는 2의 음성 읽어내기 장치에 있어서,
읽어내기 문장의 길이를 연산하는 문장 연산부를 구비하고, 상기 음소 길이 조정부는, 상기 음소 길이의 조정분을 상기 문장 연산부의 연산 결과에 기초하여, 상기 문장의 각 음소 길이를 비례 배분하여 증감시키는 것을 특징으로 하는 음성 읽어내기 장치.
<부기 6>
문자 데이터를 음성으로 변환하여 읽어내는 수순을 컴퓨터에 실행시키는 음성 읽어내기 프로그램으로서,
상기 문자 데이터로부터 음소의 종류를 판정하는 수순과,
음소에 읽어내기 속도에 따른 음소 길이를 설정하는 수순과,
포즈, 장음, 촉음 또는 자음 중 어느 하나 또는 2 이상을 포함하는 경우에, 상기 판정의 결과에 기초하여, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 조정하는 수순
을 상기 컴퓨터에 실행시키는 것을 특징으로 하는 음성 읽어내기 프로그램.
<부기 7>
문자 데이터를 음성으로 변환하여 읽어내는 수순을 컴퓨터에 실행시키는 음성 읽어내기 프로그램으로서,
상기 문자 데이터로부터 음소를 판정하는 수순과,
음소에 읽어내기 속도에 따른 음소 길이를 설정하는 수순과,
상기 음소가 화두인 경우에, 그 판정 결과에 기초하여, 상기 화두의 음소의 음소 길이를 조정하는 수순
을 상기 컴퓨터에 실행시키는 것을 특징으로 하는 음성 읽어내기 프로그램.
<부기 8>
부기 6의 음성 읽어내기 프로그램으로서,
음소의 읽어내기 속도를 판정하는 수순과,
상기 읽어내기 속도의 판정 결과에 기초하여, 상기 읽어내기 속도가 저속인 경우에, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 신장시키지 않거나 또는 그 음소 길이를 단축시키는 수순
을 상기 컴퓨터에 실행시키는 것을 특징으로 하는 음성 읽어내기 프로그램.
<부기 9>
부기 6 또는 7의 음성 읽어내기 프로그램으로서,
호기 단락의 길이를 연산하는 수순과,
상기 음소 길이의 조정분을 상기 호기 단락의 길이의 연산 결과에 기초하여, 상기 호기 단락의 각 음소 길이를 비례 배분하여 증감시키는 수순
을 상기 컴퓨터에 실행시키는 것을 특징으로 하는 음성 읽어내기 프로그램.
<부기 10>
부기 6 또는 7의 음성 읽어내기 장치에 있어서,
읽어내기 문장의 길이를 연산하는 수순과,
상기 음소 길이의 조정분을 상기 읽어내기 문장의 길이의 연산 결과에 기초하여, 상기 문장의 각 음소 길이를 비례 배분하여 증감시키는 수순
을 상기 컴퓨터에 실행시키는 것을 특징으로 하는 음성 읽어내기 프로그램.
<부기 11>
문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 방법으로서,
상기 문자 데이터로부터 음소의 종류를 판정하는 단계와,
음소에 읽어내기 속도에 따른 음소 길이를 설정하는 단계와,
포즈, 장음, 촉음 또는 자음의 중 어느 하나 또는 2 이상을 포함하는 경우에, 상기 판정의 결과에 기초하여, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 조정하는 단계
를 포함하는 것을 특징으로 하는 음성 읽어내기 방법.
<부기 12>
문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 방법으로서,
상기 문자 데이터로부터 음소를 판정하는 단계와,
음소에 읽어내기 속도에 따른 음소 길이를 설정하는 단계와,
상기 음소가 화두인 경우에, 그 판정 결과에 기초하여, 상기 화두의 음소의 음소 길이를 조정하는 단계
를 포함하는 것을 특징으로 하는 음성 읽어내기 방법.
<부기 13>
부기 11의 음성 읽어내기 방법에 있어서,
음소의 읽어내기 속도를 판정하는 단계와,
상기 읽어내기 속도의 판정 결과에 기초하여, 상기 읽어내기 속도가 저속인 경우에, 상기 포즈, 상기 장음, 상기 촉음 또는 상기 자음의 음소 길이를 신장시키 지 않거나 또는 그 음소 길이를 단축시키는 단계
를 포함하는 것을 특징으로 하는 음성 읽어내기 방법.
<부기 14>
부기 11 또는 12의 음성 읽어내기 방법에 있어서,
호기 단락의 길이를 연산하는 단계와,
상기 음소 길이의 조정분을 상기 호기 단락의 길이의 연산 결과에 기초하여, 상기 호기 단락의 각 음소 길이를 비례 배분하여 증감시키는 단계
를 포함하는 것을 특징으로 하는 음성 읽어내기 방법.
<부기 15>
부기 11 또는 12의 음성 읽어내기 방법에 있어서,
읽어내기 문장의 길이를 연산하는 단계와,
상기 음소 길이의 조정분을 상기 읽어내기 문장의 길이의 연산 결과에 기초하여, 상기 문장의 각 음소 길이를 비례 배분하여 증감시키는 단계
를 포함하는 것을 특징으로 하는 음성 읽어내기 방법.
이상 설명한 바와 같이, 본 발명의 가장 바람직한 실시 형태 등에 대하여 설명하였지만, 본 발명은, 상기 기재에 한정되는 것은 아니며, 특허 청구 범위에 기재되거나, 또는 명세서에 개시된 발명의 요지에 기초하여, 당업자에 있어서 다양한 변형이나 변경이 가능한 것은 물론이며, 이러한 변형이나 변경이, 본 발명의 범위에 포함되는 것은 물론이다.
본 발명은, 문자 데이터를 음성으로 변환하여 읽어내는 장치, 프로그램 및 방법에 관한 것으로, 문자 데이터로부터 포즈, 장음, 촉음 또는 자음의 존재를 인식하고, 이들 음소 길이나 포즈 길이를 제어하여, 읽어내기 속도를 저속화하여도, 합성 음성의 알아듣기 쉬움을 높이고, 인식성의 향상이 도모되므로, 음성 합성 등의 처리에 유용하다.
도 1은 제1 실시 형태에 따른 음성 읽어내기 장치의 구성예를 도시하는 블록도.
도 2는 음성 읽어내기 장치의 음소 길이 제어부의 구성예를 도시하는 블록도.
도 3은 음성 읽어내기 장치를 탑재한 휴대 단말 장치의 일례를 도시하는 블록도.
도 4는 휴대 단말 장치의 구성예를 도시하는 도면.
도 5는 화면 표시예를 도시하는 도면.
도 6은 제1 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 7은 제2 실시 형태에 따른 음소 길이제어의 처리 수순의 일례를 도시하는 플로우차트.
도 8은 제3 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 9는 제4 실시 형태에 따른 음소 길이제어부를 도시하는 블록도.
도 10은 제4 실시 형태에 따른 음소 길이제어의 처리 수순의 일례를 도시하는 플로우차트.
도 11은 제5 실시 형태에 따른 음소 길이 제어부를 도시하는 블록도.
도 12는 제5 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하 는 플로우차트.
도 13은 제6 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 14는 제7 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 15는 제8 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 16은 제9 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 17은 제10 실시 형태에 따른 음소 길이제어의 처리 수순의 일례를 도시하는 플로우차트.
도 18은 제11 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 19는 제12 실시 형태에 따른 음소 길이제어의 처리 수순의 일례를 도시하는 플로우차트.
도 20은 제13 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 21은 화속 조정부를 구비하는 파라미터 생성부를 도시하는 블록도.
도 22는 그 밖의 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 23은 그 밖의 실시 형태에 따른 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 24는 음소 길이 제어의 처리 수순의 일례를 도시하는 플로우차트.
도 25는 언어 처리 결과를 나타내는 도면.
도 26은 음성 합성 파형을 도시하는 도면.
도 27은 음성 합성 파형을 도시하는 도면.
도 28은 음성 합성 파형을 도시하는 도면.
도 29는 음성 합성 파형을 도시하는 도면.
도 30은 음성 합성 파형을 도시하는 도면.
도 31은 음성 합성 파형을 도시하는 도면.
도 32는 음성 합성 파형을 도시하는 도면.
<도면의 주요 부분에 대한 부호의 설명>
2: 음성 읽어내기 장치
24: 음소 길이 조정부
26: 화속 판정부
28: 음소 판정부
30: 호기 단락 길이 연산부
32: 문장 전체 길이 연산부
34: 단락 변경부
200: 휴대 단말 장치

Claims (9)

  1. 문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 장치로서,
    상기 문자 데이터 내의 복수의 음소에 대응하는 음소 데이터와, 상기 문자 데이터 내의 복수의 포즈에 대응하는 포즈 데이터를 결정하는 결정부와,
    상기 문자 데이터 내의 각 음소 데이터의 음소 길이 및 각 포즈 데이터의 포즈 길이의 수정을 행하는 음소 길이 제어부와,
    상기 음소 길이 제어부에 의해 수정된 음소 데이터 및 포즈 데이터에 기초하여, 음성을 출력하는 출력부
    를 포함하며,
    상기 음소 길이 제어부는,
    호기 단락 단위로, 상기 문자 데이터를 읽어내는 경우의 읽어내기 속도에 따라서 상기 음소 각각의 음소 길이를 결정함으로써 상기 음소 데이터와 상기 포즈 데이터를 수정하고, 또한 상기 문자 데이터 내의 적어도 1개의 포즈의 포즈 길이를 상기 음성의 읽어내기 속도에 따른 포즈 길이보다도 짧게 하는 것에 의하여, 포즈 데이터를 수정하고,
    상기 수정된 음소 데이터와 포즈 데이터로부터, 호기 단락의 길이를 연산하고,
    상기 연산 결과에 기초하여, 호기 단락 내의 각 음소 길이를 비례 배분하여 증감시키도록 상기 음소 데이터를 수정하는 것을 특징으로 하는 음성 읽어내기 장치.
  2. 제1항에 있어서,
    음소의 읽어내기 속도를 판정하는 속도 판정부를 구비하고, 상기 음소 길이 제어부는, 상기 읽어내기 속도의 판정 결과에 기초하여, 상기 읽어내기 속도가 저속인 경우에, 상기 포즈의 포즈 길이를 단축시켜 포즈 데이터를 수정하는 것을 특징으로 하는 음성 읽어내기 장치.
  3. 삭제
  4. 문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 장치로서,
    상기 문자 데이터 내의 복수의 음소에 대응하는 음소 데이터와, 상기 문자 데이터 내의 복수의 포즈에 대응하는 포즈 데이터를 결정하는 결정부와,
    상기 문자 데이터를 읽어내는 경우의 읽어내기 속도에 따라서 상기 음소 각각의 음소 길이를 결정함으로써 상기 음소 데이터와 상기 포즈 데이터를 수정하고, 또한 상기 문자 데이터 내의 적어도 1개의 포즈의 포즈 길이를 상기 음성의 읽어내기 속도에 따른 포즈 길이보다도 짧게 하여, 포즈 데이터를 수정하고, 상기 수정된 음소 데이터와 포즈 데이터로부터, 상기 문자 데이터의 읽어내기 시간의 길이를 연산하고, 상기 연산 결과에 기초하여, 상기 문자 데이터 내의 각 음소 길이를 비례 배분하여 증감시키도록 음소 데이터를 수정하는 음소 길이 제어부와,
    상기 음소 길이 제어부에 의해 수정된 음소 데이터와 포즈 데이터에 기초하여, 음성을 출력하는 출력부
    를 포함하는 것을 특징으로 하는 음성 읽어내기 장치.
  5. 문자 데이터를 음성으로 변환하여 합성 음성을 생성하는 수순을 컴퓨터에 실행시키는 음성 읽어내기 프로그램을 기록한 기록 매체로서, 상기 음성 읽어내기 프로그램은 상기 컴퓨터에,
    상기 문자 데이터 내의 복수의 음소에 대응하는 음소 데이터와, 상기 문자 데이터 내의 복수의 포즈에 대응하는 포즈 데이터를 결정시키고,
    호기 단락 단위로, 상기 문자 데이터를 읽어내는 속도를 나타내는 읽어내기 속도에 따라서 상기 음소 각각의 음소 길이를 결정함으로써 상기 음소 데이터와 상기 포즈 데이터를 수정시키고,
    또한 상기 문자 데이터 내의 적어도 1개의 포즈의 포즈 길이를 상기 음성의 읽어내기 속도에 따른 포즈 길이보다도 짧게 되도록 함으로써, 포즈 데이터를 수정시키고,
    상기 수정된 음소 데이터와 포즈 데이터로부터, 호기 단락의 길이를 연산시키고,
    상기 연산 결과에 기초하여, 호기 단락 내의 각 음소 길이를 비례 배분하여 증감시키도록 상기 음소 데이터를 수정시키고,
    수정된 상기 음소 데이터와 상기 포즈 데이터에 기초하여, 합성 음성을 출력시키는 것을 특징으로 하는 기록 매체.
  6. 문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 방법으로서,
    상기 문자 데이터 내의 복수의 음소에 대응하는 음소 데이터와, 상기 문자 데이터 내의 복수의 포즈에 대응하는 포즈 데이터를 결정하고,
    호기 단락 단위로, 상기 문자 데이터를 읽어내는 속도를 나타내는 읽어내기 속도에 따라서 상기 음소 각각의 음소 길이를 결정함으로써 상기 음소 데이터와 상기 포즈 데이터를 수정하고,
    또한 상기 문자 데이터 내의 적어도 1개의 포즈의 포즈 길이를 상기 음성의 읽어내기 속도에 따른 포즈 길이보다도 짧게 함으로써, 포즈 데이터를 수정하고,
    상기 수정된 음소 데이터와 포즈 데이터로부터, 호기 단락의 길이를 연산하고,
    상기 연산 결과에 기초하여, 호기 단락 내의 각 음소 길이를 비례 배분하여 증감시키도록 상기 음소 데이터를 수정하고,
    수정된 상기 음소 데이터와 상기 포즈 데이터에 기초하여, 합성 음성을 출력하는 것을 특징으로 하는 음성 읽어내기 방법.
  7. 제4항에 있어서,
    음소의 읽어내기 속도를 판정하는 속도 판정부를 구비하고, 상기 음소 길이 제어부는, 상기 읽어내기 속도의 판정 결과에 기초하여, 상기 읽어내기 속도가 저속인 경우에, 상기 포즈의 포즈 길이를 단축시켜 포즈 데이터를 수정하는 것을 특징으로 하는 음성 읽어내기 장치.
  8. 문자 데이터를 음성으로 변환하여 합성 음성을 생성하는 수순을 컴퓨터에 실행시키는 음성 읽어내기 프로그램을 기록한 기록 매체로서, 상기 음성 읽어내기 프로그램은, 상기 컴퓨터에,
    상기 문자 데이터 내의 복수의 음소에 대응하는 음소 데이터와, 상기 문자 데이터 내의 복수의 포즈에 대응하는 포즈 데이터를 결정시키고,
    상기 문자 데이터를 읽어내는 속도를 나타내는 읽어내기 속도에 따라서 상기 음소 각각의 음소 길이를 결정함으로써 상기 음소 데이터와 상기 포즈 데이터를 수정시키고,
    상기 문자 데이터 내의 적어도 1개의 포즈의 포즈 길이를 상기 음성의 읽어내기 속도에 따른 포즈 길이보다도 짧게 되도록, 포즈 데이터를 수정시키고,
    상기 수정된 음소 데이터와 포즈 데이터로부터 상기 문자 데이터의 읽어내기 시간의 길이를 연산시키고,
    상기 연산 결과에 기초하여, 상기 문자 데이터 내의 각 음소 길이를 비례 배분하여 증감시키도록 음소 데이터를 수정시키고,
    상기 수정된 상기 음소 데이터와 상기 포즈 데이터에 기초하여, 합성 음성을 출력시키는 것을 특징으로 하는 기록 매체.
  9. 문자 데이터를 음성으로 변환하여 읽어내는 음성 읽어내기 방법으로서,
    상기 문자 데이터 내의 복수의 음소에 대응하는 음소 데이터와, 상기 문자 데이터 내의 복수의 포즈에 대응하는 포즈 데이터를 결정하고,
    상기 음성의 읽어내기 속도에 따라서 상기 음소 각각의 음소 길이를 결정함으로써 상기 음소 데이터와 상기 포즈 데이터를 수정하고,
    상기 문자 데이터 내의 적어도 1개의 포즈의 포즈 길이를 상기 음성의 읽어내기 속도에 따른 포즈 길이보다도 짧게 하여, 포즈 데이터를 수정하고,
    상기 수정된 음소 데이터와 포즈 데이터로부터 상기 문자 데이터의 읽어내기 시간의 길이를 연산하고,
    상기 연산 결과에 기초하여, 상기 문자 데이터 내의 각 음소 길이를 비례 배분하여 증감시키도록 음소 데이터를 수정하고,
    상기 수정된 상기 음소 데이터와 상기 포즈 데이터에 기초하여, 합성 음성을 출력하는 것을 특징으로 하는 음성 읽어내기 방법.
KR1020080061596A 2007-06-28 2008-06-27 음성 읽어내기를 위한 장치, 기록 매체 및 방법 KR101014462B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007170520A JP4973337B2 (ja) 2007-06-28 2007-06-28 音声読み上げのための装置、プログラム及び方法
JPJP-P-2007-00170520 2007-06-28

Publications (2)

Publication Number Publication Date
KR20090004586A KR20090004586A (ko) 2009-01-12
KR101014462B1 true KR101014462B1 (ko) 2011-02-14

Family

ID=39673189

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080061596A KR101014462B1 (ko) 2007-06-28 2008-06-27 음성 읽어내기를 위한 장치, 기록 매체 및 방법

Country Status (6)

Country Link
US (1) US20090006098A1 (ko)
EP (1) EP2009621B1 (ko)
JP (1) JP4973337B2 (ko)
KR (1) KR101014462B1 (ko)
CN (1) CN101334996B (ko)
DE (1) DE602008000857D1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
CN102045661A (zh) * 2010-09-29 2011-05-04 深圳市五巨科技有限公司 一种移动终端在线聊天的方法、装置和系统
AT512197A1 (de) * 2011-11-17 2013-06-15 Joanneum Res Forschungsgesellschaft M B H Verfahren und system zur beschallung von räumen
CN103377651B (zh) * 2012-04-28 2015-12-16 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN103065619B (zh) * 2012-12-26 2015-02-04 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
US9508338B1 (en) * 2013-11-15 2016-11-29 Amazon Technologies, Inc. Inserting breath sounds into text-to-speech output
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN108231048B (zh) * 2017-12-05 2021-09-28 北京小唱科技有限公司 修正音频节奏的方法及装置
IL285331B1 (en) * 2019-02-05 2024-06-01 Igentify Ltd A system and methodology for modulating dynamic gaps in speech
CN110277092A (zh) * 2019-06-21 2019-09-24 北京猎户星空科技有限公司 一种语音播报方法、装置、电子设备及可读存储介质
CN110337030B (zh) * 2019-08-08 2020-08-11 腾讯科技(深圳)有限公司 视频播放方法、装置、终端和计算机可读存储介质
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis
CN111627422B (zh) * 2020-05-13 2022-07-12 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质
EP4293660A1 (en) 2021-06-22 2023-12-20 Samsung Electronics Co., Ltd. Electronic device and method for controlling same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990986A (ja) * 1995-09-21 1997-04-04 Canon Inc 音声合成方法及びその装置
JP2003005774A (ja) * 2001-06-25 2003-01-08 Matsushita Electric Ind Co Ltd 音声合成装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4338490A (en) * 1979-03-30 1982-07-06 Sharp Kabushiki Kaisha Speech synthesis method and device
JPH03203800A (ja) * 1989-12-29 1991-09-05 Canon Inc 音声合成方式
JPH04270394A (ja) * 1991-02-26 1992-09-25 Nec Corp ポーズ長決定方式
JP3113101B2 (ja) 1992-11-09 2000-11-27 株式会社東芝 音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
CN1161673A (zh) * 1994-08-10 1997-10-08 伊夫斯·瓦特罗特 可变容积的瓶子
JPH08171394A (ja) * 1994-12-19 1996-07-02 Fujitsu Ltd 音声合成装置
JPH1078795A (ja) * 1996-09-04 1998-03-24 Secom Co Ltd 音声合成装置
CN1113330C (zh) * 1997-08-15 2003-07-02 英业达股份有限公司 语音合成中的语音规整方法
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP4580297B2 (ja) * 2005-07-13 2010-11-10 パナソニック株式会社 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990986A (ja) * 1995-09-21 1997-04-04 Canon Inc 音声合成方法及びその装置
JP2003005774A (ja) * 2001-06-25 2003-01-08 Matsushita Electric Ind Co Ltd 音声合成装置

Also Published As

Publication number Publication date
EP2009621A1 (en) 2008-12-31
JP2009008910A (ja) 2009-01-15
JP4973337B2 (ja) 2012-07-11
KR20090004586A (ko) 2009-01-12
CN101334996B (zh) 2011-12-21
EP2009621B1 (en) 2010-03-24
DE602008000857D1 (de) 2010-05-06
CN101334996A (zh) 2008-12-31
US20090006098A1 (en) 2009-01-01

Similar Documents

Publication Publication Date Title
KR101014462B1 (ko) 음성 읽어내기를 위한 장치, 기록 매체 및 방법
KR101005949B1 (ko) 음성 읽어내기를 위한 장치, 기록 매체 및 방법
KR101019851B1 (ko) 음성 읽어내기를 위한 장치, 기록 매체 및 방법
US8504368B2 (en) Synthetic speech text-input device and program
EP2645363B1 (en) Sound synthesizing apparatus and method
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP7228998B2 (ja) 音声合成装置及びプログラム
US6212501B1 (en) Speech synthesis apparatus and method
US20060229874A1 (en) Speech synthesizer, speech synthesizing method, and computer program
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4584511B2 (ja) 規則音声合成装置
JP3854593B2 (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
JP5301376B2 (ja) 音声合成装置およびプログラム
Ahmad et al. Towards designing a high intelligibility rule based standard malay text-to-speech synthesis system
JPH0792986A (ja) 音声合成方法
JPH04281495A (ja) 音声波形ファイル装置
JPH02285400A (ja) 音声合成装置
JPH04130400A (ja) 音声規則合成装置
JPH06318093A (ja) 音声合成装置及び読み付与装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140117

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150119

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160119

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170119

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180118

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190116

Year of fee payment: 9