JPS63246800A - Voice information generator - Google Patents

Voice information generator

Info

Publication number
JPS63246800A
JPS63246800A JP62080652A JP8065287A JPS63246800A JP S63246800 A JPS63246800 A JP S63246800A JP 62080652 A JP62080652 A JP 62080652A JP 8065287 A JP8065287 A JP 8065287A JP S63246800 A JPS63246800 A JP S63246800A
Authority
JP
Japan
Prior art keywords
speed
voice
speech
circuit
understand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62080652A
Other languages
Japanese (ja)
Inventor
富夫 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP62080652A priority Critical patent/JPS63246800A/en
Publication of JPS63246800A publication Critical patent/JPS63246800A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、人間と機械との円滑な情報交換を行う場合
等に用いて好適な音声情報発生装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a voice information generating device suitable for use in cases where information is exchanged smoothly between humans and machines.

〔発明の概要〕[Summary of the invention]

この発明は、音声情報源からの音声情報が供給される音
声合成回路より音声を発生させる速度を平均モーラ時間
で120±5 m5ecに選択し、人間に対する音声情
報を平均モーラ時間で略々 120±5 m5ecの速
度で伝達するようにすることにより、人間にとって理解
しやすい速度で話をするようにしたものである。
In this invention, the speed at which speech is generated from a speech synthesis circuit supplied with speech information from a speech information source is selected to be 120±5 m5ec in average mora time, and the speech information for humans is approximately 120±5 m5ec in average mora time. By transmitting at a speed of 5 m5ec, it is possible to speak at a speed that is easy for humans to understand.

〔従来の技術〕[Conventional technology]

人間同士の対話においては、情報交換の場に適応した音
声情報交換速度が場いられ、この音声速度の適応能力が
円滑な情報交換に重要な役割を果していると考えられる
。したがって、この音声情報交換速度の適応化のメカニ
ズムが人間・機械・インタフェースに導入されるならば
、人間と機械の円滑な情報交換が図られ、人間性を尊重
したヒユーマン・インタフェースの実現に役立つものと
期待される。
In dialogue between humans, the speed of voice information exchange is adapted to the situation where information is exchanged, and this ability to adapt voice speed is thought to play an important role in smooth information exchange. Therefore, if this mechanism for adapting the speed of voice information exchange is introduced to the human-machine interface, it will facilitate the smooth exchange of information between humans and machines, and help realize a human-human interface that respects humanity. It is expected that

人間機械間の音声対話における人間特性に関する従来の
研究としては、音声オン・オフ・パターンの統計的分析
、連続音声中の各種の区分の持続時間の性質、聴覚系で
の識別臨界速度、音声一体動同期現象の人間・機械・イ
ンタフェースへの応用、機械の音声出力タイミング等の
研究がある。
Previous research on human characteristics in human-machine voice interaction includes statistical analysis of voice on-off patterns, the nature of the duration of various segments in continuous speech, the critical speed of discrimination in the auditory system, and voice integration. Research includes applications of dynamic synchronization phenomena to humans, machines, and interfaces, and the timing of audio output from machines.

しかしながら、人間・機械コミュニケーションにおいて
、話し手であると同時に聞き手である人間の理解しやす
い機械側からの音声応答速度に関しての研究は殆どみあ
たらない。
However, in human-machine communication, there is almost no research on the voice response speed from the machine side that is easy to understand for humans who are both speakers and listeners.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

ところで、従来の音声情報発生装置では、音声合成回路
の音を一定の早さで発声させるだけで、聞く人間側にと
って、必ずしも聞き易い話し速度ではなかった。また、
発声のピッチも一定の為聞き易くなかった。
By the way, in conventional speech information generation devices, the speech synthesis circuit only produces sounds at a fixed speed, but the speaking speed is not necessarily easy for the human listener to hear. Also,
The pitch of the vocalizations was also constant, making it difficult to hear.

この発明は斯る点に鑑みてなされたもので、人間の音声
入力速度に対応してその人間に理解しやすい音声出力速
度で応答するシステム開発の基礎的研究として、人間が
意識して理解しやすいと考える速度で発声したときの音
声情報を分析評価するとともに、理解しやすい音声速度
の個人依存性について検討することにより、人間にとっ
て理解しやすい速度で話をすることができる音声情報発
生装置を提供するものである。
This invention was made in view of this point, and is a basic research for the development of a system that responds to the human voice input speed at a voice output speed that is easy for the human to understand. By analyzing and evaluating voice information when speaking at a speed that is considered easy to understand, and by examining the individual dependence of voice speed that is easy to understand, we will develop a voice information generation device that can speak at a speed that is easy for humans to understand. This is what we provide.

〔問題点を解決するための手段〕[Means for solving problems]

この発明による音声情報発生装置は、音声情報源(5)
と、この音声情報源(5)からの音声情報が供給される
音声合成回路(7)と、この音声合成回路(7)より音
声を発生させる速度を平均モーラ時間で 120±5 
m5ecに選択する速度設定手段(9,10)とを備え
、人間に対する音声情報を平均モーラ時間で略々 12
0±5 m5ecの速度で伝達するように構成している
The audio information generating device according to the present invention includes an audio information source (5)
, a speech synthesis circuit (7) to which speech information from this speech information source (5) is supplied, and a speed at which speech is generated from this speech synthesis circuit (7) in an average mora time of 120±5.
It is equipped with a speed setting means (9, 10) for selecting m5ec, and the voice information for humans is approximately 12 in average mora time.
It is configured to transmit at a speed of 0±5 m5ec.

〔作用〕[Effect]

音声情報源(5)から音声情報を音声合成回路(7)に
供給して音声を発生させる。その際に速度設定手段(9
,10)により音声を発生させる速度を平均モーラ時間
で120±5 a+secに選択し、人間に対する音声
情報を平均モーラ時間で略々 120±5 vasec
の速度で伝達する。これにより、人間にとって理解しや
すい速度で話をすることができる。
Speech information is supplied from an audio information source (5) to a speech synthesis circuit (7) to generate speech. At that time, the speed setting means (9
, 10), the speed at which voice is generated is selected to be 120±5 a+sec in average mora time, and the voice information for humans is approximately 120±5 vasec in average mora time.
transmit at a speed of This makes it possible to speak at a speed that is easy for humans to understand.

〔実施例〕〔Example〕

以下、この発明の一実施例を、音声情報源としてCD−
ROMを使った音による百科事典に通用した場合を例に
とり、第1図〜第9図に基づいて詳しく説明する。
Hereinafter, one embodiment of the present invention will be described using a CD-ROM as an audio information source.
Taking as an example a case where a sound encyclopedia using a ROM is used, a detailed explanation will be given based on FIGS. 1 to 9.

第1図は本実施例の回路構成を示すもので、同図におい
て、(1)は中央処理装置(以下、CPUと云う)であ
って、このCP U (1)に対してキーボード(2)
、ROM (3)及びRA M +4)が設けられる。
FIG. 1 shows the circuit configuration of this embodiment. In the figure, (1) is a central processing unit (hereinafter referred to as CPU), and a keyboard (2) is connected to this CPU (1).
, ROM (3) and RAM +4).

(5)は音声情報源としてのCD−ROMであっ°ζ、
このCD−ROM(5)には項別に説明文が記録され°
ζおり、通常の速度のスピーチ部と、国名、地名9人名
、数字1時間等特に分からせたい部分とには夫々異なる
周波数の制御信号が一緒に記録される。このCD−RO
M(5)の内容はキーボード(2)によりCP U (
1)を介してアクセスされる。
(5) is a CD-ROM as an audio information source;
This CD-ROM (5) contains explanatory text for each item.
ζ, control signals of different frequencies are recorded together in the normal speed speech part and in parts that are particularly desired to be understood, such as country names, place names, 9 people's names, numbers and 1 hour. This CD-RO
The contents of M(5) are input to the CPU (
1).

(6)は再生回路であって、CD−ROM(5)より読
み出された情報が供給され、エラー訂正回路(図示せず
)も利用してデコードすると共に上述の制御信号を取り
出す。(7)は音声合成回路(7)であって、再生回路
(6)でデコードされた情報は音声合成回路(7)内の
メモリ (図示せず)に−たんとり込まれ、それから音
声としてスピーカ(8)より放音される。
Reference numeral (6) denotes a reproducing circuit, which is supplied with information read from the CD-ROM (5), decodes it using an error correction circuit (not shown), and extracts the above-mentioned control signal. (7) is a voice synthesis circuit (7), and the information decoded by the reproduction circuit (6) is taken into a memory (not shown) in the voice synthesis circuit (7), and then output as voice to a speaker. (8) A sound is emitted.

(9)は再生回路(6)の出力より制御信号を検出する
制御信号検出回路であって、ここで検出された制御信号
は速度決定回路(10)に供給される。速度決定回路(
10)は供給された制御信号に基づい′ζ音声合成回路
(9)を制御し、その音声を発生する速度を決定する。
(9) is a control signal detection circuit that detects a control signal from the output of the reproduction circuit (6), and the control signal detected here is supplied to the speed determination circuit (10). Speed determining circuit (
10) controls the 'ζ speech synthesis circuit (9) based on the supplied control signal and determines the speed at which the speech is generated.

例えば通常の速度のスピーチ部であれば平均モーラ時間
で120m5ec、国名、地名1人名、数字1時間等特
に分からせたい部分であれば平均モーラ時間で125m
secになるように決定してやる。なお、この時間はボ
リウム(11)により所定範囲例えば±5 m5ecの
範囲で調節可能である。
For example, if the speech part is at normal speed, the average mora time is 120m5ec, and if it is a part that you want to make clear, such as the name of a country, one place, one person's name, one hour of numbers, etc., the average mora time is 125m.
I will decide to make it sec. Note that this time can be adjusted within a predetermined range, for example, within a range of ±5 m5ec using a volume control (11).

なお、この平均モーラ時間は音声出力区間の全域にわた
って一定でなくてもよく、例えば語尾の部分は短かくな
るように制御してもよい。
Note that this average mora time does not need to be constant over the entire audio output section, and may be controlled to be shorter at the end of a word, for example.

(12)はピンチ変更回路であって、その出力により音
声合成回路(7)及び速度決定回路(10)を制御する
。ピッチ変更回路(12)で音声合成回路(7)を制御
することにより音の高さを変えることができる。また、
ピンチ周期の短い音声つまりピッチが高い音声は経験的
に速く聞こえるのでピッチ変更回路(12)で速度決定
回路(10)を制御して音声出力速度を遅くしてやる。
(12) is a pinch changing circuit, and its output controls the speech synthesis circuit (7) and the speed determining circuit (10). The pitch of the sound can be changed by controlling the voice synthesis circuit (7) with the pitch change circuit (12). Also,
Experience has shown that voices with a short pinch period, that is, voices with a high pitch, sound fast, so the pitch changing circuit (12) controls the speed determining circuit (10) to slow down the voice output speed.

なお、ピッチ変更回路(12)におけるピンチ周期はボ
リウム(13)で調節可能である。
Incidentally, the pinch period in the pitch changing circuit (12) can be adjusted with a volume control (13).

いま、キーボード(2)により聞きたい項を入力すると
、CPU(11の働きによりCD−ROM(5)の制御
が行われ、所定のディスク位置より信号が読み出され°
ζ再生回路(6)に供給される。再生回路(6)ではC
D−ROM(5)の出力をエラー訂正回路も利用してデ
コードすると共に制御信号を取り出す。
Now, when you input the item you want to hear using the keyboard (2), the CPU (11) controls the CD-ROM (5) and reads the signal from a predetermined disk position.
It is supplied to the ζ regeneration circuit (6). In the reproduction circuit (6), C
The output of the D-ROM (5) is decoded using an error correction circuit and a control signal is extracted.

デコードされた音声に対応する信号は音声合成回路(7
)に供給され°ζそのメモリに−たんとり込まれ、また
制御信号検出回路(9)により制御信号が検出される。
The signal corresponding to the decoded voice is sent to the voice synthesis circuit (7
) is supplied to the memory thereof, and the control signal is detected by the control signal detection circuit (9).

検出された制御信号は速度決定回路(10)に供給され
る。速度決定回路(lO)は供給された制御信号の内容
に応じて音声合成回路(7)より発生される音声の速度
を決定する。つまり、通常の速度のスピーチ部の場合は
平均モーラ時間で120±5 asecに設定し、特に
分からせた部分の場合は平均モーラ時間で 125±5
 m5ecに設定する。
The detected control signal is supplied to a speed determining circuit (10). The speed determining circuit (lO) determines the speed of the voice generated by the voice synthesizing circuit (7) according to the content of the supplied control signal. In other words, for speech sections at normal speed, the average mora time is set to 120 ± 5 asec, and for parts that are particularly easy to understand, the average mora time is set to 125 ± 5 asec.
Set to m5ec.

また、ピンチ変更回路(12)により必要に応じて速度
決定回路(lO)及び音声合成回路(7)を制御して音
声出力速度及びピンチを変更する。
In addition, the pinch changing circuit (12) controls the speed determining circuit (lO) and the voice synthesizing circuit (7) as necessary to change the voice output speed and the pinch.

このようにし°ζ本実施例では、人間にとっ゛ζ理解し
やすい速度で話をする装置を得るこができる。
In this way, in this embodiment, it is possible to obtain a device that speaks at a speed that is easy for humans to understand.

また、国名、地名1人名、数字9時間等特に分からせた
い部分の発生速度を他の部分より遅くすることにより理
解を高めることができる。また、自分で間きやすいと思
うピッチの発声に選ぶことができる。また、自分のスピ
ーチの早さに応じた早さの発声にできる。更にピッチが
高い時は発声速度を遅くすることにより理解しやすくで
きる。
In addition, comprehension can be improved by making the generation speed of parts that are particularly desired to be understood, such as country names, place names, names of people, numbers 9 hours, etc., slower than other parts. You can also choose a pitch that you think is easy to pause. Also, you can speak at a speed that matches the speed of your own speech. Furthermore, when the pitch is high, the speech rate can be slowed down to make it easier to understand.

なお上述の実施例において、マイクによる人間の音声の
ピンチを検出する分析回路(14)を設け、その出力で
ピッチ変更回路(12)を制御して音声の出力速度及び
ピッチを変更するようにしてもよい、また、マイク信号
を受けて音声認識を行う音声認識回路(15)を設け、
その出力をCPU(1)に供給してキーボード(2)の
代りに使うようにしてもよい。
In the above-mentioned embodiment, an analysis circuit (14) is provided to detect a pinch in the human voice produced by the microphone, and its output controls the pitch change circuit (12) to change the output speed and pitch of the voice. In addition, a voice recognition circuit (15) for receiving a microphone signal and performing voice recognition is provided,
The output may be supplied to the CPU (1) and used in place of the keyboard (2).

次に人間と機械との円滑な情報交換が行われるように、
機械から発せられる音声の速度を所定の範囲すなわち本
実施例では平均モーラ時間で略々120±5 m5ec
に設定する根拠となる実験を行ったので説明する。
Next, to ensure smooth information exchange between humans and machines,
The speed of the sound emitted from the machine is set within a predetermined range, that is, in this example, the average mora time is approximately 120±5 m5ec.
I have conducted an experiment that provides the basis for setting this, and I will explain it below.

第2図は実験系統図を示す。同図において、(20)は
被験者、  (21)はマイク、  (22)はVTR
Figure 2 shows the experimental system diagram. In the figure, (20) is the subject, (21) is the microphone, and (22) is the VTR.
.

(23)はモニタ、  (24)はビデオタイマ、  
(25)はビデオカメラ、  (26)は発声文の記さ
れた原稿である。被験者(20)は20才〜22才の男
性27人である。被験者(20)の音声をマイク(21
)によりVTR(22)に録音すると同時に、被験者(
20)の話す様子をVTR(22)に収録する。被験者
(20)に文章“人間機械システムは作業性や安全性の
面から人間固有の特性を機械側に組み込む必要がありま
す” (以後、「発声文」と記す)を被験者(20)自
身が理解しやすいと考える速度で話せるように約15分
間練習させた(以後、「短期練習」と記ず)、被験者(
20)の暗記した発声文の忘却不安対策としてビデオカ
メラ(25)の下に発声文の記された原稿(26)を掲
示し、参考にしても良いが棒読みにならないという条件
で、被験者(20)はビデオカメラ(25)に向かって
“OO大学工学部情報工学科(以後、[発声IDJと記
す)学籍番号 氏名”を発声し、数秒後に短期練習した
発声文を被験者(20)自身が理解しゃずいと考え速度
で発声した。被験者(20)に理解しやすい速度で発声
できたかどうかの確認をとり、一応の了解が得られるま
で三回を限度として収録を繰り返した。
(23) is a monitor, (24) is a video timer,
(25) is a video camera, and (26) is a manuscript with utterances written on it. The subjects (20) were 27 males between the ages of 20 and 22. The voice of the subject (20) is captured by the microphone (21).
) to the VTR (22), and at the same time the subject (
20)'s speech is recorded on the VTR (22). The subject (20) himself understood the sentence ``Human-machine systems require the unique characteristics of humans to be incorporated into the machine in terms of workability and safety'' (hereinafter referred to as the ``spoken sentence''). The subjects (hereinafter referred to as ``short-term practice'') were asked to practice speaking at a speed that they thought was easy for them to speak for about 15 minutes.
As a countermeasure for the anxiety of forgetting the memorized utterances, the manuscript (26) with the utterances written on it was displayed below the video camera (25), and the participants (20) ) spoke to the video camera (25) ``OO University Faculty of Engineering, Department of Information Technology (hereinafter referred to as ``Voice IDJ'') student number, name,'' and after a few seconds, the subject (20) himself did not understand the sentences he had practiced for a short period of time. I thought and spoke quickly. The subject (20) was checked to see if he was able to speak at a speed that was easy to understand, and the recording was repeated up to three times until a certain level of consent was obtained.

次に被験者27人中、後述する分析方法により分析した
結果から、相互に発声文区間Tse (第4図参照)の
差が大きい被験者10人(第5図参照)を選定し、被験
者自身が理解しやすいと考える発声速度に完全に習熟す
るまで約90分間練習させた(以後「長期習熟練習」と
記す)、その長期習熟練習後、被験者に発声文の掲示を
せずに、短期練習の実験と同様“発声ID  学語番号
 氏名口発声文”を発生させ、被験者自身が完全に満足
するまで収録を繰り返した。
Next, from among the 27 subjects, we selected 10 subjects (see Figure 5) who had a large difference in the uttered sentence interval Tse (see Figure 4) from each other based on the results of analysis using the analysis method described later. After the long-term proficiency practice, the subjects were asked to practice for about 90 minutes until they were completely proficient at the speaking speed they thought was easy to pronounce. Similarly, "Voice ID, Academic Number, Name, Vocalized Sentence" was generated, and the recording was repeated until the subject was completely satisfied.

第3図は分析システム構成図である。同図におい′ζ、
(30)はマイクロコンピュータ、  (31)はハー
ドディスク、  (32)はディスプレイ、  (33
)はA/Dコンバータ、  (34)はクロック発生器
FIG. 3 is a diagram showing the configuration of the analysis system. In the same figure,
(30) is a microcomputer, (31) is a hard disk, (32) is a display, (33)
) is an A/D converter, and (34) is a clock generator.

(35)はローパスフィルタ、  (36)はオーディ
オアンプ、  (37)はVTR,(38)はモニタで
ある。
(35) is a low-pass filter, (36) is an audio amplifier, (37) is a VTR, and (38) is a monitor.

本システムはコンビエータ(30)にローパスフィルタ
(35)、分解能12ビ・ノドのA/Dコンバータ(3
3)が付加され、サンプリング周波数24kHzで約1
1秒間の音響データが収録分析できるシステムである。
This system consists of a combinator (30), a low-pass filter (35), and an A/D converter (3) with a resolution of 12 bits.
3) is added, and the sampling frequency is approximately 1 at a sampling frequency of 24kHz.
This system can record and analyze one second of acoustic data.

音響データをA/D変換後、全部または必要な部分を切
り出して、ピッチ周期等の分析が可能である。
After A/D converting the acoustic data, it is possible to extract all or a necessary part and analyze the pitch period, etc.

VTR(37)に収録された音声情報は、各被験者ごと
に本システムに収録される。その音声信号の音声出力区
間と間の区間は、あるスレショルド以下の音声信号の継
続時間分布に基づいて自動的に検出され、その検出結果
と音声波形とを目視により確認する形で計測した。その
音声信号分析例を第4図に示す、方形波の高い区間が音
声出力区間であり、ゼロの区間が間の区間である。発声
文中“人間機械システムでは口作業性・・・”の口の部
分は、発声分に一つのコンマを付けるとすればこの部分
なので、この部分を代表的な間の区間Tpaに選定した
(以後、単に「間」と記す)。一方、小休止なしに一息
に発声する“人間固有の特性を“を代表的な音声出力区
間Tphに選定した(以後、単に「音声出力区間」と記
す)。また発声文中の“作業性”の「ア」を代表的なピ
ンチ周期としてケプストラムにより算出した。
The audio information recorded on the VTR (37) is recorded in this system for each subject. The interval between the audio output section of the audio signal was automatically detected based on the duration distribution of the audio signal below a certain threshold, and the detection result and the audio waveform were measured by visually checking. An example of the audio signal analysis is shown in FIG. 4. The section where the square wave is high is the audio output section, and the section where the square wave is zero is the section in between. The mouth part of the uttered sentence "Human-machine systems are verbal..." is the part where one comma is added to the utterance, so this part was selected as a representative interval Tpa (hereinafter referred to as Tpa). , simply written as ``ma''). On the other hand, the "characteristic unique to humans" of uttering a voice in one breath without a short pause was selected as a representative voice output section Tph (hereinafter simply referred to as the "voice output section"). In addition, the "a" of "workability" in the uttered sentence was calculated using the cepstrum as a representative pinch period.

発声文区間Tseと発声ID区間Tidとの関係を第5
図に示す0図中、・印は短期練習(27人)を、Δ印は
長期習熟練習(10人)を表す。両軸は、短期練習での
分析データの平均値と3標準偏差で基準化されている。
The relationship between the uttered sentence section Tse and the uttered ID section Tid is expressed as the fifth
In the 0 diagram shown in the figure, the * mark represents short-term training (27 people), and the Δ mark represents long-term mastery training (10 people). Both axes are standardized by the mean value and 3 standard deviations of the analyzed data during short-term practice.

短期練習での両者の相関関係は、0.67である。母相
関係数p=oの仮説を検定するのに、を分布における両
側検定を用いるとより、自由度N−2=25に対する有
意水準5%においてrの域値は0.381となり、仮説
は棄却される。これより無意識に発声する発声ID区間
と意識して発声する発声文区間とが有意な相関があるこ
とから、人間は無意識のうちに理解しやすい速度で発声
していると考えられる。この短期練習での被験者27人
の平均モーラ時間(速度音声をカナ書きしたときの1文
字に相当する時間長、ここでは発声文区間/62)は、
136±16.8 (標準偏差)msocである。また
、長期習熟練習前の被験者10人(Δ印)の平均モーラ
時間は140±18.5s+secである。一方、長期
習熟練習の発声文区間におい°ζは、1人の被験者D(
短期練習の3標準偏差から外れ、被験者自身やや遅いと
自己判定している)を除いて、ある一定の時間範囲に収
まっている。この平均モーラ時間は158±10■se
cである。
The correlation between the two in short-term practice is 0.67. To test the hypothesis of population correlation coefficient p=o, if we use a two-tailed test on the distribution of It is rejected. Since there is a significant correlation between the utterance ID section that is unconsciously uttered and the utterance sentence section that is consciously uttered, it is considered that humans unconsciously utter at a speed that is easy to understand. The average mora time of the 27 subjects in this short-term practice (length of time equivalent to one character when speed speech is written in kana, here uttered sentence interval / 62) is:
136±16.8 (standard deviation) msoc. Furthermore, the average mora time of the 10 subjects (indicated by Δ) before long-term familiarization practice was 140±18.5 s+sec. On the other hand, in the uttered sentence section of long-term mastery practice, °ζ is the same as for one subject D (
With the exception of 3 standard deviations of short-term practice, and the subject self-judged himself to be a little slow, the results were within a certain time range. This average mora time is 158±10■se
It is c.

音声出力区間Tphにおける短期練習での被験者27人
の平均モーラ時間(すなわち間を含まない)は118±
11.7m5ecでありく長期習熟練習前の被験者10
人の平均モーラ時間は115±9.1m5ecである。
The average mora time (i.e., not including pauses) of the 27 subjects during short-term practice in the audio output section Tph was 118±
Subject 10 before long-term familiarization exercise at 11.7m5ec
The average mora time for humans is 115±9.1 m5ec.

一方長期習熟練習での被験者りを除く平均モーラ時間は
120±5.0(標準偏差) @secであり、発声文
の平均モーラ時間と同様にスピーチの習熟により平均モ
ーラ時間が一定の範囲に収まっている。
On the other hand, the average mora time excluding subjects during long-term proficiency practice was 120 ± 5.0 (standard deviation) @sec, and as with the average mora time of uttered sentences, the average mora time fell within a certain range as speech proficiency was acquired. ing.

これより、人間に共通した理解しやすい発声速度がある
と考えられ、この平均モーラ時間は一般の理解しやすい
音声合成出力速度の目安になる。
From this, it is thought that there is a speech rate common to humans that is easy to understand, and this average mora time can be used as a guideline for the speech synthesis output speed that is generally easy to understand.

音声出力区間Tphと間Tpaとの関係を第6図に示す
、短期練習での両者の相関係数は、−0,02と極めて
低(、音声出力速度と間とは無相関である。
The relationship between the voice output interval Tph and the interval Tpa is shown in FIG. 6. The correlation coefficient between the two in short-term practice is extremely low at -0.02 (there is no correlation between the voice output speed and the interval Tpa).

また長期習熟練習においても、両者は無相関である。従
って、音声出力速度と間のとり方は、個人に依存して有
意な相関はない。
Furthermore, there is no correlation between the two in long-term familiarization practice. Therefore, there is no significant correlation between the voice output speed and the speed, depending on the individual.

短期練習での発声文中、作業の“ア”のピッチ周期と“
イ”のピッチ周期との相関係数は0.91であった。こ
こでは、“ア”のピンチ周期を代表的なピッチ周期とし
た。音声出力区間Tphとピッチ周期Tpiとの関係を
第7図に示す、短期練習での両者の相関係数は−0,4
1であり、音声出力区間とピンチ周期とは有意な負の相
関がある。即ち、音声出力速度とピンチ周期とは正の相
関がある。これは、日常生活での経験と矛盾するように
みえるが、理解しやすい発声速度という条件の基では、
ピンチ周期の短い音声は経験的に早く聞こえるというフ
ィードバックが作用し、音声出力速度を遅くすると解釈
される。また長期習熟練習によって音声出力速度は遅く
なっているが、ピンチ周期の変動に一定の傾向はない。
During short-term practice, the pitch period of “a” and “
The correlation coefficient with the pitch period of "A" was 0.91.Here, the pinch period of "A" was taken as a representative pitch period.The relationship between the audio output section Tph and the pitch period Tpi was As shown in the figure, the correlation coefficient between the two in short-term practice is -0.4
1, and there is a significant negative correlation between the audio output section and the pinch period. That is, there is a positive correlation between the audio output speed and the pinch period. This seems to contradict our experience in everyday life, but under the condition of an easy-to-understand speech rate,
Experience has shown that sounds with short pinch cycles sound faster, which is interpreted as feedback that slows down the sound output speed. Furthermore, although the voice output speed has slowed down due to long-term proficiency practice, there is no constant tendency in the fluctuation of the pinch cycle.

間Tpaとピッチ周期Tpiとの関係を第8図に示す、
短期練習での両者の相関係数は−0,09と低く、無相
関である。長期習熟練習においても、前述した被験者り
を除くと相関係数は−0,06であり、無相関である。
The relationship between pitch Tpa and pitch period Tpi is shown in FIG.
The correlation coefficient between the two in short-term practice is as low as -0.09, and there is no correlation. Even in long-term proficiency practice, the correlation coefficient is -0.06, excluding the above-mentioned subject, and there is no correlation.

短期練習(27人)と長期習熟練習(10人)について
、発声ID区間、発声文区間、間、音声出力区間、ピッ
チ周期の各々の相関係数を第9図に示す0図中、長期習
熟練習の下段に示した相関係数は、発声文中の発声区間
が特に長く、やや遅いと自己判定した被験者りを除いた
場合である。
For short-term practice (27 people) and long-term mastery practice (10 people), the correlation coefficients of the utterance ID interval, utterance sentence interval, pause, voice output interval, and pitch period are shown in Figure 9. The correlation coefficients shown in the lower part of the exercise are for the case where subjects who self-judged that the utterance intervals in the uttered sentences were particularly long and somewhat slow were excluded.

短期練習において、発声文区間とピッチ周期との相関係
数は−0,33で、音声出力区間とピッチ周期との相関
係数(−0,41)より負の相関度が低くなっている。
In short-term practice, the correlation coefficient between the uttered sentence section and the pitch period is -0.33, which is a lower degree of negative correlation than the correlation coefficient (-0.41) between the speech output section and the pitch period.

これは、発声文中にピンチ周期とは無相関な間を含んで
いるからである。また、発声ID区間とピッチ周期との
相関係数は−0,50で、有意な相関関係がある。これ
は、第7図の場合と同様に、無意識のうちにも理解しや
すい速度で発声しているためであると解釈される。
This is because the uttered sentence includes a pause that has no correlation with the pinch cycle. Further, the correlation coefficient between the utterance ID section and the pitch period is -0.50, which is a significant correlation. This is interpreted to be because, as in the case of Figure 7, the person unconsciously utters the voice at a speed that is easy to understand.

長期習熟練習の下段の相関係数(N=9)においては、
自由度N−2=7に対する有意水準5%のrの域値は0
.666なので、相関係数p=oの仮説は全て棄却され
ない、これは、長期習熟練習により発声文の発声区間が
ある一定の範囲に収まったことに起因する。
In the lower correlation coefficient (N=9) for long-term mastery practice,
The threshold value of r at a significance level of 5% for degrees of freedom N-2 = 7 is 0.
.. 666, the hypothesis of the correlation coefficient p=o is not entirely rejected. This is because the utterance interval of the uttered sentence has fallen within a certain range through long-term familiarization practice.

このように本実験では、話し手であると同時に聞き手で
ある人間の理解しやすい発声速度(スピーチ速度)につ
いて分析評価するとともに、スピーチの習熟に伴う理解
しやすい発声速度の個人依存性について検討した。その
分析の結果、話し手が理解しやすいと考える速度で発声
するという条件の下では、以下の結論が得られた。
In this way, in this experiment, we analyzed and evaluated the easy-to-understand speech rate of people who are both speakers and listeners, and examined the individual dependence of easy-to-understand speech speed as people become more proficient in speech. As a result of the analysis, the following conclusions were reached, provided that the speaker speaks at a speed that he or she considers easy to understand.

l)音声出力速度と間とは無相関である。l) There is no correlation between audio output speed and speed.

2)音声出力速度とピッチ周期とは正の相関がある。2) There is a positive correlation between audio output speed and pitch period.

3)理解しやすい発声速度は個人に依存するが、そのス
ピーチに習熟すると、発声速度は人間に共通した理解し
やすい一定の範囲に収まる(習熟によるモーラ等長の原
理)。
3) The rate of speech that is easy to understand depends on the individual, but once a person becomes familiar with the speech, the rate of speech falls within a certain range that is common to humans and is easy to understand (principle of equal length of mora due to learning).

〔発明の効果〕〔Effect of the invention〕

上述の如くこの発明によれば、音声情報源からの音声情
報が供給される音声合成回路より音声を発生させる速度
と平均モーラ時間で120±5 tasecに選択する
ように成し、人間に対する音声情報を平均モーラ時間で
略々 120±5 a+secの速度で伝達するように
したので、人間にとって理解しやすい速度で話をする音
声情報発生装置を得ることができる。また、国名、地名
9人名、数字9時間等特に分からせたい部分の発生速度
を他の部分より遅くすることにより理解を高めることが
できる。更に自分で開きやずいと思うピンチの発声に選
ぶことができ、自分のスピーチの早さに応じた早さの発
声にすることができ、しかもピッチが高い時は発声速度
を遅(することにより理解しやすくすることができる。
As described above, according to the present invention, the speed at which speech is generated from the speech synthesis circuit supplied with speech information from the speech information source and the average mora time are selected to be 120±5 tasec, and the speech information for humans is selected. Since the information is transmitted at a speed of approximately 120±5 a+sec in average mora time, it is possible to obtain an audio information generating device that speaks at a speed that is easy for humans to understand. Furthermore, comprehension can be improved by making the generation speed of parts that are particularly desired to be understood, such as country names, place names, 9 people's names, and 9 hour numbers, slower than other parts. In addition, you can choose the speed of your speech that you think is difficult to open, you can adjust the speed of your speech to match the speed of your speech, and you can also slow down the speed of your speech when the pitch is high. It can be made easier to understand.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例を示す回路構成図、第2図
〜第9図はこの発明の基本原理を説明するための図であ
る。 (1)は中央処理装置、(5)はCD−ROM、(6)
は再生回路、(7)は音声合成回路、(9)は制御信号
検出回路、(10)は速度決定回路、(12)はピッチ
変更回路である。
FIG. 1 is a circuit diagram showing an embodiment of the present invention, and FIGS. 2 to 9 are diagrams for explaining the basic principle of the invention. (1) is the central processing unit, (5) is the CD-ROM, (6)
(7) is a speech synthesis circuit, (9) is a control signal detection circuit, (10) is a speed determination circuit, and (12) is a pitch change circuit.

Claims (1)

【特許請求の範囲】 音声情報源と、 該音声情報源からの音声情報が供給される音声合成回路
と、 該音声合成回路より音声を発生させる速度を平均モーラ
時間で120±5msecに選択する速度設定手段と を備え、人間に対する音声情報を平均モーラ時間で略々
120±5msecの速度で伝達するようにしたことを
特徴とする音声情報発生装置。
[Claims] A voice information source, a voice synthesis circuit to which voice information from the voice information source is supplied, and a speed at which the speed at which voice is generated from the voice synthesis circuit is selected to be 120±5 msec in average mora time. 1. A voice information generating device, comprising a setting means, and configured to transmit voice information to a human at a speed of approximately 120±5 msec in average mora time.
JP62080652A 1987-03-31 1987-03-31 Voice information generator Pending JPS63246800A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62080652A JPS63246800A (en) 1987-03-31 1987-03-31 Voice information generator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62080652A JPS63246800A (en) 1987-03-31 1987-03-31 Voice information generator

Publications (1)

Publication Number Publication Date
JPS63246800A true JPS63246800A (en) 1988-10-13

Family

ID=13724295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62080652A Pending JPS63246800A (en) 1987-03-31 1987-03-31 Voice information generator

Country Status (1)

Country Link
JP (1) JPS63246800A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118385A (en) * 2010-12-02 2012-06-21 Yamaha Corp Speech synthesis information editing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118385A (en) * 2010-12-02 2012-06-21 Yamaha Corp Speech synthesis information editing device
US9135909B2 (en) 2010-12-02 2015-09-15 Yamaha Corporation Speech synthesis information editing apparatus

Similar Documents

Publication Publication Date Title
JP4545787B2 (en) Method and apparatus for improving speech recognition among language disabled persons
JPH075807A (en) Device for training conversation based on synthesis
JPH065451B2 (en) Pronunciation training device
Lyakso et al. Reflection of the emotional state in the characteristics of voice and speech of children with Down syndrome
JPH07433A (en) Electric artificial larynx
JP2844817B2 (en) Speech synthesis method for utterance practice
JP5248365B2 (en) Memory support system, memory support program, and memory support method
JPS63246800A (en) Voice information generator
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
Goldstein Word recognition in a foreign language: A study of speech perception
Venkatagiri The quality of digitized and synthesized speech: What clinicians should know
JP2016009133A (en) Speech rehabilitation support device and method for controlling the same
JP7432879B2 (en) speech training system
Cortes et al. Articulatory consequences of vocal effort elicitation method
JP2908720B2 (en) Synthetic based conversation training device and method
Jeyalakshmi et al. Alphabet model-based short vocabulary speech recognition for the assessment of profoundly deaf and hard of hearing speeches
JP6894081B2 (en) Language learning device
JPS5912479A (en) Pronuntiation practicing apparatus
JP6911398B2 (en) Voice dialogue methods, voice dialogue devices and programs
Schneider et al. Use of word Pairs and context to achieve better automatic speech recognition results with foreign English speakers
Cheeli Phonological Surveillance of/p/in Comparison with/b/.
JPH04307585A (en) Language learning device
KR20010029111A (en) Apparatus For Foreign Language Listening Aid
George et al. Acoustic characteristics of stop consonants during fast and normal speaking rate in typically developing Malayalam speaking children
Kinkiri et al. Phonemes: An Explanatory Study Applied to Identify a Speaker