WO2020085323A1 - Speech processing method, speech processing device, and speech processing program - Google Patents

Speech processing method, speech processing device, and speech processing program Download PDF

Info

Publication number
WO2020085323A1
WO2020085323A1 PCT/JP2019/041367 JP2019041367W WO2020085323A1 WO 2020085323 A1 WO2020085323 A1 WO 2020085323A1 JP 2019041367 W JP2019041367 W JP 2019041367W WO 2020085323 A1 WO2020085323 A1 WO 2020085323A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
voice
section
partial
time
Prior art date
Application number
PCT/JP2019/041367
Other languages
French (fr)
Japanese (ja)
Inventor
嘉山 啓
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2020085323A1 publication Critical patent/WO2020085323A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

The present invention appropriately determines the intent of a speaker even when it is difficult to determine the intent of the speaker only by a pitch transition at the end of a word of a speaking section. A plurality of partial speaking sections included in one speaking section are identified within a speech signal, and the time change of the speech signal is analyzed for each of the partial speaking sections. Specifically, for each period, a speech signal is divided into speaking sections (UP1) divided by a silent section the duration time length of which is longer than a time threshold value (TH4), and each speaking section is divided into one or more partial speaking sections (PUP1-PUP3) divided by a silent section the duration time length of which is shorter than the time threshold value (TH4).

Description

音声処理方法、音声処理装置及び音声処理プログラムAudio processing method, audio processing device, and audio processing program
 本開示は、例えば、対話装置等に適用される音声処理方法、音声処理装置及び音声処理プログラムに関する。 The present disclosure relates to, for example, a voice processing method, a voice processing device, and a voice processing program applied to a dialogue device or the like.
 利用者の発話に対して応答を提供する対話装置において、自然な対話を実現するためには、対話装置側が、利用者の発話の音高変化等の態様に基づいて、発話者の意図を判断し、発話者の意図に対応した応答を提供する必要がある。このような要求に応える技術として、例えば特許文献1に開示された技術がある。特許文献1に開示の技術では、発話区間の語尾の音高変化に基づいて応答を制御する。 In order to realize a natural dialogue in a dialogue device that provides a response to the utterance of the user, the dialogue device side determines the intention of the utterer based on the pitch change of the utterance of the user. However, it is necessary to provide a response corresponding to the intention of the speaker. As a technique that meets such a demand, there is a technique disclosed in Patent Document 1, for example. In the technique disclosed in Patent Document 1, the response is controlled based on the pitch change of the ending of the utterance section.
日本国特開2015-69038号JP-A-2015-69038
 音声信号から発話区間を抽出し、この発話区間の末尾の音高の変化から発話者の意図を判断する場合において、発話区間中に疑問を意図する音高の変化があると、意図の判断が困難になる場合がある。 When extracting the utterance section from the voice signal and judging the intention of the speaker from the change in the pitch at the end of this utterance section, if there is a change in the pitch that is in doubt during the utterance section, it is possible to judge the intention. It can be difficult.
 以下の話者の発言例では、句読点は音高の下降遷移、疑問符は音高の上昇遷移を表すものとする。
 発言例1:「hirugohan, ramen de ii?」(ローマ字表記)(“Would you like to eat Japanese noodles for lunch?”を意味する。)
 発言例2:「hirugohan, ramen de ii? ne.」(ローマ字表記)(“You would like to eat Japanese noodles for lunch, wouldn’t you?”(発音時の語尾のイントネーションは下がる、確認を意図する文)を意味する。)
 発言例3:「hirugohan, ramen de ii? ne?」(ローマ字表記)(“You would like to eat Japanese noodles for lunch, wouldn’t you?”(この英文の発音時の語尾のイントネーションは上がる、疑問を意図する文)を意味する。)
 ここで、発言例2の、ローマ字表記の日本語「ne.」は確認を意味し、例えば、疑問文「ramen de ii?」(ローマ字表記)に続く「ne.」(ローマ字表記)は英語で“Isn’t that right?”を意味する。
 また、発言例3の、ローマ字表記の日本語「ne?」は疑問を意味し、例えば、疑問文「ramen de ii?」(ローマ字表記)に続く「ne?」(ローマ字表記)は英語で“Is it OK?”を意味する。発言例1-3のローマ字表記の日本語「hirugohan」は英語で”lunch”を意味し、ローマ字表記の日本語「ramen」は英語で”Japanese noodles”を意味する。
In the following speaker's utterance examples, punctuation marks represent pitch downward transitions, and question marks represent pitch upward transitions.
Example 1: "hirugohan, ramen de ii?" (In Roman letters) (meaning "Would you like to eat Japanese noodles for lunch?")
Example 2: "hirugohan, ramen de ii? Ne." (In Roman letters) ("You would like to eat Japanese noodles for lunch, wouldn't you?" (Intonation of the ending of the pronunciation is lowered, intended to confirm (Sentence) is meant.)
Example 3: “hirugohan, ramen de ii? Ne?” (In Roman letters) (“You would like to eat Japanese noodles for lunch, wouldn't you?” (Intonation of the ending when pronouncing this English sentence goes up, question Means a sentence)).
Here, in the utterance example 2, the Japanese "ne." In romanization means confirmation, and for example, "ne." (Romanization) following the question sentence "ramen de ii?" (Romanization) is in English. Means “Isn't that right?”
In utterance example 3, the Japanese "ne?" In roman letters means a question. For example, the question sentence "ramen de ii?" (In roman letters) is followed by "ne?" (In roman letters) in English. Means "Is it OK?" The romanized Japanese "hirugohan" in Example 1-3 means "lunch" in English, and the romanized Japanese "ramen" means "Japanese noodles" in English.
 発言例1において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「ii?」(ローマ字表記)の音高の上昇遷移を検出するため、疑問の意図があると判断し、疑問の意図の問いかけに対して予め録音された応答を出力する。この場合、適切な対話が実現される。 In the utterance example 1, when the dialogue device analyzes the speech in units of the utterance section, it detects that the pitch transition of the end “ii?” (In Roman characters) of the utterance section is increased. Judgment is made and a prerecorded response to the question of the intention of doubt is output. In this case, an appropriate dialogue is realized.
 発言例2において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「ne.」(ローマ字表記)の音高の下降遷移を検出するため、確認の意図があると判断し、確認の意図の問いかけに対して予め録音された応答を出力する。この場合、末尾「ne.」(ローマ字表記)の前の「ii?」(ローマ字表記)の音高が上昇遷移しており、この音声は疑問の意図を表している。従って、応答が発話者の意図に沿わず、不適切な対話となる。 In the utterance example 2, when the dialogue device analyzes the voice for each utterance section, it detects the downward transition of the pitch at the end “ne.” (In Roman characters) of the utterance section, and thus has the intention of confirmation. Judgment is made, and a prerecorded response to the inquiry about confirmation intention is output. In this case, the pitch of "ii?" (In Roman alphabet) before the end "ne." (In Roman alphabet) is changing upward, and this voice represents the intent of doubt. Therefore, the response does not meet the intention of the speaker, resulting in an inappropriate dialogue.
 発言例3において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「ne?」(ローマ字表記)の音高の上昇遷移を検出するため、疑問の意図があると判断し、疑問の意図の問いかけに対して予め録音された応答を出力する。しかし、対話装置は、発話者の意図に関する判断において、末尾「ne?」(ローマ字表記)の前の「ii?」(ローマ字表記)の音高の上昇遷移を考慮しないため、疑問の意図の強度(発言例1の疑問の意図よりも発言例3の疑問の意図の方が強い強度であること)を判断し損なう。このため、不適切な対話となる。 In the utterance example 3, when the speech analysis is performed in units of utterance sections, the dialogue device detects a rising transition of the pitch "ne?" (In Roman characters) at the end of the utterance section, and therefore, there is a questionable intention. Judgment is made and a prerecorded response to the question of the intention of doubt is output. However, since the dialogue device does not consider the rising transition of the pitch of "ii?" (In Roman alphabet) before the end "ne?" (In Roman alphabet) in the judgment about the intention of the speaker, the strength of the doubtful intention is high. Failure to judge (the question intent of utterance example 3 is stronger than the question intent of utterance example 1). This leads to inappropriate dialogue.
 発話者に対して適切な応答をするため、発話の音声認識を行って発話者の意図を分析することも考えられる。しかし、音声認識を行うとすると、装置が大規模化し、かつ、発話から応答までの時間が長くなる問題がある。 In order to give an appropriate response to the speaker, it may be possible to analyze the intention of the speaker by performing speech recognition of the utterance. However, if voice recognition is performed, there is a problem that the device becomes large-scale and the time from utterance to response becomes long.
 本開示は以上のような事情に鑑みてなされたものであり、発話区間の語尾の音高遷移のみでは発話者の意図を判断することが困難である場合においても適切かつ簡易に発話者の意図を判断することができる技術的手段を提供することを目的とする。 The present disclosure has been made in view of the above circumstances, and it is possible to appropriately and easily perform the intention of the speaker even when it is difficult to determine the intention of the speaker only with the pitch transition of the ending of the utterance section. The purpose is to provide a technical means capable of determining.
 以上の課題を解決するために、本開示の態様に係る音声処理方法は、音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定し、前記部分発話区間毎に音声信号の時間変化を分析する。
 本開示の態様に係る音声処理装置は、一つ以上のコンピュータと、複数の指示を記憶し、前記一つ以上のコンピュータによって実行されたときに、以下の動作を前記音声処理装置に実行させる一つ以上のデータ記憶装置と、を備え、音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定し、前記部分発話区間毎に音声信号の時間変化を分析する。
 本開示の態様に係る音声処理プログラムは、音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定するステップと、前記部分発話区間毎に音声信号の時間変化を分析するステップと、をコンピュータに実行させる。
In order to solve the above problems, a voice processing method according to an aspect of the present disclosure specifies a plurality of partial utterance sections included in one utterance section in a voice signal, and outputs a voice signal for each partial utterance section. Analyze changes over time.
An audio processing device according to an aspect of the present disclosure stores one or more computers and a plurality of instructions, and causes the audio processing device to perform the following operations when executed by the one or more computers. One or more data storage devices are provided, a plurality of partial utterance sections included in one utterance section are specified in the voice signal, and a temporal change of the voice signal is analyzed for each partial utterance section.
A voice processing program according to an aspect of the present disclosure includes a step of identifying a plurality of partial utterance sections included in one utterance section in a voice signal, and a step of analyzing a temporal change of a voice signal for each of the partial utterance sections. , Is executed by the computer.
本開示の一実施形態である対話装置の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a dialogue device according to an embodiment of the present disclosure. 同対話装置の音声分析装置としての機能を説明するタイムチャートである。It is a time chart explaining a function as a voice analysis device of the dialog device. 同実施形態における制御装置が音声分析プログラムを実行することにより実現される機能の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the function implement | achieved when the control apparatus in the same embodiment executes a voice analysis program. 同音声分析プログラムの処理内容を示すフローチャートである。It is a flow chart which shows the processing contents of the voice analysis program. 同音声分析プログラムの発話区間処理の処理内容を示すフローチャートである。It is a flow chart which shows the processing contents of the speech section processing of the voice analysis program. 同実施形態の第1動作例を示すタイムチャートである。8 is a time chart showing a first operation example of the same embodiment. 同実施形態の第2動作例を示すタイムチャートである。8 is a time chart showing a second operation example of the same embodiment. 同実施形態の第3動作例を示すタイムチャートである。It is a time chart which shows the 3rd example of operation of the embodiment.
 以下、図面を参照し、本開示の実施形態について説明する。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings.
 図1は本開示による音声分析装置の一実施形態である対話装置の構成を示すブロック図である。この対話装置は、制御装置1と、演算装置2と、記憶装置3と、表示装置4と、操作装置5と、収音装置6と、放音装置7とを有する。 FIG. 1 is a block diagram showing a configuration of a dialogue device which is an embodiment of a voice analysis device according to the present disclosure. The dialogue device includes a control device 1, a computing device 2, a storage device 3, a display device 4, an operating device 5, a sound collecting device 6, and a sound emitting device 7.
 制御装置1は、対話装置の制御中枢であり、CPUにより構成されている。記憶装置3は、RAM等の揮発性記憶部と、ROMやハードディスク等の不揮発性記憶部とを有する。不揮発性記憶部には、各種のプログラムが記憶されている。これらのプログラムには、ユーザの発話音声を分析する音声分析プログラムと、発話音声の分析結果に基づいてユーザの発話音声に対する応答音声を合成する音声合成プログラムが含まれる。制御装置1は、揮発性記憶部をワークエリアとして使用し、不揮発性記憶部に記憶された各プログラムを実行する。演算装置2は、例えばDSPであり、制御装置1が音声分析プログラムや音声合成プログラムを実行する際に、制御装置1による制御の下、音声分析や音声合成のための演算処理を実行する。表示装置4は、例えば液晶パネルであり、ユーザに対して各種の情報表示を行う。操作装置5は、キーボードやマウス等、ユーザからの指示を受け取るための各種の操作子を含む。収音装置6は、ユーザの発話音声を収音するマイクロホンと、このマイクロホンが出力するアナログ音声信号をA/D変換し、音声信号のサンプル列を出力するA/D変換器を含む。制御装置1は、この収音装置6によって出力される音声信号のサンプル列を処理対象とし、上述した音声分析プログラムを実行するとともに、音声合成プログラムを実行し、応答音声のサンプル列を出力する。放音装置7は、この応答音声のサンプル列をD/A変換してアナログ音声信号を出力するD/A変換器と、このアナログ音声信号を音声として放音するスピーカとを含む。 The control device 1 is the control center of the dialogue device and is composed of a CPU. The storage device 3 has a volatile storage unit such as a RAM and a non-volatile storage unit such as a ROM or a hard disk. Various programs are stored in the non-volatile storage unit. These programs include a voice analysis program for analyzing a user's uttered voice and a voice synthesis program for synthesizing a response voice to the user's uttered voice based on the analysis result of the uttered voice. The control device 1 uses the volatile storage unit as a work area and executes each program stored in the non-volatile storage unit. The arithmetic unit 2 is, for example, a DSP, and when the control unit 1 executes the voice analysis program and the voice synthesis program, under the control of the control unit 1, executes arithmetic processing for voice analysis and voice synthesis. The display device 4 is, for example, a liquid crystal panel, and displays various information to the user. The operation device 5 includes various operators such as a keyboard and a mouse for receiving instructions from the user. The sound pickup device 6 includes a microphone that picks up a voice uttered by a user, and an A / D converter that A / D-converts an analog voice signal output by the microphone and outputs a sample sequence of the voice signal. The control device 1 processes the sample sequence of the voice signal output by the sound collecting device 6 as a processing target, executes the above-mentioned voice analysis program, executes the voice synthesis program, and outputs the response voice sample sequence. The sound emitting device 7 includes a D / A converter that D / A converts the sample sequence of the response sound and outputs an analog sound signal, and a speaker that emits the analog sound signal as sound.
 本実施形態において、制御装置1は、音声分析プログラムを実行することにより音声分析装置として機能する。図2は制御装置1の音声分析装置としての機能を説明するタイムチャートである。図2において、横軸は時刻、縦軸は処理対象である音声信号の音声レベル(音圧レベル)である。 In the present embodiment, the control device 1 functions as a voice analysis device by executing a voice analysis program. FIG. 2 is a time chart explaining the function of the control device 1 as a voice analysis device. In FIG. 2, the horizontal axis represents time and the vertical axis represents the sound level (sound pressure level) of the sound signal to be processed.
 本実施形態において、制御装置1は、収音装置6から出力される音声信号のサンプル列を一定時間長のフレームに分割し、各フレームの発生時刻を監視しつつ、音声分析プログラム10を実行する。図3は本実施形態において、制御装置1が音声分析プログラム10を実行することにより実現される機能の構成を示す機能ブロック図である。図3に示すように、音声分析プログラム10に基づくこの機能構成は、特定部11と、分析部12とを含む。特定部11(制御装置1)は、音声信号の中に1つの発話区間UP1に含まれる複数の部分発話区間PUP1~PUP3を特定する。分析部12(制御装置1)は、部分発話区間毎に音声信号の変化を分析する。 In the present embodiment, the control device 1 divides the sample sequence of the audio signal output from the sound collection device 6 into frames of a fixed time length, and executes the audio analysis program 10 while monitoring the generation time of each frame. . FIG. 3 is a functional block diagram showing a configuration of functions realized by the control device 1 executing the voice analysis program 10 in the present embodiment. As shown in FIG. 3, this functional configuration based on the voice analysis program 10 includes a specifying unit 11 and an analyzing unit 12. The specifying unit 11 (control device 1) specifies a plurality of partial utterance sections PUP1 to PUP3 included in one utterance section UP1 in the voice signal. The analysis unit 12 (control device 1) analyzes the change in the audio signal for each partial utterance section.
 より具体的には、特定部11は、各々第1の終了判定基準(以下、第1判定基準)により音声信号の中の発話終了を判定し、該発話終了が判定された終期t6を有する発話区間UP1を特定し、第1の終了判定基準より細分が可能な第2の終了判定基準(以下、第2判定基準)により発話区間UP1の中の発話終了を判定し、該発話終了が判定された終期t2、t4、t6を有する複数の部分発話区間PUP1~PUP3を特定する。 More specifically, the identifying unit 11 determines the end of the utterance in the voice signal based on the first end determination criterion (hereinafter referred to as the first determination criterion), and the utterance having the end t6 at which the end of the utterance is determined. The section UP1 is specified, the utterance end in the utterance section UP1 is determined by a second end determination criterion (hereinafter, second determination criterion) that can be subdivided from the first end determination criterion, and the utterance end is determined. A plurality of partial utterance sections PUP1 to PUP3 having the end times t2, t4, and t6 are identified.
 ここで、第1および第2の終了判定基準とは、例えば音声信号の音声レベルが閾値TH2未満になってから、閾値TH2より大きい閾値TH1を超えるまでの無音区間の長さに関する判断基準である。 Here, the first and second end determination criteria are, for example, determination criteria relating to the length of the silent section from when the voice level of the voice signal is less than the threshold TH2 to when it exceeds the threshold TH1 which is greater than the threshold TH2. .
 図2に示す例では、時刻t6において音声信号の音声レベルが閾値TH2未満になってから閾値TH4より長い時間が経過した時刻t7になっても、音声レベルが閾値TH1を超えない。すなわち、時刻t6から時刻t7までの無音区間の継続時間(無音時間)長は閾値TH4を超えているので、時刻t6は、発話区間UP1の終期と判断される。 In the example shown in FIG. 2, the audio level does not exceed the threshold TH1 even at time t7 when a time longer than the threshold TH4 elapses after the audio level of the audio signal becomes less than the threshold TH2 at time t6. That is, since the duration (silence time) length of the silent section from time t6 to time t7 exceeds the threshold TH4, it is determined that the time t6 is the end of the utterance section UP1.
 一方、図2に示す例では、時刻t2において音声信号の音声レベルが閾値TH2未満になってから、閾値TH4よりも短い閾値TH3より長い時間が経過した時刻t3に、音声レベルが閾値TH1を超える。すなわち、時刻t2から時刻t3までの無音時間は、その長さが閾値TH4より短く閾値TH3より長い。そこで、時刻t2は、部分発話区間PUP1の終期と判定される。部分発話区間PUP2についても同様である。 On the other hand, in the example shown in FIG. 2, the audio level exceeds the threshold TH1 at time t3 when a time longer than the threshold TH3 shorter than the threshold TH4 has passed since the audio level of the audio signal became less than the threshold TH2 at the time t2. . That is, the silent period from time t2 to time t3 is shorter than the threshold TH4 and longer than the threshold TH3. Therefore, the time t2 is determined to be the end of the partial utterance period PUP1. The same applies to the partial utterance section PUP2.
 ここで、部分発話区間の終期に関する第2判定基準に用いられる閾値TH3は、発話区間の終期に関する第1判定基準に用いられる閾値TH4よりも短い。従って、第2判定基準を用いることで、第1判定基準により検出された発話区間を、それより短い部分発話区間に細分することができる。すなわち、無音区間の判定基準として、第2判定基準(TH3)は第1判定基準(TH4)より緩いと言える。ここで、第2判定基準が「緩い」というのは、言い換えると、第1判定基準に基づいて区切られた1つの発話区間内に、さらに、部分発話区間の区切りである短い無音区間を判定できる、ということである。 Here, the threshold TH3 used for the second determination criterion regarding the end of the partial utterance section is shorter than the threshold TH4 used for the first determination criterion regarding the end of the utterance section. Therefore, by using the second criterion, the utterance section detected by the first criterion can be subdivided into partial utterance sections shorter than that. That is, it can be said that the second criterion (TH3) is looser than the first criterion (TH4) as the criterion for the silent section. In this case, the second criterion is "loose". In other words, it is possible to determine a short silent period which is a delimiter of the partial utterance period within one utterance period divided based on the first criterion. ,That's what it means.
 本実施形態では、無音区間の長さに基づいて、部分発話区間または発話区間の終期を決定している。従って、この点に着目して捉えるならば、音声分析プログラム10に係る前記機能構成の特定部11は、音声信号の中に、各々の間に継続時間長が閾値TH4より長い無音区間で区切られた発話区間を特定し、各発話区間の中に、継続時間長が時間閾値TH4より短い短無音区間t2~t3、t4~t5で区切られた1または複数の部分発話区間PUP1~PUP3を特定し、音声分析プログラム10に係る前記機能構成の分析部12は、部分発話区間毎に音声信号の時間変化を分析するものである、ということができる。 In the present embodiment, the end of the partial utterance section or the utterance section is determined based on the length of the silent section. Therefore, if this point is taken into consideration, the specifying unit 11 of the functional configuration related to the voice analysis program 10 divides the voice signal into silent periods between which the duration is longer than the threshold TH4. The utterance section is identified, and within each utterance section, one or a plurality of partial utterance sections PUP1 to PUP3 separated by short silent sections t2 to t3 and t4 to t5 whose duration is shorter than the time threshold TH4 are identified. It can be said that the analysis unit 12 of the functional configuration according to the voice analysis program 10 analyzes the time change of the voice signal for each partial utterance section.
 本実施形態において、制御装置1は、音声分析プログラム10と並行して音声合成プログラムを実行する。音声分析プログラム10では、発話区間を構成する部分発話区間毎に、音声信号の音高の変化等を分析し、分析結果を音声合成プログラムに引き渡す。音声合成プログラムでは、この分析結果に基づいて、ユーザの発話に対する応答内容を判定し、応答音声のサンプル列を合成し、放音装置7に供給する。すなわち、制御装置1は、音声分析プログラム10と並行して音声合成プログラムを実行することにより、発話区間の音声に対する応答音声を合成する音声合成装置として機能する。
 以上が本実施形態の構成である。
In the present embodiment, the control device 1 executes the voice synthesis program in parallel with the voice analysis program 10. The voice analysis program 10 analyzes the change in pitch of the voice signal for each partial utterance section constituting the utterance section, and delivers the analysis result to the voice synthesis program. Based on the analysis result, the voice synthesis program determines the content of the response to the user's utterance, synthesizes a sample sequence of the response voice, and supplies it to the sound emitting device 7. That is, the control device 1 functions as a voice synthesizing device that synthesizes a response voice with respect to the voice in the utterance section by executing the voice synthesis program in parallel with the voice analysis program 10.
The above is the configuration of the present embodiment.
 図4は本実施形態における音声分析プログラム10の処理内容を示すフローチャートである。図5は同プログラム10における発話区間処理S4の処理内容を示すフローチャートである。図5に示された各処理のうちS42433が上述した分析部12(制御装置1)により実行される処理であり、それ以外の処理が上述した特定部11(制御装置1)により実行される処理である。図6~図8は本実施形態の第1~第3動作例を示すタイムチャートである。図6~図8において、横軸は時刻、縦軸は処理対象である音声信号の音声レベルである。 FIG. 4 is a flowchart showing the processing contents of the voice analysis program 10 in this embodiment. FIG. 5 is a flowchart showing the processing contents of the utterance section processing S4 in the program 10. Of the processes shown in FIG. 5, S42433 is the process executed by the analysis unit 12 (control device 1) described above, and the other processes are executed by the identification unit 11 (control device 1) described above. Is. 6 to 8 are time charts showing first to third operation examples of this embodiment. 6 to 8, the horizontal axis represents time and the vertical axis represents the audio level of the audio signal to be processed.
 まず、図4および図5のフローチャートを参照し、図6の第1動作例について説明する。操作装置5に対して所定の操作が行われると、制御装置1は、記憶装置3に記憶された音声分析プログラム10および音声合成プログラムの実行を開始する。なお、本実施形態の特徴は音声分析プログラム10にあるため、以下では、音声分析プログラム10の処理内容の説明が中心となる。 First, the first operation example of FIG. 6 will be described with reference to the flowcharts of FIGS. 4 and 5. When a predetermined operation is performed on the operation device 5, the control device 1 starts executing the voice analysis program 10 and the voice synthesis program stored in the storage device 3. Since the feature of this embodiment resides in the voice analysis program 10, the description of the processing content of the voice analysis program 10 will be mainly described below.
 以下の説明において、仮発話区間とは、音声信号の音声レベルが閾値TH1を超えることにより開始される区間である。本実施形態では、継続時間長が閾値TH5より長い区間を部分発話区間とする。従って、音声信号の音声レベルが閾値TH1を超えるタイミングでは、未だ、そのタイミングから開始される区間が部分発話区間となるか否か不明である。そこで、本実施形態では、音声信号の音声レベルが閾値TH1より大きくなることにより開始される区間を仮発話区間とする。この仮発話区間の継続時間長が閾値TH5を超える時点で、当該仮発話区間は部分発話区間となる。また、以下の説明において、仮無音区間とは、音声信号の音声レベルが閾値TH2未満になることにより開始される区間である。本実施形態では、継続時間長が閾値TH3より長い区間を無音区間とする。従って、音声信号の音声レベルが閾値TH2より小さくなったタイミングでは、そのタイミングから開始される区間が無音区間となるか否か不明である。そこで、本実施形態では、音声信号の音声レベルが閾値TH2未満になることにより開始される区間を仮無音区間とする。この仮無音区間の継続時間長が閾値TH3を超える時点で、当該無音区間は無音区間となる。 In the following description, the provisional utterance section is a section started when the voice level of the voice signal exceeds the threshold TH1. In the present embodiment, a section in which the duration is longer than the threshold TH5 is a partial utterance section. Therefore, at the timing when the voice level of the voice signal exceeds the threshold TH1, it is still unknown whether the section started from that timing is the partial utterance section. Therefore, in the present embodiment, a section started when the voice level of the voice signal becomes higher than the threshold value TH1 is defined as a temporary utterance section. When the duration of the provisional utterance section exceeds the threshold TH5, the provisional utterance section becomes the partial utterance section. Further, in the following description, the temporary silence section is a section started when the voice level of the voice signal becomes less than the threshold TH2. In the present embodiment, a section whose duration is longer than the threshold TH3 is a silent section. Therefore, at the timing when the audio level of the audio signal becomes lower than the threshold value TH2, it is unclear whether the section started from that timing is a silent section. Therefore, in the present embodiment, a section that starts when the audio level of the audio signal becomes less than the threshold TH2 is a temporary silence section. When the duration of the temporary silent section exceeds the threshold TH3, the silent section becomes a silent section.
 音声分析プログラム10において、制御装置1は、まず、初期化処理S1を実行する。この初期化処理S1において、制御装置1は、仮無音区間の継続時間長である仮無音時間を「0」、部分発話区間数を「0」、仮発話区間の継続時間長である仮発話時間を「0」、仮発話区間状態フラグをOFFとする。 In the voice analysis program 10, the control device 1 first executes an initialization process S1. In the initialization process S1, the control device 1 sets the temporary silence duration, which is the duration of the temporary silence section, to "0", the number of partial speech segments to "0", and the temporary speech duration, which is the duration of the temporary speech segment. Is set to "0" and the provisional utterance section state flag is set to OFF.
 次に制御装置1は、収音装置6から1フレーム分の入力音声信号のサンプル列を取得し、記憶装置3内のバッファ領域に格納する(S2)。次に制御装置1は、バッファ領域に格納した入力音声信号のサンプル列から音高や音声レベル等、入力音声のパラメータを抽出する(S3)。次に制御装置1は図5に示す発話区間処理S4を実行する。この発話区間処理S4では、音声信号から発話区間、部分発話区間を抽出し、発話区間を構成する部分発話区間毎に音声信号の時間変化を分析する。次に制御装置1は、操作装置5の操作等により終了指示が発生したか否かを判断する。この判断結果が「YES」である場合、制御装置1は音声分析プログラム10を終了する。一方、この判断結果が「NO」である場合、制御装置1はS2に戻って処理S2~S4を再び実行する。このように、終了指示が発生するまでの間、処理S2~S5が繰り返される。 Next, the control device 1 acquires a sample sequence of the input audio signal for one frame from the sound collection device 6 and stores it in the buffer area in the storage device 3 (S2). Next, the control device 1 extracts parameters of the input voice such as pitch and voice level from the sample sequence of the input voice signal stored in the buffer area (S3). Next, the control device 1 executes the utterance section processing S4 shown in FIG. In the utterance section processing S4, the utterance section and the partial utterance section are extracted from the voice signal, and the time change of the voice signal is analyzed for each of the partial utterance sections constituting the utterance section. Next, the control device 1 determines whether or not an end instruction has been issued by operating the operating device 5 or the like. When this determination result is “YES”, the control device 1 ends the voice analysis program 10. On the other hand, when this determination result is “NO”, the control device 1 returns to S2 and executes the processes S2 to S4 again. In this way, the processes S2 to S5 are repeated until the end instruction is issued.
 次に図5の発話区間処理S4の処理内容について説明する。
 図5の発話区間処理S4では、まず、仮発話区間状態フラグがOFFであるか否かを判断する(S41)。図6の第1動作例において、初期化処理S1後、音声信号の音声レベルが閾値TH1以下である期間は、仮発話区間状態フラグがOFFとなるので、S41の判断結果が「YES」となり、制御装置1の処理は、仮無音区間処理S42に進む。
Next, the processing content of the speech section processing S4 of FIG. 5 will be described.
In the utterance section processing S4 of FIG. 5, first, it is determined whether or not the provisional utterance section state flag is OFF (S41). In the first operation example of FIG. 6, after the initialization process S1, during the period when the voice level of the voice signal is equal to or lower than the threshold value TH1, the provisional utterance period state flag is OFF, so the determination result of S41 is “YES”, The process of the control device 1 proceeds to the temporary silence section process S42.
 この仮無音区間処理S42において、制御装置1は、まず、音声信号の音声レベルが閾値TH1より大きいか否かを判断する(S421)。図6の第1動作例において、時刻t1よりも以前の期間は、音声信号の音声レベルが閾値TH1よりも小さいため、S421の判断結果は「NO」となる。この結果、制御装置1は、仮無音区間継続処理S424を実行する。 In the temporary silence section process S42, the control device 1 first determines whether or not the voice level of the voice signal is higher than the threshold TH1 (S421). In the first operation example of FIG. 6, since the voice level of the voice signal is lower than the threshold TH1 in the period before time t1, the determination result of S421 is “NO”. As a result, the control device 1 executes the temporary silent section continuation process S424.
 この仮無音区間継続処理S424において、制御装置1は、まず、仮無音時間の更新を行う(S4241)。具体的には、初期化処理S1、S42434、S4241およびS433の実行タイミングのうちの最新のタイミングからの経過時間を仮無音時間に加算する。算出された仮無音時間は、現在の仮無音区間の開始からその時点までの経過時間である。次に制御装置1は、仮無音時間が閾値TH4より長いか否かを判断する(S4242)。この判断結果が「NO」である場合、制御装置1は、仮無音区間継続処理S424、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。 In the temporary silence section continuation process S424, the control device 1 first updates the temporary silence period (S4241). Specifically, the elapsed time from the latest timing among the execution timings of the initialization processes S1, S42434, S4241 and S433 is added to the temporary silence time. The calculated temporary silence period is the elapsed time from the start of the current temporary silence section to that point. Next, the control device 1 determines whether the temporary silence time is longer than the threshold TH4 (S4242). When this determination result is “NO”, the control device 1 ends the temporary silence section continuation process S424, the temporary silence section process S42, and the speech section process S4, and proceeds to S5 of FIG.
 図6の第1動作例において、時刻t1より前の無音区間は、S41の判断結果が「YES」、S421の判断結果が「NO」、S4242の判断結果が「NO」となって、仮無音時間の更新(S4241)が繰り返される。そして、仮無音時間が閾値TH4を超えると、S4242の判断結果が「YES」となり、S42431以降の処理で仮無音時間の「0」リセットが行われるが、その詳細については後述する。 In the first operation example of FIG. 6, in the silent section before time t1, the determination result of S41 is “YES”, the determination result of S421 is “NO”, the determination result of S4242 is “NO”, and the temporary silence is generated. The time update (S4241) is repeated. Then, when the temporary silence time exceeds the threshold TH4, the determination result of S4242 becomes "YES", and the temporary silence time is reset to "0" in the processing of S42431 and thereafter, which will be described later in detail.
 この後、音声信号の音声レベルが上がって、時刻t1に閾値TH1を超えるため、S421の判断結果が「YES」となり、制御装置1は、仮無音時間が閾値TH3より長いか否かを判断する(S422)。この判断結果が「YES」である場合、制御装置1の処理はS423に進む。一方、S422の判断結果が「NO」である場合、制御装置1は、部分発話区間数が0か否かを判断する(S425)。この判断結果が「YES」である場合、制御装置1の処理はS423に進む。 After that, the voice level of the voice signal rises and exceeds the threshold TH1 at time t1, so the determination result of S421 is "YES", and the control device 1 determines whether the temporary silence time is longer than the threshold TH3. (S422). If this determination result is “YES”, the process of the control device 1 proceeds to S423. On the other hand, when the determination result of S422 is "NO", the control device 1 determines whether the number of partial utterance sections is 0 (S425). If this determination result is “YES”, the process of the control device 1 proceeds to S423.
 図6の第1動作例の時刻t1において、仮無音時間が閾値TH3を超える場合には、S422の判断結果が「YES」となってS423に進む。一方、時刻t1において仮無音時間が閾値TH3以下である場合には、S422の判断結果が「NO」となってS425に進むが、初期化処理S1直後の時刻t1では部分発話区間数が0であるため、S425の判断結果が「YES」となってS423に進む。このように時刻t1では、仮無音時間が閾値TH3を超えるか否かに拘わらず、処理はS423に進む。 At time t1 in the first operation example of FIG. 6, if the temporary silence time exceeds the threshold TH3, the determination result of S422 is “YES” and the process proceeds to S423. On the other hand, if the temporary silence time is less than or equal to the threshold TH3 at time t1, the determination result of S422 is "NO" and the process proceeds to S425, but the number of partial utterance sections is 0 at time t1 immediately after the initialization process S1. Therefore, the determination result of S425 is “YES” and the process proceeds to S423. Thus, at time t1, the process proceeds to S423 regardless of whether the temporary silence time exceeds the threshold TH3.
 次にS423に進むと、制御装置1は、仮発話区間開始処理を実行する。具体的には、制御装置1は、仮発話区間状態フラグをONとし、仮発話時間を0に初期化する。この仮発話区間開始処理S423を終えると、制御装置1は、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。 Next, in S423, the control device 1 executes a temporary utterance section start process. Specifically, the control device 1 turns on the provisional utterance section state flag and initializes the provisional utterance time to zero. When the provisional utterance section start process S423 is finished, the control device 1 finishes the provisional silence section process S42 and the utterance section process S4, and proceeds to S5 of FIG.
 その後、発話区間処理S4では、仮発話区間状態フラグがONであるため、S41の判断結果が「NO」となり、制御装置1は、仮発話区間処理S43を実行する。この仮発話区間処理S43において、制御装置1は、まず、入力音声信号の音声レベルが閾値TH2未満であるか否かを判断する(S431)。図6の第1動作例において、時刻t1が過ぎて時刻t2になるまでの期間は、入力音声信号の音声レベルが閾値TH2より大きい。従って、この間は、S431の判断結果が「NO」となり、制御装置1は、仮発話区間継続処理S434を実行する。この仮発話区間継続処理S434では、仮発話時間の更新を行う。具体的には、S423およびS434の実行タイミングのうちの最新のタイミングからの経過時間を仮発話時間に加算する。算出された仮発話時間は、現在の仮発話区間の開始からその時点までの経過時間である。S434が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。 After that, in the utterance period processing S4, the temporary utterance period state flag is ON, so the determination result in S41 is “NO”, and the control device 1 executes the temporary utterance period process S43. In the provisional utterance section process S43, the control device 1 first determines whether or not the voice level of the input voice signal is less than the threshold TH2 (S431). In the first operation example of FIG. 6, the audio level of the input audio signal is higher than the threshold TH2 during the period from the time t1 to the time t2. Therefore, during this period, the determination result of S431 is "NO", and the control device 1 executes the temporary utterance section continuation process S434. In this temporary utterance section continuation process S434, the temporary utterance time is updated. Specifically, the elapsed time from the latest timing of the execution timings of S423 and S434 is added to the temporary utterance time. The calculated provisional utterance time is the elapsed time from the start of the current provisional utterance section to that point. When S434 ends, the control device 1 ends the temporary utterance section process S43 and the utterance section process S4, and proceeds to S5 in FIG.
 その後、入力音声信号の音声レベルが下がって、時刻t2に閾値TH2未満になる。そして、発話区間処理S4では、S41の判断結果が「NO」となり、仮発話区間処理S43ではS431の判断結果が「YES」となり、制御装置1は、仮発話時間が閾値TH5より長いか否かを判断する(S432)。図6の第1動作例では、時刻t1から時刻t2までの仮発話時間が閾値TH5を超えるので、S432の判断結果が「YES」となり、制御装置1は仮無音区間開始処理S433を実行する。この仮無音区間開始処理S433において、制御装置1は、入力音声信号における時刻t1から時刻t2までの区間を未登録の部分発話区間PUP1とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。この時、部分発話区間数は1である。この仮無音区間開始処理S433が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。 After that, the audio level of the input audio signal drops and becomes less than the threshold TH2 at time t2. Then, in the utterance section process S4, the determination result of S41 becomes "NO", and in the temporary utterance section process S43, the determination result of S431 becomes "YES", and the control device 1 determines whether the temporary utterance time is longer than the threshold value TH5. Is determined (S432). In the first operation example of FIG. 6, since the temporary utterance time from time t1 to time t2 exceeds the threshold TH5, the determination result of S432 is “YES”, and the control device 1 executes the temporary silence section start process S433. In the temporary silence section start process S433, the control device 1 sets the section from the time t1 to the time t2 in the input voice signal as the unregistered partial utterance section PUP1, sets the temporary utterance section state flag to OFF, and sets the temporary silence time to 0. Initialize to. At this time, the number of partial utterance sections is 1. When the temporary silence section start processing S433 ends, the control device 1 ends the temporary speech section processing S43 and the speech section processing S4, and proceeds to S5 in FIG.
 その後、発話区間処理S4では、仮発話区間状態フラグがOFFであるため、S41の判断結果が「YES」となって仮無音区間処理S42に進む。そして、仮無音区間処理S42において、入力音声信号の音声レベルが閾値TH1未満である場合には、S421の判断結果が「NO」となって仮無音区間継続処理S424に進む。そして、仮無音区間継続処理S424では、仮無音時間の更新を行い(S4241)、仮無音時間が閾値TH4より長いか否かを判断し(S4242)、S4242の判断結果が「NO」である場合は、仮無音区間継続処理S424、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。第1動作例の最初の仮無音区間では、仮無音時間が閾値TH4を超えることなく、このような処理が時刻t3になるまで繰り返される。 After that, in the utterance section process S4, since the temporary utterance section state flag is OFF, the determination result in S41 becomes "YES", and the process proceeds to the temporary silence section process S42. Then, in the temporary silence section process S42, when the voice level of the input audio signal is less than the threshold value TH1, the determination result of S421 becomes “NO”, and the process proceeds to the temporary silence section continuation process S424. Then, in the temporary silence duration continuation process S424, the temporary silence duration is updated (S4241), it is determined whether the temporary silence duration is longer than the threshold TH4 (S4242), and the determination result of S4242 is "NO". Ends the temporary silence section continuation process S424, the temporary silence section process S42, and the speech section process S4, and proceeds to S5 in FIG. In the first provisional silence section of the first operation example, such processing is repeated until the time t3 without the provisional silence time exceeding the threshold TH4.
 そして、入力音声信号の音声レベルが上がって、時刻t3に閾値TH1を超えるため、仮無音区間処理S42では、S421の判断結果が「YES」となり、制御装置1は、仮無音時間が閾値TH3より長いか否かを判断する(S422)。この第1動作例では、仮無音時間t3-t2が閾値TH3を超えるため、S422の判断結果が「YES」となり、制御装置1は仮発話区間開始処理S423を実行し、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。以後、時刻t4になるまでの間、制御装置1は、S41、S431、S434の処理を繰り返す。 Then, since the voice level of the input voice signal rises and exceeds the threshold TH1 at time t3, in the temporary silence section process S42, the determination result of S421 becomes "YES", and the control device 1 causes the temporary silence time to be greater than the threshold TH3. It is determined whether it is long (S422). In the first operation example, since the temporary silence time t3-t2 exceeds the threshold TH3, the determination result of S422 is “YES”, the control device 1 executes the temporary utterance section start processing S423, and the temporary silence section processing S42 and The utterance section processing S4 is ended, and the process proceeds to S5 in FIG. After that, the control device 1 repeats the processing of S41, S431, and S434 until time t4.
 そして、入力音声信号の音声レベルが下がって、時刻t4に閾値TH2未満になるため、仮発話区間処理S43では、S431の判断結果が「YES」となり、制御装置1は、仮発話時間t4-t3が閾値TH5より長いか否かを判断する(S432)。第1動作例では、このS432の判断結果は「YES」となる。この結果、制御装置1は、仮無音区間開始処理S433を実行し、入力音声信号における時刻t3から時刻t4までの区間を未登録の部分発話区間PUP2とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。この時、部分発話区間数は2である。この仮無音区間開始処理S433が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。 Then, since the voice level of the input voice signal decreases and becomes less than the threshold value TH2 at time t4, the determination result of S431 becomes “YES” in the temporary utterance section process S43, and the control device 1 causes the temporary utterance time t4-t3. Is determined to be longer than the threshold TH5 (S432). In the first operation example, the determination result of S432 is “YES”. As a result, the control device 1 executes the temporary silence section start process S433, sets the section from the time t3 to the time t4 in the input voice signal as the unregistered partial utterance section PUP2, turns off the temporary utterance section state flag, and The silent time is initialized to 0. At this time, the number of partial utterance sections is 2. When the temporary silence section start processing S433 ends, the control device 1 ends the temporary speech section processing S43 and the speech section processing S4, and proceeds to S5 in FIG.
 その後、第1動作例では、入力音声信号の音声レベルが上がって閾値TH1を超える時刻t5においてt5-t4>TH3であり、入力信号の音声レベルが下がって閾値TH2未満になる時刻t6においてt6-t5>TH5である。この場合の動作は、部分発話区間PUP1、PUP2について行われた動作と同様である。 Then, in the first operation example, t5-t4> TH3 at time t5 when the voice level of the input voice signal rises and exceeds the threshold TH1, and t6-- at time t6 when the voice level of the input signal drops and falls below the threshold TH2. t5> TH5. The operation in this case is similar to the operation performed for the partial utterance sections PUP1 and PUP2.
 時刻t6において、発話区間処理S4の仮発話区間処理S43では、S431の判断結果が「YES」、S432の判断結果が「YES」となり、制御装置1は、仮無音区間開始処理S433を実行し、入力音声信号における時刻t5から時刻t6までの区間を未登録の部分発話区間PUP3とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。以後、制御装置1は、S41、S421、S4241、S4242の処理を繰り返す。 At time t6, in the temporary utterance period process S43 of the utterance period process S4, the determination result of S431 is “YES”, the determination result of S432 is “YES”, and the control device 1 executes the temporary silence period start process S433, The section from time t5 to time t6 in the input voice signal is set as the unregistered partial utterance section PUP3, the temporary utterance section state flag is set to OFF, and the temporary silence duration is initialized to 0. After that, the control device 1 repeats the processing of S41, S421, S4241, and S4242.
 そして、第1動作例では、時刻t7において仮無音時間が閾値TH4を超え、この仮無音区間が無音区間であることが確定するため、仮無音区間継続処理S424では、S4242の判断結果が「YES」となり、制御装置1は、部分発話区間処理S4243を実行する。 Then, in the first operation example, the provisional silence period exceeds the threshold TH4 at time t7, and it is determined that this provisional silence section is a silence section. Therefore, in the provisional silence section continuation process S424, the determination result of S4242 is “YES”. , And the control device 1 executes the partial utterance section process S4243.
 この部分発話区間処理S4243において、制御装置1は、まず、部分発話区間数が1以上か否かを判断する(S42431)。第1動作例では、時刻t7において、部分発話区間としてPUP1、PUP2、PUP3の3つが検出されており、部分発話区間数は3であるので、S42431の判断結果は「YES」となり、制御装置1は発話区間構成処理S42432を実行する。具体的には、制御装置1は、部分発話区間PUP1、PUP2、PUP3を含む時刻t1から時刻t6までの区間を発話区間UP1として登録する。次に制御装置1は発話区間分析処理S42433を実行する。この発話区間分析処理S42433の詳細については後述する。次に制御装置1はリセットS42434を実行する。このリセットS42434では、仮無音時間を「0」に、部分発話区間数を「0」にリセットする。時刻t7以降もS4241で仮無音時間の更新は継続され、仮無音時間が閾値TH4を超えるごとに、S4242で「YES」と判定されるが、部分発話区間数が「0」なので、S42431で「NO」と判断され、S42434で仮無音時間が「0」にリセットされる。この無音区間確定後の仮無音時間の更新は、必ずしも行わなくてもよい。 In this partial speech section processing S4243, the control device 1 first determines whether the number of partial speech sections is 1 or more (S42431). In the first operation example, at time t7, three partial utterance sections, PUP1, PUP2, and PUP3, are detected, and the number of partial utterance sections is 3, so the determination result of S42431 is “YES”, and the control device 1 Executes the speech segment configuration processing S42432. Specifically, the control device 1 registers a section including the partial utterance sections PUP1, PUP2, and PUP3 from time t1 to time t6 as the utterance section UP1. Next, the control device 1 executes the speech segment analysis processing S42433. Details of the utterance section analysis processing S42433 will be described later. Next, the control device 1 executes reset S42434. In this reset S42434, the temporary silence period is reset to "0" and the number of partial utterance sections is reset to "0". Even after the time t7, the update of the temporary silence time is continued in S4241, and every time the temporary silence time exceeds the threshold TH4, it is determined to be “YES” in S4242, but since the number of partial utterance sections is “0”, it is determined in S42431 “ It is determined to be "NO", and the temporary silence time is reset to "0" in S42434. The provisional silence duration does not have to be updated after the silence section is determined.
 以上が本実施形態の第1動作例である。なお、上述した処理には、閾値との比較に基づく分岐が複数あるが、それぞれ、閾値に等しい場合にYESとNOの何れに分岐するかは、本開示の本質には余り関係がないので、必要に応じて適宜変えてよい。 The above is the first operation example of the present embodiment. Although there are a plurality of branches based on the comparison with the threshold value in the above-described processing, which of YES and NO is branched when they are equal to the threshold value, respectively, since it does not have much relation to the essence of the present disclosure. It may be changed as needed.
 次に図4および図5のフローチャートを参照し、図7の第2動作例について説明する。この第2動作例は、次の点において第1動作例(図6)と異なる。第1動作例では、入力音声信号の音声レベルが閾値TH2未満になる時刻t2から閾値TH1を超える時刻t3までの仮無音時間t3-t2が閾値TH3より長い。これに対し、第2動作例では、当該仮無音時間t3-t2が閾値TH3以下である。 Next, the second operation example of FIG. 7 will be described with reference to the flowcharts of FIGS. 4 and 5. The second operation example differs from the first operation example (FIG. 6) in the following points. In the first operation example, the temporary silence time t3-t2 from the time t2 when the audio level of the input audio signal becomes less than the threshold TH2 to the time t3 when the audio level exceeds the threshold TH1 is longer than the threshold TH3. On the other hand, in the second operation example, the temporary silent time t3-t2 is less than or equal to the threshold TH3.
 この第2動作例では、時刻t3において、発話区間処理S4のS41の判断結果が「YES」、仮無音区間処理S42のS421の判断結果が「YES」となってS422に進んだとき、仮無音時間が閾値TH3以下であるため、S422の判断結果が「NO」となる。そして、時刻t3においては、時刻t1から時刻t2までの区間が部分発話区間であるため、S425の判断結果が「NO」となる。この結果、制御装置1は、仮発話区間再開処理S426を実行する。この仮発話区間再開処理S426では、時刻t1から時刻t2まで継続した(直前の)部分発話区間と時刻t3以降の仮発話区間とを接続して一体化する。具体的には、仮発話区間状態フラグをONとし、時刻t1から時刻t3までの経過時間を仮発話時間とする。この仮発話区間再開処理S426が行われる結果、第2動作例では、時刻t1が部分発話区間PUP1の始期となり、時刻t3の後、入力音声信号の音声レベルが閾値TH2未満になる時刻t4が同部分発話区間PUP1の終期となる。結果的に、第2動作例では、2つの部分発話区間PUP1、PUP2が検出される。 In this second operation example, at time t3, when the determination result of S41 of the utterance interval processing S4 is “YES” and the determination result of S421 of the temporary silence interval processing S42 is “YES”, and the process proceeds to S422, the temporary silence is generated. Since the time is equal to or less than the threshold TH3, the determination result of S422 is "NO". Then, at time t3, the section from time t1 to time t2 is a partial utterance section, and therefore the determination result of S425 is “NO”. As a result, the control device 1 executes the temporary utterance period restart processing S426. In this temporary speech section restart processing S426, the (immediately before) partial speech section continued from time t1 to time t2 and the temporary speech section after time t3 are connected and integrated. Specifically, the temporary utterance section state flag is turned on, and the elapsed time from time t1 to time t3 is set as the temporary utterance time. As a result of performing the provisional utterance section restart processing S426, in the second operation example, the time t1 is the start of the partial utterance section PUP1, and after the time t3, the time t4 when the sound level of the input sound signal becomes less than the threshold TH2 is the same. It is the end of the partial speech section PUP1. As a result, in the second operation example, two partial speech sections PUP1 and PUP2 are detected.
 次に図4および図5のフローチャートを参照し、図8の第3動作例について説明する。この第3動作例は、次の点において第1動作例(図6)と異なる。第1動作例では、入力音声信号の音声レベルが閾値TH1を超える時刻t1から閾値TH2未満になる時刻t2までの仮発話時間t2-t1が閾値TH5を超えていた。これに対し、第3動作例では、当該仮発話時間t2-t1が閾値TH5以下である。 Next, the third operation example of FIG. 8 will be described with reference to the flowcharts of FIGS. 4 and 5. The third operation example differs from the first operation example (FIG. 6) in the following points. In the first operation example, the provisional utterance time t2-t1 from the time t1 when the audio level of the input audio signal exceeds the threshold TH1 to the time t2 when the audio level becomes less than the threshold TH2 exceeds the threshold TH5. On the other hand, in the third operation example, the provisional utterance time t2-t1 is less than or equal to the threshold TH5.
 この第3動作例では、時刻t2において、発話区間処理S4のS41の判断結果が「NO」、仮発話区間処理S43のS431の判断結果が「YES」となってS432に進んだとき、仮発話時間が閾値TH5以下であるため、S432の判断結果が「NO」となる。この結果、制御装置1は、仮無音区間再開処理S435を実行する。この仮無音区間再開処理S435では、時刻t1までの無音区間における仮無音区間と時刻t2以降の仮無音区間とを接続して、1つの仮無音区間として一体化する。具体的には、仮発話区間状態フラグをOFFとし、時刻0から時刻t3までの経過時間を仮無音時間とする。この仮無音区間再開処理S435が行われる結果、第3動作例では、時刻t3から始まる部分発話区間が最初の部分発話区間PUP1となる。すなわち、本実施形態では、仮発話時間が閾値TH5以下である区間は部分発話区間とせず、直前の仮無音区間の継続部として取り扱う。なお、第3動作例では、無音区間の後の最初の仮発話区間が直前の仮無音区間に組み込まれる例を示したが、例えば図6の部分発話区間PUP2等、2番目以降に生じる仮発話区間についても同様であり、当該仮発話区間の継続時間長が閾値TH5以下である場合には、当該仮発話区間はその直前の仮無音区間に組み込まれる。結果的に、第3動作例では、2つの部分発話区間PUP1、PUP2が検出される。 In the third operation example, at time t2, when the determination result of S41 of the utterance period processing S4 is “NO” and the determination result of S431 of the temporary utterance period process S43 is “YES”, and the process proceeds to S432, the temporary utterance is performed. Since the time is equal to or less than the threshold TH5, the determination result of S432 is "NO". As a result, the control device 1 executes the temporary silence interval restart processing S435. In this temporary silence section restart processing S435, the temporary silence section in the silent section up to time t1 and the temporary silence section after time t2 are connected and integrated as one temporary silence section. Specifically, the temporary utterance section state flag is set to OFF, and the elapsed time from time 0 to time t3 is set to the temporary silence time. As a result of performing the provisional silence section restart processing S435, in the third operation example, the partial speech section starting from time t3 becomes the first partial speech section PUP1. That is, in the present embodiment, the section in which the temporary utterance time is equal to or less than the threshold TH5 is not regarded as the partial utterance section, but is treated as a continuation part of the immediately preceding temporary silence section. In addition, in the third operation example, an example in which the first provisional utterance section after the silence section is incorporated into the provisional silence section immediately before is shown. For example, the partial utterance section PUP2 in FIG. The same applies to the section, and when the duration of the provisional utterance section is equal to or less than the threshold TH5, the provisional utterance section is incorporated into the provisional silent section immediately before that. As a result, in the third operation example, two partial speech periods PUP1 and PUP2 are detected.
 次に発話区間処理S4において実行される発話区間分析S42433について説明する。以下では、上述した発言例1~発言例3が発話区間の発話内容である場合を例に発話区間分析S42433について説明する。
 発言例1:「hirugohan, ramen de ii?」(ローマ字表記)(“Would you like to eat Japanese noodles for lunch?”を意味する。)
 発言例2:「hirugohan, ramen de ii? ne.」(ローマ字表記)(“You would like to eat Japanese noodles for lunch, wouldn’t you?”(発音時の語尾のイントネーションは下がる、確認を意図する文)を意味する。)
 発言例3:「hirugohan, ramen de ii? ne?」(ローマ字表記)(“You would like to eat Japanese noodles for lunch, wouldn’t you?”(この英文の発音時の語尾のイントネーションは上がる、疑問を意図する文)を意味する。)
Next, the utterance section analysis S42433 executed in the utterance section process S4 will be described. In the following, the utterance section analysis S42433 will be described, taking as an example the case where the above-mentioned utterance examples 1 to 3 are the utterance contents of the utterance section.
Example 1: "hirugohan, ramen de ii?" (In Roman letters) (meaning "Would you like to eat Japanese noodles for lunch?")
Example 2: "hirugohan, ramen de ii? Ne." (In Roman letters) ("You would like to eat Japanese noodles for lunch, wouldn't you?" (Intonation of the ending of pronunciation is lowered (Sentence) is meant.)
Example 3: "hirugohan, ramen de ii? Ne?" (In Roman letters) ("You would like to eat Japanese noodles for lunch, wouldn't you?" Means a sentence)).
 発話区間分析S42433では、S42432において構成した発話区間を構成する各部分発話区間について音声信号の音高遷移を求める。 In utterance section analysis S42433, pitch transition of a voice signal is obtained for each partial utterance section that constitutes the utterance section configured in S42432.
 例1の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「hirugohan,」(ローマ字表記)と部分発話区間「ramen de ii?」(ローマ字表記)の各々の音高遷移を求めるが、最後の部分発話区間「ramen de ii?」(ローマ字表記)の末尾において音高の上昇遷移が観測される。このため、発話区間分析S42433では、当該発話区間の発話には疑問の意図があると判断する。 In the case of Example 1, in the speech segment analysis S42433, the pitch transitions of the partial speech segment “hirugohan,” (in Roman letters) and the partial speech segment “ramen de ii?” (In Roman letters) that form the speech segment are obtained. , A rising pitch transition is observed at the end of the last partial speech section "ramen de ii?" (In Roman letters). Therefore, in the utterance section analysis S42433, it is determined that the utterance in the utterance section has a questioning intention.
 例2の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「hirugohan,」(ローマ字表記)と、部分発話区間「ramen de ii?」(ローマ字表記)と、部分発話区間「ne.」(ローマ字表記)の各々の音高遷移を求めるが、発話区間の途中の部分発話区間「ramen de ii?」(ローマ字表記)の末尾において音高の上昇遷移が観測される。このため、発話区間分析S42433では、当該発話区間の発話には疑問の意図があると判断する。 In the case of Example 2, in utterance segment analysis S42433, a partial utterance segment "hirugohan," (in Roman letters) that forms an utterance segment, a partial utterance segment "ramen de ii?" (In Roman letters), and a partial utterance segment "ne. ”(Romanized notation) for each pitch transition, but a rising pitch transition is observed at the end of the partial utterance section“ ramen de ii? ”(Romanized notation) in the middle of the utterance section. Therefore, in the utterance section analysis S42433, it is determined that the utterance in the utterance section has a questioning intention.
 例3の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「hirugohan,」(ローマ字表記)と、部分発話区間「ramen de ii?」(ローマ字表記)と、部分発話区間「ne?」(ローマ字表記)の各々の音高遷移を求めるが、発話区間の2番目の部分発話区間「ramen de ii?」(ローマ字表記)の末尾と、発話区間の最後の部分発話区間「ne?」(ローマ字表記)の末尾とにおいて音高の上昇遷移が観測される。そして、発話区間分析S42433では、発話区間を構成する各部分発話区間のうち、末尾に音高の上昇遷移が観測された部分発話区間の数を、当該発話区間の疑問の意図の強度(念押し)と判断する。従って、例3の場合、発話区間分析S42433では、発話者が疑問の意図の念押しをしているとの判断が行われる。 In the case of example 3, in utterance segment analysis S42433, a partial utterance segment "hirugohan," (in Roman letters) that constitutes an utterance segment, a partial utterance segment "ramen de ii?" (In Roman letters), and a partial utterance segment "ne? "(Romaji notation) for each pitch transition, but the end of the second partial utterance section" ramen de ii? "(Romaji notation) and the last partial utterance section" ne? "Of the utterance section A rising pitch transition is observed at the end of (in Roman letters). Then, in the utterance section analysis S42433, the number of partial utterance sections in which a rising transition of the pitch is observed at the end of the partial utterance sections constituting the utterance section is defined as ). Therefore, in the case of Example 3, in the speech section analysis S42433, it is determined that the speaker is pushing the question intention.
 音声分析プログラム10では、この発話区間分析S42433により判断された発話者の意図を示す情報を音声合成プログラムに引き渡す。音声合成プログラムでは、この発話者の意図を示す情報に基づいて、発話者に対する応答音声の内容を決定する。発言例1~発言例3では、いずれも疑問の意図ありと判断されたので、特許文献1のように、当該発話に対する応答の音声を、疑問に対する応答に固有の特性となるよう制御する。なお、発言例3で生成する音声については、疑問が「念押し」に相当するので、その分だけ、発言例1、発言例2の疑問に対する応答の特性とは異なる特性となるよう制御してもよい。 In the voice analysis program 10, the information indicating the intention of the speaker judged by the speech section analysis S42433 is delivered to the voice synthesis program. The voice synthesis program determines the content of the response voice to the speaker based on the information indicating the intention of the speaker. In each of the utterance example 1 to the utterance example 3, since it is determined that the question is intentional, the voice of the response to the utterance is controlled to have a characteristic peculiar to the question response, as in Patent Document 1. Note that, with regard to the voice generated in the utterance example 3, the question corresponds to "remembering." Therefore, the characteristics are controlled so as to have characteristics different from the characteristics of the responses to the questions in the utterance examples 1 and 2 by that amount. Good.
 以上のように、本実施形態によれば、音声信号を1または複数の部分発話区間を含む発話区間に区切り、部分発話区間毎に音声信号の時間変化、具体的には音高の変化を分析するので、1つの発話の発話区間の語尾の音高遷移のみでは、その発話における発話者の意図を判断することが困難である場合(例えば発言例2)においても、適切かつ簡易に発話者の意図を判断し、その発話に対する応答の音声を制御することができる。 As described above, according to the present embodiment, the voice signal is divided into utterance sections including one or a plurality of partial utterance sections, and the time change of the voice signal, specifically, the change in pitch is analyzed for each partial utterance section. Therefore, even if it is difficult to judge the intention of the speaker in the utterance only by the pitch transition of the ending of the utterance section of one utterance (for example, utterance example 2), the utterance of the utterer can be appropriately and easily. It is possible to judge the intention and control the voice of the response to the utterance.
 以上、本開示の一実施形態について説明したが、本開示には他にも実施形態があり得る。例えば次の通りである。 Although one embodiment of the present disclosure has been described above, the present disclosure may have other embodiments. For example:
(1)上記実施形態では、入力音声信号を、短無音区間で区切られた部分発話区間に区切るとともに、短無音区間よりも長い仮無音区間(発話区間の終期)が生じた場合に、それまでに区切られた1または複数の部分発話区間をまとめて1つの発話区間を構成した。しかし、本開示の適用範囲は、このような態様に限定されるものではない。例えば次のような他の態様も考えられる。まず、音声信号において継続時間長が第1の時間閾値を超える無音区間を見つけ、音声信号からこの無音区間で区切られた1ないし複数の発話区間を抽出する。次に、1つの発話区間内において継続時間長が第2の時間閾値(<第1の時間閾値)を超える短無音区間を見つけ、その発話区間からこの短無音区間で区切られた1ないし複数の部分発話区間を抽出する。このような態様においても上記実施形態と同様な効果が得られる。 (1) In the above embodiment, when the input voice signal is divided into the partial utterance sections divided by the short silence section, and when a temporary silence section (end of the utterance section) longer than the short silence section occurs, One or a plurality of partial utterance sections divided into two are combined to form one utterance section. However, the application range of the present disclosure is not limited to such an aspect. For example, the following other modes are also possible. First, a silent section whose duration exceeds the first time threshold is found in the audio signal, and one or a plurality of utterance sections separated by the silent section are extracted from the audio signal. Next, in one utterance section, a short silent section whose duration exceeds the second time threshold value (<first time threshold value) is found, and one or more short silence sections are separated from the utterance section. Extract a partial utterance section. Even in such an aspect, the same effect as that of the above embodiment can be obtained.
(2)上記実施形態では、音声レベルに基づいて判定された仮無音区間の継続時間の長さ(仮無音時間)に基づいて、部分発話区間の区切り(短無音区間)と発話区間の区切り(無音区間)とを判定している。しかし、第1判定基準と第2判定基準の少なくとも一方について、仮無音時間の基準に加え、または仮無音時間の基準に代えて、当該区間の音声レベル、音高、スペクトル等、仮無音時間以外のファクタを基準として、仮無音区間ないし無音区間を判定してもよい。例えば発話の終了時に現れやすい音声の特徴を部分発話区間や発話区間の終了要件にしてもよい。その場合、部分発話区間の終期よりも発話区間の終期の方が「終わった」感が強くなるように部分発話区間や発話区間の終了要件を定めればよい。 (2) In the above embodiment, based on the length of the duration of the temporary silence section (temporary silence duration) determined based on the voice level, the segment of the partial utterance section (short silence section) and the segment of the utterance section ( (Silent section) is determined. However, for at least one of the first criterion and the second criterion, in addition to or in place of the temporary silence time reference, the sound level, pitch, spectrum, etc. of the section other than the temporary silence time are excluded. The temporary silence section or the silent section may be determined based on the factor of. For example, the feature of the voice that is likely to appear at the end of the utterance may be a requirement for ending the partial utterance section or the utterance section. In that case, the ending condition of the partial utterance section or the utterance section may be set so that the end of the utterance section has a stronger feeling of “finished” than the end of the partial utterance section.
(3)発話者の意図を分析するために、音高遷移の分析と、音声認識エンジンまたは感情認識エンジンとを併用してもよい。このようにすることで、頑健に発話者の意図を分析することができる。 (3) In order to analyze the intention of the speaker, the pitch transition analysis and the voice recognition engine or the emotion recognition engine may be used together. By doing so, it is possible to robustly analyze the intention of the speaker.
(4)部分発話区間を、意図分析の単位のみならず、音声認識または感情認識の単位として用いてもよい。 (4) The partial utterance section may be used not only as a unit of intention analysis but also as a unit of voice recognition or emotion recognition.
(5)上記実施形態の音声分析プログラム10を、音声制御装置や音声対話評価装置等、対話装置以外の装置に適用してもよい。 (5) The voice analysis program 10 of the above embodiment may be applied to a device other than the dialogue device, such as a voice control device or a voice dialogue evaluation device.
(6)上記実施形態の音声分析プログラムを利用させるサービスをクラウドサーバが提供してもよい。 (6) The cloud server may provide a service for using the voice analysis program of the above embodiment.
(7)上記実施形態の音声分析プログラムをPCアプリケーションやスマートフォンアプリケーションとして提供してもよい。 (7) The voice analysis program of the above embodiment may be provided as a PC application or a smartphone application.
(8)本開示は、玩具やカーナビゲーションシステム等において、音声を分析する装置として実現することも可能である。 (8) The present disclosure can also be realized as a device that analyzes voice in a toy, a car navigation system, or the like.
(9)対話を自然なものにするために、発話区間を構成する一部の部分発話区間、例えば音高の上昇遷移が末尾にあるような発話者の意図が現れる部分発話区間の音高に対して所定の関係、例えば協和音関係を持つように応答音声の音高を制御してもよい。 (9) In order to make the dialogue natural, the pitch of a part of the partial utterance section that constitutes the utterance section, for example, the pitch of the partial utterance section in which the intention of the speaker where the rising transition of the pitch is at the end appears. On the other hand, the pitch of the response voice may be controlled so as to have a predetermined relationship, for example, a consonant relationship.
 本出願は、2018年10月22日に出願された日本特許出願(特願2018-198271)に基づくものであり、ここに参照として取り込まれる。 This application is based on the Japanese patent application (Japanese Patent Application No. 2018-198271) filed on October 22, 2018, which is incorporated herein by reference.
 本開示によれば、発話区間の語尾の音高遷移のみでは発話者の意図を判断することが困難である場合においても適切かつ簡易に発話者の意図を判断することができる音声処理方法、音声処理装置及び音声処理プログラムを提供できる。 According to the present disclosure, even if it is difficult to determine the intention of the speaker only by the pitch transition of the ending of the utterance section, a voice processing method and a voice that can appropriately and easily determine the intention of the speaker. A processing device and a voice processing program can be provided.
 1……制御装置、2……演算装置、3……記憶装置、4……表示装置、5……操作装置、6……収音装置、7……放音装置、UP1……発話区間、PUP1~PUP3……部分発話区間、10……音声分析プログラム、11……特定部、12……分析部。 1 ... control device, 2 ... arithmetic device, 3 ... storage device, 4 ... display device, 5 ... operation device, 6 ... sound collecting device, 7 ... sound emitting device, UP1 ... utterance section, PUP1 to PUP3 ... Partial utterance section, 10 ... Speech analysis program, 11 ... Specification section, 12 ... Analysis section.

Claims (7)

  1.  音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定し、
     前記部分発話区間毎に音声信号の時間変化を分析する
     音声処理方法。
    Specify a plurality of partial utterance sections included in one utterance section in the audio signal,
    A voice processing method for analyzing a time change of a voice signal for each of the partial utterance sections.
  2.  第1判定基準により前記音声信号の中の第1の発話終了を判定し、
     前記音声信号の中の、前記第1の発話終了が判定された終期を有する前記発話区間を特定し、
     前記第1判定基準とは異なる第2判定基準により前記音声信号の中の第2の発話終了を判定し、
     前記音声信号の中の、前記第2の発話終了が判定された終期を有する前記複数の部分発話区間を特定する
     請求項1に記載の音声処理方法。
    Determining the end of the first utterance in the voice signal according to a first criterion,
    In the voice signal, the utterance section having the ending period when the end of the first utterance is determined is specified,
    Determining the end of the second utterance in the audio signal by a second criterion different from the first criterion,
    The voice processing method according to claim 1, wherein the plurality of partial utterance sections having an end period when the end of the second utterance is determined are specified in the voice signal.
  3.  前記音声信号の中に、無音の継続時間長が時間閾値より長い無音区間で区切られた発話区間を特定し、前記音声信号の中に、前記無音の継続時間長が前記時間閾値より短い短無音区間で区切られた前記複数の部分発話区間を特定する
     請求項1に記載の音声処理方法。
    In the voice signal, a speech duration in which the duration of silence is divided by a silence duration longer than a time threshold is specified, and in the voice signal, the duration of silence is shorter than the time threshold. The voice processing method according to claim 1, wherein the plurality of partial utterance sections divided into sections are specified.
  4.  前記音声信号の音声レベルが第1の音声レベル閾値を超えるタイミングを前記部分発話区間の始期と設定し、前記音声信号の音声レベルが前記第1の音声レベル閾値より低い第2の音声レベル閾値未満になるタイミングを前記部分発話区間の終期と設定する
     請求項1から3のいずれか1項に記載の音声処理方法。
    The timing at which the voice level of the voice signal exceeds a first voice level threshold is set as the start of the partial utterance section, and the voice level of the voice signal is lower than the second voice level threshold lower than the first voice level threshold. 4. The voice processing method according to claim 1, wherein the timing of becoming is set as the end of the partial utterance section.
  5.  前記発話区間毎に、前記発話区間が含む前記複数の部分発話区間の分析結果に基づき、前記発話区間の音声信号に基づく音声に対する応答音声を合成する
     請求項1から4のいずれか1項に記載の音声処理方法。
    The response voice to the voice based on the voice signal of the utterance period is synthesized based on the analysis result of the plurality of partial utterance periods included in the utterance period for each of the utterance periods. Voice processing method.
  6.  音声処理装置であって、
     一つ以上のコンピュータと、
     複数の指示を記憶し、前記一つ以上のコンピュータによって実行されたときに、以下の動作を前記音声処理装置に実行させる一つ以上のデータ記憶装置と、
    を備え、
     音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定し、
     前記部分発話区間毎に音声信号の時間変化を分析する
     音声処理装置。
    A voice processing device,
    One or more computers,
    One or more data storage devices that store a plurality of instructions and, when executed by the one or more computers, cause the audio processing device to perform the following operations:
    Equipped with
    Specify a plurality of partial utterance sections included in one utterance section in the audio signal,
    A voice processing device for analyzing a temporal change of a voice signal for each of the partial utterance sections.
  7.  音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定するステップと、
     前記部分発話区間毎に音声信号の時間変化を分析するステップと、
     をコンピュータに実行させるための音声処理プログラム。
    Specifying a plurality of partial utterance sections included in one utterance section in the audio signal,
    Analyzing time change of the voice signal for each of the partial utterance sections,
    A voice processing program that causes a computer to execute.
PCT/JP2019/041367 2018-10-22 2019-10-21 Speech processing method, speech processing device, and speech processing program WO2020085323A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-198271 2018-10-22
JP2018198271A JP2020067495A (en) 2018-10-22 2018-10-22 Device, method and program which analyze voice

Publications (1)

Publication Number Publication Date
WO2020085323A1 true WO2020085323A1 (en) 2020-04-30

Family

ID=70330425

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/041367 WO2020085323A1 (en) 2018-10-22 2019-10-21 Speech processing method, speech processing device, and speech processing program

Country Status (2)

Country Link
JP (1) JP2020067495A (en)
WO (1) WO2020085323A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309372A (en) * 2020-10-28 2021-02-02 平安科技(深圳)有限公司 Tone-based intention identification method, device, equipment and storage medium
CN114509157A (en) * 2020-11-17 2022-05-17 丰田自动车株式会社 Information processing system, information processing method, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06130984A (en) * 1992-10-21 1994-05-13 Sanyo Electric Co Ltd Voice recognizing device
JP2013114118A (en) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> Speaker speaking rate control device and operation method thereof
JP2015069038A (en) * 2013-09-30 2015-04-13 ヤマハ株式会社 Voice synthesizer and program
WO2016063879A1 (en) * 2014-10-20 2016-04-28 ヤマハ株式会社 Speech synthesis device and method
JP2017211513A (en) * 2016-05-26 2017-11-30 日本電信電話株式会社 Speech recognition device, method therefor, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06130984A (en) * 1992-10-21 1994-05-13 Sanyo Electric Co Ltd Voice recognizing device
JP2013114118A (en) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> Speaker speaking rate control device and operation method thereof
JP2015069038A (en) * 2013-09-30 2015-04-13 ヤマハ株式会社 Voice synthesizer and program
WO2016063879A1 (en) * 2014-10-20 2016-04-28 ヤマハ株式会社 Speech synthesis device and method
JP2017211513A (en) * 2016-05-26 2017-11-30 日本電信電話株式会社 Speech recognition device, method therefor, and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309372A (en) * 2020-10-28 2021-02-02 平安科技(深圳)有限公司 Tone-based intention identification method, device, equipment and storage medium
CN112309372B (en) * 2020-10-28 2024-02-23 平安科技(深圳)有限公司 Intent recognition method, device, equipment and storage medium based on intonation
CN114509157A (en) * 2020-11-17 2022-05-17 丰田自动车株式会社 Information processing system, information processing method, and program
CN114509157B (en) * 2020-11-17 2024-04-05 丰田自动车株式会社 Information processing system, information processing method, and program

Also Published As

Publication number Publication date
JP2020067495A (en) 2020-04-30

Similar Documents

Publication Publication Date Title
Janse Word perception in fast speech: artificially time-compressed vs. naturally produced fast speech
JP5195414B2 (en) Response generating apparatus and program
CN112509552B (en) Speech synthesis method, device, electronic equipment and storage medium
US8315873B2 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
KR20150144031A (en) Method and device for providing user interface using voice recognition
JP2013205842A (en) Voice interactive system using prominence
KR20170035529A (en) Electronic device and voice recognition method thereof
JP2007140200A (en) Language learning device and program
WO2020085323A1 (en) Speech processing method, speech processing device, and speech processing program
JP7255032B2 (en) voice recognition
JP2018159788A (en) Information processing device, method and program
KR20230150377A (en) Instant learning from text-to-speech during conversations
JP6127422B2 (en) Speech recognition apparatus and method, and semiconductor integrated circuit device
JPWO2011033834A1 (en) Speech translation system, speech translation method, and recording medium
JP2002062891A (en) Phoneme assigning method
JP2010078877A (en) Speech recognition device, speech recognition method, and speech recognition program
CN110908631A (en) Emotion interaction method, device, equipment and computer readable storage medium
JP2010197644A (en) Speech recognition system
JP2007233149A (en) Voice recognition device and voice recognition program
JP2015038526A (en) Speech processing device and speech processing method
US10304460B2 (en) Conference support system, conference support method, and computer program product
JP2017198790A (en) Speech evaluation device, speech evaluation method, method for producing teacher change information, and program
JP2007248529A (en) Voice recognizer, voice recognition program, and voice operable device
JP4379050B2 (en) Speech recognition apparatus, speech recognition speed-up method, and program
Saini Speech recognition system (speech to text)(text to speech)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19875902

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19875902

Country of ref document: EP

Kind code of ref document: A1