JPS649769B2

JPS649769B2 -

Info

Publication number: JPS649769B2
Application number: JP62142010A
Authority: JP
Inventors: Masaru Nishimura; Yoshinobu Nishikawa; Tetsuo Shimizu; Yoji Sugiura
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1987-06-05
Filing date: 1987-06-05
Publication date: 1989-02-20
Also published as: JPS6345908A

Description

【発明の詳細な説明】本発明は、テレビジヨン受像機等の音声による
制御装置に係り、特に音声によつて音量の段階的
制御を、手動によつて音量の連続的制御を行うも
のに関する。指令者〔或は操作者、以下、肉声を原情報とし
て被制御装置（例えばテレビジヨン受像機等）を
遠隔的に制御する者を指す。〕の指令（或は指示）
内容（音声信号）を標本化し且つ量子化すること
によつて標準（デジタル信号）パターンとして予
め記憶しておき、後に発せられる音声指示内容
（音声信号）を標本化した後量子化し、必要に応
じて時間軸の調整を行つてデジタル化した後
RAM等のメモリに一時的に記憶し、前記標準パ
ターンとの比較により、一定の許容値をもつて合
致した時、オン・オフ制御を行うことが提唱され
ている。このような音声認識手段としては例えば第１図
の如く、入力音声を電気信号に変換する音響―電
気信号変換器（例えばマイクロフオン）を含む入
力部１、音声信号の特徴を抽出する、特徴抽出部
２、あらかじめ登録された音声特徴の標準パター
ンを記憶する、標準パターン記憶部３、入力音声
から抽出された特徴パターンと標準パターンとを
比較し、入力音声を特定する認識処理部４、認識
結果にもとづき例えばテレビ受信機の電源、チヤ
ンネル、音量等を制御する出力制御部５を主な構
成要素とし、これに認識率を向上させる為の入力
信号振巾正規化回路６、時間軸調整部７、あらか
じめ音声特徴の標準パターンを登録する為の登録
制御部８が付加される。音声の特徴を抽出するパラメータとしては、周
波数スペクトル分布、相関関数、零交差数、フオ
ルマント周波数或いは線型予測係数など多くの方
法が考えられるが、これらのうち音声の周波数ス
ペクトルを複数の周波数フイルタにより分離抽出
し標準パターンとの相関を調べるいわゆるフイル
タバンク方式は比較的簡単な構成で高い認識率を
得ることが出来る方法としてよく用いられてい
る。このような音声による制御装置の制御内容と
しては電源の入切、チヤンネルや局番の変更指
定、音量の変更などがあり、例えば電源について
は「デンゲン・イリ（キリ）」などと発声制御で
きるが音量についてはもともとアナログ的な連続
可変制御である為音声による適当な制御方法が提
案されていない。本発明は、このようなアナログ量である音量
を、音声にて数値指示し、その内容を音声識別装
置によつて判別して、例えば10進値として取り出
し、複数の可変減衰器或は可変利得増巾器等の組
み合せを変更することによつて前記音量のレベル
を段階的に制御出来、且つボリユームにより連続
的に制御出来るものである。以下、本発明の詳細を要部回路ブロツクダイア
グラムを表わす第２図及び第３図を参照しつつ説
明する。この実施例においては、音声認識のための特徴
パラメータとしてフイルタバンク方式（周波数ス
ペクトル方式）を採用した音声認識装置を組込ん
だテレビジヨン受信機の音声による制御装置を例
に採つて説明するが、被制御量がアナログ量であ
れば、被制御装置は選ばない。通常機器の前面に取りつけられる入力部１は有
指向性及び無指向性の２つのマイクロフオン１０
と１１の図示の如き差動接続と増巾器１２により
構成される。即ち有指向性マイクロフオン１０に
対し無指向性マイクロフオン１１は逆位相接続さ
れており、従つて指向特性範囲外からの音声信
号、即ち制御命令音声以外の信号は相殺され、指
向特性範囲内の制御命令音声のSN比はこれによ
つて高められる。その際、TV受像機等のスピー
カから流れる音声中の指令類似語による誤動作を
防止するために、重要語（最頗度語）「デンゲン」
或は「パワー」、「チヤンネル」、「オンリヨー」又
は「ボリユーム」等の指令（注、これらの用語に
ついては、識別のための許容値を大きく取つてあ
る）が識別された際には、第３図に別途要部回路
図として開示せる如きいわゆる初期ミユーテイン
グ回路を設けておき、一時的にスピーカ出力を断
つか若しくは大巾に減衰せしめる。この点につい
ては後に詳述する。振巾正規化機能を併せ特徴抽
出部２は、複数個のフイルタ１３―１，１３―２
…１３―Ｎ及び入力信号の全振巾を検知するレベ
ル検出回路１４、各フイルタの出力をデジタル信
号に変換するＡ―Ｄ（アナログ―デジタル）変換
器１５、該Ａ―Ｄ変換器に前置され前記各フイル
タ出力と前記レベル検出回路１４出力との比をと
ることにより、フイルタ出力振巾を正規化するア
ナログ割算器等によつて構成された振巾正規化回
路１６、更に該振巾正規化回路と前記フイルタ群
との間に挿入され、該フイルタの各出力の接続を
切り替えるマルチプレクサ１７によつて構成され
る。斯る構成により前記入力部１から入力した音
声信号の各フイルタ成分が適当な時間間隔（多く
の場合10ミリ秒前後）で順次サンプリング標本化
され、更に各サンプリング値を量子化することに
よつてデジタルコードに変換された後、マイクロ
コンピユータ若しくは中央処理装置（CPU）１
８のＩ／Ｏポート（図示せず）を経て、記憶メモ
リー１９（通常RAM：ランダムアクセスメモ
リ）に記憶される。前記Ａ―Ｄ変換の過程において、標本化された
各量を量子化する際、一様量子化することもでき
るが、別途手動調整手段を設ける際には、段階的
にその調整器の制御指示量（例えばボリユームの
回転角）と制御レベルとの関係に合わせて非直線
的に量子化を計ることもできる。 CPU（中央処理装置）１８には別の標準パター
ンメモリ３が接続されており、予め指令者の音声
指令（制御命令が、標本化され量子化された形で
その制御内容を指定するコードと共に記憶されて
いる。制御命令音声（音声による指令）の標準パ
ターンメモリへの登録は、例えばテレビ受信機の
制御の場合には次の様に行なう。第４図はテレビ
受信機のコントロールパネルの１例であり、入力
マイク２０、登録モードスイツチ２１指令者を選
択する指令者（話者）番号指定スイツチ１，２２
―１同２，２２―２…、制御命令指定スイツチ電
源のオン、オフ切替、音量変更、チヤンネル切替
に各対応してそれぞれ「電源」指定スイツチ２３
「音量」指定スイツチ２４「チヤンネル」指定ス
イツチ２５として、又音量及びチヤンネル指定を
行なう数字ボタン２６―１，２６―２，２６―
３，…２６―１１，２６―１２が各対応する表示
ランプ２７―１，２７―２，…２７―１２と共に
配設されている。又下部の「OK」表示ランプ２
８は認識又は登録が良好に完了したとき、
「REPEAT」表示ランプ２９は同じく不良であつ
たときそれぞれ点灯表示するものである。かかる
登録制御部３０を用いて標準パターンを登録する
には、まず登録スイツチ２１を押して登録モード
とし、次に話者番号を同指定スイツチ２２―１又
は２２―２…にて指定した上で、以下順次「電
源」スイツチ２３を押して例えば「デンゲン」あ
るいは「パワー（POWER）」、「音量」スイツチ
２４を押して「オンリヨー」又は「ポリユーム」
と発声する「チヤンネル」スイツチ２５を押す
と、第２図登録制御回路８は、モード切替信号ａ
を出力し、チヤンネル押ボタンスイツチ回路３１
の出力を切替回路３２を経て前記登録制御回路側
に切替える。これにより前記スイツチ回路３１に
含まれる数値指定ボタン２６―１，２６―２…
（第４図）を押して「イチ」「ニ」…と発声する
と、それぞれの音声は入力部１、特徴抽出部２を
経て各制御内容（電源、音量チヤンネル１，２，
３，…）に対応するコードと共に標準パターンメ
モリー３に記憶される。さて通常の認識モードでは、前述の制御音声が
入力し、特徴抽出フイルタ１３―１，１３―２…
１３―Ｎにより抽出されたデジタル化された信号
列はRAM等の記憶メモリ１９に記憶され、次い
でCPU１８はこの記憶パターンと標準パターン
との差を、全ての標準パターンについて計算しそ
の差が最も小さい標準パターンを決定することに
より入力音声を特定する。一般に人間の話声は同
じ言語で発声してもその時間軸推移は常に同等と
は限らない為、第１図に示すが如き何らかの時間
軸調整回路が付加されなければならないことは周
知の通りである。第２図に於ては説明の都合上か
かる時間軸調整回路は省略している。認識モードに於ける音声の取り込みは常時行な
われており、入力音声が途切れたとき即ちポーズ
期間に前述の認識計算が実行されそれ以前の入力
音声、パターンマツチング法により特定される。
この時入力音声について特定が可能となつた時、
即ち入力音声が何らかの標準パターンに許容され
得る誤差の範囲内で一致した時、CPU１８は出
力制御回路３３に対し、テレビ受信機の各該当制
御要素を制御すべく指示出力する。例えば「デン
ゲン・イリ（キリ）」という入力音声を認識した
とき出力制御回路３３はテレビ受信機の電源回路
３４をON―OFF制御する。又、「チヤンネル・
※※」（※※は１〜12までの数字）という入力音
声を認識したとき、出力制御回路３３はチヤンネ
ル切替回路３５に出力し、これによりチユーナ３
６を切替制御する。ところで、音量の調整の為に本発明装置の被制
御音声機器はあらかじめ音量を数値表示する可視
的な表示器を備えていなければならない。連続可
変される音量を段階的数値表示（即ち、デジタル
表示）に替えるに適当なステツプ数は10前後であ
ろう。具体的な表示器としては、例えば７セグメ
ントの数値表示素子、あるいはステツプ数と同数
の発光素子（LEDなど）の一次元的配列などが
考えられる。ここではテレビ受信機の場合を例と
し、第４図に図示したチヤンネル表示ランプ２７
―１，２７―２…２７―１２を音量表示に兼用す
る方法を採用している。図に於ける数字表示LED２７―１，２７―２，
…，２７―１２は第４図中にチヤンネル表示ラン
プとして図示されており通常チヤンネル切替回路
３５の出力に応じANDゲード３７―１，３７―
２又は３７―１２、ORゲート３８―１，３８―
２…、又は３８―１２及び抵抗３９―１，３９―
２，…又は３９―１２を経ていずれか１つの
LEDが点灯、チヤンネル表示を行なつている。
即ち出力制御回路の音量レベル表示コントロール
信号ｂ（詳細後述）は通常デジタル“０”レベル
であり、従がつて各ANDゲート３７―１，３７
―２…３７―１２を制御する。インバータ４０の
出力はデジタル“１”レベルである。次に前述の
如く音声認識装置が例えば、「音量」に相当する
制御命令音声信号を認識した時、出力制御回路３
３は音量レベル表示コントロール信号ｂを一定期
間（数秒間）デジタル“１”レベル（今後Ｈレベ
ルと略す）とし、ゲート３７―１，３７―２…、
及び３７―１２を閉じると同時にANDゲート４
１―１，４１―２及び４１―１２を開いて、ラツ
チ回路であるＤ―FF（Ｄ型フリツプフロツプ回
路）４２―１，４２―２…，４２―４のＱ出力の
Ｂ―Ｄ（２進―10進）変換回路４３出力にもとず
き前記数字表示LED２７―１、又は２７―２、
…、又は２７―１２のいずれかを点灯させる。後
述するようにラツチ回路４２―１，４２―２，…
４２―４は、その時点での音量レベルを２進表示
で保持している。従つてLED２７―１，２７―
２、…又は２７―１２はこの時点灯個数で音量レ
ベルを数値表示することになるもちろん７セグメ
ント表示を行つてもよいことは言を俟たない。引
き続き、音声認識装置が、音量レベルを１〜12ま
での段階の命令音声を認識したとき、出力制御回
路３３は通常デジタル“０”レベル（以後Ｌレベ
ルと略す）である音量レベルラツチコントロール
信号ｃを短時間（Ｄ―FFがラツチ動作するのに
充分な時間）Ｈレベルとし、ORゲート４４―
１，４４―２…，４４―４を経て前述のＤ―FF
４２―１，４２―２…，４２―４をクロツクす
る。同時に、出力制御回路３３は、CPU１８に
て比較認識した音量レベルを２進コードで、音量
レベル信号d₁，d₂，…，d₄として出力し、前述の
音量レベルラツチコントロール信号により開く
ANDゲート４５―１，４５―２，…，４５―４、
及び、ORゲート４６―１，４６―２，…，４６
―４及びラツチ回路４２或は５０がクロツクの立
下りをＤ入力としてラツチすることを確実にする
ためのインバータ４７―１，４７―２，…４７―
４，４８―１，４８―２，…，４８―４を経てＤ
―FF４２―１，４２―２，…又は４２―４にＤ
入力せしめる。音量レベル信号d₁，d₂，…，d₄の
出力状態を保持したラツチ回路Ｄ―FF，４２―
１，４２―２，…又は４２―４のＱ出力によつ
て、前述の如く音声認識した音量レベルが数字表
示LED２７―１，２７―２，…又は２７―１２
により点灯表示される。音量レベルラツチコント
ロール信号ｃは、同様にORゲート４９を経て状
態保持回路であるＤ―FF５０にクロツク入力す
るが、この時ORゲート５１の出力がＬレベルで
あれば、ワンシヨツト回路５２の出力もＬレベル
であるのでインバータ４７―５と４８―５を経た
Ｄ入力端子はＬレベルであり、従がつて該Ｄ―
FFのＱ出力は０、（＝１）となる。この結果ア
ナログスイツチ５３が閉じ、Ｄ―FF５０の出
力が１なのでANDゲート５４―１，５４―２，
…５４―１２が前記２進変換回路４３の出力であ
る音量レベルに応じてアナログスイツチ５５―
１，５５―２，…，又は５５―１２のいずれかが
開く。一方、テレビ受信機の音声FM復調回路５
６の出力は初段の音声増巾回路５７、可変抵抗器
５８を経てその可変端子出力が更に音量調整ボリ
ユーム５９又は抵抗器６０―１，６０―２，…６
０―１１より成る分圧回路（或は減衰回路若しく
は可変利得回路でも可）、アナログスイツチ５３
又はアナログスイツチ５５―１，５５―２，…５
５―１２のいずれかを経由し、音声出力増巾器６
１より増巾せられスピーカ等音声出力器６２より
音声出力するよう構成されているので、前述のア
ナログスイツチ５５―１，５５―２…，５５―１
２のいずれかが開く場合には、それより抵抗器６
０―１，６０―２，…，６０―１１により分圧さ
れた適当な音量レベルが設定される。音量レベル
コントロール信号ｂは数秒後（指令者が制御完了
を確認できる時間経過後）Ｌレベルに復帰し、従
がつて数字表示LED２７―１，２７―２，…，
２７―１２は音量レベル表示よりチヤンネル表示
に復帰するが、音量レベルはラツチ回路４２―
１，４２―２，…４２―４の出力状態に対応する
レベルを維持する。前記可変抵抗器５８は音量の
可変範囲を決めるものである。次に、音量調整ボ
リユーム５９が手動で操作された時には、これと
連動し、一定電圧電源V_Rとアース間に接続され
た可変抵抗器６３の出力変化を抵抗６４、コンデ
ンサ６５及び該抵抗器の両端が図示の如く両入力
端子に接続されたコンパレータ６６により検出
し、続くマニユアル操作検出回路６７が、マニユ
アル操作信号ｅを、ボリユーム調整操作が続いて
いる間中Ｈレベルで出力する。該信号の立上りに
より、ORゲート５１を介してワンシヨツト回路
５２が動作しパルスを発生するが、これを前述の
ラツチ回路５０が保持し、Ｑ＝１（＝０）とな
りアナログスイツチ５３を開いて音量調整ボリユ
ーム５９で決まる音量レベルにて音声出力増巾器
６１はスピーカ６２を駆動する。Ｄ―FF５０の
Ｑ＝０出力よりANDゲート５４―１，５４―２，
…５４―１２は全て閉じ、従つてアナログスイツ
チ５５―１，５５―２，…，５５―１２が全べて
閉じることは明らかであろう。前記マニユアル操
作信号ｅにより、図示の通りANDゲート６８―
１，６８―２，６８―４が開き定電圧V_Rにバイ
アスされたＡ―Ｄ変換器６９の出力である音量レ
ベル（２進コード）を該ｅ信号の立下りで前記ラ
ツチ回路４２―１，４２―２，…，４２―４によ
り記憶保持する。これにより、音量調整ボリユー
ムで調整決定された音量レベルがデジタル化され
て該ラツチ回路に保持記憶される。前記ORゲー
ト５１の入力の一方は、前記テレビ受信機の電源
回路３４が出力する電源投入信号ｆに接続されて
おり、電源投入後一定時間発生するパルス信号ｆ
により同様な音量レベルのラツチ保持とアナログ
スイツチ５３による音声増巾回路の利得の決定が
行なわれる。次に、前述の初期ミユーテイング回路の詳細に
ついて第３図を参照しつつ説明する。なお、第３
図において、第２図と共通部分には同じ符号（図
番）を付し、その説明を省略する。上述の如く、音声指令認識モードにおける音声
信号の取り込みは、指令継続中常時行なわれてお
り入力音声が途切れたとき、即ち一定の指令単位
の間隔（ポーズ期間）にCPU１８によつて認識
計算が実行され、それまでの入力音声指令がパタ
ーンマツチング法によつて特定される。上述の如く、被制御機器であるTV受信機のス
ピーカ出力その他指令者以外の発する類似音によ
る誤動作をさけるために、最頗度指令語について
は、多少パターンマツチングの比較許容度を大き
くとる。この時、入力音声について特定が可能となつた
時、即ち入力音声が何らかの標準パターンに許容
され得る誤差の範囲内で一致した時、CPU１８
は出力制御回路３３を制御してテレビ受信機の音
声出力を一定時間ミユーテイングさせる。第３図
の場合、出力制御回路３３はテレビ受信機の音声
復調増巾回路５６の出力増巾トランジスタ５７の
バイアスを落すことにより、該トランジスタのコ
レクタよりコンデンサ７０を介して接続されたス
ピーカ６２の音声出力を停止させる。尚、前記音
声回路５６の出力側に接続されたイヤホーン６０
回路に対してはミユーテイングは不必要である。
通常制御命令言語は例えば「デンゲン」・「イリ」、
「デンゲン」・「キリ」、「チヤンネル」・「イチ」、
「チヤンネル」・「ニ」のように複数の単語の連続
により構成されているので、例えば「チヤンネ
ル」という入力音声を認識したときスピーカ音声
はミユーテイングされ以後の「イチ」又は「ニ」
の音声入力はテレビ受信機が発生する音が無くな
るためSN比はきわめて向上し、認識率はきわめ
て向上する。電源の入・切チヤンネル変更、音量
変更いずれの制御内容からも、かかる音声のミユ
ーテイングは機能上の欠点とはならない。尚第３
図の具体例では音量の変更は、「オンリヨー」・
「サン」（音量３）などのようにチヤンネル同様12
段階指定すること（従つてチヤンネル表示装置を
一時的に音量表示装置として併用すること）も可
能である。入力音声認識の結果にもとづき出力制
御回路３３はテレビ受信機の電源回路３４、チヤ
ンネル切替回路３５又は音声回路５６にそれぞれ
制御出力することは言うまでも無い。第３図の実施例を併用すれば音声認識装置を備
えたテレビ受信機等音声機器の音声出力回路に該
音声認識装置の出力制御回路が作用して、入力音
声を感知した時音声機器の出力音声を適当なレベ
ルにまで減衰させることにより以後の入力音声の
SN比を増大させるものであり、従つてこの種音
声認識装置の認識率を向上せしめるにきわめて有
効である。本発明に依れば、音声指令によつて音量の段階
的制御が可能となる。また、音量調整ボリユーム
により手動制御を行うと音声指令による音量の段
階的制御を中断して音量を連続的に制御すること
が出来る。

【図面の簡単な説明】

第１図は、音声認識装置の要部ブロツク図、第
２図は本発明の要部実施回路図、第３図は初期ミ
ユーテイング回路の一実施例を示す図、第４図は
被制御機器の操作パネルの正面図を表わす。１…入力部、２…特徴抽出部、３…標準パター
ンメモリ、４…認識処理部、３３…出力制御回
路、５３…アナログスイツチ、５５―１，５５―
２…５５―１２…アナログスイツチ、５９…音量
調整ボリユーム、６６…コンバレータ（検出部）。

Claims

【特許請求の範囲】１音量を段階的に指令する音量指令音声を入力
し、その入力音声を電気信号に変換する入力部
と、前記電気信号の特徴を抽出する特徴抽出部
と、予め指令者の入力音声の特徴を標準パターン
として記憶する標準パターン記憶部と、前記特徴
抽出部で抽出された特徴パターンと前記標準パタ
ーンとを比較し、前記音量指令音声を特定する認
識処理部と、該認識処理部の認識結果にもとづい
て、音量を段階的に制御する出力制御部とから成
る制御装置において、前記認識結果にもとづく音量値を保持するラツ
チ手段４２―１…４２―４と、このラツチ手段に保持された音量値にもとづい
て音量が設定されるスピーカ６２と、このラツチ手段に保持された音量値を表示する
表示手段２７―１，…２７―１２と、手動調整され連続的に変動する音量調整ボリユ
ーム５９と、該音量調整ボリユームの出力変化を検出する検
出部６７と、該検出部の出力変化検出信号により前記ラツチ
手段から前記スピーカへの出力を遮断し、前記音
量調整ボリユームの出力による音量制御を可能に
したスイツチ部５３，５４―１，…，５４―１２
と、前記出力変化検出信号により前記音量調整ボリ
ユームの値に略対応する段階的な音量値を前記ラ
ツチ手段が保持するよう設定する設定手段６９，
４４―１，…４４―４と、を備えることを特徴とするテレビジヨン受像機等
の音声による制御装置。