JPWO2020026562A1 - 情報処理装置と情報処理方法およびプログラム - Google Patents
情報処理装置と情報処理方法およびプログラム Download PDFInfo
- Publication number
- JPWO2020026562A1 JPWO2020026562A1 JP2020534071A JP2020534071A JPWO2020026562A1 JP WO2020026562 A1 JPWO2020026562 A1 JP WO2020026562A1 JP 2020534071 A JP2020534071 A JP 2020534071A JP 2020534071 A JP2020534071 A JP 2020534071A JP WO2020026562 A1 JPWO2020026562 A1 JP WO2020026562A1
- Authority
- JP
- Japan
- Prior art keywords
- background sound
- utterance
- signal
- unit
- period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 115
- 238000003672 processing method Methods 0.000 title claims description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 188
- 238000001514 detection method Methods 0.000 claims abstract description 122
- 230000005540 biological transmission Effects 0.000 claims abstract description 62
- 238000004891 communication Methods 0.000 claims abstract description 46
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 44
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 description 50
- 238000005516 engineering process Methods 0.000 description 14
- 230000004044 response Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000002730 additional effect Effects 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
- H04B1/401—Circuits for selecting or indicating operating mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6016—Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
- H04M1/6041—Portable telephones adapted for handsfree use
- H04M1/6058—Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone
- H04M1/6066—Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone including a wireless connection
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephone Function (AREA)
- Transceivers (AREA)
Abstract
発話検知部232は、マイク31から供給された入力音声信号に基づき発話期間を発話検知部で検知する。背景音生成部241は、発話検知部の発話期間検知結果に応じて背景音信号を生成する。音声合成部242は、背景音生成部241で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成してスピーカ32へ出力する。制御部26は、操作スイッチ33で生成されたユーザ操作に応じた操作信号に基づき発話検知部232の検知期間を設定して、例えば発話期間の入力音声信号を通信部21の送信部211から送信させる。出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。
Description
この技術は、情報処理装置と情報処理方法およびプログラムに関し、通信操作状態を容易に判別できるようにする。
従来の無線機では、特許文献1に示すように、PTT(Push to Talk)機能を設けて、PTTスイッチがオン状態であるとき音声送信状態としている。また、PTTスイッチを操作できない場合でも音声送信状態とすることができるように、無線機には音声信号が検出されたときにPTTスイッチをオン状態とするVOX(Voice Operation Transmission)機能が設けられている。
ところで、PTTスイッチがオン状態とオフ状態のいずれであるかは、PTTスイッチに触れたり目視しなければ判別できない。また、VOX機能が動作しているかについても、スイッチの状態や機能の設定状態を確認しなければ判別できない。
そこで、この技術では音声送信状態であるかを容易に判別できる情報処理装置と情報処理方法およびプログラムを提供することを目的とする。
この技術の第1の側面は、
入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置にある。
入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置にある。
この技術において、発話検知部は、例えばヘッドセットのマイクで集音された音声を示す入力音声信号に基づき発話期間を検知される。背景音生成部は、発話検知部の発話期間検知結果に応じて背景音信号の生成を行い、発話期間中は発話背景音信号を生成して、非発話期間中は 発話背景音信号と異なる非発話背景音信号を生成する。例えば発話背景音信号と非発話背景音信号は、異なるノイズ信号またはメロディ音信号、あるいは信号レベルが異なる信号である。また、発話背景音信号は入力音声信号を利用して生成してもよい。音声合成部は、背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する。例えば音声合成部は、入力音声信号の通信を行う通信部で受信した音声信号に背景音生成部で生成された背景音信号を合成して、ヘッドセットのスピーカへ出力する。制御部は、入力部でユーザ操作に応じて生成された操作信号またはヘッドセットに設けられた操作スイッチでユーザ操作に応じて生成された操作信号に基づき、発話検知部の検知期間の設定と入力音声信号の送信処理を行う。
制御部は、操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間および通信部における送信動作期間とする。この場合、背景音生成部は、発話背景音信号を非発話背景音信号よりも小さい信号レベル、例えば信号レベルを最小とする。また、制御部は、操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間として、発話検知部で検知された発話期間を通信部における送信動作期間とする。この場合、背景音生成部は、非発話背景音信号を発話背景音信号よりも小さい信号レベル、例えば信号レベルを最小とする。
この技術の第2の側面は、
入力音声信号に基づき発話期間を発話検知部で検知することと、
前記発話検知部の発話期間検知結果に応じて背景音信号を背景音生成部で生成することと、
前記背景音生成部で生成された背景音信号を用いた合成処理を音声合成部で行い出力音声信号を生成することと、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を制御部で行わせること
を含む情報処理方法にある。
入力音声信号に基づき発話期間を発話検知部で検知することと、
前記発話検知部の発話期間検知結果に応じて背景音信号を背景音生成部で生成することと、
前記背景音生成部で生成された背景音信号を用いた合成処理を音声合成部で行い出力音声信号を生成することと、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を制御部で行わせること
を含む情報処理方法にある。
この技術の第3の側面は、
入力音声信号の送信制御をコンピュータで実行させるプログラムであって、
前記入力音声信号に基づき発話期間を検知する手順と、
前記発話期間の検知結果に応じて背景音信号を生成する手順と、
前記生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する手順と、
ユーザ操作に応じた操作信号に基づき、前記発話期間を検知する検知期間の設定と、前記入力音声信号の送信処理を行う手順と
を前記コンピュータで実行させるプログラムにある。
入力音声信号の送信制御をコンピュータで実行させるプログラムであって、
前記入力音声信号に基づき発話期間を検知する手順と、
前記発話期間の検知結果に応じて背景音信号を生成する手順と、
前記生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する手順と、
ユーザ操作に応じた操作信号に基づき、前記発話期間を検知する検知期間の設定と、前記入力音声信号の送信処理を行う手順と
を前記コンピュータで実行させるプログラムにある。
なお、本技術のプログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。
この技術によれば、入力音声信号に基づき発話期間が検知されて、発話期間の検知結果に応じて背景音信号の生成が行われる。また、生成された背景音信号を用いた合成処理によって出力音声信号が生成される。さらに、ユーザ操作に応じた操作信号に基づき発話期間を検知する検知期間が設定されて、発話期間の入力音声信号が通信部から送信される。したがって、出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また付加的な効果があってもよい。
以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
1.システムの構成
2.情報処理装置の第1の実施の形態の構成
3.情報処理装置の第1の実施の形態の動作
4.情報処理装置の第2の実施の形態の構成
5.情報処理装置の第2の実施の形態の動作
6.変形例
1.システムの構成
2.情報処理装置の第1の実施の形態の構成
3.情報処理装置の第1の実施の形態の動作
4.情報処理装置の第2の実施の形態の構成
5.情報処理装置の第2の実施の形態の動作
6.変形例
<1.システムの構成>
図1は、本技術の情報処理装置を用いたシステムの構成を例示している。システム10は、情報処理装置20とサーバ40を用いて構成されており、情報処理装置20とサーバ40はネットワーク50を介して接続されている。また、情報処理装置20には、ヘッドセット30が接続可能とされている。
図1は、本技術の情報処理装置を用いたシステムの構成を例示している。システム10は、情報処理装置20とサーバ40を用いて構成されており、情報処理装置20とサーバ40はネットワーク50を介して接続されている。また、情報処理装置20には、ヘッドセット30が接続可能とされている。
ヘッドセット30は、マイク31とスピーカ32および操作スイッチ33が設けられている。マイク31は、ヘッドセット30を装着しているユーザが発した音声を集音して音声信号に変換して情報処理装置20へ出力する。スピーカ32は情報処理装置20から供給された出力音声信号を音声に変換して出力する。操作スイッチ33は、ユーザ操作に応じた操作信号を情報処理装置20へ出力して、操作スイッチ33に割り当てられた機能をオン状態またはオフ状態とする。例えば、操作スイッチ33としてモーメンタリ動作を行うプッシュスイッチが用いられている場合、情報処理装置20は、操作スイッチ33が操作される毎に、割り当てられた機能をオフ状態からオン状態、またはオン状態からオフ状態に切り替える。
情報処理装置20は例えばスマートフォンであり、通信部21、撮像部22、入力部23、出力部24、記憶部25及び制御部26を有している。
通信部21は、無線LAN規格に適合した通信を行う無線LAN部、携帯電話回線を用いて通信を行う公衆網接続部等を有している。通信部21は、サーバ40と例えばインターネットプロトコルに準拠した通信を行う。通信部21は、情報処理装置20で生成した情報、例えばヘッドセット30から供給された音声信号等をサーバ40へ送信する。また、通信部21は、サーバ40から送信された情報を受信して出力部24や記憶部25に出力する。
撮像部22は、撮像素子と撮像レンズを含む撮像光学系、および画像信号処理部等を含む。撮像素子としては、例えばCCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサが用いられる。撮像部22で生成された画像信号は、出力部24や記憶部25あるいは通信部21を介してサーバ40等に出力される。
入力部23は、タッチパネルやマイク等を用いて構成されている。入力部23は、例えばタッチパネルに対するユーザ操作に応じた操作信号を生成して制御部26へ出力する。また、入力部23は、マイクでユーザからの音声を取得する。また、入力部23は、ヘッドセット30から供給された音声信号の受け入れ制御を行う。
出力部24は、表示素子やスピーカ等を用いて構成されている。表示素子としては、例えばLCD(Liquid Crystal Display)またはOLED(Organic Light-Emitting Diode)等が用いられている。出力部24は、制御部26の制御のもとで、撮像部22で取得された撮像画,映像コンテンツ,テキスト情報,メニュー画面,各種設定情報等の表示や、音声コンテンツや会話等の音声を出力する。また、出力部24は、出力音声信号を生成してヘッドセット30に出力する。
記憶部25は、情報処理装置20で各種動作を行うためのアプリケーションプログラムやコンテンツデータ等を記憶する。
制御部26は、CPU(Central Processing Unit)やROM(Read Only Memory),RAM(Random Access Memory)等を有している。ROM(Read Only Memory)は、CPU(Central Processing Unit)により実行される各種プログラムを記憶する。RAM(Random Access Memory)は、各種パラメータ等の情報を記憶する。CPUは、ROMあるいは記憶部25に記憶されている各種プログラムを実行して、入力部23で生成された操作信号に基づき、ユーザ操作等に応じて所望の動作が情報処理装置20で行われるように各部を制御する。例えば、制御部26は、操作信号に基づきPTT(Push to Talk)機能やVOX(Voice Operation Transmission)機能を用いて、例えば所望の情報処理装置20-xと音声通信を行うように通信部21と入力部23と出力部24を制御する。
サーバ40は、情報処理装置20とネットワーク50を介して接続されている他の情報処理装置20-xとの間での有線または無線による通信を仲介する。例えば、サーバ40は、情報処理装置20から送信された音声信号を、情報処理装置20で指定された送信先の情報処理装置20-xへ送信する。また、サーバ40は、情報処理装置20-xから送信された音声信号を、情報処理装置20-xで指定された送信先である情報処理装置20へ送信する。
<2.情報処理装置の第1の形態の構成>
図2は、情報処理装置の第1の形態の構成を示している。なお、図2では、情報処理装置20におけるPTT(Push to Talk)機能を用いた音声通信に関する機能ブロックの構成を例示している。
図2は、情報処理装置の第1の形態の構成を示している。なお、図2では、情報処理装置20におけるPTT(Push to Talk)機能を用いた音声通信に関する機能ブロックの構成を例示している。
通信部21は、送信部211と受信部212を有しており、入力部23は、マイク入力制御部231と発話検知部232を有している。また、出力部24は、背景音生成部241と音声合成部242を有している。
通信部21の送信部211は、入力部23のマイク入力制御部231から供給された音声信号を、制御部26からの制御信号によって指示された送信先を示してサーバ40に送信する。受信部212は、受信音声信号を出力部24の音声合成部242へ出力する。
入力部23のマイク入力制御部231は、制御部26からの制御信号に基づき、例えばヘッドセット30のマイク31から供給された音声信号の受け入れを制御する。マイク入力制御部231は、音声信号を受け入れる場合、マイク31から供給された音声信号を発話検知部232と通信部21の送信部211へ出力する。発話検知部232は、制御部26からの制御信号に基づき発話検知動作を行い、マイク31から供給された音声信号を用いて発話期間を検知して発話検知結果を出力部24の背景音生成部241へ出力する。
出力部24の背景音生成部241は、制御部26からの制御信号に基づき背景音生成動作を行い、発話検知結果に応じて背景音を生成する。例えば背景音生成部241は、発話期間と非発話期間で異なる背景音信号を生成する。背景音信号は、会話音と区別が可能な背景音の信号あればよく、例えばノイズ音やメロディ音の信号等を用いる。また、発話期間と非発話期間で異なる背景音信号としては、異なる種類のノイズ音またはメロディ音の信号であってもよく、同じ種類の音であって信号レベルが異なる信号であってもよい。また、発話期間の背景音信号としてマイク31から供給された音声信号を利用すれば、どのような音声が送信されているか確認できるようになる。また、発話期間の背景音信号としてマイク31から供給された音声信号を利用する場合、発話期間背景音であることが明確となるように音声信号を加工して背景音信号を生成してもよい。なお、本技術における異なる背景音信号は、発話期間と非発話期間のいずれか一方の期間のみ信号レベルが「0」である場合を含む。背景音生成部241は、生成した背景音信号を音声合成部242へ出力する。音声合成部242は、受信部212から供給された受信音声信号と背景音生成部241で生成された背景音信号を合成して出力音声信号を生成する。音声合成部242は、生成した出力音声信号を、例えばヘッドセット30のスピーカ32へ出力する。
制御部26は、例えばヘッドセット30の操作スイッチ33からの操作信号に基づき、PTT(Push to Talk)機能をオン状態またはオフ状態として、オン状態の期間を発話検知部における検知期間と背景音生成部における背景音信号の生成期間および通信部における送信動作期間とする。すなわち、制御部26は、PTTがオン状態である期間中は、マイク31から供給された音声信号をマイク入力制御部231で受け入れて送信部211へ供給させて、マイク入力制御部231で受け入れた音声信号の送信先を指定してサーバ40へ送信させる。また、制御部26は、PTTがオン状態である期間中は、発話検知部232と背景音生成部241を動作させて、発話期間と非発話期間で異なる背景音信号を生成して、スピーカ32へ出力させる。
<3.情報処理装置の第1の形態の動作>
図3は、第1の実施の形態の動作を例示したフローチャートである。ステップST1で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST2に進み、スイッチ操作が行われていないと判別した場合にはステップST1に戻る。
図3は、第1の実施の形態の動作を例示したフローチャートである。ステップST1で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST2に進み、スイッチ操作が行われていないと判別した場合にはステップST1に戻る。
ステップST2で情報処理装置はPTT機能を開始する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを開始する。また、制御部26は発話検知部232の検知動作を開始する。さらに、制御部26は、送信部211を制御して送信処理を開始させることで、マイク入力制御部231から供給される音声信号を所望の送信先を示してサーバ40に送信するようにしてステップST3に進む。
ステップST3で情報処理装置は発話期間であるか判別する。情報処理装置20の発話検知部232は、マイク入力制御部231から出力される音声信号を用いて発話期間であるか検出する、発話検知部232は、マイク入力制御部231から音声信号が出力されたことを検出したとき発話期間の開始とする。また、発話検知部232は、音声信号が出力されない期間が所定期間よりも長くなったとき発話期間の終了とする。発話検知部232は、発話期間であると判別したときステップST4に進み、発話期間でないと判別したときステップST5に進む。
ステップST4で情報処理装置は発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、発話期間であると判別したときは発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき発話期間背景音を出力してステップST6に進む。
ステップST5で情報処理装置は非発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、非発話期間であると判別したときは非発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、非発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき非発話期間背景音を出力させてステップST6に進む。
ステップST6でスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST7に進み、スイッチ操作が行われていないと判別した場合にはステップST3に戻る。
ステップST7で情報処理装置はPTT機能を終了する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを終了させる。また、制御部26は発話検知部232を制御して検知動作を終了させる。また、制御部26は背景音生成部241を制御して背景音生成動作を終了させる。さらに、制御部26は、送信部211を制御して送信処理を終了させてステップST1に戻る。
図4は、第1の実施の形態の動作例を示している。なお、ヘッドセット30の操作スイッチ33は、上述のようにプッシュスイッチが用いられており、操作スイッチ33が操作される毎に、PTT機能がオフ状態からオン状態、またはオン状態からオフ状態に切り替えられる場合について例示している。
時点t1で操作スイッチ33が操作されるとPTT機能はオン状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が開始される。また、通信部21では入力部23で受け付けた音声信号を送信する送信動作が開始される。さらに、入力部23で発話が検知されるまでは非発話期間であることから、背景音生成部241では非発話期間背景音信号が生成されて、出力部24から出力音声信号が供給されるスピーカ32では非発話期間背景音が出力される。したがって、ユーザは非発話期間背景音によってPTT機能がオン状態であることを判別できる。
その後、音声信号が入力部23に入力されて、時点t2で発話検知部232によって発話が検知されて発話期間の開始と判別されると、背景音生成部241では発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。したがって、ユーザは発話期間背景音によって、音声の送信が行われていることを判別できる。
音声信号が入力部23に入力されなくなり時点t3で発話検知部232によって終話が検知されて発話期間の終了と判別されると、背景音生成部241では非発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。したがって、ユーザは非発話期間背景音によって、音声の送信が終了したことを判別できる。
その後、音声信号が入力部23に入力されて、時点t4で発話検知部232によって発話が検知されて発話期間の開始と判別されると、スピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。また、音声信号が入力部23に入力されなくなり時点t5で発話検知部232によって終話が検知されて発話期間の終了と判別されると、スピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。
また、時点t6で操作スイッチ33が操作されるとPTT機能はオフ状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が終了される。また、通信部21では入力部23で受け付けた音声信号を送信する送信動作が終了される。さらに、背景音生成部241では背景音信号の生成が終了される。したがって、ユーザは発話期間背景音と非発話期間背景音のいずれも出力されないことからPTT機能がオフ状態であることを判別できる。
このように、第1の実施の形態によれば、PTT機能がオン状態であるとき、発話期間背景音または非発話期間背景音が出力される。したがって、スイッチの操作位置や出力部24の表示画面を確認しなくとも、PTT機能がオン状態であることを背景音で容易に判別できるようになる。また、発話期間では、非発話期間背景音と異なる発話期間背景音が出力されるので、マイク31から供給された音声信号が送信されていることを発話期間背景音によって容易に判別できる。さらに、発話背景音信号を非発話背景音信号よりも信号レベルを小さく、例えば発話背景音信号の信号レベルを最小とすれば、マイク31から供給された音声信号が送信されているときに背景音が気にならないようにできる。
<4.情報処理装置の第2の形態の構成>
図5は、情報処理装置の第2の形態の構成を示している。なお、図5では、情報処理装置20におけるVOX((Voice Operation Transmission)機能を用いた音声通信に関する機能ブロックの構成を例示している。
図5は、情報処理装置の第2の形態の構成を示している。なお、図5では、情報処理装置20におけるVOX((Voice Operation Transmission)機能を用いた音声通信に関する機能ブロックの構成を例示している。
通信部21は、送信部211と受信部212を有しており、入力部23は、マイク入力制御部231と発話検知部232を有している。また、出力部24は、背景音生成部241と音声合成部242を有している。
通信部21の送信部211は、入力部23の発話検知部232で検出された発話期間に入力部23のマイク入力制御部231から供給された音声信号を、制御部26からの制御信号によって指示された送信先を示してサーバ40に送信する。受信部212は、受信音声信号を出力部24の音声合成部242へ出力する。
入力部23のマイク入力制御部231は、制御部26からの制御信号に基づき、例えばヘッドセット30のマイク31で生成された音声信号の受け入れを制御する。マイク入力制御部231は、音声信号を受け入れる場合、マイク31から供給された音声信号を発話検知部232と通信部21の送信部211へ出力する。発話検知部232は、制御部52からの制御信号に基づき発話検知動作を行い、マイク31から供給された音声信号を用いて発話期間を検知して発話検知結果を通信部21の送信部211と出力部24の背景音生成部241へ出力する。
出力部24の背景音生成部241は、制御部26からの制御信号に基づき背景音生成動作を行い、発話検知結果に応じて背景音を生成する。例えば背景音生成部241は、発話期間と非発話期間で異なる背景音信号を生成する。背景音信号は、会話音と区別が可能な背景音の信号あればよく、例えばノイズ音やメロディ音の信号等を用いる。また、発話期間と非発話期間で異なる背景音信号としては、異なる種類のノイズ音またはメロディ音の信号であってもよく、同じ種類の音であって信号レベルが異なる信号であってもよい。なお、本技術における異なる背景音信号は、信号レベルが「0」である場合を含む。背景音生成部241は、生成した背景音信号を音声合成部242へ出力する。音声合成部242は、受信部212から供給された受信音声信号と背景音生成部241で生成された背景音信号を合成して出力音声信号を生成する。音声合成部242は、生成した出力音声信号を、例えばヘッドセット30のスピーカ32へ出力する。
制御部26は、例えばヘッドセット30の操作スイッチ33からの操作信号に基づき、VOX((Voice Operation Transmission)機能を用いた音声通信の制御動作を行う。制御部26は、VOXがオン状態である期間中、マイク31から供給された音声信号をマイク入力制御部231で受け入れて送信部211へ供給させる。また、制御部26は、VOXがオン状態である期間中、発話検知部232と背景音生成部241を動作させて、発話期間と非発話期間で異なる背景音信号を生成して、スピーカ32へ出力させる。また、制御部26は、VOXがオン状態である期間は、発話検知部232で検知された発話期間を送信部211の送信動作期間として、発話期間にマイク入力制御部231で受け入れた音声信号の送信先を指定してサーバ40へ送信させる。
<5.情報処理装置の第2の形態の動作>
図6は、第2の実施の形態の動作を示すフローチャートである。ステップST11で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST12に進み、スイッチ操作が行われていないと判別した場合にはステップST11に戻る。
図6は、第2の実施の形態の動作を示すフローチャートである。ステップST11で情報処理装置はスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST12に進み、スイッチ操作が行われていないと判別した場合にはステップST11に戻る。
ステップST12で情報処理装置はVOX機能を開始する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを開始する。また、制御部26は発話検知部232の検知動作を開始してステップST13に進む。
ステップST13で情報処理装置は発話期間であるか判別する。情報処理装置20の発話検知部232は、マイク入力制御部231から出力される音声信号を用いて発話期間であるか検出する。発話検知部232は、マイク入力制御部231から音声信号が出力されたことを検出したとき発話期間の開始として、音声信号が出力されない期間が所定期間よりも長くなったとき発話期間の終了として、発話期間であると判別したときステップST14に進み、発話期間でないと判別したときステップST16に進む。
ステップST14で情報処理装置は音声信号を送信する。発話検知部232と制御部26は、送信部211を制御して、発話期間は送信処理を行うようにして、マイク入力制御部231から供給される音声信号を所望の送信先に送信させてステップST15に進む。
ステップST15で情報処理装置は発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、発話期間であると判別したときは発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき発話期間背景音を出力してステップST17に進む。
ステップST16で情報処理装置は非発話期間背景音を出力する。情報処理装置20の背景音生成部241は、発話検知部232からの発話検知結果に基づき、非発話期間であると判別したときは非発話期間背景音信号を生成して音声合成部242へ出力する。音声合成部242は、非発話期間背景音信号を用いて音声合成を行い出力音声信号を生成してヘッドセット30へ出力する。ヘッドセット30のスピーカ32は、出力音声信号に基づき非発話期間背景音を出力させてステップST17に進む。
ステップST17でスイッチ操作が行われたか判別する。情報処理装置20の制御部26は、ヘッドセット30の操作スイッチ33からの操作信号に基づき、スイッチ操作が行われたと判別した場合にはステップST18に進み、スイッチ操作が行われていないと判別した場合にはステップST13に戻る。
ステップST18で情報処理装置はVOX機能を終了する。情報処理装置20の制御部26は、マイク入力制御部231を制御してマイク31から供給された音声信号の受け入れを終了させる。また、制御部26は発話検知部232を制御して検知動作を終了させる。さらに、制御部26は、背景音生成部241を制御して背景音生成動作を終了させてステップST11に戻る。
図7は、第2の実施の形態の動作例を示している。なお、ヘッドセット30の操作スイッチ33は、上述のようにプッシュスイッチが用いられており、操作スイッチ33が操作される毎に、VOX機能がオフ状態からオン状態、またはオン状態からオフ状態に切り替えられる場合について例示している。
時点t11で操作スイッチ33が操作されるとVOX機能はオン状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が開始される。さらに、入力部23で発話が検知されるまでは非発話期間であることから、背景音生成部241では非発話期間背景音信号が生成されて、出力部24から出力音声信号が供給されるスピーカ32では非発話期間背景音が出力される。したがって、ユーザは非発話期間背景音によってVOX機能がオン状態であることを判別できる。
その後、音声信号が入力部23に入力されて、時点t12で発話検知部232によって発話が検知されて発話期間の開始と判別されると、通信部21では入力部23で受け付けた音声信号を送信する送信動作が開始される。また、背景音生成部241では発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。したがって、ユーザは発話期間背景音によって、音声の送信が行われていることを判別できる。
音声信号が入力部23に入力されなくなり時点t13で発話検知部232によって終話が検知されて発話期間の終了と判別されると、通信部21では送信動作が終了されて、背景音生成部241では非発話期間背景音信号が生成される。このため、出力部24から出力音声信号が供給されるスピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。したがって、ユーザは非発話期間背景音によって、音声の送信が終了したことを判別できる。
その後、音声信号が入力部23に入力されて、時点t14で発話検知部232によって発話が検知されて発話期間の開始と判別されると、通信部21では音声信号の送信動作が開始されて、スピーカ32の出力は非発話期間背景音から発話期間背景音に切り替えられる。また、音声信号が入力部23に入力されなくなり時点t15で発話検知部232によって終話が検知されて発話期間の終了と判別されると、通信部21では送信動作が終了されて、スピーカ32の出力は発話期間背景音から非発話期間背景音に切り替えられる。
また、時点t16で操作スイッチ33が操作されるとVOX機能はオフ状態とされて、入力部23ではマイク31から供給された音声信号の受け入れと発話検知動作が終了される。また、背景音生成部241では背景音信号の生成が終了される。したがって、ユーザは発話期間背景音と非発話期間背景音のいずれも出力されないことからVOX機能がオフ状態であることを判別できる。
このように、第2の実施の形態によれば、VOX機能がオン状態であるとき、発話期間背景音または非発話期間背景音が出力されるので、スイッチの操作位置や出力部24の表示画面を確認しなくとも、VOX機能がオン状態であることを背景音で容易に判別できるようになる。また、発話期間では、非発話期間背景音と異なる発話期間背景音が出力されるので、マイク31から供給された音声信号が送信されていることを発話期間背景音によって容易に判別できる。さらに、非発話背景音信号を発話背景音信号よりも信号レベルを小さく、例えば非発話背景音信号の信号レベルを最小とすれば、受信部212で受信した受信音声信号に背景音信号を重畳して出力音声信号を生成する場合、受信音声を聞き取る際に背景音の影響を少なくできる。
<6.変形例>
上述の第1の実施の形態ではPTT機能を用いる場合、第2の実施の形態ではVOX機能を用いる場合について説明したが、情報処理装置はPTT機能とVOX機能を有しており、いずれかを選択して利用可能としてもよい。この場合、非発話期間背景音は、PTT機能とVOX機能とで異なる背景音とすることで、スピーカ32から出力される音声でいずれの機能が利用されているかを容易に判別できるようになる。
上述の第1の実施の形態ではPTT機能を用いる場合、第2の実施の形態ではVOX機能を用いる場合について説明したが、情報処理装置はPTT機能とVOX機能を有しており、いずれかを選択して利用可能としてもよい。この場合、非発話期間背景音は、PTT機能とVOX機能とで異なる背景音とすることで、スピーカ32から出力される音声でいずれの機能が利用されているかを容易に判別できるようになる。
発話検知部232では、発話と終話の検知動作を行い発話期間を検知したが、マイク入力制御部231で受け入れされたマイク31からの音声信号に基づきユーザの周囲音レベルを検出して、背景音生成部241は、周囲音レベルに応じて非発話期間背景音信号の信号レベルを調整すれば、非発話期間背景音を聞き取りやすいレベルにできる。
また、上述の実施の形態では、PTT機能あるいはVOX機能をヘッドセット30に設けられた操作スイッチ33のスイッチ操作に応じて動作させたが、情報処理装置20の入力部23のタッチパネル等の操作に応じて動作させてもよい。図8は、情報処理装置20の表示画面を例示している。情報処理装置20は、例えばアプリ画面上にPTTボタン表示DBが設けられている。また、PTTボタン表示DBは、表示画面を見なくともPTTボタン表示の位置をタッチできるように、例えば画面中央に大きく表示されている。制御部26はPTTボタン表示の位置がタッチされる毎に、PTT機能をオフ状態からオン状態あるいはオン状態からオフ状態に切り替える。また、アプリ画面上にVOXボタン表示を設けて、VOXボタン表示の位置がタッチされる毎に、VOX機能をオフ状態からオン状態あるいはオン状態からオフ状態に切り替えてもよい。このように、情報処理装置20で、PTT機能の動作切り替えやVOX機能の動作切り替えを行うようにすれば、スイッチが設けられていないヘッドセットを使用しても上述の実施の形態の動作を行うことができる。
また、情報処理装置20がスマートフォン等のようにアプリケーションプログラムの追加が可能である場合、上述の実施の形態の動作を行うアプリケーションプログラムが予めインストールされている場合に限らず、アプリケーションプログラムを追加して、上述の実施の形態の動作を行うことができるようにしてもよい。
さらに、情報処理装置20の入力部23にマイク235が設けられており、出力部24にスピーカ245が設けられていれば、ヘッドセットを使用していない場合でも、情報処理装置20のマイク235とスピーカ245を使用して、上述の実施の形態と同様な動作を行うことができる。また、情報処理装置20はスマートフォンに限らず、フィーチャーフォンや無線通信装置等であってもよい。
明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやSSD(Solid State Drive)、ROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、BD(Blu-Ray Disc(登録商標))、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからLAN(Local Area Network)やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。
また、本技術の情報処理装置は以下のような構成も取ることができる。
(1) 入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置。
(2) 前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成する(1)に記載の情報処理装置。
(3) 前記発話背景音信号と前記非発話背景音信号は、異なる背景音信号である(2)に記載の情報処理装置。
(4) 前記異なる背景音信号は、異なるノイズ信号またはメロディ音信号である(3)に記載の情報処理装置。
(5) 前記発話背景音信号と前記非発話背景音信号は、信号レベルが異なる(3)または(4)に記載の情報処理装置。
(6) 前記発話背景音信号は、前記入力音声信号を利用して生成する(3)乃至(5)のいずれかに記載の情報処理装置。
(7) 前記制御部は、前記操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とする(2)乃至(6)のいずれかに記載の情報処理装置。
(8) 前記背景音生成部は、前記発話背景音信号を前記非発話背景音信号よりも信号レベルを小さくする(7)に記載の情報処理装置。
(9) 前記背景音生成部は、前記発話背景音信号の信号レベルを最小とする(8)に記載の情報処理装置。
(10) 前記制御部は、前記操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とする(2)乃至(6)のいずれかに記載の情報処理装置。
(11) 前記背景音生成部は、前記非発話背景音信号を前記発話背景音信号よりも信号レベルを小さくする(10)に記載の情報処理装置。
(12) 前記背景音生成部は、前記非発話背景音信号の信号レベルを最小とする(11)に記載の情報処理装置。
(13) 前記音声合成部は、前記通信部で受信した音声信号に前記背景音生成部で生成された背景音信号を合成して出力音声信号を生成する(1)乃至(12)のいずれかに記載の情報処理装置。
(14) 前記入力音声信号は、ヘッドセットのマイクで集音された音声を示す信号であり、
前記出力音声信号は、前記ヘッドセットのスピーカに供給される信号である(1)乃至(13)のいずれかに記載の情報処理装置。
(15) 前記操作信号は、前記ユーザ操作を受け付ける入力部で前記ユーザ操作に応じて生成された信号または前記ヘッドセットに設けられた操作スイッチで前記ユーザ操作に応じて生成された信号である(14)に記載の情報処理装置。
(1) 入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置。
(2) 前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成する(1)に記載の情報処理装置。
(3) 前記発話背景音信号と前記非発話背景音信号は、異なる背景音信号である(2)に記載の情報処理装置。
(4) 前記異なる背景音信号は、異なるノイズ信号またはメロディ音信号である(3)に記載の情報処理装置。
(5) 前記発話背景音信号と前記非発話背景音信号は、信号レベルが異なる(3)または(4)に記載の情報処理装置。
(6) 前記発話背景音信号は、前記入力音声信号を利用して生成する(3)乃至(5)のいずれかに記載の情報処理装置。
(7) 前記制御部は、前記操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とする(2)乃至(6)のいずれかに記載の情報処理装置。
(8) 前記背景音生成部は、前記発話背景音信号を前記非発話背景音信号よりも信号レベルを小さくする(7)に記載の情報処理装置。
(9) 前記背景音生成部は、前記発話背景音信号の信号レベルを最小とする(8)に記載の情報処理装置。
(10) 前記制御部は、前記操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とする(2)乃至(6)のいずれかに記載の情報処理装置。
(11) 前記背景音生成部は、前記非発話背景音信号を前記発話背景音信号よりも信号レベルを小さくする(10)に記載の情報処理装置。
(12) 前記背景音生成部は、前記非発話背景音信号の信号レベルを最小とする(11)に記載の情報処理装置。
(13) 前記音声合成部は、前記通信部で受信した音声信号に前記背景音生成部で生成された背景音信号を合成して出力音声信号を生成する(1)乃至(12)のいずれかに記載の情報処理装置。
(14) 前記入力音声信号は、ヘッドセットのマイクで集音された音声を示す信号であり、
前記出力音声信号は、前記ヘッドセットのスピーカに供給される信号である(1)乃至(13)のいずれかに記載の情報処理装置。
(15) 前記操作信号は、前記ユーザ操作を受け付ける入力部で前記ユーザ操作に応じて生成された信号または前記ヘッドセットに設けられた操作スイッチで前記ユーザ操作に応じて生成された信号である(14)に記載の情報処理装置。
この技術の情報処理装置と情報処理方法およびプログラムによれば、入力音声信号に基づき発話期間が検知されて、発話期間の検知結果に応じて背景音信号の生成が行われる。また、生成された背景音信号を用いた合成処理によって出力音声信号が生成される。さらに、ユーザ操作に応じた操作信号に基づき発話期間を検知する検知期間が設定されて、発話期間の入力音声信号が通信部から送信される。このため、出力音声信号によって示される背景音によって音声送信状態であるかを容易に判別できるようになる。したがって、スイッチの状態や機能の設定状態を目視で確認することが困難な状況下で使用されるPTT機能やVOX機能を有した機器に適している。
10・・・システム
20,20-x・・・情報処理装置
21・・・通信部
22・・・撮像部
23・・・入力部
24・・・出力部
25・・・記憶部
26,52・・・制御部
30・・・ヘッドセット
31,235・・・マイク
32,245・・・スピーカ
33・・・操作スイッチ
40・・・サーバ
50・・・ネットワーク
211・・・送信部
212・・・受信部
231・・・マイク入力制御部
232・・・発話検知部
241・・・背景音生成部
242・・・音声合成部
20,20-x・・・情報処理装置
21・・・通信部
22・・・撮像部
23・・・入力部
24・・・出力部
25・・・記憶部
26,52・・・制御部
30・・・ヘッドセット
31,235・・・マイク
32,245・・・スピーカ
33・・・操作スイッチ
40・・・サーバ
50・・・ネットワーク
211・・・送信部
212・・・受信部
231・・・マイク入力制御部
232・・・発話検知部
241・・・背景音生成部
242・・・音声合成部
Claims (20)
- 入力音声信号に基づき発話期間を検知する発話検知部と、
前記発話検知部の発話期間検知結果に応じて背景音信号を生成する背景音生成部と、
前記背景音生成部で生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する音声合成部と、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を行う制御部と
を備える情報処理装置。 - 前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成する
請求項1に記載の情報処理装置。 - 前記発話背景音信号と前記非発話背景音信号は、異なる背景音信号である
請求項2に記載の情報処理装置。 - 前記異なる背景音信号は、異なるノイズ信号またはメロディ音信号である
請求項3に記載の情報処理装置。 - 前記発話背景音信号と前記非発話背景音信号は、信号レベルが異なる
請求項3に記載の情報処理装置。 - 前記発話背景音信号は、前記入力音声信号を利用して生成する
請求項3に記載の情報処理装置。 - 前記制御部は、前記操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とする
請求項2に記載の情報処理装置。 - 前記背景音生成部は、前記発話背景音信号を前記非発話背景音信号よりも信号レベルを小さくする
請求項7に記載の情報処理装置。 - 前記背景音生成部は、前記発話背景音信号の信号レベルを最小とする
請求項8に記載の情報処理装置。 - 前記制御部は、前記操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とする
請求項2記載の情報処理装置。 - 前記背景音生成部は、前記非発話背景音信号を前記発話背景音信号よりも信号レベルを小さくする
請求項10に記載の情報処理装置。 - 前記背景音生成部は、前記非発話背景音信号の信号レベルを最小とする
請求項11に記載の情報処理装置。 - 前記音声合成部は、音声信号の通信を行う通信部で受信した音声信号に前記背景音生成部で生成された背景音信号を合成して出力音声信号を生成する
請求項1に記載の情報処理装置。 - 前記入力音声信号は、ヘッドセットのマイクで集音された音声を示す信号であり、
前記出力音声信号は、前記ヘッドセットのスピーカに供給される信号である
請求項1に記載の情報処理装置。 - 前記操作信号は、前記ユーザ操作を受け付ける入力部で前記ユーザ操作に応じて生成された信号または前記ヘッドセットに設けられた操作スイッチで前記ユーザ操作に応じて生成された信号である
請求項14に記載の情報処理装置。 - 入力音声信号に基づき発話期間を発話検知部で検知することと、
前記発話検知部の発話期間検知結果に応じて背景音信号を背景音生成部で生成することと、
前記背景音生成部で生成された背景音信号を用いた合成処理を音声合成部で行い出力音声信号を生成することと、
ユーザ操作に応じた操作信号に基づき、前記発話検知部の検知期間の設定と前記入力音声信号の送信処理を制御部で行わせること
を含む情報処理方法。 - 前記背景音生成部は、前記発話検知部で検出した発話期間中に発話背景音信号を生成して、非発話期間中に非発話背景音信号を生成することをさらに含む
請求項16に記載の情報処理方法。 - 前記制御部は、前記操作信号に基づきPTT(Push to Talk)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間および前記入力音声信号の通信を行う通信部における送信動作期間とすることをさらに含む
請求項16に記載の情報処理方法。 - 前記制御部は、前記操作信号に基づきVOX(Voice Operation Transmission)機能をオン状態またはオフ状態として、前記オン状態の期間を前記発話検知部における検知期間と前記背景音生成部における背景音信号の生成期間として、前記発話検知部で検知された発話期間を、前記入力音声信号の通信を行う通信部における送信動作期間とすることをさらに含む
請求項16記載の情報処理方法。 - 入力音声信号の送信制御をコンピュータで実行させるプログラムであって、
前記入力音声信号に基づき発話期間を検知する手順と、
前記発話期間の検知結果に応じて背景音信号を生成する手順と、
前記生成された背景音信号を用いた合成処理を行い、出力音声信号を生成する手順と、
ユーザ操作に応じた操作信号に基づき、前記発話期間を検知する検知期間の設定と、前記入力音声信号の送信処理を行う手順と
を前記コンピュータで実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018143764 | 2018-07-31 | ||
JP2018143764 | 2018-07-31 | ||
PCT/JP2019/019513 WO2020026562A1 (ja) | 2018-07-31 | 2019-05-16 | 情報処理装置と情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020026562A1 true JPWO2020026562A1 (ja) | 2021-08-12 |
JP7251549B2 JP7251549B2 (ja) | 2023-04-04 |
Family
ID=69232435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020534071A Active JP7251549B2 (ja) | 2018-07-31 | 2019-05-16 | 情報処理装置と情報処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210320684A1 (ja) |
JP (1) | JP7251549B2 (ja) |
WO (1) | WO2020026562A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002344378A (ja) * | 2001-05-21 | 2002-11-29 | Pioneer Electronic Corp | 無線通信端末 |
JP2008060697A (ja) * | 2006-08-29 | 2008-03-13 | Matsushita Electric Ind Co Ltd | 半二重通話装置 |
JP2012099999A (ja) * | 2010-11-01 | 2012-05-24 | Hitachi Kokusai Electric Inc | Vox機能付き無線端末 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
JP4333369B2 (ja) * | 2004-01-07 | 2009-09-16 | 株式会社デンソー | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 |
CN108141488A (zh) * | 2015-08-14 | 2018-06-08 | 霍尼韦尔国际公司 | 包括与个人防护装备设备的无线通信的通信耳机 |
WO2019186403A1 (en) * | 2018-03-29 | 2019-10-03 | 3M Innovative Properties Company | Voice-activated sound encoding for headsets using frequency domain representations of microphone signals |
US20230110708A1 (en) * | 2021-10-11 | 2023-04-13 | Bitwave Pte Ltd | Intelligent speech control for two way radio |
-
2019
- 2019-05-16 US US17/250,435 patent/US20210320684A1/en not_active Abandoned
- 2019-05-16 WO PCT/JP2019/019513 patent/WO2020026562A1/ja active Application Filing
- 2019-05-16 JP JP2020534071A patent/JP7251549B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002344378A (ja) * | 2001-05-21 | 2002-11-29 | Pioneer Electronic Corp | 無線通信端末 |
JP2008060697A (ja) * | 2006-08-29 | 2008-03-13 | Matsushita Electric Ind Co Ltd | 半二重通話装置 |
JP2012099999A (ja) * | 2010-11-01 | 2012-05-24 | Hitachi Kokusai Electric Inc | Vox機能付き無線端末 |
Also Published As
Publication number | Publication date |
---|---|
US20210320684A1 (en) | 2021-10-14 |
WO2020026562A1 (ja) | 2020-02-06 |
JP7251549B2 (ja) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101913888B1 (ko) | 제어 장치, 제어 방법 및 프로그램 | |
JP6931819B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
CN105262452A (zh) | 音量调整方法、装置及终端 | |
JP2011118822A (ja) | 電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム | |
WO2013024704A1 (ja) | 画像処理装置および方法、並びにプログラム | |
US20120287283A1 (en) | Electronic device with voice prompt function and voice prompt method | |
JP2022050516A (ja) | 端末、音声連携再生システム及びコンテンツ表示装置 | |
JP2006215206A (ja) | 音声処理装置およびその制御方法 | |
CN110996308A (zh) | 声音播放设备及其控制方法、控制装置和可读存储介质 | |
JP7284570B2 (ja) | 音声再生システムおよびプログラム | |
JP7251549B2 (ja) | 情報処理装置と情報処理方法およびプログラム | |
JP2010093554A (ja) | 通信装置、文字通話制御方法、及び通信制御プログラム | |
US11735187B2 (en) | Hybrid routing for hands-free voice assistant, and related systems and methods | |
WO2018090343A1 (zh) | 麦克风、音频处理的方法及装置 | |
JP2018074220A (ja) | 音声処理装置 | |
JP2022016997A (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
JP2017164030A (ja) | ショーのための情報支援システム | |
JP2011199855A (ja) | 携帯機器 | |
WO2019207867A1 (ja) | 電子機器及び処理システム | |
JP2018084843A (ja) | 入出力装置 | |
JP6559051B2 (ja) | 発声機能を備えたロボット装置、発声制御方法およびプログラム | |
JP2014202808A (ja) | 入出力装置 | |
JP2019028160A (ja) | 電子装置および情報端末システム | |
JP4672152B2 (ja) | 音声出力制御装置 | |
KR102001314B1 (ko) | 노래방 녹음 음질 개선 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230306 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7251549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |