WO2019234952A1 - 音声処理装置および翻訳装置 - Google Patents
音声処理装置および翻訳装置 Download PDFInfo
- Publication number
- WO2019234952A1 WO2019234952A1 PCT/JP2018/044735 JP2018044735W WO2019234952A1 WO 2019234952 A1 WO2019234952 A1 WO 2019234952A1 JP 2018044735 W JP2018044735 W JP 2018044735W WO 2019234952 A1 WO2019234952 A1 WO 2019234952A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- period
- audio signal
- signal
- input
- voice
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/542—Event management; Broadcasting; Multicasting; Notifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/002—Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/007—Volume compression or expansion in amplifiers of digital or coded signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Abstract
音声処理装置(1)は、入力部(10a,10b)と、処理部(22)と、レベル検出部(21)と、出力音声変換部(24)と、出力部(12)と、を備える。入力部(10a,10b)は、音声を入力し、入力音声信号を生成する。処理部(22)は、入力音声信号に基づき第1の出力音声信号を生成する。レベル検出部(21)は、入力音声信号において信号レベルが所定レベルより大きい第1期間を検出する。出力音声変換部(24)は、第1の出力音声信号において、第1期間に対応する第2期間の信号レベルを、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する。出力部(12)は、第2の出力音声信号に基づく音声を出力する。
Description
本開示は、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供する。
特許文献1は、1つの言語による入力音声を、複数の言語による音声に翻訳することができるテレビシステムを開示している。テレビシステムは、入力音声信号を、音量、音調、および音色に分解する。テレビシステムは、分解した、音量、音調、および音色と融合させた、複数の言語による翻訳音声信号を出力する。
過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供する。
本開示の音声処理装置は、入力部と、処理部と、レベル検出部と、出力音声変換部と、出力部と、を備える。入力部は、音声を入力し、入力音声信号を生成する。処理部は、入力音声信号に基づき第1の出力音声信号を生成する。レベル検出部は、入力音声信号において信号レベルが所定レベルより大きい第1期間を検出する。出力音声変換部は、第1の出力音声信号において、第1期間に対応する第2期間の信号レベルを、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する。出力部は、第2の出力音声信号に基づく音声を出力する。
本開示によれば、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供することができる。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。以下の各実施の形態では、音声処理装置の実施の形態として、翻訳装置を説明する。
(実施の形態1)
1.構成
1-1.翻訳装置の概要
図1は、実施の形態1に係る音声処理装置の一実施の形態である翻訳装置の外観を示す図である。図1に示す翻訳装置1は、第1の言語で話すホストと第2の言語で話すゲストとの間の会話を翻訳する装置である。翻訳装置1を介して、ホストおよびゲストは対面してそれぞれの言語で会話することができる。翻訳装置1は、第1の言語から第2の言語への翻訳と、第2の言語から第1の言語への翻訳とを行う。翻訳装置1は、翻訳結果を音声で出力する。ホストおよびゲストは、翻訳装置1から出力される音声により、発話している内容をお互いに把握することができる。例えば、第1の言語は日本語であり、第2の言語は英語である。
1.構成
1-1.翻訳装置の概要
図1は、実施の形態1に係る音声処理装置の一実施の形態である翻訳装置の外観を示す図である。図1に示す翻訳装置1は、第1の言語で話すホストと第2の言語で話すゲストとの間の会話を翻訳する装置である。翻訳装置1を介して、ホストおよびゲストは対面してそれぞれの言語で会話することができる。翻訳装置1は、第1の言語から第2の言語への翻訳と、第2の言語から第1の言語への翻訳とを行う。翻訳装置1は、翻訳結果を音声で出力する。ホストおよびゲストは、翻訳装置1から出力される音声により、発話している内容をお互いに把握することができる。例えば、第1の言語は日本語であり、第2の言語は英語である。
翻訳装置1は、ゲスト側マイク10aと、ホスト側マイク10bと、スピーカ12と、ディスプレイ14と、タッチパネル15と、を備える。ゲスト側マイク10aおよびホスト側マイク10bは、入力部の一例である。スピーカ12は、出力部の一例である。
ゲスト側マイク10aは、ゲストが発話した音声をデジタル音声信号である入力音声データに変換する。ホスト側マイク10bは、ホストが発話した音声をデジタル音声信号である入力音声データに変換する。すなわち、ゲスト側マイク10a及びホスト側マイク10bは、音声処理装置1に音声データを入力する音声入力部として機能する。
ディスプレイ14は、ゲストまたはホストによる操作に基づいて、文字列や画像を表示する。ディスプレイ14は、液晶ディスプレイまたは有機ELディスプレイなどで構成される。
タッチパネル15は、ディスプレイ14に重畳して配置されている。タッチパネル15は、ゲストまたはホストによるタッチ操作を受け付けることができる。
スピーカ12は、音声を出力する装置であり、例えば、翻訳結果の内容を示す音声を出力する。
図1において、翻訳装置1は、ディスプレイ14に、ゲスト側の音声入力ボタン14aとホスト側の音声入力ボタン14bとを表示している。翻訳装置1は、音声入力ボタン14a,14bの押下を、タッチパネル15を介して検出する。
翻訳装置1は、ゲストによる音声入力ボタン14aの押下を検出すると、ゲスト側マイク10aから入力音声データの取得を開始する。翻訳装置1は、入力音声データの取得中に音声入力ボタン14aの押下を再度検出すると、入力音声データの取得を終了する。翻訳装置1は、例えば、英語から日本語への翻訳処理を行って、日本語の出力音声データを、スピーカ12から出力する。
また、翻訳装置1は、ホストによる音声入力ボタン14bの押下を検出すると、ホスト側マイク10bから入力音声データの取得を開始する。翻訳装置1は、入力音声データの取得中に音声入力ボタン14bの押下を再度検出すると、入力音声データの取得を終了する。翻訳装置1は、例えば、日本語から英語への翻訳処理を行って、英語の出力音声データを、スピーカ12から出力する。なお、翻訳装置1は、ゲスト側マイク10a及びホスト側マイク10bからの入力音声データの音量レベルが所定の閾値以下になったことを検出することにより、自動的に入力音声データの取得を終了してもよい。
1-2.翻訳システムの構成
図2は、本実施の形態に係る翻訳システムの構成を示すブロック図である。図2に示す翻訳システムは、図1の翻訳装置1に加えて、音声認識サーバ3と、翻訳サーバ4と、音声合成サーバ5とをさらに備える。
図2は、本実施の形態に係る翻訳システムの構成を示すブロック図である。図2に示す翻訳システムは、図1の翻訳装置1に加えて、音声認識サーバ3と、翻訳サーバ4と、音声合成サーバ5とをさらに備える。
音声認識サーバ3は、翻訳装置1からネットワーク2を介して入力音声データを受信し、入力音声データを音声認識して文字列の音声認識データを生成するサーバである。
翻訳サーバ4は、翻訳装置1からネットワーク2を介して音声認識データを受信し、音声認識データを翻訳して文字列の翻訳データを生成するサーバである。本実施の形態において、翻訳サーバ4は、日本語の文字列を英語の文字列に、あるいは英語の文字列を日本語の文字列に翻訳する。
音声合成サーバ5は、翻訳装置1からネットワーク2を介して文字列の翻訳データを受信し、翻訳データを音声合成して音声合成データを生成するサーバである。
1-3.翻訳装置の内部構成
翻訳装置1は、記憶部23と、通信部18と、制御部20と、をさらに備える。
翻訳装置1は、記憶部23と、通信部18と、制御部20と、をさらに備える。
記憶部23は、フラッシュメモリ、SSD(Solid State Device)および/またはハードディスク等で構成される。記憶部23は翻訳装置1の各種機能を実現するために必要なプログラムおよびデータを記憶する。
制御部20は、例えばソフトウェアと協働して所定の機能を実現するCPUまたはMPU等を含み、翻訳装置1の全体動作を制御する。制御部20は、記憶部23に記憶された所定のプログラムおよびデータ等を読み込んで演算処理を実行することにより、種々の機能を実現する。例えば、制御部20は、機能的な構成として、レベル検出部21と、翻訳部22と、出力音声変換部24とを含む。制御部20は、所定の機能を実現するように専用に設計された電子回路でもよい。すなわち、制御部20は、CPU、MPU、GPU、DSP、FPGA、または、ASIC等、種々のプロセッサを含んでもよい。翻訳部22は、処理部の一例である。
レベル検出部21は、ホストまたはゲストが入力した入力音声データの入力レベルが所定のしきい値を超えているか否かを検出する。
翻訳部22は、外部の音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5と連携しながら翻訳処理を実施する。具体的には、翻訳部22は、音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5と連携して、マイク10a、10bを介して入力した音声データから、翻訳結果の内容を示す音声を生成するデータである音声合成データを生成する処理を行う。
出力音声変換部24は、音声合成サーバ5からネットワーク2を介して受信した音声合成データを、レベル検出部21が検出した音声の入力レベルに基づいて、出力音声データに変換する。
通信部18は、制御部20の制御によって、翻訳装置1からネットワーク2を介して外部のサーバに各種情報を送信したり、外部のサーバから各種情報を受信したりする。通信部18は、3G、4G、Wi-Fi、Bluetooth(登録商標)、LAN等の所定の通信規格で通信を行う通信モジュールや通信回路で構成される。
2.本開示が解決しようとする課題
以上のように構成される翻訳処理システムにおいて、ゲストまたはホストが過大な音量で翻訳装置1に音声を入力した場合に、音声処理システムは、入力された音声を適切に翻訳できない場合がある。以下にこれを説明する。
以上のように構成される翻訳処理システムにおいて、ゲストまたはホストが過大な音量で翻訳装置1に音声を入力した場合に、音声処理システムは、入力された音声を適切に翻訳できない場合がある。以下にこれを説明する。
図3A、図3Bは、翻訳装置1に入力される音声データが示す音声信号の波形を示す図である。図3Aは、適正な入力レベル、すなわち、所定の許容入力レベル以下のレベルの音声に対する音声データが示す音声信号の波形を示す。図3Aの音声データでは、波形は飽和しておらず、歪んでいない。この場合、翻訳処理システムは音声データを正しく認識することができる。
一方、図3Bは、過大な入力レベルで、すなわち、許容入力レベルを超えたレベルの音声が入力されたときに得られる音声データが示す音声信号の波形を示す。図3Bの音声データでは、波形が飽和して歪んでいるので、音声処理システムは本来の音声信号の波形を誤認識するおそれがある。
上記の課題を鑑み、本開示は、ゲストまたはホストに対して、過大な音量で音声データを入力していることについて気づきを与えることができる音声処理装置を提供する。以下、本実施の形態に係る、翻訳装置1の動作について説明する。
3.動作
翻訳装置1の動作について、図4~7を参照して説明する。図4は、本実施の形態に係る翻訳装置1による翻訳処理を示すフローチャートである。以下、図4を用いて、翻訳装置1による翻訳処理を説明する。
翻訳装置1の動作について、図4~7を参照して説明する。図4は、本実施の形態に係る翻訳装置1による翻訳処理を示すフローチャートである。以下、図4を用いて、翻訳装置1による翻訳処理を説明する。
最初に、翻訳装置1の制御部20が、音声入力ボタン14aまたは音声入力ボタン14bの押下を検出すると、発話者すなわちホストまたはゲストが発した音声の入力音声データをホスト側マイク10aまたはゲスト10bを介して取得する(S101)。
その後、制御部20は入力音声データをネットワーク2を介して音声認識サーバ3に送信する。音声認識サーバ3は、ネットワーク2を介して入力音声データを受信し、入力音声データに基づき音声認識処理を行い、文字列の音声認識データに変換する(S102)。音声認識データはテキスト形式のデータである。翻訳装置1の制御部20は、ネットワーク2を介して、音声認識サーバ3から音声認識データを受信し、受信した音声認識データを翻訳サーバ4に送信する。
翻訳サーバ4は、ネットワーク2を介して音声認識データを受信し、音声認識データを翻訳して文字列の翻訳データに変換する(S103)。翻訳データはテキスト形式のデータである。翻訳装置1の制御部20は、翻訳サーバ4からネットワーク2を介して翻訳データを受信し、受信した翻訳データを音声合成サーバ5に送信する。
音声合成サーバ5は、ネットワーク2を介して翻訳データを受信し、翻訳データに基づき音声合成を行い音声合成データに変換する(S104)。音声合成データは音声を再生するためのデータである。翻訳装置1の制御部20は、音声合成サーバ5からネットワーク2を介して音声合成データを受信する。
その後、翻訳装置1の制御部20は、音声合成データから出力音声データを生成する(S105)。特に、制御部20は、入力された音声の入力レベルが過大であると判断したときに、その事実が発話者に伝わるように音声合成データを変調して出力音声データを生成する。このような出力音声データの作成処理の詳細については、後述する。
最後に、翻訳装置1の制御部20は、出力音声データを再生し、翻訳結果を示す音声をスピーカ12から出力させる(S106)。
以上のようにして、翻訳装置1は、第1言語で発話された音声の内容を第2言語に翻訳し、翻訳した結果を音声で出力する。
以下、上記の翻訳処理における、音声合成データから出力音声データを作成する処理(図4のステップS105)の詳細を説明する。
図5A、図5B、図5Cは、翻訳装置1による音声処理を説明するための図である。図5Aは、入力音声データが示す音声信号の波形を示す。図5Bは、図5Aの入力音声データから変換された音声合成データが示す音声信号の波形を示す。図5Cは、図5Bの音声合成データから変換された出力音声データが示す音声信号の波形を示す。図6は、本実施の形態に係る、音声合成データから出力音声データを作成する処理を示すフローチャートである。
図6において、最初に、制御部20のレベル検出部21は、入力音声データが示す音声の入力レベルが所定レベルを超える期間である過大期間(第1期間)と、入力音声の開始時点から各過大期間の開始時点までの経過とを検出する(S201)。図5Aの例では、レベル検出部21は、過大期間Ta,Tb,Tcと、各過大期間まで経過時間ta,tb,tcと、を検出する。
次に、制御部20の出力音声変換部24は、音声合成データについて、入力音声データの過大期間に対応する増幅期間(第2期間)の出力レベルを増幅して、出力音声データを生成する(S202)。図5B、図5Cの例では、出力音声変換部24は、図5Bの音声合成データにおいて、音声合成データが示す音声の開始時点から経過時間taだけ経過した時点から過大期間Taと等しい長さの増幅期間Tasの間、出力音声レベルが増幅されて、図5Cの出力音声データが作成される。同様に、図5Cの出力音声データでは、図5Bの音声合成データについて、音声合成データが示す音声の開始時点から経過時間tb、tcだけ経過した時点から過大期間Tb、Tcと等しい長さの増幅期間Tbs、Tcsの間、その出力音声レベルが増幅されている。
なお、音声合成データの出力レベルの増幅処理には既存の技術を用いることができる。例えば、公知のコンプレッサ処理技術を用いて実現することができる。図7は、公知のコンプレッサ処理を説明するための図である。図7に示すように、音声信号80Aにおいて信号レベルが所定レベルを超える部分をカットし、音声信号80Bを生成する。音声信号80Bでは、波形81、82の部分がカットされている。そして、振幅が大きい部分がカットされた音声信号80Bを所定の増幅レベルまで増幅して、増幅した音声信号80Cを生成する。このようにして、音声信号を増幅することができる。
以上のように、本実施の形態の翻訳装置1は、入力音声が、所定レベルを超える過大期間を有する場合に、出力音声において、所定レベルを超える過大期間に対応する増幅期間のレベルを増大させる。入力音声の発話者、すなわち、ホストまたはゲストは、一部のレベルが増大された音声を聴くことにより、自身の発した音声が過大であることに気づくことができる。その際に、入力音声の発話者、すなわち、ホストまたはゲストは、適切な入力レベルとなるように、マイク10bまたは10aから遠ざかったり、音量を小さくしたりして、入力レベルを調整することが期待できる。
4.まとめ
以上説明したように、翻訳装置1は、ゲスト側マイク10aと、ホスト側マイク10bと、翻訳部22と、レベル検出部21と、出力音声変換部24と、スピーカ12と、を備える。ゲスト側マイク10aおよびホスト側マイク10bは、第1の言語での発話内容を示す音声を入力し、入力音声信号を生成する。翻訳部22は、入力音声信号が示す発話内容を第2の言語の発話内容に翻訳した結果を示す音声信号である第1の出力音声信号を生成する。レベル検出部21は、入力音声信号において信号レベルが所定レベルより大きい過大期間を検出する。出力音声変換部24は、第1の出力音声信号において、過大期間(第1期間)に対応する増幅期間(第2期間)の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して第2の出力音声信号を生成する。スピーカ12は、第2の出力音声信号に基づく音声を出力する。
以上説明したように、翻訳装置1は、ゲスト側マイク10aと、ホスト側マイク10bと、翻訳部22と、レベル検出部21と、出力音声変換部24と、スピーカ12と、を備える。ゲスト側マイク10aおよびホスト側マイク10bは、第1の言語での発話内容を示す音声を入力し、入力音声信号を生成する。翻訳部22は、入力音声信号が示す発話内容を第2の言語の発話内容に翻訳した結果を示す音声信号である第1の出力音声信号を生成する。レベル検出部21は、入力音声信号において信号レベルが所定レベルより大きい過大期間を検出する。出力音声変換部24は、第1の出力音声信号において、過大期間(第1期間)に対応する増幅期間(第2期間)の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して第2の出力音声信号を生成する。スピーカ12は、第2の出力音声信号に基づく音声を出力する。
このとき、入力音声信号における過大期間の長さと、第2の出力音声信号における増幅期間の長さとが一致し、かつ、入力音声信号において、入力音声信号の開始時点から過大期間の開始時点までの長さと、第2の出力音声信号において、第2の出力音声信号の開始時点から増幅期間までの長さとが一致する。
このことにより、本実施の形態の翻訳装置1は、入力音声が、所定レベルを超える過大期間を有する場合に、出力音声において、所定レベルを超える過大期間に対応する増幅期間のレベルを増大させる。入力音声の発話者、すなわち、ホストまたはゲストは、一部のレベルが増大された音声を聴くことにより、自身の発した音声が過大であることに気づくことができる。その際に、入力音声の発話者、すなわち、ホストまたはゲストは、適切な入力レベルとなるように、マイク10bまたは10aから遠ざかったり、音量を小さくしたりして、入力レベルを調整することが期待できる。
(実施の形態2)
実施の形態1の翻訳装置1は、出力音声データにおいて、入力音声データの過大期間と同じ開始タイミングで同じ長さの増幅期間だけ音声レベルを増幅した。入力音声データと出力音声データとは全体の長さは必ずしも同じでない。このため、実施の形態1のような増幅方法では、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識することが難しい。そこで、本実施の形態では、入力音声の全体期間に対する過大期間の相対的な位置関係及び長さの割合と、出力音声の全体期間に対する増幅期間の相対的な位置関係及び長さの割合とが等しくなるように増幅期間を設定する。これにより、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識し易くすることができる。以下、本実施の形態の処理を具体的に説明する。なお、本実施の形態の翻訳システムのハードウェア構成は実施の形態1のものと同様である。
実施の形態1の翻訳装置1は、出力音声データにおいて、入力音声データの過大期間と同じ開始タイミングで同じ長さの増幅期間だけ音声レベルを増幅した。入力音声データと出力音声データとは全体の長さは必ずしも同じでない。このため、実施の形態1のような増幅方法では、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識することが難しい。そこで、本実施の形態では、入力音声の全体期間に対する過大期間の相対的な位置関係及び長さの割合と、出力音声の全体期間に対する増幅期間の相対的な位置関係及び長さの割合とが等しくなるように増幅期間を設定する。これにより、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識し易くすることができる。以下、本実施の形態の処理を具体的に説明する。なお、本実施の形態の翻訳システムのハードウェア構成は実施の形態1のものと同様である。
図8A、図8B、図8Cは、実施の形態2に係る翻訳装置1が処理する入力音声データと音声合成データと出力音声データとが示す音声信号の波形を示した図である。図9は、実施の形態2の翻訳装置1における出力音声データの生成処理を示すフローチャートである。
図9において、最初に、翻訳装置1の制御部20のレベル検出部21は、入力音声データの継続時間を検出する(S301)。図8Aの例では、制御部20のレベル検出部21は、入力音声データの継続時間Tを検出する。
次に、レベル検出部21は、入力音声データについて、入力レベルが所定レベルを超える過大期間と、各過大期間の開始時点までの経過時間とを検出する(S302)。図8Aの例では、レベル検出部21は、過大期間Ta,Tb,Tcと各過大期間の開始時点までの経過時間ta,tb,tcとが検出される。
次に、レベル検出部21は、音声合成データの継続時間を検出する(S303)。図8Aの例では、レベル検出部21は、音声合成データの継続時間T’が検出される。
次に、制御部20の出力音声変換部24は、次式に基づいて、音声合成データについて、増幅期間Ta’,Tb’,Tc’および各増幅期間までの経過時間ta’,tb’,tc’を算出する(S304)。
Ta’=Ta×T’/T
Tb’=Tb×T’/T
Tc’=Tc×T’/T
ta’=ta×T’/T
tb’=tb×T’/T
tc’=tc×T’/T
Ta’=Ta×T’/T
Tb’=Tb×T’/T
Tc’=Tc×T’/T
ta’=ta×T’/T
tb’=tb×T’/T
tc’=tc×T’/T
制御部20の出力音声変換部24は、音声合成データについて、増幅期間における音声出力レベルを増幅して、出力音声データを作成する(S305)。図8Cの例では、図8Bの音声合成データについて、出力音声の開始時点から時間ta’経過後の増幅期間Ta’の間、出力音声レベルが増幅される。同様に、図8Cの出力音声データでは、図8Bの音声合成データについて、音声合成データの開始時点から時間tb’経過後の増幅期間Tb’の間、音声合成データの開始時点から時間tc’経過後の増幅期間Tc’の間、出力音声レベルが増幅されている。
以上のように制御することで、入力音声における過大期間と対応した、出力音声の増幅期間において出力レベルが増幅される。これにより、発話者は、入力音声全体におけるどの部分が入力レベルが過大であったのかを出力音声から認識することができる。
(実施の形態3)
以下、本開示の別の実施の形態について説明する。音声処理装置1および音声処理システムの構成は、実施の形態1と同様である。
以下、本開示の別の実施の形態について説明する。音声処理装置1および音声処理システムの構成は、実施の形態1と同様である。
実施の形態1の翻訳装置1は、翻訳後の音声合成データの一部を増幅してスピーカ12から出力することによって、発話者に、過大な音量で音声データを入力していることについて気づきを与えた。これに対して、本実施の形態の翻訳装置1は、発話者が音声データを入力しているときに、過大な音量で音声データを入力している旨のメッセージをスピーカ12から出力する。それにより、発話者に対して、過大な音量で音声データを入力していることについて気づきを与える。
図10は、本実施の形態に係る翻訳システムの構成を示すブロック図である。図10の翻訳装置1において、制御部20は、図1の制御部20と比較して、警告部25をさらに備える。警告部25は、発話者が音声データを入力しているときに、過大な音声で音声データを入力している旨のメッセージを、スピーカ12を介して出力する。
図11は、本実施の形態に係る翻訳装置1の動作を示すフローチャートである。
音声入力ボタン14a,14bの押下を検出すると、翻訳装置1の制御部20は、発話者により入力された音声を、ゲスト側マイク10aまたはホスト側マイク10bを介して入力する(S401)。
このとき、音声入力ボタン14aが押下された場合、ゲスト側マイク10aから入力された音声の情報が翻訳装置1に入力される。音声入力ボタン14bが押下された場合、ホスト側マイク10bから入力された音声が翻訳装置1に入力される。
制御部20は、マイク10aまたは10bから入力した音声の入力レベルを検出し(S402)、検出した入力レベルと所定のしきい値とを比較する(S403)。
入力された音声の入力レベルが所定のしきい値を上回る場合(S403においてNo)、制御部20は、過大な音量で音声データ入力している旨の注意喚起メッセージを、スピーカ12から出力する(S404)。
一方、入力された音声の入力レベルが所定のしきい値以下である場合(S403においてYes)、制御部20は、音声入力の終了を指示する操作がなされたか否かを判断する(S405)。音声入力の終了を指示する操作とは、ゲスト側マイク10aから音声を取得しているときに、音声入力ボタン14aを押下する操作、または、ホスト側マイク10bから音声を取得しているときに、音声入力ボタン14bを押下する操作である。
制御部20は、音声入力の終了を指示する操作がなされたことを検出した場合(S405においてYes)、本処理を終了する。音声入力の終了を指示する操作がなされたことを検出しない場合(S405においてNo)、制御部20は、S401に戻り、上記の処理を繰り返す。
以上のように本実施の形態の翻訳装置1は、音声メッセージにより、過大な音量で音声データ入力している旨を発話者に伝えることができ、気づかせることができる。
なお、本実施の形態における注意喚起のための音声メッセージの出力に関する制御を実施の形態1、2の翻訳装置に適用してもよい。
(実施の形態4)
以下、本開示の別の実施の形態について説明する。音声処理装置1および音声処理システムの構成は、実施の形態3と同様である。
以下、本開示の別の実施の形態について説明する。音声処理装置1および音声処理システムの構成は、実施の形態3と同様である。
実施の形態3の翻訳装置1は、スピーカ12から注意喚起メッセージを出力することによって、発話者に過大な音量で音声データを入力していることについて気づきを与えた。これに対して、本実施の形態の翻訳装置1は、図12に示すように、注意喚起メッセージをディスプレイ14に表示することによって、発話者に、過大な音量で音声データを入力していることについて気づきを与える。
図13は、本実施の形態に係る翻訳装置1の動作を示すフローチャートである。図12において、本変形例に係る、音声処理装置1は、図11のステップS403およびS404の処理に代えて、ステップS403a、S403b、S404aおよびS404bの処理を行う。
翻訳装置1の制御部20は、音声を入力し(S401)、入力した音声のレベルを検出した(S402)後、単位期間内の入力レベルがしきい値を超える回数をカウントする(S403a)。当該回数が所定回数以下であると判断した場合(S403aにてYes)、制御部20は、ディスプレイ14に注意喚起メッセージを表示しない(S404a)。
一方、単位期間内の入力レベルがしきい値を超える回数が所定回数を上回ると判断した場合(S403bにてNo)、制御部20は、注意喚起メッセージをディスプレイ14に表示する(S404b)。ステップS404aまたはS404bの後、音声入力が終了したかどうかの処理を行う(S405)。注意喚起メッセージとしては、例えば、図13に記載のように、ディスプレイ14に「マイクから離れてください!」というメッセージが表示される。
以上のように本実施の形態の翻訳装置1は、注意喚起メッセージの表示により、過大な音量で音声データ入力している旨を発話者に伝えることができ、気づかせることができる。
なお、本実施の形態における注意喚起メッセージの表示に関する制御を上記の実施の形態の翻訳装置に適用してもよい。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
上記の実施の形態では、翻訳装置1は、ホスト用とゲスト用として2つのマイクを備えたが、ホスト用とゲスト用を兼用した1つのマイクのみを備えてもよい。
実施の形態1の翻訳装置1は、音声合成データの出力レベルを増幅する処理において、音声合成データの音質や音量への影響が少ない、所定のレベルを超える部分をカットして、所定の増幅レベルまで増幅したが、これに限定されない。例えば、音声合成データの音質に影響を与える部分を除去してもよい。
上記の実施の形態において、音声合成データが示す音声における過大期間を判定するための所定レベルは固定であったが、当該所定レベルを、入力音声データの入力レベルに応じて変化させてもよい。例えば、信号レベルが大きいほど、所定レベルを大きく設定する。これにより、信号レベルの急激な変化のときも過大期間として判定するという効果を奏することができる。
上記の実施の形態では、翻訳装置1は、外部の音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5と連携しながら翻訳処理を実施したが、各サーバの機能は必ずしもクラウド上に設ける必要はない。翻訳装置1は、音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5の機能のうちの少なくとも1つを実装しても良い。
実施の形態1、2では、音声合成データが示す音声信号の増幅期間の信号レベルを増幅したが、増幅期間における音声信号を増幅せずに歪ませても良い。
上記の実施の形態では、第1の言語を日本語とし、第2の言語を英語としたが、第1の言語と第2の言語の組み合わせは、これに限定されない。第1の言語と第2の言語の組み合わせは、日本語、英語、中国語、韓国語、タイ語、インドネシア語、ベトナム語、スペイン語、フランス語、ミャンマー語等を含む複数の言語群の中から任意に選択された2つの言語を含むことができる。
上記の実施の形態では、音声処理装置の一例として翻訳装置を示したが、本開示の音声処理装置は翻訳装置に限定されるものではない。上記の実施の形態に開示した技術思想は、マイクのような音声入力装置を介して音声信号を入力し、入力した音声信号に基づく処理を行う任意の電子機器に適用できる。例えば、店舗やホテル等での利用が想定される対話型の会話装置に適用することができる。
上記の実施の形態では、出力音声変換部(24)は、第1の出力音声信号において、増幅期間(第2期間)の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して第2の出力音声信号を生成したが、第2期間の信号を楽器の音、動物の鳴き声および音響機器のノイズ音など入力音声信号に基づかない音信号に変換してもよい。つまり、出力音声変換部(24)は、第1の出力音声信号において、第2期間の信号を、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成すればよい。これにより、翻訳装置1は、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
従って、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略等を行うことができる。
本開示は、マイクのような音声入力装置を介して音声信号を入力し、入力した音声信号に基づく処理を行う任意の電子機器に適用できる。
Claims (13)
- 音声を入力し、入力音声信号を生成する入力部と、
前記入力音声信号に基づき第1の出力音声信号を生成する処理部と、
前記入力音声信号において信号レベルが所定レベルより大きい第1期間を検出するレベル検出部と、
前記第1の出力音声信号において、前記第1期間に対応する第2期間の信号を、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する出力音声変換部と、
前記第2の出力音声信号に基づく音声を出力する出力部と、
を備えた音声処理装置。 - 前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して前記第2の出力音声信号を生成する
請求項1に記載の音声処理装置。 - 前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号を前記入力音声信号に基づかない音信号に変換して前記第2の出力音声信号を生成する
請求項1に記載の音声処理装置。 - 前記入力音声信号における前記第1期間の長さと、前記第2の出力音声信号における前記第2期間の長さとが一致し、かつ、前記入力音声信号において、前記入力音声信号の開始時点から前記第1期間の開始時点までの長さと、前記第2の出力音声信号において、前記第2の出力音声信号の開始時点から前記第2期間の開始時点までの長さとが一致する
請求項1から3のいずれかに記載の音声処理装置。 - 前記入力音声信号における全体の長さに対する前記第1期間の長さの比率と、前記第2の出力音声信号における全体の長さに対する前記第2期間の長さの比率とが一致し、かつ、前記入力音声信号の全期間における前記第1期間の相対的な位置と、前記第2の出力音声信号の全体期間における前記第2期間の相対的な位置とが一致する
請求項1から3のいずれかに記載の音声処理装置。 - 前記レベル検出部が前記第1期間を検出すると、過大な音量で音声が入力している旨の音声メッセージを、前記出力部から出力させる、警告部をさらに備える、請求項1から5のいずれかに記載の音声処理装置。
- ディスプレイおよび警告部をさらに備え、
前記レベル検出部はさらに、単位期間内の前記入力音声信号において信号レベルが所定レベルを超えた回数を求め、
前記回数が所定回数を上回ると判断した場合、前記警告部は、入力部から離れて音声を入力すべき旨を、前記ディスプレイに、表示させる、
請求項1から5のいずれかに記載の音声処理装置。 - 前記レベル検出部は、前記入力音声信号における信号レベルに応じて、前記所定レベルを変化させる、請求項1から7のいずれかに記載の音声処理装置。
- 第1の言語での発話内容を示す音声を入力し、入力音声信号を生成する入力部と、
前記入力音声信号が示す発話内容を第2の言語の発話内容に翻訳した結果を示す音声信号である第1の出力音声信号を生成する翻訳部と、
前記入力音声信号において信号レベルが所定レベルより大きい第1期間を検出するレベル検出部と、
前記第1の出力音声信号において、前記第1期間に対応する第2期間の信号を、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する出力音声変換部と、
前記第2の出力音声信号に基づく音声を出力する出力部と、
を備えた翻訳装置。 - 前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して前記第2の出力音声信号を生成する
請求項9に記載の翻訳装置。 - 前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号を前記入力音声信号に基づかない音信号に変換して前記第2の出力音声信号を生成する
請求項1に記載の翻訳装置。 - 前記入力音声信号における前記第1期間の長さと、前記第2の出力音声信号における前記第2期間の長さとが一致し、かつ、前記入力音声信号において、前記入力音声信号の開始時点から前記第1期間の開始時点までの長さと、前記第2の出力音声信号において、前記第2の出力音声信号の開始時点から前記第2期間の開始時点までの長さとが一致する
請求項10に記載の翻訳装置。 - 前記入力音声信号における全体の長さに対する前記第1期間の長さの比率と、前記第2の出力音声信号における全体の長さに対する前記第2期間の長さの比率とが一致し、かつ、前記入力音声信号の全期間における前記第1期間の相対的な位置と、前記第2の出力音声信号の全体期間における前記第2期間の相対的な位置とが一致する
請求項10に記載の翻訳装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201880093359.4A CN112119455A (zh) | 2018-06-08 | 2018-12-05 | 声音处理装置以及翻译装置 |
US17/105,894 US20210082456A1 (en) | 2018-06-08 | 2020-11-27 | Speech processing apparatus and translation apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018110621A JP2019211737A (ja) | 2018-06-08 | 2018-06-08 | 音声処理装置および翻訳装置 |
JP2018-110621 | 2018-06-08 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/105,894 Continuation US20210082456A1 (en) | 2018-06-08 | 2020-11-27 | Speech processing apparatus and translation apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019234952A1 true WO2019234952A1 (ja) | 2019-12-12 |
Family
ID=68770120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/044735 WO2019234952A1 (ja) | 2018-06-08 | 2018-12-05 | 音声処理装置および翻訳装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210082456A1 (ja) |
JP (1) | JP2019211737A (ja) |
CN (1) | CN112119455A (ja) |
WO (1) | WO2019234952A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021171547A1 (ja) * | 2020-02-28 | 2021-09-02 | 日本電信電話株式会社 | 通信伝送装置、音声障害検出方法、および、プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251061A (ja) * | 2005-03-08 | 2006-09-21 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP2010186126A (ja) * | 2009-02-13 | 2010-08-26 | Nec Corp | 入力音声評価装置、入力音声の評価方法および評価プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JPH11194797A (ja) * | 1997-12-26 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
JP3225918B2 (ja) * | 1998-03-30 | 2001-11-05 | 日本電気株式会社 | 携帯端末装置 |
JP2000338986A (ja) * | 1999-05-28 | 2000-12-08 | Canon Inc | 音声入力装置及びその制御方法及び記憶媒体 |
JP2005084253A (ja) * | 2003-09-05 | 2005-03-31 | Matsushita Electric Ind Co Ltd | 音響処理装置、方法、プログラム及び記憶媒体 |
JP2007053661A (ja) * | 2005-08-19 | 2007-03-01 | Sony Corp | 音量調整装置、音量調整方法 |
JP4678773B2 (ja) * | 2005-12-05 | 2011-04-27 | Kddi株式会社 | 音声入力評価装置 |
WO2010131470A1 (ja) * | 2009-05-14 | 2010-11-18 | シャープ株式会社 | ゲイン制御装置及びゲイン制御方法、音声出力装置 |
JP5017441B2 (ja) * | 2010-10-28 | 2012-09-05 | 株式会社東芝 | 携帯型電子機器 |
JP2013117659A (ja) * | 2011-12-05 | 2013-06-13 | Seiko Epson Corp | 音声処理装置及び音声処理装置の制御方法 |
JP2015060332A (ja) * | 2013-09-18 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
-
2018
- 2018-06-08 JP JP2018110621A patent/JP2019211737A/ja not_active Withdrawn
- 2018-12-05 CN CN201880093359.4A patent/CN112119455A/zh active Pending
- 2018-12-05 WO PCT/JP2018/044735 patent/WO2019234952A1/ja active Application Filing
-
2020
- 2020-11-27 US US17/105,894 patent/US20210082456A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251061A (ja) * | 2005-03-08 | 2006-09-21 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP2010186126A (ja) * | 2009-02-13 | 2010-08-26 | Nec Corp | 入力音声評価装置、入力音声の評価方法および評価プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210082456A1 (en) | 2021-03-18 |
CN112119455A (zh) | 2020-12-22 |
JP2019211737A (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4972645B2 (ja) | サウンド及び手作業により転写されるテキストを同期させるシステム及び方法 | |
US8315873B2 (en) | Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same | |
JP2006504130A (ja) | 音声に基づく装置制御 | |
JP6904357B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2007140200A (ja) | 語学学習装置およびプログラム | |
US7031924B2 (en) | Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium | |
US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
WO2019234952A1 (ja) | 音声処理装置および翻訳装置 | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
JP6832503B2 (ja) | 情報提示方法、情報提示プログラム及び情報提示システム | |
WO2016017229A1 (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
JPH10326176A (ja) | 音声対話制御方法 | |
JP2010197858A (ja) | 音声対話システム | |
JP2010128766A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
US20170301328A1 (en) | Acoustic system, communication device, and program | |
JP2011180416A (ja) | 音声合成装置、音声合成方法およびカーナビゲーションシステム | |
JP6918471B2 (ja) | 対話補助システムの制御方法、対話補助システム、及び、プログラム | |
CN107785020B (zh) | 语音识别处理方法及装置 | |
JP2009020353A (ja) | 音響モデル処理装置およびプログラム | |
WO2024058147A1 (ja) | 処理装置、出力装置及び処理システム | |
KR102001314B1 (ko) | 노래방 녹음 음질 개선 장치 및 방법 | |
US20230262283A1 (en) | Transmission apparatus, communication method and program | |
JP5881579B2 (ja) | 対話システム | |
JP2014235263A (ja) | 音声認識装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18921686 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18921686 Country of ref document: EP Kind code of ref document: A1 |