JPWO2019106902A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2019106902A1 JPWO2019106902A1 JP2019557017A JP2019557017A JPWO2019106902A1 JP WO2019106902 A1 JPWO2019106902 A1 JP WO2019106902A1 JP 2019557017 A JP2019557017 A JP 2019557017A JP 2019557017 A JP2019557017 A JP 2019557017A JP WO2019106902 A1 JPWO2019106902 A1 JP WO2019106902A1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice data
- audio data
- voice
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 103
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000003780 insertion Methods 0.000 claims abstract description 194
- 230000037431 insertion Effects 0.000 claims abstract description 194
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000008569 process Effects 0.000 claims abstract description 41
- 230000005540 biological transmission Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims description 45
- 238000001514 detection method Methods 0.000 claims description 42
- 230000007423 decrease Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 abstract description 15
- 238000004891 communication Methods 0.000 description 142
- 230000006870 function Effects 0.000 description 94
- 239000003795 chemical substances by application Substances 0.000 description 57
- 238000012545 processing Methods 0.000 description 31
- 230000000052 comparative effect Effects 0.000 description 11
- 238000013500 data storage Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 3
- 230000001151 other effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/10—Flow control between communication endpoints
- H04W28/14—Flow control between communication endpoints using intermediate storage
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
- Electrophonic Musical Instruments (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
1.本開示の概要
2.第1の実施形態
3.第2の実施形態
4.第3の実施形態
5.第4の実施形態
6.第5の実施形態
7.変形例
8.応用例
9.ハードウェア構成
10.まとめ
以下では、音声データ等を生成するサーバ、及びサーバから受信した音声データ等に基づき音声データに語句を挿入するクライアント端末を例に、本開示の一実施形態に係る情報処理システムについて説明する。以下では、図1を参照しながら、本開示の一実施形態に係る情報処理システムの概要を説明する。
クライアント端末10は、サーバ30から受信した音声データ(第1の音声データ)を再生する情報処理装置である。例えば、クライアント端末10は、ネットワーク14を介してサーバ30から音声データを受信し、受信した音声データを再生することで音声データの内容をユーザへ伝える。
サーバ30は、音声データ、及び音声データに関する情報をクライアント端末10へ提供する情報処理装置であり、クライアント端末10へ提供する音声データを生成する機能を有する。例えば、サーバ30は、音声データを生成し、ネットワーク14を介してクライアント端末10へ生成した音声データを送信する。
ネットワーク14は、情報の有線又は無線の伝送路である。ネットワーク14は、例えば、インターネット、セルラー通信網、無線LAN(Local Area Network)、Bluetooth(登録商標)、LAN、又は電話回線等により構成される。ネットワーク14における情報の伝送は、双方向に行われてもよいし、ラジオ放送のように単一方向に行われてもよい。
本開示の第1の実施形態に係る情報処理システムでは、サーバ30は、音声データを生成し、生成した音声データをクライアント端末10へ送信する。そして、音声データを受信したクライアント端末10は、音声データに語句を挿入するか否かの判定、音声データに挿入する語句の挿入位置の決定、及び挿入位置への語句の挿入に関する処理を行う。
(2.1.1.クライアント端末10−1)
以下では、図2、図3を参照しながら、本開示の第1の実施形態に係るクライアント端末10−1の構成例について説明する。図2に示すように、クライアント端末10−1は、通信部121、音声バッファ部126、再生時間決定部128、無音区間検出部132、記憶部136、語句挿入部140、音声データ再生部144で構成されている。
通信部121は、クライアント端末10−1とサーバ30−1を接続するインタフェースであり、クライアント端末10−1がサーバ30−1と情報を通信するための機能を有する。例えば、通信部121は、サーバ30−1との通信において、サーバ30−1にて生成された音声データを受信する。そして、通信部121は、受信した音声データを音声バッファ部126へ出力する。
音声バッファ部126は、音声データを一時的に保持する機能を有する。例えば、音声バッファ部126は、通信部121から音声データを受信すると、受信した音声データを保持する。そして、音声バッファ部126に保持された音声データは、以下で説明する語句の挿入に関する処理を経由し、最終的に音声データ再生部144にて再生される。なお、音声データは、音声データ再生部144にて再生された分だけ、音声バッファ部126にて保持される残量が減る。すなわち、音声バッファ部126は、サーバ30から受信した音声データのうち未再生の音声データを保持することとなる。また、音声バッファ部126は、語句の挿入に関する処理のために、音声データを再生時間決定部128、及び語句挿入部140へ送信する。
再生時間決定部128は、挿入語句の再生時間を計算する機能を有する。例えば、再生時間決定部128は、音声バッファ部126から受信した音声データの状態、またはネットワーク14の状態の少なくともいずれかに基づき、挿入語句の再生時間を計算する。音声データの状態とは、音声バッファ部126に保持されている音声データの量、音声データの増減量等のうちの少なくともいずれかである。また、ネットワーク14の状態とは、ネットワーク14の接続状態、ネットワーク14の通信速度等のうちの少なくともいずれかである。音声データの量は、音声バッファ部126に保持された未再生の音声データであり、通信部121から音声データを受信することで増加し、音声データが再生されることにより減少する。再生時間決定部128は、音声データの量に基づき再生時間を算出する場合、例えば、音声データの量が所定の閾値をどれだけ下回るかに基づき、再生時間を算出してもよい。基本的な方針として、再生時間決定部128は、音声バッファが枯渇する可能性が高いほど長い再生時間を決定し、音声バッファが枯渇する可能性が低いほど短い再生時間を決定する。これにより、音声バッファが枯渇する可能性が高い場合には、長い再生時間を決定することで音声バッファが枯渇する可能性を軽減することが可能となる。一方で、音声バッファが枯渇する可能性が低い場合には、短い再生時間を決定することで語句の挿入に起因する再生音声の不自然さを軽減することができる。なお、音声バッファが枯渇する可能性は、音声バッファ部126から受信した音声データの状態、またはネットワーク14の状態の少なくともいずれかに基づいて判断される。
無音区間検出部132は、音声データの無音区間を検出する機能を有する。無音区間検出部132は、音声データのうち音量が所定値以下となる区間を、無音区間として検出する。なお、無音区間とは、音声データの中で音声(例えば、話声)を含まない、または音量が所定値以下の区間である。無音区間検出部132は、検出した無音区間を挿入位置として決定し、挿入位置に関する情報を含む無音区間情報を語句挿入部140へ送信する。同時に、無音区間検出部132は、再生時間決定部128から受信した再生時間も語句挿入部140へ送信する。なお、無音区間検出部132は、例えば、音声データの文章と文章の間等の、音声データを再生中であっても音声が無音となる区間を無音区間として検出する。
記憶部136は、挿入語句に関する情報を記憶する機能を有する。例えば、記憶部136は、以下の表1に示すように、「挿入語句」、「長さ」、「音声データ」に関する情報を記憶する。「挿入語句」とは、音声データに挿入する語句である。例えば、「あのー」、及び「えーっと」等の間投詞が挿入語句として記憶される。また、「長さ」とは、挿入語句の再生時間である。例えば、「あのー」という挿入語句の再生時間は「2.0秒」である。また、「えーっと」の再生時間は「3.0秒」である。また、「音声データ」とは、挿入語句の音声ファイルである。例えば、「あのー」という挿入語句の音声データは、「0001.wav」という音声ファイルとして記憶される。また、「えーっと」という挿入語句の音声データは、「0002.wav」という音声ファイルとして記憶される。ここで、音声ファイル名中の「.wav」とは、音声データのファイル形式を示す拡張子の1つである。なお、記憶部136が記憶する音声データのファイル形式は特に限定されず、任意のファイル形式の音声データが記憶されてもよい。また、挿入語句の長さも特に限定されず、任意の長さの挿入語句が記憶されてもよい。
語句挿入部140は、音声データに挿入語句を挿入する機能を有する。例えば、語句挿入部140は、無音区間検出部132から無音区間情報を受信すると、同時に無音区間検出部132から受信した再生時間に対応する挿入語句を記憶部136から取得する。ここで、語句挿入部140は、再生時間決定部128により決定された再生時間と対応する「長さ」を有する挿入語句を、記憶部136から取得する。具体的には、語句挿入部140は、再生時間決定部128により決定された再生時間と同一の又はそれ以上の「長さ」を有する挿入語句を、記憶部136から取得する。例えば、再生時間が1.0秒の場合、語句挿入部140は、表1に示す「長さ」が2.0秒の「あのー」を記憶部136から取得する。この時、語句挿入部140は、表1に示す「長さ」が3.0秒の「えーっと」を記憶部136から取得してもよい。また、例えば、再生時間が2.5秒の場合、語句挿入部140は、表1に示す「長さ」が3.0秒の「えーっと」を記憶部136から取得する。
音声データ再生部144は、音声データを再生する機能を有する。例えば、音声データ再生部144は、語句挿入部140から受信した音声データを再生することで、音声データの内容をユーザへ伝える。なお、語句挿入部140から受信する音声データには、挿入語句が挿入されている場合もあれば、挿入語句が挿入されていない場合もある。
以下では、図4を参照しながら、本開示の第1の実施形態に係るサーバ30−1の構成例について説明する。図4に示すように、サーバ30−1は、通信部321、音声データ生成部348で構成されている。
通信部321は、サーバ30−1とクライアント端末10−1を接続するインタフェースであり、サーバ30−1がクライアント端末10−1と情報を通信するための機能を有する。例えば、通信部321は、クライアント端末10−1との通信において、音声データ生成部348が生成した音声データを送信する。
音声データ生成部348は、音声データを生成する機能を有する。例えば、音声データ生成部348は、ユーザに伝える情報を含む音声データを生成する。具体的には、ニュースに関する情報、ユーザのスケジュールに関する情報、またはユーザのリクエストに応じた情報等を含む音声データである。なお、音声データ生成部348が生成する音声データのファイル形式は特に限定されず、任意の形式の音声データが生成されてもよい。
以下では、図5を参照しながら、比較例に係る情報処理システムの構成例について説明する。図5に示すように、比較例のクライアント端末20は、通信部221、音声バッファ部226、音声データ再生部244で構成されている。なお、比較例に係る情報処理システムは、(2.1.2.サーバ30−1)にて説明した第1の実施形態に係る情報処理システムと同一の構成、及び機能のサーバを有する。よって、本章における比較例のサーバの構成例の説明は省略する。
通信部221は、クライアント端末20とサーバを接続するインタフェースであり、クライアント端末20がサーバと情報を通信するための機能を有する。例えば、通信部221は、サーバとの通信において、サーバにて生成された音声データを受信する。そして、通信部221は、受信した音声データを音声バッファ部226へ出力する。
音声バッファ部226の機能は、(2.1.1.クライアント端末10−1)の(2)音声バッファ部126にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、音声バッファ部226が音声データを音声データ再生部244へ送信する点は異なる。
音声データ再生部244の機能は、(2.1.1.クライアント端末10−1)の(7)音声データ再生部144にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、音声データ再生部244が音声データを音声バッファ部226から受信する点は異なる。
以下では、図6を参照しながら、本開示の第1の実施形態に係る情報処理システムの動作例について説明する。図6は、本開示の第1の実施形態に係る語句の挿入処理を示すフローチャートである。
第1の実施形態に係る情報処理システムでは、音声データに挿入する語句の挿入位置の決定に関する処理をクライアント端末10が行っていたが、第2の実施形態に係る情報処理システムでは、上述の処理をサーバ30が行う。
(3.1.1.クライアント端末10−2)
以下では、図7を参照しながら、本開示の第2の実施形態に係るクライアント端末10−2の構成例について説明する。図7に示すように、クライアント端末10−2は、通信部122、音声バッファ部126、再生時間決定部128、記憶部136、語句挿入部140、音声データ再生部144で構成されている。クライアント端末10―2の構成は、図2に示す第1の実施形態におけるクライアント端末10―1の構成から、無音区間検出部132を除いた構成となっている。
通信部122は、クライアント端末10−2とサーバ30−2を接続するインタフェースであり、クライアント端末10−2がサーバ30−2と情報を通信するための機能を有する。例えば、通信部122は、サーバ30−2との通信において、サーバ30−2にて生成された音声データを受信する。そして、通信部122は、受信した音声データを音声バッファ部126へ出力する。また、例えば、通信部122は、サーバ30−2との通信において、サーバ30−2にて検出した無音区間情報を受信する。そして、通信部122は、受信した無音区間情報を語句挿入部140へ出力する。
音声バッファ部126の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
再生時間決定部128の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、再生時間決定部128が再生時間、及び判定結果を語句挿入部140へ送信する点は異なる。
記憶部136の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
語句挿入部140の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、語句挿入部140が通信部122から無音区間情報を受信する点、及び語句挿入部140が再生時間決定部128から再生時間を受信する点は異なる。
音声データ再生部144の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
以下では、図8を参照しながら、本開示の第2の実施形態に係るサーバ30−2の構成例について説明する。図8に示すように、サーバ30−2は、通信部322、無音区間検出部332、音声データ生成部348で構成されている。サーバ30―2の構成は、図4に示す第1の実施形態におけるサーバ30―1の構成に、無音区間検出部332を加えた構成となっている。
通信部322は、サーバ30−2とクライアント端末10−2を接続するインタフェースであり、サーバ30−2がクライアント端末10−2と情報を通信するための機能を有する。例えば、通信部322は、クライアント端末10−2との通信において、音声データ生成部348が生成した音声データを送信する。また、例えば、通信部322は、クライアント端末10−2との通信において、無音区間検出部332が検出した無音区間情報を送信する。
無音区間検出部332の機能は、(2.1.1.クライアント端末10−1)の(4)無音区間検出部132にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、無音区間検出部332が音声データを音声データ生成部348から受信する点、及び無音区間検出部332が無音区間情報を通信部322へ送信する点は異なる。
音声データ生成部348の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、音声データ生成部348が音声データを無音区間検出部332へ送信する点は異なる。
以下では、図9を参照しながら、本開示の第2の実施形態に係る情報処理システムの動作例について説明する。図9は、本開示の第2の実施形態に係る語句の挿入処理を示すフローチャートである。
本開示の第3の実施形態に係る情報処理システムでは、サーバ30は、音声データ、及び文章データを生成し、生成した音声データ、及び文章データをクライアント端末10へ送信する。そして、音声データ、及び文章データを受信したクライアント端末10は、音声データに語句を挿入するか否かの判定、音声データに挿入する語句の挿入位置の決定、及び挿入位置への語句の挿入に関する処理を行う。
(4.1.1.クライアント端末10−3)
以下では、図10を参照しながら、本開示の第3の実施形態に係るクライアント端末10−3の構成例について説明する。図10に示すように、クライアント端末10−3は、通信部123、音声バッファ部126、再生時間決定部128、文章解析部152、記憶部136、語句挿入部140、音声データ再生部144で構成されている。
通信部123は、クライアント端末10−3とサーバ30−3を接続するインタフェースであり、クライアント端末10−3がサーバ30−3と情報を通信するための機能を有する。例えば、通信部123は、サーバ30−3との通信において、サーバ30−3にて生成された音声データを受信する。そして、通信部123は、受信した音声データを音声バッファ部126へ出力する。また、例えば、通信部123は、サーバ30−3との通信において、サーバ30−3にて生成した文章データを受信する。そして、通信部123は、受信した文章データを文章解析部152へ出力する。
音声バッファ部126の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
再生時間決定部128の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、再生時間決定部128は、音声データへ挿入語句の挿入が不要である旨、または再生時間、及び判定結果を文章解析部152へ送信する。
文章解析部152は、文章データの文章情報を検出する機能を有する。文章情報には、文節の区切れの他に、句読点、話題の転換点等も含まれる。文章解析部152は、通信部123から受信した文章データを解析することで、文章データの文章情報を検出する。そして、文章解析部152は、検出した文章情報に基づき語句の挿入位置を決定し、挿入位置に関する情報を含む文章情報を語句挿入部140へ送信する。同時に、文章解析部152は、再生時間決定部128から受信した再生時間を語句挿入部140へ送信する。
記憶部136の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
語句挿入部140の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、語句挿入部140が文章解析部152から受信した文章情報に基づき、音声バッファ部126から受信した音声データの文節の区切れに挿入語句を挿入する点は異なる。なお、語句挿入部140が挿入語句を挿入する挿入位置は文節の区切れに限定されず、例えば、句読点、話題の転換点等であってもよい。
音声データ再生部144の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
以下では、図11を参照しながら、本開示の第3の実施形態に係るサーバ30−3の構成例について説明する。図11に示すように、サーバ30−3は、通信部323、文章データ生成部356、音声データ生成部348で構成されている。
通信部323は、サーバ30−3とクライアント端末10−3を接続するインタフェースであり、サーバ30−3がクライアント端末10−3と情報を通信するための機能を有する。例えば、通信部323は、クライアント端末10−3との通信において、音声データ生成部348が生成した音声データを送信する。また、例えば、通信部323は、クライアント端末10−3との通信において、文章データ生成部356が生成した文章データを送信する。
文章データ生成部356は、文章データを生成する機能を有する。また、文章データ生成部356は、音声認識機能も有する。例えば、文章データ生成部356は、音声データ生成部348が生成した音声データを受信すると、音声認識機能により音声データを解析し、解析結果に基づき音声データの内容をテキストに変換することで、文章データを生成する。
音声データ生成部348の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、音声データ生成部348は、生成した音声データを文章データ生成部356へ送信する。
以下では、図12を参照しながら、本開示の第3の実施形態に係る情報処理システムの動作例について説明する。図12は、本開示の第3の実施形態に係る語句の挿入処理を示すフローチャートである。
第3の実施形態に係る情報処理システムでは、音声データに挿入する語句の挿入位置の決定に関する処理をクライアント端末10が行っていたが、第4の実施形態に係る情報処理システムでは、上述の処理をサーバ30が行う。
(5.1.1.クライアント端末10−4)
以下では、図13を参照しながら、本開示の第4の実施形態に係るクライアント端末10−4の構成例について説明する。図13に示すように、クライアント端末10−4は、通信部124、音声バッファ部126、再生時間決定部128、記憶部136、語句挿入部140、音声データ再生部144で構成されている。
通信部124は、クライアント端末10−4とサーバ30−4を接続するインタフェースであり、クライアント端末10−4がサーバ30−4と情報を通信するための機能を有する。例えば、通信部124は、サーバ30−4との通信において、サーバ30−4にて生成された音声データを受信する。そして、通信部124は、受信した音声データを音声バッファ部126へ出力する。また、例えば、通信部124は、サーバ30−4との通信において、サーバ30−4にて音声データが解析された結果を示す文章情報を受信する。そして、通信部124は、受信した文章情報を語句挿入部140へ出力する。
音声バッファ部126の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
再生時間決定部128の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、再生時間決定部128が再生時間、及び判定結果を語句挿入部140へ送信する点は異なる。
記憶部136の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
語句挿入部140の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、語句挿入部140が通信部124から文章情報を受信する点、及び語句挿入部140が再生時間を再生時間決定部128から受信する点は異なる。
音声データ再生部144の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
以下では、図14を参照しながら、本開示の第4の実施形態に係るサーバ30−4の構成例について説明する。図14に示すように、サーバ30−4は、通信部324、文章解析部352、音声データ生成部348で構成されている。
通信部324は、サーバ30−4とクライアント端末10−4を接続するインタフェースであり、サーバ30−4がクライアント端末10−4と情報を通信するための機能を有する。例えば、通信部324は、クライアント端末10−4との通信において、音声データ生成部348が生成した音声データを送信する。また、例えば、通信部324は、クライアント端末10−4との通信において、文章解析部352が音声データを解析した結果を示す文章情報を送信する。
文章解析部352の機能は、(4.1.1.クライアント端末10−3)の(4)文章解析部152にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、文章解析部352が音声データを音声データ生成部348から受信する点、及び文章解析部352が文章情報を通信部324へ送信する点は異なる。
音声データ生成部348の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
以下では、図15を参照しながら、本開示の第4の実施形態に係る情報処理システムの動作例について説明する。図15は、本開示の第4の実施形態に係る語句の挿入処理を示すフローチャートである。
第1〜4の実施形態に係る情報処理システムでは、音声データに語句を挿入する例を説明したが、第5の実施形態に係る情報処理システムでは、音声データの語句を置換する例を説明する。
(6.1.1.クライアント端末10−5)
以下では、図16、図17を参照しながら、本開示の第5の実施形態に係るクライアント端末10−5の構成例について説明する。図16に示すように、クライアント端末10−5は、通信部125、音声データ保存部160、音声バッファ部126、再生時間決定部128、文章解析部152、記憶部136、語句置換部164、音声データ再生部144で構成されている。
通信部125は、クライアント端末10−5とサーバ30−5を接続するインタフェースであり、クライアント端末10−5がサーバ30−5と情報を通信するための機能を有する。例えば、通信部125は、サーバ30−5との通信において、サーバ30−5にて生成された音声データを受信する。そして、通信部125は、受信した音声データを音声バッファ部126へ出力する。また、例えば、通信部125は、サーバ30−5との通信において、サーバ30−5にて生成した文章データを受信する。そして、通信部125は、受信した文章データを文章解析部152へ出力する。
音声データ保存部160は、音声データを一時的に保存し、保存した音声データから挿入語句を取得する機能を有する。例えば、音声データ保存部160は、通信部125から受信した文章データを一時的に保存して解析し、語句の置換に用いるための挿入語句として使用可能な語句を検出する。具体的に、文章データに「それ」、「そこ」等の指示語が含まれている場合、音声データ保存部160は、文章データの中で当該指示語よりも前に存在する当該指示語が指す語句を検索する。検索して見つけた語句の再生時間が対応する指示語よりも長い場合、当該語句を挿入語句として使用可能な語句として検出する。そして、音声データ保存部160は、使用可能であると判定した語句の音声を音声データから抽出し、抽出した音声を音声データキャッシュとして記憶部136に保存する。なお、音声データキャッシュは、一時的に保存されたキャッシュデータであるため、音声バッファ部126の音声データの再生終了後に削除されてもよい。
音声バッファ部の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、音声バッファ部126が音声データを音声データ保存部160から受信する点は異なる。また、音声バッファ部126が音声データを再生時間決定部128、及び語句置換部164へ送信する点も異なる。
再生時間決定部の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。ただし、再生時間決定部128が再生時間、及び判定結果を文章解析部152へ送信する点は異なる。
文章解析部152は、文章データに基づき置換対象の語句を検出し、検出した置換対象の中から置換する語句を決定する機能を有する。置換対象の語句とは、例えば、文章データに含まれる指示語である。また、置換する語句とは、置換することで音声データを受信する時間を確保することが可能な語句である。例えば、文章解析部152は、通信部125から受信した文章データを解析することで、置換が可能な語句を置換対象として検出する。そして、文章解析部152は、再生時間決定部128から受信した再生時間、及び記憶部136に保存された音声データキャッシュの長さに基づき、置換対象の中から置換する語句を決定する。置換する語句の決定後、文章解析部152は、置換する語句に関する情報である置換情報を語句置換部164に送信する。
記憶部136は、音声データの語句を置換するための挿入語句に関する情報を記憶する機能を有する。例えば、記憶部136は、以下の表2に示すように、「挿入語句」、「長さ」、「音声データ」に関する情報を記憶する。「挿入語句」とは、音声データの語句の置換に用いる語句である。例えば、「AAAドラッグストアBBB店」、及び「CCC県DDD区」等の語句が挿入語句として記憶される。また、「長さ」とは、挿入語句の再生時間である。例えば、「AAAドラッグストアBBB店」という挿入語句の再生時間は「3.0秒」である。また、「CCC県DDD区」の再生時間は「2.0秒」である。また、「音声データ」とは、挿入語句の音声ファイルである。例えば、「AAAドラッグストアBBB店」という挿入語句の音声データは、「20171023103516.wav」という音声ファイルとして記憶される。また、「CCC県DDD区」という挿入語句の音声データは、「20171023103602.wav」という音声ファイルとして記憶される。なお、上述の例では、音声データのファイル名として、音声データ保存部160が音声データを取得した日時が設定されているが、音声データのファイル名は音声データの取得日時に限定されず、任意のファイル名が設定されてよい。また、記憶部136が記憶する音声データのファイル形式は特に限定されず、任意のファイル形式の音声データが記憶されてもよい。また、挿入語句の長さも特に限定されず、任意の長さの挿入語句が記憶されてもよい。
語句置換部164は、音声データの語句を置換する機能を有する。例えば、語句置換部164は、文章解析部152から置換情報を受信すると、置換情報に対応する挿入語句を記憶部136から取得する。そして、語句置換部164は、置換情報に基づき、音声データの語句を置換する。
音声データ再生部の機能は、<2.1.構成例>にて説明した内容と同一の機能であるため、本章での説明を省略する。
本開示の第5の実施形態に係るサーバ30−5の構成例は、(4.1.2.サーバ30−3)にて説明したサーバ30−3の構成例と同一のため、本章での説明を省略する。
以下では、図18を参照しながら、本開示の第5の実施形態に係る情報処理システムの動作例について説明する。図18は、本開示の第5の実施形態に係る語句の置換処理を示すフローチャートである。
以下では、本開示の一実施形態の変形例を説明する。なお、以下に説明する変形例は、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、変形例は、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。
以下では、本開示の一施形態にかかる情報処理システムの応用例について説明する。
以下では、第1の実施形態、及び第2の実施形態にて説明した音声データの無音区間に語句を挿入する場合の応用例について説明する。
以下では、対話エージェントシステムに第1の実施形態、または第2の実施形態を適用した例について説明する。ここで、対話エージェントシステムとは、ユーザの入力に対して、適切な情報を含む応答をするシステムのことである。対話エージェントシステムは、クライアント端末10として、クライアント端末10としての機能がアプリケーションとして実装されたエージェントデバイスを用いる。当該エージェントデバイスは、ユーザの入力に対して音声により応答することができる。また、当該エージェントデバイスは、サーバ30と同一の機能を有するサーバとネットワークを介して接続されていることとする。なお、対話エージェントシステムでは、エージェントデバイスがユーザの入力に応答する際の音声データをサーバが生成し、ネットワークを介してエージェントデバイスに音声データを送信し、エージェントデバイスが音声データを再生する。
以下では、上述のエージェントデバイスが繰り返し語句を挿入する例について説明する。例えば、エージェントデバイスは、「今日の東京の天気は晴れです。明日の東京の天気は雨になるでしょう。」という音声データに挿入語句を挿入して、「今日の東京の天気は晴れです。えーっと、明日の東京の天気は雨になるでしょう。」と変更する。しかし、音声データに一度挿入語句を挿入しても、まだデータの受信が間に合わないと判断された場合、エージェントデバイスは、さらに挿入語句を挿入してもよい。例えば、「えーっと」の後に、さらに「少々お待ちください」を続けて挿入し、「今日の東京の天気は晴れです。えーっと、少々お待ちください。明日の東京の天気は雨になるでしょう。」と変更してもよい。上述のように、エージェントデバイスは、挿入語句を繰り返し挿入することができる。よって、エージェントデバイスは、一度語句を挿入した後にまだ再生時間が足りないと判定されても、語句を連続して挿入することにより、ユーザに音声が途切れたことを感じさせることなく、音声データを受信するための時間を安定して確保することができる。
以下では、ニュースを読み上げて音声で出力するニュース読み上げ装置に本開示の一実施形態を適用した例について説明する。本応用例では、ニュース読み上げ装置がクライアント端末10に該当する。また、ニュース読み上げ装置は、サーバ30と同一の機能を有するサーバとネットワークを介して接続されていることとする。なお、ニュース読み上げ装置は、サーバが生成した音声データを受信して再生することで、ユーザへニュースを伝える。
以下では、第3の実施形態、及び第4の実施形態にて説明した音声データの文節の区切れに語句を挿入する場合の応用例について説明する。
以下では、上述の対話エージェントシステムに第3の実施形態または第4の実施形態を適用した例について説明する。具体的な応用例として、エージェントデバイスがユーザに応答している際に、通信状況が悪くなり、音声データの再生が途切れてしまいそうな場合について説明する。上述の場合、対話エージェントシステムは、第3の実施形態、または第4の実施形態と同様にして、音声データ中の適切な文節の区切れに語句を挿入する。なお、音声データ中の文節の区切れは、無音区間よりも多く存在する。よって、エージェントデバイスが文節の区切れに語句を挿入する場合、(8.1.1.通信状況に応じて間投詞を挿入する対話エージェント)の無音区間に語句を挿入する場合と比較し、より自然な位置に語句を挿入することができる。例えば、エージェントデバイスは、「今日の東京の天気は晴れです。」という音声データの文節の区切れに「えーっと」という間投詞を挿入し、「今日の東京の天気は、えーっと、晴れです。」という音声データに変更することができる。上述のように、対話エージェントシステムは、音声データ中の適切な文節の区切れに語句を挿入することができる。よって、対話エージェントシステムは、エージェントデバイスと対話しているユーザに音声が途切れたことを感じさせることなく、音声データを受信するための時間を安定して確保することができる。
以下では、第5の実施形態にて説明した音声データの語句を置換する場合の応用例について説明する。
以下では、上述の対話エージェントシステムに第5の実施形態を適用した例について説明する。具体的な応用例として、エージェントデバイスがユーザに応答している際に、通信状況が悪くなり、音声データの再生が途切れてしまいそうな場合について説明する。上述の場合、対話エージェントシステムは、第5の実施形態と同様にして、音声データ中の語句を別な語句に置換する。例えば、エージェントデバイスは、「一番近い薬局はEEEドラッグストアFFF店です。そこへ行くには10分かかります。」という音声データの「そこ」を「EEEドラッグストアFFF店」に置換する。そして、エージェントデバイスは、「一番近い薬局は、EEEドラッグストアFFF店です。EEEドラッグストアFFF店へ行くには10分かかります。」という音声データを再生する。上述のように、対話エージェントシステムは、音声データ中の語句を別な語句に置換することができる。よって、対話エージェントシステムは、エージェントデバイスと対話しているユーザに音声が途切れたことを感じさせることなく、音声データを受信するための時間を安定して確保することができる。
以下には、ユーザの入力に対する応答として、エージェントデバイスがニュースを読み上げる際の具体的な会話例を示す。例えば、ユーザが「エージェント、ニュースを教えて。」と発話すると、エージェントデバイスが「はい。どのジャンルのニュースにしましょうか。」と応答する。続けて、ユーザが「じゃあ、経済のニュースで。」と発話すると、エージェントデバイスが「かしこまりました。経済の最新のニュースです。」と応答し、経済に関するニュースを読み上げる。ニュースを読み上げている途中で音声データの受信が再生に間に合わなくなってくると、エージェントデバイスは、音声データに語句を挿入する。そして、エージェントデバイスは、「大手電機8社の決算が出そろいました。ただ今データの受信中です。少々お待ちください。GGG社の決算は・・・です。」とニュースの読み上げを続ける。この時、エージェントデバイスは、音声データに「ただ今データの受信中です。」という語句を挿入することで、音声データを受信するための時間を確保することができている。
上述した情報処理装置の語句の挿入処理、語句の置換処理などの情報処理は、ソフトウェアと、以下に説明するクライアント端末10のハードウェアとの協働により実現される。
上述の説明より、本開示に係る情報処理装置は、サーバからネットワークを介して受信した音声データを一時的に保持することができる。また、情報処理装置は、保持している音声データの状態、及びネットワークの状態の少なくともいずれかに基づき、再生中の音声データに挿入して再生する挿入語句の再生時間を算出することができる。また、情報処理装置は、音声データに挿入語句を挿入する挿入位置を決定し、計算した再生時間に対応する挿入語句を挿入位置に挿入することができる。以上より、音声データを受信しながら再生する際に、音声データ受信のための時間を安定して確保することが可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提供することが可能である。
(1)
他の装置から伝送路を介して受信した第1の音声データのうち未再生の前記第1の音声データを保持する音声バッファ部と、
前記音声バッファ部に保持されている前記第1の音声データの状態又は前記伝送路の状態の少なくともいずれかに基づいて、前記第1の音声データの再生中に挿入して再生すべき第2の音声データの再生時間を計算する再生時間計算部と、
前記第1の音声データにおける前記第2の音声データの挿入位置を決定する位置決定部と、
前記第1の音声データにおける前記位置決定部により決定された前記挿入位置に、前記再生時間計算部により計算された前記再生時間に対応する前記第2の音声データを挿入する処理を制御する挿入部と、
を備える、情報処理装置。
(2)
前記位置決定部は、無音区間を前記挿入位置として決定する、前記(1)に記載の情報処理装置。
(3)
前記情報処理装置は、前記第1の音声データに含まれる前記無音区間を検出する無音区間検出部をさらに備える、前記(2)に記載の情報処理装置。
(4)
前記位置決定部は、文章情報に基づき前記挿入位置を決定する、前記(1)に記載の情報処理装置。
(5)
前記情報処理装置は、前記第1の音声データの前記文章情報を取得する文章解析部をさらに備える、前記(4)に記載の情報処理装置。
(6)
前記位置決定部は、前記文章情報に基づき、前記第1の音声データに含まれる文節の区切れを前記挿入位置として決定し、
前記挿入部は、前記挿入位置に前記第2の音声データを挿入する、前記(5)に記載の情報処理装置。
(7)
前記位置決定部は、前記文章情報に基づき、前記第1の音声データに含まれる語句を前記挿入位置として決定し、
前記挿入部は、前記挿入位置として決定された語句を削除し、削除した語句に代えて前記第2の音声データを挿入する、前記(5)に記載の情報処理装置。
(8)
前記第2の音声データは、過去の前記第1の音声データである、前記(7)に記載の情報処理装置。
(9)
前記第2の音声データは、削除対象の語句と同様の意味を有する語句であって、前記削除対象の語句よりも長い再生時間を有する語句を含む、過去の前記第1の音声データである、前記(8)に記載の情報処理装置。
(10)
前記情報処理装置は、前記第1の音声データに前記第2の音声データを挿入するか否かを判定する判定部をさらに備え、
前記判定部は、前記再生時間が所定の条件を満たすか否かにより、前記第1の音声データに前記第2の音声データを挿入するか否かを判定する、前記(1)〜(9)のいずれか1項に記載の情報処理装置。
(11)
前記位置決定部は、前記挿入位置を決定できなかった場合、第2の音声データの挿入位置の決定方法を切り替える、前記(1)に記載の情報処理装置。
(12)
前記位置決定部は、無音区間を前記挿入位置として決定できなかった場合、前記無音区間を前記挿入位置として決定する方法から、文節の区切れを前記挿入位置として決定する方法に切り替える、前記(11)に記載の情報処理装置。
(13)
前記音声バッファ部に保持されている前記第1の音声データの状態は、前記音声バッファ部に保持されている前記第1の音声データの量又は増減量の少なくともいずれかを含む、前記(1)に記載の情報処理装置。
(14)
前記情報処理装置は、前記挿入部が前記第1の音声データに挿入する前記第2の音声データを記憶する記憶部をさらに備える、前記(1)〜(11)のいずれか1項に記載の情報処理装置。
(15)
他の装置から伝送路を介して受信した第1の音声データのうち未再生の前記第1の音声データを保持することと、
音声バッファ部に保持されている前記第1の音声データの状態又は前記伝送路の状態の少なくともいずれかに基づいて、前記第1の音声データの再生中に挿入して再生すべき第2の音声データの再生時間を計算することと、
前記第1の音声データにおける前記第2の音声データの挿入位置を決定することと、
前記第1の音声データにおける位置決定部により決定された前記挿入位置に、再生時間計算部により計算された前記再生時間に対応する前記第2の音声データを挿入する処理を制御することと、
を含む、プロセッサにより実行される、情報処理方法。
(16)
コンピュータを、
他の装置から伝送路を介して受信した第1の音声データのうち未再生の前記第1の音声データを保持する音声バッファ部と、
前記音声バッファ部に保持されている前記第1の音声データの状態又は前記伝送路の状態の少なくともいずれかに基づいて、前記第1の音声データの再生中に挿入して再生すべき第2の音声データの再生時間を計算する再生時間計算部と、
前記第1の音声データにおける前記第2の音声データの挿入位置を決定する位置決定部と、
前記第1の音声データにおける前記位置決定部により決定された前記挿入位置に、前記再生時間計算部により計算された前記再生時間に対応する前記第2の音声データを挿入する処理を制御する挿入部と、
として機能させるための、プログラム。
14 ネットワーク
30 サーバ
121 通信部
122 通信部
123 通信部
124 通信部
125 通信部
126 音声バッファ部
128 再生時間決定部
132 無音区間検出部
136 記憶部
140 語句挿入部
144 音声データ再生部
152 文章解析部
160 音声データ保存部
164 語句置換部
221 通信部
226 音声バッファ部
244 音声データ再生部
321 通信部
322 通信部
323 通信部
324 通信部
325 通信部
332 無音区間検出部
348 音声データ生成部
352 文章解析部
356 文章データ生成部
Claims (16)
- 他の装置から伝送路を介して受信した第1の音声データのうち未再生の前記第1の音声データを保持する音声バッファ部と、
前記音声バッファ部に保持されている前記第1の音声データの状態又は前記伝送路の状態の少なくともいずれかに基づいて、前記第1の音声データの再生中に挿入して再生すべき第2の音声データの再生時間を計算する再生時間計算部と、
前記第1の音声データにおける前記第2の音声データの挿入位置を決定する位置決定部と、
前記第1の音声データにおける前記位置決定部により決定された前記挿入位置に、前記再生時間計算部により計算された前記再生時間に対応する前記第2の音声データを挿入する処理を制御する挿入部と、
を備える、情報処理装置。 - 前記位置決定部は、無音区間を前記挿入位置として決定する、請求項1に記載の情報処理装置。
- 前記情報処理装置は、前記第1の音声データに含まれる前記無音区間を検出する無音区間検出部をさらに備える、請求項2に記載の情報処理装置。
- 前記位置決定部は、文章情報に基づき前記挿入位置を決定する、請求項1に記載の情報処理装置。
- 前記情報処理装置は、前記第1の音声データの前記文章情報を取得する文章解析部をさらに備える、請求項4に記載の情報処理装置。
- 前記位置決定部は、前記文章情報に基づき、前記第1の音声データに含まれる文節の区切れを前記挿入位置として決定し、
前記挿入部は、前記挿入位置に前記第2の音声データを挿入する、請求項5に記載の情報処理装置。 - 前記位置決定部は、前記文章情報に基づき、前記第1の音声データに含まれる語句を前記挿入位置として決定し、
前記挿入部は、前記挿入位置として決定された語句を削除し、削除した語句に代えて前記第2の音声データを挿入する、請求項5に記載の情報処理装置。 - 前記第2の音声データは、過去の前記第1の音声データである、請求項7に記載の情報処理装置。
- 前記第2の音声データは、削除対象の語句と同様の意味を有する語句であって、前記削除対象の語句よりも長い再生時間を有する語句を含む、過去の前記第1の音声データである、請求項8に記載の情報処理装置。
- 前記情報処理装置は、前記第1の音声データに前記第2の音声データを挿入するか否かを判定する判定部をさらに備え、
前記判定部は、前記再生時間が所定の条件を満たすか否かにより、前記第1の音声データに前記第2の音声データを挿入するか否かを判定する、請求項1に記載の情報処理装置。 - 前記位置決定部は、前記挿入位置を決定できなかった場合、第2の音声データの挿入位置の決定方法を切り替える、請求項1に記載の情報処理装置。
- 前記位置決定部は、無音区間を前記挿入位置として決定できなかった場合、前記無音区間を前記挿入位置として決定する方法から、文節の区切れを前記挿入位置として決定する方法に切り替える、請求項11に記載の情報処理装置。
- 前記音声バッファ部に保持されている前記第1の音声データの状態は、前記音声バッファ部に保持されている前記第1の音声データの量又は増減量の少なくともいずれかを含む、請求項1に記載の情報処理装置。
- 前記情報処理装置は、前記挿入部が前記第1の音声データに挿入する前記第2の音声データを記憶する記憶部をさらに備える、請求項1に記載の情報処理装置。
- 他の装置から伝送路を介して受信した第1の音声データのうち未再生の前記第1の音声データを保持することと、
音声バッファ部に保持されている前記第1の音声データの状態又は前記伝送路の状態の少なくともいずれかに基づいて、前記第1の音声データの再生中に挿入して再生すべき第2の音声データの再生時間を計算することと、
前記第1の音声データにおける前記第2の音声データの挿入位置を決定することと、
前記第1の音声データにおける位置決定部により決定された前記挿入位置に、再生時間計算部により計算された前記再生時間に対応する前記第2の音声データを挿入する処理を制御することと、
を含む、プロセッサにより実行される、情報処理方法。 - コンピュータを、
他の装置から伝送路を介して受信した第1の音声データのうち未再生の前記第1の音声データを保持する音声バッファ部と、
前記音声バッファ部に保持されている前記第1の音声データの状態又は前記伝送路の状態の少なくともいずれかに基づいて、前記第1の音声データの再生中に挿入して再生すべき第2の音声データの再生時間を計算する再生時間計算部と、
前記第1の音声データにおける前記第2の音声データの挿入位置を決定する位置決定部と、
前記第1の音声データにおける前記位置決定部により決定された前記挿入位置に、前記再生時間計算部により計算された前記再生時間に対応する前記第2の音声データを挿入する処理を制御する挿入部と、
として機能させるための、プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017230802 | 2017-11-30 | ||
JP2017230802 | 2017-11-30 | ||
PCT/JP2018/032466 WO2019106902A1 (ja) | 2017-11-30 | 2018-08-31 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019106902A1 true JPWO2019106902A1 (ja) | 2020-12-03 |
JP7207322B2 JP7207322B2 (ja) | 2023-01-18 |
Family
ID=66664779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019557017A Active JP7207322B2 (ja) | 2017-11-30 | 2018-08-31 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11302344B2 (ja) |
JP (1) | JP7207322B2 (ja) |
CN (1) | CN111386567A (ja) |
DE (1) | DE112018006118T5 (ja) |
WO (1) | WO2019106902A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981174A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 音声合成システムおよび音声合成方法 |
JP2002271391A (ja) * | 2001-03-08 | 2002-09-20 | Nec Eng Ltd | ダイナミック・ジッタ・バッファ制御方法 |
JP2017083713A (ja) * | 2015-10-29 | 2017-05-18 | シャープ株式会社 | 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7716358B2 (en) * | 2000-09-12 | 2010-05-11 | Wag Acquisition, Llc | Streaming media buffering system |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US7783773B2 (en) * | 2006-07-24 | 2010-08-24 | Microsoft Corporation | Glitch-free media streaming |
US8069051B2 (en) * | 2007-09-25 | 2011-11-29 | Apple Inc. | Zero-gap playback using predictive mixing |
JP5691721B2 (ja) | 2011-03-25 | 2015-04-01 | 三菱電機株式会社 | 音声データ処理装置 |
-
2018
- 2018-08-31 US US15/733,127 patent/US11302344B2/en active Active
- 2018-08-31 JP JP2019557017A patent/JP7207322B2/ja active Active
- 2018-08-31 WO PCT/JP2018/032466 patent/WO2019106902A1/ja active Application Filing
- 2018-08-31 DE DE112018006118.3T patent/DE112018006118T5/de not_active Withdrawn
- 2018-08-31 CN CN201880075058.9A patent/CN111386567A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981174A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 音声合成システムおよび音声合成方法 |
JP2002271391A (ja) * | 2001-03-08 | 2002-09-20 | Nec Eng Ltd | ダイナミック・ジッタ・バッファ制御方法 |
JP2017083713A (ja) * | 2015-10-29 | 2017-05-18 | シャープ株式会社 | 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN111386567A (zh) | 2020-07-07 |
US20200402528A1 (en) | 2020-12-24 |
US11302344B2 (en) | 2022-04-12 |
WO2019106902A1 (ja) | 2019-06-06 |
DE112018006118T5 (de) | 2020-08-13 |
JP7207322B2 (ja) | 2023-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102660922B1 (ko) | 복수의 지능형 개인 비서 서비스를 위한 관리 계층 | |
JP6113302B2 (ja) | 音声データの伝送方法及び装置 | |
US8924853B2 (en) | Apparatus, and associated method, for cognitively translating media to facilitate understanding | |
US10283168B2 (en) | Audio file re-recording method, device and storage medium | |
JP2019185011A (ja) | アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 | |
CN103426449B (zh) | 通过适应性自动快速音频回放减轻音频中断的影响 | |
CN111177453B (zh) | 控制音频播放的方法、装置、设备及计算机可读存储介质 | |
CN104052846A (zh) | 游戏应用中的语音通信方法及系统 | |
EP3769303B1 (en) | Modifying spoken commands | |
CN110136713A (zh) | 用户在多模态交互中的对话方法及系统 | |
JPWO2014069220A1 (ja) | 再生装置、設定装置、再生方法およびプログラム | |
KR102023157B1 (ko) | 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치 | |
JPWO2018034077A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN102881309A (zh) | 歌词文件生成、校对方法及装置 | |
CN109599133B (zh) | 语言音轨的切换方法、装置、计算机设备及存储介质 | |
KR20110053397A (ko) | 검색 키워드를 이용한 멀티미디어 파일 검색 방법 및 그 휴대기기 | |
JPWO2019106902A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20150312369A1 (en) | Checkpoints for media buffering | |
KR20170005590A (ko) | 음성 통화 녹음 방법 및 이를 수행하는 단말 | |
KR20070004256A (ko) | 데이터베이스 검색 방법 및 장치 | |
JP4191221B2 (ja) | 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム | |
JP5184071B2 (ja) | 書き起こしテキスト作成支援装置、書き起こしテキスト作成支援プログラム、及び書き起こしテキスト作成支援方法 | |
JP6552868B2 (ja) | 音声コミュニケーション支援装置、音声コミュニケーション支援方法およびプログラム | |
US20240185888A1 (en) | Content-based adaptive speed playback | |
CN109378019B (zh) | 音频数据读取方法及处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221219 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7207322 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |