JPWO2017072915A1 - 視覚情報と聴覚情報の同期方法および情報処理装置 - Google Patents
視覚情報と聴覚情報の同期方法および情報処理装置 Download PDFInfo
- Publication number
- JPWO2017072915A1 JPWO2017072915A1 JP2017547279A JP2017547279A JPWO2017072915A1 JP WO2017072915 A1 JPWO2017072915 A1 JP WO2017072915A1 JP 2017547279 A JP2017547279 A JP 2017547279A JP 2017547279 A JP2017547279 A JP 2017547279A JP WO2017072915 A1 JPWO2017072915 A1 JP WO2017072915A1
- Authority
- JP
- Japan
- Prior art keywords
- information
- language
- editing
- visual
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000010365 information processing Effects 0.000 title claims description 10
- 230000033001 locomotion Effects 0.000 claims description 57
- 238000013519 translation Methods 0.000 claims description 49
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000006866 deterioration Effects 0.000 claims description 2
- 230000015556 catabolic process Effects 0.000 claims 1
- 238000006731 degradation reaction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 101100074187 Caenorhabditis elegans lag-1 gene Proteins 0.000 description 4
- 101100510615 Caenorhabditis elegans lag-2 gene Proteins 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1692—Calibration of manipulator
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40531—Ann for voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
図1Aは、本実施例の音声翻訳装置100の全体構成を説明する図である。
以下ではまず本実施例を構成する各処理部で行われる処理について、図1を参照しつつ説明する。以下の説明では、入力した音声は、「この缶に、この缶を入れてください。」(日本語)や「Put this can into this can.」(英語)などの単文としているが、複数の文を結合した長い音声も処理可能である。
時間的ずれ1=|開始時刻1(ジェスチャ1)− 開始時刻2(第2言語音声)|+|終了時刻1(ジェスチャ1)− 終了時刻2(第2言語音声)|
時間的ずれ2=|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|+|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、100ms、300ms、400ms、600msとし、第2言語の開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ1 = |100ms − 200ms|+|300ms − 400ms|= 200ms
時間的ずれ2 = |400ms − 0ms |+|600ms − 200ms|= 800ms
となる。事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ1の「時間的ずれ」(=200ms)と、ジェスチャ2の「時間的ずれ」(=800ms)とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール1064に出力する。
図8Aは、本実施例の音声翻訳装置の全体構成を説明する図である。
ロボットの動きと音声(第2言語)との情報同期の最適化部806では、第2言語音声とジェスチャとの時間ずれ評価モジュール8062によって、音声合成による第2言語音声と、ロボット動作指定によるロボットの身体動作(ジェスチャ)との、時間ずれを評価することができる。
時間的ずれ2=|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|+|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、100ms、300ms、400ms、600msとし、第2言語の開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ1 = |100ms − 200ms|+|300ms − 400ms|= 200ms
時間的ずれ2 = |400ms − 0ms |+|600ms − 200ms|= 800ms
となる。実施例1と同じように、事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ1の「時間的ずれ」(=200ms)と、ジェスチャ2の「時間的ずれ」(=800ms)とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール8064に出力する。
図14は、実施例3の使用形態を説明する図である。ここでは、話者2名(話者A, 話者B)がおり、異なる言語で発話しているものと想定する。それぞれの話者が発話している言語を、言語A, 言語Bとする。
端末Aに第1の言語による第1の音声を入力するステップ、
前記端末Aに前記第1の音声を(音声認識などにより)第1のテキストとして表示するステップ、
前記端末Aから前記第1のテキストを(ネットワークなどを介して)端末Bに転送するステップ、
前記端末Bに前記第1のテキストを(機械翻訳などにより)第2の言語による第2のテキストとして表示するステップ(なお、機械翻訳はネットワーク中のサーバが行ってもよいし、端末AまたはBが行ってもよい)、
前記端末Aに表示された前記第1のテキストの任意の個所を指定するステップ、
前記端末Aから前記任意の個所の指定を前記端末Bに通知するステップ、
前記端末Bに表示された前記第2のテキストにおいて、指定された前記第1のテキストの任意の個所に対応する部分の表示を変更するステップ、
をサーバまたはタブレットが実行することにより、スムーズなコミュニケーションが可能となる。
Claims (15)
- 視覚情報と聴覚情報の同期方法において、
映像に含まれる前記視覚情報を抽出し、
第1言語の音声に含まれる第1言語の聴覚情報を認識し、
前記視覚情報と、前記第1言語の聴覚情報とを対応付け、
前記第1言語の聴覚情報を第2言語の聴覚情報に翻訳し、
前記視覚情報と前記第2言語の聴覚情報とを対応付けるよう、前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集する、
ことを特徴とする視覚情報と聴覚情報の同期方法。 - 請求項1において、
前記視覚情報と前記第2言語の聴覚情報とを対応付ける編集は、前記視覚情報と前記第2言語の聴覚情報との時間的ずれを評価し、該時間的ずれを縮小する編集であることを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項1において、
前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項3において、
前記最適な手法を選択する手法には、それぞれの前記編集手法による前記視覚情報及び前記第2言語の聴覚情報の自然性低下を評価した結果を用いることを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項3において、
前記最適な手法を選択する手法では、前記視覚情報及び前記第2言語の聴覚情報の編集による視覚情報及び第2言語の聴覚情報の自然性低下がより小さいものを選択することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項3において、
前記視覚情報を編集する編集手法は、前記映像の再生の一時的な静止、前記映像の再生順序の変更、前記映像のCGを用いた編集、前記映像に対応したロボットの動きの早さの変更、前記映像に対応したロボットの動順番の変更、の少なくとも一つを用いて、前記視覚情報のタイミングを変更することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項3において、
前記第2言語の聴覚情報を編集する編集手法は、前記第2言語の聴覚情報を含む第2言語の音声の再生の一時的な静止、前記第2言語の音声の再生順序の変更、前記第2言語の音声の発話語順の変更、前記第2言語の音声の発話内容の変更、の少なくとも一つを用いて、前記聴覚情報のタイミングを変更することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項4において、
前記視覚情報の自然性低下評価は、前記映像の連続性、前記映像の自然性、前記映像に対応したロボットの動きの連続性、の少なくとも一つを用いて、自然性を評価することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項4において、
前記第2言語の聴覚情報の自然性低下評価は、前記第2言語の聴覚情報を含む第2言語の音声の連続性、前記第2言語の音声の自然性、前記第2言語の音声と前記第1言語の音声との意味の一致性、前記第2言語の音声の意味の理解しやすさ、の少なくとも一つを用いて、自然性を評価することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 第1の視覚情報を含む入力映像データと、第1の聴覚情報を含む第1の言語による入力音声データを入力し、
前記第1の視覚情報に対応する第2の視覚情報を含む出力視覚データと、前記第1の聴覚情報に対応する第2の聴覚情報を含む第2の言語による出力音声データを出力する情報処理装置であって、
前記入力映像データから前記第1の視覚情報を検出する検出部と、
前記入力音声データから前記第1の聴覚情報を認識する認識部と、
前記第1の視覚情報と前記第1の聴覚情報の対応付けを行う対応付け部と、
前記第1の言語による入力音声データを、前記第2の言語による出力音声データに変換する翻訳部と、
前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれが小さくなるように、前記第2の視覚情報および前記第2の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
を有する情報処理装置。 - 前記最適化部は、
前記出力視覚データである出力映像データを編集する映像編集部、前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
の少なくとも一つを有する請求項10記載の情報処理装置。 - 前記最適化部は、
前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれを閾値と比較する、時間ずれ評価部を備え、
前記評価部により前記出力タイミングずれが前記閾値より大きいと判定された場合に、
前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、
の少なくとも一つを動作させる請求項11記載の情報処理装置。 - 前記第1の視覚情報は前記第2の視覚情報と同一であり、
前記映像編集部は、
前記入力映像データに対して、該入力映像データに含まれる前記第1の視覚情報を前記第2の視覚情報として、その時間的な前後関係を入れ替える編集を行うことで、前記出力映像データを生成する、
請求項11記載の情報処理装置。 - 前記テキスト編集部は、
前記翻訳部における翻訳結果の候補を変更することにより、前記出力音声データを生成するテキストデータを変更するか、あるいは、前記テキストデータ内の語順を変更することで、前記出力音声データを生成する、
請求項11記載の情報処理装置。 - 前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、
の少なくとも一つを動作させた結果の、前記出力視覚データおよび前記出力音声データの少なくとも一つを評価する自然性評価部を備え、
前記自然性評価部の評価結果に基づいて、前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、のいずれを動作させるかを変更する、
請求項12記載の情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/080574 WO2017072915A1 (ja) | 2015-10-29 | 2015-10-29 | 視覚情報と聴覚情報の同期方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017072915A1 true JPWO2017072915A1 (ja) | 2018-07-12 |
JP6663444B2 JP6663444B2 (ja) | 2020-03-11 |
Family
ID=58630010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017547279A Active JP6663444B2 (ja) | 2015-10-29 | 2015-10-29 | 視覚情報と聴覚情報の同期方法および情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10691898B2 (ja) |
JP (1) | JP6663444B2 (ja) |
WO (1) | WO2017072915A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11237635B2 (en) | 2017-04-26 | 2022-02-01 | Cognixion | Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio |
US11402909B2 (en) | 2017-04-26 | 2022-08-02 | Cognixion | Brain computer interface for augmented reality |
US11900072B1 (en) * | 2017-07-18 | 2024-02-13 | Amazon Technologies, Inc. | Quick lookup for speech translation |
US11989976B2 (en) * | 2018-02-16 | 2024-05-21 | Nippon Telegraph And Telephone Corporation | Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs |
JP7157340B2 (ja) * | 2018-02-16 | 2022-10-20 | 日本電信電話株式会社 | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム |
WO2019203795A1 (en) * | 2018-04-16 | 2019-10-24 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
JP7035765B2 (ja) * | 2018-04-25 | 2022-03-15 | 富士通株式会社 | 制御プログラム、制御方法及び制御装置 |
JP7225654B2 (ja) * | 2018-10-04 | 2023-02-21 | 富士通株式会社 | コミュニケーション装置、コミュニケーション方法、及びコミュニケーションプログラム |
KR102116315B1 (ko) * | 2018-12-17 | 2020-05-28 | 주식회사 인공지능연구원 | 캐릭터의 음성과 모션 동기화 시스템 |
US11275889B2 (en) * | 2019-04-04 | 2022-03-15 | International Business Machines Corporation | Artificial intelligence for interactive preparation of electronic documents |
CN110232194B (zh) * | 2019-06-17 | 2024-04-09 | 安徽听见科技有限公司 | 翻译显示方法、装置、设备及可读存储介质 |
KR20210032809A (ko) * | 2019-09-17 | 2021-03-25 | 삼성전자주식회사 | 동시 통역 방법 및 장치 |
CN110704683A (zh) * | 2019-09-27 | 2020-01-17 | 深圳市商汤科技有限公司 | 音视频信息处理方法及装置、电子设备和存储介质 |
WO2021210098A1 (ja) * | 2020-04-15 | 2021-10-21 | 日本電信電話株式会社 | 変換方法、変換装置及びプログラム |
CN113721704A (zh) * | 2021-08-30 | 2021-11-30 | 成都华栖云科技有限公司 | 一种视频流的同声传译系统及其实现方法 |
WO2023166527A1 (en) * | 2022-03-01 | 2023-09-07 | Gan Studio Inc. | Voiced-over multimedia track generation |
CN115497499A (zh) * | 2022-08-30 | 2022-12-20 | 阿里巴巴(中国)有限公司 | 语音和动作时间同步的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08220985A (ja) * | 1995-02-15 | 1996-08-30 | Mitsuyuki Masaji | 英語の学習指導方法およびこれを実施する学習 教材 |
JPH09114634A (ja) * | 1995-10-16 | 1997-05-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | マルチモーダル情報統合解析装置 |
JP2001224002A (ja) * | 2000-02-08 | 2001-08-17 | Atr Interpreting Telecommunications Res Lab | 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002099295A (ja) * | 2000-09-22 | 2002-04-05 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体 |
JP2002123282A (ja) * | 2000-10-17 | 2002-04-26 | Brother Ind Ltd | 翻訳装置および記録媒体 |
WO2005057549A1 (ja) * | 2003-12-12 | 2005-06-23 | Nec Corporation | 情報処理システム、情報処理方法および情報処理用プログラム |
JP2006510095A (ja) * | 2002-12-10 | 2006-03-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 多モードの音声言語翻訳及び表示 |
JP2008306691A (ja) * | 2007-06-05 | 2008-12-18 | Takeshi Sumida | バイリンガル二重字幕 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3213105B2 (ja) | 1993-02-23 | 2001-10-02 | 日本電信電話株式会社 | 映像の構図自動決定処理方法 |
US7109993B2 (en) * | 1995-10-08 | 2006-09-19 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method and system for the automatic computerized audio visual dubbing of movies |
US20070165022A1 (en) * | 1998-07-15 | 2007-07-19 | Shmuel Peleg | Method and system for the automatic computerized audio visual dubbing of movies |
JP4014044B2 (ja) | 2003-01-28 | 2007-11-28 | 株式会社国際電気通信基礎技術研究所 | コミュニケーションロボットおよびそれを用いたコミュニケーションシステム |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
US9060193B2 (en) * | 2009-12-07 | 2015-06-16 | Centurylink Intellectual Property Llc | System and method for broadcasting video with a secondary audio source |
US20120105719A1 (en) * | 2010-10-29 | 2012-05-03 | Lsi Corporation | Speech substitution of a real-time multimedia presentation |
US20120276504A1 (en) * | 2011-04-29 | 2012-11-01 | Microsoft Corporation | Talking Teacher Visualization for Language Learning |
RU2580022C2 (ru) * | 2011-08-31 | 2016-04-10 | Общество С Ограниченной Ответственностью "Базелевс Инновации" | Визуализация текста на естественном языке |
US8874429B1 (en) * | 2012-05-18 | 2014-10-28 | Amazon Technologies, Inc. | Delay in video for language translation |
KR20140146965A (ko) * | 2013-06-18 | 2014-12-29 | 삼성전자주식회사 | 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 |
US9584871B2 (en) * | 2013-12-19 | 2017-02-28 | Echostar Technologies L.L.C. | Smartphone bluetooth headset receiver |
US9324340B2 (en) * | 2014-01-10 | 2016-04-26 | Sony Corporation | Methods and apparatuses for use in animating video content to correspond with audio content |
US20160042766A1 (en) * | 2014-08-06 | 2016-02-11 | Echostar Technologies L.L.C. | Custom video content |
-
2015
- 2015-10-29 WO PCT/JP2015/080574 patent/WO2017072915A1/ja active Application Filing
- 2015-10-29 JP JP2017547279A patent/JP6663444B2/ja active Active
- 2015-10-29 US US15/771,460 patent/US10691898B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08220985A (ja) * | 1995-02-15 | 1996-08-30 | Mitsuyuki Masaji | 英語の学習指導方法およびこれを実施する学習 教材 |
JPH09114634A (ja) * | 1995-10-16 | 1997-05-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | マルチモーダル情報統合解析装置 |
JP2001224002A (ja) * | 2000-02-08 | 2001-08-17 | Atr Interpreting Telecommunications Res Lab | 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002099295A (ja) * | 2000-09-22 | 2002-04-05 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体 |
JP2002123282A (ja) * | 2000-10-17 | 2002-04-26 | Brother Ind Ltd | 翻訳装置および記録媒体 |
JP2006510095A (ja) * | 2002-12-10 | 2006-03-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 多モードの音声言語翻訳及び表示 |
WO2005057549A1 (ja) * | 2003-12-12 | 2005-06-23 | Nec Corporation | 情報処理システム、情報処理方法および情報処理用プログラム |
JP2008306691A (ja) * | 2007-06-05 | 2008-12-18 | Takeshi Sumida | バイリンガル二重字幕 |
Also Published As
Publication number | Publication date |
---|---|
WO2017072915A1 (ja) | 2017-05-04 |
JP6663444B2 (ja) | 2020-03-11 |
US10691898B2 (en) | 2020-06-23 |
US20180336891A1 (en) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017072915A1 (ja) | 視覚情報と聴覚情報の同期方法および情報処理装置 | |
US11942093B2 (en) | System and method for simultaneous multilingual dubbing of video-audio programs | |
KR100948600B1 (ko) | 제스처/음성 융합 인식 시스템 및 방법 | |
US20220327309A1 (en) | METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA | |
GB2601162A (en) | Methods and systems for video translation | |
WO2004049312A1 (en) | Method and apparatus for providing an animated display with translated speech | |
KR101819459B1 (ko) | 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치 | |
KR20140146965A (ko) | 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 | |
KR101089184B1 (ko) | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 | |
Ishi et al. | Speech-driven lip motion generation for tele-operated humanoid robots | |
KR20100138654A (ko) | 외국어 발음 학습 장치 및 방법 | |
Edwards et al. | Jali-driven expressive facial animation and multilingual speech in cyberpunk 2077 | |
Taylor et al. | A mouth full of words: Visually consistent acoustic redubbing | |
US20230039248A1 (en) | Systems and Methods for Assisted Translation and Lip Matching for Voice Dubbing | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
JP4011844B2 (ja) | 翻訳装置、翻訳方法および媒体 | |
JP6754154B1 (ja) | 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末 | |
KR102138132B1 (ko) | 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
KR101501705B1 (ko) | 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 | |
WO2024122284A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
WO2021255831A1 (ja) | 送信装置、コミュニケーション方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6663444 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |