JPWO2017072915A1 - 視覚情報と聴覚情報の同期方法および情報処理装置 - Google Patents

視覚情報と聴覚情報の同期方法および情報処理装置 Download PDF

Info

Publication number
JPWO2017072915A1
JPWO2017072915A1 JP2017547279A JP2017547279A JPWO2017072915A1 JP WO2017072915 A1 JPWO2017072915 A1 JP WO2017072915A1 JP 2017547279 A JP2017547279 A JP 2017547279A JP 2017547279 A JP2017547279 A JP 2017547279A JP WO2017072915 A1 JPWO2017072915 A1 JP WO2017072915A1
Authority
JP
Japan
Prior art keywords
information
language
editing
visual
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017547279A
Other languages
English (en)
Other versions
JP6663444B2 (ja
Inventor
慶華 孫
慶華 孫
本間 健
健 本間
貴志 住吉
貴志 住吉
真人 戸上
真人 戸上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2017072915A1 publication Critical patent/JPWO2017072915A1/ja
Application granted granted Critical
Publication of JP6663444B2 publication Critical patent/JP6663444B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1692Calibration of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40531Ann for voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

視覚情報と聴覚情報の同期方法において、映像に含まれる前記視覚情報を抽出し、第1言語の音声に含まれる第1言語の聴覚情報を認識し、視覚情報と第1言語の聴覚情報とを対応付け、第1言語の聴覚情報を第2言語の聴覚情報に翻訳し、視覚情報と第2言語の聴覚情報とを対応付けるよう、視覚情報及び第2言語の聴覚情報の少なくとも一つを編集する、ことを特徴とする視覚情報と聴覚情報の同期方法が開示される。

Description

本発明は、自動音声翻訳する装置などに適用するに好適な技術に係り、入力された第1言語聴覚情報(音声)と視覚情報(話し手の動きなど)から、聞き手に対して、第2言語の聴覚情報(翻訳した音声)と視覚情報(編集した動画やロボットによる動きの再現など)を自動生成する技術に関する。
近年、音声認識、機械翻訳、音声合成などの技術が飛躍的に向上していることを背景に、これらの技術を組み合わせた音声翻訳システムが実用化されつつある。このようなシステムは、第1言語の入力に対して、音声認識技術によって、第1言語のテキストに変換される。さらに、第1言語のテキストを機械翻訳によって、第2言語のテキストに翻訳したあと、第2言語に対応した音声合成モジュールで、第2言語の音声に変換される。この技術の実用化により、言葉の壁がなくなり、自由に外国の方とコミュニケーションが可能とある。
その一方、耳から入る音声情報とともに、表情やジェスチャなどの目から入る視覚情報も、意味の伝達に大きく貢献する。例えば、“指差し”のようなジェスチャでは、意味の理解に大きく寄与する。そのため、話し手の動きを映像もしくはロボットを通して、聞き手に伝えることによって、より自然なコミュニケーションを実現する。例えば、特許文献1では、ロボットを通して、話し手の動きを再現することを提案した。
しかし、音声翻訳システムにおいて、第1言語音声を第2言語音声に翻訳した場合、同じ意味の持つ言葉は、必ず同じ時間(発話先頭を基準とした相対時間)に来ることは保障できない。そのため、聞き手の目に入る視覚情報と耳に入る聴覚情報とのミスマッチ(以降、「時間的ずれ」とする)が生じ、意味の理解には大きく損なう場合もある。
従来手法(特許文献2)では、 第2言語音声の開始時間と終了時間を、第1言語音声に合わせる手法が提案され、音声と映像との開始と終了時間での同期をとれるようになったが、局所的な視覚情報と聴覚情報との時間的ずれという問題は、依然に解決できていない。特に、日本語と英語と翻訳した場合は、語順の違いによる、この時間的ずれは顕著となり、誤解につながることになることもある。
たとえば、話し手が、第1言語(英語)で「Put this can into this can.」と話しながら、缶1(最初に発話されるcan)を指して(ジェスチャ1)から、缶2(2番目に発話されるcan)を指す(ジェスチャ2)動作を行ったとする。この時、缶1の音声とジェスチャ1、缶2の音声とジェスチャ2との時間的対応関係が、聞き手にとって、意味の理解に大きく寄与する。しかし、第2言語(日本語)ネイティブに、「この缶に、この缶を入れてください。」と翻訳した場合、缶1(最初に発話される缶)と缶2(2番目に発話される缶)の順番が、第一言語と逆になり、缶2の音声とジェスチャ1、缶1の音声とジェスチャ2と時間的に対応関係となり、話し手の意図と逆の意味を持つことになる。
特開2004-230479号公報 特開2002-123282号公報 特開平6-253197号公報
石岡恒憲、亀田雅之:コンピュータによる小論文の自動採点システム Jessの試作、計算機統計学、Vol.16, No.1, pp.3-18(2003)。
R. E. Donovan and E. M. Eide, "The IBM Trainable Speech Synthesis System," Proc. ICSLP, vol.5, pp.1703-1706, 1998. 徳田恵一, 隠れマルコフモデルの音声合成への応用,電子情報通信学会技術研究報告,SP99-61, 47-54 (1999).
本発明では、これまでの自動音声翻訳システムでは、翻訳した第2言語音声と、再現した第1言語発話者(話し手)の動作と、両者の持っている情報の「時間的ずれ」による意味理解への影響を解消する。
上記課題を解決する本発明の一側面は、視覚情報と聴覚情報の同期方法において、映像に含まれる前記視覚情報を抽出し、第1言語の音声に含まれる第1言語の聴覚情報を認識し、視覚情報と第1言語の聴覚情報とを対応付け、第1言語の聴覚情報を第2言語の聴覚情報に翻訳し、視覚情報と第2言語の聴覚情報とを対応付けるよう、視覚情報及び第2言語の聴覚情報の少なくとも一つを編集する、ことを特徴とする視覚情報と聴覚情報の同期方法である。
理解を容易にするため具体的な例を挙げると、視覚情報とは例えばジェスチャ(指さし、身振り)や表情であり、聴覚情報とは例えば発話内容である。映像とは例えばカメラによって撮影された話者の動画像である。
本発明の他の側面は、第1の視覚情報を含む入力映像データと、第1の聴覚情報を含む第1の言語による入力音声データを入力し、第1の視覚情報に対応する第2の視覚情報を含む出力視覚データと、第1の聴覚情報に対応する第2の聴覚情報を含む第2の言語による出力音声データを出力する情報処理装置である。この装置は、入力映像データから第1の視覚情報を検出する検出部と、入力音声データから第1の聴覚情報を認識する認識部と、第1の視覚情報と第1の聴覚情報の対応付けを行う対応付け部と、第1の言語による入力音声データを、第2の言語による出力音声データに変換する翻訳部と、対応付けられた第1の視覚情報と第1の聴覚情報に対応する、第2の視覚情報と第2の聴覚情報の出力タイミングずれが小さくなるように、第2の視覚情報および第2の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、を有する。
出力視覚データは、ユーザの視覚で最終的に認知されるデータであればよく、動画像(例えば入力映像データを編集したもの)でもよいし、その他のデータ(例えばロボットの動作を指示する動作指令データ)でもよい。
本発明のさらに他の側面では、入力した第1言語の音声から、自動的に第2言語の音声に翻訳する装置であって、その基本構成に加えて、入力した第1言語の音声とともに、話し手の身体動作を取得する手段を持ち、上記取得した身体動作と入力した第1言語の音声との対応を検出する手段を持ち、第1言語の音声から翻訳した第2言語の音声と取得した話し手の身体動作との対応を検出する手段を持ち、第2言語音声を再生するとともに、話し手の身体動作を再現する手段を持ち、第2言語と再現した話し手の身体動作との時間軸でのずれを評価する手段を持ち、時間軸において、再現した話し手の身体動作の編集、翻訳第2言語テキストの編集、合成した第2言語音声の編集などの複数の手段を持ち、再現した話し手の身体動作の編集、翻訳第2言語テキストの編集、合成した第2言語音声の編集による発話への理解しやすさに対する影響を定量的に評価する手段を持ち、時間ずれを最小化した上、上記評価手段を用いて、もっとも理解しやすい手段を選択する手段を持つ。
本発明によれば、翻訳した音声と再現した話し手の動きとの「時間的ずれ」を小さくすることができ、自然なコミュニケーションを実現することが可能となる。
実施例1遠隔映像転送における自動音声翻訳装置の全体構成を説明するブロック図 実施例1の遠隔映像転送における自動音声翻訳装置の全体構成を説明するブロック図 実施例1の遠隔映像転送における自動音声翻訳装置の全体構成を説明するブロック図 ジェスチャと音声(第1言語)との情報同期部で得られた、映像から抽出したジェスチャ(指差し)と音声から得られた単語(第1言語音声)との対応関係を示すイメージ図 テキスト(第2言語)と 音声(第1言語)との 情報同期部 で得られた、第1言語音声と翻訳された第2言語テキストとの対応関係を示すイメージ図 音声合成部 (第2言語)で合成した第2言語音声のイメージ図 映像編集による「時間的ずれ」を解消する例のイメージ図 テキスト編集による「時間的ずれ」を解消する例のイメージ図 音声編集による「時間的ずれ」を解消する例のイメージ図 実施例2のロボットにおける自動音声翻訳装置の全体構成を説明するブロック図 実施例2のロボットにおける自動音声翻訳装置の全体構成を説明するブロック図 予測したロボットの動きのタイミングを示すイメージ図 合成した第2言語音声のタイミングを示すイメージ図 動作指令編集による「時間的ずれ」を解消する場合のイメージ図 ロボット動きの制約により、目標時刻通りに動くことができない場合のロボットの動きのタイミングを示すイメージ図 動作指令編集と音声編集を同時に行うことによる「時間的ずれ」を解消する場合のイメージ図 実施例3の携帯端末における自動音声翻訳装置の特徴を説明する平面図
以下、実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数または順序を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
以下の実施例では計算や制御等の機能は、記憶装置に格納されたプログラムがプロセッサによって実行されることで、定められた処理を他のハードウェアと協働して行うことを想定している。計算機などが実行するプログラムまたはその機能を実現する手段を、「ユニット」「機能」、「手段」、「部」、「モジュール」等と呼ぶ場合がある。また、本実施例中、ソフトウエアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。そのような態様も本願発明の範囲に含まれる。
本実施例では、録画された(もしくは遠隔転送された)第2言語音声と映像データを、第2言語音声と映像に変換することを想定した、本発明の基本構成を説明する。例えば、遠隔授業などの場合を想定して、映像が編集可能なケースを想定している。
本実施例では、第1言語音声と映像を、本発明の音声翻訳装置(システム)によって、入力と同じ意味を持つ、第2言語音声と映像に変換する基本機能を実現する。以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、ハードウェアとしての実現しも、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。
<概要>
図1Aは、本実施例の音声翻訳装置100の全体構成を説明する図である。
図1Bは、図1Aの全体構成のうち、映像と音声(第2言語)との情報同期の最適化部の詳細構成である。灰色に塗りつぶされている音声認識部101、テキスト翻訳部102、音声出力部107、音声合成部(第2言語)1061は、通常の音声翻訳システムにも存在する処理単位である。特に、二重枠線で示している映像と音声(第2言語)との情報同期の最適化部106は、後に図1Bで詳細に説明する。
本実施例の音声翻訳装置100では、同期の取れている映像データと音声データ(第1言語)を入力すると、映像から抽出したコミュニケーションに重要なジェスチャ(指差しなど)と、それを同じタイミングで発した言葉(第1言語)との対応関係を特定し、翻訳した同じテキスト(第2言語)から、最適な編集手法(映像編集、テキスト編集、音声編集)を決定し、ジェスチャと対応する言葉(第2言語)との時間的ずれを最小化するとともに、映像、テキスト、音声の自然性や理解しやすさを、最大限に維持することを可能とする。
この音声翻訳処理を実現するために、音声認識部(第1言語)101、テキスト翻訳部(第1言語から第2言語に翻訳)102、音声合成部(第2言語)1061、音声出力部107という通常の音声翻訳装置が持つ処理単位を備える。これに加えて、ジェスチャ検出部104、ジェスチャと音声(第1言語)との情報同期部105、テキスト(第2言語)と音声(第1言語)との情報同期部103、映像と音声(第2言語)との情報同期の最適化部106、映像出力部108を備える。
図1Bに詳細を示すように、さらに、映像と音声(第2言語)との情報同期の最適化部106では、第2言語音声とジェスチャとの時間ずれ評価モジュール1062、映像編集、テキスト編集、音声編集の各手法による音声・映像を編集する編集モジュール1064、判定処理1063、編集モジュール1064による音声・映像の自然性低下を評価する音声・映像自然性評価モジュール1065を有する。音声・映像自然性評価モジュール1065では、例えば、映像編集後の不連続性、語順変更後テキストの自然性、・話速変更後音声の自然性などを判断基準とする。
図1Cは、本実施例のシステム構成例である。入力側端末1001からは、入力映像データと入力音声データ(第1言語)が入力される。これらの入力データは例えばネットワーク1002を経由して、音声翻訳装置100を構成するサーバ1003に入力される。サーバ1003では入力データを処理し、出力映像データと出力音声データ(第2言語)として、ネットワーク1002を経由して出力側端末1004に送信する。
サーバ1003は、通常の構成として入力装置1005、出力装置1006、処理装置1007、記憶装置1008を備える。図1A,図1Bで説明した各モジュールは、記憶装置1008に記憶されたプログラムが、処理装置1007で実行されることにより各種の機能を実現することができる。
<詳細>
以下ではまず本実施例を構成する各処理部で行われる処理について、図1を参照しつつ説明する。以下の説明では、入力した音声は、「この缶に、この缶を入れてください。」(日本語)や「Put this can into this can.」(英語)などの単文としているが、複数の文を結合した長い音声も処理可能である。
また、以下の説明では、日本語から英語、英語から日本語に音声翻訳することを例にしているが、ほかの言語間の翻訳でもかまわない。その場合は、内部処理(音声認識、テキスト翻訳、音声合成)もその言語に対応したプログラム・データを用いなければならない。
また、以下の説明では、「指差し」を例に説明するが、映像から検出できるすべての視覚情報に拡張することが可能である。特に、発話者の手振り身振り、背景の変化など、時間とともに変化する視覚情報は、重要だと考えられる。以降、本発明では、単にジェスチャと書いた場合は、すべての視覚情報を意味する。
また、本実施例を構成する各処理部は、プログラムによって自動処理と説明しているが、プログラムの自動処理の代わりに、作業者による手作業なども考えられる。たとえば、ジェスチャ抽出部は、作業者による手作業での抽出も可能とする。
ジェスチャ検出部104では、入力した映像から、コミュニケーションに重要な視覚情報を抽出する。入力映像をパターン認識処理してもよいが、視覚情報の重要度は、発話内容に大きく影響されるため、入力映像のみから抽出するより、音声認識で得られたテキストを参考に、抽出したほうが正確に抽出することが可能となる。本説明では、遠隔授業などを例にしているため、「指差し」という動作が重要だと考え、「指差し」動作の抽出を行う。
一例では、入力した音声「Put this can into this can.」(英語)に対して、映像から、2回の指差し動作が検出された。1回目(指差し1)は、缶1(先に発話されたcanに対応)を指し、2回目は(指差し2)は、缶2(後に発話されたcanに対応)を指している。以降、説明しやすくするために、先に発話されたcanをcan(1)と表記し第2言語の音声(テキスト)では缶1に対応することにし、後に発話されたcanをcan(2)と表記し第2の言語の音声(テキスト)では缶2に対応しているものとする。なお、これら缶やcanに付された番号は明細書および図面に説明のために付すものであって、実際には缶やcanを区別する番号は発話されていないことに留意されたい。
ジェスチャと音声(第1言語)との情報同期部105では、ジェスチャ検出部104で抽出したジェスチャと、それに対応する言葉(第1言語)との対応関係を決定する。
図2で一例を示す。図2で示したように、映像から抽出した「指差し1」と音声から得られたテキスト「can(1)」とを対応させ、「タイム1」(開始時刻1から終了時刻1まで)の間で行われていたとの情報同期を行う。同じく、映像から抽出した「指差し2」と音声から得られたテキスト「can(2)」とを対応させ、「タイム2」(開始時刻2から終了時刻2まで)の間で行っていたとの結果を得る。
テキスト(第2言語)と音声(第1言語)との情報同期部103では、音声認識部101で得られた第1言語テキストと、テキスト翻訳部102で得られた第2言語テキストとの対応情報を用いて、第2言語テキストと第1言語音声との情報同期を行う。音声認識部101とテキスト翻訳部102は、各種の公知技術を用いるものとし、詳細な説明は割愛する。
図3で例を示したように、情報同期部103では、入力音声から得られた英語「Put this can(1) into this can(2).」、とそれを翻訳した日本語テキスト「この缶2に、この缶1を入れてください。」との対応関係を用いて、英語音声と日本語テキストとの対応関係が得られる。
映像と音声(第2言語)との情報同期の最適化部106では、まず、音声合成部(第2言語)1061で、翻訳した第2言語のテキストから、第2言語音声を作成する。
図4に、音声合成部(第2言語)1061で合成した音声の例を示す。そして、第2言語音声とジェスチャとの時間ずれ評価モジュール1062では、ジェスチャと音声(第1言語)との情報同期部105から入力したジェスチャと第1言語音声との対応関係と、テキスト(第2言語)と音声(第1言語)との情報同期部103から入力した第2言語テキストと第1言語音声との対応関係を用いて、テキストを第2言語音声に合成した場合に、映像のジェスチャと、それに対応する音声中の第2言語単語との時間的ずれ(以降、単に「時間的ずれ」とする)を評価する。
この時間ずれは、ジェスチャの開始・終了時刻と、それに対応第2言語音声の開始・終了時刻の差分で評価することが可能とする。すべての時間的ずれがある閾値以下であれば、映像出力部108と音声出力部107に出力するが、いずれかの時間的ずれは閾値を越えていれば、編集モジュール1064に出力する。
評価方法の一例では、
時間的ずれ1=|開始時刻1(ジェスチャ1)− 開始時刻2(第2言語音声)|+|終了時刻1(ジェスチャ1)− 終了時刻2(第2言語音声)|
時間的ずれ2=|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|+|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、100ms、300ms、400ms、600msとし、第2言語の開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ1 = |100ms − 200ms|+|300ms − 400ms|= 200ms
時間的ずれ2 = |400ms − 0ms |+|600ms − 200ms|= 800ms
となる。事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ1の「時間的ずれ」(=200ms)と、ジェスチャ2の「時間的ずれ」(=800ms)とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール1064に出力する。
編集モジュール1064では、映像編集モジュール1064a、テキスト編集モジュール1064b、音声編集モジュール1064cなど、複数モジュールによる編集の手法の少なくともひとつを用いて第2言語音声及び入力映像を編集(タイミング制御)することができる。
映像編集モジュール1064aでは、映像を早くしたり、遅くしたり、シーン順番を入れ替えたりすることが可能とする。ここでの映像編集は、映像を一時的に静止する/動画の再生順序を変える/computer graphics(CG)を使うCGで再現するなどあらゆる映像編集技術を使用することができる。
テキスト編集モジュール1064bでは、語順を変えたり、ある単語を長さの異なる同意語に変えたりすることが可能とする。ここでのテキスト編集は、テキストを変更するあらゆる技術を使用することができる。
音声編集モジュール1064cは、部分的な発話速度を早くしたり、遅くしたり、ポーズを挿入したりすることが可能とする。ここでの音声編集は、音声を変更するあらゆる技術を使用することができる。ここで、音声編集モジュール1064cとして、音声合成部(第2言語)1061を利用することができる。つまり、合成した音声を編集するのでではなく、音声を再合成することで、音声編集による自然性の劣化を防ぐことができる。
以上の編集機能を利用して、より第2言語音声とジェスチャとの時間的ずれを小さくするように、映像や音声の編集を行う。
図5は、映像編集モジュール1064aで映像を編集する例である。ジェスチャ1(指差し1)部分の映像と、ジェスチャ2(指差し2)部分の映像を入れ替え、音声との時間的ずれを小さくすることができる。
図6は、テキスト編集モジュール1064bでテキストを編集する例である。テキスト編集では、「この缶2にこの缶1を入れてください。」の語順を変えて、「この缶1にこの缶2を入れてください。」に変更し、映像との時間的ずれを小さくすることができる。このようなテキスト編集は、テキスト翻訳部102における翻訳結果の候補を変更することにより、実現することができる。すなわち、機械翻訳では、翻訳結果として複数の候補を提示することができるので、複数の候補の中で最も映像と、テキストに基づく音声との時間ずれが小さくなる候補を選択すればよい。あるいは、他の方式として、テキストベースで同じ意味となるテキストに変換する方法がある。具体例としては、目的語を入れ替える等してテキスト内の語順を変更する方法がある。
図7は、音声編集モジュール1064cで音声を編集する例である。図6のテキスト編集の後に、さらに、図7で示したように、音声を早くしたり、遅くしたり、ポーズを挿入することで、より音声と映像の指差しとの時間的ずれを小さくすることができる。
以上の各モジュールは組み合わせて用いてもよいし、単独で用いてもよい。なお、最適化部による処理の前に、入力音声(第1言語)と出力音声(第2言語)の全体の長さがほぼ等しくなるように出力音声の速度を調節してから、その時間の範囲内で編集を行うように構成してもよい。
音声・映像自然性評価モジュール1065では、複数の時間的ずれ解消手法(映像編集、テキスト編集、音声編集など)について、それぞれ自然性を評価し、自然性の高い手法を選択する。
編集した映像の自然性評価については、特許文献3にて述べられているように、編集した映像の時空間連続性と時空間変化率のなめらかさを評価し、映像の自然さを評価することが可能である。
編集したテキストの自然性評価については、文法、文体、文体などの複数の観点から、自然性を評価する。例えば、非特許文献1の提案した小論文自動採点の手法も考えられる。
編集した音声の自然性評価については、音声のスペクトルの連続性や、隠れマルコフモデル(Hidden Markov Model:HMM)などの統計モデルによる生成確率計算などを用いて、客観的に評価することが可能である。例えば、音声編集による不連続は、音声パラメータの変化量(非特許文献2)を用いて、評価することが可能である。一方、韻律変更などの音声編集による音声のひずみについては、音声の生成過程を確率で表現するHMM(非特許文献3)を用いて、編集した音声の生成確率を計算することによって、自然性評価する方法も考えられる。以上のように自然性を評価する手法は公知の種々の技術を適用することが可能であり、特に制限はない。
一例では、映像編集する場合より、テキスト編集し語順を変えたほうが、より自然性が高いと評価し、テキスト編集手法が選択される。しかし、テキスト編集のみの場合、ジェスチャ1との時間的ずれが解消されるが、ジェスチャ2との時間的ずれが閾値より小さくするためには、音声編集(ポーズ挿入と発話速度調整)が必要となる。
したがって、一例では、テキストを編集(図6)した後、音声編集(図7)を行う場合、より自然性の高い音声と映像を得られ、映像出力部108と音声出力部109に出力する。映像出力部108では、映像と音声(第2言語)との情報同期の最適化部106で生成した映像を出力する。音声出力部107では、映像と音声(第2言語)との情報同期の最適化部106で生成した音声を出力する。
以上のように、自然性に優れた編集方式を選択したり組み合わせたりするが、選択の基準としては、映像の自然性を重視する手法、音声の自然性を重視する手法、両方をバランスさせる手法などがあり、用途や状況に応じて任意に設定すればよい。
なお、図1Bの構成のように、最適化部106では、編集モジュール1064で編集した結果を再度、音声合成部1061で音声合成し、時間ずれ評価モジュール1062で再評価し、時間ずれが閾値より小さくなるまで回帰的に動作させ、時間ずれが閾値以下になった編集方式によるデータを出力する構成となっている。もっとも、編集モジュールにより1回で十分効果的に時間ずれを解消できる設計であれば、時間ずれ評価モジュール1062による再評価を省略することもできる。
以上説明した実施例の構成は、図1のように単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワーク等で接続された他のコンピュータで構成されてもよい。発明の思想としては等価であり、変わるところがない。
本実施例では、ロボットを介して音声翻訳を行うことを想定した、本発明の基本構成を説明する。すなわち、実施例1の形態で、映像出力に代えてロボットの動きで音声を補足する。本実施例では、第1言語発話者の音声と映像を、本発明の音声翻訳装置(ロボット)に入力すると、ロボットが第2言語音声に翻訳するとともに、発話者の動作を再現する基本機能を実現する。
<概要>
図8Aは、本実施例の音声翻訳装置の全体構成を説明する図である。
図8Bは、図8Aの全体構成のうち、映像と音声(第2言語)との情報同期の最適化部806の詳細構成である。図1A,図1Bと同様の構成は同じ符号を付し、説明は省略する。
本実施例の音声翻訳装置800では、同期の取れている映像データと音声データ(第1言語)を入力すると、映像から抽出したコミュニケーションにとって重要なジェスチャ(指差しなど)と、それを同じタイミングで発した言葉(第1言語)との対応関係を特定し、最適な編集手法(ロボット動作指令編集、テキスト編集、音声編集など)を決定し、ロボットの再現したジェスチャと対応する言葉(第2言語)との時間的ずれを最小化するとともに、ロボットの動き、テキスト、合成音声の自然性や理解しやすさを、最大限に維持することを可能とする。
この音声翻訳処理を実現するために、実施例1の構成と比較して特徴的な部分として、ロボットの動きと音声(第2言語)との情報同期の最適化部806、ロボット動作制御部808を備えている。ロボットの動きと音声(第2言語)との情報同期の最適化部806は、実施例1の編集モジュール1064に代えて編集モジュール8064を、第2言語音声と(映像の)ジェスチャとの時間ずれ評価モジュール1062に代えて第2言語音声と(ロボットの)ジェスチャとの時間ずれ評価モジュール8062を備える。
編集モジュール8064は、映像編集モジュール1064aに代えて、ロボットの動きを編集する動作編集モジュール8064aを備える。編集モジュール8064による音声・ロボットの動きの自然性低下の評価は、音声・動きの自然性評価モジュール8065で行われる。
本実施例の処理の説明については、実施例1との違いのみを説明する。実施例1と同じ処理単位については、説明を省略する。
実施例2では、実施例1の映像編集に変わって、ロボットの動きを制御する動作指令を編集することによって、ロボットの動きを変えることができる。(以降、「動作指令編集」と「ロボット動き編集」と同意味である。)
ロボットの動きと音声(第2言語)との情報同期の最適化部806では、第2言語音声とジェスチャとの時間ずれ評価モジュール8062によって、音声合成による第2言語音声と、ロボット動作指定によるロボットの身体動作(ジェスチャ)との、時間ずれを評価することができる。
図9にロボットの動作指示のシーケンスを示す。このようなロボットの動作指示は、例えば人間の動きに対応した動作を、ロボットが行うように制御する技術が、既にロボット工学の分野では公知となっている。実施例2では、例えば送信側の人間の動作を受信側のロボットがコピーするとともに、送信側の人間の音声(第1言語)を翻訳して受信側で出力するような応用を想定している。
図10は、第2言語音声のタイミングを示している。この例では、第2言語合成音声と、ロボット動作指定による指差しの動きが、それぞれ、図9、図10で示したようなタイミングで行われることを推定した場合、その「時間的ずれ」は実施例1と同じように計算できる。
時間的ずれ1=|開始時刻1(ジェスチャ1)− 開始時刻2(第2言語音声)|+|終了時刻1(ジェスチャ1)− 終了時刻2(第2言語音声)|
時間的ずれ2=|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|+|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、100ms、300ms、400ms、600msとし、第2言語の開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ1 = |100ms − 200ms|+|300ms − 400ms|= 200ms
時間的ずれ2 = |400ms − 0ms |+|600ms − 200ms|= 800ms
となる。実施例1と同じように、事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ1の「時間的ずれ」(=200ms)と、ジェスチャ2の「時間的ずれ」(=800ms)とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール8064に出力する。
編集モジュール8064では、実施例1の映像編集に変わって、動作指令編集によるロボットの動きを編集する機能を動作指令編集モジュール8064aが備えている。ここで、テキスト編集モジュール8064b、音声編集モジュール8064cなどの手法は、実施例1と同じなので、その説明を省略する。
動作指令編集モジュール8064aでは、ロボットの動きを早くしたり、遅くしたり、動作の順番を入れ替えたりすることが可能とする。そこで、より第2言語音声とロボットのジェスチャとの時間的ずれを小さくするように、この動作指令編集モジュール8064aでロボットの動作の編集を行う。
図11はロボットの動作指令を編集した例を示す図である。この例では、ロボットのジェスチャ1の動きと、ジェスチャ2の動きと入れ替わることによって、音声内容との「時間的ずれ」を小さくすることができる。
また、実施例1の図6で示したように、テキスト編集で語順を変えて、ロボットの動作との、時間的ずれを小さくすることができる。さらに、図7で示したように、音声を早くしたり、遅くしたり、ポーズを挿入することでロボットの動作との時間的ずれを小さくすることができる。実施例2では、図6、図7の「映像」を「ロボットの動作」に置き換えればよい。
音声・動きの自然性評価モジュール8065では、複数の「時間的ずれ」を解消する手法(動作指令編集、テキスト編集、音声編集など)について、それぞれ自然性を評価し、最も自然性の高い手法を選択する。一例では、図11のように、ロボットの動作指令を編集したほうが、音声編集やテキスト編集より、自然性が高いと評価された場合、ロボットの動作指令編集を行い、ロボット動作制御部808と音声出力部107に出力する。
一方、ロボット自身の制約(動きの速度など)により、動作指令を編集しても、所望のタイミングでの動作が得られない場合がある。
図12にその例を示す。指差し1のタイミングを早めることができないため、音声との時間ずれが生じている。図12で示したようなタイミングで動くことしかできない場合、動き指令を編集するだけでは、「時間的ずれ」を閾値以下に抑えることができない。
図13に、図12の処理による動き指令の編集に加えて、音声編集を行った例を示す。図13の例では、音声中「この缶1を」を遅らせるためにポーズなどを挿入するとともに、全体の時間を所定時間内に収めるために、「入れてください。」の部分を早く発話している。
本実施例では、モバイル端末(携帯やタブレットなど)を介して音声翻訳を行うことを想定した、本発明の基本構成を説明する。
本実施例では、第1言語音声と映像を、本発明の音声翻訳装置(システム)によって、入力と同じ意味を持つ、第2言語音声と映像に変換する基本機能を実現する。以下では、○○装置という表現で内部処理の各単位を呼称するが、ハードウェアとしての装置で実現しなくても、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。
<概要>
図14は、実施例3の使用形態を説明する図である。ここでは、話者2名(話者A, 話者B)がおり、異なる言語で発話しているものと想定する。それぞれの話者が発話している言語を、言語A, 言語Bとする。
話者Aは、タブレットA 10010を持つ。話者Aが言語Aで発話した音声は、音声認識されてタブレットの表示領域10020に表示される(タブレットAの文言10050 "aabbcc")。この文言を、話者Bが理解できる言語Bに翻訳された結果が、話者Bが持つタブレットB 10030の表示領域10040に表示される(タブレットBの文言10070 "AABBCC")。
いっぽう、話者Bが言語Bで発話した音声は、音声認識され、タブレットB 10030に表示される(タブレットBの文言10080 "DDEEFF")。この文言は、言語Aに翻訳されて、話者Aが持つタブレットA 10010に表示される(タブレットAの文言10060 "ddeeff")。
ここで話者Aが、すでに発話した文言をキャンセルすることを考える。キャンセルの指定方法にはさまざまなものが考えられるが、たとえば、話者AがタブレットAの表示領域10020のキャンセル箇所をスイープする。ここでは、タブレットAの文言10050の"aabbcc"をスイープすると、タブレットBの文言10070にも、キャンセルされた旨が分かる表示がなされる。たとえば、×マークを表示する、文言自体を削除するといったことが考えられる。
また、1文のなかの一部の単語だけをキャンセルしたい場合もある。このとき、たとえば、話者AがタブレットAの表示領域10020のキャンセル箇所をスイープする。ここでは、タブレットAの文言10050の"aabbcc"から、"bb"だけをスイープする。すると、タブレットBの文言10070の該当する表示"BB"にも、キャンセルされた旨が分かる表示がなされる。たとえば、"BB"のところに×マークを表示する、"BB"を削除するといったことが考えられる。
以上の処理は、タブレットに実行させてもよいが、タブレットAとBがネットワークで接続されている場合、例えば、図1Cの構成でタブレットAを入力側端末1001、タブレットBを出力側端末に対応させることができる。この場合、音声認識、翻訳、タブレットに表示させる情報の制御等の一部または全部は、サーバ1003に実行させることができる。この場合には、例えばタブレットAでキャンセルされた個所の指定は、サーバ1003を経由してタブレットBに送信され、タブレットBで動作するブラウザ等のソフトウエアの制御により、タブレットB上の表示がキャンセルされる。
以上のように図14で説明した実施例によれば、
端末Aに第1の言語による第1の音声を入力するステップ、
前記端末Aに前記第1の音声を(音声認識などにより)第1のテキストとして表示するステップ、
前記端末Aから前記第1のテキストを(ネットワークなどを介して)端末Bに転送するステップ、
前記端末Bに前記第1のテキストを(機械翻訳などにより)第2の言語による第2のテキストとして表示するステップ(なお、機械翻訳はネットワーク中のサーバが行ってもよいし、端末AまたはBが行ってもよい)、
前記端末Aに表示された前記第1のテキストの任意の個所を指定するステップ、
前記端末Aから前記任意の個所の指定を前記端末Bに通知するステップ、
前記端末Bに表示された前記第2のテキストにおいて、指定された前記第1のテキストの任意の個所に対応する部分の表示を変更するステップ、
をサーバまたはタブレットが実行することにより、スムーズなコミュニケーションが可能となる。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。
自動翻訳などのコミュニケーションツールに利用することができる。
音声翻訳装置100、音声認識部101、テキスト翻訳部102、テキスト(第2言語)と音声(第1言語)との情報同期部103、ジェスチャ検出部104、ジェスチャと音声(第1言語)との情報同期部105、音声合成部(第2言語)1061、映像と音声(第2言語)との情報同期の最適化部106、音声出力部107、映像出力部108

Claims (15)

  1. 視覚情報と聴覚情報の同期方法において、
    映像に含まれる前記視覚情報を抽出し、
    第1言語の音声に含まれる第1言語の聴覚情報を認識し、
    前記視覚情報と、前記第1言語の聴覚情報とを対応付け、
    前記第1言語の聴覚情報を第2言語の聴覚情報に翻訳し、
    前記視覚情報と前記第2言語の聴覚情報とを対応付けるよう、前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集する、
    ことを特徴とする視覚情報と聴覚情報の同期方法。
  2. 請求項1において、
    前記視覚情報と前記第2言語の聴覚情報とを対応付ける編集は、前記視覚情報と前記第2言語の聴覚情報との時間的ずれを評価し、該時間的ずれを縮小する編集であることを特徴とする、
    視覚情報と聴覚情報の同期方法。
  3. 請求項1において、
    前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択することを特徴とする、
    視覚情報と聴覚情報の同期方法。
  4. 請求項3において、
    前記最適な手法を選択する手法には、それぞれの前記編集手法による前記視覚情報及び前記第2言語の聴覚情報の自然性低下を評価した結果を用いることを特徴とする、
    視覚情報と聴覚情報の同期方法。
  5. 請求項3において、
    前記最適な手法を選択する手法では、前記視覚情報及び前記第2言語の聴覚情報の編集による視覚情報及び第2言語の聴覚情報の自然性低下がより小さいものを選択することを特徴とする、
    視覚情報と聴覚情報の同期方法。
  6. 請求項3において、
    前記視覚情報を編集する編集手法は、前記映像の再生の一時的な静止、前記映像の再生順序の変更、前記映像のCGを用いた編集、前記映像に対応したロボットの動きの早さの変更、前記映像に対応したロボットの動順番の変更、の少なくとも一つを用いて、前記視覚情報のタイミングを変更することを特徴とする、
    視覚情報と聴覚情報の同期方法。
  7. 請求項3において、
    前記第2言語の聴覚情報を編集する編集手法は、前記第2言語の聴覚情報を含む第2言語の音声の再生の一時的な静止、前記第2言語の音声の再生順序の変更、前記第2言語の音声の発話語順の変更、前記第2言語の音声の発話内容の変更、の少なくとも一つを用いて、前記聴覚情報のタイミングを変更することを特徴とする、
    視覚情報と聴覚情報の同期方法。
  8. 請求項4において、
    前記視覚情報の自然性低下評価は、前記映像の連続性、前記映像の自然性、前記映像に対応したロボットの動きの連続性、の少なくとも一つを用いて、自然性を評価することを特徴とする、
    視覚情報と聴覚情報の同期方法。
  9. 請求項4において、
    前記第2言語の聴覚情報の自然性低下評価は、前記第2言語の聴覚情報を含む第2言語の音声の連続性、前記第2言語の音声の自然性、前記第2言語の音声と前記第1言語の音声との意味の一致性、前記第2言語の音声の意味の理解しやすさ、の少なくとも一つを用いて、自然性を評価することを特徴とする、
    視覚情報と聴覚情報の同期方法。
  10. 第1の視覚情報を含む入力映像データと、第1の聴覚情報を含む第1の言語による入力音声データを入力し、
    前記第1の視覚情報に対応する第2の視覚情報を含む出力視覚データと、前記第1の聴覚情報に対応する第2の聴覚情報を含む第2の言語による出力音声データを出力する情報処理装置であって、
    前記入力映像データから前記第1の視覚情報を検出する検出部と、
    前記入力音声データから前記第1の聴覚情報を認識する認識部と、
    前記第1の視覚情報と前記第1の聴覚情報の対応付けを行う対応付け部と、
    前記第1の言語による入力音声データを、前記第2の言語による出力音声データに変換する翻訳部と、
    前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれが小さくなるように、前記第2の視覚情報および前記第2の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
    を有する情報処理装置。
  11. 前記最適化部は、
    前記出力視覚データである出力映像データを編集する映像編集部、前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
    の少なくとも一つを有する請求項10記載の情報処理装置。
  12. 前記最適化部は、
    前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれを閾値と比較する、時間ずれ評価部を備え、
    前記評価部により前記出力タイミングずれが前記閾値より大きいと判定された場合に、
    前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、
    の少なくとも一つを動作させる請求項11記載の情報処理装置。
  13. 前記第1の視覚情報は前記第2の視覚情報と同一であり、
    前記映像編集部は、
    前記入力映像データに対して、該入力映像データに含まれる前記第1の視覚情報を前記第2の視覚情報として、その時間的な前後関係を入れ替える編集を行うことで、前記出力映像データを生成する、
    請求項11記載の情報処理装置。
  14. 前記テキスト編集部は、
    前記翻訳部における翻訳結果の候補を変更することにより、前記出力音声データを生成するテキストデータを変更するか、あるいは、前記テキストデータ内の語順を変更することで、前記出力音声データを生成する、
    請求項11記載の情報処理装置。
  15. 前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、
    の少なくとも一つを動作させた結果の、前記出力視覚データおよび前記出力音声データの少なくとも一つを評価する自然性評価部を備え、
    前記自然性評価部の評価結果に基づいて、前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、のいずれを動作させるかを変更する、
    請求項12記載の情報処理装置。
JP2017547279A 2015-10-29 2015-10-29 視覚情報と聴覚情報の同期方法および情報処理装置 Active JP6663444B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/080574 WO2017072915A1 (ja) 2015-10-29 2015-10-29 視覚情報と聴覚情報の同期方法および情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2017072915A1 true JPWO2017072915A1 (ja) 2018-07-12
JP6663444B2 JP6663444B2 (ja) 2020-03-11

Family

ID=58630010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547279A Active JP6663444B2 (ja) 2015-10-29 2015-10-29 視覚情報と聴覚情報の同期方法および情報処理装置

Country Status (3)

Country Link
US (1) US10691898B2 (ja)
JP (1) JP6663444B2 (ja)
WO (1) WO2017072915A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11237635B2 (en) 2017-04-26 2022-02-01 Cognixion Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio
US11402909B2 (en) 2017-04-26 2022-08-02 Cognixion Brain computer interface for augmented reality
US11900072B1 (en) * 2017-07-18 2024-02-13 Amazon Technologies, Inc. Quick lookup for speech translation
US11989976B2 (en) * 2018-02-16 2024-05-21 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
JP7157340B2 (ja) * 2018-02-16 2022-10-20 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
WO2019203795A1 (en) * 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
JP7035765B2 (ja) * 2018-04-25 2022-03-15 富士通株式会社 制御プログラム、制御方法及び制御装置
JP7225654B2 (ja) * 2018-10-04 2023-02-21 富士通株式会社 コミュニケーション装置、コミュニケーション方法、及びコミュニケーションプログラム
KR102116315B1 (ko) * 2018-12-17 2020-05-28 주식회사 인공지능연구원 캐릭터의 음성과 모션 동기화 시스템
US11275889B2 (en) * 2019-04-04 2022-03-15 International Business Machines Corporation Artificial intelligence for interactive preparation of electronic documents
CN110232194B (zh) * 2019-06-17 2024-04-09 安徽听见科技有限公司 翻译显示方法、装置、设备及可读存储介质
KR20210032809A (ko) * 2019-09-17 2021-03-25 삼성전자주식회사 동시 통역 방법 및 장치
CN110704683A (zh) * 2019-09-27 2020-01-17 深圳市商汤科技有限公司 音视频信息处理方法及装置、电子设备和存储介质
WO2021210098A1 (ja) * 2020-04-15 2021-10-21 日本電信電話株式会社 変換方法、変換装置及びプログラム
CN113721704A (zh) * 2021-08-30 2021-11-30 成都华栖云科技有限公司 一种视频流的同声传译系统及其实现方法
WO2023166527A1 (en) * 2022-03-01 2023-09-07 Gan Studio Inc. Voiced-over multimedia track generation
CN115497499A (zh) * 2022-08-30 2022-12-20 阿里巴巴(中国)有限公司 语音和动作时间同步的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08220985A (ja) * 1995-02-15 1996-08-30 Mitsuyuki Masaji 英語の学習指導方法およびこれを実施する学習 教材
JPH09114634A (ja) * 1995-10-16 1997-05-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk マルチモーダル情報統合解析装置
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002099295A (ja) * 2000-09-22 2002-04-05 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体
JP2002123282A (ja) * 2000-10-17 2002-04-26 Brother Ind Ltd 翻訳装置および記録媒体
WO2005057549A1 (ja) * 2003-12-12 2005-06-23 Nec Corporation 情報処理システム、情報処理方法および情報処理用プログラム
JP2006510095A (ja) * 2002-12-10 2006-03-23 インターナショナル・ビジネス・マシーンズ・コーポレーション 多モードの音声言語翻訳及び表示
JP2008306691A (ja) * 2007-06-05 2008-12-18 Takeshi Sumida バイリンガル二重字幕

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3213105B2 (ja) 1993-02-23 2001-10-02 日本電信電話株式会社 映像の構図自動決定処理方法
US7109993B2 (en) * 1995-10-08 2006-09-19 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for the automatic computerized audio visual dubbing of movies
US20070165022A1 (en) * 1998-07-15 2007-07-19 Shmuel Peleg Method and system for the automatic computerized audio visual dubbing of movies
JP4014044B2 (ja) 2003-01-28 2007-11-28 株式会社国際電気通信基礎技術研究所 コミュニケーションロボットおよびそれを用いたコミュニケーションシステム
US20060136226A1 (en) * 2004-10-06 2006-06-22 Ossama Emam System and method for creating artificial TV news programs
US9060193B2 (en) * 2009-12-07 2015-06-16 Centurylink Intellectual Property Llc System and method for broadcasting video with a secondary audio source
US20120105719A1 (en) * 2010-10-29 2012-05-03 Lsi Corporation Speech substitution of a real-time multimedia presentation
US20120276504A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Talking Teacher Visualization for Language Learning
RU2580022C2 (ru) * 2011-08-31 2016-04-10 Общество С Ограниченной Ответственностью "Базелевс Инновации" Визуализация текста на естественном языке
US8874429B1 (en) * 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
KR20140146965A (ko) * 2013-06-18 2014-12-29 삼성전자주식회사 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
US9584871B2 (en) * 2013-12-19 2017-02-28 Echostar Technologies L.L.C. Smartphone bluetooth headset receiver
US9324340B2 (en) * 2014-01-10 2016-04-26 Sony Corporation Methods and apparatuses for use in animating video content to correspond with audio content
US20160042766A1 (en) * 2014-08-06 2016-02-11 Echostar Technologies L.L.C. Custom video content

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08220985A (ja) * 1995-02-15 1996-08-30 Mitsuyuki Masaji 英語の学習指導方法およびこれを実施する学習 教材
JPH09114634A (ja) * 1995-10-16 1997-05-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk マルチモーダル情報統合解析装置
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002099295A (ja) * 2000-09-22 2002-04-05 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体
JP2002123282A (ja) * 2000-10-17 2002-04-26 Brother Ind Ltd 翻訳装置および記録媒体
JP2006510095A (ja) * 2002-12-10 2006-03-23 インターナショナル・ビジネス・マシーンズ・コーポレーション 多モードの音声言語翻訳及び表示
WO2005057549A1 (ja) * 2003-12-12 2005-06-23 Nec Corporation 情報処理システム、情報処理方法および情報処理用プログラム
JP2008306691A (ja) * 2007-06-05 2008-12-18 Takeshi Sumida バイリンガル二重字幕

Also Published As

Publication number Publication date
WO2017072915A1 (ja) 2017-05-04
JP6663444B2 (ja) 2020-03-11
US10691898B2 (en) 2020-06-23
US20180336891A1 (en) 2018-11-22

Similar Documents

Publication Publication Date Title
WO2017072915A1 (ja) 視覚情報と聴覚情報の同期方法および情報処理装置
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
KR100948600B1 (ko) 제스처/음성 융합 인식 시스템 및 방법
US20220327309A1 (en) METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA
GB2601162A (en) Methods and systems for video translation
WO2004049312A1 (en) Method and apparatus for providing an animated display with translated speech
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
KR20140146965A (ko) 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
KR101089184B1 (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
Ishi et al. Speech-driven lip motion generation for tele-operated humanoid robots
KR20100138654A (ko) 외국어 발음 학습 장치 및 방법
Edwards et al. Jali-driven expressive facial animation and multilingual speech in cyberpunk 2077
Taylor et al. A mouth full of words: Visually consistent acoustic redubbing
US20230039248A1 (en) Systems and Methods for Assisted Translation and Lip Matching for Voice Dubbing
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP4011844B2 (ja) 翻訳装置、翻訳方法および媒体
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
KR102138132B1 (ko) 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
KR101501705B1 (ko) 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체
WO2024122284A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2021255831A1 (ja) 送信装置、コミュニケーション方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200214

R150 Certificate of patent or registration of utility model

Ref document number: 6663444

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150