WO2017195775A1

WO2017195775A1 - 手話会話支援システム

Info

Publication number: WO2017195775A1
Application number: PCT/JP2017/017540
Authority: WO
Inventors: 米倉　豪志
Original assignee: 株式会社オルツ
Priority date: 2016-05-10
Filing date: 2017-05-09
Publication date: 2017-11-16
Also published as: JP2017204067A

Abstract

手話動画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、手話画像認識装置で認識された手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、手話画像認識装置で翻訳された手話画像データから自然言語を生成する自然言語データ生成装置と、自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、視聴覚データ生成装置で生成された視聴覚データを送信する視聴覚データ送信装置と、を含む手話会話支援システムが提供される。

Description

手話会話支援システム

　本発明は、人工知能を用いた機械学習とコンピュータビジョンを用いて行われるコミュニケーションを支援する装置、システム、コンユータプログラムに関する。

　聴覚障害者とコミュニケーションを図る手段として手話が用いられている。聴覚障害者間、または聴覚障害者と健常者との間で良好なコミュニケーションを図るには、双方が手話を理解しなければならない。しかし、手話を理解し自在に扱えるようになるには時間と労力が必要であり、幅広い年齢層に普及しているとは言えないのが実情である。そこで、手話者が不特定多数の者に対して手話者の意思を正確に伝達するために、手話を画像取得手段によって画像データに変換し、変換した画像データを文字として認識する手話確認方法及び装置が開示されている（例えば、特許文献１参照。）。

特開２０１２？２５２５８１号公報

　しかしながら、言葉に方言があり、話し方に個性があるように、手話を話す際にも手や指の動作は個人によって変化する。したがって、手話の画像データを取得して文字データに変換しようとしても、正確に翻訳されず意思表示が正確に伝達できないことが問題となる。一方、文字情報又は音声情報に基づいて手話動画を生成する際には、発話者の個性を表現できた方がコミュニケーションの親密度を高めることができるが、単純な変換作業では画一的な手話動画しか生成できないのが実情である。また、手話画像して文字や音声に変換する方式では、手話による発話者の正面から撮像しなければ正確な翻訳ができないという問題がある。本発明の一実施形態は、このような問題を解決することを目的の一つとする。

　本発明の一実施形態に係る手話会話支援システムは、手話画像を認識する手話画像認識装置と、手話画像認識装置が認識した手話画像を自然言語に翻訳する手話画像変換部とを含み、手話画像翻訳装置は、機械学習により予め機械学習された手話画像データとのマッチングを行うように構成されている。

　本発明の一実施形態に係る手話会話支援システムは、手話動画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、手話画像認識装置で認識された手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、手話画像認識装置で翻訳された手話画像データから自然言語を生成する自然言語データ生成装置と、自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、視聴覚データ生成装置で生成された視聴覚データを送信する視聴覚データ送信装置と、を含む。

本発明の一実施形態に係る手話会話支援システムの概要を示す図である。本発明の一実施形態に係る手話会話支援システムの全体的な構成を示す図である。本発明の一実施形態に係る手話会話支援システムの全体的な構成を示す図である。本発明の一実施形態に係る手話会話支援システムに含まれるコンピュータ装置１０２のハードウェアの構成例を示す図である。本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。本発明の一実施形態に係る手話会話支援システムにおいて行われる画像処理の一例を示す図である。本発明の一実施形態に係る手話会話支援システムにおいて行われる画像処理の一例を示す図である。本発明の一実施形態に係る手話会話支援システムにおいて行われる手話を撮影する一形態を説明する図である。本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。

　本発明の実施の形態を、図面等を参照しながら説明する。但し、本発明は多くの異なる態様で実施することが可能であり、以下に例示する実施の形態の記載内容に限定して解釈されるものではない。図面は説明をより明確にするため、実際の態様に比べ、各部の幅、厚さ、形状等について模式的に表される場合があるが、あくまで一例であって、本発明の解釈を限定するものではない。また、本明細書と各図において、既出の図に関して前述したものと同様の要素には、同一の符号（又は数字の後にａ、ｂなどを付した符号）を付して、詳細な説明を適宜省略することがある。さらに各要素に対する「第１」、「第２」と付記された文字は、各要素を区別するために用いられる便宜的な標識であり、特段の説明がない限りそれ以上の意味を有さない。

　本発明の一実施形態に係る手話会話支援システムは、手話画像を認識し、自然言語に変換する処理、および自然言語を認識し手話画像を生成する処理を行う機能を有する。この手話会話支援システムは、電気通信回線（電話回線、インターネット回線を含む）に接続され、利用者の端末装置と通信可能な状態に置かれて動作する。

　図１は、手話会話支援システムの概要を示す。手話会話支援システム１００は、コンピュータ装置１０２を含み、利用者側の端末装置１０４と電気通信回線を介して接続されている。利用者が発話する手話の動作は端末装置１０４によって撮像される。端末装置１０４としては画像を撮影可能な各種電子機器であり、ビデオカメラの他、端末装置１０４に設けられた動作撮影可能なカメラ等が適用される。端末装置１０４で撮像された手話画像は動画として、または連続する複数枚の静止画としてコンピュータ装置１０２に送信される。端末装置１０４とコンピュータ装置１０２との間は電気通信回線により接続されている。以下、手話画像というときは、動画像のみならず一つ又は複数の静止画像を含むものとする。

　端末装置１０４から送信された手話画像は、コンピュータにより自然言語に翻訳される。コンピュータは手話画像が記憶されている。コンピュータ装置１０２は、送信された手話画像と予め記憶されている手話画像を参照して、自然言語への翻訳を行う。

　コンピュータ装置１０２は、利用者が撮像した手話画像を学習対象として用いる。コンピュータ装置１０２はディープラーニングにより利用者の手話画像を機械学習する。これにより、多くの利用者の手話画像が蓄積され、ディープラーニングにより手話画像の解析精度が向上する。すなわち、利用者は共通する規則に従って手話を発話するが、各個人の手話動作には個性が含まれる。別言すれば、手話動作には揺らぎがあるため、画一的な手話動作の画像解析では翻訳の正確性が低下する。しかし、利用者から集められた手話画像をディープラーニングに対象とすることで、手話画像の識別力を高め、翻訳制度を向上させることが可能となる。

　コンピュータ装置１０２は、利用者から送信される手話画像の取得と、学習された手話画像のマッチングをリアルタイムで行い、結果を利用者又は他の利用者に向けて出力（送信）する。

　図２は、手話会話支援システム１００の全体的な構成を示す。手話会話支援システム１００は、コンピュータ装置１０２と、一方の会話者の端末装置１０４、他方の会話者の端末装置１０６とが電気通信回線を介して接続されている。端末装置１０４、１０６としては、携帯電話、タブレット端末、スマートフォンと呼ばれる多機能携帯電話等が適用される。また、会話者に属する通信手段はとして、パーソナルコンピュータ１０８のような電気通信回線を通じて双方の通信が可能な電子機器が適用される。また、会話内容（手話及び自然言語による視聴覚データ）は、ラジオ等の音声再生装置１１０、テレビジョン１１２のような情報の出力のみが主として可能な電子機器であってもよい。

　本実施形態に係る手話会話支援システムは、複数の端末装置の間で手話を介した双方向の会話が可能である。例えば、図３に示すように、ある端末装置１１６から、手話会話が発信されたとき、コンピュータ装置１０２は手話を翻訳して他の端末装置１１４へ会話を送信する。例えば、端末装置１１４には手話を自然言語に翻訳されて「こんにちは、お元気ですか？」と音声、文字及び／又はアニメーション等により出力される。次に、端末装置１１４の利用者が「こんにちは。はい、元気ですよ。」と文字又は音声で返答すると、コンピュータ装置１０２はこれを手話に翻訳して、端末装置１１６に手話画像として送信する。

　本実施形態に係る手話会話支援システムは、このような会話をリアルタイムで実行することができる。これにより、手話により電話をかけるということも可能となる。また、その逆に、手話者の端末装置に対して別の端末装置から情報を送信することもできる。その情報が音声やテキストなどであった場合はその情報を手話の映像に変換することもできる。これにより双方向での遠隔コミュニケーションが可能となる。

　なお、図３は、手話の発話者の端末装置と、音声等の発話者の端末装置が１対１である関係を示すが、本発明の一実施形態はこれに限定されない。例えば、手話の発話者の端末装置から発信された手話が、複数の端末装置に自然言語に翻訳された形で送信されてもよい。また、文字又は音声等により発話する１台の端末装置から、複数の端末装置に手話画像が送信されてもよい。

　図４は、本発明の一実施形態に係る手話会話支援システムに含まれるコンピュータ装置１０２のハードウェアの構成例を示す。コンピュータ装置１０２は、演算処理及び各種制御を行う中央処理装置１２０、画像データの解析及び生成を行う画像処理装置１２２、データ、プログラム及びディープラーニングのアルゴリズムを含むプログラムが格納される主記憶装置１２４、手話画像等のデータが記憶される手話画像記憶装置１１８、電気通信回線を介してデータ等の受信を行う受信装置、電気通信回線へデータ等の送信を行う送信装置１２８を含む。

　中央処理装置１２０はマイクロプロセッサで実現され、画像処理装置が画像処理に特化した専用のプロセッサで実現される。主記憶装置１２４はダイナミックランダムアクセスメモリ（ＤＲＡＭ）等の半導体メモリによって実現される。手話画像記憶装置１１８は書き換え可能な不揮発性メモリで構成され、例えば、磁気ディスク（ハードディスク）、フラッシュメモリとも呼ばれる不揮発性半導体メモリが適用される。受信装置１２６及び送信装置１２８は各種規格に準じた通信モジュールによって実現される。コンピュータ装置１０２は、これらの装置が共通にバスラインで接続され、協働して動作することで手話会話支援機能を実現している。

　図５は、本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す。手話会話支援システム１００は、手話画像受信装置１３０、手話画像認識装置１３２、手話画像翻訳装置１３４、自然言語データ生成装置１３６、自然言語データ解析装置１３８、自然言語較正装置１４０、手話画像学習装置１４２、視聴覚データ生成装置１４４、視聴覚データ送信装置１４６、手話画像記憶装置１４８、標準手話画像データ記憶部１５０及び学習手話画像データ記憶部１５２を含む手話画像データ記憶装置１５４、自然言語辞書記憶装置１５６を含む。

　手話画像受信装置１３０は、利用者の端末装置１０４から送信された手話画像を受信する。手話画像受信装置１３０が受信した手話画像は手話画像認識装置１３２に出力される。手話画像認識装置１３２は受信した手話画像を手話画像記憶装置１４８に記憶させる。手話画像認識装置１３２は手話画像の特徴的部分を抽出する。例えば、手話画像認識装置１３２は、手話者の頭部と手の相対的ない位置を認識する。また、手話をする手の形態を認識するために手話者の手の輪郭部分を抽出し輪郭線を生成する。このように手話画像認識装置１３２は、形態画像処理を行う。手話画像認識装置１３２は手話者の映像と、形態画像処理された画像データを一組とする手話画像データとして生成する。または、手話画像認識装置１３２は、形態画像処理された画像データを手話画像データとして生成してもよい。

　例えば、手話画像認識装置１３２に、図６Ａで示す手話画像が入力されたとき、図６Ｂで示すように、手話画像は映像処理され、「手」及び「顔」にその形態を認識した線ないし画像を重ね合わせる。手話画像の認識や機械学習をするときに、この形態映像処理を施された手話画像に基づいて行われる。これにより、手話動作を単純化及び明確化することができ、画像処理における手話画像の認識精度を向上させることができる。また機械学習においても学習精度及び習熟度の向上を図ることができる。ただし、このような画像処理は必須ではなく、画像処理を行わないで学習及びリアルタイム処理が行われてもよい。

　図５において、手話画像認識装置１３２は、生成された手話画像データを手話画像翻訳装置１３４に出力する。手話画像記憶装置１４８は、手話画像データ記憶装置１５４の標準手話画像データ記憶部１５２に記憶されている標準手話画像データを参照し、標準手話画像データの中から手話画像データと一致するものがあるか否かを調べる。また、手話画像翻訳装置１３４は、学習手話画像データ記憶部１５２に記憶されている学習手話画像データを参照し、学習手話画像データの中から手話画像データと一致するものがあるか否かを調べる。手話画像翻訳装置１３４は、手話画像データと標準手話画像データ及び／又は学習手話画像データとの関連付けを行う。

　手話には方言があるとされる。例えば、関西のある地域における手話は両手を使って大きな身振りで表現する場合が多いとされている。例えば、「まさか！」を表現するとき両手の手のひらを胸の前で大きく合わせる動作をするが、他の地域では片手で拳を胸に当てたあと手のひらを開いて突き出す動作をするとされる。したがって、標準手話画像データのみを参照した場合には正しく手話を自然言語に翻訳できない場合がある。しかしながら、本実施形態に係る手話会話支援システムでは、学習手話画像データ記憶部１５２に人工知能でディープラーニングされた手話画像の学習データが蓄積されている。手話画像翻訳装置１３４は、学習手話画像データ記憶部１５２のデータを参照して、手話画像がどの地域の方言に近いのか、またはどの地域の方言に該当するのかを当てはめる作業を行う。

　手話画像翻訳装置１３４によって、標準手話画像データ及び／又は学習手話画像データと関連付けられた手話画像データは、自然言語データ生成装置１３６において、自然言語に変換される。例えば、標準手話画像データ及び／又は学習手話画像データと関連付けられた手話画像データが「こんにちは」を意味するものであれば、自然言語としての「こんにちは」という自然言語データを生成する。

　自然言語データ生成装置１３６で生成された自然言語データは自然言語データ解析装置１３８に出力される。自然言語データ解析装置１３８は、自然言語データを解析し、自然言語辞書記憶装置１５６を参照して、文法的な誤りや語彙を自然な日本語に修正する。また、自然言語データ解析装置１３８は、手話の発話者が方言で発話している場合、その方言に即した言葉に修正する。例えば、「こんにちは」を意味する手話動作が手話画像翻訳装置１３４で翻訳されて「こんにちは」と翻訳されたとき、その発話者が沖縄地方の方言を使っている場合、「こんにちは」を「はいさい」という言葉に修正する。このように手話の発話者の方言に合わせて自然言語データを生成し又は修正することで、発話者の個性を尊重した手話翻訳をすることができる。

　なお、自然言語データ解析装置１３８で修正された自然言語データは、自然言語較正装置１４０に出力される。自然言語較正装置１４０は、較正の対象となった手話画像データを特定し、手話画像学習装置１４２にその情報を出力する。手話画像学習装置１４２は、手話画像記憶装置１４８から該当する手話画像を読み出し、修正された自然言語と関連付けて学習手話画像データ記憶部１５２のデータに追加する。これにより、学習手話画像データ記憶部１５２には手話画像データが蓄積される。

　学習手話画像データ記憶部１５２に、手話画像データと対応する自然言語の情報は蓄積されることにより、手話の動作にゆらぎがあっても、手話翻訳の正確性を向上させることができる。また、手話の動作が方言に基づくものであったとしても、その方言に合わせた手話翻訳をすることができる。

　視聴覚データ生成装置１４４は、自然言語データ解析装置１３８で生成された自然言語データを視聴覚可能なデータに変換する。例えば、視聴覚データ生成装置１４４は、自然言語データを音声データ、文字データ及び又は感情や表現等を表す画像データに変換する。視聴覚データ送信装置１４６は、視聴覚データ生成装置１４４で生成された音声データ、文字データ及び／又は感情や表現等画像データを他の利用者の端末装置１０６に出力する。

　このように、本実施形態に係る手話会話支援システムは、手話の発話者の個性を反映させたコミュニケーションを実現することができる。この場合において、手話会話支援システムは、手話画像をディープラーニングにより学習することで、発話者の動作のばらつきや、方言を認識して、手話翻訳の正確性を高めることができる。さらに、本実施形態に係る手話会話支援システムは、このような手話を介したコミュニケーションをリアルタイムで実行することができる。

　図７で示すように、手話の発話者は、身につけたビデオカメラ又は携帯端末装置１０４のカメラ機能、背後に設置されカメラ（撮像装置）１５８、カメラ搭載ドローン１６０、その他手話の発話者の背後からの撮影をするデバイスを用いることもできる。このように、正面以外の角度から手話を撮影することで、手話の発話者はカメラを意識しないで、リラックスした状態で手話を発話することができる。

　しかしながら、手話の発話者の背後から撮影を行う場合、カメラによって撮影される映像は正面から撮影される場合のものとは異なる映像となる。手話の発話者の背後から撮影された映像は、基本的に逆向きであり、撮影される角度の違いによっても異なる映像となる。

　しかしながら、本実施形態においては、このような不具合を修正し、手話画像を正確に認識するために、以下に示す施策の一つ又は複数の組み合わせを行う。
　（１）　あらかじめ様々な角度や距離による背後からの手話画像を機械学習させておく。
　（２）　機械学習を行う前に、正面から、または、背後から撮影された学習教材となる手話画像に複数の角度に近くなる映像処理を施し、その全てを学習の対象とする。
　（３）　リアルタイム処理時に入力される手話画像をリアルタイムに角度などを調整及び変換し、機械学習された正面又は背後からの手話画像に近い形で認識処理を行う。

　このように、本実施形態に係る手話会話支援システムは、人工知能の機能を用いて、手話の発話者の背後から撮影された手話画像を学習しておくことで、手話画像を正確に認識することができる。

　図８は、手話者の正面以外の角度から手話画像が撮影された場合にも適応可能な手話会話支援システム１００ｂの一例を示す。図８で示す手話会話支援システム１００ｂは、図５で示す手話会話支援システムと、手話画像解析装置１６２、三次元画像記憶装置１６４、三次元画像生成装置１６６、を備えている点で相違する。以下、当該相違部分を中心に説明する。

　手話画像解析装置１６２は、撮影された手話画像がどの角度から撮影された画像であるかを解析する。三次元画像記憶装置１６４には、予め様々な角度や距離による正面及び正面以外の角度から撮影された手話画像が記憶されている。手話画像解析装置１６２は、三次元画像記憶装置１６４から手話画像のデータを読み出して、撮影された手話画像がどの角度から撮影された画像であるかの特定を行う。なお、撮影された手話画像は、複数の角度から撮影された情報が含まれていてもよい。複数の角度から撮影された手話画像を用いることで、手話画像の解析精度を向上させることが可能となる。

　手話画像解析装置１６２において機械学習が行われてもよい。機械学習は、正面、背後から撮影された手話画像に、複数の角度に近くなる映像処理を施し、その全てを学習の対象とすることが好ましい。また、手話を介した会話がリアルタイムで行われる場合には、手話画像をリアルタイムに角度などを調整及び変換し、機械学習された正面又は背後からの手話画像に近い形で認識処理を行うようにすることが好ましい。

　手話画像解析装置１６２は、特定された撮影角度情報と共に、手話画像データを三次元画像生成装置１６６に出力する。三次元画像生成装置１６６は、特定された撮影角度情報と手話画像に基づいて、三次元画像記憶装置１６４から手話の動作に対応する、様々な角度から撮影された三次元手話画像データを読み出して合成し、手話の三次元画像を生成する。三次元画像生成装置１６６は、生成された三次元手話画像データを手話画像認識装置１３２に出力する。手話画像認識装置１３２が三次元手話画像データを認識する。これ以降の各部の動作及び処理は、図５で示す処理と同様である。

　また、三次元画像生成装置１６６を介さずに、特定された撮影角度情報と手話映像に基づいて、手話画像認識装置１３２が手話の内容を認識するようにしてもよい。手話画像翻訳装置１３４は、機械学習された正面又は背後からの手話画像に近い形で認識処理を行い、手話翻訳を行う。

　このように、本実施形態によれば、手話画像が正面以外の角度から撮影された場合でも、手話翻訳を正確に行うことができ、手話の発話者と自然言語での発話者との間で、円滑なコミュニケーションを図ることができる。

　図９は、自然言語の発話を手話に変換する手話会話支援システムの一例を示す。手話会話支援システム１００ｃは、視聴覚データ受信装置１６８、視聴覚データ変換装置１７０、自然言語データ解析装置１３８、手話画像変換データ生成装置１７２、手話画像翻訳装置１３４、手話画像変換データ生成装置１７２、手話画像送信装置１７４、標準手話画像データ記憶部１５０及び学習手話画像データ記憶部１５２を含む手話画像データ記憶装置１５４、自然言語辞書記憶装置１５６を含む。このような手話会話支援システム１００ｃは、図４で示すコンピュータ装置１０２で実現される。

　視聴覚データ受信装置１６８は、利用者の端末装置１０６から送信された音声、文字、アニメーション等による視聴覚データを受信する。視聴覚データ受信装置１６８が受信した視聴覚データは視聴覚データ変換装置１７０に出力される。視聴覚データ変換装置１７０は、音声、文字、アニメーション等による視聴覚データをコンピュータで認識可能なデータ（例えば、バイナリ形式のデータ）に変換する。

　視聴覚データ変換装置１７０で変換された視聴覚データは、自然言語データ解析装置１３８に出力される。自然言語データ解析装置１３８は、視聴覚データを解析し、自然言語辞書記憶装置１５６を参照して、文法的な誤りや語彙を手話に翻訳可能な文章に変換する。また、自然言語データ解析装置１３８は、視聴覚データに方言が含まれている場合、その方言に即したように修正する。

　手話画像変換データ生成装置１７２は、手話に翻訳可能なように、自然言語による文章を一つ又は複数のブロックに分割する。例えば、自然言語が「こんにちは、今日は暑いですね」という文章であった場合、「こんにちは」と、「今日は」と、「暑い」と、「ですね」とのブロックに分解する。

　手話画像翻訳装置１３４は、手話画像記憶装置１４８から手話画像のデータを読み出して、自然言語に対応する手話画像を組み合わせ、一つのまとまった手話画像データを生成する。上記の例では、「こんにちは」、「今日は」、「暑い」、「ですね」に対応する手話画像を組み合わせる。手話画像翻訳装置１３４は、これらの手話画像を連続する一つの手話画像として生成する。

　この場合、手話画像翻訳装置１３４は、学習手話画像データ記憶部１５２からデータを読み出すとき、自然言語の発話者の個性に基づいたデータを読み出してもよい。例えば、自然言語の発話者自身の手話画像データが記憶されているとき、該当者のデータを読み出してもよい。また、手話画像翻訳装置１３４は、自然言語による発話が方言である場合、その方言に対応した手話画像を読み出してもよい。このように、自然言語の発話者の個性が反映されるようにすることで、手話と自然言語との会話者間の親密度を高めることができる。学習手話画像データ記憶部１５２は、図５を参照して説明したように、機械学習により随時データが蓄積されている。このような手話画像の学習データは、自然言語による視聴覚データから、手話画像データを生成するときにも活用することができる。手話画像変換データ生成装置１７２は、例えば、アニメーションによって手話画像を生成する。手話画像送信装置１７４は、手話画像を利用者の端末装置１０４に送信する。

　本実施形態によれば、自然言語に基づく情報を、手話画像に変換することができる。この場合において、手話の画像データが機械学習されていることで、発話者の個性に即した手話画像を生成することができる。

　なお、図５、図８、及び図９は、コンピュータ装置１０２の機能的構成として説明したが、本発明の一実施形態はこれに限定されず、このような機能は、利用者の端末装置において実現することもできる。

１００・・・手話会話支援システム、１０２・・・コンピュータ装置、１０４・・・端末装置、１０６・・・端末装置、１０８・・・パーソナルコンピュータ、１１０・・・音声再生装置、１１２・・・テレビジョン、１１４・・・端末装置、１１６・・・端末装置、１１８・・・手話画像記憶装置、１２０・・・中央処理装置、１２２・・・画像処理装置、１２４・・・主記憶装置、１２６・・・受信装置、１２８・・・送信装置、１３０・・・手話画像受信装置、１３２・・・手話画像認識装置、１３４・・・手話画像翻訳装置、１３６・・・自然言語データ生成装置、１３８・・・自然言語データ解析装置、１４０・・・自然言語較正装置、１４２・・・手話画像学習装置、１４４・・・視聴覚データ生成装置、１４６・・・視聴覚データ送信装置、１４８・・・手話画像記憶装置、１５０・・・標準手話画像データ記憶部、１５２・・・学習手話画像データ記憶部、１５４・・・手話画像データ記憶装置、１５６・・・自然言語辞書記憶装置、１５８・・・カメラ、１６０・・・ドローン、１６２・・・手話画像解析装置、１６４・・・三次元画像記憶装置、１６６・・・三次元画像生成装置、１６８・・・視聴覚データ受信装置、１７０・・・視聴覚データ変換装置、１７２・・・手話画像変換データ生成装置、１７４・・・手話画像送信装置

Claims

　手話画像を認識する手話画像認識装置と、前記手話画像認識装置が認識した手話画像を自然言語に翻訳する手話画像翻訳装置と、を含み、
　前記手話画像翻訳装置は、機械学習により予め機械学習された手話画像データとのマッチングを行うことを特徴とする手話会話支援システム。
　前記手話画像翻訳装置は、リアルタイムで予め機械学習された手話画像データとのマッチンググを行う、請求項１に記載の手話会話支援システム。
　前記手話画像認識装置は、手話の発話者の画像に対し形態画像処理を行う、請求項１に記載の手話会話支援システム。
　前記形態画像処理は、手話の発話者の頭部の位置と手の輪郭線を抽出する、請求項３に記載の手話会話支援システム。
　前記手話画像は正面以外の角度から撮影された画像であり、
　前記手話画像認識装置は、前記手話画像から撮影された角度を判別し、
　前記手話会話翻訳装置は、予め複数の角度や距離から撮影され、機械学習された手話画像データに基づいて前記手話画像データとのマッチングを行う、請求項１に記載の手話会話支援システム。
　手話動画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、
　前記手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、
　前記手話画像認識装置で認識された前記手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、
　前記手話画像認識装置で翻訳された前記手話画像データから自然言語を生成する自然言語データ生成装置と、
　前記自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、
　前記視聴覚データ生成装置で生成された前記視聴覚データを送信する視聴覚データ送信装置と、を含むことを特徴とする手話会話支援システム。
　前記手話画像翻訳装置は、リアルタイムで予め機械学習された手話画像データとのマッチンググを行う、請求項６に記載の手話会話支援システム。
　前記手話画像認識装置は、前記手話画像に対し形態画像処理を行う、請求項６に記載の手話会話支援システム。
　前記形態画像処理は、手話の発話者の頭部の位置と手の輪郭線を抽出する、請求項８に記載の手話会話支援システム。
　前記手話画像は正面以外の角度から撮影された画像であり、前記手話画像を解析する手話画像解析装置をさらに含む、請求項６に記載の手話会話支援システム。
　前記手話画像認識装置は、前記手話画像から撮影された角度を判別し、
　前記手話会話翻訳装置は、予め複数の角度や距離から撮影され、機械学習された手話画像データに基づいて前記手話画像データとのマッチングを行う、請求項１０に記載の手話会話支援システム。
　前記手話画像記憶装置は、標準的な手話画像を記憶する標準手話画像記憶部と、機械学習により学習された手話画像を記憶する学習手話画像記憶部を含み、
　前記手話画像翻訳装置は、前記標準手話画像記憶部と前記学習手話画像記憶部とからデータを読み出す、請求項６に記載の手話会話支援システム。