WO2017195775A1 - 手話会話支援システム - Google Patents

手話会話支援システム Download PDF

Info

Publication number
WO2017195775A1
WO2017195775A1 PCT/JP2017/017540 JP2017017540W WO2017195775A1 WO 2017195775 A1 WO2017195775 A1 WO 2017195775A1 JP 2017017540 W JP2017017540 W JP 2017017540W WO 2017195775 A1 WO2017195775 A1 WO 2017195775A1
Authority
WO
WIPO (PCT)
Prior art keywords
sign language
image
language image
data
sign
Prior art date
Application number
PCT/JP2017/017540
Other languages
English (en)
French (fr)
Inventor
米倉 豪志
Original Assignee
株式会社オルツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オルツ filed Critical 株式会社オルツ
Publication of WO2017195775A1 publication Critical patent/WO2017195775A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/04Devices for conversing with the deaf-blind

Definitions

  • the present invention relates to an apparatus, a system, and a computer program that support machine learning using artificial intelligence and communication performed using computer vision.
  • Sign language is used as a means to communicate with hearing impaired people. For good communication between deaf people or between deaf and healthy people, both sides must understand sign language. However, it takes time and effort to understand and use sign language freely, and it cannot be said that it is popular in a wide range of age groups. Therefore, in order for the sign language to accurately convey the intention of the sign language to an unspecified number of people, the sign language is converted into image data by the image acquisition means, and the sign language confirmation method for recognizing the converted image data as characters and An apparatus is disclosed (for example, refer to Patent Document 1).
  • a sign language conversation support system includes a sign language image recognition device that recognizes a sign language image, and a sign language image conversion unit that translates the sign language image recognized by the sign language image recognition device into a natural language.
  • the translation apparatus is configured to perform matching with sign language image data previously machine-learned by machine learning.
  • a sign language conversation support system recognizes a sign language image receiving device that receives a sign language image transmitted from a terminal device that captures a sign language moving image, and a sign language image received by the sign language image receiving device.
  • a sign language image recognition device that generates image data
  • a sign language image translation device that reads and translates data from a sign language image storage device so that the sign language image data recognized by the sign language image recognition device corresponds to a natural language
  • sign language image recognition Natural language data generating device for generating natural language from sign language image data translated by the device, audiovisual data generating device for generating natural language generated by the natural language data generating device into audiovisual data, and audiovisual data generating device
  • an audiovisual data transmission device that transmits the audiovisual data generated in (1).
  • the sign language conversation support system has a function of performing a process of recognizing a sign language image and converting it into a natural language, and a process of recognizing the natural language and generating a sign language image.
  • This sign language conversation support system is connected to a telecommunication line (including a telephone line and an Internet line) and operates in a state where it can communicate with a user terminal device.
  • Fig. 1 shows an overview of a sign language conversation support system.
  • the sign language conversation support system 100 includes a computer device 102 and is connected to a terminal device 104 on the user side via an electric communication line.
  • the operation of the sign language uttered by the user is captured by the terminal device 104.
  • the terminal device 104 is various electronic devices capable of capturing an image, and a video camera, a camera capable of capturing an operation, and the like are applied in addition to a video camera.
  • the sign language image captured by the terminal device 104 is transmitted to the computer device 102 as a moving image or as a plurality of continuous still images.
  • the terminal device 104 and the computer device 102 are connected by an electric communication line.
  • the sign language image includes not only a moving image but also one or a plurality of still images.
  • the sign language image transmitted from the terminal device 104 is translated into a natural language by a computer.
  • the computer stores sign language images.
  • the computer apparatus 102 refers to the transmitted sign language image and a pre-stored sign language image, and translates into a natural language.
  • the computer apparatus 102 uses a sign language image captured by the user as a learning target.
  • the computer apparatus 102 performs machine learning on the sign language image of the user by deep learning.
  • the sign language images of many users are accumulated, and the sign language image analysis accuracy is improved by deep learning. That is, the user utters sign language according to common rules, but each person's sign language action includes personality. In other words, there is a fluctuation in the sign language action, so that the accuracy of translation is reduced in the image analysis of the uniform sign language action.
  • sign language images collected from users for deep learning it becomes possible to increase the discriminating power of sign language images and improve the translation system.
  • the computer apparatus 102 obtains a sign language image transmitted from the user and matches the learned sign language image in real time, and outputs (transmits) the result to the user or another user.
  • FIG. 2 shows the overall configuration of the sign language conversation support system 100.
  • a computer device 102 In the sign language conversation support system 100, a computer device 102, a terminal device 104 of one conversation person, and a terminal device 106 of the other conversation person are connected via an electric communication line.
  • the terminal devices 104 and 106 mobile phones, tablet terminals, multifunctional mobile phones called smartphones, and the like are applied.
  • an electronic device that can communicate with each other through an electric communication line such as a personal computer 108 is applied.
  • the conversation content (audio / visual data in sign language and natural language) may be an electronic device that can mainly output only information, such as a sound reproduction device 110 such as a radio and a television 112.
  • the sign language conversation support system is capable of two-way conversation via sign language between a plurality of terminal devices. For example, as shown in FIG. 3, when a sign language conversation is transmitted from a certain terminal device 116, the computer device 102 translates the sign language and transmits the conversation to another terminal device 114. For example, the terminal device 114 is translated sign language to natural language "Hello, how are you?" Is output to the voice, by the character and / or animation, or the like. Next, the user of the terminal device 114 is "Hello. Yes, I'm fine.” If you reply with a letter or voice and, computing device 102 to translate this into sign language, to send as sign language image to the terminal device 116.
  • the sign language conversation support system can execute such a conversation in real time. This also makes it possible to make a call by sign language. Conversely, information can be transmitted from another terminal device to the sign language terminal device. If the information is voice or text, the information can be converted into a sign language video. This enables two-way remote communication.
  • FIG. 3 shows a one-to-one relationship between a terminal device of a sign language speaker and a terminal device of a speaker such as a voice, but the embodiment of the present invention is not limited to this.
  • sign language transmitted from a terminal device of a sign language speaker may be transmitted to a plurality of terminal devices in a form translated into a natural language.
  • a sign language image may be transmitted from one terminal device that utters text or voice to a plurality of terminal devices.
  • FIG. 4 shows a hardware configuration example of the computer apparatus 102 included in the sign language conversation support system according to the embodiment of the present invention.
  • the computer device 102 includes a central processing unit 120 that performs arithmetic processing and various controls, an image processing device 122 that analyzes and generates image data, a main storage device 124 that stores data, programs, and programs including deep learning algorithms, It includes a sign language image storage device 118 that stores data such as sign language images, a receiving device that receives data and the like via a telecommunication line, and a transmitting device 128 that transmits data and the like to the telecommunication line.
  • the central processing unit 120 is realized by a microprocessor, and the image processing apparatus is realized by a dedicated processor specialized for image processing.
  • the main storage device 124 is realized by a semiconductor memory such as a dynamic random access memory (DRAM).
  • the sign language image storage device 118 is composed of a rewritable nonvolatile memory, and for example, a nonvolatile semiconductor memory called a magnetic disk (hard disk) or flash memory is applied.
  • the receiving device 126 and the transmitting device 128 are realized by communication modules conforming to various standards.
  • the computer device 102 realizes a sign language conversation support function by connecting these devices in common via a bus line and operating in cooperation.
  • FIG. 5 shows a functional configuration of a sign language conversation support system according to an embodiment of the present invention.
  • the sign language conversation support system 100 includes a sign language image reception device 130, a sign language image recognition device 132, a sign language image translation device 134, a natural language data generation device 136, a natural language data analysis device 138, a natural language calibration device 140, and a sign language image learning device 142.
  • a sign language image data storage device 154 including a sign language image data storage device 148, a sign language image data storage device 148, a standard sign language image data storage device 150, and a learning sign language image data storage device 152, and a natural language dictionary storage device 156. Including.
  • the sign language image receiving device 130 receives the sign language image transmitted from the user terminal device 104.
  • the sign language image received by the sign language image reception device 130 is output to the sign language image recognition device 132.
  • the sign language image recognition device 132 stores the received sign language image in the sign language image storage device 148.
  • the sign language image recognition device 132 extracts a characteristic part of the sign language image. For example, the sign language image recognition device 132 recognizes a position where the signer's head and the hand are not relative. Moreover, in order to recognize the form of the hand which performs sign language, the outline part of a signer's hand is extracted and an outline is produced
  • the sign language image recognition device 132 generates sign language image data including a signer image and image data subjected to morphological image processing as a set. Alternatively, the sign language image recognition device 132 may generate image data that has undergone morphological image processing as sign language image data.
  • the sign language image shown in FIG. 6A is input to the sign language image recognition apparatus 132, the sign language image is processed as shown in FIG. Superimpose images.
  • sign language image recognition or machine learning it is performed based on the sign language image subjected to the morphological image processing. Thereby, the sign language operation can be simplified and clarified, and the recognition accuracy of the sign language image in the image processing can be improved. In machine learning, learning accuracy and proficiency can be improved.
  • image processing is not essential, and learning and real-time processing may be performed without performing image processing.
  • the sign language image recognition device 132 outputs the generated sign language image data to the sign language image translation device 134.
  • the sign language image storage device 148 refers to the standard sign language image data stored in the standard sign language image data storage unit 152 of the sign language image data storage device 154, and some of the standard sign language image data matches the sign language image data. Check whether or not.
  • the sign language image translation device 134 refers to the learning sign language image data stored in the learning sign language image data storage unit 152 and checks whether there is a match with the sign language image data among the learning sign language image data. .
  • the sign language image translation device 134 associates sign language image data with standard sign language image data and / or learning sign language image data.
  • sign language in an area in Kansai is often expressed with large gestures using both hands. For example, when expressing “No way!”, The palm of both hands is moved in front of the chest, but in other areas, the fist is applied to the chest with one hand and then the palm is opened and pushed out. Therefore, when only standard sign language image data is referred to, there are cases where sign language cannot be correctly translated into a natural language.
  • learning data of sign language images deep-learned with artificial intelligence is stored in the learning sign language image data storage unit 152.
  • the sign language image translation device 134 refers to the data in the learning sign language image data storage unit 152 and performs an operation of applying to which area dialect the sign language image is close or to which area dialect.
  • the sign language image data associated with the standard sign language image data and / or the learning sign language image data is converted into a natural language by the natural language data generation device 136 by the sign language image translation device 134.
  • the standard sign language image data and / or learning sign language image data with sign language image data associated with it means "Hello", and generates a natural language data of "Hello” as a natural language.
  • the natural language data generated by the natural language data generation device 136 is output to the natural language data analysis device 138.
  • the natural language data analysis device 138 analyzes the natural language data and refers to the natural language dictionary storage device 156 to correct grammatical errors and vocabulary into natural Japanese.
  • the natural language data analysis device 138 corrects the language according to the dialect. For example, when the sign language operation, which means “hello” has been translated is translated by sign language image translation device 134 as "Hello”, if the speaker is using the Okinawan dialect, the "Hello", “high side To the word ".”
  • sign language translation that respects the individuality of the speaker can be performed.
  • the natural language data corrected by the natural language data analysis device 138 is output to the natural language calibration device 140.
  • the natural language calibration device 140 identifies the sign language image data that is the object of calibration, and outputs the information to the sign language image learning device 142.
  • the sign language image learning device 142 reads out the corresponding sign language image from the sign language image storage device 148 and adds it to the data in the learning sign language image data storage unit 152 in association with the corrected natural language. Thereby, sign language image data is accumulated in the learning sign language image data storage unit 152.
  • the natural language information corresponding to the sign language image data is accumulated in the learning sign language image data storage unit 152, so that the accuracy of sign language translation can be improved even if the behavior of the sign language fluctuates. Moreover, even if the action of the sign language is based on a dialect, it is possible to translate the sign language according to the dialect.
  • the audiovisual data generation device 144 converts the natural language data generated by the natural language data analysis device 138 into audiovisual data.
  • the audiovisual data generation device 144 converts natural language data into audio data, character data, and / or image data representing emotions and expressions.
  • the audiovisual data transmission device 146 outputs the audio data, character data, and / or image data such as emotion and expression generated by the audiovisual data generation device 144 to the terminal device 106 of another user.
  • the sign language conversation support system can realize communication reflecting the individuality of the sign language speaker.
  • the sign language conversation support system can improve the accuracy of sign language translation by learning the sign language image by deep learning, thereby recognizing variations in the movement of the speaker and dialects.
  • the sign language conversation support system according to the present embodiment can execute communication via such sign language in real time.
  • the sign language speaker is the camera function of the video camera or portable terminal device 104 worn, the camera (imaging device) 158 installed behind the camera, the drone 160 equipped with the camera, and the other behind the sign language speaker. It is also possible to use a device for taking pictures from. In this way, by photographing the sign language from an angle other than the front, the sign language speaker can speak the sign language in a relaxed state without being aware of the camera.
  • Images taken from behind a sign language speaker are basically in the opposite direction, and differ depending on the angle at which they are taken.
  • one or a plurality of combinations of the following measures are performed.
  • (3) The sign language image input at the time of real time processing is adjusted and converted in real time, and the recognition processing is performed in a form close to the machine-learned front or back sign language image.
  • the sign language conversation support system recognizes the sign language image accurately by learning the sign language image captured from behind the sign language speaker using the artificial intelligence function. be able to.
  • FIG. 8 shows an example of a sign language conversation support system 100b that can be applied even when a sign language image is taken from an angle other than the front of the sign language.
  • the sign language conversation support system 100b shown in FIG. 8 is different from the sign language conversation support system shown in FIG. 5 in that it includes a sign language image analysis device 162, a three-dimensional image storage device 164, and a three-dimensional image generation device 166.
  • the difference will be mainly described.
  • the sign language image analysis device 162 analyzes from which angle the photographed sign language image is photographed.
  • the three-dimensional image storage device 164 stores sign language images taken in advance from various angles and distances from the front and angles other than the front.
  • the sign language image analysis device 162 reads the data of the sign language image from the three-dimensional image storage device 164 and identifies from which angle the captured sign language image is an image.
  • the photographed sign language image may include information photographed from a plurality of angles. By using sign language images taken from a plurality of angles, it is possible to improve the analysis accuracy of sign language images.
  • Machine learning may be performed in the sign language image analysis device 162.
  • the machine learning it is preferable to perform video processing close to a plurality of angles on a sign language image photographed from the front and the back, and make all of them subject to learning.
  • the sign language image is adjusted and converted in real time, and the recognition process is performed in a form close to the machine-learned front or back sign language image. It is preferable to do.
  • the sign language image analysis device 162 outputs sign language image data to the three-dimensional image generation device 166 together with the specified shooting angle information.
  • the three-dimensional image generation device 166 reads out the three-dimensional sign language image data photographed from various angles corresponding to the operation of the sign language from the three-dimensional image storage device 164 based on the specified photographing angle information and the sign language image. Combine to generate a 3D image of sign language.
  • the 3D image generation device 166 outputs the generated 3D sign language image data to the sign language image recognition device 132.
  • the sign language image recognition device 132 recognizes 3D sign language image data.
  • the subsequent operations and processes of the respective units are the same as the processes shown in FIG.
  • the sign language image recognition device 132 may recognize the contents of the sign language based on the specified shooting angle information and the sign language image without using the 3D image generation device 166.
  • the sign language image translation device 134 performs recognition processing in a form close to a machine-learned front or back sign language image, and performs sign language translation.
  • the sign language translation can be performed accurately, and between the sign language speaker and the natural language speaker. Smooth communication can be achieved.
  • FIG. 9 shows an example of a sign language conversation support system that converts natural language speech into sign language.
  • the sign language conversation support system 100c includes an audiovisual data reception device 168, an audiovisual data conversion device 170, a natural language data analysis device 138, a sign language image conversion data generation device 172, a sign language image translation device 134, a sign language image conversion data generation device 172, and a sign language image. It includes a transmission device 174, a sign language image data storage device 154 including a standard sign language image data storage unit 150 and a learning sign language image data storage unit 152, and a natural language dictionary storage device 156.
  • Such a sign language conversation support system 100c is realized by the computer apparatus 102 shown in FIG.
  • the audiovisual data receiving device 168 receives audiovisual data such as voices, characters, and animations transmitted from the user terminal device 106.
  • the audiovisual data received by the audiovisual data receiving device 168 is output to the audiovisual data conversion device 170.
  • the audiovisual data converter 170 converts audiovisual data such as voice, characters, animation, etc. into data that can be recognized by a computer (for example, binary format data).
  • the audiovisual data converted by the audiovisual data converter 170 is output to the natural language data analyzer 138.
  • the natural language data analysis device 138 analyzes audiovisual data and refers to the natural language dictionary storage device 156 to convert grammatical errors and vocabulary into sentences that can be translated into sign language.
  • the natural language data analysis apparatus 138 corrects the dialect according to the dialect.
  • the sign language image conversion data generation device 172 divides a natural language sentence into one or a plurality of blocks so that it can be translated into sign language. For example, “Hello, I am it is hot today” natural language is a case was a sentence, as “Hello”, and “today”, and “hot”, broken down into blocks of the "This is it”.
  • the sign language image translation device 134 reads the sign language image data from the sign language image storage device 148, combines the sign language images corresponding to the natural language, and generates a single sign language image data. In the above example, “Hello”, “today”, “hot”, combined with the sign language images corresponding to the "This is it". The sign language image translation device 134 generates these sign language images as one continuous sign language image.
  • the sign language image translation device 134 when the sign language image translation device 134 reads data from the learning sign language image data storage unit 152, the sign language image translation device 134 may read data based on the personality of the natural language speaker. For example, when sign language image data of a natural language speaker is stored, the data of the corresponding person may be read out. In addition, when the utterance in the natural language is a dialect, the sign language image translation device 134 may read a sign language image corresponding to the dialect. Thus, by making the personality of the natural language speaker reflect, it is possible to increase the closeness between the sign language and the natural language conversation. As described with reference to FIG. 5, the learning sign language image data storage unit 152 stores data as needed by machine learning.
  • Such learning data for sign language images can also be used when sign language image data is generated from audiovisual data in natural language.
  • the sign language image conversion data generation device 172 generates a sign language image by animation, for example.
  • the sign language image transmission device 174 transmits the sign language image to the terminal device 104 of the user.
  • information based on a natural language can be converted into a sign language image.
  • the sign language image can be generated in accordance with the personality of the speaker because the image data of the sign language is machine-learned.
  • DESCRIPTION OF SYMBOLS 100 ... Sign language conversation support system, 102 ... Computer apparatus, 104 ... Terminal apparatus, 106 ... Terminal apparatus, 108 ... Personal computer, 110 ... Sound reproduction apparatus, 112 ... Television John, 114 ... terminal device, 116 ... terminal device, 118 ... sign language image storage device, 120 ... central processing device, 122 ... image processing device, 124 ... main storage device, 126 ... Receiving device, 128 ... Transmitting device, 130 ... Sign language image receiving device, 132 ... Sign language image recognition device, 134 ... Sign language image translation device, 136 ...
  • Natural language data generation device 138: Natural language data analysis device, 140: Natural language calibration device, 142: Sign language image learning device, 144: Audiovisual data generation device, 146: Audiovisual data Data transmission device, 148 ... sign language image storage device, 150 ... standard sign language image data storage unit, 152 ... learning sign language image data storage unit, 154 ... sign language image data storage device, 156 ... natural Language dictionary storage device, 158 ... camera, 160 ... drone, 162 ... sign language image analysis device, 164 ... three-dimensional image storage device, 166 ... three-dimensional image generation device, 168 ... Audiovisual data receiving device, 170 ... audiovisual data conversion device, 172 ... sign language image conversion data generation device, 174 ... sign language image transmission device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

手話動画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、手話画像認識装置で認識された手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、手話画像認識装置で翻訳された手話画像データから自然言語を生成する自然言語データ生成装置と、自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、視聴覚データ生成装置で生成された視聴覚データを送信する視聴覚データ送信装置と、を含む手話会話支援システムが提供される。

Description

手話会話支援システム
 本発明は、人工知能を用いた機械学習とコンピュータビジョンを用いて行われるコミュニケーションを支援する装置、システム、コンユータプログラムに関する。
 聴覚障害者とコミュニケーションを図る手段として手話が用いられている。聴覚障害者間、または聴覚障害者と健常者との間で良好なコミュニケーションを図るには、双方が手話を理解しなければならない。しかし、手話を理解し自在に扱えるようになるには時間と労力が必要であり、幅広い年齢層に普及しているとは言えないのが実情である。そこで、手話者が不特定多数の者に対して手話者の意思を正確に伝達するために、手話を画像取得手段によって画像データに変換し、変換した画像データを文字として認識する手話確認方法及び装置が開示されている(例えば、特許文献1参照。)。
特開2012?252581号公報
 しかしながら、言葉に方言があり、話し方に個性があるように、手話を話す際にも手や指の動作は個人によって変化する。したがって、手話の画像データを取得して文字データに変換しようとしても、正確に翻訳されず意思表示が正確に伝達できないことが問題となる。一方、文字情報又は音声情報に基づいて手話動画を生成する際には、発話者の個性を表現できた方がコミュニケーションの親密度を高めることができるが、単純な変換作業では画一的な手話動画しか生成できないのが実情である。また、手話画像して文字や音声に変換する方式では、手話による発話者の正面から撮像しなければ正確な翻訳ができないという問題がある。本発明の一実施形態は、このような問題を解決することを目的の一つとする。
 本発明の一実施形態に係る手話会話支援システムは、手話画像を認識する手話画像認識装置と、手話画像認識装置が認識した手話画像を自然言語に翻訳する手話画像変換部とを含み、手話画像翻訳装置は、機械学習により予め機械学習された手話画像データとのマッチングを行うように構成されている。
 本発明の一実施形態に係る手話会話支援システムは、手話動画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、手話画像認識装置で認識された手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、手話画像認識装置で翻訳された手話画像データから自然言語を生成する自然言語データ生成装置と、自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、視聴覚データ生成装置で生成された視聴覚データを送信する視聴覚データ送信装置と、を含む。
本発明の一実施形態に係る手話会話支援システムの概要を示す図である。 本発明の一実施形態に係る手話会話支援システムの全体的な構成を示す図である。 本発明の一実施形態に係る手話会話支援システムの全体的な構成を示す図である。 本発明の一実施形態に係る手話会話支援システムに含まれるコンピュータ装置102のハードウェアの構成例を示す図である。 本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。 本発明の一実施形態に係る手話会話支援システムにおいて行われる画像処理の一例を示す図である。 本発明の一実施形態に係る手話会話支援システムにおいて行われる画像処理の一例を示す図である。 本発明の一実施形態に係る手話会話支援システムにおいて行われる手話を撮影する一形態を説明する図である。 本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。 本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す図である。
 本発明の実施の形態を、図面等を参照しながら説明する。但し、本発明は多くの異なる態様で実施することが可能であり、以下に例示する実施の形態の記載内容に限定して解釈されるものではない。図面は説明をより明確にするため、実際の態様に比べ、各部の幅、厚さ、形状等について模式的に表される場合があるが、あくまで一例であって、本発明の解釈を限定するものではない。また、本明細書と各図において、既出の図に関して前述したものと同様の要素には、同一の符号(又は数字の後にa、bなどを付した符号)を付して、詳細な説明を適宜省略することがある。さらに各要素に対する「第1」、「第2」と付記された文字は、各要素を区別するために用いられる便宜的な標識であり、特段の説明がない限りそれ以上の意味を有さない。
 本発明の一実施形態に係る手話会話支援システムは、手話画像を認識し、自然言語に変換する処理、および自然言語を認識し手話画像を生成する処理を行う機能を有する。この手話会話支援システムは、電気通信回線(電話回線、インターネット回線を含む)に接続され、利用者の端末装置と通信可能な状態に置かれて動作する。
 図1は、手話会話支援システムの概要を示す。手話会話支援システム100は、コンピュータ装置102を含み、利用者側の端末装置104と電気通信回線を介して接続されている。利用者が発話する手話の動作は端末装置104によって撮像される。端末装置104としては画像を撮影可能な各種電子機器であり、ビデオカメラの他、端末装置104に設けられた動作撮影可能なカメラ等が適用される。端末装置104で撮像された手話画像は動画として、または連続する複数枚の静止画としてコンピュータ装置102に送信される。端末装置104とコンピュータ装置102との間は電気通信回線により接続されている。以下、手話画像というときは、動画像のみならず一つ又は複数の静止画像を含むものとする。
 端末装置104から送信された手話画像は、コンピュータにより自然言語に翻訳される。コンピュータは手話画像が記憶されている。コンピュータ装置102は、送信された手話画像と予め記憶されている手話画像を参照して、自然言語への翻訳を行う。
 コンピュータ装置102は、利用者が撮像した手話画像を学習対象として用いる。コンピュータ装置102はディープラーニングにより利用者の手話画像を機械学習する。これにより、多くの利用者の手話画像が蓄積され、ディープラーニングにより手話画像の解析精度が向上する。すなわち、利用者は共通する規則に従って手話を発話するが、各個人の手話動作には個性が含まれる。別言すれば、手話動作には揺らぎがあるため、画一的な手話動作の画像解析では翻訳の正確性が低下する。しかし、利用者から集められた手話画像をディープラーニングに対象とすることで、手話画像の識別力を高め、翻訳制度を向上させることが可能となる。
 コンピュータ装置102は、利用者から送信される手話画像の取得と、学習された手話画像のマッチングをリアルタイムで行い、結果を利用者又は他の利用者に向けて出力(送信)する。
 図2は、手話会話支援システム100の全体的な構成を示す。手話会話支援システム100は、コンピュータ装置102と、一方の会話者の端末装置104、他方の会話者の端末装置106とが電気通信回線を介して接続されている。端末装置104、106としては、携帯電話、タブレット端末、スマートフォンと呼ばれる多機能携帯電話等が適用される。また、会話者に属する通信手段はとして、パーソナルコンピュータ108のような電気通信回線を通じて双方の通信が可能な電子機器が適用される。また、会話内容(手話及び自然言語による視聴覚データ)は、ラジオ等の音声再生装置110、テレビジョン112のような情報の出力のみが主として可能な電子機器であってもよい。
 本実施形態に係る手話会話支援システムは、複数の端末装置の間で手話を介した双方向の会話が可能である。例えば、図3に示すように、ある端末装置116から、手話会話が発信されたとき、コンピュータ装置102は手話を翻訳して他の端末装置114へ会話を送信する。例えば、端末装置114には手話を自然言語に翻訳されて「こんにちは、お元気ですか?」と音声、文字及び/又はアニメーション等により出力される。次に、端末装置114の利用者が「こんにちは。はい、元気ですよ。」と文字又は音声で返答すると、コンピュータ装置102はこれを手話に翻訳して、端末装置116に手話画像として送信する。
 本実施形態に係る手話会話支援システムは、このような会話をリアルタイムで実行することができる。これにより、手話により電話をかけるということも可能となる。また、その逆に、手話者の端末装置に対して別の端末装置から情報を送信することもできる。その情報が音声やテキストなどであった場合はその情報を手話の映像に変換することもできる。これにより双方向での遠隔コミュニケーションが可能となる。
 なお、図3は、手話の発話者の端末装置と、音声等の発話者の端末装置が1対1である関係を示すが、本発明の一実施形態はこれに限定されない。例えば、手話の発話者の端末装置から発信された手話が、複数の端末装置に自然言語に翻訳された形で送信されてもよい。また、文字又は音声等により発話する1台の端末装置から、複数の端末装置に手話画像が送信されてもよい。
 図4は、本発明の一実施形態に係る手話会話支援システムに含まれるコンピュータ装置102のハードウェアの構成例を示す。コンピュータ装置102は、演算処理及び各種制御を行う中央処理装置120、画像データの解析及び生成を行う画像処理装置122、データ、プログラム及びディープラーニングのアルゴリズムを含むプログラムが格納される主記憶装置124、手話画像等のデータが記憶される手話画像記憶装置118、電気通信回線を介してデータ等の受信を行う受信装置、電気通信回線へデータ等の送信を行う送信装置128を含む。
 中央処理装置120はマイクロプロセッサで実現され、画像処理装置が画像処理に特化した専用のプロセッサで実現される。主記憶装置124はダイナミックランダムアクセスメモリ(DRAM)等の半導体メモリによって実現される。手話画像記憶装置118は書き換え可能な不揮発性メモリで構成され、例えば、磁気ディスク(ハードディスク)、フラッシュメモリとも呼ばれる不揮発性半導体メモリが適用される。受信装置126及び送信装置128は各種規格に準じた通信モジュールによって実現される。コンピュータ装置102は、これらの装置が共通にバスラインで接続され、協働して動作することで手話会話支援機能を実現している。
 図5は、本発明の一実施形態に係る手話会話支援システムの機能的な構成を示す。手話会話支援システム100は、手話画像受信装置130、手話画像認識装置132、手話画像翻訳装置134、自然言語データ生成装置136、自然言語データ解析装置138、自然言語較正装置140、手話画像学習装置142、視聴覚データ生成装置144、視聴覚データ送信装置146、手話画像記憶装置148、標準手話画像データ記憶部150及び学習手話画像データ記憶部152を含む手話画像データ記憶装置154、自然言語辞書記憶装置156を含む。
 手話画像受信装置130は、利用者の端末装置104から送信された手話画像を受信する。手話画像受信装置130が受信した手話画像は手話画像認識装置132に出力される。手話画像認識装置132は受信した手話画像を手話画像記憶装置148に記憶させる。手話画像認識装置132は手話画像の特徴的部分を抽出する。例えば、手話画像認識装置132は、手話者の頭部と手の相対的ない位置を認識する。また、手話をする手の形態を認識するために手話者の手の輪郭部分を抽出し輪郭線を生成する。このように手話画像認識装置132は、形態画像処理を行う。手話画像認識装置132は手話者の映像と、形態画像処理された画像データを一組とする手話画像データとして生成する。または、手話画像認識装置132は、形態画像処理された画像データを手話画像データとして生成してもよい。
 例えば、手話画像認識装置132に、図6Aで示す手話画像が入力されたとき、図6Bで示すように、手話画像は映像処理され、「手」及び「顔」にその形態を認識した線ないし画像を重ね合わせる。手話画像の認識や機械学習をするときに、この形態映像処理を施された手話画像に基づいて行われる。これにより、手話動作を単純化及び明確化することができ、画像処理における手話画像の認識精度を向上させることができる。また機械学習においても学習精度及び習熟度の向上を図ることができる。ただし、このような画像処理は必須ではなく、画像処理を行わないで学習及びリアルタイム処理が行われてもよい。
 図5において、手話画像認識装置132は、生成された手話画像データを手話画像翻訳装置134に出力する。手話画像記憶装置148は、手話画像データ記憶装置154の標準手話画像データ記憶部152に記憶されている標準手話画像データを参照し、標準手話画像データの中から手話画像データと一致するものがあるか否かを調べる。また、手話画像翻訳装置134は、学習手話画像データ記憶部152に記憶されている学習手話画像データを参照し、学習手話画像データの中から手話画像データと一致するものがあるか否かを調べる。手話画像翻訳装置134は、手話画像データと標準手話画像データ及び/又は学習手話画像データとの関連付けを行う。
 手話には方言があるとされる。例えば、関西のある地域における手話は両手を使って大きな身振りで表現する場合が多いとされている。例えば、「まさか!」を表現するとき両手の手のひらを胸の前で大きく合わせる動作をするが、他の地域では片手で拳を胸に当てたあと手のひらを開いて突き出す動作をするとされる。したがって、標準手話画像データのみを参照した場合には正しく手話を自然言語に翻訳できない場合がある。しかしながら、本実施形態に係る手話会話支援システムでは、学習手話画像データ記憶部152に人工知能でディープラーニングされた手話画像の学習データが蓄積されている。手話画像翻訳装置134は、学習手話画像データ記憶部152のデータを参照して、手話画像がどの地域の方言に近いのか、またはどの地域の方言に該当するのかを当てはめる作業を行う。
 手話画像翻訳装置134によって、標準手話画像データ及び/又は学習手話画像データと関連付けられた手話画像データは、自然言語データ生成装置136において、自然言語に変換される。例えば、標準手話画像データ及び/又は学習手話画像データと関連付けられた手話画像データが「こんにちは」を意味するものであれば、自然言語としての「こんにちは」という自然言語データを生成する。
 自然言語データ生成装置136で生成された自然言語データは自然言語データ解析装置138に出力される。自然言語データ解析装置138は、自然言語データを解析し、自然言語辞書記憶装置156を参照して、文法的な誤りや語彙を自然な日本語に修正する。また、自然言語データ解析装置138は、手話の発話者が方言で発話している場合、その方言に即した言葉に修正する。例えば、「こんにちは」を意味する手話動作が手話画像翻訳装置134で翻訳されて「こんにちは」と翻訳されたとき、その発話者が沖縄地方の方言を使っている場合、「こんにちは」を「はいさい」という言葉に修正する。このように手話の発話者の方言に合わせて自然言語データを生成し又は修正することで、発話者の個性を尊重した手話翻訳をすることができる。
 なお、自然言語データ解析装置138で修正された自然言語データは、自然言語較正装置140に出力される。自然言語較正装置140は、較正の対象となった手話画像データを特定し、手話画像学習装置142にその情報を出力する。手話画像学習装置142は、手話画像記憶装置148から該当する手話画像を読み出し、修正された自然言語と関連付けて学習手話画像データ記憶部152のデータに追加する。これにより、学習手話画像データ記憶部152には手話画像データが蓄積される。
 学習手話画像データ記憶部152に、手話画像データと対応する自然言語の情報は蓄積されることにより、手話の動作にゆらぎがあっても、手話翻訳の正確性を向上させることができる。また、手話の動作が方言に基づくものであったとしても、その方言に合わせた手話翻訳をすることができる。
 視聴覚データ生成装置144は、自然言語データ解析装置138で生成された自然言語データを視聴覚可能なデータに変換する。例えば、視聴覚データ生成装置144は、自然言語データを音声データ、文字データ及び又は感情や表現等を表す画像データに変換する。視聴覚データ送信装置146は、視聴覚データ生成装置144で生成された音声データ、文字データ及び/又は感情や表現等画像データを他の利用者の端末装置106に出力する。
 このように、本実施形態に係る手話会話支援システムは、手話の発話者の個性を反映させたコミュニケーションを実現することができる。この場合において、手話会話支援システムは、手話画像をディープラーニングにより学習することで、発話者の動作のばらつきや、方言を認識して、手話翻訳の正確性を高めることができる。さらに、本実施形態に係る手話会話支援システムは、このような手話を介したコミュニケーションをリアルタイムで実行することができる。
 図7で示すように、手話の発話者は、身につけたビデオカメラ又は携帯端末装置104のカメラ機能、背後に設置されカメラ(撮像装置)158、カメラ搭載ドローン160、その他手話の発話者の背後からの撮影をするデバイスを用いることもできる。このように、正面以外の角度から手話を撮影することで、手話の発話者はカメラを意識しないで、リラックスした状態で手話を発話することができる。
 しかしながら、手話の発話者の背後から撮影を行う場合、カメラによって撮影される映像は正面から撮影される場合のものとは異なる映像となる。手話の発話者の背後から撮影された映像は、基本的に逆向きであり、撮影される角度の違いによっても異なる映像となる。
 しかしながら、本実施形態においては、このような不具合を修正し、手話画像を正確に認識するために、以下に示す施策の一つ又は複数の組み合わせを行う。
 (1) あらかじめ様々な角度や距離による背後からの手話画像を機械学習させておく。
 (2) 機械学習を行う前に、正面から、または、背後から撮影された学習教材となる手話画像に複数の角度に近くなる映像処理を施し、その全てを学習の対象とする。
 (3) リアルタイム処理時に入力される手話画像をリアルタイムに角度などを調整及び変換し、機械学習された正面又は背後からの手話画像に近い形で認識処理を行う。
 このように、本実施形態に係る手話会話支援システムは、人工知能の機能を用いて、手話の発話者の背後から撮影された手話画像を学習しておくことで、手話画像を正確に認識することができる。
 図8は、手話者の正面以外の角度から手話画像が撮影された場合にも適応可能な手話会話支援システム100bの一例を示す。図8で示す手話会話支援システム100bは、図5で示す手話会話支援システムと、手話画像解析装置162、三次元画像記憶装置164、三次元画像生成装置166、を備えている点で相違する。以下、当該相違部分を中心に説明する。
 手話画像解析装置162は、撮影された手話画像がどの角度から撮影された画像であるかを解析する。三次元画像記憶装置164には、予め様々な角度や距離による正面及び正面以外の角度から撮影された手話画像が記憶されている。手話画像解析装置162は、三次元画像記憶装置164から手話画像のデータを読み出して、撮影された手話画像がどの角度から撮影された画像であるかの特定を行う。なお、撮影された手話画像は、複数の角度から撮影された情報が含まれていてもよい。複数の角度から撮影された手話画像を用いることで、手話画像の解析精度を向上させることが可能となる。
 手話画像解析装置162において機械学習が行われてもよい。機械学習は、正面、背後から撮影された手話画像に、複数の角度に近くなる映像処理を施し、その全てを学習の対象とすることが好ましい。また、手話を介した会話がリアルタイムで行われる場合には、手話画像をリアルタイムに角度などを調整及び変換し、機械学習された正面又は背後からの手話画像に近い形で認識処理を行うようにすることが好ましい。
 手話画像解析装置162は、特定された撮影角度情報と共に、手話画像データを三次元画像生成装置166に出力する。三次元画像生成装置166は、特定された撮影角度情報と手話画像に基づいて、三次元画像記憶装置164から手話の動作に対応する、様々な角度から撮影された三次元手話画像データを読み出して合成し、手話の三次元画像を生成する。三次元画像生成装置166は、生成された三次元手話画像データを手話画像認識装置132に出力する。手話画像認識装置132が三次元手話画像データを認識する。これ以降の各部の動作及び処理は、図5で示す処理と同様である。
 また、三次元画像生成装置166を介さずに、特定された撮影角度情報と手話映像に基づいて、手話画像認識装置132が手話の内容を認識するようにしてもよい。手話画像翻訳装置134は、機械学習された正面又は背後からの手話画像に近い形で認識処理を行い、手話翻訳を行う。
 このように、本実施形態によれば、手話画像が正面以外の角度から撮影された場合でも、手話翻訳を正確に行うことができ、手話の発話者と自然言語での発話者との間で、円滑なコミュニケーションを図ることができる。
 図9は、自然言語の発話を手話に変換する手話会話支援システムの一例を示す。手話会話支援システム100cは、視聴覚データ受信装置168、視聴覚データ変換装置170、自然言語データ解析装置138、手話画像変換データ生成装置172、手話画像翻訳装置134、手話画像変換データ生成装置172、手話画像送信装置174、標準手話画像データ記憶部150及び学習手話画像データ記憶部152を含む手話画像データ記憶装置154、自然言語辞書記憶装置156を含む。このような手話会話支援システム100cは、図4で示すコンピュータ装置102で実現される。
 視聴覚データ受信装置168は、利用者の端末装置106から送信された音声、文字、アニメーション等による視聴覚データを受信する。視聴覚データ受信装置168が受信した視聴覚データは視聴覚データ変換装置170に出力される。視聴覚データ変換装置170は、音声、文字、アニメーション等による視聴覚データをコンピュータで認識可能なデータ(例えば、バイナリ形式のデータ)に変換する。
 視聴覚データ変換装置170で変換された視聴覚データは、自然言語データ解析装置138に出力される。自然言語データ解析装置138は、視聴覚データを解析し、自然言語辞書記憶装置156を参照して、文法的な誤りや語彙を手話に翻訳可能な文章に変換する。また、自然言語データ解析装置138は、視聴覚データに方言が含まれている場合、その方言に即したように修正する。
 手話画像変換データ生成装置172は、手話に翻訳可能なように、自然言語による文章を一つ又は複数のブロックに分割する。例えば、自然言語が「こんにちは、今日は暑いですね」という文章であった場合、「こんにちは」と、「今日は」と、「暑い」と、「ですね」とのブロックに分解する。
 手話画像翻訳装置134は、手話画像記憶装置148から手話画像のデータを読み出して、自然言語に対応する手話画像を組み合わせ、一つのまとまった手話画像データを生成する。上記の例では、「こんにちは」、「今日は」、「暑い」、「ですね」に対応する手話画像を組み合わせる。手話画像翻訳装置134は、これらの手話画像を連続する一つの手話画像として生成する。
 この場合、手話画像翻訳装置134は、学習手話画像データ記憶部152からデータを読み出すとき、自然言語の発話者の個性に基づいたデータを読み出してもよい。例えば、自然言語の発話者自身の手話画像データが記憶されているとき、該当者のデータを読み出してもよい。また、手話画像翻訳装置134は、自然言語による発話が方言である場合、その方言に対応した手話画像を読み出してもよい。このように、自然言語の発話者の個性が反映されるようにすることで、手話と自然言語との会話者間の親密度を高めることができる。学習手話画像データ記憶部152は、図5を参照して説明したように、機械学習により随時データが蓄積されている。このような手話画像の学習データは、自然言語による視聴覚データから、手話画像データを生成するときにも活用することができる。手話画像変換データ生成装置172は、例えば、アニメーションによって手話画像を生成する。手話画像送信装置174は、手話画像を利用者の端末装置104に送信する。
 本実施形態によれば、自然言語に基づく情報を、手話画像に変換することができる。この場合において、手話の画像データが機械学習されていることで、発話者の個性に即した手話画像を生成することができる。
 なお、図5、図8、及び図9は、コンピュータ装置102の機能的構成として説明したが、本発明の一実施形態はこれに限定されず、このような機能は、利用者の端末装置において実現することもできる。
100・・・手話会話支援システム、102・・・コンピュータ装置、104・・・端末装置、106・・・端末装置、108・・・パーソナルコンピュータ、110・・・音声再生装置、112・・・テレビジョン、114・・・端末装置、116・・・端末装置、118・・・手話画像記憶装置、120・・・中央処理装置、122・・・画像処理装置、124・・・主記憶装置、126・・・受信装置、128・・・送信装置、130・・・手話画像受信装置、132・・・手話画像認識装置、134・・・手話画像翻訳装置、136・・・自然言語データ生成装置、138・・・自然言語データ解析装置、140・・・自然言語較正装置、142・・・手話画像学習装置、144・・・視聴覚データ生成装置、146・・・視聴覚データ送信装置、148・・・手話画像記憶装置、150・・・標準手話画像データ記憶部、152・・・学習手話画像データ記憶部、154・・・手話画像データ記憶装置、156・・・自然言語辞書記憶装置、158・・・カメラ、160・・・ドローン、162・・・手話画像解析装置、164・・・三次元画像記憶装置、166・・・三次元画像生成装置、168・・・視聴覚データ受信装置、170・・・視聴覚データ変換装置、172・・・手話画像変換データ生成装置、174・・・手話画像送信装置

Claims (12)

  1.  手話画像を認識する手話画像認識装置と、前記手話画像認識装置が認識した手話画像を自然言語に翻訳する手話画像翻訳装置と、を含み、
     前記手話画像翻訳装置は、機械学習により予め機械学習された手話画像データとのマッチングを行うことを特徴とする手話会話支援システム。
  2.  前記手話画像翻訳装置は、リアルタイムで予め機械学習された手話画像データとのマッチンググを行う、請求項1に記載の手話会話支援システム。
  3.  前記手話画像認識装置は、手話の発話者の画像に対し形態画像処理を行う、請求項1に記載の手話会話支援システム。
  4.  前記形態画像処理は、手話の発話者の頭部の位置と手の輪郭線を抽出する、請求項3に記載の手話会話支援システム。
  5.  前記手話画像は正面以外の角度から撮影された画像であり、
     前記手話画像認識装置は、前記手話画像から撮影された角度を判別し、
     前記手話会話翻訳装置は、予め複数の角度や距離から撮影され、機械学習された手話画像データに基づいて前記手話画像データとのマッチングを行う、請求項1に記載の手話会話支援システム。
  6.  手話動画像を撮影する端末装置から送信された手話画像を受信する手話画像受信装置と、
     前記手話画像受信装置が受信した手話画像を認識し手話画像データを生成する手話画像認識装置と、
     前記手話画像認識装置で認識された前記手話画像データを自然言語に対応するように手話画像記憶装置からデータを読み出して翻訳する手話画像翻訳装置と、
     前記手話画像認識装置で翻訳された前記手話画像データから自然言語を生成する自然言語データ生成装置と、
     前記自然言語データ生成装置で生成された自然言語を視聴覚可能なデータに生成する視聴覚データ生成装置と、
     前記視聴覚データ生成装置で生成された前記視聴覚データを送信する視聴覚データ送信装置と、を含むことを特徴とする手話会話支援システム。
  7.  前記手話画像翻訳装置は、リアルタイムで予め機械学習された手話画像データとのマッチンググを行う、請求項6に記載の手話会話支援システム。
  8.  前記手話画像認識装置は、前記手話画像に対し形態画像処理を行う、請求項6に記載の手話会話支援システム。
  9.  前記形態画像処理は、手話の発話者の頭部の位置と手の輪郭線を抽出する、請求項8に記載の手話会話支援システム。
  10.  前記手話画像は正面以外の角度から撮影された画像であり、前記手話画像を解析する手話画像解析装置をさらに含む、請求項6に記載の手話会話支援システム。
  11.  前記手話画像認識装置は、前記手話画像から撮影された角度を判別し、
     前記手話会話翻訳装置は、予め複数の角度や距離から撮影され、機械学習された手話画像データに基づいて前記手話画像データとのマッチングを行う、請求項10に記載の手話会話支援システム。
  12.  前記手話画像記憶装置は、標準的な手話画像を記憶する標準手話画像記憶部と、機械学習により学習された手話画像を記憶する学習手話画像記憶部を含み、
     前記手話画像翻訳装置は、前記標準手話画像記憶部と前記学習手話画像記憶部とからデータを読み出す、請求項6に記載の手話会話支援システム。
PCT/JP2017/017540 2016-05-10 2017-05-09 手話会話支援システム WO2017195775A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-094600 2016-05-10
JP2016094600A JP2017204067A (ja) 2016-05-10 2016-05-10 手話会話支援システム

Publications (1)

Publication Number Publication Date
WO2017195775A1 true WO2017195775A1 (ja) 2017-11-16

Family

ID=60267051

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/017540 WO2017195775A1 (ja) 2016-05-10 2017-05-09 手話会話支援システム

Country Status (2)

Country Link
JP (1) JP2017204067A (ja)
WO (1) WO2017195775A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534009A (zh) * 2019-09-05 2019-12-03 北京青橙创客教育科技有限公司 一种人工智能无人驾驶课程教具

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102037789B1 (ko) * 2017-12-07 2019-10-29 한국생산기술연구원 로봇을 이용한 수화통역시스템
KR102023356B1 (ko) * 2017-12-07 2019-09-23 한국생산기술연구원 웨어러블 수화통역장치
JP6840365B2 (ja) * 2019-02-05 2021-03-10 ソフトバンク株式会社 システム、サーバ装置及びプログラム
KR102115551B1 (ko) * 2019-08-06 2020-05-26 전자부품연구원 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
KR102098734B1 (ko) 2019-08-06 2020-04-08 전자부품연구원 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
JP7212908B2 (ja) * 2020-08-25 2023-01-26 株式会社セルシス 3次元ポーズデータ生成システム、方法、プログラム
JP7485454B2 (ja) 2022-08-05 2024-05-16 Necソリューションイノベータ株式会社 手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220138A (ja) * 2003-01-10 2004-08-05 Mitsubishi Heavy Ind Ltd 画像認識装置、及び、画像学習装置
JP2004254218A (ja) * 2003-02-21 2004-09-09 Seiko Epson Corp 携帯電話、通信方法および通信プログラム
JP2011191418A (ja) * 2010-03-12 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> 地域対応手話生成システム、地域対応手話生成方法、および地域対応手話生成プログラム
JP2015069396A (ja) * 2013-09-30 2015-04-13 富士通株式会社 プログラム、情報処理装置、および方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2781743B2 (ja) * 1995-05-30 1998-07-30 日本電気オフィスシステム株式会社 手話翻訳装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220138A (ja) * 2003-01-10 2004-08-05 Mitsubishi Heavy Ind Ltd 画像認識装置、及び、画像学習装置
JP2004254218A (ja) * 2003-02-21 2004-09-09 Seiko Epson Corp 携帯電話、通信方法および通信プログラム
JP2011191418A (ja) * 2010-03-12 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> 地域対応手話生成システム、地域対応手話生成方法、および地域対応手話生成プログラム
JP2015069396A (ja) * 2013-09-30 2015-04-13 富士通株式会社 プログラム、情報処理装置、および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534009A (zh) * 2019-09-05 2019-12-03 北京青橙创客教育科技有限公司 一种人工智能无人驾驶课程教具

Also Published As

Publication number Publication date
JP2017204067A (ja) 2017-11-16

Similar Documents

Publication Publication Date Title
WO2017195775A1 (ja) 手話会話支援システム
US11227129B2 (en) Language translation device and language translation method
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
KR102361389B1 (ko) 안면 구조에 기초한 음성 합성 방법 및 장치
US10691898B2 (en) Synchronization method for visual information and auditory information and information processing device
US11482134B2 (en) Method, apparatus, and terminal for providing sign language video reflecting appearance of conversation partner
JP7279494B2 (ja) 会議支援装置、および会議支援システム
KR102174922B1 (ko) 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
CN113689879B (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
US20220327309A1 (en) METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA
CN116129931B (zh) 一种视听结合的语音分离模型搭建方法及语音分离方法
CN111354362A (zh) 用于辅助听障者交流的方法和装置
CN111147914A (zh) 一种视频处理的方法、存储介质及电子设备
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
CN116415597A (zh) 语音翻译、同声传译方法
KR20110066628A (ko) 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법
Ivanko et al. A novel task-oriented approach toward automated lip-reading system implementation
KR20220034396A (ko) 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램
KR102170684B1 (ko) 스마트 의류를 이용하는 통번역 시스템
CN113903325B (zh) 文本转3d音频的方法及装置
US20230386491A1 (en) Artificial intelligence device
JP2022041769A (ja) 翻訳プログラム、翻訳装置、及び翻訳方法
KR20240048977A (ko) 지화 통역 시스템
CN114333863A (zh) 语音增强方法、装置、电子设备及计算机可读存储介质
CN115409923A (zh) 生成三维虚拟形象面部动画的方法、装置及系统

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17796136

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17796136

Country of ref document: EP

Kind code of ref document: A1