KR20200044947A - 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램 - Google Patents

표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20200044947A
KR20200044947A KR1020207009456A KR20207009456A KR20200044947A KR 20200044947 A KR20200044947 A KR 20200044947A KR 1020207009456 A KR1020207009456 A KR 1020207009456A KR 20207009456 A KR20207009456 A KR 20207009456A KR 20200044947 A KR20200044947 A KR 20200044947A
Authority
KR
South Korea
Prior art keywords
unit
image
lip
recognition
call
Prior art date
Application number
KR1020207009456A
Other languages
English (en)
Other versions
KR102446222B1 (ko
Inventor
타쿠지 데루우치
Original Assignee
가부시키가이샤 제이브이씨 켄우드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 제이브이씨 켄우드 filed Critical 가부시키가이샤 제이브이씨 켄우드
Publication of KR20200044947A publication Critical patent/KR20200044947A/ko
Application granted granted Critical
Publication of KR102446222B1 publication Critical patent/KR102446222B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06K9/00335
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72519
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Geometry (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Communication Control (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득부(101)와, 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출부(107)와, 입술 검출부(107)가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리부(110)와, 영상 처리부(110)가 생성한 영상을 표시 패널(40)에 표시시키는 표시 제어부(104)를 구비한다.

Description

표시 제어 장치, 통신 장치, 표시 제어 방법 및 프로그램
본 발명은, 표시 제어 장치, 통신 장치, 표시 제어 방법 및 프로그램에 관한 것이다.
통신 장치를 사용하여 통화를 행할 때에, 통화를 하기 쉽게 하기 위한 기술이 알려져 있다. 통화 상대의 발화(發話) 내용을 음성 인식하여 텍스트 표시하는 기술이 알려져 있다(예를 들면, 특허문헌 1 참조). 입술의 움직임을 나타내는 도안 또는 도형을 생성 표시하거나, 송화 음성 신호의 음성 인식 결과의 텍스트 정보, 또는, 합성 음성 신호에 의한 음성을 출력시키거나 하는 기술이 알려져 있다(예를 들면, 특허문헌 2 참조).
일본공개특허공보 2008-99121호 일본공개특허공보 2006-005440호
통화 상대가 청각 장애자일 때에, 특허문헌 1 또는 특허문헌 2에 기재된 기술을 사용하면, 청각 장애자가 통화를 하기 쉬워진다.
그러나, 발화 내용을 텍스트로 표시하거나 합성 음성으로 출력하거나 하는 경우, 발화자가 의도하는 뉘앙스가 적절히 전달되지 않을 우려가 있다. 또한, 입술의 움직임을 표시하는 경우, 입술의 움직임이 작으면, 발화 내용을 적절하게 인식할 수 없을 우려가 있다.
본 발명은, 상기를 감안하여 이루어진 것으로서, 발화 내용을 적절하게 인식 가능하게 하는 것을 목적으로 한다.
전술한 과제를 해결하고, 목적을 달성하기 위해, 본 발명에 따른 표시 제어 장치는, 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득부와, 상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출부와, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리부와, 상기 영상 처리부가 생성한 영상을 표시부에 표시시키는 표시 제어부를 구비하는 것을 특징으로 한다.
본 발명에 따른 통신 장치는, 상기의 표시 제어 장치와, 통화 처리를 행하는 통화 처리부를 구비하고, 상기 음성 취득부는, 통화 시의 발화 음성을 취득하고, 상기 영상 처리부는, 상기 통화 처리부가 송신하는 영상을, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상으로 하는 것을 특징으로 한다.
본 발명에 따른 통신 장치는, 상기의 표시 제어 장치와, 통화 처리를 행하는 통화 처리부를 구비하고, 상기 음성 인식부는, 상기 통화 처리부가 수신하여 취득한 음성 데이터로부터 음성을 인식하고, 상기 영상 취득부는, 상기 통화 처리부가 수신한 영상 데이터를 취득하는 것을 특징으로 한다.
본 발명에 따른 표시 제어 방법은, 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과, 상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과, 상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과, 상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝을 포함한다.
본 발명에 따른 프로그램은, 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과, 상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과, 상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과, 상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝을 컴퓨터에 실행시킨다.
본 발명에 의하면, 발화 내용을 적절하게 인식 가능하게 할 수 있다는 효과를 가져온다.
도 1은, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 블럭도이다.
도 2는, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 개략도이다.
도 3은, 입술부를 설명하는 도면이고, 입술을 닫은 상태를 나타낸다.
도 4는, 입술부의 움직임의 일 예를 설명하는 도면이다.
도 5는, 음성 인식 처리의 처리 결과와 입술 동작 인식 처리의 처리 결과와 인식률을 설명하는 도면이다.
도 6은, 입술부의 움직임이 커지도록 강조한 강조 영상의 일 예를 설명하는 도면이다.
도 7은, 입술부의 움직임이 커지도록 강조한 강조 영상을 유저의 얼굴부의 영상에 중첩 또는 합성한 영상을 설명하는 도면이다.
도 8은, 제1 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다.
도 9는, 제2 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다.
도 10은, 제3 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다.
(발명을 실시하기 위한 형태)
이하에 첨부 도면을 참조하여, 본 발명에 따른 표시 제어 장치, 통신 장치, 표시 제어 방법 및 프로그램의 실시 형태를 상세하게 설명한다. 또한, 이하의 실시 형태에 의해 본 발명이 한정되는 것은 아니다.
[제1 실시 형태]
도 1은, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 블럭도이다. 도 2는, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 개략도이다. 통신 장치(1)는, 예를 들면, 휴대 전화와 같이 통화 기능을 갖는 휴대용 전자 기기를 포함하는 통신 장치 또는 컴퓨터 등이다. 본 실시 형태에서는, 통신 장치(1)는, 휴대 전화인 것으로서 설명한다. 통신 장치(1)는, 카메라(10)와 마이크로폰(20)과 송수신부(30)와 표시 패널(표시부)(40)과 스피커(50)와 제어부(100)를 갖는다. 본 실시 형태에서는, 통신 장치(1)는, 유저가 발화자이다. 본 실시 형태에서는, 유저의 통화 상대가 청각 장애자이다. 본 실시 형태에서는, 통신 장치(1)는, 유저인 발화자의 발화 음성의 음성 데이터와 강조 영상(210)의 영상 데이터를, 청각 장애자인 통화 상대에게 송신한다.
카메라(10)는, 적어도 유저의 입술부(200)를 포함하는 입 모양을 포함하는 영상을 촬영한다. 본 실시 형태에서는, 카메라(10)는, 유저의 얼굴부의 영상을 촬영한다. 카메라(10)는, 통화 시에 적어도 유저의 입술부(200)를 촬영 가능한 위치에 배치되어 있다. 본 실시 형태에서는, 카메라(10)는, 통신 장치(1)의 표시 패널(40)의 하측에 배치되어 있다. 카메라(10)는, 통신 장치(1)에 있어서 통화를 개시하면, 상시, 영상을 촬영한다. 카메라(10)는, 촬영한 영상 데이터를 제어부(100)의 영상 취득부(101)에 출력한다.
마이크로폰(20)은, 유저의 발화 음성의 음성 신호를 취득한다. 본 실시 형태에서는, 마이크로폰(20)은, 통신 장치(1)의 표시 패널(40)의 하측에 배치되어 있다. 마이크로폰(20)은, 통신 장치(1)에 있어서 통화를 개시하면, 상시, 음성 신호를 취득한다. 마이크로폰(20)은, 취득한 음성 신호를 제어부(100)의 음성 취득부(102)에 출력한다.
송수신부(30)는, 음성과 영상에 의한 통화를 가능하게 한다. 송수신부(30)는, 유저의 발화 음성의 음성 데이터와 유저의 얼굴부의 영상 데이터를 통화 상대가 사용하고 있는 통신 장치에 송신한다. 송수신부(30)는, 통화 상대의 발화 음성의 음성 데이터와 얼굴부의 영상 데이터를 수신한다. 송수신부(30)는, 무선 또는 유선에 의해 통신한다. 송수신부(30)는, 예를 들면, 4G 회선 등을 포함하는 휴대 전화의 회선을 사용해도 좋다. 송수신부(30)는, 예를 들면, Wifi(등록상표)를 포함하는 무선 통신 규격을 사용해도 좋다. 송수신부(30)는, 유선에 의한 통신 규격을 사용해도 좋다. 송수신부(30)는, 제어부(100)의 통화 처리부(103)에 의해 통화 개시와 통화 종료가 제어된다.
표시 패널(40)은, 액정 디스플레이(LCD: Liquid Crystal Display) 또는 유기 EL(Organic Electro-Luminescence) 디스플레이 등을 포함하는 디스플레이이다. 표시 패널(40)은, 제어부(100)의 표시 제어부(104)로부터 출력된 영상 신호에 기초하여 영상을 표시한다.
스피커(50)는, 음성 출력 장치이다. 스피커(50)는, 제어부(100)의 음성 출력 처리부(105)로부터 출력된 음성 신호에 기초하여 음성을 출력한다. 본 실시 형태에서는, 스피커(50)는, 송수신부(30)를 통하여 통화가 행해지고 있을 때, 통화 상대의 발화 음성을 출력한다.
제어부(100)는, 예를 들면, CPU(Central Processing Unit) 등으로 구성된 연산 처리 장치이다. 제어부(100)는, 기억부(120)에 기억되어 있는 프로그램을 메모리에 로드하여, 프로그램에 포함되는 명령을 실행한다. 제어부(100)는, 유저의 입술부(200)의 인식률이 낮을 때, 유저의 입술부(200)의 움직임을 강조한 강조 영상(210)을 생성한다. 제어부(100)는, 영상 취득부(101)와 음성 취득부(102)와 통화 처리부(103)와 표시 제어부(104)와 음성 출력 처리부(105)와 음성 인식부(106)와 입술 검출부(107)와 입술 동작 인식부(108)와 비교부(109)와 영상 처리부(110)를 갖는다. 제어부(100)에는 도시하지 않는 내부 메모리가 포함되고, 내부 메모리는 제어부(100)에 있어서의 데이터의 일시 기억 등에 이용된다.
영상 취득부(101)는, 적어도 발화자의 입술부(200)를 포함하는 입 모양을 촬영한 영상 데이터를 취득한다. 본 실시 형태에서는, 영상 취득부(101)는, 적어도 유저의 입술부(200)를 포함하는 입 모양을 카메라(10)가 촬영한 영상 데이터를 취득한다. 보다 상세하게는, 영상 취득부(101)는, 카메라(10)가 출력한 영상 신호에 부호화 처리 등을 실행하여, 디지털 데이터인 영상 데이터를 취득한다. 영상 취득부(101)는, 취득한 영상 데이터를 입술 검출부(107)와 영상 처리부(110)에 출력한다.
음성 취득부(102)는, 발화자의 발화 음성의 음성 데이터를 취득한다. 보다 상세하게는, 음성 취득부(102)는, 마이크로폰(20)이 출력한 음성 신호에 A/D(Analog/Digital) 변환 처리를 실행하여, 디지털 데이터인 음성 데이터를 취득한다. 음성 취득부(102)는, 취득한 음성 데이터를 통화 처리부(103)와 음성 인식부(106)와 비교부(109)에 출력한다.
통화 처리부(103)는, 송수신부(30)를 통하여 통화 처리를 행한다. 통화 처리부(103)는, 유저의 음성 데이터와 유저의 영상 데이터를 송수신부(30)에 출력한다. 통화 처리부(103)는, 통화 상대의 음성 데이터와 통화 상대의 영상 데이터를 송수신부(30)로부터 취득한다. 통화 처리부(103)는, 취득한 유저 또는 통화 상대의 영상 데이터를 표시 제어부(104)에 출력한다. 통화 처리부(103)는, 취득한 통화 상대의 음성 데이터를 음성 출력 처리부(105)에 출력한다.
표시 제어부(104)는, 통화 시에, 유저 또는 통화 상대의 강조 영상(210)을 표시하는 영상 신호를 표시 패널(40)에 출력한다. 보다 상세하게는, 표시 제어부(104)는, 통화 처리부(103)로부터 취득한 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다. 또는, 표시 제어부(104)는, 영상 취득부(101)가 취득한 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다.
음성 출력 처리부(105)는, 통화 처리부(103)가 취득한 음성 데이터에 복호화 처리와 D/A(Digital/Analog) 변환 처리를 실행하여, 음성 신호를 스피커(50)에 출력한다.
음성 인식부(106)는, 음성 취득부(102)가 취득한 음성 데이터로부터 음성을 인식하는 음성 인식 처리를 실행한다. 음성 인식 처리는, 음소마다, 단어마다 등 임의의 단위로 행하면 좋다. 음성 인식 처리의 방법은, 공지의 어느 방법이라도 좋고, 한정되지 않는다. 음성 인식부(106)는, 인식 결과를 비교부(109)에 출력한다.
입술 검출부(107)는, 영상 취득부(101)가 취득한 영상 데이터로부터 입술부(200)를 검출함과 함께, 입술부(200)의 움직임을 검출한다. 보다 상세하게는, 입술 검출부(107)는, 영상 데이터에 얼굴 인식 처리를 행하여, 입술부(200)를 검출한다. 또는, 입술 검출부(107)는, 예를 들면, 구순 사전 데이터를 참조하면서 화상 인식 처리를 행하여, 입술부(200)를 인식한다. 입술 검출부(107)는, 검출한 입술부(200)의 움직임을 검출한다. 입술 검출부(107)는, 검출 결과를 입술 동작 인식부(108)에 출력한다.
입술 동작 인식부(108)는, 입술 검출부(107)가 검출한 입술부(200)의 움직임으로부터 발화 내용을 인식한다. 보다 상세하게는, 입술 동작 인식부(108)는, 구순 사전 데이터를 참조하면서 화상 인식 처리를 행하여, 발화 내용을 인식한다. 입술 동작 인식 처리는, 음소마다, 단어마다 등 임의의 단위로 행하면 좋다. 입술 동작 인식부(108)는, 인식 결과를 비교부(109)에 출력한다.
도 3, 도 4를 참조하여, 입술 동작 인식 처리에 대해서 설명한다. 도 3은, 입술부를 설명하는 도면이고, 입술을 닫은 상태를 나타낸다. 도 3에 나타내는, 입술을 닫은 상태에 있어서의 각 부위의 위치를 기본 위치로 한다. 도 4는, 입술부의 움직임의 일 예를 설명하는 도면이다. 본 실시 형태에서는, 입술 동작 인식부(108)는, 예를 들면, 입술부(200)의 부위 P1로부터 부위 P8의 움직임을 검출함으로써, 입술부(200)의 동작을 검출한다. 입술부(200)의 각 부위는, 이들에 한정되지 않고, 입술부(200)의 움직임을 판독할 수 있는 부위이면 좋다. 부위 P1은, 우측의 구각(口角)이다. 부위 P1의 움직임을 벡터 V1로 나타낸다. 벡터 V1은, 부위 P1의 기본 위치에 대한 움직임을 나타낸다. 본 실시 형태로 나타내는 예에서는, 벡터 V1은, 부위 P1의 움직임이 작기 때문에, 도시를 생략하고 있다. 각 도에 있어서, 부위 P1은, 기본 위치를 도시하고 있다. 다른 부위에 대해서도 동일하다. 부위 P2는, 좌측의 구각이다. 부위 P2의 움직임을 벡터 V2로 나타낸다. 본 실시 형태로 나타내는 예에서는, 벡터 V2는, 부위 P2의 움직임이 작기 때문에, 도시를 생략하고 있다. 부위 P3은, 윗입술의 우측의 상단부이다. 부위 P3의 움직임을 벡터 V3으로 나타낸다. 부위 P4는, 윗입술의 좌측의 상단부이다. 부위 P4의 움직임을 벡터 V4로 나타낸다. 부위 P5는, 윗입술의 중앙부의 하단부이다. 부위 P5의 움직임을 벡터 V5로 나타낸다. 부위 P6은, 아랫입술의 우측의 하단부이다. 부위 P6의 움직임을 벡터 V6으로 나타낸다. 부위 P7은, 아랫입술의 좌측의 하단부이다. 부위 P7의 움직임을 벡터 V7로 나타낸다. 부위 P8은, 아랫입술의 중앙부의 상단부이다. 부위 P8의 움직임을 벡터 V8로 한다.
각 벡터 V는, 각 부위 P에 대해서, 하나 전 또는 소정수 전의 프레임의 영상 데이터의 입술부(200)의 각 부위 P에 대한 움직임으로서 나타내도 좋다.
각 벡터 V는, 각 부위 P에 대해서, 어느 음소로부터 다음의 음소를 발표할 때의, 입술부(200)의 각 부위 P에 대한 움직임으로서 나타내도 좋다.
비교부(109)는, 동일한 발화, 환언하면, 동일 기간에 있어서의, 음성 인식부(106)가 인식한 인식 결과와, 입술 동작 인식부(108)가 인식한 인식 결과를 비교한다. 동일 기간은, 예를 들면, 단어마다, 문절마다 등, 발화의 임의의 단위에 대응하는 기간이다. 인식 결과의 비교란, 인식률의 비교이다.
인식률은, 발화 내용과 인식 결과를 비교하여 산출한다. 인식률은, 예를 들면, 발화 내용과 인식 결과가 모두 일치하면 100%이다. 인식률은, 발화 내용에 대하여 인식 결과의 문자가 잘못 삽입, 삭제, 치환되면 낮게 산출된다.
도 5를 참조하여, 인식률에 대해서 설명한다. 도 5는, 음성 인식 처리의 처리 결과와 입술 동작 인식 처리의 처리 결과와 인식률을 설명하는 도면이다. 예를 들면, 「안녕(おはよう)」 「하세요(ございます)」라고 발화한 것을, 음성 인식부(106)가 「안녕(おはよう)」 「해세요(ごさいます)」라고 인식한 경우에 대해서 설명한다. 인식 결과의 「안녕」 「하세요」의 단어는, 문맥으로부터 가중치 부여 처리를 행하거나, 단어 사전과 대비 처리를 행하거나 함으로써, 단어로서 성립하고 있다고 판정되기 때문에, 인식률은 모두 100%이다.
예를 들면, 「안녕」 「하세요」라고 발화한 것을, 입술 동작 인식부(108)가 「아녕(おあよう)」 「아세요(ごあいます)」라고 인식한 경우에 대해서 설명한다. 인식 결과의 「아녕」 「아세요」의 단어는, 문맥으로부터 가중치 부여 처리를 행하거나, 단어 사전과 대비 처리를 행하거나 함으로써, 단어로서 성립하고 있지 않다고 판정된다. 또한, 문맥이나 단어 사전에 의해, 발화 내용은 「안녕」 「하세요」라고 추정된다. 이 때문에, 「아녕」의 인식률은 75%이고, 「아세요」의 인식률은 80%이다.
영상 처리부(110)는, 입술 검출부(107)가 검출한 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다. 본 실시 형태에서는, 영상 처리부(110)는, 비교부(109)의 비교 결과에 있어서, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 강조 영상(210)을 생성한다.
도 4, 도 6, 도 7을 이용하여, 강조 영상(210)에 대해서 설명한다. 도 6은, 입술부의 움직임이 커지도록 강조한 강조 영상의 일 예를 설명하는 도면이다. 도 7은, 입술부의 움직임이 커지도록 강조한 강조 영상을 유저의 얼굴부의 영상에 중첩 또는 합성한 영상을 설명하는 도면이다. 우선, 도 4에 나타내는 입술부(200)의 부위 P1로부터 부위 P8의 벡터 V1로부터 벡터 V8에, 예를 들면, 1 이상, 보다 바람직하게는, 1.5 이상 2.0 이하의 계수를 승산하여 각 부위의 위치를 산출한다. 도 6에 있어서, 파선이 도 4에 나타내는 벡터 V1로부터 벡터 V8을 나타내고, 실선이 계수를 승산한 벡터 V1로부터 벡터 V8을 나타낸다. 그리고, 산출된 각 부위, 환언하면, 각 벡터의 선단부를 연결하여 입술부(200)의 외경을 얻는다. 이와 같이 하여, 얻어진 외형을 갖는 입술부(200)의 영상이 강조 영상(210)이다. 본 실시 형태에서는, 또한, 유저의 원래의 얼굴부의 영상의 입술부(200)에 강조 영상(210)을 중첩 또는 합성하여, 도 7에 나타내는 얼굴부 영상(220)을 생성한다.
또는, 강조 영상(210)을 포함하는 유저의 얼굴부의 애니메이션 영상을 얼굴부 영상(220)으로서 생성해도 좋다. 예를 들면, 유저의 얼굴을 포함하는 영상 전체를 애니메이션으로 표현해도 좋고, 영상 취득부가 취득한 유저의 영상에 대하여 입술 부분만을 애니메이션 영상으로서 합성 표시해도 좋다.
영상 처리부(110)는, 음성 인식부(106)가 인식한 음성에 기초하여 입술 검출부(107)가 검출한 입술부(200)의 움직임을 보정하여 강조 영상(210)을 생성해도 좋다.
영상 처리부(110)는, 강조 영상(210)의 생성 처리를 개시하면, 예를 들면, 통화 종료까지, 생성 처리를 계속한다.
도 1로 돌아오고, 기억부(120)는, 통신 장치(1)에 있어서의 데이터의 일시 기억 등에 이용된다. 기억부(120)는, 예를 들면, RAM(Random Access Memory), ROM(Read Only Memory), 플래시 메모리(Flash Memory) 등의 반도체 메모리 소자, 또는, 하드 디스크, 광 디스크 등의 기억 장치이다. 또는, 도시하지 않는 통신 장치를 통하여 무선 접속되는 외부 기억 장치여도 좋다. 기억부(120)는, 구순 사전 데이터를 기억하고 있다.
다음으로, 도 8을 이용하여, 통신 장치(1)의 제어부(100)에 있어서의 처리의 흐름에 대해서 설명한다. 도 8은, 제1 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다. 통신 장치(1)에 있어서 통화 개시의 조작이 실행되면, 스텝 S11 이후의 처리가 실행된다. 통신 장치(1)는, 통화 중, 환언하면, 도 8에 나타내는 플로우 차트의 처리가 실행되어 있는 동안, 송수신부(30)에 의해 통화 상대의 발화 음성이 취득된다.
제어부(100)는, 유저의 발화 음성 및 유저의 얼굴부의 영상을 취득한다(스텝 S11). 보다 상세하게는, 제어부(100)는, 음성 취득부(102)에 의해 유저의 발화 음성의 음성 데이터를 취득한다. 제어부(100)는, 영상 취득부(101)에 의해 유저의 얼굴부의 영상 데이터를 취득한다. 제어부(100)는, 스텝 S12로 진행한다.
제어부(100)는, 음성 인식 처리를 실행한다(스텝 S12). 보다 상세하게는, 제어부(100)는, 음성 인식부(106)에 의해, 음성 취득부(102)가 취득한 음성 데이터로부터 음성을 인식하는 음성 인식 처리를 실행한다. 제어부(100)는, 스텝 S13으로 진행한다.
제어부(100)는, 입술 검출 처리를 실행한다(스텝 S13). 보다 상세하게는, 제어부(100)는, 입술 검출부(107)에 의해, 영상 취득부(101)가 취득한 영상 데이터로부터 입술부(200)를 검출함과 함께, 입술부(200)의 움직임을 검출한다. 제어부(100)는, 스텝 S14로 진행한다.
제어부(100)는, 입술 동작 인식 처리를 실행한다(스텝 S14). 보다 상세하게는, 제어부(100)는, 입술 동작 인식부(108)에 의해, 입술 검출부(107)가 검출한 입술부(200)의 움직임으로부터 발화 내용을 인식한다. 제어부(100)는, 스텝 S15로 진행한다.
제어부(100)는, 인식 결과 비교 처리를 실행한다(스텝 S15). 보다 상세하게는, 제어부(100)는, 비교부(109)에 의해, 음성 인식부(106)가 인식한 인식 결과의 인식률과, 입술 동작 인식부(108)가 인식한 인식 결과의 인식률을 비교한다. 제어부(100)는, 스텝 S16으로 진행한다.
제어부(100)는, 음성 인식률이 입술 인식률보다 높은지 아닌지를 판정한다(스텝 S16). 보다 상세하게는, 제어부(100)는, 음성 인식부(106)의 인식 결과의 인식률이, 입술 동작 인식부(108)의 인식 결과의 인식률보다 높은 경우(스텝 S16에서 Yes), 스텝 S18로 진행한다. 제어부(100)는, 음성 인식부(106)의 인식 결과의 인식률이, 입술 동작 인식부(108)의 인식 결과의 인식률보다 높지 않은 경우(스텝 S16에서 No), 스텝 S17로 진행한다.
제어부(100)는, 영상 및 음성을 송신한다(스텝 S17). 보다 상세하게는, 제어부(100)는, 통화 처리부(103)에 의해, 유저의 음성 데이터와 유저의 얼굴부의 영상 데이터를 송수신부(30)에 출력한다. 이에 따라, 제어부(100)는, 유저의 음성 데이터와 함께, 입술부(200)의 움직임을 강조하는 처리를 하고 있지 않는 유저의 얼굴부의 영상 데이터를 통화 상대에게 송신한다. 제어부(100)는, 스텝 S20으로 진행한다.
제어부(100)는, 강조 처리를 실행한다(스텝 S18). 보다 상세하게는, 제어부(100)는, 영상 처리부(110)에 의해, 강조 영상(210)을 생성한다. 이에 따라, 유저의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 유저의 얼굴부의 얼굴부 영상(220)이 생성된다. 제어부(100)는, 스텝 S19로 진행한다.
제어부(100)는, 강조한 영상 및 음성을 송신한다(스텝 S19). 보다 상세하게는, 제어부(100)는, 통화 처리부(103)에 의해, 유저의 음성 데이터와 강조 영상(210)을 포함하는 유저의 얼굴부의 얼굴부 영상(220)의 영상 데이터를 송수신부(30)에 출력한다. 이에 따라, 제어부(100)는, 유저의 음성 데이터와 함께, 유저의 강조 영상(210)을 포함하는 얼굴부 영상(220)의 영상 데이터를 통화 상대에게 송신한다. 제어부(100)는, 스텝 S20으로 진행한다.
제어부(100)는, 통화 종료의 조작이 실행되었는지 아닌지를 판정한다(스텝 S20). 보다 상세하게는, 제어부(100)는, 예를 들면, 통화 종료의 버튼이 선택되는 등의 통화 종료 조작이 실행된 경우(스텝 S20에서Yes), 통화를 종료하고, 플로우 차트의 처리를 종료한다. 제어부(100)는, 통화 종료 조작이 실행되어 있지 않은 경우(스텝 S20에서 No), 스텝 S11의 처리를 재차 실행한다.
이와 같이 하여, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 유저의 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다.
전술한 바와 같이, 본 실시 형태는, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 유저의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 얼굴부 영상(220)을 음성과 함께 통화 상대에게 송신한다. 본 실시 형태에 의하면, 유저의 입술부(200)의 움직임이 작아도, 통화 상대가 강조 영상(210)으로부터 유저의 발화 내용을 인식하기 쉽게 할 수 있다. 이와 같이, 본 실시 형태는, 통화 상대에게 유저의 발화 내용을 적절하게 인식시킬 수 있다. 본 실시 형태에 의하면, 청각 장애를 갖는 통화 상대와의 통화를 하기 쉽게 할 수 있다.
본 실시 형태는, 강조 영상(210)을 유저의 얼굴부의 영상에 중첩 또는 합성한다. 이에 따라, 본 실시 형태에 의하면, 통화 상대는, 강조 영상(210)으로부터 유저의 발화 음성을 용이하게 인식할 수 있음과 함께, 유저의 얼굴부의 얼굴부 영상(220)으로부터 표정을 판독하여 유저의 발화 내용의 의도를 적절히 추측하는 것이 가능하다.
[제2 실시 형태]
도 9를 참조하면서, 본 실시 형태에 따른 통신 장치(1)에 대해서 설명한다. 도 9는, 제2 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다. 본 실시 형태에서는, 통신 장치(1)는, 유저가 청각 장애자이다. 본 실시 형태에서는, 통화 상대가 발화자이다. 본 실시 형태에서는, 통신 장치(1)는, 통화 상대의 발화 음성의 음성에 대응하는 통화 상대의 얼굴부의 영상을 표시하여, 청각 장애자인 유저가 통화를 하기 쉽게 한다. 통신 장치(1)는, 기본적인 구성은 제1 실시 형태의 통신 장치(1)와 동일하다. 이하의 설명에 있어서는, 통신 장치(1)와 동일한 구성 요소에는, 동일한 부호 또는 대응하는 부호를 붙이고, 그의 상세한 설명은 생략한다. 통신 장치(1)는, 제어부(100)에 있어서의 처리가 통신 장치(1)와 상이하다.
표시 패널(40)은, 송수신부(30)를 통하여 통화가 행해지고 있을 때, 통화 상대의 발화 음성에 대응한 강조 영상(210)을 포함하는 통화 상대의 얼굴부의 얼굴부 영상(220)을 표시한다.
스피커(50)는, 송수신부(30)를 통하여 통화가 행해지고 있을 때, 통화 상대의 발화 음성을 출력한다.
제어부(100)는, 통화 상대의 입술부(200)의 인식률이 낮을 때, 통화 상대의 입술부(200)의 움직임을 강조한 강조 영상(210)을 생성한다.
영상 취득부(101)는, 적어도 통화 상대의 입술부(200)를 포함하는 입 모양이 촬영된 영상 데이터를 통화 처리부(103)를 통하여 취득한다.
음성 취득부(102)는, 적어도 통화 상대의 음성 데이터를 통화 처리부(103)를 통하여 취득한다.
통화 처리부(103)는, 음성 데이터와 영상 데이터를 송수신부(30)로부터 취득한다. 통화 처리부(103)는, 취득한 음성 데이터를 음성 취득부(102)에 출력한다. 통화 처리부(103)는, 취득한 영상 데이터를 영상 취득부(101)에 출력한다.
표시 제어부(104)는, 통화 시에, 통화 상대의 얼굴부의 영상을 표시하는 영상 신호를 표시 패널(40)에 출력한다. 보다 상세하게는, 표시 제어부(104)는, 통화 처리부(103)로부터 취득한 통화 상대의 얼굴부의 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다. 또는, 표시 제어부(104)는, 영상 처리부(110)가 생성한 강조 영상(210)을 포함하는 통화 상대의 얼굴부 영상의 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다.
다음으로, 도 9를 이용하여, 통신 장치(1)에 있어서의 처리의 흐름에 대해서 설명한다. 도 9에 나타내는 플로우 차트의 스텝 S22 내지 스텝 S26, 스텝 S30의 처리는, 도 8에 나타내는 플로우 차트의 스텝 S12 내지 스텝 S16, 스텝 S20의 처리와 동일한 처리를 행한다.
제어부(100)는, 수신한 통화 상대의 발화 음성 및 통화 상대의 얼굴부의 영상을 취득한다(스텝 S21). 보다 상세하게는, 제어부(100)는, 통화 처리부(103)에 의해 통화 상대의 발화 음성의 음성 데이터와 통화 상대의 얼굴부의 영상 데이터를 취득한다. 제어부(100)는, 스텝 S22로 진행한다.
제어부(100)는, 영상을 표시하고, 음성을 출력한다(스텝 S27). 보다 상세하게는, 제어부(100)는, 표시 제어부(104)에 의해, 통화 상대의 입술부(200)의 움직임을 강조하는 처리를 하고 있지 않는 영상 데이터에 복호화 처리를 실행하여, 영상을 표시하는 영상 신호를 표시 패널(40)에 출력한다. 제어부(100)는, 음성 출력 처리부(105)에 의해, 통화 상대의 음성 데이터에 D/A 변환 처리를 실행하여, 음성 신호를 스피커(50)에 출력한다. 제어부(100)는, 스텝 S30으로 진행한다.
제어부(100)는, 강조 처리를 실행한다(스텝 S28). 이에 따라, 통화 상대의 강조 영상(210)을 포함하는 얼굴부 영상의 영상 데이터가 생성된다. 제어부(100)는, 스텝 S29로 진행한다.
제어부(100)는, 강조한 영상을 표시하고, 음성을 출력한다(스텝 S29). 보다 상세하게는, 제어부(100)는, 표시 제어부(104)에 의해, 통화 상대의 강조 영상(210)을 포함하는 얼굴부 영상의 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다. 제어부(100)는, 음성 출력 처리부(105)에 의해, 통화 상대의 음성 데이터에 D/A 변환 처리를 실행하여, 음성 신호를 스피커(50)에 출력한다. 제어부(100)는, 스텝 S30으로 진행한다.
이와 같이 하여, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 통화 상대의 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다.
전술한 바와 같이, 본 실시 형태는, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 통화 상대의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 얼굴부 영상(220)을 표시함과 함께, 통화 상대의 음성을 출력한다. 본 실시 형태에 의하면, 통화 상대의 입술부(200)의 움직임이 작아도, 유저가 강조 영상(210)으로부터 통화 상대의 발화 내용을 인식하기 쉽게 할 수 있다. 이와 같이, 본 실시 형태는, 유저에게 통화 상대의 발화 내용을 적절하게 인식시킬 수 있다. 본 실시 형태에 의하면, 청각 장애를 갖는 유저가 통화 상대와의 통화를 하기 쉽게 할 수 있다.
[제3 실시 형태]
도 10을 참조하면서, 본 실시 형태에 따른 통신 장치(1)에 대해서 설명한다. 도 10은, 제3 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다. 본 실시 형태에서는, 통신 장치(1)는, 유저가 청각 장애자이다. 본 실시 형태에서는, 통화 상대가 발화자이다. 통신 장치(1)는, 기본적인 구성은 제2 실시 형태의 통신 장치(1)와 동일하다. 통신 장치(1)는, 제어부(100)에 있어서의 처리가 제2 실시 형태의 통신 장치(1)와 상이하다.
제어부(100)는, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 통화 개시로부터, 입술부(200)의 움직임을 강조한 강조 영상(210)을 생성한다.
비교부(109)는, 통화 상대 및 통화마다 비교 결과를 기억부(120)에 기억시킨다.
영상 처리부(110)는, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 강조 영상(210)을 생성한다.
기억부(120)는, 통화 상대 및 통화마다 비교부(109)에 의한 비교 결과를 기억한다.
다음으로, 도 10을 이용하여, 통신 장치(1)에 있어서의 처리의 흐름에 대해서 설명한다. 도 10에 나타내는 플로우 차트의 스텝 S32, 스텝 S33 내지 스텝 S37, 스텝 S38 내지 스텝 S40의 처리는, 도 9에 나타내는 플로우 차트의 스텝 S27, 스텝 S21 내지 스텝 S25, 스텝 S28 내지 스텝 S30의 처리와 동일한 처리를 행한다.
제어부(100)는, 통화 상대가 이전의 통화에서 음성 인식률이 입술 인식률보다 높다고 판정되었는지 아닌지를 판정한다(스텝 S31). 보다 상세하게는, 제어부(100)는, 기억부(120)에, 통화 상대의 이전의 통화에 대한 비교부(109)의 비교 결과이고, 음성 인식부(106)의 인식 결과의 인식률이, 입술 동작 인식부(108)의 인식 결과의 인식률보다 높은 것이 기억되어 있는 경우(스텝 S31에서 Yes), 스텝 S33으로 진행한다. 제어부(100)는, 기억되어 있지 않은 경우(스텝 S31에서 No), 스텝 S32로 진행한다.
이와 같이 하여, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 통화 상대의 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다.
전술한 바와 같이, 본 실시 형태는, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 통화 상대의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 얼굴부 영상(220)을 표시함과 함께, 통화 상대의 음성을 출력한다. 본 실시 형태에 의하면, 청각 장애를 갖는 유저가 통화 상대와의 통화를 하기 쉽게 할 수 있다.
그래서, 지금까지 본 발명에 따른 통신 장치(1)에 대해서 설명했지만, 전술한 실시 형태 이외에도 여러 가지 상이한 형태로 실시되어도 좋은 것이다.
도시한 통신 장치(1)의 각 구성 요소는, 기능 개념적인 것으로서, 반드시 물리적으로 도시와 같이 구성되어 있지 않아도 좋다. 즉, 각 장치의 구체적 형태는, 도시의 것에 한정되지 않고, 각 장치의 처리 부담이나 사용 상황 등에 따라서, 그 전부 또는 일부를 임의의 단위로 기능적 또는 물리적으로 분산 또는 통합해도 좋다.
통신 장치(1)의 구성은, 예를 들면, 소프트웨어로서, 메모리에 로드된 프로그램 등에 의해 실현된다. 상기 실시 형태에서는, 이들 하드웨어 또는 소프트웨어의 연계 제휴에 의해 실현되는 기능 블록으로서 설명했다. 즉, 이들 기능 블록에 대해서는, 하드웨어만, 소프트웨어만, 또는, 그들의 조합에 의해 여러 가지의 형태로 실현될 수 있다.
상기한 구성 요소에는, 당업자가 용이하게 상정할 수 있는 것, 실질적으로 동일한 것을 포함한다. 또한, 상기한 구성은 적절히 조합이 가능하다. 또한, 본 발명의 요지를 일탈하지 않는 범위에 있어서 구성의 여러 가지의 생략, 치환 또는 변경이 가능하다.
제1 실시 형태와 제2 실시 형태는, 하나의 통신 장치로서 실현되어도 좋다.
상기에서는, 통신 장치로서 설명했지만, 통신 장치에 한정되지 않는다. 영상 취득부(101)와 음성 취득부(102)와 표시 제어부(104)와 음성 출력 처리부(105)와 음성 인식부(106)와 입술 검출부(107)와 입술 동작 인식부(108)와 비교부(109)와 영상 처리부(110)를 갖는 표시 제어 장치여도 좋다. 예를 들면, 청각 장애자인 유저가, 아나운서가 뉴스를 읽는 뉴스 영상을 시청할 때에, 표시 제어 장치에 의해, 아나운서의 입술부(200)의 움직임을 강조한 강조 영상(210)을 시청할 수 있다. 예를 들면, 유저가, 청각 장애자를 위해 영상을 생성할 때에, 표시 제어 장치에 의해, 발화자의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 영상을 생성할 수 있다.
도 8에 나타내는 플로우 차트의 스텝 S16에 있어서, 제어부(100)는, 입술 인식률이 문턱값 이하인지 아닌지를 판정해도 좋다. 그리고, 입술 인식률이 문턱값 이하라고 판정된 경우, 스텝 S18로 진행되어, 입술 인식률이 문턱값 이하가 아니라고 판정된 경우, 스텝 S17로 진행한다.
1 : 통신 장치
10 : 카메라
20 : 마이크로폰
30 : 송수신부
40 : 표시 패널(표시부)
50 : 스피커
100 : 제어부
101 : 영상 취득부
102 : 음성 취득부
103 : 통화 처리부
104 : 표시 제어부
105 : 음성 출력 처리부
106 : 음성 인식부
107 : 입술 검출부
108 : 입술 동작 인식부
109 : 비교부
110 : 영상 처리부
200 : 입술부
210 : 강조 영상
220 : 얼굴부 영상

Claims (10)

  1. 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득부와,
    상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출부와,
    상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리부와,
    상기 영상 처리부가 생성한 영상을 표시부에 표시시키는 표시 제어부
    를 구비하는 것을 특징으로 하는 표시 제어 장치.
  2. 제1항에 있어서,
    상기 발화자의 발화(發話) 음성의 음성 데이터를 취득하는 음성 취득부와,
    상기 음성 취득부가 취득한 상기 음성 데이터로부터 음성을 인식하는 음성 인식부
    를 추가로 구비하고,
    상기 영상 처리부는, 상기 음성 인식부가 인식한 음성에 기초하여 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는,
    표시 제어 장치.
  3. 제2항에 있어서,
    상기 입술 검출부가 검출한 입술부의 움직임으로부터 발화 내용을 인식하는 입술 동작 인식부와,
    상기 음성 인식부가 인식한 인식 결과와, 상기 입술 동작 인식부가 인식한 인식 결과를 비교하는 비교부
    를 추가로 구비하고,
    상기 영상 처리부는, 상기 비교부의 비교 결과에 있어서, 상기 음성 인식부에 의한 인식 결과에 비해 상기 입술 동작 인식부의 인식 결과의 인식률이 낮은 경우, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는,
    표시 제어 장치.
  4. 제3항에 있어서,
    상기 영상 처리부는, 상기 입술 검출부가 검출한 입술 동작이 커지도록 강조한 애니메이션의 영상을 생성하는,
    표시 제어 장치.
  5. 제3항 또는 제4항에 기재된 표시 제어 장치와,
    통화 처리를 행하는 통화 처리부
    를 구비하고,
    상기 음성 취득부는, 통화 시의 발화 음성을 취득하고,
    상기 영상 처리부는, 상기 통화 처리부가 송신하는 영상을, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상으로 하는,
    것을 특징으로 하는 통신 장치.
  6. 제3항 또는 제4항에 기재된 표시 제어 장치와,
    통화 처리를 행하는 통화 처리부
    를 구비하고,
    상기 음성 인식부는, 상기 통화 처리부가 수신하여 취득한 음성 데이터로부터 음성을 인식하고,
    상기 영상 취득부는, 상기 통화 처리부가 수신한 영상 데이터를 취득하는,
    것을 특징으로 하는 통신 장치.
  7. 제5항 또는 제6항에 있어서,
    상기 영상 처리부는, 상기 통화 처리부에 의한 통화 개시 후, 상기 비교부의 비교 결과가 상기 음성 인식부에 의한 인식 결과에 비해 상기 입술 동작 인식부의 인식 결과의 인식률이 낮은 결과가 발생한 경우, 통화 종료까지 입술 동작을 큰 영상이 되도록 강조하는 처리를 행하는,
    통신 장치.
  8. 제5항 또는 제6항에 있어서,
    상기 영상 처리부는, 상기 통화 처리부에 의한 통화 상대가 이전의 통화에 있어서, 상기 비교부의 비교 결과가 상기 음성 인식부에 의한 인식 결과에 비해 상기 입술 동작 인식부의 인식 결과의 인식률이 낮은 결과가 발생한 통화 상대인 경우, 통화 개시로부터 입술 동작을 큰 영상이 되도록 강조하는 처리를 행하는,
    통신 장치.
  9. 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과,
    상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과,
    상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과,
    상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝
    을 포함하는 것을 특징으로 하는 표시 제어 방법.
  10. 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과,
    상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과,
    상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과,
    상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝
    을 컴퓨터에 실행시키기 위한 프로그램.

KR1020207009456A 2018-01-17 2018-10-24 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램 KR102446222B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018005700A JP7081164B2 (ja) 2018-01-17 2018-01-17 表示制御装置、通信装置、表示制御方法および通信方法
JPJP-P-2018-005700 2018-01-17
PCT/JP2018/039528 WO2019142424A1 (ja) 2018-01-17 2018-10-24 表示制御装置、通信装置、表示制御方法およびプログラム

Publications (2)

Publication Number Publication Date
KR20200044947A true KR20200044947A (ko) 2020-04-29
KR102446222B1 KR102446222B1 (ko) 2022-09-21

Family

ID=67301388

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207009456A KR102446222B1 (ko) 2018-01-17 2018-10-24 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램

Country Status (6)

Country Link
US (1) US11508106B2 (ko)
EP (1) EP3691256B1 (ko)
JP (1) JP7081164B2 (ko)
KR (1) KR102446222B1 (ko)
CN (1) CN111201786B (ko)
WO (1) WO2019142424A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021210971A1 (ko) 2020-04-14 2021-10-21 주식회사 엘지에너지솔루션 권취롤로부터 전극 기재를 이송하는 시스템 및 방법
WO2022173180A1 (ko) * 2021-02-15 2022-08-18 연세대학교 산학협력단 입술 움직임 정보 분석 방법 및 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11069357B2 (en) 2019-07-31 2021-07-20 Ebay Inc. Lip-reading session triggering events
CN114175147A (zh) * 2019-08-02 2022-03-11 日本电气株式会社 语音处理设备、语音处理方法和记录介质
CN113642469A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 嘴唇动作的检测方法、装置、设备和存储介质
JP2023112556A (ja) * 2022-02-01 2023-08-14 Necプラットフォームズ株式会社 視覚化装置、視覚化方法、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences
JP2006005440A (ja) 2004-06-15 2006-01-05 Sony Corp 通話送受信方法および通話端末
JP2008099121A (ja) 2006-10-13 2008-04-24 Nec Electronics Corp 携帯電話機及びプログラム
US20110131041A1 (en) * 2009-11-27 2011-06-02 Samsung Electronica Da Amazonia Ltda. Systems And Methods For Synthesis Of Motion For Animation Of Virtual Heads/Characters Via Voice Processing In Portable Devices
KR20130022607A (ko) * 2011-08-25 2013-03-07 삼성전자주식회사 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법
US20130141643A1 (en) * 2011-12-06 2013-06-06 Doug Carson & Associates, Inc. Audio-Video Frame Synchronization in a Multimedia Stream

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09265253A (ja) * 1996-03-29 1997-10-07 Hitachi Ltd 口唇アニメーション合成方法及び装置
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
KR100411760B1 (ko) 2000-05-08 2003-12-18 주식회사 모리아테크놀로지 애니메이션 영상 합성 장치 및 방법
AU2001296459A1 (en) * 2000-10-02 2002-04-15 Clarity, L.L.C. Audio visual speech processing
JP2003296753A (ja) * 2002-04-04 2003-10-17 Computer Image Laboratory Co Ltd 聴覚障害者用対話システム
JP2004098252A (ja) * 2002-09-11 2004-04-02 Ntt Docomo Inc コミュニケーション端末、口唇ロボットの制御方法及び口唇ロボットの制御装置
JP4761568B2 (ja) * 2004-05-12 2011-08-31 貴司 吉峰 会話支援装置
JP2006140621A (ja) * 2004-11-10 2006-06-01 Matsushita Electric Ind Co Ltd 携帯電話機
KR100820141B1 (ko) 2005-12-08 2008-04-08 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
CN101101752B (zh) * 2007-07-19 2010-12-01 华中科技大学 基于视觉特征的单音节语言唇读识别系统
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
CN101751692B (zh) * 2009-12-24 2012-05-30 四川大学 语音驱动唇形动画的方法
JP2012103904A (ja) * 2010-11-10 2012-05-31 Sysystem Co Ltd 画像処理装置および方法、並びに、プログラム
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
KR101862128B1 (ko) 2012-02-23 2018-05-29 삼성전자 주식회사 얼굴을 포함하는 영상 처리 방법 및 장치
JP5902632B2 (ja) * 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
US20140379351A1 (en) * 2013-06-24 2014-12-25 Sundeep Raniwala Speech detection based upon facial movements
GB2516965B (en) * 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
US10770092B1 (en) * 2017-09-22 2020-09-08 Amazon Technologies, Inc. Viseme data generation
US11017779B2 (en) * 2018-02-15 2021-05-25 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
US10755463B1 (en) * 2018-07-20 2020-08-25 Facebook Technologies, Llc Audio-based face tracking and lip syncing for natural facial animation and lip movement

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences
JP2006005440A (ja) 2004-06-15 2006-01-05 Sony Corp 通話送受信方法および通話端末
JP2008099121A (ja) 2006-10-13 2008-04-24 Nec Electronics Corp 携帯電話機及びプログラム
US20110131041A1 (en) * 2009-11-27 2011-06-02 Samsung Electronica Da Amazonia Ltda. Systems And Methods For Synthesis Of Motion For Animation Of Virtual Heads/Characters Via Voice Processing In Portable Devices
KR20130022607A (ko) * 2011-08-25 2013-03-07 삼성전자주식회사 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법
US20130141643A1 (en) * 2011-12-06 2013-06-06 Doug Carson & Associates, Inc. Audio-Video Frame Synchronization in a Multimedia Stream

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021210971A1 (ko) 2020-04-14 2021-10-21 주식회사 엘지에너지솔루션 권취롤로부터 전극 기재를 이송하는 시스템 및 방법
WO2022173180A1 (ko) * 2021-02-15 2022-08-18 연세대학교 산학협력단 입술 움직임 정보 분석 방법 및 장치

Also Published As

Publication number Publication date
JP7081164B2 (ja) 2022-06-07
EP3691256B1 (en) 2022-07-06
CN111201786B (zh) 2022-04-08
CN111201786A (zh) 2020-05-26
EP3691256A4 (en) 2020-08-05
KR102446222B1 (ko) 2022-09-21
US11508106B2 (en) 2022-11-22
WO2019142424A1 (ja) 2019-07-25
EP3691256A1 (en) 2020-08-05
JP2019125927A (ja) 2019-07-25
US20200234479A1 (en) 2020-07-23

Similar Documents

Publication Publication Date Title
KR102446222B1 (ko) 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램
US9769296B2 (en) Techniques for voice controlling bluetooth headset
US20050288063A1 (en) Method for initiating voice recognition mode on mobile terminal
US8319818B2 (en) Information processing device, information processing method and storage medium storing computer program
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
CN107871503A (zh) 语音对话系统以及发声意图理解方法
CN114125143B (zh) 一种语音交互方法及电子设备
CN111488744B (zh) 多模态语言信息ai翻译方法、系统和终端
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
KR101609585B1 (ko) 청각 장애인용 이동 통신 단말기
KR20130096983A (ko) 얼굴을 포함하는 영상 처리 방법 및 장치
JP2004015478A (ja) 音声通信端末装置
KR20150025750A (ko) 사용자 단말 장치 및 그 양방향 번역 방법
CN111507115B (zh) 多模态语言信息人工智能翻译方法、系统和设备
JP2006013856A (ja) テレビ電話装置
JP2006253775A5 (ko)
WO2023139673A1 (ja) 通話システム、通話装置、通話方法及びプログラムを格納した非一時的なコンピュータ可読媒体
WO2023165844A1 (en) Circuitry and method for visual speech processing
KR101364844B1 (ko) 화상통화기능을 갖는 이동통신단말기 및 그 제어방법
JPH1026999A (ja) 手話翻訳装置
WO2019082648A1 (ja) 電子機器、制御装置、制御プログラム及び電子機器の動作方法
JP4396540B2 (ja) 携帯電話装置
KR20080079403A (ko) 화상 통신용 단말기 및 이에 있어서 아바타 립싱크 구현방법
CN117501363A (zh) 一种音效控制方法、装置及存储介质
CN117672240A (zh) 语音转换方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right