KR20200044947A

KR20200044947A - 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램

Info

Publication number: KR20200044947A
Application number: KR1020207009456A
Authority: KR
Inventors: 타쿠지 데루우치
Original assignee: 가부시키가이샤 제이브이씨 켄우드
Priority date: 2018-01-17
Filing date: 2018-10-24
Publication date: 2020-04-29
Also published as: JP7081164B2; EP3691256B1; CN111201786B; CN111201786A; EP3691256A4; KR102446222B1; US11508106B2; WO2019142424A1; EP3691256A1; JP2019125927A; US20200234479A1

Abstract

적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득부(101)와, 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출부(107)와, 입술 검출부(107)가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리부(110)와, 영상 처리부(110)가 생성한 영상을 표시 패널(40)에 표시시키는 표시 제어부(104)를 구비한다.

Description

표시 제어 장치, 통신 장치, 표시 제어 방법 및 프로그램

본 발명은, 표시 제어 장치, 통신 장치, 표시 제어 방법 및 프로그램에 관한 것이다.

통신 장치를 사용하여 통화를 행할 때에, 통화를 하기 쉽게 하기 위한 기술이 알려져 있다. 통화 상대의 발화(發話) 내용을 음성 인식하여 텍스트 표시하는 기술이 알려져 있다(예를 들면, 특허문헌 1 참조). 입술의 움직임을 나타내는 도안 또는 도형을 생성 표시하거나, 송화 음성 신호의 음성 인식 결과의 텍스트 정보, 또는, 합성 음성 신호에 의한 음성을 출력시키거나 하는 기술이 알려져 있다(예를 들면, 특허문헌 2 참조).

일본공개특허공보 2008-99121호 일본공개특허공보 2006-005440호

통화 상대가 청각 장애자일 때에, 특허문헌 1 또는 특허문헌 2에 기재된 기술을 사용하면, 청각 장애자가 통화를 하기 쉬워진다.

그러나, 발화 내용을 텍스트로 표시하거나 합성 음성으로 출력하거나 하는 경우, 발화자가 의도하는 뉘앙스가 적절히 전달되지 않을 우려가 있다. 또한, 입술의 움직임을 표시하는 경우, 입술의 움직임이 작으면, 발화 내용을 적절하게 인식할 수 없을 우려가 있다.

본 발명은, 상기를 감안하여 이루어진 것으로서, 발화 내용을 적절하게 인식 가능하게 하는 것을 목적으로 한다.

전술한 과제를 해결하고, 목적을 달성하기 위해, 본 발명에 따른 표시 제어 장치는, 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득부와, 상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출부와, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리부와, 상기 영상 처리부가 생성한 영상을 표시부에 표시시키는 표시 제어부를 구비하는 것을 특징으로 한다.

본 발명에 따른 통신 장치는, 상기의 표시 제어 장치와, 통화 처리를 행하는 통화 처리부를 구비하고, 상기 음성 취득부는, 통화 시의 발화 음성을 취득하고, 상기 영상 처리부는, 상기 통화 처리부가 송신하는 영상을, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상으로 하는 것을 특징으로 한다.

본 발명에 따른 통신 장치는, 상기의 표시 제어 장치와, 통화 처리를 행하는 통화 처리부를 구비하고, 상기 음성 인식부는, 상기 통화 처리부가 수신하여 취득한 음성 데이터로부터 음성을 인식하고, 상기 영상 취득부는, 상기 통화 처리부가 수신한 영상 데이터를 취득하는 것을 특징으로 한다.

본 발명에 따른 표시 제어 방법은, 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과, 상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과, 상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과, 상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝을 포함한다.

본 발명에 따른 프로그램은, 적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과, 상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과, 상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과, 상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝을 컴퓨터에 실행시킨다.

본 발명에 의하면, 발화 내용을 적절하게 인식 가능하게 할 수 있다는 효과를 가져온다.

도 1은, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 블럭도이다.
도 2는, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 개략도이다.
도 3은, 입술부를 설명하는 도면이고, 입술을 닫은 상태를 나타낸다.
도 4는, 입술부의 움직임의 일 예를 설명하는 도면이다.
도 5는, 음성 인식 처리의 처리 결과와 입술 동작 인식 처리의 처리 결과와 인식률을 설명하는 도면이다.
도 6은, 입술부의 움직임이 커지도록 강조한 강조 영상의 일 예를 설명하는 도면이다.
도 7은, 입술부의 움직임이 커지도록 강조한 강조 영상을 유저의 얼굴부의 영상에 중첩 또는 합성한 영상을 설명하는 도면이다.
도 8은, 제1 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다.
도 9는, 제2 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다.
도 10은, 제3 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다.

(발명을 실시하기 위한 형태)

이하에 첨부 도면을 참조하여, 본 발명에 따른 표시 제어 장치, 통신 장치, 표시 제어 방법 및 프로그램의 실시 형태를 상세하게 설명한다. 또한, 이하의 실시 형태에 의해 본 발명이 한정되는 것은 아니다.

[제1 실시 형태]

도 1은, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 블럭도이다. 도 2는, 제1 실시 형태에 따른 통신 장치의 구성예를 나타내는 개략도이다. 통신 장치(1)는, 예를 들면, 휴대 전화와 같이 통화 기능을 갖는 휴대용 전자 기기를 포함하는 통신 장치 또는 컴퓨터 등이다. 본 실시 형태에서는, 통신 장치(1)는, 휴대 전화인 것으로서 설명한다. 통신 장치(1)는, 카메라(10)와 마이크로폰(20)과 송수신부(30)와 표시 패널(표시부)(40)과 스피커(50)와 제어부(100)를 갖는다. 본 실시 형태에서는, 통신 장치(1)는, 유저가 발화자이다. 본 실시 형태에서는, 유저의 통화 상대가 청각 장애자이다. 본 실시 형태에서는, 통신 장치(1)는, 유저인 발화자의 발화 음성의 음성 데이터와 강조 영상(210)의 영상 데이터를, 청각 장애자인 통화 상대에게 송신한다.

카메라(10)는, 적어도 유저의 입술부(200)를 포함하는 입 모양을 포함하는 영상을 촬영한다. 본 실시 형태에서는, 카메라(10)는, 유저의 얼굴부의 영상을 촬영한다. 카메라(10)는, 통화 시에 적어도 유저의 입술부(200)를 촬영 가능한 위치에 배치되어 있다. 본 실시 형태에서는, 카메라(10)는, 통신 장치(1)의 표시 패널(40)의 하측에 배치되어 있다. 카메라(10)는, 통신 장치(1)에 있어서 통화를 개시하면, 상시, 영상을 촬영한다. 카메라(10)는, 촬영한 영상 데이터를 제어부(100)의 영상 취득부(101)에 출력한다.

마이크로폰(20)은, 유저의 발화 음성의 음성 신호를 취득한다. 본 실시 형태에서는, 마이크로폰(20)은, 통신 장치(1)의 표시 패널(40)의 하측에 배치되어 있다. 마이크로폰(20)은, 통신 장치(1)에 있어서 통화를 개시하면, 상시, 음성 신호를 취득한다. 마이크로폰(20)은, 취득한 음성 신호를 제어부(100)의 음성 취득부(102)에 출력한다.

송수신부(30)는, 음성과 영상에 의한 통화를 가능하게 한다. 송수신부(30)는, 유저의 발화 음성의 음성 데이터와 유저의 얼굴부의 영상 데이터를 통화 상대가 사용하고 있는 통신 장치에 송신한다. 송수신부(30)는, 통화 상대의 발화 음성의 음성 데이터와 얼굴부의 영상 데이터를 수신한다. 송수신부(30)는, 무선 또는 유선에 의해 통신한다. 송수신부(30)는, 예를 들면, 4G 회선 등을 포함하는 휴대 전화의 회선을 사용해도 좋다. 송수신부(30)는, 예를 들면, Wifi(등록상표)를 포함하는 무선 통신 규격을 사용해도 좋다. 송수신부(30)는, 유선에 의한 통신 규격을 사용해도 좋다. 송수신부(30)는, 제어부(100)의 통화 처리부(103)에 의해 통화 개시와 통화 종료가 제어된다.

표시 패널(40)은, 액정 디스플레이(LCD: Liquid Crystal Display) 또는 유기 EL(Organic Electro-Luminescence) 디스플레이 등을 포함하는 디스플레이이다. 표시 패널(40)은, 제어부(100)의 표시 제어부(104)로부터 출력된 영상 신호에 기초하여 영상을 표시한다.

스피커(50)는, 음성 출력 장치이다. 스피커(50)는, 제어부(100)의 음성 출력 처리부(105)로부터 출력된 음성 신호에 기초하여 음성을 출력한다. 본 실시 형태에서는, 스피커(50)는, 송수신부(30)를 통하여 통화가 행해지고 있을 때, 통화 상대의 발화 음성을 출력한다.

제어부(100)는, 예를 들면, CPU(Central Processing Unit) 등으로 구성된 연산 처리 장치이다. 제어부(100)는, 기억부(120)에 기억되어 있는 프로그램을 메모리에 로드하여, 프로그램에 포함되는 명령을 실행한다. 제어부(100)는, 유저의 입술부(200)의 인식률이 낮을 때, 유저의 입술부(200)의 움직임을 강조한 강조 영상(210)을 생성한다. 제어부(100)는, 영상 취득부(101)와 음성 취득부(102)와 통화 처리부(103)와 표시 제어부(104)와 음성 출력 처리부(105)와 음성 인식부(106)와 입술 검출부(107)와 입술 동작 인식부(108)와 비교부(109)와 영상 처리부(110)를 갖는다. 제어부(100)에는 도시하지 않는 내부 메모리가 포함되고, 내부 메모리는 제어부(100)에 있어서의 데이터의 일시 기억 등에 이용된다.

영상 취득부(101)는, 적어도 발화자의 입술부(200)를 포함하는 입 모양을 촬영한 영상 데이터를 취득한다. 본 실시 형태에서는, 영상 취득부(101)는, 적어도 유저의 입술부(200)를 포함하는 입 모양을 카메라(10)가 촬영한 영상 데이터를 취득한다. 보다 상세하게는, 영상 취득부(101)는, 카메라(10)가 출력한 영상 신호에 부호화 처리 등을 실행하여, 디지털 데이터인 영상 데이터를 취득한다. 영상 취득부(101)는, 취득한 영상 데이터를 입술 검출부(107)와 영상 처리부(110)에 출력한다.

음성 취득부(102)는, 발화자의 발화 음성의 음성 데이터를 취득한다. 보다 상세하게는, 음성 취득부(102)는, 마이크로폰(20)이 출력한 음성 신호에 A/D(Analog/Digital) 변환 처리를 실행하여, 디지털 데이터인 음성 데이터를 취득한다. 음성 취득부(102)는, 취득한 음성 데이터를 통화 처리부(103)와 음성 인식부(106)와 비교부(109)에 출력한다.

통화 처리부(103)는, 송수신부(30)를 통하여 통화 처리를 행한다. 통화 처리부(103)는, 유저의 음성 데이터와 유저의 영상 데이터를 송수신부(30)에 출력한다. 통화 처리부(103)는, 통화 상대의 음성 데이터와 통화 상대의 영상 데이터를 송수신부(30)로부터 취득한다. 통화 처리부(103)는, 취득한 유저 또는 통화 상대의 영상 데이터를 표시 제어부(104)에 출력한다. 통화 처리부(103)는, 취득한 통화 상대의 음성 데이터를 음성 출력 처리부(105)에 출력한다.

표시 제어부(104)는, 통화 시에, 유저 또는 통화 상대의 강조 영상(210)을 표시하는 영상 신호를 표시 패널(40)에 출력한다. 보다 상세하게는, 표시 제어부(104)는, 통화 처리부(103)로부터 취득한 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다. 또는, 표시 제어부(104)는, 영상 취득부(101)가 취득한 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다.

음성 출력 처리부(105)는, 통화 처리부(103)가 취득한 음성 데이터에 복호화 처리와 D/A(Digital/Analog) 변환 처리를 실행하여, 음성 신호를 스피커(50)에 출력한다.

음성 인식부(106)는, 음성 취득부(102)가 취득한 음성 데이터로부터 음성을 인식하는 음성 인식 처리를 실행한다. 음성 인식 처리는, 음소마다, 단어마다 등 임의의 단위로 행하면 좋다. 음성 인식 처리의 방법은, 공지의 어느 방법이라도 좋고, 한정되지 않는다. 음성 인식부(106)는, 인식 결과를 비교부(109)에 출력한다.

입술 검출부(107)는, 영상 취득부(101)가 취득한 영상 데이터로부터 입술부(200)를 검출함과 함께, 입술부(200)의 움직임을 검출한다. 보다 상세하게는, 입술 검출부(107)는, 영상 데이터에 얼굴 인식 처리를 행하여, 입술부(200)를 검출한다. 또는, 입술 검출부(107)는, 예를 들면, 구순 사전 데이터를 참조하면서 화상 인식 처리를 행하여, 입술부(200)를 인식한다. 입술 검출부(107)는, 검출한 입술부(200)의 움직임을 검출한다. 입술 검출부(107)는, 검출 결과를 입술 동작 인식부(108)에 출력한다.

입술 동작 인식부(108)는, 입술 검출부(107)가 검출한 입술부(200)의 움직임으로부터 발화 내용을 인식한다. 보다 상세하게는, 입술 동작 인식부(108)는, 구순 사전 데이터를 참조하면서 화상 인식 처리를 행하여, 발화 내용을 인식한다. 입술 동작 인식 처리는, 음소마다, 단어마다 등 임의의 단위로 행하면 좋다. 입술 동작 인식부(108)는, 인식 결과를 비교부(109)에 출력한다.

도 3, 도 4를 참조하여, 입술 동작 인식 처리에 대해서 설명한다. 도 3은, 입술부를 설명하는 도면이고, 입술을 닫은 상태를 나타낸다. 도 3에 나타내는, 입술을 닫은 상태에 있어서의 각 부위의 위치를 기본 위치로 한다. 도 4는, 입술부의 움직임의 일 예를 설명하는 도면이다. 본 실시 형태에서는, 입술 동작 인식부(108)는, 예를 들면, 입술부(200)의 부위 P1로부터 부위 P8의 움직임을 검출함으로써, 입술부(200)의 동작을 검출한다. 입술부(200)의 각 부위는, 이들에 한정되지 않고, 입술부(200)의 움직임을 판독할 수 있는 부위이면 좋다. 부위 P1은, 우측의 구각(口角)이다. 부위 P1의 움직임을 벡터 V1로 나타낸다. 벡터 V1은, 부위 P1의 기본 위치에 대한 움직임을 나타낸다. 본 실시 형태로 나타내는 예에서는, 벡터 V1은, 부위 P1의 움직임이 작기 때문에, 도시를 생략하고 있다. 각 도에 있어서, 부위 P1은, 기본 위치를 도시하고 있다. 다른 부위에 대해서도 동일하다. 부위 P2는, 좌측의 구각이다. 부위 P2의 움직임을 벡터 V2로 나타낸다. 본 실시 형태로 나타내는 예에서는, 벡터 V2는, 부위 P2의 움직임이 작기 때문에, 도시를 생략하고 있다. 부위 P3은, 윗입술의 우측의 상단부이다. 부위 P3의 움직임을 벡터 V3으로 나타낸다. 부위 P4는, 윗입술의 좌측의 상단부이다. 부위 P4의 움직임을 벡터 V4로 나타낸다. 부위 P5는, 윗입술의 중앙부의 하단부이다. 부위 P5의 움직임을 벡터 V5로 나타낸다. 부위 P6은, 아랫입술의 우측의 하단부이다. 부위 P6의 움직임을 벡터 V6으로 나타낸다. 부위 P7은, 아랫입술의 좌측의 하단부이다. 부위 P7의 움직임을 벡터 V7로 나타낸다. 부위 P8은, 아랫입술의 중앙부의 상단부이다. 부위 P8의 움직임을 벡터 V8로 한다.

각 벡터 V는, 각 부위 P에 대해서, 하나 전 또는 소정수 전의 프레임의 영상 데이터의 입술부(200)의 각 부위 P에 대한 움직임으로서 나타내도 좋다.

각 벡터 V는, 각 부위 P에 대해서, 어느 음소로부터 다음의 음소를 발표할 때의, 입술부(200)의 각 부위 P에 대한 움직임으로서 나타내도 좋다.

비교부(109)는, 동일한 발화, 환언하면, 동일 기간에 있어서의, 음성 인식부(106)가 인식한 인식 결과와, 입술 동작 인식부(108)가 인식한 인식 결과를 비교한다. 동일 기간은, 예를 들면, 단어마다, 문절마다 등, 발화의 임의의 단위에 대응하는 기간이다. 인식 결과의 비교란, 인식률의 비교이다.

인식률은, 발화 내용과 인식 결과를 비교하여 산출한다. 인식률은, 예를 들면, 발화 내용과 인식 결과가 모두 일치하면 100％이다. 인식률은, 발화 내용에 대하여 인식 결과의 문자가 잘못 삽입, 삭제, 치환되면 낮게 산출된다.

도 5를 참조하여, 인식률에 대해서 설명한다. 도 5는, 음성 인식 처리의 처리 결과와 입술 동작 인식 처리의 처리 결과와 인식률을 설명하는 도면이다. 예를 들면, 「안녕(おはよう)」「하세요(ございます)」라고 발화한 것을, 음성 인식부(106)가 「안녕(おはよう)」「해세요(ごさいます)」라고 인식한 경우에 대해서 설명한다. 인식 결과의 「안녕」「하세요」의 단어는, 문맥으로부터 가중치 부여 처리를 행하거나, 단어 사전과 대비 처리를 행하거나 함으로써, 단어로서 성립하고 있다고 판정되기 때문에, 인식률은 모두 100％이다.

예를 들면, 「안녕」「하세요」라고 발화한 것을, 입술 동작 인식부(108)가 「아녕(おあよう)」「아세요(ごあいます)」라고 인식한 경우에 대해서 설명한다. 인식 결과의 「아녕」「아세요」의 단어는, 문맥으로부터 가중치 부여 처리를 행하거나, 단어 사전과 대비 처리를 행하거나 함으로써, 단어로서 성립하고 있지 않다고 판정된다. 또한, 문맥이나 단어 사전에 의해, 발화 내용은 「안녕」「하세요」라고 추정된다. 이 때문에, 「아녕」의 인식률은 75％이고, 「아세요」의 인식률은 80％이다.

영상 처리부(110)는, 입술 검출부(107)가 검출한 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다. 본 실시 형태에서는, 영상 처리부(110)는, 비교부(109)의 비교 결과에 있어서, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 강조 영상(210)을 생성한다.

도 4, 도 6, 도 7을 이용하여, 강조 영상(210)에 대해서 설명한다. 도 6은, 입술부의 움직임이 커지도록 강조한 강조 영상의 일 예를 설명하는 도면이다. 도 7은, 입술부의 움직임이 커지도록 강조한 강조 영상을 유저의 얼굴부의 영상에 중첩 또는 합성한 영상을 설명하는 도면이다. 우선, 도 4에 나타내는 입술부(200)의 부위 P1로부터 부위 P8의 벡터 V1로부터 벡터 V8에, 예를 들면, 1 이상, 보다 바람직하게는, 1.5 이상 2.0 이하의 계수를 승산하여 각 부위의 위치를 산출한다. 도 6에 있어서, 파선이 도 4에 나타내는 벡터 V1로부터 벡터 V8을 나타내고, 실선이 계수를 승산한 벡터 V1로부터 벡터 V8을 나타낸다. 그리고, 산출된 각 부위, 환언하면, 각 벡터의 선단부를 연결하여 입술부(200)의 외경을 얻는다. 이와 같이 하여, 얻어진 외형을 갖는 입술부(200)의 영상이 강조 영상(210)이다. 본 실시 형태에서는, 또한, 유저의 원래의 얼굴부의 영상의 입술부(200)에 강조 영상(210)을 중첩 또는 합성하여, 도 7에 나타내는 얼굴부 영상(220)을 생성한다.

또는, 강조 영상(210)을 포함하는 유저의 얼굴부의 애니메이션 영상을 얼굴부 영상(220)으로서 생성해도 좋다. 예를 들면, 유저의 얼굴을 포함하는 영상 전체를 애니메이션으로 표현해도 좋고, 영상 취득부가 취득한 유저의 영상에 대하여 입술 부분만을 애니메이션 영상으로서 합성 표시해도 좋다.

영상 처리부(110)는, 음성 인식부(106)가 인식한 음성에 기초하여 입술 검출부(107)가 검출한 입술부(200)의 움직임을 보정하여 강조 영상(210)을 생성해도 좋다.

영상 처리부(110)는, 강조 영상(210)의 생성 처리를 개시하면, 예를 들면, 통화 종료까지, 생성 처리를 계속한다.

도 1로 돌아오고, 기억부(120)는, 통신 장치(1)에 있어서의 데이터의 일시 기억 등에 이용된다. 기억부(120)는, 예를 들면, RAM(Random Access Memory), ROM(Read Only Memory), 플래시 메모리(Flash Memory) 등의 반도체 메모리 소자, 또는, 하드 디스크, 광 디스크 등의 기억 장치이다. 또는, 도시하지 않는 통신 장치를 통하여 무선 접속되는 외부 기억 장치여도 좋다. 기억부(120)는, 구순 사전 데이터를 기억하고 있다.

다음으로, 도 8을 이용하여, 통신 장치(1)의 제어부(100)에 있어서의 처리의 흐름에 대해서 설명한다. 도 8은, 제1 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다. 통신 장치(1)에 있어서 통화 개시의 조작이 실행되면, 스텝 S11 이후의 처리가 실행된다. 통신 장치(1)는, 통화 중, 환언하면, 도 8에 나타내는 플로우 차트의 처리가 실행되어 있는 동안, 송수신부(30)에 의해 통화 상대의 발화 음성이 취득된다.

제어부(100)는, 유저의 발화 음성 및 유저의 얼굴부의 영상을 취득한다(스텝 S11). 보다 상세하게는, 제어부(100)는, 음성 취득부(102)에 의해 유저의 발화 음성의 음성 데이터를 취득한다. 제어부(100)는, 영상 취득부(101)에 의해 유저의 얼굴부의 영상 데이터를 취득한다. 제어부(100)는, 스텝 S12로 진행한다.

제어부(100)는, 음성 인식 처리를 실행한다(스텝 S12). 보다 상세하게는, 제어부(100)는, 음성 인식부(106)에 의해, 음성 취득부(102)가 취득한 음성 데이터로부터 음성을 인식하는 음성 인식 처리를 실행한다. 제어부(100)는, 스텝 S13으로 진행한다.

제어부(100)는, 입술 검출 처리를 실행한다(스텝 S13). 보다 상세하게는, 제어부(100)는, 입술 검출부(107)에 의해, 영상 취득부(101)가 취득한 영상 데이터로부터 입술부(200)를 검출함과 함께, 입술부(200)의 움직임을 검출한다. 제어부(100)는, 스텝 S14로 진행한다.

제어부(100)는, 입술 동작 인식 처리를 실행한다(스텝 S14). 보다 상세하게는, 제어부(100)는, 입술 동작 인식부(108)에 의해, 입술 검출부(107)가 검출한 입술부(200)의 움직임으로부터 발화 내용을 인식한다. 제어부(100)는, 스텝 S15로 진행한다.

제어부(100)는, 인식 결과 비교 처리를 실행한다(스텝 S15). 보다 상세하게는, 제어부(100)는, 비교부(109)에 의해, 음성 인식부(106)가 인식한 인식 결과의 인식률과, 입술 동작 인식부(108)가 인식한 인식 결과의 인식률을 비교한다. 제어부(100)는, 스텝 S16으로 진행한다.

제어부(100)는, 음성 인식률이 입술 인식률보다 높은지 아닌지를 판정한다(스텝 S16). 보다 상세하게는, 제어부(100)는, 음성 인식부(106)의 인식 결과의 인식률이, 입술 동작 인식부(108)의 인식 결과의 인식률보다 높은 경우(스텝 S16에서 Yes), 스텝 S18로 진행한다. 제어부(100)는, 음성 인식부(106)의 인식 결과의 인식률이, 입술 동작 인식부(108)의 인식 결과의 인식률보다 높지 않은 경우(스텝 S16에서 No), 스텝 S17로 진행한다.

제어부(100)는, 영상 및 음성을 송신한다(스텝 S17). 보다 상세하게는, 제어부(100)는, 통화 처리부(103)에 의해, 유저의 음성 데이터와 유저의 얼굴부의 영상 데이터를 송수신부(30)에 출력한다. 이에 따라, 제어부(100)는, 유저의 음성 데이터와 함께, 입술부(200)의 움직임을 강조하는 처리를 하고 있지 않는 유저의 얼굴부의 영상 데이터를 통화 상대에게 송신한다. 제어부(100)는, 스텝 S20으로 진행한다.

제어부(100)는, 강조 처리를 실행한다(스텝 S18). 보다 상세하게는, 제어부(100)는, 영상 처리부(110)에 의해, 강조 영상(210)을 생성한다. 이에 따라, 유저의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 유저의 얼굴부의 얼굴부 영상(220)이 생성된다. 제어부(100)는, 스텝 S19로 진행한다.

제어부(100)는, 강조한 영상 및 음성을 송신한다(스텝 S19). 보다 상세하게는, 제어부(100)는, 통화 처리부(103)에 의해, 유저의 음성 데이터와 강조 영상(210)을 포함하는 유저의 얼굴부의 얼굴부 영상(220)의 영상 데이터를 송수신부(30)에 출력한다. 이에 따라, 제어부(100)는, 유저의 음성 데이터와 함께, 유저의 강조 영상(210)을 포함하는 얼굴부 영상(220)의 영상 데이터를 통화 상대에게 송신한다. 제어부(100)는, 스텝 S20으로 진행한다.

제어부(100)는, 통화 종료의 조작이 실행되었는지 아닌지를 판정한다(스텝 S20). 보다 상세하게는, 제어부(100)는, 예를 들면, 통화 종료의 버튼이 선택되는 등의 통화 종료 조작이 실행된 경우(스텝 S20에서Yes), 통화를 종료하고, 플로우 차트의 처리를 종료한다. 제어부(100)는, 통화 종료 조작이 실행되어 있지 않은 경우(스텝 S20에서 No), 스텝 S11의 처리를 재차 실행한다.

이와 같이 하여, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 유저의 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다.

전술한 바와 같이, 본 실시 형태는, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 유저의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 얼굴부 영상(220)을 음성과 함께 통화 상대에게 송신한다. 본 실시 형태에 의하면, 유저의 입술부(200)의 움직임이 작아도, 통화 상대가 강조 영상(210)으로부터 유저의 발화 내용을 인식하기 쉽게 할 수 있다. 이와 같이, 본 실시 형태는, 통화 상대에게 유저의 발화 내용을 적절하게 인식시킬 수 있다. 본 실시 형태에 의하면, 청각 장애를 갖는 통화 상대와의 통화를 하기 쉽게 할 수 있다.

본 실시 형태는, 강조 영상(210)을 유저의 얼굴부의 영상에 중첩 또는 합성한다. 이에 따라, 본 실시 형태에 의하면, 통화 상대는, 강조 영상(210)으로부터 유저의 발화 음성을 용이하게 인식할 수 있음과 함께, 유저의 얼굴부의 얼굴부 영상(220)으로부터 표정을 판독하여 유저의 발화 내용의 의도를 적절히 추측하는 것이 가능하다.

[제2 실시 형태]

도 9를 참조하면서, 본 실시 형태에 따른 통신 장치(1)에 대해서 설명한다. 도 9는, 제2 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다. 본 실시 형태에서는, 통신 장치(1)는, 유저가 청각 장애자이다. 본 실시 형태에서는, 통화 상대가 발화자이다. 본 실시 형태에서는, 통신 장치(1)는, 통화 상대의 발화 음성의 음성에 대응하는 통화 상대의 얼굴부의 영상을 표시하여, 청각 장애자인 유저가 통화를 하기 쉽게 한다. 통신 장치(1)는, 기본적인 구성은 제1 실시 형태의 통신 장치(1)와 동일하다. 이하의 설명에 있어서는, 통신 장치(1)와 동일한 구성 요소에는, 동일한 부호 또는 대응하는 부호를 붙이고, 그의 상세한 설명은 생략한다. 통신 장치(1)는, 제어부(100)에 있어서의 처리가 통신 장치(1)와 상이하다.

표시 패널(40)은, 송수신부(30)를 통하여 통화가 행해지고 있을 때, 통화 상대의 발화 음성에 대응한 강조 영상(210)을 포함하는 통화 상대의 얼굴부의 얼굴부 영상(220)을 표시한다.

스피커(50)는, 송수신부(30)를 통하여 통화가 행해지고 있을 때, 통화 상대의 발화 음성을 출력한다.

제어부(100)는, 통화 상대의 입술부(200)의 인식률이 낮을 때, 통화 상대의 입술부(200)의 움직임을 강조한 강조 영상(210)을 생성한다.

영상 취득부(101)는, 적어도 통화 상대의 입술부(200)를 포함하는 입 모양이 촬영된 영상 데이터를 통화 처리부(103)를 통하여 취득한다.

음성 취득부(102)는, 적어도 통화 상대의 음성 데이터를 통화 처리부(103)를 통하여 취득한다.

통화 처리부(103)는, 음성 데이터와 영상 데이터를 송수신부(30)로부터 취득한다. 통화 처리부(103)는, 취득한 음성 데이터를 음성 취득부(102)에 출력한다. 통화 처리부(103)는, 취득한 영상 데이터를 영상 취득부(101)에 출력한다.

표시 제어부(104)는, 통화 시에, 통화 상대의 얼굴부의 영상을 표시하는 영상 신호를 표시 패널(40)에 출력한다. 보다 상세하게는, 표시 제어부(104)는, 통화 처리부(103)로부터 취득한 통화 상대의 얼굴부의 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다. 또는, 표시 제어부(104)는, 영상 처리부(110)가 생성한 강조 영상(210)을 포함하는 통화 상대의 얼굴부 영상의 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다.

다음으로, 도 9를 이용하여, 통신 장치(1)에 있어서의 처리의 흐름에 대해서 설명한다. 도 9에 나타내는 플로우 차트의 스텝 S22 내지 스텝 S26, 스텝 S30의 처리는, 도 8에 나타내는 플로우 차트의 스텝 S12 내지 스텝 S16, 스텝 S20의 처리와 동일한 처리를 행한다.

제어부(100)는, 수신한 통화 상대의 발화 음성 및 통화 상대의 얼굴부의 영상을 취득한다(스텝 S21). 보다 상세하게는, 제어부(100)는, 통화 처리부(103)에 의해 통화 상대의 발화 음성의 음성 데이터와 통화 상대의 얼굴부의 영상 데이터를 취득한다. 제어부(100)는, 스텝 S22로 진행한다.

제어부(100)는, 영상을 표시하고, 음성을 출력한다(스텝 S27). 보다 상세하게는, 제어부(100)는, 표시 제어부(104)에 의해, 통화 상대의 입술부(200)의 움직임을 강조하는 처리를 하고 있지 않는 영상 데이터에 복호화 처리를 실행하여, 영상을 표시하는 영상 신호를 표시 패널(40)에 출력한다. 제어부(100)는, 음성 출력 처리부(105)에 의해, 통화 상대의 음성 데이터에 D/A 변환 처리를 실행하여, 음성 신호를 스피커(50)에 출력한다. 제어부(100)는, 스텝 S30으로 진행한다.

제어부(100)는, 강조 처리를 실행한다(스텝 S28). 이에 따라, 통화 상대의 강조 영상(210)을 포함하는 얼굴부 영상의 영상 데이터가 생성된다. 제어부(100)는, 스텝 S29로 진행한다.

제어부(100)는, 강조한 영상을 표시하고, 음성을 출력한다(스텝 S29). 보다 상세하게는, 제어부(100)는, 표시 제어부(104)에 의해, 통화 상대의 강조 영상(210)을 포함하는 얼굴부 영상의 영상 데이터에 복호화 처리를 실행하여, 영상 신호를 표시 패널(40)에 출력한다. 제어부(100)는, 음성 출력 처리부(105)에 의해, 통화 상대의 음성 데이터에 D/A 변환 처리를 실행하여, 음성 신호를 스피커(50)에 출력한다. 제어부(100)는, 스텝 S30으로 진행한다.

이와 같이 하여, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 통화 상대의 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다.

전술한 바와 같이, 본 실시 형태는, 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮은 경우, 통화 상대의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 얼굴부 영상(220)을 표시함과 함께, 통화 상대의 음성을 출력한다. 본 실시 형태에 의하면, 통화 상대의 입술부(200)의 움직임이 작아도, 유저가 강조 영상(210)으로부터 통화 상대의 발화 내용을 인식하기 쉽게 할 수 있다. 이와 같이, 본 실시 형태는, 유저에게 통화 상대의 발화 내용을 적절하게 인식시킬 수 있다. 본 실시 형태에 의하면, 청각 장애를 갖는 유저가 통화 상대와의 통화를 하기 쉽게 할 수 있다.

[제3 실시 형태]

도 10을 참조하면서, 본 실시 형태에 따른 통신 장치(1)에 대해서 설명한다. 도 10은, 제3 실시 형태에 따른 통신 장치에 있어서의 처리의 흐름을 나타내는 플로우 차트이다. 본 실시 형태에서는, 통신 장치(1)는, 유저가 청각 장애자이다. 본 실시 형태에서는, 통화 상대가 발화자이다. 통신 장치(1)는, 기본적인 구성은 제2 실시 형태의 통신 장치(1)와 동일하다. 통신 장치(1)는, 제어부(100)에 있어서의 처리가 제2 실시 형태의 통신 장치(1)와 상이하다.

제어부(100)는, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 통화 개시로부터, 입술부(200)의 움직임을 강조한 강조 영상(210)을 생성한다.

비교부(109)는, 통화 상대 및 통화마다 비교 결과를 기억부(120)에 기억시킨다.

영상 처리부(110)는, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 강조 영상(210)을 생성한다.

기억부(120)는, 통화 상대 및 통화마다 비교부(109)에 의한 비교 결과를 기억한다.

다음으로, 도 10을 이용하여, 통신 장치(1)에 있어서의 처리의 흐름에 대해서 설명한다. 도 10에 나타내는 플로우 차트의 스텝 S32, 스텝 S33 내지 스텝 S37, 스텝 S38 내지 스텝 S40의 처리는, 도 9에 나타내는 플로우 차트의 스텝 S27, 스텝 S21 내지 스텝 S25, 스텝 S28 내지 스텝 S30의 처리와 동일한 처리를 행한다.

제어부(100)는, 통화 상대가 이전의 통화에서 음성 인식률이 입술 인식률보다 높다고 판정되었는지 아닌지를 판정한다(스텝 S31). 보다 상세하게는, 제어부(100)는, 기억부(120)에, 통화 상대의 이전의 통화에 대한 비교부(109)의 비교 결과이고, 음성 인식부(106)의 인식 결과의 인식률이, 입술 동작 인식부(108)의 인식 결과의 인식률보다 높은 것이 기억되어 있는 경우(스텝 S31에서 Yes), 스텝 S33으로 진행한다. 제어부(100)는, 기억되어 있지 않은 경우(스텝 S31에서 No), 스텝 S32로 진행한다.

이와 같이 하여, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 통화 상대의 입술부(200)의 움직임이 커지도록 강조한 강조 영상(210)을 생성한다.

전술한 바와 같이, 본 실시 형태는, 통신 상대가 이전의 통화에서 음성 인식부(106)에 의한 인식 결과에 비해 입술 동작 인식부(108)의 인식 결과의 인식률이 낮다고 판정되어 있는 경우, 통화 상대의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 얼굴부 영상(220)을 표시함과 함께, 통화 상대의 음성을 출력한다. 본 실시 형태에 의하면, 청각 장애를 갖는 유저가 통화 상대와의 통화를 하기 쉽게 할 수 있다.

그래서, 지금까지 본 발명에 따른 통신 장치(1)에 대해서 설명했지만, 전술한 실시 형태 이외에도 여러 가지 상이한 형태로 실시되어도 좋은 것이다.

도시한 통신 장치(1)의 각 구성 요소는, 기능 개념적인 것으로서, 반드시 물리적으로 도시와 같이 구성되어 있지 않아도 좋다. 즉, 각 장치의 구체적 형태는, 도시의 것에 한정되지 않고, 각 장치의 처리 부담이나 사용 상황 등에 따라서, 그 전부 또는 일부를 임의의 단위로 기능적 또는 물리적으로 분산 또는 통합해도 좋다.

통신 장치(1)의 구성은, 예를 들면, 소프트웨어로서, 메모리에 로드된 프로그램 등에 의해 실현된다. 상기 실시 형태에서는, 이들 하드웨어 또는 소프트웨어의 연계 제휴에 의해 실현되는 기능 블록으로서 설명했다. 즉, 이들 기능 블록에 대해서는, 하드웨어만, 소프트웨어만, 또는, 그들의 조합에 의해 여러 가지의 형태로 실현될 수 있다.

상기한 구성 요소에는, 당업자가 용이하게 상정할 수 있는 것, 실질적으로 동일한 것을 포함한다. 또한, 상기한 구성은 적절히 조합이 가능하다. 또한, 본 발명의 요지를 일탈하지 않는 범위에 있어서 구성의 여러 가지의 생략, 치환 또는 변경이 가능하다.

제1 실시 형태와 제2 실시 형태는, 하나의 통신 장치로서 실현되어도 좋다.

상기에서는, 통신 장치로서 설명했지만, 통신 장치에 한정되지 않는다. 영상 취득부(101)와 음성 취득부(102)와 표시 제어부(104)와 음성 출력 처리부(105)와 음성 인식부(106)와 입술 검출부(107)와 입술 동작 인식부(108)와 비교부(109)와 영상 처리부(110)를 갖는 표시 제어 장치여도 좋다. 예를 들면, 청각 장애자인 유저가, 아나운서가 뉴스를 읽는 뉴스 영상을 시청할 때에, 표시 제어 장치에 의해, 아나운서의 입술부(200)의 움직임을 강조한 강조 영상(210)을 시청할 수 있다. 예를 들면, 유저가, 청각 장애자를 위해 영상을 생성할 때에, 표시 제어 장치에 의해, 발화자의 입술부(200)의 움직임을 강조한 강조 영상(210)을 포함하는 영상을 생성할 수 있다.

도 8에 나타내는 플로우 차트의 스텝 S16에 있어서, 제어부(100)는, 입술 인식률이 문턱값 이하인지 아닌지를 판정해도 좋다. 그리고, 입술 인식률이 문턱값 이하라고 판정된 경우, 스텝 S18로 진행되어, 입술 인식률이 문턱값 이하가 아니라고 판정된 경우, 스텝 S17로 진행한다.

1 : 통신 장치
10 : 카메라
20 : 마이크로폰
30 : 송수신부
40 : 표시 패널(표시부)
50 : 스피커
100 : 제어부
101 : 영상 취득부
102 : 음성 취득부
103 : 통화 처리부
104 : 표시 제어부
105 : 음성 출력 처리부
106 : 음성 인식부
107 : 입술 검출부
108 : 입술 동작 인식부
109 : 비교부
110 : 영상 처리부
200 : 입술부
210 : 강조 영상
220 : 얼굴부 영상

Claims

적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득부와,
상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출부와,
상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리부와,
상기 영상 처리부가 생성한 영상을 표시부에 표시시키는 표시 제어부
를 구비하는 것을 특징으로 하는 표시 제어 장치.
제1항에 있어서,
상기 발화자의 발화(發話) 음성의 음성 데이터를 취득하는 음성 취득부와,
상기 음성 취득부가 취득한 상기 음성 데이터로부터 음성을 인식하는 음성 인식부
를 추가로 구비하고,
상기 영상 처리부는, 상기 음성 인식부가 인식한 음성에 기초하여 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는,
표시 제어 장치.
제2항에 있어서,
상기 입술 검출부가 검출한 입술부의 움직임으로부터 발화 내용을 인식하는 입술 동작 인식부와,
상기 음성 인식부가 인식한 인식 결과와, 상기 입술 동작 인식부가 인식한 인식 결과를 비교하는 비교부
를 추가로 구비하고,
상기 영상 처리부는, 상기 비교부의 비교 결과에 있어서, 상기 음성 인식부에 의한 인식 결과에 비해 상기 입술 동작 인식부의 인식 결과의 인식률이 낮은 경우, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는,
표시 제어 장치.
제3항에 있어서,
상기 영상 처리부는, 상기 입술 검출부가 검출한 입술 동작이 커지도록 강조한 애니메이션의 영상을 생성하는,
표시 제어 장치.
제3항 또는 제4항에 기재된 표시 제어 장치와,
통화 처리를 행하는 통화 처리부
를 구비하고,
상기 음성 취득부는, 통화 시의 발화 음성을 취득하고,
상기 영상 처리부는, 상기 통화 처리부가 송신하는 영상을, 상기 입술 검출부가 검출한 입술부의 움직임이 커지도록 강조한 영상으로 하는,
것을 특징으로 하는 통신 장치.
제3항 또는 제4항에 기재된 표시 제어 장치와,
통화 처리를 행하는 통화 처리부
를 구비하고,
상기 음성 인식부는, 상기 통화 처리부가 수신하여 취득한 음성 데이터로부터 음성을 인식하고,
상기 영상 취득부는, 상기 통화 처리부가 수신한 영상 데이터를 취득하는,
것을 특징으로 하는 통신 장치.
제5항 또는 제6항에 있어서,
상기 영상 처리부는, 상기 통화 처리부에 의한 통화 개시 후, 상기 비교부의 비교 결과가 상기 음성 인식부에 의한 인식 결과에 비해 상기 입술 동작 인식부의 인식 결과의 인식률이 낮은 결과가 발생한 경우, 통화 종료까지 입술 동작을 큰 영상이 되도록 강조하는 처리를 행하는,
통신 장치.
제5항 또는 제6항에 있어서,
상기 영상 처리부는, 상기 통화 처리부에 의한 통화 상대가 이전의 통화에 있어서, 상기 비교부의 비교 결과가 상기 음성 인식부에 의한 인식 결과에 비해 상기 입술 동작 인식부의 인식 결과의 인식률이 낮은 결과가 발생한 통화 상대인 경우, 통화 개시로부터 입술 동작을 큰 영상이 되도록 강조하는 처리를 행하는,
통신 장치.
적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과,
상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과,
상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과,
상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝
을 포함하는 것을 특징으로 하는 표시 제어 방법.
적어도 발화자의 입 모양을 촬영한 영상 데이터를 취득하는 영상 취득 스텝과,
상기 영상 데이터로부터 입술부를 검출함과 함께, 입술부의 움직임을 검출하는 입술 검출 스텝과,
상기 입술 검출 스텝에 의해 검출한 입술부의 움직임이 커지도록 강조한 영상을 생성하는 영상 처리 스텝과,
상기 영상 처리 스텝에 의해 생성한 영상을 표시부에 표시시키는 표시 제어 스텝
을 컴퓨터에 실행시키기 위한 프로그램.