KR20110066628A - 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법 - Google Patents

독순술을 이용한 휴대전화용 문자 입력 장치 및 방법 Download PDF

Info

Publication number
KR20110066628A
KR20110066628A KR1020090123360A KR20090123360A KR20110066628A KR 20110066628 A KR20110066628 A KR 20110066628A KR 1020090123360 A KR1020090123360 A KR 1020090123360A KR 20090123360 A KR20090123360 A KR 20090123360A KR 20110066628 A KR20110066628 A KR 20110066628A
Authority
KR
South Korea
Prior art keywords
unit
image
lip
character
lip motion
Prior art date
Application number
KR1020090123360A
Other languages
English (en)
Inventor
정훈
박전규
전형배
이윤근
정호영
강병옥
이성주
박기영
김종진
왕지현
강점자
정의석
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090123360A priority Critical patent/KR20110066628A/ko
Publication of KR20110066628A publication Critical patent/KR20110066628A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/23Construction or mounting of dials or of equivalent devices; Means for facilitating the use thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Telephone Function (AREA)

Abstract

카메라가 내장된 휴대전화에서 발화자의 음성 인식 및/또는 입술 움직임 인식에 의해 그에 상응하는 문자를 입력할 수 있도록 한 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법을 제시한다. 제시한 독순술을 이용한 휴대전화용 문자 입력 장치는 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹부, 얼굴 위치 트래킹부로부터의 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출부, 입술 움직임 특징 검출부로부터의 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출부, 및 입술 움직임 추출부로부터의 특징 벡터를 그에 상응하는 문자로 변환하는 입술 움직임 디코딩부를 포함한다. 카메라가 내장된 휴대 전화에서 잡음 환경에서도 안정적인 음성 인식 성능을 유지하고 입술 움직임을 인식하여 문자로 변환하는 독순술에 의해 공공 장소에서는 사생활 노출의 가능성을 줄이면서 문자를 입력하게 된다. 휴대폰에 음성인식 장치가 기 장착된 경우 음성 인식장치를 통해 출력된 결과와 독순술 장치를 통해 출력된 결과를 병합하여 보다 올바른 인식 결과를 출력하게 된다.

Description

독순술을 이용한 휴대전화용 문자 입력 장치 및 방법{Apparatus and method of inputting a text using lip reading in a mobile phone}
본 발명은 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법에 관한 것으로, 보다 상세하게는 독순술을 이용하여 휴대전화에서의 문자 입력이 가능하도록 한 장치 및 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
일반적으로, 휴대폰에서의 문자 입력은 문자 입력버튼(키보드) 또는 터치 스크린을 통해 이루어진다.
최근 들어, 편리성을 추구하는 추세에 맞추어 음성인식에 의한 문자 입력이 행해지고 있다. 즉, 인간의 음성을 문자로 변환하는 음성인식 기술이 휴대폰에 적용되어 문자 입력 장치로 사용되고 있다.
그러나, 기술적 한계로 인해 주변 잡음이 심한 상황에서는 문자 입력의 성능이 낮아진다. 또한, 공공 장소에서 음성 인식 기술을 사용하여 SMS용 문자를 입력하기에는 사생활 노출 가능성이 있어 널리 사용되고 있지 않은 실정이다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 카메라가 내장된 휴대전화에서 발화자의 음성 인식 및/또는 입술 움직임 인식에 의해 그에 상응하는 문자를 입력할 수 있도록 한 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 독순술을 이용한 휴대전화용 문자 입력 장치는, 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹부; 얼굴 위치 트래킹부로부터의 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출부; 입술 움직임 특징 검출부로부터의 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출부; 및 입술 움직임 추출부로부터의 특징 벡터를 그에 상응하는 문자로 변환하는 입술 움직임 디코딩부를 포함한다.
입술 움직임 추출부는 입술의 움직임이 검출됨에 따라 검출된 시점부터 종료 시점까지의 특징 벡터를 입술 움직임 디코딩부에게로 전송한다.
입술 움직임 디코딩부는 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 입술 움직임 추출부로부터의 특징 벡터와 가장 높은 신뢰도값을 출력하는 모델들의 단어 및 음소열의 순서를 입술의 움직임에 대한 문자의 인식 결과로 출력한다.
입술 움직임 디코딩부에서 출력되는 문자를 이미지로 변환하여 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이부를 추가로 포함한다.
문자 오버레이부는, 영상촬영장치의 영상을 버퍼링하는 버퍼링부; 입술 움직임 디코딩부에서 출력되는 문자를 이미지 형태로 변환하는 문자열 변환부; 및 버퍼링부로부터의 영상에 문자열 변환부에서 이미지로 된 문자를 캡션처리하여 출력하는 영상 통합부를 포함한다.
본 발명의 다른 실시양태에 따른 독순술을 이용한 휴대전화용 문자 입력 장치는, 영상촬영장치의 영상으로부터 입술의 움직임을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 입술 움직임 인식부; 음성채집장치로부터의 음성을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 음성 인식부; 및 입술 움직임 인식부에서의 문자 및 음성 인식부에서의 문자를 병합하되 각각의 신뢰도값에 근거하여 우선순위의 문자를 인식결과로 출력하는 인식결과 병합부를 포함한다.
입술 움직임 인식부는, 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹부; 얼굴 위치 트래킹부로부터의 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출부; 입술 움직 임 특징 검출부로부터의 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출부; 및 입술 움직임 추출부로부터의 특징 벡터를 그에 상응하는 문자로 변환하여 출력하고 변환시킨 문자에 대한 신뢰도값을 출력하는 입술 움직임 디코딩부를 포함한다.
입술 움직임 추출부는 입술의 움직임이 검출됨에 따라 검출된 시점부터 종료 시점까지의 특징 벡터를 입술 움직임 디코딩부에게로 전송한다.
입술 움직임 디코딩부는 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 입술 움직임 추출부로부터의 특징 벡터와 가장 높은 신뢰도값을 출력하는 모델들의 단어 및 음소열의 순서를 입술의 움직임에 대한 문자의 인식 결과로 출력한다.
인식결과 병합부는, 입술 움직임 인식부의 출력과 음성 인식부의 출력을 래티스 형태로 구성하고 래티스내의 모든 경로를 검색하여 최대 신뢰도값을 가지는 경로를 통해 얻어지는 단어를 인식 결과로 출력한다.
인식결과 병합부에서 출력되는 인식 결과를 이미지로 변환하여 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이부를 추가로 포함한다.
문자 오버레이부는, 영상촬영장치의 영상을 버퍼링하는 버퍼링부; 인식결과 병합부에서 출력되는 인식 결과를 이미지 형태로 변환하는 문자열 변환부; 및 버퍼링부로부터의 영상에 문자열 변환부에서 이미지로 된 문자를 캡션처리하여 출력하는 영상 통합부를 포함한다.
그리고, 본 발명의 바람직한 실시양태에 따른 독순술을 이용한 휴대전화용 문자 입력 방법은, 얼굴 위치 트랭킹부가, 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹 단계; 입술 움직임 특징 검출부가, 트랭킹되는 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출 단계; 입술 움직임 추출부가, 추출되는 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출 단계; 및 입술 움직임 디코딩부가, 입술 움직임 추출 단계에 의한 특징 벡터를 그에 상응하는 문자로 변환하는 입술 움직임 디코딩 단계를 포함한다.
입술 움직임 추출 단계는, 입술의 움직임을 검출하는 단계; 및 입술의 움직임이 검출됨에 따라 검출된 시점부터 종료 시점까지의 특징 벡터를 출력하는 단계를 포함한다.
입술 움직임 디코딩 단계는, 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 입술 움직임 추출 단계에 의한 특징 벡터와 가장 높은 신뢰도값을 출력하는 모델들의 단어 및 음소열의 순서를 입술의 움직임에 대한 문자의 인식 결과로 출력한다.
입술 움직임 디코딩 단계에 의한 문자를 이미지로 변환하여 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이 단계를 추가로 포함한다.
문자 오버레이 단계는, 영상촬영장치의 영상을 버퍼링하는 버퍼링 단계; 입술 움직임 디코딩 단계에 의한 문자를 이미지 형태로 변환하는 문자열 변환 단계; 및 버퍼링된 영상에 이미지로 된 문자를 캡션처리하여 출력하는 영상 통합 단계를 포함한다.
본 발명의 다른 실시양태에 따른 독순술을 이용한 휴대전화용 문자 입력 방법은, 입술 움직임 인식부가, 영상촬영장치의 영상으로부터 입술의 움직임을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 입술 움직임 인식 단계; 음성 인식부가, 음성채집장치로부터의 음성을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 음성 인식 단계; 및 인식결과 병합부가, 입술 움직임 인식 단계에 의한 문자 및 음성 인식 단계에 의한 문자를 병합하되 각각의 신뢰도값에 근거하여 우선순위의 문자를 인식결과로 출력하는 인식결과 병합 단계를 포함한다.
입술 움직임 인식 단계는, 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹 단계; 얼굴 위치 트래킹 단계에 의한 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출 단계; 입술 움직임 특징 검출 단계에 의한 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출 단계; 및 입술 움직임 추출 단계에 의한 특징 벡터를 그에 상응하는 문자로 변환하여 출력하고 변환시킨 문자에 대한 신뢰도값을 출력하는 입술 움직임 디코딩 단계를 포함한다.
인식결과 병합 단계에 의한 인식 결과를 이미지로 변환하여 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이 단계를 추가로 포함한다.
이러한 구성의 본 발명에 따르면, 카메라가 내장된 휴대 전화에서 잡음 환경 에서도 안정적인 음성 인식 성능을 유지하고 입술 움직임을 인식하여 문자로 변환하는 독순술에 의해 공공 장소에서는 사생활 노출의 가능성을 줄이면서 문자를 입력하게 된다.
휴대폰에 음성인식 장치가 기 장착된 경우 음성 인식장치를 통해 출력된 결과와 독순술 장치를 통해 출력된 결과를 병합하여 보다 올바른 인식 결과를 출력하게 된다.
인식된 문자열의 응용 분야로써 영상 통화시에 인식된 문자를 영상 이미지의 캡션으로 만들어 상대편에 전송함으로써 상대방이 음성을 듣지 못하는 상황에서도 수신자의 의사를 전달할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법에 대하여 설명하면 다음과 같다. 본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니된다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명의 실시예에 따른 독순술을 이용한 휴대전화용 문자 입력 장 치의 구성을 나타낸 블록도이다.
본 발명의 실시예에 따른 독순술을 이용한 휴대전화용 문자 입력 장치는 카메라(100)와 연결된 입술 움직임 인식부(120), 마이크(110)와 연결된 음성 인식부(130), 인식결과 병합부(140), 문자 입력부(150), 및 문자 오버레이부(16)를 포함한다.
입술 움직임 인식부(120)는 영상촬영장치인 카메라(100)의 영상으로부터 입술의 움직임을 인식하여 그에 상응하는 문자 및 신뢰도값(즉, 문자가 어느 정도의 신뢰도 또는 유사도를 갖는지를 의미하는 값)을 출력한다.
음성 인식부(130)는 음성채집장치인 마이크(110)로부터의 음성을 인식하여 그에 상응하는 문자 및 신뢰도값(즉, 문자가 어느 정도의 신뢰도 또는 유사도를 갖는지를 의미하는 값)을 출력한다.
인식결과 병합부(140)는 입술 움직임 인식부(120)에서의 문자 및 음성 인식부(130)에서의 문자를 병합하되 각각의 신뢰도값에 근거하여 우선순위의 문자(즉, 보다 높은 신뢰도값을 갖는 문자)를 인식 결과로 출력한다.
문자 입력부(150)는 인식결과 병합부(140)에서 출력되는 인식 결과(문자 또는 문자열)를 입력으로 사용한다.
문자 오버레이부(160)는 인식결과 병합부(140)에서 출력되는 인식 결과(문자 또는 문자열)를 이미지로 변환하여 카메라(100)의 영상과 믹싱하여 출력한다. 여기서, 카메라(100)의 영상은 인식결과 병합부(140)에서 출력되는 인식 결과를 이미지로 변환하기 시작한 시점에서 촬영한 영상일 수 있다. 물론, 문자 오버레이부(160) 는 카메라(100)의 영상을 이용하지 않고 미리 저장하여 둔 영상을 이용하여도 된다.
도 2는 도 1의 입술 움직임 인식부(120)의 내부 구성 및 작용을 나타낸 블록도이다. 독순술을 이용한 휴대전화용 문자 입력 방법을 설명하는 플로우차트를 별도로 첨부하지 않았으나, 동종업계에 종사하는 자라면 후술하는 도 2에 대한 설명에 의해 입술 움직임 인식(즉, 독순술)만을 이용한 휴대전화용 문자 입력 방법을 충분히 이해할 수 있으리라 본다.
입술 움직임 인식부(120)는 얼굴 위치 트래킹부(210), 입술 움직임 특징 검출부(220), 입술 움직임 추출부(230), 인식대상 어휘 관리부(240), 입술 움직임 모델 관리부(250), 및 입술 움직임 디코딩부(260)를 포함한다.
얼굴 위치 트래킹부(210)는 카메라(200)(편의상 도 1의 카메라(100)와 다른 참조부호를 사용하였으나 실질적으로는 동일함)의 영상에서 얼굴의 움직임을 트래킹한다. 즉, 얼굴 위치 트래킹부(210)는 입술의 이미지를 지속적으로 수집하기 위해 카메라(200)의 촬영 각도를 벗어나지 않도록 얼굴의 움직임을 트래킹하여 카메라(200)의 촬영 각도를 보정한다.
입술 움직임 특징 검출부(220)는 얼굴 위치 트래킹부(210)로부터의 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출한다. 즉, 입술 움직임 특징 검출부(220)는 일정 시간 간격 단위로 입력되는 입술 모양을 포함한 영역을 독순술에 적합한 수학적인 특징 벡터로 변환한다.
입술 움직임 추출부(230)는 입술 움직임 특징 검출부(220)로부터의 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출한다. 즉, 입술 움직임 추출부(230)는 입술 움직임 특징 검출부(220)로부터의 특징 벡터들로부터 입술의 움직임이 있었는지 없었는지를 판별한다. 입술의 움직임이 없는 경우에는 반복적으로 움직임이 발생할 때까지 현 상태에 머물러 있는다. 이는 입술의 움직임을 인식하여 문자열로 변환하는 과정은 매우 많은 계산량을 요구하는 과정이므로 휴대폰과 같은 내장형 단말기에서 시스템의 CPU 부하를 최소화하기 위한 조치이다. 입술 움직임 추출부(230)는 입술의 움직임이 검출되면 검출된 시점부터 종료 시점까지의 특징 벡터를 입술 움직임 디코딩부(260)에게로 전송한다.
인식대상 어휘 관리부(240)는 인식하고자 하는 단어에 대한 발음열이 저장된 데이터베이스이다. 인식대상 어휘 관리부(240)에는 복수의 인식대상 단어 및 그에 대한 발음열이 저장되어 있다.
입술 움직임 모델 관리부(250)는 한국어 자소에 해당하는 입술 움직임 데이터로부터 미리 훈련된 수학적 모델들을 저장하고 있는 데이터베이스이다.
입술 움직임 디코딩부(260)는 입술 움직임 추출부(230)로부터 입력되는 특징 벡터 또는 특징 벡터열을 그에 상응하는 문자 또는 문자열로 변환한다. 한편으로, 입술 움직임 디코딩부(260)는 변화시킨 문자 또는 문자열에 대한 신뢰도값을 출력하기도 한다. 입술 움직임 디코딩부(260)는 한국어 자소에 해당하는 입술 움직임 데이터로부터 미리 훈련된 수학적 모델(즉, 입술 움직임 모델 관리부(250)의 정보)과 인식하고자 하는 단어에 대한 발음열 사전(즉, 인식대상 어휘 관리부(240)의 정 보)을 사용한다. 입술 움직임 디코딩부(260)는 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 입술 움직임 추출부(230)로부터 입력되는 특징 벡터열과 가장 높은 신뢰도값(또는 유사도값)을 출력하는 모델들의 단어 및 음소열의 순서를 입술 움직임에 대한 문자열 인식 결과로 출력한다.
상술한 도 2와 같이 구성된 입술 움직임 인식부(120)의 작용에 대해 설명하면 다음과 같다.
얼굴 위치 트래킹부(210)는 카메라(200)의 영상에서 얼굴의 움직임을 트래킹하고, 입술 움직임 특징 검출부(220)는 얼굴 위치 트래킹부(210)를 통해 일정 시간 간격 단위로 입력되는 입술 모양을 포함한 영역을 독순술에 적합한 수학적인 특징 벡터로 변환한다.
그에 따라, 입술 움직임 추출부(230)는 입술 움직임 특징 검출부(220)로부터의 특징 벡터들로부터 입술의 움직임이 있었는지 없었는지를 판별한다. 입술의 움직임이 검출되면 검출된 시점부터 종료 시점까지의 특징 벡터를 입술 움직임 디코딩부(260)에게로 전송한다.
입술 움직임 디코딩부(260)에서는 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 입술 움직임 추출부(230)로부터 입력되는 특징 벡터(또는 특징 벡터열)과 가장 높은 신뢰도값(또는 유사도값)을 출력하는 모델들의 단어 및 음소열의 순서를 입술 움직임에 대한 문자열(단어) 인식 결과로 출력한다.
그 인식된 문자열(단어)은 문자 입력부(150)에게로 전송되고, 문자 입력 부(150)에서는 입력된 문자열(단어)을 입력으로 사용한다.
이와 같이 하게 되면, 입술 움직임 인식(즉, 독순술)만으로도 충분히 문자 입력이 가능하게 된다.
도 3 및 도 4는 도 1의 인식결과 병합부(140)의 작용을 설명하기 위한 도면이다. 도 3 및 도 4에 대한 설명에 의해서 입술 움직임 인식 및 음성 인식을 이용하여 휴대전화용 문자 입력이 어떻게 이루어지는지를 이해할 수 있게 된다. 즉, 별도의 플로우차트가 없더라도 이하의 설명으로도 동종업계에 종사하는 자라면 충분히 이해가능하리라 본다.
입술 움직임 인식부(120) 및 음성 인식부(130)가 모두 갖추어진 휴대전화의 경우, 발성 형태에 따라 다음의 표 1과 같은 결과를 출력한다.
[표 1]

발성 형태

인식 결과

음성 인식 결과

입술 움직임 인식 결과

입술만 움직인 경우

없음

있음

음성만 발성한 경우

있음

있음
즉, 입술만 움직인 경우에는 입술 움직임 인식부(120)만 인식 결과를 출력하는데 반해, 발성이 이루어진 경우에는 입술 움직임 인식부(120) 및 음성 인식부(130)가 동시에 각각의 인식 결과를 출력한다. 그런데, 이 두 개의 인식 결과는 서로 다를 수 있다. 따라서, 입술 움직임 인식부(120) 및 음성 인식부(130)의 인식 결과를 분석하여 좀더 신뢰성 높은 결과를 얻는 것이 필요하다. 이를 위해 본 발명 의 실시예 구성중의 일부 요소인 인식결과 병합부(140)가 요구된다.
이하에서는 입술 움직임 인식부(120)의 인식 결과를 얻기까지의 과정에 대한 설명은 생략한다. 그리고, 음성 인식부(130)의 인식 결과를 얻기까지의 과정에 대한 설명도 생략한다. 입술 움직임 인식부(120)의 인식 결과를 얻기까지의 과정은 도 2에 대한 설명으로 갈음하고, 음성 인식부(130)의 인식 결과를 얻기까지의 과정은 동종업계에 종사하는 자라면 주지의 기술에 의해 충분히 이해가능하리라 본다.
인식결과 병합부(140)는 입술 움직임 인식부(120) 및 음성 인식부(130)의 인식 결과를 병합하여 도 3과 같은 래티스(lattice) 형태로 구성한다. 예를 들어, 사용자가 “내일 오전 1시”라고 발성하였는데, 음성 인식부(130)는 “내일(0.9) 오전(0.9) 2시(0.7)”와 같은 인식 결과를 출력하고, 입술 움직임 인식부(120)는 “매일(0.8) 오후(0.7) 1시(0.9)와 같은 인식 결과를 출력하였다고 가정한다. ()안의 숫자는 인식된 단어에 대한 신뢰도값이다. 이 신뢰도값은 각각의 인식부(120, 130)에서 인식 결과와 함께 얻어진다.
도 3과 같이 생성된 래티스(Lattice)에 대해 인식결과 병합부(140)는 최대 신뢰도 선택 알고리즘에 기반하여 최적 인식 경로를 구한다. 최대 신뢰도 선택 알고리즘은 래티스내의 모든 경로를 검색하면서 최대 신뢰도값을 가지는 경로를 통해 얻어지는 N 개의 단어(열)을 인식 결과로 출력한다.
따라서, 도 3과 같은 래티스에 대해서는 도 4와 같은 경로에 대해 최대 신뢰 도값을 보이므로, 인식결과 병합부(140)의 최종 인식 결과는 “내일 오전 1시”가 된다.
인식결과 병합부(140)에서 최종적으로 인식된 문자열(“내일 오전 1시”)은 문자 입력부(150)에게로 전송된다. 휴대전화 사용자가 문자 입력버튼(키보드)을 사용하여 문자를 입력하는 것처럼, 문자 입력부(150)는 입력받은 문자열을 휴대전화의 입력으로 사용한다.
이와 같이 하게 되면, 입술 움직임 인식 및 음성 인식을 이용하여 문자 입력이 가능하게 된다.
도 5는 도 1에 도시된 문자 오버레이부(160)의 내부 구성 및 작용을 설명하기 위한 도면이다.
문자 오버레이부(160)는 영상통화기능을 갖춘 휴대전화에서 매우 유용하게 사용될 것이다. 문자 오버레이부(160)는 입술 움직임 인식부(120)만 있는 경우, 입술 움직임 인식부(120) 및 음성 인식부(130)가 함께 갖추어진 경우에 인식된 문자열을 이미지 형태로 변환하고 입력 영상과 믹싱하여 전송함으로써 송신자의 의도를 파악하게 한다.
문자 오버레이부(160)는 인식된 문자(또는 문자열)을 이미지 형태로 변환하는 문자열 변환부(310); 카메라(300)(편의상 도 1의 카메라(100)와 다른 참조부호를 사용하였으나 실질적으로는 동일함)로부터의 영상을 버퍼링하는 버퍼링부(320); 및 버퍼링부(320)로부터의 영상에 문자열 변환부(310)에서 이미지로 된 문자를 캡 션처리하여 출력하는 영상 통합부(330)를 포함한다.
이와 같이 구성된 문자 오버레이부(160)의 작용에 대해 설명하면 다음과 같다.
먼저, 문자열 변환부(310)는 인식된 문자열을 예를 들어 비트맵(Bitmap) 형식의 이미지로 변환한다. 인식된 문자열이 이미지로 변환되기까지에는 소정의 시간이 소요된다. 그에 따라, 카메라(300)로부터의 영상 데이터를 버퍼링부(320)를 통해 문자열이 이미지로 변환되는 시간만큼 지연시켜 동기를 맞춘다.
이후, 영상 통합부(330)는 버퍼링부(320)로부터의 영상에 BMP로 변환된 문자열을 캡션(caption)처리하고, 그 결과를 최종 전송 데이터로 하여 출력한다.
이와 같이 하게 되면, 카메라가 장착된 휴대 전화에서 잡음이 심한 환경하에서 음성 인식 성능을 높이고 공공 장소에서 사생활의 노출 우려 없이 SMS 문자를 입력할 수 있다. 아울러, 인식된 문장을 캡션으로 처리하여 영상과 동기를 맞추어 전송함으로써 수신자가 음성을 듣지 못하는 상황에서도 송신자의 의도를 파악할 수 있다.
한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.
도 1은 본 발명의 실시예에 따른 독순술을 이용한 휴대전화용 문자 입력 장치의 구성을 나타낸 블록도이다.
도 2는 도 1의 입술 움직임 인식부의 내부 구성 및 작용을 나타낸 블록도이다.
도 3 및 도 4는 도 1의 인식결과 병합부의 작용을 설명하기 위한 도면이다.
도 5는 도 1에 도시된 문자 오버레이부의 내부 구성 및 작용을 설명하기 위한 도면이다.

Claims (20)

  1. 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹부;
    상기 얼굴 위치 트래킹부로부터의 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출부;
    상기 입술 움직임 특징 검출부로부터의 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출부; 및
    상기 입술 움직임 추출부로부터의 특징 벡터를 그에 상응하는 문자로 변환하는 입술 움직임 디코딩부를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  2. 청구항 1에 있어서,
    상기 입술 움직임 추출부는 상기 입술의 움직임이 검출됨에 따라 검출된 시점부터 종료 시점까지의 특징 벡터를 상기 입술 움직임 디코딩부에게로 전송하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  3. 청구항 1에 있어서,
    상기 입술 움직임 디코딩부는 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 상기 입술 움직임 추출부로부터의 특징 벡터와 가장 높은 신뢰도값을 출력하는 모델들의 단어 및 음소열의 순서를 상기 입술의 움직임에 대한 문자의 인 식 결과로 출력하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  4. 청구항 1에 있어서,
    상기 입술 움직임 디코딩부에서 출력되는 문자를 이미지로 변환하여 상기 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이부를 추가로 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  5. 청구항 4에 있어서,
    상기 문자 오버레이부는,
    상기 영상촬영장치의 영상을 버퍼링하는 버퍼링부;
    상기 입술 움직임 디코딩부에서 출력되는 문자를 이미지 형태로 변환하는 문자열 변환부; 및
    상기 버퍼링부로부터의 영상에 상기 문자열 변환부에서 이미지로 된 문자를 캡션처리하여 출력하는 영상 통합부를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  6. 영상촬영장치의 영상으로부터 입술의 움직임을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 입술 움직임 인식부;
    음성채집장치로부터의 음성을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 음성 인식부; 및
    상기 입술 움직임 인식부에서의 문자 및 상기 음성 인식부에서의 문자를 병합하되 각각의 신뢰도값에 근거하여 우선순위의 문자를 인식결과로 출력하는 인식결과 병합부를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  7. 청구항 6에 있어서,
    상기 입술 움직임 인식부는,
    상기 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹부;
    상기 얼굴 위치 트래킹부로부터의 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출부;
    상기 입술 움직임 특징 검출부로부터의 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출부; 및
    상기 입술 움직임 추출부로부터의 특징 벡터를 그에 상응하는 문자로 변환하여 출력하고 상기 변환시킨 문자에 대한 신뢰도값을 출력하는 입술 움직임 디코딩부를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  8. 청구항 7에 있어서,
    상기 입술 움직임 추출부는 상기 입술의 움직임이 검출됨에 따라 검출된 시 점부터 종료 시점까지의 특징 벡터를 상기 입술 움직임 디코딩부에게로 전송하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  9. 청구항 7에 있어서,
    상기 입술 움직임 디코딩부는 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 상기 입술 움직임 추출부로부터의 특징 벡터와 가장 높은 신뢰도값을 출력하는 모델들의 단어 및 음소열의 순서를 상기 입술의 움직임에 대한 문자의 인식 결과로 출력하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  10. 청구항 6에 있어서,
    상기 인식결과 병합부는, 상기 입술 움직임 인식부의 출력과 상기 음성 인식부의 출력을 래티스 형태로 구성하고 래티스내의 모든 경로를 검색하여 최대 신뢰도값을 가지는 경로를 통해 얻어지는 단어를 인식 결과로 출력하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  11. 청구항 6에 있어서,
    상기 인식결과 병합부에서 출력되는 인식 결과를 이미지로 변환하여 상기 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이부를 추가로 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  12. 청구항 11에 있어서,
    상기 문자 오버레이부는,
    상기 영상촬영장치의 영상을 버퍼링하는 버퍼링부;
    상기 인식결과 병합부에서 출력되는 인식 결과를 이미지 형태로 변환하는 문자열 변환부; 및
    상기 버퍼링부로부터의 영상에 상기 문자열 변환부에서 이미지로 된 문자를 캡션처리하여 출력하는 영상 통합부를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 장치.
  13. 얼굴 위치 트랭킹부가, 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래킹 단계;
    입술 움직임 특징 검출부가, 상기 트랭킹되는 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출 단계;
    입술 움직임 추출부가, 상기 추출되는 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출 단계; 및
    입술 움직임 디코딩부가, 상기 입술 움직임 추출 단계에 의한 특징 벡터를 그에 상응하는 문자로 변환하는 입술 움직임 디코딩 단계를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
  14. 청구항 13에 있어서,
    상기 입술 움직임 추출 단계는,
    상기 입술의 움직임을 검출하는 단계; 및
    상기 입술의 움직임이 검출됨에 따라 검출된 시점부터 종료 시점까지의 특징 벡터를 출력하는 단계를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
  15. 청구항 13에 있어서,
    상기 입술 움직임 디코딩 단계는, 한국어 음소에 대한 수학적 모델로 구성된 단어들에 대해 상기 입술 움직임 추출 단계에 의한 특징 벡터와 가장 높은 신뢰도값을 출력하는 모델들의 단어 및 음소열의 순서를 상기 입술의 움직임에 대한 문자의 인식 결과로 출력하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
  16. 청구항 13에 있어서,
    상기 입술 움직임 디코딩 단계에 의한 문자를 이미지로 변환하여 상기 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이 단계를 추가로 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
  17. 청구항 16에 있어서,
    상기 문자 오버레이 단계는,
    상기 영상촬영장치의 영상을 버퍼링하는 버퍼링 단계;
    상기 입술 움직임 디코딩 단계에 의한 문자를 이미지 형태로 변환하는 문자열 변환 단계; 및
    상기 버퍼링된 영상에 상기 이미지로 된 문자를 캡션처리하여 출력하는 영상 통합 단계를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
  18. 입술 움직임 인식부가, 영상촬영장치의 영상으로부터 입술의 움직임을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 입술 움직임 인식 단계;
    음성 인식부가, 음성채집장치로부터의 음성을 인식하여 그에 상응하는 문자 및 신뢰도값을 출력하는 음성 인식 단계; 및
    인식결과 병합부가, 상기 입술 움직임 인식 단계에 의한 문자 및 상기 음성 인식 단계에 의한 문자를 병합하되 각각의 신뢰도값에 근거하여 우선순위의 문자를 인식결과로 출력하는 인식결과 병합 단계를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
  19. 청구항 18에 있어서,
    상기 입술 움직임 인식 단계는,
    상기 영상촬영장치의 영상에서 얼굴의 움직임을 트래킹하는 얼굴 위치 트래 킹 단계;
    상기 얼굴 위치 트래킹 단계에 의한 얼굴 영상에서 입술 모양을 포함하는 영역에 대한 특징 벡터를 추출하는 입술 움직임 특징 검출 단계;
    상기 입술 움직임 특징 검출 단계에 의한 특징 벡터중에서 입술이 움직임에 따른 특징 벡터를 추출하는 입술 움직임 추출 단계; 및
    상기 입술 움직임 추출 단계에 의한 특징 벡터를 그에 상응하는 문자로 변환하여 출력하고 상기 변환시킨 문자에 대한 신뢰도값을 출력하는 입술 움직임 디코딩 단계를 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
  20. 청구항 18에 있어서,
    상기 인식결과 병합 단계에 의한 인식 결과를 이미지로 변환하여 상기 영상촬영장치의 영상과 믹싱하여 출력하는 문자 오버레이 단계를 추가로 포함하는 것을 특징으로 하는 독순술을 이용한 휴대전화용 문자 입력 방법.
KR1020090123360A 2009-12-11 2009-12-11 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법 KR20110066628A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090123360A KR20110066628A (ko) 2009-12-11 2009-12-11 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090123360A KR20110066628A (ko) 2009-12-11 2009-12-11 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20110066628A true KR20110066628A (ko) 2011-06-17

Family

ID=44399418

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090123360A KR20110066628A (ko) 2009-12-11 2009-12-11 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20110066628A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9100492B2 (en) 2013-02-04 2015-08-04 Electronics And Telecommunications Research Institute Mobile communication terminal and operating method thereof
CN113345436A (zh) * 2021-08-05 2021-09-03 创维电器股份有限公司 基于多系统集成高识别率的远程语音识别控制系统及方法
CN113435422A (zh) * 2021-08-26 2021-09-24 知见科技(江苏)有限公司 辅助聋哑人士唇读的口型识别方法
US11551682B2 (en) 2018-12-14 2023-01-10 Samsung Electronics Co., Ltd. Method of performing function of electronic device and electronic device using same

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9100492B2 (en) 2013-02-04 2015-08-04 Electronics And Telecommunications Research Institute Mobile communication terminal and operating method thereof
US11551682B2 (en) 2018-12-14 2023-01-10 Samsung Electronics Co., Ltd. Method of performing function of electronic device and electronic device using same
CN113345436A (zh) * 2021-08-05 2021-09-03 创维电器股份有限公司 基于多系统集成高识别率的远程语音识别控制系统及方法
CN113345436B (zh) * 2021-08-05 2021-11-12 创维电器股份有限公司 基于多系统集成高识别率的远程语音识别控制系统及方法
CN113435422A (zh) * 2021-08-26 2021-09-24 知见科技(江苏)有限公司 辅助聋哑人士唇读的口型识别方法

Similar Documents

Publication Publication Date Title
US20200265197A1 (en) Language translation device and language translation method
KR101777807B1 (ko) 수화 번역기, 시스템 및 방법
US20160103825A1 (en) Mobile speech-to-speech interpretation system
US20130054240A1 (en) Apparatus and method for recognizing voice by using lip image
US20130079061A1 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
WO2017195775A1 (ja) 手話会話支援システム
RU2009143360A (ru) Способ, система и пользовательский интерфейс для автоматического создания атмосферы, в частности освещенной атмосферы, на основании ввода ключевого слова
CN104808794A (zh) 一种唇语输入方法和系统
CN107274903B (zh) 文本处理方法和装置、用于文本处理的装置
KR20100026701A (ko) 수화 번역기 및 그 방법
KR20110066628A (ko) 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법
CN111354362A (zh) 用于辅助听障者交流的方法和装置
CN111640452A (zh) 一种数据处理方法、装置和用于数据处理的装置
US20190304454A1 (en) Information providing device, information providing method, and recording medium
KR20210073856A (ko) 휴대용 수화 번역기 및 수화 번역 방법
CN116127966A (zh) 文本处理方法、语言模型训练方法及电子设备
CN115394283A (zh) 语音合成方法、装置、电子设备及存储介质
KR101233655B1 (ko) 음성인식 기반 국제회의 통역 장치 및 방법
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
JP6401488B2 (ja) 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム
CN114283493A (zh) 基于人工智能的识别系统
CN107368602A (zh) 一种用于智能设备的照片存储方法和照片存储装置
CN113409766A (zh) 一种识别方法、装置、用于识别的装置及语音合成方法
KR101687614B1 (ko) 음성 인식 방법 및 그에 따른 영상 표시 장치
CN112036192A (zh) 古诗词生成方法、装置及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E601 Decision to refuse application