KR20100003672A - 영상정보를 이용한 음성인식 장치 및 방법 - Google Patents

영상정보를 이용한 음성인식 장치 및 방법 Download PDF

Info

Publication number
KR20100003672A
KR20100003672A KR1020080063669A KR20080063669A KR20100003672A KR 20100003672 A KR20100003672 A KR 20100003672A KR 1020080063669 A KR1020080063669 A KR 1020080063669A KR 20080063669 A KR20080063669 A KR 20080063669A KR 20100003672 A KR20100003672 A KR 20100003672A
Authority
KR
South Korea
Prior art keywords
speaker
variable
image information
voice recognition
speech recognition
Prior art date
Application number
KR1020080063669A
Other languages
English (en)
Inventor
고우현
한재성
이상무
남경태
심준홍
차남주
김순기
신수정
지상훈
Original Assignee
(주)디유넷
한국생산기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)디유넷, 한국생산기술연구원 filed Critical (주)디유넷
Priority to KR1020080063669A priority Critical patent/KR20100003672A/ko
Publication of KR20100003672A publication Critical patent/KR20100003672A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 영상정보를 이용한 음성인식 장치 및 방법에 관한 것으로서, 이 방법은, 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 단계, 그리고 설정된 음성인식 변수를 이용하여 화자로부터 입력 받은 음성정보를 인식하는 단계를 포함한다. 본 발명에 의하면 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 각각에 최적화된 음성인식 변수를 설정하므로 인식률을 향상시킬 수 있다.
음성, 영상, 인식, 파라미터, 변수

Description

영상정보를 이용한 음성인식 장치 및 방법{SPEECH RECOGNITION APPARATUS AND METHOD USING VISUAL INFORMATION}
본 발명은 영상정보를 이용한 음성인식 장치 및 방법에 관한 것으로, 보다 상세하게는 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 이에 대응되는 음성인식 변수를 설정하는 영상정보를 이용한 음성인식 장치 및 방법에 관한 것이다.
가전제품, 컴퓨터 등의 전자제품과 자동차, 로봇 등을 조작하기 위해 사용자는 버튼, 키보드, 마우스 등의 수단을 사용하고 있다. 그러나 이러한 조작 방법은 장애인이나 노약자가 사용하기에는 많은 불편함이 있다. 그래서 조작의 편의성을 높이기 위해 사용자의 음성을 통해 전자제품과 자동차, 로봇 등을 조작하는 음성인식 기술이 개발되고 있는 상황이다.
이러한 음성인식 기술에 있어서 가장 중요한 부분은 인식률을 높이는 것이다. 아동의 경우 음성 주파수가 성인에 비해 높고, 변화가 심하며, 발성속도도 느리고, 발음이 불명확하기 때문에 음성을 인식하는데 많은 어려움이 있다. 이러한 문제점을 극복하기 위하여 음성을 이용하여 성인과 아동으로 분류하고, 각각에 맞 도록 음성인식 변수를 최적화하여 인식률을 향상시키는 다양한 음성인식 기술이 개발되고 있다.
그러나 음성만을 이용하여 분류할 경우, 외부 환경에 의한 잡음과 유사음성이 부정적으로 영향을 미쳐서 성인과 아동으로 분류하는데 어려움이 있다. 따라서 다른 정보를 이용해 성인과 아동으로 분류하고, 각각에 맞도록 음성인식 변수를 설정하는 기술의 개발이 필요하다.
본 발명이 해결하고자 하는 과제는 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 이에 대응되는 음성인식 변수를 설정하는 영상정보를 이용한 음성인식 장치 및 방법을 제공하는 것이다.
이러한 기술적 과제를 해결하기 위한 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 방법은, 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 단계, 그리고 상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 단계를 포함한다.
상기 영상정보를 기초로 음성인식 변수 설정 단계는, 상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 단계, 그리고 식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 단계를 포함할 수 있다.
상기 화자 식별 단계는, 상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 것으로 이루어지고, 상기 변수 설정 단계는, 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 것으로 이루어질 수 있다.
상기 영상정보를 기초로 음성인식 변수 설정 단계는, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 단계, 그리고 식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 단계 를 포함할 수 있다.
상기 음성인식 변수는, 상기 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수일 수 있다.
상기 음성인식 변수는, 인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수일 수 있다.
상기 영상정보로부터 추출된 특징은, 눈, 코, 귀, 입의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입의 길이 또는 폭), 얼굴의 골격, 주름 중 적어도 하나를 포함할 수 있다.
본 발명의 다른 실시예에 따른 컴퓨터로 읽을 수 있는 매체는 상기한 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.
본 발명의 다른 실시예에 따른 영상정보를 이용한 음성인식 장치는, 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 변수 설정부, 그리고 상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 음성 인식부를 포함한다.
상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 영상 식별부를 더 포함하며, 상기 변수 설정부는, 식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행할 수 있다.
상기 영상 식별부는, 상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 동작을 수행하고, 상기 변수 설정부는, 상기 화자의 연령 또는 성별에 대응되 는 상기 음성인식 변수를 설정하는 동작을 수행할 수 있다.
상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 영상 식별부를 더 포함하며, 상기 변수 설정부는, 식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행할 수 있다.
상기 음성인식 변수는, 상기 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수일 수 있다.
상기 음성인식 변수는, 인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수일 수 있다.
상기 영상정보로부터 추출된 특징은, 눈, 코, 귀, 입의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입의 길이 또는 폭), 얼굴의 골격, 주름 중 적어도 하나를 포함할 수 있다.
이와 같이 본 발명에 의하면, 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 각각에 최적화된 음성인식 변수를 설정하므로 인식률을 향상시킬 수 있다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
먼저, 도 1를 참고하여 본 발명의 한 실시예에 따른 영상정보를 이용한 음성 인식 장치에 대하여 상세하게 설명한다.
도 1은 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 장치를 설명하기 위한 블록도이다.
도 1을 참고하면, 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 장치(100)는 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정한다. 그러면 음성인식 장치(100)는 음성인식 변수를 이용하여 화자의 음성정보를 입력 받아 인식할 수 있다. 여기서 음성인식 장치(100)는 입력부(110), 출력부(120), 영상 식별부(130), 음성 인식부(140), 변수 설정부(150), 변수 DB(160) 및 식별 DB(170)를 포함할 수 있다.
음성인식 변수(Parameter)에는 최저 음성 변수와 신뢰도 변수가 있다. 최저 음성 변수는 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수이다. 예를 들어, 최저 음성 변수의 값이 작게 설정되면, 작은 목소리도 인식할 수 있으나 잡음의 영향이 증가하여 인식률이 낮아질 수 있다. 신뢰도 변수는 인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수이다. 예를 들어, 신뢰도 변수의 값이 크게 설정되면, 신뢰도는 높아지나 정확한 발음에도 거절되어 인식률이 낮아질 수 있다.
예를 들어, 성인의 경우 음성인식 변수 값이 큰 경우에 높은 인식률을 나타낸다. 반면에, 아동의 경우 작은 목소리와 불명확한 발음 특성상 음성인식 변수 값이 작은 경우에 높은 인식률을 나타낸다. 따라서 화자에 따라 음성인식 변수 값을 다르게 설정하면 인식률을 높이는 것이 가능하다.
입력부(110)는 화자의 영상을 카메라 등의 촬영 수단을 통해 입력 받는다. 또한 입력부(110)는 화자의 음성을 마이크 등의 입력 수단을 통해 입력 받는다. 한편, 입력부(110)는 외부 장치(도시하지 않음)에서 화자의 영상 또는 음성을 입력 받을 수도 있다.
출력부(120)는 화면에 표시 또는 음성으로 출력하는 등의 방법을 통해 입력 받은 영상정보에 대한 식별 결과 또는 음성정보에 대한 인식 결과를 제공한다. 또한 출력부(120)는 인식된 음성정보에 대응하는 메시지 등을 출력할 수 있다. 한편, 출력부(120)는 식별 결과, 인식 결과 또는 메시지 등을 외부 장치(도시하지 않음)로 제공할 수도 있다.
영상 식별부(130)는 영상정보로부터 추출된 특징을 기준으로 화자의 연령 또는 성별을 식별할 수 있다.
한편 실시예에 따라서 영상 식별부(130)는 입력 받은 영상정보로부터 화자를 식별할 수도 있다. 즉, 영상 식별부(130)는 영상정보로부터 특징을 추출하여 이에 대응되는 화자가 존재하는지 식별 DB(170)를 검색할 수 있다. 여기서 영상정보로부터 추출된 특징은 눈, 코, 귀, 입 등의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입 등의 길이 또는 폭), 얼굴의 골격, 주름 등을 의미한다. 이 경우 영상 식별부(130)는 영상정보로부터 추출된 특징에 대응되는 화자가 식별 DB(170)에 존재하지 않으면, 추출된 특징을 기준으로 화자의 연령 또는 성별을 식별하도록 구현할 수도 있다.
음성 인식부(140)는 설정된 음성인식 변수를 이용하여 화자의 음성을 인식한 다.
변수 설정부(150)는 영상 식별부(130)에서 식별된 화자에 대응되는 음성인식 변수를 설정한다. 즉, 변수 설정부(150)는 식별된 화자에 대응되는 음성인식 변수 값이 존재하는지 검색할 수 있다. 그리고 음성인식 변수 값이 존재하면, 변수 설정부(150)는 이를 변수 DB(160)에 저장하여 현재 설정된 음성인식 변수 값을 화자에 맞게 갱신할 수 있다. 또한, 변수 설정부(150)는 영상 식별부(130)에서 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수를 설정할 수 있다.
이하 도 2를 참고하여 음성인식 변수를 설정하는 부분에 대해 보다 자세히 설명한다.
(가)는 영상정보로부터 추출된 특징으로 화자를 식별할 수 있는 경우에 사용되는 테이블 정보이다. 예를 들어, 식별된 화자가 손오공인 경우에 이에 대응되는 음성인식 변수 값을 테이블 정보로부터 검색하여 이를 음성인식 시 이용되는 음성인식 변수 값으로 설정할 수 있다. 즉, 최저 음성 변수 값은 4.5, 신뢰도 변수 값은 -0.5로 설정할 수 있다.
(나)는 영상정보로부터 추출된 특징으로 화자의 연령을 식별하는 경우에 사용되는 테이블 정보이다. 예를 들어, 식별된 화자의 연령이 15세(아동)인 경우에 이에 대응되는 음성인식 변수 값을 테이블 정보로부터 검색하여 이를 음성인식 시 이용되는 음성인식 변수 값으로 설정할 수 있다. 즉, 최저 음성 변수 값은 4.5, 신뢰도 변수 값은 1.5로 설정할 수 있다.
(다)는 영상정보로부터 추출된 특징으로 화자의 성별을 식별하는 경우에 사 용되는 테이블 정보이다. 예를 들어, 식별된 화자의 성별이 여자인 경우에 이에 대응되는 음성인식 변수 값을 테이블 정보로부터 검색하여 이를 음성인식 시 이용되는 음성인식 변수 값으로 설정할 수 있다. 즉, 최저 음성 변수 값은 6, 신뢰도 변수 값은 -1.5로 설정할 수 있다.
물론, 화자의 연령과 성별을 조합하여, 이에 대응되는 음성인식 변수 값이 저장된 테이블 정보로 구현할 수도 있다. 예를 들어, 화자가 성인이고 남자, 화자가 성인이고 여자, 화자가 아동이고 남자 또는 화자가 아동이고 여자인 경우, 각각에 대응되는 음성인식 변수 값이 저장된 테이블 정보도 가능하다.
다시 도 1을 참고하면, 변수 DB(160)는 화자 식별 정보, 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장하고 있다. 그리고 변수 DB(160)는 현재 설정된 음성인식 변수 값을 저장하고 있다. 또한 변수 DB(160)는 연령 또는 성별, 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장하고 있다.
식별 DB(170)는 영상정보로부터 추출된 특징, 이에 대응되는 화자 이름 또는 ID 등의 화자 식별 정보 등을 저장하고 있다. 또한 식별 DB(170)는 영상정보로부터 추출된 특징, 이에 대응되는 연령 또는 성별 등을 저장하고 있다.
그러면 도 3을 참고하여, 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 방법에 대해 보다 상세히 설명한다.
도 3은 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 방법을 설명하기 위한 흐름도이다.
먼저 음성인식 장치(100)는 화자의 영상정보를 기초로 화자를 식별하는 데 이용되는 식별 DB(170)를 구축한다(S100). 그리고 음성인식 장치(100)는 식별된 화자에 최적화된 음성인식 변수 값을 실험적으로 구해 변수 DB(160)를 구축한다(S130).
그러면 음성인식 장치(100)는 화자의 영상을 카메라 등의 촬영 수단을 통해 입력 받은 화자의 영상정보를 기초로 음성인식 변수를 설정한다(S150). 한편, 음성인식 장치(100)는 외부의 장치(도시하지 않음)에서 화자의 영상을 입력 받을 수도 있다. 이후 음성인식 장치(100)는 설정된 음성인식 변수를 이용하여 마이크 등의 입력 수단을 통해 입력 받은 화자의 음성을 인식한다(S170).
이하 도 4 내지 도 6을 참고하여, 앞서 살펴본 단계(S150)에 대해 보다 자세히 설명한다.
도 4는 본 발명의 한 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.
식별 DB 구축 단계(S100)에서 음성인식 장치(100)는 미리 영상정보로부터 특징을 추출하여, 이에 대응되는 화자 이름 또는 ID 등의 화자 식별 정보 등을 저장할 수 있다. 또한 변수 DB 구축 단계(S130)에서 음성인식 장치(100)는 미리 식별된 화자에 최적화된 음성인식 변수 값을 실험적으로 구해, 화자 식별 정보와 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장할 수 있다.
먼저 음성인식 장치(100)는 입력 받은 영상정보로부터 화자를 식별한다(S151). 즉, 음성인식 장치(100)는 영상정보로부터 특징을 추출하여 이에 대응되는 화자가 존재하는지 식별 DB(170)를 검색할 수 있다.
다음으로 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수를 설정한다(S152). 즉, 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자에 맞게 갱신할 수 있다.
도 5는 본 발명의 다른 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.
식별 DB 구축 단계(S100)에서 음성인식 장치(100)는 미리 영상정보로부터 특징을 추출하여, 이에 대응되는 연령 또는 성별 등을 저장할 수 있다. 또한 변수 DB 구축 단계(S130)에서 음성인식 장치(100)는 미리 연령 또는 성별에 최적화된 음성인식 변수 값을 실험적으로 구해, 연령 또는 성별과 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장할 수 있다.
먼저 음성인식 장치(100)는 입력 받은 영상정보로부터 화자의 연령 또는 성별을 식별한다(S155). 즉, 음성인식 장치(100)는 영상정보로부터 추출된 특징을 기준으로 식별 DB(170)를 참조하여 화자의 연령 또는 성별을 식별할 수 있다.
다음으로 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수를 설정한다(S156). 즉, 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자의 연령 또는 성별에 맞게 갱신할 수 있다.
도 6은 본 발명의 또 다른 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.
식별 DB 구축 단계(S100)에서, 음성인식 장치(100)는 미리 영상정보로부터 특징을 추출하여, 이에 대응되는 화자 이름 또는 ID 등의 화자 식별 정보 또는 이에 대응되는 연령 또는 성별 등을 저장할 수 있다. 또한 변수 DB 구축 단계(S130)에서, 음성인식 장치(100)는 미리 식별된 화자, 연령 또는 성별에 최적화된 음성인식 변수 값을 실험적으로 구해, 화자 식별 정보, 연령 또는 성별과 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장할 수 있다.
먼저 음성인식 장치(100)는 입력 받은 영상정보로부터 화자를 식별한다(S161). 즉, 음성인식 장치(100)는 영상정보로부터 특징을 추출하여 이에 대응되는 화자가 존재하는지 식별 DB(170)를 검색할 수 있다.
화자가 식별된 경우(S162-Y)에는, 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수를 설정한다(S163). 즉, 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자에 맞게 갱신할 수 있다.
반면에, 화자가 식별되지 않는 경우(S162-N)에는, 음성인식 장치(100)는 입력 받은 영상정보로부터 화자의 연령 또는 성별을 식별한다(S164). 즉, 음성인식 장치(100)는 영상정보로부터 추출된 특징을 기준으로 식별 DB(170)를 참조하여 화자의 연령 또는 성별을 식별할 수 있다.
다음으로 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수를 설정한다(S165). 즉, 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자의 연령 또는 성별에 맞게 갱신할 수 있다.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 영상정보를 이용한 음성인식 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
도 1은 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 장치를 설명하기 위한 블록도이다.
도 2는 화자, 화자의 연령 또는 성별에 대응되는 음성인식 변수 값을 저장하고 있는 테이블 정보를 설명하기 위한 표이다.
도 3은 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 한 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 또 다른 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 음성인식 장치, 110: 입력부,
120: 출력부, 130: 영상 식별부,
140: 음성 인식부, 150: 변수 설정부,
160: 변수 DB, 170: 식별 DB

Claims (15)

  1. 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 단계, 그리고
    상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 단계
    를 포함하는 영상정보를 이용한 음성인식 방법.
  2. 제1항에서,
    상기 영상정보를 기초로 음성인식 변수 설정 단계는,
    상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 단계, 그리고
    식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 단계를 포함하는 영상정보를 이용한 음성인식 방법.
  3. 제2항에서,
    상기 화자 식별 단계는,
    상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 것으로 이루어지고,
    상기 변수 설정 단계는,
    상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 것으로 이루어진 영상정보를 이용한 음성인식 방법.
  4. 제1항에서,
    상기 영상정보를 기초로 음성인식 변수 설정 단계는,
    상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 단계, 그리고
    식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 단계를 포함하는 영상정보를 이용한 음성인식 방법.
  5. 제1항 내지 제4항 중 어느 한 항에서,
    상기 음성인식 변수는,
    상기 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수인 영상정보를 이용한 음성인식 방법.
  6. 제1항 내지 제4항 중 어느 한 항에서,
    상기 음성인식 변수는,
    인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수인 영상정보를 이용한 음성인식 방법.
  7. 제1항 내지 제4항 중 어느 한 항에서,
    상기 영상정보로부터 추출된 특징은,
    눈, 코, 귀, 입의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입의 길이 또는 폭), 얼굴의 골격, 주름 중 적어도 하나를 포함하는 영상정보를 이용한 음성인식 방법.
  8. 컴퓨터에 제1항 내지 제7항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
  9. 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 변수 설정부, 그리고
    상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 음성 인식부
    를 포함하는 영상정보를 이용한 음성인식 장치.
  10. 제9항에서,
    상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 영상 식별부를 더 포함하며,
    상기 변수 설정부는,
    식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행하 는 영상정보를 이용한 음성인식 장치.
  11. 제10항에서,
    상기 영상 식별부는,
    상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 동작을 수행하고,
    상기 변수 설정부는,
    상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행하는 영상정보를 이용한 음성인식 장치.
  12. 제9항에서,
    상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 영상 식별부를 더 포함하며,
    상기 변수 설정부는,
    식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행하는 영상정보를 이용한 음성인식 장치.
  13. 제9항 내지 제12항 중 어느 한 항에서,
    상기 음성인식 변수는,
    상기 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수인 영상정보 를 이용한 음성인식 장치.
  14. 제9항 내지 제12항 중 어느 한 항에서,
    상기 음성인식 변수는,
    인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수인 영상정보를 이용한 음성인식 장치.
  15. 제9항 내지 제12항 중 어느 한 항에서,
    상기 영상정보로부터 추출된 특징은,
    눈, 코, 귀, 입의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입의 길이 또는 폭), 얼굴의 골격, 주름 중 적어도 하나를 포함하는 영상정보를 이용한 음성인식 장치.
KR1020080063669A 2008-07-01 2008-07-01 영상정보를 이용한 음성인식 장치 및 방법 KR20100003672A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080063669A KR20100003672A (ko) 2008-07-01 2008-07-01 영상정보를 이용한 음성인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080063669A KR20100003672A (ko) 2008-07-01 2008-07-01 영상정보를 이용한 음성인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20100003672A true KR20100003672A (ko) 2010-01-11

Family

ID=41813421

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080063669A KR20100003672A (ko) 2008-07-01 2008-07-01 영상정보를 이용한 음성인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20100003672A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011130083A2 (en) * 2010-04-14 2011-10-20 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN107507620A (zh) * 2017-09-25 2017-12-22 广东小天才科技有限公司 一种语音播报声音设置方法、装置、移动终端及存储介质
EP3611723A1 (en) 2018-08-14 2020-02-19 Alticast Corporation Graphical user interface (gui) voice control apparatus and method
CN112287914A (zh) * 2020-12-27 2021-01-29 平安科技(深圳)有限公司 Ppt视频段提取方法、装置、设备及介质
US11468892B2 (en) 2019-10-10 2022-10-11 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling electronic apparatus

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011130083A2 (en) * 2010-04-14 2011-10-20 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
WO2011130083A3 (en) * 2010-04-14 2012-02-02 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US8635066B2 (en) 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN107507620A (zh) * 2017-09-25 2017-12-22 广东小天才科技有限公司 一种语音播报声音设置方法、装置、移动终端及存储介质
EP3611723A1 (en) 2018-08-14 2020-02-19 Alticast Corporation Graphical user interface (gui) voice control apparatus and method
KR20200019522A (ko) 2018-08-14 2020-02-24 주식회사 알티캐스트 Gui 음성제어 장치 및 방법
US11468892B2 (en) 2019-10-10 2022-10-11 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling electronic apparatus
CN112287914A (zh) * 2020-12-27 2021-01-29 平安科技(深圳)有限公司 Ppt视频段提取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US11238871B2 (en) Electronic device and control method thereof
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10733970B2 (en) Noise control method and device
US11380351B2 (en) System and method for pulmonary condition monitoring and analysis
US20210012766A1 (en) Voice conversation analysis method and apparatus using artificial intelligence
WO2015135364A1 (en) Noise control method and device
US11367443B2 (en) Electronic device and method for controlling electronic device
US20150310878A1 (en) Method and apparatus for determining emotion information from user voice
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
EP3866160A1 (en) Electronic device and control method thereof
KR20100003672A (ko) 영상정보를 이용한 음성인식 장치 및 방법
WO2019242402A1 (zh) 语音识别模型生成方法、装置、存储介质及电子设备
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
US12008988B2 (en) Electronic apparatus and controlling method thereof
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
JP2021156907A (ja) 情報処理装置および情報処理方法
JPWO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP2021113835A (ja) 音声処理装置および音声処理方法
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
CN110634498A (zh) 一种语音处理方法及设备
JP7468360B2 (ja) 情報処理装置および情報処理方法
CN110892475A (zh) 信息处理装置、信息处理方法和程序
US11942105B2 (en) Electronic device and method for determining abnormal noise
CN112912954B (zh) 电子装置及其控制方法

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E601 Decision to refuse application