KR101170612B1 - 사용자 영상을 이용한 음성인식 시스템 및 방법 - Google Patents

사용자 영상을 이용한 음성인식 시스템 및 방법 Download PDF

Info

Publication number
KR101170612B1
KR101170612B1 KR20080022345A KR20080022345A KR101170612B1 KR 101170612 B1 KR101170612 B1 KR 101170612B1 KR 20080022345 A KR20080022345 A KR 20080022345A KR 20080022345 A KR20080022345 A KR 20080022345A KR 101170612 B1 KR101170612 B1 KR 101170612B1
Authority
KR
South Korea
Prior art keywords
voice recognition
user
voice
string
strings
Prior art date
Application number
KR20080022345A
Other languages
English (en)
Other versions
KR20090097292A (ko
Inventor
김진식
Original Assignee
에스케이 텔레콤주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 텔레콤주식회사 filed Critical 에스케이 텔레콤주식회사
Priority to KR20080022345A priority Critical patent/KR101170612B1/ko
Publication of KR20090097292A publication Critical patent/KR20090097292A/ko
Application granted granted Critical
Publication of KR101170612B1 publication Critical patent/KR101170612B1/ko

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 사용자 영상을 이용한 음성인식 시스템 및 방법에 관한 것으로, 사용자의 음성 및 영상 정보가 수신되면 미리 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하고 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 제공하는 음성인식 DB 서버와, 상기 사용자의 음성 및 영상 정보에 대응된 문자열 리스트를 제공받아 상기 문자열 리스트 중 문자열이 선택되면 선택된 문자열이 음성인식 된 것으로 판단하고, 상기 선택된 문자열에 대응된 기능을 수행하는 이동통신 단말기를 포함하여 구성되는 데 기술적 특징이 있다. 이러한 본 발명에 따르면 음성인식 시 사용자 영상을 이용함으로써 소음이 있는 상태에서도 음성인식 성공률을 높일 수 있고, 음성인식 시 사용자 음성 및 사용자 영상에 해당하는 문자열들을 제공하고 그 중 선택된 문자열을 이용하여 음성인식을 수행함으로써 개인에게 최적화된 음성인식 수행을 가능하게 한다.

Description

사용자 영상을 이용한 음성인식 시스템 및 방법{Method and system for providing speech recognition by using user images}
본 발명은 음성인식 기술에 관한 것으로, 보다 상세하게는 사용자 영상을 이용하여 음성인식을 수행하는 기술에 관한 것이다. 특히 본 발명은 영상 통화가 가능한 PDA(Personal Digital Assistants), 셀룰라(cellular) 등과 같은 각종 이동통신 단말기에서 음성 인식 시 사용자의 음성 뿐만 아니라 사용자의 영상을 함께 이용하여 음성 인식을 수행할 수 하도록 하는 음성인식 시스템 및 방법에 관한 것이다.
음성인식 기술이 발전하면서 다양한 기술분야에 이용되고 있다. 특히 최근 이동통신 단말기가 현대인의 필수품이 되면서 이동통신 단말기에도 음성인식 기능이 접목되어 여러 가지 방식으로 이용되고 있다. 예를 들면, 이동통신 단말기는 사용자로부터 메뉴실행 명령 음성을 입력받아 메뉴를 실행하거나, 전화번호를 음성으로 입력받아 전화를 거는 등의 방식으로 음성인식 기술을 이용하고 있다.
이와 같이 이동통신 단말기에 음성인식 기술이 적용된 경우 사용자는 이동통신 단말기 사용 시 키패드(keypad), 터치스크린(touch screen) 등의 별도 입력장치 조작 없이 말을 하기만 하면 된다. 따라서 사용자들이 간편함과 동시에 재미를 느낄 수 있는 이점이 있어 이동통신 단말기에서의 음성인식 기능 이용이 활성화되고 있는 추세이다.
그런데 통상의 음성인식 이동통신 단말기는 주로 음성만으로 음성인식을 수행하기 때문에 소음에 따라 음성인식에 문제가 발생할 수 있다. 다시 말해 이동통신 단말기는 음성인식 시 소음이 없는 상태에서는 90%이상의 음성인식 성공률을 보이나, 소음이 있는 상태에서는 음성인식 성공률이 30%이하로 낮아져 실제 사용에 큰 문제점을 보이는 경우가 많다.
또한 음성인식 이동통신 단말기는 사용자의 음성인식 시 미리 정해진 정확한 음성이 입력되어야만 음성인식이 가능하므로, 소음이 없는 상태라 하더라도 불명확한 음성이 입력되면 음성인식이 실패하게 되는 문제점이 있다.
따라서 본 발명의 목적은 음성인식 시 사용자 음성과 함께 영상을 이용함으로써 소음이 있는 상태에서도 음성인식 성공률을 높일 수 있는 사용자 영상을 이용한 음성인식 시스템 및 방법을 제공하는 데 있다.
또한 본 발명의 다른 목적은 음성인식 시 사용자 음성 및 사용자 영상에 해 당하는 문자열들을 제공하고 그 중 선택된 문자열을 이용하여 음성인식을 수행하여 개인에게 최적화된 음성인식 수행이 가능한 사용자 영상을 이용한 음성인식 시스템 및 방법을 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명은 사용자 영상을 이용한 음성인식 시스템에 있어서, 사용자의 음성 및 영상 정보가 수신되면 미리 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하고 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 제공하는 음성인식 DB 서버와, 상기 사용자의 음성 및 영상 정보에 대응된 문자열 리스트를 제공받아 상기 문자열 리스트 중 문자열이 선택되면 선택된 문자열이 음성인식된 것으로 판단하고, 상기 선택된 문자열에 대응된 기능을 수행하는 이동통신 단말기를 포함하여 구성된다.
상기 목적을 달성하기 위한 다른 본 발명은 사용자 영상을 이용한 음성인식 방법에 있어서, 다수의 음성 및 영상 정보에 대응된 문자열들을 저장하는 음성인식 DB 서버가 음성인식을 위한 사용자의 음성 및 영상 정보를 수신하여 해당 문자열들을 추출하고, 미리 정해진 기준에 따른 우선순위로 정렬된 문자열 리스트를 생성하여 전송하는 단계와, 이동통신 단말기가 상기 문자열 리스트를 수신하고, 수신된 문자열 리스트 중 어느 하나의 문자열이 선택되면 선택된 문자열이 음성인식된 것으로 판단하고, 상기 선택된 문자열에 해당하는 기능을 수행하는 단계를 포함하여 구성된다.
상기 목적을 달성하기 위한 또 다른 본 발명은 사용자 영상을 이용한 음성인식 시스템의 음성인식 DB 서버로서, 다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 음성인식 DB와, 이동통신을 통해 외부로부터 음성인식을 위한 사용자의 음성 및 영상 정보를 수신하는 송수신부와, 상기 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 생성하고, 상기 문자열 리스트를 제공하도록 제어하는 음성인식 DB 제어부를 포함한다.
상기 목적을 달성하기 위한 또 다른 본 발명은 사용자 영상을 이용한 음성인식 시스템의 음성인식 DB 서버에서 음성인식 방법으로서, 다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 단계와, 외부로부터 음성인식을 위한 사용자의 음성 및 영상 정보를 수신하는 단계와, 상기 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하는 단계와, 상기 추출된 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 생성하는 단계와, 상기 문자열 리스트 중 선택된 문자열이 음성인식된 것으로 판단할 수 있도록 상기 문자열 리스트를 제공하는 단계를 포함한다.
상기 목적을 달성하기 위한 또 다른 본 발명은 사용자 영상을 이용한 음성인식 시스템의 이동통신 단말기로서, 사용자에 의한 음성인식 요구 및 문자열 선택을 입력받는 사용자 입력부와, 카메라를 통해 촬영된 사용자 영상 정보를 출력하는 영상 처리부와, 마이크를 통해 입력된 사용자 음성 정보를 출력하는 오디오 처리부와, 음성인식을 위한 사용자의 음성 및 영상 정보와 현재 사용중인 기능 정보를 송 신하는 무선부와, 상기 음성인식 요구에 입력에 따라 상기 사용자의 음성 및 영상 정보를 외부 서버로 송신하여 상기 사용자의 음성 및 영상에 대응된 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬한 문자열 리스트를 제공받고, 제공된 문자열 리스트 중 문자열이 선택되면 선택된 문자열에 해당하는 음성인식이 된 것으로 판단하고, 선택된 문자열에 해당하는 기능이 수행되도록 제어하는 단말 제어부를 포함한다.
상기 목적을 달성하기 위한 또 다른 본 발명은 사용자 영상을 이용한 음성인식 시스템의 이동통신단말기에서 음성인식 방법으로서, 사용자에 의한 음성인식 요구에 입력에 따라 상기 사용자의 음성 및 영상 정보를 외부로 송신하는 단계와, 상기 외부로부터 상기 사용자의 음성 및 영상에 대응된 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬한 문자열 리스트를 제공받는 단계와, 상기 제공된 문자열 리스트 중 문자열이 선택되면 선택된 문자열에 해당하는 음성인식이 된 것으로 판단하고 상기 선택된 문자열에 해당하는 기능을 수행하는 단계를 포함한다.
따라서 본 발명은 음성인식 시 사용자의 음성뿐만 아니라 사용자의 영상 정보(입모양, 표정)을 이용하여 음성인식을 하게 되므로 소음이 많은 지역에서도 음성인식 성공률을 높일 수 있는 효과가 있다.
또한 본 발명은 사용자에 따라 미리 정해진 우선순위를 이용하여 음성인식에 이용될 문자열을 제공하고 이를 이용하여 음성인식을 수행함으로써 사용자 개인 에게 최적화된 음성인식이 가능한 이점이 있다.
이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명한다. 도면에서 동일한 구성 요소들에 대해서는 비록 다른 도면에 표시되더라도 가능한 동일한 참조번호 및 부호로 나타내고 있음에 유의해야 한다. 또한 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
먼저 도 1은 본 발명의 실시 예에 따른 사용자 영상을 이용한 음성인식 시스템에 대한 구성도이다. 도 1을 참조하면, 이동통신 단말기(10)는 예컨대 PDA(Personal Digital Assistants), 셀룰라(Cellular) 등이 될 수 있으며, 단말기와 무선 구간을 연결하는 node B, node B를 제어하는 RNC (Radio Network Controller ; 무선망 제어기), 서버망과 연결하는 MSC (Mobile Switching Center : 이동 스위칭 센터) 를 거쳐 음성인식 DB(DataBase) 서버(50)와 통신을 수행한다.
먼저 이동통신 단말기(10)는 개인음성인식 DB 생성에 필요한 사용자의 음성 및 동영상 정보를 제공하고 그 사용자의 음성 및 동영상 정보에 대응된 문자열 리스트를 제공받는다. 그리고 이동통신 단말기(10)는 문자열 리스트 중 사용자로부터 선택된 특정 문자열을 음성인식 DB 서버(50)로 제공하여 사용자에게 최적화된 개인음성인식 DB가 생성되도록 한다. 이때 이동통신 단말기(10)는 사용자의 음성 및 동영상 정보 전송 시 그에 해당하는 문자열을 함께 음성인식 DB 서버(50)로 제공하여 사용자에게 최적화된 개인음성인식 DB가 생성되도록 할 수도 있다. 또한, 이동통신 단말기(10)는 음성인식이 필요한 경우 사용자의 음성 및 동영상 정보와 현재 사용중인 기능 정보(예컨대 현재 사용중인 특정 기능이나 메뉴 정보 또는 현재 사용중인 무선데이터 통신 기능이나 메뉴 정보 등)를 제공한다. 그리고 이동통신 단말기(10)는 사용자의 음성 및 동영상 정보와 현재 사용중인 기능 정보에 해당하는 문자열 리스트를 제공받으면 문자열 리스트 중 사용자에 의해 선택된 문자열에 해당하는 음성인식을 수행한다. 이러한 본 발명의 실시 예에 따른 음성인식은 사용자 요구에 따라 통상의 음성인식과정과 별도의 과정으로 이루어질 수도 있고 통상의 음성인식 수행 중 그 음성인식이 소음 등으로 이용될 수 없거나, 사용자에 최적화된 음성인식이 필요할 경우 자동적으로 수행될 수 있다.
한편, 음성인식 DB 서버(50)는 개인음성인식 DB 생성을 위한 사용자의 음성 및 동영상 정보가 제공되면, 음성인식 DB에서 그 사용자의 음성 및 동영상 정보에 해당하는 문자열들을 검색한다. 이때 음성인식 DB는 일반 사람들의 음성 및 동영상정보에 대응된 문자열들 저장하는 기본음성인식 DB 또는 이동통신 단말기 사용자의 음성 및 동영상정보에 해당하는 문자열들을 저장하는 개인음성인식 DB가 될 수 있다. 그리고 음성인식 DB 서버(50)는 검색된 문자열들을 미리 정해진 우선순위에 따라 리스트로 생성한다. 이때 문자열 리스트는 얼굴영상 분석에 의한 표정에 부합하는 순서, 음성인식 시 가장 이용횟수가 많은 문자열 순서, 가장 최근 이용된 문자열 순서 등의 우선 순위에 따라 생성될 수 있다. 이러한 음성인식 DB 서버(50)는 이동통신 단말기(10)를 통해 문자열 리스트 중 특정 문자열이 선택되면, 선택된 문 자열과 사용자의 음성 및 동영상 정보를 매칭시켜 개인음성인식 DB를 생성한다.
또한 음성인식 DB 서버(50)는 음성인식 시 사용자의 음성 및 동영상 정보와 현재 사용중인 기능 정보가 제공되면 음성인식 DB에서 사용자의 음성 및 동영상 정보에 해당하는 문자열들을 추출하여 미리 정해진 우선순위에 따라 문자열 리스트로 생성한다. 이때 음성인식 DB 서버(50)는 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서, 현재까지 선택된 문자열 순서, 최근 선택된 문자열 순서와 함께 현재 사용중인 기능 정보에 부합하는 순서에 따라 문자열 리스트를 생성할 수 있다. 이러한 음성인식 DB 서버(50)는 생성된 문자열 리스트를 이동통신 단말기(10)로 제공하여 사용자에 의해 선택된 문자열에 해당하는 음성인식이 수행되도록 한다.
상기한 바와 같이 본 발명의 실시 예에 따른 음성인식 시스템은 사용자의 음성 및 동영상 정보를 이용하여 음성인식을 위한 개인음성인식 DB를 생성하고, 음성인식 시 개인음성인식 DB를 이용하여 음성인식을 수행하게 된다. 이하에서는 개인음성인식 DB 생성 과정과 음성인식 과정을 각각 설명한다.
먼저 개인음성인식 DB 생성 과정을 설명하면, 도 2는 본 발명의 실시 예에 따른 사용자 영상을 이용한 음성인식 시스템에서 개인음성인식 DB 생성 흐름도이다.
도 2를 참조하면, 이동통신 단말기(10)는 개인음성인식 DB 생성을 위한 사용자의 음성 및 동영상 정보를 음성인식 DB 서버(50)로 전송한다.(S110) 이때 이동통신 단말기(10)는 영상통화 중 개인음성인식 DB 생성을 위한 사용자 음성 및 동영상 정보를 음성인식 DB 서버(50)로 전송할 수 있다. 이와 같이 영상 통화 중 개인음성 인식 DB를 생성하는 경우, 이동통신 단말기(10)는 영상 통화중인 상대측 단말기와의 영상통화 세션을 끊고(예컨대 3G-324M), 음성인식 DB 서버(50)와 연결한 후, 음성인식 DB 서버(50)를 경유하여 상대측 단말기와 다시 세션을 연결한다. 이러한 경우 음성인식 DB 서버(50)는 이동통신 단말기(10)와 상대측 단말기 간의 영상통화를 포워딩하여 영상통화가 지속되게 하면서 개인음성인식 DB 생성을 수행하게 된다.
사용자의 음성 및 동영상 정보를 수신하면, 음성인식 DB 서버(50)는 기본음성인식 DB 혹은 미리 생성된 개인음성인식 DB로부터 사용자의 음성 및 동영상 정보에 해당하는 문자열들을 추출한다. 여기서 사용자의 동영상정보는 사용자가 말할 때 촬영한 동영상 자체이거나, 그 동영상으로부터 추출된 입모양 벡터 정보, 얼굴 표정 벡터 정보 등을 포함하는 얼굴영상 정보가 될 수 있다. 그리고 음성인식 DB 서버(50)는 추출된 문자열들을 미리 정해진 우선순위에 따라 문자열 리스트로 생성한다.(S120) 여기서 기본음성인식 DB는 통상적인 사람들의 음성 및 동영상정보에 해당하는 문자열들을 미리 저장하는 DB이고, 개인음성인식 DB는 이동통신 단말기 사용자 개인의 음성 및 동영상정보에 해당하는 문자열들을 저장하는 DB이다. 본 발명의 실시 예에 따르면 음성인식 DB 서버(50)는 먼저 개인음성인식 DB를 검색하여 문자열 리스트를 생성하고, 개인음성인식 DB에 문자열이 없으면 기본음성인식 DB를 검색하여 리스트를 생성할 수 있다. 또한 음성인식 DB 서버(50)는 검색된 문자열들을 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서, 현재까지 음성인식에서 선택된 문자열 순서, 최근 선택된 문자열 순서 등의 우선순위에 따라 리스트로 생성할 수 있다. 여기서 상기 우선 순위 기준들은 사전에 무선데이터 통신으로 음성인 식 DB 서버(50)에 접속하여 변경이 가능하며, 음성인식 기능 수행 중에도 변경 가능하다.
사용자의 음성 및 동영상 정보에 해당하는 문자열 리스트 생성 후, 음성인식 DB 서버(50)는 문자열 리스트를 이동통신 단말기(10)로 전송한다.(S130) 문자열 리스트가 수신되면 이동통신 단말기(10)는 문자열 리스트 중 사용자가 원하는 문자열을 선택받고, 선택된 문자열을 음성인식 DB 서버(50)로 전송한다.(S140) 선택된 문자열이 수신되면 음성인식 DB 서버(50)는 선택된 문자열과 사용자의 음성 및 동영상 정보를 매칭시켜 개인음성인식 DB를 생성한다.(S150)
한편, 상기한 바와 같은 개인음성 인식 DB 생성 과정은 전술한 실시 예에만 한정되지 않으며 다른 방법으로도 수행될 수 있다. 예컨대 음성인식 DB 서버(50)는 사용자의 음성 및 동영상 정보와 그에 해당하는 문자열을 함께 수신하여 바로 저장함으로써 개인음성인식 DB를 생성할 수 있음은 당업자에게 명백하다.
한편, 음성인식 과정을 설명하면, 도 3은 본 발명의 실시 예에 따른 사용자 영상을 이용한 음성인식 시스템에서 음성인식 흐름도이다.
도 3을 참조하면, 이동통신 단말기(10)는 음성인식이 필요한 경우 음성인식 DB 서버(50)로 사용자 음성 및 동영상정보와 현재 사용중인 기능 정보를 전송한다. (S120) 예를 들면, 이동통신 단말기(10)는 특정 기능이나 메뉴 사용 중 또는 WAP(Wireless Application Protocol)이나 WEP(Wired Equivalent Privacy)을 이용한 무선데이터 통신 기능이나 메뉴 사용 중 음성인식이 필요한 경우 사용자에 의해 음성인식 버튼이 눌려지면 음성인식 DB 서버(50)와 연결한다. 그리고 이동통신 단말 기(10)는 음성인식 DB 서버(50)로 사용자 음성 및 동영상 정보와 현재 사용중인 특정 기능 혹은 메뉴 정보나 현재 사용중인 무선데이터 통신 기능 혹은 메뉴 정보를 전송한다. 여기서도 사용자의 동영상정보는 사용자가 말할 때 촬영한 동영상 자체이거나, 그 동영상으로부터 추출된 입모양 벡터 정보, 얼굴 표정 벡터 정보 등을 포함하는 얼굴영상 정보가 될 수 있다.
사용자 음성 및 동영상정보와 현재 사용중인 기능 정보가 수신되면, 음성인식 DB 서버(50)는 기본음성인식 DB 혹은 미리 생성된 개인음성인식 DB로부터 사용자의 음성 및 동영상 정보에 해당하는 문자열들을 추출한다. 그리고 나서 음성인식 DB 서버(50)는 추출된 문자열들을 미리 정해진 우선순위에 따라 문자열 리스트로 생성한다.(S220) 이때 음성인식 DB 서버(50)는 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서, 현재까지 선택된 문자열 순서, 최근 선택된 문자열 순서와 함께 현재 사용중인 기능 정보에 부합하는 순서에 따라 문자열 리스트를 생성할 수 있다. 여기서 상기 우선 순위 기준들은 사전에 무선데이터 통신으로 음성인식 DB 서버(50)에 접속하여 변경이 가능하며, 음성인식 기능 수행 중에도 변경 가능하다.
사용자의 음성 및 동영상 정보와 현재 사용중인 기능 정보에 대응된 문자열 리스트 생성이 완료되면, 음성인식 DB 서버(50)는 생성된 문자열 리스트를 이동통신 단말기(10)로 전송한다.(S230) 그리고 문자열 리스트가 수신되면, 이동통신 단말기(10)는 문자열 리스트 중 사용자가 원하는 문자열을 선택받고, 선택된 문자열이 음성인식된 것으로 판단하여 선택된 문자열에 해당하는 기능을 수행한다.(S240)
상기한 바와 같이 본 발명의 실시 예에 따르면 음성인식 시 사용자의 음성 뿐만 아니라 동영상 정보(입모양, 표정)을 이용하여 음성인식을 하게 되므로 음성만으로 음성인식을 수행할 때 보다 음성인식 성공률을 높일 수 있게 된다. 또한, 본 발명의 실시 예에 따르면 사용자 개인별 우선순위에 따라 음성인식에 이용될 문자열을 제공함으로써 개인에게 최적화된 음성인식을 가능하게 할 수 있게 된다.
이하 상기한 바와 같은 음성인식 시스템에서의 이동통신 단말기(10)와 음성인식 DB 서버(50)의 구성 및 동작을 좀더 구체적으로 설명한다.
먼저 음성인식 DB 서버(50)의 구성과 음성인식 DB 서버(50)가 개인음성인식 DB를 생성할 때의 동작을 도 4 및 도 5를 참조하여 설명하기로 한다.
도 4는 본 발명의 실시 예에 따른 음성인식 DB 서버(50)의 구성도이다. 도 4를 참조하면, 본 발명의 실시 예에 따른 음성인식 DB 서버(50)는 송수신부(52), 기본음성인식 DB(54), 개인음성인식 DB(56), 음성인식 DB 제어부(58)를 포함한다.
송수신부(52)는 무선통신 기능을 수행하며, 본 발명의 실시 예에서는 이동통신 단말기(10)와의 통신에 이용된다. 기본음성인식 DB(54) 통상적인 사람들의 음성 및 동영상정보에 해당하는 문자열들을 미리 저장한다. 개인음성인식 DB(56)는 이동통신 단말기 사용자 개인의 음성 및 동영상정보에 해당하는 문자열들을 저장한다. 음성인식 DB 제어부(58)는 음성인식 DB 서버(50)의 전반적인 동작을 제어하며, 본 발명의 실시 예에 따라 개인음성인식 DB를 생성하고, 음성인식 시 개인음성인식 DB 정보를 제공한다.
도 5는 본 발명의 실시 예에 따른 음성인식 DB 서버(50)의 개인음성인식 DB 생성 흐름도이다. 도 5를 참조하면, 음성인식 DB 제어부(58)는 이동통신 단말(10) 로부터 개인음성인식 DB 생성 요구 수신에 따라 송수신부(52)를 통해 이동통신 단말(10)과 세션을 연결한다.(S510)
세션이 연결되면, 음성인식 DB 제어부(58)는 송수신부(52)를 통해 단말(10)로부터 사용자 음성 및 얼굴영상 정보를 수신한다.(S515) 이때 사용자 동영상 정보를 수신한 후, 사용자 동영상으로부터 얼굴영상 정보(입모양 벡터정보, 표정 벡터 정보 등)를 추출할 수도 있다.
사용자 음성 및 얼굴영상 정보가 수신되면 음성인식 DB 제어부(58)는 미리 저장된 음성인식 정보를 읽어온다.(S520) 예컨대 음성인식 DB 제어부(58)는 기본음성인식 DB(54) 혹은 미리 생성된 개인음성인식 DB(56)에 저장된 정보를 읽어온다.
그리고 음성인식 DB 제어부(58)는 사용자 음성에 포함된 소음이 임계치 이상인지 판단한다.(S525) 만약 소음이 임계치 이상이면 음성인식 DB 제어부(58)는 읽어온 기본음성인식 DB(54) 혹은 미리 생성된 개인음성인식 DB(56)에 저장된 정보로부터 얼굴영상 정보에 대응된 문자열을 추출한다.(S530) 그리고 나서 음성인식 DB 제어부(58)는 추출된 문자열들 중 음성 정보에 대응된 문자열을 추출한다.(S535) 이때 음성인식 DB 제어부(58)는 먼저 개인음성인식 DB(54)를 검색한 후, 개인음성인식 DB(54)에 문자열이 없으면 기본음성인식 DB(56)를 검색할 수 있다.
만약 소음이 임계치 이상이 아니면 음성인식 DB 제어부(58)는 읽어온 기본음성인식 DB(54) 혹은 미리 생성된 개인음성인식 DB(56)에 저장된 정보로부터 음성 정보에 대응된 문자열들을 추출한다.(S540) 그리고 나서 음성인식 DB 제어부(58)는 추출된 문자열들 중 얼굴영상 정보에 대응된 문자열을 추출한다.(S545)
문자열이 추출되면, 음성인식 DB 제어부(58)는 미리 정해진 기준에 따라 추출된 문자열들의 우선순위를 결정한다.(S550) 이때 미리 정해진 기준은 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서(예컨대 긍정/부정), 현재까지 선택된 문자열 순서, 최근 선택된 문자열 등이 될 수 있다. 그리고 상기 우선 순위 기준들은 사전에 사용자의 요구에 따라 새로운 기준들로 등록이 가능하며 기 등록된 기준의 변경이 가능하다.
우선순위가 결정되면, 음성인식 DB 제어부(58)는 우선순위에 따라 문자열 리스트를 생성하고, 문자열 리스트를 송수신부(52)를 통해 이동통신 단말기(10)로 전송한다.(S555) 이때 이동통신 단말(10)은 문자열 리스트가 수신되면 사용자가 원하는 문자열을 선택받아 다시 음성인식 DB 서버(50)로 전송하게 된다.
이에 따라 음성인식 DB 제어부(58)는 송수신부(52)를 통해 이동통신 단말기(10)로부터 사용자에 의해 선택된 문자열을 수신한다.(S560) 선택된 문자열이 수신되면 음성인식 DB 제어부(58)는 사용자 음성 및 얼굴영상 정보와 선택된 문자열을 매칭시켜 저장함으로써 개인음성인식 DB를 생성한다.(S565) 이에 따라 이동통신 단말기(10)는 상기 생성된 개인음성인식 DB를 이용하여 음성인식 기능을 수행할 수 있게 된다. 개인음성인식 DB에 저장된 정보가 증가할수록 개인 음성인식 DB는 최적화되며, 인식성공률이 상승하게 된다.
개인 음성인식 DB의 구성단위에는 음성정보 (예컨대 음성 특징벡터 등), 영상정보 (예컨대 입모양 특징벡터, 표정 특징벡터 등), 음성 및 영상정보에 대응하는 문자열 등이 포함될 수 있다. 또한 이동통신 단말기는 음성인식 시 사용자와 음 성 및 영상정보와 현재 사용중인 기능정보 (예컨대 현재 사용중인 특정 기능이나 메뉴정보 또는 현재 사용중인 무선데이터 통신 기능이나 메뉴 정보 등)를 제공하므로 개인 음성인식 DB에는 이러한 정보도 함께 저장될 수 있다. 그 밖에도 현재까지 사용자에 의하여 음성인식에서 선택된 횟수와 최근 선택날짜도 함께 저장되어 있어 개인 음성인식 DB에서 음성 또는 영상 정보에 맞는 문자열 리스트를 추출할 때 함께 전송할 수 있다.
이제부터는 이동통신 단말기(10)의 구성과 이동통신 단말기(10)가 개인음성인식 DB를 이용하여 음성인식을 수행할 때의 동작을 도 6 및 도 7을 참조하여 설명하기로 한다.
도 6은 본 발명의 실시 예에 따른 이동통신 단말기(10)의 구성도이다. 도 6을 참조하면, 무선부(12)는 송신되는 신호의 주파수를 상승변환 및 증폭하는 송신기와, 수신되는 신호를 저잡음 증폭하고 주파수를 하강 변환하는 수신기 등을 포함하며, 무선 통신 기능을 수행한다. 본 발명의 실시 예에서는 음성인식 DB 서버(50)와의 통신에 이용된다.
데이터 처리부(14)는 송신되는 신호를 부호화 및 변조하는 변조기 및 수신되는 신호를 복조 및 복호화하는 복조기 등을 구비한다. 데이터 처리부(14)는 모뎀(modem) 및 코덱(codec)으로 구성될 수 있으며, 코덱은 패킷 데이터등을 처리하는 데이터 코덱과 음성 등의 오디오 신호를 처리하는 오디오 코텍으로 이루어질 수 있다. 이러한 데이터 처리부(14)는 영상 통화 시 또는 사용자 동영상 촬영 시 영상 데이터와 음성 데이터를 코덱을 사용하여 디지털 신호와 아날로그 신호로 변환한 다.
오디오 처리부(16)는 데이터 처리부(14)의 오디오 코덱에서 출력되는 오디오 신호를 재생하거나, 마이크로부터 발생되는 송신 오디오 신호를 데이터 처리부(14)의 오디오 코덱에 전송한다. 즉, 사용자의 음성 신호를 입력받아 데이터 처리부(14)의 오디오 코덱에 전송하게 된다.
사용자 입력부(18)는 키패드 또는 터치스크린 등으로 구성될 수 있으며, 사용자에 의해 버튼이 눌려지거나 터치되면, 사용자 입력 신호를 제어부(22)로 전달한다.
메모리(20)는 프로그램 메모리 및 데이터 메모리들로 구성될 수 있으며, 프로그램 메모리에는 이동통신 단말기의 일반적인 동작을 제어하기 위한 프로그램들이 저장되고, 데이터 메모리에는 프로그램들을 수행하는 중에 발생되는 데이터들을 일시 저장한다. 본 발명의 실시 예에 따르면 메모리(20)에는 개인음성인식 DB 생성에 필요한 사용자 음성 및 동영상 정보가 저장될 수 있다.
단말 제어부(22)는 이동통신 단말기(10)의 전반적인 동작을 제어하며, 본 발명의 실시 예에 따라 개인음성인식 DB 생성과정을 제어하고, 개인음성인식 DB를 이용한 음성인식 과정을 제어한다.
카메라(24)는 사용자의 영상을 촬영하여 영상신호를 출력하고, 영상 처리부(26)는 카메라(24)로부터 출력되는 영상신호를 이미지 신호로 변환한다. 또한 영상 처리부(26)는 이미지 신호를 표시하기 위한 화면 데이터를 출력하고, 단말 제어부(22)의 제어 하에 이미지 신호 및 화면 데이터를 표시부(28)이 규격에 맞춰 전송 한다.
표시부(28)는 LCD(Liquid Crystal Display:액정 표시 장치)등으로 구성될 수 있으며, 제어부(22)의 제어 하에 이동통신 단말기 기능 수행 중 발생하는 표시 데이터를 표시한다. 이러한 표시부(114)는 특히 영상통화 시 영상 처리부 (26)로부터 출력되는 영상 신호를 영상통화 화면으로 표시한다.
도 7은 본 발명의 실시 예에 따른 이동통신 단말기(10)의 음성인식 흐름도이다. 도 7을 참조하면, 제어부(22)는 사용자로부터 개인음성인식 DB를 이용한 음성인식 요구를 입력받는다.(S710) 이때 제어부(22)는 특정 기능이나 메뉴 사용 중 또는 WAP이나 WEP을 이용한 무선데이터 통신기능이나 메뉴 이용중 사용자에 의한 사용자 입력부(18)의 버튼 누름에 의해 음성인식 요구를 입력 받을 수 있다.
음성인식 요구가 있으면, 제어부(22)는 현재 사용중인 기능을 파악한다.(S720) 즉, 사용자가 현재 이동통신 단말기의 어떤 기능을 사용하고 있었는지를 판단한다. 예컨대 만약 사용자가 아무 기능도 이용하고 있지 않은 상태라면 대기 상태로 판단하고, 특정 기능이나 메뉴를 이용하고 있었다면 해당 기능을 현재 사용중인 기능으로 파악한다.
현재 사용중인 기능이 파악되면, 제어부(22)는 카메라(24)를 통해 사용자의 음성을 녹음하고 동영상을 촬영한다.(S730) 이때 사용자의 음성발음에 의한 얼굴 표정 및 입모양이 명확히 촬영되는 것이 바람직하다.
사용자 음성 녹음과 동영상 촬영이 완료되면, 제어부(22)는 사용자 동영상으로부터 사용자 얼굴영상 정보를 추출한다.(S740) 예컨대 사용자가 말할 때의 입모 양 벡터정보 및 얼굴 표정 벡터정보를 추출한다.
그리고 제어부(22)는 미리 파악된 현재 사용중인 기능 정보와 녹음된 사용자 음성 그리고 추출된 얼굴영상 정보를 무선부(12)를 통해 음성인식 DB 서버(50)로 전송한다.(S750) 그러면 음성인식 DB 서버(50)는 사용자의 음성 및 동영상 정보에 해당하는 문자열들을 추출한다. 그리고 음성인식 DB 서버(50)는 추출된 문자열들을 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서, 현재까지 선택된 문자열 순서, 최근 선택된 문자열 순서와 함께 현재 사용중인 기능 정보에 부합하는 순서에 따라 문자열 리스트를 생성하여 다시 단말(10)로 전송하게 된다.
이에 따라 제어부(22)는 해당 문자열 리스트가 수신되는지 판단한다.(S760) 만약 해당 문자열 리스트가 수신되면, 제어부(22)는 사용자 입력부(18)를 통해 문자열 리스트 중 사용자로부터 특정 문자열을 선택받는다.(S770) 그리고 특정 문자열이 선택되면 제어부(22)는 선택된 문자열이 음성인식된 것으로 판단하고,선택된 문자열에 해당하는 기능을 수행한다.(S780)
그러나 해당 문자열 리스트가 수신되지 않으면, 제어부(22)는 화자독립방식의 음성인식을 수행한다. 화자독립방식의 음성인식이란 이동통신 단말기 내에 통상적인 사람들의 음성 및 동영상정보에 해당하는 문자열들을 미리 저장하는 기본음성인식 DB를 구비하고 이를 이용하여 음성인식을 수행하는 것을 말한다. 이러한 화자독립방식의 음성인식을 위해 제어부(22)는 기본음성인식 DB에서 음성 및 얼굴 영상 정보에 대응된 문자열을 추출한다.(S762) 이때 제어부(22)는 음성 정보에 대응된 문자열들을 추출한 후, 추출된 문자열들 중 얼굴 영상 정보에 대응된 문자열을 추 출하는 것이 바람직하다.
그리고 문자열이 추출되면, 제어부(22)는 미리 정해진 기준에 따라 추출된 문자열들의 우선순위를 결정한다.(S764) 이때 미리 정해진 기준은 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서(예컨대 긍정/부정), 현재까지 선택된 문자열 순서, 최근 선택된 문자열 등이 될 수 있다. 그리고 상기 우선 순위 기준들은 사전에 사용자의 요구에 따라 새로운 기준들로 등록이 가능하며 기 등록된 기준의 변경이 가능하다.
또한 우선순위가 결정되면, 제어부(22)는 우선순위에 따라 문자열 리스트를 생성하고, 문자열 리스트를 표시부(28)를 통해 표시한다.(S766)
그리고 나서 제어부(2)는 전술한 바와 같은 S770 단계 내지 S780단계를 수행함으로써 음성 인식을 수행하게 된다.
따라서 상기한 바와 같은 본 발명의 실시 예에 다른 음성인식 기능을 이용하면, 사용자 개인마다 다른 다양한 조건에 따라 음성인식이 수행되므로 개인에게 최적화된 음성인식 수행이 가능하다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.
전술한 본 발명은 이동통신 단말기 또는 이동통신 단말기 내에 탑재되어 음성인식 서비스를 제공하는 어플리케이션에 적용될 수 있으며, 특히 영상통화가 가능한 이동통신 단말기에서 사용자의 음성뿐만 아니라 얼굴 영상에 대응된 문자열을 이용하여 음성인식을 수행함으로써 소음이 있는 경우 음성인식 서비스를 제공하는데 이용될 수 있다. 또한 음성인식 시 이용되는 문자열을 사용자 개인의 조건에 따른 우선순위에 따라 제공함으로써 사용자에 최적화된 음성인식 서비스를 제공하도록 하는 데 활용될 수 있다.
도 1은 본 발명의 실시 예에 따른 사용자 영상을 이용한 음성인식 시스템 구성도
도 2는 본 발명의 실시 예에 따른 사용자 영상을 이용한 음성인식 시스템에서 개인음성인식 DB 생성 흐름도
도 3은 본 발명의 실시 예에 따른 사용자 영상을 이용한 음성인식 시스템에서 음성인식 흐름도
도 4는 본 발명의 실시 예에 따른 음성인식 DB 서버의 구성도
도 5는 본 발명의 실시 예에 따른 음성인식 DB 서버의 개인음성인식 DB 생성 동작 흐름도
도 6은 본 발명의 실시 예에 따른 이동통신 단말기의 구성도
도 7은 본 발명의 실시 예에 따른 이동통신 단말기의 음성인식 동작 흐름도
<도면의 주요 부분에 대한 부호의 설명>
10 : 이동통신 단말기 22 : 단말 제어부
12 : 무선부 24 : 카메라
14 : 데이터 처리부 26 : 영상처리부
16 : 오다오 처리부 28 : 표시부
18 : 사용자 입력부 50 : 음성인식 DB 서버
20 : 메모리 52 : 송수신부
54 : 기본 음성인식 DB
56 : 개인 음성인식 DB
58 : 음성인식 DB

Claims (35)

  1. 사용자 영상을 이용한 음성인식 시스템에 있어서,
    사용자의 음성 및 영상 정보가 수신되면 미리 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하고 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 제공하는 음성인식 DB 서버와,
    상기 사용자의 음성 및 영상 정보에 대응된 문자열 리스트를 제공받아 상기 문자열 리스트 중 문자열이 선택되면 선택된 문자열이 음성인식된 것으로 판단하고, 상기 선택된 문자열에 대응된 기능을 수행하는 이동통신 단말기를 포함하여 구성되고,
    상기 음성인식 DB 서버는,
    통상적인 사람들에 대한 다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 기본음성인식 DB와 상기 사용자에 대한 다수의 음성 및 영상정보에 해당하는 문자열들을 저장하는 개인음성인식 DB를 구비함을 특징으로 하는 사용자 영상을 이용한 음성인식 시스템.
  2. 제1항에 있어서,
    상기 사용자의 영상 정보는 사용자의 얼굴영상으로서 입모양 벡터 정보, 얼굴 표정 벡터 정보 중 어느 하나 이상을 포함함을 특징으로 하는 사용자 영상을 이용한 음성 인식 시스템.
  3. 제1항에 있어서,
    상기 미리 정해진 기준은 현재의 얼굴영상 분석에 의한 표정에 부합하는 순 서, 현재까지 선택된 문자열 순서, 최근 선택된 문자열 순서, 현재 사용중인 기능 정보에 부합하는 순서 중 어느 하나 이상을 포함함을 특징으로 하는 사용자 영상을 이용한 음성 인식 시스템.
  4. 제1항에 있어서,
    상기 미리 정해진 기준은 사용자가 상기 이동통신 단말기를 통해 상기 음성인식 DB 서버에 접속하여 등록 및 변경이 가능함을 특징으로 하는 사용자 영상을 이용한 음성인식 시스템.
  5. 삭제
  6. 제1항에 있어서, 상기 개인음성인식 DB는,
    상기 사용자에 대한 다수의 음성정보, 상기 사용자에 대한 다수의 영상정보, 상기 음성 및 영상정보에 해당하는 문자열, 현재 이동통신 단말기에서 사용중인 기능이나 메뉴 정보, 현재까지 음성인식의 결과로 선택된 횟수, 최근에 음성인식으로 선택된 날짜 중 어느 하나 이상을 포함하여 구성되는 것을 특징으로 하는 사용자 영상을 이용한 음성인식 시스템.
  7. 제1항에 있어서, 상기 음성인식 DB 서버는,
    상기 개인음성인식 DB를 검색한 후, 상기 개인음성인식 DB에 해당 문자열이 없으면 기본음성인식 DB를 검색하여 상기 사용자의 음성 및 영상정보에 대응된 문자열을 추출함을 특징으로 하는 사용자 영상을 이용한 음성인식 시스템.
  8. 제1항에 있어서, 상기 음성인식 DB 서버는,
    상기 사용자의 음성 정보에 포함된 소음이 임계치 이상이면 미리 저장된 문자열들 중 사용자의 영상 정보에 대응된 문자열을 추출하고, 추출된 문자열들 중 사용자의 음성 정보에 대응된 문자열을 추출함을 특징으로 함을 특징으로 하는 사용자 영상을 이용한 음성인식 시스템.
  9. 제1항에 있어서, 상기 음성인식 DB 서버는,
    개인음성인식 DB 생성을 위한 사용자의 음성 및 영상 정보에 해당하는 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 제공하고, 사용자에 의해 선택된 문자열과 상기 사용자의 음성 및 동영상 정보를 매칭시켜 상기 개인음성인식 DB를 생성함을 특징으로 하는 사용자 영상을 이용한 음성인식 시스템.
  10. 제1항에 있어서, 상기 이동통신 단말기는,
    상기 문자열 리스트가 제공되지 않으면, 내부의 기본음성인식 DB에서 사용자의 음성 및 영상 정보에 해당하는 문자열들을 추출하여 미리 정해진 기준에 따른 우선순위를 가지는 문자열 리스트로 표시하고, 문자열 리스트 중 어느 하나의 문자열이 선택되면 선택된 문자열이 음성인식된 것으로 판단하여 상기 선택된 문자열에 해당하는 기능을 수행함을 특징으로 하는 사용자 영상을 이용한 음성인식 시스템.
  11. 사용자 영상을 이용한 음성인식 방법에 있어서,
    다수의 음성 및 영상 정보에 대응된 문자열들을 저장하는 음성인식 DB 서버가 음성인식을 위한 사용자의 음성 및 영상 정보를 수신하여 해당 문자열들을 추출하고, 미리 정해진 기준에 따른 우선순위로 정렬된 문자열 리스트를 생성하여 전송하는 단계와,
    이동통신 단말기가 상기 문자열 리스트를 수신하고, 수신된 문자열 리스트 중 어느 하나의 문자열이 선택되면 선택된 문자열이 음성인식된 것으로 판단하고, 상기 선택된 문자열에 해당하는 기능을 수행하는 단계를 포함하고,
    상기 음성인식 DB 서버는,
    통상적인 사람들에 대한 다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 기본음성인식 DB와 상기 사용자에 대한 다수의 음성 및 영상정보에 해당하는 문자열들을 저장하는 개인음성인식 DB를 구비함을 특징으로 하는 사용자 영상을 이용한 음성인식 방법.
  12. 제11항에 있어서,
    상기 음성인식 DB 서버가 사용자의 음성 및 영상정보를 수신하여 문자열들을 추출하고, 추출된 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬하여 개인음성인식 DB 생성을 위한 문자열 리스트를 제공하는 단계와,
    상기 이동통신 단말기가 개인음성인식 DB 생성을 위한 문자열 리스트를 수신하고, 수신된 문자열 리스트 중 어느 하나의 문자열이 선택되면 선택된 문자열과 상기 사용자의 음성 및 동영상 정보를 매칭시켜 저장하여 상기 개인음성인식 DB를 생성하는 단계를 더 포함함을 특징으로 하는 사용자 영상을 이용한 음성인식 방법.
  13. 제11항 또는 제12항에 있어서, 상기 저장된 문자열들 중 해당 문자열을 추출하는 단계는,
    상기 사용자 음성 정보에 포함된 소음이 임계치 이상인지 판단하는 단계와,
    상기 소음이 임계치 이상이면 미리 저장된 문자열들 중 사용자의 영상 정보에 대응된 문자열을 추출하는 단계와,
    상기 추출된 문자열들 중 사용자의 음성 정보에 대응된 문자열을 추출하는 단계를 포함함을 특징으로 함을 특징으로 하는 사용자 영상을 이용한 음성인식 방법.
  14. 제11항에 있어서,
    상기 사용자의 영상 정보는 사용자의 얼굴영상으로서 입모양 벡터 정보, 얼굴 표정 벡터 정보 등을 포함함을 특징으로 하는 음성인식 방법.
  15. 제11항에 있어서,
    상기 미리 정해진 기준은 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서, 현재까지 선택된 문자열 순서, 최근 선택된 문자열 순서, 현재 사용중인 기능 정보에 부합하는 순서 중 어느 하나 이상을 포함함을 특징으로 하는 사용자 영상을 이용한 음성 인식 방법.
  16. 삭제
  17. 제11항에 있어서, 상기 저장된 문자열들 중 해당 문자열을 추출하는 과정은,
    상기 개인음성인식 DB에서 해당 문자열을 추출하는 단계와,
    상기 해당 문자열이 없으면 기본음성인식 DB에서 해당 문자열을 추출하는 단계를 포함함을 특징으로 하는 사용자 영상을 이용한 음성인식 방법.
  18. 제11항에 있어서,
    상기 이동통신 단말기가 상기 문자열 리스트가 수신되지 않으면, 내부의 기본음성인식 DB에서 사용자의 음성 및 영상 정보에 해당하는 문자열들을 추출하여 미리 정해진 기준에 따른 우선순위를 가지는 문자열 리스트로 표시하고, 문자열 리스트 중 어느 하나의 문자열이 선택되면 선택된 문자열이 음성인식된 것으로 판단하여 상기 선택된 문자열에 해당하는 기능을 수행하는 단계를 더 포함함을 특징으로 하는 사용자 영상을 이용한 음성인식 방법.
  19. 사용자 영상을 이용한 음성인식 시스템의 음성인식 DB 서버로서,
    다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 음성인식 DB와,
    이동통신을 통해 외부로부터 음성인식을 위한 사용자의 음성 및 영상 정보를 수신하는 송수신부와,
    상기 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 생성하고, 상기 문자열 리스트를 제공하도록 제어하는 음성인식 DB 제어부를 포함하고,
    상기 음성인식 DB는,
    통상적인 사람들에 대한 다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 기본음성인식 DB와 상기 사용자에 대한 다수의 음성 및 영상정보에 해당하는 문자열들을 저장하는 개인음성인식 DB로 이루어짐을 특징으로 하는 음성인식 DB 서버.
  20. 제19항에 있어서,
    상기 사용자의 영상 정보는 사용자의 얼굴영상으로서 입모양 벡터 정보, 얼굴 표정 벡터 정보 중 어느 하나 이상을 포함함을 특징으로 하는 음성인식 DB 서버.
  21. 제19항에 있어서,
    상기 미리 정해진 기준은 현재의 얼굴영상 분석에 의한 표정에 부합하는 순서, 현재까지 선택된 문자열 순서, 최근 선택된 문자열 순서, 현재 사용중인 기능 정보에 부합하는 순서 중 어느 하나 이상을 포함함을 특징으로 하는 음성인식 DB 서버.
  22. 제19항에 있어서,
    상기 미리 정해진 기준은 이동통신 단말기를 통해 상기 음성인식 DB 서버에 접속하여 등록 및 변경이 가능함을 특징으로 하는 음성인식 DB 서버.
  23. 삭제
  24. 사용자 영상을 이용한 음성인식 시스템의 음성인식 DB 서버에서 음성인식 방법으로서,
    다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 단계와,
    외부로부터 음성인식을 위한 사용자의 음성 및 영상 정보를 수신하는 단계와,
    상기 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하는 단계와,
    상기 추출된 문자열들을 미리 정해진 기준에 따른 우선순위로 정렬하여 문자열 리스트를 생성하는 단계와,
    상기 문자열 리스트 중 선택된 문자열이 음성인식된 것으로 판단할 수 있도록 상기 문자열 리스트를 제공하는 단계를 포함하고,
    상기 음성인식 DB 서버는,
    통상적인 사람들에 대한 다수의 음성 및 영상 정보에 해당하는 문자열들을 저장하는 기본음성인식 DB와 상기 사용자에 대한 다수의 음성 및 영상정보에 해당하는 문자열들을 저장하는 개인음성인식 DB를 구비함을 특징으로 하는 음성인식 DB 서버에서 음성인식 방법
  25. 제24항에 있어서, 상기 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하는 단계는,
    상기 사용자 음성 정보에 포함된 소음이 임계치 이상인지 판단하는 단계와,
    상기 소음이 임계치 이상이면 미리 저장된 문자열들 중 사용자의 영상 정보에 대응된 문자열을 추출하는 단계와,
    상기 추출된 문자열들 중 사용자의 음성 정보에 대응된 문자열을 추출하는 단계를 포함함을 특징으로 함을 특징으로 하는 음성인식 DB 서버에서 음성인식 방법
  26. 삭제
  27. 제24항에 있어서, 상기 저장된 문자열들 중 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하는 단계는,
    상기 개인음성인식 DB에서 상기 수신된 사용자의 음성 및 영상 정보에 대응된 문자열들을 추출하는 단계와,
    상기 대응된 문자열들이 없으면 기본음성인식 DB에서 해당 문자열을 추출하는 단계를 포함함을 특징으로 하는 음성인식 DB 서버에서 음성인식 방법.
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
KR20080022345A 2008-03-11 2008-03-11 사용자 영상을 이용한 음성인식 시스템 및 방법 KR101170612B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20080022345A KR101170612B1 (ko) 2008-03-11 2008-03-11 사용자 영상을 이용한 음성인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20080022345A KR101170612B1 (ko) 2008-03-11 2008-03-11 사용자 영상을 이용한 음성인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20090097292A KR20090097292A (ko) 2009-09-16
KR101170612B1 true KR101170612B1 (ko) 2012-08-03

Family

ID=41356669

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20080022345A KR101170612B1 (ko) 2008-03-11 2008-03-11 사용자 영상을 이용한 음성인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101170612B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020101174A1 (ko) * 2018-11-15 2020-05-22 삼성전자 주식회사 개인화 립 리딩 모델 생성 방법 및 장치
KR102171751B1 (ko) * 2020-01-10 2020-10-29 최혜린 별정 통신 기반의 음성 서비스 제공 방법 및 장치

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101092820B1 (ko) 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
WO2015005679A1 (ko) * 2013-07-09 2015-01-15 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
KR101701952B1 (ko) * 2015-07-27 2017-02-02 오드컨셉 주식회사 검색 정보를 표시하는 방법, 장치 및 컴퓨터 프로그램
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10863971B2 (en) 2018-11-30 2020-12-15 Fujifilm Sonosite, Inc. Touchless input ultrasound control
KR20200073733A (ko) * 2018-12-14 2020-06-24 삼성전자주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199552A (ja) 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199552A (ja) 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020101174A1 (ko) * 2018-11-15 2020-05-22 삼성전자 주식회사 개인화 립 리딩 모델 생성 방법 및 장치
KR102171751B1 (ko) * 2020-01-10 2020-10-29 최혜린 별정 통신 기반의 음성 서비스 제공 방법 및 장치
KR20210102149A (ko) * 2020-01-10 2021-08-19 최혜린 음성 메시지를 설정에 따라 사용자에게 제공하는 어플리케이션이 실행되는 단말
KR102313873B1 (ko) 2020-01-10 2021-10-15 최혜린 음성 메시지를 설정에 따라 사용자에게 제공하는 어플리케이션이 실행되는 단말

Also Published As

Publication number Publication date
KR20090097292A (ko) 2009-09-16

Similar Documents

Publication Publication Date Title
KR101170612B1 (ko) 사용자 영상을 이용한 음성인식 시스템 및 방법
CN108289244B (zh) 视频字幕处理方法、移动终端及计算机可读存储介质
JP6110503B2 (ja) テレビ通話装置
JP2004349851A (ja) 携帯端末、画像通信プログラム、及び画像通信方法
KR100678212B1 (ko) 휴대단말기의 감정정보 제어방법
JP2008544629A (ja) 文字メッセージに含まれている電話番号にハイパーリンク機能を提供する移動通信端末機及びその方法
CN101971250A (zh) 具有活动语音识别的移动电子设备
CN107592415B (zh) 语音发送方法、终端和计算机可读存储介质
CN104394265A (zh) 基于移动智能终端的自动会话方法及装置
CN107786427B (zh) 一种信息交互方法、终端和计算机可读存储介质
CN109302528B (zh) 一种拍照方法、移动终端及计算机可读存储介质
KR101052343B1 (ko) 통화 중 음성 인식에 의한 정보 제공이 가능한 이동 단말 및 그 이동 단말에서의 정보 제공 방법
CN112612598A (zh) 防沉迷方法、移动终端及计算机可读存储介质
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
CN109167880B (zh) 双面屏终端控制方法、双面屏终端及计算机可读存储介质
CN110188364B (zh) 基于智能眼镜的翻译方法、设备及计算机可读存储介质
CN110121879B (zh) 识别通话对象身份的方法和终端设备
CN113329263B (zh) 一种游戏视频集锦制作方法、设备及计算机可读存储介质
CN112562639B (zh) 音频处理方法、终端及计算机可读存储介质
CN112672213A (zh) 一种视频信息处理方法、设备及计算机可读存储介质
CN112700783A (zh) 通讯的变声方法、终端设备和存储介质
KR101264797B1 (ko) 휴대 단말기에서 얼굴인식을 통한 사진 검색 방법
CN110278402B (zh) 一种双声道音频处理方法、设备及计算机可读存储介质
KR100703383B1 (ko) 휴대용 단말기의 전자사전서비스 방법
CN112887195A (zh) 语音呼叫方法、语音呼叫设备及计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150625

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 5