KR20140051651A - 휴대 단말기 및 그 제어 방법 - Google Patents
휴대 단말기 및 그 제어 방법 Download PDFInfo
- Publication number
- KR20140051651A KR20140051651A KR1020120117945A KR20120117945A KR20140051651A KR 20140051651 A KR20140051651 A KR 20140051651A KR 1020120117945 A KR1020120117945 A KR 1020120117945A KR 20120117945 A KR20120117945 A KR 20120117945A KR 20140051651 A KR20140051651 A KR 20140051651A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- voice
- face
- camera
- input
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000008859 change Effects 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 10
- 238000010295 mobile communication Methods 0.000 description 8
- 210000001508 eye Anatomy 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 210000003811 finger Anatomy 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 210000005252 bulbus oculi Anatomy 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 229910001220 stainless steel Inorganic materials 0.000 description 2
- 239000010935 stainless steel Substances 0.000 description 2
- 239000010936 titanium Substances 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000010408 film Substances 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000001746 injection moulding Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000007769 metal material Substances 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 229920003002 synthetic resin Polymers 0.000 description 1
- 239000000057 synthetic resin Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 229910052719 titanium Inorganic materials 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/34—Microprocessors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/12—Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/52—Details of telephonic subscriber devices including functional features of a camera
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 음성 인식 모드 시에, 사용자의 음성뿐만 아니라, 카메라를 통해 사용자의 얼굴도 함께 인식함으로써, 실제 사용자가 말하는 음성을 정확하게 인식하여 해당 기능을 실행할 수 있도록 하는 휴대 단말기 및 그 제어 방법에 관한 것이다.
Description
본 발명은 사용자의 편의가 더욱 고려되어 단말기의 사용이 구현될 수 있도록 하는 휴대 단말기 및 그 제어 방법에 관한 것이다.
단말기는 이동 가능 여부에 따라 이동 단말기(mobile/portable terminal) 및 고정 단말기(stationary terminal)으로 나뉠 수 있다. 다시 이동 단말기는 사용자의 직접 휴대 가능 여부에 따라 휴대(형) 단말기(handheld terminal) 및 거치형 단말기(vehicle mount terminal)로 나뉠 수 있다.
이와 같은 단말기(terminal)는 기능이 다양화됨에 따라 예를 들어, 사진이나 동영상의 촬영, 음악이나 동영상 파일의 재생, 게임, 방송의 수신 등의 복합적인 기능들을 갖춘 멀티미디어 기기(Multimedia player) 형태로 구현되고 있다.
이러한 단말기의 기능 지지 및 증대를 위해, 단말기의 구조적인 부분 및/또는 소프트웨어적인 부분을 개량하는 것이 고려될 수 있다.
현재, 스마트폰과 같은 휴대 단말기는 음성 인식 기능을 제공하고, 사용자는 실행하고자 하는 기능에 해당하는 음성을 휴대 단말기에 입력함으로써, 음성을 통해 원하는 기능을 간편하게 실행할 수 있다.
상기 음성 인식의 방법은, 휴대 단말기가 음성 인식 모드로 전환되면, 음성 인식 모드 상에서 휴대 단말기의 마이크를 통해 입력되는 모든 소리를 인식하게 된다.
이때, 상기 마이크를 통해 사용자 음성이 아닌 주변의 다른 사람의 음성이 입력될 경우 이를 인식하여 사용자가 의도하지 않은 기능을 실행할 수 있는 문제점이 발생될 수 있다.
즉, 사용자의 음성만을 인식하여 해당 기능을 실행해야만 하나, 휴대 단말기가 주변 잡음을 음성 인식 명령어로 오인하여 사용자가 원하지 않는 기능을 실행하는 문제점이 발생될 수 있는 것이다.
본 발명의 목적은, 음성 인식 모드 시에, 사용자의 음성뿐만 아니라, 카메라를 통해 사용자의 얼굴도 함께 인식함으로써, 실제 사용자가 말하는 음성을 정확하게 인식하여 해당 기능을 실행할 수 있도록 하는 휴대 단말기 및 그 제어 방법을 제공하는데 있다.
상기 목적들을 달성하기 위한 본 발명에 따른 휴대 단말기는, 사용자의 음성이 포함된 주변 소리가 입력되는 마이크와; 상기 사용자가 포함된 영상 촬영을 위한 카메라와; 음성 인식 모드 시에, 상기 영상 내에 포함된 사용자의 얼굴을 인식하고, 상기 인식된 사용자의 얼굴을 근거로 상기 마이크를 통해 입력된 주변 소리에서 상기 사용자의 음성을 판별하여 인식하고, 상기 인식된 사용자 음성에 해당하는 동작을 수행하는 제어부;를 포함하여 이루어진다.
또한, 본 발명에 따른 휴대 단말기의 제어 방법은, 휴대 단말기의 동작 모드를 음성 인식 모드로 전환하는 단계와; 마이크를 통해 사용자 음성이 포함된 주변 소리를 입력받는 단계와; 카메라를 통해 상기 사용자가 포함된 영상을 입력받는 단계와; 상기 입력된 영상 내에 포함된 사용자 얼굴을 인식하는 단계와; 상기 인식된 사용자의 얼굴을 근거로 상기 마이크를 통해 입력된 주변 소리에서 상기 사용자의 음성을 판별하여 인식하는 단계와; 상기 인식된 사용자 음성에 해당하는 동작을 수행하는 단계;를 포함하여 이루어진다.
본 발명에 따른 휴대 단말기 및 그 제어 방법은, 음성 인식 모드 시, 카메라를 통해 입력된 사용자 얼굴 인식도 함께 수행함에 따라, 카메라에 촬영된 사용자의 눈동자 및 입모양 등을 바탕으로 실제 사용자가 말하는 구간의 음성만을 판별하여 음성 인식을 수행할 수 있는 효과를 제공한다.
도 1은 본 발명의 일 실시예와 관련된 휴대 단말기의 블록 구성도(block diagram)이다.
도 2는 본 발명의 일 실시예에 관련된 휴대 단말기의 전면 사시도이다.
도 3은 본 발명과 관련된 휴대 단말기의 일 작동 상태를 설명하기 위한 휴대 단말기의 정면도이다.
도 4는 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정을 나타낸 흐름도이다.
도 5 내지 도 10은 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 관련된 휴대 단말기의 전면 사시도이다.
도 3은 본 발명과 관련된 휴대 단말기의 일 작동 상태를 설명하기 위한 휴대 단말기의 정면도이다.
도 4는 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정을 나타낸 흐름도이다.
도 5 내지 도 10은 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정을 나타낸 흐름도이다.
이하, 본 발명과 관련된 휴대 단말기에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
본 명세서에서 설명되는 휴대 단말기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 등이 포함될 수 있다. 그러나, 본 명세서에 기재된 실시예에 따른 구성은 휴대 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터 등과 같은 고정 단말기에도 적용될 수도 있음을 본 기술분야의 당업자라면 쉽게 알 수 있을 것이다.
도 1은 본 발명의 일 실시예와 관련된 휴대 단말기의 블록 구성도(block diagram)이다.
상기 휴대 단말기(100)는 무선 통신부(110), A/V(Audio/Video) 입력부(120), 사용자 입력부(130), 센싱부(140), 출력부(150), 메모리(160), 인터페이스부(170), 제어부(180) 및 전원 공급부(190) 등을 포함할 수 있다. 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 이동 단말기가 구현될 수도 있다.
이하, 상기 구성요소들에 대해 차례로 살펴본다.
무선 통신부(110)는 휴대 단말기(100)와 무선 통신 시스템 사이 또는 휴대 단말기(100)와 휴대 단말기(100)가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 위치정보 모듈(115) 등을 포함할 수 있다.
방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다.
상기 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 상기 방송 관리 서버는, 방송 신호 및/또는 방송 관련 정보를 생성하여 송신하는 서버 또는 기 생성된 방송 신호 및/또는 방송 관련 정보를 제공받아 단말기에 송신하는 서버를 의미할 수 있다. 상기 방송 신호는, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호를 포함할 뿐만 아니라, TV 방송 신호 또는 라디오 방송 신호에 데이터 방송 신호가 결합한 형태의 방송 신호도 포함할 수 있다.
상기 방송 관련 정보는, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보를 의미할 수 있다. 상기 방송 관련 정보는, 이동통신망을 통하여도 제공될 수 있다. 이러한 경우에는 상기 이동통신 모듈(112)에 의해 수신될 수 있다.
상기 방송 관련 정보는 다양한 형태로 존재할 수 있다. 예를 들어, DMB(Digital Multimedia Broadcasting)의 EPG(Electronic Program Guide) 또는 DVB-H(Digital Video Broadcast-Handheld)의 ESG(Electronic Service Guide) 등의 형태로 존재할 수 있다.
상기 방송 수신 모듈(111)은, 예를 들어, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다. 물론, 상기 방송 수신 모듈(111)은, 상술한 디지털 방송 시스템뿐만 아니라 다른 방송 시스템에 적합하도록 구성될 수도 있다.
방송 수신 모듈(111)을 통해 수신된 방송 신호 및/또는 방송 관련 정보는 메모리(160)에 저장될 수 있다.
이동통신 모듈(112)은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 이동 단말기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), LTE(Long Term Evolution) 등이 이용될 수 있다.
근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 말한다. 근거리 통신(short range communication) 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.
위치정보 모듈(115)은 휴대 단말기(100)의 위치를 획득하기 위한 모듈로서, 그의 대표적인 예로는 GPS(Global Position System) 모듈이 있다.
도 1을 참조하면, A/V(Audio/Video) 입력부(120)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(121)와 마이크(122) 등이 포함될 수 있다. 카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시될 수 있다.
카메라(121)에서 처리된 화상 프레임은 메모리(160)에 저장되거나 무선 통신부(110)를 통하여 외부로 전송될 수 있다. 카메라(121)는 사용 환경에 따라 2개(전방 카메라, 후방 카메라) 이상이 구비될 수도 있다.
마이크(122)는 통화모드 또는 녹음모드, 음성인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 입력받아 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 통화 모드인 경우 이동통신 모듈(112)을 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 마이크(122)에는 외부의 음향 신호를 입력받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
사용자 입력부(130)는 사용자가 단말기의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(130)는 키 패드(key pad) 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다.
센싱부(140)는 휴대 단말기(100)의 개폐 상태, 휴대 단말기(100)의 위치, 사용자 접촉 유무, 휴대 단말기의 방위, 휴대 단말기의 가속/감속 등과 같이 휴대 단말기(100)의 현 상태를 감지하여 휴대 단말기(100)의 동작을 제어하기 위한 센싱 신호를 발생시킨다. 예를 들어, 휴대 단말기(100)가 슬라이드 폰 형태인 경우 슬라이드 폰의 개폐 여부를 센싱할 수 있다. 또한, 전원 공급부(190)의 전원 공급 여부, 인터페이스부(170)의 외부 기기 결합 여부 등을 센싱할 수도 있다. 한편, 상기 센싱부(140)는 근접 센서(141) 및 조도 센서(142)를 포함할 수 있다.
조도 센서(142)는 휴대 단말기(100)의 주변의 조도를 감지하고, 상기 감지된 조도에 해당하는 신호를 제어부(180)로 출력한다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 이에는 디스플레이부(151), 음향 출력 모듈(152), 알람부(153), 햅틱 모듈(154) 및 프로젝터 모듈(155) 등이 포함될 수 있다.
디스플레이부(151)는 휴대 단말기(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 휴대 단말기(100)가 통화 모드인 경우 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 휴대 단말기(100)가 화상 통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다.
디스플레이부(151)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다.
이들 중 일부 디스플레이는 그를 통해 외부를 볼 수 있도록 투명형 또는 광투과형으로 구성될 수 있다. 이는 투명 디스플레이라 호칭될 수 있는데, 상기 투명 디스플레이의 대표적인 예로는 TOLED(Transparant OLED) 등이 있다. 디스플레이부(151)의 후방 구조 또한 광 투과형 구조로 구성될 수 있다. 이러한 구조에 의하여, 사용자는 단말기 바디의 디스플레이부(151)가 차지하는 영역을 통해 단말기 바디의 후방에 위치한 사물을 볼 수 있다.
휴대 단말기(100)의 구현 형태에 따라 디스플레이부(151)이 2개 이상 존재할 수 있다. 예를 들어, 휴대 단말기(100)에는 복수의 디스플레이부들이 하나의 면에 이격되거나 일체로 배치될 수 있고, 또한 서로 다른 면에 각각 배치될 수도 있다.
디스플레이부(151)와 터치 동작을 감지하는 센서(이하, '터치 센서'라 함)가 상호 레이어 구조를 이루는 경우(이하, '터치 스크린'이라 함)에, 디스플레이부(151)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 센서는, 예를 들어, 터치 필름, 터치 시트, 터치 패드 등의 형태를 가질 수 있다.
터치 센서는 디스플레이부(151)의 특정 부위에 가해진 압력 또는 디스플레이부(151)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 센서는 터치 되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다.
터치 센서에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기로 보내진다. 터치 제어기는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(180)로 전송한다. 이로써, 제어부(180)는 디스플레이부(151)의 어느 영역이 터치 되었는지 여부 등을 알 수 있게 된다.
상기 근접 센서(141)는 상기 터치스크린에 의해 감싸지는 휴대 단말기(100)의 내부 영역 또는 상기 터치 스크린의 근처에 배치될 수 있다. 상기 근접 센서는 소정의 검출면에 접근하는 물체, 혹은 근방에 존재하는 물체의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 근접 센서는 접촉식 센서보다는 그 수명이 길며 그 활용도 또한 높다.
상기 근접 센서의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다. 상기 터치스크린이 정전식인 경우에는 상기 포인터의 근접에 따른 전계의 변화로 상기 포인터의 근접을 검출하도록 구성된다. 이 경우 상기 터치 스크린(터치 센서)은 근접 센서로 분류될 수도 있다.
이하에서는 설명의 편의를 위해, 상기 터치스크린 상에 포인터가 접촉되지 않으면서 근접되어 상기 포인터가 상기 터치스크린 상에 위치함이 인식되도록 하는 행위를 "근접 터치(proximity touch)"라고 칭하고, 상기 터치스크린 상에 포인터가 실제로 접촉되는 행위를 "접촉 터치(contact touch)"라고 칭한다. 상기 터치스크린 상에서 포인터로 근접 터치가 되는 위치라 함은, 상기 포인터가 근접 터치될 때 상기 포인터가 상기 터치스크린에 대해 수직으로 대응되는 위치를 의미한다.
상기 근접센서는, 근접 터치와, 근접 터치 패턴(예를 들어, 근접 터치 거리, 근접 터치 방향, 근접 터치 속도, 근접 터치 시간, 근접 터치 위치, 근접 터치 이동 상태 등)을 감지한다. 상기 감지된 근접 터치 동작 및 근접 터치 패턴에 상응하는 정보는 터치 스크린상에 출력될 수 있다.
음향 출력 모듈(152)은 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(160)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력 모듈(152)은 휴대 단말기(100)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력하기도 한다. 이러한 음향 출력 모듈(152)에는 리시버(Receiver), 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.
알람부(153)는 휴대 단말기(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 이동 단말기에서 발생 되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 터치 입력 등이 있다. 알람부(153)는 비디오 신호나 오디오 신호 이외에 다른 형태, 예를 들어 진동으로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 상기 비디오 신호나 오디오 신호는 디스플레이부(151)나 음성 출력 모듈(152)을 통해서도 출력될 수 있어서, 그들(151,152)은 알람부(153)의 일부로 분류될 수도 있다.
햅틱 모듈(haptic module)(154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다. 햅택 모듈(154)이 발생하는 진동의 세기와 패턴 등은 제어가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다.
햅틱 모듈(154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력, 피부 표면에 대한 스침, 전극(eletrode)의 접촉, 정전기력 등의 자극에 의한 효과와, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다.
햅틱 모듈(154)은 직접적인 접촉을 통해 촉각 효과의 전달할 수 있을 뿐만 아니라, 사용자가 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구현할 수도 있다. 햅틱 모듈(154)은 휴대 단말기(100)의 구성 태양에 따라 2개 이상이 구비될 수 있다.
프로젝터 모듈(155)은, 휴대 단말기(100)를 이용하여 이미지 프로젝트(project) 기능을 수행하기 위한 구성요소로서, 제어부(180)의 제어 신호에 따라 디스플레이부(151)상에 디스플레이되는 영상과 동일하거나 적어도 일부가 다른 영상을 외부 스크린 또는 벽에 디스플레이할 수 있다.
구체적으로, 프로젝터 모듈(155)은, 영상을 외부로 출력하기 위한 빛(일 예로서, 레이저 광)을 발생시키는 광원(미도시), 광원에 의해 발생한 빛을 이용하여 외부로 출력할 영상을 생성하기 위한 영상 생성 수단 (미도시), 및 영상을 일정 초점 거리에서 외부로 확대 출력하기 위한 렌즈(미도시)를 포함할 수 있다. 또한, 프로젝터 모듈(155)은, 렌즈 또는 모듈 전체를 기계적으로 움직여 영상 투사 방향을 조절할 수 있는 장치(미도시)를 포함할 수 있다.
프로젝터 모듈(155)은 디스플레이 수단의 소자 종류에 따라 CRT(Cathode Ray Tube) 모듈, LCD(Liquid Crystal Display) 모듈 및 DLP(Digital Light Processing) 모듈 등으로 나뉠 수 있다. 특히, DLP 모듈은, 광원에서 발생한 빛이 DMD(Digital Micromirror Device) 칩에 반사됨으로써 생성된 영상을 확대 투사하는 방식으로 프로젝터 모듈(151)의 소형화에 유리할 수 있다.
바람직하게, 프로젝터 모듈(155)은, 휴대 단말기(100)의 측면, 정면 또는 배면에 길이 방향으로 구비될 수 있다. 물론, 프로젝터 모듈(155)은, 필요에 따라 이동 단말기(100)의 어느 위치에라도 구비될 수 있음은 당연하다.
메모리(160)는 제어부(180)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들(예를 들어, 전화번호부, 메시지, 오디오, 정지영상, 동영상 등)의 임시 저장을 위한 기능을 수행할 수도 있다. 상기 메모리(160)에는 상기 데이터들 각각에 대한 사용 빈도(예를 들면, 각 전화번호, 각 메시지, 각 멀티미디어에 대한 사용빈도)도 함께 저장될 수 있다. 또한, 상기 메모리부(160)에는 상기 터치스크린 상의 터치 입력시 출력되는 다양한 패턴의 진동 및 음향에 관한 데이터를 저장할 수 있다.
또한, 메모리(160)는 본 발명에 따라, 카메라(121)로부터 입력된 영상 내에 포함된 사용자의 얼굴 인식을 위한 얼굴 인식 어플리케이션(또는 소프트웨어)이 구비될 수 있다. 상기 얼굴 인식 어플리케이션은 휴대 단말기(100)에 디폴트로 구비되거나 또는 무선 통신부(110)를 통해 외부 서비스 사업자 서버로부터 다운로드된 것일 수 있다.
또한, 메모리(160)는 사용자의 얼굴 인식의 기준으로 사용되는 사용자의 얼굴이 포함된 레퍼런스 영상이 구비될 수 있다. 상기 레퍼런스 영상은 사용자의 얼굴 인식 시에, 카메라(121)로부터 입력된 영상에 포함된 얼굴이 사용자 얼굴인지를 판별하는데 사용된다. 즉, 카메라(121)로부터 입력된 영상 내의 얼굴이 상기 레퍼런스 영상 내의 얼굴과 동일하면, 상기 카메라(121)로부터 입력된 영상 내의 얼굴이 사용자 얼굴로 판별되는 것이다.
상기와 같은, 메모리(160)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 휴대 단말기(100)는 인터넷(internet)상에서 상기 메모리(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.
인터페이스부(170)는 휴대 단말기(100)에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(170)는 외부 기기로부터 데이터를 전송받거나, 전원을 공급받아 휴대 단말기(100) 내부의 각 구성 요소에 전달하거나, 휴대 단말기(100) 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 인터페이스부(170)에 포함될 수 있다.
식별 모듈은 휴대 단말기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module, UIM), 가입자 인증 모듈(Subscriber Identify Module, SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module, USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 포트를 통하여 단말기(100)와 연결될 수 있다.
상기 인터페이스부는 휴대 단말기(100)가 외부 크래들(cradle)과 연결될 때 상기 크래들로부터의 전원이 상기 휴대 단말기(100)에 공급되는 통로가 되거나, 사용자에 의해 상기 크래들에서 입력되는 각종 명령 신호가 상기 휴대 단말기(100)로 전달되는 통로가 될 수 있다. 상기 크래들로부터 입력되는 각종 명령 신호 또는 상기 전원은 상기 휴대 단말기(100)가 상기 크래들에 정확히 장착되었음을 인지하기 위한 신호로 동작될 수도 있다.
제어부(controller, 180)는 통상적으로 휴대 단말기(100)의 전반적인 동작을 제어한다. 예를 들어 음성 통화, 데이터 통신, 화상 통화 등을 위한 관련된 제어 및 처리를 수행한다. 제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 모듈(181)을 구비할 수도 있다. 멀티미디어 모듈(181)은 제어부(180) 내에 구현될 수도 있고, 제어부(180)와 별도로 구현될 수도 있다.
상기 제어부(180)는 상기 터치스크린 상에서 행해지는 필기 입력 또는 그림 그리기 입력을 각각 문자 및 이미지로 인식할 수 있는 패턴 인식 처리를 행할 수 있다.
전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.
여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부(180) 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(180)에 의해 실행될 수 있다.
도 2는 본 발명과 관련된 휴대 단말기의 일 예를 전면에서 바라본 사시도이다.
개시된 휴대 단말기(100)는 바 형태의 단말기 바디를 구비하고 있다. 다만, 본 발명은 여기에 한정되지 않고, 2 이상의 바디들이 상대 이동 가능하게 결합되는 슬라이드 타입, 폴더 타입, 스윙 타입, 스위블 타입 등 다양한 구조에 적용이 가능하다.
바디는 외관을 이루는 케이스(케이싱, 하우징, 커버 등)를 포함한다. 본 실시예에서, 케이스는 프론트 케이스(101)와 리어 케이스(102)로 구분될 수 있다. 프론트 케이스(101)와 리어 케이스(102)의 사이에 형성된 공간에는 각종 전자부품들이 내장된다. 프론트 케이스(101)와 리어 케이스(102) 사이에는 적어도 하나의 중간 케이스가 추가로 배치될 수도 있다.
케이스들은 합성수지를 사출하여 형성되거나 금속 재질, 예를 들어 스테인레스 스틸(STS) 또는 티타늄(Ti) 등과 같은 금속 재질을 갖도록 형성될 수도 있다.
단말기 바디, 주로 프론트 케이스(101)에는 디스플레이부(151), 음향출력부(152), 카메라(121), 사용자 입력부(130/131,132), 마이크(122), 인터페이스(170) 등이 배치될 수 있다.
디스플레이부(151)는 프론트 케이스(101)의 주면의 대부분을 차지한다. 디스플레이부(151)의 양단부 중 일 단부에 인접한 영역에는 음향출력부(151)와 카메라(121)가 배치되고, 다른 단부에 인접한 영역에는 사용자 입력부(131)와 마이크(122)가 배치된다. 사용자 입력부(132)와 인터페이스(170) 등은 프론트 케이스(101) 및 리어 케이스(102)의 측면들에 배치될 수 있다.
사용자 입력부(130)는 휴대 단말기(100)의 동작을 제어하기 위한 명령을 입력받기 위해 조작되는 것으로서, 복수의 조작 유닛들(131,132)을 포함할 수 있다. 조작 유닛들(131,132)은 조작부(manipulating portion)로도 통칭 될 수 있으며, 사용자가 촉각 적인 느낌을 가면서 조작하게 되는 방식(tactile manner)이라면 어떤 방식이든 채용될 수 있다.
제1 또는 제2 조작 유닛들(131, 132)에 의하여 입력되는 내용은 다양하게 설정될 수 있다. 예를 들어, 제1 조작 유닛(131)은 시작, 종료, 스크롤 등과 같은 명령을 입력받고, 제2 조작 유닛(132)은 음향출력부(152)에서 출력되는 음향의 크기 조절 또는 디스플레이부(151)의 터치 인식 모드로의 전환 등과 같은 명령을 입력받을 수 있다.
단말기 바디의 측면에는 통화 등을 위한 안테나 외에 방송신호 수신용 안테나(116)가 추가로 배치될 수 있다. 방송수신모듈(111, 도 1 참조)의 일부를 이루는 안테나(116)는 단말기 바디에서 인출 가능하게 설치될 수 있다.
단말기 바디에는 휴대 단말기(100)에 전원을 공급하기 위한 전원공급부(190)가 장착된다. 전원공급부(190)는 단말기 바디에 내장되거나, 단말기 바디의 외부에서 직접 탈착될 수 있게 구성될 수 있다.
이하, 도 3을 참조하여 디스플레이부(151)와 터치 패드(135)의 서로 연관된 작동 방식에 대하여 살펴본다.
도 3은 본 발명과 관련된 휴대 단말기의 일 작동 상태를 설명하기 위한 휴대 단말기의 정면도이다.
디스플레이부(151)에는 다양한 종류의 시각 정보들이 표시될 수 있다. 이들 정보들은 문자, 숫자, 기호, 그래픽, 또는 아이콘 등의 형태로 표시될 수 있다.
이러한 정보의 입력을 위하여 상기 문자, 숫자, 기호, 그래픽 또는 아이콘 들 중 적어도 하나는 일정한 배열을 이루어 표시됨으로써 키패드의 형태로 구현될 수 있다. 이러한 키패드는 소위 '가상 키패드'(virtual keypad)라 불릴 수 있다.
도 3은 단말기 바디의 전면을 통해 가상 키패드에 가해진 터치를 입력받는 것을 나타내고 있다.
디스플레이부(151)는 전체 영역으로 작동되거나, 복수의 영역들로 나뉘어져 작동될 수 있다. 후자의 경우, 상기 복수의 영역들은 서로 연관되게 작동되도록 구성될 수 있다.
예를 들어, 디스플레이부(151)의 상부와 하부에는 출력창(151a)과 입력창(151b)이 각각 표시된다. 출력창(151a)과 입력창(151b)은 각각 정보의 출력 또는 입력을 위해 할당되는 영역이다. 입력창(151b)에는 전화 번호 등의 입력을 위한 숫자가 표시된 가상 키패드(151c)가 출력된다. 가상 키패드(151c)가 터치되면, 터치된 가상 키패드에 대응되는 숫자 등이 출력창(151a)에 표시된다. 제1조작 유닛(131)이 조작되면 출력창(151a)에 표시된 전화번호에 대한 호 연결이 시도된다.
뿐만 아니라, 디스플레이부(151) 또는 터치 패드(135)는 스크롤(scroll)에 의해 터치 입력받도록 구성될 수 있다. 사용자는 디스플레이부(151) 또는 터치 패드(135)를 스크롤 함으로써 디스플레이부(151)에 표시된 개체, 예를 들어 아이콘 등에 위치한 커서 또는 포인터를 이동시킬 수 있다. 나아가, 손가락을 디스플레이부(151) 또는 터치 패드(135) 상에서 이동시키는 경우, 손가락이 움직이는 경로가 디스플레이부(151)에 시각적으로 표시될 수도 있다. 이는 디스플레이부(151)에 표시되는 이미지를 편집함에 유용할 것이다.
디스플레이부(151)(터치 스크린) 및 터치 패드(135)가 일정 시간 범위 내에서 함께 터치되는 경우에 대응하여, 단말기의 일 기능이 실행될 수도 있다. 함께 터치되는 경우로는, 사용자가 엄지 및 검지를 이용하여 단말기 바디를 집는(clamping) 경우가 있을 수 있다. 상기 일 기능은, 예를 들어, 디스플레이부(151) 또는 터치 패드(135)에 대한 활성화 또는 비활성화 등이 있을 수 있다.
설명의 편의를 위하여, 이하에서 언급되는 휴대 단말기(100)는 도 1에 도시된 구성요소들 중 적어도 하나를 포함한다고 가정한다.
또한, 보통 디스플레이부(151)에 상에서 특정 오브젝트를 가리키거나 메뉴를 선택하기 위한 하이라이트(Highlight), 화살표 또는 손가락 형태의 그래픽은 포인터(pointer) 또는 커서(cursor)로 호칭된다.
그러나, 포인터의 경우 터치 조작 등을 위한 손가락이나 스타일러스 펜 등을 의미하는 것으로 혼용되는 경우가 많다. 따라서 본 명세서에서는 이 둘을 명확히 구분하기 위하여 디스플레이부에 표시되는 그래픽을 커서라 칭하고, 손가락이나 스타일러스 펜과 같이 터치, 근접터치, 제스쳐(gesture)를 수행할 수 있는 물리적 수단을 포인터라 칭한다.
이하, 도 4 내지 도 10을 참조하여, 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정에 대해 상세히 설명한다.
도 4는 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정을 나타낸 흐름도이다.
도 5 내지 도 10은 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정을 나타낸 흐름도이다.
도 4 내지 도 10을 참조하면, 휴대 단말기(100)의 제어부(180)는 터치스크린(151) 또는 사용자 입력부(130)를 통해 휴대 단말기(100)에 구비된 기능들 중 음성 인식 기능이 선택되면, 휴대 단말기(100)의 현재 동작 모드를 음성 인식 모드로 전환하고[S110], 사용자 음성의 입력 수단으로써 마이크(122)를 구동시키고, 마이크(122)를 통해 주변 소리를 수음한다[S115].
이때, 상기 주변 소리는, 사용자 음성만 포함되거나, 또는 주변의 잡음만 포함되거나, 또는 주변의 잡음 및 사용자 음성이 포함될 수 있다.
이하의 본 발명에서는 상기 주변 소리가 주변의 잡음 및 사용자 음성이 포함된 것으로 가정하여 설명한다.
제어부(180)는 상기 마이크(122)를 통해 수음된 주변 소리의 소음 레벨을 측정하고[S120], 상기 측정된 주변 소리의 소음 레벨이 기 설정된 기준치 이상이면[S125], 사용자의 얼굴 인식을 위해 카메라(121)를 구동시킨다[S130].
즉, 상기 측정된 주변 소리의 소음 레벨이 클 경우, 이는 주변에서 사용자 음성이 아닌 다른 잡음들의 소리가 크고, 이로 인해 사용자 음성이 잘 인식되지 못하는 상황이므로, 본 발명에서는 사용자 얼굴 인식을 통해 마이크(122)로부터 입력되는 주변 소리 중에서 사용자가 실제 말하는 구간에 입력되는 음성만을 인식함으로써, 사용자의 음성 인식율을 향상시킬 수 있다.
이때, 상기 기준치는, 통상적으로 사용자의 음성이 인식되지 못할 때의 주변 잡음에 해당하는 데시벨 값이 될 수 있다.
한편, 제어부(180)는 상기 측정된 주변 소리의 소음 레벨이 기 설정된 기준치 이하이면, 이는 현재 주변의 잡음 상태가 사용자 음성이 인식될 수 있을 정도로 조용한 상태이므로, 카메라(121)의 구동 없이 바로 상기 수음된 주변 소리로부터 사용자 음성을 인식하고, 인식된 사용자 음성에 해당하는 동작을 수행한다.
즉, 현재 수음된 주변 소리로부터 사용자 음성이 인식될 정도로 주변 소음이 조용함에도 불구하고, 카메라(121)를 구동시켜 사용자 얼굴을 인식하는 것은 휴대 단말기(100)의 배터리 전원을 불필요하게 소모하는 것이므로, 본 발명에서는 상기 주변 소리의 소음 레벨이 기준치 이상일 때만 카메라(121)를 구동시켜 사용자 얼굴을 인식하고, 상기 주변 소리의 소음 레벨이 기준치 이하이면, 상기 카메라(121)를 오프시킨다. 또한, 현재 카메라(121)가 사용자 얼굴 인식을 위해 구동된 상태라도, 상기 주변 소리의 소음 레벨이 기준치 이상에서 기준치 이하로 변경되면, 상기 카메라(121)를 오프시킬 수 있다.
이어서, 도 4의 S135 과정을 설명하면, 제어부(180)는 상기 구동된 카메라(121)를 통해 사용자가 포함된 영상이 입력되면[S135], 상기 입력된 영상 내에서 사용자의 얼굴을 인식한다[S140].
이때, 메모리(160)에는, 카메라(121)로부터 입력된 영상 내에 포함된 사용자의 얼굴 인식을 위한 얼굴 인식 어플리케이션(또는 소프트웨어)이 구비될 수 있고, 제어부(180)는 메모리(160)에 구비된 얼굴 인식 어플리케이션을 구동시키고, 상기 얼굴 인식 어플리케이션을 통해 현재 카메라(121)로부터 입력된 영상 내에서 사용자 얼굴과, 상기 얼굴 내의 안구 및 입에 해당하는 영역을 인식할 수 있다.
또한, 메모리(160)는 사용자의 얼굴 인식의 기준으로 사용되는 사용자의 얼굴이 포함된 레퍼런스 영상이 구비될 수 있고, 제어부(180)는 사용자의 얼굴 인식 시에, 상기 레퍼런스 영상 내의 사용자 얼굴과 카메라(121)로부터 입력된 영상에 포함된 얼굴이 일치하거나 또는 유사하면, 상기 카메라(121)로부터 입력된 영상에 포함된 얼굴을 사용자 얼굴로 판별하고, 또한 상기 레퍼런스 영상을 이용하여 상기 카메라(121)로부터 입력된 영상에 포함된 얼굴의 안구 및 입을 판별할 수 있다.
상기와 같이, 제어부(180)는 상기 카메라(121)로부터 입력된 영상 내에서 사용자의 얼굴이 인식되면[S140], 상기 인식된 사용자의 얼굴을 근거로 상기 마이크(122)를 통해 수음된 주변 소리에서 사용자의 음성을 판별하고[S145], 상기 판별된 사용자의 음성을 인식하고[S150], 상기 인식된 사용자의 음성에 해당하는(맵핑된) 동작을 수행한다[S155].
이때, 제어부(180)는 상기 인식된 사용자의 얼굴을 근거로, 상기 얼굴의 입모양이 변화되는 구간을 인식하고, 상기 인식된 구간 동안에 마이크(122)로부터 입력된 주변 소리를 사용자의 음성으로 판별할 수 있다.
즉, 마이크(122)에 수음되는 주변 소리는 잡음이 먼저 입력되다가 그 다음으로 사용자 음성이 입력되거나 또는 그 반대의 경우가 될 수 있다. 따라서, 본 발명은 사용자의 입모양이 변화되는 구간 동안 입력되는 주변 소리에는 사용자 음성이 포함되었을 가능성이 매우 높고, 사용자의 입모양이 변화되지 않는 구간 동안 입력되는 주변 소리에는 주변 잡음이 포함되었을 가능성이 매우 높기 때문에, 사용자의 입모양이 변화되는 구간 동안 입력되는 주변 소리를 사용자 음성이라 판별하는 것이다.
또한, 제어부(180)는 상기 인식된 사용자의 얼굴을 근거로, 상기 얼굴의 안구가 카메라(121)를 향하는 동안의 구간을 인식하고, 상기 인식된 구간 동안에 마이크(122)로부터 입력된 주변 소리를 사용자의 음성으로 판별할 수 있다.
즉, 사용자의 안구가 카메라(121) 또는 휴대 단말기(100) 전방을 향할 경우, 이는 사용자가 휴대 단말기(100)에 인식할 음성을 말하고 있는 가능성이 매우 높고, 상기 사용자의 안구가 카메라(121) 또는 휴대 단말기(100)가 아닌 다른 방향을 향할 경우, 이는 사용자가 휴대 단말기(100)에 인식할 음성을 말하고 있지 않은 가능성이 매우 높기 때문에, 사용자의 안구가 카메라(121) 또는 휴대 단말기(100)를 향할 때 입력되는 주변 소리를 사용자 음성이라 판별하는 것이다.
이하, 도 5 내지 도 10을 참조하여 본 발명에 따라 음성 인식 시 사용자 얼굴 인식을 통하여 음성 인식율을 향상시키는 과정에 대해 상세히 설명한다.
먼저, 도 5의 (a)에 도시된 바와 같이, 제어부(180)는 음성 인식 모드(310) 상태에서, 마이크(122)로부터 사용자 음성(311)이 포함된 주변 소리가 입력되었으나, 도 5의 (b)에 도시된 바와 같이, 상기 입력된 주변 소리의 소음이 상기 기준치 이상이여서 음성 인식이 잘 안되면, 사용자 얼굴 인식을 위해 카메라(121)를 구동시킨다. 이때, 도 5에서는 음성 인식할 사용자의 음성이 "오늘의 날씨"(311)인 것을 일 예로 나타내고 있다.
그리고, 도 5의 (c)에 도시된 바와 같이, 제어부(180)는 카메라(121)를 통해 입력된 영상 내의 사용자 얼굴을 인식하고, 상기 인식된 사용자 얼굴을 근거로 사용자가 실제적으로 말하는 구간 동안 입력된 주변 소리를 사용자 음성(311)으로 인식하고, 도 5의 (d)에 도시된 바와 같이, 상기 인식된 사용자 음성(311)에 해당하는 동작(320)을 수행한다.
즉, 사용자 음성(311)은 "오늘의 날씨"이므로, 제어부(180)는 기 구비된 날씨 정보 제공 관련 어플리케이션을 구동시켜 "오늘의 날씨"에 해당하는 정보(320)를 표시하거나, 또는 무선 통신부(110)를 통해 웹에 접속하고, 상기 웹에서 "오늘의 날씨"를 검색하여 표시한다.
이때, 도 6에 도시된 바와 같이, 제어부(180)는 상기 얼굴의 입모양이 변화되는 구간 동안 입력된 주변 소리를 사용자의 음성으로 인식할 수 있다.
즉, 도 6의 (a)에 도시된 바와 같이, 마이크(122)를 통해 입력된 주변 소리는 잡음(312)과 사용자 음성(311)이 혼합되거나 또는 포함될 수 있다.
즉, 제어부(180)는 카메라(121)를 통해 입력된 사용자 얼굴 내의 입에 해당하는 영역을 인식하고, 상기 입에 해당하는 영역의 색상, 화소 등이 변화되면, 이를 사용자의 입모양이 변화되는 구간으로 인식하고, 상기 사용자의 입모양이 변화되는 구간 동안 마이크(122)를 통해 입력되는 주변 소리를 사용자 음성(311)으로 판별한다.
그리고, 도 6의 (b)에 도시된 바와 같이, 제어부(180)는 상기 사용자의 입모양이 변화되는 구간 동안 마이크(122)를 통해 입력되는 사용자 음성(311)을 인식하고, 사용자 음성(311)에 해당하는 동작을 수행한다.
그 다음으로, 도 7에 도시된 바와 같이, 제어부(180)는 상기 얼굴의 안구가 휴대 단말기(100)를 향하는 기간 동안 입력된 주변 소리를 사용자의 음성으로 인식할 수 있다.
즉, 도 7의 (a)에 도시된 바와 같이, 즉, 제어부(180)는 카메라(121)를 통해 입력된 사용자 얼굴 내의 안구(눈동자 또는 홍체)가 가르키는 방향을 인식하고, 상기 안구의 방향이 휴대 단말기(100)를 향하는 기간 동안 마이크(122)를 통해 입력되는 주변 소리를 사용자 음성(311)으로 판별한다. 이때, 상기 휴대 단말기(100)를 향하는 안구의 방향은 상기 사용자 얼굴이 휴대 단말기(100)의 디스플레이부(151) 상에 표시될 때 정면을 향하는 방향이 될 수 있다.
그리고, 도 7의 (b)에 도시된 바와 같이, 제어부(180)는 상기 사용자의 안구가 휴대 단말기(100)를 향할 때 마이크(122)를 통해 입력되는 사용자 음성(311)을 인식하고, 사용자 음성(311)에 해당하는 동작을 수행한다.
그 다음으로, 이하의 도 8 및 도 9와 같이, 제어부(180)는 상기 사용자의 얼굴을 인식 시에, 주변이 어두워 인식이 잘 안될 경우 카메라(121)의 플래쉬를 구동시켜 사용자 얼굴의 인식율을 높힐 수 있다.
일 예로, 도 8의 (a)에 도시된 바와 같이, 제어부(180)는 카메라(121)를 통해 입력된 영상으로부터 사용자의 얼굴 인식이 실패되면, 주변의 조도가 낮아서 상용자의 얼굴 인식이 실패된 것으로 간주하고, 도 8의 (b)에 도시된 바와 같이, 카메라(121)의 플래쉬를 구동시키고, 상기 플래쉬가 구동된 후 카메라(121)로부터 입력된 영상으로부터 사용자의 얼굴 인식 동작을 다시 수행한다.
다른 예로, 도 9의 (a)에 도시된 바와 같이, 제어부(180)는 마이크(122)를 통해 입력된 주변 소리의 소음이 상기 기준치 이상이여서 음성 인식이 잘 안되면, 사용자 얼굴 인식을 위해 카메라(121)를 구동시킨다.
그리고, 제어부(180)는 조도 센서(142)를 구동시키고, 휴대 단말기(100) 주변의 조도를 측정한다. 상기 측정된 주변의 조도가 기 설정된 기준치 이하이면, 현재 카메라(121)를 통해 사용자 얼굴이 포함된 영상이 입력되어도 낮은 조도 때문에 사용자 얼굴이 인식이 불가한 상태이므로, 도 9의 (b)에 도시된 바와 같이, 제어부(180)는 카메라(121)의 플래쉬를 구동시키고, 상기 플래쉬가 구동된 후 카메라(121)로부터 입력된 영상으로부터 사용자의 얼굴 인식 동작을 다시 수행한다.
마지막으로, 이하의 도 10에 도시된 바와 같이, 제어부(180)는 인식된 사용자의 얼굴을 근거로, 상기 얼굴의 입모양이 변화되지 않거나, 또는 상기 얼굴의 안구가 휴대 단말기(100)를 향하고 있지 않을 때 마이크(122)를 통해 입력되는 주변 소리를 잡음으로 인식하고, 사용자에게 음성 인식할 음성 크기를 증가하도록(크게 말하도록) 요청할 수 있다.
즉, 도 10의 (a)에 도시된 바와 같이, 제어부(180)는 카메라(121)를 통해 입력된 사용자 얼굴의 입모양이 변화되지 않거나, 또는 상기 얼굴의 안구가 휴대 단말기(100)를 향하고 있지 않을 때, 사용자가 크게 말하도록 요청하는 정보를 화면 상에 표시함으로써, 사용자에게 음성을 크게 말하도록 유도할 수 있다.
또한, 도 10의 (b)에 도시된 바와 같이, 제어부(180)는 카메라(121)를 통해 입력된 사용자 얼굴의 입모양이 변화되지 않거나, 또는 상기 얼굴의 안구가 휴대 단말기(100)를 향하고 있지 않을 때, 음향 출력 모듈(152)을 통해 사용자가 크게 말하도록 요청하는 사운드를 출력함으로써, 사용자에게 음성을 크게 말하도록 유도할 수 있다.
이상, 본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 휴대 단말기의 제어부(180)를 포함할 수도 있다.
따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
상기와 같이 설명된 이동 단말기 및 그 제어 방법은 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 이동 단말기 110: 무선 통신부
111: 방송 수신부 112: 이동통신 모듈
113: 무선 인터넷 모듈 114: 근거리 통신 모듈
115: 위치 정보 모듈 120: A/V 입력부
121: 카메라 122: 마이크
130: 사용자 입력부 140: 센싱부
141: 근접 센서 142: 조도 센서
150: 출력부 151: 디스플레이부
152: 음향 출력 모듈 153: 알람 모듈
154: 햅틱 모듈 155: 프로젝터 모듈
160: 메모리 170: 인터페이스부
180: 제어부 181: 멀티미디어 모듈
190: 전원 공급부
111: 방송 수신부 112: 이동통신 모듈
113: 무선 인터넷 모듈 114: 근거리 통신 모듈
115: 위치 정보 모듈 120: A/V 입력부
121: 카메라 122: 마이크
130: 사용자 입력부 140: 센싱부
141: 근접 센서 142: 조도 센서
150: 출력부 151: 디스플레이부
152: 음향 출력 모듈 153: 알람 모듈
154: 햅틱 모듈 155: 프로젝터 모듈
160: 메모리 170: 인터페이스부
180: 제어부 181: 멀티미디어 모듈
190: 전원 공급부
Claims (10)
- 사용자의 음성이 포함된 주변 소리가 입력되는 마이크;
상기 사용자가 포함된 영상 촬영을 위한 카메라; 및
음성 인식 모드 시에, 상기 영상 내에 포함된 사용자의 얼굴을 인식하고, 상기 인식된 사용자의 얼굴을 근거로 상기 마이크를 통해 입력된 주변 소리에서 상기 사용자의 음성을 판별하여 인식하고, 상기 인식된 사용자 음성에 해당하는 동작을 수행하는 제어부;를 포함하여 이루어지는 휴대 단말기. - 제1 항에 있어서,
상기 제어부는, 상기 음성 인식 모드 시에, 상기 마이크로부터 입력된 주변 소리의 소음 레벨이 기준값 이상이면, 상기 카메라를 구동시키고, 상기 카메라에 의해 입력된 영상 내에 포함된 화자 얼굴을 인식하는 것을 특징으로 하는 휴대 단말기. - 제2 항에 있어서,
상기 제어부는, 상기 카메라 구동 중에, 상기 마이크로부터 입력된 주변 소리의 소음 레벨이 기준값 이하가 되면, 상기 카메라의 구동을 오프시키고, 상기 마이크를 통해서 입력되는 주변 소리만을 이용하여 음성 인식을 하는 것을 특징으로 하는 휴대 단말기. - 제1 항에 있어서,
상기 제어부는, 상기 영상 내의 사용자 얼굴 인식이 실패되면, 상기 카메라에 구비된 플래쉬를 구동시키는 것을 특징으로 하는 휴대 단말기. - 제1 항에 있어서,
상기 휴대 단말기 주변의 조도를 측정하는 조도 센서;를 더 포함하고,
상기 제어부는, 상기 조도 센서에 의해 측정된 조도가 기준값 이하이면, 상기 카메라에 구비된 플래쉬를 구동시키는 것을 특징으로 하는 휴대 단말기. - 제1 항에 있어서,
상기 제어부는, 상기 인식된 얼굴을 근거로, 상기 얼굴의 입모양이 변화되는 구간 동안 입력되는 주변 소리를 음성 인식할 사용자 음성으로 인식하는 것을 특징으로 하는 휴대 단말기. - 제1 항에 있어서,
상기 제어부는, 상기 인식된 얼굴을 근거로, 상기 얼굴의 입모양이 변화되지 않는 구간 동안 입력되는 주변 소리를 주변 소음으로 인식하고, 상기 사용자에게 음성 크기를 증가하도록 요청하는 것을 특징으로 하는 휴대 단말기. - 제7 항에 있어서,
디스플레이부; 및
음향 출력부;를 더 포함하고,
상기 제어부는, 상기 사용자에게 음성 크기를 증가하도록 요청하는 정보를 상기 디스플레이부 상에 표시하거나, 또는 상기 사용자에게 음성 크기를 증가하도록 요청하는 사운드를 상기 음향 출력부를 통해 출력하는 것을 특징으로 하는 휴대 단말기. - 제1 항에 있어서,
상기 제어부는, 상기 인식된 얼굴을 근거로, 상기 얼굴의 안구가 향하는 방향이 상기 휴대 단말기를 향하는 구간 동안 입력되는 사용자 음성을 음성 인식할 음성 데이터로 인식하는 것을 특징으로 하는 휴대 단말기. - 휴대 단말기의 동작 모드를 음성 인식 모드로 전환하는 단계;
마이크를 통해 사용자 음성이 포함된 주변 소리를 입력받는 단계;
카메라를 통해 상기 사용자가 포함된 영상을 입력받는 단계;
상기 입력된 영상 내에 포함된 사용자 얼굴을 인식하는 단계;
상기 인식된 사용자의 얼굴을 근거로 상기 마이크를 통해 입력된 주변 소리에서 상기 사용자의 음성을 판별하여 인식하는 단계; 및
상기 인식된 사용자 음성에 해당하는 동작을 수행하는 단계;를 포함하여 이루어지는 휴대 단말기의 제어 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120117945A KR101958781B1 (ko) | 2012-10-23 | 2012-10-23 | 휴대 단말기 및 그 제어 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120117945A KR101958781B1 (ko) | 2012-10-23 | 2012-10-23 | 휴대 단말기 및 그 제어 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140051651A true KR20140051651A (ko) | 2014-05-02 |
KR101958781B1 KR101958781B1 (ko) | 2019-03-15 |
Family
ID=50885268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120117945A KR101958781B1 (ko) | 2012-10-23 | 2012-10-23 | 휴대 단말기 및 그 제어 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101958781B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015170832A1 (ko) * | 2014-05-09 | 2015-11-12 | 삼성전자 주식회사 | 디스플레이 장치 및 그의 화상 통화 수행 방법 |
KR101710695B1 (ko) * | 2015-09-18 | 2017-02-27 | 주식회사 베이리스 | 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법 |
WO2023018001A1 (ko) * | 2021-08-10 | 2023-02-16 | 삼성전자 주식회사 | 폴더블 전자 장치 및 그의 플래시 제어 방법 |
US11709655B2 (en) | 2018-02-23 | 2023-07-25 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057046A (ko) * | 2000-12-30 | 2002-07-11 | 구자홍 | 무선 단말기의 음성인식 방법 |
-
2012
- 2012-10-23 KR KR1020120117945A patent/KR101958781B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057046A (ko) * | 2000-12-30 | 2002-07-11 | 구자홍 | 무선 단말기의 음성인식 방법 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015170832A1 (ko) * | 2014-05-09 | 2015-11-12 | 삼성전자 주식회사 | 디스플레이 장치 및 그의 화상 통화 수행 방법 |
US9749582B2 (en) | 2014-05-09 | 2017-08-29 | Samsung Electronics Co., Ltd. | Display apparatus and method for performing videotelephony using the same |
KR101710695B1 (ko) * | 2015-09-18 | 2017-02-27 | 주식회사 베이리스 | 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법 |
US11709655B2 (en) | 2018-02-23 | 2023-07-25 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
US12118274B2 (en) | 2018-02-23 | 2024-10-15 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
WO2023018001A1 (ko) * | 2021-08-10 | 2023-02-16 | 삼성전자 주식회사 | 폴더블 전자 장치 및 그의 플래시 제어 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR101958781B1 (ko) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101596842B1 (ko) | 영상 프로젝터를 구비한 이동 단말기 및 그 제어 방법 | |
KR101651134B1 (ko) | 이동 단말기 및 이것의 그룹 동작 제어 방법 | |
KR101919788B1 (ko) | 이동 단말기 및 그 제어방법 | |
KR101772453B1 (ko) | 이동 단말기 및 그 제어방법 | |
KR101660737B1 (ko) | 이동 단말기 및 그 제어방법 | |
KR101740440B1 (ko) | 이동 단말기 및 그 제어 방법 | |
KR20150064424A (ko) | 휴대 단말기 및 그 제어 방법 | |
KR101958781B1 (ko) | 휴대 단말기 및 그 제어 방법 | |
KR20120068246A (ko) | 이동 단말기 및 디바이스 제어방법 | |
KR101727037B1 (ko) | 이동 단말기 및 멀티 태스킹 제어 방법 | |
KR101613551B1 (ko) | 이동 단말기 | |
KR101529922B1 (ko) | 단말기 및 그 제어 방법 | |
KR101741398B1 (ko) | 이동 단말기 및 디스플레이 장치 제어 방법 | |
KR101781851B1 (ko) | 이동 단말기 및 태스크 관리 방법 | |
KR101622216B1 (ko) | 이동 단말기 및 이것의 입력 제어 방법 | |
KR101706941B1 (ko) | 이동 단말기 및 그를 이용한 퀵 액세스 동작 제어 방법 | |
KR101565414B1 (ko) | 이동 단말기 및 그 제어방법 | |
KR101925026B1 (ko) | 휴대 단말기 및 그 제어 방법 | |
KR20140137189A (ko) | 휴대 단말기 및 그 제어 방법 | |
KR101381307B1 (ko) | 이동 단말기 및 그 제어방법 | |
KR101844224B1 (ko) | 이동 단말기 및 그 디스플레이 제어방법 | |
KR101823479B1 (ko) | 휴대 단말기 및 그 제어 방법 | |
KR101741399B1 (ko) | 이동 단말기 및 그 디스플레이 제어방법 | |
KR20150008951A (ko) | 휴대 단말기 및 그 제어 방법 | |
KR20140008061A (ko) | 휴대 단말기 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |