KR20110025510A

KR20110025510A - 전자 기기 및 이를 이용한 음성인식 방법

Info

Publication number: KR20110025510A
Application number: KR1020090083610A
Authority: KR
Inventors: 김유진; 신원호
Original assignee: 엘지전자 주식회사
Priority date: 2009-09-04
Filing date: 2009-09-04
Publication date: 2011-03-10
Also published as: WO2011028051A2; WO2011028051A3

Abstract

본 발명은 전자 기기 및 이를 이용한 음성인식 방법에 관한 것이다. 본 발명은, 숫자를 포함하는 음성을 효율적이고 효과적으로 인식하고, 인식 결과에 대한 사용자의 접근 및 수정을 편리하게 할 수 있는 전자 기기 및 이를 이용한 음성인식 방법을 제공한다.

전자 기기, 음성인식

Description

전자 기기 및 이를 이용한 음성인식 방법 {Electronic Device And Method Of Recognizing Voice Using The Same}

본 발명은, 음성인식에 관한 것으로서, 특히 숫자를 포함하는 음성을 효율적으로 인식할 수 있는 전자 기기 및 이를 이용한 음성인식 방법에 관한 것이다.

문자에 대한 음성인식보다, 복수의 숫자들을 포함하는 숫자열에 대한 음성인식이 더 난해하고 인식률이 저하되는 것이 일반적이다. 예를 들어, 10개의 숫자를 포함하는 숫자열에 대한 음성인식의 경우, 각 숫자에 대한 인식률이 90%라고 하더라도, 상기 10개의 숫자 모두에 대한 음성인식률은, (90%)^10이므로, 현저하게 저하된다.

콜 기능을 제공하는 이동통신 단말기의 경우, 전화번호를 음성으로 인식하는 기능을 제공할 수 있다. 이 경우, 적어도 7자리에서 많게는 10자리를 초과하는 전화번호 숫자열을 신뢰성있는 인식률로 음성인식하기 위해서는, 보다 효율적이고 효과적인 방식이 요구되는 실정이다.

본 발명의 과제는, 숫자를 포함하는 음성에 대한 인식을 효율적이고 효과적으로 할 수 있는 전자 기기 및 이를 이용한 음성인식 방법을 제공하는 것이다.

본 발명의 다른 과제는, 음성인식 결과에 대한 사용자의 접근성을 향상시키고, 사용자가 상기 음성인식 결과의 수정을 쉽고 편리하게 할 수 있도록 하는 전자 기기 및 이를 이용한 음성인식 방법을 제공하는 것이다.

본 발명의 제1 양상에 따른 전자 기기는, 디스플레이부; 복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부; 및 상기 수신된 음성을 인식하고, 상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 상기 디스플레이부에 표시하는 제어부를 포함하고, 상기 제어부는, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하여 이루어진다.

본 발명의 제2 양상에 따른 전자 기기는, 음성을 수신하는 음성 수신부; 상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고, 상기 제어부는, 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 상기 음성 수신부를 통해 수신되는 제2 키워드를 국가코드 번호로 가정하여 상기 제2 키워드를 인식하는 것을 특징으로 하여 이루어진다.

본 발명의 제3 양상에 따른 전자 기기는, 복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부; 상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고, 상기 제어부는, 상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 것을 특징으로 하여 이루어진다.

본 발명의 제4 양상에 따른 전자 기기의 음성인식 방법은, 복수의 숫자들을 포함하는 음성을 수신하는 단계; 상기 수신된 음성을 인식하는 단계; 및 상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 표시하되, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 단계를 포함하여 이루어진다.

본 발명의 제5 양상에 따른 전자 기기의 음성인식 방법은, 음성을 수신하는 단계; 및 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 수신되는 제2 키워드를 국가코드 번호로 가정하여 상기 제2 키워드를 음성인식하는 단계를 포함하여 이루어진다.

본 발명의 제6 양상에 따른 전자 기기의 음성인식 방법은, 복수의 숫자들을 포함하는 음성을 수신하는 단계; 및 상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 단계를 포함하여 이루어진다.

본 발명에 따른 전자 기기 및 이를 이용한 음성인식 방법에 의하면, 다음과 같은 효과가 있다.

본 발명에 의하면, 전화번호와 같은 숫자를 포함하는 음성에 대한 인식률을 대폭 향상시킬 수 있는 효과가 있다.

또한 본 발명에 의하면, 숫자를 포함하는 음성에 대한 음성인식 결과에 대한 사용자의 접근성이 향상되는 효과가 있다.

또한 본 발명에 의하면, 숫자를 포함하는 음성에 대한 음성인식 결과를 사용자가 쉽고 편리하게 수정할 수 있는 효과가 있다.

본 발명의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예들을 상세히 설명한다. 명세서 전체에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 또한, 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

음성인식 기술은 패턴 매칭 기법의 응용이라 볼 수 있다. 즉 인식 대상 단어 또는 음소의 특징 파라미터를 미리 저장하여 놓고 음성이 입력되면 이를 분석하여 특징을 추출한 후 미리 저장되어 있는 단어 또는 음소의 특징들과 유사도(likelihood)를 측정하여 가장 유사한 것을 인식 결과로 출력한다. 음성은 시간의 진행에 따라 변화하므로 음성의 특성은 짧은 구간(frame) 동안에만 안정적인 특 성을 갖는다. 따라서 음성의 특징은 각 프레임별로 분석되어 특징벡터가 생성되며 이 특징벡터들의 열로써 표현된다.

음성인식의 방법은 크게 두 가지로 분류된다. 첫째, 음성을 일종의 패턴으로 간주하여 등록되어 있는 패턴과 입력되는 패턴과의 유사도를 측정하여 인식하는 방법이 있다. 둘째, 음성이 발성되는 과정을 모델링하여 각 대상 단어 또는 음소마다 고유의 모델을 할당하여 입력되는 음성이 어떤 음성모델로부터 발생되었을 확률이 가장 높은지를 측정하여 인식하는 방법이 있다. 이외에도, 신경회로망을 이용하는 방법, 여러 가지 방법의 혼합형태 등이 있다. 음성인식 과정에는, 이와 같은 신호처리 측면 이외에도, 언어 체계와 관련된 지식정보를 포함하는 언어모델(language model)이 적용될 수 있다.

이하, 본 발명과 관련된 전자 기기에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

본 명세서에서 설명되는 전자 기기에는, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 단말, DTV(Digital Television), IPTV(Internet Protocol Television) 등이 포함될 수 있다.

도 1은 본 발명의 일 실시예와 관련된 전자 기기의 블록 구성도(block diagram)이다. 도 2는 본 발명의 일 실시예에 따른 전자 기기(100)가 이동 단말기인 경우를 나타낸 도면이다.

상기 전자 기기(100)는 무선 통신부(110), A/V(Audio/Video) 입력부(120), 사용자 입력부(130), 센싱부(140), 출력부(150), 메모리부(160), 인터페이스부(170), 제어부(180), 음성 검출부(182), 음성 인식부(183), 음성 합성부(184) 및 전원 공급부(190) 등을 포함할 수 있다.

도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 전자 기기가 구현될 수도 있다.

이하, 상기 구성요소들에 대해 차례로 살펴본다.

무선 통신부(110)는 전자 기기(100)와 무선 통신 시스템 사이 또는 전자 기기(100)와 전자 기기(100)가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 위치정보 모듈(115) 등을 포함할 수 있다.

방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다.

상기 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 상기 방송 관리 서버는, 방송 신호 및/또는 방송 관련 정보를 생성하여 송신하는 서버 또는 기 생성된 방송 신호 및/또는 방송 관련 정보를 제공받아 전자 기기에 송신하는 서버 를 의미할 수 있다. 상기 방송 신호는, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호를 포함할 뿐만 아니라, TV 방송 신호 또는 라디오 방송 신호에 데이터 방송 신호가 결합한 형태의 방송 신호도 포함할 수 있다.

상기 방송 관련 정보는, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보를 의미할 수 있다. 상기 방송 관련 정보는, 이동통신망을 통하여도 제공될 수 있다. 이러한 경우에는 상기 이동통신 모듈(112)에 의해 수신될 수 있다.

상기 방송 관련 정보는 다양한 형태로 존재할 수 있다. 예를 들어, DMB(Digital Multimedia Broadcasting)의 EPG(Electronic Program Guide) 또는 DVB-H(Digital Video Broadcast-Handheld)의 ESG(Electronic Service Guide) 등의 형태로 존재할 수 있다.

상기 방송 수신 모듈(111)은, 각종 방송 시스템을 이용하여 방송 신호를 수신하는데, 특히, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다. 물론, 상기 방송 수신 모듈(111)은, 상술한 디지털 방송 시스템뿐만 아니라 방송 신호를 제공하는 다른 방송 시스템에 적합하도록 구성될 수도 있다.

방송 수신 모듈(111)을 통해 수신된 방송 신호 및/또는 방송 관련 정보는 메 모리부(160)에 저장될 수 있다.

이동통신 모듈(112)은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 무선 인터넷 모듈(113)은 전자 기기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.

근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 말한다. 근거리 통신 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.

위치정보 모듈(115)은 전자 기기의 위치를 확인하거나 얻기 위한 모듈이다. 상기 위치정보 모듈(115)은 범지구적 위성항법시스템(Global Navigation Satellite System, GNSS)를 이용하여 위치정보를 획득할 수 있다. 여기서, 범지구적 위성 항법 시스템(GNSS)은 지구를 공전하여 무선 항법 수신기들의 소정의 타입들이 지표면 또는 지표면 근처의 그들의 위치를 결정할 수 있는 기준 신호들을 보내는 무선 항법위성 시스템들을 설명하기 위해 이용되는 용어이다. 상기 범지구적 위성 항법 시 스템(GNSS)에는 미국에서 운영하는 GPS(Global Position System), 유럽에서 운영하는 갈릴레오(Galileo), 러시아에서 운영하는 GLONASS(Global Orbiting Navigational Satelite System), 중국에서 운영하는 COMPASS 및 일본에서 운영하는 QZSS(Quasi-Zenith Satellite System)등이 있다.

GNSS의 대표적인 예를 들면, 상기 위치정보 모듈(115)은 GPS(Global Position System) 모듈일 수 있다. 상기 GPS 모듈은, 일 지점(개체)이 3개 이상의 위성으로부터 떨어진 거리에 관한 정보와, 상기 거리 정보가 측정된 시간에 관한 정보를 산출한 다음 상기 산출된 거리 정보에 삼각법을 적용함으로써, 일 시간에 일 지점(개체)에 대한 위도, 경도, 및 고도에 따른 3차원의 위치 정보를 산출할 수 있다. 나아가, 3개의 위성을 이용하여 위치 및 시간 정보를 산출하고, 또 다른 1개의 위성을 이용하여 상기 산출된 위치 및 시간 정보의 오차를 수정하는 방법 또한 사용되고 있다. 상기 GPS 모듈은 현 위치를 실시간으로 계속 산출하고 그를 이용하여 속도 정보를 산출하기도 한다.

도 1을 참조하면, A/V(Audio/Video) 입력부(120)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(121)와 오디오 수신부(122) 등이 포함될 수 있다. 카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시될 수 있다.

카메라(121)에서 처리된 화상 프레임은 메모리부(160)에 저장되거나 무선 통신부(110)를 통하여 외부로 전송될 수 있다. 카메라(121)는 전자 기기(100)의 구성 태양에 따라 2개 이상이 구비될 수도 있다.

상기 오디오 수신부(122)는, 통화모드 또는 녹음모드, 음성인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 입력받아 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 통화 모드인 경우 이동통신 모듈(112)을 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 상기 오디오 수신부(122)에는 외부의 음향 신호를 입력받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.

사용자 입력부(130)는 사용자가 전자 기기(100)의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(130)는 키 패드(key pad) 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다.

센싱부(140)는 전자 기기(100)의 개폐 상태, 전자 기기(100)의 위치, 사용자 접촉 유무, 전자 기기(100)의 방위, 전자 기기(100)의 가속/감속 등과 같이 전자 기기(100)의 현재 상태 또는 외부 환경을 감지하여 전자 기기(100)의 동작을 제어하기 위한 센싱 신호를 발생시킨다. 예를 들어 전자 기기(100)가 슬라이드 폰 형태인 경우 슬라이드 폰의 개폐 여부를 센싱할 수 있다. 또한, 전원 공급부(190)의 전원 공급 여부, 인터페이스부(170)의 외부 기기 결합 여부 등과 관련된 센싱 기능을 담당할 수도 있다. 한편, 상기 센싱부(140)는 근접 센서(142)를 포함할 수 있다.

출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 이에는 디스플레이부(151), 음향 출력 모듈(152), 알람부(153) 및 햅틱 모듈(154) 등이 포함될 수 있다.

디스플레이부(151)는 전자 기기(100)에서 처리되는 정보를 표시 출력한다. 예를 들어, 전자 기기(100)가 통화 모드인 경우 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 전자 기기(100)가 화상 통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다.

디스플레이부(151)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다.

이들 중 일부 디스플레이는 그를 통해 외부를 볼 수 있도록 투명형 또는 광투과형으로 구성될 수 있다. 이는 투명 디스플레이라 호칭될 수 있는데, 상기 투명 디스플레이의 대표적인 예로는 투명 LCD 등이 있다. 디스플레이부(151)의 후방 구조 또한 광 투과형 구조로 구성될 수 있다. 이러한 구조에 의하여, 사용자는 전자 기기(100) 바디의 디스플레이부(151)가 차지하는 영역을 통해 전자 기기(100) 바디의 후방에 위치한 사물을 볼 수 있다.

전자 기기(100)의 구현 형태에 따라 디스플레이부(151)이 2개 이상 존재할 수 있다. 예를 들어, 전자 기기(100)에는 복수의 디스플레이부들이 하나의 면에 이격되거나 일체로 배치될 수 있고, 또한 서로 다른 면에 각각 배치될 수도 있다.

디스플레이부(151)와 터치 동작을 감지하는 센서(이하, '터치 센서'라 함)가 상호 레이어 구조를 이루는 경우(이하, '터치 스크린'이라 약칭함)에, 디스플레이부(151)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 센서는, 예를 들 어, 터치 필름, 터치 시트, 터치 패드 등의 형태를 가질 수 있다.

터치 센서는 디스플레이부(151)의 특정 부위에 가해진 압력 또는 디스플레이부(151)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 센서는 터치 되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다.

터치 센서에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기로 보내진다. 터치 제어기는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(180)로 전송한다. 이로써, 제어부(180)는 디스플레이부(151)의 어느 영역이 터치 되었는지 여부 등을 알 수 있게 된다.

상기 터치스크린에 의해 감싸지는 전자 기기(100)의 내부 영역 또는 상기 터치 스크린의 근처에 상기 근접 센서(142)가 배치될 수 있다. 상기 근접 센서(142)는 소정의 검출면에 접근하는 물체, 혹은 근방에 존재하는 물체의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 상기 근접 센서(142)는 접촉식 센서보다는 그 수명이 길며 그 활용도 또한 높다.

상기 근접 센서(142)의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다.

상기 터치스크린이 정전식인 경우에는 상기 포인터의 근접에 따른 전계의 변화로 상기 포인터의 근접을 검출하도록 구성된다. 이 경우 상기 터치 스크린(터치 센서)은 근접 센서로 분류될 수도 있다.

이하에서는 설명의 편의를 위해, 상기 터치스크린 상에 포인터가 접촉되지 않으면서 근접되어 상기 포인터가 상기 터치스크린 상에 위치함이 인식되도록 하는 행위를 "근접 터치(proximity touch)"라고 칭하고, 상기 터치스크린 상에 포인터가 실제로 접촉되는 행위를 "접촉 터치(contact touch)"라고 칭한다. 상기 터치스크린 상에서 포인터로 근접 터치가 되는 위치라 함은, 상기 포인터가 근접 터치될 때 상기 포인터가 상기 터치스크린에 대해 수직으로 대응되는 위치를 의미한다.

상기 근접센서(142)는, 근접 터치 및 근접 터치 패턴(예를 들어, 근접 터치 거리, 근접 터치 방향, 근접 터치 속도, 근접 터치 시간, 근접 터치 위치, 근접 터치 이동 상태 등)을 감지한다. 상기 감지된 근접 터치 동작 및 근접 터치 패턴에 상응하는 정보는 터치 스크린상에 출력될 수 있다.

음향 출력 모듈(152)은 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리부(160)에 저장된 오디오 데이터를 출력할 수도 있다. 음향 출력 모듈(152)은 전자 기기(100)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력한다. 이러한 음향 출력 모듈(152)에는 리시버(Receiver), 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다. 또한 상기 음향 출력 모듈(152)은, 이어폰잭(116)을 통해 음향을 출력할 수 있다. 사용자는 상기 이어폰잭(116)에 이어폰을 연결하여 출력되는 음향을 들을 수 있다.

알람부(153)는 전자 기기(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 전자 기기(100)에서 발생 되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 터치 입력 등이 있다. 알람부(153)는 비디오 신호나 오디오 신호 이외에 다른 형태, 예를 들어 진동으로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 비디오 신호나 오디오 신호는 디스플레이부(151)이나 음향 출력 모듈(152)을 통해서도 출력될 수 있다.

햅틱 모듈(haptic module)(154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다. 햅택 모듈(154)이 발생하는 진동의 세기와 패턴 등은 제어가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다.

햅틱 모듈(154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열에 의한 자극에 의한 효과, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력을 통한 자극에 의한 효과, 피부 표면을 스치는 자극에 의한 효과, 전극(eletrode)의 접촉을 통한 자극에 의한 효과, 정전기력을 이용한 자극에 의한 효과, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다.

햅틱 모듈(154)은 직접적인 접촉을 통해 촉각 효과의 전달할 수 있을 뿐만 아니라, 사용자의 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구현할 수도 있다. 햅틱 모듈(154)은 전자 기기(100)의 구성 태양에 따라 2개 이상이 구비될 수 있다.

메모리부(160)는 제어부(180)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들(예를 들어, 폰북, 메시지, 정지영상, 동영상 등)을 임시 저장 할 수도 있다. 상기 메모리부(160)는 상기 터치스크린 상의 터치 입력시 출력되는 다양한 패턴의 진동 및 음향에 관한 데이터를 저장할 수 있다.

상기 메모리부(160)는, 음성 인식에 필요한 음향 모델, 인식 사전을 포함할 수 있다. 또한 상기 메모리부(160)는, 언어 모델을 포함할 수 있다.

상기 인식 사전은, 특정 언어로 구성되는 단어, 어절, 키워드 및 표현 중 적어도 하나를 포함할 수 있다.

메모리부(160)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 전자 기기(100)는 인터넷(internet)상에서 상기 메모리부(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

인터페이스부(170)는 전자 기기(100)에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(170)는 외부 기기로부터 데이터를 전송받거나 전원을 공급받아 전자 기기(100) 내부의 각 구성 요소에 전달하거나 전자 기기(100) 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구 비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 인터페이스부(170)에 포함될 수 있다.

식별 모듈은 전자 기기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module, UIM), 가입자 인증 모듈(Subscriber Identify Module, SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module, USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 포트를 통하여 전자 기기(100)와 연결될 수 있다.

상기 인터페이스부(170)는 전자 기기(100)가 외부 크래들(cradle)과 연결될 때 상기 크래들로부터의 전원이 상기 전자 기기(100)에 공급되는 통로가 되거나, 사용자에 의해 상기 크래들에서 입력되는 각종 명령 신호가 상기 전자 기기(100)로 전달되는 통로가 될 수 있다. 상기 크래들로부터 입력되는 각종 명령 신호 또는 상기 전원은 상기 전자 기기(100)가 상기 크래들에 정확히 장착되었음을 인지하기 위한 신호로 동작될 수도 있다.

상기 음성 검출부(182)는, 상기 오디오 수신부(122)를 통해 입력된 오디오 신호에 포함된 음성 신호를 검출한다. 상기 음성 검출부(182)는, 상기 오디오 신호에 음성의 존재 여부를 판별할 수 있다. 상기 음성 검출부(182)는 일반적으로 VAD(Voice Activity Detector, Voice Activity Detection)로 호칭된다.

상기 음성 검출부(182)는, 상기 오디오 신호를 일정 구간 또는 일정 시간만큼 버퍼링(buffering)하면서, 음성을 검출할 수 있다.

상기 음성 인식부(183)는, 상기 오디오 수신부(122)를 통해 입력된 오디오 신호 또는 음성 신호에 대한 음성인식을 수행하고, 상기 인식된 음성에 대응되는 적어도 하나의 인식후보를 획득한다.

예를 들어, 상기 음성 인식부(183)는, 상기 입력된 음성 신호로부터 음성구간을 검출하고 음향분석을 수행한 후 이를 인식 단위로 인식함으로써 상기 입력된 음성 신호를 인식할 수 있다. 그리고 상기 음성 인식부(183)는, 상기 메모리(160)에 저장된 인식 사전과 번역 데이터베이스를 참조하여 상기 음성인식된 결과에 대응되는 상기 적어도 하나의 인식후보를 획득할 수 있다.

상기 음성 인식부(183)는, 상기 음성 검출부(182)를 포함하여 구성될 수도 있다.

상기 음성 합성부(184)는, TTS(Text-To-Speech) 엔진을 이용하여 텍스트를 음성으로 변환한다. TTS 기술은 문자 정보 또는 기호를 인간의 음성으로 변환하여 들려주는 기술이다. TTS 기술은, 언어의 모든 음소에 대한 발음 데이터베이스를 구축하고 이를 연결시켜 연속된 음성을 생성하게 되는데, 이때 음성의 크기, 길이, 높낮이 등을 조절하여 자연스러운 음성을 합성해 내는 것으로서 이를 위해 자연어 처리 기술이 포함될 수 있다. TTS 기술은 CTI, PC, PDA 및 이동전화 등의 전자통신 분야와 녹음기, 장난감, 게임기 등의 가전 분야에서 쉽게 볼 수 있고, 공장에서 생산성 향상에 기여하거나 보다 편리한 일상생활을 위한 홈오토메이션 시스템 등에 널리 쓰여지고 있다. TTS 기술은 공지 기술이므로 더 이상의 상세한 설명은 생략하기로 한다.

한편 상기 음성 검출부(182) 및 상기 음성 인식부(183)가 반드시 상기 전자 기기(100)에 구비되어야 하는 것은 아니다. 예를 들어, 상기 음성 검출부(182) 및 상기 음성 인식부(183) 중 적어도 하나는, 상기 전자 기기(100)의 외부에 존재할 수도 있다. 도 3은 상기 전자 기기(100)와 외부 서버(300)가 인터넷(400)으로 연결된 개념도이다.

상기 외부 서버(300)는, 상기 음성 인식부(183)를 포함할 수 있다. 상기 전자 기기(100)는, 상기 음성 검출부(182)를 구비하고 상기 음성 인식부(183)를 구비하지 않을 수 있다. 상기 전자 기기(100)는, 상기 음성 검출부(182)를 이용하여 상기 오디오 수신부(122)로부터 수신된 오디오 신호로부터 음성 구간을 검출하고, 상기 검출된 음성 구간을 상기 외부 서버(300)로 전송할 수 있다.

상기 외부 서버(300)는 상기 전자 기기(100)로부터 전송된 상기 음성 구간을 상기 음성 인식부(183)를 통해 음성 인식하고, 그 인식 결과를 상기 전자 기기(100)로 전송할 수 있다.

한편 상기 외부 서버(300)는, 상기 음성 검출부(182)와 상기 음성 인식부(183)를 포함할 수 있다. 상기 전자 기기(100)는, 상기 오디오 수신부(122)로부터 수신된 오디오 신호를 상기 외부 서버(300)로 전송할 수 있다.

상기 외부 서버(300)는, 상기 음성 검출부(182) 및 상기 음성 인식부(183)를 이용하여 상기 전자 기기(100)로부터 수신된 오디오 신호로부터 음성을 검출하여 음성 인식하고, 그 인식 결과를 상기 전자 기기(100)로 전송할 수 있다.

제어부(180)는 통상적으로 상기 전자 기기(100)의 전반적인 동작을 제어한 다. 예를 들어 음성 통화, 데이터 통신, 화상 통화, 음성 인식 등을 위한 관련된 제어 및 처리를 수행한다. 제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 모듈(181)을 구비할 수도 있다. 멀티미디어 모듈(181)은 제어부(180) 내에 구현될 수도 있고, 제어부(180)와 별도로 구현될 수도 있다.

상기 제어부(180)는 상기 터치스크린 상에서 행해지는 필기 입력 또는 그림 그리기 입력을 각각 문자 및 이미지로 인식할 수 있는 패턴 인식 처리를 행할 수 있다.

전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.

여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 그러한 실시예들이 제어부(180)에 의해 구현될 수 있다.

소프트웨어적인 구현에 의하면, 절차나 기능과 같은 실시예들은 적어도 하나 의 기능 또는 작동을 수행하게 하는 별개의 소프트웨어 모듈과 함께 구현될 수 있다. 소프트웨어 코드는 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션에 의해 구현될 수 있다. 또한, 소프트웨어 코드는 메모리부(160)에 저장되고, 제어부(180)에 의해 실행될 수 있다.

이하 본 발명의 실시예들을 설명하기로 한다. 본 발명의 실시예들은, 도 1 내지 도 3을 참조하여 설명한 상기 전자 기기(100)에서 구현될 수 있다. 이하 설명의 편의를 위하여 상기 전자 기기(100)를 이동 단말기로 가정하여 본 발명의 실시예들을 설명하기로 한다. 전술한 바와 같이, 본 문서에서 개시되는 기술적 사상은, 다양한 전자 기기에 적용될 수 있음을 분명히 밝혀둔다.

도 4는 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다. 도 5 내지 도 8은, 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 이하 필요한 도면들을 참조하여, 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법과, 이를 구현하기 위한 상기 전자 기기(100)의 동작을 상세히 설명하기로 한다.

상기 제어부(180)는, 상기 오디오 수신부(122)를 통해 음성을 수신한다[S100]. 상기 음성은, 복수의 숫자들을 포함할 수 있다.

도 5(a)는 사용자의 음성을 입력받기 위한 대기 모드에 대응되는 화면의 예를 도시한다. 상기 제어부(180)는, 도 5(a)에 도시된 화면 상태에서 사용자의 음성 을 수신할 수 있다(도 5(b)를 참조).

상기 제어부(180)는, 상기 음성 인식부(183)를 제어하여 상기 수신된 음성에 대해 음성인식(voice recognition)을 수행한다[S110].

도 5의 예에서, 상기 제어부(180)는, 사용자가 말한 "Call 225 6142"에서 "Call"과 나머지 숫자 부분을 분리하여 음성인식할 수 있다. "Call"은 콜 기능에 대응되는 명령어이다.

상기 제어부(180)는, "Call"을 인식하면, "Call" 이후에 수신되는 숫자를 음성인식하여 상기 인식된 숫자에 대응되는 수신측으로 콜을 발신할 수 있다.

상기 제어부(180)는, 상기 음성인식의 결과가 서로 다른 부분을 강조하여, 복수의 인식후보들을 상기 디스플레이부(151)에 표시한다[S120].

도 5(c)는, 상기 복수의 인식후보들이 상기 디스플레이부(151)에 표시되는 예를 도시한다.

도 5의 예에서, 상기 제어부(180)는, 상기 복수의 숫자들(225 6142)에 대한 음성인식 결과로서, 도 5(c)에 도시된 바와 같이, 복수의 서로 다른 숫자열들(10)에 각각 대응되는 복수의 인식후보들(10)을 상기 디스플레이부(151)에 표시할 수 있다.

여기서 상기 제어부(180)는, 상기 서로 다른 숫자열들(10) 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시한다.

상기 서로 다른 숫자들의 강조는, 다양한 방식으로 이루어질 수 있다. 예를 들어 상기 제어부(180)는, 상기 음성인식 결과가 서로 다른 숫자들을 하이라이트하 거나, 상기 음성인식 결과가 서로 다른 숫자들의 색상, 폰트 및 크기 중 적어도 하나를 이용하여 상기 음성인식 결과가 서로 다른 숫자들을 강조할 수 있다.

또한 상기 제어부(180)는, 상기 음성인식 결과로서 인식 스코어가 가장 높은 인식후보 순으로 정렬하여 복수의 인식후보들(10)을 상기 디스플레이부(151)에 표시한다.

예를 들어 도 5(c)를 참조하면, 상기 제어부(180)는, 인식 스코어가 가장 높은 제1 인식후보(10a)를 제일 상단에 표시한다. 그리고, 인식 스코어가 높은 순서대로 제2 인식후보(10b)와 제3 인식후보(10c)를 표시한다.

상기 제어부(180)는, 상기 서로 다른 숫자열들(10)에 대해 동일한 위치에 해당하는 숫자끼리 비교하고, 상기 비교 결과 상기 동일한 위치에 해당하는 숫자가 서로 다르면, 상기 서로 다른 숫자들을 강조하여 표시할 수 있다.

예를 들어 도 6을 참조하면, 상기 제어부(180)는 상기 복수의 인식후보들(10) 각각을 구성하는 숫자열의 동일한 위치(예를 들어, 제1 내지 제7 열(column))에 해당하는 숫자들끼리 동일성을 비교한다. 도 6에서는, 제1열 내지 제3열과, 제5열 및 제6열은 동일하고, 제4열 및 제7열이 서로 다른 숫자를 포함한다.

상기 제어부(180)는, 상기 복수의 인식후보들(10) 중 특정 인식후보에 대한 선택 신호를 수신하고[S130], 상기 선택된 특정 인식후보를 수신측으로 하여 콜(call)을 발신한다[S140].

예를 들어 도 7을 참조하면, 사용자가 상기 제1 인식후보(10a)를 선택하면, 상기 제어부(180)는 상기 제1 인식후보(10a)에 대응되는 숫자열을 수신 전화번호로 하여 콜을 발신한다.

한편 상기 제어부(180)는 다른 방식으로 사용자로부터 콜 발신 명령을 수신하여, 콜을 발신할 수 있다.

예를 들어 도 8을 참조하면, 상기 제어부(180)는, 상기 복수의 인식후보들(10)을 제공함에 있어서, 각 인식후보의 식별자로서 서수를 대응시켜 표시할 수 있다. 도 8(a)에서는, 상기 제1 인식후보(10a)는 "1"에, 상기 제2 인식후보(10b)는 "2"에, 상기 제3 인식후보(10c)는 "3"에 각각 대응되어 있다.

사용자는 상기 복수의 인식부호들(10) 중 자신이 원하는 인식후보에 대응된 서수를 음성으로 말할 수 있다(도 8(b)를 참조). 상기 제어부(180)는 사용자의 음성을 인식하고, 이에 대응되는 서수가 지시하는 인식후보를 선택하고, 상기 선택된 인식후보를 수신측으로 하여 콜을 발신한다(도 8(c)를 참조).

전술한 본 발명의 제1 실시예에 의하면, 사용자는 자신이 발성한 내용에 대한 결과를 쉽게 인지하고, 원하는 인식후보에 대한 접근성이 향상될 수 있다. 따라서, 사용자는 자신이 원하는 결과에 쉽게 접근하고, 이를 빨리 선택할 수 있다.

도 9는 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다. 도 10 내지 도 15는, 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 이하 필요한 도면들을 참조하여, 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법과, 이를 구현하기 위한 상기 전자 기 기(100)의 동작을 상세히 설명하기로 한다.

상기 제어부(180)는, 상기 오디오 수신부(122)를 통해 음성을 수신한다[S200].

상기 제어부(180)는, 상기 수신된 음성에 대해 음성인식을 수행하여, 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는지를 판단한다[S210].

상기 제1 키워드는 다양할 수 있다. 일반적으로 "+"는 국제전화를 의미하는 기호로 통용된다.

상기 제1 키워드의 예를 들면, "+", "plus", "international" 등이 있다. 즉 상기 제어부(180)는, 상기 수신된 음성에 대한 음성인식의 수행 결과, 상기 수신된 음성이 국제전화를 나타내는 상기 제1 키워드를 포함하는지를 판단하게 된다.

상기 제어부(180)는, 상기 S210 단계의 판단 결과, 상기 수신된 음성이 상기 제1 키워드를 포함하면, 상기 제1 키워드에 이어서 수신되는 제2 키워드를 국가코드번호로 가정하여 음성인식을 수행한다[S220]. 그리고 상기 제어부(180)는, 상기 제2 키워드에 이어서 수신되는 복수의 음절들을 전화번호로 가정하여 음성인식을 수행한다[S230].

예를 들어 도 10 및 도 11을 참조하면, 상기 제어부(180)는, 콜 발신 기능을 수행하기 위한 음성인식 화면에서(도 10(a)를 참조), 음성을 입력받는다(도 10(b)를 참조).

도 10(b)에 도시된 사용자가 발성한 음성의 내용은, 도 11에 도시된 구조를 갖는다. 도 11에 도시된 구조는, 전화 발신 기능에 대응되는 키워드(30)로 시작하고, 상기 키워드(30)에 뒤이어 국제전화를 나타내는 상기 제1 키워드(31)를 포함한다.

상기 제어부(180)는, 상기 제1 키워드(31)를 음성인식함에 따라, 상기 제1 키워드(31)에 이어서 수신되는 제2 키워드(32)를 국가코드번호로 가정하여 음성인식하게 된다.

상기 메모리(160)는, 국가와 국가코드번호를 매칭시킨 데이터베이스를 저장할 수 있다. 예를 들어, 국가 "Korea"는 국가코드번호 "82"에 매칭되고, 국가 "USA"는 국가코드번호 "1"에 매칭되어 있다.

상기 제어부(180)는, 상기 데이터베이스를 참조하여, 상기 제1 키워드(31)에 이어서 수신되는 상기 제2 키워드(32)에 대한 음성인식을 수행할 수 있다. 즉 상기 제어부(180)는, 상기 제2 키워드(32)를 상기 데이터베이스에 포함된 국가명 또는 국가코드번호와 비교하여, 상기 제2 키워드(32)에 대한 음성인식을 수행할 수 있다.

도 10 및 도 11의 경우, 상기 제어부(180)는, 상기 제2 키워드(32)를 상기 데이터베이스에 포함된 국가코드번호와 비교함에 있어서, 상기 "820"(32)은 상기 데이터베이스에 존재하지 않고 국가코드번호 뒤에는 "0"이 올 수 없으며, 상기 데이터베이스에는 "Korea"에 대응되는 "82"가 존재하므로, "820"을 "82"로 수정하여 인식할 수 있다.

상기 제어부(180)는, 상기 제2 키워드(32)에 이어서 수신되는 복수의 음절 들(33)을 전화번호로 인식할 수 있다.

한편 상기 제1 키워드(31)에 이어서 수신되는 상기 제2 키워드(32)는, 도 12에 도시된 바와 같이, 국가코드번호 이외에 국가명일 수도 있다. 상기 제어부(180)는, 상기 국가코드번호의 음성인식 과정과 마찬가지로, 상기 제1 키워드(31)에 이어서 수신되는 국가명에 대해, 상기 데이터베이스를 참조하여 음성인식을 수행할 수 있다.

본 발명의 제2 실시예에 의하면, 숫자들로 구성되는 음성의 인식률이 대폭 향상될 수 있다.

도 13은, 종래 기술에 따른 숫자 인식기의 구조를 설명하기 위한 도면이고, 도 14는, 본 발명에 따른 숫자 인식기의 구조를 설명하기 위한 도면이다.

도 13을 참조하여 종래 기술에 따른 숫자 인식기의 구조를 설명하면 다음과 같다. 종래 기술에 따른 숫자 인식기는, 각 자리수마다 모든 숫자(0~9)가 올 수 있는 탐색 공간(search space)로 구성된다. 각 리프(leaf) 노드로 이동하는 경로(path)의 선택은, 발성과 음향 모델의 유사도에 의한 음향 매칭(acoustic matching) 과정으로 결정된다.

이와 같은 종래 기술에 따른 숫자 인식기의 구조는, 모든 경우의 수를 계산하기 위해서는 많은 연산량이 필요하고, 자리수의 길이에 따라 인식률도 기하급수적으로 저하된다. 예를 들어, 4자리의 자리수를 갖는 숫자열에 대한 인식을 위한 경우의 수는, 10000개(10^⁴)이다.

도 14를 참조하여 본 발명에 따른 숫자 인식기의 구조를 설명하면 다음과 같다. 도 14는, 도 13의 경우와 마찬가지로 4자리의 자리수를 갖는 숫자열에 대한 음성인식을 수행하는 경우를 도시한다.

도 14를 참조하면, 탐색공간에서 국가코드에 따라서 각 자리수마다 숫자가 지정될 수 있다. 따라서, 도 13의 경우와는 달리, 탐색 공간의 크기가 크게 줄어들게 되어, 탐색 공간의 복잡도가 대폭 낮아지게 된다. 따라서, 계산량이 크게 감소함과 동시에, 인식 결과의 경우의 수가 크게 줄어든다(약 300개 이하). 따라서, 본 발명에 따른 숫자 인식기에 의하면, 숫자열로 구성된 음성에 대한 인식률이 대폭 향상될 수 있다.

한편, 상기 제어부(180)는, 상기 제2 키워드에 이어서 수신되는 상기 복수의 음절들 중 최초에 시작하는 제3 키워드를 미리 정해진 식별번호로 인식할 수 있다. 예를 들어 도 15를 참조하면, 상기 제어부(180)는, 상기 제2 키워드(32)에 이어서 수신되는 제3 키워드(34)를 이동전화 식별번호로 가정하여 인식할 수 있다. 상기 이동전화 식별번호를 인식하는 방식 및 과정은, 상기 제2 키워드(32)를 인식하는 방식 및 과정과 동일하거나 유사하다.

도 16은 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다. 도 17 내지 도 19는, 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 이하 필요한 도면들을 참조하여, 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법과, 이를 구현하기 위한 상기 전자 기 기(100)의 동작을 상세히 설명하기로 한다.

상기 제어부(180)는, 상기 오디오 수신부(122)를 통해 음성을 수신한다[S300].

그리고 상기 제어부(180)는, 상기 수신된 음성에서 묵음 구간인 포즈(pause)가 검출되는지를 판단한다[S310].

상기 제어부(180)는, 상기 음성 검출부(182)를 이용하여 상기 포즈를 검출하거나, 미리 지정된 시간 동안 상기 오디오 수신부(122)로부터 음성이 수신되지 않으면 상기 포즈가 존재하는 것으로 판단할 수 있다.

그리고 상기 제어부(180)는, 상기 S210 단계의 판단 결과, 상기 수신된 음성에서 포즈가 검출되면, 상기 검출된 포즈에 우선하여 수신된 숫자에 대한 음성인식을 수행하고[S320], 상기 S320 단계에서 수행된 음성인식의 수행 결과를 출력한다[S330].

그리고 상기 제어부(180)는, 상기 S300 단계로 회귀하여, 상기 S300 내지 상기 S330 단계를 반복 수행할 수 있다.

즉, 본 발명의 제3 실시예에 의하면, 상기 제어부(180)는, 상기 수신된 음성에서 포즈가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하고, 상기 적어도 하나의 숫자에 대한 음성인식을 수행할 때마다 상기 음성인식의 결과를 출력할 수 있다.

도 17 및 도 18을 참조하여, 본 발명의 제3 실시예가 실제 구현되는 예를 설명하기로 한다.

사용자는, 도 17에 도시된 바와 같이, 각 구간(40, 41, 42, 43)의 사이에 포즈를 두고 상기 각 구간(40, 41, 42, 43)을 발성한다. 도 17의 경우, 숫자열만 상정하면, 제1 숫자열(41)과 제2 숫자열(42) 사이에 제1 포즈가 존재하고, 상기 제2 숫자열(42)과 제3 숫자열(43) 사이에 제2 포즈가 존재하고, 상기 제3 숫자열(43)을 수신한 이후에 제3 포즈가 존재하여, 모두 3개의 포즈들이 존재한다.

상기 제어부(180)는, 도 18에 도시된 바와 같이, 상기 각 포즈가 검출될 때마다, 상기 각각 검출되는 포즈에 우선하여 수신된 숫자열에 대한 음성인식을 수행하여, 그 결과를 출력한다.

예를 들어, 상기 제1 포즈가 검출되면, 상기 제1 숫자열(41)에 대한 음성인식을 수행하여 그 결과를 상기 디스플레이부(151)에 출력하고(도 18(a)를 참조), 상기 제2 포즈가 검출되면, 상기 제2 숫자열(42)에 대한 음성인식을 수행하여 그 결과를 상기 디스플레이부(151)에 출력하고(도 18(b)를 참조), 상기 제3 포즈가 검출되면, 상기 제3 숫자열(43)에 대한 음성인식을 수행하여 그 결과를 상기 디스플레이부(151)에 출력한다(도 18(c)를 참조).

도 18(a) 내지 도 18(c)에 도시된 음성인식 결과들은, 본 발명의 제1 실시예와 마찬가지로, 그 결과가 서로 다른 숫자들을 강조하여 표시하고 있다.

도 19(a)는 사용자가 숫자열을 3자리씩 끊어서 발성하는 경우를 도시하고, 도 19(b)는 사용자가 숫자열을 2자리씩 끊어서 발성하는 경우를 도시한다. 도 19(a) 및 도 19(b)의 경우, 도 18과 동일한 방식으로 포즈가 검출될 때마다 우선하는 숫자열에 대한 음성인식 결과가 상기 디스플레이부(151)에 표시될 수 있다.

본 발명의 제3 실시예에 의하면, 사용자의 발성 중간에 묵음 구간인 포즈를 검출함으로써, 부분적인 인식 결과를 이어서 출력할 수 있다. 사용자는 일반적으로 전화번호를 처음부터 끝까지 쉬지 않고 발성하지 않는다. 예를 들어, 프랑스의 경우, 2자리의 숫자씩 발성하는 것이 일반적인 문화이다. 따라서 상기 포즈 검출을 이용하게 되면, 사용자의 발성이 완전히 멈춘 후 음성인식을 수행하는 방식보다, 전화번호의 일부 구간별로 음성인식을 수행할 수 있고, 결과적으로 인식률이 증가하게 된다.

본 발명의 제4 실시예는, 음성인식 결과를 수정하는 방법 및 이를 구현하는 이동 단말기를 개시한다. 도 20은, 본 발명의 제4 실시예가 구현되는 예를 도시한 도면이다.

도 20(a)는, 사용자의 음성에 대한 음성인식 결과를 도시한다. 사용자가 상기 음성인식 결과의 세번째 자리인 "5"를 터치하면, 상기 제어부(180)는 인식 스코어에 따른 인식 후보군(50)을 표시할 수 있다(도 20(b)를 참조).

사용자는, 도 20(b)에 도시된 바와 같이, 상기 인식 후보군(50)에서 자신이 원하는 숫자를 선택할 수 있다. 여기서, 상기 사용자가 자신이 원하는 숫자를 선택하는 방식은, 다양할 수 있다. 예를 들어 도 20(b)에 도시된 바와 같이, 상기 디스플레이부(151)가 터치스크린인 경우, 사용자는 자신이 원하는 숫자를 터치할 수 있다. 또한 예를 들어, 사용자는 음성으로 자신이 원하는 숫자를 선택할 수 있다. 도 20(b)를 참조하면, 사용자가 "6"이라고 말하면, 상기 제어부(180)는, 사용자의 음 성을 인식하여 상기 인식 후보군(50)에서 "6"을 선택하게 된다.

상기 제어부(180)는, 도 20(c)에 도시된 바와 같이, 상기 음성인식 결과 중 해당하는 자리에 해당하는 숫자를, 사용자가 선택한 숫자로 변경하여 표시한다.

한편 도 20(a)의 상태에서 사용자는, 음성인식 기능을 이용하여 자신이 원하는 숫자를 선택할 수도 있다. 예를 들어, 도 20(a)의 상태에서 사용자가 "5"라고 말하면, 상기 제어부(180)는 사용자의 음성을 인식하여 도 20(b)와 같은 화면을 출력할 수 있다.

도 20(a)의 상태에서 사용자가 "4"라고 말하면, 도 20(a)의 음성인식 결과가 "4"를 2개 포함하고 있으므로, 상기 2개의 "4"가 모두 선택된다. 즉, 사용자는 음성인식 결과에서 복수의 자리수를 선택하고, 상기 복수의 자리수를 한꺼번에 수정할 수 있다.

도 20은, 상기 인식 후보군(50)을 인식 스코어의 순서대로 미리 정해진 개수만큼 제공하는 경우이다. 그러나, 본 발명의 실시예는 이에 한정되지 않는다.

본 발명의 제5 실시예는, 음성인식 결과를 수정하는 다른 방법 및 이를 구현하는 이동 단말기를 개시한다. 도 21은, 본 발명의 제5 실시예가 구현되는 예를 도시한 도면이다. 도 21은, 도 5를 참조하여 설명한 본 발명의 제1 실시예에 따른 음성인식 결과를 표시하는 다른 형태를 도시한다.

도 21(a)는, 도 5(c)에 도시된 음성인식 결과 중 인식 스코어가 가장 높은 인식 후보(10a)만을 출력하는 경우를 도시한다(본 발명의 제1 실시예를 참조).

상기 제어부(180)는, 도 21(a)에 도시된 바와 같이, 복수의 인식후보들 중 서로 다른 숫자를 강조하여 표시할 수 있다.

사용자가 도 21(a)의 화면에서 첫번째 "6"을 선택하면, 상기 제어부(180)는, 도 21(b)에 도시된 바와 같이, 상기 선택된 "6"에 대응되는 자리에 해당하고, 인식 스코어가 낮은 다른 인식후보에 포함되는 숫자를 포함하는 인식후보군(51)을 표시할 수 있다. 사용자는 상기 인식후보군(51)에서 자신이 원하는 숫자를 선택할 수 있다.

사용자가 도 21(a)의 화면에서 두번째 "6"을 선택하면, 상기 제어부(180)는, 도 21(c)에 도시된 바와 같이, 상기 선택된 "6"에 대응되는 자리에 해당하고, 인식 스코어가 낮은 다른 인식후보에 포함되는 숫자를 포함하는 인식후보군(52)을 표시할 수 있다. 사용자는 상기 인식후보군(51)에서 자신이 원하는 숫자를 선택할 수 있다.

도 21에 도시된 예는, 도 5에 도시된 예와 상황이 동일하다. 단, 인식후보군이 사용자에게 제공되는 방식이 다를 뿐이다.

상기에서 설명한 본 발명에 의한 전자 기기의 음성 인식 방법은, 컴퓨터에서 실행시키기 위한 프로그램으로 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공될 수 있다.

본 발명에 의한 전자 기기의 음성 인식 방법은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.

컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는, ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 또한 본 문서에서 설명된 실시예들은 한정되게 적용될 수 있는 것이 아니라, 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

도 1은 본 발명의 일 실시예와 관련된 전자 기기의 블록 구성도(block diagram)이다.

도 2는 본 발명의 일 실시예에 따른 전자 기기(100)가 이동 단말기인 경우를 나타낸 도면이다.

도 3은 상기 전자 기기(100)와 외부 서버(300)가 인터넷(400)으로 연결된 개념도이다.

도 4는 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다.

도 5 내지 도 8은, 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다.

도 9는 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다.

도 10 내지 도 15는, 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다.

도 16은 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다.

도 17 내지 도 19는, 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다.

도 20은, 본 발명의 제4 실시예가 구현되는 예를 도시한 도면이다.

도 21은, 본 발명의 제5 실시예가 구현되는 예를 도시한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

110: 무선 통신부 122: 오디오 수신부 (음성 수신부)

151: 디스플레이부 160: 메모리

180: 제어부 182: 음성 검출부

183: 음성 인식부

Claims

디스플레이부;

복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부; 및

상기 수신된 음성을 인식하고, 상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 상기 디스플레이부에 표시하는 제어부를 포함하고,

상기 제어부는, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하는 전자 기기.
제 1 항에 있어서, 상기 제어부는,

상기 서로 다른 숫자열들에 대해 동일한 위치에 해당하는 숫자끼리 비교하여, 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하는 전자 기기.
제 1 항에 있어서, 상기 제어부는,

상기 음성인식 결과가 다른 숫자들을 하이라이트하거나, 상기 음성인식 결과가 다른 숫자들의 색상, 폰트 및 크기 중 적어도 하나를 이용하여 상기 음성인식 결과가 다른 숫자들을 강조하는 것을 특징으로 하는 전자 기기.
음성을 수신하는 음성 수신부;

상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고,

상기 제어부는, 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 상기 음성 수신부를 통해 수신되는 제2 키워드를 국가코드 번호로 가정하여 상기 제2 키워드를 인식하는 것을 특징으로 하는 전자 기기.
제 4 항에 있어서,

국가별 국가코드를 매칭시킨 제1 데이터베이스를 저장하는 메모리를 포함하고,

상기 제어부는, 상기 제1 데이터베이스를 참조하여 상기 제2 키워드에 대한 음성인식을 수행하는 것을 특징으로 하는 전자 기기.
제 5 항에 있어서, 상기 제어부는,

상기 제2 키워드를 상기 제1 데이터베이스에 포함된 국가명 또는 국가코드와 비교하여 상기 제2 키워드에 대한 음성인식을 수행하는 것을 특징으로 하는 전자 기기.
제 4 항에 있어서, 상기 제어부는,

상기 제2 키워드에 이어 상기 음성 수신부를 통해 수신되는 복수의 음절들을 전화번호로 인식하는 것을 특징으로 하는 전자 기기.
제 4 항에 있어서, 상기 제어부는,

상기 복수의 음절들 중 최초에 시작하는 제3 키워드를 미리 정해진 식별번호로 인식하는 것을 특징으로 하는 전자 기기.
제 8 항에 있어서, 상기 제3 키워드는,

이동통신 식별국 또는 지역번호인 것을 특징으로 하는 전자 기기.
복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부;

상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고,

상기 제어부는,

상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 것을 특징으로 하는 전자 기기.
제 10 항에 있어서, 상기 제어부는,

음성 검출기(VAD)를 이용하여 상기 포즈를 검출하거나, 미리 지정된 시간 동안 상기 음성 수신부로부터 음성이 수신되지 않으면 상기 포즈가 존재하는 것으로 판단하는 것을 특징으로 하는 전자 기기.
제 10 항에 있어서, 상기 제어부는,

상기 적어도 하나의 숫자에 대한 음성인식을 수행할 때마다, 상기 음성인식의 수행 결과를 출력하는 것을 특징으로 하는 전자 기기.
복수의 숫자들을 포함하는 음성을 수신하는 단계;

상기 수신된 음성을 인식하는 단계; 및

상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 표시하되, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 단계를

포함하는 전자 기기의 음성인식 방법.
제 13 항에 있어서, 상기 표시하는 단계는,

상기 서로 다른 숫자열들에 대해 동일한 위치에 해당하는 숫자끼리 비교하여, 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하는 전자 기기의 음성인식 방법.
음성을 수신하는 단계; 및

상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 수신되는 제2 키워드를 국가코드 번호로 가정하 여 상기 제2 키워드를 음성인식하는 단계를

포함하는 전자 기기의 음성인식 방법.
제 15 항에 있어서,

상기 제2 키워드에 이어 수신되는 복수의 음절들을 전화번호로 음성인식하는 단계를

더 포함하는 전자 기기의 음성인식 방법.
복수의 숫자들을 포함하는 음성을 수신하는 단계; 및

상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 단계를

포함하는 전자 기기의 음성인식 방법.
제 17 항에 있어서,

상기 적어도 하나의 숫자에 대한 음성인식을 수행할 때마다, 상기 음성인식의 수행 결과를 출력하는 단계를

더 포함하는 전자 기기의 음성인식 방법.