KR20140116642A

KR20140116642A - 음성 인식 기반의 기능 제어 방법 및 장치

Info

Publication number: KR20140116642A
Application number: KR1020130031472A
Authority: KR
Inventors: 정호원; 구영대; 김태형
Original assignee: 삼성전자주식회사
Priority date: 2013-03-25
Filing date: 2013-03-25
Publication date: 2014-10-06
Also published as: US20140288916A1

Abstract

본 발명에 따른 음성 인식 기반의 기능 제어 방법은, 음성 감지 시, 감지된 음성을 제1 언어로 입력하는 단계와, 상기 제1 언어를 딕테이션하는 단계와, 상기 딕테이션 중 발생하는 언어 변경 이벤트를 검출하는 단계와, 상기 언어 변경 이벤트 검출 이후에 감지되는 음성을 제2 언어로 변경하여 입력하는 단계 및 상기 제2 언어를 딕테이션하는 단계를 포함하는 것을 특징으로 한다.

Description

음성 인식 기반의 기능 제어 방법 및 장치{APPARATUS AND METHOD FOR CONTROLLING FUNCTION BASED ON SPEECH RECOGNITION}

본 발명은 음성 인식 기반의 기능 제어 방법 및 장치에 관한 것으로, 특히 음성 인식을 이용한 문장의 딕테이션 도중 언어의 종류를 쉽게 변경할 수 있는 방법 및 장치에 관한 것이다.

최근 디지털 기술의 발달과 함께 이동통신 단말기, PDA(Personal Digital Assistant), 전자수첩, 스마트 폰, 태블릿 PC(Personal Computer) 등과 같이 이동하면서 통신 및 개인정보 처리가 가능한 사용자 디바이스(user device)가 다양하게 출시되고 있다. 이러한 사용자 디바이스는 각자의 전통적인 고유 영역에 머무르지 않고 다른 단말들의 영역까지 아우르는 모바일 컨버전스(mobile convergence) 단계에 이르고 있다. 대표적으로, 사용자 디바이스는 음성통화 및 영상통화 등과 같은 통화 기능, SMS(Short Message Service)/MMS(Multimedia Message Service) 및 이메일 등과 같은 메시지 송수신 기능, 내비게이션 기능, 촬영 기능, 방송 재생 기능, 미디어(동영상 및 음악) 재생 기능, 인터넷 기능, 메신저 기능 및 소셜 네트워크 서비스(SNS, Social Networking Service) 기능 등의 다양한 기능들을 구비할 수 있다.

특히, 최근에는 개인의 삶을 디지털 정보로 기록하는 라이프로그(life-log)에 대한 다양한 기술들이 개발되고 있으며, 또한 이를 이용한 상황 인식 서비스(CAS, Context Aware Service)에 대한 관심이 높아지고 있다.

상기 상황 인식 서비스는 서비스 객체(object)(예컨대, 사용자)가 정의하는 상황이 변경됨에 따라 서비스 여부와 서비스의 내용이 결정되는 서비스를 나타낸다. 여기서, 상황(Context)이란, 상황 인식 서비스 객체에 의해 정의된 서비스 행위를 결정하는 정보를 의미하며, 서비스 행위를 결정하는 정보에는 서비스의 제공 시점, 서비스의 제공 여부, 서비스의 제공 대상, 그리고 서비스의 제공 위치 등이 포함될 수 있다. 이러한 기술들은 개인의 행동을 특정 지을 수 있는 다양한 정보들을 저장하고, 이를 기초로 상황 인식 서비스를 제공한다.

종래의 스마트 단말기의 입력기에서 제공하는 음성 인식을 이용한 문장 입력 방식은 하나의 언어에 대해 인식하고, 인식한 언어를 딕테이션하는 서비스를 제공하고 있다. 이와 같은 종래의 음성 인식을 이용한 문장 입력 방식의 단점은 두 가지 종류 이상의 언어를 딕테이션하기 위해서 음성 인식 요청을 서로 다른 종류의 언어에 맞게 끊어서 요청해야 한다는 점이다.

즉, 한 번에 한 종류의 언어(예컨대, 한국어)에 대한 딕테이션 요청과 처리가 발생하는 경우, 한국어와 영어가 혼합된 문장의 딕테이션 시에 사용자의 의도와 다른 언어가 인식되는 문제가 발생할 수 있다. 이를 방지하기 위해서 사용자는 서로 다른 종류의 언어에 따라 문장을 끊어서 각각의 문장에 대한 언어 선택 및 딕테이션 요청을 구분해서 수행해야 하는 불편함이 있다.

따라서 음성 인식을 이용한 문장의 딕테이션 도중 언어의 종류를 쉽게 변경할 수 있는 방법을 제공하여 사용자의 의도에 맞는 문장을 완성할 수 있는 방안이 필요하다.

본 발명은 음성 인식을 이용한 문장의 딕테이션 도중 언어의 종류를 쉽게 변경할 수 있는, 음성 인식 기반의 기능 제어 방법 및 장치를 제공한다.

상기 과제를 해결하기 위한 본 발명에 따른 음성 인식 기반의 기능 제어 방법은, 음성 감지 시, 감지된 음성을 제1 언어로 입력하는 단계와, 상기 제1 언어를 딕테이션하는 단계와, 상기 딕테이션 중 발생하는 언어 변경 이벤트를 검출하는 단계와, 상기 언어 변경 이벤트 검출 이후에 감지되는 음성을 제2 언어로 변경하여 입력하는 단계 및 상기 제2 언어를 딕테이션하는 단계를 포함하는 것을 특징으로 한다.

상기 과제를 해결하기 위한 본 발명에 따른 음성 인식 기반의 기능 제어 장치는, 음성을 입력받는 음성 입력부와, 상기 음성을 제1 언어로 딕테이션하고, 상기 딕테이션 중 검출된 언어 변경 이벤트의 발생 이후에 입력되는 음성을 제2 언어로 변경하여 딕테이션하는 제어부 및 상기 음성 입력부에 의해 입력된 음성을 상기 제1 언어와 상기 제2 언어를 기반으로 변환하여 디스플레이 하는 출력부를 포함하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 기반의 기능 제어 방법 및 장치는, 음성 인식을 이용한 문장의 딕테이션 중 언어 입력의 과정에서 편리하게 입력 언어의 종류를 변경함으로써, 음성 입력에 의한 딕테이션 기능을 제공하는 입력기(IME: Input method Editor)의 사용성을 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 전자장치의 구성을 개략적으로 도시한 도면.
도 2 내지 도 4는 본 발명의 실시예에 따른 음성 인식 기반의 딕테이션의 기능이 실행되는 동작 예시를 도시한 도면이다.
도 5는 본 발명의 실시예에 따른 음성 인식 기반의 딕테이션 기능을 제어하는 방법을 도시한 흐름도이다.
도 6은 본 발명의 다른 실시예에 따른 음성 인식 기반의 딕테이션 기능을 제어하는 방법을 도시한 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 음성 인식 기반의 딕테이션 기능을 제어하는 방법을 도시한 흐름도이다.

본 발명은 음성 인식 기능 수행 중 사용자 이벤트를 검출하고, 검출된 사용자 이벤트에 따른 상기 음성 인식 기능의 제어를 위해 적용될 수 있다.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다." 또는 "포함한다." 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예들을 보다 구체적으로 설명하도록 한다.

도 1은 본 발명의 실시예에 따른 전자장치의 구성을 개략적으로 도시한 도면이다.

본 발명의 전자장치는 음성 인식 기반의 기능을 제어하는 전자장치로서, 음성 인식 기반 서비스와 관련된 전반적인 동작을 처리한다. 상기 전자장치는 본 발명의 기능을 지원하는 모든 정보통신 기기, 멀티미디어 기기 및 그에 대한 응용기기와 같이 AP(Application Processor), GPU(Graphic Processing Unit), CPU(Central Processing Unit)를 사용하는 모든 디바이스를 포함할 수 있다.

예를 들어, 상기 전자장치는 다양한 통신 시스템에 대응되는 각 통신 프로토콜들(communication protocols)에 의거하여 동작하는 이동통신 단말기를 비롯하여, 태블릿(table) PC(Personal Computer), 스마트 폰(Smart Phone), 스마트 폰(Smart Phone), 디지털 카메라, PMP(Portable Multimedia Player), 미디어 플레이어(Media Player), 휴대게임단말 및 PDA(Personal Digital Assistant) 등의 디바이스를 포함할 수 있다. 아울러, 본 발명의 기능 제어 방법은 디지털 TV(Digital Television), DS(Digital Signage), LFD(Large Format Display) 등과 같이 다양한 디스플레이 디바이스에 적용되어 운용될 수 있다.

도 1을 참조하면, 본 발명의 전자장치는 무선 통신부(110), 음성 인식부(120), 사용자 입력부(130), 센서부(140), 카메라부(150), 표시부(160), 인터페이스부(170), 저장부(180), 오디오 처리부(190) 및 제어부(200)를 포함하여 구성된다. 본 발명의 전자장치는 도 1에 도시된 구성 요소들이 필수적인 것은 아니어서, 그보다 많은 구성 요소들을 가지거나, 또는 그보다 적은 구성요소들을 가지는 것으로 구현될 수 있다.

무선 통신부(110)는 사용자 디바이스(100)와 무선 통신 시스템 사이 또는 사용자 디바이스(100)와 다른 사용자 디바이스 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 이동통신모듈, 무선 랜(WLAN, Wireless Local Area Network) 모듈, 근거리 통신모듈, 위치 산출 모듈, 그리고 방송 수신 모듈 등을 포함하여 구성될 수 있다.

상기 이동통신 모듈은 이동통신 네트워크 상에서 기지국, 외부의 단말, 그리고 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는 음성통화 신호, 화상통화 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 이동통신 모듈은 제어부(200)의 제어에 따라 사업자 서버 또는 컨텐츠 서버 등에 접속하여 음성 인식 기반의 딕테이션 기능 실행을 위한 다양한 사용자 이벤트 및 그의 액션이 매핑된 언어 테이블(language table) 등을 다운로드할 수 있다.

상기 무선 랜 모듈은 무선 인터넷(internet) 접속 및 다른 사용자 디바이스와 무선 랜 링크(link)를 형성하기 위한 모듈을 나타내는 것으로, 상기 전자장치에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 무선 랜(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 상기 무선랜 모듈은 제어부(200)의 제어에 따라 사업자 서버 또는 컨텐츠 서버 등에 접속하여 음성 인식 기반의 딕테이션 기능 실행을 위한 다양한 사용자 이벤트 및 그의 액션이 매핑된 언어 테이블(language table) 등을 다운로드할 수 있다. 또한 상기 무선 랜 모듈은 다른 전자장치와 무선 랜 링크가 형성될 시 사용자 선택에 따른 사용자 이벤트 및 그의 액션이 매핑된 언어 테이블을 다른 전자장치로 전송하거나 수신받을 수 있다. 또는 상기 무선 랜 모듈은 무선 랜을 통해 상기 언어 테이블을 클라우드 서버 등으로 전송하거나 클라우드 서버로부터 수신 받을 수 있다.

상기 근거리 통신 모듈은 근거리 통신을 위한 모듈을 나타낸다. 근거리 통신(short range communication) 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, Infrared Data Association), UWB(Ultra Wideband), 지그비(ZigBee), 그리고 NFC(Near Field Communication) 등이 이용될 수 있다. 또한 상기 근거리 통신 모듈은 다른 전자장치와 근거리 통신이 연결될 시 상기 언어 테이블 등을 다른 전자장치로 전송하거나 수신 받을 수 있다.

음성 인식부(120)는 입력되는 음성을 인식하여 전자장치의 다양한 기능을 실행하기 위한 음성인식 동작을 수행할 수 있다. 예컨대, 전자장치의 기능 실행이란 입력되는 음성을 문자열로 변환하여 표시부(160)에 디스플레이하는 딕테이션 기능 실행일 수 있다. 음성 인식부(120)는 사운드 레코더(sound recorder), 엔진 매니저(enginge manager) 및 스피치 인식 엔진(speech recognition engine) 등을 포함할 수 있다.

상기 사운드 레코더는 마이크로부터 입력되어 전달된 오디오(사용자 음성 등)를 기록하여 녹음 데이터를 생성할 수 있다.

상기 엔진 매니저는 상기 사운드 레코더로부터 전달된 녹음 데이터를 상기 스피치 인식 엔진으로 전달하고, 상기 스피치 인식 엔진으로부터 전달된 결과 정보를 제어부(200)에 전달한다.

상기 스피치 인식 엔진은 입력된 음성 신호를 텍스트로 변환하기 위한 엔진으로, 입력된 음성을 문자열 텍스트로 변환하는 STT(Speech To Text) 엔진을 포함하는 프로그램으로 구성될 수 있다.

음성 인식부(120)는 음성을 이용한 다양한 서비스를 실행하는 것과 관련된 동작을 수행하기 위해 OS(Operating System) 기반의 소프트웨어로 구현될 수도 있다. 소프트웨어로 구현되는 음성 인식부(120)는 저장부(180) 및 제어부(200) 중 적어도 하나 또는 별도의 프로세서(미도시)에 저장 또는 탑재될 수 있다.

사용자 입력부(130)는 사용자가 전자장치의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(130)는 키패드(key pad), 돔 스위치(dome switch), 터치패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. 사용자 입력부(130)는 전자장치의 외부에 버튼 형태로 구현될 수 있으며, 일부 버튼들은 터치 패널(touch panel)로 구현될 수도 있다. 사용자 입력부(130)는 입력 언어 설정 또는 언어 인식 기반의 딕테이션 기능 실행을 위한 사용자 입력이 수신될 시 그에 따른 입력 데이터를 발생시킬 수 있다.

센서부(140)는 전자장치에 발생한 사용자 이벤트를 감지하고 이에 관한 센싱 신호를 발생시킨다. 이러한 센싱 신호는 제어부(200)로 전달될 수 있다. 센서부(140)는 전자장치 자체에 발생한 특정 움직임(motion)과 관련된 이벤트를 감지할 수 있다.

예를 들어, 센서부(140)는 모션 센서를 구비함으로ㅆ 전자장치의 움직임 이벤트를 감지할 수 있다. 상기 움직임 이벤트는 사용자에 의해 발생한 이벤트로서 손날 터치, 에어 모션(air motion) 등일 수 있다.

상기 모션 센서는 전자장치에 발생한 움직임과 관련하여 전자장치의 각도 변화, 방향 변화, 자세 변화, 위치 변화, 움직임의 세기 변화, 속도 변화 중 적어도 하나를 감지할 수 있다. 이러한 모션 센서는 가속도 센서, 자이로 센서, 지자기 센서, 관성 센서, 틸트 센서, 적외선 센서 등이 이용될 수 있다. 이외에도 물체의 움직임, 동작, 위치 등을 감지/인식 할 수 있는 센서라면 특별한 제한 없이 모두 적용될 수 있다. 센서부(140)는 상기와 같은 모션센서 외에도 블로우 센서 등을 구비할 수 있다.

본 발명의 센서부(140)는 음성 인식 기반의 딕테이션 기능 실행 중 입력 언어 변경을 위해 입력되는 사용자 이벤트, 즉 언어 변경 이벤트를 감지하기 위해 필수적으로 또는 사용자 선택에 의해 구동될 수 있다.

카메라부(150)는 전자장치의 전면과 배면 중 적어도 하나에 구비될 수 있고, 전자장치 주변의 배경, 사물, 인물 등을 촬영하여 획득한 이미지를 제어부(200)와 저장부(180)로 전달할 수 있다. 카메라부(150)는 적외선 카메라, 일반 카메라 중 적어도 하나로 구비될 수 있다. 특히 본 발명의 카메라부(150)는 음성 인식 기반의 딕테이션 기능 실행 중 입력 언어 변경을 위해 입력되는 언어 변경 이벤트를 감지하기 위해 필수적으로 또는 사용자 선택에 의해 구동될 수 있다.

표시부(160)는 전자장치에서 처리되는 정보를 표시(출력)한다. 예를 들어, 전자장치가 통화모드인 경우 통화와 관련된 사용자 인터페이스(UI, User Interface) 또는 그래픽 사용자 인터페이스(GUI, Graphical UI)와 같은 화면 인터페이스를 표시한다. 또한 표시부(160)는 전자장치가 화상통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상 또는 UI, GUI를

표시한다. 특히, 표시부(160)는 음성 인식 기반의 딕테이션 기능 실행 시 딕테이션 기능 실행과 관련된 다양한 UI, GUI를 표시할 수 있다. 예를 들어, 표시부(160)는 입력되는 음성이 문자열로 변환된 언어 표시 화면, 입력 언어 변경을 위해 입력된 언어 변경 이벤트에 대한 결과(즉, 언어 변경 결과) 화면 등과 같이 음성 인식 기반의 딕테이션 기능 실행과 관련된 다양한 화면 인터페이스를 표시할 수 있다. 본 발명에서 운용되는 표시부(160)의 화면 예시에 대해 후술될 것이다.

표시부(160)는 액정 디스플레이(LCD, Liquid Crystal Display), 박막 트랜지스터 액정 디스플레이(TFT LCD, Thin Film Transistor-LCD), 발광 다이오드(LED, Light Emitting Diode), 유기 발광 다이오드(OLED, Organic LED), 능동형 OLED(AMOLED, Active Matrix OLED), 플렉서블 디스플레이(flexible display), 벤디드 디스플레이(bended display), 그리고 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 이들 중 일부 디스플레이는 외부를 볼 수 있도록 투명형 또는 광투명형으로 구성되는 투명 디스플레이(transparent display)로 구현될 수 있다.

또한 표시부(160)와 터치 동작을 감지하는 터치 패널이 상호 레이어(layer) 구조를 이루는 경우(이하, '터치스크린(touchscreen)'이라 칭함)에, 표시부(160)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 패널은 표시부(160)의 특정 부위에 가해진 압력 또는 표시부(160)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 패널은 터치되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다. 터치 패널에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기(미도시)로 보내진다. 터치 제어기(미도시)는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(200)로 전송한다. 이로써, 제어부(200)는 표시부(160)의 어느 영역이 터치되었는지 여부 등을 알 수 있게 된다.

인터페이스부(170)는 전자장치에 연결되는 모든 외부 기기와의 통로 역할을 한다. 인터페이스부(170)는 외부 기기(예컨대, 헤드셋 등)로부터 데이터를 전송 받거나, 전자장치 내부의 데이터가 외부 기기(예컨대, 헤드셋 등)로 전송되도록 한다. 또한 인터페이스부(170)는 외부 기기(예컨대, 전원 공급 장치)로부터 전원을 공급받아 전자장치 내부의 각 구성 요소에 전달한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 입/출력(Input/Output) 포트, 비디오 입/출력 포트, 헤드셋(또는 이어폰) 포트 등이 인터페이스부(170)에 포함될 수 있다.

저장부(180)는 제어부(200)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들(예컨대, 다양한 종류의 언어, 언어 변경 이벤트 등)의 임시 저장을 위한 기능을 수행할 수도 있다. 저장부(180)에는 전자장치의 기능 운용에 따른 사용 빈도(예컨대, 언어 변경 이벤트 발생빈도, 언어 인식 기반의 딕테이션 기능 실행 사용빈도 등), 중요도 및 우선 순위도 함께 저장될 수 있다. 저장부(180)에는 터치스크린 상의 터치 입력 시 출력되는 다양한 패턴(pattern)의 진동 및 음향에 관한 데이터를 저장할 수도 있다.

특히, 저장부(180)는 사용자 또는 설계자 정의에 따른 언어 변경 이벤트, 정의되는 언어 변경 이벤트 별 액션(또는 기능), 언어 변경 이벤트별 매핑된 언어 종류 정보, 언어 인식 기반의 딕테이션 기능 실행 규칙 등이 매핑되는 테이블을 저장할 수 있다.

그리고 저장부(180)는 언어 인식 기반 딕테이션 기능이 실행되는 중에 마이크를 통해 입력되는 오디오를 버퍼링(buffering)하고, 버퍼링된 오디오를 제어부(200)의 제어에 따라 녹음 데이터로 저장할 수 있다. 또한 저장부(180)는 후술하는 바와 같이 음성 인식부(120)가 소프트웨어(software)로 구현될 시 그를 저장할 수도 있다.

저장부(180)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 마이크로 타입(micro type), 및 카드 타입(예컨대, SD 카드 또는 XD 카드) 등의 메모리와, 램(RAM, Random Access Memory), SRAM(Static RAM), 롬(ROM, Read-Only Memory), PROM(Programmable ROM), EEPROM(Electrically Erasable PROM), 자기 메모리(MRAM, Magnetic RAM), 자기 디스크(magnetic disk), 및 광디스크(optical disk) 타입의 메모리 중 적어도 하나의 타입의 저장 매체(storage medium)를 포함할 수 있다. 전자장치는 인터넷 상에서 저장부(180)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

오디오 처리부(190)는 제어부(200)로부터 입력받은 오디오 신호를 스피커(SPK)로 전송하고, 마이크(MIC)로부터 입력 받은 음성 등의 오디오 신

호를 제어부(200)로 전달하는 기능을 수행한다. 오디오 처리부(200)는 음성/음향과 같은 사운드 데이터를 제어부(200)의 제어에 따라 스피커를 통해 가청음으로 변환하여 출력하고 마이크로부터 수신되는 음성 등의 오디오 신호를 디지털 신호로 변환하여 제어부(200)로 전달할 수 있다.

스피커는 통화 모드, 녹음 모드, 음성인식 모드, 방송수신 모드, 촬영

모드, 그리고 상황 인식 서비스 실행 모드 등에서 무선 통신부(110)로부터 수신된 오디오 데이터, 마이크로부터 입력된 오디오 데이터, 또는 저장부(180)에 저장된 오디오 데이터를 출력할 수 있다. 스피커는 전자장치에서 수행되는 기능(예컨대, 액션 실행에 따른 상황 정보의 피드백, 통화 연결 수신, 통화 연결 발신, 촬영, 미디어 컨텐츠(음악 파일, 동영상 파일) 재생 등)과 관련된 음향 신호를 출력할 수도 있다.

마이크는 통화 모드, 녹음 모드, 음성인식 모드, 촬영 모드, 음성 인식 기반의 딕테이션 실행 모드 등에서 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 통화모드인 경우 이동통신 모듈을 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 또는 처리된 음성 데이터는 음성 인식 기반의 딕테이션 기능 실행 모드인 경우 음성 인식부(120)를 통하여 제어부(200)에서 처리 가능한 형태로 변환되어 출력될 수 있다.

마이크에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다. 마이크는 음성 인식 기반의 딕테이션 기능 실행 또는 입력 언어 변경을 위한 사용자 이벤트(언어 변경 이벤트)가 수신될 시 그에 따른 입력 데이터를 발생하여 제어부(200)에게 전달한다.

제어부(200)는 전자장치의 전반적인 동작을 제어한다. 예를 들어, 음성 통화, 데이터 통신, 화상 통화 등에 관련된 제어를 수행할 수 있다. 특히, 제어부(200)는 본 발명의 실시예에서 음성 인식 기반의 딕테이션 기능 실행과 관련된 전반적인 동작을 제어한다.

즉, 본 발명의 실시예에 따르면, 제어부(200)는 사용자 또는 설계자에 따라 정의되는 사용자 이벤트(입력 언어 변경 이벤트) 설정, 입력 언어 이벤트에 따른 액션 실행, 입력 언어 변경 이벤트를 통해 변경하고자 하는 입력 언어의 검출, 검출된 입력 언어로 기존의 입력 언어를 변경하는 실행, 변경된 언어 기반으로 딕테이션 기능을 실행하는 등과 관련된 음성 인식 기반의 딕테이션 기능 실행 운용을 제어할 수 있다.

이러한 제어부(200)의 상세 제어 동작에 대해 후술하는 도면들을 참조한 전자장치의 동작 예시 및 그의 제어방법에서 설명될 것이다.

한편, 본 발명에서 설명되는 다양한 실시 예들은 소프트웨어, 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 발명에서 설명되는 실시 예들은 ASICs(Application SpecificIntegrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 제어부(200) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

여기서, 상기 기록 매체는 사용자 이벤트에 따라 음성 인식 기반의 딕테이션 기능 실행을 위한 입력 언어를 정의하고, 마이크를 통해 상기 입력 언어에 대응하는 오디오가 입력되면 상기 입력된 오디오를 상기 입력 언어를 기반으로 변환하고, 상기 변환된 언어에 대응하게 문자열이 출력되도록 처리하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함할 수 있다.

도 5는 본 발명의 실시예에 따른 전자장치에서 음성 인식 기반의 딕테이션 기능 실행을 운용하는 방법을 도시한 흐름도이다.

도 5를 참조하면, 제어부(200)는 딕테이션 애플리케이션을 실행할 수 있다.(310 동작) 여기서, 딕테이션 애플리케이션의 실행은 사용자의 메뉴 조작에 의해 실행되거나, 사용자 또는 설계자 정의에 따른 특정 상황 검출에 의해 실행될 수 있다.

제어부(200)는 상기 딕테이션 애플리케이션 실행 시 제1 입력 언어를 선택한다.(320 동작) 예컨대, 제어부(200)는 사용자 또는 설계자에 의해 디폴트로 선택된 언어를 제1 입력 언어로 선택할 수 있다.

제어부(200)는 전자장치에 입력되는 음성을 감지한다.(330 동작) 예컨대, 전자장치의 마이크를 통해 입력되는 음성을 디지털 신호로 변환할 수 있다.

제어부(200)는 상기 감지된 음성을 제1 입력 언어로 변환하고 및 변환된 제1 입력 언어를 저장부에 저장한다.(340 동작) 이때, 전제는 사용자가 전자장치에 어느 하나의 종류의 언어, 즉 제1 입력 언어에 해당하는 음성을 입력하는 것이다. 사용자가 제1 입력 언어에 해당하는 음성을 전자장치에 입력하다가, 상기 제1 입력 언어와 서로 다른 종류의 언어에 해당하는 음성을 전자장치에 입력하고자 한다면, 다음 350 동작에 개시된 언어 변경 이벤트를 전자장치에 발생시켜야 한다.

그리고, 제어부(200)는 340 동작의 변환 및 저장 실행 이후에 바로 저장된 제1 입력 언어를 표시부에 문자열로 디스플레이할 수 있고, 또는 추후 음성 입력이 모두 종료된 이후에 디스플레이할 수 있다.

제어부(200)는 언어 변경 이벤트를 검출한다.(350 동작) 이때, 제어부(200)는 적어도 하나의 센서, 카메라, 소프트 키, 하드 키, 스타일러스 펜 중 적어도 하나 또는 이들의 조합을 통해 상기 언어 변경 이벤트를 검출할 수 있다.

상기 적어도 하나의 센서는, 가속도 센서, 자이로 센서, 지자기 센서, 관성 센서 및 틸트 센서와 같은 모션 센서, 적외선 센서, 블로우 센서, 터치 센서 중 적어도 하나를 이용할 수 있다.

예컨대, 제어부(200)는 상기 모션 센서를 통해 전자장치의 각도 변화, 방향 변화, 자세 변화, 위치 변화, 움직임의 세기 변화, 속도 변화 중 적어도 하나를 통해 언어 변경 이벤트의 발생을 검출할 수 있다.

또는, 제어부(200)는 상기 카메라를 통해 획득된 영상을 분석하고, 상기 분석된 영상을 미리 저장된 영상과 일치 여부를 비교함으로써, 언어 변경 이벤트의 발생을 검출할 수 있다.

또는, 제어부(200)는 도 3에 도시된 바와 같이 터치스크린에 복수의 언어 종류가 소프트 키로 표시된 상태에서 사용자가 상기 소프트 키를 누름을 통해 어느 하나의 언어 선택을 검출함으로써, 언어 변경 이벤트의 발생을 검출할 수 있다. 상기 소프트 키는 다종 언어 중 어느 하나의 언어 선택을 위한 메뉴 버튼이라 할 수 있다.

또는, 제어부(200)는 도 2에 도시된 바와 같이 스타일러스 펜의 키 버튼에 입력되는 푸시 이벤트를 검출함으로써, 언어 변경 이벤트의 발생을 검출할 수 있다. 상기 스타일러스 펜의 키 버튼을 누르는 횟수마다 서로 다른 종류의 언어와 미리 매핑되어 있을 수 있다. 또한, 도시되지는 않았으나, 상기 스타일러스 펜의 키 버튼 이외에 전자장치에 구비된 하드 키 버튼도 유사한 방법으로 이용될 수 있다.

또는, 제어부(200)는 사용자에 의해 입력되는 특정 문자, 특정 기호, 특정 숫자, 특정 사운드 중 적어도 하나를 검출함으로써, 언어 변경 이벤트의 발생을 검출할 수 있다.

예컨대, 도 4에 도시된 바와 같이, 사용자가 제1 입력 언어인 한글로 "나는"이라는 음성을 입력 후에 "영어"라는 특정 단어를 음성으로 입력하면, 제어부(200)는 제1 입력 언어인 한글을 제2 입력 언어인 영어로 변경한다. 이는"영어"라는 특정 음성에 영어가 제2 입력 언어로서 미리 매핑되어 있기 때문이다. 이후, 사용자가 "버스"라는 음성을 입력하면, 표시부에 'BUS'라는 영어 단어가 출력된다. 다시 사용자가 "한글"이라는 특정 단어를 음성으로 입력하면, 제어부(200)는 제2 입력 언어를 다시 제1 입력 언어인 한글로 변경한다. 이는 "한글"이라는 특정 음성에 한글이 제1 입력 언어로서 미리 매핑되어 있기 때문이다. 따라서, 제1 입력 언어 기반으로 입력된 "나는", "를 타러 간다"라는 음성은 한글로 표시부에 출력된다.

제어부(200)는 상기 언어 변경 이벤트에 매핑된 제2 입력 언어를 추출한다.(360 동작) 즉, 제어부(200)는 검출된 언어 변경 이벤트를 분석하고, 이의 분석 결과, 상기 언어 변경 이벤트와 매칭하는 미리 저장된 어느 하나의 제2 입력 언어를 추출할 수 있다.

상기 제2 입력 언어는 전자장치에 미리 저장된 복수의 언어 종류 중 어느 특정 언어 변경 이벤트와 매핑된 언어 종류의 하나일 수 있다. 이와 같은 특정한 언어 변경 이벤트와 어느 한 종류의 언어의 매핑은 전자장치의 제조시에 설계자에 의해 설정될 수도 있고, 사용자에 의해 설정 및 변경될 수 있음에 한정하지 않는다.

제어부(200)는 제2 입력 언어를 추출한 이후, 전자장치에 입력되는 음성을 감지한다.(370 동작)

제어부(200)는 상기 감지된 음성을 제2 입력 언어로 변환하여 저장부에 저장한다.(380 동작) 이때, 전제는 사용자가 전자장치에 제2 입력 언어에 해당하는 음성을 입력하는 것이다. 사용자가 제2 입력 언어에 해당하는 음성을 전자장치에 입력하다가, 또 다른 종류의 언어에 해당하는 음성을 전자장치에 입력하고자 한다면, 상기 언급한 350 동작에 개시된 언어 변경 이벤트와 같은 실행을 전자장치에 다시 발생시켜야 한다.

제어부(200)는 저장된 제2 입력 언어를 표시부에 문자열로 디스플레이할 수 있다.(390 동작) 한편, 상기 340 동작에서 제1 입력 언어가 디스플레이되지 않았다면, 390 동작에서 상기 제1 입력 언어와 상기 제2 입력 언어를 동시에 표시부에 문자열로 디스플레이 할 수 있다.

한편, 제1 입력 언어와 제2 입력 언어는 서로 다른 컬러와 서로 다른 폰트(글씨체) 중 적어도 하나에 의해 차별적으로 표시될 수 있다.

도 6은 본 발명의 다른 실시예에 따른 전자장치에서 음성 인식 기반의 딕테이션 기능 실행을 운용하는 방법을 도시한 흐름도이다.

도 6을 참조하면, 제어부(200)는 입력 언어를 선택한다.(510 동작) 즉, 제어부(200)는 전자장치에 디폴트로 설정된 입력 언어를 선택하거나, 사용자에 의한 선택에 의해 입력 언어를 선택할 수 있다.

제어부(200)는 음성 입력을 시작하고(520 동작), 상기 입력된 음성을 수집하며(530 동작), 음성 입력을 종료한다.(540 동작) 상기 음성 입력은 사용자에 의해 임의로 종료되거나, 미리 설정된 소정 시간 이내에 음성이 입력되지 않으면 자동으로 음성 입력 실행이 종료될 수 있다.

제어부(200)는 수집된 음성 입력을 한 음절씩 딕테이션 실행한다.(550 동작) 즉, 제어부(200)는 인식된 음성 문장을 문자열로 변환하여 표시부에 디스플레이 할 수 있다.

이 과정 중 제어부(200)는 특정 단어를 확인하면(560 동작) 확인된 단어를 제외한 문자열을 저장하고(562 동작), 상기 특정 단어에 해당하는 새로운 입력 언어를 선택한다.(564 동작) 그리고, 상기 특정 단어에 해당하는 새로운 입력 언어를 한 음절씩 딕테이션 실행한다.(550 동작)

즉, 제어부(200)는 동일한 입력 언어에 해당하는 음성을 변환하여 문자열로 표시하는 딕테이션 실행 중에 상이한 입력 언어가 발견되면, 상기 상이한 입력 언어에 해당하는 다른 종류의 입력 언어를 추출하고, 상기 다른 종류의 입력 언어를 기반으로 다시 한 음절씩 딕테이션 실행할 수 있다.

제어부(200)는 상기 딕테이션 실행 중 더 이상 상이한 단어가 확인되지 않으면, 문자열로 변환된 문장을 저장한다.(570 동작)

제어부(200)는 남은 음절이 있는지 확인하고(580), 남은 음절이 없으면, 상기 문자열로 변환된 문장을 표시부에 디스플레이한다.(590 동작)

도 7은 본 발명의 다른 실시예에 따른 전자장치에서 음성 인식 기반의 딕테이션 기능 실행을 운용하는 방법을 도시한 흐름도이다.

도 7을 참조하면, 제어부(200)는 입력 언어를 선택한다.(610 동작) 즉, 제어부(200)는 전자장치에 디폴트로 설정된 입력 언어를 선택하거나, 사용자에 의한 선택에 의해 입력 언어를 선택할 수 있다.

제어부(200)는 음성 입력을 시작하고(620 동작), 상기 입력된 음성을 수집하며(630 동작), 음성 입력을 종료한다.(640 동작) 상기 음성 입력은 사용자에 의해 임의로 종료되거나, 미리 설정된 소정 시간 이내에 음성이 입력되지 않으면 자동으로 음성 입력 실행이 종료될 수 있다.

제어부(200)는 수집된 음성 입력을 한 음절씩 딕테이션 실행한다.(650 동작) 즉, 제어부(200)는 인식된 음성 문장을 문자열로 변환하여 표시부에 디스플레이 할 수 있다.

이 과정 중 제어부(200)는 상기 딕테이션 실행의 성공 여부를 판단하고(660 동작), 판단결과 상기 딕테이션 실행이 실패하면, 이전에 딕테이션 실행된 다른 언어의 단어 혹은 미리 등록 저장된 단어를 추출한다.(662 동작) 그리고, 제어부(200)는 확인된 단어 혹은 딕테이션 실패에 따른 대체 문구를 저장한다.(664 동작) 그리고, 상기 확인된 단어 혹은 딕테이션 실패에 따른 대체 문구를 한 음절씩 딕테이션 실행한다.(650 동작)

즉, 제어부(200)는 동일한 입력 언어에 해당하는 음성을 변환하여 문자열로 표시하는 딕테이션 실행 중, 상기 딕테이션 실행에 오류가 발생하거나 실패하면, 이전에 딕테이션 실행되었던 다른 언어와 동일한 단어 또는 이에 대비하여 미리 설정 저장된 단어를 추출하고, 추출된 단어를 다시 한 음절씩 딕테이션 실행할 수 있다.

제어부(200)는 상기 딕테이션 실행 중 더 이상 딕테이션 실행 실패 또는 오류가 발생하지 않으면, 문자열로 변환된 문장을 저장한다.(670 동작)

제어부(200)는 남은 음절이 있는지 확인하고(680), 남은 음절이 없으면, 상기 문자열로 변환된 문장을 표시부에 디스플레이한다.(690 동작)

상술한 전자장치의 음성 인식 기반의 딕테이션 기능의 제어 동작은 어느 하나만 수행되는 것에 국한되지 않으며, 사용자의 입력 또는 전자장치의 제조 시에 입력된 설정 상태에 따라 둘 이상의 동작을 조합하여 동작할 수 있다.

본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110: 무선 통신부 120: 음성 인식부
130: 사용자 입력부 140: 센서부
150: 카메라부 160: 표시부
170: 인터페이스부 180: 저장부
190: 오디오 처리부 200: 제어부

Claims

음성 감지 시, 감지된 음성을 제1 언어로 입력하는 단계;
상기 제1 언어를 딕테이션하는 단계;
상기 딕테이션 중 발생하는 언어 변경 이벤트를 검출하는 단계;
상기 언어 변경 이벤트 검출 이후에 감지되는 음성을 제2 언어로 변경하여 입력하는 단계; 및
상기 제2 언어를 딕테이션하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제1항에 있어서, 상기 언어 변경 이벤트를 검출하는 단계는,
적어도 하나의 센서, 카메라, 소프트 키, 하드 키, 스타일러스 펜 중 적어도 하나 또는 이들의 조합을 통해 상기 언어 변경 이벤트를 검출하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제2항에 있어서, 상기 언어 변경 이벤트는,
상기 적어도 하나의 센서에 의해 감지되는 전자장치의 각도 변화, 방향 변화, 자세 변화, 위치 변화, 움직임의 세기 변화, 속도 변화 중 적어도 하나를 통해 검출되는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제2항에 있어서, 상기 적어도 하나의 센서는,
가속도 센서, 자이로 센서, 지자기 센서, 관성 센서, 틸트 센서, 적외선 센서, 블로우 센서, 터치 센서 중 적어도 하나를 이용하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제2항에 있어서, 상기 언어 변경 이벤트를 검출하는 단계는,
상기 카메라를 통해 획득된 영상을 분석하는 단계;
상기 분석된 영상을 미리 저장된 영상과 일치 여부를 비교하는 단계; 및
상기 일치하는 영상에 매핑된 언어를 추출하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제2항에 있어서, 상기 언어 변경 이벤트를 검출하는 단계는,
복수의 언어 종류가 상기 소프트 키로 표시되는 단계; 및
상기 소프트 키의 누름에 의한 언어 선택을 검출하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제2항에 있어서, 상기 언어 변경 이벤트를 검출하는 단계는,
상기 하드 키 또는 스타일러스 펜의 키 버튼에 입력되는 푸시 이벤트를 검출하는 단계; 및
상기 검출된 푸시 이벤트에 매핑된 언어를 추출하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제7항에 있어서, 상기 언어 변경 이벤트를 검출하는 단계는,
상기 하드 키 또는 상기 스타일러스 펜의 키 버튼에 입력되는 푸시 이벤트의 횟수를 검출하고, 상기 푸시 이벤트의 횟수에 매핑된 어느 하나의 언어를 추출하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제2항에 있어서, 상기 언어 변경 이벤트를 검출하는 단계는,
입력되는 특정 문자, 특정 기호, 특정 숫자, 특정 사운드, 특정 음성 중 적어도 하나를 검출하는 단계; 및
검출된 상기 특정 문자, 특정 기호, 특정 숫자, 특정 사운드, 특정 음성 중 적어도 하나에 매핑된 어느 하나의 언어를 검출하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제1항에 있어서, 상기 입력되는 음성을 제1 언어로 감지하는 단계는,
상기 입력된 음성을 분석하는 단계; 및
미리 저장된 복수의 언어 종류 중 상기 분석된 음성과 일치하는 언어를 추출하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제10항에 있어서, 상기 제1 언어를 딕테이션하는 단계는,
상기 추출된 언어를 기반으로 상기 감지된 음성을 문자열로 변환하는 단계; 및
상기 변환된 문자열을 디스플레이하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제1항에 있어서, 상기 언어 변경 이벤트를 검출하는 단계는,
상기 언어 변경 이벤트를 분석하는 단계; 및
상기 분석된 언어 변경 이벤트와 매칭하는 미리 저장된 복수의 언어 종류 중 어느 하나의 언어를 추출하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
제12항에 있어서, 상기 제2 언어를 딕테이션하는 단계는,
상기 추출된 언어를 기반으로 상기 감지된 음성을 문자열로 변환하는 단계; 및
상기 변환된 문자열을 디스플레이하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 방법.
음성을 입력받는 음성 입력부;
상기 음성을 제1 언어로 딕테이션하고, 상기 딕테이션 중 검출된 언어 변경 이벤트의 발생 이후에 입력되는 음성을 제2 언어로 변경하여 딕테이션하는 제어부; 및
상기 음성 입력부에 의해 입력된 음성을 상기 제1 언어와 상기 제2 언어를 기반으로 변환하여 디스플레이 하는 출력부를 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 장치.
제14항에 있어서,
상기 언어 변경 이벤트를 검출하는 가속도 센서, 자이로 센서, 지자기 센서, 관성 센서, 틸트 센서, 적외선 센서, 블로우 센서, 터치 센서, 카메라, 소프트 키, 하드 키, 스타일러스 펜 중 적어도 하나를 더 포함하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 장치.
제14항에 있어서, 상기 제어부는,
상기 음성이 변환된 제1 언어와 제2 언어를 서로 다른 컬러, 폰트(글씨체)로 상기 표시부에 디스플레이하는 것을 특징으로 하는, 음성 인식 기반의 기능 제어 장치.