KR20190018886A

KR20190018886A - 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치

Info

Publication number: KR20190018886A
Application number: KR1020170103571A
Authority: KR
Inventors: 김용욱; 구자민; 김강혁; 이동규
Original assignee: 삼성전자주식회사
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2019-02-26
Also published as: EP3444811B1; EP3444811A1; CN109427331A; US10573317B2; US20190057701A1; CN109427331B; KR102356889B1

Abstract

다양한 실시 예에 따른 전자 장치에 있어서, 메모리; 마이크; 및 상기 메모리 및 마이크와 전기적으로 연결된 프로세서를 포함하고, 상기 메모리는, 실행 시에, 상기 프로세서가, 상기 마이크를 통해, 제1 시간에, 사용자로부터 제1 음성 신호를 수신하고, 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하고, 상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 상기 메모리에 저장하고, 상기 마이크를 통해, 제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하고, 상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하고, 상기 획득된 제2 자연어를 기반으로, 상기 제2 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하고, 및 상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 메모리에 상기 보완 데이터를 저장하도록 하는 인스트럭션들(instructions)을 포함할 수 있다. 이 밖의 다른 실시 예도 가능하다.

Description

음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 {Method for performing voice recognition and electronic device using the same}

본 발명의 다양한 실시 예는 기계 학습 알고리즘을 활용하는 인공지능(artificial intelligence, AI) 시스템 및 그 응용에 관련된 것이다.

인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템을 의미할 수 있다. 또한, 인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(예: 딥 러닝(deep learning)) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성될 수 있다.

요소기술들은, 예를 들어, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.

언어적 이해는, 예를 들어, 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함할 수 있다.

전자 장치가 사용자로부터 획득한 음성 신호는 자동 음성 인식(automatic speech recognition, ASR)을 통해 단어 또는 문장으로 변환이 되는데, 변환된 단어 또는 문장이 자연어 이해(natural language understanding, NLU)에 부적합한 경우가 발생할 수 있다. 예를 들어, 자동 음성 인식의 결과물이 의미가 불분명한 문장으로 변환이 되는 경우, 전자 장치는 사용자가 의도하는 결과물을 제공할 수 없을 수 있다. 이를 해결하기 위해서는, 자동 음성 인식 자체의 정확도를 높이는 방식으로 해결할 수 있으나, 자동 음성 인식에 관련된 음성 인식 엔진을 업데이트하는데 상당한 시간이 소요되는 문제점이 발생할 수 있으며, 다양한 사람의 발음을 음성 인식 엔진에 모두 반영하기에는 어려운 면이 있다. 즉, 개발자가 음성 인식 엔진을 직접 수정을 가해야 하기에 전자 장치의 음성 인식 기능을 사용하려는 사용자에게 당장의 도움을 주기에는 어려움이 따를 수 있다. 또한, 전자 장치는 음성 인식 엔진을 업데이트 하기 위해, 제공된 결과물에 관한 평가를 사용자에게 요구할 수 있다. 예를 들어, 전자 장치는 결과물을 제공한 이후, 디스플레이를 통해 설문 사항을 표시할 수 있으며, 사용자의 의도에 부합하는지에 관한 선택을 사용자로부터 입력 받을 수 있다. 따라서, 상기의 보정 방법들은 개발자 또는 사용자의 수작업이 필요하며, 일정 시간이 소요된다는 점에서 불편함을 초래할 수 있다.

다양한 실시 예에 따른 전자 장치에 있어서, 메모리; 마이크; 및 상기 메모리 및 마이크와 전기적으로 연결된 프로세서를 포함하고, 상기 메모리는, 실행 시에, 상기 프로세서가, 상기 마이크를 통해, 제1 시간에, 사용자로부터 제1 음성 신호를 수신하고, 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하고, 상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 상기 메모리에 저장하고, 상기 마이크를 통해, 제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하고, 상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하고, 상기 획득된 제2 자연어를 기반으로, 상기 제2 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하고, 및 상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 메모리에 상기 보완 데이터를 저장하도록 하는 인스트럭션들(instructions)을 포함할 수 있다.

다양한 실시 예에 따른 전자 장치의 방법에 있어서, 제1 시간에, 사용자로부터 제1 음성 신호를 수신하는 동작; 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하는 동작; 상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 저장하는 동작; 제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하는 동작; 상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하는 동작; 상기 획득된 제2 자연어를 기반으로, 상기 제2 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하는 동작; 및 상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 보완 데이터를 저장하는 동작을 포함할 수 있다.

다양한 실시 예에 따른 컴퓨터 판독 가능한 저장 매체에 있어서, 제1 시간에, 사용자로부터 제1 음성 신호를 수신하는 동작; 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하는 동작; 상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 저장하는 동작; 제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하는 동작; 상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하는 동작; 상기 획득된 제2 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하는 동작; 및 상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 보완 데이터를 저장하는 동작을 실행하도록 하는 프로그램을 기록할 수 있다.

본 발명의 다양한 실시 예에 따르면, 전자 장치는 자동 음성 인식(ASR)의 엔진의 개량 없이도, 자동으로 음성 인식 실패를 보완할 수 있다. 예를 들어, 전자 장치는 보완 테이블을 생성하여, 사용자의 의도에 부합하지 않도록 변환된 문장을 사용자의 의도에 부합하는 문장으로 보완할 수 있다. 이를 통해, 추후 사용자의 의도에 부합하지 않도록 변환된 문장이 다시 입력되는 경우, 사용자의 의도에 부합하지 않도록 변환된 문장에 대응하여 저장된 사용자의 의도에 부합하는 문장을 기반으로 자연어 이해(NLU)를 수행할 수 있다. 이를 통해, 전자 장치는 자동 음성 인식(ASR)의 엔진의 개량 없이도, 사용자의 의도에 부합하는 음성 인식 기능을 제공할 수 있다.

도 1은 본 발명의 다양한 실시 예에 따른 전자 장치를 포함하는 네트워크 환경에 관한 도면이다.
도 2는 본 발명의 다양한 실시 예에 따른 전자 장치의 블록도이다.
도 3은 본 발명의 다양한 실시 예에 따른 프로그램 모듈의 블록도이다.
도 4는 본 발명의 다양한 실시 예에 따른 전자 장치의 음성 인식 시스템을 개략적으로 나타낸 도면이다.
도 5는 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 생성하지 않는 상태에서 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.
도 6은 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 생성하는 상태에서 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.
도 7A 내지 7C는 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 개략적으로 나타낸 도면이다.
도 8은 본 발명의 다양한 실시 예에 따른 전자 장치에서 생성된 보완 테이블을 활용하여 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.
도 9는 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 생성하는 방법에 관한 흐름도이다.
도 10은 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 데이터의 유무에 따라 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.

이하, 본 개시의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시예의 다양한 변경 (modification), 균등물 (equivalent), 및/또는 대체물 (alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서, "가진다," "가질 수 있다,"“포함한다,” 또는 “포함할 수 있다” 등의 표현은 해당 특징 (예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, “A 또는 B,”“A 또는/및 B 중 적어도 하나,”또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, “A 또는 B," “ A 및 B 중 적어도 하나,”또는 “ A 또는 B 중 적어도 하나”는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

다양한 실시 예에서 사용된 “제 1,”“제 2,”“첫째,”또는“둘째,”등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 개시의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.

어떤 구성요소 (예: 제 1 구성요소)가 다른 구성요소 (예: 제 2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어 ((operatively or communicatively) coupled with/to)" 있다거나 "접속되어 (connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소 (예: 제 3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소 (예: 제 1 구성요소)가 다른 구성요소 (예: 제 2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소 (예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된 (또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한 (suitable for)," "~하는 능력을 가지는 (having the capacity to)," "~하도록 설계된 (designed to)," "~하도록 변경된 (adapted to)," "~하도록 만들어진 (made to),"또는 "~를 할 수 있는 (capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성 (또는 설정)된"은 하드웨어적으로 "특별히 설계된 (specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성 (또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서 (예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서 (generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 일반적으로 사용되는 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미를 가지는 것으로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 개시의 실시예들을 배제하도록 해석될 수 없다.

본 개시의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 전자 장치는 스마트폰 (smartphone), 태블릿 PC (tablet personal computer), 이동 전화기 (mobile phone), 화상 전화기, 전자북 리더기 (e-book reader), 데스크탑 PC (desktop personal computer), 랩탑 PC (laptop personal computer), 넷북 컴퓨터 (netbook computer), 워크스테이션 (workstation), 서버, PDA (personal digital assistant), PMP (portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라 (camera), 또는 웨어러블 장치 (wearable device)(예: 스마트 안경, 머리 착용형 장치 (head-mounted-device(HMD)), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리 (appcessory), 전자 문신, 스마트 미러, 또는 스마트 와치 (smart watch))중 적어도 하나를 포함할 수 있다.

어떤 실시예들에서, 전자 장치는 스마트 가전 제품 (smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들면, 텔레비전, DVD (digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스 (set-top box), 홈 오토매이션 컨트롤 패널 (home automation control panel), 보안 컨트롤 패널 (security control panel), TV 박스 (예: 삼성 HomeSync™, 애플TV™, 또는 구글 TV™), 게임 콘솔 (예: Xbox™, PlayStation™), 전자 사전, 전자 키, 캠코더 (camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

다른 실시예에서, 전자 장치는, 각종 의료기기 (예: 각종 휴대용 의료측정기기 (혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA (magnetic resonance angiography), MRI (magnetic resonance imaging), CT (computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 (navigation) 장치, GPS 수신기 (global positioning system receiver), EDR (event data recorder), FDR (flight data recorder), 자동차 인포테인먼트 (infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기 (avionics), 보안 기기, 차량용 헤드 유닛 (head unit), 산업용 또는 가정용 로봇, 금융 기관의 ATM (automatic teller's machine), 상점의 POS (point of sales), 또는 사물 인터넷 장치 (internet of things)(예: 전구, 각종 센서, 전기 또는 가스 미터기, 스프링클러 장치, 화재경보기, 온도조절기 (thermostat), 가로등, 토스터 (toaster), 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.

어떤 실시예에 따르면, 전자 장치는 가구 (furniture) 또는 건물/구조물의 일부, 전자 보드 (electronic board), 전자 사인 수신 장치 (electronic signature receiving device), 프로젝터 (projector), 또는 각종 계측 기기 (예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에서, 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 개시의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 전자 장치를 포함할 수 있다.

이하, 첨부 도면을 참조하여, 다양한 실시예에 따른 전자 장치가 설명된다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치 (예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 본 명세서에 개시된 다양한 실시예들 중 어느 하나에 따른 전자 장치를 포함하는 네트워크 환경에 관한 도면이다.

도 1을 참조하여, 다양한 실시예에서의, 네트워크 환경(100) 내의 전자 장치(101)가 기재된다. 상기 전자 장치(101)는 버스(110), 프로세서(120), 메모리(130), 입출력 인터페이스(150), 디스플레이(160), 및 통신 인터페이스(170)를 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)는, 상기 구성요소들 중 적어도 하나를 생략하거나 다른 구성 요소를 추가적으로 구비할 수 있다.

상기 버스(110)는, 예를 들면, 상기 구성요소들(110-170)을 서로 연결하고, 상기 구성요소들 간의 통신 (예: 제어 메시지 및/또는 데이터)을 전달하는 회로를 포함할 수 있다.

상기 프로세서(120)는, 중앙처리장치 (central processing unit (CPU)), 어플리케이션 프로세서 (application processor (AP)), 또는 커뮤니케이션 프로세서 (communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다. 상기 프로세서(120)은, 예를 들면, 상기 전자 장치(101)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.

상기 메모리(130)는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 상기 메모리(130)는, 예를 들면, 상기 전자 장치(101)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 한 실시예에 따르면, 상기 메모리(130)는 소프트웨어 및/또는 프로그램(140)을 저장할 수 있다. 상기 프로그램(140)은, 예를 들면, 커널(141), 미들웨어(143), 어플리케이션 프로그래밍 인터페이스(145, application programming interface (API)), 및/또는 어플리케이션 프로그램(147, 또는"어플리케이션") 등을 포함할 수 있다. 상기 커널(141), 미들웨어(143), 또는 API(145)의 적어도 일부는, 운영 시스템 (operating system (OS))라 불릴 수 있다.

상기 커널(141)은, 예를 들면, 다른 프로그램들 (예: 미들웨어(143), API(145), 또는 어플리케이션 프로그램(147))에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들 (예: 버스(110), 프로세서(120), 또는 메모리(130) 등)을 제어 또는 관리할 수 있다. 또한, 상기 커널(141)은 상기 미들웨어(143), 상기 API(145), 또는 상기 어플리케이션 프로그램(147)에서 상기 전자 장치(101)의 개별 구성요소에 접근함으로써, 시스템 리소스들을 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.

상기 미들웨어(143)는, 예를 들면, 상기 API(145) 또는 상기 어플리케이션 프로그램(147)이 상기 커널(141)과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다. 또한, 상기 미들웨어(143)는 상기 어플리케이션 프로그램(147)로부터 수신된 작업 요청들과 관련하여, 예를 들면, 상기 어플리케이션 프로그램(147) 중 적어도 하나의 어플리케이션에 상기 전자 장치(101)의 시스템 리소스 (예: 버스(110), 프로세서(120), 또는 메모리(130) 등)를 사용할 수 있는 우선 순위를 배정하는 등의 방법을 이용하여 작업 요청에 대한 제어 (예: 스케쥴링 또는 로드 밸런싱)을 수행할 수 있다.

상기 API(145)는, 예를 들면, 상기 어플리케이션(147)이 상기 커널(141) 또는 상기 미들웨어(143)에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 화상 처리, 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수 (예: 명령어)를 포함할 수 있다.

상기 입출력 인터페이스(150)은, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 상기 전자 장치(101)의 다른 구성요소(들)에 전달할 수 있는 인터페이스의 역할을 할 수 있다. 또한, 상기 입출력 인터페이스(150)은 상기 전자 장치(101)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다.

상기 디스플레이(160)은, 예를 들면, 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이, 유기 발광 다이오드 (OLED) 디스플레이, 또는 마이크로 전자기계 시스템 (microelectromechanical systems (MEMS)) 디스플레이, 또는 전자종이 (electronic paper) 디스플레이를 포함할 수 있다. 상기 디스플레이(160)은, 예를 들면, 사용자에게 각종 콘텐츠 (예: 텍스트, 이미지, 비디오, 아이콘, 또는 심볼 등)을 표시할 수 있다. 상기 디스플레이(160)은, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다.

상기 통신 인터페이스(170)은, 예를 들면, 상기 전자 장치(101)와 외부 장치(예: 제 1 외부 전자 장치(102), 제 2 외부 전자 장치(104), 또는 서버(106)) 간의 통신을 설정할 수 있다. 예를 들면, 상기 통신 인터페이스(170)은 무선 통신 또는 유선 통신을 통해서 네트워크(162)에 연결되어 상기 외부 장치 (예: 제 2 외부 전자 장치(104) 또는 서버(106))와 통신할 수 있다.

상기 무선 통신은, 예를 들면, 셀룰러 통신 프로토콜로서, 예를 들면, LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro, 또는 GSM 등 중 적어도 하나를 사용할 수 있다. 상기 유선 통신은, 예를 들면, USB (universal serial bus), HDMI (high definition multimedia interface), RS-232 (recommended standard 232), 또는 POTS (plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 상기 네트워크(162)는 통신 네트워크 (telecommunications network), 예를 들면, 컴퓨터 네트워크 (computer network)(예: LAN 또는 WAN), 인터넷, 또는 전화 망 (telephone network) 중 적어도 하나를 포함할 수 있다.

상기 제 1 및 제 2 외부 전자 장치(102, 104) 각각은 상기 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 한 실시예에 따르면, 상기 서버 (106)는 하나 또는 그 이상의 서버들의 그룹을 포함할 수 있다. 다양한 실시예에 따르면, 상기 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 전자 장치 (예: 전자 장치(102, 104), 또는 서버(106))에서 실행될 수 있다. 한 실시예에 따르면, 상기 전자 장치(101)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 상기 전자 장치(101)는 상기 기능 또는 상기 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 다른 장치 (예: 전자 장치(102, 104) 또는 서버 (106))에게 요청할 수 있다. 상기 다른 전자 장치 (예: 전자 장치(102, 104) 또는 서버(106))는 상기 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 상기 전자 장치(101)로 전달할 수 있다. 상기 전자 장치(101)는 수신된 결과를 그대로 또는 추가적으로 처리하여 상기 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.

도 2는 다양한 실시예에 따른 전자 장치(201)의 블록도이다. 전자 장치(201)는, 예를 들면, 도 1에 도시된 전자 장치(101)의 전체 또는 일부를 포함할 수 있다. 전자 장치(201)는 하나 이상의 프로세서(예: AP(application processor))(210), 통신 모듈(220), 가입자 식별 모듈(224), 메모리(230), 센서 모듈(240), 입력 장치(250), 디스플레이(260), 인터페이스(270), 오디오 모듈(280), 카메라 모듈(291), 전력 관리 모듈(295), 배터리(296), 인디케이터(297), 및 모터(298) 를 포함할 수 있다.

프로세서(210)는, 예를 들면, 운영 체제 또는 응용 프로그램을 구동하여 프로세서(210)에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 프로세서(210)는, 예를 들면, SoC(system on chip) 로 구현될 수 있다. 한 실시예에 따르면, 프로세서(210)는 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서(image signal processor)를 더 포함할 수 있다. 프로세서(210)는 도 2에 도시된 구성요소들 중 적어도 일부(예: 셀룰러 모듈(221))를 포함할 수도 있다. 프로세서(210) 는 다른 구성요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장(store)할 수 있다.

통신 모듈(220)은, 도 1의 통신 인터페이스(170)와 동일 또는 유사한 구성을 가질 수 있다. 통신 모듈(220)은, 예를 들면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GPS 모듈(227), NFC 모듈(228) 및 RF(radio frequency) 모듈(229)를 포함할 수 있다.

셀룰러 모듈(221)은, 예를 들면, 통신망을 통해서 음성 통화, 영상 통화, 문자 서비스, 또는 인터넷 서비스 등을 제공할 수 있다. 한 실시예에 따르면, 셀룰러 모듈(221)은 가입자 식별 모듈(예: SIM 카드)(224)을 이용하여 통신 네트워크 내에서 전자 장치(201)의 구별 및 인증을 수행할 수 있다. 한 실시예에 따르면, 셀룰러 모듈(221)은 프로세서(210)가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 한 실시예에 따르면, 셀룰러 모듈(221)은 커뮤니케이션 프로세서(CP: communication processor)를 포함할 수 있다.

WiFi 모듈(223), 블루투스 모듈(225), GPS 모듈(227) 또는 NFC 모듈(228) 각각은, 예를 들면, 해당하는 모듈을 통해서 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있다. 어떤 실시예에 따르면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GPS 모듈(227) 또는 NFC 모듈(228) 중 적어도 일부(예: 두 개 이상)는 하나의 integrated chip(IC) 또는 IC 패키지 내에 포함될 수 있다.

RF 모듈(229)은, 예를 들면, 통신 신호(예: RF 신호)를 송수신할 수 있다. RF 모듈(229)은, 예를 들면, 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter), LNA(low noise amplifier), 또는 안테나 등을 포함할 수 있다. 다른 실시예에 따르면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GPS 모듈(227) 또는 NFC 모듈(228) 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호를 송수신할 수 있다.

가입자 식별 모듈(224)는, 예를 들면, 가입자 식별 모듈을 포함하는 카드 및/또는 내장 SIM(embedded SIM)을 포함할 수 있으며, 고유한 식별 정보(예: ICCID(integrated circuit card identifier)) 또는 가입자 정보(예: IMSI(international mobile subscriber identity))를 포함할 수 있다.

메모리(230)(예: 메모리(130))는, 예를 들면, 내장 메모리(232) 또는 외장 메모리(234)를 포함할 수 있다. 내장 메모리(232)는, 예를 들면, 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나를 포함할 수 있다.

외장 메모리(234)는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(MultiMediaCard) 또는 메모리 스틱(memory stick) 등을 더 포함할 수 있다. 외장 메모리(234)는 다양한 인터페이스를 통하여 전자 장치(201)와 기능적으로 및/또는 물리적으로 연결될 수 있다.

센서 모듈(240)은, 예를 들면, 물리량을 계측하거나 전자 장치(201)의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 센서 모듈(240)은, 예를 들면, 제스처 센서(240A), 자이로 센서(240B), 기압 센서(240C), 마그네틱 센서(240D), 가속도 센서(240E), 그립 센서(240F), 근접 센서(240G), 컬러(color) 센서(240H)(예: RGB(red, green, blue) 센서), 생체 센서(240I), 온/습도 센서(240J), 조도 센서(240K), 또는 UV(ultra violet) 센서(240M) 중의 적어도 하나를 포함할 수 있다. 추가적으로 또는 대체적으로(additionally or alternatively), 센서 모듈(240)은, 예를 들면, 후각 센서(E-nose sensor), EMG 센서(electromyography sensor), EEG 센서(electroencephalogram sensor), ECG 센서(electrocardiogram sensor), IR(infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다. 센서 모듈(240)은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다. 어떤 실시예에서는, 전자 장치(201)는 프로세서(210)의 일부로서 또는 별도로, 센서 모듈(240)을 제어하도록 구성된 프로세서를 더 포함하여, 프로세서(210)가 슬립(sleep) 상태에 있는 동안, 센서 모듈(240)을 제어할 수 있다.

입력 장치(250)은, 예를 들면, 터치 패널(touch panel)(252),(디지털) 펜 센서(pen sensor)(254), 키(key)(256), 또는 초음파(ultrasonic) 입력 장치(258)를 포함할 수 있다. 터치 패널(252)은, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널(252)은 제어 회로를 더 포함할 수도 있다. 터치 패널(252)은 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다.

(디지털) 펜 센서(254)는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트(sheet)를 포함할 수 있다. 키(256)는, 예를 들면, 물리적인 버튼, 광학식 키, 또는 키패드를 포함할 수 있다. (초음파 입력 장치(258)는 마이크(예: 마이크(288))를 통해, 입력 도구에서 발생된 초음파를 감지하여, 상기 감지된 초음파에 대응하는 데이터를 확인할 수 있다.

디스플레이(260)(예: 디스플레이(160))는 패널(262), 홀로그램 장치(264), 또는 프로젝터(266)를 포함할 수 있다. 패널(262)은, 도 1의 디스플레이(160)와 동일 또는 유사한 구성을 포함할 수 있다. 패널(262)은, 예를 들면, 유연하게(flexible), 투명하게(transparent), 또는 착용할 수 있게(wearable) 구현될 수 있다. 패널(262)은 터치 패널(252)과 하나의 모듈로 구성될 수도 있다. 홀로그램 장치(264)는 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 프로젝터(266)는 스크린에 빛을 투사하여 영상을 표시할 수 있다. 스크린은, 예를 들면, 전자 장치(201)의 내부 또는 외부에 위치할 수 있다. 한 실시예에 따르면, 디스플레이(260)는 패널(262), 홀로그램 장치(264), 또는 프로젝터(266)를 제어하기 위한 제어 회로를 더 포함할 수 있다.

인터페이스(270)는, 예를 들면, HDMI(high-definition multimedia interface)(272), USB(universal serial bus)(274), 광 인터페이스(optical interface)(276), 또는 D-sub(D-subminiature)(278)를 포함할 수 있다. 인터페이스(270)는, 예를 들면, 도 1에 도시된 통신 인터페이스(170)에 포함될 수 있다. 추가적으로 또는 대체적으로(additionally and alternatively), 인터페이스(270)는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD(secure digital) 카드/MMC(multi-media card) 인터페이스, 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.

오디오 모듈(280)은, 예를 들면, 소리(sound)와 전기 신호를 쌍방향으로 변환시킬 수 있다. 오디오 모듈(280)의 적어도 일부 구성요소는, 예를 들면, 도 1 에 도시된 입출력 인터페이스(145)에 포함될 수 있다. 오디오 모듈(280)은, 예를 들면, 스피커(282), 리시버(284), 이어폰(286), 또는 마이크(288) 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.

카메라 모듈(291)은, 예를 들면, 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, ISP(image signal processor), 또는 플래시(flash)(예: LED 또는 xenon lamp 등)를 포함할 수 있다.

전력 관리 모듈(295)은, 예를 들면, 전자 장치(201)의 전력을 관리할 수 있다. 한 실시예에 따르면, 전력 관리 모듈(295)은 PMIC(power management integrated circuit), 충전 IC(charger integrated circuit), 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다. PMIC는, 유선 및/또는 무선 충전 방식을 가질 수 있다. 무선 충전 방식은, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등을 포함하며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로, 또는 정류기 등을 더 포함할 수 있다. 배터리 게이지는, 예를 들면, 배터리(296)의 잔량, 충전 중 전압, 전류, 또는 온도를 측정할 수 있다. 배터리(296)는, 예를 들면, 충전식 전지(rechargeable battery) 및/또는 태양 전지(solar battery)를 포함할 수 있다.

인디케이터(297)는 전자 장치(201) 또는 그 일부(예: 프로세서(210))의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 모터(298)는 전기적 신호를 기계적 진동으로 변환할 수 있고, 진동(vibration), 또는 햅틱(haptic) 효과 등을 발생시킬 수 있다. 도시되지는 않았으나, 전자 장치(201)는 모바일 TV 지원을 위한 처리 장치(예: GPU)를 포함할 수 있다. 모바일 TV 지원을 위한 처리 장치는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting), 또는 미디어플로(MediaFlo^TM) 등의 규격에 따른 미디어 데이터를 처리할 수 있다.

본 문서에서 기술된 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 다양한 실시예에서, 전자 장치는 본 문서에서 기술된 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 다양한 실시예에 따른 전자 장치의 구성요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성요소들의 기능을 동일하게 수행할 수 있다.

도 3은 다양한 실시예에 따른 프로그램 모듈의 블록도이다. 한 실시예에 따르면, 프로그램 모듈(310)(예: 프로그램(140))은 전자 장치(예: 전자 장치(101))에 관련된 자원을 제어하는 운영 체제(operating system(OS)) 및/또는 운영 체제 상에서 구동되는 다양한 어플리케이션(예: 어플리케이션 프로그램(147))을 포함할 수 있다. 운영 체제는, 예를 들면, 안드로이드(android), iOS, 윈도우즈(windows), 심비안(symbian), 타이젠(tizen), 또는 바다(bada) 등이 될 수 있다.

프로그램 모듈(310)은 커널(320), 미들웨어(330), 어플리케이션 프로그래밍 인터페이스(application programming interface (API))(360), 및/또는 어플리케이션(370)을 포함할 수 있다. 프로그램 모듈(310)의 적어도 일부는 전자 장치 상에 프리로드(preload) 되거나, 외부 전자 장치(예: 전자 장치(102, 104), 서버(106) 등)로부터 다운로드(download) 가능하다.

커널(320)(예: 커널(141))은, 예를 들면, 시스템 리소스 매니저(321) 및/또는 디바이스 드라이버(323)를 포함할 수 있다. 시스템 리소스 매니저(321)는 시스템 리소스의 제어, 할당, 또는 회수 등을 수행할 수 있다. 한 실시예에 따르면, 시스템 리소스 매니저(321)는 프로세스 관리부, 메모리 관리부, 또는 파일 시스템 관리부 등을 포함할 수 있다. 디바이스 드라이버(323)는, 예를 들면, 디스플레이 드라이버, 카메라 드라이버, 블루투스 드라이버, 공유 메모리 드라이버, USB 드라이버, 키패드 드라이버, WiFi 드라이버, 오디오 드라이버, 또는 IPC(inter-process communication) 드라이버를 포함할 수 있다.

미들웨어(330)는, 예를 들면, 어플리케이션(370)이 공통적으로 필요로 하는 기능을 제공하거나, 어플리케이션(370)이 전자 장치 내부의 제한된 시스템 자원을 효율적으로 사용할 수 있도록 API(360)를 통해 다양한 기능들을 어플리케이션(370)으로 제공할 수 있다. 한 실시예에 따르면, 미들웨어(330)(예: 미들웨어(143))는 런타임 라이브러리(335), 어플리케이션 매니저(application manager)(341), 윈도우 매니저(window manager)(342), 멀티미디어 매니저(multimedia manager)(343), 리소스 매니저(resource manager)(344), 파워 매니저(power manager)(345), 데이터베이스 매니저(database manager)(346), 패키지 매니저(package manager)(347), 연결 매니저(connectivity manager)(348), 통지 매니저(notification manager)(349), 위치 매니저(location manager)(350), 그래픽 매니저(graphic manager)(351), 또는 보안 매니저(security manager)(352) 중 적어도 하나를 포함할 수 있다.

런타임 라이브러리(335)는, 예를 들면, 어플리케이션(370)이 실행되는 동안에 프로그래밍 언어를 통해 새로운 기능을 추가하기 위해 컴파일러가 사용하는 라이브러리 모듈을 포함할 수 있다. 런타임 라이브러리(335)는 입출력 관리, 메모리 관리, 또는 산술 함수에 대한 기능 등을 수행할 수 있다.

어플리케이션 매니저(341)는, 예를 들면, 어플리케이션(370) 중 적어도 하나의 어플리케이션의 생명 주기(life cycle)를 관리할 수 있다. 윈도우 매니저(342)는 화면에서 사용하는 GUI 자원을 관리할 수 있다. 멀티미디어 매니저(343)는 다양한 미디어 파일들의 재생에 필요한 포맷을 파악하고, 해당 포맷에 맞는 코덱(codec)을 이용하여 미디어 파일의 인코딩(encoding) 또는 디코딩(decoding)을 수행할 수 있다. 리소스 매니저(344)는 어플리케이션(370) 중 적어도 어느 하나의 어플리케이션의 소스 코드, 메모리 또는 저장 공간 등의 자원을 관리할 수 있다.

파워 매니저(345)는, 예를 들면, 바이오스(BIOS: basic input/output system) 등과 함께 동작하여 배터리(battery) 또는 전원을 관리하고, 전자 장치의 동작에 필요한 전력 정보 등을 제공할 수 있다. 데이터베이스 매니저(346)는 어플리케이션(370) 중 적어도 하나의 어플리케이션에서 사용할 데이터베이스를 생성, 검색, 또는 변경할 수 있다. 패키지 매니저(347)는 패키지 파일의 형태로 배포되는 어플리케이션의 설치 또는 업데이트를 관리할 수 있다.

연결 매니저(348)는, 예를 들면, WiFi 또는 블루투스 등의 무선 연결을 관리할 수 있다. 통지 매니저(349)는 도착 메시지, 약속, 근접성 알림 등의 사건(event)을 사용자에게 방해되지 않는 방식으로 표시 또는 통지할 수 있다. 위치 매니저(350)는 전자 장치의 위치 정보를 관리할 수 있다. 그래픽 매니저(351)는 사용자에게 제공될 그래픽 효과 또는 이와 관련된 사용자 인터페이스를 관리할 수 있다. 보안 매니저(352)는 시스템 보안 또는 사용자 인증 등에 필요한 제반 보안 기능을 제공할 수 있다. 한 실시예에 따르면, 전자 장치(예: 전자 장치(101))가 전화 기능을 포함한 경우, 미들웨어(330)는 전자 장치의 음성 또는 영상 통화 기능을 관리하기 위한 통화 매니저(telephony manager)를 더 포함할 수 있다.

미들웨어(330)는 전술한 구성요소들의 다양한 기능의 조합을 형성하는 미들웨어 모듈을 포함할 수 있다. 미들웨어(330)는 차별화된 기능을 제공하기 위해 운영 체제의 종류 별로 특화된 모듈을 제공할 수 있다. 또한, 미들웨어(330)는 동적으로 기존의 구성요소를 일부 삭제하거나 새로운 구성요소들을 추가할 수 있다.

API(360)(예: API(145))는, 예를 들면, API 프로그래밍 함수들의 집합으로, 운영 체제에 따라 다른 구성으로 제공될 수 있다. 예를 들면, 안드로이드 또는 iOS의 경우, 플랫폼 별로 하나의 API 셋을 제공할 수 있으며, 타이젠(tizen)의 경우, 플랫폼 별로 두 개 이상의 API 셋을 제공할 수 있다.

어플리케이션(370)(예: 어플리케이션 프로그램(147))은, 예를 들면, 홈(371), 다이얼러(372), SMS/MMS(373), IM(instant message)(374), 브라우저(375), 카메라(376), 알람(377), 컨택트(378), 음성 다이얼(379), 이메일(380), 달력(381), 미디어 플레이어(382), 앨범(383), 또는 시계(384), 건강 관리(health care)(예: 운동량 또는 혈당 등을 측정), 또는 환경 정보 제공(예: 기압, 습도, 또는 온도 정보 등을 제공) 등의 기능을 수행할 수 있는 하나 이상의 어플리케이션을 포함할 수 있다.

한 실시예에 따르면, 어플리케이션(370)은 전자 장치(예: 전자 장치(101))와 외부 전자 장치(예: 전자 장치(102, 104)) 사이의 정보 교환을 지원하는 어플리케이션(이하, 설명의 편의 상, "정보 교환 어플리케이션")을 포함할 수 있다. 정보 교환 어플리케이션은, 예를 들면, 외부 전자 장치에 특정 정보를 전달하기 위한 알림 전달(notification relay) 어플리케이션, 또는 외부 전자 장치를 관리하기 위한 장치 관리(device management) 어플리케이션을 포함할 수 있다.

예를 들면, 알림 전달 어플리케이션은 전자 장치의 다른 어플리케이션(예: SMS/MMS 어플리케이션, 이메일 어플리케이션, 건강 관리 어플리케이션, 또는 환경 정보 어플리케이션 등)에서 발생된 알림 정보를 외부 전자 장치(예: 전자 장치(102, 104))로 전달하는 기능을 포함할 수 있다. 또한, 알림 전달 어플리케이션은, 예를 들면, 외부 전자 장치로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다.

장치 관리 어플리케이션은, 예를 들면, 전자 장치와 통신하는 외부 전자 장치(예: 전자 장치(102, 104))의 적어도 하나의 기능(예: 외부 전자 장치 자체(또는, 일부 구성 부품)의 턴-온/턴-오프 또는 디스플레이의 밝기(또는, 해상도) 조절), 외부 전자 장치에서 동작하는 어플리케이션 또는 외부 전자 장치에서 제공되는 서비스(예: 통화 서비스 또는 메시지 서비스 등)를 관리(예: 설치, 삭제, 또는 업데이트)할 수 있다.

한 실시예에 따르면, 어플리케이션(370)은 외부 전자 장치(예: 전자 장치(102, 104))의 속성(에 따라 지정된 어플리케이션(예: 모바일 의료 기기의 건강 관리 어플리케이션 등)을 포함할 수 있다. 한 실시예에 따르면, 어플리케이션(370)은 외부 전자 장치(예: 서버(106) 또는 전자 장치(102, 104))로부터 수신된 어플리케이션을 포함할 수 있다. 한 실시예에 따르면, 어플리케이션(370)은 프리로드 어플리케이션(preloaded application) 또는 서버로부터 다운로드 가능한 제3자 어플리케이션(third party application)을 포함할 수 있다. 도시된 실시예에 따른 프로그램 모듈(310)의 구성요소들의 명칭은 운영 체제의 종류에 따라서 달라질 수 있다.

다양한 실시예에 따르면, 프로그램 모듈(310)의 적어도 일부는 소프트웨어, 펌웨어, 하드웨어, 또는 이들 중 적어도 둘 이상의 조합으로 구현될 수 있다. 프로그램 모듈(310)의 적어도 일부는, 예를 들면, 프로세서(예: 프로세서(210))에 의해 구현(implement)(예: 실행)될 수 있다. 프로그램 모듈(310)의 적어도 일부는 하나 이상의 기능을 수행하기 위한, 예를 들면, 모듈, 프로그램, 루틴, 명령어 세트(sets of instructions) 또는 프로세스 등을 포함할 수 있다.

도 4는 본 발명의 다양한 실시 예에 따른 전자 장치의 음성 인식 시스템을 개략적으로 나타낸 도면이다.

도 4를 참조하면, 다양한 실시 예에 따르면, 전자 장치(101)의 음성 인식 시스템은 자동 음성 인식(automatic speech recognition, ASR) 모듈(410), 자연어 이해(natural language understanding, NLU) 모듈(420), 응답 제공 모듈(430), 음성 인식 보완 모듈(440)을 포함할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 음성 인식 시스템을 통해, 사용자로부터 음성 신호를 수신하고, 수신된 음성 신호를 인식하여 단어 또는 문장으로 변환하고, 변환된 단어 또는 문장의 의미에 상응하는 기능을 사용자에게 제공할 수 있다. 예를 들어, 전자 장치(101)는 사용자로부터 "지금 시간이 어떻게 되니"라는 음성 신호를 수신할 수 있으며, 수신된 음성 신호를 분석하여 현재 시간을 사용자에게 제공할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 자동 음성 인식 모듈(410)을 통해, 수신된 사용자의 음성 신호를 자연어로 변환활 수 있다. 예를 들어, 자동 음성 인식 모듈(410)은 전자 장치(101) 또는 외부 서버(106)에 저장된 음성 인식 엔진을 이용하여 수신된 음성 신호를 자연어로 변환할 수 있다. 한편, 본원은 음성 인식 엔진 자체가 변환하는 자연어의 정확성을 높이기 위한 발명은 아니며, 음성 인식 엔진이 변환한 자연어가 부정확하여 해당 자연어의 의미를 파악할 수 없는 상황을 보완하기 위한 발명이다.

다양한 실시 예에 따르면, 전자 장치(101)는 자연어 이해 모듈(420)을 통해, 자동 음성 인식 모듈(410)이 변환한 자연어의 의미를 분석할 수 있다. 예를 들어, 자연어 이해 모듈(420)은 변환된 자연어가 의미가 있는지를 분석하여, 분석 결과를 응답 제공 모듈(430)로 전달할 수 있다. 만약, 변환된 자연어의 의미가 현재 시간을 문의하는 것이라면, 자연어 이해 모듈(420)은 응답 제공 모듈(430)에 사용자가 현재 시간을 문의하고 있음을 전달할 수 있다. 만약, 변환된 자연어의 의미를 파악할 수 없는 경우에는, 자연어 이해 모듈(420)은 사용자가 다시 음성을 입력하는 프로세스를 개시하도록 요청할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 응답 제공 모듈(430)을 통해, 자연어 이해 모듈(420)에 의해 의미가 있다고 판단된 자연어에 대한 응답을 제공할 수 있다. 예를 들어, 응답 제공 모듈(430)은 자연어 이해 모듈(420)로부터 수신된 의미에 기반하여, 전자 장치(101) 또는 외부 서버(106)에 문의할 수 있다. 응답 제공 모듈(430)은 전자 장치(101) 또는 외부 서버(106)로부터 수신된 답변에 기반하여, 사용자가 발화한 음성에 대한 응답을 사용자에게 제공할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 음성 인식 보완 모듈(440)을 포함할 수 있다. 상기 자동 음성 인식 모듈(410), 자연어 이해 모듈(420), 및 응답 제공 모듈(430)을 통한 음성 인식 기능을 제공하는 방법과 달리, 음성 인식 보완 모듈(440)을 추가로 구성하여 음성 인식 기능을 보다 신속하고 편리하게 제공할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 음성 인식 보완 모듈(440)을 통해 보완 테이블을 생성할 수 있다. 예를 들어, 보완 테이블은 인식된 문장, 발생 시간, 응답 제공 문장 등을 포함할 수 있다. 여기서, 인식된 문장은 사용자의 발화로부터 변환된 자연어를 의미할 수 있다. 발생 시간은 사용자의 발화가 입력된 시간을 의미할 있다. 응답 제공 문장은 기 지정된 시간 이내, 사용자의 발화로부터 변환된 자연어 중 의미를 파악할 수 있는 문장 중에서, 상기 인식된 문장과 유사한 문장을 의미할 수 있다. 즉, 전자 장치(101)는 응답 제공 문장을 판단함에 있어서, 상기 인식된 문장과의 유사도 및 상기 발생 시간 중 적어도 하나를 고려하여 응답 제공 문장을 결정할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 음성 인식을 실패한 후 기 지정된 시간(예: 30초 또는 1 분 등의 상대적으로 짧은 시간) 이내에 입력된 자연어(예: 제2 문장)가 음성 인식에 성공하는 경우, 음성 인식에 성공한 자연어(예: 제2 문장)와 음성 인식에 실패한 자연어(예: 제1 문장)가 서로 유사한지 판단할 수 있다. 예를 들어, 전자 장치(101)는 두 자연어 간의 유사도 판단을 위해 문자열(string) 비교, 발음 유사도 등을 참조할 수 있다. 예를 들어, 전자 장치(101)는 유사도가 일정 수준(예: 유사도 80%) 이상인 경우, 음성 인식에 실패한 자연어(예: 제1 문장)와 음성 인식에 성공한 자연어(예: 제2 문장)이 서로 유사하다고 판단할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 음성 인식에 성공한 자연어(예: 제2 문장)와 음성 인식에 실패했던 자연어(예: 제1 문장)가 서로 유사한 경우, 음성 인식에 실패했던 자연어(예: 제1 문장, 상기 인식된 문장)에 음성 인식에 성공한 자연어(예: 제2 문장을)가 대응하도록 보완 테이블을 생성, 작성, 또는 저장할 수 있다. 즉, 전자 장치(101)는 상대적으로 짧은 시간 내에 반복해서 유사한 자연어가 입력된 경우, 앞서 입력된 음성 인식에 실패한 문장은 실제로는 후에 입력된 음성 인식에 성공한 문장을 의도한 것이라고 판단할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 자동 음성 인식 모듈(410)이 사용자의 발화를 제대로 인식하지 못하였다고 하더라도, 보완 테이블을 참조하여, 사용자가 의도하는 바를 선해하여 음성 인식 기능을 제공할 수 있다. 따라서, 전자 장치(101)의 사용자가 음성 인식 결과값을 획득하기 위해 수 차례 반복적으로 음성을 발화해야 하는 불편함을 경감시킬 수 있다.

본 발명의 구체적인 실시 예에 대해서는 하기 도 5 내지 도 8을 참조할 수 있다.

도 5는 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 생성하지 않는 상태에서 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.

도 5를 참조하면, 다양한 실시 예에 따르면, 전자 장치(101)는 자동 음성 인식 모듈(510, 예: 410), 자연어 이해 모듈(520, 예: 420), 및 응답 제공 모듈(530, 예: 430)을 통해 음성 인식 기능을 수행할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 550 동작에서, 사용자(500)로부터 음성 신호를 수신할 수 있다. 예를 들어, 사용자는 현재 시간을 묻는 의도로, "What time is it?"을 입력할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(510))는 사용자가 입력한 음성 신호를 잘못 인식할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 입력한 음성 신호인 "What time is it?" 을 "What time is eat?"으로 변환할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 552 동작에서, 변환된 자연어(예: "What time is eat?")를 자연어 이해 모듈(520)로 전달할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(520))는 자동 음성 인식 모듈(510)로부터 수신된 자연어의 의미를 분석할 수 있다. 예를 들어, 전자 장치(101)는 "What time is eat?"의 의미를 분석할 수 있으며, 해당 자연어에 대해 의미 없음으로 판단할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 554 동작에서, 자연어의 의미가 없다고 판단하는 경우, 사용자(500)에게 재차 음성을 입력하도록 요청할 수 있다. 예를 들어, 전자 장치(101)는 자연어를 기반으로 사용자의 요청을 처리할 수 없는 경우, 자연어가 의미 없는 것으로 판단할 수 있다. 상기 "What time is eat?"의 경우, 문법적으로 해석할 수 없는 표현이므로, 전자 장치(101)는 사용자가 요청하는 것이 무엇인지 제대로 파악하기 어려울 수 있다. 따라서, 전자 장치(101)는 기 수신된 음성 신호에 따른 사용자의 요청을 처리하지 못하며, 사용자에게 음성 신호를 재 입력할 것을 요청할 수 있다. 다른 예를 들어, 전자 장치(101)가 사용자에게 재차 무엇을 요청하는 것인지 묻는 경우를 전자 장치(101)가 자연어의 의미를 판단하지 못하는 경우 또는 사용자의 요청을 처리하지 못하는 경우로 해석할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 556 동작에서, 사용자(500)로부터 2차로 음성 신호를 수신할 수 있다. 예를 들어, 사용자는 재차 현재 시간을 묻는 의도로, "What time is it?"을 천천히 입력할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(510))는 사용자가 입력한 음성 신호를 재차 잘못 인식할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 입력한 음성 신호인 "What time is it?" 을 "What time is in?"으로 변환할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 558 동작에서, 변환된 자연어(예: "What time is in?")를 자연어 이해 모듈(520)로 전달할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(520))는 자동 음성 인식 모듈(510)로부터 수신된 자연어의 의미를 분석할 수 있다. 예를 들어, 전자 장치(101)는 "What time is in?"의 의미를 분석할 수 있으며, 해당 자연어에 대해 의미 없음으로 판단할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 560 동작에서, 자연어의 의미가 없다고 판단하는 경우, 사용자(500)에게 재차 음성을 입력하도록 요청할 수 있다. 예를 들어, 전자 장치(101)는 자연어를 기반으로 사용자의 요청을 처리할 수 없는 경우, 자연어가 의미 없는 것으로 판단할 수 있다. 상기 "What time is in?"의 경우, 문법적으로 해석할 수 없는 표현이므로, 전자 장치(101)는 사용자가 요청하는 것이 무엇인지 제대로 파악하기 어려울 수 있다. 따라서, 전자 장치(101)는 기 수신된 음성 신호에 따른 사용자의 요청을 처리하지 못하며, 사용자에게 음성 신호를 재 입력할 것을 요청할 수 있다. 다른 예를 들어, 전자 장치(101)가 사용자에게 재차 무엇을 요청하는 것인지 묻는 경우를 전자 장치(101)가 자연어의 의미를 판단하지 못하는 경우 또는 사용자의 요청을 처리하지 못하는 경우로 해석할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 562 동작에서, 사용자(500)로부터 3차로 음성 신호를 수신할 수 있다. 예를 들어, 사용자는 재차 현재 시간을 묻는 의도로, "What time is it?"을 매우 또박또박하게 입력할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(510))는 이번에는 사용자가 입력한 음성 신호를 제대로 인식할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 입력한 음성 신호인 "What time is it?" 을 "What time is it?"으로 변환할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 564 동작에서, 변환된 자연어(예: "What time is it?")를 자연어 이해 모듈(520)로 전달할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(520))는 자동 음성 인식 모듈(510)로부터 수신된 자연어의 의미를 분석할 수 있다. 예를 들어, 전자 장치(101)는 "What time is it?"의 의미를 분석할 수 있으며, 해당 자연어에 대해 현재 시간을 묻고 있음으로 판단할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 566 동작에서, 자연어를 의미 있음으로 판단하는 경우, 응답 제공 모듈(530)에게 해당 의미에 대한 응답을 제공하도록 요청할 수 있다. 예를 들어, 전자 장치(101)는 자연어를 기반으로 사용자의 요청을 처리할 수 있는 경우, 자연어가 의미 있는 것으로 판단할 수 있다. 상기 "What time is it?"의 경우, 문법적으로 해석이 가능한 표현이므로, 전자 장치(101)는 사용자가 요청하는 것이 무엇인지 파악할 수 있다. 따라서, 전자 장치(101)는 기 수신된 음성 신호에 따른 사용자의 요청을 처리할 수 있다. 다른 예를 들어, 전자 장치(101)가 사용자에게 재차 무엇을 요청하는 것인지 묻지 않는 경우를 전자 장치(101)가 자연어의 의미를 판단하는 경우 또는 사용자의 요청을 처리할 수 있는 경우로 해석할 수 있다.

다양한 실시 예에 따르면, 상기 도 5를 참조하면, 전자 장치(101)는 자동 음성 인식 모듈(510)이 사용자의 음성 신호를 사용자가 의도한 바에 부합하는 자연어로 변환하는 경우에만 제대로 된 사용자에게 결과를 제공할 수 있다. 하기 도 6 내지 도8은 상기 도 5에 따른 실시 예의 단점을 보완하도록 음성 인식 보완 모듈(440)을 사용할 수 있다.

도 6은 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 생성하는 상태에서 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.

도 6을 참조하면, 다양한 실시 예에 따르면, 전자 장치(101)는 자동 음성 인식 모듈(610, 예: 410), 자연어 이해 모듈(620, 예: 420), 응답 제공 모듈(630, 예: 430), 음성 인식 보완 모듈(640, 예: 440)을 통해 음성 인식 기능을 수행할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 650 동작에서, 사용자(600)로부터 음성 신호를 수신할 수 있다. 예를 들어, 사용자는 현재 시간을 묻는 의도로, "What time is it?"을 입력할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(610))는 사용자가 입력한 음성 신호를 잘못 인식할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 입력한 음성 신호인 "What time is it?" 을 "What time is eat?"으로 변환할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 652 동작에서, 변환된 자연어(예: "What time is eat?")를 자연어 이해 모듈(620)로 전달할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(620))는 자동 음성 인식 모듈(610)로부터 수신된 자연어의 의미를 분석할 수 있다. 예를 들어, 전자 장치(101)는 "What time is eat?"의 의미를 분석할 수 있으며, 해당 자연어에 대해 의미 없음으로 판단할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 음성 인식 보완 모듈(640)는 654 동작에서, 의미 없음으로 판단된 자연어를 보완 테이블에 특정 항목(예: 인식 문장, 발생 시간)으로 저장할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 656 동작에서, 자연어의 의미가 없다고 판단하는 경우, 사용자(600)에게 재차 음성을 입력하도록 요청할 수 있다. 여기서, 상기 654 동작 및 656 동작의 선후 관계는 본원이 구현하고자 하는 기술적 사상에 영향을 끼치지 않으며, 본 기술이 속한 분야의 통상의 기술자에 의해 얼마든지 변경될 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 658 동작에서, 사용자(600)로부터 2차로 음성 신호를 수신할 수 있다. 예를 들어, 사용자는 재차 현재 시간을 묻는 의도로, "What time is it?"을 천천히 입력할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(610))는 사용자가 입력한 음성 신호를 재차 잘못 인식할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 입력한 음성 신호인 "What time is it?" 을 "What time is in?"으로 변환할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 660 동작에서, 변환된 자연어(예: "What time is in?")를 자연어 이해 모듈(620)로 전달할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(620))는 자동 음성 인식 모듈(610)로부터 수신된 자연어의 의미를 분석할 수 있다. 예를 들어, 전자 장치(101)는 "What time is in?"의 의미를 분석할 수 있으며, 해당 자연어에 대해 의미 없음으로 판단할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 음성 인식 보완 모듈(640)는 662 동작에서, 의미 없음으로 판단된 자연어를 보완 테이블에 특정 항목(예: 인식 문장, 발생 시간 등)으로 저장할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 664 동작에서, 자연어의 의미가 없다고 판단하는 경우, 사용자(600)에게 재차 음성을 입력하도록 요청할 수 있다. 여기서, 상기 662 동작 및 664 동작의 선후 관계는 본원이 구현하고자 하는 기술적 사상에 영향을 끼치지 않으며, 본 기술이 속한 분야의 통상의 기술자에 의해 얼마든지 변경될 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 666 동작에서, 사용자(600)로부터 3차로 음성 신호를 수신할 수 있다. 예를 들어, 사용자는 재차 현재 시간을 묻는 의도로, "What time is it?"을 매우 또박또박하게 입력할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(610))는 이번에는 사용자가 입력한 음성 신호를 제대로 인식할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 입력한 음성 신호인 "What time is it?" 을 "What time is it?"으로 변환할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 668 동작에서, 변환된 자연어(예: "What time is it?")를 자연어 이해 모듈(620)로 전달할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(620))는 자동 음성 인식 모듈(610)로부터 수신된 자연어의 의미를 분석할 수 있다. 예를 들어, 전자 장치(101)는 "What time is it?"의 의미를 분석할 수 있으며, 해당 자연어에 대해 현재 시간을 묻고 있음으로 판단할 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)는 670 동작에서, 자연어를 의미 있음으로 판단하는 경우, 응답 제공 모듈(630)에게 해당 의미에 대한 응답을 제공하도록 요청할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 음성 인식 보완 모듈(640)는 672 동작에서, 의미가 있어 사용자(600)에게 응답을 제공한 자연어를 보완 테이블에 특정 항목(예: 응답 제공 문장 또는 음성 인식 성공 문장 등)으로 저장할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 응답 제공 모듈(630))는 674 동작에서, 입력된 음성 신호에 상응하는 기능을 사용자에게 응답으로 제공할 수 있다. 여기서, 상기 672 동작 및 674 동작의 선후 관계는 본원이 구현하고자 하는 기술적 사상에 영향을 끼치지 않으며, 본 기술이 속한 분야의 통상의 기술자에 의해 얼마든지 변경될 수 있다.

다양한 실시 예에 따르면, 상기 도 6를 참조하면, 전자 장치(101)는 음성 인식 보완 모듈(640)을 통해 보완 테이블을 작성할 수 있으며, 상기 보완 테이블을 이용하여 추후 음성 인식 시 재차 발생할 수 있는 음성 인식 오류를 보완할 수 있다. 보완 테이블을 통해 음성 인식 오류를 보완하는 실시 예는 도 8을 참조할 수 있다.

도 7A 내지 7C는 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 개략적으로 나타낸 도면이다.

다양한 실시 예에 따르면, 도 7A를 참조하면, 전자 장치(101, 예: 음성 인식 보완 모듈(440))는 음성 인식에 실패한 문장을 보완 테이블에 저장할 수 있다. 예를 들어, 전자 장치(101)는 음성 인식에 실패한 문장을 '인식 문장(또는 자연어)' 또는 '음성 인식 실패 문장(또는 자연어)'등의 항목으로 보완 테이블에 저장할 수 있다. 전자 장치(101)는 음성 인식에 실패한 문장을 보완 테이블에 저장하는 경우, 음성 인식에 실패한 문장이 입력된 시간을 '발생 시간' 또는 '인식 시간' 등의 항목으로 보완 테이블에 저장할 수 있다.

다양한 실시 예에 따르면, 도 7A 및 7B를 참조하면, 전자 장치(101)는 상기 도 6의 654 동작의 결과로 도 7A와 같은 보완 테이블을 생성할 수 있다. 또한, 전자 장치(101)는 상기 도 6의 662 동작의 결과로 도 7B와 같은 보완 테이블을 생성할 수 있다. 예를 들어, 전자 장치(101, 예: 자연어 이해 모듈(420))는 "What time is eat?"및 "What time is in?"의 의미를 모두 이해하지 못하였으므로, 전자 장치(101, 예: 음성 인식 보완 모듈(640))는 "What time is eat?"및 "What time is in?"을 발생 시간과 함께 보완 테이블에 저장할 수 있다.

다양한 실시 예에 따르면, 도 7C를 참조하면, 전자 장치(101, 예: 음성 인식 보완 모듈(440))는 상기 도 6의 672 동작의 결과로 도 7C와 같은 보완 테이블을 생성할 수 있다. 예를 들어, 전자 장치(101, 예: 음성 인식 보완 모듈(440))는 음성 인식 실패 후 기 지정된 시간 이내 음성 인식에 성공하는 경우, 보완 테이블에 기록된 음성 인식 실패 문장과 음성 인식 성공 문장의 유사도를 분석할 수 있다. 예를 들어, 전자 장치(101)는 유사도가 일정 수준(예: 유사도 80%) 이상인 경우, 보완 테이블에 기록된 음성 인식 실패 문장과 음성 인식 성공 문장이 서로 유사하다고 판단할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 보완 테이블에 기록된 음성 인식 실패 문장과 음성 인식 성공 문장이 서로 유사한 경우, 음성 인식 성공 문장을 '응답 제공 문장'또는 '음성 인식 성공 문장' 등의 항목으로, 적어도 하나의 '인식 문장' 항목에 상응하도록 보완 테이블에 기록할 수 있다. 예를 들어, 전자 장치(101)는 상기 도 6의 666 동작에서 입력된 "What time is it?"의 입력 시간이 05:28:40인 경우, "What time is it?"의 "What time is eat?"및 "What time is in?"과의 유사도를 분석할 수 있다. 전자 장치(101)는 상기 문장들간의 문자열 비교 및 발음 유사도를 분석하여, 상기 문장들이 서로 유사하다고 판단할 수 있다. 따라서, 전자 장치(101)는 "What time is it?"을 "What time is eat?"및 "What time is in?"의 응답 제공 문장으로 저장할 수 있다. 이를 통해, 전자 장치(101)는 추후 사용자가 입력한 문장이 "What time is eat?"또는 "What time is in?"으로 인식 또는 변환되더라도, 변환 테이블에 저장된 "What time is it?"을 참조하여, 사용자에게 현재 시간에 대한 응답을 제공할 수 있다.

도 8은 본 발명의 다양한 실시 예에 따른 전자 장치에서 생성된 보완 테이블을 활용하여 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.

도 8을 참조하면, 다양한 실시 예에 따르면, 전자 장치(101)는 자동 음성 인식 모듈(810, 예: 410), 자연어 이해 모듈(820, 예: 420), 응답 제공 모듈(830, 예: 430), 음성 인식 보완 모듈(840, 예 440)을 통해 음성 인식 기능을 수행할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 850 동작에서, 사용자(800)로부터 음성 신호를 수신할 수 있다. 예를 들어, 사용자는 현재 시간을 묻는 의도로, "What time is it?"을 입력할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(810))는 사용자가 입력한 음성 신호를 잘못 인식할 수 있다. 예를 들어, 전자 장치(101)는 사용자가 입력한 음성 신호인 "What time is it?" 을 "What time is eat?"으로 변환할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 852 동작에서, 변환된 자연어(예: "What time is eat?")를 음성 인식 보완 모듈(840)로 전달할 수 있다. 전자 장치(101, 예: 음성 인식 보완 모듈(840))는 기 생성된 보완 테이블을 참조하여, 수신된 자연어에 대응하는 '응답 제공 문장' 또는 '음성 인식 성공 문장'이 존재하는지 확인할 수 있다. 예를 들어, 전자 장치(101)는 도 7C와 같은 보완 테이블을 참조하여, "What time is eat?"에 상응하는 "What time is it?"을 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101)는 854 동작에서, 변환된 자연어(예: "What time is eat?") 및 이에 상응하는 음성 인식에 성공한 자연어(예: "What time is it?")를 자연어 이해 모듈(820)에 함께 전달할 수 있다. 다른 예를 들어, 전자 장치(101)는 음성 인식에 성공한 자연어 (예: "What time is it?")만을 자연어 이해 모듈(820)에 전달할 수도 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(820))는 음성 인식 보완 모듈(840)로부터 수신된 자연어의 의미를 분석할 수 있다. 예를 들어, 전자 장치(101)는 "What time is eat?" 및 "What time is it?"의 의미를 함께 분석할 수 있으며, 그 결과 "What time is it?"의 의미만을 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(820))는 856 동작에서, 자연어의 의미가 있다고 분석하는 경우, 응답 제공 모듈(830)에게 해당 의미에 대한 응답을 제공하도록 요청할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 응답 제공 모듈(830))는 858 동작에서, 입력된 음성 신호에 상응하는 기능을 사용자에게 응답으로 제공할 수 있다. 예를 들어, 전자 장치(101)는 "What time is it?"이라는 자연어를 기반으로, 사용자에게 현재 시간에 대한 응답을 제공할 수 있다.

도 9는 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 테이블을 생성하는 방법에 관한 흐름도이다.

다양한 실시 예에 따르면, 도 9를 참조하면, 전자 장치(101, 예: 응답 제공 모듈(430))는 910 동작에서 음성 인식을 요청한 사용자에게 음성 인식에 상응하는 응답을 제공할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 음성 인식 보완 모듈(440))는 920 동작에서, 보완 테이블에 저장된 인식 문장과 상기 910 동작에 기초가 된 응답 제공 문장 간의 유사도를 판단할 수 있다. 예를 들어, 전자 장치(101)는 두 자연어 간의 유사도 판단을 위해 문자열(string) 비교, 발음 유사도 등을 참조할 수 있다. 예를 들어, 전자 장치(101)는 유사도가 일정 수준(예: 유사도 80%) 이상인 경우, 보완 테이블에 저장된 인식 문장과 응답 제공 문장이 서로 유사하다고 판단할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 음성 인식 보완 모듈(440))는 930 동작에서, 상기 920 동작의 판단에 기반하여, 보완 테이블의 응답 제공 문장을 기 저장된 인식 문장에 대응하도록 저장할 수 있다.

따라서, 전자 장치(101)는 보완 테이블을 참조하여, 음성 인식이 실패하게 되는 경우를 보완하여 사용자에게 보다 편리한 음성 인식 기능을 제공할 수 있다.

도 10은 본 발명의 다양한 실시 예에 따른 전자 장치의 보완 데이터의 유무에 따라 음성 인식 기능을 수행하는 방법에 관한 흐름도이다.

다양한 실시 예에 따르면, 도 10을 참조하면, 전자 장치(101)는 1010 동작에서, 사용자로부터 음성 신호를 수신할 수 있다. 예를 들어, 전자 장치(101)는 마이크(288) 등의 음성 신호 수집 장치를 통해 사용자로부터 음성 인식에 기초가 될 음성 신호를 수신할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자동 음성 인식 모듈(410))는 1020 동작에서, 수신된 음성 신호를 인식할 수 있다. 예를 들어, 전자 장치(101)는 수신된 음성 신호를 자연어로 변환할 수 있다. 즉, 전자 장치(101)는 수신된 음성 신호를 의미를 가질 수 있는 자연어(예: 단어, 문장 등)로 변환할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 음성 인식 보완 모듈(440))는 변환된 자연어에 대응하는 보완 데이터가 있는지 확인할 수 있다. 예를 들어, 전자 장치(101)는 기 생성 및 저장된 보완 테이블을 참조하여, 변환된 자연어에 대응하는 보완 데이터가 있는지 확인할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(420))는 1030 동작에서, 보완 데이터가 존재하는 경우 1040 동작으로 분기할 수 있다. 전자 장치(101)는 1040 동작에서, 변환된 자연어에 관한 데이터 및 보완 데이터 중 적어도 하나를 기반으로 자연어 이해를 수행할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 자연어 이해 모듈(420))는 1030 동작에서, 보완 데이터가 존재하지 않는 경우 1050 동작으로 분기할 수 있다. 전자 장치(101)는 1050 동작에서, 변환된 자연어에 관한 데이터를 기반으로 자연어 이해를 수행할 수 있다.

다양한 실시 예에 따르면, 전자 장치(101, 예: 응답 제공 모듈(430))는 상기 1040 동작 또는 1050 동작의 수행에 기반하여, 사용자에게 음성에 따른 응답을 제공할 수 있다.

상기 프로세서는, 상기 제2 자연어에 기반하여, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하도록 설정될 수 있다.

상기 제1 자연어 및 제2 자연어는 단어 또는 문장의 형태일 수 있다.

상기 프로세서는, 상기 제1 자연어 및 상기 제2 자연어 간 문자열 비교 및 발음 중 적어도 하나에 기반하여 상기 유사도를 판단하도록 설정될 수 있다.

상기 기 지정된 시간은 상기 제1 시간에 입력된 상기 제1 음성 신호와 상기 제2 시간에 입력된 상기 제2 음성 신호가 실질적으로 연속해서 입력된 것이라고 판단할 수 있는 정도의 시간으로 설정될 수 있다.

상기 프로세서는, 상기 마이크를 통해, 제3 시간에, 상기 사용자로부터 상기 제1 음성 신호를 수신하고, 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 상기 제1 자연어를 획득하고, 및 상기 보완 데이터를 기반으로, 상기 획득된 제1 자연어에 상응하도록 저장된 상기 제2 자연어를 확인하도록 설정될 수 있다.

상기 프로세서는, 상기 제2 자연어의 의미에 기반하여, 입력된 음성이 상기 제1 음성 신호임에도 불구하고, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하도록 설정될 수 있다.

상기 프로세서는, 상기 전자 장치의 상기 메모리 또는 상기 전자 장치 외부의 서버를 통해 상기 제1 자연어 또는 상기 제2 자연어를 획득하도록 설정될 수 있다.

상기 프로세서는, 상기 전자 장치의 상기 메모리 또는 상기 전자 장치 외부의 서버를 통해 상기 응답을 제공하도록 설정될 수 있다.

상기 제2 자연어에 기반하여, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하는 동작을 포함할 수 있다.

상기 유사도를 판단하는 동작은, 상기 제1 자연어 및 상기 제2 자연어 간 문자열 비교 및 발음 중 적어도 하나에 기반하여 상기 유사도를 판단하는 동작을 포함할 수 있다.

상기 기 지정된 시간은 상기 제1 시간에 입력된 상기 제1 음성 신호와 상기 제2 시간에 입력된 상기 제2 음성 신호가 실질적으로 연속해서 입력된 것이라고 판단할 수 있는 정도의 시간일 수 있다.

제3 시간에, 상기 사용자로부터 상기 제1 음성 신호를 수신하는 동작; 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 상기 제1 자연어를 획득하는 동작; 및 상기 보완 데이터를 기반으로, 상기 획득된 제1 자연어에 상응하도록 저장된 상기 제2 자연어를 확인하는 동작을 포함할 수 있다.

상기 제2 자연어의 의미에 기반하여, 입력된 음성이 상기 제1 음성 신호임에도 불구하고, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하는 동작을 포함할 수 있다.

상기 제1 자연어 또는 제2 자연어를 획득하는 동작은, 상기 전자 장치 또는 상기 전자 장치 외부의 서버를 통해 상기 제1 자연어 또는 상기 제2 자연어를 획득하는 동작을 포함할 수 있다.

상기 응답을 제공하는 동작은, 상기 전자 장치 또는 상기 전자 장치 외부의 서버를 통해 상기 응답을 제공하는 동작을 포함할 수 있다.

다양한 실시 예에 따른 컴퓨터 판독 가능한 저장 매체에 있어서, 제1 시간에, 사용자로부터 제1 음성 신호를 수신하는 동작; 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하는 동작; 상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 저장하는 동작; 제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하는 동작; 상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하는 동작; 상기 획득된 제2 자연어를 기반으로, 상기 제2 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하는 동작; 및 상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 보완 데이터를 저장하는 동작을 실행하도록 하는 프로그램을 기록할 수 있다.

제3 시간에, 상기 사용자로부터 상기 제1 음성 신호를 수신하는 동작; 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 상기 제1 자연어를 획득하는 동작; 및 상기 보완 데이터를 기반으로, 상기 획득된 제1 자연어에 상응하도록 저장된 상기 제2 자연어를 확인하는 동작을 더 실행하도록 하는 프로그램을 기록할 수 있다.

본 문서에서 사용된 용어 "모듈"은, 예를 들면, 하드웨어, 소프트웨어 또는 펌웨어 (firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위 (unit)를 의미할 수 있다. "모듈"은, 예를 들면, 유닛 (unit), 로직 (logic), 논리 블록 (logical block), 부품 (component), 또는 회로 (circuit) 등의 용어와 바꾸어 사용 (interchangeably use)될 수 있다. "모듈"은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면,"모듈"은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC (application-specific integrated circuit) 칩, FPGAs (field-programmable gate arrays) 또는 프로그램 가능 논리 장치 (programmable-logic device) 중 적어도 하나를 포함할 수 있다.

다양한 실시 예에 따른 장치 (예: 모듈들 또는 그 기능들) 또는 방법 (예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체 (computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어는, 프로세서 (예: 프로세서 120)에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 상기 메모리 130가 될 수 있다.

상기 컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체 (magnetic media)(예: 자기테이프), 광기록 매체 (optical media)(예: CD-ROM (compact disc read only memory), DVD (digital versatile disc), 자기-광 매체 (magneto-optical media)(예: 플롭티컬 디스크 (floptical disk)), 하드웨어 장치 (예: ROM (read only memory), RAM (random access memory), 또는 플래시 메모리 등) 등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

다양한 실시 예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱 (heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

그리고 본 문서에 개시된 실시 예는 개시된, 기술 내용의 설명 및 이해를 위해 제시된 것이며, 본 개시의 범위를 한정하는 것은 아니다. 따라서, 본 개시의 범위는, 본 개시의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시 예를 포함하는 것으로 해석되어야 한다.

Claims

전자 장치에 있어서,
메모리;
마이크; 및
상기 메모리 및 마이크와 전기적으로 연결된 프로세서를 포함하고,
상기 메모리는, 실행 시에, 상기 프로세서가,
상기 마이크를 통해, 제1 시간에, 사용자로부터 제1 음성 신호를 수신하고,
상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하고,
상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 상기 메모리에 저장하고,
상기 마이크를 통해, 제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하고,
상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하고,
상기 획득된 제2 자연어를 기반으로, 상기 제2 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하고, 및
상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 메모리에 상기 보완 데이터를 저장하도록 하는 인스트럭션들(instructions)을 포함하는 전자 장치.
제1 항에 있어서,
상기 프로세서는,
상기 제2 자연어에 기반하여, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하도록 설정된 전자 장치.
제1 항에 있어서,
상기 제1 자연어 및 제2 자연어는 단어 또는 문장의 형태인 전자 장치.
제1 항에 있어서,
상기 프로세서는,
상기 제1 자연어 및 상기 제2 자연어 간 문자열 비교 및 발음 중 적어도 하나에 기반하여 상기 유사도를 판단하도록 설정된 전자 장치.
제1 항에 있어서,
상기 기 지정된 시간은 상기 제1 시간에 입력된 상기 제1 음성 신호와 상기 제2 시간에 입력된 상기 제2 음성 신호가 실질적으로 연속해서 입력된 것이라고 판단할 수 있는 정도의 시간으로 설정된 전자 장치.
제1 항에 있어서,
상기 프로세서는,
상기 마이크를 통해, 제3 시간에, 상기 사용자로부터 상기 제1 음성 신호를 수신하고,
상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 상기 제1 자연어를 획득하고, 및
상기 보완 데이터를 기반으로, 상기 획득된 제1 자연어에 상응하도록 저장된 상기 제2 자연어를 확인하도록 설정된 전자 장치.
제6 항에 있어서,
상기 프로세서는,
상기 제2 자연어에 기반하여, 입력된 음성이 상기 제1 음성 신호임에도 불구하고, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하도록 설정된 전자 장치.
제1 항에 있어서,
상기 프로세서는,
상기 전자 장치의 상기 메모리 또는 상기 전자 장치 외부의 서버를 통해 상기 제1 자연어 또는 상기 제2 자연어를 획득하도록 설정된 전자 장치.
제2 항에 있어서,
상기 프로세서는,
상기 전자 장치의 상기 메모리 또는 상기 전자 장치 외부의 서버를 통해 상기 응답을 제공하도록 설정된 전자 장치.
전자 장치의 방법에 있어서,
제1 시간에, 사용자로부터 제1 음성 신호를 수신하는 동작;
상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하는 동작;
상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 저장하는 동작;
제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하는 동작;
상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하는 동작;
상기 획득된 제2 자연어를 기반으로, 상기 제2 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하는 동작; 및
상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 보완 데이터를 저장하는 동작을 포함하는 전자 장치의 방법.
제10 항에 있어서,
상기 제2 자연어에 기반하여, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하는 동작을 포함하는 전자 장치의 방법.
제10 항에 있어서,
상기 제1 자연어 및 제2 자연어는 단어 또는 문장의 형태인 전자 장치의 방법.
제10 항에 있어서,
상기 유사도를 판단하는 동작은,
상기 제1 자연어 및 상기 제2 자연어 간 문자열 비교 및 발음 중 적어도 하나에 기반하여 상기 유사도를 판단하는 동작을 포함하는 전자 장치의 방법.
제10 항에 있어서,
상기 기 지정된 시간은 상기 제1 시간에 입력된 상기 제1 음성 신호와 상기 제2 시간에 입력된 상기 제2 음성 신호가 실질적으로 연속해서 입력된 것이라고 판단할 수 있는 정도의 시간인 전자 장치의 방법.
제10 항에 있어서,
제3 시간에, 상기 사용자로부터 상기 제1 음성 신호를 수신하는 동작;
상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 상기 제1 자연어를 획득하는 동작; 및
상기 보완 데이터를 기반으로, 상기 획득된 제1 자연어에 상응하도록 저장된 상기 제2 자연어를 확인하는 동작을 포함하는 전자 장치의 방법.
제15 항에 있어서,
상기 제2 자연어에 기반하여, 입력된 음성이 상기 제1 음성 신호임에도 불구하고, 상기 사용자에게 상기 제2 음성 신호에 상응하는 응답을 제공하는 동작을 포함하는 전자 장치의 방법.
제10 항에 있어서,
상기 제1 자연어 또는 제2 자연어를 획득하는 동작은,
상기 전자 장치 또는 상기 전자 장치 외부의 서버를 통해 상기 제1 자연어 또는 상기 제2 자연어를 획득하는 동작을 포함하는 전자 장치의 방법.
제11항에 있어서,
상기 응답을 제공하는 동작은,
상기 전자 장치 또는 상기 전자 장치 외부의 서버를 통해 상기 응답을 제공하는 동작을 포함하는 전자 장치의 방법.
제1 시간에, 사용자로부터 제1 음성 신호를 수신하는 동작; 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 제1 자연어를 획득하는 동작; 상기 획득된 제1 자연어를 기반으로, 상기 제1 음성 신호에 따른 상기 사용자의 요청을 처리할 수 없는 경우, 상기 제1 자연어를 보완 데이터로 저장하는 동작; 제2 시간에, 상기 사용자로부터 제2 음성 신호를 수신하는 동작; 상기 수신된 제2 음성 신호를 기반으로, 상기 제2 음성 신호에 상응하는 제2 자연어를 획득하는 동작; 상기 획득된 제2 자연어를 기반으로, 상기 제2 음성 신호에 따른 상기 사용자의 요청을 처리할 수 있는 경우, 상기 제1 자연어 및 상기 제2 자연어 간 유사도 및 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인지 판단하는 동작; 및 상기 판단에 기초하여, 상기 제1 자연어 및 상기 제2 자연어가 유사하고, 상기 제1 시간 및 상기 제2 시간의 차이가 기 지정된 시간 이내인 경우, 상기 제2 자연어를 상기 제1 자연어에 상응하도록 상기 보완 데이터를 저장하는 동작을 실행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능한 저장 매체.
제19 항에 있어서,
제3 시간에, 상기 사용자로부터 상기 제1 음성 신호를 수신하는 동작; 상기 수신된 제1 음성 신호를 기반으로, 상기 제1 음성 신호에 상응하는 상기 제1 자연어를 획득하는 동작; 및 상기 보완 데이터를 기반으로, 상기 획득된 제1 자연어에 상응하도록 저장된 상기 제2 자연어의 의미를 판단하는 동작을 더 실행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능한 저장 매체.