KR102653450B1 - 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 - Google Patents

전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 Download PDF

Info

Publication number
KR102653450B1
KR102653450B1 KR1020170002830A KR20170002830A KR102653450B1 KR 102653450 B1 KR102653450 B1 KR 102653450B1 KR 1020170002830 A KR1020170002830 A KR 1020170002830A KR 20170002830 A KR20170002830 A KR 20170002830A KR 102653450 B1 KR102653450 B1 KR 102653450B1
Authority
KR
South Korea
Prior art keywords
speaker
electronic device
score
voice
response
Prior art date
Application number
KR1020170002830A
Other languages
English (en)
Other versions
KR20180081922A (ko
Inventor
강신재
하정현
정석영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170002830A priority Critical patent/KR102653450B1/ko
Priority to US15/850,081 priority patent/US10636420B2/en
Publication of KR20180081922A publication Critical patent/KR20180081922A/ko
Application granted granted Critical
Publication of KR102653450B1 publication Critical patent/KR102653450B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

다양한 실시 예에 따르면 전자 장치에 있어서, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 전기적으로 연결된 메모리를 포함하며, 상기 메모리는, 수신된 제1 음성을 인식하고, 상기 인식된 제1 음성에 기초하여 제1 화자를 인식하며, 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하도록 하는 인스트럭션들(instructions)을 저장 할 수 있다. 다른 실시 예가 가능하다.

Description

전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치{METHOD FOR RESPONSE TO INPUT VOICE OF ELECTRONIC DEVICE AND ELECTRONIC DEVICE THEREOF}
다양한 실시 예는 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치에 관한 것이다.
종래의 스마트 폰, 태블릿 PC 등의 전자 장치는 음성 인식 기술을 이용하여 인식된 사용자의 음성에 따라 전자 장치의 다양한 기능을 제어할 수 있다. 예를 들어, 전자 장치는 인식된 사용자 음성명령에 따라 전화 걸기, 메시지 전송, 길 찾기, 인터넷 검색, 알람 설정 등의 다양한 기능을 간편하게 실행할 수 있다.
전자 장치가 음성 인식 기능을 이용하기 위해서는 음성 인식 기능을 활성화하기 위한 동작이 필요하다. 전자 장치를 활성화하기 위한 방법으로 전자 장치는 별도로 전자 장치에 구비된 하드웨어 키에 대한 입력, 특정 어플리케이션을 구동하기 위한 사용자 입력, 또는 별도의 웨이크업(wakeup) 키워드의 음성 입력을 이용하고 있다. 이 경우, 사용자가 음성 명령을 발화하는 시점에 반복된 추가 입력을 수행해야 한다.
음성 인식 활성화를 위한 추가의 사용자 입력을 줄이기 위해, 화자 검증 기술을 이용할 수 있다. 상기 화자 검증 기술은, 화자 검증 결과에 기반하여 화자일 경우에는 음성 인식을 수행하기 위한 동작을 실행하고, 화자가 아닐 경우에는 다시 대기 상태로 동작하여, 별도의 사용자 조작 없이 손쉽게 음성 인식을 수행할 수 있다.
하지만 상술한 종래 기술은 개인화적인 측면에서 보았을 때 학습된 특정 화자를 인식하는 것에 국한되어 있어, 전자 장치가 단순한 인공 지능 시스템의 제한적인 서비스를 제공할 뿐이다. 또한, 화자 검증 성능에 따라 화자 인식률의 차이가 날 수 있어 오인식이 발생할 수 있다. 이 경우, 사용자 임에도 불구하고 반복적으로 인식 실패를 경험할 수 있다. 또한, 화자 검증 기술과 결합한 음성 인식 기술에서 한 번 학습된 모델은 계속 변하는 실 환경 데이터에 적응하기 어려운 단점을 가진다.
다양한 실시 예에 따르면, 개인화에 특화된 화자 인지 기반의 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치를 제공할 수 있다.
다양한 실시 예에 따르면, 전자 장치의 입력 음성에 대한 응답 기능의 지속적인 사용에 의한 데이터 확보를 통해 모델을 업데이트하는 방법 및 전자 장치를 제공할 수 있다.
다양한 실시 예들에 따른 전자 장치에 있어서, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 전기적으로 연결된 메모리를 포함하며, 동작에 대한 요청을 나타내는 수신된 제1 음성을 인식하고, 상기 인식된 제1 음성에 기초하여 제1 화자를 인식하고, 상기 수신된 제1 음성으로부터 상기 제1 화자의 특징을 추출하고,상기 추출된 특징 및 상기 메모리에 미리 저장된 화자 모델에 기초하여, 상기 제1 화자와 상기 미리 저장된 화자 모델의 유사성을 나타내는 스코어를 계산하고,상기 스코어가 제1 문턱 값보다 크다는 것을 식별하는 것에 기초하여 3개의 스코어 구간들 중 제1 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제1 응답을 출력하고, 상기 스코어가 제1 문턱 값 이하이고, 상기 제1 문턱 값보다 작은 제2 문턱 값보다 크다는 것을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제2 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제2 응답을 출력하고, 상기 스코어가 상기 제2 문턱 값 이하임을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제3 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행하지 않을 것임을 나타내는 제3 응답을 출력하도록 상기 전자 장치를 제어하는 인스트럭션들(instructions)을 저장할 수 있다.
다양한 실시 예들에 따른 전자 장치의 입력 음성에 대한 응답 방법 있어서, 동작에 대한 요청을 나타내는 수신된 제1 음성을 인식하는 동작,,상기 인식된 제1 음성에 기초하여 제1 화자를 인식하는 동작, 상기 수신된 제1 음성으로부터 상기 제1 화자의 특징을 추출하는 동작, 상기 추출된 특징 및 상기 전자 장치의 메모리에 미리 저장된 화자 모델에 기초하여, 상기 제1 화자와 상기 화자 모델의 유사성을 나타내는 스코어를 계산하는 동작, 상기 스코어가 제1 문턱 값보다 크다는 것을 식별하는 것에 기초하여 3개의 스코어 구간들 중 제1 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제1 응답을 출력하는 동작, 상기 스코어가 제1 문턱 값 이하이고, 상기 제1 문턱 값보다 작은 제2 문턱 값보다 크다는 것을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제2 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제2 응답을 출력하는 동작, 및 상기 스코어가 상기 제2 문턱 값 이하임을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제3 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행하지 않을 것임을 나타내는 제3 응답을 출력하는 동작을 포함할 수 있다.
다양한 실시 예들에 따른 전자 장치의 입력 음성에 대한 응답 방법을 실행하기 위한 프로그램을 기록한 기계로 읽을 수 있는 저장 매체에 있어서, 상기 방법은, 동작에 대한 요청을 나타내는 수신된 제1 음성을 인식하는 동작; 상기 인식된 제1 음성에 기초하여 제1 화자를 인식하는 동작, 상기 수신된 제1 음성으로부터 상기 제1 화자의 특징을 추출하는 동작, 상기 추출된 특징 및 상기 전자 장치의 메모리에 미리 저장된 화자 모델에 기초하여, 상기 제1 화자와 상기 화자 모델의 유사성을 나타내는 스코어를 계산하는 동작, 상기 스코어가 제1 문턱 값보다 크다는 것을 식별하는 것에 기초하여 3개의 스코어 구간들 중 제1 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제1 응답을 출력하는 동작, 상기 스코어가 제1 문턱 값 이하이고, 상기 제1 문턱 값보다 작은 제2 문턱 값보다 크다는 것을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제2 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제2 응답을 출력하는 동작, 및 상기 스코어가 상기 제2 문턱 값 이하임을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제3 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행하지 않을 것임을 나타내는 제3 응답을 출력하는동작을 포함할 수 있다.
다양한 실시 예에 따른 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치는, 화지를 인지하여 인지된 화자에 기반한 맞춤형 응답을 제공함으로써 전자 장치의 입력 음성에 대한 응답 기능의 사용성을 확대시키고 음성 인식과 같은 인공지능 서비스의 확장성을 고려해 볼 수 있다. 또한, 개인화에 초점을 맞추고 각 화자에 대한 맞춤형으로 그에 대한 응답을 제공함으로써 전자 장치, 예를 들어, 스마트폰 및/또는 IOT(internet of things) 기반 장비 등에서의 인공 지능 서비스를 좀 더 다양하고 친숙하게 만드는데 중요한 역할을 할 수 있다.
다양한 실시 예에 따르면, 화자가 등록된 화자가 아닌 경우에는 그에 대한 응답을 다양하게 제공함으로써 사용자의 거부감을 줄이고 개발 알고리즘 성능을 보완할 수 있는 기술로 활용되도록 할 수 있다. 또한, 전자 장치의 입력 음성에 대한 응답 기능의 지속적인 사용에 의한 데이터 확보를 통해 모델을 업데이트 함으로써 실 환경 데이터에 좀 더 적응할 수 있는 시스템 구현이 가능하다. 또한, 다양한 화자가 등록된 경우, 각 개인별로 응답을 나누어 맞춤형 서비스의 실현이 가능할 수 있다.
다양한 실시 예에 따르면, 전자 장치가 서버일 경우 다양한 기기들과의 연동하여 다양한 서비스를 제공할 수 있다.
도 1은 다양한 실시 예에 따른 전자 장치를 포함하는 네트워크 환경을 도시한다.
도 2는 다양한 실시 예에 따른 전자 장치의 블록도를 도시한다.
도 3은 다양한 실시 예에 따른 프로그램 모듈의 블록도를 도시한다.
도 4는 다양한 실시 예에 따른 전자 장치에서 화자 모델을 등록하기 위한 블록도이다.
도 5는 다양한 실시 예에 따른 전자 장치의 프로세서의 구성도이다.
도 6은 다양한 실시 예에 따른 전자 장치의 세부 구성도이다.
도 7은 다양한 실시 예에 따른 전자 장치에 포함된 응답 결정 및 선택 모듈의 세부 구성도이다.
도 8은 다양한 실시 예에 따른 화자의 스코어 구간을 세분화하는 전자 장치의 일부 구성도이다.
도 9는 다양한 실시 예에 따른 전자 장치의 화자 모델 생성 동작의 흐름도이다.
도 10은 다양한 실시 예에 따른 전자 장치의 음성 입력에 대응하는 응답을 제공하는 동작의 흐름도이다.
도 11은 다양한 실시 예에 따른 전자 장치의 음성 입력에 대응하는 응답 결과를 나타낸 화면 예시도이다.
도 12는 다양한 실시 예에 따른 전자 장치(예: 전자 장치(101))의 입력 음성에 대한 응답 동작의 흐름도이다.
이하, 본 문서의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다. 실시 예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1," "제 2," "첫째," 또는 "둘째,"등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시 예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시 예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다. 어떤 실시 예에 따르면, 전자 장치는 가구, 건물/구조물 또는 자동차의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터, 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시 예에서, 전자 장치는 플렉서블하거나, 또는 전술한 다양한 장치들 중 둘 이상의 조합일 수 있다. 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
도 1을 참조하여, 다양한 실시 예에서의, 네트워크 환경(100) 내의 전자 장치(101)가 기재된다. 전자 장치(101)는 버스(110), 프로세서(120), 메모리(130), 입출력 인터페이스(150), 디스플레이(160), 및 통신 인터페이스(170)를 포함할 수 있다. 어떤 실시 예에서는, 전자 장치(101)는, 구성요소들 중 적어도 하나를 생략하거나 다른 구성요소를 추가적으로 구비할 수 있다. 버스(110)는 구성요소들(110-170)을 서로 연결하고, 구성요소들 간의 통신(예: 제어 메시지 또는 데이터)을 전달하는 회로를 포함할 수 있다. 프로세서(120)는, 중앙처리장치, 어플리케이션 프로세서, 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다. 프로세서(120)는, 예를 들면, 전자 장치(101)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.
메모리(130)는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(130)는, 예를 들면, 전자 장치(101)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 한 실시 예에 따르면, 메모리(130)는 소프트웨어 및/또는 프로그램(140)을 저장할 수 있다. 프로그램(140)은, 예를 들면, 커널(141), 미들웨어(143), 어플리케이션 프로그래밍 인터페이스(API)(145), 및/또는 어플리케이션 프로그램(또는 "어플리케이션")(147) 등을 포함할 수 있다. 커널(141), 미들웨어(143), 또는 API(145)의 적어도 일부는, 운영 시스템으로 지칭될 수 있다. 커널(141)은, 예를 들면, 다른 프로그램들(예: 미들웨어(143), API(145), 또는 어플리케이션 프로그램(147))에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 버스(110), 프로세서(120), 또는 메모리(130) 등)을 제어 또는 관리할 수 있다. 또한, 커널(141)은 미들웨어(143), API(145), 또는 어플리케이션 프로그램(147)에서 전자 장치(101)의 개별 구성요소에 접근함으로써, 시스템 리소스들을 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.
미들웨어(143)는, 예를 들면, API(145) 또는 어플리케이션 프로그램(147)이 커널(141)과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다. 또한, 미들웨어(143)는 어플리케이션 프로그램(147)으로부터 수신된 하나 이상의 작업 요청들을 우선 순위에 따라 처리할 수 있다. 예를 들면, 미들웨어(143)는 어플리케이션 프로그램(147) 중 적어도 하나에 전자 장치(101)의 시스템 리소스(예: 버스(110), 프로세서(120), 또는 메모리(130) 등)를 사용할 수 있는 우선 순위를 부여하고, 상기 하나 이상의 작업 요청들을 처리할 수 있다. API(145)는 어플리케이션(147)이 커널(141) 또는 미들웨어(143)에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 영상 처리, 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다. 입출력 인터페이스(150)는, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 전자 장치(101)의 다른 구성요소(들)에 전달하거나, 또는 전자 장치(101)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다.
디스플레이(160)는, 예를 들면, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 또는 마이크로 전자기계 시스템 (MEMS) 디스플레이, 또는 전자종이(electronic paper) 디스플레이를 포함할 수 있다. 디스플레이(160)는, 예를 들면, 사용자에게 각종 콘텐츠(예: 텍스트, 이미지, 비디오, 아이콘, 및/또는 심볼 등)을 표시할 수 있다. 디스플레이(160)는, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다. 통신 인터페이스(170)는, 예를 들면, 전자 장치(101)와 외부 장치(예: 제 1 외부 전자 장치(102), 제 2 외부 전자 장치(104), 또는 서버(106)) 간의 통신을 설정할 수 있다. 예를 들면, 통신 인터페이스(170)는 무선 통신 또는 유선 통신을 통해서 네트워크(162)에 연결되어 외부 장치(예: 제 2 외부 전자 장치(104) 또는 서버(106))와 통신할 수 있다.
무선 통신은, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 한 실시 예에 따르면, 무선 통신은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 한실시 예에 따르면, 무선 통신은 GNSS를 포함할 수 있다. GNSS는, 예를 들면, GPS(Global Positioning System), Glonass(Global Navigation Satellite System), Beidou Navigation Satellite System(이하 "Beidou") 또는 Galileo, the European global satellite-based navigation system일 수 있다. 이하, 본 문서에서는, "GPS"는 "GNSS"와 상호 호환적으로 사용될 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 네트워크(162)는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.
제 1 및 제 2 외부 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 다양한 실시 예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 전자 장치(예: 전자 장치(102,104), 또는 서버(106)에서 실행될 수 있다. 한 실시 예에 따르면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 다른 장치(예: 전자 장치(102, 104), 또는 서버(106))에게 요청할 수 있다. 다른 전자 장치(예: 전자 장치(102, 104), 또는 서버(106))는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
도 2는 다양한 실시 예에 따른 전자 장치(201)의 블록도이다. 전자 장치(201)는, 예를 들면, 도 1에 도시된 전자 장치(101)의 전체 또는 일부를 포함할 수 있다. 전자 장치(201)는 하나 이상의 프로세서(예: AP)(210), 통신 모듈(220), 가입자 식별 모듈(224), 메모리(230), 센서 모듈(240), 입력 장치(250), 디스플레이(260), 인터페이스(270), 오디오 모듈(280), 카메라 모듈(291), 전력 관리 모듈(295), 배터리(296), 인디케이터(297), 및 모터(298) 를 포함할 수 있다. 프로세서(210)는, 예를 들면, 운영 체제 또는 응용 프로그램을 구동하여 프로세서(210)에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 프로세서(210)는, 예를 들면, SoC(system on chip) 로 구현될 수 있다. 한 실시 예에 따르면, 프로세서(210)는 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서를 더 포함할 수 있다. 프로세서(210)는 도 2에 도시된 구성요소들 중 적어도 일부(예: 셀룰러 모듈(221))를 포함할 수도 있다. 프로세서(210) 는 다른 구성요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드)하여 처리하고, 결과 데이터를 비휘발성 메모리에 저장할 수 있다.
통신 모듈(220)(예: 통신 인터페이스(170))와 동일 또는 유사한 구성을 가질 수 있다. 통신 모듈(220)은, 예를 들면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GNSS 모듈(227), NFC 모듈(228) 및 RF 모듈(229)를 포함할 수 있다. 셀룰러 모듈(221)은, 예를 들면, 통신망을 통해서 음성 통화, 영상 통화, 문자 서비스, 또는 인터넷 서비스 등을 제공할 수 있다. 한 실시 예에 따르면, 셀룰러 모듈(221)은 가입자 식별 모듈(예: SIM 카드)(224)을 이용하여 통신 네트워크 내에서 전자 장치(201)의 구별 및 인증을 수행할 수 있다. 한 실시 예에 따르면, 셀룰러 모듈(221)은 프로세서(210)가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 한 실시 예에 따르면, 셀룰러 모듈(221)은 커뮤니케이션 프로세서(CP)를 포함할 수 있다. 어떤 실시 예에 따르면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GNSS 모듈(227) 또는 NFC 모듈(228) 중 적어도 일부(예: 두 개 이상)는 하나의 integrated chip(IC) 또는 IC 패키지 내에 포함될 수 있다. RF 모듈(229)은, 예를 들면, 통신 신호(예: RF 신호)를 송수신할 수 있다. RF 모듈(229)은, 예를 들면, 트랜시버, PAM(power amp module), 주파수 필터, LNA(low noise amplifier), 또는 안테나 등을 포함할 수 있다. 다른 실시 예에 따르면, 셀룰러 모듈(221), WiFi 모듈(223), 블루투스 모듈(225), GNSS 모듈(227) 또는 NFC 모듈(228) 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호를 송수신할 수 있다. 가입자 식별 모듈(224)은, 예를 들면, 가입자 식별 모듈을 포함하는 카드 또는 임베디드 SIM을 포함할 수 있으며, 고유한 식별 정보(예: ICCID(integrated circuit card identifier)) 또는 가입자 정보(예: IMSI(international mobile subscriber identity))를 포함할 수 있다.
메모리(230)(예: 메모리(130))는, 예를 들면, 내장 메모리(232) 또는 외장 메모리(234)를 포함할 수 있다. 내장 메모리(232)는, 예를 들면, 휘발성 메모리(예: DRAM, SRAM, 또는 SDRAM 등), 비휘발성 메모리(예: OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, 플래시 메모리, 하드 드라이브, 또는 솔리드 스테이트 드라이브 (SSD) 중 적어도 하나를 포함할 수 있다. 외장 메모리(234)는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD, Mini-SD, xD(extreme digital), MMC(multi-media card) 또는 메모리 스틱 등을 포함할 수 있다. 외장 메모리(234)는 다양한 인터페이스를 통하여 전자 장치(201)와 기능적으로 또는 물리적으로 연결될 수 있다.
센서 모듈(240)은, 예를 들면, 물리량을 계측하거나 전자 장치(201)의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 센서 모듈(240)은, 예를 들면, 제스처 센서(240A), 자이로 센서(240B), 기압 센서(240C), 마그네틱 센서(240D), 가속도 센서(240E), 그립 센서(240F), 근접 센서(240G), 컬러(color) 센서(240H)(예: RGB(red, green, blue) 센서), 생체 센서(240I), 온/습도 센서(240J), 조도 센서(240K), 또는 UV(ultra violet) 센서(240M) 중의 적어도 하나를 포함할 수 있다. 추가적으로 또는 대체적으로, 센서 모듈(240)은, 예를 들면, 후각(e-nose) 센서, 일렉트로마이오그라피(EMG) 센서, 일렉트로엔씨팔로그램(EEG) 센서, 일렉트로카디오그램(ECG) 센서, IR(infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다. 센서 모듈(240)은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다. 어떤 실시 예에서는, 전자 장치(201)는 프로세서(210)의 일부로서 또는 별도로, 센서 모듈(240)을 제어하도록 구성된 프로세서를 더 포함하여, 프로세서(210)가 슬립(sleep) 상태에 있는 동안, 센서 모듈(240)을 제어할 수 있다.
입력 장치(250)는, 예를 들면, 터치 패널(252), (디지털) 펜 센서(254), 키(256), 또는 초음파 입력 장치(258)를 포함할 수 있다. 터치 패널(252)은, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널(252)은 제어 회로를 더 포함할 수도 있다. 터치 패널(252)은 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다. (디지털) 펜 센서(254)는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트를 포함할 수 있다. 키(256)는, 예를 들면, 물리적인 버튼, 광학식 키, 또는 키패드를 포함할 수 있다. 초음파 입력 장치(258)는 마이크(예: 마이크(288))를 통해, 입력 도구에서 발생된 초음파를 감지하여, 상기 감지된 초음파에 대응하는 데이터를 확인할 수 있다.
디스플레이(260)(예: 디스플레이(160))는 패널(262), 홀로그램 장치(264), 프로젝터(266), 및/또는 이들을 제어하기 위한 제어 회로를 포함할 수 있다. 패널(262)은, 예를 들면, 유연하게, 투명하게, 또는 착용할 수 있게 구현될 수 있다. 패널(262)은 터치 패널(252)과 하나 이상의 모듈로 구성될 수 있다. 한 실시 예에 따르면, 패널(262)은 사용자의 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서(또는 포스 센서)를 포함할 수 있다. 상기 압력 센서는 터치 패널(252)과 일체형으로 구현되거나, 또는 터치 패널(252)과는 별도의 하나 이상의 센서로 구현될 수 있다. 홀로그램 장치(264)는 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 프로젝터(266)는 스크린에 빛을 투사하여 영상을 표시할 수 있다. 스크린은, 예를 들면, 전자 장치(201)의 내부 또는 외부에 위치할 수 있다. 인터페이스(270)는, 예를 들면, HDMI(272), USB(274), 광 인터페이스(optical interface)(276), 또는 D-sub(D-subminiature)(278)를 포함할 수 있다. 인터페이스(270)는, 예를 들면, 도 1에 도시된 통신 인터페이스(170)에 포함될 수 있다. 추가적으로 또는 대체적으로, 인터페이스(270)는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD카드/MMC(multi-media card) 인터페이스, 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.
오디오 모듈(280)은, 예를 들면, 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 오디오 모듈(280)의 적어도 일부 구성요소는, 예를 들면, 도 1 에 도시된 입출력 인터페이스(145)에 포함될 수 있다. 오디오 모듈(280)은, 예를 들면, 스피커(282), 리시버(284), 이어폰(286), 또는 마이크(288) 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다. 카메라 모듈(291)은, 예를 들면, 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시 예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, 이미지 시그널 프로세서(ISP), 또는 플래시(예: LED 또는 xenon lamp 등)를 포함할 수 있다. 전력 관리 모듈(295)은, 예를 들면, 전자 장치(201)의 전력을 관리할 수 있다. 한 실시 예에 따르면, 전력 관리 모듈(295)은 PMIC(power management integrated circuit), 충전 IC, 또는 배터리 또는 연료 게이지를 포함할 수 있다. PMIC는, 유선 및/또는 무선 충전 방식을 가질 수 있다. 무선 충전 방식은, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등을 포함하며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로, 또는 정류기 등을 더 포함할 수 있다. 배터리 게이지는, 예를 들면, 배터리(296)의 잔량, 충전 중 전압, 전류, 또는 온도를 측정할 수 있다. 배터리(296)는, 예를 들면, 충전식 전지 및/또는 태양 전지를 포함할 수 있다.
인디케이터(297)는 전자 장치(201) 또는 그 일부(예: 프로세서(210))의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 모터(298)는 전기적 신호를 기계적 진동으로 변환할 수 있고, 진동, 또는 햅틱 효과 등을 발생시킬 수 있다. 전자 장치(201)는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting), 또는 미디어플로(mediaFloTM) 등의 규격에 따른 미디어 데이터를 처리할 수 있는 모바일 TV 지원 장치(예: GPU)를 포함할 수 있다. 본 문서에서 기술된 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 다양한 실시 예에서, 전자 장치(예: 전자 장치(201))는 일부 구성요소가 생략되거나, 추가적인 구성요소를 더 포함하거나, 또는, 구성요소들 중 일부가 결합되어 하나의 개체로 구성되되, 결합 이전의 해당 구성요소들의 기능을 동일하게 수행할 수 있다.
도 3은 다양한 실시 예에 따른 프로그램 모듈의 블록도이다. 한 실시 예에 따르면, 프로그램 모듈(310)(예: 프로그램(140))은 전자 장치(예: 전자 장치(101))에 관련된 자원을 제어하는 운영 체제 및/또는 운영 체제 상에서 구동되는 다양한 어플리케이션(예: 어플리케이션 프로그램(147))을 포함할 수 있다. 운영 체제는, 예를 들면, AndroidTM, iOSTM, WindowsTM, SymbianTM, TizenTM, 또는 BadaTM를 포함할 수 있다. 도 3을 참조하면, 프로그램 모듈(310)은 커널(320)(예: 커널(141)), 미들웨어(330)(예: 미들웨어(143)), (API(360)(예: API(145)), 및/또는 어플리케이션(370)(예: 어플리케이션 프로그램(147))을 포함할 수 있다. 프로그램 모듈(310)의 적어도 일부는 전자 장치 상에 프리로드 되거나, 외부 전자 장치(예: 전자 장치(102, 104), 서버(106) 등)로부터 다운로드 가능하다.
커널(320)은, 예를 들면, 시스템 리소스 매니저(321) 및/또는 디바이스 드라이버(323)를 포함할 수 있다. 시스템 리소스 매니저(321)는 시스템 리소스의 제어, 할당, 또는 회수를 수행할 수 있다. 한 실시 예에 따르면, 시스템 리소스 매니저(321)는 프로세스 관리부, 메모리 관리부, 또는 파일 시스템 관리부를 포함할 수 있다. 디바이스 드라이버(323)는, 예를 들면, 디스플레이 드라이버, 카메라 드라이버, 블루투스 드라이버, 공유 메모리 드라이버, USB 드라이버, 키패드 드라이버, WiFi 드라이버, 오디오 드라이버, 또는 IPC(inter-process communication) 드라이버를 포함할 수 있다. 미들웨어(330)는, 예를 들면, 어플리케이션(370)이 공통적으로 필요로 하는 기능을 제공하거나, 어플리케이션(370)이 전자 장치 내부의 제한된 시스템 자원을 사용할 수 있도록 API(360)를 통해 다양한 기능들을 어플리케이션(370)으로 제공할 수 있다. 한 실시 예에 따르면, 미들웨어(330) 는 런타임 라이브러리(335), 어플리케이션 매니저(341), 윈도우 매니저(342), 멀티미디어 매니저(343), 리소스 매니저(344), 파워 매니저(345), 데이터베이스 매니저(346), 패키지 매니저(347), 커넥티비티 매니저(348), 노티피케이션 매니저(349), 로케이션 매니저(350), 그래픽 매니저(351), 또는 시큐리티 매니저(352) 중 적어도 하나를 포함할 수 있다.
런타임 라이브러리(335)는, 예를 들면, 어플리케이션(370)이 실행되는 동안에 프로그래밍 언어를 통해 새로운 기능을 추가하기 위해 컴파일러가 사용하는 라이브러리 모듈을 포함할 수 있다. 런타임 라이브러리(335)는 입출력 관리, 메모리 관리, 또는 산술 함수 처리를 수행할 수 있다. 어플리케이션 매니저(341)는, 예를 들면, 어플리케이션(370)의 생명 주기를 관리할 수 있다. 윈도우 매니저(342)는 화면에서 사용되는 GUI 자원을 관리할 수 있다. 멀티미디어 매니저(343)는 미디어 파일들의 재생에 필요한 포맷을 파악하고, 해당 포맷에 맞는 코덱을 이용하여 미디어 파일의 인코딩 또는 디코딩을 수행할 수 있다. 리소스 매니저(344)는 어플리케이션(370)의 소스 코드 또는 메모리의 공간을 관리할 수 있다. 파워 매니저(345)는, 예를 들면, 배터리의 용량 또는 전원을 관리하고, 전자 장치의 동작에 필요한 전력 정보를 제공할 수 있다. 한 실시 예에 따르면, 파워 매니저(345)는 바이오스(BIOS: basic input/output system)와 연동할 수 있다. 데이터베이스 매니저(346)는, 예를 들면, 어플리케이션(370)에서 사용될 데이터베이스를 생성, 검색, 또는 변환할 수 있다. 패키지 매니저(347)는 패키지 파일의 형태로 배포되는 어플리케이션의 설치 또는 갱신을 관리할 수 있다.
커넥티비티 매니저(348)는, 예를 들면, 무선 연결을 관리할 수 있다. 노티피케이션 매니저(349)는, 예를 들면, 도착 메시지, 약속, 근접성 알림 등의 이벤트를 사용자에게 제공할 수 있다. 로케이션 매니저(350)는, 예를 들면, 전자 장치의 위치 정보를 관리할 수 있다. 그래픽 매니저(351)는, 예를 들면, 사용자에게 제공될 그래픽 효과 또는 이와 관련된 사용자 인터페이스를 관리할 수 있다. 보안 매니저(352)는, 예를 들면, 시스템 보안 또는 사용자 인증을 제공할 수 있다. 한 실시 예에 따르면, 미들웨어(330)는 전자 장치의 음성 또는 영상 통화 기능을 관리하기 위한 통화(telephony) 매니저 또는 전술된 구성요소들의 기능들의 조합을 형성할 수 있는 하는 미들웨어 모듈을 포함할 수 있다. 한 실시 예에 따르면, 미들웨어(330)는 운영 체제의 종류 별로 특화된 모듈을 제공할 수 있다. 미들웨어(330)는 동적으로 기존의 구성요소를 일부 삭제하거나 새로운 구성요소들을 추가할 수 있다. API(360)는, 예를 들면, API 프로그래밍 함수들의 집합으로, 운영 체제에 따라 다른 구성으로 제공될 수 있다. 예를 들면, 안드로이드 또는 iOS의 경우, 플랫폼 별로 하나의 API 셋을 제공할 수 있으며, 타이젠의 경우, 플랫폼 별로 두 개 이상의 API 셋을 제공할 수 있다.
어플리케이션(370)은, 예를 들면, 홈(371), 다이얼러(372), SMS/MMS(373), IM(instant message)(374), 브라우저(375), 카메라(376), 알람(377), 컨택트(378), 음성 다이얼(379), 이메일(380), 달력(381), 미디어 플레이어(382), 앨범(383), 와치(384), 헬스 케어(예: 운동량 또는 혈당 등을 측정), 또는 환경 정보(예: 기압, 습도, 또는 온도 정보) 제공 어플리케이션을 포함할 수 있다. 한 실시 예에 따르면, 어플리케이션(370)은 전자 장치와 외부 전자 장치 사이의 정보 교환을 지원할 수 있는 정보 교환 어플리케이션을 포함할 수 있다. 정보 교환 어플리케이션은, 예를 들면, 외부 전자 장치에 특정 정보를 전달하기 위한 노티피케이션 릴레이 어플리케이션, 또는 외부 전자 장치를 관리하기 위한 장치 관리 어플리케이션을 포함할 수 있다. 예를 들면, 알림 전달 어플리케이션은 전자 장치의 다른 어플리케이션에서 발생된 알림 정보를 외부 전자 장치로 전달하거나, 또는 외부 전자 장치로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다. 장치 관리 어플리케이션은, 예를 들면, 전자 장치와 통신하는 외부 전자 장치의 기능(예: 외부 전자 장치 자체(또는, 일부 구성 부품)의 턴-온/턴-오프 또는 디스플레이의 밝기(또는, 해상도) 조절), 또는 외부 전자 장치에서 동작하는 어플리케이션을 설치, 삭제, 또는 갱신할 수 있다. 한 실시 예에 따르면, 어플리케이션(370)은 외부 전자 장치의 속성에 따라 지정된 어플리케이션(예: 모바일 의료 기기의 건강 관리 어플리케이션)을 포함할 수 있다. 한 실시 예에 따르면, 어플리케이션(370)은 외부 전자 장치로부터 수신된 어플리케이션을 포함할 수 있다. 프로그램 모듈(310)의 적어도 일부는 소프트웨어, 펌웨어, 하드웨어(예: 프로세서(210)), 또는 이들 중 적어도 둘 이상의 조합으로 구현(예: 실행)될 수 있으며, 하나 이상의 기능을 수행하기 위한 모듈, 프로그램, 루틴, 명령어 세트 또는 프로세스를 포함할 수 있다.
다양한 실시 예들에 따르면, 전자 장치(예: 전자 장치(101))에 있어서, 적어도 하나의 프로세서(예: 프로세서(120)); 및 상기 적어도 하나의 프로세서에 전기적으로 연결된 메모리(예: 메모리(130))를 포함하며, 상기 메모리는, 수신된 제1 음성을 인식하고, 상기 인식된 제1 음성에 기초하여 제1 화자를 인식하며, 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하도록 하는 인스트럭션들(instructions)을 저장할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 수신된 제1 음성에 기초하여 인식된 상기 제1 화자와 미리 저장된 화자 모델간의 비교 결과에 따라, 상기 인식된 음성에 대응하는 응답을 선택하도록 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 제1 화자가 상기 화자 모델과 대응되는 경우, 상기 수신된 제1 음성의 음성 데이터를 이용하여 상기 화자 모델을 업데이트하도록 하는 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 제1 화자의 인식 결과를 근거로 미리 저장된 복수의 응답들 중 상기 인식된 제1 음성에 대응하는 응답을 선택하도록 하는 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 제1 화자의 인식 결과를 근거로 미리 저장된 복수의 응답들 중 적어도 일부를 이용하여 상기 인식된 제1 음성에 대응하는 응답을 생성하도록 하는 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 인식된 제1 음성에 대한 자연 언어 처리를 통해 상기 인식된 제1 음성에 대응하는 응답을 결정하도록 하는 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 수신된 제1 음성에서 상기 제1 화자의 특징을 추출하며, 상기 추출된 특징 및 상기 메모리에 저장된 적어도 하나의 화자 모델을 근거로, 상기 제1 화자와 상기 화자 모델의 유사성을 나타내는 스코어를 계산하며, 상기 계산된 스코어를 근거로 상기 제1 음성에 대응하는 응답을 결정하도록 하는 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 메모리는, 복수의 스코어 구간들과, 상기 복수의 스코어 구간들 각각에 대응하는 상기 화자 모델의 복수의 응답들을 저장하며, 상기 인스트럭션들은, 상기 프로세서가, 상기 복수의 스코어 구간들 중 상기 계산된 스코어가 포함된 스코어 구간에서 상기 화자 모델의 복수의 응답들 중 상기 인식된 제1 음성에 대응하는 응답을 선택하도록 하는 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 인식된 제1 음성 및 상기 계산된 스코어를 근거로, 상기 계산된 스코어가 포함된 상기 스코어 구간의 범위를 조정하도록 하는 것을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 제1 음성을 수신하는 마이크(예: 마이크(286)); 및 출력 장치를 포함하며, 상기 인스트럭션들은, 상기 프로세서가, 상기 출력 장치를 이용하여 상기 인식된 제1 음성에 대응하는 응답을 출력하도록 하는 것을 더 포함할 수 있다. 상기 출력 장치는 스피커(예: 스피커(282)) 및/또는 디스플레이(예: 디스플레이(160))를 포함할 수 있다.
다양한 실시 예들에 따르면, 통신 인터페이스(예: 통신 인터페이스(170))를 더 포함하며, 상기 인스트럭션들은, 상기 프로세서가, 상기 통신 인터페이스를 통해 상기 인식된 제1 음성에 대응하는 응답을 다른 전자 장치로 전송하도록 하는 것을 더 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 수신된 제1 음성에서 상기 제1 화자의 특징을 추출하며, 상기 추출된 특징을 근거로 상기 제1 화자의 발화 스타일을 결정하며, 상기 결정된 발화 스타일과 대응되도록 상기 제1 음성에 대응하는 응답을 변경하도록 하는 것을 포함할 수 있다.
도 4는 다양한 실시 예에 따른 전자 장치(예: 전자 장치(101))에서 화자 모델을 등록하기 위한 블록도이다.
일 실시 예에 따르면, 전자 장치는 최소한의 화자 데이터베이스(화자 DB)(410)를 지속적으로 사용함으로써 축적되는 화자의 음성 데이터를 이용하여 화자 모델(화자라고도 함)을 등록(생성) 및/또는 업데이트할 수 있다. 다른 실시 예에 따르면, 전자 장치는 화자 모델의 등록을 위한 대용량의 화자 데이터베이스(410)를 사용하여 화자 모델을 등록 및/또는 업데이트할 수도 있다. 상기 화자 모델은, 특정 화자의 음성의 특징을 모델링한 것으로, 상기 특정 화자의 음성에서 음성 특징(특징 벡터)을 추출하여 생성한 것일 수 있다.
일 실시 예에 따르면, 전자 장치는 하나 이상의 화자 모델을 별도의 데이터베이스에 등록(저장)할 수 있으며, 전자 장치가 복수의 화자 모델들을 등록한 경우, 전자 장치는 각 화자 마다 구분자를 할당할 수 있다. 전자 장치는 다양한 화자들을 등록할 수 있는 형태로 구성될 수 있다.
도 4를 참조하면, 전자 장치의 화자 등록 모듈(400)은, 화자 특징 추출 모듈(430) 및 등록 엔진(450)을 포함할 수 있다. 상기 화자 등록 모듈(400)은 도 1의 프로세서(120)에 포함될 수 있다. 예를 들어, 화자 등록 모듈(400)은, 화자 데이터베이스(화자 DB)(410)에 축적되는 하나 이상의 음성 데이터를 이용하여 상기 음성 데이터의 화자에 대응하는 화자 모델(470)을 등록(생성) 및/또는 업데이트할 수 있다. 상기 화자 데이터베이스(410)는 한 명 이상의 화자의 하나 이상의 음성 데이터를 저장할 수 있다. 상기 화자 데이터베이스(410)는 도 1의 프로세서(120) 또는 메모리(130)에 포함되거나, 상기 전자 장치와 연결된 별도의 데이터베이스일 수 있다.
화자 특징 추출 모듈(430)은, 화자를 인식(화자를 식별하거나 또는 화자들 간 구분)하기 위해, 화자 데이터베이스(410)에 포함된 음성 데이터로부터 화자의 특성을 포함하는 화자 특징을 추출할 수 있다. 예를 들어, 화자 특징 추출 모듈(430)은, 화자 데이터베이스(410)에 포함된 음성 데이터에서 음성 특징(예: 특징 벡터)을 추출하여 화자 특징을 획득할 수 있다. 화자의 특징으로 사용되는 파라미터는 Mel 주파수 캡스트럼 (mel-frequency cepstral coefficient, MFCC)일 수 있다.
등록 엔진(450)은, 상기 추출된 화자 특징을 이용하여 상기 음성 데이터의 화자를 등록, 예를 들어, 화자 모델을 생성할 수 있다. 예를 들어, 가우시안 혼합 모델(gaussian mixture models; GMM) 기반의 화자 모델 또는 i-vector 기반의 화자 모델 등의 다양한 기술을 적용하여, 상기 추출된 화자 특징을 근거로 상기 음성 데이터의 화자 모델을 생성 할 수 있다. 추가로, 좀 더 성능을 보완하기 위해 화자가 발성한 음소에 대한 확률 정보가 활용될 수도 있다.
일 실시 예에 따르면, 상기 화자 등록 모듈(400)을 포함하는 전자 장치는, 연산량 및 화자 모델의 성능을 확보 가능한 서버일 수 있다. 상기 화자 등록 모듈(400)을 포함하는 전자 장치가 서버일 경우, 서버와 통신하는 전자 장치들마다 대응되는 하나 이상의 화자 모델을 등록할 수 있다. 이에 따라, 서버는 각각의 전자 장치 별로 하나 이상의 화자 모델을 저장할 수 있다. 예를 들어, 전자 장치 별로 하나의 화자 모델이 저장된 경우, 서버는, 전자 장치의 식별 정보(예: 아이디, 전화 번호 등의 식별 정보)를 이용하여 화자 모델을 구분할 수도 있다.
다른 실시 예에 따르면, 단말 장치(예: 스마트폰 등)에서 상술한 화자 모델을 등록하는 동작이 수행되도록 개발될 수도 있다.
또 다른 실시 예에 따르면, 가정 환경에서 공동의 목적으로 사용되는 IoT 장비들에서도 상술한 화자 모델을 등록하는 동작이 활용될 가능성이 있다.
도 5는 다양한 실시 예에 따른 전자 장치(예: 전자 장치(101))의 프로세서(예: 프로세서(120))의 구성도이다.
도 5를 참조하면, 프로세서(520)는 음성 인식 모듈(521), 화자 인식 모듈(523), 자연 언어 처리 모듈(525)을 포함할 수 있다. 추가로 프로세서(520)는 화자 업데이트 모듈(528)을 더 포함할 수도 있다.
음성 인식 모듈(521)은 음성 인식 기술을 이용하여 수신된 음성(501)에 대한 음성 인식을 실행할 수 있다. 음성 인식 모듈(521)은 후술하는 도 6의 음성 특징 추출 모듈(603) 및 음성 인식 모듈(605)을 포함할 수 있다.
화자 인식 모듈(523)은 화자 인식 기술을 이용하여 수신된 음성(501)의 화자를 인식할 수 있다.
일 실시 예에 따르면, 화자 인식 모듈(523)은 수신된 음성(501)에 기초하여 수신된 음성(501)의 화자를 인식할 수 있다. 상기 수신된 음성(501)의 화자가 등록된 제1 화자 모델에 대응되는지를 판단하여, 상기 수신된 음성(501)의 화자가 등록된 제1 화자 모델에 대응되는 것으로 판단될 경우, 수신된 음성(501)의 화자를 상기 제1 화자 모델의 제1 화자로 결정할 수 있다. 예를 들어, 화자 인식 모듈(523)은 상기 인식된 화자와 등록된 화자 모델들 중 제1 화자 모델의 제1 화자와의 유사성을 나타내는 스코어(인식된 화자와 등록된 화자 모델의 화자의 매칭 정확도라고도 함)를 계산할 수 있다. 상기 계산된 스코어에 따라 수신된 음성(501)의 화자를 상기 제1 화자 모델의 제1 화자로 결정할 수 있다.
화자 인식 모듈(523)은 후술하는 도 6의 화자 특징 추출 모듈(607)과 화자 결정 모듈(609; 화자 검증 모듈이라고도 함)을 포함할 수 있다.
자연 언어 처리 모듈(525)은 화자 인식 모듈(523)의 화자 인식 결과를 근거로 음성 인식 모듈(521)의 음성 인식 결과에 대응하는 응답을 결정할 수 있다.
일 실시 예에 따르면, 자연 언어 처리 모듈(525)은, 자연 언어 처리 기술을 이용하여 인식된 음성(501)의 의미를 파악할 수 있다. 일 실시 예에 따르면, 자연 언어 처리 모듈(525)은, 화자 인식 모듈(523)의 화자 인식 결과에 따라, 결정된 제1 화자와 상기 제1 화자와의 유사성을 나타내는 스코어를 근거로 상기 인식된 음성(501)에 대응하는 동작을 수행하기 위한 응답(결과)(505)을 도출할 수 있다. 예를 들어, 유사성 스코어 구간들 및 화자별 특정 음성들 각각에 대응하는 응답이 미리 지정되어 있을 수 있으며, 또는 유사성 스코어 구간들 및 화자별 특정 음성들 각각에 대응하는 응답 생성 방식이 설정되어 있을 수 있다. 상기 대응하는 동작은 예를 들어, 통화, 메시지, 웹 검색, 날씨, 지도, 설정, 로컬 검색, 어플리케이션 실행 등 다양한 기능 중 적어도 하나를 수행하는 동작 일 수 있다.
일 실시 예에 따르면, 수신된 음성(501)이 "오늘 날씨 어때?"인 경우, 전자 장치는, 상술한 구성들에 따라, 상기 음성(501)을 인식하고, 상기 음성(501)의 화자를 인식하여 상기 인식된 화자의 스코어를 결정하여 대응하는 응답을 결정하여 출력할 수 있다. 예를 들어, 상기 인식된 화자의 스코어가 제1 스코어 구간에 포함된 경우, 전자 장치는, 상기 음성(501)에 대한 적절한 응답을 제공하기 위해 날씨 정보를 획득할 수 있으며, 예를 들어, "안녕 존, 오늘은 날씨가 매우 맑아 외출하기에 좋은 날씨야!"와 같은 응답을 출력할 수 있다. 다른 예로, 상기 인식된 화자의 스코어가 제2 스코어 구간에 포함된 경우 전자 장치는 상기 제2 스코어 구간에서 상기 인식된 화자에게 제공할 지정된 응답 및/또는 상기 제2 스코어 구간에서 상기 인식된 화자에게 제공하기 위해 생성한 응답, 예를 들어, "존과 목소리가 매우 비슷하네요. 이번엔 당신의 요청을 받아들이지만 전 존의 목소리만을 알아들을 수 있다는 것을 명심하세요!"와 같은 응답을 출력할 수 있으며, 이와 더불어 날씨 정보를 획득하여 날씨 정보를 출력할 수 있다. 또 다른 예로, 상기 인식된 화자의 스코어가 제3 스코어 구간에 포함된 경우 전자 장치는 제3 스코어 구간에서 상기 인식된 화자에게 제공할 지정된 응답(또는, 상기 제3 스코어 구간에서 상기 인식된 화자에게 제공하기 위해 생성한 응답), 예를 들어, "존의 목소리만 알아들을 수 있어요. 당신은 존이 아닌 것 같아요"와 같은 응답을 출력할 수 있다.
자연 언어 처리 모듈(525)는 후술하는 도 6의 자연 언어 처리 모듈(611)과 응답 결정 및 선택 모듈(615)을 포함할 수 있다.
화자 업데이트 모듈(528)은 지속적으로 수신된 음성의 음성 데이터를 수집하여 화자 모델을 업데이트 할 수 있다. 예를 들어, 복수의 화자들을 통해 수집된 음성 데이터들을 축적하여 화자 모델을 업데이트함으로써, 화자 별 음성의 인식 성능을 향상시킬 수 있다.
화자 업데이트 모듈(528)은 후술하는 도 6의 음성 수집 모듈(618) 및 화자 모델 업데이트 모듈(621)을 포함할 수 있다.
도 6은 다양한 실시 예에 따른 전자 장치의 세부 구성도이다. 도 7은 다양한 실시 예에 따른 전자 장치에 포함된 응답 결정 및 선택 모듈의 세부 구성도이다. 일 실시 예에 따르면, 화자 식별 기준은 특정한 문턱 값을 이용하여 수신된 음성의 음성 데이터와 저장된 음성 데이터 간의 유사성이 그 문턱 값을 넘는 구간에 속해 있을 경우 수신된 음성의 화자를 상기 저장된 음성 데이터의 화자로 판별하고 상기 문턱 값을 넘지 않는 경우 수신된 음성의 화자를 비화자로 판별할 수 있으며, 화자로 판별된 경우 대응하는 응답을 출력할 수 있다. 그러나, 도 6 및 도 7을 참조하면, 전자 장치는, 화자의 인식 결과인, 미리 등록된 화자 모듈들의 화자들 중 어느 하나의 화자와 수신된 음성의 화자의 유사성 스코어를 계산하여 상기 유사성 스코어를 근거로, 상기 지정된 응답을 출력하거나 지정된 응답 방식을 이용하여 응답을 생성 후 출력할 수 있다. 이는 화자 인식 결과의 불확실성을 보완할 수 있는 기법으로 화자의 유사성 스코어를 이용함으로써 음성 인식 기능의 사용성을 극대화시키고 사용자에게 좀 더 친숙한 서비스로 활용되도록 할 수 있다.
도 6을 참조하면, 전자 장치 또는 전자 장치의 프로세서는 음성 특징 추출 모듈(603), 음성 인식 모듈(605), 화자 특징 추출 모듈(607), 화자 결정 모듈(609), 자연 언어 처리 모듈(611), 및 응답 결정 및 선택 모듈(615)을 포함할 수 있다. 추가로, 전자 장치는 음성 수집 모듈(618) 및 화자 모델 업데이트 모듈(621)을 더 포함할 수 있다.
음성 특징 추출 모듈(603)은 수신된 음성(601)의 음성 특징(예: 특징 벡터)을 추출할 수 있다. 예를 들어, 음성 특징 추출 모듈(603)은 수신된 음성(601)에서 노이즈 또는 사람의 음성 영역대 이외의 영역대를 제거하여, 수신된 음성(601)의 음성 특징을 추출할 수 있다.
음성 인식 모듈(605)은 음성 특징 추출 모듈(603)을 통해 추출된 음성 특징에 따라 음성 인식을 실행할 수 있다. 예를 들어, 음성 인식 모듈(605)은 제1 데이터베이스(691)에 저장된 음향 모델, 제2 데이터베이스(693)에 저장된 언어 모델, 및 제3 데이터베이스(695)에 저장된 어휘들 중 적어도 하나를 이용하여, 상기 추출된 음성 특징을 근거로 수신된 음성(601)의 음성 인식을 실행할 수 있다. 상기 제1 데이터베이스(691)는 하나 이상의 음향(acoustic) 모델을 저장하는 음향 모델 데이터베이스일 수 있으며, 상기 제2 데이터베이스(693)은 하나 이상의 언어(language) 모델을 저장하는 언어 모델 데이터베이스일 수 있으며, 상기 제3 데이터베이스(695)는 하나 이상의 어휘(lexicon)를 저장하는 어휘 데이터베이스일 수 있다. 상기 제1 내지 제3 데이터베이스(691, 693, 695)는 전자 장치에 포함되거나, 또는 상기 전자 장치와 연결된 별도의 데이터베이스들일 수도 있다.
화자 특징 추출 모듈(607)은 수신된 음성(601)에서 화자 특징을 추출할 수 있다. 예를 들어, 화자 특징 추출 모듈(607)은, 수신된 음성의 음성 데이터에서 음성 특징(예: 특징 벡터)을 추출하여 화자 특징을 획득할 수 있다.
화자 결정 모듈(609)은 화자 특징 추출 모듈(607)을 통해 추출된 화자 특징을 근거로 수신된 음성(601)의 화자가 등록(저장)된 화자 모델의 화자인지 여부를 결정할 수 있다. 예를 들어, 화자 결정 모듈(609)는 수신된 음성(601)의 화자가 제5 데이터 베이스(699)(화자 모델 데이터베이스라고도 함)에 저장된 화자 모델들, 예를 들어, 제1 화자 모델(6991), 제2 화자 모델(6992),... 제n 화자 모델(6993) 중 하나에 대응되는지 여부를 검증하여, 수신된 음성(601)의 화자가 대응되는 화자 모델을 결정할 수 있다. 상기 제5 데이터베이스(699)는 전자 장치에 포함되거나, 또는 상기 전자 장치와 연결된 별도의 데이터베이스일 수도 있다.
화자 결정 모듈(609)은 스코어 계산 모듈(613)을 포함할 수 있다. 스코어 계산 모듈(613)은 수신된 음성의 화자가 등록된 화자 모델들 중 어느 한 화자 모델의 화자와의 유사성을 나타내는 스코어를 계산할 수 있다. 또한, 스코어 계산 모듈(613)은 화자의 유사성 스코어에 따라 수신된 화자가 등록된 화자 모델의 화자인지 여부의 응답을 결정할 수도 있다.
상기 화자의 유사성 스코어의 계산은 미리 등록된 화자 모델에 대응하는 벡터와 수신된 음성에서 추출된 벡터의 유사성을 측정함으로써 획득할 수 있다. 예를 들어, 미리 등록된 화자 모델에 대응하는 벡터와 수신된 음성에서 추출된 벡터를 각각 A, B라고 했을 경우, 유사성(similarity)은 다음의 수학식 1에 의해 계산될 수 있다.
[수학식 1]
Figure 112017002339818-pat00001
(상기 A·B는 A와 B의 내적,|A|는 A의 크기, 및 |B|는 B의 크기를 나타냄.)
한편, 상술한 수학식 1 이외에도 화자 모델의 종류 등에 따라 다양한 유사성 계산 기술이 적용될 수도 있다.
자연 언어 처리 모듈(611)은 음성 인식 모듈(605)로부터 음성 인식 결과를 수신할 수 있다. 자연 언어 처리 모듈(611)은 자연 언어 처리 기술을 이용하여 음성 인식 결과에 따라 인식된 음성을 자연 언어로 처리할 수 있다.
응답 결정 및 선택 모듈(615)은 자연 언어 처리 모듈(611) 및 화자 결정 모듈(609)로부터 수신된 자연 언어 처리 결과와 화자 결정 결과를 근거로 응답(602)을 결정하여 출력할 수 있다. 상기 화자 결정 결과는, 예를 들어, 스코어 계산 모듈(613)에서 계산된 등록된 제1 화자 모델의 화자와의 유사성을 나타내는 스코어를 포함할 수 있다.
상기 응답 결정 및 선택 모듈(615)은 도 7의 응답 선택 모듈(703)일 수 있다.
도 7을 참조하면, 유사성 스코어 구간들 및 화자별 특정 음성들 각각에 대응하는 응답이 지정되어 있을 수 있다. 제1 스코어 구간(711), 제2 스코어 구간(713), ... 제k 스코어 구간(715) 등의 미리 결정된 복수의 스코어 구간들 각각마다 화자 별로 대응하는 응답 데이터베이스가 설정되어 있을 수 있다. 일 실시 예에 따르면, 제1 스코어 구간(711)에는 화자 1(721)에 대응하는 응답 데이터베이스(731),... 화자 n(723)에 대응하는 응답 데이터베이스(733)가 미리 설정되어 있을 수 있다. 일 실시 예에 따르면, 제2 스코어 구간(713)에도 화자 1(721)에 대응하는 응답 데이터베이스(741), ... 화자 n(723)에 대응하는 응답 데이터베이스(743)가 미리 설정되어 있을 수 있다. 일 실시 예에 따르면, 제 k 스코어 구간(715)에도 화자 1(721)에 대응하는 응답 데이터베이스(751), 화자 n(723)에 대응하는 응답 데이터베이스(753)가 미리 설정되어 있을 수 있다.
도 7을 참조하면, 응답 선택 모듈(703)은 제1 내지 제k 스코어 구간(711, 713, 715) 중 수신된 화자 결정 결과인 유사성 스코어가 포함된 스코어 구간을 확인할 수 있다. 일 실시 예에 따르면, 응답 선택 모듈(703)은 상기 확인된 스코어 구간에서 상기 화자의 응답 데이터베이스에 포함된 자연 언어 처리 결과에 대응하는 응답을 확인(선택)할 수 있다. 예를 들어, 수신된 유사성 스코어가 제1 스코어 구간(711)에 포함되고, 화자가 제1 화자(721)인 경우, 응답 선택 모듈(703)은 제1 화자(721)의 응답 데이터베이스(731)에 포함된 응답들 중 자연 언어 처리 결과에 대응하는 응답을 선택할 수 있다. 일 실시 예에 따르면, 상기 응답 데이터베이스(731)에 포함된 응답들은, 미리 지정되어 있을 수 있다. 다른 실시 예에 따르면, 상기 응답 데이터베이스(731)에 포함된 응답들은, 자연 언어 처리 결과, 현재 시간, 현재 날씨, 전자 장치의 위치, 전자 장치의 움직임, 및/또는 전자 장치가 현재 실행 중인 기능 등 다양한 조건에 따라 실시간으로 설정(생성 및/또는 업데이트)될 수 있다.
예를 들어, 스코어 구간들을 크게 3개의 구간들로 나뉜다면 스코어가 매우 높은 제1 스코어 구간과, 스코어가 문턱 값 근처에 존재하는 제2 스코어 구간과, 스코어가 매우 낮은 제3 스코어 구간으로 나눌 수 있다. 상기 제1 스코어 구간 및 상기 제3 스코어 구간에서는 수신된 음성에 대한 명확한 처리가 되도록 응답을 설정 할 수 있다. 상기 제2 스코어 구간에서는 좀 더 사용성 및 흥미를 유발하기 위하여 화자로 인정할 수 있는 방향으로 처리가 되도록 응답을 설정하거나, 또는 수신된 음성의 적절한 응답을 생성하도록 설정할 수 있다.
상기 제1 스코어 구간에서는 원하는 질문에 대한 자연 언어 처리 결과를 활용하여 응답해 줄 수 있도록 응답들을 저장 또는 생성하도록 할 수 있다.
상기 제3 스코어 구간에서는 다음과 같은 예시 응답들 중 하나의 응답을 하도록 미리 지정하거나 또는 생성하도록 할 수 있으며, 예를 들어, 상기 제3 구간에 스코어가 포함되는 경우 전자 장치는 수신된 음성의 화자를 비화자 인 것으로 판단할 수 있다.
1. 제가 익숙하게 듣던 목소리가 아닌 것 같아요.
2. 00님이 맞으신 가요? 저는 00님 목소리만 이해할 수 있어요.
3. 00님이 맞으신 가요? 저는 00님이 하시는 말만 답변 드릴 수 있어요.
4. 앗, 00님이 아니신 것 같아요.
5. 저는 00님 바라기랍니다. 00님이 요청하실 때만 도와드릴 수 있어요.
상기 제2 스코어 구간에서는 다음과 같은 예시 응답 중 하나의 응답을 하도록 미리 지정하거나 또는 생성하도록 할 수 있다.
1. 00님과 비슷한 목소리를 가지셨군요? 이번 한번만 요청을 들어 드릴께요.
2. 성대 모사를 잘하시네요. 그 성의로 이번만 요청을 들어 드릴께요.
3. 와, 제가 익숙하게 듣던 목소리랑 비슷하시네요. 친숙한 목소리로 이번엔 제가 봐드릴께요.
일 실시 예에 따르면, 스코어 구간에 따른 응답은 테이블 형태로 생성되어 저장될 수 있다. 전자 장치는 스코어 구간들을 구분하기 위한 문턱 값들을 선정하여 스코어 구간들을 구분하여 테이블 형태로 응답들을 생성하여 저장할 수 있다.
일 실시 예에 따르면, 전자 장치는 상술한 응답 문구들을 업데이트할 수 있다. 예를 들어, 전자 장치는 최초 지정된 응답 문구들을 화자의 발화 스타일 및/또는 선호도를 분석하여 그에 대응하는 문구들로 변형하여 응답을 출력 할 수 있다. 예를 들어, 인식된 화자의 입력 음성이 반말인 경우 대응하는 응답을 반말로 변형하고, 인식된 화자의 입력 음성이 존댓말인 경우 대응하는 응답을 존댓말로 변형할 수 있다. 또 다른 예로, 인식된 화자의 입력 음성이 특정 지역의 사투리로 분석된 경우 응답을 상기 특정 지역의 사투리로 변경할 수 있다. 또 다른 에로, 인식된 화자의 입력 음성이 영어인 경우 응답을 영어로 변경하며, 일본어인 경우 응답을 일본어로 변경할 수 있다.
음성 수집 모듈(618)은 수신된 음성의 음성 데이터를 제4 데이터베이스(예: 사용자 데이터베이스)(697)에 저장할 수 있다. 예를 들어, 음성 수집 모듈(618)은 화자 결정 모듈(613)을 통해 결정된 화자의 음성 데이터로써 상기 수신된 음성의 음성 데이터를 저장할 수 있다. 상기 제4 데이터베이스(697)는 화자 업데이트 모듈(528)에 또는 전자 장치의 메모리에 포함되거나 또는 별도의 데이터베이스일 수 있다.
화자 모델 업데이트 모듈(621)은 화자 결정 모듈(613)을 통해 결정된 화자의 음성 데이터를 이용하여 상기 화자에 대응하는 화자 모델들, 예를 들어, 제1 화자 모델(6991), 제2 화자 모델(6992), ... 제n 화자 모델(6993) 중 어느 하나의 화자 모델을 업데이트 할 수 있다.
일 실시 예에 따르면, 상술한 전자 장치는, 서버일 수 있으며, 통신 인터페이스를 통해 특정 전자 장치로부터 음성을 수신하여 상술한 도 6의 모듈들의 동작들을 수행할 수 있다. 일 실시 예에 따르면, 상기 통신 인터페이스를 통해 상기 응답을 상기 특정 전자 장치로 전송할 수 있다.
다른 실시 예에 따르면, 상술한 전자 장치는 마이크를 구비할 수 있으며, 상기 마이크를 통해 음성을 수신하여 상술한 도 6의 모듈들의 동작들을 수행할 수 있다. 또한, 전자 장치는 상기 응답의 출력 시, 전자 장치의 출력 장치를 통해 응답을 출력할 수 있다. 예를 들어, 전자 장치는 스피커(예: 스피커(282))를 통해 상기 응답을 음성으로 출력 및/또는 디스플레이(예: 디스플레이(160))를 통해 상기 응답을 화면에 디스플레이 할 수 있다.
도 8은 다양한 실시 예에 따른 화자의 스코어 구간을 세분화하는 전자 장치의 일부 구성도이다.
도 8을 참조하면, 전자 장치는 추가로 스코어 구간의 미세 조정을 위한 스코어 구간 미세 조정 모듈(823)을 포함할 수 있다.
스코어 구간 미세 조정 모듈(823)은 화자의 스코어 구간을 좀 더 세분화하여 나누어, 이에 대한 응답을 각 화자별로 다양하게 출력 되도록 할 수 있다. 스코어 구간 미세 조정 모듈(823)에서 화자의 스코어 구간을 분할하는 방식으로는, 다양한 화자로부터 축적된 제4 데이터 베이스(897)(예: 제4 데이터베이스(697))를 이용하여 산출된 스코어의 통계 정보를 이용할 수 있다. 예를 들어, 상기 산출된 스코어의 통계 정보로 얻어진 수치에 화자마다 랜덤 유효 가변률을 적용하여 분할 할 수 있다. 이후, 음성 수집 모듈(예: 음성 수집 모듈(168))에 의해 획득된 화자의 음성 데이터를 이용하여 화자 모델을 업데이트할 때, 정기적으로 화자의 스코어 분포를 이용한 수정도 가능하다. 예를 들어, 화자들마다 스코어 구간이 달라서 사전에 정해진 스코어 구간을 적용할 경우, 전자 장치는 적절한 응답을 제공하지 못할 수 있다. 이에 따라, 사용하는 화자의 음성 데이터 및 스코어 분포를 분석하여 전자 장치는 스코어 구간의 범위를 조정하도록 할 수 있다. 한편, 스코어 구간을 세분화하여 오류가 최소화 되는 구간을 선정하면 개인의 사생활적인 서비스 또는 개인 정보를 보호할 수 있는 서비스도 가능하다.
일 실시 예에 따르면, 전자 장치는 화자 인식 동작을 다수 실행하여, 화자의 점수 분포에 따라 스코어 구간들을 구분하기 위한 문턱 값들을 재선정할 수 있다.
예를 들어, 전자 장치는 제1 화자에 대한 복수의 스코어들을 계산한 경우, 상기 제1 화자에 대응하는 90점에서 100점의 스코어 범위인 제1 스코어 구간에 포함되는 비율이 1%이나, 상기 제1 화자에 대응하는 70점에서 89점의 스코어 범위인 제2 스코어 구간에 포함되는 비율이 50%일 경우, 전자 장치는 70점에서 100점을 제1 스코어 구간으로 재 선정할 수 있다.
다른 예로, 전자 장치는 화자 인식 동작을 다수 실행하여 등록 화자의 스코어 분포와 비등록 화자의 스코어 분포에 따라 등록 화자와 비등록 화자간의 스코어 구간들을 구분하기 위한 문턱 값들을 재선정할 수 있다. 예를 들어, 특정 스코어(예: 50점)를 등록 화자 및 비등록 화자를 결정하기 위한 문턱 값으로 지정하여, 스코어가 50점 미만인 수신된 음성의 화자를 비등록 화자로 하고, 스코어가 50점 이상인 수신된 음성의 화자를 등록 화자로 결정 할 때, 제1 화자의 스코어가 49점인 비율이 70%이고, 제1 화자의 스코어가 50점인 비율이 20%이면, 등록 화자 및 비등록 화자를 결정하기 위한 문턱 값을 49점으로 재선정할 수 있다.
도 9는 다양한 실시 예에 따른 전자 장치의 화자 모델 생성 동작의 흐름도이다.
910 동작에서 전자 장치는 화자 데이터베이스로부터 화자 특징을 추출할 수 있다. 예를 들어, 전자 장치는 화자 데이터베이스에 포함된 음성 데이터로부터 음성 특징 정보를 추출하여 화자 특징을 획득할 수 있다. 상기 화자 데이터베이스는 한 명 이상의 화자에 대응하는 하나 이상의 음성 데이터를 저장할 수 있다.
930 동작에서 전자 장치는 상기 추출된 화자 특징을 근거로 화자 등록을 실행할 수 있다. 예를 들어, 전자 장치는 상기 추출된 화자 특징을 근거로 화자 모델을 생성할 수 있다. 예를 들어, GMM 기반의 화자 모델 또는 i-vector 기반의 화자 모델 등의 다양한 기술을 적용하여, 상기 추출된 화자 특징을 근거로 화자의 음성 데이터의 화자 모델을 생성(또는 음성 데이터의 화자를 등록)할 수 있다.
도 10은 다양한 실시 예에 따른 전자 장치의 음성 입력에 대응하는 응답을 제공하는 동작의 흐름도이다.
1010 동작에서 전자 장치는 화자의 음성을 수신할 수 있다. 예를 들어, 전자 장치는 마이크를 통해 입력되는 음성을 수신할 수 있다. 상기 마이크는 전자 장치가 지정된 조건이 되었을 때, 자동으로 활성화 될 수 있다. 상기 지정된 조건은 예를 들어, 전자 장치의 지정된 기능(예: 지정된 어플리케이션, 지정된 모드 등)의 실행, 전자 장치의 지정된 움직임 감지, 전자 장치에 대한 지정된 사용자 입력(터치, 버튼 누름 등) 감지 등 다양할 수 있다. 또 다른 예로, 전자 장치는 통신 인터페이스를 통해 외부 전자 장치로부터 음성을 수신할 수 있다.
1020 동작에서 전자 장치는 음성 인식 기술을 이용하여 상기 수신된 음성을 인식할 수 있다.
1030 동작에서 전자 장치는 화자 인식 기술을 이용하여 상기 수신된 음성의 화자를 인식할 수 있다. 예를 들어, 전자 장치는 상기 수신된 음성의 화자가 등록된 화자 모델들의 화자들 중 어느 하나의 화자(이하에서는 제1 화자라고 함)와 매칭되는지를 확인하여 상기 제1 화자와의 매칭 정도인 유사성 스코어를 결정할 수 있다. 예를 들어, 수신된 음성의 화자와 상기 제1 화자가 80% 매칭된 것으로 결정된 경우, 유사성 스코어는 80점이 될 수 있다. 예를 들어, 전자 장치는 상기 제1 화자에 대한 유사성 스코어를 근거로 상기 수신된 음성의 화자가 등록된 화지인지 등록되지 않은 화자인지를 결정할 수 있다.
1040 동작에서 전자 장치는 자연 언어 처리 기술을 이용하여 상기 수신된 음성을 자연 언어 처리할 수 있다.
1050 동작에서 전자 장치는 상기 자연 언어 처리 결과 및 상기 화자 인식 결과를 이용하여 상기 수신된 음성에 대응하는 응답을 선택하여 출력할 수 있다.
예를 들어, 전자 장치는 화자 인식 결과인 유사성 스코어가 포함되는 스코어 구간에 따른 응답 테이블에서 상기 수신된 언어의 자연 언어 처리 결과에 대응하는 응답을 결정하여 출력할 수 있다.
예를 들어, 상기 수신된 음성의 화자가 등록된 화자인 경우, 유사성 스코어가 높을 수 있으며, 이에 따라 상기 수신된 음성에 대한 적절한 응답이 출력되도록 할 수 있다. 상기 수신된 음성의 화자가 등록된 화자인 경우, 전자 장치는 상술한 동작에 따라 계산된 유사성 스코어가 포함되는 스코어 구간에 따른 응답 테이블(이하에서는 제1 응답 테이블이라고 함)에서 상기 수신된 언어의 자연 언어 처리 결과에 대응하는 응답을 확인할 수 있다. 상기 제1 응답 테이블에 포함된 응답들은 수신된 음성들 각각에 대한 적절한 응답이 되도록 설정될 수 있다.
또 다른 예로, 상기 수신된 음성의 화자가 등록되지 않은 화자인 경우, 유사성 스코어는 낮을 수 있으며, 이에 따라 낮은 유사성 스코어에 대응하는 상기 수신된 음성에 대한 응답이 출력되도록 할 수 있다. 예를 들어, 상기 등록된 화자와 비교하였을 때 상대적으로 상기 수신된 음성에 대해 적절하지 않은 응답이 출력되도록 할 수 있다. 상기 수신된 음성의 화자가 등록되지 않은 화자인 경우, 전자 장치는 상술한 동작에 따라 계산된 유사성 스코어가 포함되는 스코어 구간에 따른 응답 테이블(제2 응답 테이블이라고 함)에서 상기 수신된 언어의 자연 언어 처리 결과에 대응하는 응답을 확인할 수 있다. 상기 제2 응답 테이블에 포함된 응답들은 상기 제1 응답 테이블에 포함된 응답들과 비교하여 상기 수신된 음성이 요구하는 응답의 만족도가 다소 감소되도록 할 수 있다.
도 11은 다양한 실시 예에 따른 전자 장치의 음성 입력에 대응하는 응답 결과를 나타낸 화면 예시도이다.
사용자가 전자 장치의 마이크를 통해 "오늘 날씨를 알려줘"라는 음성 입력을 할 수 있다.
전자 장치는 도 11의 (a)와 같이 사용자의 입력 음성인 "오늘 날씨를 알려줘"(1110)를 전자 장치의 화면에 표시할 수 있다. 또한, 상술한 실시 예들에 따라, 전자 장치가 상기 사용자를 미리 설정된 화자 모델의 화자로 결정한 경우, 도 11의 (a)와 같이 사용자의 입력 음성에 적합한 응답인 날씨 정보(1120)를 전자 장치의 화면에 표시할 수 있다. 추가로, 전자 장치는 전자 장치의 스피커를 통해 날씨 정보(1120)를 음성으로 출력할 수도 있다.
전자 장치가 상기 사용자를 미리 설정된 화자 모델의 화자가 아닌 것으로 결정한 경우, 도 11의 (b)와 같이 "제가 익숙하게 듣던 목소리가 아닌 것 같아요"라는 등의 미리 지정된 응답(1130)을 전자 장치의 화면에 표시할 수 있다. 추가로, 전자 장치는 전자 장치의 스피커를 통해 상기 미리 지정된 응답(1130)을 음성으로 출력할 수도 있다.
도 12는 다양한 실시 예에 따른 전자 장치(예: 전자 장치(101))의 입력 음성에 대한 응답 동작의 흐름도이다.
1210 동작에서 전자 장치는 수신된 제1 음성을 인식할 수 있다.
예를 들어, 전자 장치가 서버인 경우, 전자 장치는 제1 음성을 수신하여, 수신된 제1 음성을 인식할 수 있다. 또 다른 예로, 전자 장치는 전자 장치의 마이크를 이용하여 제1 음성을 수신하여, 수신된 제1 음성을 인식할 수 있다.
1220 동작에서 전자 장치는 상기 인식된 제1 음성에 기초하여 제1 화자를 인식할 수 있다.
예를 들어, 전자 장치는 미리 저장된 화자 모델과 상기 제1 음성의 화자 특징을 매칭하여 유사성을 나타내는 스코어를 계산할 수 있으며, 계산된 스코어를 근거로 제1 음성의 제1 화자를 미리 저장된 화자 모델에 대응하는 제2 화자로 결정하거나, 상기 제2 화자가 아닌 것으로 결정하거나, 또는 제2 화자로 판단하기 어려운 화자로 결정할 수 있다.
1230 동작에서 전자 장치는 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정할 수 있다.
예를 들어, 상기 제1 음성의 제1 화자가 미리 저장된 화자 모델에 대응하는 제2 화자로 결정된 경우, 전자 장치는 제1 음성을 자연어 처리하여 제1 음성에 대응하는 응답을 결정할 수 있다. 다른 예로, 상기 제1 음성의 제1 화자가 미리 저장된 화자 모델의 제2 화자가 아닌 것으로 결정된 경우, 등록된 화자가 아님을 나타내는 응답을 제1 음성에 대응하는 응답으로 결정할 수 있다. 또 다른 예로, 상기 제1 음성의 제1 화자가 미리 저장된 화자 모델의 제2 화자로 판단하기 어려운 화자로 결정된 경우, 전자 장치는 화자 확인 메시지 또는 제한된 응답 결과만을 제공하도록 제1 음성에 대응하는 응답을 결정할 수 있다.
일 실시 예에 따르면, 전자 장치는 도 12의 동작들에 따라 화자에 대한 데이터를 수집할 수 있으며, 도 12의 동작들을 여러 번 실행하여 특정 화자에 대한 지정된 양의 데이터가 수집되면, 상기 특정 화자에 대한 화자 모델을 생성 및/또는 업데이트 할 수 있다.
다양한 실시 예들에 따르면, 전자 장치(예: 전자 장치(101))의 입력 음성에 대한 응답 방법 있어서, 수신된 제1 음성을 인식하는 동작; 상기 인식된 제1 음성에 기초하여 제1 화자를 인식하는 동작; 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하는 동작을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하는 동작은, 상기 수신된 제1 음성에 기초하여 인식된 상기 제1 화자와 미리 저장된 제2 화자간의 비교 결과에 따라, 상기 인식된 음성에 대응하는 응답을 선택하는 동작을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하는 동작은, 상기 인식된 제1 음성에 대한 자연 언어 처리를 통해 상기 인식된 제1 음성에 대응하는 응답을 결정하는 동작을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 인식된 제1 음성에 기초하여 제1 화자를 인식하는 동작은, 상기 수신된 제1 음성에서 상기 제1 화자의 특징을 추출하는 동작, 상기 추출된 특징 및 상기 메모리에 저장된 적어도 하나의 화자 모델을 근거로, 상기 제1 화자와 상기 화자 모델의 유사성을 나타내는 스코어를 계산하는 동작을 포함하며, 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하는 동작은, 상기 계산된 스코어를 근거로 상기 제1 음성에 대응하는 응답을 결정하는 동작을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 전자 장치는, 복수의 스코어 구간들과, 상기 복수의 스코어 구간들 각각에 대응하는 상기 화자 모델의 복수의 응답들이 저장하며, 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하는 동작은, 상기 복수의 스코어 구간들 중 상기 계산된 스코어가 포함된 스코어 구간에서 상기 화자 모델의 복수의 응답들 중 상기 인식된 제1 음성에 대응하는 응답을 선택하는 동작을 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 전자 장치의 마이크(예: 마이크(288))를 이용하여 상기 제1 음성을 수신하는 동작과, 상기 전자 장치의 출력 장치를 이용하여 상기 인식된 제1 음성에 대응하는 응답을 출력하는 동작을 더 포함할 수 있다. 상기 출력 장치는 예를 들어, 스피커(예: 스피커(282)) 및/또는 디스플레이(예: 디스플레이(160))를 포함할 수 있다.
다양한 실시 예들에 따르면, 상기 전자 장치의 통신 인터페이스를 통해 상기 인식된 제1 음성에 대응하는 응답을 다른 전자 장치로 전송하는 동작을 더 포함할 수 있다.
다양한 실시 예들에 따르면, 전자 장치의 입력 음성에 대한 응답 방법을 실행하기 위한 프로그램을 기록한 기계로 읽을 수 있는 저장 매체에 있어서, 상기 방법은, 수신된 제1 음성을 인식하는 동작; 상기 인식된 제1 음성에 기초하여 제1 화자를 인식하는 동작; 상기 제1 화자의 인식 결과를 근거로 상기 제1 음성에 대응하는 응답을 결정하는 동작을 포함할 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다. 다양한 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체(예: 메모리(130))에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서(예: 프로세서(120))에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(예: 자기테이프), 광기록 매체(예: CD-ROM, DVD, 자기-광 매체 (예: 플롭티컬 디스크), 내장 메모리 등을 포함할 수 있다. 명령어는 컴파일러에 의해 만들어지는 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 다양한 실시 예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른, 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (20)

  1. 전자 장치에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 전기적으로 연결된 메모리를 포함하며,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 때,
    동작에 대한 요청을 나타내는 수신된 제1 음성을 인식하고,
    상기 인식된 제1 음성에 기초하여 제1 화자를 인식하고,
    상기 수신된 제1 음성으로부터 상기 제1 화자의 특징을 추출하고,
    상기 추출된 특징 및 상기 메모리에 미리 저장된 화자 모델에 기초하여, 상기 제1 화자와 상기 미리 저장된 화자 모델의 유사성을 나타내는 스코어를 계산하고,
    상기 스코어가 제1 문턱 값보다 크다는 것을 식별하는 것에 기초하여 3개의 스코어 구간들 중 제1 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제1 응답을 출력하고,
    상기 스코어가 제1 문턱 값 이하이고, 상기 제1 문턱 값보다 작은 제2 문턱 값보다 크다는 것을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제2 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제2 응답을 출력하고,
    상기 스코어가 상기 제2 문턱 값 이하임을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제3 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행하지 않을 것임을 나타내는 제3 응답을 출력하도록 상기 전자 장치를 제어하는 인스트럭션들(instructions)을 저장하는 전자 장치.
  2. 삭제
  3. 제 1항에 있어서, 상기 인스트럭션들은, 상기 적어도 하나의 프로세서가,
    상기 제1 화자가 상기 미리 저장된 화자 모델과 서로 대응하는 경우, 상기 수신된 제1 음성의 음성 데이터를 이용하여 상기 미리 저장된 화자 모델을 업데이트하도록 하는 전자 장치.
  4. 제 1항에 있어서, 상기 인스트럭션들은, 상기 적어도 하나의 프로세서가,
    상기 제1 화자의 인식 결과에 기초하여 미리 저장된 복수의 응답들 중 상기 인식된 제1 음성에 대응하는 상기 제1 응답, 상기 제2 응답, 또는 상기 제3 응답 중 적어도 하나를 선택하도록 하는 전자 장치.
  5. 제 1항에 있어서, 상기 인스트럭션들은, 상기 적어도 하나의 프로세서가,
    상기 제1 화자의 인식 결과에 기초하여 미리 저장된 복수의 응답들 중 적어도 일부를 이용하여 상기 인식된 제1 음성에 대응하는 상기 제1 응답, 상기 제2 응답, 또는 상기 제3 응답 중 적어도 하나를 생성하도록 하는 전자 장치.
  6. 제 1항에 있어서, 상기 인스트럭션들은, 상기 적어도 하나의 프로세서가,
    상기 인식된 제1 음성에 대한 자연 언어 처리를 통해 상기 인식된 제1 음성에 대응하는 상기 제1 응답, 상기 제2 응답, 또는 상기 제3 응답 중 적어도 하나를 결정하도록 하는 전자 장치.
  7. 삭제
  8. 제 1항에 있어서, 상기 메모리는,
    복수의 스코어 구간들과, 상기 복수의 스코어 구간들 각각에 대응하는 상기 미리 저장된 화자 모델의 복수의 응답들을 저장하는 전자 장치.
  9. 제 1항에 있어서, 상기 인스트럭션들은, 상기 적어도 하나의 프로세서가,
    상기 인식된 제1 음성 및 상기 계산된 스코어에 기초하여, 상기 제1 문턱 값, 또는 상기 제2 문턱 값 중 적어도 하나를 조정하도록 하는 전자 장치.
  10. 제 1항에 있어서,
    상기 제1 음성을 수신하는 마이크; 및
    출력 장치를 포함하며,
    상기 인스트럭션들은, 상기 적어도 하나의 프로세서가,
    상기 출력 장치를 이용하여 상기 인식된 제1 음성에 대응하는 상기 제1 응답, 상기 제2 응답, 또는 상기 제3 응답 중 적어도 하나를 출력하도록 하는 것을 더 포함하는 전자 장치.
  11. 제 1항에 있어서,
    통신 인터페이스를 더 포함하며,
    상기 인스트럭션들은, 상기 적어도 하나의 프로세서가,
    상기 통신 인터페이스를 통해 상기 인식된 제1 음성에 대응하는 상기 제1 응답, 상기 제2 응답, 또는 상기 제3 응답 중 적어도 하나를 다른 전자 장치로 전송하도록 하는 것을 더 포함하는 전자 장치.
  12. 삭제
  13. 전자 장치의 입력 음성에 대한 응답 방법에 있어서,
    동작에 대한 요청을 나타내는 수신된 제1 음성을 인식하는 동작;
    상기 인식된 제1 음성에 기초하여 제1 화자를 인식하는 동작;
    상기 수신된 제1 음성으로부터 상기 제1 화자의 특징을 추출하는 동작;
    상기 추출된 특징 및 상기 전자 장치의 메모리에 미리 저장된 화자 모델에 기초하여, 상기 제1 화자와 상기 화자 모델의 유사성을 나타내는 스코어를 계산하는 동작;
    상기 스코어가 제1 문턱 값보다 크다는 것을 식별하는 것에 기초하여 3개의 스코어 구간들 중 제1 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제1 응답을 출력하는 동작;
    상기 스코어가 제1 문턱 값 이하이고, 상기 제1 문턱 값보다 작은 제2 문턱 값보다 크다는 것을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제2 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제2 응답을 출력하는 동작; 및
    상기 스코어가 상기 제2 문턱 값 이하임을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제3 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행하지 않을 것임을 나타내는 제3 응답을 출력하는 동작;을 포함하는 전자 장치의 입력 음성에 대한 응답 방법.
  14. 삭제
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    제 13항에 있어서,
    상기 인식된 제1 음성에 대한 자연 언어 처리를 수행하는 동작;을 더 포함하는 전자 장치의 입력 음성에 대한 응답 방법.
  16. 삭제
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    제 13항에 있어서,
    복수의 스코어 구간들과, 상기 복수의 스코어 구간들 각각에 대응하는 상기 미리 저장된 화자 모델의 복수의 응답들을 저장하는 동작;을 포함하는 전자 장치의 입력 음성에 대한 응답 방법.
  18. ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈
    제 13항에 있어서,
    상기 전자 장치의 마이크를 이용하여 상기 제1 음성을 수신하는 동작; 및
    상기 전자 장치의 출력 장치를 이용하여 상기 인식된 제1 음성에 대응하는 상기 제1 응답, 상기 제2 응답, 또는 상기 제3 응답 중 적어도 하나를 출력하는 동작;을 더 포함하는 전자 장치의 입력 음성에 대한 응답 방법.
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    제 13항에 있어서,
    상기 전자 장치의 통신 인터페이스를 통해 상기 인식된 제1 음성에 대응하는 상기 제1 응답, 상기 제2 응답, 또는 상기 제3 응답 중 적어도 하나를 다른 전자 장치로 전송하는 동작;을 더 포함하는 전자 장치의 입력 음성에 대한 응답 방법.
  20. ◈청구항 20은(는) 설정등록료 납부시 포기되었습니다.◈
    전자 장치의 입력 음성에 대한 응답 방법을 실행하기 위한 프로그램을 기록한 기계로 읽을 수 있는 저장 매체에 있어서, 상기 방법은,
    동작에 대한 요청을 나타내는 수신된 제1 음성을 인식하는 동작;
    상기 인식된 제1 음성에 기초하여 제1 화자를 인식하는 동작;
    상기 수신된 제1 음성으로부터 상기 제1 화자의 특징을 추출하는 동작;
    상기 추출된 특징 및 상기 전자 장치의 메모리에 미리 저장된 화자 모델에 기초하여, 상기 제1 화자와 상기 화자 모델의 유사성을 나타내는 스코어를 계산하는 동작;
    상기 스코어가 제1 문턱 값보다 크다는 것을 식별하는 것에 기초하여 3개의 스코어 구간들 중 제1 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제1 응답을 출력하는 동작;
    상기 스코어가 제1 문턱 값 이하이고, 상기 제1 문턱 값보다 작은 제2 문턱 값보다 크다는 것을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제2 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행할 것임을 나타내는 제2 응답을 출력하는 동작; 및
    상기 스코어가 상기 제2 문턱 값 이하임을 식별하는 것에 기초하여 상기 3개의 스코어 구간들 중 제3 스코어 구간에 포함됨을 확인하면, 상기 제1 화자와 상기 미리 저장된 화자 모델이 서로 대응하지 않고 상기 전자 장치가 상기 요청된 동작을 수행하지 않을 것임을 나타내는 제3 응답을 출력하는 동작;을 포함하는 저장 매체.
KR1020170002830A 2017-01-09 2017-01-09 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 KR102653450B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170002830A KR102653450B1 (ko) 2017-01-09 2017-01-09 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
US15/850,081 US10636420B2 (en) 2017-01-09 2017-12-21 Method of responding to input voice of electronic device and electronic device therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170002830A KR102653450B1 (ko) 2017-01-09 2017-01-09 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치

Publications (2)

Publication Number Publication Date
KR20180081922A KR20180081922A (ko) 2018-07-18
KR102653450B1 true KR102653450B1 (ko) 2024-04-02

Family

ID=62783208

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170002830A KR102653450B1 (ko) 2017-01-09 2017-01-09 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치

Country Status (2)

Country Link
US (1) US10636420B2 (ko)
KR (1) KR102653450B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102476756B1 (ko) 2017-06-20 2022-12-09 삼성전자주식회사 사용자 인증을 위한 등록 데이터베이스의 적응적 갱신 방법 및 장치
US10984795B2 (en) * 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
KR102621897B1 (ko) * 2018-10-10 2024-01-08 주식회사 케이티 화자 인식 장치 및 그 동작방법
KR102622350B1 (ko) * 2018-10-12 2024-01-09 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102141150B1 (ko) * 2018-12-31 2020-08-04 서울시립대학교 산학협력단 화자종속 언어모델을 이용한 화자인식 장치 및 화자인식 방법
CN109769099B (zh) * 2019-01-15 2021-01-22 三星电子(中国)研发中心 通话人物异常的检测方法和装置
KR20210053722A (ko) * 2019-11-04 2021-05-12 삼성전자주식회사 전자장치 및 그 제어방법
KR20220120197A (ko) * 2021-02-23 2022-08-30 삼성전자주식회사 전자 장치 및 그의 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020473A1 (en) 2004-07-26 2006-01-26 Atsuo Hiroe Method, apparatus, and program for dialogue, and storage medium including a program stored therein
US20130339018A1 (en) * 2012-06-15 2013-12-19 Sri International Multi-sample conversational voice verification
US20160092160A1 (en) * 2014-09-26 2016-03-31 Intel Corporation User adaptive interfaces
US20160098996A1 (en) 2014-10-02 2016-04-07 International Business Machines Corporation Management of voice commands for devices in a cloud computing environment
KR101618512B1 (ko) 2015-05-06 2016-05-09 서울시립대학교 산학협력단 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4968663B2 (ja) 2006-01-25 2012-07-04 株式会社メガチップス インターホンシステム
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9147399B1 (en) * 2012-08-31 2015-09-29 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US20140358535A1 (en) 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
KR102199246B1 (ko) * 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060020473A1 (en) 2004-07-26 2006-01-26 Atsuo Hiroe Method, apparatus, and program for dialogue, and storage medium including a program stored therein
US20130339018A1 (en) * 2012-06-15 2013-12-19 Sri International Multi-sample conversational voice verification
US20160092160A1 (en) * 2014-09-26 2016-03-31 Intel Corporation User adaptive interfaces
US20160098996A1 (en) 2014-10-02 2016-04-07 International Business Machines Corporation Management of voice commands for devices in a cloud computing environment
KR101618512B1 (ko) 2015-05-06 2016-05-09 서울시립대학교 산학협력단 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법

Also Published As

Publication number Publication date
US20180197539A1 (en) 2018-07-12
US10636420B2 (en) 2020-04-28
KR20180081922A (ko) 2018-07-18

Similar Documents

Publication Publication Date Title
CN110199350B (zh) 用于感测语音结束的方法和实现该方法的电子设备
KR102405793B1 (ko) 음성 신호 인식 방법 및 이를 제공하는 전자 장치
KR102414122B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
KR102653450B1 (ko) 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
CN108121490B (zh) 用于处理多模式输入的电子装置、方法和服务器
CN108023934B (zh) 电子装置及其控制方法
US20220130388A1 (en) Electronic device for processing user speech and operating method therefor
KR102636638B1 (ko) 컨텐츠 운용 방법 및 이를 구현한 전자 장치
KR102495517B1 (ko) 전자 장치, 전자 장치의 음성 인식 방법
US10825453B2 (en) Electronic device for providing speech recognition service and method thereof
US10706847B2 (en) Method for operating speech recognition service and electronic device supporting the same
KR102640423B1 (ko) 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템
EP2816554A2 (en) Method of executing voice recognition of electronic device and electronic device using the same
KR20180083587A (ko) 전자 장치 및 그의 동작 방법
KR20180074210A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
US11074910B2 (en) Electronic device for recognizing speech
KR20170034154A (ko) 콘텐츠 제공 방법 및 이를 수행하는 전자 장치
KR102561572B1 (ko) 센서 활용 방법 및 이를 구현한 전자 장치
KR20160027640A (ko) 전자 장치 및 전자 장치에서의 개체명 인식 방법
US20200326832A1 (en) Electronic device and server for processing user utterances
US11915700B2 (en) Device for processing user voice input
US11004075B2 (en) Device and method for performing payment using utterance
KR20170093491A (ko) 음성 인식 방법 및 이를 사용하는 전자 장치
KR102602480B1 (ko) 사용자에게 뷰티 스타일링을 추천하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant