KR20220013732A - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
KR20220013732A
KR20220013732A KR1020200093017A KR20200093017A KR20220013732A KR 20220013732 A KR20220013732 A KR 20220013732A KR 1020200093017 A KR1020200093017 A KR 1020200093017A KR 20200093017 A KR20200093017 A KR 20200093017A KR 20220013732 A KR20220013732 A KR 20220013732A
Authority
KR
South Korea
Prior art keywords
text
similar
input area
character
information
Prior art date
Application number
KR1020200093017A
Other languages
English (en)
Inventor
한영호
김상윤
쿠두물라아환
이경민
정동욱
한창우
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200093017A priority Critical patent/KR20220013732A/ko
Priority to US17/425,560 priority patent/US20220319509A1/en
Priority to PCT/KR2021/007655 priority patent/WO2022025428A1/ko
Publication of KR20220013732A publication Critical patent/KR20220013732A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

전자 장치의 제어 방법이 개시된다. 본 개시에 따른 전자 장치의 제어 방법은 텍스트를 입력받는 입력 영역을 포함하는 화면을 표시하는 단계, 사용자 음성을 수신하고, 사용자 음성에 대응되는 텍스트를 획득하는 단계, 획득된 텍스트를 입력 영역에 입력하여 입력 영역에 대응되는 서비스 동작을 수행하는 단계 및 서비스 동작의 수행 결과에 따라, 확인된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 획득된 복수의 유사 텍스트를 순차적으로 입력 영역에 입력하여 서비스 동작을 반복적으로 수행하는 단계를 포함한다.

Description

전자 장치 및 이의 제어 방법 { ELECTRONIC APPARATUS AND CONTROLLING METHOD THEREOF }
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 구체적으로는 사용자 음성을 인식하는 전자 장치 및 이의 제어 방법에 관한 것이다.
전자 기술의 발달로 인하여 음성 인식 기술이 보편화되고 있다. 스마트폰 이외에도 TV, 냉장고, 에어컨과 같은 가전 기기 또는 자동차 내부의 장치에도 음성 인식 기술이 적용되고 있다.
그러나, 사용자마다 발음이 상이하기 때문에 음성 인식 장치가 음성을 잘못 인식하는 오류가 발생될 수 있다. 구체적으로, 음성 인식 장치는 사용자의 발화 의도와 다르게 사용자 음성을 인식하여 사용자가 의도하지 않은 결과를 출력할 수 있다. 이 경우, 사용자는 음성을 재발화해야 하기 때문에 사용자 불편이 초래된다. 또한, 재발화로 인한 또 다른 오류가 발생될 가능성도 있다.
이에 따라, 사용자 음성의 재발화 없이도 음성 인식 결과 발생된 오류를 판단하고, 오류를 수정하여 사용자의 발화 의도에 부합하는 결과를 제공하는 장치 및 방법에 대한 필요성이 증대되었다.
본 개시는 상술한 필요성에 따른 것으로, 구체적으로 사용자 음성 인식 결과 획득된 텍스트를 수정하여 발화한 사용자의 의도에 부합하는 동작을 수행하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 텍스트를 입력받는 입력 영역을 포함하는 화면을 표시하는 단계, 사용자 음성을 수신하고, 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계, 상기 획득된 텍스트를 상기 입력 영역에 입력하여 상기 입력 영역에 대응되는 서비스 동작을 수행하는 단계 및 상기 서비스 동작의 수행 결과에 따라, 상기 획득된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 상기 획득된 복수의 유사 텍스트를 순차적으로 상기 입력 영역에 입력하여 상기 서비스 동작을 반복적으로 수행하는 단계를 포함한다.
본 개시의 또 다른 일 실시 예에 따른 전자 장치는, 디스플레이, 원격 제어 장치와 통신을 수행하는 통신 인터페이스 및 텍스트를 입력받는 입력 영역을 포함하는 화면을 표시하도록 상기 디스플레이를 제어하고, 상기 통신 인터페이스를 통하여 사용자 음성을 수신하면, 상기 사용자 음성에 대응되는 텍스트를 획득하고, 상기 획득된 텍스트를 상기 입력 영역에 입력하여 상기 입력 영역에 대응되는 서비스 동작을 수행하고, 상기 서비스 동작의 수행 결과에 따라, 상기 획득된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 상기 획득된 복수의 유사 텍스트를 순차적으로 상기 입력 영역에 입력하여 상기 서비스 동작을 반복적으로 수행하는 프로세서를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 개략적으로 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 3은 메모리에 저장된 패턴 정보를 설명하기 위한 도면,
도 4a 및 도 4b는 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도,
도 5는 본 개시의 일 실시 예에 따라 두 개의 입력 영역을 포함하는 화면에서 사용자 음성으로부터 획득된 텍스트를 변경하는 전자 장치의 일 실시 예를 설명하기 위한 도면,
도 6a, 도 6b 및 도 6c는 사용자 입력에 기초하여 사용자 음성에서 획득된 텍스트를 변경하는 전자 장치의 일 실시 예를 설명하기 위한 도면, 및
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
본 개시에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
이하, 본 개시의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다.
또한, 본 개시에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
본 개시에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU(Central Processing Unit) 또는 어플리케이션 프로세서 (application processor, AP)를 의미할 수 있다.
한편, 본 개시에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
이하에서는 도면을 참조하여 본 개시에 대해 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 개략적으로 설명하기 위한 도면이다.
도 1에서 전자 장치(100)는 TV로 도시되었으나, 이는 일 실시 예일 뿐이다. 즉, 본 개시에 따른 전자 장치(100)는 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 키오스크, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 한편, 전자 장치(100)는 반드시 상술한 예에 한정되는 것은 아니다.
전자 장치(100)는 전자 장치(100)를 제어하는 원격 제어 장치(200)와 통신을 수행할 수 있다. 도 1에서 원격 제어 장치(200)로 TV 리모컨이 도시되었으나, 원격 제어 장치(200)는 반드시 이에 한하는 것이 아니며 스마트폰, 태블릿 PC, 이동 전화기, 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 또한, 전자 장치(100)와 통신을 수행하는 장치라면 본 개시의 원격 제어 장치(200)가 될 수 있다.
원격 제어 장치(200)는 적외선(infrared) 또는 근거리 통신(가령, 블루투스(Bluetooth))을 통해 제어 명령을 출력하여 전자 장치(100)를 제어할 수 있다.
원격 제어 장치(200)는 사용자 음성을 수신할 수 있다. 구체적으로, 원격 제어 장치(200)는 원격 제어 장치(200)에 포함된 마이크를 통하여 사용자 음성을 수신할 수 있다.
원격 제어 장치(200)는 수신된 사용자 음성을 사용자 음성 신호로 변환하여 전자 장치(100)에 전송할 수 있다. 구체적으로, 원격 제어 장치(200)는 수신된 사용자 음성을 전기적 신호(가령, 디지털 신호, 디지털 데이터 또는 패킷)로 변환하여 전자 장치(100)에 전송할 수 있다.
전자 장치(100)는 디스플레이를 통하여 다양한 화면을 표시할 수 있다. 이때, 디스플레이에 표시되는 화면은 검색어 입력 영역, ID (Identification) 및 패스워드(Pass word, PW) 입력 영역, 또는 웹 사이트 주소 입력 영역과 같은 다양한 입력 영역을 포함할 수 있다. 본 개시에서 입력 영역은 숫자, 문자 또는 기호를 포함하는 텍스트를 입력 받을 수 있는 영역으로, 키보드(터치 키보드 포함) 또는 사용자 음성을 통한 사용자 입력을 수신할 수 있는 영역을 의미한다.
사용자가 검색어, ID/패스워드 또는 웹 사이트 주소와 같은 입력 영역에 입력될 문자 또는 단어를 포함하는 음성을 발화하면, 원격 제어 장치(200)는 사용자 음성을 음성 신호로 변환하여 전자 장치(100)에 전송할 수 있다.
전자 장치(100)는 원격 제어 장치(200)로부터 수신한 사용자 음성 신호에 대하여 음성 인식 처리를 수행할 수 있다. 구체적으로, 전자 장치(100)는 사용자 음성 신호를 텍스트로 변환하고, 입력 영역에 대응되는 텍스트를 획득할 수 있다. 이를 위하여, 전자 장치(100)는 음성을 인식하기 위한 인공지능 시스템(또는 음성 인식 모델)을 포함할 수 있다. 또는, 전자 장치(100)는 음성을 인식하기 위한 인공지능 시스템을 포함하는 외부 장치(가령, 음성 인식 서버)(미도시)에 사용자 음성 신호를 전송하고 외부 장치(미도시)로부터 사용자 음성 신호에 대한 음성 인식 결과를 수신할 수도 있다.
전자 장치(100)는 사용자 음성 인식 결과 획득한 입력 영역에 대응하는 텍스트를 화면에 포함된 입력 영역에 입력하고, 입력 영역에 대응되는 서비스 동작(가령, 검색, 로그인과 같은 사용자 인증, 웹 페이지 이동 등)을 수행할 수 있다.
한편, 도 1에서는 전자 장치(100)가 원격 제어 장치(200)로부터 음성 신호를 수신하는 것으로 도시하였으나, 반드시 이에 한하는 것은 아니다. 가령, 전자 장치(100)는 전자 장치(100)에 내장되거나 연결 가능한 마이크를 통하여 사용자로부터 사용자 음성을 직접 수신할 수도 있다.
이하, 전자 장치(100)의 구성 및 동작에 대하여 아래의 도 2 내지 도 6을 통하여 보다 구체적으로 후술하기로 한다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2에 도시된 바와 같이, 전자 장치(100)는 디스플레이(110), 통신 인터페이스(120) 및 프로세서(130)를 포함한다.
디스플레이(110)는 사용자에게 다양한 화면을 제공할 수 있다. 여기에서, 화면은 이미지, 동영상 텍스트, 음악과 같은 다양한 콘텐츠 화면, 웹 페이지(web page) 화면, 애플리케이션 실행 화면, 전자 장치(100)의 설정과 관련된 화면, GUI(Graphic User Interface) 화면과 같은 다양한 화면을 포함할 수 있다.
이때, 디스플레이(110)를 통해 표시되는 화면은 사용자로부터 텍스트를 입력 받는 입력 영역을 포함할 수 있다. 화면에 표시되는 입력 영역은 하나 이상일 수 있다.
디스플레이(110)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, PDP(Plasma Display Panel), Wall, Micro LED (Micro Light Emitting Diodes)등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(110) 내에는 a-si TFT(Amorphous Silicon Thin-Film Transistor), LTPS TFT (low temperature poly silicon Thin-Film Transistor), OTFT(Organic Thin-Film Transistor) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(110)는 터치 센서와 결합된 터치 스크린, 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display) 등으로 구현될 수 있다.
또한, 본 개시의 일 실시 예에 따른, 디스플레이(110)는 화면을 출력하는 디스플레이 패널뿐만 아니라, 디스플레이 패널을 하우징하는 베젤을 포함할 수 있다. 특히, 본 개시의 일 실시 예에 따른, 베젤은 사용자 인터렉션을 감지하기 위한 터치 센서(미도시)를 포함할 수 있다.
통신 인터페이스(120)는 전자 장치(100)가 원격 제어 장치(200)나 서버와 같은 외부 전자 장치(미도시)와 통신을 수행하기 위한 구성 요소이다.
전자 장치(100)는 통신 인터페이스(120)를 통하여 외부 전자 장치(미도시)로부터 애플리케이션 정보 또는 웹 페이지 정보를 수신할 수 있으며, 애플리케이션 또는 웹 페이지 상에서 수행되는 서비스에 대한 요청을 외부 전자 장치(미도시)에 전송할 수 있다.
또한, 도 1에서 상술한 바와 같이, 전자 장치(100)는 통신 인터페이스(120)를 통하여 원격 제어 장치(200)로부터 사용자 음성 신호를 수신할 수도 있다.
통신 인터페이스(120)는 유선 통신 모듈(미도시), 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.
여기에서, 유선 통신 모듈은 유선 이더넷(Ethernet)과 같이 유선 통신 방식에 따라 외부 장치(미도시)와 통신을 수행하기 위한 모듈이다. 그리고, 근거리 무선 통신 모듈이란 블루투스(Bluetooth, BT), BLE(Bluetooth Low Energy), ZigBee 방식 등과 같은 근거리 무선 통신 방식에 따라 근거리에 위치한 외부 장치(미도시)와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WiFi, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 외부 장치(미도시) 및 음성 인식 서버(미도시)와 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 5세대 네트워크(5G Networks) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
프로세서(130)는 메모리(미도시)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 예를 들어, 프로세서(130)는 운영 체제 또는 응용 프로그램을 구동하여 프로세서(130)에 연결된 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 또한, 프로세서(130)는 다른 구성요소들 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다.
이를 위해, 프로세서(130)는 해당 동작을 수행하기 위한 전용 프로세서(예, 임베디드 프로세서) 또는 메모리 디바이스에 저장된 하나 이상의 소프트웨어 프로그램을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU (Central Processing Unit) 또는 어플리케이션 프로세서 (application processor (AP))로 구현될 수 있다.
본 개시에서, 프로세서(130)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP)), 마이크로프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), GPU(graphics-processing unit) 또는 커뮤니케이션 프로세서(communication processor(CP)), ARP 프로세서(Address Resolution Protocol processor) 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
프로세서(130)의 동작과 관련하여서는 도 4에서 구체적으로 후술하기로 한다.
한편, 도 2의 전자 장치(100)에 도시된 구성 요소들은 전자 장치(100)의 성능 및/또는 종류에 대응하여 적어도 하나의 구성 요소의 추가, 변경되거나 삭제될 수 있다. 또한, 구성 요소들의 위치는 전자 장치(100)의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가지는 자에게 용이하게 이해될 것이다.
가령, 전자 장치(100)는 마이크(미도시) 또는 메모리(미도시)를 추가적으로 포함할 수 있다. 전자 장치(100)가 마이크(미도시)를 포함하는 경우 원격 제어 장치(200)와 통신을 수행하기 위한 통신 인터페이스(120)는 전자 장치(100)에서 생략될 수 있다.
마이크(미도시)는 음성 입력을 받기 위한 구성 요소이다. 마이크(미도시)는 활성화 상태에서 사용자의 음성을 수신할 수 있다. 마이크(미도시)는 전자 장치(100)의 전면 방향, 상측 방향 또는 측면 방향 등에 일체화된 일체형으로 형성될 수 있다. 마이크(미도시)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D (Analog-to-Digital)변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.
메모리(미도시)는 전자 장치(100)의 동작에 필요한 각종 프로그램 및 데이터 등을 저장하기 위한 구성요소이다. 메모리(미도시)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(Solid State Drive, SSD) 등으로 구현될 수 있다. 메모리(미도시)는 프로세서(130)에 의해 액세스되며, 프로세서(미도시)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(미도시), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.
메모리(미도시)에는 음성 인식 서비스를 수행하기 위한 인공지능 시스템이 저장될 수 있다. 구체적으로, 메모리(미도시)에는 원격 제어 장치(200)로부터 수신하거나 마이크(미도시)를 통해 변환된 사용자 음성 신호를 텍스트 데이터로 변환하는 자동 음성 인식(automatic speech recognition)(ASR) 모듈 및 변환된 텍스트 데이터에 대한 문법적 분석 (syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악하는 자연어 이해 모듈(Natural Language Understanding)(NLU) 모듈을 포함할 수 있다.
한편, 사용자 음성이 불명확하거나 사용자 주변의 환경(가령, 소음) 때문에 사용자 음성이 정확하게 인식되지 않고 사용자가 의도한 바와 다른 결과가 출력되는 경우가 발생할 수가 있다.
이때, 프로세서(130)는 발음이 유사하여 유사하게 인식될 수 있는 문자에 대한 정보를 포함하는 패턴 정보를 사용하여 사용자 음성에 대응되는 텍스트를 수정할 수 있다.
이를 위하여, 메모리(미도시)에는 사용자 음성에 대응되는 텍스트를 수정하기 위한 패턴 정보가 저장되어 있을 수 있다.
도 3은 메모리에 저장된 패턴 정보를 설명하기 위한 도면을 설명하기 위한 도면이다.
패턴 정보는 복수의 문자 정보, 복수의 문자 각각과 유사한 유사 문자 정보 및 복수의 유사 문자 정보 각각에 대한 오인식 횟수 또는 확률 정보 중 적어도 하나를 포함할 수 있다. 여기에서, 복수의 문자 정보는 전자 장치(100)가 음성 인식 결과 획득한 사용자 음성에 대응되는 텍스트에 포함된 문자 정보를 의미하고, 도 3의 테이블의 열에 표시된 '인식 결과'에 해당하는 문자들을 포함한다. 그리고, 복수의 문자 각각과 유사한 유사 문자 정보는 복수의 문자 정보에 포함된 문자와 발음이 유사한 문자를 나타낸다. 즉, 복수의 문자 정보에 포함된 문자('인식 결과'에 해당하는 문자)와 발음이 유사한 문자가 사용자가 발화시 의도한 음성에 대응되는 문자일 수 있다는 점에서, 유사 문자 정보는 도 3 테이블의 행에 표시된 '정답'에 해당하는 문자들을 포함한다. 또한, 복수의 유사 문자 정보 각각에 대한 오인식 횟수 또는 확률 정보는 유사 문자 정보(도 3 테이블의 '정답')에 포함되는 문자로 인식되어야 할 문자가 오인식된 횟수 또는 확률를 나타낸다. 설명의 편의상, 도 3의 테이블에는 복수의 유사 문자 정보 각각에 대한 오인식 횟수가 기재된 것으로 설명한다. 가령, 도 3에서 알파벳 'd'가 알파벳 't'로 인식된 횟수는 17이고, 알파벳 '0'가 숫자 '5'로 인식(한국어 발음 기준)된 횟수는 20이다.
복수의 문자 정보 및 유사 문자 정보는 숫자, 글자 또는 그 밖의 다양한 기호를 포함할 수 있다.
패턴 정보는 전자 장치(100)의 제조시에 디폴트(default) 값으로 설정되어, 사용자의 발화 습관이나 오류 인식 결과에 따라 패턴 정보가 업데이트 될 수 있다. 가령, 사용자가 알파벳 'a','g'를 연속적으로 발음하여 프로세서(130)가 사용자가 발화한 'a','g'를 알파벳 'h'로 오인식한 경우, 프로세서(130)는 패턴 정보의 행에 'a g'를 추가하여 행의 'a g' 및 열의 'h'에 대응되는 셀에 오인식 횟수를 추가할 수 있다.
한편, 도 3의 패턴 정보는 한국어를 기준으로 숫자 또는 알파벳을 발음한 경우에 대한 테이블이며, 패턴 정보는 반드시 이에 한하는 것은 아니며 전자 장치(100)가 사용되는 국가의 언어 또는 실시 예에 따라 상이할 수 있다.
도 4는 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.
프로세서(130)는 텍스트를 입력받는 입력 영역을 포함하는 화면을 표시하도록 디스플레이(110)를 제어할 수 있다. 이때, 화면은 이미지, 동영상 텍스트, 음악과 같은 다양한 콘텐츠 화면, 웹 페이지(web page) 화면, 애플리케이션 실행 화면, 전자 장치(100)의 설정과 관련된 화면, GUI(Graphic User Interface) 화면과 같은 다양한 화면을 포함할 수 있다.
본 개시에서 입력 영역은 숫자, 문자 또는 기호를 포함하는 텍스트를 입력 받을 수 있는 영역으로, 키보드(터치 키보드 포함) 또는 사용자 음성을 통한 사용자 입력을 수신할 수 있는 영역을 의미한다. 가령, 웹 페이지나 애플리케이션의 검색 입력 영역, 웹 페이지의 웹페이지 주소 입력 영역, 사용자 ID/PW (Identification /Password) 입력 영역, AP (Wireless Access Point) 설정 화면의 AP 주소 입력 영역, Wi-Fi 설정 화면의 ID/PW 입력 영역 등이 입력 영역에 해당할 수 있으나, 입력 영역의 예는 이에 한정되어서는 안되며 텍스트가 입력될 수 있는 모든 영역은 본 개시의 입력 영역이 될 수 있다.
디스플레이(110)에 화면이 표시되면, 프로세서(130)는 디스플레이(110)에 표시된 화면을 식별할 수 있다(S411).
구체적으로, 프로세서(130)는 화면의 소스 코드(source code) 정보, 스크립트(script) 정보와 같은 화면 정보를 획득하여, 화면의 종류를 판단할 수 있다. 가령, 프로세서(130)는 화면 정보를 통하여 화면이 웹 사이트 화면인지, 애플리케이션의 화면인지, AP 설정 화면인지, Wi-Fi 설정 화면인지를 식별할 수 있다.
프로세서(130)는 화면 정보를 통하여 화면에 입력 영역이 존재하는지 판단할 수 있다. 입력 영역이 존재하는 경우, 프로세서(130)는 화면 정보를 기초로 입력 영역의 타입(가령, 주소 입력 영역, ID 입력 영역, 패스워드 입력 영역, 검색어 입력 영역) 또는 화면에서 입력 영역의 위치를 식별할 수도 있다.
화면 정보에 입력 영역에 대한 조건이 포함된 경우, 프로세서(130)는 입력 영역에 대한 조건을 식별할 수 있다. 가령, ID 나 패스워드 입력 횟수에 대한 제한이 있는 경우, 프로세서(130)는 입력 횟수에 대한 제약 조건을 식별할 수 있다.
화면에 입력 영역이 존재하는 경우(S412-Y), 프로세서(130)는 입력 영역에 대한 사용자 음성을 수신할 수 있다(S413). 구체적으로, 프로세서(130)는 마이크(미도시)를 통하여 사용자 음성을 직접 수신하거나 통신 인터페이스(120)를 통하여 사용자 음성 신호를 수신할 수 있다.
프로세서(130)는 사용자 음성 신호에 대한 음성 인식 처리를 수행하여 사용자 음성에 대응되는 텍스트를 획득할 수 있다(S414).
프로세서(130)는 사용자 음성에 대한 음성 인식 처리를 수행하여 사용자 음성에 대응되는 텍스트가 입력 영역의 타입에 대응되는지 확인할 수 있다. 가령, 도 5에 도시된 바와 같이, 검색어 입력 영역, ID 입력 영역 및 패스워드 입력 영역을 포함하는 화면이 표시된 상태에서 사용자가 'ID는 abc8, 패스워드는 obdhg0'이라고 발화한 경우, 프로세서(130)는 음성 인식 결과로 ID 정보로 텍스트 'abc8'을, 패스워드 정보로 텍스트 'obdhg0'를 획득하고 ID 및 패스워드를 입력하려는 사용자의 의도를 인식할 수 있다. 그리고, 프로세서(130)는 화면에 사용자 음성에 대응되는 ID 입력 영역 및 패스워드 입력 영역이 존재하는지 확인할 수 있다. 즉, 프로세서(130)는 디스플레이(120) 상의 사용자 음성에 대응되는 텍스트인 'abc8' 및 'obdhg0'가 화면 상에 표시된 ID 입력 영역 및 패스워드 입력 영역에 대응되는지 확인할 수 있다.
확인 결과 사용자 음성에 대응되는 텍스트가 입력 영역의 타입에 대응되는 경우, 프로세서(130)는 사용자 음성에 대응되는 텍스트를 입력 영역에 입력할 수 있다.
이때, 프로세서(130)는 획득한 텍스트를 입력 영역에 입력하여 입력 영역에 대응되는 서비스 동작을 수행할 수 있다. 가령, 프로세서(130)는 ID 입력 영역에 ID를 입력하고 패스워드 입력 영역에 패스워드를 입력하여 인증 절차를 수행하거나, 검색어 입력 영역에 검색어를 입력하여 검색 서비스를 수행할 수 있다.
한편, 프로세서(130)는 서비스 동작의 수행 결과에 기초하여, 획득된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 획득된 복수의 유사 텍스트를 순차적으로 입력 영역에 입력하여 서비스 동작을 반복적으로 수행할 수 있다(S421, S422).
구체적으로, 사용자 음성 인식 결과로 획득된 텍스트를 입력 영역에 입력한 결과 입력 영역에 대응되는 서비스 동작이 수행되지 않은 것으로 판단된 경우, 프로세서(130)는 획득된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 획득된 복수의 유사 텍스트를 순차적으로 입력 영역에 입력하여 서비스 동작을 반복적으로 수행할 수 있다.
이때, 프로세서(130)는 텍스트를 입력 영역에 입력한 결과 기설정된 화면으로 화면이 전환되지 않거나(인증 서비스의 경우), 서비스 동작에 대응되는 화면이 존재하지 않는다는 정보를 수신하거나(검색 서비스 또는 웹 페이지 이동 서비스의 경우), 전자 장치(100)가 특정 상태로 전환되지 않거나(AP 설정 또는 Wi-Fi 설정), 사용자로부터 재시도 명령을 수신하는 경우, 서비스 동작이 수행되지 않은 것으로 판단할 수 있다. 다만, 이는 일 실시 예일 뿐이며, 프로세서(130)는 다양한 방식으로 서비스 동작의 수행 여부를 판단할 수 있다.
프로세서(130)는 패턴 정보를 이용하여 사용자 음성에 대응되는 텍스트와 유사한 복수의 유사 텍스트를 획득할 수 있다.
구체적으로, 프로세서(130)는 패턴 정보를 이용하여 텍스트 내의 적어도 하나의 문자를 다른 유사 문자로 변경하여 텍스트와 유사한 복수의 유사 텍스트를 획득할 수 있다.
프로세서(130)는 패턴 정보를 이용하여 텍스트 내의 문자 중 발음이 유사한 유사 문자를 가지는 적어도 하나의 문자를 식별하고, 식별된 적어도 하나의 문자 각각에 대한 유사 문자를 식별할 수 있다. 프로세서(130)는 식별된 적어도 하나의 문자 각각을 텍스트에서 각 문자에 대한 유사 문자로 변경하여 복수의 유사 텍스트를 획득할 수 있다.
가령, 사용자가 알파벳 'a', 'b', 'c', 'd'를 발화하였고, 사용자 음성 인식 결과로 텍스트 'a b c t'를 획득한 경우를 가정하자, 프로세서(130)는 도 3의 패턴 정보를 이용하여 텍스트 'a b c t'에 포함된 문자 중 유사 문자를 가지는 문자 'a', 'b', 'c', 및 't' 를 식별할 수 있고, 문자 'a', 'b', 'c', 및 't' 각각에 대한 유사 문자를 식별할 수 있다. 즉, 프로세서(130)는 도 3의 패턴 정보를 이용하여 'a'의 유사 문자로 'l'을, 'b'의 유사 문자로 '2' 및 'e'를, 'c'의 유사 문자로 '7' 및 '2'를, 그리고, 't'의 유사 문자로 'b', 'c', 'd' 등을 식별할 수 있다. 그리고, 프로세서(130)는 텍스트 'a b c t'의 't'를 'b'로 변경하여 유사 텍스트 'a b c d'를 생성하거나 텍스트 'a b c t'의 'a'를 'l'로 변경하여 유사 텍스트 'l b c d'를 생성하여 텍스트 'a b c t'에 대한 복수의 유사 텍스트를 생성할 수 있다.
한편, 상술한 예와 같이 텍스트에 포함된 모든 문자가 적어도 하나 이상의 유사 문자를 가지는 경우, 생성될 수 있는 유사 텍스트의 수는 많아진다. 이 경우, 프로세서(130)가 모든 유사 텍스트를 입력 영역에 입력하는 것이 부담이 될 수 있다. 이에 따라, 프로세서(130)는 횟수 또는 확률 정보를 기초로 복수의 유사 텍스트를 생성할 수 있다.
구체적으로, 프로세서(130)는 패턴 정보를 이용하여 텍스트 내의 복수의 문자 중 유사 문자에 대한 횟수 또는 확률 정보가 기설정된 조건을 만족하는 문자를 식별하고, 식별된 문자가 적어도 하나의 유사 문자를 가지는 경우 유사 문자 각각에 대한 횟수 또는 확률 정보를 기초로 텍스트에서 식별된 문자를 적어도 하나의 유사 문자로 변경할 수 있다. 이때, 기설정된 조건은 실시 예에 따라 다양하게 설정될 수 있다. 가령, 기설정된 조건은 횟수 또는 확률 정보가 가장 많은 2개의 문자일 수도 있고, 횟수 또는 확률 정보가 기설정된 값(가령 횟수 5, 확률 60%) 이상인 문자일 수도 있다.
상술한 예를 다시 인용하면, 텍스트 'a b c t'에서 'a'의 유사 문자에 대한 횟수 정보는 1이고, 'b'의 유사 문자 '2' 및 'e'에 대한 횟수 정보는 4(=2+2) 이고, 'c'의 유사 문자 '7' 및 '2'에 대한 횟수 정보는 '2'이며, 't'의 유사 문자 'b', 'c', 'd', 'g', 'k'에 대한 횟수 정보는 21이다. 이때, 기설정된 조건이 횟수 정보가 기설정된 값 3 이상인 문자인 경우, 프로세서(130)는 텍스트 'a b c t'에서 기설정된 조건을 만족하는 'b' 및 't'를 식별하고, 텍스트 'a b c t' 에서 'b' 및 't'를 'b' 및 't'에 대한 유사 문자로 각각 변경하여 유사 텍스트를 생성할 수 있다.
식별된 텍스트를 유사 문자로 변경할 때에도 유사 문자 각각에 대한 횟수 또는 확률 정보를 이용할 수 있다. 가령, 프로세서(130)는 유사 문자에 대한 횟수 또는 확률 정보가 기설정된 값 이상인 유사 문자를 텍스트에 대입하여 유사 텍스트를 생성할 수 있다.
한편, 프로세서(130)는 유사 텍스트를 입력 영역에 입력할 경우에도 패턴 정보를 이용할 수 있다. 프로세서(130)는 패턴 정보를 이용하여 복수의 유사 텍스트가 입력 영역에 입력되는 순서를 정할 수 있다.
구체적으로, 프로세서(130)는 복수의 유사 텍스트 각각에 대하여 유사 텍스트 내의 유사 문자에 대응되는 횟수 정보에 기초하여 복수의 유사 텍스트 각각의 우선 순위를 확인하고, 확인된 우선 순위에 기초하여 순차적으로 복수의 유사 텍스트를 입력 영역에 입력함으로써 서비스 동작을 반복할 수 있다.
예를 들어, 텍스트 'a b c t'에 대한 유사 텍스트 'a b c d' 및 'l e c t'가 존재한다고 가정하자. 유사 텍스트 내의 유사 문자에 대응되는 횟수 또는 확률 정보는 유사 텍스트 내의 문자가 텍스트 내의 문자로 인식된 횟수 또는 확률 정보를 나타내며, 가령 유사 텍스트 내 'd'가 't'로 인식된 횟수 또는 확률 정보를 말한다. 유사 텍스트 'a b c d'에 대한 횟수 정보는 17이고('d'가 't'로 인식된 경우), 유사 텍스트 'l e c t'에 대한 횟수 정보는 3 ('l'이 'a'로 인식된 경우 1, 'e'가 'b'로 인식된 경우 2,)이다. 이 경우, 프로세서(130)는 유사 텍스트 'l e c t'보다 'a b c d'에 더 높은 우선 순위를 부여할 수 있으며, 입력 영역에 'a b c d'를 입력하여 서비스 동작을 수행한 후 서비스 동작이 완료되지 않은 경우 'l e c t'를 입력 영역에 입력하여 서비스 동작을 반복 수행할 수 있다.
이와 같이, 프로세서(130)는 하나의 입력 영역에 대하여 사용자 음성에 대응되는 텍스트를 획득하고, 획득한 텍스트에 대한 복수의 유사 텍스트를 입력 영역에 반복적으로 입력하여 입력 영역에 대응되는 서비스 동작을 반복적으로 수행할 수 있다.
이 경우, 사용자 음성 인식에 대한 오인식과 같은 오류가 발생하였더라도, 프로세서(130)는 사용자 음성에 대응되는 텍스트와 유사한 텍스트를 반복적으로 입력함으로써 사용자가 원하는 서비스 동작을 수행할 수 있으며, 사용자는 재발화를 하여야 하는 수고를 덜 수 있다.
한편, 실시 예에 따라서는 화면이 두 개의 입력 영역을 포함하고, 두 개의 입력 영역에 대한 사용자 음성 입력이 모두 만족하는 경우에만 서비스가 수행되는 경우도 있다. 가령, 식별 정보(가령, 사용자 ID, wi-fi ID 등) 및 패스 워드를 입력하여야 하는 경우가 그 대표적인 예이다.
도 5는 두 개의 입력 영역을 포함하는 화면에서 사용자 음성으로부터 획득된 텍스트를 변경하는 전자 장치의 일 실시 예를 설명하기 위한 도면이다.
프로세서(130)는 2 개의 입력 영역을 포함하는 화면을 표시하도록 디스플레이(110)를 제어할 수 있다. 이때, 화면은 식별 정보를 입력 받는 제1 입력 영역 및 패스워드 정보를 입력 받는 제2 입력 영역을 포함할 수 있다.
프로세서(130)는 사용자 음성으로부터 식별 정보에 대응되는 제1 텍스트 및 패스워드에 대응되는 제2 텍스트를 획득할 수 있다. 그리고, 프로세서(130)는 제1 텍스트를 제1 입력 영역에 입력하고 제2 텍스트를 제2 입력 영역에 입력하여 식별 정보에 대한 인증을 수행할 수 있다.
인증 결과에 따라, 프로세서(130)는 제1 텍스트와 유사한 복수의 제1 유사 텍스트 및 제2 텍스트와 유사한 복수의 제2 유사 텍스트를 생성하여 식별 정보에 대한 인증을 반복적으로 수행할 수 있다.
구체적으로, 제1 텍스트 및 제2 텍스트를 각각 제1 입력 영역 및 제2 입력 영역에 입력하여 식별 정보에 대한 인증을 실패한 경우, 프로세서(130)는 제1 텍스트와 유사한 복수의 제1 유사 텍스트를 생성하고, 제1 텍스트 및 복수의 제1 유사 텍스트를 포함하는 제1 리스트(510)를 획득할 수 있다. 마찬가지로, 프로세서(130)는 제2 텍스트와 유사한 복수의 제2 유사 텍스트를 생성하고, 제2 텍스트 및 복수의 제2 유사 텍스트를 포함하는 제2 리스트(520)를 획득할 수 있다.
그리고, 프로세서(130)는 제1 리스트(510)에 포함된 복수의 텍스트(제1 텍스트 및 복수의 제1 유사 텍스트) 및 제2 리스트(520)에 포함된 복수의 텍스트(제2 텍스트 및 복수의 제2 유사 텍스트)를 제1 입력 영역 및 제2 입력 영역에 각각 순차적으로 입력하여 식별 정보에 대한 인증을 반복적으로 수행할 수 있다.
가령, 도 5에 도시된 바와 같이, 사용자가 식별 정보로 'abcd8'을, 패스워드 정보로 'obdhg0'을 발화한 경우를 가정하자. 프로세서(130)가 사용자 음성 인식 결과 식별 정보에 대응하는 제1 텍스트로 'abcda'를, 패스워드에 대응하는 제2 텍스트로 'obdhgo'를 획득한 경우, 인식된 제1 텍스트 및 제2 텍스트 모두 사용자의 발화 의도와 상이하다는 점에서 인증이 실패된다. 이 경우, 프로세서(130)는 제1 텍스트에 대한 제1 유사 텍스트 및 제2 텍스트에 대한 제2 유사 텍스트를 생성할 수 있다. 유사 텍스트를 생성하는 동작에 대한 구체적인 설명은 도 4의 S421 및 S422에 대한 설명에서 상술하였는바 중복된 설명은 생략하도록 한다.
프로세서(130)는 제1 리스트(510)에 포함된 복수의 텍스트 중 제1 입력 영역에 입력될 텍스트의 순서를 결정할 수 있다. 마찬가지로, 프로세서(130)는 제2 리스트(520)에 포함된 복수의 텍스트 중 제2 입력 영역에 입력될 텍스트의 순서를 결정할 수 있다.
구체적으로, 프로세서(130)는 패턴 정보를 이용하여 제1 리스트에 포함된 복수의 텍스트 및 제2 리스트에 포함된 복수의 텍스트 각각의 우선 순위를 결정할 수 있다. 리스트에 포함된 텍스트의 우선 순위를 결정하는 방법은 상기 입력 영역이 하나인 경우에 복수의 유사 텍스트의 우선 순위를 결정하는 방법과 동일한 바 중복된 설명은 생략하도록 한다.
프로세서(130)는 제1 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 복수의 텍스트 중 하나를 선택하고, 제2 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 선택된 텍스트와 제2 리스트에 포함된 복수의 텍스트를 순차적으로 매핑할 수 있다.
가령, 도 5에 도시된 바와 같이, 제1 리스트에서 복수의 텍스트의 우선 순위가 'abcda', 'apcd8', 'abcd8', 'apcta', 'abcta' 순으로 부여되고, 제2 리스트에서 복수의 텍스트의 우선 순위가 '0bthg0', '0bthgo', 'obthg0', 'obdhg0', 'obdhgo' 순으로 부여되어있다고 가정하자.
이 경우, 프로세서(130)는 우선 순위에 기초하여 제1 리스트에서 'abcda'를 우선적으로 선택하고, 제2 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 'abcda'를 '0bthg0', '0bthgo', 'obthg0', 'obdhg0', 'obdhgo' 와 순차적으로 매핑하여 매핑된 ('abcda', '0bthg0'), …, ('abcda', 'obdhgo')를 제1 입력 영역 및 제2 입력 영역에 순차적으로 입력할 수 있다. 이때, 제1 리스트의 첫번째 우선 순위인 텍스트 'abcda'에 대한 매핑 정보 입력이 완료된 후 프로세서(130)는 제2 리스트의 두번째 우선 순위 텍스트인 'apcd8'에 대하여 동일한 과정을 반복할 수 있다. 이러한 과정을 반복할 경우, 프로세서(130)는 ('abcd8', 'obdhg0')을 각각 제1 입력 영역 및 제2 입력 영역에 입력하여 인증 절차를 수행할 수 있다.
한편, 이와 같이 유사 텍스트를 생성하여 입력 영역에 대응되는 서비스 동작을 수행할 수 있으나, 생성된 유사 텍스트 전부를 입력 영역에 입력하여도 서비스 동작이 수행되지 않는 경우가 발생할 수 있다.
프로세서(130)는 반복적인 서비스 동작의 수행 결과에 기초하여 획득된 텍스트를 입력 영역에 표시하고, 사용자 입력에 기초하여 텍스트에 포함된 문자를 유사 문자로 변경할 수 있다.
이와 관련하여 다시 도 4b를 참조하면, 프로세서(130)는 서비스 동작의 수행이 완료되지 않은 경우(S423-N), 프로세서(130)는 사용자 입력에 기초하여 텍스트에 포함된 문자를 유사 문자로 변경할 수 있다.
구체적으로, 서비스 동작의 수행이 완료되지 않은 경우(S423-N), 프로세서(130)는 사용자 음성 인식 결과 획득된 텍스트를 입력 영역에 표시하고(S424), 획득된 텍스트에 포함된 문자를 선택하는 사용자 입력을 수신할 수 있다(S425). 이때, 프로세서(130)는 원격 제어 장치(200)로부터 텍스트에 포함된 문자를 선택하는 사용자 입력을 수신하거나, 마이크(미도시)를 통하여 사용자 입력을 수신할 수 있다.
프로세서(130)는 사용자 입력에 기초하여 표시된 텍스트 중 하나의 문자가 선택되면 선택된 문자에 대응되는 유사 문자를 표시할 수 있다.
그리고, 표시된 유사 문자가 선택되면, 프로세서(130)는 선택된 문자를 선택된 문자와 유사한 문자로 교체하여 입력 영역 상에 표시하고, 입력 영역에 대응되는 서비스 동작을 수행할 수 있다(S426).
도 6a, 도 6b 및 도 6c는 사용자 입력에 기초하여 사용자 음성에서 획득된 텍스트를 변경하는 전자 장치의 일 실시 예를 설명하기 위한 도면이다.
프로세서(130)가 사용자로부터 음성 명령을 수신하는 경우 전자 장치(100)는 명령 모드(command mode)에 해당할 수 있다. 여기에서, 명령 모드는 사용자 음성 신호를 수신하고, 사용자 음성 신호에 대응되는 텍스트를 입력 영역에 입력하여 입력 영역에 대응되는 서비스를 수행하는 모드를 의미한다.
명령 모드에서 사용자 음성 신호에 대응되는 텍스트 및 복수의 유사 텍스트를 순차적으로 입력하여 서비스 동작을 반복적으로 수행한 결과 서비스 동작이 완료되지 않은 것으로 판단되면, 프로세서(130)는 사용자 음성 신호에 대응되는 텍스트를 입력 영역에 표시할 수 있다.
통신 인터페이스(120)를 통하여 원격 제어 장치(200)로부터 전자 장치(100)의 모드를 명령 모드에서 편집 모드(edit mode)로 변경하는 제어 명령을 수신하면, 프로세서(130)는 제어 명령에 따라 전자 장치(100)의 모드를 편집 모드로 변경할 수 있다. 여기에서, 편집 모드는 사용자의 입력에 기초하여 입력 영역에 표시된 텍스트의 일부를 변경하기 위한 모드이다.
프로세서(130)는 원격 제어 장치(200)로부터 입력 영역(610)의 커서(cursor)(611)를 이동시키는 명령을 수신하면 전자 장치(100)의 모드를 명령 모드(command mode)에서 편집 모드(edit mode)로 변경할 수 있다.
원격 제어 장치(200)는 화면에 표시된 커서(611)를 텍스트 내 변경하고자 하는 문자에 대응되는 위치로 이동시키려는 사용자 입력을 수신할 수 있으며, 수신된 사용자 입력을 전자 장치(100)에 전송할 수 있다.
프로세서(130)는 통신 인터페이스(120)를 통하여 사용자 입력을 수신하면, 사용자 입력에 따라 커서(611)를 변경하고자 하는 문자에 대응되는 위치로 이동시킬 수 있다. 실시 예에 따라 커서가 이동하면서 커서에 대응되는 문자의 크기, 굵기 등이 변경되거나 음영이 표시될 수도 있다.
프로세서(130)는 커서(611)가 위치한 문자와 발음이 유사한 유사 문자(621-1, 612-2, 612-3)를 식별하고, 이를 입력 영역(610)의 주변 영역에 표시하도록 디스플레이(110)를 제어할 수 있다. 이때, 프로세서(130)는 사용자 음성에 대응되는 텍스트 및 이와 유사한 텍스트를 기초로, 입력 영역(610)의 주변 영역에 표시된 유사 문자를 식별할 수 있다. 프로세서(130)는 이전에 입력 영역에 입력하였던 텍스트 및 이와 유사한 텍스트와 중복되지 않도록 주변 영역에 표시될 유사 문자를 결정할 수 있다.
가령, 프로세서(130)는 원격 제어 장치(200)로부터 수신된 사용자 입력에 따라 커서(611)를 t에 대응되는 위치로 이동시키면, t와 발음이 유사한 문자 'b'(621-1), 'd'(621-2) 및 'p'(623-3)이 입력 영역(610)의 주변 영역에 표시될 수 있다.
이때, 프로세서(130)는 원격 제어 장치(200)로부터 복수의 유사 문자 중 하나를 선택하는 명령을 수신하고, 수신된 명령에 기초하여 텍스트에 포함된 문자를 유사 문자로 교체하여 입력 영역 상에 표시할 수 있다. 가령, 프로세서(130)는 'd'(612-2)를 선택하는 명령을 수신한 경우, 수신된 명령에 기초하여 'a p c t 8'의 't'를 'd'로 교체하여 입력 영역(610)에 'a p c d 8'을 표시하도록 디스플레이(110)를 제어할 수 있다.
한편, 텍스트에 포함된 하나의 문자에 대하여 발음이 유사한 2개 이상의 연속적인 문자가 인식되거나, 텍스트에 포함된 2 개 이상의 연속적인 문자에 대하여 발음이 유사한 하나의 문자가 인식될 수 있다.
도 6b를 참조하면, 도 6a에서 상술한 바와 같이 프로세서(130)는 원격 제어 장치(200)로부터 수신한 사용자 명령에 따라 변경하고자 하는 문자에 대응하는 위치로 커서를 이동시킬 수 있다. 도 6a와 중복되는 내용에 대하여는 편의상 설명을 생략하도록 한다.
이때, 하나의 문자와 발음이 유사한 2개 이상의 연속적인 문자가 존재할 수 있다. 프로세서(130)는 사용자 입력에 따라 선택된 하나의 문자와 발음이 유사한 2이상의 연속적인 문자가 존재하는 경우, 선택된 하나의 문자에 대하여 발음이 유사한 2이상의 연속적인 문자를 입력 영역(620)의 주변 영역에 표시하도록 디스플레이(110)를 제어할 수 있다.
가령, 매핑 정보에 기초하여 'ag', '8c' 및 'ac'는 알파벳 'h'와 발음이 유사한 글자로 식별되는 경우, 프로세서(130)는 사용자 입력에 따라 선택된 'h'와 발음이 유사한 'ag', '8c' 및 'ac'를 입력 영역(620)의 주변 영역에 표시하도록 디스플레이(110)를 제어할 수 있다.
한편, 또 다른 실시 예로 텍스트에 포함된 문자 중 2개 이상의 연속적인 문자가 하나의 유사 문자에 대응하는 경우가 있을 수 있다.
이 경우, 프로세서(130)는 텍스트에 포함된 문자 중 2개 이상의 연속적인 문자에 대한 유사 문자를 입력 영역(620)의 주변 영역에 표시하도록 디스플레이(110)를 제어할 수 있다.
구체적으로, 프로세서(130)는 커서로부터 기설정된 위치에 놓인 문자까지 식별 영역을 확대하여, 식별 영역에 놓인 문자와 발음이 유사한 문자가 존재하는지 여부를 판단하고, 판단된 문자와 유사한 문자를 표시하도록 디스플레이(110)를 제어할 수 있다.
가령, 프로세서(130)는 커서가 'c'에 대응되는 위치에 놓이는 경우, 'c'와 유사한 문자인 't'를 표시하도록 프로세서(130)를 제어할 수 있을 뿐만 아니라, 커서로부터 기설정된 위치에 놓인 문자(가령, 2개의 연속적인 문자)까지 식별 영역을 확대하여 'ac'와 발음이 유사한 문자가 존재하는지 판단하고, 판단된 유사 문자 'h'를 입력 영역(620)의 주변 영역에 표시할 수 있다.
한편, 프로세서(130)는 사용자 음성 입력에 기초하여 유사 문자를 표시할 수도 있다.
이와 관련하여 도 6c는 사용자 음성 입력에 기초하여 유사 문자를 표시하는 실시 예를 설명하기 위한 도면이다. 도 6c에 관한 설명 중 도 6a 및 도 6b와 중복되는 내용에 대하여는 편의상 설명을 생략하도록 한다.
프로세서(130)는 원격 제어 장치(200)로부터 수신된 명령에 기초하여 입력 영역(630)의 커서를 이동시키고, 사용자 음성을 수신할 수 있다. 이때, 커서는 사용자가 변경하고자 하는 문자에 대응되는 위치로 이동되며, 사용자 음성은 변경될 문자에 대응될 수 있다.
프로세서(130)는 사용자 음성을 수신하면 사용자 음성과 유사한 문자(632-1, 632-2, 633-3)를 입력 영역(630)의 주변 영역에 표시하도록 디스플레이(110)를 제어할 수 있다.
그리고, 프로세서(130)는 유사한 문자 중 하나를 선택하는 사용자 입력에 따라 입력 영역의 문자를 변경할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
우선, 텍스트를 입력받는 입력 영역을 포함하는 화면을 표시한다(S710). 여기에서 화면에 표시되는 입력 영역은 하나 이상일 수 있다.특히, 화면은 식별 정보를 입력 받는 제1 입력 영역 및 패스워드를 입력 받는 제2 입력 영역을 포함할 수 있다.
화면의 소스 코드(source code) 정보, 스크립트(script) 정보와 같은 화면 정보를 기초로, 화면에 대한 화면 정보를 획득할 수 있다. 획득한 화면 정보를 기초로, 화면의 종류, 입력 영역의 유무, 입력 영역이 존재할 경우 입력 영역의 타입을 식별할 수 있다.
그리고, 사용자 음성을 수신하고, 수신된 사용자 음성에 대응되는 텍스트를 획득할 수 있다(S720). 구체적으로, 사용자 음성에 대한 음성 인식 처리를 수행하여 사용자 음성에 대응되는 텍스트를 획득하고, 사용자 음성에 대응되는 텍스트가 입력 영역의 타입에 대응되는지 확인할 수 있다.
한편, 입력 영역이 복수 개인 경우, 사용자 음성으로부터 식별 정보에 대응되는 제1 텍스트 및 패스워드에 대응되는 제2 텍스트를 획득할 수 있다.
또한, 획득된 텍스트를 입력 영역에 입력하여 입력 영역에 대응되는 서비스 동작을 수행할 수 있다(S730).
구체적으로, 사용자 음성에 대응되는 텍스트가 입력 영역의 타입에 대응되는지 확인한 결과에 기초하여 사용자 음성에 대응되는 텍스트를 입력 영역에 입력할 수 있다.
한편, 식별 정보에 대응되는 제1 입력 영역 및 패스워드 정보에 대응되는 제2 입력 영역이 화면에 표시되고, 사용자 음성으로부터 식별 정보에 대응되는 제1 텍스트 및 패스워드에 대응되는 제2 텍스트를 획득한 경우, 제1 텍스트를 제1 입력 영역에 입력하고, 제2 텍스트를 제2 입력 영역에 입력하여 식별 정보에 대한 인증을 수행할 수 있다.
서비스 동작의 수행 결과에 따라, 확인된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고 획득된 복수의 유사 텍스트를 순차적으로 입력 영역에 입력하여 서비스 동작을 반복적으로 수행할 수 있다(S740).
구체적으로, 복수의 문자 정보, 복수의 문자 정보에 포함된 복수의 문자 각각과 유사한 유사 문자 정보 및 복수의 유사 문자 정보 각각에 대한 횟수 정보 중 적어도 하나를 포함하는 패턴 정보를 이용하여, 획득된 텍스트 내의 적어도 하나의 문자를 다른 유사 문자로 변경하여 복수의 유사 텍스트를 획득할 수 있다.
이때, 패턴 정보를 이용하여, 텍스트 내의 문자 중 유사 문자를 가지는 적어도 하나의 문자를 식별하고, 식별된 적어도 하나의 문자 각각에 대한 유사 문자를 식별할 수 있다.
그리고, 식별된 적어도 하나의 문자 각각을 획득된 텍스트에서 각 문자에 대한 유사 문자로 변경하여 복수의 유사 텍스트를 획득할 수 있다.
또 다른 실시 예에 따라, 패턴 정보를 이용하여 텍스트 내의 복수의 문자 중 유사 문자에 대한 횟수 또는 확률 정보가 기설정된 조건을 만족하는 문자를 식별할 수 있다. 그리고, 식별된 문자가 적어도 하나의 유사 문자를 가지는 경우, 유사 문자 각각에 대한 횟수 정보를 기초로 획득된 텍스트에서 식별된 문자를 적어도 하나의 유사 문자로 변경할 수 있다.
한편, 텍스트의 우선 순위를 고려하여 입력 영역에 입력되는 텍스트의 순서를 고려할 수도 있다.
구체적으로, 복수의 유사 텍스트 각각에 대해서 유사 텍스트 내의 유사 문자에 대응되는 횟수 정보에 기초하여 복수의 유사 텍스트 각각의 우선 순위를 확인하고, 확인된 우선 순위에 기초하여 순차적으로 복수의 유사 텍스트를 입력 영역에 입력하여 서비스 동작을 반복할 수 있다.
한편, 식별 정보에 대응되는 제1 입력 영역 및 패스워드 정보에 대응되는 제2 입력 영역이 화면에 표시되고, 사용자 음성으로부터 식별 정보에 대응되는 제1 텍스트 및 패스워드에 대응되는 제2 텍스트를 획득한 경우, 인증 결과에 따라 제1 텍스트 및 제1 텍스트와 발음이 유사한 복수의 제1 유사 텍스트를 포함하는 제1 리스트 및 제2 텍스트 및 상기 제2 텍스트와 발음이 유사한 복수의 제2 유사 텍스트를 포함하는 제2 리스트를 획득하고, 제1 리스트에 포함된 복수의 텍스트 및 제2 유사 텍스트에 포함된 복수의 텍스트를 제1 입력 영역 및 제2 입력 영역에 각각 순차적으로 입력하여 식별 정보에 대한 인증을 반복적으로 수행할 수 있다.
실시 예에 따라 패턴 정보를 이용하여, 제1 리스트에 포함된 복수의 텍스트 및 제2 리스트에 포함된 복수의 텍스트 각각의 우선 순위를 결정할 수 있다.
그리고, 제1 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 복수의 텍스트 중 하나를 선택하고, 제2 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 선택된 텍스트와 제2 리스트에 포함된 복수의 텍스트를 순차적으로 매핑할 수 있다.
또한, 매핑된 제1 리스트의 텍스트 및 제2 리스트의 텍스트를 제1 입력 영역 및 제2 입력 영역에 각각 순차적으로 입력하여 인증을 반복적으로 수행할 수 있다.
이와 같이, 반복적으로 서비스 동작을 수행한 결과에 기초하여 획득된 텍스트를 입력 영역에 표시할 수 있다.
표시된 텍스트 중 하나의 문자가 선택되면 선택된 문자에 대응되는 유사 문자를 표시할 수 있다.
또한, 표시된 유사 문자가 선택되면, 획득된 텍스트의 선택된 문자를 선택된 유사 문자로 교체하여 입력 영역 상에 표시할 수 있다.
이상에서, 전자 장치(100) 또는 전자 장치(100)를 통해 수행되는 것으로 기재된 다양한 동작들은, 전자 장치의 제어 방법 내지는 동작 방법의 형태로 하나 이상의 전자 장치를 통해 수행될 수 있다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(Programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processor), 컨트롤러(controller), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessor), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.
일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 사용자 장치 또는 관리자 장치에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 사용자 장치 및/또는 관리자 장치의 처리 동작을 상술한 특정 기기가 수행하도록 한다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.
100: 전자 장치 200: 원격 제어 장치
110: 디스플레이 120: 통신 인터페이스
130: 프로세서

Claims (19)

  1. 전자 장치의 제어 방법에 있어서,
    텍스트를 입력받는 입력 영역을 포함하는 화면을 표시하는 단계;
    사용자 음성을 수신하고, 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계;
    상기 획득된 텍스트를 상기 입력 영역에 입력하여 상기 입력 영역에 대응되는 서비스 동작을 수행하는 단계; 및
    상기 서비스 동작의 수행 결과에 따라, 상기 획득된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 상기 획득된 복수의 유사 텍스트를 순차적으로 상기 입력 영역에 입력하여 상기 서비스 동작을 반복적으로 수행하는 단계;를 포함하는 제어 방법.
  2. 제1항에 있어서,
    상기 반복적으로 수행하는 단계는,
    복수의 문자 정보, 상기 복수의 문자 정보에 포함된 복수의 문자 각각과 유사한 유사 문자 정보 및 상기 복수의 유사 문자 정보 각각에 대한 오인식 횟수 정보 중 적어도 하나를 포함하는 패턴 정보를 이용하여, 상기 획득된 텍스트 내의 적어도 하나의 문자를 다른 유사 문자로 변경하여 복수의 유사 텍스트를 획득하는 단계;를 포함하는 제어 방법.
  3. 제2항에 있어서,
    상기 복수의 유사 텍스트를 획득하는 단계는,
    상기 패턴 정보를 이용하여, 상기 텍스트 내의 문자 중 유사 문자를 가지는 적어도 하나의 문자를 식별하는 단계;
    상기 식별된 적어도 하나의 문자 각각에 대한 유사 문자를 식별하는 단계; 및
    상기 식별된 적어도 하나의 문자 각각을 상기 획득된 텍스트에서 상기 각 문자에 대한 유사 문자로 변경하여 복수의 유사 텍스트를 획득하는 단계;를 포함하는 제어 방법.
  4. 제2항에 있어서,
    상기 복수의 유사 텍스트를 획득하는 단계는,
    상기 패턴 정보를 이용하여 상기 텍스트 내의 복수의 문자 중 유사 문자에 대한 오인식 횟수 정보가 기설정된 조건을 만족하는 문자를 식별하는 단계; 및
    상기 식별된 문자가 적어도 하나의 유사 문자를 가지는 경우 상기 유사 문자 각각에 대한 오인식 횟수 정보를 기초로 상기 획득된 텍스트에서 상기 식별된 문자를 상기 적어도 하나의 유사 문자로 변경하는 단계;를 포함하는, 제어 방법.
  5. 제2항에 있어서,
    상기 반복적으로 수행하는 단계는,
    상기 복수의 유사 텍스트 각각에 대해서 유사 텍스트 내의 유사 문자에 대응되는 오인식 횟수 정보에 기초하여 상기 복수의 유사 텍스트 각각의 우선 순위를 확인하는 단계;
    상기 확인된 우선 순위에 기초하여 순차적으로 상기 복수의 유사 텍스트를 상기 입력 영역에 입력하여 상기 서비스 동작을 반복하는 단계;를 포함하는, 제어 방법.
  6. 제1항에 있어서,
    상기 화면은 식별 정보를 입력 받는 제1 입력 영역 및 패스워드 정보를 입력 받는 제2 입력 영역을 포함하고,
    상기 획득하는 단계는,
    상기 사용자 음성으로부터 식별 정보에 대응되는 제1 텍스트 및 패스워드에 대응되는 제2 텍스트를 획득하는 단계;를 포함하고,
    상기 서비스 동작을 수행하는 단계는,
    상기 제1 텍스트를 상기 제1 입력 영역에 입력하고 상기 제2 텍스트를 상기 제2 입력 영역에 입력하여, 상기 식별 정보에 대한 인증을 수행하는 단계;를 포함하고,
    상기 반복적으로 수행하는 단계는,
    상기 인증 결과에 따라, 상기 제1 텍스트 및 상기 제1 텍스트와 발음이 유사한 복수의 제1 유사 텍스트를 포함하는 제1 리스트 및 상기 제2 텍스트 및 상기 제2 텍스트와 발음이 유사한 복수의 제2 유사 텍스트를 포함하는 제2 리스트를 획득하고, 상기 제1 리스트에 포함된 복수의 텍스트 및 상기 제2 유사 텍스트에 포함된 복수의 텍스트를 상기 제1 입력 영역 및 상기 제2 입력 영역에 각각 순차적으로 입력하여 상기 식별 정보에 대한 인증을 반복적으로 수행하는 단계;를 포함하는, 제어 방법.
  7. 제6항에 있어서,
    상기 인증을 반복적으로 수행하는 단계는,
    복수의 문자 정보, 상기 복수의 문자 각각과 유사한 유사 문자 정보 및 상기 복수의 유사 문자 정보 각각에 대한 오인식 횟수 정보 중 적어도 하나를 포함하는 패턴 정보를 이용하여, 상기 제1 리스트에 포함된 복수의 텍스트 및 상기 제2 리스트에 포함된 복수의 텍스트 각각의 우선 순위를 결정하는 단계;
    상기 제1 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 상기 복수의 텍스트 중 하나를 선택하는 단계;
    상기 제2 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 상기 선택된 텍스트와 상기 제2 리스트에 포함된 복수의 텍스트를 순차적으로 매핑하는 단계; 및
    상기 매핑된 제1 리스트의 텍스트 및 제2 리스트의 텍스트를 상기 제1 입력 영역 및 상기 제2 입력 영역에 각각 순차적으로 입력하는 단계;를 포함하는, 제어 방법.
  8. 제1항에 있어서,
    상기 화면에 대한 화면 정보를 획득하는 단계; 및
    상기 획득한 화면 정보를 기초로 상기 화면에 포함된 입력 영역의 타입을 식별하는 단계;를 더 포함하고,
    상기 텍스트를 획득하는 단계는,
    상기 사용자 음성에 대한 음성 인식 처리를 수행하여 상기 사용자 음성에 대응되는 텍스트가 상기 입력 영역의 타입에 대응되는지 확인하는 단계;를 포함하고,
    상기 서비스 동작을 수행하는 단계는,
    상기 확인 결과에 기초하여 상기 사용자 음성에 대응되는 텍스트를 상기 입력 영역에 입력하는 단계;를 포함하는, 제어 방법.
  9. 제1항에 있어서,
    상기 반복적인 서비스 동작의 수행 결과에 기초하여 상기 획득된 텍스트를 상기 입력 영역에 표시하는 단계;
    상기 표시된 텍스트 중 하나의 문자가 선택되면 상기 선택된 문자에 대응되는 유사 문자를 표시하는 단계; 및
    상기 표시된 유사 문자가 선택되면, 상기 획득된 텍스트의 선택된 문자를 상기 선택된 유사 문자로 교체하여 상기 입력 영역 상에 표시하는 단계;를 포함하는 제어 방법.
  10. 전자 장치에 있어서,
    디스플레이;
    원격 제어 장치와 통신을 수행하는 통신 인터페이스 및
    텍스트를 입력받는 입력 영역을 포함하는 화면을 표시하도록 상기 디스플레이를 제어하고,
    상기 통신 인터페이스를 통하여 사용자 음성 신호를 수신하면, 상기 사용자 음성 신호에 포함된 사용자 음성에 대응되는 텍스트를 획득하고,
    상기 획득된 텍스트를 상기 입력 영역에 입력하여 상기 입력 영역에 대응되는 서비스 동작을 수행하고,
    상기 서비스 동작의 수행 결과에 따라, 상기 획득된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 상기 획득된 복수의 유사 텍스트를 순차적으로 상기 입력 영역에 입력하여 상기 서비스 동작을 반복적으로 수행하는 프로세서;를 포함하는, 전자 장치.
  11. 제10항에 있어서,
    복수의 문자 정보, 상기 복수의 문자 각각과 유사한 유사 문자 정보 및 상기 복수의 유사 문자 정보 각각에 대한 오인식 횟수 정보 중 적어도 하나를 포함하는 패턴 정보가 저장된 메모리;를 더 포함하고,
    상기 프로세서는,
    상기 패턴 정보를 이용하여 상기 획득된 텍스트 내의 적어도 하나의 문자를 다른 유사 문자로 변경하여 복수의 유사 텍스트를 획득하는, 전자 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 패턴 정보를 이용하여, 상기 텍스트 내의 문자 중 유사 문자를 가지는 적어도 하나의 문자를 식별하고,
    상기 식별된 적어도 하나의 문자 각각에 대한 유사 문자를 식별하며,
    상기 식별된 적어도 하나의 문자 각각을 상기 획득된 텍스트에서 상기 각 문자에 대한 유사 문자로 변경하여 복수의 유사 텍스트를 획득하는, 전자 장치.
  13. 제11항에 있어서,
    상기 프로세서는,
    상기 패턴 정보를 이용하여 상기 텍스트 내의 복수의 문자 중 유사 문자에 대한 오인식 횟수 정보가 기설정된 조건을 만족하는 문자를 식별하고, 상기 식별된 문자가 적어도 하나의 유사 문자를 가지는 경우 상기 유사 문자 각각에 대한 오인식 횟수 정보를 기초로 상기 획득된 텍스트에서 상기 식별된 문자를 상기 적어도 하나의 유사 문자로 변경하는, 전자 장치.
  14. 제11항에 있어서,
    상기 복수의 유사 텍스트 각각에 대해서 유사 텍스트 내의 유사 문자에 대응되는 오인식 횟수 정보에 기초하여 상기 복수의 유사 텍스트 각각의 우선 순위를 확인하고,
    상기 확인된 우선순위에 기초하여 순차적으로 상기 복수의 유사 텍스트를 상기 입력 영역에 입력하여 상기 서비스 동작을 반복하는, 전자 장치.
  15. 제10항에 있어서,
    상기 화면은 식별 정보를 입력 받는 제1 입력 영역 및 패스워드 정보를 입력 받는 제2 입력 영역을 포함하고,
    상기 프로세서는,
    상기 사용자 음성으로부터 식별 정보에 대응되는 제1 텍스트 및 패스워드에 대응되는 제2 텍스트를 획득하고,
    상기 제1 텍스트를 상기 제1 입력 영역에 입력하고 상기 제2 텍스트를 상기 제2 입력 영역에 입력하여, 상기 식별 정보에 대한 인증을 수행하고,
    상기 인증 결과에 따라, 상기 제1 텍스트 및 상기 제1 텍스트와 발음이 유사한 복수의 제1 유사 텍스트를 포함하는 제1 리스트 및 상기 제2 텍스트 및 상기 제2 텍스트와 발음이 유사한 복수의 제2 유사 텍스트를 포함하는 제2 리스트를 획득하고, 상기 제1 리스트에 포함된 복수의 텍스트 및 상기 제2 유사 텍스트에 포함된 복수의 텍스트를 상기 제1 입력 영역 및 상기 제2 입력 영역에 각각 순차적으로 입력하여 상기 식별 정보에 대한 인증을 반복적으로 수행하는, 전자 장치.
  16. 제15항에 있어서,
    복수의 문자 정보, 상기 복수의 문자 각각과 유사한 유사 문자 정보 및 상기 복수의 유사 문자 정보 각각에 대한 오인식 횟수 정보 중 적어도 하나를 포함하는 패턴 정보가 저장된 메모리;를 더 포함하고,
    상기 프로세서는,
    상기 패턴 정보를 이용하여, 상기 제1 리스트에 포함된 복수의 텍스트 및 상기 제2 리스트에 포함된 복수의 텍스트 각각의 우선 순위를 결정하고,
    상기 제1 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 상기 복수의 텍스트 중 하나를 선택하고, 상기 제2 리스트에 포함된 복수의 텍스트의 우선 순위에 기초하여 상기 선택된 텍스트와 상기 제2 리스트에 포함된 복수의 텍스트를 순차적으로 매핑하며,
    상기 매핑된 제1 리스트의 텍스트 및 제2 리스트의 텍스트를 상기 제1 입력 영역 및 상기 제2 입력 영역에 각각 순차적으로 입력하는, 전자 장치.
  17. 제10항에 있어서,
    상기 프로세서는,
    상기 화면에 대한 화면 정보를 획득하고,
    상기 획득한 화면 정보를 기초로 상기 화면에 포함된 입력 영역의 타입을 식별하고,
    상기 사용자 음성에 대한 음성 인식 처리를 수행하여 상기 사용자 음성에 대응되는 텍스트가 상기 입력 영역의 타입에 대응되는지 확인하고,
    상기 확인 결과에 기초하여 상기 사용자 음성에 대응되는 텍스트를 상기 입력 영역에 입력하는, 전자 장치.
  18. 제10항에 있어서,
    상기 프로세서는,
    상기 반복적인 서비스 동작의 수행 결과에 기초하여 상기 획득된 텍스트를 상기 입력 영역에 표시하고,
    상기 표시된 텍스트 중 하나의 문자가 선택되면 상기 선택된 문자에 대응되는 유사 문자를 표시하고,
    상기 표시된 유사 문자가 선택되면, 상기 획득된 텍스트의 선택된 문자를 상기 선택된 유사 문자로 교체하여 상기 입력 영역 상에 표시하는, 전자 장치.
  19. 전자 장치의 제어 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체에 있어서,
    화면에 포함된 텍스트를 입력받는 입력 영역을 식별하는 단계;
    사용자 음성에 대응되는 텍스트를 획득하는 단계;
    상기 획득된 텍스트를 상기 입력 영역에 입력하여 상기 입력 영역에 대응되는 서비스 동작을 수행하는 단계; 및
    상기 서비스 동작의 수행 결과에 따라, 상기 확인된 텍스트와 발음이 유사한 복수의 유사 텍스트를 획득하고, 상기 획득된 복수의 유사 텍스트를 순차적으로 상기 입력 영역에 입력하여 상기 서비스 동작을 반복적으로 수행하는 단계;를 포함하는, 기록매체.


KR1020200093017A 2020-07-27 2020-07-27 전자 장치 및 이의 제어 방법 KR20220013732A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200093017A KR20220013732A (ko) 2020-07-27 2020-07-27 전자 장치 및 이의 제어 방법
US17/425,560 US20220319509A1 (en) 2020-07-27 2021-06-18 Electronic apparatus and controlling method thereof
PCT/KR2021/007655 WO2022025428A1 (ko) 2020-07-27 2021-06-18 전자 장치 및 이의 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200093017A KR20220013732A (ko) 2020-07-27 2020-07-27 전자 장치 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
KR20220013732A true KR20220013732A (ko) 2022-02-04

Family

ID=80035608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200093017A KR20220013732A (ko) 2020-07-27 2020-07-27 전자 장치 및 이의 제어 방법

Country Status (3)

Country Link
US (1) US20220319509A1 (ko)
KR (1) KR20220013732A (ko)
WO (1) WO2022025428A1 (ko)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034292A (ja) * 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
JP2004094158A (ja) * 2002-09-04 2004-03-25 Ntt Comware Corp 母音検索を利用した声紋認証装置
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US8055502B2 (en) * 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
JP2009116277A (ja) * 2007-11-09 2009-05-28 Panasonic Electric Works Co Ltd 音声認識装置
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8738356B2 (en) * 2011-05-18 2014-05-27 Microsoft Corp. Universal text input
KR102357321B1 (ko) * 2014-08-27 2022-02-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
KR102298457B1 (ko) * 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6712940B2 (ja) * 2016-10-27 2020-06-24 トッパン・フォームズ株式会社 音声入力装置、音声入力方法
KR102375800B1 (ko) * 2017-04-28 2022-03-17 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR102443632B1 (ko) * 2017-12-18 2022-09-15 삼성전자주식회사 전자 장치, 전자 시스템 및 그 제어 방법

Also Published As

Publication number Publication date
US20220319509A1 (en) 2022-10-06
WO2022025428A1 (ko) 2022-02-03

Similar Documents

Publication Publication Date Title
KR102261552B1 (ko) 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
EP2796993B1 (en) Display apparatus and control method capable of performing an initial setting
KR102453833B1 (ko) 전자 장치 및 그 제어 방법
US9659561B2 (en) Recording support electronic device and method
KR20220130655A (ko) 질의 응답을 위한 디스플레이 장치 및 방법
US20160139877A1 (en) Voice-controlled display device and method of voice control of display device
US20140191949A1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
US20140278441A1 (en) Systems and methods for switching processing modes using gestures
KR20140008835A (ko) 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치
WO2015088669A1 (en) Multiple character input with a single selection
KR20150090966A (ko) 전자 장치 및 전자 장치의 검색 결과 제공 방법
US20210074299A1 (en) Electronic apparatus for selecting ai assistant and response providing method thereof
KR20160011230A (ko) 입력 처리 방법 및 장치
US20130268259A1 (en) Translation apparatus and method thereof
KR20150087665A (ko) 핸드라이팅 정보 운용 방법 및 이를 지원하는 전자 장치
CN109189258A (zh) 记录笔记的方法及装置
KR20220013732A (ko) 전자 장치 및 이의 제어 방법
US20200152172A1 (en) Electronic device for recognizing abbreviated content name and control method thereof
KR20220143622A (ko) 전자 장치 및 그 제어 방법
US11399216B2 (en) Electronic apparatus and controlling method thereof
KR101702760B1 (ko) 가상 키보드 음성입력 장치 및 방법
KR20160021644A (ko) 대체 서비스 제공 방법 및 그 전자 장치
KR101335436B1 (ko) 한글 입력 검색 단말기 및 이를 이용한 정보검색방법
CN109841209A (zh) 语音识别设备和系统
KR102089593B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법