KR20140111574A - 오디오 명령에 따른 동작을 수행하는 장치 및 방법 - Google Patents

오디오 명령에 따른 동작을 수행하는 장치 및 방법 Download PDF

Info

Publication number
KR20140111574A
KR20140111574A KR1020130087741A KR20130087741A KR20140111574A KR 20140111574 A KR20140111574 A KR 20140111574A KR 1020130087741 A KR1020130087741 A KR 1020130087741A KR 20130087741 A KR20130087741 A KR 20130087741A KR 20140111574 A KR20140111574 A KR 20140111574A
Authority
KR
South Korea
Prior art keywords
command
image
audio
quot
mobile terminal
Prior art date
Application number
KR1020130087741A
Other languages
English (en)
Inventor
길현석
모하메드 나시어 어든
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20140111574A publication Critical patent/KR20140111574A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

본 발명의 실시 예는 오디오 명령에 따른 동작을 수행하는 장치 및 방법이 제공한다. 상기 방법은 오디오 명령을 수신하는 단계와, 상기 수신된 오디오 명령에 기초하여 화면에 표시된 이미지로부터 명령 대상을 결정하는 단계와, 상기 결정된 명령 대상을 기초하여 상기 수신된 오디오 명령과 관련된 기능을 수행하는 단계를 포함할 수 있다.

Description

오디오 명령에 따른 동작을 수행하는 장치 및 방법{APPARATUS AND METHOD FOR PERFORMING AN ACTION ACCORDING TO AN AUDIO COMMAND}
본 발명의 다양한 실시 예는 오디오 명령에 따른 동작을 수행하는 장치 및 방법에 관한 것이다. 보다 상세하게, 본 발명의 다양한 실시 예는 이미지 처리를 이용하여 오디오 명령에 따른 동작을 수행하는 장치 및 방법에 관한 것이다.
모바일 단말들은 사용자 간의 무선 통신을 제공하기 위해 개발되고 있다. 기술이 발전함에 따라, 모바일 단말들은 이제 단순한 통화 기능을 넘어, 많은 추가적인 기능들을 제공한다. 예를 들면, 모바일 단말들은 알람, 단문 메시징 서비스(SMS), 멀티미디어 메시징 서비스(MMS), 이메일, 게임들, 근거리 통신의 원격 제어, 탑재된 디지털 카메라를 이용한 이미지 캡처 기능, 오디오 및 동영상 컨텐츠를 제공하기 위한 멀티미디어 기능, 스케줄링 기능 등을 제공할 수 있다. 현재 수많은 기능들이 제공됨에 따라, 모바일 단말은 일상생활의 실질적인 필수품이 되고 있다.
관련 기술에 따른 많은 모바일 단말들에는 음성 인식 시스템이 장착되어 왔다. 음성 인식 시스템은 사용자가 모바일 단말 상의 마이크 근처에서 말함으로써 명령 또는 데이터를 입력할 수 있도록 구성된다. 관련 기술에 따른 모바일 단말들은 음성 인식 시스템을 통해 입력된 데이터가 사용되는 어플리케이션을 저장하도록 구성될 수 있다. 예를 들면, 어플리케이션은 워드 프로세스 프로그램에서 문서의 받아쓰기의 일부분으로 입력된 데이터를 사용할 수 있다. 또한, 관련 기술에 따른 모바일 단말들은 음성 인식 시스템을 통해 입력된 명령에 응답하는 어플리케이션을 저장하도록 구성될 수 있다. 예를 들면, 어플리케이션은 음성 인식 시스템을 통해 입력된 명령에 따라 기능을 수행하거나 또는 명령을 실행할 수 있다. 다시 말해, 음성 인식 시스템은 단어, 구문, 사운드 등을 인식할 수 있고, 음성 인식 시스템 및/또는 어플리케이션은 단어, 구문, 사운드 등이 미리 정의된 기능 또는 명령과 관련되는지 여부를 결정할 수 있다. 단어, 구문, 사운드 등이 미리 정의된 기능 또는 명령과 관련되면, 어플리케이션은 관련된 미리 정의된 기능 또는 명령을 실행할 수 있다. 음성 인식 시스템을 통해 인식될 수 있고 수행될 수 있는 미리 정의된 기능 또는 명령의 예로는 “카메라 실행”이라는 구문에 대응하여 카메라 어플리케이션을 실행(initializing)하거나 구동(opening)하는 것 및 “문자 메시지 전송”이라는 구문에 대응하여 문자 메시지 어플리케이션을 구동(opening)하거나 문자 메시지를 전송(sending)하는 것을 포함할 수 있다.
이와 같이 상술한 음성 인식 시스템은 화면에 표시 중인 이미지를 고려하지 못하고 있으며, 제한된 기능만을 실행할 수 있다는 문제점이 존재한다.
따라서 최근에는 이미지 처리를 이용하여 오디오 명령에 따른 동작을 수행하는 장치 및 방법에 대한 요구가 증가하고 있다.
한편, 이상의 기재는 오로지 본 발명의 이해를 돕기 위한 배경 정보로만 제공될 뿐, 상기 기재가 본 발명에 대한 종래 기술로서 적용 가능할 것인지에 대해서는 어떠한 결정도 주장도 하지 않았다.
본 발명의 실시 예들은 적어도 전술한 문제들 및/또는 단점들을 다루기 위한 것이며 적어도 후술되는 장점들을 제공하기 위한 것이다. 따라서 본 발명의 실시 예들은 이미지 처리를 이용하여 오디오 명령에 따른 동작을 수행하는 방법 및 장치를 제공할 수 있다.
본 발명의 실시 예에 따르면, 오디오 명령에 따른 동작을 수행하는 방법이 제공된다. 상기 방법은 오디오 명령을 수신하는 단계; 상기 수신된 오디오 명령에 기초하여 화면에 표시된 이미지로부터 명령 대상을 결정하는 단계; 및 상기 결정된 명령 대상을 기초하여 상기 수신된 오디오 명령과 관련된 기능을 수행하는 단계를 포함할 수 있다.
본 발명의 다른 실시 예에 따르면, 오디오 명령에 따른 동작을 수행하는 장치가 제공된다. 상기 장치는 이미지를 표시하는 표시부; 오디오 명령을 수신하는 오디오 처리부; 및 상기 수신된 오디오 명령에 기초하여 상기 표시된 이미지로부터 명령 대상을 결정하고, 상기 결정된 명령 대상을 기초하여 상기 수신된 오디오 명령과 관련된 기능을 수행하는 적어도 하나의 제어부를 포함할 수 있다.
이상에서 설명한 본 발명의 다양한 실시 예들은 이미지 처리 기반의 오디오 명령 처리 기능을 제공할 수 있다. 이로 인하여, 본 발명의 실시 예들은 오디오 명령만으로 단말의 기능을 용이하게 제어할 수 있다.
본 발명에 따른 실시예들의 여러 측면들, 특징들, 장점들은 첨부된 도면들을 참조한 하기의 설명으로부터 보다 명확해질 것이다.
도 1a 내지 도 1c는 본 발명의 실시예에 따른 감지된 사용자 입력에 기초한 명령을 수행하는 방법을 도시하는 순서도들이다.
도 2는 본 발명의 실시예에 따른 요청된 명령의 출현 수를 도시하는 도면이다.
도 3은 본 발명의 실시예에 따른 감지된 사용자 입력에 기초한 명령의 실행을 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 모바일 단말의 구성을 개략적으로 도시하는 블록도이다.
도면들을 통틀어, 동일한 참조번호는 동일하거나 혹은 유사한 구성요소, 특징 및 구조를 나타내기 위해 사용될 수 있다.
첨부한 도면들을 참조한 다음의 설명은 청구범위 및 그 균등물들에 의해 정의되는 본 발명의 실시예들에 대한 포괄적인 이해를 돕기 위해 제공된다. 이해를 돕기 위해 다양한 특정 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서 이 기술 분야에서 통상의 지식을 가진 자라면 여기에 설명된 실시예들이 본 발명의 범위 및 사상을 벗어나지 않고 다양하게 변경되거나 수정될 수 있음을 이해할 수 있을 것이다. 또한, 공지된 기능들과 구성들에 대한 설명은 명료성과 간결성을 위해 생략된다.
다음의 설명 및 청구범위에 사용되는 용어들과 단어들은 사전적인 의미들로 한정되지 않으며, 단지 발명의 명확하고 일관된 이해가 가능하도록 발명자에 의해 사용된다. 따라서 본 발명의 실시예들에 대한 다음의 설명은 첨부된 청구범위 및 그 균등물들에 의해 정의되는 본 발명을 한정하기 위한 것이 아니라 단지 설명을 위한 목적으로 제공된다는 것은 이 기술 분야에서 통상의 지식을 가진 자에게 있어 자명한 것이다.
단수형으로 기재된 용어는 문맥상 명확히 그렇지 않음을 명시하지 않는 한 복수의 대상들을 포함하여 지칭하는 것으로 해석해야 한다. 따라서 “구성요소의 표면”이라고 기재된 경우의 예에서 표면은 하나의 표면 또는 그 이상의 표면들을 언급하는 것으로 이해되어야 한다.
“실질적으로(substantially)”라는 용어는 설명된 특징이나 파라미터나 값이 정확히 달성될 필요가 있는 것이 아니라, 공차, 측정 에러, 측정 정확도의 한계, 이 기술 분야에서 통상의 지식을 가진 자에게 알려진 다른 요인 등과 같은 편차나 변화에 의해, 제공하고자 의도되었던 효과를 불가능하게 하지 않는 양만큼 발생할 수도 있음을 의미한다.
본 발명의 실시예들은 수신된 오디오 명령에 따라 단말 상에서 기능을 수행하기 위한 장치 및 방법을 포함한다.
본 발명의 실시예들에 따르면, 단말은 명령 동작 및 명령 대상(target)을 식별하기 위한 수신된 오디오 명령을 파싱할 수 있다.
본 발명의 실시예들에 따르면, 단말은 식별된 명령 대상의 출현들을 화면이 표시한다고 판단되면, 단말은 사용자를 위한 복수의 식별된 명령 대상들을 하이라이트 표시하거나 강조한다. 본 발명의 실시예들에 따르면, 단말은 복수의 명령 대상들에 대하여 고유 번호 또는 다른 표시를 할당할 수 있다. 예를 들면, 단말은 의도하는 명령 대상의 선택이 가능하도록 복수의 명령 대상들 각각에 대하여 고유 번호 또는 다른 표시를 할당할 수 있다.
본 발명의 실시예들에 따르면, 단말은 표시된 화면이 명령 대상의 출현을 포함하지 않는다고 판단되면, 사용자가 의도하는 것으로 판단된 명령 대상에 대응하는 추천 명령 대상을 제공할 수 있다.
본 발명의 실시예들은 오디오 명령을 수신하고, 오디오 명령에 따른 명령 대상 및 명령 동작을 결정하며, 단말에 의해 표시된 이미지 상에서 이미지 처리 결과에 따른 명령 대상과 관련된 기능을 수행할 수 있다.
본 발명의 실시예들에 따르면, 단말은 모바일 단말에 대응할 수 있다. 본 발명의 실시예를 설명하기 위하여, 단말은 모바일 단말인 것으로 설명된다. 하지만, 이 기술 분야에서 통상의 지식을 가진 자라면 모바일 단말에 한정되지 않는 것으로 본 발명의 실시예들을 이해할 수 있을 것이다.
도 1a 내지 도 1c는 본 발명의 실시예에 따른 감지된 사용자 입력에 기초한 명령을 수행하는 방법을 도시하는 순서도들이다.
도 1a 내지 도 1c를 참조하면, 모바일 단말은 110 단계에서 사운드 입력(sound input)을 감지한다. 예를 들면, 모바일 단말은 모바일 단말이 동작(예컨대, 명령, 기능 등)을 수행하도록 하는 명령에 대응하는 오디오 명령(예컨대, 요청된 명령)을 수신할 수 있다. 모바일 단말은 사용자가 오디오 명령을 입력하고자 함을 나타내는 키를 누르는 것에 대응하여 요청된 명령을 수신할 수 있다.
120 단계에서, 모바일 단말은 사운드 입력이 일반적 명령(universal command)에 대응하는지 여부를 판단한다. 예를 들면, 모바일 단말은 오디오 명령이 미리 정의된 특정 기능에 관한 미리 정의된 명령에 대응하는지 여부를 결정한다. 일반적 명령들은 “카메라 실행”, “달력 실행” 등의 명령을 포함할 수 있다. 즉, 본 발명의 실시예에 따르면, 일반적 명령의 수신 및 실행은 명령들(예컨대, 단어, 구문 등)의 미리 정의된 매핑에 따라 오디오 명령이 미리 정의된 기능에 관한 미리 정의된 명령에 대응하는지를 확인하고, 대응하는 경우 그 기능을 수행하는 것 외에는 추가 프로세스를 필요로 하지 않는다.
만약 사운드 입력이 일반적 명령에 대응하는 것으로 모바일 단말이 120 단계에서 판단하면, 모바일 단말은 122 단계로 진행하여 일반적 명령에 대응하는 기능을 수행한다. 그런 다음, 모바일 단말은 프로세스를 종료한다.
반면에, 모바일 단말이 120 단계에서 사운드 입력이 일반적 명령에 대응하지 않는 것으로 판단하면, 모바일 단말은 130 단계로 진행하여 감지된 사운드 입력(예컨대, 요청된 명령에 대응하는 오디오 명령)을 명령 동작 및 명령 대상으로 구분하여 파싱(Parsing)한다. 예를 들면, 오디오 명령이 “다음 클릭”이라는 구문에 대응하면, 모바일 단말은 오디오 명령을 “클릭”에 대응하는 명령 동작 및 “다음”에 대응하는 명령 대상으로 파싱한다. 다른 예로, 오디오 명령이 “아래로 스크롤”이라는 구문에 대응하면, 모바일 단말은 오디오 명령을 “스크롤”에 대응하는 명령 동작 및 “아래로”에 대응하는 명령 대상으로 파싱한다. 본 발명의 실시예에 따르면, 오디오 명령은 요청된 동작 및 관련 단어(예컨대, “OK 클릭”, “다음 클릭”, “아래로 스크롤”)를 포함할 수 있다. 또한, 오디오 명령은 요청된 동작(예컨대, 명령 동작에 대응하는) 및 일련의 단어들 또는 구문(예컨대, 명령 대상에 대응하는)을 포함할 수 있다. 예를 들면, 오디오 명령은 “위에서 아래로 스크롤”이 될 수 있다. 모바일 단말은 동작 “스크롤”이 명령 동작에 대응하고, 일련의 단어들 또는 구문 “위에서 아래로”가 명령 대상에 대응하도록 오디오 명령을 파싱한다. 다른 예로, 오디오 명령이 “사과부터 오렌지까지 하이라이트 표시”(예컨대, 사과부터 오렌지까지 드래그 또는 스윕)에 대응하면, 모바일 단말은 동작 “하이라이트 표시(드래그 또는 스윕)”가 명령 동작에 대응하고, 일련의 단어들 “사과”부터 “오렌지”까지 또는 구문 “사과부터 오렌지까지”가 명령 대상에 대응하도록 오디오 명령을 파싱한다.
본 발명의 실시예들에 따르면, 명령 대상은 단어 또는 텍스트, 또는 통화 화면에 표시되는 통화 심볼, 키보드 상의 심볼 등과 같은 미리 정의된 심볼에 대응할 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말은 오디오 명령을 명령 동작 및 적어도 하나의 미리 정의된 동작에 기초한 명령 대상으로 파싱할 수 있다. 예를 들면, 모바일 단말은 오디오 명령을 적어도 하나의 미리 정의된 동작을 포함하는 미리 정의된 동작들의 집합과 비교할 수 있다. 모바일 단말은 오디오 명령이 미리 정의된 동작들의 집합에서 미리 정의된 동작들 중 하나에 대응하는 명령을 포함하는 것으로 판단되면, 그러한 미리 정의된 동작이 명령 동작에 대응하는 것으로 결정한다. 본 발명의 실시예들에 따르면, 미리 정의된 동작들의 집합은 클릭(click), 스윕(swipe), 무브(move), 슬라이드(slide), 누름(press), 드래그(drag), 스크롤(scroll) 등을 포함할 수 있다.
140 단계에서, 모바일 단말은 명령 동작이 미리 정의된 명령에 대응하는지 여부를 판단한다(예컨대, 미리 정의된 동작들의 집합에 저장된 명령). 본 발명의 실시예들에 따르면, 모바일 단말은 오디오 명령이 미리 정의된 명령을 포함하는지의 여부에 기초하여 명령 동작이 미리 정의된 명령에 대응하는지의 여부를 판단할 수 있다.
만약 140 단계에서 명령 동작이 미리 정의된 명령에 대응하지 않는 것으로 판단되면, 모바일 단말은 프로세스를 종료한다.
반면에, 140 단계에서 명령 동작이 미리 정의된 명령에 대응하는 것으로 판단되면, 모바일 단말은 150 단계로 진행하여 이미지(예컨대, 모바일 단말의 화면에 표시된 이미지, 사용자 인터페이스(UI) 상에 표시된 이미지 등)에 대한 이미지 처리를 수행한다. 예를 들어, 본 발명의 실시예들에 따르면, 모바일 단말은 텍스트를 식별하기 위하여 이미지에 대한 이미지 처리를 수행한다. 모바일 단말은 이미지에 대하여 이미지 처리를 수행하고, 파싱된 명령 대상에 대응하는 이미지에서 텍스트를 식별한다. 본 발명의 실시예들에 따르면, 모바일 단말은 미리 정의된 언어 설정을 이용함으로써 파싱된 명령 대상에 대응하는 처리된 이미지로부터 텍스트를 식별할 수 있다. 예를 들면, 기본 언어(default language)로 영어를 사용하도록 설정되어 있으면, 모바일 단말은 처리된 이미지 안의 어느 텍스트가 파싱된 명령 대상에 대응하는지의 여부를 판단하기 위하여 왼쪽에서 오른쪽으로(그리고 위에서 아래로) 처리된 이미지를 분석할 수 있다. 다른 예로, 기본 언어로 히브리어 또는 아랍어를 사용하도록 설정되어 있으면, 모바일 단말은 처리된 이미지 안의 어느 텍스트가 파싱된 명령 대상에 대응하는지 여부를 판단하기 위하여 오른쪽에서 왼쪽으로 처리된 이미지를 분석할 수 있다.
또는, 본 발명의 다른 실시예들에 따르면, 모바일 단말은 오디오 명령에서 사용되는 언어를 식별할 수 있고, 상기 식별된 언어에 따라 상기 처리된 이미지에서 텍스트를 분석할 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말은 처리된 이미지에서 명령 대상에 대응하는(예컨대, 매칭) 텍스트를 하이라이트 표시할 수 있다. 그리고 모바일 단말은 이미지의 나머지 부분을 회색으로 희미하게 표시(또는 제거)할 수 있다. 다시 말해, 본 발명의 실시예들에 따르면, 처리된 이미지 안에서 명령 대상에 대응하는 텍스트는 처리된 이미지의 나머지 부분 또는 텍스트의 나머지 부분과 비교하여 상대적으로 두드러지도록(강조되도록) 처리될 수 있다.
160 단계에서, 모바일 단말은 명령 대상의 출현(Occurrence) 횟수를 판별한다(예컨대, 명령 동작과 관련된 요청된 명령). 예를 들면, 모바일 단말은 이미지에 대한 이미지 처리를 수행한 후, 처리된 이미지의 텍스트에 포함된 명령 대상의 사례(instance)들의 개수를 판별한다. 예를 들면, 만약 오디오 명령이 “다음 클릭”에 대응하면, 모바일 단말은 “다음”이라는 단어가 처리된 이미지의 텍스트에서 나타나는 횟수를 판별한다.
170 단계에서, 모바일 단말은 처리된 이미지의 텍스트에서 명령 대상의 출현 수가 0인지 판별한다.
만약 170 단계에서 명령 대상의 출현 수가 0이면, 모바일 단말은 프로세스를 종료한다.
반면에, 170 단계에서 명령 대상의 출현 수가 0이 아닌 것으로 판단되면, 모바일 단말은 180 단계로 진행한다.
180 단계에서, 모바일 단말은 처리된 이미지의 텍스트에서 명령 대상의 출현 수가 1인지 판별한다.
180 단계에서 명령 대상의 출현 수가 1인 것으로 판단되면, 모바일 단말은 도 1b의 182 단계로 진행하여 요청된 명령을 수행한다. 예를 들면, 요청된 명령이 “다음 클릭”에 대응하고, “다음”이 처리된 이미지에서 한번 나타나면, 모바일 단말은 “다음 클릭”과 관련된 기능을 수행한다. 예를 들면, 모바일 단말은 “다음”이 클릭된 것과 같이 “다음”에 대응하는 텍스트의 좌표 상에 터치 이벤트를 생성할 수 있다. 다른 예로, 요청된 명령이 “사과부터 오렌지까지 스윕”에 대응하고, 처리된 이미지 내의 텍스트가 오렌지라는 단어 앞쪽에 사과라는 단어가 단지 한번 나타나면, 모바일 단말은 사과라는 단어로부터 오렌지라는 단어까지 스윕하기 위하여(예컨대, 이미지 내에서 사과라는 단어와 오렌지라는 단어 사이의 모든 부분들을 하이라이트 표시하기 위해) 터치 이벤트를 생성할 수 있다. 그런 다음, 모바일 단말은 프로세스를 종료한다.
반면에, 180 단계에서 명령 대상의 출현 수가 1이 아닌 것으로 판단되면, 모바일 단말은 도 1c의 184 단계로 진행하여 요청된 명령에 대응하는 명령 대상의 출현들을 각각 식별할 수 있다. 예를 들면, 모바일 단말은 처리된 이미지 내에서 명령 대상에 대응하는 텍스트들을 하이라이트 표시할 수 있다. 다른 예로, 모바일 단말은 처리된 이미지 내에서 명령 대상에 대응하지 않는 부분들을 희미하게 표시할 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말은 명령 대상의 출현들 각각에 대하여 고유의 번호 또는 다른 표시를 할당할 수 있다. 본 발명의 실시예들에 따르면, 모바일 단말은 출현의 순서에 따라 고유한 번호 또는 다른 표시를 할당할 수 있다. 출현의 순서는 왼쪽에서 오른쪽으로, 위에서 아래로 처리된 이미지의 분석을 이용하여 결정될 수 있다. 예를 들면, 출현의 순서는 사용자의 모국어 또는 모바일 단말의 기본 언어에 따라 결정될 수 있다. 모바일 단말이 영어를 기본 언어로 설정하고 있으면, 출현의 순서는 왼쪽에서 오른쪽으로(그리고 위에서 아래로) 보이는 출현의 순서에 기초하여 결정될 수 있다.
186 단계에서, 모바일 단말은 식별된 요청 명령들(예컨대, 명령 대상의 식별된 출현) 중 어느 것이 사용자가 수행하기를 원하는 요청 명령인지에 관한 입력을 수신한다. 예를 들어, 본 발명의 실시예들에 따르면, 처리된 이미지가 명령 대상의 복수 출현들을 포함하는 것으로 판단되면, 모바일 단말은 사용자가 명령 대상의 어떤 출현이 사용자가 모바일 단말이 수행하기를 원하는 요청 명령에 대응하는지를 선택하도록 질의할 수 있다. 요청된 명령들 중 어느 것을 모바일 단말이 수행하도록 사용자가 원하는지에 대한 입력은 오디오 명령 또는 터치스크린을 이용한 명령 대상의 출현의 선택을 통해 이루어질 수 있다.
188 단계에서, 모바일 단말은 수신된 입력에 대응하는 식별된 요청 명령을 수행한다. 예를 들면, 처리 이미지 상의 명령 대상들의 출현들 중 어느 것을 모바일 단말이 수행하도록 사용자가 원하는지에 대하여 확인되면, 모바일 단말은 대응하는 명령(예컨대, 모바일 단말은 명령과 관련된 기능)을 수행한다.
본 발명의 실시예들에 따르면, 도 1a 내지 도 1c와 관련하여 설명된 각 단계는 생략되거나 다른 단계와 결합될 수 있다. 예를 들면, 160, 170 및 180 단계들은 단일 조건 단계로 통합될 수 있다.
본 발명의 다른 실시예들에 따르면, 120 및 122 단계들을 생략하고, 사운드 입력 감지 시, 감지된 사운드 입력에 기초하여 화면에 표시된 이미지로부터 명령 대상을 결정하고, 결정된 명령 대상과 관련된 기능을 수행하도록 할 수도 있다.
본 발명의 실시예들에 따르면, 모바일 단말은 음성 힌트들을 사용자에게 제공할 수 있다. 예를 들면, 184 단계 이후에, 모바일 단말은 명령 대상의 수에 관한 오디오 통지를 사용자에게 제공할 수 있다. 다른 예로, 모바일 단말은 화면상에 표시되는 버튼들 또는 링크들과 같은 추천 명령 대상들을 사용자에게 제공할 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말이 사운드 입력을 인식하지 못하면(예컨대, 모바일 단말이 오디오 명령을 인식하지 못하면), 모바일 단말은 사용자에게 경고 메시지(알람)를 출력할 수 있다. 예를 들면, 모바일 단말이 오디오 명령을 인식하지 못하거나 적어도 하나의 명령 동작 및 명령 대상을 인식하지 못한 경우, 모바일 단말은 명령이 인식되지 않았음을 사용자에게 알릴 수 있다. 모바일 단말은 오디오 명령의 명확화 또는 재입력을 요청할 수 있다. 일례로, 이러한 알람은 120 단계 및/또는 140 단계 후에 수행될 수 있다.
도 2는 본 발명의 실시예에 따른 요청된 명령의 출현 수를 도시하는 도면이다.
도 2를 참조하면, 상단에 도시된 이미지(210)는 이미지의 포스트 이미지 처리(post image processing)를 예시한다. 예를 들면, 모바일 단말은 이미지 처리를 수행하고 처리된 이미지의 텍스트를 인식한다. 상단의 이미지(210)는 참조번호들(212, 214, 216, 218, 220, 222, 및 224)에 의해 식별되는 “다음”이라는 단어의 복수의 출현을 포함한다.
본 발명의 실시예들에 따르면, 모바일 단말은 명령 대상의 출현들 각각에 고유 번호 또는 표시를 할당할 수 있다. 예를 들어, 상단의 이미지(210)와 같이 명령 대상이 “다음”에 대응하면, 모바일 단말은 각각의 “다음” 출현에 대하여 고유 번호를 할당할 수 있다. 모바일 단말은 처리된 이미지가 명령 대상의 복수 출현들을 포함하는 경우, 명령 대상의 각각의 출현에 대하여 고유의 번호를 할당할 수 있다.
하단에 도시된 이미지(240)는 “다음” 출현들의 각각에 대응하는 고유 번호가 할당된 이미지의 포스트 이미지 처리를 예시한다. 예를 들면, “다음”(212)은 그것에 할당된 참조번호 242에 의해 지시되는 고유 번호 “1”을 가진다. “다음”(214)은 그것에 할당된 참조번호 244에 의해 지시되는 고유 번호 “2”를 가진다. “다음”(216)은 그것에 할당된 참조번호 246에 의해 지시되는 고유 번호 “3”을 가진다. “다음”(218)은 그것에 할당된 참조번호 248에 의해 지시되는 고유 번호 “4”를 가진다. “다음”(220)은 그것에 할당된 참조번호 250에 의해 지시되는 고유 번호 “5”를 가진다. “다음”(222)은 그것에 할당된 참조번호 252에 의해 지시되는 고유 번호 “6”을 가진다. “다음”(224)은 그것에 할당된 참조번호 254에 의해 지시되는 고유 번호 “7”을 가진다.
본 발명의 실시예들에 따르면, 명령 대상의 출현들 각각은 처리된 이미지 내의 나머지 부분과 대조적으로 하이라이트 표시될 수 있다. 예를 들면, 이미지(210)와 대조되어, 이미지(240)는 “다음”의 출현들 각각이 하이라이트로 표시되고, 처리된 이미지의 나머지 부분이 희미하게 표시되도록 도시된다. 본 발명의 실시예들에 따르면, 하이라이트 표시되지 않은 부분들(예컨대, 나머지 부분)은 무시된다.
본 발명의 실시예들에 따르면, 모바일 단말은 미리 정의된 방법에 따라 명령 대상의 출현들 각각에 대하여 고유 번호 또는 표시를 할당하도록 구성될 수 있다. 예를 들면, 이미지(240)에 예시된 바와 같이, 참조번호 242 내지 254에 의해 지시되는 고유 번호는 왼쪽에서 오른쪽으로 그리고 위에서 아래로 할당된다. 본 발명의 실시예들에 따르면, 명령 대상의 출현들 각각에 고유 번호 또는 표시를 할당하기 위한 방법은 모바일 단말 사용자의 모국어에 따라 정의될 수 있다.
도 3은 본 발명의 실시예에 따른 감지된 사용자 입력에 기초한 명령의 실행을 도시한 도면이다.
도 3을 참조하면, 모바일 단말은 화면(또는 UI) 상에 이미지(310)를 표시한다. 사용자는 오디오 명령에 대응하는 오디오 입력(320)을 입력한다. 오디오 명령은 “GIL 스윕”에 대응한다. 이때, 명령 동작은 “스윕”에 대응하고, 명령 대상은 “GIL”에 대응한다.
그런 다음, 모바일 단말은 이미지(310) 상에서 이미지 처리를 수행하고, 명령 대상 “GIL”에 대응하는 텍스트를 찾아 처리된 이미지(330)를 스캔한다. 처리된 이미지(330)에 도시된 바와 같이, 명령 대상은 한번 출현한다.
본 발명의 실시예들에 따르면, 모바일 단말은 명령 대상 “GIL”이 이미지(340)에서 한번 출현하는 것으로 판단하고, 명령 대상 “GIL” 상에서 스윕 이벤트(350)를 생성하여 요청된 명령을 수행한다.
도 4는 본 발명의 실시예에 따른 모바일 단말의 구성을 개략적으로 도시하는 블록도이다.
도 4를 참조하면, 모바일 단말(400)은 제어부(410), 저장부(420), 표시부(430), 입력부(440), 오디오 처리부(450) 및 통신부(460)를 포함할 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말(400)은 오디오 명령에 따른 동작(예컨대, 명령, 기능 등)을 수행하도록 구성될 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말(400)은 오디오 입력(예컨대, 오디오 명령)을 수신하고, 표시부(430)에 의해 표시되는 이미지(예컨대, 화면)에 대하여 이미지 처리를 수행하며, 오디오 명령과 관련된 대상을 식별하고, 오디오 명령에 따른 동작(예컨대, 명령, 기능 등)을 수행하도록 구성될 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말(400)은 오디오 입력(예컨대, 오디오 명령)을 수신하고, 표시부(430)에 의해 표시되는 이미지(예컨대, 화면, 사용자 인터페이스(UI)의 이미지 등)에 대하여 이미지 처리를 수행하며, 오디오 명령과 관련된 대상을 식별하고, 요청된 명령의 복수 출현들 중 어느 것을 수행할 지에 관한 확인을 수신하며, 요청된 명령의 복수 출현들 중 확인된 출현에 대한 오디오 명령에 따른 동작(예컨대, 명령, 기능 등)을 수행하도록 구성될 수 있다.
본 발명의 실시예들에 따르면, 모바일 단말(400)은 적어도 하나의 제어부(410)를 포함한다. 적어도 하나의 제어부(410)는 모바일 단말(400)의 동작을 제어하도록 구성될 수 있다. 예를 들면, 제어부(410)는 모바일 단말(400)에 포함된 다양한 컴포넌트 또는 유닛의 동작을 제어할 수 있다. 제어부(410)는 모바일 단말(400)에 포함된 다양한 컴포넌트들에 대한 신호를 전송할 수 있고, 모바일 단말(400)의 내부 블록 간의 신호 흐름을 제어할 수 있다. 특히, 본 발명의 실시예에 따른 제어부(410)는 오디오 명령에 따른 동작(예컨대, 명령, 기능 등)을 수행할 수 있다. 예를 들면, 제어부(410)는 화면상의 이미지에 대한 비디오 처리(이미지 처리)를 수행할 수 있고, 화면상의 이미지가 요청된 명령에 대응하는 명령 대상들을 포함하는지 여부를 판단한다. 제어부(410)는 요청된 명령에 대응하는 명령 대상을 실행할 수 있다. 예로서, 화면의 이미지 상에서 다수의 명령 대상들이 출현하면(예컨대, 복수의 명령 대상들이 존재하면), 제어부(410)는 명령 대상들을 식별하고, 사용자가 복수의 명령 대상들 중 어느 것이 요청된 명령에 대응하는지를 확인하도록 질의할 수 있다. 본 발명의 실시예들에 따르면, 제어부(410)는 화면상에 표시된 이미지와 같은 이미지에 대하여 다양한 이미지 처리를 수행하는 이미지 처리부(미도시)에 동작 가능하게 연결되거나, 이미지 처리부의 기능을 포함할 수 있다. 이미지 처리부는 요청된 명령에 대응하는 명령 대상들을 식별하도록 이미지를 처리할 수 있다.
저장부(420)는 본 발명의 실시예에 따른 동작 기능들을 수행하는 프로그램과 더불어 사용자 데이터 등을 저장할 수 있다. 저장부(420)는 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함할 수 있다. 일례로, 저장부(420)는 모바일 단말(400)의 일반 동작을 제어하기 위한 프로그램, 모바일 단말(400)을 부팅하는 운영 체제(OS; Operating System) 및 카메라 기능, 음성 재생 기능, 이미지 또는 비디오 재생 기능, 신호 강도 측정 기능, 경로 생성 기능, 이미지 처리 등과 같은 다른 옵션 기능들을 수행하기 위한 어플리케이션 프로그램을 저장할 수 있다. 더욱이, 저장부(420)는 예를 들면, 텍스트 메시지, 게임 파일, 음악 파일, 영화 파일 등과 같은 모바일 단말(400)의 사용자에 의해 생성되는 사용자 데이터를 저장할 수 있다. 특히, 본 발명의 실시예에 따른 저장부(420)는 어플리케이션 또는 복수의 어플리케이션들을 저장하며, 저장된 어플리케이션(들)은 개별적으로 혹은 결합하여, 오디오 입력을 수신하고, 오디오 입력으로부터 요청된 명령에 대응하는 오디오 명령(명령 동작)을 인식하며, 화면상의 이미지에 대한 이미지 처리를 수행하고, 화면상의 이미지가 요청 명령에 대응하는 명령 대상들을 포함하는지 여부를 판별하며, 식별된 명령 대상을 이용하여 요청된 명령(명령 동작)을 수행한다. 예를 들면, 저장부(420)는 화면상의 이미지가 요청된 명령에 대응하는 명령 대상을 포함하는지의 여부를 결정하기 위하여 화면상의 이미지에 대한 비디오 처리를 수행하며, 요청된 명령에 대응하는 명령 대상을 식별하고, 식별된 명령 대상들 각각에 대하여 고유 식별자를 할당하고(예컨대, 하나 이상의 식별된 명령 대상이 존재하면), 식별된 명령 대상들 중 어느 것이 요청된 명령에 대응하는지(예컨대, 식별된 명령 대상들 중 어느 것이 모바일 단말(400)에 의해 수행되도록 사용자가 바라는 것인지)에 관하여 확인을 요청하며, 그리고 요청된 명령에 대응하는 확인된 명령 대상(예컨대, 사용자에 의해 확인된 명령 대상)을 이용하여 요청된 명령을 수행하는 어플리케이션을 저장할 수 있다.
표시부(430)는 모바일 단말(400)의 다양한 메뉴와 더불어 사용자에게 제공되는 정보 또는 사용자에 의해 입력된 정보를 표시한다. 예를 들면, 표시부(430)는 대기 화면, 메시지 작성 화면, 통화 화면 등과 같이 모바일 단말(400)의 사용에 따른 다양한 화면들을 제공할 수 있다. 특히, 본 발명의 실시예들에 따른 표시부(430)는 사용자가 명령을 선택하는 이미지 및/또는 사용자 인터페이스(UI)를 표시할 수 있다. 예를 들면, 화면상에 표시되는 이미지에 기초하여, 사용자는 명령(예컨대, 오디오 명령)을 입력할 수 있다. 요청된 명령을 수신하면, 표시부(430)는 요청된 명령에 대응하는 복수의 명령 대상들이 표시되는 비디오 처리된 이미지를 표시할 수 있다. 예를 들면, 표시부(430)는 복수의 명령 대상들을 식별하기 위하여 화면상에 이미지를 필터링하거나 하이라이트 표시하는 비디오 처리된 이미지를 표시할 수 있다. 표시부(430)는 복수의 명령 대상들 각각이 고유 번호 또는 표시로 식별되는 비디오 처리된 이미지를 표시할 수 있다. 예를 들면, 표시부(430)는 모바일 단말(400)의 기능 선택을 위해 사용자가 조작하거나 터치스크린을 통해 입력할 수 있는 인터페이스를 표시할 수 있다. 표시부(430)는 LCD(Liquid Crystal Display), OLDE(Organic Light Emitting Diode), AMOLED(Active Matrix Organic Light Emitting Diode) 등으로 형성될 수 있다. 하지만, 본 발명의 실시예들이 이러한 예시들에 한정되는 것은 아니다. 더욱이, 표시부(430)는 터치스크린으로 형성되는 경우, 입력부(440)의 기능을 수행할 수 있다.
입력부(440)는 사용자 입력을 수신하기 위한 입력키들 및 기능키들을 포함할 수 있다. 예를 들면, 입력부(440)는 숫자들 또는 다양한 집합의 문자 정보를 수신하고, 다양한 기능들을 설정하며, 그리고 모바일 단말(400)의 기능들을 제어하는 입력키들 및 기능키들을 포함할 수 있다. 예를 들면, 입력부(440)는 음성 통화를 요청하기 위한 통화키, 영상 통화를 요청하기 위한 영상 통화 요청키, 음성 통화 또는 영상 통화의 종료를 요청하기 위한 종료키, 오디오 신호의 출력 볼륨을 조절하기 위한 볼륨키, 방향키 등을 포함할 수 있다. 특히, 본 발명의 실시예들에 따른 입력부(440)는 명령의 입력과 관련된 기능들의 설정 또는 선택과 관련된 신호들을 제어부(410)에 전송할 수 있다. 예를 들면, 입력부(440)는 사용자가 오디오 명령을 입력하도록 요청하는 지시를 수신하기 위한 특정키를 포함할 수 있다. 이러한 키는 사용자가 오디오 명령의 입력을 요청하는 기능이 특별히 할당된 키가 될 수 있다. 대안적으로, 사용자가 오디오 명령의 입력을 요청할 수 있도록 하는 키는 임의의 주어진 시간에 실행되고 있는 어플리케이션에 기초하여 할당될 수 있다. 사용자가 오디오 명령의 입력을 요청하는 지시를 수신하기 위한 특정키가 눌려지면, 사용자는 모바일 단말(400)에 연결된 마이크를 통해 음성을 입력할 수 있다. 이러한 입력부(440)는 터치패드, 터치화면, 버튼 형식 키패드, 조이스틱, 휠 키 등과 같은 입력수단 중 하나 또는 그 조합에 의해 형성될 수 있다.
오디오 처리부(450)는 음향 컴포넌트로 형성될 수 있다. 오디오 처리부(450)는 오디오 신호를 송신 및 수신하고, 오디오 신호를 인코딩 및 디코딩한다. 예를 들면, 오디오 처리부(450)는 코덱(CODEC) 및 오디오 증폭기를 포함할 수 있다. 오디오 처리부(450)는 스피커(SPK)(452) 및 마이크(MIC)(454)와 연결된다. 오디오 처리부(450)는 마이크(454)로부터 입력되는 아날로그 음성 신호를 디지털 음성 신호로 변환하고, 디지털 음성 신호에 대응하는 데이터를 생성하며, 제어부(410)로 그 데이터를 전송한다. 더욱이, 오디오 처리부(450)는 제어부(410)로부터 입력되는 디지털 음성 신호를 아날로그 음성 신호로 변환하고, 아날로그 음성 신호를 스피커(452)를 통해 출력한다. 또한, 오디오 처리부(450)는 스피커(452)를 통해 모바일 단말(400)에서 생성된 다양한 오디오 신호들을 출력할 수 있다. 예들 들면, 오디오 처리부(450)는 스피커(452)를 통해 오디오 파일(예컨대, MP3 파일) 재생, 동영상 파일 재생 등에 에 따라 오디오 신호들을 출력할 수 있다. 특히, 본 발명의 실시예들에 따르면, 오디오 처리부(450)는 마이크(454)를 통해 오디오 입력(예컨대, 사용자로부터 요청된 명령에 대응하는 오디오 명령)을 수신할 수 있다. 본 발명의 실시예들에 따르면, 오디오 처리부(450)는 오디오 신호들이 입력될 수 있는 다른 입력 유닛에 연결되어 동작할 수 있다. 예를 들면, 오디오 처리부(450)는 블루투스 액세서리(예컨대, 블루투스 헤드셋, 블루투스 마이크) 등에 연결되어 동작할 수 있다.
통신부(460)는 다른 장치들과 통신하도록 구성될 수 있다. 예를 들면, 통신부(460)는 블루투스 기술, WiFi 기술 또는 다른 무선 기술을 통해 통신하도록 구성될 수 있다.
본 명세서에 설명된 단말은 셀룰러 폰, PDA(Personal Digital Assistant), 디지털 카메라, 휴대형 게임 콘솔, MP3 재생기, PMP(Portable/Personal Multimedia Player), 휴대형 전자책, 휴대형 랩탑 PC, 태블릿 PC, GPS 내비게이션과 같은 모바일 장치들이거나, 데스크톱 PC, HDTV(High Definition TeleVision), 광학 디스크 재생기, 셋탑 박스, 카 내비게이션 유닛, 의료 장비 등과 같은 장치들이거나, 여기에 개시된 바와 일치하는 무선 통신 또는 네트워크 통신이 가능한 그 밖의 장치들일 수 있다. 단말은 또한 오디오 명령들을 수신할 수 있는 장치 및/또는 임베디드 시스템을 포함할 수 있다.
본 명세서에 설명된 오디오 명령에 따른 동작을 수행하는 방법을 수행하기 위한 프로그램 명령 또는 그의 하나 이상의 동작들은 하나 이상의 비 일시적인 컴퓨터 판독 가능한 저장 매체에 기록되거나, 저장되거나, 또는 고정될 수 있다. 프로그램 명령은 컴퓨터에 의해 구현될 수 있다. 예를 들면, 컴퓨터는 프로세서가 프로그램 명령들을 실행하도록 할 수 있다. 매체는 프로그램 명령들, 데이터 파일들, 데이터 구조들 등을 단독으로 혹은 그 조합으로 포함할 수 있다. 컴퓨터 판독 가능한 매체의 예들은 하드디스크, 플로피 디스크, 광학 테이프와 같은 자기 매체, CD-ROM 디스크 및 DVD와 같은 광학 매체, 광학 디스크와 같은 광자기 매체, 및 ROM(Read-Only Memory), RAM(Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령들을 저장하고 수행하도록 특별히 구성되는 하드웨어를 포함한다. 프로그램 명령들의 예들은 컴파일러에 의해 생산되는 바와 같은 머신 코드, 인터프리터를 이용하여 컴퓨터에 의해 실행될 수 있는 상위 레벨 코드를 포함하는 파일을 포함한다. 프로그램 명령들, 즉, 소프트웨어는 소프트웨어가 분산된 방식으로 저장되고 실행되기 위하여 컴퓨터 시스템에 연결된 네트워크 상에서 분산될 수 있다. 예를 들면, 소프트웨어 및 데이터는 하나 이상의 비 일시적인 컴퓨터 판독 가능한 기록 매체에 의해 저장될 수 있다. 또한, 본 명세서에 기재된 실시예를 성취하기 위한 기능 프로그램들, 코드들 및 코드 세그먼트들은 실시예들이 본 명세서에서 제공되는 바와 같은 그들의 대응하는 상세한 설명 및 도면들의 블록도 및 순서도를 이용하고, 기초하여, 적용되는 이 기술분야에서 통상의 지식을 가진 프로그래머들에 의해 간단하게 구현될 수 있다. 또한, 동작 또는 방법을 수행하기 위한 설명된 유닛은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 일부 조합이 될 수 있다. 예를 들면, 유닛은 소프트웨어가 실행되는 컴퓨터 또는 컴퓨터 상에서 실행되는 소프트웨어 패키지가 될 수 있다.
본 발명이 임의의 실시예와 관련하여 도시되고 설명되었지만, 형식 및 세부사항에서 다양한 변경들이 첨부된 청구범위들과 그와 동등한 것들에 의해 정의되는 본 발명의 사상 및 범위로부터 벗어남이 없이 그 안에서 만들어질 수 있음을 이 기술 분야에서 통상의 지식을 가진 자라면 이해될 수 있을 것이다.
400 : 모바일 단말 410 : 제어부
420 : 저장부 430 : 표시부
440 : 입력부 450 : 오디오 처리부
460 : 통신부

Claims (22)

  1. 오디오 명령을 수신하는 단계;
    상기 수신된 오디오 명령에 기초하여 화면에 표시된 이미지로부터 명령 대상을 결정하는 단계; 및
    상기 결정된 명령 대상을 기초하여 상기 수신된 오디오 명령과 관련된 기능을 수행하는 단계
    를 포함하는, 오디오 명령에 따른 동작을 수행하는 방법.
  2. 제1항에 있어서,
    상기 화면에 표시된 이미지로부터 명령 대상을 결정하는 단계는
    상기 화면에 표시된 이미지에 대하여 이미지 처리를 수행하는 단계; 및
    상기 명령 대상에 대응하는 텍스트가 상기 이미지 처리된 이미지 내에 존재하는지 여부를 판단하는 단계
    를 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  3. 제2항에 있어서,
    상기 이미지 처리된 이미지에서 상기 명령 대상을 시각적으로 구분되도록 표시하는 단계
    를 더 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  4. 제3항에 있어서,
    상기 이미지 처리된 이미지에서 상기 명령 대상을 시각적으로 구분되도록 표시하는 단계는,
    상기 명령 대상을 상기 이미지 처리된 이미지의 나머지 부분에 비하여 강조하여 표시하는 단계
    를 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  5. 제3항에 있어서,
    상기 텍스트가 상기 이미지 처리된 이미지 내에 존재하는지 확인하는 단계는,
    상기 이미지 처리된 이미지가 복수의 명령 대상들을 포함하는지 여부를 판단하는 단계; 및
    상기 이미지 처리된 이미지가 상기 복수의 명령 대상들을 포함하면, 상기 복수의 명령 대상들 각각에 대하여 고유 지시자를 할당하는 단계
    를 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  6. 제5항에 있어서,
    상기 이미지 처리된 이미지에서 상기 명령 대상을 시각적으로 표시하는 단계는,
    상기 복수의 명령 대상들 각각 및 관련된 고유의 지시자를 상기 이미지 처리된 이미지의 나머지 부분에 비하여 강조하여 표시하는 단계
    를 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  7. 제5항에 있어서,
    상기 복수의 명령 대상들 각각에 대하여 고유 지시자를 할당하는 단계는,
    상기 단말의 미리 정의된 언어 설정에 따라 상기 복수의 명령 대상들 각각에 대하여 상기 고유 지시자를 순차적으로 할당하는 단계
    를 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  8. 제5항에 있어서,
    상기 고유 지시자는 숫자인 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  9. 제2항에 있어서,
    상기 수신된 오디오 명령을 상기 명령 대상 및 명령 동작으로 구분하여 파싱하는 단계
    를 더 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  10. 제9항에 있어서,
    상기 명령 동작이 미리 정의된 동작에 대응하는지 여부를 판단하는 단계
    를 더 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  11. 제1항에 있어서,
    상기 명령 대상을 기초로 하여 상기 수신된 오디오 명령과 관련된 기능을 수행하는 단계는,
    상기 수신된 오디오 명령에 따라 상기 명령 대상과 관련된 이벤트를 생성하는 단계
    를 포함하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 방법.
  12. 이미지를 표시하는 표시부;
    오디오 명령을 수신하는 오디오 처리부; 및
    상기 수신된 오디오 명령에 기초하여 상기 표시된 이미지로부터 명령 대상을 결정하고, 상기 결정된 명령 대상을 기초하여 상기 수신된 오디오 명령과 관련된 기능을 수행하는 적어도 하나의 제어부;
    를 포함하는, 오디오 명령에 따른 동작을 수행하는 장치.
  13. 제12항에 있어서,
    상기 제어부는
    상기 표시된 이미지에 대하여 이미지 처리를 수행하고, 상기 명령 대상에 대응하는 텍스트가 상기 이미지 처리된 이미지 내에서 존재하는지 여부를 판단하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  14. 제13항에 있어서,
    상기 제어부는
    상기 이미지 처리된 이미지에서 상기 명령 대상을 시각적으로 구분되도록 표시하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  15. 제14항에 있어서,
    상기 제어부는
    상기 명령 대상이 상기 이미지 처리된 이미지의 나머지 부분에 비하여 강조되도록 상기 표시부를 제어하여 상기 이미지 처리된 이미지를 표시하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  16. 제14항에 있어서,
    상기 제어부는
    상기 이미지 처리된 이미지가 복수의 명령 대상들을 포함하는지 여부를 판단하고, 상기 이미지 처리된 이미지가 상기 복수의 명령 대상들을 포함하면, 상기 복수의 명령 대상들 각각에 대하여 고유 지시자를 할당하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  17. 제16항에 있어서,
    상기 제어부는
    상기 복수의 명령 대상들 각각 및 관련된 고유 지시자가 상기 이미지 처리된 이미지의 나머지 부분에 비하여 강조되도록 상기 표시부를 제어하여 상기 이미지 처리된 이미지를 표시하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  18. 제16항에 있어서,
    상기 제어부는
    상기 단말의 미리 정의된 언어 설정에 따라 상기 복수의 명령 대상들 각각에 대하여 상기 고유 지시자를 순차적으로 할당하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  19. 제16항에 있어서,
    상기 고유의 지시자는 숫자인 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  20. 제13항에 있어서,
    상기 제어부는
    상기 수신된 오디오 명령을 상기 명령 대상 및 명령 동작으로 구분하여 파싱하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  21. 제20항에 있어서,
    상기 제어부는
    상기 명령 동작이 미리 정의된 동작에 대응하는지 여부를 판단하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
  22. 제12항에 있어서,
    상기 제어부는
    상기 수신된 오디오 명령에 따라 상기 명령 대상과 관련된 이벤트를 생성하는 것을 특징으로 하는, 오디오 명령에 따른 동작을 수행하는 장치.
KR1020130087741A 2013-03-11 2013-07-25 오디오 명령에 따른 동작을 수행하는 장치 및 방법 KR20140111574A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/792,911 2013-03-11
US13/792,911 US20140257808A1 (en) 2013-03-11 2013-03-11 Apparatus and method for requesting a terminal to perform an action according to an audio command

Publications (1)

Publication Number Publication Date
KR20140111574A true KR20140111574A (ko) 2014-09-19

Family

ID=51488930

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130087741A KR20140111574A (ko) 2013-03-11 2013-07-25 오디오 명령에 따른 동작을 수행하는 장치 및 방법

Country Status (2)

Country Link
US (1) US20140257808A1 (ko)
KR (1) KR20140111574A (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127340A1 (en) * 2013-11-07 2015-05-07 Alexander Epshteyn Capture
US11741951B2 (en) * 2019-02-22 2023-08-29 Lenovo (Singapore) Pte. Ltd. Context enabled voice commands
JP7259456B2 (ja) * 2019-03-25 2023-04-18 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
US20220028381A1 (en) * 2020-07-27 2022-01-27 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013261B2 (en) * 2001-10-16 2006-03-14 Xerox Corporation Method and system for accelerated morphological analysis
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8943071B2 (en) * 2011-08-23 2015-01-27 At&T Intellectual Property I, L.P. Automatic sort and propagation associated with electronic documents

Also Published As

Publication number Publication date
US20140257808A1 (en) 2014-09-11

Similar Documents

Publication Publication Date Title
KR102607666B1 (ko) 전자 장치에서 사용자 의도 확인을 위한 피드백 제공 방법 및 장치
US10832653B1 (en) Providing content on multiple devices
US10838765B2 (en) Task execution method for voice input and electronic device supporting the same
KR102414122B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US11955124B2 (en) Electronic device for processing user speech and operating method therefor
KR101870934B1 (ko) 제안되는 보이스 기반의 액션 쿼리들을 제공
CN106687908B (zh) 用于调用话音输入的手势快捷方式
JP6850805B2 (ja) コンピューティングデバイスにおけるユーザ対話動作の自動実行
CN107111492B (zh) 跨诸设备缩放数字个人助理代理
JP6492069B2 (ja) 環境を認識した対話ポリシーおよび応答生成
US8706920B2 (en) Accessory protocol for touch screen device accessibility
CN110085222B (zh) 用于支持语音对话服务的交互装置和方法
CN103529934A (zh) 用于处理多个输入的方法和装置
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
US11972761B2 (en) Electronic device for sharing user-specific voice command and method for controlling same
US9953630B1 (en) Language recognition for device settings
KR20140111574A (ko) 오디오 명령에 따른 동작을 수행하는 장치 및 방법
US20190304455A1 (en) Electronic device for processing user voice
CN111696550A (zh) 语音处理方法和装置、用于语音处理的装置
US11722572B2 (en) Communication platform shifting for voice-enabled device
US20140350929A1 (en) Method and apparatus for managing audio data in electronic device
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR20220020859A (ko) 전자 장치 및 이의 음성 인식 방법
KR20180094331A (ko) 전자 장치 및 전자 장치의 메시지 데이터 출력 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid