KR102091003B1 - 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치 - Google Patents

음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치 Download PDF

Info

Publication number
KR102091003B1
KR102091003B1 KR1020120142624A KR20120142624A KR102091003B1 KR 102091003 B1 KR102091003 B1 KR 102091003B1 KR 1020120142624 A KR1020120142624 A KR 1020120142624A KR 20120142624 A KR20120142624 A KR 20120142624A KR 102091003 B1 KR102091003 B1 KR 102091003B1
Authority
KR
South Korea
Prior art keywords
user
audio
user device
context
control command
Prior art date
Application number
KR1020120142624A
Other languages
English (en)
Other versions
KR20140074549A (ko
Inventor
박진
정지연
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to KR1020120142624A priority Critical patent/KR102091003B1/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to EP17167578.8A priority patent/EP3217394B1/en
Priority to EP23209881.4A priority patent/EP4300993A3/en
Priority to CN201310670710.0A priority patent/CN103869971B/zh
Priority to CN201810181943.7A priority patent/CN108446022B/zh
Priority to EP13196471.0A priority patent/EP2760016B1/en
Priority to EP18184571.0A priority patent/EP3410434B1/en
Priority to US14/101,546 priority patent/US9940924B2/en
Publication of KR20140074549A publication Critical patent/KR20140074549A/ko
Priority to US15/901,525 priority patent/US10395639B2/en
Priority to US16/534,395 priority patent/US10832655B2/en
Application granted granted Critical
Publication of KR102091003B1 publication Critical patent/KR102091003B1/ko
Priority to US17/091,455 priority patent/US11410640B2/en
Priority to US17/883,013 priority patent/US11721320B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

본 발명은 사용자 디바이스에서 사용자에 의해 정의된 상황(Context)에 따라 사용자의 상황 인식(context aware)을 수행하고, 그에 따른 적어도 하나의 액션(action)을 자동 실행하여 그의 상황 정보(context information)를 사용자에게 피드백(feedback)할 수 있는 상황 인식 서비스 제공 방법 및 장치에 관한 것으로, 이러한 본 발명은 상황 인식 서비스 제공 방법에 있어서, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하는 과정; 사용자 선택에 따른 재생 모드 및 상기 상황 인식 서비스를 실행하는 과정; 상기 재생 모드가 실행 중인 상태에서 마이크를 통해 외부 오디오를 입력받는 과정; 입력된 오디오가 상기 제어 커맨드에 대응하는지 판단하는 과정; 및 상기 입력된 오디오가 상기 제어 커맨드에 대응할 시 상기 제어 커맨드에 따라 액션을 실행하는 과정을 포함한다.

Description

음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING CONTEXT AWARE SERVICE USING SPEECH RECOGNITION}
본 발명은 상황 인식 서비스(Context Aware Service) 제공 방법 및 장치에 관한 것으로, 특히 본 발명은 사용자 디바이스와 헤드셋이 연결된 상태에서 음성인식 기술을 이용하여 사용자 정의에 따른 상황을 인식하고, 정의된 상황이 인식될 시 그에 따른 설정된 액션(action)을 자동 실행하여 사용자에게 피드백(feedback)할 수 있는 사용자 디바이스에서 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치에 관한 것이다.
최근 디지털 기술의 발달과 함께 이동통신 단말기, PDA(Personal Digital Assistant), 전자수첩, 스마트 폰, 태블릿 PC(Personal Computer) 등과 같이 이동하면서 통신 및 개인정보 처리가 가능한 사용자 디바이스(user device)가 다양하게 출시되고 있다. 이러한 사용자 디바이스는 각자의 전통적인 고유 영역에 머무르지 않고 다른 단말들의 영역까지 아우르는 모바일 컨버전스(mobile convergence) 단계에 이르고 있다. 대표적으로, 사용자 디바이스는 음성통화 및 영상통화 등과 같은 통화 기능, SMS(Short Message Service)/MMS(Multimedia Message Service) 및 이메일 등과 같은 메시지 송수신 기능, 내비게이션 기능, 촬영 기능, 방송 재생 기능, 미디어(동영상 및 음악) 재생 기능, 인터넷 기능, 메신저 기능 및 소셜 네트워크 서비스(SNS, Social Networking Service) 기능 등의 다양한 기능들을 구비할 수 있다.
특히, 최근에는 개인의 삶을 디지털 정보로 기록하는 라이프로그(life-log)에 대한 다양한 기술들이 개발되고 있으며, 또한 이를 이용한 상황 인식 서비스(CAS, Context Aware Service)에 대한 관심이 높아지고 있다. 상기 상황 인식 서비스는 서비스 객체(object)(예컨대, 사용자)가 정의하는 상황이 변경됨에 따라 서비스 여부와 서비스의 내용이 결정되는 서비스를 나타낸다. 여기서, 상황(Context)이란, 상황 인식 서비스 객체에 의해 정의된 서비스 행위를 결정하는 정보를 의미하며, 서비스 행위를 결정하는 정보에는 서비스의 제공 시점, 서비스의 제공 여부, 서비스의 제공 대상, 그리고 서비스의 제공 위치 등이 포함될 수 있다. 이러한 기술들은 개인의 행동을 특정 지을 수 있는 다양한 정보들을 저장하고, 이를 기초로 상황 인식 서비스를 제공한다.
그러나 종래의 경우, 개인으로부터 정보를 수집하기 위하여 도메인(domain) 기반으로 다양한 센서 장치를 설치하여야 하는 부담이 있다. 즉, 종래에서의 상황 인식 시스템은 주로 센서로부터 데이터를 획득하는 사용자 디바이스, 사용자 디바이스의 센서로부터 획득된 데이터로부터 상황을 추출 및 해석하고, 상황에 적합한 서비스를 실행하는 서버로 이루어져 있다. 따라서 종래에서는 상황 인식 서비스를 지원하기 위해 사용자 디바이스가 다양한 센서를 구비해야 하며, 또한 서버와의 연동에 의해 사용자 상황에 따른 서비스가 처리됨에 따라 시스템 구현에 비용적 측면 및 설계적 측면 등에서 어려움이 있다.
또한 종래에서는 사용자가 상황 인식 서비스를 이용하고자 하는 경우 별도의 프로그램을 실행하거나 또는 복잡한 설정 과정을 거쳐야만 이용 가능함에 따라, 일반 사용자의 접근성이 떨어지는 문제점이 있다. 또한 종래에서 상황 인식 서비스의 사용 시나리오는 사용자 디바이스에 정의된 커맨드(command)를 사용해야 하기 때문에, 사용자 디바이스의 사용자만 정의된 커맨드를 알 수 있으므로, 사용자가 아닌 외부로부터의 발생되는 이벤트에 대한 상황에 대한 적절한 처리가 이루어지지 못하는 문제점이 있다.
특히, 사용자 디바이스와 유선 또는 무선 연결되는 헤드셋은 사용자의 귀에 밀착되어 착용되는 것이 일반적이다. 따라서 사용자가 헤드셋을 착용한 상태에서 오디오를 청취하는 경우에서는 외부의 소리를 즉각적으로 인지하지 못하는 불편함이 있으며, 사용자는 필요할 때마다 헤드셋을 탈착하거나, 실행 중인 어플리케이션을 직접 제어해야 하는 번거로움이 있다. 따라서 사용자가 헤드셋을 착용한 상황에서 사용자가 외부로부터 발생된 상황을 인식하여 사용자에게 피드백(feedback)하도록 하여 사용자의 편의성을 향상시킬 수 있는 방안의 필요성이 대두되고 있다.
본 발명의 목적은 사용자 디바이스에서 음성인식을 통해 사용자에 의해 정의된 상황을 인식하고, 인식된 상황에 대응하는 액션을 자동 실행하여 사용자에게 피드백할 수 있는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치를 제공함에 있다.
본 발명의 다른 목적은 사용자 디바이스와 헤드셋이 연결된 상태에서 설정된 조건에 따라 음성인식을 수행하여 사용자가 정의하는 상황을 인식하고, 설정된 상황이 인식될 시 하나 또는 그 이상의 액션을 실행하여 사용자에게 상황 정보를 피드백할 수 있는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 목적은 상황 인식 서비스를 지원하기 위한 최적의 환경을 구현하여 사용자의 편의성 및 사용자 디바이스의 사용성을 향상시킬 수 있는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치를 제공함에 있다.
상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상황 인식 서비스 제공 방법에 있어서, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하는 과정; 사용자 선택에 따른 재생 모드 및 상기 상황 인식 서비스를 실행하는 과정; 상기 재생 모드가 실행 중인 상태에서 마이크를 통해 외부 오디오를 입력받는 과정; 입력된 오디오가 상기 제어 커맨드에 대응하는지 판단하는 과정; 상기 입력된 오디오가 상기 제어 커맨드에 대응할 시 상기 제어 커맨드에 따른 액션을 실행하는 과정을 포함한다.
상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상황 인식 서비스 제공 방법에 있어서, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하는 과정; 사용자 선택에 따른 재생 모드 및 상기 상황 인식 서비스를 실행하는 과정; 상기 재생 모드가 실행 중인 상태에서 마이크를 통해 외부 오디오를 입력받는 과정; 입력된 오디오가 상기 제어 커맨드에 대응하는지 판단하는 과정; 상기 입력된 오디오가 상기 제어 커맨드에 대응할 시 상기 제어 커맨드에 따른 액션을 실행하는 과정; 및 상기 액션 실행에 대응하게 상황 정보를 출력하는 과정을 포함한다.
상기와 같은 과제를 해결하기 위하여 본 발명의 실시 예에서는, 상기 방법을 프로세서에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.
상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 사용자 디바이스에 있어서, 외부로부터의 오디오를 입력받는 마이크; 사용자 정의에 따른 제어 커맨드와 상기 제어 커맨드에 따른 액션 및 상황 정보를 커맨드 테이블로 저장하는 저장부; 상황 인식 서비스에서 사용자의 상황을 인식하기 위한 음성인식을 처리하는 음성 인식부; 및 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하고, 상기 마이크를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션 실행을 제어하는 제어부를 포함한다.
상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 기록 매체는, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하고, 마이크를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션이 실행되도록 처리하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.
전술한 바와 같은 내용들은 당해 분야 통상의 지식을 가진 자가 후술되는 본 발명의 구체적인 설명으로부터 보다 잘 이해할 수 있도록 하기 위하여 본 발명의 특징들 및 기술적인 장점들을 다소 넓게 약술한 것이다. 이러한 특징들 및 장점들 이외에도 본 발명의 청구범위의 주제를 형성하는 본 발명의 추가적인 특징들 및 장점들이 후술되는 본 발명의 구체적인 설명으로부터 잘 이해될 것이다.
상술한 바와 같이 본 발명에서 제안하는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치에 따르면, 사용자 디바이스에서 상황 인식 서비스를 위한 상황(Context)(또는 규칙(Rule))을 사용자 정의에 따라 다양하게 설정이 가능하다. 따라서 본 발명에 따르면, 사용자 디바이스에서 사용자에 의해 정의된 상황을 음성인식을 통해 인식하고, 인식된 상황에 따른 액션(action)을 자동 실행하여 하나 또는 그 이상의 상황 정보(context)를 사용자에게 피드백(feedback)할 수 있다.
본 발명에 따르면, 사용자가 사용자 디바이스와 무선 또는 유선 연결되는 헤드셋을 착용한 상태에서, 설정된 조건(예컨대, 일정 데시벨(dB) 이상)에 따라 외부의 발생 이벤트에 대한 음성인식을 수행할 수 있다. 그리고 사용자 정의에 따른 상황이 인식되면 설정된 액션(예컨대, 인식된 음성을 헤드셋을 통해 출력, 화면 팝업 출력, 진동 출력 등)을 실행하여 인식된 상황 정보를 사용자에게 즉각적으로 피드백할 수 있다. 이에 따라, 사용자는 헤드셋을 착용한 상태에서도 사용자가 정의한 상황에 대해 즉각적으로 인지할 수 있도록 함으로써, 사용자가 필요시마다 헤드셋을 탈착하거나 실행 중인 어플리케이션을 제어해야 하는 불편함을 해소할 수 있다.
본 발명에 따르면, 사용자 디바이스의 제조사에 의해 정의된 상황을 비롯하여 사용자 정의에 따른 상황에 의해 다양한 제어 커맨드(control command) 설정이 가능하고, 이를 통해 사용자에 대한 상황 인식 서비스의 지원 범위를 확장할 수 있다. 이에 따라, 본 발명에 따르면 모든 사용자의 사용성을 충족시킬 수 있는 이점이 있다.
따라서 본 발명에 따르면 사용자에게 상황 인식 서비스를 지원하기 위한 최적의 환경을 구현함으로써, 사용자의 편의성을 향상시키고, 사용자 디바이스의 사용성, 편의성 및 경쟁력을 향상시키는데 기여할 수 있다. 이러한 본 발명은 모든 형태의 사용자 디바이스 및 그에 대응하는 다양한 디바이스들에 간편하게 구현될 수 있다.
도 1은 본 발명의 실시 예에 따른 상황 인식 서비스를 설명하기 위해 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시 예에 따른 사용자 디바이스의 구성을 개략적으로 도시한 도면이다.
도 3은 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스가 실행되는 동작 예시를 도시한 도면이다.
도 4는 본 발명의 실시 예에 따른 사용자 디바이스에서 제어 커맨드가 제공되는 화면 예시를 도시한 도면이다.
도 5는 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 사용자 디바이스에서 음성인식을 이용한 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.
도 7은 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스가 제공되는 동작 예시를 도시한 도면이다.
도 8은 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스가 제공되는 다른 동작 예시를 도시한 도면이다.
이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다. 이때, 첨부된 도면들에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 즉, 하기의 설명에서는 본 발명의 실시 예에 따른 동작을 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
제안하는 본 발명은 사용자 디바이스에서 상황 인식 서비스(Context Aware Service)를 제공하는 방법 및 장치에 관한 것이다. 본 발명의 실시 예에 따르면, 사용자 디바이스에서 사용자에 의해 정의된 상황(Context)(또는 규칙(Rule))에 따라 사용자의 상황 인식(context aware)을 수행하고, 그에 따른 적어도 하나의 액션(action)을 자동 실행하여 그의 상황 정보(context information)를 사용자에게 피드백(feedback)할 수 있는 상황 인식 서비스 제공 방법 및 장치에 관한 것이다.
특히, 본 발명에서는 상황 인식 서비스 실행 시 외부로부터 입력되는 오디오에(audio)에 대해 음성인식을 수행하고, 음성인식에 따른 오디오가 설정된 제어 커맨드(control command)에 해당하면, 상기 제어 커맨드에 설정된 하나 또는 그 이상의 액션을 실행하여 사용자에게 상황 정보를 제공한다. 즉, 본 발명의 실시 예에 따르면, 음성인식 기술(speech recognition)을 이용하여 사용자에 의해 정의된 상황(규칙)을 인식하고, 인식된 상황에 대응하는 상황 정보를 사용자에게 제공할 수 있는 음성 인식 기술을 이용한 상황 인식 서비스를 제공할 수 있도록 하는 것에 관한 것이다.
본 발명의 실시 예에 따르면, 상황 인식을 위한 음성 인식 대상인 제어 커맨드를 자연어 기반으로 사용자가 다양하게 설정할 수 있다. 예를 들어, 제어 커맨드로 사용자의 이름, 애칭, 지형, 지역, 장소 등으로 임의 설정 가능하며, 이러한 제어 커맨드는 자연어 기반으로 텍스트 입력 또는 음성 입력에 의해 설정될 수 있다. 그리고 사용자 디바이스는 헤드셋과 연결되어 재생 모드에 따른 오디오를 헤드셋을 통해 출력 중에, 마이크를 통해 입력된 오디오에 대한 사운드 레코딩 및 음성 인식 솔루션을 수행할 수 있다. 이때, 사용자 디바이스는 입력된 오디오의 게인(gain)의 비교를 통해 음성인식 솔루션의 동작 여부를 결정할 수 있다. 그리고 사용자 디바이스는 음성인식 솔루션 동작 결정 시 태스크(task)별 자동 제어(예컨대, 미디어 컨텐츠 재생 동작 시 일시 정지 기능 등)와 인식된 오디오의 내용을 사용자가 쉽게 인지할 수 있는 상황 정보를 출력할 수 있다. 상기 상화 정보 출력은 시각(화면 표시), 청각(소리), 그리고 촉각(진동) 방식 중 적어도 하나의 방식에 의해 사용자의 상황 인지성을 향상시킬 수 있도록 제공될 수 있다.
이하의 설명에서 상기 상황 인식 서비스는 사용자 디바이스가 사용자에 의해 정의된 상황(규칙)을 음성인식을 통해 인식하고 판단하여 그에 대응하는 액션을 실행하고, 액션 실행에 따른 상황 정보를 사용자에게 제공하는 서비스를 나타낸다. 여기서, 상기 액션은 사용자가 설정된 상황을 인지할 수 있도록 사용자 디바이스가 실행하는 모든 제어 동작으로서, 사용자 디바이스의 스피커를 통한 상황 정보 출력, 헤드셋을 통한 상황 정보 출력, 헤드셋의 좌우 구분에 의한 상황 정보 출력, 표시부를 통한 상황 정보 출력, 진동을 이용한 상황 정보 출력, 실행 중인 모드에 대한 제어(예컨대, 재생 일시 정지(pause), 종료(end) 등) 등을 포함할 수 있다. 그리고 상기 상황 정보는 액션 실행에 따라 출력되는 정보로서, 인식된 오디오, 인식된 문구, 진동 등을 포함할 수 있으며, 적어도 하나의 조합으로 출력될 수 있다.
본 발명에서 상기 액션 실행은 상황 인식 서비스 수행 전에 실행되고 있는 모드(또는 어플리케이션)에 따라 하나 또는 그 이상이 실행될 수 있다. 예를 들어, 사용자 디바이스가 음악 재생 모드를 수행 중이고 헤드셋을 통해 재생 중인 음악의 사운드가 출력 중인 경우 헤드셋을 통해 인식된 오디오가 출력될 수 있다. 이때, 음악 재생이 일시 정지될 수 있다. 또는 사용자 디바이스가 동영상 재생 모드를 수행 중이고 표시부 및 헤드셋을 통해 재생 중인 동영상의 영상 및 사운드가 각각 출력 중인 경우 인식된 문구가 표시부를 통해 출력될 수 있다. 이때, 동영상 재생은 사용자 선택에 따라 일시 정지되거나 재생 상태를 유지할 수 있다. 또는 상기와 같이 동영상의 영상 및 사운드가 표시부 및 헤드셋을 통해 각각 출력 중인 경우 인식된 문구가 표시부를 통해 출력되고 인식된 오디오가 헤드셋을 통해 출력될 수 있다. 이때, 동영상 재생은 일시 정지될 수 있다.
도 1은 본 발명의 실시 예에 따른 상황 인식 서비스를 설명하기 위해 개략적으로 도시한 도면이다.
상기 도 1에 도시된 바와 같이, 본 발명은 사용자 디바이스(100)와 헤드셋(200)을 포함할 수 있다. 상기 사용자 디바이스(100)와 상기 헤드셋(200)은 상호 간의 연결 방식에 따라 무선 인터페이스를 통해 연결되거나, 또는 유선 인터페이스를 통해 연결될 수 있다.
상기 사용자 디바이스(100)는 상황 인식 서비스와 관련된 전반적인 동작을 처리한다. 상기 사용자 디바이스(100)는 본 발명의 기능을 지원하는 모든 정보통신기기, 멀티미디어기기 및 그에 대한 응용기기와 같이 AP(Application Processor), GPU(Graphic Processing Unit), CPU(Central Processing Unit)를 사용하는 모든 디바이스를 포함할 수 있다. 예를 들어, 상기 사용자 디바이스(100)는 다양한 통신 시스템에 대응되는 각 통신 프로토콜들(communication protocols)에 의거하여 동작하는 이동통신 단말기를 비롯하여, 태블릿(tablet) PC(Personal Computer), 스마트 폰(Smart Phone), 디지털 카메라, PMP(Portable Multimedia Player), 미디어 플레이어(Media Player), 휴대게임단말, 및 PDA(Personal Digital Assistant) 등의 디바이스를 포함할 수 있다. 아울러, 본 발명의 기능 제어 방법은 디지털 TV(Digital Television), DS(Digital Signage), LFD(Large Format Display) 등과 같이 다양한 디스플레이 디바이스에 적용되어 운용될 수 있다.
상기 헤드셋(200)은 상기 사용자 디바이스(100)와 연결되어 상기 사용자 디바이스(100)로부터 전달되는 사운드를 수신하며, 수신된 사운드를 구비된 스피커를 통해 외부로 출력하는 장치를 나타낸다.
사용자는 상기와 같이 사용자 디바이스(100)와 헤드셋(200)을 연결하고, 헤드셋(200)을 통해 사용자 디바이스(100)에서 재생하는 미디어 컨텐츠(예컨대, 음악 파일, 동영상 파일 등)의 사운드를 청취할 수 있다.
그리고 사용자는 상황 인식 서비스를 위한 제어 커맨드를 설정할 수 있다. 상기 제어 커맨드는 사용자가 희망하는 시점에서 설정될 수 있다. 예를 들어, 사용자는 다양한 제어 커맨드들을 미리 설정하거나, 헤드셋(200)을 연결하는 시점에서 필요한 제어 커맨드를 설정하거나, 또는 사용자 디바이스(100)를 사용하는 중 필요에 따라 제어 커맨드를 설정할 수 있다.
본 발명에서 상기 제어 커맨드는 자연어(natural language)(사용자가 일상적으로 사용하는 언어) 기반으로 정의 및 인식될 수 있다. 상기 제어 커맨드는 사용자가 상황 인식을 위해 필요로 하는 커맨드가 자연어 기반으로 다양하게 설정될 수 있다. 예를 들어, 사용자는 헤드셋(200)을 이용한 음악 청취 시 다른 사용자가 자신을 부르는 것을 쉽게 인지하기 위해, 자신을 호명하는 다양한 자연어(예컨대, 사용자의 이름, 별명 등)를 커맨드로 설정할 수 있다. 또는 사용자는 대중교통(예컨대, 버스, 지하철 등)을 이용할 시 목적지 도착을 쉽게 인지하기 위해, 희망하는 목적지(예컨대, 서울역 등)를 커맨드로 설정할 수 있다. 본 발명에서 상기 제어 커맨드는 사용자 디바이스(100)에 구비된 마이크를 통해 음성 기반으로 입력되어 설정되거나, 사용자 입력부 또는 표시부를 통해 텍스트 기반으로 입력되어 설정되거나, 또는 사용자 디바이스(100)에 미리 정의된 커맨드 리스트에서 사용자 선택에 따라 설정될 수도 있다.
사용자 디바이스(100)는 상황 인식 서비스가 실행 중인 경우에 음성인식을 통해 특정 제어 커맨드가 인식될 시 사운드 경로(pass) 및 태스크(task) 동작을 제어할 수 있다.
구체적으로, 사용자 디바이스(100)는 상황 인식 서비스의 실행이 결정되면, 음성인식 기능을 활성화한다. 본 발명에서 상기 상황 인식 서비스의 실행은 상기 도 1의 예시와 같이 헤드셋(200)이 사용자 디바이스(100)에 연결되는 시점, 미디어 컨텐츠의 재생이 시작되는 시점, 또는 사용자의 메뉴 조작에 의해 명시적으로 실행하는 시점에서 실행될 수 있다. 그리고 사용자 디바이스(100)는 상황 인식 서비스 중 마이크를 통해 입력되는 외부의 오디오(예컨대, 음성, 안내방송 등)를 인식하고, 인식된 오디오와 사용자 정의에 따른 제어 커맨드를 비교할 수 있다. 사용자 디바이스(100)는 제어 커맨드에 대응하는 오디오가 입력된 것으로 판단하면, 사용자 정의에 따른 상황이 인식된 것으로 결정한다. 따라서 사용자 디바이스(100)는 인식된 상황에 대응하는 액션 즉, 제어 커맨드에 매핑된 적어도 하나의 액션을 실행하고 그에 따른 상황 정보를 사용자에게 피드백 한다.
예시를 살펴보면, 사용자는 자신이 호명될 수 있는 적어도 하나의 자연어 기반의 제어 커맨드(예컨대, 사용자 이름, 별명 등)를 미리 설정하고, 헤드셋(200)을 통해 사용자 디바이스(100)에서 재생되는 음악을 청취할 수 있다. 그러면, 사용자 디바이스(100)는 사용자 요청에 따른 음악 파일의 음악을 재생을 시작하면서, 음성인식 솔루션을 실행한다. 상기 음성인식 솔루션은 외부의 오디오를 입력받기 위한 마이크 활성화 및 입력되는 오디오를 녹음하는 동작을 포함할 수 있다. 사용자 디바이스(100)는 음악을 재생하는 중에 마이크를 통해 입력된 오디오 중 사용자에 의해 정의된 제어 커맨드에 대응하는 오디오(예컨대, 사용자 이름, 별명 등)의 입력을 검출하면, 상기 제어 커맨드에 대응하는 액션을 실행하여 그에 따른 상황 정보를 사용자에게 피드백할 수 있다. 일예로, 사용자 디바이스(100)는 음악의 재생을 일시 정지시키거나, 또는 음악의 재생은 유지하면서 사운드 패스만을 변경하여 상기 헤드셋(200)으로의 사운드 출력을 중지할 수 있다. 그리고 사용자 디바이스(100)는 인식된 오디오 재생 및 그의 사운드(예컨대, 사용자 이름, 별명 등)를 헤드셋(200)으로 전달하여, 상기 인식된 오디오가 헤드셋(200)을 통해 출력되도록 한다. 이를 통해, 사용자는 설정된 상황 인식에 의해 음악 재생이 중지되었음을 인지하고, 사용자의 호명에 대해 적절하게 대응할 수 있다.
이때, 본 발명의 실시 예에 따르면 제어 커맨드(즉, 입력되는 오디오)의 방향까지 인식되는 경우 헤드셋(200)을 통한 제어 커맨드 재생 시 이를 반영하여 제공할 수 있다. 일예로, 사용자에 대한 호명이 사용자를 기준으로 우측에서 발생하였다면, 헤드셋(200)의 우측 스피커를 통해 제어 커맨드를 재생하거나, 좌측보다 음량을 키워 재생하여 사용자 인지성을 높일 수도 있다.
다른 예시를 살펴보면, 사용자는 동영상 강의를 시청/청취하면서 지하철을 탑승할 수 있다. 이때, 사용자는 지하철 탑승 시 상황 인식을 위한 제어 커맨드를 사용자가 희망하는 목적지(예컨대, 서울역)로 설정할 수 있다. 그러면, 사용자 디바이스(100)는 상황 인식 서비스를 실행하고 그에 따라 음성인식 솔루션을 실행한다. 그리고 사용자 디바이스(100)는 동영상을 재생하는 중에 마이크를 통해 입력된 오디오 중 사용자에 의해 정의된 제어 커맨드에 대응하는 오디오(예컨대, '다음 역은 서울역입니다'라는 차내 안내방송 등)의 입력을 검출하면, 상기 제어 커맨드에 대응하는 액션을 실행하여 그에 따른 상황 정보를 사용자에게 피드백할 수 있다. 일예로, 사용자 디바이스(100)는 동영상의 재생을 일시 정지시키거나, 동영상의 재생은 유지하거나, 또는 동영상의 재생은 유지하면서 사운드 패스만을 변경하여 상기 헤드셋(200)으로의 사운드 출력을 중지할 수 있다. 그리고 사용자 디바이스(100)는 상기 동영상의 재생을 일시 정지시키거나 사운드 패스를 변경하는 방식의 경우, 상기 인식된 오디오 재생 및 그의 사운드(예컨대, '다음 역은 서울역입니다')를 헤드셋(200)으로 전달하여, 상기 인식된 오디오가 헤드셋(200)을 통해 출력되도록 한다. 또는 사용자 디바이스(100)는 상기 동영상의 재생을 유지하는 방식의 경우 인식된 오디오에 대한 팝업(예컨대, '다음 역은 서울역입니다'와 같은 녹음된 안내방송)을 재생 중인 동영상 상에 출력되도록 한다. 또한 사용자 디바이스(100)는 상기의 방식들을 조합하여 사운드 및 팝업을 모두 출력되도록 할 수도 있다. 이를 통해, 사용자는 사용자 디바이스(100)를 사용하는 중에도 사용자 설정에 따른 상황을 쉽게 인지할 수 있다.
이상에서 도 1의 예시에서 살펴본 바와 같이, 본 발명에 따르면 외부 상황을 지능적으로 인지하여 사용자에게 피드백 함으로써, 사용자의 편의성을 증가시킬 수 있다. 예를 들어, 헤드셋(200)을 통한 사운드 출력을 정지시킴으로써, 사용자가 헤드셋(200)을 탈착해야 하는 번거로움을 해소시킬 수 있다. 또한 헤드셋(200)을 탈착해야 하는 사용자의 상황을 사용자 디바이스(100)에서 자연스럽게 인지하여 자동으로 사용자 디바이스(100)의 사운드 출력 제어, 표시부 표시 제어, 진도 제어 등의 다양한 방법으로 사용자에게 설정된 상황에 대한 상황 정보를 즉각적으로 피드백할 수 있다.
한편, 상기 도 1에서와 같이 본 발명의 실시 예에서는 사용자 디바이스(100)에 헤드셋(200)이 무선 또는 유선으로 연결되어, 사용자 디바이스가 재생하는 사운드가 헤드셋(200)을 통해 출력되는 경우를 예시로 설명한다. 하지만, 본 발명이 반드시 이에 한정되는 것은 아니며 다양하게 운용될 수 있다. 예를 들어, 본 발명의 실시 예에 따르면, 사용자 디바이스(100)는 헤드셋(200)과 연결되지 않은 상태에서도 상황 인식 서비스를 실행하여 사용자 정의에 따른 상황을 음성인식을 통해 인식하고, 인식된 상황에 대한 상황 정보를 사용자에게 피드백할 수도 있다.
이하에서, 본 발명의 실시 예에 따른 사용자 디바이스(100)의 구성과 그의 운용 제어 방법에 대하여 하기 도면들을 참조하여 살펴보기로 한다. 본 발명의 실시 예에 따른 사용자 디바이스(100)의 구성과 그의 운용 제어 방법이 하기에서 기술하는 내용에 제한되거나 한정되는 것은 아니므로 하기의 실시 예들에 의거하여 다양한 실시 예들에 적용할 수 있음에 유의하여야 한다.
도 2는 본 발명의 실시 예에 따른 사용자 디바이스(100)의 구성을 개략적으로 도시한 도면이다.
상기 도 2를 참조하면, 본 발명의 사용자 디바이스(100)는 무선 통신부(110), 사용자 입력부(120), 표시부(130), 오디오 처리부(140), 저장부(150), 인터페이스부(160), 음성 인식부(170), 제어부(180), 그리고 전원 공급부(190)를 포함하여 구성된다. 본 발명의 사용자 디바이스(100)는 도 2에 도시된 구성 요소들이 필수적인 것은 아니어서, 그보다 많은 구성 요소들을 가지거나, 또는 그보다 적은 구성 요소들을 가지는 것으로 구현될 수 있다. 예를 들어, 본 발명의 실시 예에 따른 사용자 디바이스(100)가 촬영 기능을 지원하는 경우 카메라 모듈(미도시)의 구성이 더 포함될 수도 있다.
상기 무선 통신부(110)는 사용자 디바이스(100)와 무선 통신 시스템 사이 또는 사용자 디바이스(100)와 다른 사용자 디바이스 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 이동통신 모듈(111), 무선 랜(WLAN, Wireless Local Area Network) 모듈(113), 근거리 통신 모듈(115), 위치 산출 모듈(117), 그리고 방송 수신 모듈(119) 등을 포함하여 구성될 수 있다.
이동통신 모듈(111)은 이동통신 네트워크 상에서 기지국, 외부의 단말, 그리고 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는 음성통화 신호, 화상통화 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 이동통신 모듈(111)은 제어부(180)의 제어에 따라 사업자 서버 또는 컨텐츠 서버 등에 접속하여 상황 인식 서비스를 위한 다양한 제어 커맨드 및 그의 액션이 매핑된 커맨드 테이블(command table) 등을 다운로드할 수 있다.
무선 랜 모듈(113)은 무선 인터넷(internet) 접속 및 다른 사용자 디바이스와 무선 랜 링크(link)를 형성하기 위한 모듈을 나타내는 것으로, 사용자 디바이스(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 무선 랜(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 무선 랜 모듈(113)은 제어부(180)의 제어에 따라 사업자 서버 또는 컨텐츠 서버 등에 접속하여 상황 인식 서비스를 위한 다양한 제어 커맨드 및 그의 액션이 매핑된 커맨드 테이블 등을 다운로드할 수 있다. 또한 무선 랜 모듈(113)은 다른 사용자 디바이스와 무선 랜 링크가 형성될 시 사용자 선택에 따른 제어 커맨드 및 그의 액션이 매핑된 커맨드 테이블을 다른 사용자 디바이스로 전송하거나 수신 받을 수 있다. 또는 무선 랜 모듈(113)은 무선 랜을 통해 상기 커맨드 테이블을 클라우드 서버 등으로 전송하거나 클라우드 서버로부터 수신 받을 수 있다.
근거리 통신 모듈(115)은 근거리 통신을 위한 모듈을 나타낸다. 근거리 통신(short range communication) 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, Infrared Data Association), UWB(Ultra Wideband), 지그비(ZigBee), 그리고 NFC(Near Field Communication) 등이 이용될 수 있다. 또한 근거리 통신 모듈(115)은 다른 사용자 디바이스와 근거리 통신이 연결될 시 상기 커맨드 테이블 등을 다른 사용자 디바이스로 전송하거나 수신 받을 수 있다. 특히, 근거리 통신 모듈(115)은 제어부(180)의 제어에 따라 헤드셋(200)과 무선 방식으로 연결하고, 상기 헤드셋(200)과 무선 신호를 송수신한다. 여기서, 상기 무선 신호는 인식된 오디오에 대한 사운드 신호 및 제어 커맨드를 포함할 수 있다.
위치 산출 모듈(115)은 사용자 디바이스(100)의 위치를 획득하기 위한 모듈로서, 대표적인 예로는 GPS(Global Position System) 모듈이 있다. 위치 산출 모듈(115)은 3개 이상의 기지국으로부터 떨어진 거리 정보와 정확한 시간 정보를 산출한 다음 상기 산출된 정보에 삼각법을 적용함으로써, 위도, 경도, 및 고도에 따른 3차원의 현 위치 정보를 산출할 수 있다. 또는 위치 산출 모듈(115)은 3개 이상의 위성으로부터 사용자 디바이스(100)의 현 위치를 실시간으로 계속 수신함으로써 위치 정보를 산출할 수 있다. 사용자 디바이스(100)의 위치 정보는 다양한 방법에 의해 획득될 수 있다.
방송 수신 모듈(119)은 방송 채널(예컨대, 위성 채널, 지상파 채널 등)을 통하여 외부의 방송 관리 서버로부터 방송 신호(예컨대, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호 등) 및/또는 상기 방송과 관련된 정보(예컨대, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보 등)를 수신한다.
사용자 입력부(120)는 사용자가 사용자 디바이스(100)의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(120)는 키패드(key pad), 돔 스위치(dome switch), 터치패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. 상기 사용자 입력부(120)는 사용자 디바이스(100)의 외부에 버튼 형태로 구현될 수 있으며, 일부 버튼들은 터치 패널(touch panel)로 구현될 수도 있다. 사용자 입력부(120)는 제어 커맨드 설정 또는 상황 인식 서비스 실행을 위한 사용자 입력이 수신될 시 그에 따른 입력 데이터를 발생시킬 수 있다.
표시부(130)는 사용자 디바이스(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 사용자 디바이스(100)가 통화모드인 경우 통화와 관련된 사용자 인터페이스(UI, User Interface) 또는 그래픽 사용자 인터페이스(GUI, Graphical UI)와 같은 화면 인터페이스를 표시한다. 또한 표시부(130)는 사용자 디바이스(100)가 화상통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다. 특히, 표시부(130)는 상황 인식 서비스 지원 시 상황 인식 서비스 운용과 관련된 다양한 UI, GUI를 표시할 수 있다. 예를 들어, 표시부(130)는 사용자 입력에 따른 제어 커맨드 설정 화면, 상황 인식에 따른 액션 실행에 대한 결과(즉, 상황 정보) 화면 등과 같이 상황 인식 서비스 운용과 관련된 다양한 화면 인터페이스를 표시할 수 있다. 본 발명에서 운용되는 표시부(130)의 화면 예시에 대해 후술될 것이다.
표시부(130)는 액정 디스플레이(LCD, Liquid Crystal Display), 박막 트랜지스터 액정 디스플레이(TFT LCD, Thin Film Transistor-LCD), 발광 다이오드(LED, Light Emitting Diode), 유기 발광 다이오드(OLED, Organic LED), 능동형 OLED(AMOLED, Active Matrix OLED), 플렉서블 디스플레이(flexible display), 벤디드 디스플레이(bended display), 그리고 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 이들 중 일부 디스플레이는 외부를 볼 수 있도록 투명형 또는 광투명형으로 구성되는 투명 디스플레이(transparent display)로 구현될 수 있다.
또한 표시부(130)와 터치 동작을 감지하는 터치 패널이 상호 레이어(layer) 구조를 이루는 경우(이하, '터치스크린(touchscreen)'이라 칭함)에, 표시부(130)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 패널은 표시부(130)의 특정 부위에 가해진 압력 또는 표시부(130)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 패널은 터치되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다. 터치 패널에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기(미도시)로 보내진다. 터치 제어기(미도시)는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(180)로 전송한다. 이로써, 제어부(180)는 표시부(130)의 어느 영역이 터치되었는지 여부 등을 알 수 있게 된다.
오디오 처리부(140)는 제어부(180)로부터 입력받은 오디오 신호를 스피커(SPK)(141)로 전송하고, 마이크(MIC)(143)로부터 입력 받은 음성 등의 오디오 신호를 제어부(180)로 전달하는 기능을 수행한다. 오디오 처리부(140)는 음성/음향 데이터를 제어부(180)의 제어에 따라 스피커(141)를 통해 가청음으로 변환하여 출력하고 마이크(143)로부터 수신되는 음성 등의 오디오 신호를 디지털 신호로 변환하여 제어부(180)로 전달할 수 있다.
스피커(141)는 통화 모드, 녹음 모드, 음성인식 모드, 방송수신 모드, 촬영 모드, 그리고 상황 인식 서비스 실행 모드 등에서 무선 통신부(110)로부터 수신된 오디오 데이터, 마이크(141)로부터 입력된 오디오 데이터, 또는 저장부(150)에 저장된 오디오 데이터를 출력할 수 있다. 스피커(141)는 사용자 디바이스(100)에서 수행되는 기능(예컨대, 액션 실행에 따른 상황 정보의 피드백, 통화 연결 수신, 통화 연결 발신, 촬영, 미디어 컨텐츠(음악 파일, 동영상 파일) 재생 등)과 관련된 음향 신호를 출력할 수도 있다.
마이크(143)는 통화 모드, 녹음 모드, 음성인식 모드, 촬영 모드, 상황 인식 서비스 실행 모드 등에서 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 통화모드인 경우 이동통신 모듈(111)을 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 또는 처리된 음성 데이터는 상황 인식 서비스 실행 모드인 경우 음성 인식부(170)를 통하여 제어부(180)에서 처리 가능한 형태로 변환되어 출력될 수 있다. 마이크(143)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다. 마이크(143)는 상황 인식 서비스 실행 또는 제어 커맨드 설정을 위한 사용자 입력이 수신될 시 그에 따른 입력 데이터를 발생하여 제어부(180)에게 전달한다.
저장부(150)는 제어부(180)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들(예컨대, 제어 커맨드, 액션, 전화번호, 메시지, 오디오, 동영상 등)의 임시 저장을 위한 기능을 수행할 수도 있다. 저장부(150)에는 사용자 디바이스(100)의 기능 운용에 따른 사용 빈도(예컨대, 제어 커맨드 사용빈도, 어플리케이션 사용빈도, 전화번호, 메시지, 멀티미디어에 대한 사용빈도 등), 중요도 및 우선순위도 함께 저장될 수 있다. 저장부(150)에는 터치스크린 상의 터치 입력 시 출력되는 다양한 패턴(pattern)의 진동 및 음향에 관한 데이터를 저장할 수도 있다. 특히, 저장부(150)는 사용자 정의에 따른 제어 커맨드, 정의되는 제어 커맨드별 액션(또는 기능), 제어 커맨드별 상황 정보, 어플리케이션별 액션 실행 규칙 등이 매핑되는 커맨드 테이블을 저장할 수 있다.
그리고 저장부(150)는 상황 인식 서비스가 실행되는 중에 마이크(143)를 통해 입력되는 오디오를 버퍼링(buffering)하고, 버퍼링된 오디오를 제어부(180)의 제어에 따라 녹음 데이터로 저장할 수 있다. 또한 저장부(150)는 후술하는 바와 같이 음성 인식부(170)가 소프트웨어(software)로 구현될 시 그를 저장할 수도 있다.
저장부(150)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 마이크로 타입(micro type), 및 카드 타입(예컨대, SD 카드 또는 XD 카드) 등의 메모리와, 램(RAM, Random Access Memory), SRAM(Static RAM), 롬(ROM, Read-Only Memory), PROM(Programmable ROM), EEPROM(Electrically Erasable PROM), 자기 메모리(MRAM, Magnetic RAM), 자기 디스크(magnetic disk), 및 광디스크(optical disk) 타입의 메모리 중 적어도 하나의 타입의 저장 매체(storage medium)를 포함할 수 있다. 사용자 디바이스(100)는 인터넷 상에서 상기 저장부(150)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.
인터페이스부(160)는 사용자 디바이스(100)에 연결되는 모든 외부 기기와의 통로 역할을 한다. 인터페이스부(160)는 외부 기기(예컨대, 헤드셋(200) 등)로부터 데이터를 전송 받거나, 사용자 디바이스(100) 내부의 데이터가 외부 기기(예컨대, 헤드셋(200) 등)로 전송되도록 한다. 또한 인터페이스부(160)는 외부 기기(예컨대, 전원 공급 장치)로부터 전원을 공급받아 사용자 디바이스(100) 내부의 각 구성 요소에 전달한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 입/출력(Input/Output) 포트, 비디오 입/출력 포트, 헤드셋(또는 이어폰) 포트 등이 인터페이스부(160)에 포함될 수 있다.
음성 인식부(170)는 음성을 이용한 사용자 디바이스(100)의 다양한 기능 실행 및 상황 인식 서비스에서 사용자의 상황을 인식하기 위한 음성인식 동작을 수행할 수 있다. 상기 음성 인식부(170)는 사운드 레코더(Sound Recorder)(171), 엔진 매니저(Engine Manager)(173), 그리고 스피치 인식 엔진(Speech Recognition Engine)(175) 등을 포함할 수 있다.
사운드 레코더(171)는 마이크(143)로부터 입력되어 전달된 오디오(사용자 음성, 안내방송 등)를 기록하여 녹음 데이터를 생성할 수 있다.
엔진 매니저(173)는 상기 사운드 레코드(171)로부터 전달된 녹음 데이터를 스피치 인식 엔진(175)으로 전달하고, 상기 스피치 인식 엔진(175)으로부터 전달된 결과 정보를 제어부(180)에게 전달한다. 엔진 매니저(173)는 상기 스피치 인식 엔진(175)로부터 제어 커맨드로 해석된 결과 정보가 전달될 시 상기 결과 정보에 따른 제어 커맨드를 생성하여 제어부(180)에게 전달한다.
스피치 인식 엔진(175)은 상기 엔진 매니저(173)를 통해 전달된 녹음 데이터를 해석할 수 있다. 즉, 스피치 인식 엔진(355)은 상기 녹음 데이터를 해석하여 미리 정의된 제어 커맨드에 대응하는 커맨드가 포함되는지 분석할 수 있다. 스피치 인식 엔진(175)은 녹음 데이터로부터 미리 정의된 제어 커맨드가 포함되는 것으로 해석할 시 그에 대한 결과를 상기 엔진 매니저(173)로 전달할 수 있다. 본 발명에서 스피치 인식 엔진(175)은 입력된 신호를 텍스트 또는 음성으로 변환하기 위한 엔진으로, 입력된 텍스트를 음성으로 변환하는 TTS(Text To Speech) 엔진과, 음성을 메시지의 텍스트로 변환하는 STT(Speech To Text) 엔진을 포함하는 프로그램으로 구성될 수도 있다.
본 발명의 실시 예에 따른 사용자 디바이스(100)의 음성 인식부(170)는, 음성을 이용한 다양한 서비스를 실행하는 것과 관련된 동작을 수행하기 위해 OS(Operating System) 기반의 소프트웨어로 구현될 수도 있다. 소프트웨어로 구현되는 음성 인식부(170)는 저장부(150) 및 제어부(180) 중 적어도 하나 또는 별도의 프로세서(미도시)에, 저장 또는 탑재(loading)될 수도 있다.
제어부(180)는 사용자 디바이스(100)의 전반적인 동작을 제어한다. 예를 들어, 음성 통화, 데이터 통신, 화상 통화 등에 관련된 제어를 수행할 수 있다. 특히, 제어부(180)는 본 발명의 실시 예에서 음성인식을 통한 상황 인식 서비스 운용과 관련된 전반적인 동작을 제어한다. 즉, 본 발명의 실시 예에 따르면, 제어부(180)는 사용자 입력에 따라 정의되는 제어 커맨드 설정, 음성인식을 통해 제어 커맨드에 대응하는 상황 인식, 사용자 정의에 따른 액션 실행, 그리고 액션 실행에 따른 상황 정보의 피드백 등과 관련된 상황 인식 서비스의 운용을 제어할 수 있다.
제어부(180)는 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하여 상기 저장부(150)에 저장할 수 있다. 제어부(180)는 상황 인식 서비스 실행 중에 상기 마이크(143)를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션 실행을 제어한다. 그리고 제어부(180)는 상기 실행된 액션에 대응하게 상황 정보 출력을 제어할 수 있다. 여기서, 제어부(180)는 상기 입력된 오디오의 게인을 분석하여, 상기 오디오의 게인과 기준 게인을 비교할 수 있다. 그리고 제어부(180)는 상기 오디오의 게인이 상기 기준 게인보다 큰 경우 상기 입력된 오디오에 대한 음성인식이 수행되도록 제어한다. 또한 제어부(180)는 상기 제어 커맨드에 대응하는 오디오가 입력될 시 재생 중이던 재생 모드를 상기 액션에 따라 제어하고, 상기 재생 모드의 제어에 대응하게 상기 상황 정보의 시각, 청각 및 촉각 중 적어도 하나의 방식에 의한 출력을 제어할 수 있다. 그리고 제어부(180)는 상기 상황 정보를 출력한 후 상기 제어된 재생 모드에 대한 재생을 계속하여 제어할 수 있다.
이러한 제어부(180)의 상세 제어 동작에 대해 후술하는 도면들을 참조한 사용자 디바이스(100)의 동작 예시 및 그의 제어 방법에서 설명될 것이다.
전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성 요소들의 동작에 필요한 전원을 공급한다.
한편, 본 발명에서 설명되는 다양한 실시 예들은 소프트웨어, 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 발명에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 제어부(180) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
여기서, 상기 기록 매체는 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하고, 마이크를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션을 실행하고, 상기 실행된 액션에 대응하게 상황 정보가 출력되도록 처리하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함할 수 있다.
도 3은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스가 실행되는 동작 예시를 도시한 도면이고, 도 4는 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 제어 커맨드가 제공되는 화면 예시를 도시한 도면이다.
상기 도 3을 참조하면, 참조번호 <310>에 도시한 바와 같이 사용자는 사용자 디바이스(100)와 헤드셋(200)을 연결할 수 있다. 예를 들어, 사용자는 사용자 디바이스(100)에서 미디어 컨텐츠를 재생하고 재생되는 미디어 컨텐츠의 오디오를 헤드셋(200)을 통해 청취하고자 할 수 있다. 그리고 사용자는 사용자 디바이스(100)와 헤드셋(200) 간의 연결 방식에 따라 무선 인터페이스(예컨대, 블루투스) 또는 유선 인터페이스(예컨대, 커넥터)를 통해 상호 간에 연결시킬 수 있다.
사용자 디바이스(100)는 임의의 모드(예컨대, 대기 모드, 미디어 컨텐츠 재생 모드 등)가 수행 중인 상태에서 헤드셋(200)이 연결되면, 사용자 디바이스(100)의 오디오 출력 경로를 상기 헤드셋(200)에 의해 출력되도록 경로를 변경 설정할 수 있다. 그리고 사용자 디바이스(100)는 참조번호 <330>에 도시된 바와 같이 상황 인식 서비스의 실행을 안내하는 팝업(300)을 화면상에 제공할 수 있다. 상기 상황 인식 서비스의 실행을 안내하는 팝업(300)은 사용자 설정에 따라 선택적으로 제공될 수 있다. 상기 팝업(300)을 제공하는 방식의 경우 헤드셋(200)이 사용자 디바이스(100)에 연결되는 시점에 자동으로 제공될 수 있으며, 상기 팝업(300)을 제공하지 않는 방식 즉, 상황 인식 서비스의 자동 실행 방식의 경우 헤드셋(200)이 사용자 디바이스(100)에 연결되는 시점에 상황 인식 서비스가 내부적으로 자동 실행될 수 있다.
한편, 상기 도 3에서 참조번호 <330>과 같이 팝업(300)이 제공된 상태에서 사용자는 팝업(300)의 실행 버튼을 선택하는 것에 의해 상황 인식 서비스를 바로 실행할 수 있다. 이때, 사용자 디바이스(100)는 사용자의 상황 인식 서비스 실행 요청에 응답하여, 상기 팝업(300)을 화면상에서 제거하고 이전에 표시된 화면으로 전환하면서, 상기 상황 인식 서비스의 실행에 따른 태스크를 내부적으로 처리할 수 있다. 예를 들어, 사용자 디바이스(100)는 마이크(143)가 오프(off) 상태인 경우 마이크(143)를 턴-온(turn-on)하여 외부로부터의 오디오를 입력받고, 입력되는 오디오에 대한 음성인식을 처리할 수 있다.
또는 사용자는 팝업(300)의 설정 버튼을 선택하여 상황 인식을 위한 제어 커맨드를 설정하기 위한 설정 태스크로 진입할 수 있다. 상기 팝업(300)의 설정 버튼의 선택에 따른 설정 태스크로 진입된 경우의 화면 예시가 상기 도 4에 나타나 있다. 즉, 사용자 디바이스(100)는 상기 팝업(300)의 설정 메뉴가 선택될 시 제어 커맨드를 설정할 수 있는 화면 인터페이스를 제공한다. 즉, 상기 도 3의 참조번호 <330>에 나타낸 사용자 디바이스(100)의 화면은 팝업(300)의 설정 버튼을 선택하는 입력에 따라 상기 도 4와 같이 전환된다.
상기 도 4에 도시된 바와 같이, 제어 커맨드를 위한 상기 화면 인터페이스는 사용자에 의해 등록된 제어 커맨드가 제공되는 커맨드 영역(410)과, 제어 커맨드의 수정, 추가 등록 및 설정 등을 위한 설정 영역(430)을 포함한다. 본 발명의 실시 예에서 마이크를 통해 입력되는 음성의 인식을 위한 상기 제어 커맨드는 마이크(143)를 통해 음성 기반으로 입력되어 등록되거나, 또는 사용자 입력부(120) 또는 표시부(130)를 통해 텍스트 기반으로 입력될 수 있다. 그리고 상기 제어 커맨드를 위한 음성 및 텍스트는 자연어 기반으로 입력도어 설정되는 것을 특징으로 한다. 예를 들어, "길동", "홍길동", "길동아", "마이클" 등과 같은 사용자의 이름, "홍과장", "자기야", "멋쟁이", "학생", "친구", "여보게", "여보세요" 등과 같은 애칭, "서울", "명동", "서울역", "다음 역은 서울역입니다" 등과 같은 지역명이나 장소 등으로 사용자 희망에 따라 사용자의 상황 인지를 위한 단어 및 문장 등으로 다양하게 설정될 수 있다.
사용자는 상기 화면 인터페이스의 커맨드 영역(410)을 통해 상황 인식 서비스에서 사용자의 상황 인지를 위한 적어도 하나의 제어 커맨드를 선택하고 '완료' 버튼을 선택하는 것에 의해 상황 인식 서비스를 바로 실행할 수 있다. 또한 사용자는 상기 화면 인터페이스의 커맨드 영역(410)의 제어 커맨드 중 적어도 하나를 선택하고 '수정' 버튼을 선택하는 것에 의해 기존의 제어 커맨드를 수정할 수 있다. 또한 사용자는 상기 화면 인터페이스의 추가 버튼을 선택하고 새로운 제어 커맨드를 텍스트 또는 음성 기반으로 입력하여 추가 등록할 수 있다.
상기 도 4에서 도시된 바와 같은 제어 커맨드를 위한 화면 인터페이스는 앞서와 같은 도 3과 같은 절차에 의해 제공될 수 있으며, 사용자의 메뉴 조작에 따라 언제든지 호출되어 제공될 수도 있다.
그리고 사용자 디바이스(100)는 상기 화면 인터페이스를 통해 사용자로부터 적어도 하나의 제어 커맨드가 설정되면, 상황 인식 서비스를 실행하고, 마이크(143)를 턴-온하여 외부로부터의 오디오 입력 및 입력되는 오디오에 대한 음성인식을 처리할 수 있다.
한편, 상기 도 3에서는 사용자 디바이스(100)에 헤드셋(200)이 연결되는 시점에 상황 인식 서비스를 위한 팝업(300)을 제공하거나 또는 상황 인식 서비스가 자동 실행되는 것을 예시로 하였으나, 이는 사용자 선택 또는 설정에 따라 다양하게 운용될 수 있다. 예를 들어, 상황 인식 서비스는 헤드셋(200)의 연결 유무에 관계없이 사용자의 메뉴 조작에 의해 실행될 수 있다. 또는 상황 인식 서비스는 미디어 컨텐츠(예컨대, 음악, 동영상 등)의 재생을 시작하는 시점에서 실행될 수 있다. 또는 상황 인식 서비스는 사용자 설정에 따른 특정 상황에 대응하여 실행될 수도 있다. 여기서, 상기 특정 상황은 사용자 정의에 따른 특정 위치(집, 사무실 등), 헤드셋(200) 연결 등과 같이 사용자가 다양하게 설정 가능하다.
도 5는 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.
상기 도 5를 참조하면, 제어부(180)는 상황 인식 서비스의 실행을 제어할 수 있다(501단계). 여기서, 상기 상황 인식 서비스의 실행은 사용자의 메뉴 조작에 의해 실행되거나, 또는 헤드셋(200)이 사용자 디바이스(100)에 연결됨에 따라 실행되거나, 또는 사용자 정의에 따른 특정 상황 검출에 의해 실행될 수 있다.
제어부(180)는 상기 상황 인식 서비스의 실행 시 제어 커맨드를 설정하는 요청이 있는지 여부를 판단한다(503단계). 그리고 제어부(180)는 제어 커맨드의 설정이 요청되면, 사용자 입력에 대응하여 제어 커맨드를 설정한다(505단계). 예를 들어, 제어부(180)는 앞서 도 4의 예시와 같은 제어 커맨드 설정을 위한 화면 인터페이스를 제공하고, 사용자 입력에 따라 텍스트 또는 음성 기반의 새로운 제어 커맨드를 추가 구성하거나, 미리 등록된 제어 커맨드들 중 적어도 하나의 제어 커맨드를 선택받을 수 있다. 그리고 제어부(180)는 추가 구성된 제어 커맨드 또는 선택된 제어 커맨드를 상기 실행하는 상황 인식 서비스를 위한 제어 커맨드로 설정할 수 있다.
제어부(180)는 제어 커맨드의 설정이 요청되지 않거나, 또는 상기 제어 커맨드 설정이 완료되면, 마이크(143)를 활성화 제어할 수 있다(507단계). 예를 들어, 마이크(143)가 오프 상태인 경우 마이크(143)를 턴-온하여 외부로부터 오디오 입력을 대기할 수 있다. 따라서 마이크(143)가 온 상태인 경우 상기 507단계는 생략될 수 있다.
제어부(180)는 상기 마이크(143)를 통해 오디오가 입력되면(509단계), 입력된 오디오에 대한 음성인식을 수행한다(511단계).
제어부(180)는 음성 인식된 오디오와 사용자 설정에 따른 제어 커맨드를 비교하고(513단계), 인식된 오디오가 제어 커맨드에 대응하는지 판단한다(515단계). 여기서, 제어부(180)는 인식된 오디오와 제어 커맨드가 일치하거나, 또는 인식된 오디오에 제어 커맨드가 포함되는지 판단할 수 있다. 예를 들어, 설정된 제어 커맨드가 "서울역"인 경우, 제어부(180)는 인식된 오디오가 "서울역"과 일치하는지, 또는 인식된 오디오가 "서울역"을 포함하는 문구(예컨대, "다음 역은 서울역입니다")인지 등을 판단할 수 있다. 여기서, 인식된 오디오와 제어 커맨드의 비교는 입력된 오디오에 대한 음성 인식을 통해 텍스트로 변환하고, 변환된 텍스트와 설정된 제어 커맨드를 비교할 수 있다.
제어부(180)는 인식된 오디오가 제어 커맨드에 대응하지 않으면(515단계의 NO), 전술한 509단계로 진행하여 이하의 동작을 수행할 수 있다. 제어부(180)는 인식된 오디오가 제어 커맨드에 대응하면(515단계의 YES) 상기 제어 커맨드에 매핑된 액션을 확인한다(517단계).
제어부(180)는 상기 제어 커맨드에 따른 액션을 실행하고(519단계), 상기 액션 실행에 대응하게 상황 정보의 출력을 제어한다(521단계). 예를 들어, 상황 인식 서비스를 위해 설정된 제어 커맨드가 "서울역"이고, 상기 제어 커맨드에 대응하는 상황에 대해 설정된 액션이 미디어 컨텐츠의 재생 일시 정지 및 인식된 오디오(예컨대, "다음 역은 서울역입니다")의 출력인 것을 가정한다. 그러면, 제어부(180)는 재생 중이던 미디어 컨텐츠의 재생을 일시 정지하고, 인식된 오디오인 "다음 역은 서울역입니다"를 스피커(141)(또는 헤드셋(200)이 연결된 경우 헤드셋(200))를 통해 출력한다. 또는 제어부(180)는 상기 제어 커맨드에 대응하는 상황에 대해 설정된 액션이 미디어 컨텐츠의 재생 유지 및 인식된 오디오의 화면 출력인 경우, 미디어 컨텐츠의 재생을 유지하는 상태에서 인식된 오디오인 "다음 역은 서울역입니다"를 재생 중인 미디어 컨텐츠의 화면에 오버레이 형태로 표시할 수 있다.
도 6은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 음성인식을 이용한 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.
상기 도 6을 참조하면, 제어부(180)는 헤드셋(200) 연결을 검출할 시(601단계), 상황 인식 서비스의 자동 실행을 제어한다(603단계). 여기서, 제어부(180)는 상기 상황 인식 서비스 실행 시 마이크(143)의 상태를 체크하고, 마이크(143)가 오프 상태인 경우, 외부에서 발생하는 오디오를 입력받기 위하여 상기 마이크(143)를 턴-온 제어할 수 있다.
제어부(180)는 상황 인식 서비스 실행 시 사용자로부터 제어 커맨드 설정을 위한 요청이 있는지 판단한다(605단계). 예를 들어, 제어부(180)는 상황 인식 서비스 실행 시 앞서 도 3에서 살펴본 바와 같은 팝업(300)을 제공하고, 상기 팝업(300)을 통해 제어 커맨드 설정을 위한 사용자 입력이 있는지 판단할 수 있다.
제어부(180)는 제어 커맨드 설정을 위한 요청이 있으면(605단계의 YES) 사용자 입력에 응답하여 상황 인식을 위한 제어 커맨드를 설정(607단계)한 후 609단계로 진행하고, 제어 커맨드 설정을 위한 요청이 없으면(605단계의 NO) 609단계로 바로 진행할 수 있다.
제어부(180)는 사용자 요청에 따른 재생 모드 수행을 제어한다(609단계). 예를 들어, 제어부(180)는 사용자가 요청하는 미디어 컨텐츠(예컨대, 음악 파일, 동영상 파일)를 재생하거나, 또는 사용자 선택에 따른 채널의 방송을 수신하여 재생할 수 있다. 또는 제어부(180)는 사용자 요청에 따라 게임 기능을 실행하거나, 촬영 기능을 실행할 수도 있다. 즉, 상기 도 6에서 상기 재생 모드는 사용자 디바이스(100)에서 실행 가능한 모든 형태의 기능 수행에 따른 모드를 나타낼 수 있다.
제어부(180)는 상기 마이크(143)를 통해 오디오가 입력되면(611단계), 입력된 오디오의 게인(gain)을 분석한다(613단계). 그리고 제어부(180)는 분석된 오디오의 게인이 설정된 조건(예컨대, 기준 게인)을 만족하는지 판단한다(615단계). 예를 들어, 제어부(180)는 입력된 오디오의 게인을 분석하고, 분석된 오디오의 게인이 기준 게인보다 큰 값을 가지는지 판단할 수 있다. 여기서, 상기 기준 게인은 사용자에 의해 미리 정의되는 값(일정 데시벨(dB) 값)이거나, 마이크(143)를 통해 입력되는 오디오들의 평균 값(평균 데시벨(dB) 값)을 나타낼 수 있다. 후자의 방식을 이용하는 경우, 제어부(180)는 마이크(143)를 통해 입력되는 오디오들에 대한 게인을 획득하여 평균화 하는 작업을 수행할 수 있다. 이러한 동작은 마이크(143)를 통해 사용자가 의도하지 않은, 즉 주변의 잡음에 해당하는 오디오 등의 유입으로 인해, 불필요한 음성인식 동작을 수행하지 않기 위해 수행될 수 있다.
제어부(180)는 입력된 오디오가 설정된 조건을 만족하지 않을 시(예컨대, 분석된 오디오의 게인이 기준 게인보다 크지 않은 경우)(615단계의 NO) 611단계로 진행하여 이하의 동작을 제어할 수 있다. 제어부(180)는 입력된 오디오가 설정된 조건을 만족할 시(예컨대, 분석된 오디오의 게인이 기준 게인보다 큰 경우)(615단계의 YES) 음성 인식을 수행한다(617단계).
제어부(180)는 음성 인식된 오디오와 사용자 설정에 따른 제어 커맨드를 비교하고(619단계), 인식된 오디오가 제어 커맨드에 대응하는지 판단한다(621단계). 여기서, 제어부(180)는 앞서 살펴본 바와 같이 인식된 오디오와 제어 커맨드가 일치하거나, 또는 인식된 오디오에 제어 커맨드가 포함되는지 판단할 수 있다.
제어부(180)는 인식된 오디오가 제어 커맨드에 대응하지 않으면(621단계의 NO) 전술한 611단계로 진행하여 이하의 동작을 제어할 수 있다.
제어부(180)는 인식된 오디오가 제어 커맨드에 대응하면(621단계의 YES) 상기 재생 모드를 설정된 방식에 따라 제어할 수 있다(623단계). 예를 들어, 재생 모드 일시 정지, 헤드셋(200)의 출력 음량 조절(예컨대, 무음 처리), 재생 모드를 유지하면서 오디오 출력만 무음 처리 등을 제어할 수 있다. 그리고 제어부(180)는 제어 커맨드에 매핑된 상황 정보의 출력을 제어한다(625단계). 예를 들어, 제어부(180)는 설정 방식에 따라 인식된 오디오에 대한 팝업 출력, 오디오 출력 등에 의한 상황 정보를 출력하여 사용자가 상황을 인식할 수 있도록 피드백을 제공한다.
제어부(180)는 상황 정보를 출력한 후 상기 재생 모드의 재수행을 제어할 수 있다(627단계). 예를 들어, 제어부(180)는 일시 정지된 재생 모드를 해제하여 재생을 수행하거나, 출력 음량을 이전 상태의 음량으로 복원하거나, 재생 중인 오디오의 출력 음약을 복원 하는 등을 제어할 수 있다.
도 7은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스가 제공되는 동작 예시를 도시한 도면이다.
상기 도 7을 참조하면, 사용자는 상황 인식 서비스를 수행하기 위한 제어 커맨드를 미리 설정해 놓거나, 또는 상황 인식 서비스 실행을 희망하는 시점에서 설정할 수 있다(710단계). 예를 들어, 사용자 디바이스(100)는 사용자 정의에 따라 "홍길동"을 제어 커맨드로 설정할 수 있다. 그리고 사용자는 헤드셋(200)을 사용자 디바이스(100)에 연결하고, 사용자 디바이스(100)에서 음악 파일을 재생하여 청취할 수 있다(720단계). 이때, 사용자 디바이스(100)는 음악 파일을 재생하여 그에 따른 오디오를 헤드셋(200)을 통해 출력함과 동시에 음성인식 솔루션(녹음 동작 포함)을 수행할 수 있다(730단계).
그리고 사용자 디바이스(100)는 음성인식을 통해 "홍길동~"과 같이 마이크(143)를 통해 외부에서 사용자를 호출하는 오디오(제어 커맨드 포함)가 입력되면(740단계), 상기 음악 파일의 재생을 일시 정지한다(750단계). 그리고 사용자 디바이스(100)는 인식된 오디오(또는 제어 커맨드)를 헤드셋(200)을 통해 출력하여 사용자의 설정 상황이 발생됨을 사용자에게 피드백 한다. 즉, 인식된 오디오를 다시 헤드셋(200)으로 재생하여 설정된 상황에 의해 음악 재생이 중지되었음을 사용자에게 인지시킬 수 있다.
추가적으로, 입력된 오디오의 방향성까지 인식 가능한 경우, 헤드셋(200)으로 인식된 오디오(또는 제어 커맨드)를 재생할 시 인식된 방향성을 반영할 수도 있다. 예를 들어, 사용자의 오른쪽에서 "홍길동~"과 같이 사용자 호출이 이루어진 경우, 헤드셋(200)의 우측 스피커를 통해 인식된 오디오(또는 제어 커맨드)를 재생하거나, 또는 헤드셋(200)의 좌측 스피커보다 우측 스피커의 음량을 상대적으로 크게 재생하여 사용자의 인지성을 높일 수도 있다.
도 8은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스가 제공되는 동작 예시를 도시한 도면이다.
상기 도 8을 참조하면, 사용자는 동영상 강의를 재생하여 시청/청취하는 중에(810단계) 영등포역에서 지하철에 탑승할 수 있다. 이때, 사용자는 지하철을 탑승하고, 사용자 디바이스(100)에서 상황 인식 서비스에 대한 제어 커맨드로 목적지인 "서울역"을 설정하고 상황 인식 서비스를 실행할 수 있다(820단계). 상기 제어 커맨드는 음성 또는 텍스트 입력에 의해 설정할 수 있다. 그리고 사용자는 동영상 강의를 계속하여 시청/청취할 수 있다.
이때, 사용자 디바이스(100)는 동영상 강의의 재생을 제어하면서, 내부적으로 상황 인식 서비스의 동작을 내부적으로 처리 중인 상태이다(830단계). 이러한 상태에서 사용자의 목적지인 서울역의 전 정거장에서 설정된 제어 커맨드 "서울역"에 대응하는 지하철 내의 안내방송(예컨대, 다음 역은 서울역입니다)이 입력될 수 있다(840단계). 그러면, 사용자 디바이스(100)는 상기 안내방송으로부터 "서울역"이라는 제어 커맨드를 인식하고, 인식된 오디오를 녹음 및 인식된 오디오를 재생 중인 동영상 상에 출력할 수 있다(850단계). 예를 들어, 사용자 디바이스(100)는 "다음 역은 서울역입니다"라는 인식 및 녹음된 안내방송을 재생 중인 동영상의 화면에 표시할 수 있다. 즉, 동영상 재생 상태를 유지하는 상태에서 화면에 상황 정보(안내방송)만을 오버레이(overlay)로 표시할 수 있다.
한편, 상술한 바와 같은 본 발명의 실시 예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터로 판독 가능한 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
상기 컴퓨터로 판독 가능한 기록 매체에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 마그네틱 매체(Magnetic Media)와, CD-ROM(Compact Disc Read Only Memory), DVD(Digital Versatile Disc)와 같은 광기록 매체(Optical Media)와, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media)와, 그리고 ROM(Read Only Memory), RAM(Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
그리고 본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 사용자 디바이스 200: 헤드셋
110: 무선 통신부 120: 사용자 입력부
130: 표시부 140: 오디오 처리부
150: 저장부 160: 인터페이스부
170: 음성 인식부 171: 사운드 레코더
173: 엔진 매니저 175: 스피치 인식 엔진
180: 제어부 190: 전원 공급부

Claims (17)

  1. 상황 인식 서비스 제공 방법에 있어서,
    사용자 장치가 미디어 컨텐츠를 재생하는 동안, 상기 사용자 장치의 마이크를 통해서 외부 오디오 신호를 수신하는 동작;
    상기 외부 오디오 신호는 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 대응하는지 여부를 판단하는 동작;
    상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 미리 정의된 오디오 커맨드들에 할당된 하나 이상의 시각적 표시들로부터 시각적 표시를 확인하는 동작; 및
    특정 동작을 실행하는 동작을 포함하며,
    상기 하나 이상의 미리 정의된 오디오 커맨드들은 사용자에 의해 정의되는 것을 특징으로 하며,
    상기 특정 동작을 실행하는 동작은
    상기 재생 중인 미디어 컨텐츠의 재생을 중지하는 동작;
    상기 확인된 시각적 표시를 상기 사용자 장치의 디스플레이 상에 표시하는 동작; 및
    상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 외부 오디오 신호와 관련된 정보를 상기 사용자 장치에 포함된 스피커를 통해서 오디오로 출력하는 동작을 포함하는 상황 인식 서비스 제공 방법.
  2. 제1항에 있어서,
    상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 텍스트를 포함하는 상황 인식 서비스 제공 방법.
  3. 제1항에 있어서,
    상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 미리 정의된 텍스트를 포함하는 상황 인식 서비스 제공 방법.
  4. 제1항에 있어서,
    상기 확인된 시각적 표시는 사용자에 의해 미리 정의된 오디오 커맨드에 대응하는 상기 외부 오디오를 포함하는 상황 인식 서비스 제공 방법.
  5. 삭제
  6. 사용자 장치에 있어서,
    디스플레이;
    외부 오디오를 수신하는 마이크;
    메모리; 및
    프로세서를 포함하며,
    상기 프로세서는
    사용자 장치가 미디어 컨텐츠를 재생하는 동안, 상기 사용자 장치의 상기 마이크를 통해서 상기 외부 오디오 신호를 수신하고, 상기 외부 오디오 신호는 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 대응하는지 여부를 판단하며, 상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 미리 정의된 오디오 커맨드들에 할당된 하나 이상의 시각적 표시들로부터 시각적 표시를 확인하며, 특정 동작을 실행하고, 상기 특정 동작을 실행하는 동작은 상기 재생 중인 미디어 컨텐츠의 재생을 중지하며, 상기 확인된 시각적 표시를 상기 사용자 장치의 상기 디스플레이 상에 표시하고, 상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 외부 오디오 신호와 관련된 정보를 상기 사용자 장치에 포함된 스피커를 통해서 오디오로 출력하며,
    상기 하나 이상의 미리 정의된 오디오 커맨드들은 사용자에 의해 정의되는 것을 특징으로 하는 사용자 장치.
  7. 제6항에 있어서,
    상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 텍스트를 포함하는 사용자 장치.
  8. 제6항에 있어서,
    상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 미리 정의된 텍스트를 포함하는 사용자 장치.
  9. 제6항에 있어서,
    상기 확인된 시각적 표시는 사용자에 의해 미리 정의된 오디오 커맨드에 대응하는 상기 외부 오디오를 포함하는 사용자 장치.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
KR1020120142624A 2012-12-10 2012-12-10 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치 KR102091003B1 (ko)

Priority Applications (12)

Application Number Priority Date Filing Date Title
KR1020120142624A KR102091003B1 (ko) 2012-12-10 2012-12-10 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US14/101,546 US9940924B2 (en) 2012-12-10 2013-12-10 Method and user device for providing context awareness service using speech recognition
CN201310670710.0A CN103869971B (zh) 2012-12-10 2013-12-10 用于使用语音识别提供情境感知服务的方法和用户装置
CN201810181943.7A CN108446022B (zh) 2012-12-10 2013-12-10 用户装置及其控制方法
EP13196471.0A EP2760016B1 (en) 2012-12-10 2013-12-10 Method and user device for providing context awareness service using speech recognition
EP18184571.0A EP3410434B1 (en) 2012-12-10 2013-12-10 Method and user device for providing context awareness service using speech recognition
EP17167578.8A EP3217394B1 (en) 2012-12-10 2013-12-10 Method and user device for providing context awareness service using speech recognition
EP23209881.4A EP4300993A3 (en) 2012-12-10 2013-12-10 Method and user device for providing context awareness service using speech recognition
US15/901,525 US10395639B2 (en) 2012-12-10 2018-02-21 Method and user device for providing context awareness service using speech recognition
US16/534,395 US10832655B2 (en) 2012-12-10 2019-08-07 Method and user device for providing context awareness service using speech recognition
US17/091,455 US11410640B2 (en) 2012-12-10 2020-11-06 Method and user device for providing context awareness service using speech recognition
US17/883,013 US11721320B2 (en) 2012-12-10 2022-08-08 Method and user device for providing context awareness service using speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120142624A KR102091003B1 (ko) 2012-12-10 2012-12-10 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20140074549A KR20140074549A (ko) 2014-06-18
KR102091003B1 true KR102091003B1 (ko) 2020-03-19

Family

ID=50002404

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120142624A KR102091003B1 (ko) 2012-12-10 2012-12-10 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치

Country Status (4)

Country Link
US (5) US9940924B2 (ko)
EP (4) EP4300993A3 (ko)
KR (1) KR102091003B1 (ko)
CN (2) CN108446022B (ko)

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8917876B2 (en) 2006-06-14 2014-12-23 Personics Holdings, LLC. Earguard monitoring system
US20080031475A1 (en) 2006-07-08 2008-02-07 Personics Holdings Inc. Personal audio assistant device and method
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8917894B2 (en) 2007-01-22 2014-12-23 Personics Holdings, LLC. Method and device for acute sound detection and reproduction
US11750965B2 (en) 2007-03-07 2023-09-05 Staton Techiya, Llc Acoustic dampening compensation system
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8111839B2 (en) 2007-04-09 2012-02-07 Personics Holdings Inc. Always on headwear recording system
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US10194032B2 (en) 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
CA2823346A1 (en) 2010-12-30 2012-07-05 Ambientz Information processing using a population of data acquisition devices
US10362381B2 (en) 2011-06-01 2019-07-23 Staton Techiya, Llc Methods and devices for radio frequency (RF) mitigation proximate the ear
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102091003B1 (ko) 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9167082B2 (en) 2013-09-22 2015-10-20 Steven Wayne Goldstein Methods and systems for voice augmented caller ID / ring tone alias
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10147421B2 (en) 2014-12-16 2018-12-04 Microcoft Technology Licensing, Llc Digital assistant voice input integration
US9389928B1 (en) 2015-02-11 2016-07-12 Microsoft Technology Licensing, Llc Platform for extension interaction with applications
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10133613B2 (en) * 2015-05-14 2018-11-20 Microsoft Technology Licensing, Llc Digital assistant extensibility to third party applications
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10019992B2 (en) * 2015-06-29 2018-07-10 Disney Enterprises, Inc. Speech-controlled actions based on keywords and context thereof
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
KR20170046958A (ko) * 2015-10-22 2017-05-04 삼성전자주식회사 전자 장치 및 그의 음성 인식을 이용한 기능 실행 방법
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) * 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9571628B1 (en) 2015-11-13 2017-02-14 International Business Machines Corporation Context and environment aware volume control in telephonic conversation
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
KR20170132622A (ko) * 2016-05-24 2017-12-04 삼성전자주식회사 음성 인식 기능을 갖는 전자 장치 및 전자 장치의 동작 방법
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10127926B2 (en) 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
CN110058834B (zh) * 2016-06-11 2022-06-17 苹果公司 智能设备仲裁和控制
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
KR20180049787A (ko) * 2016-11-03 2018-05-11 삼성전자주식회사 전자 장치, 그의 제어 방법
WO2018084576A1 (en) 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
KR20180074152A (ko) * 2016-12-23 2018-07-03 삼성전자주식회사 보안성이 강화된 음성 인식 방법 및 장치
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN106775570B (zh) * 2017-02-21 2021-05-18 联想(北京)有限公司 音频设备、包括所述音频设备的音频采集播放系统和方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109093627A (zh) * 2017-06-21 2018-12-28 富泰华工业(深圳)有限公司 智能机器人
US10546023B2 (en) * 2017-10-03 2020-01-28 Google Llc Providing command bundle suggestions for an automated assistant
US10496364B2 (en) * 2017-10-31 2019-12-03 Baidu Usa Llc System and method for controlling colors of smart lights based on user intent using natural language processing
KR102617265B1 (ko) * 2018-03-13 2023-12-26 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
KR102635811B1 (ko) 2018-03-19 2024-02-13 삼성전자 주식회사 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
US11158310B2 (en) * 2018-05-01 2021-10-26 Dell Products, L.P. Intelligent assistance for handling usage modes
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR20200013162A (ko) 2018-07-19 2020-02-06 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR20200027753A (ko) * 2018-09-05 2020-03-13 삼성전자주식회사 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11094327B2 (en) * 2018-09-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Audible input transcription
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109545208A (zh) * 2018-11-19 2019-03-29 珠海格力电器股份有限公司 语音的控制方法及装置、存储介质、电子装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110493681A (zh) * 2019-08-09 2019-11-22 无锡中感微电子股份有限公司 具有全自然用户界面的耳机装置及其控制方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111768782A (zh) * 2020-06-30 2020-10-13 广州酷狗计算机科技有限公司 音频识别方法、装置、终端及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US12020710B2 (en) * 2021-03-05 2024-06-25 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334968A (ja) * 2006-06-13 2007-12-27 Pioneer Electronic Corp 音声切換装置
JP2011008263A (ja) * 2009-06-26 2011-01-13 Intel Corp 環境オーディオ分析を使用した音楽プレイヤの制御

Family Cites Families (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
US5594784A (en) * 1993-04-27 1997-01-14 Southwestern Bell Technology Resources, Inc. Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls
JP3605682B2 (ja) * 1996-05-16 2004-12-22 本田技研工業株式会社 音声入力制御装置
US5963136A (en) * 1998-07-15 1999-10-05 O'brien; Charles Terrence Interactive prescription compliance and life safety system
US6054989A (en) * 1998-09-14 2000-04-25 Microsoft Corporation Methods, apparatus and data structures for providing a user interface, which exploits spatial memory in three-dimensions, to objects and which provides spatialized audio
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US7027991B2 (en) * 1999-08-30 2006-04-11 Agilent Technologies, Inc. Voice-responsive command and control system and methodology for use in a signal measurement system
JP2002297185A (ja) * 2001-03-29 2002-10-11 Pioneer Electronic Corp 情報処理装置および情報処理方法
US7996232B2 (en) * 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
US20040076273A1 (en) * 2002-10-18 2004-04-22 Oman Paul W. Text-to-voice system for communicating operational information from a protective device for a power system to a human user
US7580838B2 (en) * 2002-11-22 2009-08-25 Scansoft, Inc. Automatic insertion of non-verbalized punctuation
US10733976B2 (en) * 2003-03-01 2020-08-04 Robert E. Coifman Method and apparatus for improving the transcription accuracy of speech recognition software
US7650170B2 (en) * 2004-03-01 2010-01-19 Research In Motion Limited Communications system providing automatic text-to-speech conversion features and related methods
US7356473B2 (en) * 2005-01-21 2008-04-08 Lawrence Kates Management and assistance system for the deaf
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7684828B2 (en) * 2005-03-24 2010-03-23 Samsung Electronics Co., Ltd. Mobile terminal and method for outputting image
US8694322B2 (en) 2005-08-05 2014-04-08 Microsoft Corporation Selective confirmation for execution of a voice activated user interface
US20070185601A1 (en) * 2006-02-07 2007-08-09 Apple Computer, Inc. Presentation of audible media in accommodation with external sound
EP1895374B1 (en) * 2006-08-29 2016-04-06 Rockwell Automation Technologies, Inc. HMI devices with integrated user-defined behaviour
US7957972B2 (en) * 2006-09-05 2011-06-07 Fortemedia, Inc. Voice recognition system and method thereof
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008067638A1 (en) * 2006-12-08 2008-06-12 Harmonya Technologies Inc. Environment sensing system for the hearing-impaired
US9071729B2 (en) * 2007-01-09 2015-06-30 Cox Communications, Inc. Providing user communication
US20090221280A1 (en) * 2007-01-19 2009-09-03 Cellfish Media, Llc Personalization system and methods
US8013734B2 (en) * 2007-05-14 2011-09-06 Autocart Llc Personal safety mobile notification system
US8886521B2 (en) * 2007-05-17 2014-11-11 Redstart Systems, Inc. System and method of dictation for a speech recognition command system
US8200257B2 (en) * 2007-08-30 2012-06-12 Yahoo! Inc. Customizable mobile message services
WO2009073806A2 (en) * 2007-12-05 2009-06-11 Johnson Controls Technology Company Vehicle user interface systems and methods
US7875022B2 (en) * 2007-12-12 2011-01-25 Asante Solutions, Inc. Portable infusion pump and media player
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
US20090259942A1 (en) * 2008-04-14 2009-10-15 International Business Machines Corporation Varying an audio characteristic of an audible notice based upon a placement in a window stack of the application instance issuing the notice
FR2930730B1 (fr) * 2008-05-05 2011-03-04 Tournay Biotechnologies Procede d'obtention d'un extrait de marc de canneberge utilisable notamment dans la prevention et le traitement d'affections telles que caries, gingivites, maux de gorge
JP2010048953A (ja) * 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
US8606379B2 (en) * 2008-09-29 2013-12-10 Fisher-Rosemount Systems, Inc. Method of generating a product recipe for execution in batch processing
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US8593570B2 (en) * 2008-11-07 2013-11-26 Looxcie, Inc. Video recording camera headset
KR20100063837A (ko) * 2008-11-27 2010-06-14 삼성전자주식회사 휴대단말에서 긴급알림 서비스 제공 방법 및 장치
US20100211972A1 (en) * 2009-02-13 2010-08-19 Embarq Holdings Company, Llc System and method for displaying an emergency alert message
WO2010099416A1 (en) * 2009-02-27 2010-09-02 Magna Electronics Alert system for vehicle
US8731935B2 (en) * 2009-09-10 2014-05-20 Nuance Communications, Inc. Issuing alerts on detection of contents of interest introduced during a conference
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8996384B2 (en) * 2009-10-30 2015-03-31 Vocollect, Inc. Transforming components of a web page to voice prompts
KR101612788B1 (ko) * 2009-11-05 2016-04-18 엘지전자 주식회사 이동 단말기 및 그 제어 방법
KR101605347B1 (ko) * 2009-12-18 2016-03-22 삼성전자주식회사 휴대단말의 외부 출력 제어 방법 및 장치
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US20110195739A1 (en) * 2010-02-10 2011-08-11 Harris Corporation Communication device with a speech-to-text conversion function
EP2362678B1 (en) 2010-02-24 2017-07-26 GN Audio A/S A headset system with microphone for ambient sounds
US20110211680A1 (en) * 2010-02-26 2011-09-01 Research In Motion Limited Method and device for analyzing voice mail
US20110252316A1 (en) * 2010-04-12 2011-10-13 Microsoft Corporation Translating text on a surface computing device
US8825488B2 (en) * 2010-04-12 2014-09-02 Adobe Systems Incorporated Method and apparatus for time synchronized script metadata
US9183560B2 (en) * 2010-05-28 2015-11-10 Daniel H. Abelow Reality alternate
US8359020B2 (en) 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US8670945B2 (en) * 2010-09-30 2014-03-11 Honeywell International Inc. Apparatus and method for product movement planning to support safety monitoring in inventory management systems
US8655661B2 (en) * 2010-10-08 2014-02-18 Blackberry Limited Methods and apparatus to audibly provide messages in a mobile device
US20120096018A1 (en) * 2010-10-16 2012-04-19 Metcalf Michael D Method and system for selecting music
JP5674412B2 (ja) * 2010-10-19 2015-02-25 パナソニックIpマネジメント株式会社 機器制御装置及び機器制御方法
US20120113019A1 (en) * 2010-11-10 2012-05-10 Anderson Michelle B Portable e-reader and method of use
US8380128B2 (en) * 2010-11-30 2013-02-19 Motorola Solutions, Inc. User interface for a communication system
DK2472907T3 (en) * 2010-12-29 2017-06-19 Oticon As Listening system comprising an alarm device and a listening device
KR20120080069A (ko) * 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법
US8562434B2 (en) * 2011-01-16 2013-10-22 Google Inc. Method and system for sharing speech recognition program profiles for an application
US20120185240A1 (en) * 2011-01-17 2012-07-19 Goller Michael D System and method for generating and sending a simplified message using speech recognition
US8825734B2 (en) * 2011-01-27 2014-09-02 Egain Corporation Personal web display and interaction experience system
US8175884B1 (en) * 2011-02-08 2012-05-08 Gary Jay Morris Environmental condition detector with validated personalized verbal messages
JP5812633B2 (ja) * 2011-03-14 2015-11-17 三菱重工業株式会社 航空機の制御システム、航空機、航空機の制御プログラム、及び航空機の制御方法
US10057662B2 (en) * 2011-04-21 2018-08-21 Shah Talukder Flow controlled based synchronized playback of recorded media
JP6019108B2 (ja) * 2011-05-06 2016-11-02 セイヤー インコーポレイテッド 文字に基づく映像生成
US8718562B2 (en) * 2011-05-20 2014-05-06 Skype Processing audio signals
US9183832B2 (en) * 2011-06-07 2015-11-10 Samsung Electronics Co., Ltd. Display apparatus and method for executing link and method for recognizing voice thereof
US8583431B2 (en) * 2011-08-25 2013-11-12 Harris Corporation Communications system with speech-to-text conversion and associated methods
US9037296B2 (en) * 2011-09-07 2015-05-19 Lg Electronics Inc. Robot cleaner, and system and method for remotely controlling the same
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
WO2013052867A2 (en) * 2011-10-07 2013-04-11 Rogers Henk B Media tagging
KR101457116B1 (ko) * 2011-11-07 2014-11-04 삼성전자주식회사 음성 인식 및 모션 인식을 이용한 전자 장치 및 그의 제어 방법
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US8803687B2 (en) * 2011-12-06 2014-08-12 Southern Imperial, Inc. Retail system signal receiver unit for recognizing a preset audible alarm tone
EP2610862B1 (en) * 2011-12-30 2015-07-08 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
US20130197914A1 (en) * 2012-01-26 2013-08-01 Microtechnologies Llc D/B/A Microtech Voice activated audio control system and associated method of use
CN103310812A (zh) * 2012-03-06 2013-09-18 富泰华工业(深圳)有限公司 音乐播放装置及其控制方法
US20150051913A1 (en) * 2012-03-16 2015-02-19 Lg Electronics Inc. Unlock method using natural language processing and terminal for performing same
US9230556B2 (en) * 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
CN103488670B (zh) * 2012-06-11 2019-06-07 三星电子株式会社 用户终端装置、服务器及其控制方法
US20140002582A1 (en) * 2012-06-29 2014-01-02 Monkeymedia, Inc. Portable proprioceptive peripatetic polylinear video player
US9269351B2 (en) * 2012-07-03 2016-02-23 Mitsubishi Electric Corporation Voice recognition device
US8868223B1 (en) * 2012-07-19 2014-10-21 Google Inc. Positioning using audio recognition
US9106995B2 (en) * 2012-09-11 2015-08-11 Apple Inc. Repositionable control system and method for using the same
US10467104B1 (en) * 2012-09-28 2019-11-05 EMC IP Holding Company LLC Method and system for distributed systems backup configuration wizard
US20140122070A1 (en) * 2012-10-30 2014-05-01 Robert S. Prus Graphic display system for assisting vehicle operators
CN102984039B (zh) * 2012-11-06 2016-03-23 鸿富锦精密工业(深圳)有限公司 智能网关、智能家居系统及家电设备的智能控制方法
US9013921B2 (en) * 2012-12-06 2015-04-21 Samsung Electronics Co., Ltd. Semiconductor memory device
US8971690B2 (en) * 2012-12-07 2015-03-03 Intel Corporation Technique to coordinate activities between a content device and a wireless device based on context awareness
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
CN103866711B (zh) 2013-09-19 2016-01-20 常州市万隆节能交通科技有限公司 一种卡扣式马路护栏
US20150356836A1 (en) * 2014-06-05 2015-12-10 Microsoft Corporation Conversation cues within audio conversations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334968A (ja) * 2006-06-13 2007-12-27 Pioneer Electronic Corp 音声切換装置
JP2011008263A (ja) * 2009-06-26 2011-01-13 Intel Corp 環境オーディオ分析を使用した音楽プレイヤの制御

Also Published As

Publication number Publication date
EP3217394B1 (en) 2018-09-26
EP2760016A3 (en) 2014-10-15
KR20140074549A (ko) 2014-06-18
US20210056953A1 (en) 2021-02-25
EP4300993A2 (en) 2024-01-03
CN103869971A (zh) 2014-06-18
EP3410434C0 (en) 2023-11-15
EP3410434B1 (en) 2023-11-15
EP3217394A1 (en) 2017-09-13
EP3410434A1 (en) 2018-12-05
US10395639B2 (en) 2019-08-27
US10832655B2 (en) 2020-11-10
EP4300993A3 (en) 2024-02-28
US20220383852A1 (en) 2022-12-01
CN103869971B (zh) 2018-03-30
CN108446022A (zh) 2018-08-24
US20140163976A1 (en) 2014-06-12
US11410640B2 (en) 2022-08-09
CN108446022B (zh) 2021-07-06
EP2760016A2 (en) 2014-07-30
US20180182374A1 (en) 2018-06-28
US20190362705A1 (en) 2019-11-28
US9940924B2 (en) 2018-04-10
US11721320B2 (en) 2023-08-08
EP2760016B1 (en) 2017-05-17

Similar Documents

Publication Publication Date Title
KR102091003B1 (ko) 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
KR102120984B1 (ko) 사용자 디바이스에서 상황 인식 서비스 제공 방법 및 장치
US10475464B2 (en) Method and apparatus for connecting service between user devices using voice
US11758232B2 (en) Presentation and management of audio and visual content across devices
CA2837291C (en) Event-triggered hands-free multitasking for media playback
EP4236281A2 (en) Event-triggered hands-free multitasking for media playback
KR20140129508A (ko) 사용자 디바이스의 기능 처리 방법 및 장치
KR20130135567A (ko) 음성을 이용한 메시지 서비스 방법 및 장치
KR20140116642A (ko) 음성 인식 기반의 기능 제어 방법 및 장치
KR102092023B1 (ko) 라디오 기능을 구비한 전자 장치 및 그 운영 방법
KR20150008977A (ko) 인터페이스 제공 방법 및 장치
KR20150012495A (ko) 이동 단말기

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right