KR20150130854A - 오디오 신호 인식 방법 및 이를 제공하는 전자 장치 - Google Patents

오디오 신호 인식 방법 및 이를 제공하는 전자 장치 Download PDF

Info

Publication number
KR20150130854A
KR20150130854A KR1020140058014A KR20140058014A KR20150130854A KR 20150130854 A KR20150130854 A KR 20150130854A KR 1020140058014 A KR1020140058014 A KR 1020140058014A KR 20140058014 A KR20140058014 A KR 20140058014A KR 20150130854 A KR20150130854 A KR 20150130854A
Authority
KR
South Korea
Prior art keywords
signal
audio
descriptor
module
electronic device
Prior art date
Application number
KR1020140058014A
Other languages
English (en)
Inventor
루카스 브라나코우스키
에즈베카 가예스카-덴데크
보젠 루카샤크
야곱 트칵주크
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140058014A priority Critical patent/KR20150130854A/ko
Priority to EP15167396.9A priority patent/EP2945156A1/en
Priority to US14/712,509 priority patent/US20150332668A1/en
Publication of KR20150130854A publication Critical patent/KR20150130854A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

본 개시는 지정된 객체를 향하여 신호를 송신하고, 상기 신호가 상기 객체의 일면에 충돌함으로써 변형된 반사신호를 수신하는 신호 획득 모듈; 상기 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 상기 추출된 신호 기술자를 분석하는 특징 추출 모듈; 상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 변환 모듈; 및 상기 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환하고, 상기 변환된 오디오 신호를 출력하는 합성 모듈을 포함하는 전자 장치를 포함할 수 있다. 다만, 본 실시예에 한정되지 않고 다른 실시예를 포함할 수 있다.

Description

오디오 신호 인식 방법 및 이를 제공하는 전자 장치{AUDIO SIGNAL RECOGNITION METHOD AND ELECTRONIC DEVICE SUPPORTING THE SAME}
본 개시는 오디오 신호 인식 방법 및 이를 제공하는 전자 장치에 관한 것으로, 보다 구체적으로는 신호가 오디오를 생성하는 객체에 부딪힘으로써 변형되고, 변형된 신호를 이용하여 객체의 오디오 신호를 인식하는 방법 및 이를 제공하는 전자 장치에 관한 것이다.
최근에는 외부의 오디오 신호를 인식하기 위해서, 전자 장치에 다양한 종류의 마이크로폰을 탑재하여 오디오 신호를 인식하는 기술이 발전되었다. 전자 장치에 탑재된 마이크로폰은 외부로부터 입력되는 오디오 신호에 대하여 단어 및 음절을 인식하고 그 결과를 전자 장치에 저장할 수 있게 되었다.
또한, 전자 장치에 포함된 음성 인식 애플리케이션을 이용하여, 외부로부터 수신한 음성들을 분석하고, 미리 저장된 데이터베이스 중 수신한 음성들에 대응하는 적절한 답변을 결정하여 스피커로 출력할 수 있게 되었다.
또한, 전자 장치에 SSI(Silent Speech Interface)를 탑재하여, 사용자가 음성을 크게 낼 수 없거나 주변 환경에 의한 소음 정도가 높을 때에도, 사용자의 음성을 획득할 수 있게 되었다.
전자 장치의 마이크로폰을 이용하여 사용자로부터 음성을 인식할 때, 사용자가 원거리에 있거나 목소리를 크게 낼 수 없는 경우, 사용자의 음성을 정확히 인식하지 못하는 문제점이 있었다.
SSI(Silent Speech Interface)를 탑재한 전자 장치가 외부의 오디오를 인식하고자 할 때, 우선 전자 장치에 탑재된 카메라 등을 이용하여 사용자의 움직임(예: 입술 변화)을 획득하였다. 전자 장치는 획득한 사용자의 움직임, 예를 들어 사용자의 입술 변화를 판단하여 사용자의 음성을 인식하고자 하였다. 하지만 서로 다른 음운의 단어에 대한 입술의 움직임이 동일 또는 유사하여, 사용자의 움직임에 대응하여 출력되는 오디오 신뢰도가 떨어지는 문제점이 있었다.
이에 후술할 실시예는 상기와 같은 문제점들을 줄일 수 있는, 오디오 신호 인식 방법 및 이를 제공하는 전자 장치에 있다.
본 개시의 일 실시예에 따라, 전자 장치의 오디오 인식 방법에 있어서, 지정된 객체를 향하여 신호를 송신하는 동작; 상기 신호가 상기 객체의 일면에 충돌함으로써 변형된 반사신호를 수신하는 동작; 상기 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 상기 추출된 신호 기술자를 분석하는 동작; 상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 동작; 및 상기 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환하고, 상기 변환된 오디오 신호를 출력하는 동작을 포함하는 오디오 인식 방법 및 이를 제공하는 전자 장치를 포함할 수 있다.
본 개시의 일 실시예에 따라, 전자 장치의 오디오 인식 방법에 있어서, 지정된 객체를 향하여 신호를 송신하는 동작; 상기 신호가 상기 객체의 일면에 충돌함으로써 변형된 반사신호를 수신하는 동작; 상기 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 상기 추출된 신호 기술자를 분석하는 동작; 상기 객체 및 상기 전자 장치의 움직임에 대한 정보를 감지하고, 상기 감지된 정보를 기반으로 보상 신호를 생성하고, 상기 생성된 보상 신호를 전달하는 동작; 상기 신호 기술자 및 상기 수신된 보상 신호를 기반으로, 상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 동작; 및 상기 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환하고, 상기 변환된 오디오 신호를 출력하는 동작을 포함하는 오디오 인식 방법 및 이를 제공하는 전자 장치를 포함할 수 있다.
본 개시의 일 실시예에 따라, 전자 장치의 오디오 인식 방법에 있어서, 지정된 객체를 향하여 신호를 송신하는 동작; 상기 신호가 상기 객체의 일면에 충돌함으로써 변형된 반사신호를 수신하는 동작; 상기 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 상기 추출된 신호 기술자를 분석하는 동작; 상기 객체의 오디오 정보 및 비디오 정보를 획득하는 동작; 상기 객체 및 상기 전자 장치의 움직임에 대한 정보를 감지하고, 상기 감지된 정보를 기반으로 보상 신호를 생성하고, 상기 생성된 보상 신호를 전달하는 동작; 상기 객체의 오디오 정보 및 비디오 정보를 수신하고, 상기 수신된 오디오 정보 및 비디오 정보를 기반으로 미리 저장된 데이터들 중 객체의 오디오 데이터를 결정하고, 상기 결정된 객체의 오디오 데이터를 기반으로 상기 수신된 오디오 정보에 포함된 오디오의 주파수, 오디오의 높이(pitch) 및 오디오의 음색(timbre) 중 적어도 하나를 조정하는 동작; 상기 신호 기술자, 상기 보상 신호 및 상기 적응 모듈로부터 수신한 객체의 조정 정보를 기반으로, 상기 적응 모듈로부터 수신한 오디오 데이터의 조정 정보를 기반으로, 상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 동작; 및 상기 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환하고, 상기 변환된 오디오 신호를 출력하는 동작을 포함하는 오디오 인식 방법 및 이를 제공하는 전자 장치를 포함할 수 있다.
본 개시의 일 실시예에 따르면, 신호가 객체의 일면에 충돌함으로써 반사된 신호를 분석하고, 분석된 신호를 기반으로 객체의 오디오를 인식함으로써, 원거리에 있는 사용자라도 신호가 도달할 수 있으면 오디오 신호를 획득할 수 있다.
본 개시의 일 실시예에 따르면, 신호를 생성하는 장치에 의해 오디오를 인식함으로써 그 구현이 용이할 수 있다. 이는 전자 장치에 하드웨어 및 소프트웨어의 구축이 용이하고 휴대 및 설치가 간편할 수 있다.
도 1은 본 개시의 다양한 실시예에 따른, 전자 장치를 포함하는 네트워크 환경을 도시한다.
도 2는 본 개시의 다양한 실시예들에 따른, 전자 장치의 오디오 인식 모듈의 블록도 를 도시한다.
도 3은 본 개시의 다양한 실시예들에 따른, 전자 장치의 오디오 인식 모듈의 블록도 를 도시한다.
도 4는 본 개시의 다양한 실시예에 따른, 전자 장치의 특징 추출 모듈에 대한 설명을 위해 개략적으로 도시한다.
도 5 내지 도 7은 본 개시의 다양한 실시예에 따른, 전자 장치의 오디오 인식방법에 대한 흐름도를 도시한다.
도 8은 본 개시의 다양한 실시 예들에 따른 전자장치의 블록도를 도시한다.
도 9는 본 개시의 다양한 실시예에 따른 전자장치간의 프로토콜 교환을 도시한다.
이하, 본 개시의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 개시의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 개시의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
본 개시의 다양한 실시예에서 사용될 수 있는"포함한다" 또는 "포함할 수 있다" 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 개시의 다양한 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 다양한 실시예에서 "또는" 또는 " A 또는/및 B 중 적어도 하나" 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, "A 또는 B" 또는 " A 또는/및 B 중 적어도 하나" 각각은는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.
본 개시의 다양한 실시예에서 사용된 "제 1,""제2,""첫째,"또는"둘째,"등의 표현들은 다양한 실시예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제 2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 개시의 다양한 실시예의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.
본 개시의 다양한 실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시의 다양한 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시의 다양한 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 개시의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 개시의 다양한 실시예에 따른 전자 장치는, 통신 기능이 포함된 장치일 수 있다. 예를 들면, 전자 장치는 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.
어떤 실시예들에 따르면, 전자 장치는 통신 기능을 갖춘 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들자면, 전자 장치는 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), TV 박스(예를 들면, 삼성 HomeSync ™, 애플TV™, 또는 구글 TV™), 게임 콘솔(game consoles), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
어떤 실시예들에 따르면, 전자 장치는 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치 및 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛, 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller's machine) 또는 상점의 POS(point of sales) 중 적어도 하나를 포함할 수 있다.
어떤 실시예들에 따르면, 전자 장치는 통신 기능 을 포함한 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 입력장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 본 개시의 다양한 실시예에 따른 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 또한, 본 개시의 다양한 실시예에 따른 전자 장치는 플렉서블 장치일 수 있다. 또한, 본 개시의 다양한 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.
이하, 첨부된 도면을 참조하여 다양한 실시예에 따른 전자 장치에 대해서 살펴본다. 다양한 실시예에서 이용되는 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
도 1은 다양한 실시예에 따른, 전자 장치 101을 포함하는 네트워크 환경 100를 도시한다. 도 1을 참조하면, 상기 전자 장치 101는 버스 110, 프로세서 120, 메모리 130, 입출력 인터페이스 140, 디스플레이 150, 통신 인터페이스 160 및 오디오 인식 모듈170을 포함할 수 있다.
상기 버스 110는 전술한 구성요소들을 서로 연결하고, 전술한 구성요소들 간의 통신(예: 제어 메시지)을 전달하는 회로일 수 있다.
상기 프로세서 120는, 예를 들면, 상기 버스 110를 통해 전술한 다른 구성요소들(예: 상기 메모리 130, 상기 입출력 인터페이스 140, 상기 디스플레이 150, 상기 통신 인터페이스 160, 또는 상기 오디오 인식 모듈170 등)로부터 명령을 수신하여, 수신된 명령을 해독하고, 해독된 명령에 따른 연산이나 데이터 처리를 실행할 수 있다.
상기 메모리 130는, 상기 프로세서 120 또는 다른 구성요소들(예: 상기 입출력 인터페이스 140, 상기 디스플레이 150, 상기 통신 인터페이스 160, 또는 상기 오디오 인식 모듈170 등)로부터 수신되거나 상기 프로세서 120 또는 다른 구성요소들에 의해 생성된 명령 또는 데이터를 저장할 수 있다. 상기 메모리 130는, 예를 들면, 커널 131, 미들웨어 132, 어플리케이션 프로그래밍 인터페이스(API: application programming interface) 133 또는 어플리케이션 134 등의 프로그래밍 모듈들을 포함할 수 있다. 전술한 각각의 프로그래밍 모듈들은 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다.
상기 커널 131은 나머지 다른 프로그래밍 모듈들, 예를 들면, 상기 미들웨어 132, 상기 API 133 또는 상기 어플리케이션 134에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 상기 버스 110, 상기 프로세서 120 또는 상기 메모리 130 등)을 제어 또는 관리할 수 있다. 또한, 상기 커널 131은 상기 미들웨어 132, 상기 API 133 또는 상기 어플리케이션 134에서 상기 전자 장치 101의 개별 구성요소에 접근하여 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.
상기 미들웨어 132는 상기 API 133 또는 상기 어플리케이션 134이 상기 커널 131과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다. 또한, 상기 미들웨어 132는 상기 어플리케이션 134로부터 수신된 작업 요청들과 관련하여, 예를 들면, 상기 어플리케이션 134 중 적어도 하나의 어플리케이션에 상기 전자 장치 101의 시스템 리소스(예: 상기 버스 110, 상기 프로세서 120 또는 상기 메모리 130 등)를 사용할 수 있는 우선 순위를 배정하는 등의 방법을 이용하여 작업 요청에 대한 제어(예: 스케쥴링 또는 로드 밸런싱)을 수행할 수 있다.
상기 API 133는 상기 어플리케이션 134이 상기 커널 131 또는 상기 미들웨어 132에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 화상 처리 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다.
다양한 실시예에 따르면, 상기 어플리케이션 134는 SMS/MMS 어플리케이션, 이메일 어플리케이션, 달력 어플리케이션, 알람 어플리케이션, 건강 관리(health care) 어플리케이션(예: 운동량 또는 혈당 등을 측정하는 어플리케이션) 또는 환경 정보 어플리케이션(예: 기압, 습도 또는 온도 정보 등을 제공하는 어플리케이션) 등을 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 어플리케이션 134은 상기 전자 장치 101와 외부 전자 장치(예: 전자 장치 104) 사이의 정보 교환과 관련된 어플리케이션일 수 있다. 상기 정보 교환과 관련된 어플리케이션은, 예를 들어, 상기 외부 전자 장치에 특정 정보를 전달하기 위한 알림 전달(notification relay) 어플리케이션, 또는 상기 외부 전자 장치를 관리하기 위한 장치 관리(device management) 어플리케이션을 포함할 수 있다.
예를 들면, 상기 알림 전달 어플리케이션은 상기 전자 장치 101 의 다른 어플리케이션(예: SMS/MMS 어플리케이션, 이메일 어플리케이션, 건강 관리 어플리케이션 또는 환경 정보 어플리케이션 등)에서 발생한 알림 정보를 외부 전자 장치(예: 전자 장치 104)로 전달하는 기능을 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 알림 전달 어플리케이션은, 예를 들면, 외부 전자 장치(예: 전자 장치 104)로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다. 상기 장치 관리 어플리케이션은, 예를 들면, 상기 전자 장치 101와 통신하는 외부 전자 장치(예: 전자 장치 104)의 적어도 일부에 대한 기능(예: 외부 전자 장치 자체(또는, 일부 구성 부품)의 턴온/턴오프 또는 디스플레이의 밝기(또는, 해상도) 조절), 상기 외부 전자 장치에서 동작하는 어플리케이션 또는 상기 외부 전자 장치에서 제공되는 서비스(예: 통화 서비스 또는 메시지 서비스)를 관리(예: 설치, 삭제 또는 업데이트)할 수 있다.
다양한 실시예에 따르면, 상기 어플리케이션 134은 상기 외부 전자 장치(예: 전자 장치 104)의 속성(예: 전자 장치의 종류)에 따라 지정된 어플리케이션을 포함할 수 있다. 예를 들어, 외부 전자 장치가 MP3 플레이어인 경우, 상기 어플리케이션 134은 음악 재생과 관련된 어플리케이션을 포함할 수 있다. 유사하게, 외부 전자 장치가 모바일 의료기기인 경우, 상기 어플리케이션 134은 건강 관리와 관련된 어플리케이션을 포함할 수 있다. 한 실시예에 따르면, 상기 어플리케이션 134은 전자 장치 101에 지정된 어플리케이션 또는 외부 전자 장치(예: 서버 106 또는 전자 장치 104)로부터 수신된 어플리케이션 중 적어도 하나를 포함할 수 있다.
상기 입출력 인터페이스 140은, 입출력 장치(예: 센서, 키보드 또는 터치 스크린)를 통하여 사용자로부터 입력된 명령 또는 데이터를, 예를 들면, 상기 버스 110를 통해 상기 프로세서 120, 상기 메모리 130, 상기 통신 인터페이스 160, 또는 상기 오디오 인식 모듈170에 전달할 수 있다. 예를 들면, 상기 입출력 인터페이스 140은 터치 스크린을 통하여 입력된 사용자의 터치에 대한 데이터를 상기 프로세서 120로 제공할 수 있다. 또한, 상기 입출력 인터페이스 140은, 예를 들면, 상기 버스 110을 통해 상기 프로세서 120, 상기 메모리 130, 상기 통신 인터페이스 160, 또는 상기 오디오 인식 모듈170로부터 수신된 명령 또는 데이터를 상기 입출력 장치(예: 스피커 또는 디스플레이)를 통하여 출력할 수 있다. 예를 들면, 상기 입출력 인터페이스 140은 상기 프로세서 120를 통하여 처리된 음성 데이터를 스피커를 통하여 사용자에게 출력할 수 있다.
상기 디스플레이 150은 사용자에게 각종 정보(예: 멀티미디어 데이터 또는 텍스트 데이터 등)을 표시할 수 있다.
상기 통신 인터페이스 160은 상기 전자 장치 101와 외부 장치(예: 전자 장치 104 또는 서버 106) 간의 통신을 연결할 수 있다. 예를 들면, 상기 통신 인터페이스 160은 무선 통신 또는 유선 통신을 통해서 네트워크 162에 연결되어 상기 외부 장치와 통신할 수 있다. 상기 무선 통신은, 예를 들어, Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication), GPS(global positioning system) 또는 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등) 중 적어도 하나를 포함할 수 있다. 상기 유선 통신은, 예를 들어, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.
한 실시예에 따르면, 상기 네트워크 162는 통신 네트워크(telecommunications network)일 수 있다. 상기 통신 네트워크 는 컴퓨터 네트워크(computer network), 인터넷(internet), 사물 인터넷(internet of things) 또는 전화망(telephone network) 중 적어도 하나를 포함할 수 있다. 한 실시예에 따르면, 상기 전자 장치 101와 외부 장치 간의 통신을 위한 프로토콜(예: transport layer protocol, data link layer protocol 또는 physical layer protocol))은 어플리케이션 134, 어플리케이션 프로그래밍 인터페이스 133, 상기 미들웨어 132, 커널 131 또는 통신 인터페이스 160 중 적어도 하나에서 지원될 수 있다.
한 실시예에 따르면, 상기 서버 106는 상기 전자 장치 101에서 구현되는 동작(또는, 기능)들 중 적어도 하나의 동작을 수행함으로써, 상기 전자 장치 101의 구동을 지원할 수 있다. 예를 들면, 상기 서버 106는 상기 전자 장치 101에 구현된 오디오 인식 모듈 170을 지원할 수 있는 오디오 인식 서버 모듈 108을 포함할 수 있다. 예컨대, 상기 오디오 인식 서버 모듈 108은 오디오 인식 모듈 170의 적어도 하나의 구성요소를 포함하여, 오디오 인식 모듈 170이 수행하는 동작들 중 적어도 하나의 동작을 수행(예: 대행)할 수 있다.
오디오 인식 모듈 170은, 오디오 신호를 수신하기 원하는 객체를 향하여 신호(예: 초음파 신호)를 송신할 수 있다. 오디오 인식 모듈 170은, 송신된 신호가 객체의 일면에 의해 반사됨으로써 변경된 신호인 반사신호를 수신할 수 있다. 오디오 인식 모듈 170은 수신된 반사신호에 포함된 오디오 특징들을 추출하고, 추출된 오디오 특징들을 기반으로 반사신호를 오디오 신호로 변환할 수 있다. 오디오 인식 모듈 170은 변환된 오디오 신호를 출력할 수 있다. 일 실시예에 따라 오디오 인식 모듈 170은 도플러 주파수 이동 효과 세기(Doppler frequency shift effect intensity)와 초음파 신호의 프랙탈(fractal) 차원을 결합하여, 반사신호를 오디오 신호로 변환할 수 있다.
상기 오디오 인식 모듈 170은, 다른 구성요소들(예: 상기 프로세서 120, 상기 메모리 130, 상기 입출력 인터페이스 140, 또는 상기 통신 인터페이스 160 등)로부터 획득된 정보 중 적어도 일부를 처리하고, 이를 다양한 방법으로 사용자에게 제공 할 수 있다. 예를 들면, 상기 연동 모듈 170는 상기 프로세서 120를 이용하여 또는 이와는 독립적으로, 상기 전자 장치 101이 다른 전자 기기(예: 전자 장치 104 또는 서버 106)와 연동하도록 상기 전자 장치 101의 적어도 일부 기능을 제어할 수 있다. 한 실시예에 따르면, 오디오 인식 모듈170의 적어도 하나의 구성은 상기 서버 106(예: 오디오 인식 서버 모듈 108)에 포함될 수 있으며, 상기 서버 106로부터 오디오 인식 모듈170에서 구현되는 적어도 하나의 동작을 지원받을 수 있다. 후술하는 도 2 내지 도 7을 통하여 상기 연동 모듈 170에 대한 추가적인 정보가 제공된다.
도 2는 다양한 실시예들에 따른, 전자 장치(예: 전자 장치 101)의 오디오 인식 모듈170의 블록도 200를 도시한다.
본 개시의 일 실시예에 따라, 오디오 인식 모듈 170은 신호 획득 모듈 210, 특징 추출 모듈 220, 보상 모듈 230, 변환 모듈 240 및 합성 모듈 250을 포함할 수 있다.
본 개시의 일 실시예에 따라, 신호 획득 모듈 210은 신호를 송신할 수 있는 신호 송신기 211 및 신호를 수신할 수 있는 신호 수신기 213를 포함할 수 있다. 다양한 일 실시예에 따라, 신호 획득 모듈 210은 초음파 신호를 생성할 수 있는 초음파 변환기(ultrasonic transducer)를 포함하여, 초음파 신호(ultrasonic signal)를 지정된 객체를 향하여 송신할 수 있다. 여기서 지정된 객체는 디스플레이 150에 표시된 비디오 정보에 대한 선택 입력 이벤트를 감지함에 따라 선택될 수 있다. 일 실시예에 따라, 신호 획득 모듈 210이 포함하는 센서(예: 초음파 변환기 등)는 약 60°의 빔 폭(beam width)을 갖는 지향성 신호를 생성할 수 있다.
여기서 초음파 변환기는 전기에너지를 음향에너지로 변환시키는 변환기일 수 있다. 초음파 변환기는 반도체(예: 저항층 변환소자), 압전성 전기음향 변환소자(예: 수정 진동자) 등으로 구성될 수 있다. 예를 들어, 초음파 신호의 생성은 수정 결정에서 일정한 방위로 잘라낸 판이나 봉에 고주파전압을 가하여, 기본진동수(수백 Khz~약 25Mhz)의 홀수배인 고조파를 이용함으로써 초음파 신호를 생성할 수 있다. 일 실시예에 따라, 초음파 변환기가 생성하는 초음파 신호의 파형은 일정한 흐름을 갖는 연속파(continuous wave) 이거나 지속되는 시간이 짧고, 일정한 주기로 반복되는 파형인 펄스파(pulse wave)일 수 있다. 일 실시예에 따라, 신호 획득 모듈 210의 신호 송신기 211는 미리 정해진 객체(예: 인체(예: 입(mouth)), 전기적 신호를 이용하지 않고 오디오 신호를 생성할 수 있는 소스(acoustic source) 등)를 향하여 신호(예: 초음파 신호)를 송신할 수 있다. 일 실시예에 따라, 신호 송신기 211은 40Khz의 연속 주기 사인 신호를 미리 정해진 객체로 송신할 수 있다.
신호 획득 모듈 210의 신호 수신기 213는 신호가 객체의 일면에 충돌함으로써 변형된 반사신호를 수신할 수 있다. 여기서, 신호의 변형이란, 신호의 객체에 충돌함으로써 신호가 가지는 파라미터(parameter)인 파형, 위상, 진동수 등이 변경되는 것을 의미할 수 있다. 일 실시예에 따라, 오디오 인식 모듈 170은 반사신호의 분석을 위해 반사신호를 저 주파수 대역(low frequency band)으로 이동(shift)시킬 수 있다
일 실시예에 따라 신호 획득 모듈 210은 미리 정해진 객체에 착용할 수(wearable) 있는 임의의 장치에 장착될 수 있다. 예를 들어, 신호 획득 모듈 210은 미리 정해진 객체(예: 사람의 머리(head), 입(mouth))에 착용될 수 있다. 예를 들어, 신호 획득 모듈 210은 헤드폰(headphone)에 장착되어 신호를 송수신할 수 있다.
일 실시예에 따라 신호 획득 모듈 210은 높은 공간 해상도(spatial resolution)를 보장하기 위해 미리 정해진 객체(예: 사람의 얼굴 등)로부터 반사된 신호를 조사(probe)하는 센서들을 복수개로 할 수 있다. 일 실시예에 따라, 복수의 센서들은 높은 정확성과 낮은 빔 폭을 갖는 초음파 변환기를 포함할 수 있다. 일 실시예에 따라, 복수의 센서들은 빔 포밍(beamforming) 기술을 이용할 수 있다. 예를 들어, 복수의 센서들은 신호를 수신할 뿐만 아니라, 미리 정해진 객체(예: 사람의 얼굴 등)를 향하여 송신된 파동(wave)의 적절한 변경을 제공할 것이다.
특징 추출 모듈 220은 신호 획득 모듈 210로부터 반사신호를 수신할 수 있다. 신호 획득 모듈 210로부터 수신된 반사신호를 기반으로, 반사신호에 포함된 오디오 특징들을 추출할 수 있다. 일 실시예에 따라, 특징 추출 모듈 220은 수신된 신호들을 일정한 구간을 갖는 프레임 기반으로 오디오 특징들을 추출할 수 있다. 예를 들어, 신호를 일정한 기준(예: 시간, 주파수 등)으로 나누고, 정해진 기준에 따라 계속적으로 수신되는 데이터들을 오버랩 할 수 있다. 예를 들어, 특징 추출 모듈 220은 오디오 정보를 생성하는 복수의 객체들을 구분할 수 있다. 예를 들면, 특징 추출 모듈 220은 인체가 생성하는 음성 정보와 TV 및 전화기에서 생성되는 오디오 정보를 미리 정해진 기준(예: 주파수, 카메라에 기반한 객체(예: 사람의 얼굴) 트랙킹(tracking). 공간 필터링(spatial filtering) 등)에 의해 구분할 수 있다.
일 실시예에 따라, 특징 추출 모듈 220은 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 추출된 신호 기술자를 분석할 수 있다. 여기서 신호 기술자란, 신호가 구성된 시간 영역 및 주파수 영역에서의 변수들을 의미할 수 있다.
예를 들어, 신호 기술자는 시간 영역 및 주파수 영역에서의 변수들을 각각의 프레임에 의해 계산될 수 있다. 예를 들어, 신호는 기본적으로 진폭 및 소정의 주파수를 포함하는 파형으로 구성되는데, 신호는 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수들을 포함할 수 있다. 일 실시예에 따라 특징 추출 모듈 220은 추출된 신호 기술자(예: 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수)를 연산할 수 있다.
일 실시예에 따라, 반사신호에 포함된 신호 기술자들에 대해서 주파수 영역에서 계산된 특징들은, 객체의 움직임에 의해 유발된 이동 정도와 반사된 신호에 의한 도플러 효과를 나타낼 수 있다. 여기서 도플러 효과란, 단수 또는 복수의 객체들이 운동함에 따라, 각 객체가 수신하는 주파수가 달라지는 효과를 의미한다. 일 실시예에 따라, 특징 추출 모듈220은 미리 정해진 주파수 범위 내에서 반사신호의 스펙트럼 전력을 계산할 수 있다. 예를 들어, 스펙트럼 전력은 최소 주파수(fmin)부터 최대 주파수(fmax)사이로 제한될 수 있다. 다른 예에 따라, 스펙트럼 전력은 송신된 신호(예: 초음파 신호)의 주파수(fs) 근방의 대칭적인 부분대역으로 분할될 수 있다.
일 실시예에 따라, 분할된 부분대역의 폭은 신호의 주파수(fs)로부터 각 밴드의 거리로 점차적으로 증가할 수 있다. 일 실시예에 따라, 계산된 스펙트럼 신호 기술자는, 추후 변환 모듈 240에서 변환될 MFCC(Mel Cepstral Coefficients), Mel Generalized Cepstral Coefficients, 또는 주파수 전력의 로그 연산 시 이용될 수 있다.
여기서, MFCC(Mel Cepstral Coefficients) 중 Mel은 인체가 출력하는 신호의 비선형적인 주파수 특성을 나타내는 단위일 수 있다. MfCC를 연산하는 방법은, 반사신호의 푸리에 변환(Fourier transform)을 수행하고, 미리 지정된 Mel scale 에 의해 분할된 스펙트럼의 전력을 구한다. 이어, 각 Mel 주파수들의 전력에 대해 로그를 구하고, 이산 코사인 변환(discrete cosine transform)을 수행하면, MFCC를 구할 수 있다.
일 실시예에 따라 오디오의 기술적 특징은 인접한 프레임들의 특징값들의 입력 데이터의 차원수를 확장함으로써 형성될 수 있다. 시간에 따른 특징값들의 변화에 대한 정보를 추가함으로써, 컨텍스트(context)는 풍부하게 도출될 수 있다.
일 실시예에 따라 신호 기술자들에 포함된 각각의 변수들이 서로 상관(correlation)성이 될 수 있다. 예를 들어, 입력 특징 벡터들의 차원(dimensionality)의 축소를 위해서 주성분 분석(PCA: Principal Component Analysis) 방법을 적용할 수 있다. 여기서 주성분 분석이란, 다양한 변수들에 대해 분석하는 다변량(multivariate) 분석일 수 있다.
예를 들어, 주성분 분석은 서로 연관이 있는 변수들이 감지되었을 때, 감지된 변수들이 가지고 있는 정보들을 기반으로 새로운 변수들을 생성하는 방법일 수 있다. 예를 들면, 서로 연관이 있는 p개의 변수(x1, x2, x3 … xp)들에 대한 변이를 측정할 수 있다. 여기서, 변이란 변수들이 가지고 있는 정보의 변경일 수 있다. 예를 들어, 주성분 분석은 측정된 변수들을 이용하여 새로운 변수를 생성할 수 있다. 일 실시예에 따라, 차원(dimensionality)이 축소된 오디오 특징 벡터들에 의해 새로운 좌표들로 표시된 데이터는 많은 정보를 전달할 수 있다.
일 실시예에 따른 보상 모듈 230은, 지정된 객체 및 전자 장치(예: 전자 장치 101)의 움직임에 따라 변화되는 신호에 추가적인 보상 신호를 생성할 수 있다. 보상 모듈 230은 객체 및 전자 장치(예: 전자 장치 101)의 움직임들을 검출할 수 있다. 예를 들어, 보상 모듈 230은 소나(sonar)로서 초음파 펄스 신호를 이용하여 객체 및 전자 장치(예: 전자 장치 101)의 움직임들을 검출할 수 있다. 여기서 소나(sonar)는 초음파 신호를 발사하고 이것이 물체에 부딪쳐 반사하여 되돌아오는데 걸리는 시간을 제어 물체까지의 거리를 측정할 수 있는 의미일 수 있다. 예를 들어, 보상 모듈 230은 객체 및 전자 장치(예: 전자 장치 101)에 대하여 초음파 펄스 신호를 발사(emit)하고, 수신된 초음파 펄스 반사신호와 비교하여 움직임들을 검출할 수 있다.
일 실시예에 따라, 보상 모듈 230은 전자 장치(예: 전자 장치 101)의 떨림을 감지하기 위해, 동작 인식 센서(motion recognition sensor), 자이로스코프(gyroscope) 센서 및 가속도 센서 중 적어도 하나의 센서를 포함할 수 있다. 여기서 자이로스코프 센서는, X, Y, Z축에 대한 각속도를 측정해 변화한 각도를 측정할 수 있다. 가속도 센서는 X, Y, Z축 각각에 대한 중력 가속도 및 운동 가속도를 측정할 수 있다. 여기서 동작 인식 센서는, 물체의 움직임이나 위치를 인식할 수 있는 센서로, 지자기 센서, 가속도 센서, 고도계, 자이로 등의 기능이 하나의 칩에 들어가 있는 복합 센서일 수 있다.
일 실시예에 따라, 보상 모듈 230은 지정된 객체 또는 전자 장치(예: 전자 장치 101)의 속도가 움직일 때, 기록된 신호를 변경할 수 있다. 예를 들어 가우시안 혼합모델(Gaussian Mixture Model, GMM)을 이용하여 기록된 신호를 변경할 수 있다. 여기서 가우시안 혼합모델은 관찰된 전체 데이터의 집합이 평균을 중심으로 하여 뭉쳐져 있는 분포 형태를 표현하는 데 적합한 모델일 수 있다. 보상 모듈 230은 특정 구간에 대한 확률 분포를 구하고, 가우시안 함수의 미분값을 이용하여 특정 구간에 대해 적분함으로써, 지정된 객체 또는 전자 장치의 움직임을 기록할 수 있다.
일 실시예에 따라, 보상 모듈 230이 객체 또는 전자 장치(예: 전자 장치 101)의 움직임을 판단할 때, 초음파 변환기 및 신호 수신기 213의 매트릭스(matrix)는 지정된 객체 및 장치의 움직임과 관련하여 연산하는데 이용될 수 있다.
변환 모듈 240은 신호 기술자를 오디오 기술자(audio descriptor)로 변환할 수 있다. 일 실시예에 따라 변환 모듈 240은 가우시안 혼합 모델(GMM: Gaussian Mixture Model)을 기반으로 변환할 수 있다.
일 실시예에 따라, 변환 모듈 240은 초음파 신호를 오디오 반사신호와 동시에 수신할 수 있다. 초음파 신호 및 오디오 반사신호는 각각의 기술자들에 의해 나타낼 수 있다. 예를 들어, Mel Generalized Cepstral Coefficients 및 초음파 신호 기술자들을 하나의 매트릭스로 결합할 수 있다. 가우시안의 변수들(예: 평균들, 공분산(covariance))은 프레임 별로 변환에 적용될 수 있다. 예를 들어 변환은 Gaussian Mixture Model-based Voice Conversion Algorithm에 의해 변환될 수 있다.
변환 모듈 240이 기본 주파수(F0)를 합성하기 위하여, 가우시안 혼합모델(Gaussian Mixture Model)을 이용할 수 있다. 예를 들어, 전자 장치(예: 전자 장치 101)는, 각각의 환경(예: 조용한 환경, 시끄러운 환경, 30데시벨 환경, 15데시벨 환경 등)에서 초음파 신호에 관련된 표준 남성과 여성의 음성들을 저장하여 데이터베이스화할 수 있다. 변환 모듈 240은 데이터베이스화된 정보를 기반으로 기본 주파수(FO)를 저장하거나 합성할 수 있다.
일 실시예에 따라, 변환 모듈 240은 신호를 음성 부분(예: 객체의 오디오 신호)과 비음성 부분(예: 기차 소리, 소음 등)으로 구분할 수 있다. 이러한 분류는 사용자가 지정하여 미리 저장된 분류 기준에 의해 구분할 수 있다. 기본 주파수(F0) 특징들은 사용자의 짧은 오디오 샘플로부터 추출될 수 있다. 그 결과 변환 모듈 240은 사용자의 기본 주파수(F0) 범위는 추출될 수 있고, 사용자에 대한 기본 주파수(F0)를 조절할 수 있다. 예를 들어, 변환 모듈 240은 오디오 샘플이 이용가능 하지 않았을 때, 미리 저장된 표준 남성 및 여성의 음성 톤을 이용할 수 있다.
합성 모듈 250은, 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환할 수 있다. 예를 들어, 정해진 주파수 대역은, 사람이 오디오 신호를 들을 수 있는 주파수 대역 또는 20헤르츠(Hz) 내지 20000헤르츠(Hz)의 대역을 갖는 주파수 대역일 수 있다. 또는 사용자가 임의로 설정한 주파수 대역일 수 있다. 일 실시예에 따라, 합성 모듈 250은 Mel Generalized Cepstral Coefficients를 들을 수 있는 오디오 신호로 바꿀 수 있다. 출력되는 오디오 신호는 보코더(vocoder)시스템에 의해 생성될 수 있다. 보코더 시스템은 MGSLA 필터(Mel-Generalized Log Spectral Approximation digital filter)의 Mel Generalized Cepstral Coefficients로서 수행될 수 있다. MGSLA 필터에 대한 입력이 주어지면, 신호는 객체의 음의 높낮이(pitch)에 대응하여 출력될 수 있다. 일 실시예에 따라, 객체의 음성은 Machine Learning Methods에 의해 예측될 수 있다.
도 3은 다양한 실시예들에 따른, 전자 장치(예: 전자 장치 101)의 오디오 인식 모듈170의 블록도 200를 도시한다.
본 개시의 일 실시예에 따라, 오디오 인식 모듈 170은 신호 획득 모듈 210, 특징 추출 모듈 220, 보상 모듈 230, 변환 모듈 240, 합성 모듈 250및 적응 모듈 260을 포함할 수 있다.
일 실시예에 따라, 신호 획득 모듈 210은 신호 송신부 211, 신호 수신부 213 및 확장신호 획득부 215를 포함할 수 있다.
본 개시의 일 실시예에 따라, 신호 획득 모듈 210은 신호를 송신할 수 있는 신호 송신기 211 및 신호를 수신할 수 있는 신호 수신기 213를 포함할 수 있다. 다양한 일 실시예에 따라, 신호 획득 모듈 210은 초음파 신호(ultrasonic signal)를 지정된 객체를 향하여 송신하거나 초음파 신호를 생성할 수 있는 초음파 변환기(ultrasonic transducer)를 포함할 수 있다.
여기서 초음파 변환기는 전기에너지를 음향에너지로 변환시키는 변환기일 수 있다. 초음파 변환기는 반도체(예: 저항층 변환소자), 압전성 전기음향 변환소자(예: 수정 진동자) 등으로 구성될 수 있다. 예를 들어, 초음파 신호의 생성은 수정 결정에서 일정한 방위로 잘라낸 판이나 봉에 고주파전압을 가하여, 기본진동수(수백 Khz~약 25Mhz)의 홀수배인 고조파를 이용함으로써 초음파 신호를 생성할 수 있다. 일 실시예에 따라, 초음파 변환기가 생성하는 초음파 신호의 파형은 일정한 흐름을 갖는 연속파(continuous wave) 이거나 지속되는 시간이 짧고, 일정한 주기로 반복되는 파형인 펄스파(pulse wave)일 수 있다.
일 실시예에 따라, 신호 획득 모듈 210의 신호 송신기 211는 미리 정해진 객체(예: 인체(예: 입(mouth)), 전기적 신호를 이용하지 않고 오디오 신호를 생성할 수 있는 소스(acoustic source) 등)를 향하여 신호(예: 초음파 신호)를 송신할 수 있다. 신호 획득 모듈 210의 신호 수신기 213는 신호가 객체의 일면에 충돌함으로써 변형된 반사신호를 수신할 수 있다. 여기서, 신호의 변형이란, 신호의 객체에 충돌함으로써 신호가 가지는 파라미터(parameter)인 파형, 위상, 진동수 등이 변경되는 것을 의미할 수 있다.
일 실시예에 따라, 확장신호 획득부 215는 오디오 마이크로폰(예: 스피커, 마이크 등) 및 비디오 정보 인식 모듈(예: 카메라, 캠코더 등) 등을 포함할 수 있다. 예를 들어, 오디오 마이크로폰은 지정된 객체(예를 들면, 오디오 정보를 출력하는 객체, 사람, 동물 등)로부터 출력된 오디오 샘플을 기록할 수 있다. 여기서 오디오 샘플이란, 출력된 오디오의 파형, 평균 주파수 및 주파수 대역 등을 포함할 수 있다.
일 실시예에 따라, 비디오 정보 인식 모듈은 지정된 객체(예를 들면, 오디오 정보를 출력하는 객체, 사람, 동물 등)에 대한 비디오 정보를 인식할 수 있다. 예를 들어, 지정된 객체가 사람일 때, 사람의 입술 모양의 변화를 인식할 수 있다. 비디오 정보 인식 모듈은 입술의 특징점(예: 입술 모양의 길이, 꼭지점, 곡률 등)을 추출하고, 추출된 특징점의 변화의 정도를 인식할 수 있다.
일 실시예에 따라, 비디오 정보 인식 모듈은 전자 장치(예: 전자 장치 101) 및 객체의 움직임을 감지할 수 있다. 비디오 정보 인식 모듈은 객체가 사람일 경우, 객체의 인식, 성별(gender) 등을 구별하여 인식할 수 있다.
특징 추출 모듈220은 신호 획득 모듈 210로부터 데이터를 수신할 수 있다. 특징 추출 모듈 220로부터 수신된 신호를 기반으로, 신호에 포함된 오디오 특징들을 추출할 수 있다. 일 실시예에 따라, 특징 추출 모듈 220은 수신된 신호들을 일정한 구간을 갖는 프레임 기반으로 오디오 특징들을 추출할 수 있다. 예를 들어, 신호를 일정한 기준(예: 시간, 주파수 등)으로 나누고, 정해진 기준에 따라 계속적으로 수신되는 데이터들을 오버랩 할 수 있다.
일 실시예에 따라, 특징 추출 모듈 220은 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 추출된 신호 기술자를 분석할 수 있다. 여기서 신호 기술자란, 시간 영역 및 주파수 영역의 변수들에 포함된 변수들을 의미할 수 있다.
예를 들어, 신호 기술자는 시간 영역 및 주파수 영역 변수들을 포함하는 각각의 프레임에 대해 계산될 수 있다. 예를 들어, 신호는 기본적으로 진폭 및 소정의 주파수를 포함하는 파형으로 구성되는데, 신호는 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수들을 포함할 수 있다. 일 실시예에 따라 특징 추출 모듈 220은 추출된 신호 기술자(예: 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수)를 연산할 수 있다.
일 실시예에 따라, 반사신호에 포함된 신호 기술자들에 대해서 주파수 영역에서 계산된 특징들은, 객체의 움직임에 의해 유발된 이동 정도와 반사된 신호에 의한 도플러 효과를 나타낼 수 있다. 여기서 도플러 효과란, 단수 또는 복수의 객체가 운동함에 따라, 각 객체의 파동이 달라지는 효과를 의미한다. 특징 추출 모듈220은 미리 정해진 주파수 범위 내에서 반사신호의 스펙트럼 전력을 계산할 수 있다. 예를 들어, 스펙트럼 전력은 최소 주파수(fmin)부터 최대 주파수(fmax)사이로 제한될 수 있다. 다른 예에 따라, 스펙트럼 전력은 송신된 신호(예: 초음파 신호)의 주파수(fs) 근방의 대칭적인 부분대역으로 분할될 수 있다.
일 실시예에 따라, 분할대역의 폭은 신호의 주파수(fs)로부터 각 밴드의 거리로 점차적으로 증가할 수 있다. 일 실시예에 따라, 계산된 스펙트럼 신호 기술자는, 추후 변환 모듈 240에서 변환될 MFCC(Mel Cepstral Coefficients), Mel Generalized Cepstral Coefficients, 또는 주파수 전력의 로그 연산 시 이용될 수 있다.
여기서, MFCC(Mel Cepstral Coefficients) 중 Mel은 인체가 출력하는 신호의 비선형적인 주파수 특성을 나타내는 단위일 수 있다. MfCC를 연산하는 방법은, 반사신호의 푸리에 변환(Fourier transform)을 수행하고, 미리 지정된 Mel scale 에 의해 분할된 스펙트럼의 전력을 구한다. 이어, 각 Mel 주파수들의 전력에 대해 로그를 구하고, 이산 코사인 변환(discrete cosine transform)을 수행하면, MFCC를 구할 수 있다.
일 실시예에 따라, 특징 추출 모듈 220은 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 추출된 신호 기술자를 분석할 수 있다. 특징 추출 모듈 220은 반사신호를 분석하기 위해 3개의 기술자(descriptor)를 연산할 수 있다. 3개의 기술자는 각각 D1, D2, D3라고 명명할 수 있고, D1은 반송 주파수(carrier frequency)의 신호 x에 대한 도플러 주파수 이동 효과의 강도(intensity)를 나타낸다. D1은 하기의 수학식 1과 같이 계산될 수 있다. 여기서 는 양의 주파수 이동(positive frequency shift), 음의 주파수 이동(negative frequency shift)에 대응하는 두 개의 주파수 대역의 합이다. 여기서 std는 표준편차(standard deviation)이다. 여기서 표준편차는 통계집단의 계량적 특성값에 관한 산포도를 나타내는 도수 특성값을 의미한다. 여기서, min(a,b)는 a와 b를 비교하여 더 작은 값을 출력값으로 산출하되, a와 b값이 동일할 때는 a 또는 b 중 어느 하나를 출력하는 것을 의미한다.
하기의 수학식 1과 같이, 36.9kHz에서 40kHz, 40kHz에서 43.1kHz를 주파수 변수로 결정할 수 있다. 예를 들어, 미리 정해진 객체가 오디오 정보를 생성하지 않을 때(예: 사람이 말을 하지 않을 때 등), 반사된 신호의 주파수의 신호 피크(peak)를 40kHz로 할 수 있다. 미리 정해진 객체가 오디오 정보를 생성하거나(예: 사람이 말을 할 때 등) 미리 정해진 객체가 움직여 도플러 효과를 발생시킬 때, 40kHz 주위의 주파수 스펙트럼의 전력을 임의로 선택하여 하기와 같이 연산할 수 있다. 일 실시예에 따라, 하기의 수학식의 시그마에 포함할 주파수 변수는 변경될 수 있다.
Figure pat00001
일 실시예에 따라, 기술자(descriptor) D2 및 D3는 하기의 수학식 2 및 수학식 3을 이용하여 연산될 수 있다. 여기서 i는 임의의 샘플 숫자를 의미할 수 있다.
Figure pat00002
Figure pat00003
일 실시예에 따라,
Figure pat00004
는 하기의 수학식 4로 연산될 수 있다. 여기서 N은 단일 프레임에서 오디오 정보(예: 스피치 샘플 등)의 숫자이다. L은 수학식 5와 같이 계산될 수 있고 샘플 크기의 차들을 모두 합한 값이다. d는 수학식 6을 이용하여 연산될 수 있고, 첫 번째 샘플과 모든 연속적인 샘플들 사이의 차의 절대값의 최대값일 수 있다. 여기서 M은 적어도 오디오 정보가 생성되거나 생성되지 않는 구간을 포함하는 신호에 대한 샘플들의 숫자 일 수 있다.
Figure pat00005
Figure pat00006
Figure pat00007
일 실시예에 따른 보상 모듈 230은, 지정된 객체 및 전자 장치(예: 전자 장치 101)의 움직임에 따라 변화되는 신호에 추가적인 보상 신호를 생성할 수 있다. 보상 모듈 230은 객체 및 전자 장치(예: 전자 장치 101)의 움직임들을 검출할 수 있다. 예를 들어, 보상 모듈 230은 소나(sonar)로서 초음파 펄스 신호를 이용하여 객체 및 전자 장치(예: 전자 장치 101)의 움직임들을 검출할 수 있다. 여기서 소나(sonar)는 초음파 신호를 발사하고 이것이 물체에 부딪쳐 반사하여 되돌아오는데 걸리는 시간을 제어 물체까지의 거리를 측정할 수 있는 의미일 수 있다.
일 실시예에 따라, 보상 모듈 230은 전자 장치(예: 전자 장치 101)의 떨림을 감지하기 위해, 동작 인식 센서(motion recognition sensor), 자이로스코프(gyroscope) 센서 및 가속도 센서 중 적어도 하나의 센서를 이용할 수 있다. 여기서 자이로스코프 센서는, X, Y, Z축에 대한 각속도를 측정해 변화한 각도를 측정할 수 있다. 가속도 센서는 X, Y, Z축 각각에 대한 중력 가속도 및 운동 가속도를 측정할 수 있다. 여기서 동작 인식 센서는, 물체의 움직임이나 위치를 인식할 수 있는 센서로, 지자기 센서, 가속도 센서, 고도계, 자이로 등의 기능이 하나의 칩에 들어가 있는 복합 센서일 수 있다.
일 실시예에 따라, 보상 모듈 230은 지정된 객체 또는 전자 장치(예: 전자 장치 101)의 속도가 움직일 때, 기록된 신호를 변경할 수 있다. 예를 들어 가우시안 혼합모델(Gaussian Mixture Model, GMM)을 이용하여 기록된 신호를 변경할 수 있다. 여기서 가우시안 혼합모델은 관찰된 전체 데이터의 집합이 평균을 중심으로 하여 뭉쳐져 있는 분포 형태를 표현하는 데 적합한 모델일 수 있다. 보상 모듈 230은 특정 구간에 대한 확률 분포를 구하고, 가우시안 함수의 미분값을 이용하여 특정 구간에 대해 적분함으로써, 지정된 객체 또는 전자 장치의 움직임을 기록할 수 있다.
일 실시예에 따라, 초음파 변환기 및 신호 수신기 213의 매트릭스(matrix)는 지정된 객체 및 장치의 움직임과 관련하여 연산하는데 이용될 수 있다.
변환 모듈 240은 신호 기술자를 오디오 기술자(audio descriptor)로 변환할 수 있다. 일 실시예에 따라 변환 모듈 240은 가우시안 혼합 모델(GMM: Gaussian Mixture Model)을 기반으로 변환할 수 있다.
일 실시예에 따라, 변환 모듈 240은 초음파 신호를 오디오 반사신호와 동시에 수신할 수 있다. 초음파 신호 및 오디오 반사신호는 각각의 기술자들에 의해 나타낼 수 있다. 예를 들어, Mel Generalized Cepstral Coefficients 및 초음파 신호 기술자들을 하나의 매트릭스로 결합할 수 있다. 가우시안의 변수들(예: 평균들, 공분산(covariance))은 프레임 별로 변환에 적용될 수 있다. 예를 들어 변환은 Gaussian Mixture Model-based Voice Conversion Algorithm에 의해 변환될 수 있다.
변환 모듈 240이 기본 주파수(F0)를 합성하기 위하여, 가우시안 혼합모델(Gaussian Mixture Model)을 이용할 수 있다. 예를 들어, 전자 장치(예: 전자 장치 101)는, 각각의 환경(예: 조용한 환경, 시끄러운 환경, 30데시벨 환경, 15데시벨 환경 등)에서 초음파 신호에 관련된 표준 남성과 여성의 음성들을 저장하여 데이터베이스화할 수 있다. 신호는 음성 부분(예: 객체의 오디오 신호)과 비음성 부분(예: 기차 소리, 소음 등)으로 구분할 수 있다. 이러한 분류는 미리 저장된 분류 기준에 의해 구분할 수 있다. 기본 주파수(F0) 특징들은 사용자의 짧은 오디오 샘플로부터 추출될 수 있다. 그 결과 사용자의 기본 주파수(F0) 범위는 추출될 수 있고, 사용자에 대한 F0를 조절할 수 있다. 만약 오디오 샘플이 이용가능 하지 않았을 때, 미리 정해진 표준 남성 및 여성의 음성 톤을 이용할 수 있다.
합성 모듈 250은, 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환할 수 있다. 예를 들어, 정해진 주파수 대역은, 사람이 오디오 신호를 들을 수 있는 주파수 대역 또는 20헤르츠(Hz) 내지 20000헤르츠(Hz)의 대역을 갖는 주파수 대역일 수 있다. 일 실시예에 따라, 합성 모듈 250은 Mel Generalized Cepstral Coefficients를 들을 수 있는 오디오 신호로 바꿀 수 있다. 출력되는 오디오 신호는 보코더(vocoder)시스템에 의해 생성될 수 있다. 보코더 시스템은 MGSLA 필터(Mel-Generalized Log Spectral Approximation digital filter)의 Mel Generalized Cepstral Coefficients로서 이행될 수 있다. MGSLA 필터에 대한 입력이 주어지면, 신호는 객체의 음의 높낮이(pitch)에 대응하여 출력될 수 있다. 일 실시예에 따라, 객체의 음성은 Machine Learning Methods에 의해 예측될 수 있다.
일 실시예에 따라, 합성 모듈 250은 변환된 오디오 신호에 대응하는 오디오 데이터량이 미리 정해진 임계 오디오 데이터량 보다 이하일 때, 변환된 오디오 신호에 미리 저장된 데이터를 추가하여 출력할 수 있다. 예를 들어, 수신한 오디오 데이터량이 임계 오디오 데이터량 이하이면, 변환된 오디오 신호의 스케일링(scaling)을 통해 증폭할 수 있다. 또 다른 예를 들면, 수신된 오디오 신호에 기본 주파수(예: 미리 저장된 남자의 평균 기본 주파수, 여자의 평균 기본 주파수 등)를 합산을 통하여 오디오 신호를 변경하여 출력할 수 있다.
일 실시예에 따라, 적응 모듈 260은 신호 획득 모듈 210로부터 신호 획득 모듈 210이 획득한 정보를 수신할 수 있다. 수신된 정보를 기반으로, 적응 모듈 260은 미리 정해진 데이터베이스와 비교를 통하여, 정해진 객체를 인식하고 객체의 성별(gender)을 판단할 수 있다.
적응 모듈 260은 정해진 객체(예: 사람, 오디오를 출력하는 객체 등)를 인식하고, 객체의 실제 오디오에 부합하도록 오디오 신호의 음의 높이(pitch), 음색(timbre)을 조정할 수 있다. 예를 들어, 적응 모듈 260은 수신된 오디오 정보 및 비디오 정보를 기반으로 미리 저장된 데이터들 중 객체의 오디오 데이터를 결정하고, 결정된 객체의 오디오 데이터를 기반으로 상기 수신된 오디오 정보에 포함된 오디오의 주파수, 오디오의 높이(pitch) 및 오디오의 음색(timbre) 중 적어도 하나를 조정할 수 있다.
이러한 조정은, 전자 장치(예: 전자 장치 101)에 미리 저장된 각각의 객체에 대한 기본 정보로부터 결정할수 있다. 예를 들어, 각각의 객체에 대한 기본 정보는, 객체의 음색(timbre), 객체로부터 출력되는 오디오의 기본 주파수, 오디오 샘플, 객체의 사진 등을 포함할 수 있다. 각각의 객체에 대한 기본 정보는 사용자가 입력에 의해 저장될 수 있다. 여기서 사용자 입력에 의한 정보들은, 비디오 정보 인식 모듈을 이용하여 사진을 찍거나, 객체로부터 출력되는 몇몇 단어에 의해 획득될 수 있다.
다른 예를 들면, 적응 모듈 260은 신호 획득 모듈로부터 상기 객체의 비디오 정보를 수신하고, 상기 수신된 비디오 정보를 기반으로 상기 객체의 기본 주파수 대역을 결정할 수 있다. 예를 들어, 수신된 비디오 정보가 성별(gender)을 결정하면, 성별에 따른 기본 주파수 대역(예: 남자의 평균 주파수 대역 또는 여자의 평균 주파수 대역)을 결정할 수 있다.
이러한 기본 주파수 대역의 결정은, 전자 장치(예: 전자 장치 101)에 미리 저장된 각각의 객체에 대한 기본 정보로부터 결정할수 있다. 예를 들어, 수신된 오디오 정보 및 비디오 정보와 전자 장치에 미리 저장된 남자의 평균 주파수 대역 및 여자의 평균 주파수 대역, 나이별 평균 주파수 대역 등과의 비교를 통하여 결정할 수 있다.
도 4는 본 개시의 다양한 실시예에 따른, 전자 장치의 특징 추출 모듈 220에 대한 설명을 위해 개략적으로 도시한 도면이다.
특징 추출 모듈220은 신호 획득 모듈 210로부터 데이터를 수신할 수 있다. 특징 추출 모듈 220로부터 수신된 신호를 기반으로, 신호에 포함된 오디오 특징들을 추출할 수 있다. 일 실시예에 따라, 특징 추출 모듈 220은 수신된 신호들을 일정한 구간을 갖는 프레임 기반으로 오디오 특징들을 추출할 수 있다. 예를 들어, 신호를 일정한 기준(예: 시간, 주파수 등)으로 나누고, 정해진 기준에 따라 계속적으로 수신되는 데이터들을 오버랩 할 수 있다.
일 실시예에 따라, 특징 추출 모듈 220은 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 추출된 신호 기술자를 분석할 수 있다. 여기서 신호 기술자란, 시간 영역 및 주파수 영역의 변수들에 포함된 변수들을 의미할 수 있다.
예를 들어, 신호 기술자는 시간 영역 및 주파수 영역 변수들을 포함하는 각각의 프레임에 대해 계산될 수 있다. 예를 들어, 신호는 기본적으로 진폭 및 소정의 주파수를 포함하는 파형으로 구성되는데, 신호는 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수들을 포함할 수 있다. 일 실시예에 따라 특징 추출 모듈 220은 추출된 신호 기술자(예: 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수)를 연산할 수 있다.
일 실시예에 따라, 반사신호에 포함된 신호 기술자들에 대해서 주파수 영역에서 계산된 특징들은, 객체의 움직임에 의해 유발된 이동 정도와 반사된 신호에 의한 도플러 효과를 나타낼 수 있다. 여기서 도플러 효과란, 단수 또는 복수의 객체가 운동함에 따라, 각 객체의 파동이 달라지는 효과를 의미한다. 특징 추출 모듈220은 미리 정해진 주파수 범위 내에서 반사신호의 스펙트럼 전력을 계산할 수 있다. 예를 들어, 스펙트럼 전력은 최소 주파수(fmin)부터 최대 주파수(fmax)사이로 제한될 수 있다. 다른 예에 따라, 스펙트럼 전력은 송신된 신호(예: 초음파 신호)의 주파수(fs) 근방의 대칭적인 부분대역으로 분할될 수 있다.
일 실시예에 따라, 분할대역의 폭은 신호의 주파수(fs)로부터 각 밴드의 거리로 점차적으로 증가할 수 있다. 일 실시예에 따라, 계산된 스펙트럼 신호 기술자는, 추후 변환 모듈 240에서 변환될 MFCC(Mel Cepstral Coefficients), Mel Generalized Cepstral Coefficients, 또는 주파수 전력의 로그 연산 시 이용될 수 있다.
여기서, MFCC(Mel Cepstral Coefficients) 중 Mel은 인체가 출력하는 신호의 비선형적인 주파수 특성을 나타내는 단위일 수 있다. MfCC를 연산하는 방법은, 반사신호의 푸리에 변환(Fourier transform)을 수행하고, 미리 지정된 Mel scale 에 의해 분할된 스펙트럼의 전력을 구한다. 이어, 각 Mel 주파수들의 전력에 대해 로그를 구하고, 이산 코사인 변환(discrete cosine transform)을 수행하면, MFCC를 구할 수 있다.
일 실시예에 따라, 오디오의 기술적 특징은 인접한 프레임들의 특징값들의 입력 데이터의 차원수를 확장함으로써 형성될 수 있다. 시간에 따른 특징값들의 변화에 대한 정보를 추가함으로써, 컨텍스트(context)는 풍부하게 될 수 있다.
일 실시예에 따라, 특징 추출 모듈 220은 신호 기술자들과 상당히 높게 상관될 수 있다. 예를 들어, 입력 특징 벡터들의 차원(dimensionality)의 축소를 위해서 주성분 분석(PCA: Principal Component Analysis) 방법을 적용할 수 있다. 여기서 주성분 분석이란, 다양한 변수들에 대해 분석하는 다변량(multivariate) 분석일 수 있다. 예를 들어, 주성분 분석은 서로 연관이 있는 변수들이 감지되었을 때, 감지된 변수들이 가지고 있는 정보들을 기반으로 새로운 변수들을 생성하는 방법일 수 있다. 예를 들면, 서로 연관이 있는 p개의 변수(x1, x2, x3 … xp)들에 대한 변이를 측정할 수 있다. 여기서, 변이란 변수들이 가지고 있는 정보의 양일 수 있다. 측정된 변수들을 이용하여 새로운 변수를 생성할 수 있다. 차원이 축소된 특징 벡터들에 의한 새로운 좌표들에 표시된 데이터는 많은 정보를 전달할 수 있다.
특징 추출 모듈 220은 추출된 신호 기술자를 오디오 보상 모듈 230 및 변환 모듈240로 전달할 수 있다.
도 5 는 본 개시의 다양한 실시예에 따른, 전자 장치의 오디오 인식방법에 대한 흐름도를 도시한 도면이다.
신호 획득 모듈 210의 신호 송신기 211는 501동작에서 지정된 객체를 향하여 신호를 송신할 수 있다. 일 실시예에 따라, 신호 획득 모듈 210은 초음파 신호(ultrasonic signal)를 지정된 객체를 향하여 송신하거나 초음파 신호를 생성할 수 있는 초음파 변환기(ultrasonic transducer)를 포함할 수 있다.
예를 들어, 신호 획득 모듈 210의 신호 송신기 211는 미리 정해진 객체(예: 인체(예: 입(mouth)), 전기적 신호를 이용하지 않고 오디오 신호를 생성할 수 있는 소스(acoustic source) 등)를 향하여 신호(예: 초음파 신호)를 송신할 수 있다.
신호 획득 모듈 210은 503동작에서 신호가 객체의 일면에 충돌함으로써 변형된 반사신호를 수신할 수 있다. 여기서, 신호의 변형이란, 신호의 객체에 충돌함으로써 신호가 가지는 파라미터(parameter)인 파형, 위상, 진동수 등이 변경되는 것을 의미할 수 있다.
특징 추출 모듈 220은 505동작에서 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 추출된 신호 기술자를 분석할 수 있다. 특징 추출 모듈 220은 신호 획득 모듈 210로부터 수신된 반사신호를 기반으로, 반사신호에 포함된 오디오 특징들을 추출할 수 있다. 여기서 신호 기술자란, 시간 영역 및 주파수 영역의 변수들에 포함된 변수들을 의미할 수 있다.
예를 들어, 신호 기술자는 시간 영역 및 주파수 영역 변수들을 포함하는 각각의 프레임에 대해 계산될 수 있다. 예를 들어, 신호는 기본적으로 진폭 및 소정의 주파수를 포함하는 파형으로 구성되는데, 신호는 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수들을 포함할 수 있다. 일 실시예에 따라 특징 추출 모듈 220은 추출된 신호 기술자(예: 시간 영역에서 신호의 평균값(mean), 표준 편차, 전력, ZCR(Zero-Crossing Rate), 변동폭, 신호의 포락선 및 신호의 미분값에 대한 변수)를 연산할 수 있다.
반사신호에 포함된 신호 기술자들에 대해서 주파수 영역에서 계산된 특징들은, 객체의 움직임에 의해 유발된 이동 정도와 반사된 신호에 의한 도플러 효과를 나타낼 수 있다. 여기서 도플러 효과란, 단수 또는 복수의 객체가 운동함에 따라, 각 객체의 파동이 달라지는 효과를 의미한다. 특징 추출 모듈220은 미리 정해진 주파수 범위 내에서 반사신호의 스펙트럼 전력을 계산할 수 있다. 예를 들어, 스펙트럼 전력은 최소 주파수(fmin)부터 최대 주파수(fmax)사이로 제한될 수 있다. 다른 예에 따라, 스펙트럼 전력은 송신된 신호(예: 초음파 신호)의 주파수(fs) 근방의 대칭적인 부분대역으로 분할될 수 있다.
특징 추출 모듈 220은 분석된 정보를 변환 모듈 240으로 전달할 수 있다. 변환 모듈 240은 507동작에서 신호 기술자를 오디오 기술자(audio descriptor)로 변환할 수 있다. 일 실시예에 따라 변환 모듈 240은 가우시안 혼합 모델(GMM: Gaussian Mixture Model)을 기반으로 변환할 수 있다.
일 실시예에 따라, 변환 모듈 240은 초음파 신호를 오디오 반사신호와 동시에 수신할 수 있다. 초음파 신호 및 오디오 반사신호는 각각의 기술자들에 의해 나타낼 수 있다. 예를 들어, Mel Generalized Cepstral Coefficients 및 초음파 신호 기술자들을 하나의 매트릭스로 결합할 수 있다. 가우시안의 변수들(예: 평균들, 공분산(covariance))은 프레임 별로 변환에 적용될 수 있다. 예를 들어 변환은 Gaussian Mixture Model-based Voice Conversion Algorithm에 의해 변환될 수 있다.
합성 모듈 250은 509동작에서 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환할 수 있다. 예를 들어, 정해진 주파수 대역은, 사람이 오디오 신호를 들을 수 있는 주파수 대역 또는 20헤르츠(Hz) 내지 20000헤르츠(Hz)의 대역을 갖는 주파수 대역일 수 있다. 일 실시예에 따라, 합성 모듈 250은 Mel Generalized Cepstral Coefficients를 들을 수 있는 오디오 신호로 바꿀 수 있다. 출력되는 오디오 신호는 보코더(vocoder)시스템에 의해 생성될 수 있다. 보코더 시스템은 MGSLA 필터(Mel-Generalized Log Spectral Approximation digital filter)의 Mel Generalized Cepstral Coefficients로서 이행될 수 있다. MGSLA 필터에 대한 입력이 주어지면, 신호는 객체의 음의 높낮이(pitch)에 대응하여 출력될 수 있다.
합성 모듈 250은 511동작에서 변환된 오디오 신호를 출력할 수 있다. 합성 모듈 250은 전자 장치에 포함된 스피커를 통하여 변환된 오디오 신호를 출력할 수 있다.
도 6 는 본 개시의 다양한 실시예에 따른, 전자 장치의 오디오 인식방법에 대한 흐름도를 도시한 도면이다.
신호 획득 모듈 210의 신호 송신기 211는 601동작에서 지정된 객체를 향하여 신호를 송신할 수 있다. 일 실시예에 따라, 신호 획득 모듈 210은 초음파 신호(ultrasonic signal)를 지정된 객체를 향하여 송신하거나 초음파 신호를 생성할 수 있는 초음파 변환기(ultrasonic transducer)를 포함할 수 있다.
예를 들어, 신호 획득 모듈 210의 신호 송신기 211는 미리 정해진 객체(예: 인체(예: 입(mouth)), 전기적 신호를 이용하지 않고 오디오 신호를 생성할 수 있는 소스(acoustic source) 등)를 향하여 신호(예: 초음파 신호)를 송신할 수 있다.
신호 획득 모듈 210은 603동작에서 신호가 객체의 일면에 충돌함으로써 변형된 반사신호를 수신할 수 있다. 여기서, 신호의 변형이란, 신호의 객체에 충돌함으로써 신호가 가지는 파라미터(parameter)인 파형, 위상, 진동수 등이 변경되는 것을 의미할 수 있다.
보상 모듈 230은 605동작에서 객체 및 전자 장치의 움직임에 대한 정보를 감지할 수 있다. 보상 모듈 230은 전자 장치(예: 전자 장치 101)의 떨림을 감지하기 위해, 동작 인식 센서(motion recognition sensor), 자이로스코프(gyroscope) 센서 및 가속도 센서 중 적어도 하나의 센서를 이용할 수 있다. 여기서 자이로스코프 센서는, X, Y, Z축에 대한 각속도를 측정해 변화한 각도를 측정할 수 있다. 가속도 센서는 X, Y, Z축 각각에 대한 중력 가속도 및 운동 가속도를 측정할 수 있다. 여기서 동작 인식 센서는, 물체의 움직임이나 위치를 인식할 수 있는 센서로, 지자기 센서, 가속도 센서, 고도계, 자이로 등의 기능이 하나의 칩에 들어가 있는 복합 센서일 수 있다. 보상 모듈 230은 607동작에서 감지된 정보를 기반으로 보상 신호를 생성할 수 있다. 보상 모듈 609 동작에서 보상 신호를 변환 모듈 240로 전달할 수 있다.
변환 모듈 611동작에서 신호 기술자 및 보상 신호를 기반으로, 신호 기술자를 오디오 기술자로 변환할 수 있다. 변환 모듈 240은 초음파 신호를 오디오 반사신호와 동시에 수신할 수 있다. 초음파 신호 및 오디오 반사신호는 각각의 기술자들에 의해 나타낼 수 있다. 예를 들어, Mel Generalized Cepstral Coefficients 및 초음파 신호 기술자들을 하나의 매트릭스로 결합할 수 있다. 가우시안의 변수들(예: 평균들, 공분산(covariance))은 프레임 별로 변환에 적용될 수 있다. 예를 들어 변환은 Gaussian Mixture Model-based Voice Conversion Algorithm에 의해 변환될 수 있다.
합성 모듈 250은 613동작에서 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환할 수 있다. 예를 들어, 정해진 주파수 대역은, 사람이 오디오 신호를 들을 수 있는 주파수 대역 또는 20헤르츠(Hz) 내지 20000헤르츠(Hz)의 대역을 갖는 주파수 대역일 수 있다. 일 실시예에 따라, 합성 모듈 250은 Mel Generalized Cepstral Coefficients를 들을 수 있는 오디오 신호로 바꿀 수 있다. 출력되는 오디오 신호는 보코더(vocoder)시스템에 의해 생성될 수 있다. 보코더 시스템은 MGSLA 필터(Mel-Generalized Log Spectral Approximation digital filter)의 Mel Generalized Cepstral Coefficients로서 이행될 수 있다. MGSLA 필터에 대한 입력이 주어지면, 신호는 객체의 음의 높낮이(pitch)에 대응하여 출력될 수 있다.
합성 모듈 250은 615 동작에서 변환된 오디오 신호를 출력할 수 있다. 합성 모듈 250은 전자 장치에 포함된 스피커를 통하여 변환된 오디오 신호를 출력할 수 있다.
도 7 는 본 개시의 다양한 실시예에 따른, 전자 장치의 오디오 인식방법에 대한 흐름도를 도시한 도면이다.
신호 획득 모듈 210의 신호 송신기 211는 701동작에서 지정된 객체를 향하여 신호를 송신할 수 있다. 일 실시예에 따라, 신호 획득 모듈 210은 초음파 신호(ultrasonic signal)를 지정된 객체를 향하여 송신하거나 초음파 신호를 생성할 수 있는 초음파 변환기(ultrasonic transducer)를 포함할 수 있다.
예를 들어, 신호 획득 모듈 210의 신호 송신기 211는 미리 정해진 객체(예: 인체(예: 입(mouth)), 전기적 신호를 이용하지 않고 오디오 신호를 생성할 수 있는 소스(acoustic source) 등)를 향하여 신호(예: 초음파 신호)를 송신할 수 있다.
신호 획득 모듈 210은 703동작에서 신호가 객체의 일면에 충돌함으로써 변형된 반사신호를 수신할 수 있다. 여기서, 신호의 변형이란, 신호의 객체에 충돌함으로써 신호가 가지는 파라미터(parameter)인 파형, 위상, 진동수 등이 변경되는 것을 의미할 수 있다.
보상 모듈 230은 705동작에서 객체 및 전자 장치의 움직임에 대한 정보를 감지할 수 있다. 보상 모듈 230은 전자 장치(예: 전자 장치 101)의 떨림을 감지하기 위해, 동작 인식 센서(motion recognition sensor), 자이로스코프(gyroscope) 센서 및 가속도 센서 중 적어도 하나의 센서를 이용할 수 있다. 여기서 자이로스코프 센서는, X, Y, Z축에 대한 각속도를 측정해 변화한 각도를 측정할 수 있다. 가속도 센서는 X, Y, Z축 각각에 대한 중력 가속도 및 운동 가속도를 측정할 수 있다. 여기서 동작 인식 센서는, 물체의 움직임이나 위치를 인식할 수 있는 센서로, 지자기 센서, 가속도 센서, 고도계, 자이로 등의 기능이 하나의 칩에 들어가 있는 복합 센서일 수 있다. 보상 모듈 230은 707동작에서 감지된 정보를 기반으로 보상 신호를 생성할 수 있다. 보상 모듈 709 동작에서 보상 신호를 변환 모듈 240로 전달할 수 있다.
신호 획득 모듈 210은 711동작에서 객체의 오디오 정보 및 비디오 정보를 획득할 수 있다. 오디오 마이크로폰(예: 스피커, 마이크 등) 및 비디오 정보 인식 모듈(예: 카메라, 캠코더 등) 등을 포함할 수 있다. 예를 들어, 오디오 마이크로폰은 지정된 객체(예를 들면, 오디오 정보를 출력하는 객체, 사람, 동물 등)로부터 출력된 오디오 샘플을 기록할 수 있다. 여기서 오디오 샘플이란, 출력된 오디오의 파형, 평균 주파수 및 주파수 대역 등을 포함할 수 있다.
적응 모듈 260은 713 동작에서 오디오 정보 및 비디오 정보를 기반으로, 미리 저장된 데이터들 중 객체의 오디오 데이터를 결정하고, 결정된 오디오 데이터를 기반으로 수신된 객체의 오디오 정보를 조정할 수 있다.
적응 모듈 260은 정해진 객체(예: 사람, 오디오를 출력하는 객체 등)를 인식하고, 객체의 실제 오디오에 부합하도록 오디오 신호의 음의 높이(pitch), 음색(timbre)을 조정할 수 있다. 예를 들어, 적응 모듈 260은 수신된 오디오 정보 및 비디오 정보를 기반으로 미리 저장된 데이터들 중 객체의 오디오 데이터를 결정하고, 결정된 객체의 오디오 데이터를 기반으로 상기 수신된 오디오 정보에 포함된 오디오의 주파수, 오디오의 높이(pitch) 및 오디오의 음색(timbre) 중 적어도 하나를 조정할 수 있다.
이러한 조정은, 전자 장치(예: 전자 장치 101)에 미리 저장된 각각의 객체에 대한 기본 정보로부터 결정할수 있다. 예를 들어, 각각의 객체에 대한 기본 정보는, 객체의 음색(timbre), 객체로부터 출력되는 오디오의 기본 주파수, 오디오 샘플, 객체의 사진 등을 포함할 수 있다. 각각의 객체에 대한 기본 정보는 사용자가 입력에 의해 저장될 수 있다. 여기서 사용자 입력에 의한 정보들은, 비디오 정보 인식 모듈을 이용하여 사진을 찍거나, 객체로부터 출력되는 몇몇 단어에 의해 획득될 수 있다.
다른 예를 들면, 적응 모듈 260은 신호 획득 모듈로부터 상기 객체의 비디오 정보를 수신하고, 상기 수신된 비디오 정보를 기반으로 상기 객체의 기본 주파수 대역을 결정할 수 있다. 예를 들어, 수신된 비디오 정보가 성별(gender)을 결정하면, 성별에 따른 기본 주파수 대역(예: 남자의 평균 주파수 대역 또는 여자의 평균 주파수 대역)을 결정할 수 있다. 적응 모듈 260은 715 동작에서 조정된 객체의 오디오 정보를 전달할 수 있다.
변환 모듈 240은 717동작에서 신호 기술자, 보상신호 및 조정된 객체의 오디오 정보를 기반으로, 신호 기술자를 오디오 기술자로 변환할 수 있다. 초음파 신호를 오디오 반사신호와 동시에 수신할 수 있다. 초음파 신호 및 오디오 반사신호는 각각의 기술자들에 의해 나타낼 수 있다. 예를 들어, Mel Generalized Cepstral Coefficients 및 초음파 신호 기술자들을 하나의 매트릭스로 결합할 수 있다. 가우시안의 변수들(예: 평균들, 공분산(covariance))은 프레임 별로 변환에 적용될 수 있다. 예를 들어 변환은 Gaussian Mixture Model-based Voice Conversion Algorithm에 의해 변환될 수 있다.
합성 모듈 250은 719 동작에서 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환할 수 있다. 예를 들어, 정해진 주파수 대역은, 사람이 오디오 신호를 들을 수 있는 주파수 대역 또는 20헤르츠(Hz) 내지 20000헤르츠(Hz)의 대역을 갖는 주파수 대역일 수 있다. 일 실시예에 따라, 합성 모듈 250은 Mel Generalized Cepstral Coefficients를 들을 수 있는 오디오 신호로 바꿀 수 있다. 출력되는 오디오 신호는 보코더(vocoder)시스템에 의해 생성될 수 있다. 보코더 시스템은 MGSLA 필터(Mel-Generalized Log Spectral Approximation digital filter)의 Mel Generalized Cepstral Coefficients로서 이행될 수 있다. MGSLA 필터에 대한 입력이 주어지면, 신호는 객체의 음의 높낮이(pitch)에 대응하여 출력될 수 있다.
합성 모듈 250은 721동작에서 변환된 오디오 신호를 출력할 수 있다. 합성 모듈 250은 전자 장치에 포함된 스피커를 통하여 변환된 오디오 신호를 출력할 수 있다.
도 8 은 다양한 실시예들에 따른 전자 장치 801의 블록도 800를 도시한다. 상기 전자 장치 801는, 예를 들면, 도 1에 도시된 전자 장치 101의 전체 또는 일부를 구성할 수 있다. 도 8을 참조하면, 상기 전자 장치 801는 하나 이상의 어플리케이션 프로세서(AP: application processor) 810, 통신 모듈 820, SIM(subscriber identification module) 카드 824, 메모리 830, 센서 모듈 840, 입력 장치 850, 디스플레이 860, 인터페이스 870, 오디오 모듈 880, 카메라 모듈 891, 전력관리 모듈 895, 배터리 896, 인디케이터 897 및 모터 898 를 포함할 수 있다.
상기 AP 810는 운영체제 또는 응용 프로그램을 구동하여 상기 AP 810에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 멀티미디어 데이터를 포함한 각종 데이터 처리 및 연산을 수행할 수 있다. 상기 AP 810는, 예를 들면, SoC(system on chip) 로 구현될 수 있다. 한 실시예에 따르면, 상기 AP 810는 GPU(graphic processing unit, 미도시)를 더 포함할 수 있다.
상기 통신 모듈 820(예: 상기 통신 인터페이스 160)은 상기 전자 장치 801(예: 상기 전자 장치 101)와 네트워크를 통해 연결된 다른 전자 장치들(예: 전자 장치 104 또는 서버 106) 간의 통신에서 데이터 송수신을 수행할 수 있다. 한 실시예에 따르면, 상기 통신 모듈 820은 셀룰러 모듈 821, Wifi 모듈 823, BT 모듈 825, GPS 모듈 827, NFC 모듈 828 및 RF(radio frequency) 모듈 829를 포함할 수 있다.
상기 셀룰러 모듈 821은 통신망(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등)을 통해서 음성 통화, 영상 통화, 문자 서비스 또는 인터넷 서비스 등을 제공할 수 있다. 또한, 상기 셀룰러 모듈 821은, 예를 들면, 가입자 식별 모듈(예: SIM 카드 824)을 이용하여 통신 네트워크 내에서 전자 장치의 구별 및 인증을 수행할 수 있다. 한 실시예에 따르면, 상기 셀룰러 모듈 821은 상기 AP 810가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 예를 들면, 상기 셀룰러 모듈 821은 멀티 미디어 제어 기능의 적어도 일부를 수행할 수 있다.
한 실시예에 따르면, 상기 셀룰러 모듈 821은 커뮤니케이션 프로세서(CP: communication processor)를 포함할 수 있다. 또한, 상기 셀룰러 모듈 821은, 예를 들면, SoC로 구현될 수 있다. 도 8에서는 상기 셀룰러 모듈 821(예: 커뮤니케이션 프로세서), 상기 메모리 830 또는 상기 전력관리 모듈 895 등의 구성요소들이 상기 AP 810와 별개의 구성요소로 도시되어 있으나, 한 실시예에 따르면, 상기 AP 810가 전술한 구성요소들의 적어도 일부(예: 셀룰러 모듈 821)를 포함하도록 구현될 수 있다.
한 실시예에 따르면, 상기 AP 810 또는 상기 셀룰러 모듈 821(예: 커뮤니케이션 프로세서)은 각각에 연결된 비휘발성 메모리 또는 다른 구성요소 중 적어도 하나로부터 수신한 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리할 수 있다. 또한, 상기 AP 810 또는 상기 셀룰러 모듈 821은 다른 구성요소 중 적어도 하나로부터 수신하거나 다른 구성요소 중 적어도 하나에 의해 생성된 데이터를 비휘발성 메모리에 저장(store)할 수 있다.
상기 Wifi 모듈 823, 상기 BT 모듈 825, 상기 GPS 모듈 827 또는 상기 NFC 모듈 828 각각은, 예를 들면, 해당하는 모듈을 통해서 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있다. 도 8에서는 셀룰러 모듈 821, Wifi 모듈 823, BT 모듈 825, GPS 모듈 827 또는 NFC 모듈 828이 각각 별개의 블록으로 도시되었으나, 한 실시예에 따르면, 셀룰러 모듈 821, Wifi 모듈 823, BT 모듈 825, GPS 모듈 827 또는 NFC 모듈 828 중 적어도 일부(예: 두 개 이상)는 하나의 integrated chip(IC) 또는 IC 패키지 내에 포함될 수 있다. 예를 들면, 셀룰러 모듈 821, Wifi 모듈 823, BT 모듈 825, GPS 모듈 827 또는 NFC 모듈 828 각각에 대응하는 프로세서들 중 적어도 일부(예: 셀룰러 모듈 821에 대응하는 커뮤니케이션 프로세서 및 Wifi 모듈 823에 대응하는 Wifi 프로세서)는 하나의 SoC로 구현될 수 있다.
상기 RF 모듈 829는 데이터의 송수신, 예를 들면, RF 신호의 송수신을 할 수 있다. 상기 RF 모듈 829는, 도시되지는 않았으나, 예를 들면, 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter) 또는 LNA(low noise amplifier) 등을 포함할 수 있다. 또한, 상기 RF 모듈 829는 무선 통신에서 자유 공간상의 전자파를 송수신하기 위한 부품, 예를 들면, 도체 또는 도선 등을 더 포함할 수 있다. 도 8에서는 셀룰러 모듈 821, Wifi 모듈 823, BT 모듈 825, GPS 모듈 827 및 NFC 모듈 828이 하나의 RF 모듈 829을 서로 공유하는 것으로 도시되어 있으나, 한 실시예에 따르면, 셀룰러 모듈 821, Wifi 모듈 823, BT 모듈 825, GPS 모듈 827 또는 NFC 모듈 828 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호의 송수신을 수행할 수 있다.
상기 SIM 카드 824는 가입자 식별 모듈을 포함하는 카드일 수 있으며, 전자 장치의 특정 위치에 형성된 슬롯에 삽입될 수 있다. 상기 SIM 카드 824는 고유한 식별 정보(예: ICCID(integrated circuit card identifier)) 또는 가입자 정보(예: IMSI(international mobile subscriber identity))를 포함할 수 있다.
상기 메모리 830(예: 상기 메모리 130)는 내장 메모리 832 또는 외장 메모리 834를 포함할 수 있다. 상기 내장 메모리 832는, 예를 들면, 휘발성 메모리(예를 들면, DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등) 또는 비휘발성 메모리(non-volatile Memory, 예를 들면, OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAND flash memory, NOR flash memory 등) 중 적어도 하나를 포함할 수 있다.
한 실시예에 따르면, 상기 내장 메모리 832는 Solid State Drive (SSD)일 수 있다. 상기 외장 메모리 834는 flash drive, 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 Memory Stick 등을 더 포함할 수 있다. 상기 외장 메모리 834는 다양한 인터페이스를 통하여 상기 전자 장치 801과 기능적으로 연결될 수 있다. 한 실시예에 따르면, 상기 전자 장치 801는 하드 드라이브와 같은 저장 장치(또는 저장 매체)를 더 포함할 수 있다.
상기 센서 모듈 840은 물리량을 계측하거나 전자 장치 801의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 상기 센서 모듈 840은, 예를 들면, 제스처 센서 840A, 자이로 센서 840B, 기압 센서 840C, 마그네틱 센서 840D, 가속도 센서 840E, 그립 센서 840F, 근접 센서 840G, color 센서 840H(예: RGB(red, green, blue) 센서), 생체 센서 840I, 온/습도 센서 840J, 조도 센서 840K 또는 UV(ultra violet) 센서 840M 중의 적어도 하나를 포함할 수 있다.
추가적으로 또는 대체적으로, 상기 센서 모듈 840은, 예를 들면, 후각 센서(E-nose sensor, 미도시), EMG 센서(electromyography sensor, 미도시), EEG 센서(electroencephalogram sensor, 미도시), ECG 센서(electrocardiogram sensor, 미도시), IR(infra red) 센서(미도시), 홍채 센서(미도시) 또는 지문 센서(미도시) 등을 포함할 수 있다. 상기 센서 모듈 840은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다.
상기 입력 장치 850은 터치 패널(touch panel) 852, (디지털) 펜 센서(pen sensor) 854, 키(key) 856 또는 초음파(ultrasonic) 입력 장치 858를 포함할 수 있다. 상기 터치 패널 852은, 예를 들면, 정전식, 감압식, 적외선 방식 또는 초음파 방식 중 적어도 하나의 방식으로 터치 입력을 인식할 수 있다. 또한, 상기 터치 패널 852은 제어 회로를 더 포함할 수도 있다. 정전식의 경우, 물리적 접촉 또는 근접 인식이 가능하다. 상기 터치 패널 852은 택타일 레이어(tactile layer)를 더 포함할 수도 있다. 이 경우, 상기 터치 패널 852은 사용자에게 촉각 반응을 제공할 수 있다.
상기 (디지털) 펜 센서 854는, 예를 들면, 사용자의 터치 입력을 받는 것과 동일 또는 유사한 방법 또는 별도의 인식용 쉬트(sheet)를 이용하여 구현될 수 있다. 상기 키 856는, 예를 들면, 물리적인 버튼, 광학식 키 또는 키패드를 포함할 수 있다. 상기 초음파(ultrasonic) 입력 장치 858는 초음파 신호를 발생하는 입력 도구를 통해, 전자 장치 801에서 마이크(예: 마이크 888)로 음파를 감지하여 데이터를 확인할 수 있는 장치로서, 무선 인식이 가능하다. 한 실시예에 따르면, 상기 전자 장치 801는 상기 통신 모듈 820를 이용하여 이와 연결된 외부 장치(예: 컴퓨터 또는 서버)로부터 사용자 입력을 수신할 수도 있다.
상기 디스플레이 860(예: 상기 디스플레이 150)은 패널 862, 홀로그램 장치 864 또는 프로젝터 866을 포함할 수 있다. 상기 패널 862은, 예를 들면, LCD(liquid-crystal display) 또는 AM-OLED(active-matrix organic light-emitting diode) 등일 수 있다. 상기 패널 862은, 예를 들면, 유연하게(flexible), 투명하게(transparent) 또는 착용할 수 있게(wearable) 구현될 수 있다. 상기 패널 862은 상기 터치 패널 852과 하나의 모듈로 구성될 수도 있다. 상기 홀로그램 장치 864은 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 상기 프로젝터 866는 스크린에 빛을 투사하여 영상을 표시할 수 있다. 상기 스크린은, 예를 들면, 상기 전자 장치 801의 내부 또는 외부에 위치할 수 있다. 한 실시예에 따르면, 상기 디스플레이 860은 상기 패널 862, 상기 홀로그램 장치 864, 또는 프로젝터 866를 제어하기 위한 제어 회로를 더 포함할 수 있다.
상기 인터페이스 870는, 예를 들면, HDMI(high-definition multimedia interface) 872, USB(universal serial bus) 874, 광 인터페이스(optical interface) 876 또는 D-sub(D-subminiature) 878를 포함할 수 있다. 상기 인터페이스 870는, 예를 들면, 도 1에 도시된 통신 인터페이스 160에 포함될 수 있다. 추가적으로 또는 대체적으로, 상기 인터페이스 870는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD(secure Digital) 카드/MMC(multi-media card) 인터페이스 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.
상기 오디오 모듈 880은 소리(sound)와 전기신호를 쌍방향으로 변환시킬 수 있다. 상기 오디오 모듈 880의 적어도 일부 구성요소는, 예를 들면, 도 1 에 도시된 입출력 인터페이스 140에 포함될 수 있다. 상기 오디오 모듈 880은, 예를 들면, 스피커 882, 리시버 884, 이어폰 886 또는 마이크 888 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.
상기 카메라 모듈 891은 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈(미도시), ISP(image signal processor, 미도시) 또는 플래쉬 (flash, 미도시)(예: LED 또는 xenon lamp)를 포함할 수 있다.
상기 전력 관리 모듈 895은 상기 전자 장치 801의 전력을 관리할 수 있다. 도시하지는 않았으나, 상기 전력 관리 모듈 895은, 예를 들면, PMIC(power management integrated circuit), 충전 IC(charger integrated circuit) 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다.
상기 PMIC는, 예를 들면, 집적회로 또는 SoC 반도체 내에 탑재될 수 있다. 충전 방식은 유선과 무선으로 구분될 수 있다. 상기 충전 IC는 배터리를 충전시킬 수 있으며, 충전기로부터의 과전압 또는 과전류 유입을 방지할 수 있다. 한 실시예에 따르면, 상기 충전 IC는 유선 충전 방식 또는 무선 충전 방식 중 적어도 하나를 위한 충전 IC를 포함할 수 있다. 무선 충전 방식으로는, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등이 있으며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로 또는 정류기 등의 회로가 추가될 수 있다.
상기 배터리 게이지는, 예를 들면, 상기 배터리 896의 잔량, 충전 중 전압, 전류 또는 온도를 측정할 수 있다. 상기 배터리 896는 전기를 저장 또는 생성할 수 있고, 그 저장 또는 생성된 전기를 이용하여 상기 전자 장치 801에 전원을 공급할 수 있다. 상기 배터리 896는, 예를 들면, 충전식 전지(rechargeable battery) 또는 태양 전지(solar battery)를 포함할 수 있다.
상기 인디케이터 897는 상기 전자 장치 801 혹은 그 일부(예: 상기 AP 810)의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 상기 모터 898는 전기적 신호를 기계적 진동으로 변환할 수 있다. 도시되지는 않았으나, 상기 전자 장치 801는 모바일 TV 지원을 위한 처리 장치(예: GPU)를 포함할 수 있다. 상기 모바일 TV지원을 위한 처리 장치는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting) 또는 미디어플로우(media flow) 등의 규격에 따른 미디어 데이터를 처리할 수 있다.
본 개시의 다양한 실시예에 따른 전자 장치의 전술한 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성 요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 본 개시의 다양한 실시예에 따른 전자 장치는 전술한 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 본 개시의 다양한 실시예에 따른 전자 장치의 구성 요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성 요소들의 기능을 동일하게 수행할 수 있다.
도 9는 다양한 실시예들에 따른 복수의 전자 장치들(예: 전자 장치 910 및 전자 장치 930) 사이의 통신 프로토콜 900을 도시한다. 도 9을 참조하면, 예를 들어, 상기 통신 프로토콜 900은, 장치 발견 프로토콜(device discovery protocol) 951, 기능 교환 프로토콜(capability exchange protocol) 953, 네트워크 프로토콜(network protocol) 955 및 어플리케이션 프로토콜(application protocol) 957 등을 포함할 수 있다.
한 실시예에 따르면, 상기 장치 발견 프로토콜 951은 전자 장치들(예: 전자 장치 910 또는 전자 장치 930)이 자신과 통신 가능한 외부 전자 장치를 감지하거나 감지된 외부 전자 장치와 연결하기 위한 프로토콜일 수 있다. 예를 들어, 전자 장치 910(예: 전자 장치 101)은, 상기 장치 발견 프로토콜 951을 이용하여, 상기 전자 장치 910에서 사용 가능한 통신 방법(예: Wifi, BT 또는 USB 등)을 통해, 상기 전자 장치 910와 통신 가능한 기기(device)로, 전자 장치 930(예: 전자 장치 104)를 감지할 수 있다. 상기 전자 장치 910는, 상기 전자 장치 930과의 통신 연결을 위해, 상기 장치 발견 프로토콜 951을 이용하여, 감지된 전자 장치 930에 대한 식별 정보를 획득하여 저장할 수 있다. 상기 전자 장치 910는, 예를 들면, 적어도 상기 식별 정보에 기반하여, 상기 전자 장치 930와의 통신 연결을 개설할 수 있다.
어떤 실시예에 따르면, 상기 장치 발견 프로토콜 951은 복수의 전자 장치들 사이에서 상호 인증을 하기 위한 프로토콜일 수 있다. 예를 들어, 전자 장치 910는 적어도 전자 장치 930와 연결을 위한 통신 정보(예: MAC(media access control) address, UUID(universally unique identifier), SSID(subsystem identification), IP(internet protocol) address)에 기반하여, 상기 전자 장치 910와 상기 전자 장치 930 간의 인증을 수행할 수 있다.
한 실시예에 따르면, 상기 기능 교환 프로토콜 953은 전자 장치 910 또는 전자 장치 930 중 적어도 하나에서 지원 가능한 서비스의 기능과 관련된 정보를 교환하기 위한 프로토콜일 수 있다. 예를 들어, 전자 장치 910 및 전자 장치 930은 상기 기능 교환 프로토콜 953을 통하여, 각각이 현재 제공하고 있는 서비스의 기능과 관련된 정보를 서로 교환할 수 있다. 교환 가능한 정보는 전자 장치 910 및 전자 장치 930에서 지원 가능한 복수의 서비스들 중에서 특정 서비스를 가리키는 식별 정보를 포함할 수 있다. 예를 들어, 전자 장치 910는 상기 기능 교환 프로토콜 953을 통해 전자 장치 930로부터 상기 전자 장치 930가 제공하는 특정 서비스의 식별 정보를 수신할 수 있다. 이 경우, 전자 장치 910는 상기 수신된 식별 정보에 기반하여, 상기 전자 장치 910이 상기 특정 서비스를 지원할 수 있는지 여부를 판단할 수 있다.
한 실시예에 따르면, 상기 네트워크 프로토콜 955은 통신이 가능하도록 연결된 전자 장치들(예: 전자 장치 910, 전자 장치 930) 간에, 예컨대, 서비스를 연동하여 제공하기 위하여 송수신 되는, 데이터 흐름을 제어하기 위한 프로토콜일 수 있다. 예를 들어, 전자 장치 910 또는 전자 장치 930 중 적어도 하나는 상기 네트워크 프로토콜 955을 이용하여, 오류 제어, 또는 데이터 품질 제어 등을 수행할 수 있다. 추가적으로 또는 대체적으로, 상기 네트워크 프로토콜 955은 전자 장치 910와 전자 장치 930 사이에서 송수신되는 데이터의 전송 포맷을 결정할 수 있다. 또한, 전자 장치 910 또는 전자 장치 930 중 적어도 하나는 상기 네트워크 프로토콜 955를 이용하여 상호간의 데이터 교환을 위한 적어도 세션(session)을 관리(예: 세션 연결 또는 세션 종료)할 수 있다.
한 실시예에 따르면, 상기 어플리케이션 프로토콜 957은 외부 전자 장치로 제공되는 서비스와 관련된 데이터를 교환하기 위한, 절차 또는 정보를 제공하기 위한 프로토콜일 수 있다. 예를 들어, 전자 장치 910(예: 전자 장치 101)은 상기 어플리케이션 프로토콜 957을 통해 전자 장치 930(예: 전자 장치 104 또는 서버 106)로 서비스를 제공할 수 있다.
한 실시예에 따르면, 상기 통신 프로토콜 900은 표준 통신 프로토콜, 개인 또는 단체에서 지정한 통신 프로토콜(예: 통신 장치 제조 업체 또는 네트워크 공급 업체 등에서 자체적으로 지정한 통신 프로토콜) 또는 이들의 조합을 포함할 수 있다.
본 개시의 다양한 실시예에 사용된 용어 "모듈"은, 예를 들어, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. "모듈"은 예를 들어, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component) 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. "모듈"은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면, 본 개시의 다양한 실시예에 따른 "모듈"은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.
다양한 실시예에 따르면, 본 개시의 다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그래밍 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어는, 하나 이상의 프로세서 (예: 상기 프로세서 122)에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 상기 메모리 130가 될 수 있다. 상기 프로그래밍 모듈의 적어도 일부는, 예를 들면, 상기 프로세서210에 의해 구현(implement)(예: 실행)될 수 있다. 상기 프로그래밍 모듈 의 적어도 일부는 하나 이상의 기능을 수행하기 위한, 예를 들면, 모듈, 프로그램, 루틴, 명령어 세트 (sets of instructions) 또는 프로세스 등을 포함할 수 있다.
상기 컴퓨터로 판독 가능한 기록 매체에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 마그네틱 매체(Magnetic Media)와, CD-ROM(Compact Disc Read Only Memory), DVD(Digital Versatile Disc)와 같은 광기록 매체(Optical Media)와, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media)와, 그리고 ROM(Read Only Memory), RAM(Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령(예: 프로그래밍 모듈)을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 개시의 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
본 개시의 다양한 실시예에 따른 모듈 또는 프로그래밍 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 본 개시의 다양한 실시예에 따른 모듈, 프로그래밍 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
다양한 실시예에 따르면, 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 프로세서에 의하여 실행될 때에 상기 적어도 하나의 프로세서로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 지정된 객체를 향하여 신호를 송신하고, 상기 신호가 상기 객체의 일면에 충돌함으로써 변형된 반사신호를 수신하는 신호 획득 모듈; 상기 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 상기 추출된 신호 기술자를 분석하는 특징 추출 모듈; 상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 변환 모듈; 및 상기 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환하고, 상기 변환된 오디오 신호를 출력하는 합성 모듈을 포함할 수 있다.
그리고 본 명세서와 도면에 개시된 본 개시의 실시예들은 본 개시의 실시예에 따른 의 기술 내용을 쉽게 설명하고 본 개시의 실시예의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 개시의 실시예의 범위를 한정하고자 하는 것은 아니다. 따라서 본 개시의 다양한 실시예의 범위는 여기에 개시된 실시예들 이외에도 본 개시의 다양한 실시예의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 개시의 다양한 실시예의 범위에 포함되는 것으로 해석되어야 한다.

210: 신호 획득 모듈 220: 특징 추출 모듈
230: 보상 모듈 240: 변환 모듈
250: 합성 모듈 260: 적응 모듈

Claims (20)

  1. 전자 장치에 있어서,
    지정된 객체를 향하여 신호를 송신하고, 상기 신호가 상기 객체의 일면에 충돌함으로써 변형된 반사신호를 수신하는 신호 획득 모듈;
    상기 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 상기 추출된 신호 기술자를 분석하는 특징 추출 모듈;
    상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 변환 모듈; 및
    상기 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환하고, 상기 변환된 오디오 신호를 출력하는 합성 모듈을 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 객체 및 상기 전자 장치의 움직임에 대한 정보를 감지하고, 상기 감지된 정보를 기반으로 보상 신호를 생성하고, 상기 생성된 보상 신호를 상기 변환 모듈로 전달하는 보상 모듈을 더 포함하는 전자 장치.
  3. 제2항에 있어서,
    상기 변환 모듈은,
    상기 신호 기술자를 오디오 기술자로 변환할 때, 상기 신호 기술자 및 상기 수신된 보상 신호를 기반으로 변환하는 것을 특징으로 하는 전자 장치.
  4. 제2항에 있어서,
    상기 신호 획득 모듈은,
    상기 객체의 오디오 정보 및 비디오 정보를 획득하는 확장신호 획득 모듈을 더 포함하는 것을 특징으로 하는 전자 장치.
  5. 제4항에 있어서,
    상기 확장신호 획득 모듈로부터 상기 객체의 오디오 정보 및 비디오 정보를 수신하고, 상기 수신된 오디오 정보 및 비디오 정보를 기반으로 미리 저장된 오디오 데이터들 중 객체의 오디오 데이터를 결정하고, 상기 결정된 객체의 오디오 데이터를 기반으로 상기 수신된 오디오 정보에 포함된 오디오의 주파수, 오디오의 높이(pitch) 및 오디오의 음색(timbre) 중 적어도 하나를 조정하는 적응 모듈을 더 포함하는 전자 장치.
  6. 제5항에 있어서,
    상기 변환 모듈은,
    상기 신호 기술자를 오디오 기술자로 변환할 때, 상기 신호 기술자, 상기 보상 신호 및 상기 적응 모듈로부터 수신한 오디오 데이터의 조정 정보를 기반으로, 상기 신호 기술자를 오디오 기술자로 변환하는 것을 특징으로 하는 전자 장치.
  7. 제4항에 있어서,
    상기 적응 모듈은,
    상기 확장신호 획득 모듈로부터 상기 객체의 비디오 정보를 수신하고, 상기 수신된 비디오 정보를 기반으로 상기 객체의 기본 주파수 대역을 결정하는 것을 특징으로 하는 전자 장치.
  8. 제1항에 있어서,
    상기 합성 모듈은,
    상기 변환된 오디오 신호에 대응하는 오디오 데이터량이 미리 정해진 임계 오디오 데이터량 보다 이하일 때, 상기 변환된 오디오 신호에 미리 저장된 데이터를 추가하여 출력하는 것을 특징으로 하는 전자 장치.
  9. 제4항에 있어서,
    상기 객체는,
    상기 전자 장치가, 상기 확장신호 획득 모듈로부터 수신한 비디오 정보에 대한 선택 입력 이벤트를 감지함에 따라 결정되는 것을 특징으로 하는 전자 장치.
  10. 제1항에 있어서,
    상기 객체는,
    전기적 신호를 이용하지 않고 오디오를 생성할 수 있는 소스(acoustic source)이고,
    상기 신호는,
    초음파 신호(ultrasonic wave)이고,
    상기 주파수 대역은,
    20헤르츠(Hz) 내지 20000헤르츠(Hz)의 대역을 갖는 주파수 대역인 것을 특징으로 하는 전자 장치.
  11. 전자 장치의 오디오 인식 방법에 있어서,
    지정된 객체를 향하여 신호를 송신하는 동작;
    상기 신호가 상기 객체의 일면에 충돌함으로써 변형된 반사신호를 수신하는 동작;
    상기 반사신호에 포함된 신호 기술자(signal descriptor)를 추출하고, 상기 추출된 신호 기술자를 분석하는 동작;
    상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 동작; 및
    상기 오디오 기술자를 정해진 주파수 대역을 갖는 오디오 신호로 변환하고, 상기 변환된 오디오 신호를 출력하는 동작을 포함하는 전자 장치의 오디오 인식 방법.
  12. 제11항에 있어서,
    상기 객체 및 상기 전자 장치의 움직임에 대한 정보를 감지하고, 상기 감지된 정보를 기반으로 보상 신호를 생성하고, 상기 생성된 보상 신호를 전달하는 동작을 더 포함하는 전자 장치의 오디오 인식 방법.
  13. 제12항에 있어서,
    상기 신호 기술자를 오디오 기술자로 변환하는 동작은,
    상기 신호 기술자 및 상기 수신된 보상 신호를 기반으로 변환하는 동작을 포함하는 전자 장치의 오디오 인식 방법.
  14. 제12항에 있어서,
    상기 객체의 오디오 정보 및 비디오 정보를 획득하는 동작을 더 포함하는 전자 장치의 오디오 인식 방법.
  15. 제14항에 있어서,
    상기 획득한 객체의 오디오 정보 및 비디오 정보를 수신하고, 상기 수신된 오디오 정보 및 비디오 정보를 기반으로 미리 저장된 데이터들 중 객체의 오디오 데이터를 결정하고, 상기 결정된 객체의 오디오 데이터를 기반으로 상기 수신된 오디오 정보에 포함된 오디오의 주파수, 오디오의 높이(pitch) 및 오디오의 음색(timbre) 중 적어도 하나를 조정하는 동작을 더 포함하는 전자 장치의 오디오 인식 방법.
  16. 제15항에 있어서,
    상기 신호 기술자를 오디오 기술자(audio descriptor)로 변환하는 동작은,
    상기 신호 기술자, 상기 보상 신호 및 상기 수신한 객체의 조정 정보를 기반으로, 상기 신호 기술자를 오디오 기술자로 변환하는 동작을 포함하는 전자 장치의 오디오 인식 방법.
  17. 제14항에 있어서,
    상기 획득한 객체의 비디오 정보를 수신하고, 상기 수신된 비디오 정보를 기반으로 상기 객체의 기본 주파수 대역을 결정하는 동작을 더 포함하는 전자 장치의 오디오 인식 방법.
  18. 제11항에 있어서,
    상기 변환된 오디오 신호를 출력하는 동작은,
    상기 변환된 오디오 신호에 대응하는 오디오 데이터량이 미리 정해진 임계 오디오 데이터량 보다 이하일 때, 상기 변환된 오디오 신호에 미리 저장된 데이터를 추가하여 출력하는 동작을 포함하는 전자 장치의 오디오 인식 방법.
  19. 제14항에 있어서,
    상기 객체는,
    상기 전자 장치가, 상기 수신한 비디오 정보에 대한 선택 입력 이벤트를 감지함에 따라 결정되는 것을 특징으로 하는 전자 장치의 오디오 인식 방법.
  20. 제11항에 있어서,
    상기 객체는,
    전기적 신호를 이용하지 않고 오디오를 생성할 수 있는 소스(acoustic source)이고,
    상기 신호는,
    초음파 신호(ultrasonic wave)이고,
    상기 주파수 대역은,
    20헤르츠(Hz) 내지 20000헤르츠(Hz)의 주파수 대역인 것을 특징으로 하는 전자 장치.
KR1020140058014A 2014-05-14 2014-05-14 오디오 신호 인식 방법 및 이를 제공하는 전자 장치 KR20150130854A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020140058014A KR20150130854A (ko) 2014-05-14 2014-05-14 오디오 신호 인식 방법 및 이를 제공하는 전자 장치
EP15167396.9A EP2945156A1 (en) 2014-05-14 2015-05-12 Audio signal recognition method and electronic device supporting the same
US14/712,509 US20150332668A1 (en) 2014-05-14 2015-05-14 Audio signal recognition method and electronic device supporting the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140058014A KR20150130854A (ko) 2014-05-14 2014-05-14 오디오 신호 인식 방법 및 이를 제공하는 전자 장치

Publications (1)

Publication Number Publication Date
KR20150130854A true KR20150130854A (ko) 2015-11-24

Family

ID=53174900

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140058014A KR20150130854A (ko) 2014-05-14 2014-05-14 오디오 신호 인식 방법 및 이를 제공하는 전자 장치

Country Status (3)

Country Link
US (1) US20150332668A1 (ko)
EP (1) EP2945156A1 (ko)
KR (1) KR20150130854A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017095082A1 (ko) * 2015-12-04 2017-06-08 삼성전자 주식회사 오디오 제공 방법 및 그 장치
KR20190068830A (ko) * 2017-12-11 2019-06-19 현대자동차주식회사 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
CN110335454A (zh) * 2019-08-23 2019-10-15 深圳市元征科技股份有限公司 一种设备控制方法、系统、智能穿戴设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106028219B (zh) * 2016-07-06 2022-04-05 歌尔股份有限公司 信号转换电路以及电子设备
WO2018043917A1 (en) * 2016-08-29 2018-03-08 Samsung Electronics Co., Ltd. Apparatus and method for adjusting audio
CN107785027B (zh) * 2017-10-31 2020-02-14 维沃移动通信有限公司 一种音频处理方法及电子设备
KR20190108364A (ko) * 2018-03-14 2019-09-24 삼성전자주식회사 전자 장치 및 그의 동작 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050075598A1 (en) * 2001-08-24 2005-04-07 Redding Bruce K. Method and apparatus for the measurement of real time drug delivery through the use of a wearable monitor and sensor attached to a transdermal drug delivery device
US20100131268A1 (en) * 2008-11-26 2010-05-27 Alcatel-Lucent Usa Inc. Voice-estimation interface and communication system
US8924214B2 (en) * 2010-06-07 2014-12-30 The United States Of America, As Represented By The Secretary Of The Navy Radar microphone speech recognition
US8410922B2 (en) * 2010-11-23 2013-04-02 The Watt Stopper Inc. Motion sensor with ultrasonic modulation
US20120136660A1 (en) * 2010-11-30 2012-05-31 Alcatel-Lucent Usa Inc. Voice-estimation based on real-time probing of the vocal tract

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017095082A1 (ko) * 2015-12-04 2017-06-08 삼성전자 주식회사 오디오 제공 방법 및 그 장치
KR20170066054A (ko) * 2015-12-04 2017-06-14 삼성전자주식회사 오디오 제공 방법 및 그 장치
US10362430B2 (en) 2015-12-04 2019-07-23 Samsung Electronics Co., Ltd Audio providing method and device therefor
KR20190068830A (ko) * 2017-12-11 2019-06-19 현대자동차주식회사 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
CN110335454A (zh) * 2019-08-23 2019-10-15 深圳市元征科技股份有限公司 一种设备控制方法、系统、智能穿戴设备及存储介质

Also Published As

Publication number Publication date
EP2945156A1 (en) 2015-11-18
US20150332668A1 (en) 2015-11-19

Similar Documents

Publication Publication Date Title
US10811002B2 (en) Electronic device and method for controlling the same
KR102363794B1 (ko) 정보 제공 방법 및 이를 지원하는 전자 장치
US10593347B2 (en) Method and device for removing noise using neural network model
KR20150130854A (ko) 오디오 신호 인식 방법 및 이를 제공하는 전자 장치
CN108027952B (zh) 用于提供内容的方法和电子设备
CN108023934B (zh) 电子装置及其控制方法
CN107637025B (zh) 用于输出消息的电子装置及其控制方法
US9992641B2 (en) Electronic device, server, and method for outputting voice
US10217349B2 (en) Electronic device and method for controlling the electronic device
US10825453B2 (en) Electronic device for providing speech recognition service and method thereof
KR20180083587A (ko) 전자 장치 및 그의 동작 방법
CN108370488B (zh) 音频提供方法及其设备
KR20180062174A (ko) 햅틱 신호 생성 방법 및 이를 지원하는 전자 장치
KR20150111157A (ko) 보청기의 소리를 조정하는 방법, 이를 수행하는 보청기 및 전자 장치
KR102561572B1 (ko) 센서 활용 방법 및 이를 구현한 전자 장치
KR20170097519A (ko) 음성 처리 방법 및 장치
KR20140139982A (ko) 전자 장치의 음성인식을 수행하는 방법 및 이를 사용하는 전자 장치
US20160133257A1 (en) Method for displaying text and electronic device thereof
KR102339798B1 (ko) 전자 장치의 음향 처리 방법 및 그 전자 장치
US20170134694A1 (en) Electronic device for performing motion and control method thereof
EP3678132A1 (en) Electronic device and server for processing user utterances
KR20170098392A (ko) 전자 장치 및 전자 장치의 음성 및 잡음 분류 방법
KR20150141019A (ko) 깊이 정보를 활용하는 전자 장치 및 방법
US10311613B2 (en) Electronic device for processing image and method for controlling thereof
US11915700B2 (en) Device for processing user voice input

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid