KR101874946B1 - 홈 네트워크 시스템 - Google Patents

홈 네트워크 시스템 Download PDF

Info

Publication number
KR101874946B1
KR101874946B1 KR1020170014950A KR20170014950A KR101874946B1 KR 101874946 B1 KR101874946 B1 KR 101874946B1 KR 1020170014950 A KR1020170014950 A KR 1020170014950A KR 20170014950 A KR20170014950 A KR 20170014950A KR 101874946 B1 KR101874946 B1 KR 101874946B1
Authority
KR
South Korea
Prior art keywords
signal
sound
input
unit
speech recognition
Prior art date
Application number
KR1020170014950A
Other languages
English (en)
Inventor
윤형관
이풍우
윤태식
김성진
Original Assignee
인성 엔프라 주식회사
주식회사 보임
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인성 엔프라 주식회사, 주식회사 보임 filed Critical 인성 엔프라 주식회사
Priority to KR1020170014950A priority Critical patent/KR101874946B1/ko
Application granted granted Critical
Publication of KR101874946B1 publication Critical patent/KR101874946B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 인간 및 전자디바이스들이 물리적인 접촉 없이 음성을 기반으로 인터페이스 가능하도록 구성됨으로써 디지털기기의 조작에 익숙하지 않은 사람들도 쉽게 사용할 수 있으며, 음성을 이용하여 가정 내 전자 디바이스들을 용이하게 제어할 수 있고, 홈 에이전트가 식별ID 및 제어데이터를 별도의 통신망을 통해 전자 디바이스들로 송신하는 것이 아니라, 사운드QR을 통해 전달하도록 구성됨으로써 별도의 네트워크를 구축하지 않아도 구현이 가능하여 설치 운용이 간단하며, 네트워크를 구축하기 위한 라우터의 고장으로 인한 장애 및 오류가 유발되지 않기 때문에 서비스 신뢰도를 개선시킬 수 있으며, 홈 에이전트가 식별ID값은 제1 주파수대역의 사운드QR로 변환시키고, 제어데이터는 제2 주파수대역의 사운드QR로 변환시킴으로써 전자 디바이스들은 주파수대역에 따라 식별ID값 및 제어데이터를 간단하게 분류시킬 수 있어 데이터전송의 신뢰도를 높일 수 있고, 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있는 음성인식기반 홈 네트워크 시스템에 관한 것이다.

Description

홈 네트워크 시스템{home network system}
본 발명은 홈 네트워크 시스템에 관한 것으로서, 상세하게로는 음성신호 및 사운드QR을 기반으로 가정 내 디바이스들을 편리하고 정확하게 제어할 수 있는 음성인식기반 홈 네트워크 시스템에 관한 것이다.
인터넷 인프라가 확장되고, 디바이스 산업이 발달함에 따라 가정 내 다양한 정보기기들을 네트워크로 구축하여 상호 접속이 이루어지도록 하는 홈 네트워크 시스템에 대한 관심이 급증하고 있다.
이러한 홈 네트워크 시스템은 초고속 인프라를 기반으로 네트워크, 정보처리 등 다양한 IT 기술이 접목되어 서비스를 창출하기 위하여 가정 내 정보가전 기기가 네트워크로 연결되기 때문에 시간장소, 기기에 구애받지 않고 정보가전 기기들의 제어가 가능하며, 다양한 서비스를 제공할 수 있는 장점으로 인해 이에 대한 다양한 연구가 진행되고 있다.
일바적으로 홈 네트워크 시스템은 유저의 명령을 입력받기 위한 관리 단말기(또는 관리 어플리케이션이 설치되는 단말기)가 가정 내 디바이스들과 무선통신망에 접속하여 무선통신이 지원되도록 구성되고, 유저가 관리 단말기를 통해 명령을 요청하면, 관리 단말기가 통신망을 통해 해당 단말기로 제어데이터를 전송하도록 구성된다.
그러나 이러한 종래의 홈 네트워크 시스템은 유저의 명령이 전달되는 과정이 관리 단말기의 조작을 통한, 즉 물리적인 접촉을 통해야만 서비스 제공을 위한 동작 및 연산처리가 이루어지기 때문에 고령자, 시각장애인 등과 같이 전자기기에 익숙하지 않은 사람이 사용하기에 불편함이 많았을 뿐만 아니라 관리 단말기를 소지하지 않은 경우 시스템을 구동시킬 수 없는 문제점이 발생한다.
또한 종래의 홈 네트워크 시스템은 관리 단말기 및 전자 디바이스들이 근거리 무선통신망을 통해 데이터 통신이 이루어지기 때문에 해당 근거리 무선통신망을 지원하는 라우터(Router), 공유기 등에 장애가 발생하는 경우 서비스를 구동시킬 수 없는 구조적 한계를 갖는다.
이러한 문제점을 해결하기 위하여 인간 및 디바이스 사이의 물리적인 접촉 없이 연동이 가능할 수 있도록, 음성인식을 기반으로 한 홈 네트워크 시스템에 대한 연구가 다양하게 진행되고 있다.
도 1은 국내등록특허 제10-0560750호(발명의 명칭 : 홈 네트워크의 음성 인식 시스템)에 개시된 홈 네트워크 음성 인식 시스템을 나타내는 블록도이다.
도 1의 홈 네트워크 음성 인식 시스템(이하 종래기술이라고 함)(100)은 음성 인식 서버(110)와, 오디오(120), TV(130)와, 스피커들(101, 102, 103, 104), 이동형 홈 에이전트(140)로 이루어진다.
음성 인식 서버(110)는 실제 음성 인식을 수행하는 것으로 음성 인식 서버(110)는 오디오(120) 또는 TV(130)로부터 해당 기기에서 스피커들을 통해 출력되는 음향에 대한 음향 출력 정보를 유무선 네트워크를 통해 수신하고, 무선 네트워크를 통해 이동형 홈에이전트(140)로부터 다양한 소리 정보를 수신하여 그 소리 정보 중에서 그 음향 출력 정보에 상응하는 음향을 제거하고, 사람의 음성 신호만을 추출하여 음성 인식을 수행한다.
오디오(120), TV(130) 및 스피커들(101, 102, 103, 104)들은 음성 인식에서 명령자의 음성 인식 성능을 저하시킬 수 있는 잡음에 속하는 음향 정보를 출력하는 장치 중의 하나로 자신이 출력할 음향정보를 유무선 네트워크를 통하여 음성 인식 서버(110)로 전송한다.
이동형 홈에이전트(140)는 정지 또는 이동 중에 댁내에서 스피커들(101, 102, 103, 104)을 통해 출력되는 오디오(120) 또는 TV(130)의 다양한 음향과 명령자(105)로부터 발생된 사람의 음성과, 기타 패턴 잡음원(106)으로부터 발생된 잡음들을 포함한 소리 정보를 내장된 마이크를 통하여 수신하여 무선 네트워크를 통해 음성 인식 서버(110)에 전송한다. 이때 음성 인식 서버(110)와 오디오(120) 및 TV(130)를 연결하는 네트워크는 다양한 유선 네트워크 또는 무선 네트워크가 사용될 수 있다.
이와 같이 구성되는 종래기술(100)은 음성 인식 서버(110)가 멀티미디어 기기인 오디오(120), TV(130) 및 스피커들(101, 102, 103, 104)들로부터 음향 출력 정보를 수신 받고, 이동형 홈에이전트(140)로부터 음향 정보를 수신하여 음향 정보 중에서 음향 출력 정보에 상응하는 영역을 제거하여 음성 인식을 수행하고, 인고, 인식된 음성에 따라 가정 내 기기들로 제어데이터를 전송하여 명령자(105)의 요청에 따라 가정 내 기기들을 컨트롤 할 수 있는 장점을 갖는다.
그러나 종래기술(100)은 음성인식서버(110)가 이동형 홈에이전트(140)로부터 음향 정보를 입력받으면, 단순히 멀티미디어 기기(120), (130), (101, 102, 103, 104)들로부터 전송받은 음향출력정보를 차감하여 음성을 인식하도록 구성되었기 때문에 차감 시 음성정보가 함께 차감될 뿐만 아니라 이들을 제외한 다른 잡음에 대해서는 제거할 수 없어 음성 인식률이 저하되는 단점을 갖는다.
또한 종래기술(100)은 별도의 음성인식모듈을 설치한다고 가정하더라도, 공지된 음성인식기술로는 다양한 잡음이 존재하는 가정의 특성을 감안하였을 때, 음성 인식률이 낮아 오류 및 에러가 빈번하게 발생하여 신뢰도가 떨어지는 구조적 한계를 갖는다.
또한 종래기술(100)은 음성 인식 서버(110), 멀티미디어 기기들 및 가정 내 기기들이 근거리 무선통신망을 통해 데이터통신이 이루어지도록 구성되었기 때문에 해당 근거리 무선통신망을 지원하는 라우터(Router), 공유기 등에 장애가 발생하는 경우 서비스를 구동시킬 수 없는 문제점을 갖는다.
본 발명은 이러한 문제를 해결하기 위한 것으로, 본 발명의 해결과제는 인간 및 전자디바이스들이 물리적인 접촉 없이 음성을 기반으로 인터페이스 가능하도록 구성됨으로써 디지털기기의 조작에 익숙하지 않은 사람들도 쉽게 사용할 수 있으며, 음성을 이용하여 가정 내 전자 디바이스들을 용이하게 제어할 수 있는 음성인식기반 홈 네트워크 시스템을 제공하기 위한 것이다.
또한 본 발명의 다른 해결과제는 홈 에이전트가 식별ID 및 제어데이터를 별도의 통신망을 통해 전자 디바이스들로 송신하는 것이 아니라, 사운드QR을 통해 전달하도록 구성됨으로써 별도의 네트워크를 구축하지 않아도 구현이 가능하여 설치 운용이 간단하며, 네트워크를 구축하기 위한 라우터의 고장으로 인한 장애 및 오류가 유발되지 않기 때문에 서비스 신뢰도를 개선시킬 수 있는 음성인식기반 홈 네트워크 시스템을 제공하기 위한 것이다.
또한 본 발명의 다른 해결과제는 홈 에이전트가 식별ID값은 제1 주파수대역의 사운드QR로 변환시키고, 제어데이터는 제2 주파수대역의 사운드QR로 변환시킴으로써 전자 디바이스들은 주파수대역에 따라 식별ID값 및 제어데이터를 간단하게 분류시킬 수 있어 데이터전송의 신뢰도를 높일 수 있는 음성인식기반 홈 네트워크 시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 전자디바이스가 입력된 사운드QR의 식별ID 값이 자신의 식별ID값일 때 제어데이터에 따라 구동하되, 구동 이후 기 설정된 주기(T) 동안 동일한 사운드QR을 입력받는 경우 이를 무시함으로써 사용자의 동일 명령에 대하여 반복적으로 동작을 수행하는 현상을 효율적으로 방지할 수 있는 음성인식기반 홈 네트워크 시스템을 제공하기 위한 것이다.
또한 본 발명의 다른 해결과제는 음성인식부가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있는 음성인식기반 홈 네트워크 시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있는 음성인식기반 홈 네트워크 시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 제1 음성인식모듈 및 제2 음성인식모듈이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있는 홈 네트워크 시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 각 마이크로폰이 입력신호로부터 잡음회귀현상을 제거하기 위한 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거할 수 있는 홈 네트워크 시스템을 제공하기 위한 것이다.
상기 과제를 해결하기 위한 본 발명의 해결수단은 기 설정된 동작 및 연산을 수행하는 전자 디바이스들을 관리 및 제어하기 위한 홈 네트워크 시스템에 있어서: 인간은 청취할 수 없는 주파수대역의 음향신호인 사운드QR을 입력받는 마이크로폰과, 마이크로폰을 통해 입력된 사운드QR의 신호를 분석하는 신호분석부를 포함하는 상기 전자디바이스들; 상기 전자디바이스들 각각의 식별ID값이 저장되며, 사용자로부터 제어대상 및 제어데이터를 입력받으면, 입력된 제어대상에 대응되는 식별ID값 및 제어데이터를 사운드QR로 변환하여 출력하는 홈 에이전트를 포함하고, 상기 전자디바이스들은 입력된 사운드QR의 식별ID값이 자신에게 할당된 식별ID값이 아니면 별도의 동작을 수행하지 않고, 입력된 사운드QR의 식별ID값이 자신에게 할당된 식별ID값이면 입력된 사운드QR의 제어데이터에 따라 구동되고, 상기 홈 에이전트는 외면에 설치되는 제1, 2, 3 마이크로폰들; 상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 분석하여 입력된 음성단위를 검출하는 음성처리 및 관리부; 제어대상인 상기 전자디바이스들 각각을 나타내는 단어인 ‘식별ID관련 비교대상문자’들과, 제어대상의 제어값을 나타내는 단어인 ‘제어데이터관련 비교대상문자’들과, 상기 전자디바이스들 각각의 식별ID값이 매칭된 식별ID 매칭테이블이 저장되는 메모리; 상기 음성처리 및 관리부로부터 입력된 음성단어와, 상기 메모리에 저장된 ‘제어데이터관련 비교대상문자’들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 임계치가 넘어선 ‘제어데이터관련 비교대상문자’를 제어대상인 전자디바이스로 결정하고, 입력된 음성단어로부터 제어대상인 전자디바이스로 결정된 음절들을 제외한 단어인 2차단어를 상기 메모리에 저장된 ‘제어데이터관련 비교대상문자’들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 임계치가 넘어선 ‘제어데이터관련 비교대상문자’를 제어데이터로 결정하는 비교대상문자 결정부; 상기 비교대상문자 결정부에 의해 결정된 제어대상인 전자디바이스의 식별ID값과, 상기 비교대상문자 결정부에 의해 결정된 제어데이터를 사운드QR로 변환시키는 사운드QR 생성부; 상기 사운드QR 생성부에 의해 생성된 사운드QR을 스피커를 통해 출력하는 사운드QR 출력부를 더 포함하고, 상기 음성처리 및 관리부는 기 설정된 참조모델들이 저장되는 참조모델 데이터베이스부; 상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 입력받는 음향신호 입력부; 상기 음향신호 입력부에 의해 입력되는 음향신호들을 분석하여 원신호(X2)를 검출하는 음성인식부; 상기 음성인식부에 의해 검출된 원신호(X2)의 특징벡터를 추출한 후 추출된 특징벡터를 이용하여 특징파라미터를 생성하는 특징파라미터 생성부; 기 설정된 비교 알고리즘을 이용하여 상기 참조모델 데이터베이스부에 저장된 참조모델들과, 상기 특징파라미터 생성부에 의해 생성된 특징파라미터를 분석하여 특징파라미터와 가장 유사도가 높은 참조모델을 검출하는 비교 및 매칭부; 상기 비교 및 매칭부에 의해 검출된 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력하여 음성인식을 수행하는 단어결정부를 더 포함하고, 상기 음성인식부는 제1, 2 마이크로폰들의 음향신호들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 제3 마이크로폰의 음향신호로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 상기 제1 음성인식모듈에 의해 검출된 1차 원신호(X1)에 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 더 포함하고, 상기 제1 음성인식모듈과, 상기 제2 음성인식모듈은 서로 다른 방식의 제1 신호분리 알고리즘 및 제2 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리시키는 것이다.
또한 본 발명에서 상기 홈 에이전트는 식별ID값은 제1 주파수대역의 사운드QR로 변환하고, 제어데이터는 제2 주파수대역의 제어데이터로 변환하고, 상기 전자디바이스들의 상기 신호분석부는 입력된 사운드QR의 주파수대역에 따라 식별ID값 및 제어데이터를 분류하는 것이 바람직하다.
또한 본 발명에서 상기 전자디바이스들은 입력된 사운드QR의 식별ID값이 자신에게 할당된 식별ID값과 동일하여 제어데이터에 따른 동작을 수행하고 난 후 기 설정된 주기(T) 동안 동일한 사운드QR을 재입력받는 경우 별도의 동작을 수행하지 않는 것이 바람직하다.
삭제
삭제
삭제
삭제
또한 본 발명에서 상기 제1 음성인식모듈과, 상기 제2 음성인식모듈은 서로 다른 방식의 제1 신호분리 알고리즘 및 제2 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리시키는 것이 바람직하다.
또한 본 발명에서 상기 음성인식부는 최종 원신호(X2)가 검출되면, 검출된 원신호(X2)의 초성에 기 설정된 모음을 조합하되, 종성을 삭제한 음절로 변환시키고, 상기 비교 및 매칭부는 입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식하고, 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개인 경우 유사도가 가장 높은 참조모델을 입력음성을 결정하며, 특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우, 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 통해 유사도가 가장 높은 음소를 입력음성을 결정하는 것이 바람직하다.
상기 과제와 해결수단을 갖는 본 발명에 따르면 인간 및 전자디바이스들이 물리적인 접촉 없이 음성을 기반으로 인터페이스 가능하도록 구성됨으로써 디지털기기의 조작에 익숙하지 않은 사람들도 쉽게 사용할 수 있으며, 음성을 이용하여 가정 내 전자 디바이스들을 용이하게 제어할 수 있게 된다.
또한 본 발명에 의하면 홈 에이전트가 식별ID 및 제어데이터를 별도의 통신망을 통해 전자 디바이스들로 송신하는 것이 아니라, 사운드QR을 통해 전달하도록 구성됨으로써 별도의 네트워크를 구축하지 않아도 구현이 가능하여 설치 운용이 간단하며, 네트워크를 구축하기 위한 라우터의 고장으로 인한 장애 및 오류가 유발되지 않기 때문에 서비스 신뢰도를 개선시킬 수 있다.
또한 본 발명에 의하면 홈 에이전트가 식별ID값은 제1 주파수대역의 사운드QR로 변환시키고, 제어데이터는 제2 주파수대역의 사운드QR로 변환시킴으로써 전자 디바이스들은 주파수대역에 따라 식별ID값 및 제어데이터를 간단하게 분류시킬 수 있어 데이터전송의 신뢰도를 높일 수 있게 된다.
또한 본 발명에 의하면 전자디바이스가 입력된 사운드QR의 식별ID 값이 자신의 식별ID값일 때 제어데이터에 따라 구동하되, 구동 이후 기 설정된 주기(T) 동안 동일한 사운드QR을 입력받는 경우 이를 무시함으로써 사용자의 동일 명령에 대하여 반복적으로 동작을 수행하는 현상을 효율적으로 방지할 수 있게 된다.
또한 본 발명에 의하면 음성인식부가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있다.
또한 본 발명에 의하면 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있다.
또한 본 발명에 의하면 제1 음성인식모듈 및 제2 음성인식모듈이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있게 된다.
또한 본 발명에 의하면 각 마이크로폰이 입력신호로부터 잡음회귀현상을 제거하기 위한 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거할 수 있다.
도 1은 국내등록특허 제10-0560750호(발명의 명칭 : 홈 네트워크의 음성 인식 시스템)에 개시된 홈 네트워크 음성 인식 시스템을 나타내는 블록도이다.
도 2는 본 발명의 일실시예인 홈 네트워크 시스템을 나타내는 블록도이다.
도 3은 도 2의 홈 에이전트에서 출력되는 사운드QR을 데이터패킷 형태로 나타낸 예시도이다.
도 4는 본 발명의 예시도이다.
도 5는 도 2의 홈 에이전트의 동작과정을 설명하기 위한 플로차트이다.
도 6은 도 5의 식별ID값 추출단계를 설명하기 위한 예시도이다.
도 7은 도 2의 전자디바이스의 제어부의 동작과정을 설명하기 위한 플로차트이다.
도 8은 도 2의 홈 에이전트를 나타내는 블록도이다.
도 9는 도 8의 마이크로폰에 적용되는 전처리 기술을 설명하기 위한 예시도이다.
도 10은 도 8의 음성인식부를 나타내는 블록도이다.
도 11은 도 10의 제1 음성인식모듈에 적용되는 제1 신호분리 알고리즘을 설명하기 위한 예시도이다.
도 12는 도 8의 홈 에이전트가 단어를 결정하는 과정을 설명하기 위한 플로차트이다.
이하, 첨부된 도면을 참조하여 본 발명의 일실시예를 설명한다.
도 2는 본 발명의 일실시예인 홈 네트워크 시스템을 나타내는 블록도이다.
본 발명의 일실시예인 홈 네트워크 시스템(1)은 1)홈 에이전트(3)가 서로 다른 신호분리 알고리즘으로 운용되는 듀얼 음성인식모듈을 이용하여 음성인식의 정확성 및 신뢰도를 높이고, 2)홈 에이전트(3)가 음성인식 후 음성단어를 결정하면, 전자 디바이스(5)들로 식별ID 및 제어데이터를 포함하는 신호를 사운드QR로 출력함으로써 별도의 네트워크를 구축하지 않아도 운용이 가능하며, 3)홈 에이전트(3)가 사운드QR 출력 시 전자디바이스(5)에 대한 식별ID 및 제어데이터를 서로 다른 주파수 대역으로 변환하여 출력함으로써 전자디바이스(5)는 식별ID 및 제어데이터를 정확하고 간단하게 구별하여 인지하도록 함으로써 서비스의 신뢰도 및 편의성을 획기적으로 높일 수 있다.
또한 홈 네트워크 시스템(1)은 도 2에 도시된 바와 같이, 홈 에이전트(3)와, 전자디바이스(5-1), (5-2), (5-3), (5-4), (5-5), (5-6), (5-7), (5-8)들로 이루어진다.
이때 본 발명에서는 설명의 편의를 위해 전자디바이스(5)가 TV(5-1), 오디오(5-2), 에어컨(5-3), 조명등(5-4), 도어락(5-5), 블라인드(5-6), 청소기(5-7), 비디오폰(5-8)인 것으로 예를 들어 설명하였으나, 전자디바이스(5)의 종류 및 수량은 이에 한정되지 않으며, 공지된 다양한 전자디바이스들을 더 포함할 수 있다.
홈 에이전트(3)는 가정 내 구조물(천장, 벽체 등)에 설치되어 인간과 전자디바이스(5)들 사이를 중계하는 기능을 수행한다. 이때 본 발명에서는 설명의 편의를 위해 홈 에이전트(3)가 한 개인 것으로 예를 들어 설명하였으나, 홈 에이전트(3)는 복수개가 설치될 수 있으며, 예를 들어 방마다 한 개식 설치되거나 또는 거실의 경우 2개 이상씩 설치될 수 있다.
또한 홈 에이전트(3)는 외면에 서로 다른 입력각도를 갖는 마이크로폰(11-1), (11-2), (11-3)들이 설치되어 마이크로폰(11-1), (11-2), (11-3)들로부터 입력된 음향신호(H1), (H2), (H3)들을 분석하여 음성단어를 결정한다. 이때 본 발명에서는 홈 에이전트(3)가 서로 다른 알고리즘을 갖는 듀얼 음성인식모듈을 구비하여 음성인식의 정확성 및 신뢰도를 높이도록 하였으며, 이러한 음성인식모듈에 대한 설명은 후술되는 도 8 내지 12에서 상세하게 설명하기로 한다.
또한 홈 에이전트(3)는 음성단어가 결정되면, 결정된 음성단어로부터 제어대상과, 제어데이터를 추출한다. 이때 제어대상은 사용자가 제어하고자 하는 전자디바이스이고, 제어데이터는 제어대상인 전자디바이스의 동작에 대한 제어값이다.
또한 홈 에이전트(3)는 전자디바이스들 각각에 대한 식별ID값을 저장하여 제어대상이 구별되면, 구별된 제어대상에 대응되는 식별ID값을 검출한 후 검출된 식별ID값과 제어데이터를 사운드QR 신호로 변환한다. 이때 사운드QR은 인간에게는 들리지 않는 주파수대의 음향신호로 정의된다.
또한 홈 에이전트(3)는 사운드QR 변환 시 식별ID값을 기 설정된 범위의 제1 주파수대역으로 변환하며, 제어데이터를 기 설정된 범위의 제2 주파수대역으로 변환한다. 이때 제1 주파수대역 및 제2 주파수대역은 인간에는 들리지 않으면서 서로 중첩되지 않는 주파수대역들을 의미한다.
또한 홈 에이전트(3)는 스피커를 포함하여 스피커를 통해 변환된 사운드QR 신호를 출력한다. 이때 전자디바이스(5)들은 스피커를 구비함과 동시에 사운드QR의 수신 커버리지(Coverage)에 포함됨으로써 홈 에이전트(3)로부터 출력되는 사운드QR을 입력받게 된다.
전자디바이스(5)들은 가정 내 설치되어 특정 연산 및 동작을 수행하는 장치이며, 상세하게로는 TV, 오디오, 조명등기구, 세탁기, 도어락, 에어컨, 비디오폰, 청소기, 블라인드, 전자레인지, 전기밥솥 등으로 구성될 수 있다.
또한 전자디바이스(5)들은 도면에는 도시되지 않았지만, 사운드QR을 입력받는 마이크로폰(미도시)과, 마이크로폰을 통해 입력된 사운드QR의 신호를 분석하는 신호분석부(미도시)를 구비한다.
또한 전자디바이스(5)들 각각에는 제어부가 설치된다. 이때 제어부는 제품 자체의 칩에 내장되거나 또는 USB와 같은 이동식 메모리로 구성될 수 있다.
도 3은 도 2의 홈 에이전트에서 출력되는 사운드QR을 데이터패킷 형태로 나타낸 예시도이다.
전자디바이스(5)들의 제어부는 사운드QR을 입력받으면, 입력된 사운드QR의 식별ID 및 제어데이터를 판독한다. 이때 제어부는 제1 주파수대역의 신호는 식별ID값에 대한 데이터로 검출하며, 제2 주파수대역의 신호는 제어데이터로 검출한다.
이때 사운드QR은 도 3에 도시된 바와 같이, 식별ID값은 제1 주파수대역(F1)으로 변환되고, 제어데이터는 제2 주파수대역(F2)으로 변환되어 출력되기 때문에 전자디바이스(5)는 주파수대역에 따라 간단하게 식별ID값에 대한 신호(S1)와, 제어데이터에 대한 신호(S2)를 분류할 수 있으며, 이들의 혼선으로 인한 데이터손실 및 누락을 방지할 수 있게 된다.
또한 전자디바이스(5)들은 만약 검출된 식별ID가 자신에게 해당하지 않는 경우 해당 신호를 무시하며, 만약 검출된 식별ID가 자신에게 해당되는 경우 검출된 제어데이터를 해당 전자디바이스의 CPU로 입력하여 제어데이터에 따라 해당 전자디바이스가 동작하게 된다.
또한 전자디바이스(5)들은 기 설정된 주기(T) 동안 동일한 사운드QR을 입력받는 경우 이를 무시한다. 그 이유는 사용자의 음성이 2개 이상의 홈 에이전트에서 입력되는 경우 2개 이상의 음성인장치에서 동일한 사운드QR을 출력하게 되고, 이에 따라 전자디바이스(5)들은 동일한 데이터인 사운드QR을 입력받아 동일한 동작을 반복하여 수행하게 되기 때문에 본 발명에서는 전자디바이스(5-1), (5-2), (5-3), (5-4)들이 기 설정된 주기(T) 동안 동일한 사운드QR을 입력받는 경우 해당 신호를 무시함으로써 반복 동작을 방지할 수 있게 된다.
도 4는 본 발명의 예시도이다.
도 4에 도시된 바와 같이, 홈 에이전트(3)는 사용자로부터 ‘TV 꺼‘라는 음성신호를 입력받는다. 이때 홈 에이전트(3)로 입력되는 신호는 음성신호뿐만 아니라 잡음신호까지 포함된다.
또한 홈 에이전트(3)는 음향신호가 입력되면, 입력된 음향신호로부터 잡음을 제거한 후 음성신호를 검출하며, 검출된 음성신호에 대한 음성단어를 결정하며, 결정된 음성단어로부터 제어대상인 ‘TV’와 제어데이터인 ‘꺼’를 분리한다.
또한 홈 에이전트(3)는 저장된 전자디바이스별 식별ID값을 탐색하여 검출된 제어대상인 ‘TV’에 대응되는 식별ID값을 추출한 후 추출된 식별ID값을 제1 주파수대역의 사운드QR로, 제어데이터를 제2 주파수대역의 사운드QR로 변환하여 출력하고, 전자디바이스(5)들은 사운드QR을 분석하여 자신의 식별ID값에 해당하는 경우 제어데이터에 따른 동작을 실시함으로써 제어대상인 TV(5-1)만 제어데이터에 따라 전원을 ‘OFF’시키게 된다.
도 5는 도 2의 홈 에이전트의 동작과정을 설명하기 위한 플로차트이다.
본 발명의 홈 에이전트의 동작과정(S10)은 도 5에 도시된 바와 같이, 음향신호 입력단계(S110)와, 음성단어 결정단계(S120), 식별ID값 추출단계(S130), 제어데이터 확정단계(S140), 사운드QR 변환단계(S150), 사운드QR 출력단계(S160)로 이루어진다.
음향신호 입력단계(S110)는 제1, 2, 3 마이크로폰(11-1), (11-2), (11-3)들로부터 음향신호(H1), (H2), (H3)들을 입력받는 단계이다.
음성단어 결정단계(S120)는 음향신호 입력단계(S110)에 의해 입력된 음향신호(H1), (H2), (H3)들을 분석하여 음성단어를 결정하는 단계이다. 이때 음성단어 결정단계(S120)는 후술되는 도 12에서 상세하게 설명하기로 한다.
식별ID값 추출단계(S130)는 후술되는 도 8의 메모리(38)에 기 저장된 ‘식별ID관련 비교대상문자’들 각각과, 음성단어 결정단계(S120)에 의해 결정된 음성단어들을 식별ID관련 비교대상문자의 음절의 수량과 동일한 수량의 음절단위로 연관관계를 검출한 후 연관관계가 임계치 이상인 경우 해당 음성단어들을 제어대상으로 판단한다.
도 6은 도 5의 식별ID값 추출단계를 설명하기 위한 예시도이다.
예를 들어 ‘식별ID관련 비교대상문자’가 ‘에어컨’이고, 결정된 음성단어들이 ‘에어컨 높여’인 경우 식별ID값 추출단계(S130)는 도 6에 도시된 바와 같이, ‘에어컨’이 3음절이기 때문에 음성단어들을 3음절 단위로 나누어 ‘에어컨’, ‘어컨높’, ‘컨높여’을 ‘식별ID관련 비교대상문자’인 ‘에어컨’과 비교하게 되고, 따라서 ‘에어컨’, ‘어컨높’, ‘컨높여’ 중 연관관계가 임계치 이상인 ‘에어컨’을 제어대상으로 결정하게 된다.
이때 ‘식별ID관련 비교대상문자’는 제어대상을 나타내는 단어이다.
또한 식별ID값 추출단계(S130)는 메모리(38)에 기 저장된 식별ID 매칭테이블을 탐색하여 제어대상으로 판단된 음성단어들에 대응되는 식별ID값을 검출한다. 이때 식별ID 매칭테이블은 제어대상별로 식별ID값이 매칭된 데이터들로 정의된다.
제어데이터 확정단계(S140)는 음성단어 결정단계(S120)에 의해 결정된 음성단어들로부터, 식별ID값 추출단계(S130)에 의해 제어대상으로 결정된 음성단어들을 제거하며, 메모리(38)에 기 저장된 ‘제어데이터관련 비교대상문자’들 각각과 제어대상의 음성단어가 제거된 음성단어의 연관관계를 검출한 후 검출된 연관관계가 임계치 이상인 경우 해당 음성단어를 ‘제어데이터관련 비교대상문자’로 결정한다.
예를 들어 도 6의 경우와 같이, 제어데이터 확정단계(S140)는 음성단어 결정단계(120)에 의해 결정된 음성단어가 ‘에어컨 높여’에서, 식별ID값 추출단계(S130)에 의해 제어대상으로 결정된 음성단어인 ‘에어컨’을 제거한 음성단위인 ‘높여’를 ‘제어데이터관련 비교대상문자’들 중 하나인 ‘높여’와 비교함으로써 ‘높여’를 제어데이터로 결정한다.
이때 ‘제어데이터관련 비교대상문자’는 제어데이터를 나타내는 단어이며, 상세하게로는 ‘켜’, ‘꺼’, ‘높여’, ‘낮춰’, ‘열어’, ‘정지’ 등으로 구성될 수 있다.
사운드QR 변환단계(S150)는 식별ID값 추출단계(S130)에 의해 검출된 식별ID값을 제1 주파수대역의 사운드QR로 변환하고, 제어데이터 확정단계(S140)에 의해 결정된 제어데이터를 제2 주파수대역의 사운드QR로 변환하는 단계이다.
사운드QR 출력단계(S160)는 스피커를 통해 사운드QR 변환단계(S150)에 의해 변환된 사운드QR을 출력하는 단계이다.
도 7은 도 2의 전자디바이스의 제어부의 동작과정을 설명하기 위한 플로차트이다.
전자디바이스(5)의 제어부의 동작과정(S200)은 도 7에 도시된 바와 같이, 사운드QR 입력단계(S210)와, 분류단계(S220), 판독단계(S230), 비교 및 판단단계(S240), 구동단계(S250)로 이루어진다.
사운드QR 입력단계(S210)는 마이크로폰을 통해 홈 에이전트로부터 송출되는 사운드QR을 입력받는 단계이다.
분류단계(S220)는 사운드QR 입력단계(S210)에 의해 입력된 사운드QR을 제1 주파수대역 및 제2 주파수대역으로 분류하는 단계이다.
이때 분류단계(S220)는 도면에는 도시되지 않았지만, 현재 시점으로부터 기 설정된 주기(T) 이전 사이에 동일한 사운드QR이 입력되었는지를 비교하며, 만약 동일한 사운드QR이 입력되었으면 입력된 사운드QR을 무시하고, 만약 동일한 사운드QR이 입력되지 않았으면 다음 단계(S230)를 진행한다.
판독단계(S230)는 기 설정된 신호분석 알고리즘을 이용하여 분류단계(S220)에 의해 분류된 제1 주파수대역의 신호 및 제2 주파수대역의 신호를 판독 및 분석함으로써 식별ID값 및 제어데이터를 검출하는 단계이다.
비교 및 판단단계(S240)는 판독단계(S230)에 의해 판독된 식별ID값과 자신에게 설정된 식별ID값을 비교하여 두 신호가 동일한지를 비교하는 단계이다.
또한 비교 및 판단단계(S240)는 만약 판독된 식별ID값이 자신의 식별ID값이 아니면 별도의 동작을 수행하지 않고 종료하며, 만약 판독된 식별ID값이 자신의 식별ID값이면 다음 단계(S250)를 진행한다.
구동단계(S250)는 비교 및 판단단계(S240)에 의해 판독된 식별ID값이 자신의 식별ID값인 경우 진행되며, 판독단계(S230)에 의해 검출된 제어데이터를 전자디바이스 자체의 CPU로 입력하여 제어데이터에 따라 전자디바이스가 구동되도록 하는 단계이다.
도 8은 도 2의 홈 에이전트를 나타내는 블록도이다.
홈 에이전트(3)는 도 8에 도시된 바와 같이, 음향신호 입력부(31), 음성인식부(32), 특징파라미터 검출부(33), 비교 및 매칭부(34), 참조모델 데이터베이스부(35), 단어결정부(36), 비교대상문자 결정부(37), 메모리(38), 사운드QR 생성부(39), 사운드QR 출력부(40)로 이루어진다. 이때 도면에는 도시되지 않았지만 음향신호 입력부(31), 음성인식부(32), 특징파라미터 검출부(33), 비교 및 매칭부(34), 참조모델 데이터베이스부(35), 단어결정부(36)를 음성처리 및 관리부라고 하기로 한다.
이때 홈 에이전트(3)는 복수개의 마이크로폰(11-1), (11-2), (11-3)들로부터 음향신호를 입력받으면, 후술되는 도 10의 제1 음성인식모듈(321)이 제1, 2 마이크로폰(11-1), (11-2)들의 입력신호(H1), (H2)들에 대하여 제1 신호분리 알고리즘을 이용하여 각 입력신호(H1), (H2)들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)들을 합산하여 1차 원신호(X1=S1+S2)를 검출한다.
또한 후술되는 도 10의 제2 음성인식모듈(322)은 제2 신호분리 알고리즘을 이용하여 제3 마이크로폰(11-3)의 입력신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 검출하면, 검출된 원신호(S3)를 제1 음성인식모듈(321)로부터 입력된 1차 원신호(X1)와 합산하여 최종 원신호(X2=S3+X1)를 검출한다.
즉 본 발명의 홈 에이전트(3)는 동일 음향신호에 대한 마이크로폰들로 입력되는 입력신호들은 음향발생위치와의 방향 및 거리에 따라 원신호 및 잡음의 주파수크기가 각기 다르게 형성되기 때문에 본 발명에서는 서로 다른 신호분리 알고리즘이 적용되는 두 개의 음성인식모듈들을 통해 각 입력신호에 대한 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시킴과 동시에 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.
이때 제1 음성인식모듈(321) 및 제2 음성인식모듈(322)은 동일한 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하는 것으로 구성되어도 무방하나, 서로 다른 신호분리 알고리즘이 적용되는 경우 각 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있기 때문에 음성인식에 있어서 더 효과적이다.
이때 본 발명에서는 설명의 편의를 위해 홈 에이전트(3)에 설치되는 마이크로폰들이 3개이고, 음성인식모듈이 2개인 것으로 예를 들어 설명하였으나, 마이크로폰들의 수량은 4개 이상이고, 음성인식부의 수량은 3개 이상인 것으로 구성될 수 있음은 당연하다.
음향신호 입력부(31)는 3개의 마이크로폰(11-1), (11-2), (11-3)들로부터 입력되는 음향신호들을 입력받으며, 입력된 음향신호(H1), (H2), (H3)들을 음성인식부(22)로 입력한다. 이때 마이크로폰(11-1), (11-2), (11-3)들은 서로 다른 음향입력각도들을 갖도록 이격되게 설치되어 음향신호들을 각각 입력받고, 음향신호에는 원신호 및 잡음신호(노이즈)가 포함된다.
이때 마이크로폰(11-1), (11-2), (11-3)들은 어레이 형태로 설치되며, 음향신호를 입력받아 전기 신호로 변환한다.
또한 마이크로폰(11-1), (11-2), (11-3)들은 빔-포밍(Beam forming) 기법이 적용되어 서로 다른 방향의 빔을 갖는다.
이때 빔-포밍 기법은 송신 기기나 수신 기기의 배열을 이용하여 방사 패턴의 방향이나 민감도를 조절하기 위한 목적을 위해 주로 사용되는 신호 처리 기법으로서, 신호를 전송하는 경우, 전송하고자 하는 방향의 신호 강도를 키우고, 이외의 방향으로 전송되는 신호의 강도는 줄일 수 있게 된다.
도 9는 도 8의 마이크로폰에 적용되는 전처리 기술을 설명하기 위한 예시도이다.
본 발명의 마이크로폰(11)은 도 9에 도시된 바와 같이, 마이크로폰(11)으로부터 입력되는 입력신호로부터 잡음회귀현상을 제거할 수 있는 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거함으로써 마이크로폰(11)으로부터 입력되는 입력신호만을 추출하도록 하였다.
또한 음향반향삭제(AEC) 기술은 NLMS(Normalized Least Mean Square)기반의 가변 학습율 잡음제거 알고리즘이 적용되어 스피커 등과 같은 동적 잡음원을 제거함과 동시에 마이크로폰(11)으로부터 입력되는 입력신호는 자연스러운 상태로 유지시킴으로써 입력신호에 대한 전처리 기능을 수행할 수 있게 된다.
즉 본 발명의 음향신호 입력부(31)는 마이크로폰(11-1), (11-2), (11-3)들로부터 음향신호를 입력받되, 마이크로폰(11-1), (11-2), (11-3)들 각각에 음향반향삭제(AEC) 기술이 적용됨으로써 전처리된 음향신호들을 입력받을 수 있고, 이에 따라 음성인식의 정확성을 높일 수 있게 된다.
도 10은 도 8의 음성인식부를 나타내는 블록도이고, 도 11은 도 10의 제1 음성인식모듈에 적용되는 제1 신호분리 알고리즘을 설명하기 위한 예시도이다.
음성인식부(32)는 도 10에 도시된 바와 같이, 기 설정된 제1 신호분석 알고리즘을 이용하여 음향신호 입력부(31)을 통해 입력된 제1, 2 마이크로폰(11-1), (11-2)들의 입력신호(H1), (H2)들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)들을 합산하여 제1 원신호(X1)를 검출하는 제1 음성인식모듈(321)과, 기 설정된 제2 신호분석 알고리즘을 이용하여 음향신호 입력부(31)을 통해 입력된 제3 마이크로폰(11-3)의 입력신호를 분석하여 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈(321)로부터 입력된 제1 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈(322)로 이루어진다.
이때 제1 음성인식모듈(321) 및 제2 음성인식모듈(322)은 동일한 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하는 것으로 구성되어도 무방하나, 서로 다른 신호분리 알고리즘이 적용되는 경우 각 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있기 때문에 음성인식에 있어서 더 효과적이다.
제1 음성인식모듈(321)은 음향신호 입력부(31)로부터 제1, 2 마이크로폰(11-1), (11-2)들의 음향신호(H1), (H2)들을 입력받는다.
또한 제1 음성인식모듈(321)은 기 설정된 제1 신호분리 알고리즘을 이용하여 입력된 음향신호(H1)를 원신호(S1) 및 잡음신호(N1)로 분리하며, 입력된 음향신호(H2)를 원신호(S2) 및 잡음신호(N2)로 분리한다.
또한 제1 음성인식모듈(321)은 음향신호로부터 신호들이 분리되면, 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출한다.
제2 음성인식모듈(322)은 기 설정된 제2 신호분리 알고리즘을 이용하여 음향신호 입력부(31)를 통해 입력된 제3 마이크로폰(11-3)으로부터 원신호(S3) 및 잡음신호(N3)를 분리한다.
또한 제2 음성인식모듈(322)은 분리된 원신호(S3)와, 제1 음성인식모듈(321)로부터 입력된 1차 원신호(X1)를 합산하여 최종 원신호(X2)를 검출한다.
다시 말하면, 본원 발명은 제1 음성인식모듈(321) 및 제2 음성인식모듈(322)이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨과 동시에 제1 음성인식모듈(321)은 제1, 2 마이크로폰(11-1), (11-2)들에 대한 원신호들을 합산하여 1차 원신호(X1)를 검출하되, 제2 음성인식모듈(322)은 분리한 원신호(S3)를 제1 음성인식모듈(321)에 의해 검출된 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하도록 구성됨으로써 서로 다른 신호분리 알고리즘이 적용되는 두 개의 음성인식모듈(321), (322)들을 통해 각 입력신호에 대한 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시킬 수 있을 뿐만 아니라 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 음성인식모듈에 적용되는 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.
이때 제1 음성인식모듈(321)에 적용되는 제1 신호분리 알고리즘 및 제2 음성인식모듈(322)에 적용되는 제2 신호분리 알고리즘은 서로 다른 방식의 연산처리를 갖도록 구성된다.
예를 들어, 제1 음성인식모듈(321)에 적용되는 제1 신호분리 알고리즘은 도 11에 도시된 바와 같이, 제1, 2 마이크로폰(11-1), (11-2)들로부터 입력된 음향신호(H1), (H2)들을 주파수영역으로 변환(STFT, short-time Fourier transform)한 후 소프트 마스크(IE soft-mask) 알고리즘 및 IVA 알고리즘이 적용되는 다중채널 음원분리(BSS, Blind Source Separation)가 적용될 수 있다.
또한 제2 음성인식모듈(322)에 적용되는 제2 신호분리 알고리즘은 단일채널 음원분리 방식이 적용될 수 있다.
예를 들어, 제2 신호분리 알고리즘은 우선 제3 마이크로폰(11-3)으로부터 입력된 음향신호(H3)를 주파수영역으로 변환(STFT) 한 후 ICA(Independent Component Analysis)를 통해 신호들을 분리시킨다.
이때 제2 신호분리 알고리즘으로 ICA가 적용되는 경우, 우선 음향신호(H1)의 차원을 음원의 차원으로 줄이기 위한 목적으로 Linear transformation을 수행한 후, Linear transformation 처리된 신호에 단일 행렬(unitary matrix)(B)을 곱해줌으로써 분리된 신호의 주파수 영역의 값을 구하고, 앞서 검출된 분리 행렬(separation matrix)(V*B)을 통해 분리된 신호를 검출한다.
즉 제1 신호분리 알고리즘으로 소프트 마스크(IE soft-mask)및 IVA를 포함하는다중채널 음원분리(BSS, Blind Source Separation)가 적용된다고 가정할 때, 제1 신호분리 알고리즘은 잔향 시간(reverberation time)이 큰 경우 각 채널에 잔여교차성분(residual cross-talk component)이 분리 후에도 존재하여 분리 성능이 저하되는 단점을 갖고, 제2 신호분리 알고리즘으로 ICA가 적용된다고 가정할 때, 제2 신호분리 알고리즘은 주파수 bin 사이가 독립적이지 않아 정적잡음에 취약한 단점을 갖는다.
그러나 본 발명에서는 1)제1 음성인식모듈(321)이 제1 신호분리 알고리즘을 이용하여 원신호(S1), (S2)들을 분리시키고, 2)제2 음성인식모듈(322)이 제2 신호분리 알고리즘을 이용하여 원신호(S3)를 분리시키고, 3)최종 원신호(X2)가 제1 음성인식모듈(321)에 의한 1차 원신호(X1)와 제2 음성인식모듈(322)에 의한 원신호(S3)를 합산하여 검출되도록 구성됨으로써 제1 신호분리 알고리즘의 단점과 제2 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있으며, 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 음성인식모듈에 적용되는 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.
또한 음성인식부(32)는 제2 음성인식모듈(322)에 의해 최종 원신호(X2)가 검출되면, 검출된 원신호의 초성에 기 설정된 모음을 조합하되, 종성이 삭제된 음절로 변환시킨다.
예를 들어 음성인식부(32)는 제2 음성인식모듈(322)에 의해 ‘홍길동’이 검색되면, 검출된 음성을 ‘하가다’와 같은 음절로 변환시킨다.
이때 본 발명에서는 설명의 편의를 위해 마이크로폰이 3개이고, 음성인식모듈이 2개인 것으로 예를 들어 설명하였으나, 마이크로폰이 4개 이상이고, 음성인식모듈이 3개 이상인 경우, 제1 음성인식모듈은 도 10과 동일한 방식으로 1차 원신호를 검출하되, 제n 음성인식모듈은 (n-1) 마이크로폰으로부터 입력되는 음향신호와 제n-1 음성인식모듈로부터 입력되는 원신호를 이용하여 원신호를 검출하게 된다.
특징파라미터 검출부(33)는 음성인식부(32)에 의해 검출된 원신호를 분석하여 인식에 필요한 특징벡터를 추출한다.
이때 특징파라미터 검출부(33)는 선형 예측 부호화(LPC, Linear Predictive Coding)를 통해 입력된 음성신호로부터 특징벡터를 추출한다.
또한 특징파라미터 검출부(33)는 추출된 특징벡터를 이용하여 입력된 음성신호에 대한 특징파라미터를 생성한다. 이때 특징파라미터는 음성신호를, 참조모델과의 비교 알고리즘 수행이 가능하도록 처리한 데이터이다.
또한 특징파라미터 검출부(33)에 의해 검출되는 특징 파라미터는 비교 및 매칭부(34)로 입력된다.
비교 및 매칭부(34)는 기 설정된 비교 알고리즘을 이용하여 참조모델 데이터베이스부(35)에 저장되는 기 설정된 참조모델과, 입력된 특징 파라미터를 분석하여 특징 파라미터와 가장 유사도가 높은 참조모델에 대한 정보를 음성인식 결과로 출력한다.
다시 말하면, 비교 및 매칭부(34)는 특징파라미터 검출부(33)로부터 입력된 특징파라미터와 기 설정된 참조모델을 음절단위로 생성하여 비교 및 분석한다.
이때 참조모델 데이터베이스부(35)에는 기 설정된 참조모델 정보들이 저장된다.
또한 비교 및 매칭부(34)는 입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식한다.
이때 특정한 입력음성(특징파라미터)에 대하여, 참조모델에는 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개이거나 또는 2개 이상일 수 있다. 예를 들어 가'와 '카', '다'와 '타' 등은 발음의 유사성으로 인해 신호 패턴도 어느 정도 유사하기 때문에 입력음성 ‘가’에 대한 유사도가 기 설정된 임계치 이내인 참조모델은 ‘가’, ‘카’와 같이 2개로 검출될 수 있다.
이에 따라 비교 및 매칭부(34)는 만약 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 1개인 경우 유사도가 높은 참조모델을 입력음성으로 결정한다.
또한 비교 및 매칭부(34)는 만약 특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우 동적 시간 워핑 방식 보다 인식률이 우수한 분석을 다시 수행, 상세하게로는 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 수행한다. 이때 은닉 마르코프 모델은, 모델링하는 시스템이 미지의 파라미터를 가진 Markov process일 것이라고 가정하여, 그 가정에 기초해서 관측된 파라미터로부터 숨겨진 파라미터를 결정하는 하나의 통계모델이며, 음성인식분야에서 널리 사용되는 방식 중 하나이기 때문에 상세한 설명은 생략하기로 한다.
또한 비교 및 매칭부(34)는 검출된 참조모델에 대한 음성을 단어결정부(36)로 입력한다.
단어결정부(36)는 비교 및 매칭부(34)로부터 입력된 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력함으로써 음성인식을 수행하게 된다.
즉 본 발명의 홈 에이전트(3)는 참조모델 데이터베이스부(35)에 저장되어 특징 파라미터와 비교되는 참조모델의 수가 많을수록 정확한 음성인식이 가능하나, 이 경우 참조모델 데이터베이스부(35)의 용량이 방대해야할 뿐만 아니라 특징 파라미터와 참조모델의 비교 알고리즘 수행 시 연산량이 과도하게 증가하게 되고, 이러한 연산량 증가는 임베디드 시스템에 적용될 경우 시스템 자원이 제한되기 때문에 최소한의 자원으로 정확한 음성인식 결과를 도출하기 위하여 본 발명에서는 초성 기반의 음성인식을 적용하였다.
특히 초성 'ㄱ', 'ㄴ', 'ㄷ' 등을 음성으로 입력함에 있어서, '기역', '니은', '디귿'과 같이 초성의 명칭을 사용하지 않고, '가', '나', '다' 같이 초성에 하나의 통일된 모음을 조합하여 발음하여 입력하도록 하고, 특징파라미터 또한 초성과 통일된 하나의 모음이 조합된 형태의 음성신호에 대응되도록 한다.
도 12는 도 8의 홈 에이전트가 단어를 결정하는 과정을 설명하기 위한 플로차트이다.
본 발명의 홈 에이전트(3)의 단어결정방법(S1)은 도 12에 도시된 바와 같이, 음향신호 입력단계(S10)와, 음성인식단계(S20), 특징파라미터 생성단계(S30), 분석단계(S40), 판단단계(S50), 음소단위 패턴분석 수행단계(S60), 음소결정단계(S70), 단어결정단계(S80)로 이루어진다.
음향신호 입력단계(S10)는 마이크로폰(11-1), (11-2), (11-3)들로부터 음향신호를 입력받는 단계이다.
음성인식단계(S20)는 음향신호 입력단계(S10)를 통해 입력된 음향신호들을 도 4에서 전술하였던 바와 같이, 2개의 음성인식모듈을 이용하여 음성을 인식하는 단계이다.
또한 음성인식단계(S20)는 초성에 공통된 하나의 모음을 조합한 발음을 기초로 생성된 참조모델을 이용하여 음성인식이 수행되므로 '가', '나', '다' 와 같이 공통된 모음을 갖고, 종성을 포함하지 않는 음절들의 조합으로 변환시킨다.
예를 들어, 음성인식단계(S20)는 음성인식모듈들에 의해 '홍길동'이 검출되는 경우, 검출된 음성을 '하가다'와 같은 음성으로 변환시킨다.
또한 음성인식단계(S20)는 변환된 음성신호를 특징파라미터 생성단계(S30)로 입력시킨다.
특징파라미터 생성단계(S30)는 선형 예측 부호화(LPC, Linear Predictive Coding)를 통해 입력된 음성신호로부터 특징벡터를 추출한다.
또한 특징파라미터 검출단계(S30)는 추출된 특징 벡터를 이용하여 입력된 음성신호에 대한 특징파라미터를 생성한다. 이때 특징파라미터는 음성신호를 참조모델과의 비교 알고리즘 수행이 가능하도록 처리한 데이터이다.
또한 특징파라미터 생성단계(S30)에 의해 생성된 특징파라미터는 분석단계(S40)로 입력된다.
분석단계(S40)는 특징파라미터 생성단계(S30)로부터 입력된 특징파라미터와 기 설정된 참조모델을 음절단위로 생성하여 비교 및 분석한다.
또한 분석단계(S40)는 입력된 음성과 참조 음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 패턴과 참조 패턴을 비선형적으로 정합하여 가장 유사도가 높은 참조 패턴의 음성으로 입력된 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식한다.
판단단계(S50)는 분석단계(S40)에 의해 특징파라미터와의 유사도가 기 설정된 범위 내인 참조모델이 2개 이상인지를 판단하는 단계이다.
다시 말하면, 판단단계(S50)는 분석단계(S40)에서 특징파라미터와 참조모델들 각각의 유클리드 제곱입력 패턴과 각각의 참조 패턴 사이의 유클리드 제곱 거리를 산출한 결과, 기 설정된 임계값보다 작은 유클리드 제곱 거리를 갖는 참조모델이 2개 이상인지의 여부를 판단한다.
즉 현재 입력된 음성이 2개 이상의 유사한 음성으로 인식될 가능성이 있는 경우에 해당하기 때문에 보다 정확한 패턴 분석이 요구된다.
예를 들어 '가'와 '카', '다'와 '타' 등은 발음의 유사성으로 인해 신호 패턴도 어느 정도 유사하므로 이를 동적 시간 워핑 방식만으로 비교하는 경우, 사용자가 의도한 바와 다르게 인식될 가능성이 있다.
따라서 본 발명에서는 판단단계(S50)에서 분석단계(S40) 시 유사한 참조모델이 2개 이상이 이상인지 여부를 판별하여, 2개 이상인 경우 동적 시간 워핑 방식 보다 인식률이 우수한 패턴 분석을 다시 수행하도록 한다.
즉 판단단계(S50)는 만약 유사한 참조모델이 2개 이상인 경우 음소단위 패턴분석 수행단계(S60)를 진행하고, 만약 유사한 참조모델이 1개인 경우 음소결정단계(S70)를 진행한다.
음소단위 패턴분석 수행단계(S60)는 음성신호를 음소단위로 분리한 후 은닉 마르코프 모델(Hidden Markov model)과 같은 방식에 의하여 음소단위의 패턴 비교 알고리즘을 수행한다.
이때 은닉 마르코프 모델은, 모델링하는 시스템이 미지의 파라미터를 가진 Markov process일 것이라고 가정하여, 그 가정에 기초해서 관측된 파라미터로부터 숨겨진 파라미터를 결정하는 하나의 통계모델이며, 음성인식분야에서 널리 사용되는 방식 중 하나이기 때문에 상세한 설명은 생략하기로 한다.
음소결정단계(S70)는 분석단계(S40) 또는 음소단위 패턴분석 수행단계(S60)에서 수행된 패턴 분석 결과에 따라 음소를 결정한다.
즉 음소결정단계(S70)는 판단단계(S50)에서 유사한 참조모델이 하나인 경우 분석단계(S40)에 의해 해당 참조모델에 해당하는 음성에 대응되는 음소를 입력된 음소로 결정하며, 판단단계(S50)에서 유사한 참조모델이 2개인 경우 음소단위 패턴분석 수행단계(S60)에 의해 가장 유사도가 높은 음소를 입력된 음소로 결정한다.
예를 들어 사용자가 음성 '가'를 입력하여 분석단계(S40)에서 각각 '가'와 '카'에 해당하는 참조모델이 유사하다고 판단한 경우에는 음소단위 패턴분석 수행단계(S60)를 통해 다시 저장된 음성 신호의 음소 부분만을 따로 처리하여 은닉 마르코프 모델을 수행함으로써 사용자가 실질적으로 입력하고자 하였던 초성 'ㄱ'을 인식된 음소로 결정하게 되고, 다른 예를 들자면 사용자가 음성 '나'를 입력하여 분석단계(S40)에서 유사한 참조모델이 '나'로 인식되었다면 음소단위 패턴분석 수행단계(S60)를 거치지 않고 바로 'ㄴ'이 입력된 것으로 결정한다.
단어결정단계(S80)는 음소결정단계(S70)에 의해 검출된 음소들을 이용하여 단어를 검색하며, 검색된 단어 중 최종 결과를 선택하는 단계이다.
이와 같이 본 발명의 홈 에이전트(3)는 우선 초성 기반의 음성인식을 통해 비교되는 참조패턴의 개수를 절감시킴으로써 메모리를 절약함과 동시에 연산 처리량을 감소시킬 수 있으며, 비교적 계산량이 많지 않은 음절 단위 패턴에 대한 동적 시간 워핑을 기본적으로 사용하되, 정확성이 요구되는 경우에만 음소 단위 패턴에 대한 은닉 마르코프 모델방식을 보조적으로 사용함으로써 시스템에 과도한 부하를 주지 않으면서 음성인식의 정확성 및 신뢰도를 높일 수 있게 된다.
다시 도 8로 돌아가 메모리(38)를 살펴보면, 메모리(38)에는 전자디바이스들 각각을 나타내는 단어인 ‘식별ID관련 비교대상문자’들과, 제어대상의 제어값을 나타내는 단어인 ‘제어데이터관련 비교대상문자’들이 저장된다. 이때 ‘식별ID관련 비교대상문자’들로는 ‘에어컨’, ‘TV’, ‘조명등’, ‘청소기’ 등으로 이루어질 수 있고, ‘제어데이터관련 비교대상문자’들로는 ‘꺼’, ‘켜’, ‘올려’, ‘높여’, ‘낮춰’, ‘줄여’, ‘열어’ 등으로 이루어질 수 있다.
또한 메모리(38)에는 제어대상별로 식별ID값이 매칭된 식별ID 매칭테이블이 저장된다. 예를 들어 제어대상인 ‘에어컨’은 식별ID값이 135로 설정될 수 있으며, 제어대상인 ‘TV’는 식별ID값이 137로 설정될 수 있다.
비교대상문자 결정부(37)는 단어결정부(36)에 의해 음성단어가 결정되면, 결정된 음성단어와, 메모리(38)에 저장된 ‘식별ID관련 비교대상문자’들 각각의 연관관계를 검출하되, 비교대상인 ‘식별ID관련 비교대상문자’의 음절의 수량과 동일한 수량의 음절단위로 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 입력된 음성단어를 ‘식별ID관련 비교대상문자’로 결정한다.
다시 말하면, 비교대상문자 결정부(37)는 입력된 음성단어와, 메모리(38)에 저장된 ‘제어데이터관련 비교대상문자’들 각각의 연관관계를 검출할 때, 비교대상인 ‘제어데이터관련 비교대상문자’의 음절수량(N) 단위로 입력된 음성단어를 분할한 후 분할된 음절의 단어들 각각과 해당 ‘제어데이터관련 비교대상문자’의 연관관계를 검출한다.
예를 들어 식별ID관련 비교대상문자’가 ‘에어컨’이고, 결정된 음성단어들이 ‘에어컨 높여’인 경우 비교대상문자 결정부(37)는 ‘에어컨’이 3음절이기 때문에 음성단어들을 3음절 단위로 나누어 ‘에어컨’, ‘어컨높’, ‘컨높여’을 ‘식별ID관련 비교대상문자’인 ‘에어컨’과 비교하게 되고, 따라서 ‘에어컨’, ‘어컨높’, ‘컨높여’ 중 연관관계가 임계치 이상인 ‘에어컨’을 제어대상으로 결정하게 된다.
또한 비교대상문자 결정부(37)는 제어대상인 비교대상문자가 결정되면, 메모리(38)에 저장된 식별ID 매칭테이블을 탐색하여 결정된 비교대상문자에 대응되는 식별ID값을 검출한다.
또한 비교대상문자 결정부(37)는 입력된 음성단어의 음절들 중 ‘식별ID관련 비교대상문자’로 결정된 단어의 음절들을 제거한 단어(이하 2차 단어라고 함)를 메모리(38)에 저장된 ‘제어데이터관련 비교대상문자’들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치 이상인 경우 해당 2차단어를 ‘제어데이터관련 비교대상문자’라고 결정한다.
예를 들어 비교대상문자 결정부(37)는 입력된 음성단어가 ‘에어컨 높여’일 때, 입력된 단어인 ‘에어컨 높여’로부터 ‘식별ID관련 비교대상문자’로 결정된 ‘에어컨’을 제거한 ‘높여’(2차 단어)를 ‘제어데이터관련 비교대상문자’들과의 연관관계를 검출하게 된다.
사운드QR 생성부(39)는 비교대상문자 결정부(37)에 의해 결정된 ‘식별ID관련 비교대상문자’를 제1 주파수대역의 사운드QR로 변환하며, 비교대상문자 결정부(37)에 의해 결정된 ‘제어데이터관련 비교대상문자’를 제2 주파수대역의 사운드QR로 변환한다.
사운드QR 출력부(40)는 사운드QR 생성부(39)에 의해 생성된 사운드QR을 스피커를 통해 출력한다.
이와 같이 본 발명의 일실시예인 홈 네트워크 시스템(1)은 인간 및 전자디바이스(5)들이 물리적인 접촉 없이 음성을 기반으로 인터페이스 가능하도록 구성됨으로써 디지털기기의 조작에 익숙하지 않은 사람들도 쉽게 사용할 수 있으며, 음성을 이용하여 가정 내 전자 디바이스들을 용이하게 제어할 수 있게 된다.
또한 본 발명의 홈 네트워크 시스템(1)은 홈 에이전트(는 식별ID 및 제어데이터를 별도의 통신망을 통해 전자 디바이스들로 송신하는 것이 아니라, 사운드QR을 통해 전달하도록 구성됨으로써 별도의 네트워크를 구축하지 않아도 구현이 가능하여 설치 운용이 간단하며, 네트워크를 구축하기 위한 라우터의 고장으로 인한 장애 및 오류가 유발되지 않기 때문에 서비스 신뢰도를 개선시킬 수 있다.
또한 본 발명의 홈 네트워크 시스템(1)은 홈 에이전트(3)가 식별ID값은 제1 주파수대역의 사운드QR로 변환시키고, 제어데이터는 제2 주파수대역의 사운드QR로 변환시킴으로써 전자 디바이스들은 주파수대역에 따라 식별ID값 및 제어데이터를 간단하게 분류시킬 수 있어 데이터전송의 신뢰도를 높일 수 있게 된다.
또한 본 발명의 홈 네트워크 시스템(1)은 전자디바이스(5)가 입력된 사운드QR의 식별ID 값이 자신의 식별ID값일 때 제어데이터에 따라 구동하되, 구동 이후 기 설정된 주기(T) 동안 동일한 사운드QR을 입력받는 경우 이를 무시함으로써 사용자의 동일 명령에 대하여 반복적으로 동작을 수행하는 현상을 효율적으로 방지할 수 있게 된다.
또한 본 발명의 홈 네트워크 시스템(1)은 음성인식부(32)가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있다.
또한 본 발명의 홈 네트워크 시스템(1)은 음성인식모듈(321), (322)들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있다.
또한 본 발명의 홈 네트워크 시스템(1)은 제1 음성인식모듈(321) 및 제2 음성인식모듈(322)이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있게 된다.
또한 본 발명의 홈 네트워크 시스템(1)은 각 마이크로폰이 입력신호로부터 잡음회귀현상을 제거하기 위한 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거할 수 있다.
1:홈 네트워크 시스템 3:홈 에이전트
5:전자디바이스들 31:음향신호 입력부
32:음성인식부 33:특징파라미터 검출부
34:비교 및 매칭부 35:참조모델 데이터베이스부
36:단어결정부 37:비교대상문자 결정부
38:메모리 39:사운드QR 생성부
40:사운드QR 출력부 321:제1 음성인식모듈
322:제2 음성인식모듈

Claims (9)

  1. 기 설정된 동작 및 연산을 수행하는 전자 디바이스들을 관리 및 제어하기 위한 홈 네트워크 시스템에 있어서:
    인간은 청취할 수 없는 주파수대역의 음향신호인 사운드QR을 입력받는 마이크로폰과, 마이크로폰을 통해 입력된 사운드QR의 신호를 분석하는 신호분석부를 포함하는 상기 전자디바이스들;
    상기 전자디바이스들 각각의 식별ID값이 저장되며, 사용자로부터 제어대상 및 제어데이터를 입력받으면, 입력된 제어대상에 대응되는 식별ID값 및 제어데이터를 사운드QR로 변환하여 출력하는 홈 에이전트를 포함하고,
    상기 전자디바이스들은 입력된 사운드QR의 식별ID값이 자신에게 할당된 식별ID값이 아니면 별도의 동작을 수행하지 않고, 입력된 사운드QR의 식별ID값이 자신에게 할당된 식별ID값이면 입력된 사운드QR의 제어데이터에 따라 구동되고,
    상기 홈 에이전트는
    외면에 설치되는 제1, 2, 3 마이크로폰들;
    상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 분석하여 입력된 음성단위를 검출하는 음성처리 및 관리부;
    제어대상인 상기 전자디바이스들 각각을 나타내는 단어인 ‘식별ID관련 비교대상문자’들과, 제어대상의 제어값을 나타내는 단어인 ‘제어데이터관련 비교대상문자’들과, 상기 전자디바이스들 각각의 식별ID값이 매칭된 식별ID 매칭테이블이 저장되는 메모리;
    상기 음성처리 및 관리부로부터 입력된 음성단어와, 상기 메모리에 저장된 ‘제어데이터관련 비교대상문자’들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 임계치가 넘어선 ‘제어데이터관련 비교대상문자’를 제어대상인 전자디바이스로 결정하고, 입력된 음성단어로부터 제어대상인 전자디바이스로 결정된 음절들을 제외한 단어인 2차단어를 상기 메모리에 저장된 ‘제어데이터관련 비교대상문자’들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 임계치가 넘어선 ‘제어데이터관련 비교대상문자’를 제어데이터로 결정하는 비교대상문자 결정부;
    상기 비교대상문자 결정부에 의해 결정된 제어대상인 전자디바이스의 식별ID값과, 상기 비교대상문자 결정부에 의해 결정된 제어데이터를 사운드QR로 변환시키는 사운드QR 생성부;
    상기 사운드QR 생성부에 의해 생성된 사운드QR을 스피커를 통해 출력하는 사운드QR 출력부를 더 포함하고,
    상기 음성처리 및 관리부는
    기 설정된 참조모델들이 저장되는 참조모델 데이터베이스부;
    상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 입력받는 음향신호 입력부;
    상기 음향신호 입력부에 의해 입력되는 음향신호들을 분석하여 원신호(X2)를 검출하는 음성인식부;
    상기 음성인식부에 의해 검출된 원신호(X2)의 특징벡터를 추출한 후 추출된 특징벡터를 이용하여 특징파라미터를 생성하는 특징파라미터 생성부;
    기 설정된 비교 알고리즘을 이용하여 상기 참조모델 데이터베이스부에 저장된 참조모델들과, 상기 특징파라미터 생성부에 의해 생성된 특징파라미터를 분석하여 특징파라미터와 가장 유사도가 높은 참조모델을 검출하는 비교 및 매칭부;
    상기 비교 및 매칭부에 의해 검출된 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력하여 음성인식을 수행하는 단어결정부를 더 포함하고,
    상기 음성인식부는 제1, 2 마이크로폰들의 음향신호들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 제3 마이크로폰의 음향신호로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 상기 제1 음성인식모듈에 의해 검출된 1차 원신호(X1)에 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 더 포함하고,
    상기 제1 음성인식모듈과, 상기 제2 음성인식모듈은 서로 다른 방식의 제1 신호분리 알고리즘 및 제2 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리시키는 것을 특징으로 하는 홈 네트워크 시스템.
  2. 청구항 제1항에 있어서, 상기 홈 에이전트는
    식별ID값은 제1 주파수대역의 사운드QR로 변환하고, 제어데이터는 제2 주파수대역의 제어데이터로 변환하고,
    상기 전자디바이스들의 상기 신호분석부는 입력된 사운드QR의 주파수대역에 따라 식별ID값 및 제어데이터를 분류하는 것을 특징으로 하는 홈 네트워크 시스템.
  3. 청구항 제2항에 있어서, 상기 전자디바이스들은
    입력된 사운드QR의 식별ID값이 자신에게 할당된 식별ID값과 동일하여 제어데이터에 따른 동작을 수행하고 난 후 기 설정된 주기(T) 동안 동일한 사운드QR을 재입력받는 경우 별도의 동작을 수행하지 않는 것을 특징으로 하는 홈 네트워크 시스템.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 청구항 제3항에 있어서, 상기 음성인식부는 최종 원신호(X2)가 검출되면, 검출된 원신호(X2)의 초성에 기 설정된 모음을 조합하되, 종성을 삭제한 음절로 변환시키고,
    상기 비교 및 매칭부는
    입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식하고,
    특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개인 경우 유사도가 가장 높은 참조모델을 입력음성을 결정하며,
    특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우, 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 통해 유사도가 가장 높은 음소를 입력음성을 결정하는 것을 특징으로 하는 홈 네트워크 시스템.
KR1020170014950A 2017-02-02 2017-02-02 홈 네트워크 시스템 KR101874946B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170014950A KR101874946B1 (ko) 2017-02-02 2017-02-02 홈 네트워크 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170014950A KR101874946B1 (ko) 2017-02-02 2017-02-02 홈 네트워크 시스템

Publications (1)

Publication Number Publication Date
KR101874946B1 true KR101874946B1 (ko) 2018-07-05

Family

ID=62920494

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170014950A KR101874946B1 (ko) 2017-02-02 2017-02-02 홈 네트워크 시스템

Country Status (1)

Country Link
KR (1) KR101874946B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080846A1 (en) * 2018-10-17 2020-04-23 Samsung Electronics Co., Ltd. Electronic device, control method thereof, and sound output control system of the electronic device
KR20200090553A (ko) * 2019-01-21 2020-07-29 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN112002339A (zh) * 2020-07-22 2020-11-27 海尔优家智能科技(北京)有限公司 语音降噪方法和装置、计算机可读的存储介质及电子装置
US11355127B2 (en) 2018-12-14 2022-06-07 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080846A1 (en) * 2018-10-17 2020-04-23 Samsung Electronics Co., Ltd. Electronic device, control method thereof, and sound output control system of the electronic device
US11188290B2 (en) 2018-10-17 2021-11-30 Samsung Electronics Co., Ltd. Electronic device, control method thereof, and sound output control system of the electronic device
US11822855B2 (en) 2018-10-17 2023-11-21 Samsung Electronics Co., Ltd. Electronic device, control method thereof, and sound output control system of the electronic device
US11355127B2 (en) 2018-12-14 2022-06-07 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20200090553A (ko) * 2019-01-21 2020-07-29 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102584588B1 (ko) * 2019-01-21 2023-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN112002339A (zh) * 2020-07-22 2020-11-27 海尔优家智能科技(北京)有限公司 语音降噪方法和装置、计算机可读的存储介质及电子装置
CN112002339B (zh) * 2020-07-22 2024-01-26 海尔优家智能科技(北京)有限公司 语音降噪方法和装置、计算机可读的存储介质及电子装置

Similar Documents

Publication Publication Date Title
US9940949B1 (en) Dynamic adjustment of expression detection criteria
US11138977B1 (en) Determining device groups
US11875820B1 (en) Context driven device arbitration
US20210174802A1 (en) Processing spoken commands to control distributed audio outputs
US11289087B2 (en) Context-based device arbitration
US10818296B2 (en) Method and system of robust speaker recognition activation
US20210082429A1 (en) Method and system of audio false keyphrase rejection using speaker recognition
CN108351872B (zh) 用于响应用户语音的方法和系统
KR101874946B1 (ko) 홈 네트워크 시스템
US9898250B1 (en) Controlling distributed audio outputs to enable voice output
JP6314219B2 (ja) 自己生成ウェイク表現の検出
US9672812B1 (en) Qualifying trigger expressions in speech-based systems
KR101178801B1 (ko) 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
KR20200012963A (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
EP0653701B1 (en) Method and system for location dependent verbal command execution in a computer based control system
KR101889465B1 (ko) 음성인식장치와, 음성인식장치가 구비된 조명등기구와, 이를 이용한 조명시스템
KR101863097B1 (ko) 키워드 인식 장치 및 방법
US10685664B1 (en) Analyzing noise levels to determine usability of microphones
US10299278B1 (en) Channel selection for multi-radio device
JP2019040123A (ja) 変換モデルの学習方法および変換モデルの学習装置
US11044567B1 (en) Microphone degradation detection and compensation
US11348579B1 (en) Volume initiated communications
KR101822085B1 (ko) 비상벨을 구비한 비상경보장치
US11783809B2 (en) User voice activity detection using dynamic classifier
KR101826278B1 (ko) 유도시스템

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant