KR20180062127A - The apparatus and method for communicating between multiple users using voice recognition - Google Patents

The apparatus and method for communicating between multiple users using voice recognition Download PDF

Info

Publication number
KR20180062127A
KR20180062127A KR1020160162050A KR20160162050A KR20180062127A KR 20180062127 A KR20180062127 A KR 20180062127A KR 1020160162050 A KR1020160162050 A KR 1020160162050A KR 20160162050 A KR20160162050 A KR 20160162050A KR 20180062127 A KR20180062127 A KR 20180062127A
Authority
KR
South Korea
Prior art keywords
voice
voice signal
signal
user
wireless communication
Prior art date
Application number
KR1020160162050A
Other languages
Korean (ko)
Inventor
박정식
Original Assignee
영남대학교 산학협력단
세영정보통신(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단, 세영정보통신(주) filed Critical 영남대학교 산학협력단
Priority to KR1020160162050A priority Critical patent/KR20180062127A/en
Publication of KR20180062127A publication Critical patent/KR20180062127A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/3827Portable transceivers
    • H04B1/3833Hand-held transceivers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

According to an embodiment of the present invention, a wireless multi-party communication device using voice recognition includes: a voice collection unit which receives signals of the voice spoken by a user; a voice detection unit for detecting voice signals and non-voice signals from the signals of the voice spoken by the user in a separate manner; a voice recognition unit for determining whether the detected voice signals include a predetermined command for executing a voice-operated exchange (VOX) function; and a control unit which enables a communication unit to transmit the signals of the voice spoken by the user to a wireless communication device of another user if the command is included in the detected voice signals and enables the communication unit to receive the signals of the voice spoken by another user if the command is not included in the detected voice signals.

Description

음성인식을 통한 다자간 무선 통신 장치 및 그 방법{THE APPARATUS AND METHOD FOR COMMUNICATING BETWEEN MULTIPLE USERS USING VOICE RECOGNITION}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to a multi-

본 발명은 음성인식을 통한 다자간 무선 통신 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 다자간 대화 상황에서 버튼 등의 클릭이 아닌 음성 인식을 통하여 발언권을 획득함으로써 다자간 무선 통신을 수행할 수 있는 장치 및 그 방법에 관한 것이다. More particularly, the present invention relates to a device capable of performing multi-party wireless communication by acquiring a voice right through voice recognition instead of a click of a button in a multi-party conversation situation, and more particularly, It is about the method.

최근까지 인간의 삶의 편리함을 추구하기 위해 음성을 이용하여 사용자 인터페이스를 증대시키는 다양한 방법을 시도하고 있다. 통신 및 스마트 분야의 발달로 휴대폰, 가전제품 등 응용 분야가 폭넓게 발전되었을 뿐만 아니라 스마트 자동차 개발까지 진행되면서 우리가 사용하는 모든 제품이 스마트화되어가고 있다. 특히, 우리가 사는 가정환경에서 냉장고, TV 등을 이용할 때 직접 움직이지 않고 모든 사물을 음성으로 제어하며, 사물에서 온도 등 자연환경 제어까지 활용범위가 넓어지고 있다. 이처럼, 사용자가 원하는 단어를 말하는 것으로부터 음성을 인식하고, 제어하기까지 정확한 음성검출이 무엇보다 중요하다.Until recently, various methods of increasing the user interface using voice have been attempted to pursue the convenience of human life. With the development of communication and smart fields, not only the application fields such as mobile phones and home appliances have been widely developed, but also smart car development has progressed, and all the products we use are becoming smart. Especially, when we use refrigerator and TV in the home environment we live in, we do not move directly but control everything by voice, and the range of application from object to temperature and natural environment control is getting wider. As described above, accurate voice detection is important from the time the user speaks the word to the voice recognition and control.

이때, 정확한 음성검출을 하는 데 필요한 기술이 음성 구간 검출(Voice Activity Detection, VAD)이다. 음성 구간 검출은 음성신호로부터 음성신호 구간과 비음성신호 구간을 검출하는 방법을 말한다. 사람이 말하는 대부분의 음성신호는 시간에 따라 변하는 시간 영역의 연속신호이며, 이는 주파수 영역에서 재해석하여 나타낼 수 있다. 그래서 지금까지 시간 영역과 주파수 영역의 특성에 의한 음성검출에 관한 다양한 연구가 지속적으로 수행되어 왔다. 시간 영역에서의 간단한 절차를 통해 얻을 수 있는 프레임 에너지와 DFT(Discrete Fourier Tranform)의 복잡한 계산량을 단순화한 FFT(Fast Fourier Transform)을 기반으로 하는 다양한 음성검출 방법 등이 연구되어 왔다(예컨대, 대한민국 등록특허 제 1056511호 (등록일자: 2011년08월05일) 등). 대부분의 연구에서의 시간 영역 또는 주파수 영역의 특성에 의한 음성검출은 음성신호와 비음성신호를 판별하는데 어느 정도의 성능을 보였으나, 잡음 환경 등 다양한 환경에서의 음성검출 성능을 고려하지는 않았다. 또한, 후처리를 거치지 않은 음성검출은 두 종류의 오차인 False alarm과 False reject가 나타날 확률이 높으며 이는 정확한 음성검출에 악영향을 미치게 된다. 즉, 각 영역의 특성에 의한 음성검출만으로는 음성검출 성능의 저하를 야기할 수 있다.At this time, a technique required for accurate voice detection is Voice Activity Detection (VAD). The voice section detection is a method of detecting a voice signal section and a non-voice signal section from a voice signal. Most human speech signals are time-domain continuous signals that change over time, which can be reinterpreted in the frequency domain. So far, various studies on voice detection by the characteristics of time domain and frequency domain have been continuously carried out. A variety of speech detection methods based on FFT (Fast Fourier Transform), which simplifies complex energies of frame energy and DFT (Discrete Fourier Transform), which can be obtained through a simple procedure in the time domain, have been studied Patent No. 1056511 (registered on August 05, 2011)). In most of the studies, voice detection based on the characteristics of the time domain or the frequency domain showed some performance in discriminating the voice signal and the non-voice signal, but the voice detection performance in various environments such as the noise environment was not considered. In addition, speech detection without post processing is highly likely to have two types of errors, false alarm and false rejection, which adversely affect accurate voice detection. That is, only voice detection based on the characteristics of each area may cause deterioration of voice detection performance.

1. 대한민국 등록특허 제 1056511호 (등록일자: 2011년08월05일)1. Korean Patent No. 1056511 (Registration date: August 05, 2011)

본 발명에서는 음성 구간을 탐지하는 음성 구간 검출(Voice Activity Detection, VAD) 기법을 향상시키고, 탐지된 음성 구간이 미리 정한 명령어인지를 인식하고 판별함으로써 무전기와 같은 다수의 화자간 통신에서 음성 통제 및 혼란의 문제 발생을 최소화시키고자 한다. The present invention improves a voice activity detection (VAD) technique for detecting a voice interval, and recognizes and discriminates whether a detected voice interval is a predetermined command, so that voice control and confusion in a large number of inter- To minimize the occurrence of problems.

본 발명의 일 실시예로써, 음성인식을 통한 다자간 무선 통신 장치가 제공될 수 있다. As one embodiment of the present invention, a multi-party wireless communication apparatus through voice recognition can be provided.

본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치는, 사용자로부터 발화된 음성의 신호를 입력받기 위한 음성 수집부, 음성의 신호로부터 음성 신호와 비음성 신호를 구분하여 검출하기 위한 음성 검출부, 검출된 음성 신호에 음성통제기능(Voice Operated eXchange, VOX)의 수행을 위한 소정의 명령어가 포함되었는지 여부를 판단하기 위한 음성 인식부 및 명령어가 검출된 음성 신호에 포함되어 있다면 통신부로 하여금 사용자의 발화된 음성의 신호를 타 사용자의 무선 통신 장치로 송신하게 하고, 명령어가 검출된 음성 신호에 포함되어 있지 않다면 통신부로 하여금 타 사용자로부터 발화된 음성의 신호를 입력받게 하는 제어부를 포함할 수 있다. A multi-party wireless communication apparatus using voice recognition according to an exemplary embodiment of the present invention includes a voice collection unit for receiving a voice signal from a user, a voice recognition unit for separating a voice signal from a non- A voice recognition unit for determining whether or not a predetermined command for performing a voice control function (VOX) is included in the detected voice signal, and a voice recognition unit for, if the command is included in the detected voice signal, The control unit may cause the communication unit to receive a signal of a voice uttered by another user if the command is not included in the detected voice signal .

또한, 본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치에는 타 사용자로부터 발화된 음성의 신호가 사운드로 출력되는 출력부를 더 포함할 수 있다. In addition, the multi-party wireless communication apparatus using voice recognition according to an embodiment of the present invention may further include an output unit for outputting a sound signal of a voice uttered by another user.

본 발명의 일 실시예에 따른 음성 검출부에서는 음성의 신호로부터 음성 신호 구간과 비음성 신호 구간이 각각 검출되고, 이러한 검출은 주파수 영역에서의 에너지 값에 기초하여 수행될 수 있다. In the voice detector according to the embodiment of the present invention, the voice signal section and the non-voice signal section are detected from the voice signal, respectively, and the detection can be performed based on the energy value in the frequency domain.

본 발명의 일 실시예에 따른 음성 신호 구간의 검출에서의 음성의 종료 시점은 주파수 영역에서의 음성 신호의 프레임 단위의 전력 스펙트럼에서 에너지 값이 임계값보다 작은 프레임의 개수에 기초하여 결정될 수 있다. The end point of the speech in the detection of the speech signal interval according to the embodiment of the present invention may be determined based on the number of frames whose energy value is smaller than the threshold value in the power spectrum of the frame of the speech signal in the frequency domain.

본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 방법은, 사용자로부터 발화된 음성의 신호를 입력받는 단계, 음성의 신호로부터 음성 신호와 비음성 신호를 구분하여 검출하는 단계, 검출된 음성 신호에 음성통제기능(Voice Operated eXchange, VOX)의 수행을 위한 소정의 명령어가 포함되었는지 여부를 판단하는 단계 및 명령어가 검출된 음성 신호에 포함되어 있다면 사용자의 발화된 음성의 신호를 타 사용자의 무선 통신 장치로 송신하고, 명령어가 검출된 음성 신호에 포함되어 있지 않다면 타 사용자로부터 발화된 음성의 신호를 입력받는 단계를 포함할 수 있다. A multi-party wireless communication method using voice recognition according to an embodiment of the present invention includes receiving a voice signal from a user, discriminating a voice signal from a voice signal and detecting the voice signal, Determining whether or not a predetermined command for performing a voice control function (VOX) is included in the signal, and if the command is included in the detected voice signal, And receiving the voice signal from the other user if the command is not included in the detected voice signal.

한편, 본 발명의 일 실시예로써, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.Meanwhile, as an embodiment of the present invention, a computer-readable recording medium on which a program for causing the computer to execute the above-described method may be provided.

본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치를 이용하면 음성인식 기반의 VOX 기술을 통하여 다자간 음성 통신 환경에서 발언권을 효율적으로 제어할 수 있다. According to an embodiment of the present invention, voice control can be efficiently controlled in a multi-user voice communication environment by using VOX technology based on voice recognition using a multi-party wireless communication device using voice recognition.

또한, 자동차 운전 중과 같은 손이 자유롭지 못한 상황에서도 음성인식을 통한 시스템의 정밀, 정확 제어에 일조할 수 있다. In addition, it can contribute to the precise and accurate control of the system through speech recognition even when the hands are not free, such as when driving a car.

다자간 통신 환경에서 음성 송신을 활성화하기 위한 VOX 기능을 위해 기존에 알려진 대표적인 방법은 "Push-To-Talk", 즉 PTT라 불리는 송/수신 전환 스위치를 활용한 방법인데, 이러한 방법은 안정적인 성능 구현이 가능할 수는 있지만, 송/수신 과정에서 사용자가 지속적으로 버튼을 온/오프(on/off) 해야 하는 불편함이 가중되어, 이를 해결하기 위한 목적으로 마이크에 입력된 음성 신호를 이용하는 기술이 연구되어 왔다. 대표적으로 입력된 음성의 음압 레벨(dB)을 측정하여 송신 활성화 여부를 결정하는 방법인데, 이러한 방식은 알고리즘이 단순하여 구현이 쉽고 저용량 하드웨어에서도 작동 가능한 장점이 있지만, 잡음이 유입되는 실제 환경에서는 오작동이 빈번하여 신뢰성이 떨어지는 문제가 있다. 전술한 PTT 버튼이나 음압 레벨을 사용하는 알고리즘 대신, 본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치 및 방법을 이용하면 음성인식 기술을 응용하여 종래 대비 보다 안정적이고 정확한 VOX 기능을 구현할 수 있다. A typical known method for VOX function to activate voice transmission in a multi-party communication environment is a push-to-talk (PTT) transmission / reception switching switch. However, the inconvenience that the user has to continuously turn on / off the button during the transmission / reception process has been increased, and a technique of using the voice signal input to the microphone for the purpose of solving the problem has been studied come. Typically, the method measures the sound pressure level (dB) of the input voice to determine whether to activate the transmission. This method is advantageous in that it is easy to implement and can be operated in low-capacity hardware. However, in a real environment where noise is introduced, There is a problem that the reliability is low. Instead of the above-described PTT button or the algorithm using the sound pressure level, a multi-way wireless communication apparatus and method using speech recognition according to an embodiment of the present invention can realize a more stable and accurate VOX function .

도 1은 본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치를 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 방법을 나타낸 순서도이다.
도 3은 본 발명의 일 실시예에 따른 무선 통신 방법의 일 예를 나타낸 순서도이다.
도 4는 (a) 시간 영역과 (b) 주파수 영역에서의 음성 검출을 위한 방법을 나타낸 순서도이다.
도 5는 본 발명의 일 실시예에 따른 음성 검출을 위한 후처리 방법을 나타낸 순서도이다.
도 6은 (a) 시간 영역과 (b) 주파수 영역에서의 음성 신호의 에너지 값의 분포 예를 나타낸다.
FIG. 1 is a block diagram illustrating a multi-party wireless communication apparatus using speech recognition according to an exemplary embodiment of the present invention. Referring to FIG.
2 is a flowchart illustrating a multi-party wireless communication method using speech recognition according to an exemplary embodiment of the present invention.
3 is a flowchart illustrating an example of a wireless communication method according to an embodiment of the present invention.
4 is a flowchart showing a method for voice detection in (a) time domain and (b) frequency domain.
5 is a flowchart illustrating a post-processing method for voice detection according to an embodiment of the present invention.
6 shows an example of distribution of energy values of speech signals in (a) time domain and (b) frequency domain.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, which will be readily apparent to those skilled in the art. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다. The terms used in this specification will be briefly described, and the present invention will be described in detail.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다. While the present invention has been described in connection with what is presently considered to be the most practical and preferred embodiment, it is to be understood that the invention is not limited to the disclosed embodiments. Also, in certain cases, there may be a term selected arbitrarily by the applicant, in which case the meaning thereof will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term, not on the name of a simple term, but on the entire contents of the present invention.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 소자를 사이에 두고" 연결되어 있는 경우도 포함한다. When an element is referred to as "including" an element throughout the specification, it is to be understood that the element may include other elements as well, without departing from the spirit or scope of the present invention. Also, the terms "part," " module, "and the like described in the specification mean units for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software . In addition, when a part is referred to as being "connected" to another part throughout the specification, it includes not only "directly connected" but also "connected with other part in between".

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치를 나타낸 블록도이고, 도 3은 본 발명의 일 실시예에 따른 무선 통신 방법의 일 예를 나타낸 순서도이다. 또한, 도 4는 (a) 시간 영역과 (b) 주파수 영역에서의 음성 검출을 위한 방법을 나타낸 순서도이고, 도 5는 본 발명의 일 실시예에 따른 음성 검출을 위한 후처리 방법을 나타낸 순서도이며, 도 6은 (a) 시간 영역과 (b) 주파수 영역에서의 음성 신호의 에너지 값의 분포 예를 나타낸다. FIG. 1 is a block diagram illustrating a multi-party wireless communication apparatus using speech recognition according to an embodiment of the present invention, and FIG. 3 is a flowchart illustrating an example of a wireless communication method according to an embodiment of the present invention. 4 is a flowchart showing a method for voice detection in (a) time domain and (b) frequency domain, and Fig. 5 is a flowchart showing a post-processing method for voice detection according to an embodiment of the present invention 6 shows an example of distribution of energy values of speech signals in (a) time domain and (b) frequency domain.

음성신호를 처리하기 위해 시간 영역과 주파수 영역의 에너지를 이용할 수 있다. 동일 음성 구간에서 측정한 시간 영역의 에너지와 주파수 영역의 에너지는 차이가 없으나, 주파수 대역 중 음성 신호가 주로 분포하는 주파수 대역의 에너지를 이용하는 방법은 시간 영역의 샘플 에너지를 이용한 방법에 비해서 에너지 간의 밀집도가 강하기 때문에 False alarm과 False reject의 비율이 비교적으로 낮으며, 높은 음성검출 성능을 보인다는 것을 후술된 바와 같이 실험적으로 확인할 수 있었다. The time domain and frequency domain energy can be used to process the speech signal. Although the energy of the time domain and the energy of the frequency domain measured in the same voice interval are not different from each other, the method using the energy of the frequency band in which the voice signal is mainly distributed among the frequency bands is different from the method using the time- The ratio of the false alarm to the false reject is relatively low and the high voice detection performance is experimentally confirmed as described below.

본 발명의 일 실시예에 따른 음성 검출의 후처리 방법을 이용하면, 종래 대비 음성 검출의 오류를 획기적으로 줄일 수 있다. 이와 같은 후처리 방법은 실시간으로 입력된 음성신호의 에너지 값이 임계치보다 작을 경우 비음성신호 구간에서 일정한 프레임 동안 지속될 때 음성을 종료한다. 기존의 음성검출 방법과 비교한 결과, 본 발명의 일 실시예에 따른 후처리를 적용한 음성검출 방법은 후처리를 거치지 않는 경우에 비해서 전체적으로 두 종류의 오차인 False alarm과 False reject가 모두 감소하였으며, 음성검출의 성능이 향상되었음을 확인할 수 있었다. By using the post-processing method of voice detection according to an embodiment of the present invention, the error of voice detection can be drastically reduced compared with the conventional method. Such a post-processing method terminates the speech when the energy value of the speech signal inputted in real time is smaller than the threshold value and continues for a certain frame in the non-speech signal period. As a result of comparing with the conventional voice detection method, the voice detection method using post-processing according to an embodiment of the present invention reduces both false alarms and false rejects as two types of errors as compared with the case without post processing. It is confirmed that the performance of voice detection is improved.

또한, 주파수 영역 중 음성 분포 대역의 전력 스펙트럼 에너지를 이용한 음성검출은 샘플 에너지 값이 분산되어 있는 시간 영역에 비해서 음성신호 구간과 비음성신호 구간의 평균 지점에 에너지 값이 집중되어있기 때문에(예컨대, 밀집도가 강함) 임계치로 나누어 판단하기 쉬우며, 이에 따라 높은 음성검출 성능을 달성할 수 있다. In the voice detection using the power spectral energy of the voice distribution band in the frequency domain, the energy value is concentrated at the average point of the voice signal section and the non-voice signal section as compared with the time domain in which the sample energy value is dispersed (for example, It is easy to judge it by dividing it by the threshold value, thereby achieving high voice detection performance.

기존의 연구 중에서 유클리드 거리와 FFT를 이용한 음성신호와 비음성신호를 판별하는 방법과 영교차율과 프레임 에너지를 이용한 음성신호와 비음성신호를 판별하는 방법이 있다. Among the existing researches, there is a method of discriminating a voice signal and a non-voice signal using Euclidean distance and FFT, and a method of discriminating a voice signal and a non-voice signal using zero crossing ratio and frame energy.

FFT(Fast Fourier Transfrom) 기반 음성 검출 방법은 음성신호를 FFT 한 후, 전력 스펙트럼 및 전체 문장의 전력스펙트럼을 구하여 정해진 임계치 이상일 때 음성신호, 이하일 때 비음성신호로 판별하였다. FFT를 이용한 음성검출 수식은 다음과 같다.The FFT (Fast Fourier Transform) based speech detection method is based on the FFT of a speech signal, the power spectrum of the power spectrum, and the power spectrum of the entire sentence, and discriminates the speech signal when the speech signal is above a predetermined threshold value. The speech detection formula using FFT is as follows.

Figure pat00001
Figure pat00001

수학식 1에서

Figure pat00002
,
Figure pat00003
는 각 주파수 영역에서 구한 잡음 및 음성신호 스펙트럼이고
Figure pat00004
는 음성신호인지 비음성신호인지 구분하기 위한 임계치,
Figure pat00005
는 전체 문장의 프레임,
Figure pat00006
는 문장의 잡음구간을 처음으로 나타내는 프레임 개수를 의미한다.In Equation (1)
Figure pat00002
,
Figure pat00003
Is the noise and speech signal spectrum obtained in each frequency domain
Figure pat00004
A threshold for distinguishing between a voice signal and a non-voice signal,
Figure pat00005
Is a frame of the whole sentence,
Figure pat00006
Means the number of frames that represent the noise section of the sentence for the first time.

또 다른 음성검출 방법으로 유클리드 거리를 응용한 켑스트럼 거리를 이용하였다. 음성신호는 유클리드 거리를 이용하여 음성신호와 비음성신호로 분리가 가능하다. 캡스트럼 영역의 음성신호를 추출하기 위해서 FFT를 한 음성신호를 로그 연산 한 후, 다시 IFFT(Inverse Fast Fourier Transfrom)을 수행하고, 켑스트럼 창을 곱하여 켑스트럼 영역에서의 음성신호를 추출할 수 있다. 추출한 음성신호는 켑스트럼 중심을 기준으로 켑스트럼 거리를 측정하여 정해진 임계치 이상일 때 음성신호, 이하일 때 비음성신호로 판별할 수 있다. 수학식 2는 유클리드 거리의 기본적인 수식이며, 이를 응용한 켑스트럼 거리 식은 다음과 같다.We used cepstrum distance applying Euclidean distance as another voice detection method. A voice signal can be separated into a voice signal and a non-voice signal by using the Euclidean distance. In order to extract the speech signal in the cepstrum domain, the FFT-processed speech signal is logarithmically processed, then the IFFT (Inverse Fast Fourier Transform) is performed, and the speech signal in the cepstrum domain is extracted by multiplying the cepstrum domain . The extracted voice signal can be identified as a voice signal when the cepstrum distance is measured based on the cepstrum center, and a non-voice signal when the cepstrum distance is below a predetermined threshold value. Equation (2) is a basic equation of Euclidean distance, and the cepstrum distance formula applied is as follows.

Figure pat00007
Figure pat00007

수학식 2에서

Figure pat00008
은 입력된 음성의 켑스트럼 계수이고,
Figure pat00009
은 프레임의 켑스트럼을 나타낸다.
Figure pat00010
은 켑스트럼 중심을 의미한다.In Equation 2,
Figure pat00008
Is the cepstral coefficient of the input speech,
Figure pat00009
Indicates the frame strum of the frame.
Figure pat00010
Is the center of the string.

또한, 영교차율(Zero-Crossing)과 프레임 에너지 기반은 오래전부터 사용되어 왔다. 영교차율은 음성신호가 0을 교차하면서 신호의 부호가 바뀌는 비율을 말한다. 하지만, 유성음의 특성과 비슷한 잡음이 많은 경우, 영교차율만으로는 음성신호와 비음성신호를 판별하기 쉽지 않다. 따라서 영교차율을 이용하면서 음성 구간에서의 에너지 값은 크고, 비음성 구간에서는 작은 값을 가지는 음성신호의 시간 영역의 에너지의 특징을 바탕으로 음성신호와 비음성신호를 판별할 수 있다. 그러나 이 방법 또한 잡음 환경에서 높은 에너지 값을 가지는 경우가 있으며, 음성신호 구간과 비음성신호 구간을 결정하는 임계치를 찾는데 어렵기 때문에 음성검출 성능을 높이는데 한계가 있다.Zero-crossing and frame energy bases have also been used for a long time. The zero crossing rate is the rate at which the sign of the signal changes as the voice signal crosses zero. However, when there are many noises similar to those of voiced sounds, it is difficult to distinguish between voice signals and non-voice signals only by the zero crossing rate. Therefore, it is possible to discriminate between the speech signal and the non-speech signal based on the energy characteristic of the time domain of the speech signal having a large energy value in the speech interval and a small value in the non-speech interval while using the zero crossing rate. However, this method also has a high energy value in a noisy environment, and it is difficult to find a threshold value for determining a speech signal interval and a non - speech signal interval.

전술한 종래 기술들의 문제점은 다음과 같다: The problems of the prior art described above are as follows:

- 주로 시간 영역(Time domain)에 의존한 방법으로서 배경 잡음이 포함된 경우 음성 검출에 취약함 - It is mainly dependent on time domain, and is vulnerable to speech detection when background noise is included.

- 기존 주파수 방식의 경우 계산량 부담이 크므로 무전기와 같은 소형 단말기에서 처리하기 어려움- In case of existing frequency system, it is difficult to handle in small handset such as walkie-talkie because of high computational burden.

- VAD의 주요 목표는 음성의 끝점(예컨대, 종료 시점)을 정확하게 검출하는 것인데, 도 4의 (a)에서와 같이 각 프레임마다 임계치(threshold)를 기준으로 음성/비음성을 구분하는 경우 발화 구간이 정확히 분할되지 않아 음성 인식의 정확성이 떨어짐 (예를 들어, "학교"라는 단어를 말했는데, VAD 후에 "학"과 "교"가 각각의 음성 구간으로 결정되는 경우 등)The main goal of the VAD is to accurately detect the end point (e.g., end point) of a speech. In case of distinguishing speech / non-speech based on a threshold value for each frame as shown in FIG. 4A, (For example, when the word "school" is spoken, and "school" and "bridge" are determined after each VAD, respectively)

본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치 및 그 방법에서는, 음성 신호가 분포하는 주파수 영역의 에너지(에컨대, FFT 후 스펙트럼 에너지)를 기반으로 VAD를 수행함에 따라, 시간 영역 에너지와 달리 스펙트럼 에너지는 음성, 비음성 구간의 에너지가 집중되어 분포하는 특성이 있으므로, 음성, 비음성 구간 검출이 종래 대비 용이할 수 있다. (도 6 참조)According to an embodiment of the present invention, a VAD is performed based on energy in a frequency domain in which a speech signal is distributed (for example, spectral energy after FFT) Unlike energy, spectral energy has a characteristic in which energy of voice and non-voice is concentrated and distributed, so that detection of voice and non-voice can be easier than conventional. (See Fig. 6)

또한, 임계치보다 작은 에너지를 나타내는 프레임이 연속적으로 특정 개수 이상 지속될 때 그 지점을 끝점으로 판단함으로써 음성의 끝점(예컨대, 종료 시점)을 정확하게 검출해낼 수 있다. Further, when a frame representing an energy smaller than a threshold value continuously continues for a specific number or more, the end point (e.g., end point) of the voice can be accurately detected by determining the end point as the end point.

본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치를 이용하면 사용자 간 미리 정한 어휘인 VOX 명령어(예컨대, “음성 시작” 등의 짧은 어휘)를 통하여 발언권을 얻을 수 있다. 이하의 설명은 무전기 등의 소형 기기 내부에서 자체적으로 수행될 수 있다. 즉, 음성 인식과 관련하여 종래의 기법인 클라이언트에서 발화된 메시지를 서버 단에서 처리하여 해당 클라이언트 및 타 클라이언트로 제공하는 방식이 아닌 본 발명의 일 실시예에 따른 통신 방법 등은 소형 무전기에서 처리될 수 있을 정도의 연산량으로도 구현될 수 있다. 예를 들어, 음성 인식은 HMM (Hidden Markov Model) 등이 적용되어 수행될 수 있다. The voice can be obtained through a VOX command (for example, a short vocabulary such as " voice start "), which is a predetermined vocabulary between users, by using the multi-party wireless communication apparatus using speech recognition according to an embodiment of the present invention. The following description can be carried out on its own within a small appliance such as a walkie-talkie. That is, a communication method according to an embodiment of the present invention, which is not a method of processing a message generated by a client, which is a conventional technique related to speech recognition, at a server terminal and providing the message to a corresponding client and other clients, The amount of computation can be realized. For example, speech recognition may be performed by applying HMM (Hidden Markov Model) or the like.

본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치(1000)는, 사용자로부터 발화된 음성의 신호를 입력받기 위한 음성 수집부(1100), 음성의 신호로부터 음성 신호와 비음성 신호를 구분하여 검출하기 위한 음성 검출부(1200), 검출된 음성 신호에 음성통제기능(Voice Operated eXchange, VOX)의 수행을 위한 소정의 명령어가 포함되었는지 여부를 판단하기 위한 음성 인식부(1300) 및 명령어가 검출된 음성 신호에 포함되어 있다면 통신부(1400)로 하여금 사용자의 발화된 음성의 신호를 타 사용자의 무선 통신 장치로 송신하게 하고, 명령어가 검출된 음성 신호에 포함되어 있지 않다면 통신부(1400)로 하여금 타 사용자로부터 발화된 음성의 신호를 입력받게 하는 제어부(1500)를 포함할 수 있다. 예를 들면, 음성 수집부(1100)는 마이크 등과 같은 사운드를 획득하기 위한 전자 장치를 포함할 수 있다. The multi-party wireless communication apparatus 1000 using voice recognition according to an embodiment of the present invention includes a voice collecting unit 1100 for receiving a voice signal uttered by a user, a voice and non- A voice recognition unit 1300 for determining whether a predetermined command for performing a voice control function (VOX) is included in the detected voice signal, and a voice recognition unit If the detected voice signal is included in the detected voice signal, the communication unit 1400 causes the communication unit 1400 to transmit a voice signal of the user's voice to the wireless communication apparatus of another user. If the voice communication signal is not included in the detected voice signal, And a control unit 1500 for receiving a voice signal from another user. For example, the sound collection unit 1100 may include an electronic device for acquiring sound such as a microphone or the like.

또한, 본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 장치(1000)에는 타 사용자로부터 발화된 음성의 신호가 사운드로 출력되는 출력부(1600)를 더 포함할 수 있다. 출력부(1600)는 스피커 등 사운드의 출력을 위한 전자 장치를 포함할 수 있다. In addition, the multi-user wireless communication apparatus 1000 using voice recognition according to an embodiment of the present invention may further include an output unit 1600 through which a sound signal of a voice uttered by another user is output as a sound. Output 1600 may include an electronic device for outputting sound, such as a speaker.

본 발명의 일 실시예에 따른 음성 검출부(1200)에서는 음성의 신호로부터 음성 신호 구간과 비음성 신호 구간이 각각 검출되고, 이러한 검출은 주파수 영역에서의 에너지 값에 기초하여 수행될 수 있다. 음성 검출은 도 5와 관련하여 이하에서 설명하는 방식이 적용될 수 있다. In the voice detector 1200 according to an embodiment of the present invention, a voice signal section and a non-voice signal section are detected from a voice signal, respectively, and the detection can be performed based on the energy value in the frequency domain. The voice detection can be performed in the manner described below with reference to Fig.

본 발명의 일 실시예에 따른 음성 신호 구간의 검출에서의 음성의 종료 시점은 주파수 영역에서의 음성 신호의 프레임 단위의 전력 스펙트럼에서 에너지 값이 임계값보다 작은 프레임의 개수에 기초하여 결정될 수 있다. The end point of the speech in the detection of the speech signal interval according to the embodiment of the present invention may be determined based on the number of frames whose energy value is smaller than the threshold value in the power spectrum of the frame of the speech signal in the frequency domain.

시간 영역의 샘플 에너지를 이용한 음성검출 방법(도 4 (a) 참조)은 입력된 음성신호로부터 프레임 단위로 샘플 에너지를 측정하고 각 프레임 단위로 임계치와 비교하여, 하기 수학식과 같이 음성신호 및 비음성신호를 판별할 수 있다. 따라서 입력된 음성신호의 샘플 에너지 값이 임계치 보다 큰 경우 음성신호로 판별되며, 작은 경우는 비음성신호로 판별될 수 있다. The speech detection method using the sample energy in the time domain (see FIG. 4A) measures the sample energy in units of frames from the input speech signal, compares the sample energy with a threshold value for each frame, and calculates a speech signal and a non- The signal can be discriminated. Therefore, if the sample energy value of the input speech signal is larger than the threshold value, it is determined as a speech signal, and if it is small, the speech signal can be determined as a non-speech signal.

Figure pat00011
Figure pat00011

수학식 3에서

Figure pat00012
는 시간 영역에서의 한 프레임 단위의 샘플 에너지를 나타낸다.
Figure pat00013
은 입력된 음성신호에서
Figure pat00014
번째 샘플의 음성신호를 의미하며,
Figure pat00015
은 한 프레임의 샘플의 개수를 의미한다.
Figure pat00016
는 임계치를 나타내며, 실시간으로 입력된 음성신호의 샘플 에너지 값 중에서 최적의 에너지 값이 임계치로 사용될 수 있다. In Equation 3,
Figure pat00012
Represents the sample energy of one frame unit in the time domain.
Figure pat00013
Lt; RTI ID = 0.0 >
Figure pat00014
Th sample audio signal,
Figure pat00015
Means the number of samples of one frame.
Figure pat00016
And the optimum energy value among the sample energy values of the speech signal input in real time can be used as a threshold value.

주파수 영역의 특성의 전력 스펙트럼을 이용하여 음성검출을 수행하는 방법(도 4 (b) 참조)에서는 입력된 음성신호를 고정된 길이로 나눈 후, FFT를 취하여 프레임마다 전력 스펙트럼 에너지를 구한다. 각 주파수 대역의 에너지 중 음성 신호가 분포하는 주파수 대역(주로, 저주파 대역)의 전력 스펙트럼 에너지를 각 프레임 단위로 임계치와 비교하여, 다음의 수학식과 같이 음성신호 및 비음성신호를 판별한다. 앞서 시간 영역의 음성검출 알고리즘과 같이 입력된 음성신호의 전력 스펙트럼 값이 임계치보다 큰 경우 음성신호로 판별되며, 작은 경우는 비음성신호로 판별될 수 있다. In the method of performing speech detection using the power spectrum of the frequency domain characteristic (see FIG. 4 (b)), the input speech signal is divided into fixed lengths, and FFT is performed to obtain power spectrum energy per frame. The power spectral energy of a frequency band (mainly, a low frequency band) in which speech signals are distributed among the energy of each frequency band is compared with a threshold value on a frame-by-frame basis to discriminate a speech signal and a non-speech signal according to the following mathematical expression. If the power spectrum value of the input voice signal is larger than the threshold value as in the time domain voice detection algorithm, the voice signal is discriminated as a voice signal. If the power spectrum value is small, the voice signal can be discriminated as a non-voice signal.

Figure pat00017
Figure pat00017

Figure pat00018
는 주파수 영역에서의 한 프레임 단위의 전력 스펙트럼을 나타낸다.
Figure pat00019
,
Figure pat00020
Figure pat00021
번째 시간 영역의 음성신호를 FFT 취하여 주파수 영역에서 실수와 허수로 나타낸 것을 의미한다.
Figure pat00022
는 한 프레임의 FFT 크기보다 작은 값으로 음성 신호가 주로 분포하는 주파수 대역의 수를 의미한다.
Figure pat00023
는 임계치를 나타내며, 실시간으로 입력된 음성신호의 전력 스펙트럼 에너지 값 중에서 최적의 값이 임계치로 사용될 수 있다.
Figure pat00018
Represents a power spectrum of one frame unit in the frequency domain.
Figure pat00019
,
Figure pat00020
silver
Figure pat00021
Th time domain speech signal is represented by a real number and an imaginary number in the frequency domain.
Figure pat00022
Means the number of frequency bands in which the speech signal is mainly distributed with a value smaller than the FFT size of one frame.
Figure pat00023
And the optimum value among the power spectral energy values of the voice signal inputted in real time can be used as a threshold value.

도 5를 참조하면, 음성의 끝점 검출을 위한 후처리 방법은 주파수 영역의 에너지를 기반으로 한다. 후처리 알고리즘(방법)은 주파수 에너지 기반의 VAD를 통해 음성 시작 구간이 검출된 후 음성이 종료되는 시점을 검출하는 과정이다. 다음의 수학식과 같이 각 영역의 에너지 값을 각 프레임 단위로 임계치와 비교하고, 임계치보다 작은 경우, 비음성신호 구간에 있는 프레임 개수가 정해진 정수 값과 같아지면 음성을 종료하도록 수행될 수 있다. Referring to FIG. 5, a post-processing method for detecting end points of speech is based on energy in the frequency domain. A post-processing algorithm (method) is a process of detecting a time point at which a voice is terminated after a voice start interval is detected through a frequency energy based VAD. The energy value of each area is compared with a threshold value in units of frames as shown in the following equation, and if the number of frames in the non-speech signal interval is equal to the predetermined integer value, the speech can be terminated.

Figure pat00024
Figure pat00024

수학식 5에서

Figure pat00025
는 주파수 영역에서의 한 프레임 단위의 전력 스펙트럼 에너지를 나타낸다.
Figure pat00026
는 임계치보다 작은 에너지 값을 연속적으로 나타내는 프레임 개수이다.
Figure pat00027
은 음성 종료 시점을 결정하는데 사용되는 프레임의 개수를 의미하며, 이것은 정수 값일 수 있다.In Equation (5)
Figure pat00025
Represents the power spectral energy of one frame unit in the frequency domain.
Figure pat00026
Is the number of frames continuously representing an energy value smaller than the threshold value.
Figure pat00027
Means the number of frames used to determine the voice end time, which may be an integer value.

Figure pat00028
Figure pat00028

수학식 6은 수학식 5에서 설명한 음성 종료의 시간을 나타낸 식이다. 음성 종료 시점을 결정하는데 사용된 프레임 개수(

Figure pat00029
)와 한 프레임 단위의 샘플의 개수를 곱하여
Figure pat00030
으로 나누면
Figure pat00031
시간을 구할 수 있다. 비음성신호 구간에서 임계치보다 작은 프레임이
Figure pat00032
시간 동안 지속되었을 때 음성이 종료됨을 판별할 수 있다. Equation (6) represents the time of voice end described in Equation (5). The number of frames used to determine the end of speech (
Figure pat00029
) And the number of samples in one frame unit
Figure pat00030
Divided by
Figure pat00031
Time can be saved. In a non-speech signal section, a frame smaller than the threshold value
Figure pat00032
It is possible to judge that the voice is terminated when it lasts for a time period.

도 2는 본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 방법을 나타낸 순서도이다.2 is a flowchart illustrating a multi-party wireless communication method using speech recognition according to an exemplary embodiment of the present invention.

본 발명의 일 실시예에 따른 음성인식을 통한 다자간 무선 통신 방법은, 사용자로부터 발화된 음성의 신호를 입력받는 단계(S100), 음성의 신호로부터 음성 신호와 비음성 신호를 구분하여 검출하는 단계(S200), 검출된 음성 신호에 음성통제기능(Voice Operated eXchange, VOX)의 수행을 위한 소정의 명령어가 포함되었는지 여부를 판단하는 단계(S300) 및 명령어가 검출된 음성 신호에 포함되어 있다면 사용자의 발화된 음성의 신호를 타 사용자의 무선 통신 장치로 송신하고, 명령어가 검출된 음성 신호에 포함되어 있지 않다면 타 사용자로부터 발화된 음성의 신호를 입력받는 단계(S400)를 포함할 수 있다.A multi-party wireless communication method using speech recognition according to an exemplary embodiment of the present invention includes a step (S100) of receiving a voice signal from a user, a step of discriminating a voice signal and a non-voice signal from a voice signal S200), determining whether a predetermined command for performing a voice control function (VOX) is included in the detected voice signal (S300), and if the command is included in the detected voice signal, (S400) of transmitting a voice signal of another user to the wireless communication device of another user and receiving a voice signal of the voice from another user if the command is not included in the detected voice signal.

전술한 본 발명의 효과 등을 검증하기 위하여 다음과 같은 실험을 수행하였다. The following experiments were conducted to verify the effects of the present invention.

사용한 음성 신호는 남자 5명, 여자 1명이 실시간으로 입력한 음성신호를 사용하였다. 실험에서 사용한 음성 데이터는 무전기 음성 통제를 위한 명령어의 의미로 "음성시작", "마이크 입력" 등의 어휘로 구성되어 있으며, 각 화자가 단어 1개당 2번씩 발성하여 화자 당 총 8개의 단어를 테스트 데이터로 사용하였다. 시간 영역의 샘플 에너지와 주파수 영역의 전력스펙트럼에서 한 프레임에 사용된 샘플의 수는 320개이며, 샘플링 주파수는 16 kHz로 표본화하였다. 또한, 주파수 영역의 분석을 위해 FFT 크기는 512로 설정하였다. 본 실험에서는 시간 영역과 주파수 영역의 특성에 의한 음성 검출 성능을 평가하였으며, 실시간으로 입력된 음성신호의 에너지 값이 임계치보다 작은 경우 비음성신호 구간에서 일정한 프레임 동안 지속될 때 음성의 종료 시점을 결정하는 후처리 알고리즘에 대한 검증을 수행하였다. 본 실험은 시간 영역과 주파수 영역의 에너지에 의한 음성 검출 비교 실험과 본 발명의 일 실시예에 따른 후처리 방법을 적용한 실험으로 이루어져있다. 성능 평가 척도로 False alarm과 False reject의 오차를 사용하였다. 실험에 사용된 임계치는 기울기가 완만한 반비례 그래프를 나타낸 값을 통계적으로 추정하였으며, 공정한 평가를 위해 실제 환경에서 발생하는 잡음에 의해 성능이 달라지는 것을 고려하여 실시간 입력된 음성신호를 저장한 후, 스테레오 믹스 채널 상태에서(시스템 사운드: 70, 스피커 사운드: 25) 실험하였다. We used the voice signals input by 5 men and 1 woman in real time. The voice data used in the experiment consists of vocabulary such as "start of voice" and "microphone input" meaning commands for radio control of the radio. Each speaker utteres 2 words per word and tests 8 words per speaker Data were used. In the time domain sample energy and frequency domain power spectrum, the number of samples used in one frame is 320, and the sampling frequency is sampled at 16 kHz. Also, the FFT size is set to 512 for frequency domain analysis. In this experiment, the speech detection performance by the characteristics of the time domain and the frequency domain was evaluated. When the energy value of the speech signal inputted in real time was smaller than the threshold value, the ending point of the speech was determined when the non- We verified the post - processing algorithm. This experiment consists of experiments comparing the voice detection by the energy in the time domain and the frequency domain and the experiment using the post processing method according to the embodiment of the present invention. The error of False alarm and False reject was used as a performance evaluation scale. The threshold value used in the experiment was statistically estimated as a graph showing an inverse graph with a gentle slope. In order to evaluate fairly, a real-time input speech signal was stored considering a change in performance due to noise generated in a real environment, In the mix channel state (system sound: 70, speaker sound: 25).

이하의 표 1은 시간 영역의 샘플 에너지를 이용한 음성 검출의 False alarm 및 False reject 결과를 나타내고, 표 2는 주파수 영역의 전력 스펙트럼 에너지를 이용한 음성 검출의 False alarm 및 False reject 결과를 나타내며, 표 3은 전체 False alarm 및 False reject 결과를 나타낸다. Table 2 below shows False alarm and False reject results of the voice detection using the time-domain sample energy, Table 2 shows the false alarm and False reject results of the voice detection using the frequency spectrum power energy, Full False indicates alarm and False reject result.

Figure pat00033
Figure pat00033

Figure pat00034
Figure pat00034

Figure pat00035
Figure pat00035

표 3과 같이 주파수 영역이 시간 영역에 비해서 동일한 False reject 상황일 때 더 낮은 False alarm 오류율을 보인다. 이는 주파수 에너지 기반의 방식이 높은 음성 검출 성능을 나타낸다는 결과이다. 이는 두 영역의 에너지의 밀집도가 다르기 때문인데, 도 6을 참조하면, 도 6 (a)의 샘플 에너지가 (b)의 전력 스펙트럼 에너지에 비해서 음성 신호와 비음성 신호 두 구간의 평균 지점에 분산되어 있다. 즉, 두 구간의 평균 지점에 집중되어 있어 임계치에 의해 음성 신호와 비음성 신호를 판별하는데 용이하다는 것이다.As shown in Table 3, the False alarm error rate is lower when the frequency range is equal to the time-domain false rejection condition. This result shows that the frequency energy based method exhibits high voice detection performance. Referring to FIG. 6, the sample energy of FIG. 6 (a) is dispersed at the average point of the speech signal and the non-speech signal in comparison with the power spectrum energy of (b) have. That is, it is concentrated at the average point of the two sections, so that it is easy to distinguish between the voice signal and the non-voice signal by the threshold value.

Figure pat00036
Figure pat00036

표 4는 각 영역에 따라 제안한 후처리를 적용한 후의 음성 검출 결과이다. 음성 종료 시점을 결정하는 프레임 개수(

Figure pat00037
)는 정수 값 15로 설정하여 실험에 사용하였다. 이는 위 수학식 6에 따라 0.3초 동안 비음성신호 구간이 지속되었을 때 음성 종료 시점을 판단함을 뜻한다. 이 같은 후처리를 통해 두 영역에서의 False alarm과 False reject가 눈에 띄게 감소한 것으로 나타났다. Table 4 shows the results of voice detection after applying the proposed post-processing according to each region. The number of frames that determine the end time of voice (
Figure pat00037
) Was set to an integer value of 15 and used in the experiment. This means that the speech end time is determined when the non-speech signal duration is continued for 0.3 second according to Equation (6) above. This post-processing showed that False alarms and False rejects in both areas decreased significantly.

본 발명의 일 실시예에 따른 방법과 관련하여서는 전술한 장치에 대한 내용이 적용될 수 있다. 따라서, 방법과 관련하여, 전술한 장치에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.The contents of the above-described apparatus can be applied in connection with the method according to an embodiment of the present invention. Therefore, the description of the same contents as those of the above-mentioned apparatus has been omitted in connection with the method.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. One embodiment of the present invention may also be embodied in the form of a recording medium including instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer readable medium may include both computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.

1000: 음성인식을 통한 다자간 무선 통신 장치
1100: 음성 수집부
1200: 음성 검출부
1300: 음성 인식부
1400: 통신부
1500: 제어부
1600: 출력부
1000: Multipurpose wireless communication device through speech recognition
1100: Voice collecting unit
1200:
1300: Voice recognition unit
1400:
1500:
1600: Output section

Claims (6)

음성인식을 통한 다자간 무선 통신 장치로서,
사용자로부터 발화된 음성의 신호를 입력받기 위한 음성 수집부;
상기 음성의 신호로부터 음성 신호와 비음성 신호를 구분하여 검출하기 위한 음성 검출부;
상기 검출된 음성 신호에 음성통제기능(Voice Operated eXchange, VOX)의 수행을 위한 소정의 명령어가 포함되었는지 여부를 판단하기 위한 음성 인식부; 및
상기 명령어가 상기 검출된 음성 신호에 포함되어 있다면 통신부로 하여금 상기 사용자의 발화된 음성의 신호를 타 사용자의 무선 통신 장치로 송신하게 하고, 상기 명령어가 상기 검출된 음성 신호에 포함되어 있지 않다면 상기 통신부로 하여금 상기 타 사용자로부터 발화된 음성의 신호를 입력받게 하는 제어부를 포함하는 것을 특징으로 하는 음성인식을 통한 다자간 무선 통신 장치.
A multi-party wireless communication apparatus using speech recognition,
A voice collector for receiving a voice signal from a user;
A voice detector for separating a voice signal and a non-voice signal from the voice signal and detecting the voice signal;
A voice recognition unit for determining whether a predetermined command for performing a voice control function (VOX) is included in the detected voice signal; And
If the command is included in the detected voice signal, causing the communication unit to transmit a signal of the user's uttered voice to a wireless communication apparatus of another user, and if the command is not included in the detected voice signal, And a controller for receiving a voice signal from the other user to input the voice signal.
제 1 항에 있어서,
상기 음성인식을 통한 다자간 무선 통신 장치에는 상기 타 사용자로부터 발화된 음성의 신호가 사운드로 출력되는 출력부를 더 포함하는 것을 특징으로 하는 음성인식을 통한 다자간 무선 통신 장치.
The method according to claim 1,
Further comprising an output unit for outputting a sound signal of an uttered voice from the other user to the multi-user wireless communication apparatus through the voice recognition.
제 1 항에 있어서,
상기 음성 검출부에서는 상기 음성의 신호로부터 음성 신호 구간과 비음성 신호 구간이 각각 검출되고, 상기 검출은 주파수 영역에서의 에너지 값에 기초하여 수행되는 것인 음성인식을 통한 다자간 무선 통신 장치.
The method according to claim 1,
Wherein the voice detection section detects a voice signal section and a non-voice signal section from the voice signal, respectively, and the detection is performed based on an energy value in the frequency domain.
제 4 항에 있어서,
상기 음성 신호 구간의 검출에서의 음성의 종료 시점은 상기 주파수 영역에서의 음성 신호의 프레임 단위의 전력 스펙트럼에서 상기 에너지 값이 임계값보다 작은 프레임의 개수에 기초하여 결정되는 것인 음성인식을 통한 다자간 무선 통신 장치.
5. The method of claim 4,
Wherein the end point of the voice in the detection of the voice signal section is determined based on the number of frames whose energy value is smaller than the threshold value in the power spectrum of the voice signal in the frequency domain in frame units, Wireless communication device.
음성인식을 통한 다자간 무선 통신 방법으로서,
사용자로부터 발화된 음성의 신호를 입력받는 단계;
상기 음성의 신호로부터 음성 신호와 비음성 신호를 구분하여 검출하는 단계;
상기 검출된 음성 신호에 음성통제기능(Voice Operated eXchange, VOX)의 수행을 위한 소정의 명령어가 포함되었는지 여부를 판단하는 단계; 및
상기 명령어가 상기 검출된 음성 신호에 포함되어 있다면 상기 사용자의 발화된 음성의 신호를 타 사용자의 무선 통신 장치로 송신하고, 상기 명령어가 상기 검출된 음성 신호에 포함되어 있지 않다면 상기 타 사용자로부터 발화된 음성의 신호를 입력받는 단계를 포함하는 것을 특징으로 하는 음성인식을 통한 다자간 무선 통신 방법.
A multi-party wireless communication method using voice recognition,
Receiving a voice signal of a voice from a user;
Separating and detecting a voice signal and a non-voice signal from the voice signal;
Determining whether a predetermined command for performing a voice control function (VOX) is included in the detected voice signal; And
If the command is included in the detected voice signal, transmit the voice signal of the user to the wireless communication apparatus of another user, and if the command is not included in the detected voice signal, And receiving a voice signal from the voice recognition unit.
제 5 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.

A computer-readable recording medium on which a program for implementing the method of claim 5 is recorded.

KR1020160162050A 2016-11-30 2016-11-30 The apparatus and method for communicating between multiple users using voice recognition KR20180062127A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160162050A KR20180062127A (en) 2016-11-30 2016-11-30 The apparatus and method for communicating between multiple users using voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160162050A KR20180062127A (en) 2016-11-30 2016-11-30 The apparatus and method for communicating between multiple users using voice recognition

Publications (1)

Publication Number Publication Date
KR20180062127A true KR20180062127A (en) 2018-06-08

Family

ID=62600584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160162050A KR20180062127A (en) 2016-11-30 2016-11-30 The apparatus and method for communicating between multiple users using voice recognition

Country Status (1)

Country Link
KR (1) KR20180062127A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050006264A (en) * 2002-05-29 2005-01-15 노키아 코포레이션 Method in a digital network system for controlling the transmission of terminal equipment
KR20070086497A (en) * 2004-12-22 2007-08-27 모토로라 인코포레이티드 Hands-free push-to-talk radio
KR101056511B1 (en) 2008-05-28 2011-08-11 (주)파워보이스 Speech Segment Detection and Continuous Speech Recognition System in Noisy Environment Using Real-Time Call Command Recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050006264A (en) * 2002-05-29 2005-01-15 노키아 코포레이션 Method in a digital network system for controlling the transmission of terminal equipment
KR20070086497A (en) * 2004-12-22 2007-08-27 모토로라 인코포레이티드 Hands-free push-to-talk radio
KR101056511B1 (en) 2008-05-28 2011-08-11 (주)파워보이스 Speech Segment Detection and Continuous Speech Recognition System in Noisy Environment Using Real-Time Call Command Recognition

Similar Documents

Publication Publication Date Title
EP3590113B1 (en) Method and apparatus for detecting spoofing conditions
US11270707B2 (en) Analysing speech signals
Ghosh et al. Robust voice activity detection using long-term signal variability
US20200227071A1 (en) Analysing speech signals
KR100636317B1 (en) Distributed Speech Recognition System and method
CN1950882B (en) Detection of end of utterance in speech recognition system
US10412488B2 (en) Microphone array signal processing system
US8589167B2 (en) Speaker liveness detection
US10319391B2 (en) Impulsive noise suppression
KR20210038871A (en) Detection of replay attacks
US10074384B2 (en) State estimating apparatus, state estimating method, and state estimating computer program
US20150228277A1 (en) Voiced Sound Pattern Detection
WO2014153800A1 (en) Voice recognition system
WO2014114049A1 (en) Voice recognition method and device
EP2083417B1 (en) Sound processing device and program
WO2014114048A1 (en) Voice recognition method and apparatus
KR101863097B1 (en) Apparatus and method for keyword recognition
KR20080104667A (en) System and method of estimating microphone performance for recognizing remote voice in robot
JP2009003040A (en) Speech interaction device, speech interaction method and robot device
Lee et al. Intra‐and Inter‐frame Features for Automatic Speech Recognition
US11528571B1 (en) Microphone occlusion detection
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
Williams et al. Privacy-Preserving Occupancy Estimation
KR20180062127A (en) The apparatus and method for communicating between multiple users using voice recognition
KR101243766B1 (en) System and method for deciding user’s personality using voice signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application