KR102344618B1 - Apparatus for quality evaluation of voice recognition, and control method thereof - Google Patents

Apparatus for quality evaluation of voice recognition, and control method thereof Download PDF

Info

Publication number
KR102344618B1
KR102344618B1 KR1020190149788A KR20190149788A KR102344618B1 KR 102344618 B1 KR102344618 B1 KR 102344618B1 KR 1020190149788 A KR1020190149788 A KR 1020190149788A KR 20190149788 A KR20190149788 A KR 20190149788A KR 102344618 B1 KR102344618 B1 KR 102344618B1
Authority
KR
South Korea
Prior art keywords
voice
communication device
quality evaluation
voice communication
time
Prior art date
Application number
KR1020190149788A
Other languages
Korean (ko)
Other versions
KR20210061805A (en
Inventor
정기철
정상립
이창근
김성민
박영수
박재현
Original Assignee
에스케이브로드밴드주식회사
주식회사 넥스트랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이브로드밴드주식회사, 주식회사 넥스트랩 filed Critical 에스케이브로드밴드주식회사
Priority to KR1020190149788A priority Critical patent/KR102344618B1/en
Publication of KR20210061805A publication Critical patent/KR20210061805A/en
Application granted granted Critical
Publication of KR102344618B1 publication Critical patent/KR102344618B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가하기 위한 음성인식 품질평가장치 및 그 동작 방법에 관한 것이다.The present invention relates to a voice recognition quality evaluation apparatus for evaluating voice recognition quality in comprehensive consideration of support functions of voice communication devices equipped with voice recognition technology in an IPTV service environment, and to a method of operating the same.

Description

음성인식 품질평가장치 및 그 동작 방법{APPARATUS FOR QUALITY EVALUATION OF VOICE RECOGNITION, AND CONTROL METHOD THEREOF}Speech recognition quality evaluation device and its operation method

본 발명은 IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가하기 위한 방안에 관한 것이다.The present invention relates to a method for evaluating voice recognition quality in comprehensive consideration of the support functions of voice communication devices equipped with voice recognition technology in an IPTV service environment.

최근에는 인터넷을 통해 다양한 컨텐츠의 프로그램을 제공할 수 있으며, 통신 서비스와 방송 서비스가 결합된 양방향 방송 서비스인 IPTV(internet protocol television) 서비스가 널리 보급되고 있는 실정이다.Recently, programs of various contents can be provided through the Internet, and an IPTV (internet protocol television) service, which is an interactive broadcasting service in which a communication service and a broadcasting service are combined, is widely distributed.

이러한 IPTV 서비스는 예컨대, 방송 컨텐츠, 인터넷 컨텐츠, VoD(Video on Demand) 등의 다양한 컨텐츠를 제공하고 있으며, 사용자는 IPTV에서 제공되는 UI(User Interface) 화면을 통해 원하는 서비스를 선택하여 시청 또는 이용할 수 있다.The IPTV service provides various contents such as broadcast contents, Internet contents, and VoD (Video on Demand), for example, and the user can view or use the desired service through the UI (User Interface) screen provided by the IPTV. have.

일반적으로 IPTV 서비스를 제공받기 위해서 셋탑박스(Set-Top Box)가 필요하다.In general, a set-top box is required to receive an IPTV service.

특히, 최근의 셋탑박스 또는 셋탑박스와 연동되는 스피커의 경우, 소위 AI(Artificial Intelligence) 서비스라 일컬어지는 음성 인식 기술을 적용하여 사용자와의 대화를 통해 사용자 제어 명령을 인식하고 인식된 사용자 제어 명령에 대응되는 동작을 수행하는 단계에까지 이르게 되었다.In particular, in the case of recent set-top boxes or speakers linked to set-top boxes, voice recognition technology called AI (Artificial Intelligence) service is applied to recognize user control commands through conversation with users and respond to the recognized user control commands. It has reached the stage of performing the corresponding action.

여기서, 음성 인식 기술은 대표적인 HMI(Human Machine Interface) 기술 중의 하나로서 그 적용 처가 날로 확장되고 있으며, 이러한 상용화 핵심 중 하나는 사용자들이 수용할 수 있는 신뢰성과 객관성 있는 인식률의 보장 여부 등을 들 수 있다.Here, voice recognition technology is one of the representative Human Machine Interface (HMI) technologies, and its application is expanding day by day. .

그러나 음성 인식 기술의 경우 발화자, 주변환경, 음성인식기기 등과 같은 여러 가지 시변성이 존재하게 되며, 이러한 요인으로 인해 음성 인식 품질을 보장하기가 어려운 실정이다. However, in the case of voice recognition technology, various time variability such as a speaker, a surrounding environment, a voice recognition device, etc. exist, and it is difficult to guarantee voice recognition quality due to these factors.

따라서, 음성 인식 기술을 채택하고 있는 IPTV 서비스 환경에서 사용자 만족도를 제고하기 위해선, 음성 인식 기술을 탑재한 음성대화기기에 대한 음성 인식 품질을 주기적으로 평가하여 관리할 필요가 있다.Therefore, in order to improve user satisfaction in an IPTV service environment employing voice recognition technology, it is necessary to periodically evaluate and manage the voice recognition quality of voice communication devices equipped with voice recognition technology.

이에, 본 발명에서는 IPTV 서비스 환경에서 음성 인식 기술에 적용된 음성대화기기의 품질을 평가하기 위한 방안을 제안하고자 한다.Accordingly, the present invention intends to propose a method for evaluating the quality of a voice communication device applied to a voice recognition technology in an IPTV service environment.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가하는데 있다.The present invention was created in view of the above circumstances, and an object of the present invention is to evaluate the voice recognition quality by comprehensively considering the support function of a voice communication device equipped with a voice recognition technology in an IPTV service environment. .

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성인식 품질평가장치는, 음성대화기기의 지원 기능에 따라서 테스트 음성신호에 대한 인식 성능을 평가하는 기본품질평가방식이 포함된 종합품질평가방식을 결정하는 평가방식 결정부; 및 상기 기본품질평가방식을 수행하는 과정에서 상기 음성대화기기의 지원 기능 별 반응 동작이 검출되는 시점까지의 소요시간을 측정하여, 상기 소요시간, 및 상기 기본품질평가방식의 수행 결과 중 적어도 하나를 기초로 상기 종합품질평가방식에 따른 상기 음성대화기기의 품질을 평가하는 품질 평가부를 포함하는 것을 특징으로 한다.A voice recognition quality evaluation apparatus according to an embodiment of the present invention for achieving the above object is a comprehensive quality evaluation method including a basic quality evaluation method for evaluating the recognition performance of a test voice signal according to a support function of a voice communication device an evaluation method determining unit to determine and measuring a time required until a response operation for each supported function of the voice communication device is detected in the process of performing the basic quality evaluation method, and calculating at least one of the required time and the execution result of the basic quality evaluation method. and a quality evaluation unit for evaluating the quality of the voice communication device according to the comprehensive quality evaluation method based on the quality evaluation method.

구체적으로, 상기 품질 평가부는, 상기 기본품질평가방식에 따라 기 정의된 테스트 스크립트를 기초로 생성된 상기 테스트 음성신호에 대해 상기 음성대화기기로부터의 피드백 발화신호가 인식되는 경우, 상기 피드백 발화신호를 인식한 결과인 피드백 텍스트와 상기 테스트 스크립트와 매칭되는 응답 스크립트 간의 유사도를 기초로 상기 음성대화기기의 품질을 평가할 수 있다.Specifically, the quality evaluation unit, when the feedback utterance signal from the voice communication device is recognized with respect to the test voice signal generated based on a test script predefined according to the basic quality evaluation method, the feedback utterance signal The quality of the voice communication device may be evaluated based on the similarity between the recognized result of the feedback text and the response script matching the test script.

구체적으로, 상기 테스트 음성신호는, 상기 테스트 스크립트와 매칭되는 기본음성신호에 대해 기 설정된 신호대잡음비(SNR)에 따른 잡음신호를 합성한 형태로 하나의 스피커를 통해 출력되거나, 또는 상기 기본음성신호와 상기 잡음신호가 각각의 스피커를 통해 출력되는 형태를 가질 수 있다.Specifically, the test voice signal is output through a single speaker in the form of synthesizing a noise signal according to a preset signal-to-noise ratio (SNR) with respect to a basic voice signal matching the test script, or the basic voice signal and the The noise signal may be output through each speaker.

구체적으로, 상기 품질 평가부는, 상기 테스트 음성신호의 발화 이전에 상기 음성대화기기를 호출한 호출명령 발화 종료시점부터 상기 호출명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 호출인식 소요시간, 및 상기 테스트 음성신호가 발화된 테스트명령 발화 종료시점으로부터 상기 테스트명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 명령처리 소요시간 중 적어도 하나를 측정할 수 있다.Specifically, the quality evaluator may include a call, which is a time from the end of uttering the call command for calling the voice communication device before the utterance of the test voice signal to the point at which a reaction operation of the voice communication device to the call command is detected. It is possible to measure at least one of a required time for recognition and a required time for command processing, which is a time from the end of uttering the test command in which the test voice signal is uttered to the time when a reaction operation of the voice communication device is detected in response to the test command. .

구체적으로, 상기 호출인식 소요시간은, 상기 음성대화기기의 지원 기능에 따라 상기 호출명령에 대해 상기 음성대화기기의 LED 동작이 검출되는 시점, 및 상기 음성대화기기의 반응 소리가 검출되는 시점까지의 시점 중 적어도 하나의 시점까지의 시간으로 측정될 수 있다.Specifically, the time required for call recognition is the time from when the LED operation of the voice communication device is detected to the call command according to the support function of the voice communication device, and the time when a response sound of the voice communication device is detected. It may be measured as a time to at least one of the time points.

구체적으로, 상기 명령처리 소요시간은, 상기 음성대화기기의 지원 기능에 따라 상기 테스트명령에 대해 상기 음성대화기기의 피드백발화가 시작된 시점, 및 상기 음성대화기기의 UI(User Interface)로부터 피드백발화와 관련된 영상 신호가 출력되는 시점 중 적어도 하나의 시점까지의 시간으로 측정될 수 있다.Specifically, the command processing time required is the timing at which the feedback utterance of the voice communication device starts in response to the test command according to the support function of the voice communication device, and the feedback utterance from the UI (User Interface) of the voice communication device. It may be measured as a time from when the related image signal is output to at least one time point.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성인식 품질평가장치의 동작 방법은, 음성대화기기의 지원 기능에 따라서 테스트 음성신호에 대한 인식 성능을 평가하는 기본품질평가방식이 포함된 종합품질평가방식을 결정하는 평가방식 결정단계; 및 상기 기본품질평가방식을 수행하는 과정에서 상기 음성대화기기의 지원 기능 별 반응 동작이 검출되는 시점까지의 소요시간을 측정하여, 상기 소요시간, 및 상기 기본품질평가방식의 수행 결과 중 적어도 하나를 기초로 상기 종합품질평가방식에 따른 상기 음성대화기기의 품질을 평가하는 품질 평가단계를 포함하는 것을 특징으로 한다.In order to achieve the above object, a method of operating a voice recognition quality evaluation apparatus according to an embodiment of the present invention for achieving the above object includes a basic quality evaluation method for evaluating the recognition performance of a test voice signal according to a support function of a voice communication device. an evaluation method determining step of determining a quality evaluation method; and measuring a time required until a response operation for each supported function of the voice communication device is detected in the process of performing the basic quality evaluation method, and calculating at least one of the required time and the execution result of the basic quality evaluation method. and a quality evaluation step of evaluating the quality of the voice communication device based on the comprehensive quality evaluation method.

구체적으로, 상기 품질 평가단계는, 상기 기본품질평가방식에 따라 기 정의된 테스트 스크립트를 기초로 생성된 상기 테스트 음성신호에 대해 상기 음성대화기기로부터의 피드백 발화신호가 인식되는 경우, 상기 피드백 발화신호를 인식한 결과인 피드백 텍스트와 상기 테스트 스크립트와 매칭되는 응답 스크립트 간의 유사도를 기초로 상기 음성대화기기의 품질을 평가할 수 있다.Specifically, in the quality evaluation step, when the feedback utterance signal from the voice communication device is recognized with respect to the test voice signal generated based on a test script predefined according to the basic quality evaluation method, the feedback utterance signal The quality of the voice communication device may be evaluated based on the similarity between the feedback text, which is a result of recognizing , and the response script matching the test script.

구체적으로, 상기 테스트 음성신호는, 상기 테스트 스크립트와 매칭되는 기본음성신호에 대해 기 설정된 신호대잡음비(SNR)에 따른 잡음신호를 합성한 형태로 하나의 스피커를 통해 출력되거나, 또는 상기 기본음성신호와 상기 잡음신호가 각각의 스피커를 통해 출력되는 형태를 가질 수 있다.Specifically, the test voice signal is output through a single speaker in the form of synthesizing a noise signal according to a preset signal-to-noise ratio (SNR) with respect to a basic voice signal matching the test script, or the basic voice signal and the The noise signal may be output through each speaker.

구체적으로, 상기 품질 평가단계는, 상기 테스트 음성신호의 발화 이전에 상기 음성대화기기를 호출한 호출명령 발화 종료시점부터 상기 호출명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 호출인식 소요시간, 및 상기 테스트 음성신호가 발화된 테스트명령 발화 종료시점으로부터 상기 테스트명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 명령처리 소요시간 중 적어도 하나를 측정할 수 있다.Specifically, in the quality evaluation step, the time from the end of uttering the call command for calling the voice communication device before the utterance of the test voice signal to the point at which a reaction operation of the voice communication device to the call command is detected. It is possible to measure at least one of a call recognition time and a command processing time, which is a time from the end of the test command utterance in which the test voice signal is uttered to the time when a reaction operation of the voice communication device is detected in response to the test command. have.

구체적으로, 상기 호출인식 소요시간은, 상기 음성대화기기의 지원 기능에 따라 상기 호출명령에 대해 상기 음성대화기기의 LED 동작이 검출되는 시점, 및 상기 음성대화기기의 반응 소리가 검출되는 시점 중 적어도 하나의 시점까지의 시간으로 측정될 수 있다.Specifically, the time required for call recognition is at least among a time when an LED operation of the voice communication device is detected and a response sound of the voice communication device is detected in response to the call command according to the support function of the voice communication device. It can be measured as the time to a point in time.

구체적으로, 상기 명령처리 소요시간은, 상기 음성대화기기의 지원 기능에 따라 상기 테스트명령에 대해 상기 음성대화기기의 피드백발화가 시작된 시점, 또는 상기 음성대화기기의 UI(User Interface)로부터 피드백발화와 관련된 영상 신호가 출력되는 시점까지의 시간으로 측정될 수 있다.Specifically, the command processing time required is the time when the feedback utterance of the voice communication device is started in response to the test command or the feedback utterance from the UI (User Interface) of the voice communication device according to the support function of the voice communication device. It may be measured as the time until the time at which the related image signal is output.

이에, 본 발명에 따른 음성인식 품질평가장치 및 그 동작 방법에 의하면, IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가하여 관리할 수 있으므로, 음성 인식 기술을 채택하고 있는 IPTV 서비스에서의 사용자 만족도를 크게 제고할 수 있다.Therefore, according to the voice recognition quality evaluation apparatus and the operating method thereof according to the present invention, it is possible to evaluate and manage the voice recognition quality by comprehensively considering the support function of the voice communication device equipped with the voice recognition technology in the IPTV service environment, It is possible to greatly improve user satisfaction in IPTV services that employ voice recognition technology.

도 1은 본 발명의 일 실시예에 따른 IPTV 서비스 환경을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 음성인식 품질평가장치의 개략적인 구성도.
도 3은 및 도 4는 본 발명의 일 실시예에 따른 테스트 시나리오를 설명하기 위한 예시도.
도 5는 본 발명의 일 실시예에 따른 음성대화기기에 대해 측정되는 소요시간을 설명하기 위한 예시도.
도 6은 본 발명의 일 실시예에 따른 음성인식 품질평가장치의 동작 방법을 설명하기 위한 순서도.
1 is an exemplary diagram for explaining an IPTV service environment according to an embodiment of the present invention.
2 is a schematic configuration diagram of a voice recognition quality evaluation apparatus according to an embodiment of the present invention.
3 and 4 are exemplary diagrams for explaining a test scenario according to an embodiment of the present invention.
5 is an exemplary diagram for explaining a required time measured for a voice communication device according to an embodiment of the present invention;
6 is a flowchart for explaining a method of operating a voice recognition quality evaluation apparatus according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명한다.Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 IPTV 서비스 환경을 개략적으로 보여주고 있다.1 schematically shows an IPTV service environment according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 IPTV 서비스 환경은, 음성 인식 기술을 탑재한 음성대화기기(100)를 포함한다.The IPTV service environment according to an embodiment of the present invention includes a voice communication device 100 equipped with voice recognition technology.

음성대화기기(100)는 예컨대, IPTV 서비스를 수신하기 위해 댁내에 설치된 셋탑박스(set-top box)와의 연동을 위한 AI 스피커이거나, 또는 셋탑박스와 AI 스피커의 기능을 겸하는 AI 셋탑박스일 수 있다.The voice communication device 100 may be, for example, an AI speaker for interworking with a set-top box installed in the house to receive an IPTV service, or an AI set-top box that functions both as a set-top box and an AI speaker. .

이러한 음성대화기기(100)는 음성 인식 기술을 통해서 사용자와의 대화로부터 사용자 제어 명령을 인식하고 인식된 사용자 제어 명령에 대응되는 동작을 수행할 수 있다.The voice communication device 100 may recognize a user control command from a conversation with the user through voice recognition technology and perform an operation corresponding to the recognized user control command.

한편, 이처럼 사용자와의 대화로부터 사용자 제어 명령을 인식하고 인식된 사용자 제어 명령에 상응하는 정확한 동작을 수행하기 위해선, 신뢰성과 객관성 있는 인식률을 보장할 필요가 있다.Meanwhile, in order to recognize a user control command from a conversation with the user and perform an accurate operation corresponding to the recognized user control command, it is necessary to ensure reliability and an objective recognition rate.

그러나 음성 인식 기술의 경우 발화자, 주변환경, 음성인식기기 등과 같은 여러 가지 시변성이 존재하게 되며, 이러한 요인으로 인해 음성 인식 품질을 보장하기 어려운 실정이다.However, in the case of voice recognition technology, various time variability such as a speaker, a surrounding environment, and a voice recognition device exist, and it is difficult to guarantee voice recognition quality due to these factors.

따라서, 음성 인식 기술을 채택하고 있는 IPTV 서비스 환경에서 사용자 만족도를 제고하기 위해선, 음성 인식 기술을 탑재한 음성대화기기(100)에 대해 음성 인식 품질을 주기적으로 평가하여 관리할 필요가 있다.Therefore, in order to improve user satisfaction in the IPTV service environment employing the voice recognition technology, it is necessary to periodically evaluate and manage the voice recognition quality of the voice communication device 100 equipped with the voice recognition technology.

이에, 본 발명의 일 실시예에서는 IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 품질을 평가하기 위한 구성으로서, 음성인식 품질평가장치(200)를 더 포함하게 된다.Accordingly, in an embodiment of the present invention, as a configuration for evaluating the quality of a voice communication device equipped with a voice recognition technology in an IPTV service environment, the voice recognition quality evaluation apparatus 200 is further included.

이러한, 음성인식 품질평가장치(200)는 음성대화기기(100)의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가할 수 있으며, 이하에서는 이를 실현하기 위한 음성인식 품질평가장치(200)의 구성에 대해 보다 구체적으로 설명하기로 한다.The voice recognition quality evaluation device 200 can evaluate the voice recognition quality by comprehensively considering the support functions of the voice communication device 100, and in the following, in the configuration of the voice recognition quality evaluation device 200 for realizing this will be described in more detail.

도 2는 본 발명의 일 실시예에 따른 음성인식 품질평가장치(200)의 개략적인 구성을 보여주고 있다.2 shows a schematic configuration of a voice recognition quality evaluation apparatus 200 according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성인식 품질평가장치(200)는 품질평가방식을 결정하는 평가방식 결정부(210), 테스트 음성신호를 생성하는 음성발화 명령부(220), 피드백 발화신호(음성신호)를 인식하는 발화음성 인식부(230), 및 품질을 평가하는 품질 평가부(260)를 포함할 수 있다.As shown in Fig. 2, the voice recognition quality evaluation apparatus 200 according to an embodiment of the present invention includes an evaluation method determining unit 210 that determines a quality evaluation method, and a voice command unit generating a test voice signal ( 220), a spoken speech recognition unit 230 for recognizing a feedback speech signal (voice signal), and a quality evaluation unit 260 for evaluating quality.

또한, 본 발명의 일 실시예에서는, 품질 평가가 이루어지는 음성대화기기(100)의 지원 기능에 따라서 엘이디 동작 검출부(240), 및 영상 처리부(250)의 구성을 더 포함할 수 있다.In addition, in one embodiment of the present invention, the configuration of the LED motion detection unit 240 and the image processing unit 250 may be further included according to the supported function of the voice communication device 100 for which quality evaluation is performed.

한편, 본 발명의 일 실시예에 따른 음성인식 품질평가장치(200)는 전술한 구성 이외에 음성대화기기(100)의 품질 평가를 위해 동작하게 되는 음성인식 품질평가장치(200) 내 각 구성의 제어를 위한 별도의 구성인 제어부(270)를 더 포함할 수 있다.On the other hand, the voice recognition quality evaluation apparatus 200 according to an embodiment of the present invention controls each component in the voice recognition quality evaluation apparatus 200 that is operated for quality evaluation of the voice communication device 100 in addition to the above-described configuration. It may further include a control unit 270 as a separate component for the.

이러한 음성인식 품질평가장치(200)의 구성 전체 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 내지는 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.All or at least a part of the configuration of the voice recognition quality evaluation apparatus 200 may be implemented in the form of a hardware module or a software module, or may be implemented in a form in which a hardware module and a software module are combined.

여기서, 소프트웨어 모듈이란, 예컨대, 음성인식 품질평가장치(200) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 음성인식 품질평가장치(200) 내 메모리에 탑재된 어플리케이션의 형태를 가질 수 있을 것이다.Here, the software module may be understood as, for example, a command executed by a processor for controlling operations in the voice recognition quality evaluation device 200, and these commands are mounted in a memory in the voice recognition quality evaluation device 200. It may have the form of an application.

이상, 본 발명의 일 실시예에 따른 음성인식 품질평가장치(200)는 전술한 구성을 통해서, 음성대화기기(100)의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가할 수 있는데, 이하에서는 이를 실현하기 위한 음성인식 품질평가장치(200) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.As described above, the voice recognition quality evaluation apparatus 200 according to an embodiment of the present invention can evaluate the voice recognition quality by comprehensively considering the support functions of the voice communication device 100 through the above-described configuration. Each configuration in the voice recognition quality evaluation apparatus 200 for realization will be described in more detail.

평가방식 결정부(210)는 음성대화기기(100)에 대한 품질평가방식을 결정하는 기능을 수행한다.The evaluation method determining unit 210 performs a function of determining a quality evaluation method for the voice communication device 100 .

보다 구체적으로, 평가방식 결정부(210)는 음성대화기기(100)의 지원 기능에 따라서 음성대화기기(100)의 품질을 평가하기 위한 종합품질평가방식을 결정하게 된다.More specifically, the evaluation method determining unit 210 determines a comprehensive quality evaluation method for evaluating the quality of the voice communication device 100 according to the supported function of the voice communication device 100 .

여기서, 음성대화기기(100)의 지원 기능의 경우, 음성 인식 기술이 탑재된 대상 기기가, 음성신호 기반의 인터페이스만을 지원하는 AI 스피커인지 또는 음성신호와 영상신호 기반의 인터페이스를 모두 지원하는 AI 셋탑박스 인지에 따라 달라질 수 있다.Here, in the case of the support function of the voice communication device 100, whether the target device equipped with the voice recognition technology is an AI speaker that supports only an interface based on a voice signal or an AI set-top that supports both an interface based on a voice signal and a video signal It may vary depending on whether the box is recognized.

한편, 이처럼 음성대화기기(100)의 지원 기능에 따라 결정되는 종합품질평가방식은, 테스트 음성신호에 대한 음성대화기기(100)의 인식 성능을 평가하는 기본품질평가방식을 기본적으로 포함하도록 결정될 수 있다.On the other hand, as described above, the comprehensive quality evaluation method determined according to the supported function of the voice communication device 100 may be determined to basically include a basic quality evaluation method for evaluating the recognition performance of the voice communication device 100 for the test voice signal. have.

이러한, 기본품질평각방식에 따른 음성대화기기(100)의 품질 평가 과정을 살펴보면 다음과 같다.The quality evaluation process of the voice communication device 100 according to the basic quality evaluation method is as follows.

음성발화 명령부(220)는 기 정의된 테스트 스크립트를 기초로 테스트 음성신호를 생성하고, 생성된 테스트 음성신호를 발화용 스피커(221)를 통해 출력할 수 있다.The voice command unit 220 may generate a test voice signal based on a predefined test script, and output the generated test voice signal through the speaker 221 for utterance.

여기서, 테스트 스크립트는 음성대화기기(100)의 품질을 평가하기 위한 텍스트 형태의 시나리오를 일컫는 것으로서, 복수의 테스트 스크립트와 테스트 스크립트 각각에 대한 응답 스크립트가 매칭된 형태로 별도의 데이터 베이스(DB)에 저장되어 관리될 수 있다.Here, the test script refers to a scenario in the form of text for evaluating the quality of the voice communication device 100, and is stored in a separate database (DB) in a form in which a plurality of test scripts and a response script for each of the test scripts are matched. It can be stored and managed.

예를 들어, 테스트 스크립트는 "실내 온도 높여줘", "재미있는 예능 프로 틀어줘" 등을 포함할 수 있으며, 이에 상응하는 응답 스크립트는 "실내 온도를 몇도로 설정할까요?", "*** 프로 **회를 다시보기 하시겠습니까?" 등을 포함할 수 있다.For example, a test script may include "Raise the room temperature", "Play a fun entertainment program", etc., and the corresponding response script can include "How many degrees should I set the room temperature?", "*** Pro * *Would you like to watch the episode again?" and the like.

이때, 응답 스크립트는 하나의 테스트 스크립트에 대해 여러 개의 텍스트 유형으로 이루어진 스크립트를 포함할 수 있음은 물론이다.In this case, it goes without saying that the response script may include a script composed of several text types for one test script.

정리하자면, 음성발화 명령부(220)는 기 저장되어 있는 복수의 테스트 스크립트 중에서 선택된 어느 하나의 테스트 스크립트를 입력받고, 상기 입력된 테스트 스크립트를 TTS(Text To Speech) 모듈을 통해 음성 변환하여 상기 테스트 음성 신호를 생성할 수 있는 것이다.In summary, the speech command unit 220 receives any one test script selected from among a plurality of pre-stored test scripts, and converts the input test script into speech through a Text To Speech (TTS) module to perform the test. It can generate a voice signal.

여기서, 음성발화 명령부(220)는 복수의 테스트 스크립트를 선택하기 위해서 랜덤 선택 방식을 채용할 수도 있고 이와 달리 미리 설정된 순서나 패턴에 따른 지정 선택 방식을 채용할 수도 있다.Here, the voice command unit 220 may employ a random selection method to select a plurality of test scripts or, alternatively, may employ a designated selection method according to a preset order or pattern.

물론, 음성발화 명령부(220)는 테스트 스크립트를 이용하는 방식 이외에 소스 음원을 이용하여 테스트 음성신호를 생성하고, 생성된 테스트 음성신호를 발화용 스피커(101)를 통해 출력할 수도 있다.Of course, in addition to using the test script, the voice command unit 220 may generate a test voice signal using a source sound source and output the generated test voice signal through the speaker 101 for utterance.

이를 위해, 음성발화 명령부(220)는 사람의 목소리를 녹음하거나 SSML(Speech Synthesis Markup Language) 기반의 TTS 기술을 통해 소스 음원을 생성하고, 딥러닝 기술(GAN/VAE)을 이용하여 소스 음원을 변조하여 복수의 음색 및 억양의 목소리로 이루어진 테스트 음성신호를 생성할 수 있다.To this end, the voice command unit 220 records a human voice or generates a source sound source through SSML (Speech Synthesis Markup Language)-based TTS technology, and uses deep learning technology (GAN/VAE) to select the source sound source. It is possible to generate a test voice signal composed of a plurality of tones and intonations by modulation.

한편, 음성발화 명령부(220)는 테스트 음성신호를 생성함에 있어서, 소스 음원에 잡음과 배경음을 신호대잡음비(SNR)로 합성하여 테스트 음성신호를 생성할 수 있고, 또 달리 배경소음 스피커(222)를 통해 잡음과 배경음을 상기 발화용 스피커(221)와는 별도로 출력할 수도 있으며, 또한, 음성 발화 명령부(220)는 에코 및 딜레이를 포함한 사운드 효과를 합성하여 테스트 음성 신호를 생성할 수도 있다.Meanwhile, in generating the test voice signal, the voice command unit 220 may generate a test voice signal by synthesizing noise and a background sound with a signal-to-noise ratio (SNR) to a source sound source, and alternatively, a background noise speaker 222 . The noise and background sound may be output separately from the speaker 221 for utterance, and the voice command unit 220 may generate a test voice signal by synthesizing sound effects including echo and delay.

즉, 테스트 음성신호는 테스트 스크립트와 매칭되는 기본음성신호에 대해 기 설정된 신호대잡음비(SNR)에 따른 잡음신호를 합성한 형태로 발화용 스피커(221)로 출력되거나, 또는 기본음성신호는 발화용 스피커(221)로 출력되고 잡음신호는 발화용 스피커(221)와는 별도의 스피커인 배경소음 스피커(222)를 통해 출력되는 형태를 가질 수 있는 것이다.That is, the test voice signal is output to the speaker 221 for utterance in the form of synthesizing a noise signal according to a preset signal-to-noise ratio (SNR) with respect to a basic voice signal matching the test script, or the basic voice signal is a speaker for utterance 221 , and the noise signal may be output through a background noise speaker 222 that is a separate speaker from the speaker 221 for speech.

여기서, 신호대잡음비(SNR)는 예컨대 아래 [수식 1]을 통해서 계산될 수 있다.Here, the signal-to-noise ratio (SNR) may be calculated, for example, through [Equation 1] below.

[수식 1][Formula 1]

Figure 112019119469914-pat00001
Figure 112019119469914-pat00001

Asignal와 Anoise는 각각 음성과 잡음의 크기 혹은 세기를 나타내며, 본 실시예에서는 예컨대, 진폭값의 평균 제곱근(RMS, Root Mean Square)을 각 소리의 세기로 정의할 수 있다.A signal and A noise represent the magnitude or intensity of a voice and noise, respectively, and in this embodiment, for example, a root mean square (RMS) of an amplitude value may be defined as the intensity of each sound.

여기서, 진폭값의 평균 제곱근의 경우 음성의 진폭값이 마이너스 수치로 나오는 경우를 고려한 것으로 진폭값을 제곱하여 제곱한 값을 더한 뒤 다음으로 그 값을 평균하여 마지막으로 평균한 값의 제곱근을 계산하는 방식으로 구할 수 있다.Here, in the case of the mean square root of the amplitude value, considering the case where the amplitude value of the voice comes out as a negative value, the square root of the last averaged value is calculated by averaging the value after squaring the amplitude value and adding the squared value. method can be obtained.

나아가, 발화음성 인식부(230)는 테스트 음성신호가 출력된 이후, 출력된 테스트 음성신호에 대해 음성대화기기(100)로부터 피드백 발화신호(음성신호)를 수신하여 음성 인식 엔진을 통해 인식할 수 있다.Furthermore, after the test voice signal is output, the spoken voice recognition unit 230 receives a feedback utterance signal (voice signal) from the voice conversation device 100 for the output test voice signal and recognizes it through the voice recognition engine. have.

이때, 발화음성 인식부(230)는 텍스트 처리 모듈(미도시)을 통해 상기 피드백 발화 신호의 인식 결과를 텍스트로 변환하여 피드백 텍스트를 생성할 수 있다.In this case, the spoken speech recognition unit 230 may generate a feedback text by converting the recognition result of the feedback speech signal into text through a text processing module (not shown).

한편, 음성대화기기(100)로부터의 피드백 발화신호(음성신호)를 수신하여 음성 인식 엔진을 통해 인식하는 발화음성 인식부(230)는, 음성대화기기(100)가 음성신호 기반의 인터페이스만을 지원하는 AI 스피커인 경우를 고려한 구성으로 이해될 수 있다.On the other hand, the spoken voice recognition unit 230 that receives the feedback utterance signal (voice signal) from the voice communication device 100 and recognizes it through the voice recognition engine, the voice communication device 100 supports only the voice signal-based interface It can be understood as a configuration considering the case of an AI speaker.

만약, 본 발명의 일 실시예에 따른 음성대화기기(100)가 음성신호와 영상신호 기반의 인터페이스를 모두 지원하는 AI 셋탑박스인 경우라면, 영상 처리부(250)를 통해 피드백 텍스트를 생성할 수 있다.If the voice communication device 100 according to an embodiment of the present invention is an AI set-top box supporting both an audio signal and an image signal-based interface, the feedback text may be generated through the image processing unit 250 . .

즉, 영상 처리부(250)는 테스트 음성신호가 출력된 이후, OCR(Optical Character Recognition)을 이용하여 음성대화기기(100)로부터 출력되는 HDMI(High Definition Multimedia Interface) 영상 신호로부터 텍스트를 인식한 결과인 피드백 텍스트를 생성할 수 있다.That is, the image processing unit 250 recognizes the text from the HDMI (High Definition Multimedia Interface) image signal output from the voice communication device 100 using OCR (Optical Character Recognition) after the test voice signal is output. You can create feedback text.

한편, 품질 평가부(260)는 이처럼 피드백 텍스트가 생성되면, 피드백 텍스트와 테스트 음성신호 생성에 이용된 테스트 스크립트와 매칭되는 응답 스크립트 간의 유사도를 기초로 음성대화기기(100)의 품질을 평가하게 된다.On the other hand, when the feedback text is generated as described above, the quality evaluation unit 260 evaluates the quality of the voice communication device 100 based on the similarity between the feedback text and the test script used to generate the test voice signal and the matching response script. .

이때, 품질 평가부(260)는 피드백 텍스트와 응답 스크립트 간의 유사도 측정 결과값이 미리 설정된 유사도 측정 기준 값보다 크거나 같으면 품질 평가부(260)의 품질이 우수한 것으로 평가할 수 있다.In this case, when the similarity measurement result value between the feedback text and the response script is greater than or equal to a preset similarity measurement reference value, the quality evaluation unit 260 may evaluate the quality of the quality evaluation unit 260 as excellent.

예를 들어, 도 3에는, 본 발명의 일 실시예에 따른 음성대화기기(100)가 AI 스피커인 경우의 테스트 시나리오를 예시적으로 보여주고 있다.For example, FIG. 3 exemplarily shows a test scenario when the voice communication device 100 according to an embodiment of the present invention is an AI speaker.

도 3를 참조하면, 음성인식 품질평가장치(200)가 "거실 난방 켜줘"와 같이 음성 발화를 수행하면, AI 스피커는 "몇도에 맞출까요?"와 같이 응답할 수 있으며, 이후, 음성인식 품질평가장치(200)는 AI 스피커의 응답에 대해 음성 인식을 수행하고, 텍스트 처리 모듈을 통한 대화 인지 기능을 수행할 수 있다.Referring to FIG. 3 , when the voice recognition quality evaluation device 200 performs a voice utterance such as “turn on the heating in the living room”, the AI speaker may respond such as “at what degree?” The quality evaluation device 200 may perform voice recognition for the response of the AI speaker, and may perform a dialog recognition function through a text processing module.

이어서, 음성인식 품질평가장치(200)는 "25도"와 같이 음성 발화를 수행하고, 상기 AI 스피커는 "거실 난방을 켜고 25도에 맞추었어요"와 같이 응답할 수 있다.Then, the voice recognition quality evaluation device 200 may perform a voice utterance like "25 degrees", and the AI speaker may respond like "I turned on the living room heating and set it to 25 degrees".

이렇게 되면, 음성인식 품질평가장치(200)는 AI 스피커의 응답에 대해 음성 인식을 수행하는 식으로 AI 스피커를 대상으로 하는 테스트를 자동으로 수행할 수 있다.In this case, the voice recognition quality evaluation apparatus 200 may automatically perform a test targeting the AI speaker by performing voice recognition on the response of the AI speaker.

다른 예로서, 도 4에는, 본 발명의 일 실시예에 따른 음성대화기기(100)가 AI 셋탑박스인 경우의 테스트 시나리오를 예시적으로 보여주고 있다.As another example, FIG. 4 exemplarily shows a test scenario when the voice communication device 100 according to an embodiment of the present invention is an AI set-top box.

도 4을 참조하면, 음성인식 품질평가장치(200)가 "무한도전 보여줘"와 같이 음성 발화를 수행하면, AI 셋탑박스는 영상 분석을 통한 상태 확인을 수행하고 이와 동시에 상태 화면을 IPTV에 출력할 수 있으며, 이후 영상 분석이 완료되면, AI 셋탑박스는 영상 분석을 통해 검색된 결과 화면을 IPTV에 출력할 수 있다.Referring to FIG. 4 , when the voice recognition quality evaluation device 200 performs a voice utterance such as “Show me Infinite Challenge”, the AI set-top box performs a status check through image analysis and at the same time outputs a status screen to the IPTV. After that, when the video analysis is completed, the AI set-top box can output the result screen searched for through video analysis on the IPTV.

이어서, 음성인식 품질평가장치(200)는 영상 분석을 통한 검색 결과를 확인한 후, "첫 번째 꺼 틀어줘"와 같이 음성 발화를 수행할 수 있다.Subsequently, the voice recognition quality evaluation apparatus 200 may perform a voice utterance such as "play the first off" after confirming the search result through image analysis.

이 경우 AI 셋탑박스는 영상 분석을 통한 상태 확인을 수행하고 이와 동시에 상태 화면을 IPTV에 출력할 수 있으며, 이후 영상 분석이 완료되면, AI 셋탑박스는 영상 분석을 통한 결과를 확인한 후 결과 화면을 IPTV에 출력할 수 있다.In this case, the AI set-top box can check the status through video analysis and output the status screen to IPTV at the same time. can be printed on

이상 본 발명의 일 실시예에 따른 기본품질평각방식에 의해 정의되는 음성대화기기(100)의 품질 평가 과정에 대한 설명을 마치고, 종합품질평각방식에 대한 설명을 이어 가기로 한다.The description of the quality evaluation process of the voice communication device 100 defined by the basic quality evaluation method according to an embodiment of the present invention is finished, and the description of the comprehensive quality evaluation method is continued.

품질 평가부(260)는 음성대화기기(100)에 대해 결정된 종합품질평가방식에 따라 품질을 평가하는 기능을 수행한다.The quality evaluation unit 260 performs a function of evaluating the quality according to the overall quality evaluation method determined for the voice communication device 100 .

보다 구체적으로, 품질 평가부(260)는 음성대화기기(100)에 대한 기본품질평가방식을 수행하는 과정에서 음성대화기기의 지원 기능 별 반응 동작이 검출되는 시점까지의 소요시간을 측정하여, 측정된 소요시간, 및 기본품질평가방식의 수행 결과 중 적어도 하나를 이용하여 종합품질평가방식에 따른 음성대화기기(100)의 품질을 평가하게 된다.More specifically, the quality evaluation unit 260 measures and measures the required time until a reaction operation for each supported function of the voice communication device is detected in the process of performing the basic quality evaluation method for the voice communication device 100 . The quality of the voice communication device 100 according to the comprehensive quality evaluation method is evaluated using at least one of the required time and the result of performing the basic quality evaluation method.

이때, 품질 평가부(260)는 도 5에 도시된 바와 같이 기본품질평가방식에 따른 테스트 음성신호의 발화 이전에 음성대화기기(100)를 호출한 호출명령 발화 종료시점부터 해당 호출명령에 대해 음성대화기기(100)의 반응 동작이 검출되는 시점까지의 시간인 호출인식 소요시간을 측정할 수 있다.At this time, as shown in FIG. 5 , the quality evaluation unit 260 responds to the call command from the time when the call command is uttered when the voice communication device 100 is called before the utterance of the test voice signal according to the basic quality evaluation method as shown in FIG. It is possible to measure the time required for call recognition, which is the time until the time when the reaction operation of the chatting device 100 is detected.

즉, 호출인식 소요시간은 음성대화기기(100)가 AI 스피커인 경우, 호출명령에 대해 AI 스피커의 반응 소리(예: 띠딕, 삐삐 등)가 검출되는 시점까지의 시간으로 측정될 수 있으며, 음성대화기기(100)가 AI 셋탑박스인 경우에는, 호출명령에 대해 AI 셋탑박스의 LED 동작이 검출되는 시점까지의 시간으로 측정될 수 있다.That is, the time required for call recognition can be measured as the time until the time when the voice communication device 100 is an AI speaker, the response sound of the AI speaker to the call command (eg, tee-dick, beep, etc.) is detected, When the conversation device 100 is an AI set-top box, it may be measured as the time until the time when the LED operation of the AI set-top box is detected in response to a call command.

여기서, AI 셋탑박스의 LED 동작은, 관찰 카메라(241)와 연계하여 동작하는 엘이디 동작 검출부(240)에 의해서 검출될 수 있다.Here, the LED operation of the AI set-top box may be detected by the LED operation detection unit 240 operating in conjunction with the observation camera 241 .

또한, 품질 평가부(260)는 앞서 예시한 도 5에 도시된 바와 같이 기본품질평가방식에 따른 테스트 음성신호가 발화(출력)된 테스트명령 발화 종료시점으로부터 테스트명령에 대해 음성대화기기(100)의 반응 동작이 검출되는 시점까지의 시간인 명령처리 소요시간을 측정할 수 있다.In addition, as shown in FIG. 5 exemplified above, the quality evaluation unit 260 responds to the test command from the time when the test voice signal is uttered (outputted) according to the basic quality evaluation method to the test command. It is possible to measure the time required for command processing, which is the time until the point at which the reaction action of ' is detected.

즉, 명령처리 소요시간은, 음성대화기기(100)가 AI 스피커인 경우, 테스트명령에 대해 AI 스피커의 피드백발화가 시작된 시점까지의 시간으로 측정될 수 있으며, 음성대화기기(100)가 AI 셋탑박스인 경우에는 테스트명령에 대해 AI 셋탑박스의 UI(User Interface)로부터 피드백발화와 관련된 영상 신호가 출력되는 시점인 UI 반응시점까지의 시간으로 측정될 수 있다.That is, the command processing time required may be measured as the time until the start of feedback utterance of the AI speaker for the test command when the voice communication device 100 is an AI speaker, and the voice communication device 100 is an AI set-top In the case of the box, it may be measured as the time from the UI (User Interface) of the AI set-top box to the UI reaction time, which is the time when the video signal related to the feedback utterance is output to the test command.

여기서, AI 셋탑박스의 UI 반응시점에 대한 확인은, HDMI 캡처보드(251)를 통해 AI 셋탑박스에서 출력되는 HDMI 영상신호 감지하는 영상 처리부(250)의 동작에 의해서 이루어질 수 있다.Here, the confirmation of the UI response time of the AI set-top box may be performed by the operation of the image processing unit 250 for detecting the HDMI image signal output from the AI set-top box through the HDMI capture board 251 .

결국, 품질 평가부(260)는 음성대화기기(100)에 대한 기본품질평가방식을 수행하는 과정에서 음성대화기기(100)에 대한 호출인식 소요시간, 및 명령처리 소요시간이 측정되면, 이를 각각의 기준 값과 비교하는 방식을 통해서 음성대화기기(100)에 대해 소요시간에 근거한 품질을 평가할 수 있으며, 나아가 이러한 소요시간에 근거한 품질 평가 결과를 기본품질평가방식에 따른 품질 평가 결과에 반영함으로써, 음성대화기기(100)에 대해 결정된 종합품질평가방식에 따른 품질 평가 결과를 도출할 수 있다.As a result, when the quality evaluation unit 260 measures the time required for call recognition and the command processing time for the voice communication device 100 in the process of performing the basic quality evaluation method for the voice communication device 100, it is determined, respectively. By comparing with the reference value of , the quality based on the required time for the voice communication device 100 can be evaluated, and further, by reflecting the quality evaluation result based on the required time to the quality evaluation result according to the basic quality evaluation method, A quality evaluation result according to the overall quality evaluation method determined for the voice communication device 100 may be derived.

이상에서 살펴본 바와 같이 본 발명의 일 실시예에 따른 음성인식 품질평가장치(200)의 구성에 따르면, IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가하여 관리할 수 있으므로, 음성 인식 기술을 채택하고 있는 IPTV 서비스에서의 사용자 만족도를 크게 제고할 수 있다.As described above, according to the configuration of the voice recognition quality evaluation apparatus 200 according to an embodiment of the present invention, the voice recognition quality is comprehensively considered in the IPTV service environment with the support function of the voice communication device equipped with the voice recognition technology. can be evaluated and managed, greatly improving user satisfaction in IPTV services employing voice recognition technology.

이하에서는 도 6을 참조하여 본 발명의 일 실시예에 따른 음성인식 품질평가장치(200)의 동작 방법을 설명하기로 한다.Hereinafter, an operation method of the voice recognition quality evaluation apparatus 200 according to an embodiment of the present invention will be described with reference to FIG. 6 .

먼저, 평가방식 결정부(210)는 음성대화기기(100)의 지원 기능에 따라서 음성대화기기(100)의 품질을 평가하기 위한 종합품질평가방식을 결정한다(S10).First, the evaluation method determining unit 210 determines a comprehensive quality evaluation method for evaluating the quality of the voice communication device 100 according to the supported function of the voice communication device 100 (S10).

여기서, 음성대화기기(100)의 지원 기능의 경우, 음성 인식 기술이 탑재된 대상 기기가, 음성신호 기반의 인터페이스만을 지원하는 AI 스피커인지 또는 음성신호와 영상신호 기반의 인터페이스를 모두 지원하는 AI 셋탑박스 인지에 따라 달라질 수 있다.Here, in the case of the support function of the voice communication device 100, whether the target device equipped with the voice recognition technology is an AI speaker that supports only an interface based on a voice signal or an AI set-top that supports both an interface based on a voice signal and a video signal It may vary depending on whether the box is recognized.

한편, 이처럼 음성대화기기(100)의 지원 기능에 따라 결정되는 종합품질평가방식은, 테스트 음성신호에 대한 음성대화기기(100)의 인식 성능을 평가하는 기본품질평가방식을 기본적으로 포함하도록 결정될 수 있다.On the other hand, as described above, the comprehensive quality evaluation method determined according to the supported function of the voice communication device 100 may be determined to basically include a basic quality evaluation method for evaluating the recognition performance of the voice communication device 100 for the test voice signal. have.

이어서, 품질 평가부(260)는 음성대화기기(100)에 대한 종합품질평가방식을 결정되면, 기본품질평가방식에 따른 테스트 음성신호의 발화 이전에 음성대화기기(100)를 호출한 호출명령 발화 종료시점부터 해당 호출명령에 대해 음성대화기기(100)의 반응 동작이 검출되는 시점까지의 시간인 호출인식 소요시간을 측정한다(S20).Next, when the quality evaluation unit 260 determines the overall quality evaluation method for the voice communication device 100 , the call command is uttered to call the voice communication device 100 before the test voice signal is uttered according to the basic quality evaluation method. The time required for call recognition, which is the time from the end time point to the time point at which a reaction operation of the voice communication device 100 is detected in response to the call command, is measured (S20).

이때, 품질 평가부(260)는 앞서 예시한 도 5에서와 같이 기본품질평가방식에 따른 테스트 음성신호의 발화 이전에 음성대화기기(100)를 호출한 호출명령 발화 종료시점부터 해당 호출명령에 대해 음성대화기기(100)의 반응 동작이 검출되는 시점까지의 시간인 호출인식 소요시간을 측정할 수 있다.At this time, the quality evaluation unit 260, as shown in FIG. 5 exemplified above, from the time when the call command that called the voice communication device 100 is called before the utterance of the test voice signal according to the basic quality evaluation method, from the time of uttering the corresponding call command. It is possible to measure the time required for call recognition, which is the time until the time when the reaction operation of the voice communication device 100 is detected.

즉, 호출인식 소요시간은 음성대화기기(100)가 AI 스피커인 경우, 호출명령에 대해 AI 스피커의 반응 소리(예: 띠딕, 삐삐 등)가 검출되는 시점까지의 시간으로 측정될 수 있으며, 음성대화기기(100)가 AI 셋탑박스인 경우에는, 호출명령에 대해 AI 셋탑박스의 LED 동작이 검출되는 시점까지의 시간으로 측정될 수 있다.That is, the time required for call recognition can be measured as the time until the time when the voice communication device 100 is an AI speaker, the response sound of the AI speaker to the call command (eg, tee-dick, beep, etc.) is detected, When the conversation device 100 is an AI set-top box, it may be measured as the time until the time when the LED operation of the AI set-top box is detected in response to a call command.

여기서, AI 셋탑박스의 LED 동작은, 관찰 카메라(241)와 연계하여 동작하는 엘이디 동작 검출부(240)에 의해서 검출될 수 있다.Here, the LED operation of the AI set-top box may be detected by the LED operation detection unit 240 operating in conjunction with the observation camera 241 .

나아가, 음성발화 명령부(220)는 음성대화기기(100)에 대한 호출인식 소요시간에 대한 측정이 완료되면, 기 정의된 테스트 스크립트를 기초로 테스트 음성신호를 생성하고, 생성된 테스트 음성신호를 발화용 스피커(221)를 통해 출력한다(S30).Furthermore, when the measurement of the required time for call recognition for the voice communication device 100 is completed, the voice command unit 220 generates a test voice signal based on a predefined test script, and transmits the generated test voice signal. It is output through the speaker 221 for speech (S30).

여기서, 테스트 스크립트는 음성대화기기(100)의 품질을 평가하기 위한 텍스트 형태의 시나리오를 일컫는 것으로서, 복수의 테스트 스크립트와 테스트 스크립트 각각에 대한 응답 스크립트가 매칭된 형태로 별도의 데이터 베이스(DB)에 저장되어 관리될 수 있다.Here, the test script refers to a scenario in the form of text for evaluating the quality of the voice communication device 100, and is stored in a separate database (DB) in a form in which a plurality of test scripts and a response script for each of the test scripts are matched. It can be stored and managed.

예를 들어, 테스트 스크립트는 "실내 온도 높여줘", "재미있는 예능 프로 틀어줘" 등을 포함할 수 있으며, 이에 상응하는 응답 스크립트는 "실내 온도를 몇도로 설정할까요?", "*** 프로 **회를 다시보기 하시겠습니까?" 등을 포함할 수 있다.For example, a test script may include "Raise the room temperature", "Play a fun entertainment program", etc., and the corresponding response script can include "How many degrees should I set the room temperature?", "*** Pro * *Would you like to watch the episode again?" and the like.

이때, 응답 스크립트는 하나의 테스트 스크립트에 대해 여러 개의 텍스트 유형으로 이루어진 스크립트를 포함할 수 있음은 물론이다.In this case, it goes without saying that the response script may include a script composed of several text types for one test script.

정리하자면, 음성발화 명령부(220)는 기 저장되어 있는 복수의 테스트 스크립트 중에서 선택된 어느 하나의 테스트 스크립트를 입력받고, 상기 입력된 테스트 스크립트를 TTS(Text To Speech) 모듈을 통해 음성 변환하여 상기 테스트 음성 신호를 생성할 수 있는 것이다.In summary, the speech command unit 220 receives any one test script selected from among a plurality of pre-stored test scripts, and converts the input test script into speech through a Text To Speech (TTS) module to perform the test. It can generate a voice signal.

여기서, 음성발화 명령부(220)는 복수의 테스트 스크립트를 선택하기 위해서 랜덤 선택 방식을 채용할 수도 있고 이와 달리 미리 설정된 순서나 패턴에 따른 지정 선택 방식을 채용할 수도 있다.Here, the voice command unit 220 may employ a random selection method to select a plurality of test scripts or, alternatively, may employ a designated selection method according to a preset order or pattern.

물론, 음성발화 명령부(220)는 테스트 스크립트를 이용하는 방식 이외에 소스 음원을 이용하여 테스트 음성신호를 생성하고, 생성된 테스트 음성신호를 발화용 스피커(101)를 통해 출력할 수도 있다.Of course, in addition to using the test script, the voice command unit 220 may generate a test voice signal using a source sound source and output the generated test voice signal through the speaker 101 for utterance.

이를 위해, 음성발화 명령부(220)는 사람의 목소리를 녹음하거나 SSML(Speech Synthesis Markup Language) 기반의 TTS 기술을 통해 소스 음원을 생성하고, 딥러닝 기술(GAN/VAE)을 이용하여 소스 음원을 변조하여 복수의 음색 및 억양의 목소리로 이루어진 테스트 음성신호를 생성할 수 있다.To this end, the voice command unit 220 records a human voice or generates a source sound source through SSML (Speech Synthesis Markup Language)-based TTS technology, and uses deep learning technology (GAN/VAE) to select the source sound source. It is possible to generate a test voice signal composed of a plurality of tones and intonations by modulation.

한편, 음성발화 명령부(220)는 테스트 음성신호를 생성함에 있어서, 소스 음원에 잡음과 배경음을 신호대잡음비(SNR)로 합성하여 테스트 음성신호를 생성할 수 있고, 또 달리 배경소음 스피커(222)를 통해 잡음과 배경음을 상기 발화용 스피커(221)와는 별도로 출력할 수도 있으며, 또한, 음성 발화 명령부(220)는 에코 및 딜레이를 포함한 사운드 효과를 합성하여 테스트 음성 신호를 생성할 수도 있다.Meanwhile, in generating the test voice signal, the voice command unit 220 may generate a test voice signal by synthesizing noise and a background sound with a signal-to-noise ratio (SNR) to a source sound source, and alternatively, a background noise speaker 222 . The noise and background sound may be output separately from the speaker 221 for utterance, and the voice command unit 220 may generate a test voice signal by synthesizing sound effects including echo and delay.

즉, 테스트 음성신호는 테스트 스크립트와 매칭되는 기본음성신호에 대해 기 설정된 신호대잡음비(SNR)에 따른 잡음신호를 합성한 형태로 발화용 스피커(221)로 출력되거나, 또는 기본음성신호는 발화용 스피커(221)로 출력되고 잡음신호는 발화용 스피커(221)와는 별도의 스피커인 배경소음 스피커(222)를 통해 출력되는 형태를 가질 수 있는 것이다.That is, the test voice signal is output to the speaker 221 for utterance in the form of synthesizing a noise signal according to a preset signal-to-noise ratio (SNR) with respect to a basic voice signal matching the test script, or the basic voice signal is a speaker for utterance 221 , and the noise signal may be output through a background noise speaker 222 that is a separate speaker from the speaker 221 for speech.

그리고 나서, 품질 평가부(260)는 앞서 예시한 도 5에 도시된 바와 같이 기본품질평가방식에 따른 테스트 음성신호가 발화(출력)된 테스트명령 발화 종료시점으로부터 테스트명령에 대해 음성대화기기(100)의 반응 동작이 검출되는 시점까지의 시간인 명령처리 소요시간을 측정한다(S40).Then, as shown in FIG. 5 exemplified above, the quality evaluation unit 260 responds to the test command from the time when the test voice signal is uttered (outputted) according to the basic quality evaluation method to the test command. ), the time required for the command processing, that is, the time until the reaction operation is detected (S40).

즉, 명령처리 소요시간은, 음성대화기기(100)가 AI 스피커인 경우, 테스트명령에 대해 AI 스피커의 피드백발화가 시작된 시점까지의 시간으로 측정될 수 있으며, 음성대화기기(100)가 AI 셋탑박스인 경우에는 테스트명령에 대해 AI 셋탑박스의 UI(User Interface)로부터 피드백발화와 관련된 영상 신호가 출력되는 시점인 UI 반응시점까지의 시간으로 측정될 수 있다.That is, the command processing time required may be measured as the time until the start of feedback utterance of the AI speaker for the test command when the voice communication device 100 is an AI speaker, and the voice communication device 100 is an AI set-top In the case of the box, it may be measured as the time from the UI (User Interface) of the AI set-top box to the UI reaction time, which is the time when the video signal related to the feedback utterance is output to the test command.

여기서, AI 셋탑박스의 UI 반응시점에 대한 확인은, HDMI 캡처보드(251)를 통해 AI 셋탑박스에서 출력되는 HDMI 영상신호 감지하는 영상 처리부(250)의 동작에 의해서 이루어질 수 있다.Here, the confirmation of the UI response time of the AI set-top box may be performed by the operation of the image processing unit 250 for detecting the HDMI image signal output from the AI set-top box through the HDMI capture board 251 .

그런 다음, 발화음성 인식부(230)는 테스트 음성신호가 출력된 이후, 출력된 테스트 음성신호에 대해 음성대화기기(100)로부터 피드백 발화신호(음성신호)를 수신하여 이를 인식한 피드백 텍스트를 생성한다(S50).Then, after the test voice signal is output, the spoken voice recognition unit 230 receives a feedback utterance signal (voice signal) from the voice conversation device 100 with respect to the output test voice signal and generates a recognized feedback text. do (S50).

이때, 발화음성 인식부(230)는 텍스트 처리 모듈(미도시)을 통해 상기 피드백 발화 신호의 인식 결과를 텍스트로 변환하여 피드백 텍스트를 생성할 수 있다.In this case, the spoken speech recognition unit 230 may generate a feedback text by converting the recognition result of the feedback speech signal into text through a text processing module (not shown).

한편, 음성대화기기(100)로부터의 피드백 발화신호(음성신호)를 수신하여 음성 인식 엔진을 통해 인식하는 발화음성 인식부(230)는, 음성대화기기(100)가 음성신호 기반의 인터페이스만을 지원하는 AI 스피커인 경우를 고려한 구성으로 이해될 수 있다.On the other hand, the spoken voice recognition unit 230 that receives the feedback utterance signal (voice signal) from the voice communication device 100 and recognizes it through the voice recognition engine, the voice communication device 100 supports only the voice signal-based interface It can be understood as a configuration considering the case of an AI speaker.

만약, 본 발명의 일 실시예에 따른 음성대화기기(100)가 음성신호와 영상신호 기반의 인터페이스를 모두 지원하는 AI 셋탑박스인 경우라면, 영상 처리부(250)를 통해 피드백 텍스트를 생성할 수 있다.If the voice communication device 100 according to an embodiment of the present invention is an AI set-top box supporting both an audio signal and an image signal-based interface, the feedback text may be generated through the image processing unit 250 . .

즉, 영상 처리부(250)는 테스트 음성신호가 출력된 이후, OCR(Optical Character Recognition)을 이용하여 음성대화기기(100)로부터 출력되는 HDMI(High Definition Multimedia Interface) 영상 신호로부터 텍스트를 인식한 결과인 피드백 텍스트를 생성할 수 있다.That is, the image processing unit 250 recognizes the text from the HDMI (High Definition Multimedia Interface) image signal output from the voice communication device 100 using OCR (Optical Character Recognition) after the test voice signal is output. You can create feedback text.

나아가, 품질 평가부(260)는 이처럼 피드백 텍스트가 생성되면, 피드백 텍스트와 테스트 음성신호 생성에 이용된 테스트 스크립트와 매칭되는 응답 스크립트 간의 유사도를 기초로 음성대화기기(100)의 품질을 평가한다(S60).Furthermore, when the feedback text is generated in this way, the quality evaluation unit 260 evaluates the quality of the voice communication device 100 based on the similarity between the feedback text and the test script used to generate the test voice signal and the matching response script ( S60).

이때, 품질 평가부(260)는 피드백 텍스트와 응답 스크립트 간의 유사도 측정 결과값이 미리 설정된 유사도 측정 기준 값보다 크거나 같으면 품질 평가부(260)의 품질이 우수한 것으로 평가할 수 있다.In this case, when the similarity measurement result value between the feedback text and the response script is greater than or equal to a preset similarity measurement reference value, the quality evaluation unit 260 may evaluate the quality of the quality evaluation unit 260 as excellent.

이후, 품질 평가부(260)는 음성대화기기(100)에 대한 기본품질평가방식을 수행하는 과정에서 음성대화기기(100)에 대해 측정된 호출인식 소요시간, 및 명령처리 소요시간을 각각의 기준 값과 비교하는 방식을 통해서 음성대화기기(100)에 대해 소요시간에 근거한 품질을 평가할 수 있으며, 나아가 이러한 소요시간에 근거한 품질 평가 결과를 기본품질평가방식에 따른 품질 평가 결과에 반영함으로써, 음성대화기기(100)에 대해 결정된 종합품질평가방식에 따른 품질 평가 결과를 도출할 수 있다(S70-S80).Thereafter, the quality evaluation unit 260 sets the time required for call recognition and the command processing time measured for the voice communication device 100 in the process of performing the basic quality evaluation method for the voice communication device 100 as each criterion. By comparing the value with the value, it is possible to evaluate the quality based on the required time for the voice communication device 100, and further, by reflecting the quality evaluation result based on the required time to the quality evaluation result according to the basic quality evaluation method, voice conversation A quality evaluation result according to the overall quality evaluation method determined for the device 100 may be derived (S70-S80).

이상에서 살펴본 바와 같이 본 발명의 일 실시예에 따른 음성인식 품질평가장치(200)의 동작 방법에 따르면, IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가하여 관리할 수 있으므로, 음성 인식 기술을 채택하고 있는 IPTV 서비스에서의 사용자 만족도를 크게 제고할 수 있다.As described above, according to the operation method of the voice recognition quality evaluation apparatus 200 according to an embodiment of the present invention, voice recognition is comprehensively considered in the IPTV service environment with the support function of the voice communication device equipped with the voice recognition technology. Since quality can be evaluated and managed, user satisfaction in IPTV services employing voice recognition technology can be greatly improved.

한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 제어 시스템의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.On the other hand, the functional operations and implementations of the subject matter described in this specification are implemented as digital electronic circuits, computer software, firmware, or hardware including the structures disclosed in this specification and structural equivalents thereof, or at least one of them It can be implemented by combining. Implementations of the subject matter described herein are one or more computer program products, ie one or more modules of computer program instructions encoded on a tangible program storage medium for controlling the operation or execution by the control system. can be implemented.

컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.The computer readable medium may be a machine readable storage device, a machine readable storage substrate, a memory device, a composition of matter that affects a machine readable radio wave signal, or a combination of one or more thereof.

본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 제어하기 위한 모든 기구, 장치 및 기계를 포괄한다. 제어 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.As used herein, the term “system” or “device” encompasses all devices, devices and machines for controlling data, including, for example, a programmable processor, a computer, or multiple processors or computers. The control system may include, in addition to hardware, code forming an execution environment for a computer program upon request, such as, for example, code constituting processor firmware, a protocol stack, a database management system, an operating system, or a combination of one or more thereof. .

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script or code) may be written in any form of a programming language, including compiled or interpreted language or a priori or procedural language, as a stand-alone program or module; It can be deployed in any form, including components, subroutines, or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in a file system. A program may be in a single file provided to the requested program, or in multiple interacting files (eg, files that store one or more modules, subprograms, or portions of code), or portions of files that hold other programs or data. (eg, one or more scripts stored within a markup language document). The computer program may be deployed to be executed on a single computer or multiple computers located at one site or distributed over a plurality of sites and interconnected by a communication network.

한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.On the other hand, computer-readable media suitable for storing computer program instructions and data are, for example, semiconductor memory devices such as EPROM, EEPROM and flash memory devices, such as magnetic disks such as internal hard disks or external disks, magneto-optical disks and CDs. -Can include all types of non-volatile memory, media and memory devices, including ROM and DVD-ROM disks. The processor and memory may be supplemented by, or integrated into, special purpose logic circuitry.

본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.An implementation of the subject matter described herein may include a backend component, such as a data server, or a middleware component, such as an application server, such as a web browser or graphical user that allows a user to interact with an implementation of the subject matter described herein, for example. It may be implemented in a front-end component, such as a client computer having an interface, or in a computing system including any combination of one or more of such back-end, middleware, or front-end components. The components of the system may be interconnected by any form or medium of digital data communication, such as, for example, a communication network.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.While this specification contains numerous specific implementation details, they should not be construed as limitations on the scope of any invention or claim, but rather as descriptions of features that may be specific to particular embodiments of particular inventions. should be understood Likewise, certain features that are described herein in the context of separate embodiments may be implemented in combination in a single embodiment. Conversely, various features that are described in the context of a single embodiment may also be implemented in multiple embodiments, either individually or in any suitable subcombination. Furthermore, although features operate in a particular combination and may be initially depicted as claimed as such, one or more features from a claimed combination may in some cases be excluded from the combination, the claimed combination being a sub-combination. or a variant of a sub-combination.

또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다Also, although operations are depicted in the drawings in a specific order in this specification, it is not to be understood that such operations must be performed in the specific order or sequential order shown or that all illustrated operations must be performed in order to achieve desirable results. Can not be done. In certain cases, multitasking and parallel processing may be advantageous. Further, the separation of the various system components of the above-described embodiments should not be construed as requiring such separation in all embodiments, and the program components and systems described may generally be integrated together into a single software product or packaged into multiple software products. It should be understood that

이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, this specification is not intended to limit the invention to the specific terms presented. Accordingly, although the present invention has been described in detail with reference to the above-described examples, those skilled in the art can make modifications, changes, and modifications to the examples without departing from the scope of the present invention. The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

본 발명에 일 실시예에 따른 음성인식 품질평가장치 및 그 동작 방법에 따르면, IPTV 서비스 환경에서 음성 인식 기술을 탑재한 음성대화기기의 지원 기능을 종합적으로 고려하여 음성 인식 품질을 평가할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.According to the voice recognition quality evaluation apparatus and the method of operation thereof according to an embodiment of the present invention, the voice recognition quality can be evaluated by comprehensively considering the support functions of the voice communication device equipped with the voice recognition technology in the IPTV service environment. , it is an invention with industrial applicability because the possibility of marketing or business of the applied device, not just the use of the related technology, is sufficient as it goes beyond the limits of the existing technology, and it can be clearly implemented in reality.

100: 음성대화기기
200: 음성인식 품질평가장치
210: 평가방식 결정부 220: 음성발화 명령부
230: 발화음성 인식부 240: 엘이디 동작 검출부
250: 영상 처리부 260: 품질 평가부
100: voice communication device
200: voice recognition quality evaluation device
210: evaluation method determination unit 220: voice command unit
230: spoken voice recognition unit 240: LED motion detection unit
250: image processing unit 260: quality evaluation unit

Claims (12)

음성대화기기의 지원 기능에 따라서 테스트 음성신호에 대한 인식 성능을 평가하기 위한 종합품질평가방식을 결정하는 평가방식 결정부; 및
상기 종합품질평가방식에 수반되는 기본품질평가방식을 수행하는 과정에서 상기 음성대화기기의 지원 기능 별 반응 동작이 검출되는 시점까지의 소요시간을 측정하여, 상기 소요시간, 및 상기 기본품질평가방식의 수행 결과 중 적어도 하나를 기초로 상기 종합품질평가방식에 따른 상기 음성대화기기의 품질을 평가하는 품질 평가부를 포함하며,
상기 품질 평가부는,
상기 기본품질평가방식에 따라 기 정의된 테스트 스크립트를 기초로 생성된 상기 테스트 음성신호에 대해 상기 음성대화기기로부터의 피드백 발화신호가 인식되는 경우, 상기 피드백 발화신호를 인식한 결과인 피드백 텍스트와 상기 테스트 스크립트와 매칭되는 응답 스크립트 간의 유사도를 기초로 상기 음성대화기기의 품질을 평가하며,
상기 테스트 음성신호는,
상기 테스트 스크립트와 매칭되는 기본음성신호에 대해 기 설정된 신호대잡음비(SNR)에 따른 잡음신호를 합성한 형태로 하나의 스피커를 통해 출력되거나, 또는 상기 기본음성신호와 상기 잡음신호가 각각의 스피커를 통해 출력되는 형태를 갖는 것을 특징으로 하는 음성인식 품질평가장치.
an evaluation method determining unit that determines a comprehensive quality evaluation method for evaluating the recognition performance of a test voice signal according to a supported function of the voice communication device; and
In the process of performing the basic quality evaluation method accompanying the comprehensive quality evaluation method, the required time until a reaction operation for each supported function of the voice communication device is detected is measured, and the required time and the basic quality evaluation method are measured. a quality evaluation unit for evaluating the quality of the voice communication device according to the comprehensive quality evaluation method based on at least one of the performance results;
The quality evaluation unit,
When the feedback utterance signal from the voice communication device is recognized with respect to the test voice signal generated based on a pre-defined test script according to the basic quality evaluation method, the feedback text resulting from recognizing the feedback utterance signal and the Evaluating the quality of the voice communication device based on the similarity between the test script and the matching response script,
The test voice signal is
A noise signal according to a preset signal-to-noise ratio (SNR) is synthesized for a basic voice signal matching the test script and output through one speaker, or the basic voice signal and the noise signal are transmitted through each speaker A voice recognition quality evaluation device, characterized in that it has an output form.
삭제delete 삭제delete 제 1 항에 있어서,
상기 품질 평가부는,
상기 테스트 음성신호의 발화 이전에 상기 음성대화기기를 호출한 호출명령 발화 종료시점부터 상기 호출명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 호출인식 소요시간, 및 상기 테스트 음성신호가 발화된 테스트명령 발화 종료시점으로부터 상기 테스트명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 명령처리 소요시간 중 적어도 하나를 측정하는 것을 특징으로 하는 음성인식 품질평가장치.
The method of claim 1,
The quality evaluation unit,
The time required for call recognition, which is the time from the end of uttering the call command for calling the voice communication device prior to the utterance of the test voice signal to the point at which a reaction operation of the voice communication device to the call command is detected, and the test voice A voice recognition quality evaluation apparatus according to claim 1, wherein at least one of command processing time required is a time from a time when a signal is uttered and a test command is uttered to a point in time when a reaction operation of the voice communication device is detected in response to the test command.
제 4 항에 있어서,
상기 호출인식 소요시간은,
상기 음성대화기기의 지원 기능에 따라 상기 호출명령에 대해 상기 음성대화기기의 LED 동작이 검출되는 시점, 및 상기 음성대화기기의 반응 소리가 검출되는 시점까지의 시점 중 적어도 하나의 시점까지의 시간으로 측정되는 것을 특징으로 하는 음성인식 품질평가장치.
5. The method of claim 4,
The time required for call recognition is
According to the support function of the voice communication device, the time until at least one of a time point at which an LED operation of the voice communication device is detected in response to the call command and a time point at which a response sound of the voice communication device is detected. Voice recognition quality evaluation device, characterized in that measured.
제 4 항에 있어서,
상기 명령처리 소요시간은,
상기 음성대화기기의 지원 기능에 따라 상기 테스트명령에 대해 상기 음성대화기기의 피드백발화가 시작된 시점, 및 상기 음성대화기기의 UI(User Interface)로부터 피드백발화와 관련된 영상 신호가 출력되는 시점 중 적어도 하나의 시점까지의 시간으로 측정되는 것을 특징으로 하는 음성인식 품질평가장치.
5. The method of claim 4,
The command processing time required is,
At least one of a time point at which the feedback utterance of the voice communication device is started in response to the test command according to the support function of the voice communication device and a time point at which a video signal related to the feedback utterance is output from a user interface (UI) of the voice communication device Voice recognition quality evaluation device, characterized in that measured as the time to the point of time.
음성대화기기의 지원 기능에 따라서 테스트 음성신호에 대한 인식 성능을 평가하기 위한 종합품질평가방식을 결정하는 평가방식 결정단계; 및
상기 종합품질평가방식에 수반되는 기본품질평가방식을 수행하는 과정에서 상기 음성대화기기의 지원 기능 별 반응 동작이 검출되는 시점까지의 소요시간을 측정하여, 상기 소요시간, 및 상기 기본품질평가방식의 수행 결과 중 적어도 하나를 기초로 상기 종합품질평가방식에 따른 상기 음성대화기기의 품질을 평가하는 품질 평가단계를 포함하며,
상기 품질 평가단계는,
상기 기본품질평가방식에 따라 기 정의된 테스트 스크립트를 기초로 생성된 상기 테스트 음성신호에 대해 상기 음성대화기기로부터의 피드백 발화신호가 인식되는 경우, 상기 피드백 발화신호를 인식한 결과인 피드백 텍스트와 상기 테스트 스크립트와 매칭되는 응답 스크립트 간의 유사도를 기초로 상기 음성대화기기의 품질을 평가하며,
상기 테스트 음성신호는,
상기 테스트 스크립트와 매칭되는 기본음성신호에 대해 기 설정된 신호대잡음비(SNR)에 따른 잡음신호를 합성한 형태로 하나의 스피커를 통해 출력되거나, 또는 상기 기본음성신호와 상기 잡음신호가 각각의 스피커를 통해 출력되는 형태를 갖는 것을 특징으로 하는 음성인식 품질평가장치의 동작 방법.
an evaluation method determination step of determining a comprehensive quality evaluation method for evaluating the recognition performance of the test voice signal according to the support function of the voice communication device; and
In the process of performing the basic quality evaluation method accompanying the comprehensive quality evaluation method, the required time until a reaction operation for each supported function of the voice communication device is detected is measured, and the required time and the basic quality evaluation method are measured. a quality evaluation step of evaluating the quality of the voice communication device according to the comprehensive quality evaluation method based on at least one of the performance results;
The quality evaluation step is,
When the feedback utterance signal from the voice communication device is recognized with respect to the test voice signal generated based on a pre-defined test script according to the basic quality evaluation method, the feedback text, which is a result of recognizing the feedback utterance signal, and the Evaluating the quality of the voice communication device based on the similarity between the test script and the matching response script,
The test voice signal is
A noise signal according to a preset signal-to-noise ratio (SNR) is synthesized for the basic voice signal matching the test script and output through one speaker, or the basic voice signal and the noise signal are transmitted through each speaker A method of operating a voice recognition quality evaluation device, characterized in that it has an output form.
삭제delete 삭제delete 제 7 항에 있어서,
상기 품질 평가단계는,
상기 테스트 음성신호의 발화 이전에 상기 음성대화기기를 호출한 호출명령 발화 종료시점부터 상기 호출명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 호출인식 소요시간, 및 상기 테스트 음성신호가 발화된 테스트명령 발화 종료시점으로부터 상기 테스트명령에 대해 상기 음성대화기기의 반응 동작이 검출되는 시점까지의 시간인 명령처리 소요시간 중 적어도 하나를 측정하는 것을 특징으로 하는 음성인식 품질평가장치의 동작 방법.
8. The method of claim 7,
The quality evaluation step is
The time required for call recognition, which is the time from the end of uttering the call command for calling the voice communication device prior to the utterance of the test voice signal to the point at which a reaction operation of the voice communication device to the call command is detected, and the test voice A voice recognition quality evaluation apparatus, characterized in that at least one of command processing required time, which is a time from a time when a signal is uttered, when a test command is uttered to a point in time when a reaction operation of the voice communication device is detected in response to the test command, is measured. how it works.
제 10 항에 있어서,
상기 호출인식 소요시간은,
상기 음성대화기기의 지원 기능에 따라 상기 호출명령에 대해 상기 음성대화기기의 LED 동작이 검출되는 시점, 및 상기 음성대화기기의 반응 소리가 검출되는 시점 중 적어도 하나의 시점까지의 시간으로 측정되는 것을 특징으로 하는 음성인식 품질평가장치의 동작 방법.
11. The method of claim 10,
The time required for call recognition is
According to the support function of the voice communication device, it is measured as the time until at least one of a time when an LED operation of the voice communication device is detected in response to the call command and a time when a response sound of the voice communication device is detected. A method of operating a voice recognition quality evaluation device, characterized in that it.
제 10 항에 있어서,
상기 명령처리 소요시간은,
상기 음성대화기기의 지원 기능에 따라 상기 테스트명령에 대해 상기 음성대화기기의 피드백발화가 시작된 시점, 또는 상기 음성대화기기의 UI(User Interface)로부터 피드백발화와 관련된 영상 신호가 출력되는 시점까지의 시간으로 측정되는 것을 특징으로 하는 음성인식 품질평가장치의 동작 방법.
11. The method of claim 10,
The command processing time required is,
According to the support function of the voice communication device, the time until the time when the feedback utterance of the voice communication device is started in response to the test command or the video signal related to the feedback utterance is output from the UI (User Interface) of the voice communication device Method of operation of a voice recognition quality evaluation device, characterized in that measured as.
KR1020190149788A 2019-11-20 2019-11-20 Apparatus for quality evaluation of voice recognition, and control method thereof KR102344618B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190149788A KR102344618B1 (en) 2019-11-20 2019-11-20 Apparatus for quality evaluation of voice recognition, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190149788A KR102344618B1 (en) 2019-11-20 2019-11-20 Apparatus for quality evaluation of voice recognition, and control method thereof

Publications (2)

Publication Number Publication Date
KR20210061805A KR20210061805A (en) 2021-05-28
KR102344618B1 true KR102344618B1 (en) 2021-12-30

Family

ID=76140349

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190149788A KR102344618B1 (en) 2019-11-20 2019-11-20 Apparatus for quality evaluation of voice recognition, and control method thereof

Country Status (1)

Country Link
KR (1) KR102344618B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002328696A (en) * 2001-04-26 2002-11-15 Canon Inc Voice recognizing device and process condition setting method in voice recognizing device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002328696A (en) * 2001-04-26 2002-11-15 Canon Inc Voice recognizing device and process condition setting method in voice recognizing device

Also Published As

Publication number Publication date
KR20210061805A (en) 2021-05-28

Similar Documents

Publication Publication Date Title
US10354649B2 (en) Altering audio to improve automatic speech recognition
US11624800B1 (en) Beam rejection in multi-beam microphone systems
CN108351872B (en) Method and system for responding to user speech
US11455994B1 (en) Identifying a location of a voice-input device
US10685652B1 (en) Determining device groups
US9076450B1 (en) Directed audio for speech recognition
US10887710B1 (en) Characterizing environment using ultrasound pilot tones
US9940949B1 (en) Dynamic adjustment of expression detection criteria
US10297250B1 (en) Asynchronous transfer of audio data
US9640179B1 (en) Tailoring beamforming techniques to environments
US9685171B1 (en) Multiple-stage adaptive filtering of audio signals
US9595997B1 (en) Adaption-based reduction of echo and noise
US20190281341A1 (en) Voice-controlled multimedia device
US10388277B1 (en) Allocation of local and remote resources for speech processing
US9799329B1 (en) Removing recurring environmental sounds
US20180182399A1 (en) Control method for control device, control method for apparatus control system, and control device
US11301208B2 (en) Control method, control device, and control system
CN111916068B (en) Audio detection method and device
US20180033427A1 (en) Speech recognition transformation system
WO2019235134A1 (en) Information generation device, information processing system, information processing method, and program
KR102344618B1 (en) Apparatus for quality evaluation of voice recognition, and control method thereof
US20190156836A1 (en) Speaker enrollment
US11862168B1 (en) Speaker disambiguation and transcription from multiple audio feeds
EP3707704B1 (en) Voice-controlled multimedia device
US20230298609A1 (en) Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right