KR20220045327A - Apparatus, method and computer program for providing interaction service based on voice recognition - Google Patents

Apparatus, method and computer program for providing interaction service based on voice recognition Download PDF

Info

Publication number
KR20220045327A
KR20220045327A KR1020200127905A KR20200127905A KR20220045327A KR 20220045327 A KR20220045327 A KR 20220045327A KR 1020200127905 A KR1020200127905 A KR 1020200127905A KR 20200127905 A KR20200127905 A KR 20200127905A KR 20220045327 A KR20220045327 A KR 20220045327A
Authority
KR
South Korea
Prior art keywords
interaction
continuous interaction
continuous
intention
voice data
Prior art date
Application number
KR1020200127905A
Other languages
Korean (ko)
Inventor
최수민
박희철
백두산
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020200127905A priority Critical patent/KR20220045327A/en
Publication of KR20220045327A publication Critical patent/KR20220045327A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

A speech recognition device that provides an interaction service based on a speech recognition comprises: an input part that receives the speech data; a speaker recognition part that recognizes a speaker based on the received speech data; an intention extraction part that recognizes an interaction target and an interaction command from the speech data, and extracts a speaker-customized continuous interaction intention based on the recognized interaction target and the interaction command; and a service providing part that provides a continuous interaction service based on the extracted continuous interaction intention.

Description

음성 인식 기반 인터랙션 서비스를 제공하는 음성 인식 장치, 방법 및 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAM FOR PROVIDING INTERACTION SERVICE BASED ON VOICE RECOGNITION}Speech recognition device, method and computer program for providing speech recognition-based interaction service

본 발명은 음성 인식 기반 인터랙션 서비스를 제공하는 음성 인식 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.The present invention relates to a voice recognition apparatus, method, and computer program for providing a voice recognition-based interaction service.

미디어 콘텐츠에서 재생 구간을 이동하는 경우, 화면 내 스크롤을 조작하는 경우, 볼륨을 조절하는 경우 등에 있어서, 사용자들은 기존의 터치 기반의 인터페이스를 이용하는 연속 인터랙션 서비스에 익숙해져 있다.Users are accustomed to continuous interaction services using an existing touch-based interface in the case of moving a playback section in media content, manipulating scrolling within a screen, adjusting volume, and the like.

또한, 종래의 음성 인식 기반 서비스는, 사용자의 발화를 인식하고 이에 따른 단발성 응답을 출력할 수 있을 뿐, 사용자에게 직관적인 연속 인터랙션 서비스를 제공하지 못하는 문제점이 있었다. 따라서, 사용자가 명령어를 여러 번 발화해야 함으로써 발생하는 피로감 및 정밀한 조작을 할 수 없다는 불편을 초래하였다. 또한, 드래그 앤 드롭, 스와이프와 같이 터치 기반의 인터페이스에서 가능한 기능을 수행할 수 없는 경우도 존재하였다.In addition, the conventional voice recognition-based service has a problem in that it can only recognize the user's utterance and output a one-shot response according to it, and cannot provide an intuitive continuous interaction service to the user. Accordingly, fatigue caused by the user having to utter a command several times and inconvenience in being unable to perform precise manipulations are caused. In addition, there were cases in which functions that are possible in a touch-based interface such as drag and drop and swipe could not be performed.

한국등록특허 제 1197010호 (2012.10.26. 등록)Korean Patent No. 1197010 (Registered on October 26, 2012)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성 데이터를 입력받고, 입력받은 음성 데이터에 기초하여 화자를 인식하고, 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하고, 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하고, 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공하고자 한다.The present invention is to solve the problems of the prior art described above, receiving voice data, recognizing a speaker based on the received voice data, recognizing an interaction target and an interaction command from the voice data, and recognizing an interaction target and To extract a speaker-customized continuous interaction intention based on an interaction command, and to provide a continuous interaction service based on the extracted continuous interaction intention.

화자의 발화 습관에 기초하여 직관적으로 연속 인터랙션 서비스를 제공하는 방법을 제공하고자 한다.An object of the present invention is to provide a method for intuitively providing a continuous interaction service based on the speaker's utterance habit.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problems to be achieved by the present embodiment are not limited to the technical problems described above, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 음성 인식 기반 인터랙션 서비스를 제공하는 음성 인식 장치에 있어서, 음성 데이터를 입력받는 입력부, 상기 입력받은 음성 데이터에 기초하여 화자를 인식하는 화자 인식부, 상기 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하고, 상기 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하는 의도 추출부 및 상기 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공하는 서비스 제공부를 포함할 수 있다.As a means for achieving the above-described technical problem, an embodiment of the present invention provides a voice recognition apparatus for providing a voice recognition-based interaction service, an input unit for receiving voice data, and a speaker based on the received voice data A speaker recognition unit that recognizes, an intention extractor that recognizes an interaction target and an interaction command from the voice data, and extracts a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command, and the extracted continuous interaction intent It may include a service provider that provides a continuous interaction service.

일 실시예에서, 상기 의도 추출부는 상기 인식된 화자의 발화 패턴 모델에 더 기초하여 상기 연속 인터랙션 의도를 추출할 수 있다.In an embodiment, the intention extractor may extract the continuous interaction intention further based on the recognized speaker's speech pattern model.

일 실시예에서, 상기 의도 추출부는 상기 인터랙션 명령어의 최후 음절의 지속 시간이 상기 발화 패턴 모델에 기초한 트리거 값을 초과하는지 여부에 기초하여 상기 연속 인터랙션 의도를 추출할 수 있다.In an embodiment, the intention extractor may extract the continuous interaction intention based on whether a duration of the last syllable of the interaction command exceeds a trigger value based on the speech pattern model.

일 실시예에서, 상기 음성 데이터로부터 상기 연속 인터랙션 서비스의 동작을 제어하는 연속 인터랙션 제어 정보를 도출하는 제어 정보 도출부를 더 포함할 수 있다.In an embodiment, a control information derivation unit for deriving continuous interaction control information for controlling the operation of the continuous interaction service from the voice data may be further included.

일 실시예에서, 상기 제어 정보 도출부는 상기 음성 데이터의 음정 변화량 및 음량 변화량 중 적어도 하나에 기초하여 상기 연속 인터랙션 제어 정보를 도출할 수 있다.In an embodiment, the control information deriving unit may derive the continuous interaction control information based on at least one of a pitch change amount and a volume change amount of the voice data.

일 실시예에서, 상기 제어 정보 도출부는 상기 인식된 화자의 발화 패턴 모델에 기초하여 상기 음성 데이터에 상기 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 더 도출할 수 있다.In an embodiment, the control information derivation unit may further derive whether there is an intention to control the operation speed of the continuous interaction service in the voice data based on the recognized speaker's speech pattern model.

일 실시예에서, 상기 제어 정보 도출부는 상기 음정 변화량이 양의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 상기 음정 변화량이 음의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 상기 연속 인터랙션 제어 정보를 도출할 수 있다.In an embodiment, the control information derivation unit increases the operation speed of the continuous interaction service when the pitch change amount has a positive value, and increases the operation speed of the continuous interaction service when the pitch change amount has a negative value It is possible to derive the continuous interaction control information to reduce .

일 실시예에서, 상기 제어 정보 도출부는 상기 음량 변화량이 양의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 상기 음량 변화량이 음의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 상기 연속 인터랙션 제어 정보를 도출할 수 있다.In an embodiment, the control information derivation unit increases the operation speed of the continuous interaction service when the volume change amount has a positive value, and increases the operation speed of the continuous interaction service when the volume change amount has a negative value. It is possible to derive the continuous interaction control information to reduce .

본 발명의 다른 실시예는, 음성 인식 기반 인터랙션 서비스를 제공하는 음성 인식 방법에 있어서, 음성 데이터를 입력받는 단계, 상기 입력받은 음성 데이터에 기초하여 화자를 인식하는 단계, 상기 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하는 단계, 상기 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하는 단계 및 상기 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공하는 단계를 포함할 수 있다.Another embodiment of the present invention provides a voice recognition method for providing a voice recognition-based interaction service, comprising: receiving voice data; recognizing a speaker based on the received voice data; an interaction target from the voice data; Recognizing an interaction command, extracting a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command, and providing a continuous interaction service based on the extracted continuous interaction intention.

본 발명의 또 다른 실시예는, 음성 인식 기반 인터랙션 서비스를 제공하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 음성 데이터를 입력받고, 상기 입력받은 음성 데이터에 기초하여 화자를 인식하고, 상기 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하고, 상기 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하고, 상기 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공하도록 하는 명령어들의 시퀀스를 포함할 수 있다.Another embodiment of the present invention provides a computer program stored in a computer readable recording medium including a sequence of instructions for providing a voice recognition-based interaction service, wherein the computer program inputs voice data when the computer program is executed by a computing device receiving, recognizing a speaker based on the received voice data, recognizing an interaction target and an interaction command from the voice data, extracting a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command, and extracting the extracted and a sequence of instructions to provide a continuous interaction service based on the continuous interaction intent.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.The above-described problem solving means are merely exemplary, and should not be construed as limiting the present invention. In addition to the exemplary embodiments described above, there may be additional embodiments described in the drawings and detailed description.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 데이터를 입력받고, 입력받은 음성 데이터에 기초하여 화자를 인식하고, 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하고, 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하고, 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공할 수 있다.According to any one of the above-described problem solving means of the present invention, voice data is received, a speaker is recognized based on the received voice data, an interaction target and an interaction command are recognized from the voice data, and the recognized interaction target and interaction A speaker-customized continuous interaction intention may be extracted based on the command, and a continuous interaction service may be provided based on the extracted continuous interaction intention.

또한, 화자의 발화 습관에 기초하여 직관적으로 연속 인터랙션 서비스를 제공할 수 있다.In addition, it is possible to intuitively provide a continuous interaction service based on the speaker's utterance habit.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 연속 인터랙션 서비스를 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따라 연속 인터랙션 의도를 추출하는 방법을 설명하기 위한 예시적인 도면이다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따라 연속 인터랙션 제어 정보를 도출하는 방법을 설명하기 위한 예시적인 도면이다.
도 5는 인터랙션 명령어의 음량 변화량에 기초하여 연속 인터랙션 제어 정보를 도출하는 방법을 설명하기 위한 예시적인 도면이다.
도 6은 본 발명의 일 실시예에 따른 음성 인식 방법의 순서도이다.
1 is a block diagram of a voice recognition apparatus according to an embodiment of the present invention.
2 is an exemplary diagram for explaining a continuous interaction service according to an embodiment of the present invention.
3 is an exemplary diagram for explaining a method of extracting a continuous interaction intention according to an embodiment of the present invention.
4A and 4B are exemplary diagrams for explaining a method of deriving continuous interaction control information according to an embodiment of the present invention.
5 is an exemplary diagram for explaining a method of deriving continuous interaction control information based on a volume change amount of an interaction command.
6 is a flowchart of a voice recognition method according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement them. However, the present invention may be embodied in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Throughout the specification, when a part is "connected" with another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated, and one or more other features However, it is to be understood that the existence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded in advance.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.In this specification, a "part" includes a unit realized by hardware, a unit realized by software, and a unit realized using both. In addition, one unit may be implemented using two or more hardware, and two or more units may be implemented by one hardware. Meanwhile, '~ unit' is not limited to software or hardware, and '~ unit' may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors. Accordingly, as an example, '~' indicates components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, and procedures. , subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables. The functions provided in the components and '~ units' may be combined into a smaller number of components and '~ units' or further separated into additional components and '~ units'. In addition, components and '~ units' may be implemented to play one or more CPUs in a device or secure multimedia card.

이하에서 언급되는 "네트워크"는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.The "network" referred to below means a connection structure capable of exchanging information between each node, such as terminals and servers, and includes a local area network (LAN), a wide area network (WAN). , the Internet (WWW: World Wide Web), wired and wireless data networks, telephone networks, wired and wireless television networks, and the like. Examples of wireless data communication networks include 3G, 4G, 5G, 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), World Interoperability for Microwave Access (WIMAX), Wi-Fi, Bluetooth communication, infrared communication, ultrasound Communication, Visible Light Communication (VLC), LiFi, and the like are included, but are not limited thereto.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.Some of the operations or functions described as being performed by the terminal or device in this specification may be instead performed by a server connected to the terminal or device. Similarly, some of the operations or functions described as being performed by the server may also be performed in a terminal or device connected to the server.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성도이다. 도 1을 참조하면, 음성 인식 장치(100)는 입력부(110), 화자 인식부(120), 의도 추출부(130), 제어 정보 도출부(140) 및 서비스 제공부(150)를 포함할 수 있다.1 is a block diagram of a voice recognition apparatus according to an embodiment of the present invention. Referring to FIG. 1 , the voice recognition apparatus 100 may include an input unit 110 , a speaker recognizer 120 , an intention extractor 130 , a control information derivation unit 140 , and a service provider 150 . there is.

음성 인식 장치(100)는 음성 인식 기반 인터랙션 서비스를 제공할 수 있다. 여기서, 음성 인식 기반 인터랙션 서비스는 사용자가 음성 발화를 통해 각종 디바이스의 인터페이스를 제어할 수 있도록 하는 기능을 제공하는 서비스를 의미한다.The voice recognition apparatus 100 may provide a voice recognition-based interaction service. Here, the voice recognition-based interaction service refers to a service that provides a function that allows a user to control interfaces of various devices through voice utterance.

본 발명에 따른 음성 인식 장치(100)는 연속 인터랙션 서비스를 제공할 수 있다. 여기서, 연속 인터랙션 서비스는 사용자의 명령에 따라 특정 기능을 단순히 온/오프하거나, 단발성 응답을 출력하는 것이 아니라, 특정 기능의 동작 정도를 연속적으로 제어할 수 있도록 하는 기능을 제공하는 서비스를 의미한다.The voice recognition apparatus 100 according to the present invention may provide a continuous interaction service. Here, the continuous interaction service refers to a service that provides a function to continuously control the degree of operation of a specific function, rather than simply turning on/off a specific function according to a user's command or outputting a one-shot response.

도 2는 본 발명에 따른 연속 인터랙션 서비스가 적용될 수 있는 경우를 예시적으로 도시한다. 도 2의 (a)를 참조하면, 리스트 내에 포함되는 하나 이상의 항목을 선택하기 위해, 복수의 항목 단위로 이동하는 경우에 연속 인터랙션 서비스가 적용될 수 있다.2 exemplarily illustrates a case to which the continuous interaction service according to the present invention can be applied. Referring to FIG. 2A , in order to select one or more items included in the list, a continuous interaction service may be applied when moving in units of a plurality of items.

도 2의 (b)를 참조하면, 영상 재생시 재생 구간을 이동하는 경우에 어느 정도의 재생 구간을 이동시킬지를 제어하기 위해 연속 인터랙션 서비스가 적용될 수 있다. 또한, 도 2의 (c)를 참조하면, 아이콘을 드래그/드롭하는 경우에도 연속 인터랙션 서비스가 적용될 수 있다.Referring to (b) of FIG. 2 , a continuous interaction service may be applied in order to control to what extent a playback section is moved when a playback section is moved during video playback. Also, referring to FIG. 2C , a continuous interaction service may be applied even when an icon is dragged/dropped.

또한, 화면 내 스크롤을 조작하는 경우, 볼륨을 조절하는 경우 등에도 연속 인터랙션 서비스가 적용될 수 있다.In addition, the continuous interaction service may be applied to the case of manipulating scrolling within the screen, adjusting the volume, and the like.

다시 도 1을 참조하면, 입력부(110)는 음성 데이터를 입력받을 수 있다. 입력부(110)는 예를 들어, 사용자 단말, 외부 서버, 클라우드 또는 외부 장치로부터 음성 데이터를 입력받을 수 있다. 입력받은 음성 데이터는 예를 들어, 호출어 및 명령어를 포함할 수 있다. 호출어는 음성 인식 장치(100)의 서비스를 개시하기 위한 것으로, 음성 인식 장치(100)는 기설정된 호출어를 인식한 후에 호출어 이후의 명령어에 따른 동작을 수행할 수 있다.Referring back to FIG. 1 , the input unit 110 may receive voice data. The input unit 110 may receive voice data from, for example, a user terminal, an external server, a cloud, or an external device. The received voice data may include, for example, a call word and a command. The call word is for initiating the service of the voice recognition apparatus 100 , and after recognizing a preset call word, the voice recognition apparatus 100 may perform an operation according to the command after the call word.

예를 들어, 음성 인식 장치(100)는 "기가지니", "지니야", "친구야", "자기야"와 같은 호출어가 인식된 경우에, 호출어 이후의 명령어에 따른 동작을 수행할 수 있다.For example, when a call word such as "Giga Genie", "Genie", "Friend", or "Baby" is recognized, the voice recognition apparatus 100 may perform an operation according to the command after the call word. there is.

여기서, 입력받은 음성 데이터는 자연어 처리를 이용한 음성 인식을 통해 문자열로 변환될 수 있다. 이러한 음성 인식은 음성 인식 장치(100) 또는 클라우드 서버를 통해 수행될 수 있다. 예를 들어, 클라우드 서버를 통해 음성 인식이 수행되는 경우, 클라우드 서버는 음성 데이터로부터 문맥에 맞는 띄어쓰기 및 의미있는 문자열을 도출할 수 있도록 지원하는 음성 정보 데이터베이스에 기초하여 자연어 처리를 수행하여 음성 인식을 수행할 수 있다.Here, the received voice data may be converted into a character string through voice recognition using natural language processing. Such voice recognition may be performed through the voice recognition apparatus 100 or a cloud server. For example, when voice recognition is performed through a cloud server, the cloud server performs natural language processing based on a voice information database that supports to derive context-appropriate spaces and meaningful strings from voice data to perform voice recognition. can be done

화자 인식부(120)는 입력받은 음성 데이터에 기초하여 화자를 인식할 수 있다. 화자 인식부(120)는 예를 들어, 복수의 화자의 음성 데이터가 저장된 화자 데이터베이스에 기초하여 입력받은 음성 데이터의 화자를 식별할 수 있다.The speaker recognition unit 120 may recognize the speaker based on the received voice data. The speaker recognizer 120 may identify the speaker of the received voice data, for example, based on a speaker database in which voice data of a plurality of speakers is stored.

음성 인식 장치(100)는 식별된 화자의 발화 패턴 모델을 이용하여 화자 맞춤형 연속 인터랙션 서비스를 제공할 수 있다. 음성 인식 장치(100)는 화자의 발화 패턴 모델에 따라 각 사용자의 발화 습관을 반영하여 직관적인 연속 인터랙션 서비스를 제공할 수 있다. 본 발명에 따르면, 음성 인식 기반의 화자 맞춤형 연속 인터랙션 서비스를 제공함으로써 사용자 경험을 증진할 수 있다.The voice recognition apparatus 100 may provide a speaker-customized continuous interaction service by using the identified speaker's speech pattern model. The voice recognition apparatus 100 may provide an intuitive continuous interaction service by reflecting each user's speech habit according to the speaker's speech pattern model. According to the present invention, a user experience can be improved by providing a speaker-customized continuous interaction service based on voice recognition.

의도 추출부(130)는 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식할 수 있다. 예를 들어, 의도 추출부(130)는 음성 인식을 통해 도출된 문자열로부터 인터랙션 대상 및 인터랙션 명령어를 인식할 수 있다.The intention extractor 130 may recognize an interaction target and an interaction command from the voice data. For example, the intention extractor 130 may recognize an interaction target and an interaction command from a string derived through voice recognition.

음성 인식 장치(100)의 연속 인터랙션 서비스를 실행하기 위한 명령어는 예를 들어, 인터랙션 대상 및 인터랙션 명령어를 포함할 수 있다. 여기서, 인터랙션 대상은 사용자가 연속 인터랙션을 통해 제어하고자 하는 영역을 지칭하고, 인터랙션 명령어는 인터랙션 대상에 대해 적용할 제어 명령을 의미할 수 있다.The command for executing the continuous interaction service of the voice recognition apparatus 100 may include, for example, an interaction target and an interaction command. Here, the interaction target may refer to an area that the user wants to control through continuous interaction, and the interaction command may mean a control command to be applied to the interaction target.

예를 들어, 명령어 "스크롤 내려줘"에서 "스크롤"은 인터랙션 대상이고, "내려줘"는 인터랙션 명령어일 수 있다. 또한, 명령어 "재생 바 오른쪽으로 이동"에서 "재생 바"는 인터랙션 대상이고, "오른쪽으로 이동"은 인터랙션 명령어일 수 있다.For example, in the command "Scroll down", "scroll" may be an interaction target, and "get down" may be an interaction command. In addition, in the command "move to the right of the play bar", "play bar" may be an interaction target, and "move to the right" may be an interaction command.

의도 추출부(130)는 연속 인터랙션 의도에 기초하여 입력받은 음성 데이터에 연속 인터랙션을 적용할 의도가 있는지 여부를 결정할 수 있다.The intention extractor 130 may determine whether there is an intention to apply the continuous interaction to the input voice data based on the continuous interaction intention.

의도 추출부(130)는 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출할 수 있다. 의도 추출부(130)는 화자의 발화 패턴 모델에 더 기초하여 연속 인터랙션 의도를 추출할 수 있다.The intention extractor 130 may extract a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command. The intention extractor 130 may extract the continuous interaction intention further based on the speaker's speech pattern model.

화자의 발화 패턴 모델은 예를 들어, 음성 데이터의 반복된 음소(연음) 및 묵음을 제거하지 않은 레이블링 데이터에 기초하여, 각 음소의 발생 확률값을 화자별로 추정함으로써 생성된 것일 수 있다. 셀프 루프(self-loop) 추정을 허용하는 운소 단위별 발화 패턴 분석에 기초하여 특정 음소를 길게 발음하는 화자는 동일한 음소를 반복하는 형태로 학습 및 추론하고, 특정 음소를 짧게 발음하는 화자는 다음 음소로 전이하도록 할 수 있다. 화자의 발화 패턴 모델은 특정 운소의 발화 시점 직후에 다른 운소가 발생할 확률값을 추정 및 학습하여 생성된 것일 수 있다.The speaker's speech pattern model may be generated by estimating the occurrence probability value of each phoneme for each speaker, for example, based on labeling data in which repeated phonemes (connections) and silences of speech data are not removed. Based on the analysis of speech patterns for each phoneme unit that allows self-loop estimation, a speaker pronouncing a specific phoneme for a long time learns and infers by repeating the same phoneme, and a speaker pronouncing a specific phoneme short becomes the next phoneme. can be transferred to The speaker's utterance pattern model may be generated by estimating and learning a probability value that another voicing will occur immediately after the utterance of a specific voicing.

의도 추출부(130)는 화자의 발화 패턴 모델 및 연속 인터랙션 의도 생성 패턴에 기초하여 트리거 값을 도출할 수 있다. 연속 인터랙션 의도 생성 패턴은 예를 들어, 명령어 발화 맥락, 제공되는 콘텐츠의 종류, 화면 구성 등에 관한 정보를 포함할 수 있다.The intention extractor 130 may derive a trigger value based on the speaker's speech pattern model and the continuous interaction intention generation pattern. The continuous interaction intention generation pattern may include, for example, information about a command utterance context, a type of content to be provided, a screen configuration, and the like.

의도 추출부(130)는 인터랙션 명령어의 최후 음절의 지속 시간이 발화 패턴 모델에 기초한 트리거 값을 초과하는지 여부에 기초하여 연속 인터랙션 의도를 추출할 수 있다.The intention extractor 130 may extract the continuous interaction intention based on whether the duration of the last syllable of the interaction command exceeds a trigger value based on the speech pattern model.

도 3은 본 발명의 일 실시예에 따라 연속 인터랙션 의도를 추출하는 방법을 설명하기 위한 예시적인 도면이다. 도 3을 참조하면, 음성 데이터는 호출어에 해당하는 "친구야", 인터랙션 대상에 해당하는 "스크롤" 및 인터랙션 명령어에 해당하는 "내려"를 포함할 수 있다. 3 is an exemplary diagram for explaining a method of extracting a continuous interaction intention according to an embodiment of the present invention. Referring to FIG. 3 , the voice data may include “My friend” corresponding to a call word, “Scroll” corresponding to an interaction target, and “Download” corresponding to an interaction command.

도 3에 도시된 예에서, 명령어에 해당하는 "내려"의 최후 음절인 "려"의 지속 시간이 화자의 발화 패턴 모델에 기초한 트리거 값을 초과하는지 여부에 기초하여 연속 인터랙션 의도가 추출될 수 있다.In the example shown in FIG. 3 , the continuous interaction intention can be extracted based on whether the duration of the last syllable of “ryeo” corresponding to the command exceeds a trigger value based on the speaker’s utterance pattern model. .

제어 정보 도출부(140)는 음성 데이터로부터 연속 인터랙션 서비스의 동작을 제어하는 연속 인터랙션 제어 정보를 도출할 수 있다.The control information derivation unit 140 may derive continuous interaction control information for controlling the operation of the continuous interaction service from the voice data.

제어 정보 도출부(140)는 음성 데이터의 음정 변화량 및 음량 변화량 중 적어도 하나에 기초하여 연속 인터랙션 제어 정보를 도출할 수 있다.The control information derivation unit 140 may derive continuous interaction control information based on at least one of a pitch change amount and a volume change amount of the voice data.

제어 정보 도출부(140)는 인식된 화자의 발화 패턴 모델에 기초하여 음성 데이터에 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 더 도출할 수 있다.The control information derivation unit 140 may further derive whether there is an intention to control the operation speed of the continuous interaction service in the voice data based on the recognized speaker's speech pattern model.

제어 정보 도출부(140)는 예를 들어, 화자의 발화 패턴 모델에 기초하여 동작 속도 제어 의도 트리거 값을 도출하고, 음성 데이터의 첫 음절의 음정 및 마지막 음절의 음정의 차의 절댓값이 트리거 값을 초과하는지 여부에 기초하여 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 도출할 수 있다.The control information derivation unit 140 derives, for example, an operation speed control intention trigger value based on the speaker's speech pattern model, and the absolute value of the difference between the pitch of the first syllable and the last syllable of the voice data is the trigger value. Whether there is an intention to control the operation speed of the continuous interaction service may be derived based on whether it is exceeded.

제어 정보 도출부(140)는 음성 데이터의 음정 변화량에 기초하여 연속 인터랙션 제어 정보를 도출할 수 있다. 제어 정보 도출부(140)는 예를 들어, 음성 데이터의 첫 음절의 음정 및 음성 데이터의 마지막 음절의 음정의 차이에 기초하여 연속 인터랙션 제어 정보를 도출할 수 있다.The control information derivation unit 140 may derive continuous interaction control information based on the pitch change amount of the voice data. The control information derivation unit 140 may derive continuous interaction control information based on, for example, a difference between the pitch of the first syllable of the voice data and the pitch of the last syllable of the voice data.

제어 정보 도출부(140)는 예를 들어, 각 음정에 기설정된 수치를 대응시키고, 음성 데이터의 첫 음절의 음정 및 마지막 음절의 음정에 대응되는 수치에 기초하여 음정 변화량을 산출할 수 있다.The control information derivation unit 140 may, for example, associate a preset value with each pitch and calculate the pitch change amount based on the values corresponding to the pitch of the first syllable and the pitch of the last syllable of the voice data.

예를 들어, 제어 정보 도출부(140)는 하기의 수학식 1에 기초하여 음성 데이터의 음정 변화량(v)을 도출할 수 있다. 여기서, pf은 음성 데이터의 마지막 음절의 음정에 대응되는 수치이고 p1은 음성 데이터의 첫 음절의 음정에 대응되는 수치를 의미할 수 있다.For example, the control information derivation unit 140 may derive the pitch change amount v of the voice data based on Equation 1 below. Here, p f may be a numerical value corresponding to the pitch of the last syllable of the voice data, and p 1 may mean a numerical value corresponding to the pitch of the first syllable of the voice data.

Figure pat00001
Figure pat00001

제어 정보 도출부(140)는 음성 데이터의 음정 변화량(v)의 절댓값이 트리거 값을 초과하는지 여부에 기초하여 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 도출할 수 있다.The control information derivation unit 140 may derive whether there is an intention to control the operation speed of the continuous interaction service based on whether the absolute value of the pitch change amount v of the voice data exceeds the trigger value.

또한, 제어 정보 도출부(140)는 음성 데이터의 음정 변화량(v)의 값에 기초하여 연속 인터랙션 제어 정보를 도출할 수 있다.Also, the control information derivation unit 140 may derive continuous interaction control information based on the value of the pitch change amount v of the voice data.

예를 들어, 연속 인터랙션 제어 정보는 음성 데이터의 음정 변화량이 양의 값을 갖는 경우 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 음성 데이터의 음정 변화량이 음의 값을 갖는 경우 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 정보를 포함할 수 있다. 또한, 음성 데이터의 음정 변화량의 절댓값이 클수록 속도를 많이 증가시키거나 감소시킬 수 있다.For example, the continuous interaction control information increases the speed of the operation of the continuous interaction service when the pitch change of voice data has a positive value, and increases the operation speed of the continuous interaction service when the pitch change of the voice data has a negative value. It may contain information that causes the speed to be reduced. Also, as the absolute value of the pitch change amount of the voice data increases, the speed may be greatly increased or decreased.

도 4a 및 도 4b는 인터랙션 명령어의 음정 변화량에 기초하여 연속 인터랙션 제어 정보를 도출하는 방법을 설명하기 위한 예시적인 도면이다.4A and 4B are exemplary views for explaining a method of deriving continuous interaction control information based on a pitch change amount of an interaction command.

도 4a에 도시된 바와 같이, 음성 인식 장치(100)는 각 음정에 기설정된 수치를 대응시킬 수 있다. 이어서 도 4b를 참조하면, 음성 인식 장치(100)는 음성 데이터의 첫 음절 "친"의 음정에 대응되는 값인 1 및 마지막 음절 "려"의 음정에 대응되는 값인 8의 차에 기초하여 연속 인터랙션 제어 정보를 도출할 수 있다.As shown in FIG. 4A , the voice recognition apparatus 100 may associate a preset numerical value with each pitch. Next, referring to FIG. 4B , the voice recognition apparatus 100 controls continuous interaction based on a difference between 1, which is a value corresponding to the pitch of the first syllable “Chin,” of the voice data, and 8, which is a value corresponding to the pitch of the last syllable, “ryeo” of the voice data. information can be derived.

예를 들어, 동작 속도 제어 의도 트리거 값이 5인 경우에, 도 4b에 도시된 예에서 음성 데이터의 첫 음절의 음정 및 마지막 음절의 음정의 차의 절댓값인 7이 동작 속도 제어 의도 트리거 값을 초과하므로, 제어 정보 도출부(140)는 음성 데이터에 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는 것으로 판단할 수 있다.For example, when the motion speed control intention trigger value is 5, in the example shown in FIG. 4B , 7, which is the absolute value of the difference between the pitch of the first syllable and the last syllable of the voice data, exceeds the motion speed control intent trigger value. Therefore, the control information derivation unit 140 may determine that there is an intention to control the operation speed of the continuous interaction service in the voice data.

또한, 도 4b에 도시된 예에서 음성 데이터의 첫 음절의 음정 및 마지막 음절의 음정의 차인 7이 양의 값을 가지므로, 제어 정보 도출부(140)가 도출한 연속 인터랙션 제어 정보는 연속 인터랙션 서비스의 동작의 속도를 증가시키도록 하는 정보를 포함할 수 있다.In addition, in the example shown in FIG. 4B, since 7, which is the difference between the pitch of the first syllable and the pitch of the last syllable of the voice data, has a positive value, the continuous interaction control information derived by the control information derivation unit 140 is a continuous interaction service. It may include information to increase the speed of its operation.

제어 정보 도출부(140)는 예를 들어, 화자의 발화 패턴 모델에 기초하여 동작 속도 제어 의도 트리거 값을 도출하고, 음성 데이터의 최대 음량 및 최소 음량의 차가 트리거 값을 초과하는지 여부에 기초하여 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 도출할 수 있다.The control information derivation unit 140 derives, for example, an operation speed control intention trigger value based on the speaker's speech pattern model, and continues based on whether the difference between the maximum volume and the minimum volume of the voice data exceeds the trigger value. It is possible to derive whether there is an intention to control the operation speed of the interaction service.

예를 들어, 음성 인식 장치(100)는 하기의 수학식 2에 기초하여 음성 데이터의 최대 음량 및 최소 음량의 차(u1)를 도출할 수 있다. 여기서, rMax는 음성 데이터의 최대 음량이고, rmin은 음성 데이터의 최소 음량을 나타낼 수 있다.For example, the speech recognition apparatus 100 may derive the difference u 1 between the maximum volume and the minimum volume of speech data based on Equation 2 below. Here, r Max may represent the maximum volume of the voice data, and r min may represent the minimum volume of the voice data.

Figure pat00002
Figure pat00002

음성 인식 장치(100)는 음성 데이터의 최대 음량 및 최소 음량의 차(u1)가 트리거 값을 초과하는지 여부에 기초하여 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 도출할 수 있다.The voice recognition apparatus 100 may derive whether there is an intention to control the operation speed of the continuous interaction service based on whether the difference u 1 between the maximum volume and the minimum volume of the voice data exceeds a trigger value.

제어 정보 도출부(140)는 음성 데이터의 음량 변화량에 기초하여 연속 인터랙션 제어 정보를 도출할 수 있다. 제어 정보 도출부(140)는 예를 들어, 음성 데이터의 첫 음절의 음량 및 마지막 음절의 음량에 기초하여 음정 변화량을 산출할 수 있다.The control information derivation unit 140 may derive continuous interaction control information based on the volume change amount of the voice data. The control information derivation unit 140 may calculate a pitch change amount based on, for example, the volume of the first syllable and the volume of the last syllable of the voice data.

예를 들어, 제어 정보 도출부(140)는 하기의 수학식 3에 기초하여 음성 데이터의 음량 변화량(u2)을 도출할 수 있다. 여기서, rf는 음성 데이터의 마지막 음절의 음량이고, r1은 음성 데이터의 첫 음절의 음량을 나타낼 수 있다.For example, the control information derivation unit 140 may derive the volume change amount u 2 of the voice data based on Equation 3 below. Here, r f may represent the volume of the last syllable of the voice data, and r 1 may represent the volume of the first syllable of the voice data.

Figure pat00003
Figure pat00003

제어 정보 도출부(140)는 음성 데이터의 음량 변화량(u2)의 값에 기초하여 연속 인터랙션 제어 정보를 도출할 수 있다.The control information derivation unit 140 may derive continuous interaction control information based on the value of the volume change amount u 2 of the voice data.

예를 들어, 연속 인터랙션 제어 정보는 음성 데이터의 음량 변화량이 양의 값을 갖는 경우 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 음성 데이터의 음량 변화량이 음의 값을 갖는 경우 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 정보를 포함할 수 있다. 또한, 음성 데이터의 음정 변화량의 절댓값이 클수록 속도를 많이 증가시키거나 감소시킬 수 있다.For example, the continuous interaction control information increases the speed of the operation of the continuous interaction service when the volume change amount of the voice data has a positive value, and increases the operation speed of the continuous interaction service when the volume change amount of the voice data has a negative value. It may contain information that causes the speed to be reduced. Also, as the absolute value of the pitch change amount of the voice data increases, the speed may be greatly increased or decreased.

도 5는 인터랙션 명령어의 음량 변화량에 기초하여 연속 인터랙션 제어 정보를 도출하는 방법을 설명하기 위한 예시적인 도면이다. 도 5를 참조하면, 음성 데이터의 최소 음량은 32 db이고, 최대 음량은 59 db이고, 동작 속도 제어 의도 트리거 값이 15 인 경우에, 음성 데이터의 최대 음량 및 최소 음량의 차는 59-32=22로 동작 속도 제어 의도 트리거 값을 초과한다. 따라서, 제어 정보 도출부(140)는 음성 데이터에 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는 것으로 판단할 수 있다.5 is an exemplary diagram for explaining a method of deriving continuous interaction control information based on a volume change amount of an interaction command. Referring to FIG. 5 , when the minimum volume of voice data is 32 db, the maximum volume is 59 db, and the operation speed control intention trigger value is 15, the difference between the maximum volume and the minimum volume of the voice data is 59-32=22 Exceeds the operating speed control intention trigger value. Accordingly, the control information derivation unit 140 may determine that there is an intention to control the operation speed of the continuous interaction service in the voice data.

또한, 음성 데이터의 마지막 음절의 음량이 59 db이고, 첫 음절의 음량이 32 db 인 경우에, 음성 데이터의 음량 변화량인 22가 양의 값을 가지므로, 제어 정보 도출부(140)가 도출한 연속 인터랙션 제어 정보는 연속 인터랙션 서비스의 동작의 속도를 증가시키도록 하는 정보를 포함할 수 있다.In addition, when the volume of the last syllable of the voice data is 59 db and the volume of the first syllable is 32 db, 22, the volume change amount of the voice data, has a positive value. The continuous interaction control information may include information to increase the speed of the operation of the continuous interaction service.

서비스 제공부(150)는 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공할 수 있다. 서비스 제공부(150)는 화자 인식부(120)에 의해 인식된 화자의 특성에 기초하여 화자 맞춤형 연속 인터랙션 서비스를 제공할 수 있다. 여기서, 화자 맞춤형 연속 인터랙션 서비스는 상술한 화자의 발화 패턴 모델 및 연속 인터랙션 의도 생성 패턴에 기초한 트리거 값에 의해 제공된다.The service providing unit 150 may provide a continuous interaction service based on the extracted continuous interaction intention. The service providing unit 150 may provide a speaker-customized continuous interaction service based on the characteristics of the speaker recognized by the speaker recognition unit 120 . Here, the speaker customized continuous interaction service is provided by a trigger value based on the aforementioned speaker's speech pattern model and continuous interaction intention generation pattern.

도 6는 본 발명의 일 실시예에 따른 음성 인식 방법의 순서도이다. 도 6에 도시된 음성 인식 장치(100)에서 수행되는 음성 인식 방법(600)은 도 1에 도시된 실시예에 따라 음성 인식 장치(100)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1에 도시된 실시예에 따라 음성 인식 장치(100)에서 수행되는 음성 인식 방법에도 적용된다.6 is a flowchart of a voice recognition method according to an embodiment of the present invention. The voice recognition method 600 performed by the voice recognition apparatus 100 illustrated in FIG. 6 includes steps that are time-series processed by the voice recognition apparatus 100 according to the embodiment illustrated in FIG. 1 . Accordingly, even if omitted below, it is also applied to the voice recognition method performed by the voice recognition apparatus 100 according to the embodiment shown in FIG. 1 .

단계 S610에서 음성 인식 장치(100)는 음성 데이터를 입력받을 수 있다.In step S610, the voice recognition apparatus 100 may receive voice data.

단계 S620에서 음성 인식 장치(100)는 입력받은 음성 데이터에 기초하여 화자를 인식할 수 있다.In operation S620, the voice recognition apparatus 100 may recognize the speaker based on the received voice data.

단계 S630에서 음성 인식 장치(100)는 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식할 수 있다.In operation S630, the voice recognition apparatus 100 may recognize an interaction target and an interaction command from the voice data.

단계 S640에서 음성 인식 장치(100)는 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출할 수 있다.In operation S640 , the speech recognition apparatus 100 may extract a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command.

단계 S650에서 음성 인식 장치(100)는 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공할 수 있다.In operation S650 , the voice recognition apparatus 100 may provide a continuous interaction service based on the extracted continuous interaction intention.

상술한 설명에서, 단계 S610 내지 S650은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.In the above description, steps S610 to S650 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention. In addition, some steps may be omitted as needed, and the order between the steps may be switched.

도 1 내지 도 6을 통해 설명된 음성 인식 장치에서 수행되는 음성 인식 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다.The voice recognition method performed in the voice recognition apparatus described with reference to FIGS. 1 to 6 may be implemented in the form of a computer program stored in a medium executed by a computer or a recording medium including instructions executable by the computer.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer-readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustration, and those of ordinary skill in the art to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a dispersed form, and likewise components described as distributed may be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

100: 음성 인식 장치
110: 입력부
120: 화자 인식부
130: 의도 추출부
140: 제어 정보 도출부
150: 서비스 제공부
100: speech recognition device
110: input unit
120: speaker recognition unit
130: intention extraction unit
140: control information derivation unit
150: service provider

Claims (17)

음성 인식 기반 인터랙션 서비스를 제공하는 음성 인식 장치에 있어서,
음성 데이터를 입력받는 입력부;
상기 입력받은 음성 데이터에 기초하여 화자를 인식하는 화자 인식부;
상기 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하고, 상기 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하는 의도 추출부; 및
상기 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공하는 서비스 제공부
를 포함하는 것인, 음성 인식 장치.
A voice recognition device for providing a voice recognition-based interaction service, comprising:
an input unit for receiving voice data;
a speaker recognition unit for recognizing a speaker based on the received voice data;
an intention extracting unit for recognizing an interaction target and an interaction command from the voice data, and extracting a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command; and
A service providing unit that provides a continuous interaction service based on the extracted continuous interaction intention
A voice recognition device comprising a.
제 1 항에 있어서,
상기 의도 추출부는 상기 인식된 화자의 발화 패턴 모델에 더 기초하여 상기 연속 인터랙션 의도를 추출하는 것인, 음성 인식 장치.
The method of claim 1,
and the intention extracting unit extracts the continuous interaction intention further based on the recognized speaker's speech pattern model.
제 2 항에 있어서,
상기 의도 추출부는 상기 인터랙션 명령어의 최후 음절의 지속 시간이 상기 발화 패턴 모델에 기초한 트리거 값을 초과하는지 여부에 기초하여 상기 연속 인터랙션 의도를 추출하는 것인, 음성 인식 장치.
3. The method of claim 2,
The intention extraction unit extracts the continuous interaction intention based on whether the duration of the last syllable of the interaction command exceeds a trigger value based on the speech pattern model.
제 1 항에 있어서,
상기 음성 데이터로부터 상기 연속 인터랙션 서비스의 동작을 제어하는 연속 인터랙션 제어 정보를 도출하는 제어 정보 도출부를 더 포함하는 것인, 음성 인식 장치.
The method of claim 1,
The voice recognition apparatus further comprising a control information derivation unit for deriving continuous interaction control information for controlling the operation of the continuous interaction service from the voice data.
제 4 항에 있어서,
상기 제어 정보 도출부는 상기 음성 데이터의 음정 변화량 및 음량 변화량 중 적어도 하나에 기초하여 상기 연속 인터랙션 제어 정보를 도출하는 것인, 음성 인식 장치.
5. The method of claim 4,
wherein the control information derivation unit derives the continuous interaction control information based on at least one of a pitch change amount and a volume change amount of the voice data.
제 5 항에 있어서,
상기 제어 정보 도출부는 상기 인식된 화자의 발화 패턴 모델에 기초하여 상기 음성 데이터에 상기 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 더 도출하는 것인, 음성 인식 장치.
6. The method of claim 5,
The control information derivation unit further derives whether there is an intention to control the operation speed of the continuous interaction service in the voice data based on the recognized speaker's utterance pattern model.
제 5 항에 있어서,
상기 제어 정보 도출부는 상기 음정 변화량이 양의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 상기 음정 변화량이 음의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 상기 연속 인터랙션 제어 정보를 도출하는 것인, 음성 인식 장치.
6. The method of claim 5,
The control information derivation unit increases the operation speed of the continuous interaction service when the pitch change amount has a positive value, and decreases the operation speed of the continuous interaction service when the pitch change amount has a negative value To derive the continuous interaction control information, speech recognition apparatus.
제 5 항에 있어서,
상기 제어 정보 도출부는 상기 음량 변화량이 양의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 상기 음량 변화량이 음의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 상기 연속 인터랙션 제어 정보를 도출하는 것인, 음성 인식 장치.
6. The method of claim 5,
The control information derivation unit increases the operation speed of the continuous interaction service when the volume change amount has a positive value, and decreases the operation speed of the continuous interaction service when the volume change amount has a negative value To derive the continuous interaction control information, speech recognition apparatus.
음성 인식 장치에 의해 음성 인식 기반 인터랙션 서비스를 제공하는 음성 인식 방법에 있어서,
음성 데이터를 입력받는 단계;
상기 입력받은 음성 데이터에 기초하여 화자를 인식하는 단계;
상기 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하는 단계;
상기 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하는 단계; 및
상기 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공하는 단계
를 포함하는 것인, 음성 인식 방법.
A voice recognition method for providing a voice recognition-based interaction service by a voice recognition device, the voice recognition method comprising:
receiving voice data;
recognizing a speaker based on the received voice data;
recognizing an interaction target and an interaction command from the voice data;
extracting a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command; and
providing a continuous interaction service based on the extracted continuous interaction intention
That comprising a, speech recognition method.
제 9 항에 있어서,
상기 연속 인터랙션 의도를 추출하는 단계는 상기 인식된 화자의 발화 패턴 모델에 더 기초하는 것인, 음성 인식 방법.
10. The method of claim 9,
The step of extracting the continuous interaction intention is further based on the recognized speaker's speech pattern model.
제 10 항에 있어서,
상기 연속 인터랙션 의도를 추출하는 단계는 상기 인터랙션 명령어의 최후 음절의 지속 시간이 상기 발화 패턴 모델에 기초한 트리거 값을 초과하는지 여부에 기초하는 것인, 음성 인식 방법.
11. The method of claim 10,
The step of extracting the continuous interaction intention is based on whether the duration of the last syllable of the interaction command exceeds a trigger value based on the speech pattern model.
제 9 항에 있어서,
상기 음성 데이터로부터 상기 연속 인터랙션 서비스의 동작을 제어하는 연속 인터랙션 제어 정보를 도출하는 단계를 더 포함하는 것인, 음성 인식 방법.
10. The method of claim 9,
The method further comprising the step of deriving continuous interaction control information for controlling the operation of the continuous interaction service from the voice data.
제 12 항에 있어서,
상기 연속 인터랙션 제어 정보를 도출하는 단계는 상기 음성 데이터의 음정 변화량 및 음량 변화량 중 적어도 하나에 기초하는 것인, 음성 인식 방법.
13. The method of claim 12,
The step of deriving the continuous interaction control information is based on at least one of a pitch change amount and a volume change amount of the voice data.
제 13 항에 있어서,
상기 인식된 화자의 발화 패턴 모델에 기초하여 상기 음성 데이터에 상기 연속 인터랙션 서비스의 동작 속도 제어 의도가 있는지 여부를 도출하는 단계를 더 포함하는 것인, 음성 인식 방법.
14. The method of claim 13,
The method further comprising the step of deriving whether there is an intention to control the operation speed of the continuous interaction service in the voice data based on the recognized speaker's speech pattern model.
제 13 항에 있어서,
상기 연속 인터랙션 제어 정보는 상기 음정 변화량이 양의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 상기 음정 변화량이 음의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 것인, 음성 인식 방법.
14. The method of claim 13,
The continuous interaction control information increases the operation speed of the continuous interaction service when the pitch change amount has a positive value, and decreases the operation speed of the continuous interaction service when the pitch change amount has a negative value. That is, a voice recognition method.
제 13 항에 있어서,
상기 연속 인터랙션 제어 정보는 상기 음량 변화량이 양의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 증가시키고, 상기 음량 변화량이 음의 값을 갖는 경우 상기 연속 인터랙션 서비스의 동작의 속도를 감소시키도록 하는 것인, 음성 인식 방법.
14. The method of claim 13,
The continuous interaction control information increases the operation speed of the continuous interaction service when the volume change amount has a positive value, and decreases the operation speed of the continuous interaction service when the volume change amount has a negative value. That is, a voice recognition method.
음성 인식 기반 인터랙션 서비스를 제공하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
음성 데이터를 입력받고,
상기 입력받은 음성 데이터에 기초하여 화자를 인식하고,
상기 음성 데이터로부터 인터랙션 대상 및 인터랙션 명령어를 인식하고,
상기 인식한 인터랙션 대상 및 인터랙션 명령어에 기초하여 화자 맞춤형 연속 인터랙션 의도를 추출하고,
상기 추출한 연속 인터랙션 의도에 기초하여 연속 인터랙션 서비스를 제공하도록 하는 명령어들의 시퀀스를 포함하는 것인, 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
In a computer program stored in a computer-readable recording medium including a sequence of instructions for providing a voice recognition-based interaction service,
When the computer program is executed by a computing device,
receive voice data,
Recognizing a speaker based on the received voice data,
Recognizing an interaction target and an interaction command from the voice data,
Extracting a speaker-customized continuous interaction intention based on the recognized interaction target and interaction command,
A computer program stored in a computer-readable recording medium comprising a sequence of instructions to provide a continuous interaction service based on the extracted continuous interaction intention.
KR1020200127905A 2020-10-05 2020-10-05 Apparatus, method and computer program for providing interaction service based on voice recognition KR20220045327A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200127905A KR20220045327A (en) 2020-10-05 2020-10-05 Apparatus, method and computer program for providing interaction service based on voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200127905A KR20220045327A (en) 2020-10-05 2020-10-05 Apparatus, method and computer program for providing interaction service based on voice recognition

Publications (1)

Publication Number Publication Date
KR20220045327A true KR20220045327A (en) 2022-04-12

Family

ID=81187913

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200127905A KR20220045327A (en) 2020-10-05 2020-10-05 Apparatus, method and computer program for providing interaction service based on voice recognition

Country Status (1)

Country Link
KR (1) KR20220045327A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101197010B1 (en) 2011-03-30 2012-11-05 포항공과대학교 산학협력단 Speech Processing Apparatus and Method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101197010B1 (en) 2011-03-30 2012-11-05 포항공과대학교 산학협력단 Speech Processing Apparatus and Method

Similar Documents

Publication Publication Date Title
US10217463B2 (en) Hybridized client-server speech recognition
RU2710984C2 (en) Performing task without monitor in digital personal assistant
KR102451437B1 (en) Techniques for updating language understanding classifier models for digital personal assistants based on crowdsourcing
US9047857B1 (en) Voice commands for transitioning between device states
WO2020029500A1 (en) Voice command customization method, device, apparatus, and computer storage medium
KR102484257B1 (en) Electronic apparatus, document displaying method of thereof and non-transitory computer readable recording medium
US20150371628A1 (en) User-adapted speech recognition
US10581625B1 (en) Automatically altering the audio of an object during video conferences
US11967315B2 (en) System and method for multi-spoken language detection
US20160372110A1 (en) Adapting voice input processing based on voice input characteristics
US20020178005A1 (en) System and method for adaptive language understanding by computers
JP2017107078A (en) Voice interactive method, voice interactive device, and voice interactive program
EP3916538B1 (en) Creating a cinematic storytelling experience using network-addressable devices
KR20220130739A (en) speech recognition
KR102345625B1 (en) Caption generation method and apparatus for performing the same
JP7335460B2 (en) clear text echo
US11620328B2 (en) Speech to media translation
CN113611316A (en) Man-machine interaction method, device, equipment and storage medium
KR20220045327A (en) Apparatus, method and computer program for providing interaction service based on voice recognition
CN109979435B (en) Data processing method and device for data processing
KR20220143622A (en) Electronic apparatus and control method thereof
US11150923B2 (en) Electronic apparatus and method for providing manual thereof
CN114822598A (en) Server and speech emotion recognition method
KR102407577B1 (en) User device and method for processing input message
KR102638373B1 (en) Media play device, method and computer program for providing multi language voice command service