KR20230122470A - Virtual ai model creation and ai voice matching system - Google Patents

Virtual ai model creation and ai voice matching system Download PDF

Info

Publication number
KR20230122470A
KR20230122470A KR1020220019177A KR20220019177A KR20230122470A KR 20230122470 A KR20230122470 A KR 20230122470A KR 1020220019177 A KR1020220019177 A KR 1020220019177A KR 20220019177 A KR20220019177 A KR 20220019177A KR 20230122470 A KR20230122470 A KR 20230122470A
Authority
KR
South Korea
Prior art keywords
voice
user
unit
virtual
matching system
Prior art date
Application number
KR1020220019177A
Other languages
Korean (ko)
Inventor
유지수
Original Assignee
유지수
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유지수 filed Critical 유지수
Priority to KR1020220019177A priority Critical patent/KR20230122470A/en
Publication of KR20230122470A publication Critical patent/KR20230122470A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

가상 AI 모델 제작과 AI 보이스 매칭 시스템으로서, 사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 사용자 기본정보 입력부; 음성명령 호출어를 설정하는 호출어 설정부; 사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 음성 명령어 분석부; 및 카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 영상 처리부;를 포함하는 것을 특징으로 하는 가상 AI 모델 제작과 AI 보이스 매칭 시스템을 제공한다.
일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.
A virtual AI model production and AI voice matching system, comprising: a user basic information input unit for inputting user information and setting an initial response character according to call word recognition; a call word setting unit for setting a voice command call word; a voice command analysis unit that analyzes a voice command uttered by a user and understands the user's emotion through acoustic analysis; And a video processing unit that recognizes the user's face image captured through the camera and recognizes the user's situation and emotion through gesture recognition; provides a virtual AI model production and AI voice matching system comprising a.
An apparatus according to an embodiment may be combined with hardware and controlled by a computer program stored in a medium to execute any one of the methods described above.

Description

가상 AI 모델 제작과 AI 보이스 매칭 시스템{VIRTUAL AI MODEL CREATION AND AI VOICE MATCHING SYSTEM}Virtual AI model creation and AI voice matching system {VIRTUAL AI MODEL CREATION AND AI VOICE MATCHING SYSTEM}

아래 실시예들은 가상 AI 모델 제작과 AI 보이스 매칭 시스템에 관한 것이다.The embodiments below relate to virtual AI model production and AI voice matching systems.

보이스 어시스턴트 서비스는, 오디오 신호에 음성 인식(ASR: Automated Speech Recognition) 처리, 자연어 이해(NLU: Natural Language Understanding) 처리, 대화 관리(DM: Dialogue Manager) 처리, 자연어 생성(NLG: Natural Language generation) 처리 및 텍스트 투 스피치(TTS: Text To Speech) 처리를 통해, 사용자 발화에 대한 응답을 제공하는 서비스이다.The voice assistant service processes audio signals with Automated Speech Recognition (ASR), Natural Language Understanding (NLU), Dialogue Manager (DM), and Natural Language Generation (NLG). and a service that provides a response to a user's utterance through Text To Speech (TTS) processing.

종래에는 보이스 어시스턴트 서비스는 미리 정해진 스타일로만 답변을 제공하며 스타일을 변경하기 위해서는 설정 메뉴를 통해 변경을 해야 했다. 또한, 보이스 어시스턴트의 ASR, NLU, DM, NLG, TTS는 인공지능 이외의 규칙 기반 알고리즘을 통해 동작될 수 있으며, 보이스 어시스턴트의 성능 향상을 위해 인공지능이 접목될 수 있다.Conventionally, the voice assistant service provides answers only in a predetermined style, and to change the style, a change has to be made through a setting menu. In addition, ASR, NLU, DM, NLG, and TTS of the voice assistant can be operated through rule-based algorithms other than artificial intelligence, and artificial intelligence can be grafted to improve the performance of the voice assistant.

아래 실시예들은 가상 AI 모델 제작과 AI 보이스 매칭 시스템을 제공하기 위한 것이다.The following embodiments are intended to provide a virtual AI model production and AI voice matching system.

가상 AI 모델 제작과 AI 보이스 매칭 시스템으로서, 사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 사용자 기본정보 입력부; 음성명령 호출어를 설정하는 호출어 설정부; 사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 음성 명령어 분석부; 및 카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 영상 처리부;를 포함하는 것을 특징으로 하는 가상 AI 모델 제작과 AI 보이스 매칭 시스템을 제공한다.A virtual AI model production and AI voice matching system, comprising: a user basic information input unit for inputting user information and setting an initial response character according to call word recognition; a call word setting unit for setting a voice command call word; a voice command analysis unit that analyzes a voice command uttered by a user and understands the user's emotion through acoustic analysis; And a video processing unit that recognizes the user's face image captured through the camera and recognizes the user's situation and emotion through gesture recognition; provides a virtual AI model production and AI voice matching system comprising a.

일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.An apparatus according to an embodiment may be combined with hardware and controlled by a computer program stored in a medium to execute any one of the methods described above.

아래 실시예들은 가상 AI 모델 제작과 AI 보이스 매칭 시스템을 효율적으로 제공하는 효과가 있다.The following embodiments have the effect of efficiently providing a virtual AI model production and AI voice matching system.

도 1은 본 발명의 일실시예에 가상 AI 모델 제작과 AI 보이스 매칭 시스템의 블록도이다.
도 2는 본 발명의 일실시예에 의한 관계 설정부의 실시 예 블록도이다.
도 3은 일실시예에 따른 장치의 구성의 예시도이다.
1 is a block diagram of a virtual AI model production and AI voice matching system according to an embodiment of the present invention.
2 is a block diagram of a relationship setting unit according to an embodiment of the present invention.
3 is an exemplary diagram of a configuration of a device according to an embodiment.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예 들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. However, since various changes can be made to the embodiments, the scope of rights of the patent application is not limited or limited by these embodiments. It should be understood that all changes, equivalents or substitutes to the embodiments are included within the scope of rights.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for illustrative purposes only, and may be modified and implemented in various forms. Therefore, the embodiments are not limited to the specific disclosed form, and the scope of the present specification includes changes, equivalents, or substitutes included in the technical spirit.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Although terms such as first or second may be used to describe various components, such terms should only be construed for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.It should be understood that when an element is referred to as being “connected” to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Terms used in the examples are used only for descriptive purposes and should not be construed as limiting. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as "include" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person of ordinary skill in the art to which the embodiment belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the present application, they should not be interpreted in an ideal or excessively formal meaning. don't

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In addition, in the description with reference to the accompanying drawings, the same reference numerals are given to the same components regardless of reference numerals, and overlapping descriptions thereof will be omitted. In describing the embodiment, if it is determined that a detailed description of a related known technology may unnecessarily obscure the gist of the embodiment, the detailed description will be omitted.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. The embodiments may be implemented in various types of products such as personal computers, laptop computers, tablet computers, smart phones, televisions, smart home appliances, intelligent vehicles, kiosks, and wearable devices.

도 1은 본 발명의 일실시예에 가상 AI 모델 제작과 AI 보이스 매칭 시스템의 블록도이다.1 is a block diagram of a virtual AI model production and AI voice matching system according to an embodiment of the present invention.

도 2는 본 발명의 일실시예에 의한 관계 설정부의 실시 예 블록도이다.2 is a block diagram of a relationship setting unit according to an embodiment of the present invention.

사용자 기본정보 입력부(101)는 사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 키패드와 같은 입력장치를 의미한다.The user basic information input unit 101 refers to an input device such as a keypad for inputting user information and setting an initial response character according to a call word recognition.

마이크(102)는 사용자의 음성을 입력받기 위한 장치이며, 음성 전처리부(103)는 마이크(102)를 통해 입력되는 음성을 전처리하여 끝점 및 특징을 출력하는 역할을 한다.The microphone 102 is a device for receiving a user's voice, and the voice pre-processing unit 103 pre-processes the voice input through the microphone 102 and outputs endpoints and characteristics.

호출어 설정부(104)는 음성명령 호출어를 설정하는 역할을 하며, 음성 명령어 분석부(105)는 상기 음성 전처리부(103)를 통해 전달되는 사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 역할을 한다.The call word setting unit 104 serves to set a voice command call word, and the voice command analyzer 105 analyzes the voice command spoken by the user transmitted through the voice pre-processing unit 103 and analyzes the sound. It plays a role in understanding the user's emotions through

카메라(106)는 사용자의 영상을 촬영하고, 제스처를 촬영하는 역할을 하며, 영상 처리부(107)는 상기 카메라(106)를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 역할을 한다.The camera 106 takes a user's image and takes a role in capturing a gesture, and the image processing unit 107 recognizes the user's face image captured through the camera 106 and recognizes the user's situation and behavior through gesture recognition. It plays a role in recognizing emotions.

객체 데이터베이스(109)는 사용자가 입력한 음성명령에 매칭되는 음성 대화 객체(Object) 후보군 및 실감형 인공지능(AI)비서 캐릭터를 저장하는 역할을 하며, 환경정보 데이터베이스(110)는 상기 객체 후보군에 대응하는 주변 환경 정보를 저장하는 역할을 하며, 음성 데이터베이스(111)는 도출한 음성 대화 객체의 음성 특징 정보를 저장하는 역할을 한다.The object database 109 serves to store a voice conversation object candidate group and realistic artificial intelligence (AI) assistant characters that match the voice command input by the user, and the environmental information database 110 stores the object candidate group. It serves to store corresponding surrounding environment information, and the voice database 111 serves to store voice characteristic information of the derived voice conversation object.

표시부(112)는 호출어 인식어에 따른 초기 응대 화면을 표시해주고, 음성 대화 객체의 표현 영상 및 제스처 정보를 화면에 표시해주는 역할을 한다. 호출어 인식에 따른 음성 대화 객체가 팝-업 창 형태로 디스플레이되는 응대 화면을 디스플레이하여, 음성 대화 시 멀티태스킹 작업 화면을 구현해준다.The display unit 112 serves to display an initial response screen according to a call word recognition word, and displays an expression image and gesture information of a voice conversation object on the screen. By displaying a response screen in which a voice conversation object according to the call word recognition is displayed in the form of a pop-up window, a multitasking work screen is realized during voice conversation.

스피커(113)는 응대 음성을 출력하는 역할을 하며, GPS 모듈(114)은 인공위성을 통해 시간 및 위치 정보를 획득하는 역할을 한다.The speaker 113 serves to output a response voice, and the GPS module 114 serves to acquire time and location information through artificial satellites.

관계 설정부(108)는 상기 호출어 인식부(104)를 통해 인식된 호출어를 기초로 설정된 초기 응답 캐릭터를 설정하여 표시부(112)를 통해 디스플레이하고, 상기 사용자 기본정보 입력부(101)로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하며 도출한 음성 대화 객체에 매칭되는 음성 특징을 적용하고, 영상 처리부(107)로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력하는 역할을 한다.The relationship setting unit 108 sets an initial response character based on the call word recognized through the call word recognition unit 104, displays it through the display unit 112, and acquires it from the user basic information input unit 101. A voice conversation object is derived by learning the image information based on the user interest information and voice command keywords with a machine learning algorithm, and a voice feature matched to the derived voice conversation object is applied, and the user's emotional state obtained from the image processing unit 107 It plays a role in characterizing the voice conversation object by reflecting it, and outputting user-customized video and voice feedback.

상기 관계 설정부(108)는 도 2에 도시한 바와 같이, 입력부(101)를 통해 사용자의 기본 정보를 획득하고, 사용자 보유 애플리케이션을 분석하여 사용자의 관심사를 파악하는 관심 정보를 획득하는 사용자 정보 획득부(121), 획득한 음성 명령에 매칭되는 객체 후보군을 객체 데이터베이스(109)로부터 탐색하는 객체 후보군 도출부(122), 상기 객체 후보군 도출부(122)에서 도출한 후보군에 대응하는 주변환경 후보군을 환경정보 데이터베이스(110)로부터 탐색하는 주변환경 후보군 도출부(123)를 포함할 수 있다.As shown in FIG. 2, the relationship setting unit 108 acquires basic information of the user through the input unit 101 and obtains user information to acquire interest information for understanding the user's interest by analyzing the user's own applications. A unit 121, an object candidate group derivation unit 122 that searches for an object candidate group matching the acquired voice command from the object database 109, and a surrounding environment candidate group corresponding to the candidate group derived from the object candidate group derivation unit 122. A surrounding environment candidate group derivation unit 123 searching from the environment information database 110 may be included.

또한, 상기 관계 설정부(108)는 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부(124)를 더 포함할 수 있다. 이러한 객체 및 주변환경 결정부(124)는 인공지능 학습을 통해 음성 대화 객체를 결정하되, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정할 수 있다.In addition, the relationship setting unit 108 further includes an object and surrounding environment determination unit 124 for determining a final voice conversation object and surrounding environment through artificial intelligence learning of the object candidate group and the surrounding environment candidate group based on user information. can do. The object and surrounding environment determination unit 124 may determine voice conversation objects through artificial intelligence learning, and prioritize a voice conversation object having a high preference in the same age group and gender as the user.

또한, 상기 관계 설정부(108)는 결정된 음성 대화 객체의 음성 특징을 음성 데이터베이스(111)로부터 추출하는 음성 특징 검색부(126)를 더 포함할 수 있다. 음성 특징 검색부(126)는 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 상기 음성 데이터베이스(111)의 검색을 통해 미리 설정된 음성 특징을 적용한다.In addition, the relationship setting unit 108 may further include a voice characteristic search unit 126 that extracts voice characteristics of the determined voice conversation object from the voice database 111 . When the voice feature of the voice conversation object is not found in the voice database, the voice feature search unit 126 searches the voice database 111 and applies a preset voice feature.

또한, 상기 관계 설정부(108)는 상기 영상 처리부(107)에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 객체의 감정표현을 결정하는 객체 감정표현 결정부(125), 결정된 음성 대화 객체를 캐릭터화하고, 결정된 음성 대화 객체에 대응하는 주변 환경을 포함한 사용자 맞춤형 영상 및 응대 음성을 출력해주는 맞춤형 영상 및 응대 음성 출력부(127)를 더 포함할 수 있다.In addition, the relationship setting unit 108 determines the object emotion expression determination unit 125 for determining the emotional expression of the object determined based on the user situation information and emotion information obtained from the image processing unit 107, and the determined voice conversation object. It may further include a customized video and response audio output unit 127 that characterizes and outputs a user-customized video and response voice including a surrounding environment corresponding to the determined voice conversation object.

도 3은 일실시예에 따른 장치의 구성의 예시도이다.3 is an exemplary diagram of a configuration of a device according to an embodiment.

프로세서(302)는 프로그램을 실행하고, 장치(301)를 제어할 수 있다. 프로세서(302)에 의하여 실행되는 프로그램의 코드는 메모리(303)에 저장될 수 있다. 장치(301)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.The processor 302 may execute a program and control the device 301 . Codes of programs executed by the processor 302 may be stored in the memory 303 . The device 301 may be connected to an external device (eg, a personal computer or network) through an input/output device (not shown) and exchange data.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), programmable logic units (PLUs), microprocessors, or any other device capable of executing and responding to instructions. A processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. The device can be commanded. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited drawings, those skilled in the art can apply various technical modifications and variations based on the above. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (3)

가상 AI 모델 제작과 AI 보이스 매칭 시스템으로서,
사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 사용자 기본정보 입력부;
음성명령 호출어를 설정하는 호출어 설정부;
사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 음성 명령어 분석부; 및
카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 영상 처리부;를 포함하는 것을 특징으로 하는 가상 AI 모델 제작과 AI 보이스 매칭 시스템.
As a virtual AI model production and AI voice matching system,
a user basic information input unit for inputting user information and setting an initial response character according to call word recognition;
a call word setting unit for setting a voice command call word;
a voice command analysis unit that analyzes a voice command uttered by a user and understands the user's emotion through acoustic analysis; and
A virtual AI model production and AI voice matching system comprising: a video processing unit that recognizes a user's face image captured through a camera and recognizes the user's situation and emotion through gesture recognition.
제1항에 있어서,
상기 관계 설정부는 획득한 음성 명령에 매칭되는 객체 후보군 및 주변환경 후보군을 도출하는 객체 후보군 도출부 및 주변환경 후보군 도출부; 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부를 포함하는 것을 특징으로 하는 관계 설정을 이용한 가상 AI 모델 제작과 AI 보이스 매칭 시스템.
According to claim 1,
The relationship setting unit may include an object candidate group derivation unit and an environment candidate group derivation unit for deriving an object candidate group and a surrounding environment candidate group matching the acquired voice command; Based on user information, artificial intelligence learning of the object candidate group and the surrounding environment candidate group determines the final voice conversation object and surrounding environment, and a virtual AI model production and AI using relationship setting characterized in that it includes an object and surrounding environment determining unit. Voice matching system.
제1항에 있어서,
상기 상기 관계 설정부는 결정된 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 미리 설정된 기본 음성 특징을 적용하여 음성 피드백을 출력하는 것을 특징으로 하는 가상 AI 모델 제작과 AI 보이스 매칭 시스템.
According to claim 1,
The relationship setting unit produces a virtual AI model and AI voice matching system, characterized in that when the voice feature of the determined voice conversation object is not in the voice database, outputs voice feedback by applying a preset basic voice feature.
KR1020220019177A 2022-02-14 2022-02-14 Virtual ai model creation and ai voice matching system KR20230122470A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220019177A KR20230122470A (en) 2022-02-14 2022-02-14 Virtual ai model creation and ai voice matching system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220019177A KR20230122470A (en) 2022-02-14 2022-02-14 Virtual ai model creation and ai voice matching system

Publications (1)

Publication Number Publication Date
KR20230122470A true KR20230122470A (en) 2023-08-22

Family

ID=87799664

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220019177A KR20230122470A (en) 2022-02-14 2022-02-14 Virtual ai model creation and ai voice matching system

Country Status (1)

Country Link
KR (1) KR20230122470A (en)

Similar Documents

Publication Publication Date Title
CN111933129B (en) Audio processing method, language model training method and device and computer equipment
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US9672829B2 (en) Extracting and displaying key points of a video conference
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
WO2020253509A1 (en) Situation- and emotion-oriented chinese speech synthesis method, device, and storage medium
WO2022105861A1 (en) Method and apparatus for recognizing voice, electronic device and medium
US20020178005A1 (en) System and method for adaptive language understanding by computers
KR20200044388A (en) Device and method to recognize voice and device and method to train voice recognition model
US9412359B2 (en) System and method for cloud-based text-to-speech web services
WO2014183373A1 (en) Systems and methods for voice identification
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
CN109697978B (en) Method and apparatus for generating a model
KR20200083685A (en) Method for real-time speaker determination
CN112017633B (en) Speech recognition method, device, storage medium and electronic equipment
US11322151B2 (en) Method, apparatus, and medium for processing speech signal
KR20190109651A (en) Voice imitation conversation service providing method and sytem based on artificial intelligence
US10380998B2 (en) Voice and textual interface for closed-domain environment
KR20230122470A (en) Virtual ai model creation and ai voice matching system
Gupta et al. Desktop Voice Assistant
US11250853B2 (en) Sarcasm-sensitive spoken dialog system
KR102153220B1 (en) Method for outputting speech recognition results based on determination of sameness and appratus using the same
JP2020173441A (en) Voice recognition method and device
KR20200117826A (en) Method and apparatus for speech recognition
CN115116442B (en) Voice interaction method and electronic equipment
KR102663654B1 (en) Adaptive visual speech recognition