KR20230122394A - Customized feedback lighting system through classification of user emotions based on Wake-Up Words - Google Patents

Customized feedback lighting system through classification of user emotions based on Wake-Up Words Download PDF

Info

Publication number
KR20230122394A
KR20230122394A KR1020220019013A KR20220019013A KR20230122394A KR 20230122394 A KR20230122394 A KR 20230122394A KR 1020220019013 A KR1020220019013 A KR 1020220019013A KR 20220019013 A KR20220019013 A KR 20220019013A KR 20230122394 A KR20230122394 A KR 20230122394A
Authority
KR
South Korea
Prior art keywords
user
emotion
lighting
feedback
processor
Prior art date
Application number
KR1020220019013A
Other languages
Korean (ko)
Inventor
석현정
김태수
김영우
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020220019013A priority Critical patent/KR20230122394A/en
Publication of KR20230122394A publication Critical patent/KR20230122394A/en

Links

Images

Classifications

    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05BELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
    • H05B47/00Circuit arrangements for operating light sources in general, i.e. where the type of light source is not relevant
    • H05B47/10Controlling the light source
    • H05B47/105Controlling the light source in response to determined parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Hospice & Palliative Care (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

기동어 기반 사용자 감성 분류를 통한 맞춤형 피드백 조명 시스템이 개시된다. 음성 어시스턴트(voice assistant)를 호출하기 위해 사용자가 발화한 기동어의 음색 요소를 분석함으로써 상기 사용자의 감성을 분류하고, 상기 사용자의 감성을 기초로 해당 감성에 매핑된 모드의 조명 피드백(lighting feedback)을 제공할 수 있다.A customized feedback lighting system through activation word-based user emotion classification is disclosed. Classifying the user's emotion by analyzing the tone elements of the trigger word uttered by the user to call a voice assistant, and lighting feedback in a mode mapped to the corresponding emotion based on the user's emotion can provide.

Description

기동어 기반 사용자 감성 분류를 통한 맞춤형 피드백 조명 시스템{Customized feedback lighting system through classification of user emotions based on Wake-Up Words}Customized feedback lighting system through classification of user emotions based on Wake-Up Words}

아래의 설명은 조명 피드백(lighting feedback)을 제공하는 기술에 관한 것이다.The description below relates to techniques for providing lighting feedback.

사람의 음성을 이용해서 기기를 제어하는 방식인 보이스 인터페이스(Voice User Interface, 이하 VUI)에 대한 연구와 상용화 기술은 인공지능 스피커와 같은 음성인식 기기의 보급화와 함께 최근 들어 더욱 활발히 진행되고 있다. VUI는 사용자가 일상 용어를 활용하기 때문에 물리적 버튼(Physical User Interface)이나 스크린(Graphic User Interface)과 비교해서 더 쉽고 직관적으로 제어할 수 있다. VUI의 가장 큰 기술적 관심 화자의 음성을 정확하고 신속히 이해하는 데 있는 만큼, VUI의 정확도 향상을 위한 음성인식 기술과 자연어 처리 기술이 적극적으로 접목되고 있는 것은 자연스러운 결과이다.Research and commercialization technology for Voice User Interface (VUI), which is a method of controlling devices using human voice, has recently been more actively conducted along with the popularization of voice recognition devices such as artificial intelligence speakers. VUI is easier and more intuitive to control compared to physical buttons (Physical User Interface) or screen (Graphic User Interface) because users use everyday terms. As the biggest technical interest of VUI lies in understanding the speaker's voice accurately and quickly, it is a natural result that voice recognition technology and natural language processing technology are being actively grafted to improve the accuracy of VUI.

이에 음성을 기반으로 작동하는 어시스턴트(assistant)의 개발로 이어지고 있는데, 전자기기 업체들은 휴대폰을 차량에 연결해 기존의 어시스턴트를 차량에서 손쉽게 사용할 수 있도록 하였다. 또한, 음성 어시스턴트(voice assistant)는 브랜드의 상징성을 담고 있어 어시스턴트 실행을 위한 기동어(Wake-Up Word)를 브랜드 이름이나 상징과 연관지어 제작하는 경우가 빈번한데, 예를 들어 벤츠의 경우 "Hi, Mercedes!" 라는 기동어를 사용하고 있다. 특히, 차량 내 기기 제어를 위해 기동어가 주목을 받는 이유는 기동어 호출은 운전 중 전방에 주의를 집중하면서도 차량 내 호출이 용이하여 운전자 안전과도 직결되기 때문이다. 따라서, 차량 내 음성 어시스턴트를 호출하기 위해 기동어를 사용하여 인터페이스를 기동시키는 것이 일반적이다.This has led to the development of assistants that operate based on voice, and electronic device manufacturers have connected mobile phones to vehicles so that existing assistants can be easily used in vehicles. In addition, since the voice assistant contains the symbolism of the brand, the wake-up word for running the assistant is often produced in association with the brand name or symbol. For example, in the case of Mercedes, "Hi , Mercedes!" I'm using the trigger word. In particular, the reason why the trigger word is attracting attention for controlling in-vehicle devices is that the trigger word is directly related to the driver's safety because it is easy to call the in-vehicle while focusing attention on the front while driving. Therefore, it is common to activate an interface using a startup word to call an in-vehicle voice assistant.

음성 어시스턴트는 기기에 입력된 음성 데이터는 문자로 변환되어(Speech-to-Text; 이하 STT) 단어 혹은 나아가 맥락을 파악하는 용도로도 활용되지만 음성에 내포된 화자의 감성 상태 파악을 위해서도 사용 가능하다. 인공지능 분석 기술을 접목한 음성기반 감성인식(Speech-Emotion Recognition; 이하 SER) 관련 연구가 다수 공개되어 왔고, 기술의 고도화를 위해 언어권별 특징을 반영하거나 분석 방법을 개선하는 등 발전을 거듭해 오고 있다.Voice data input into the device is converted into text (Speech-to-Text; hereinafter STT), and the voice assistant is used for the purpose of understanding words or even context, but it can also be used to understand the speaker's emotional state implied in voice. . A number of studies related to Speech-Emotion Recognition (SER) grafted with artificial intelligence analysis technology have been published, and development has been repeated by reflecting the characteristics of each language group or improving the analysis method to advance the technology. .

자율주행 3단계 이하의 차량에서는 차량의 인터페이스들이 운전자의 안전성을 최우선순위로 고려하고 있다. 그래서 차량에 인터페이스나 기술을 차량에 탑재하는데 있어서도 감성적 만족감과 운전자의 주행 능력간 상호작용에 대해 많은 연구가 진행되고 있다.In vehicles with level 3 or lower autonomous driving, vehicle interfaces consider the driver's safety as the top priority. Therefore, many studies are being conducted on the interaction between emotional satisfaction and the driver's driving ability when mounting an interface or technology in a vehicle.

인공지능 기술의 발전과 보이스 인터페이스를 통한 SER 기술이 점차 대중화되어 감에 따라 음성 및 얼굴 표정을 비롯한 생체 데이터로부터 사용자를 구별하는 기술에 대한 연구가 활발히 진행되고 있다.As artificial intelligence technology develops and SER technology through voice interface becomes increasingly popular, research on technology for distinguishing users from biometric data including voice and facial expressions is being actively conducted.

기존 기술들은 대화 내용을 바탕으로 감성을 파악하기 때문에 대화의 내용이 감성 판단에 큰 영향을 미쳐 사용자별 정확도 차이가 크고, 단발적으로 대화가 오가는 음성 비서의 특성상 사용자의 감성에 맞추어 음성 비서가 반응하기에 즉각적으로 서비스로 이어지기에는 그 한계가 있다.Existing technologies grasp emotion based on conversation content, so the content of conversation has a great influence on emotion judgment, resulting in a large difference in accuracy between users. Therefore, there is a limit to immediately leading to service.

사용자가 음성 어시스턴트(voice assistant)를 호출하기 위해 사용하는 기동어로부터 사용자의 감성을 추출하고 이에 맞는 모드의 조명 피드백을 제공할 수 있다.A user's emotion may be extracted from an activation word used by the user to call a voice assistant, and lighting feedback of a mode suitable for the user's emotion may be provided.

컴퓨터 장치에서 수행되는 맞춤형 피드백 조명 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 맞춤형 피드백 조명 방법은, 상기 적어도 하나의 프로세서의 의해, 음성 어시스턴트(voice assistant)를 호출하기 위해 사용자가 발화한 기동어의 음색 요소를 분석함으로써 상기 사용자의 감성을 분류하는 단계; 및 상기 적어도 하나의 프로세서의 의해, 상기 사용자의 감성을 기초로 해당 감성에 매핑된 모드의 조명 피드백(lighting feedback)을 제공하는 단계를 포함하는 맞춤형 피드백 조명 방법을 제공한다.A custom feedback lighting method performed in a computer device, wherein the computer device includes at least one processor configured to execute computer readable instructions contained in a memory, and the customized feedback lighting method is performed by the at least one processor. classifying the user's emotion by analyzing a tone element of a trigger word uttered by the user in order to call a voice assistant; and providing, by the at least one processor, lighting feedback of a mode mapped to the emotion of the user based on the emotion of the user.

일 측면에 따르면, 상기 분류하는 단계는, 상기 사용자가 발화한 기동어의 음색 요소로부터 상기 사용자의 연령과 성별 중 적어도 하나의 특성을 분류하는 단계를 포함하고, 상기 제공하는 단계는, 상기 사용자의 감성과 특성에 매핑된 모드로 상기 조명 피드백을 제공할 수 있다.According to one aspect, the classifying step includes classifying at least one characteristic of age and gender of the user from tone elements of a trigger word uttered by the user, and the providing step comprises: The lighting feedback may be provided in a mode mapped to emotions and characteristics.

다른 측면에 따르면, 상기 분류하는 단계는, 상기 사용자가 발화한 기동어의 음색 요소로부터 상기 사용자의 연령과 성별 중 적어도 하나의 특성을 분류하는 단계를 포함하고, 상기 제공하는 단계는, 상기 사용자의 감성에 따라 조명 모드를 선택하되 상기 사용자의 감성이 적어도 일부 유형의 감성에 해당되는 경우 상기 사용자의 특성에 따라 조명 모드를 선택하는 단계를 포함할 수 있다.According to another aspect, the classifying step includes the step of classifying at least one characteristic of age and gender of the user from the timbre element of the start word uttered by the user, and the providing step comprises: Selecting a lighting mode according to the emotion, and selecting a lighting mode according to the user's characteristic when the user's emotion corresponds to at least some type of emotion.

또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 사용자의 감성에 따라 조명의 종류, 색상, 채도, 순도, 색온도, 패턴 중 적어도 하나가 다른 조명 피드백을 제공할 수 있다.According to another aspect, the providing may include providing lighting feedback in which at least one of lighting type, color, saturation, purity, color temperature, and pattern differs according to the user's emotion.

또 다른 측면에 따르면, 상기 맞춤형 피드백 조명 방법은, 상기 적어도 하나의 프로세서의 의해, 상기 기동어에 대한 음성 파일을 수집하여 감성 분류를 위한 학습 데이터셋을 구축하는 단계를 더 포함하고, 상기 분류하는 단계는, 상기 학습 데이터셋을 이용한 기계학습을 통해 상기 사용자가 발화한 기동어로부터 상기 사용자의 감성을 분류할 수 있다.According to another aspect, the customized feedback lighting method further comprises, by the at least one processor, collecting a voice file for the trigger word to build a learning dataset for emotion classification, wherein the classification In the step, the emotion of the user may be classified from the activation word uttered by the user through machine learning using the learning dataset.

또 다른 측면에 따르면, 상기 분류하는 단계는, 상기 사용자가 발화한 기동어의 음색 요소 중 음성이 기록된 시간(duration), 후처리된 음높이(pitch), 소리 크기의 변화를 통한 거친 정도(roughness), 및 주요 음역대 영역(Dom)을 이용하여 상기 사용자의 감성을 분류할 수 있다.According to another aspect, in the step of classifying, among the timbre elements of the start word uttered by the user, the duration at which the voice is recorded, the post-processed pitch, and the roughness through changes in volume ), and the user's emotion may be classified using the main vocal range domain (Dom).

맞춤형 피드백 조명 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서, 상기 맞춤형 피드백 조명 방법은, 음성 어시스턴트를 호출하기 위해 사용자가 발화한 기동어의 음색 요소를 분석함으로써 상기 사용자의 감성을 분류하는 단계; 및 상기 사용자의 감성을 기초로 해당 감성에 매핑된 모드의 조명 피드백을 제공하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.A computer program stored in a computer readable recording medium to execute a customized feedback lighting method on a computer, wherein the customized feedback lighting method analyzes the tone elements of a trigger word uttered by the user to call a voice assistant, so that the user Classifying the emotions of; And providing a computer program comprising the step of providing lighting feedback of a mode mapped to the emotion based on the emotion of the user.

컴퓨터로 구현되는 맞춤형 피드백 조명 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 음성 어시스턴트를 호출하기 위해 사용자가 발화한 기동어의 음색 요소를 분석함으로써 상기 사용자의 감성을 분류하는 과정; 및 상기 사용자의 감성을 기초로 해당 감성에 매핑된 모드의 조명 피드백을 제공하는 과정을 처리하는 맞춤형 피드백 조명 시스템을 제공한다.A computer-implemented custom feedback lighting system comprising: at least one processor configured to execute computer readable instructions contained in a memory, the at least one processor comprising: a trigger word uttered by a user to invoke a voice assistant; classifying the emotion of the user by analyzing the timbre elements of; And it provides a customized feedback lighting system that handles a process of providing lighting feedback of a mode mapped to the corresponding emotion based on the user's emotion.

본 발명의 실시예들에 따르면, 음성 어시스턴트를 호출하기 위해 사용하는 기동어를 사용자의 감성 분석에 활용함으로써 보다 빠르고 정확하게 감성 파악이 가능하다.According to embodiments of the present invention, it is possible to more quickly and accurately grasp emotions by utilizing a trigger word used to call a voice assistant to analyze a user's emotion.

본 발명의 실시예들에 따르면, 전체 대화가 아닌 기동어에 초점을 맞춘 기계학습(machine learning)을 진행함으로써 학습 데이터셋의 구축이 편리하고 문장에 대한 추가적인 분석 없이도 문장보다 정확한 감성 판단이 가능하다.According to the embodiments of the present invention, it is convenient to build a learning dataset by conducting machine learning focusing on the trigger word rather than the entire conversation, and it is possible to judge the emotion more accurately than the sentence without additional analysis of the sentence. .

본 발명의 실시예들에 따르면, 기동어로부터 추출된 감성을 기반으로 제공하는 피드백 감성 조명에 대해 보다 명확한 가이드를 제공할 수 있고 이를 통해 서비스 만족도를 향상시킬 수 있다.According to embodiments of the present invention, it is possible to provide a more clear guide to the feedback emotion illumination provided based on the emotion extracted from the trigger word, and through this, it is possible to improve service satisfaction.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서 피드백 감성 조명을 제공하는 시스템의 개요도를 도시한 것이다.
도 3은 본 발명의 일실시예에 있어서 사용자 스타일과 감성 분류 예시를 도시한 것이다.
도 4는 본 발명의 일실시예에 있어서 사용자 중심 감성 시나리오 매핑 예시를 도시한 것이다.
도 5는 본 발명의 일실시예에 있어서 사용자 감성 매핑 타입 별 피드백 조명 가이드 예시를 도시한 것이다.
도 6은 본 발명의 일실시예에 있어서 기계학습을 위해 기동어 수집에 사용된 상황 예시들을 도시한 것이다.
도 7은 본 발명의 일실시예에 있어서 기동어 음성 녹음에 대한 대표 감정을 예측하는 모델 예시를 도시한 것이다.
1 is a block diagram for explaining an example of an internal configuration of a computer device according to an embodiment of the present invention.
Figure 2 shows a schematic diagram of a system for providing feedback emotional lighting in one embodiment of the present invention.
3 illustrates an example of user style and emotion classification according to an embodiment of the present invention.
4 illustrates an example of user-centered emotion scenario mapping according to an embodiment of the present invention.
5 illustrates an example of a feedback lighting guide for each user emotion mapping type in one embodiment of the present invention.
6 illustrates examples of situations used in trigger word collection for machine learning in one embodiment of the present invention.
7 illustrates an example of a model for predicting a representative emotion for a voice recording of a trigger word according to an embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명의 실시예들은 조명 피드백(lighting feedback)을 제공하는 기술에 관한 것이다.Embodiments of the invention relate to techniques for providing lighting feedback.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 사용자가 음성 어시스턴트(음성 비서)를 호출하기 위해 사용하는 기동어로부터 사용자의 감성을 추출하고 추출된 감성에 맞는 모드로 조명 피드백을 제공할 수 있다.Embodiments including those specifically disclosed herein may extract a user's emotion from an activation word used by the user to call a voice assistant (voice assistant) and provide lighting feedback in a mode suitable for the extracted emotion. .

도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 맞춤형 피드백 조명 시스템은 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.1 is a block diagram illustrating an example of a computer device according to one embodiment of the present invention. For example, a customized feedback lighting system according to embodiments of the present invention may be implemented by the computer device 100 shown in FIG. 1 .

도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 맞춤형 피드백 조명 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.As shown in FIG. 1, a computer device 100 is a component for executing a customized feedback lighting method according to embodiments of the present invention, and includes a memory 110, a processor 120, a communication interface 130, and input/output. Interface 140 may be included.

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.The memory 110 is a computer-readable recording medium and may include a random access memory (RAM), a read only memory (ROM), and a permanent mass storage device such as a disk drive. Here, a non-perishable mass storage device such as a ROM and a disk drive may be included in the computer device 100 as a separate permanent storage device distinct from the memory 110. Also, an operating system and at least one program code may be stored in the memory 110 . These software components may be loaded into the memory 110 from a recording medium readable by a separate computer from the memory 110 . The separate computer-readable recording medium may include a computer-readable recording medium such as a floppy drive, a disk, a tape, a DVD/CD-ROM drive, and a memory card. In another embodiment, software components may be loaded into the memory 110 through the communication interface 130 rather than a computer-readable recording medium. For example, software components may be loaded into memory 110 of computer device 100 based on a computer program installed by files received over network 160 .

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어, 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.The processor 120 may be configured to process commands of a computer program by performing basic arithmetic, logic, and input/output operations. Instructions may be provided to processor 120 by memory 110 or communication interface 130 . For example, processor 120 may be configured to execute received instructions according to program codes stored in a recording device such as memory 110 .

통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.The communication interface 130 may provide functions for the computer device 100 to communicate with other devices through the network 160 . For example, a request, command, data, file, etc. generated according to a program code stored in a recording device such as the memory 110 by the processor 120 of the computer device 100 is transmitted to the network ( 160) to other devices. Conversely, signals, commands, data, files, etc. from other devices may be received by the computer device 100 via the communication interface 130 of the computer device 100 via the network 160 . Signals, commands, data, etc. received through the communication interface 130 may be transmitted to the processor 120 or the memory 110, and files, etc. may be stored as storage media that the computer device 100 may further include (described above). permanent storage).

통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.The communication method is not limited, and may include not only a communication method utilizing a communication network (eg, a mobile communication network, wired Internet, wireless Internet, and broadcasting network) that the network 160 may include, but also short-distance wired/wireless communication between devices. there is. For example, the network 160 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). , one or more arbitrary networks such as the Internet. In addition, the network 160 may include any one or more of network topologies including a bus network, a star network, a ring network, a mesh network, a star-bus network, a tree or a hierarchical network, and the like. Not limited.

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.The input/output interface 140 may be a means for interface with the input/output device 150 . For example, the input device may include devices such as a microphone, keyboard, camera, or mouse, and the output device may include devices such as a display and a speaker. As another example, the input/output interface 140 may be a means for interface with a device in which functions for input and output are integrated into one, such as a touch screen. The input/output device 150 and the computer device 100 may be configured as one device.

또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.Also, in other embodiments, computer device 100 may include fewer or more elements than those of FIG. 1 . However, there is no need to clearly show most of the prior art components. For example, the computer device 100 may be implemented to include at least a portion of the above-described input/output device 150 or may further include other components such as a transceiver, a camera, various sensors, and a database.

본 실시예들은 기동어 기반 사용자 감성 분류를 통해 피드백 감성 조명을 제공하는 맞춤형 피드백 조명 시스템을 제공한다.The present embodiments provide a customized feedback lighting system that provides feedback emotion lighting through activation word-based user emotion classification.

본 발명에 따른 맞춤형 피드백 조명 시스템은 차량뿐만 아니라 음성 어시스턴트를 기동어를 통해 호출하는 모든 디바이스에 적용할 수 있다. 이하에서는 차량 조명을 설명하고 있으나 예시적인 것일 뿐 이에 한정되는 것은 아니다.The customized feedback lighting system according to the present invention can be applied not only to vehicles but also to all devices that call a voice assistant through a triggering word. Hereinafter, vehicle lighting is described, but is exemplary only and is not limited thereto.

도 2는 본 발명의 일실시예에 있어서 피드백 감성 조명을 제공하는 시스템의 개요도를 도시한 것이다.Figure 2 shows a schematic diagram of a system for providing feedback emotional lighting in one embodiment of the present invention.

도 2를 참조하면, 단계(S210)에서 프로세서(120)는 차량 내부의 사용자(운전자 또는 탑승자)가 발화하는 기동어를 이용하여 차량의 음성 어시스턴트를 호출할 수 있다.Referring to FIG. 2 , in step S210, the processor 120 may call the voice assistant of the vehicle using a trigger word uttered by a user (driver or passenger) inside the vehicle.

단계(S220)에서 프로세서(120)는 기계학습 기반 기동어의 음색요소에서 사용자 스타일(연령과 성별)과 감성을 판단할 수 있다.In step S220, the processor 120 may determine the user's style (age and gender) and emotion from the tone elements of the machine learning-based trigger word.

단계(S230)에서 프로세서(120)는 단계(S220)에서 판단된 사용자 스타일과 감성을 토대로 사용자 중심 감성 시나리오를 판단할 수 있다.In step S230, the processor 120 may determine a user-centered emotional scenario based on the user's style and emotion determined in step S220.

단계(S240)에서 프로세서(120)는 동적 조명으로서 사용자 중심 감성 시나리오로 선택된 모드에 해당하는 감성 조명 피드백을 제공할 수 있다.In step S240, the processor 120 may provide emotional lighting feedback corresponding to a mode selected as a user-centered emotional scenario as dynamic lighting.

본 실시예들은 차량의 음성 어시스턴트를 구동시키는 기동어를 분석하는 것만으로도 사용자 스타일과 감성을 추출할 수 있다. 매번 달라지는 대화 문장이 아닌 누구에게나 동일한 문장인 기동어만을 분석함으로써 보다 빠르게 감성 파악이 가능하며, 음성 어시스턴트는 기동어에 반응해 호출된 순간부터 사용자의 감성을 파악할 수 있어 사용자들은 더 정확한 맞춤형 서비스를 사용할 수 있다.According to the present embodiments, a user's style and emotion may be extracted only by analyzing a trigger word for driving a voice assistant of a vehicle. By analyzing only the trigger word, which is the same sentence for everyone, rather than the dialogue sentences that change every time, it is possible to grasp emotions more quickly. can be used

도 3은 본 발명의 일실시예에 있어서 사용자 스타일과 감성 분류 예시를 도시한 것이다.3 illustrates an example of user style and emotion classification according to an embodiment of the present invention.

도 3을 참조하면, 프로세서(120)는 기계학습을 기반으로 사용자가 음성 어시스턴트를 호출하는 기동어의 음색요소에서 사용자의 감성과 스타일을 판단할 수 있다. 예를 들어, 감성은 5가지 감성(신나는, 화나는, 우울한, 진정된, 일상의)으로 분류할 수 있고, 사용자의 스타일을 파악할 수 있는 특징 중 하나인 연령은 어른과 어린 아이로 분류할 수 있고 성별은 남성과 여성으로 분류할 수 있다. 이러한 분류 기준은 예시적인 것일 뿐 이에 한정되는 것은 아니다.Referring to FIG. 3 , the processor 120 may determine the user's emotion and style based on machine learning from the tone elements of the activation word in which the user calls the voice assistant. For example, emotions can be classified into 5 emotions (excited, angry, depressed, calm, everyday), and age, which is one of the characteristics that can identify a user's style, can be classified into adults and children, Gender can be classified as male and female. These classification criteria are illustrative only and are not limited thereto.

도 4는 본 발명의 일실시예에 있어서 사용자 중심 감성 시나리오 매핑 예시를 도시한 것이다.4 illustrates an example of user-centered emotion scenario mapping according to an embodiment of the present invention.

도 4를 참조하면, 프로세서(120)는 사용자가 발화한 기동어의 음색요소를 분석함으로써 감성에 따라 1차 분류를 수행할 수 있고 1차 분류에 따른 감성 유형에 따라 적어도 일부 감성에 대해 연령과 성별과 같은 특성에 따라 2차 분류를 수행할 수 있다. 예를 들어, 프로세서(120)는 사용자의 감성을 5가지 감성(신나는, 화나는, 우울한, 진정된, 일상의) 중 하나로 분류할 수 있다. 이때, 프로세서(120)는 사용자의 감성이 '신나는' 감성으로 판별된 경우 사용자의 연령을 어린 아이와 어른 중 하나로 분류할 수 있다. 한편, 프로세서(120)는 사용자의 감성이 '진정된' 감성으로 판별된 경우 사용자의 성별을 여성과 남성 중 하나로 분류할 수 있다. 프로세서(120)는 사용자의 감성과 스타일(특성)을 기반으로 맞춤형 시나리오를 결정할 수 있다. 예를 들어, 사용자 중심 감성 시나리오는 장난(toy), 놀람(surprise), 긴장(care), 위로(console), 로맨스(romance), 기본(default)으로 구분될 수 있으며, '신나는' 감성과 '어린 아이'로 분류된 경우 장난 모드, '신나는' 감성과 '어른'으로 분류된 경우 놀람 모드, '화나는' 감성으로 분류된 경우 긴장 모드, '우울한' 감성으로 분류된 경우 위로 모드, '진정된' 감성과 '여성'으로 분류된 경우 로맨스 모드, '진정된' 감성과 '남성'으로 분류된 경우 기본 모드, '일상의' 감성으로 분류된 경우 기본 모드로 매핑될 수 있다.Referring to FIG. 4 , the processor 120 may perform primary classification according to emotion by analyzing tone elements of a trigger word uttered by a user, and may determine age and sensitivity for at least some emotions according to the emotion type according to the primary classification. Secondary classification can be performed based on characteristics such as gender. For example, the processor 120 may classify the user's emotion as one of five emotions (excited, angry, depressed, calm, and everyday). At this time, the processor 120 may classify the age of the user as either a child or an adult when the user's emotion is determined to be 'exciting' emotion. Meanwhile, the processor 120 may classify the user's gender as one of female and male when the user's emotion is determined to be 'true' emotion. The processor 120 may determine a customized scenario based on the user's emotion and style (characteristic). For example, user-centered emotion scenarios can be classified into toy, surprise, tension, comfort, romance, and default. Playful mode when classified as 'young child', Surprise mode when classified as 'exciting' emotion and 'adult', Nervous mode when classified as 'angry' emotion, Consolation mode when classified as 'gloomy' emotion, 'calm down' mode It can be mapped to romance mode when classified as 'emotion and 'female', basic mode when classified as 'calm' emotion and 'male', and basic mode when classified as 'everyday' emotion.

도 5는 본 발명의 일실시예에 있어서 사용자 감성 매핑 타입 별 피드백 조명 가이드 예시를 도시한 것이다.5 illustrates an example of a feedback lighting guide for each user emotion mapping type in one embodiment of the present invention.

도 5를 참조하면, 프로세서(120)는 사용자의 감성과 스타일(특성)을 토대로 사용자 중심 감성 시나리오에 매핑시켜 선택된 모드를 바탕으로 감성 조명 피드백을 제공할 수 있다. 사용자 중심 감성 시나리오에 따른 모드 별로 조명의 종류, 색상, 채도, 순도, 색온도, 패턴 등을 달리 적용할 수 있다. 예를 들어, 사용자 중심 감성 시나리오가 장난 모드로 선택된 경우 높은 채도와 순도의 다양한 색으로 전환되는 패턴의 피드백 조명을 제공할 수 있다. 사용자 중심 감성 시나리오가 놀람 모드로 선택된 경우 높은 색온도의 직접등이 점점 밝아지는 패턴의 피드백 조명을 제공할 수 있다. 사용자 중심 감성 시나리오가 긴장 모드로 선택된 경우 낮은 색온도와 붉은 계열 플로어 및 천장 간접등을 이용한 피드백 조명을 제공할 수 있다. 사용자 중심 감성 시나리오가 위로 모드로 선택된 경우 낮은 색온도와 붉은 계열의 운전자 주변 조명을 이용한 피드백 조명을 제공할 수 있다. 사용자 중심 감성 시나리오가 로맨스 모드로 선택된 경우 낮은 순도를 가진 분홍이나 주황의 차량 실내 조명을 이용한 피드백 조명을 제공할 수 있다. 사용자 중심 감성 시나리오가 기본 모드로 선택된 경우 차량 타입과 브랜드별 색상으로 디자인된 개성적인 스타일 조명을 이용한 피드백 조명을 제공할 수 있다. 이와 같이, 사용자가 화난 것으로 예상되는 감성 상태인 경우 격양된 감성을 진정시켜 주기 위해 진정효과가 있는 낮은 색온도의 간접등과 은은한 패턴의 조명을 제공하는 한편, 사용자의 감성 상태가 슬픔으로 예측된 경우 포근하게 감싸는 듯한 조명 피드백을 제공하는 등의 대응이 가능하다.Referring to FIG. 5 , the processor 120 may provide emotional lighting feedback based on a selected mode by mapping the user's emotion and style (characteristic) to a user-centered emotion scenario. Different types of lighting, color, saturation, purity, color temperature, pattern, etc. may be applied to each mode according to a user-centered emotional scenario. For example, when a user-centered emotional scenario is selected as a playful mode, feedback lighting of a pattern that is converted into various colors of high saturation and purity may be provided. When a user-centered emotional scenario is selected as a surprise mode, a direct light having a high color temperature may provide feedback lighting in a gradually brightening pattern. When the user-centered emotional scenario is selected as the tension mode, feedback lighting using a low color temperature and red-based floor and ceiling indirect lighting can be provided. When the user-centered emotional scenario is selected as the up mode, feedback lighting using a low color temperature and red-type ambient light around the driver can be provided. When the user-centered emotional scenario is selected as the romance mode, feedback lighting using pink or orange vehicle interior lighting having low purity may be provided. When the user-centered emotional scenario is selected as the basic mode, feedback lighting using unique style lighting designed in colors for each vehicle type and brand can be provided. In this way, when the user is in an emotional state that is expected to be angry, indirect lighting with a low color temperature and soft pattern lighting having a calming effect are provided to calm the heightened emotion, while the user's emotional state is predicted to be sad It is possible to respond, such as providing light feedback that seems to be wrapped in a warm embrace.

도 6은 본 발명의 일실시예에 있어서 기계학습을 위해 기동어 수집에 사용된 상황 예시들을 도시한 것이다.6 illustrates examples of situations used in trigger word collection for machine learning in one embodiment of the present invention.

프로세서(120)는 각 상황 별 감성 분류에 있어 긍정과 각성 차원의 특징이 복합적으로 반영된 신나는, 화나는, 우울한, 진정된, 일상의로 총 5가지 구분을 적용할 수 있다.The processor 120 may apply a total of five classifications of excitement, anger, depression, calm, and daily life in which characteristics of positive and arousal dimensions are complexly reflected in classification of emotion for each situation.

기계학습을 위한 데이터셋을 구축하기 위해 실험군을 대상으로 다양한 감성의 기동어를 수집할 수 있다. 기동어를 호출하는 감성이 자연스럽게 나올 수 있도록 전후 상황을 설정하여 제공하고, 녹음 진행 시 감성이 담긴 문장을 녹음하기 쉽도록 기동어에 이어지는 문장을 함께 녹음한다. 녹음에는 긍정과 각성(pleasure 와 arousal) 측면의 특징이 고루 고려되어 녹음을 하기 용이하다고 고려되는 21 가지 상황을 선정할 수 있다(도 6의 표).In order to build a dataset for machine learning, it is possible to collect trigger words of various emotions targeting the experimental group. Before and after situations are set and provided so that the emotion of calling the trigger word can come out naturally, and the sentence following the trigger word is recorded together to make it easier to record a sentence containing emotion during recording. In the recording, the positive and arousal characteristics are evenly considered, and 21 situations considered to be easy to record can be selected (Table of FIG. 6).

기동어는 일상 언어와는 달리 동일한 음소, 음절, 단어 개수를 가지고 있어 인공지능 모델이 정확성 높게 인지하기에 용이한 장점이 있다.Unlike everyday language, mobile language has the same number of phonemes, syllables, and words, so it is easy for artificial intelligence models to recognize with high accuracy.

우선 녹음된 파일의 기동어 부분(예를 들어, Hi, KIA)만 추출하는 전처리 과정을 거쳐 기동어 음성 파일만 추출할 수 있다. 이후, 분석을 위하여 다양한 분석 관점에서 음향 속성을 파악하고자 명령줄이나 대화형 앱에서 지정할 수 있는 의미 있는 음향 매개변수를 기반으로 비언어적 발성을 합성하는 오픈 소스 패키지를 활용하여 각각의 녹음 파일에 대해 총 37가지 음향 속성을 추출할 수 있다. 추출된 기동어에서 매 25ms 간격으로 37가지 음향 속성값을 추출하고, 음향 속성값 37가지 중 연산값이 없는 경우 해당 시각에 대응되는 추출값 전체는 관찰치에서 제외한다. 결과적으로는 한 개의 기동어 녹음에 대해 평균 18.84(표준편차: 4.95)회에 대해 추출값을 획득할 수 있다. 다시 말해, 도 7에 도시한 바와 같이 한 개의 기동어 음성 녹음에 대해 매 25ms마다 감성 분류가 적용될 수 있으며, 이때 분류 결과 중 가장 높은 빈도로 분류된 감성을 기준으로 예측 결과를 판단할 수 있다.First, only the activation word voice file can be extracted through a preprocessing process of extracting only the activation word part (eg, Hi, KIA) of the recorded file. Then, for analysis, an open source package that synthesizes non-verbal vocalizations based on meaningful acoustic parameters that can be specified on the command line or in an interactive app is used to identify acoustic properties from various analysis perspectives. 37 acoustic properties can be extracted. 37 acoustic property values are extracted from the extracted start words at every 25 ms interval, and if there is no calculated value among the 37 acoustic property values, the entire extracted value corresponding to that time is excluded from the observation value. As a result, it is possible to obtain extraction values for an average of 18.84 (standard deviation: 4.95) times for one trigger word recording. In other words, as shown in FIG. 7 , emotion classification may be applied every 25 ms to one trigger word voice recording, and at this time, the prediction result may be determined based on the emotion classified with the highest frequency among the classification results.

추출값의 횟수가 10회 미만인 경우는 녹음 파일에 손상이 있거나 분석에 용이하지 않은 것으로 판단하여 분석에서 제외한다. 결과적으로 실험군의 참여자로부터 수집한 녹음 파일에 대해 음향 속성을 학습시킨 기계 학습 기반 알고리즘을 모델링하고 기동어로부터 감성을 예측하는 정확도를 파악한다If the number of extracted values is less than 10, it is judged that the recorded file has damage or is not easy to analyze and is excluded from analysis. As a result, we model a machine learning-based algorithm that learns the acoustic properties of the recorded files collected from the participants in the experimental group, and determine the accuracy of predicting emotion from the trigger word.

본 실험에서 수집한 기동어 평균 길이는 0.58초이며 이는 인공지능 기술로 음성의 감성적 특징을 분석하기 위해서 기계학습하는 데이터셋 자료에 비하여 매우 짧은 길이에 해당한다. 즉, 변별력있는 음성 속성을 시나리오별로 구분하기에는 기동어에서 수집할 수 있는 음성 속성의 분량이 제한될 수 있다. 그렇다면, 녹음된 전체 문장에 대해 신나는 감성에 대해 학습을 진행하여 기동어에서 판별된 결과와 그 정확도를 비교할 수 있다. 각 시나리오의 문장마다 동일한 과정을 반복하여 기계학습 후 정확도를 산출할 수 있다.The average length of the start words collected in this experiment is 0.58 seconds, which is a very short length compared to the dataset data for machine learning to analyze the emotional characteristics of speech with artificial intelligence technology. That is, the amount of voice attributes that can be collected from a trigger word may be limited in order to classify discriminating voice attributes for each scenario. If so, it is possible to proceed with learning about exciting emotions for the entire recorded sentence and compare the result determined from the start word and its accuracy. Accuracy can be calculated after machine learning by repeating the same process for each sentence in each scenario.

기계학습 과정에서 보루타(Boruta) 함수를 이용하여 영향력이 큰 피처들을 선택한 후 선택된 피처들만으로 감성 분류 알고리즘을 모델링할 수 있다. 알고리즘 모델링에 활용된 피처들의 중요도를 각 연산마다 중요도(mean importance)로 산출된 값을 기반으로 음성이 기록된 시간(duration), 후처리된 음높이(pitch), 소리 크기의 변화를 통한 거친 정도(roughness), 주요 음역대 영역(Dom)을 선택할 수 있다.In the machine learning process, after selecting features with high influence using the Boruta function, the emotion classification algorithm can be modeled with only the selected features. Based on the value calculated as mean importance for each operation, the importance of the features used in the algorithm modeling was recorded through duration, post-processed pitch, and roughness through changes in sound volume ( roughness), and the main musical range (Dom) can be selected.

이처럼 본 발명의 실시예들에 따르면, 음성 어시스턴트를 호출하기 위해 사용하는 기동어를 사용자의 감성 분석에 활용함으로써 보다 빠르고 정확하게 감성 파악이 가능하다. 또한, 본 발명의 실시예들에 따르면, 전체 대화가 아닌 기동어에 초점을 맞춘 기계학습을 진행함으로써 학습 데이터셋의 구축이 편리하고 문장에 대한 추가적인 분석 없이도 문장보다 정확한 감성 판단이 가능하다. 그리고, 본 발명의 실시예들에 따르면, 기동어로부터 추출된 감성을 기반으로 제공하는 피드백 감성 조명에 대해 보다 명확한 가이드를 제공할 수 있고 이를 통해 서비스 만족도를 향상시킬 수 있다.As described above, according to embodiments of the present invention, it is possible to more quickly and accurately grasp emotions by utilizing a trigger word used to call a voice assistant for emotion analysis of a user. In addition, according to the embodiments of the present invention, by conducting machine learning focusing on trigger words rather than entire conversations, it is convenient to build a learning dataset and it is possible to determine more accurate emotion than sentences without additional analysis of sentences. And, according to the embodiments of the present invention, it is possible to provide a clearer guide for the feedback emotion lighting provided based on the emotion extracted from the trigger word, thereby improving service satisfaction.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The devices described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, devices and components described in the embodiments include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable PLU (programmable logic unit). logic unit), microprocessor, or any other device capable of executing and responding to instructions. The processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device. The software and/or data may be embodied in any tangible machine, component, physical device, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. there is. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. In this case, the medium may continuously store a program executable by a computer or temporarily store the program for execution or download. In addition, the medium may be various recording means or storage means in the form of a single or combined hardware, but is not limited to a medium directly connected to a certain computer system, and may be distributed on a network. Examples of the medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROM and DVD, magneto-optical media such as floptical disks, and ROM, RAM, flash memory, etc. configured to store program instructions. In addition, examples of other media include recording media or storage media managed by an app store that distributes applications, a site that supplies or distributes various other software, and a server.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (13)

컴퓨터 장치에서 수행되는 맞춤형 피드백 조명 방법에 있어서,
상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 맞춤형 피드백 조명 방법은,
상기 적어도 하나의 프로세서의 의해, 음성 어시스턴트(voice assistant)를 호출하기 위해 사용자가 발화한 기동어의 음색 요소를 분석함으로써 상기 사용자의 감성을 분류하는 단계; 및
상기 적어도 하나의 프로세서의 의해, 상기 사용자의 감성을 기초로 해당 감성에 매핑된 모드의 조명 피드백(lighting feedback)을 제공하는 단계
를 포함하는 맞춤형 피드백 조명 방법.
In the customized feedback lighting method performed on a computer device,
The computer device includes at least one processor configured to execute computer readable instructions contained in a memory;
The customized feedback lighting method,
classifying, by the at least one processor, the emotion of the user by analyzing a tone element of a trigger word uttered by the user to call a voice assistant; and
Providing, by the at least one processor, lighting feedback of a mode mapped to the emotion of the user based on the emotion of the user
Custom feedback lighting method comprising a.
제1항에 있어서,
상기 분류하는 단계는,
상기 사용자가 발화한 기동어의 음색 요소로부터 상기 사용자의 연령과 성별 중 적어도 하나의 특성을 분류하는 단계
를 포함하고,
상기 제공하는 단계는,
상기 사용자의 감성과 특성에 매핑된 모드로 상기 조명 피드백을 제공하는 것
을 특징으로 하는 맞춤형 피드백 조명 방법.
According to claim 1,
The classification step is
Classifying at least one characteristic of the age and gender of the user from the tone elements of the starter word uttered by the user
including,
The step of providing,
Providing the lighting feedback in a mode mapped to the user's emotion and characteristics
Characterized by a custom feedback lighting method.
제1항에 있어서,
상기 분류하는 단계는,
상기 사용자가 발화한 기동어의 음색 요소로부터 상기 사용자의 연령과 성별 중 적어도 하나의 특성을 분류하는 단계
를 포함하고,
상기 제공하는 단계는,
상기 사용자의 감성에 따라 조명 모드를 선택하되 상기 사용자의 감성이 적어도 일부 유형의 감성에 해당되는 경우 상기 사용자의 특성에 따라 조명 모드를 선택하는 단계
를 포함하는 맞춤형 피드백 조명 방법.
According to claim 1,
The classification step is
Classifying at least one characteristic of the age and gender of the user from the tone elements of the starter word uttered by the user
including,
The step of providing,
Selecting a lighting mode according to the user's emotion, but selecting a lighting mode according to the user's characteristic when the user's emotion corresponds to at least some type of emotion
Custom feedback lighting method comprising a.
제1항에 있어서,
상기 제공하는 단계는,
상기 사용자의 감성에 따라 조명의 종류, 색상, 채도, 순도, 색온도, 패턴 중 적어도 하나가 다른 조명 피드백을 제공하는 것
을 특징으로 하는 맞춤형 피드백 조명 방법.
According to claim 1,
The step of providing,
Providing lighting feedback in which at least one of the lighting type, color, saturation, purity, color temperature, and pattern differs according to the user's emotion
Characterized by a custom feedback lighting method.
제1항에 있어서,
상기 맞춤형 피드백 조명 방법은,
상기 적어도 하나의 프로세서의 의해, 상기 기동어에 대한 음성 파일을 수집하여 감성 분류를 위한 학습 데이터셋을 구축하는 단계
를 더 포함하고,
상기 분류하는 단계는,
상기 학습 데이터셋을 이용한 기계학습을 통해 상기 사용자가 발화한 기동어로부터 상기 사용자의 감성을 분류하는 것
을 특징으로 하는 맞춤형 피드백 조명 방법.
According to claim 1,
The customized feedback lighting method,
Building, by the at least one processor, a learning dataset for emotion classification by collecting voice files for the trigger word
Including more,
The classification step is
Classifying the emotion of the user from the trigger word uttered by the user through machine learning using the learning dataset
Characterized by a custom feedback lighting method.
제1항에 있어서,
상기 분류하는 단계는,
상기 사용자가 발화한 기동어의 음색 요소 중 음성이 기록된 시간(duration), 후처리된 음높이(pitch), 소리 크기의 변화를 통한 거친 정도(roughness), 및 주요 음역대 영역(Dom)을 이용하여 상기 사용자의 감성을 분류하는 것
을 특징으로 하는 맞춤형 피드백 조명 방법.
According to claim 1,
The classification step is
Among the timbre elements of the trigger word uttered by the user, the duration of the voice was recorded, the post-processed pitch, the roughness through the change in loudness, and the main range of voice (Dom) Classifying the user's emotion
Characterized by a custom feedback lighting method.
맞춤형 피드백 조명 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서,
상기 맞춤형 피드백 조명 방법은,
음성 어시스턴트를 호출하기 위해 사용자가 발화한 기동어의 음색 요소를 분석함으로써 상기 사용자의 감성을 분류하는 단계; 및
상기 사용자의 감성을 기초로 해당 감성에 매핑된 모드의 조명 피드백을 제공하는 단계
를 포함하는, 컴퓨터 프로그램.
A computer program stored in a computer readable recording medium for executing a customized feedback lighting method on a computer,
The customized feedback lighting method,
classifying a user's emotion by analyzing a tone element of a trigger word uttered by the user to call a voice assistant; and
Providing lighting feedback of a mode mapped to the corresponding emotion based on the user's emotion
Including, a computer program.
컴퓨터로 구현되는 맞춤형 피드백 조명 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
음성 어시스턴트를 호출하기 위해 사용자가 발화한 기동어의 음색 요소를 분석함으로써 상기 사용자의 감성을 분류하는 과정; 및
상기 사용자의 감성을 기초로 해당 감성에 매핑된 모드의 조명 피드백을 제공하는 과정
을 처리하는 맞춤형 피드백 조명 시스템.
In the customized feedback lighting system implemented by a computer,
at least one processor configured to execute computer readable instructions contained in memory;
including,
The at least one processor,
classifying a user's emotion by analyzing a tone element of a trigger word uttered by the user to call a voice assistant; and
A process of providing lighting feedback of a mode mapped to a corresponding emotion based on the user's emotion
A custom feedback lighting system that handles
제8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 사용자가 발화한 기동어의 음색 요소로부터 상기 사용자의 연령과 성별 중 적어도 하나의 특성을 분류하고,
상기 사용자의 감성과 특성에 매핑된 모드로 상기 조명 피드백을 제공하는 것
을 특징으로 하는 맞춤형 피드백 조명 시스템.
According to claim 8,
The at least one processor,
classifying at least one characteristic of the user's age and gender from the tone elements of the starter word uttered by the user;
Providing the lighting feedback in a mode mapped to the user's emotion and characteristics
featuring a custom feedback lighting system.
제8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 사용자가 발화한 기동어의 음색 요소로부터 상기 사용자의 연령과 성별 중 적어도 하나의 특성을 분류하고,
상기 사용자의 감성에 따라 조명 모드를 선택하되 상기 사용자의 감성이 적어도 일부 유형의 감성에 해당되는 경우 상기 사용자의 특성에 따라 조명 모드를 선택하는 것
을 특징으로 하는 맞춤형 피드백 조명 시스템.
According to claim 8,
The at least one processor,
classifying at least one characteristic of the user's age and gender from the tone elements of the starter word uttered by the user;
Selecting a lighting mode according to the user's emotion, but selecting a lighting mode according to the user's characteristic when the user's emotion corresponds to at least some type of emotion
featuring a custom feedback lighting system.
제8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 사용자의 감성에 따라 조명의 종류, 색상, 채도, 순도, 색온도, 패턴 중 적어도 하나가 다른 조명 피드백을 제공하는 것
을 특징으로 하는 맞춤형 피드백 조명 시스템.
According to claim 8,
The at least one processor,
Providing lighting feedback in which at least one of the lighting type, color, saturation, purity, color temperature, and pattern differs according to the user's emotion
featuring a custom feedback lighting system.
제8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 기동어에 대한 음성 파일을 수집하여 감성 분류를 위한 학습 데이터셋을 구축하고,
상기 학습 데이터셋을 이용한 기계학습을 통해 상기 사용자가 발화한 기동어로부터 상기 사용자의 감성을 분류하는 것
을 특징으로 하는 맞춤형 피드백 조명 시스템.
According to claim 8,
The at least one processor,
Collecting voice files for the trigger word to build a learning dataset for emotion classification,
Classifying the emotion of the user from the trigger word uttered by the user through machine learning using the learning dataset
featuring a custom feedback lighting system.
제8항에 있어서,
상기 적어도 하나의 프로세서는,
상기 사용자가 발화한 기동어의 음색 요소 중 음성이 기록된 시간, 후처리된 음높이, 소리 크기의 변화를 통한 거친 정도, 및 주요 음역대 영역을 이용하여 상기 사용자의 감성을 분류하는 것
을 특징으로 하는 맞춤형 피드백 조명 시스템.
According to claim 8,
The at least one processor,
Classifying the emotion of the user by using the recording time of the voice, the post-processed pitch, the degree of roughness through the change in loudness, and the main vocal range among the timbre elements of the trigger word uttered by the user
featuring a custom feedback lighting system.
KR1020220019013A 2022-02-14 2022-02-14 Customized feedback lighting system through classification of user emotions based on Wake-Up Words KR20230122394A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220019013A KR20230122394A (en) 2022-02-14 2022-02-14 Customized feedback lighting system through classification of user emotions based on Wake-Up Words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220019013A KR20230122394A (en) 2022-02-14 2022-02-14 Customized feedback lighting system through classification of user emotions based on Wake-Up Words

Publications (1)

Publication Number Publication Date
KR20230122394A true KR20230122394A (en) 2023-08-22

Family

ID=87799618

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220019013A KR20230122394A (en) 2022-02-14 2022-02-14 Customized feedback lighting system through classification of user emotions based on Wake-Up Words

Country Status (1)

Country Link
KR (1) KR20230122394A (en)

Similar Documents

Publication Publication Date Title
US11367439B2 (en) Electronic device and method for providing artificial intelligence services based on pre-gathered conversations
US10832674B2 (en) Voice data processing method and electronic device supporting the same
US10068573B1 (en) Approaches for voice-activated audio commands
KR102582291B1 (en) Emotion information-based voice synthesis method and device
JP2019164345A (en) System for processing sound data, user terminal and method for controlling the system
CN109196495A (en) Fine granularity natural language understanding
US11574637B1 (en) Spoken language understanding models
CN111145721A (en) Personalized prompt language generation method, device and equipment
JP2004037721A (en) System and program for voice response and storage medium therefor
Pittermann et al. Handling emotions in human-computer dialogues
CN108885869A (en) The playback of audio data of the control comprising voice
KR20220152829A (en) Vehicle sound based emotional care apparatus and method
WO2021169365A1 (en) Voiceprint recognition method and device
CN113010138A (en) Article voice playing method, device and equipment and computer readable storage medium
CN110767240B (en) Equipment control method, equipment, storage medium and device for identifying child accent
CN110310648A (en) Control method, device, mobile terminal and the readable storage medium storing program for executing of mobile terminal
US11996081B2 (en) Visual responses to user inputs
US20240095987A1 (en) Content generation
CN110297617B (en) Method and device for initiating active conversation
KR102519635B1 (en) Method for displaying an electronic document for processing a voice command and electronic device thereof
US11922538B2 (en) Apparatus for generating emojis, vehicle, and method for generating emojis
KR20230122394A (en) Customized feedback lighting system through classification of user emotions based on Wake-Up Words
CN115171660A (en) Voiceprint information processing method and device, electronic equipment and storage medium
KR102319013B1 (en) Method and system for personality recognition from dialogues
Schuller et al. Speech communication and multimodal interfaces

Legal Events

Date Code Title Description
E902 Notification of reason for refusal