KR102147835B1 - Apparatus for determining speech properties and motion properties of interactive robot and method thereof - Google Patents

Apparatus for determining speech properties and motion properties of interactive robot and method thereof Download PDF

Info

Publication number
KR102147835B1
KR102147835B1 KR1020180034715A KR20180034715A KR102147835B1 KR 102147835 B1 KR102147835 B1 KR 102147835B1 KR 1020180034715 A KR1020180034715 A KR 1020180034715A KR 20180034715 A KR20180034715 A KR 20180034715A KR 102147835 B1 KR102147835 B1 KR 102147835B1
Authority
KR
South Korea
Prior art keywords
gesture
attribute
interactive robot
counterpart
speech
Prior art date
Application number
KR1020180034715A
Other languages
Korean (ko)
Other versions
KR20190060637A (en
Inventor
윤영우
김재홍
이재연
장민수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US16/102,398 priority Critical patent/US10777198B2/en
Publication of KR20190060637A publication Critical patent/KR20190060637A/en
Application granted granted Critical
Publication of KR102147835B1 publication Critical patent/KR102147835B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법이 개시된다. 본 발명에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치에 의해 수행되는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법은, 인터랙티브 로봇과 상호 작용하는 상대방에 대한 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함하는 상대방 대화 정보를 입력받는 단계, 상기 상대방 대화 정보를 분석하여, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계, 상기 인터랙티브 로봇과 상기 상대방의 대화 내용으로 추정된 상황 문맥 정보, 상기 언어적 속성 및 상기 비언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계, 그리고 결정된 상기 인터랙티브 로봇의 발화 속성 및 상기 제스처 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 동작을 제어하는 단계를 포함한다. Disclosed is an apparatus and method for determining speech and gesture properties of an interactive robot. The method for determining the speech and gesture properties of the interactive robot performed by the apparatus for determining the speech and gesture properties of the interactive robot according to the present invention includes at least one of voice information and image information about a counterpart interacting with the interactive robot. Receiving conversation information, analyzing the conversation information of the other party, and extracting at least one of a linguistic attribute and a non-verbal attribute of the other party, contextual context information estimated from the conversation contents of the interactive robot and the other party, Determining at least one of a speech attribute and a gesture attribute of the interactive robot based on at least one of the verbal attribute and the non-verbal attribute, and at least one of the determined speech attribute and the gesture attribute of the interactive robot Based on, controlling the operation of the interactive robot.

Description

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법{APPARATUS FOR DETERMINING SPEECH PROPERTIES AND MOTION PROPERTIES OF INTERACTIVE ROBOT AND METHOD THEREOF}A device and method for determining speech and gesture properties of an interactive robot {APPARATUS FOR DETERMINING SPEECH PROPERTIES AND MOTION PROPERTIES OF INTERACTIVE ROBOT AND METHOD THEREOF}

본 발명은 인터랙티브 로봇의 발화 및 제스처 속성 결정 기술에 관한 것으로, 특히 인간과 로봇의 대화 상황에서 로봇의 발화 속성 및 제스처 속성을 결정하는 기술에 관한 것이다.The present invention relates to a technique for determining speech and gesture properties of an interactive robot, and more particularly, to a technique for determining speech properties and gesture properties of a robot in a dialogue situation between a human and a robot.

제조 공정의 조립 라인에 주로 적용되던 산업용 로봇뿐만 아니라, 재난 현장의 구조 로봇, 교육 및 보육용 로봇, 간병 로봇 및 전쟁터의 살상용 로봇 등 오늘날 로봇의 용도 및 적용 분야는 매우 다양해졌다. In addition to industrial robots that were mainly applied to assembly lines in the manufacturing process, today's robots have a wide variety of uses and applications, including rescue robots at disaster sites, robots for education and childcare, care robots, and robots for killing in battlefields.

최근 로봇 공학계에서는 사람이 고립감을 느끼지 않도록 도와주는 대화 로봇 기술이 큰 관심을 받고 있다. 대화 로봇들은 사람뿐만 아니라 로봇들과도 서로 대화를 나눌 수 있으며, 주위의 사람과 눈을 맞춰 실제로 대화에 참여하고 있는 듯한 느낌을 주기도 한다. Recently, in the robotics world, conversational robot technology that helps people to avoid feelings of isolation is receiving great attention. Dialogue robots can communicate not only with humans, but also with robots, making eye contact with people around them, giving the impression that they are actually participating in the conversation.

사람은 대화를 할 때, 대화 문맥이나 주변 상황에 따라 발성의 크기, 빠르기, 제스처 등을 자유롭게 변화시킨다. 그러나, 종래 기술에 따른 로봇들은 사전에 설정된 발화 및 제스처만 반복할 수 있다. 즉, 종래 기술들은 모든 로봇들이 동일한 형태의 발화와 동일한 형태의 제스처를 수행하므로, 환경 적응성 및 로봇의 퍼스널리티(Personality)를 반영할 수 없었다. When a person has a conversation, he freely changes the size, speed, and gestures of his speech according to the context of the conversation or the surrounding situation. However, robots according to the prior art may repeat only preset speech and gestures. That is, in the prior art, since all robots perform the same type of speech and the same type of gesture, environmental adaptability and the robot's personality cannot be reflected.

따라서, 인간과 로봇이 대화하는 상황에서 로봇의 발화 속성 및 제스처 속성을 결정하여, 상대방이 로봇을 보다 친밀하고 지능적으로 느낄 수 있도록 하는 기술의 개발이 필요하다. Accordingly, there is a need to develop a technology that enables the counterpart to feel the robot more intimately and intelligently by determining the speech and gesture properties of the robot in a situation where a human and a robot communicate.

한국 공개 특허 제10-2017-0027706호, 2017년 03월 10일 공개(명칭: 로봇의 대화를 관리하기 위한 방법 및 시스템)Korean Patent Publication No. 10-2017-0027706, published on March 10, 2017 (Name: Method and system for managing conversations of robots)

본 발명의 목적은 대화하는 상대방의 언어적 속성 및 인터랙티브 로봇의 퍼스널리티를 고려하여, 인터랙티브 로봇의 발화 속성 및 제스처 속성을 변경하는 것이다. An object of the present invention is to change the speech attribute and gesture attribute of the interactive robot in consideration of the verbal attribute of the conversation partner and the personality of the interactive robot.

또한, 본 발명의 목적은 상대방 및 주위 환경에 따라 인터랙티브 로봇의 발화 속성 및 제스처 속성을 변경하여, 상대방이 로봇을 보다 친밀하고 지능적으로 느낄 수 있도록 하는 것이다. In addition, an object of the present invention is to change the ignition property and gesture property of the interactive robot according to the counterpart and the surrounding environment, so that the counterpart can feel the robot more intimately and intelligently.

상기한 목적을 달성하기 위한 본 발명에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치에 의해 수행되는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법은, 인터랙티브 로봇과 상호 작용하는 상대방에 대한 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함하는 상대방 대화 정보를 입력받는 단계, 상기 상대방 대화 정보를 분석하여, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계, 상기 인터랙티브 로봇과 상기 상대방의 대화 내용으로 추정된 상황 문맥 정보, 상기 언어적 속성 및 상기 비언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계, 그리고 결정된 상기 인터랙티브 로봇의 발화 속성 및 상기 제스처 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 동작을 제어하는 단계를 포함한다. The method for determining utterance and gesture properties of an interactive robot performed by the apparatus for determining utterance and gesture properties of an interactive robot according to the present invention for achieving the above object is, among voice information and image information for a counterpart interacting with the interactive robot. Receiving a counterpart's conversation information including at least one, analyzing the counterpart conversation information, and extracting at least one of a linguistic attribute and a non-verbal attribute of the counterpart, conversation content between the interactive robot and the counterpart Determining at least one of a speech attribute and a gesture attribute of the interactive robot, based on at least one of the contextual context information, the linguistic attribute, and the non-verbal attribute estimated as, and the determined speech attribute of the interactive robot, and And controlling the motion of the interactive robot based on at least one of the gesture properties.

이때, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계는, 상기 음성 정보를 분석하여 상기 음의 고저, 진폭 및 스피드 중 적어도 어느 하나를 포함하는 상기 상대방에 대한 상기 언어적 속성을 추출하거나, 상기 영상 정보를 분석하여 상기 상대방의 제스처 사용 빈도 및 제스처 사이즈 중 적어도 어느 하나를 포함하는 상기 상대방에 대한 상기 비언어적 속성을 추출할 수 있다. At this time, the step of extracting at least one of a linguistic attribute and a non-verbal attribute for the counterpart includes the verbal attribute for the counterpart including at least one of the pitch, amplitude, and speed of the sound by analyzing the voice information. The non-verbal attribute for the counterpart may be extracted, including at least one of the counterpart's gesture use frequency and gesture size, by extracting an attribute or analyzing the image information.

이때, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는, 상기 인터랙티브 로봇의 기본 설정 정보, 상기 상황 문맥 정보 및 추출된 상기 언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 발화 속성을 설정할 수 있다. In this case, the step of determining at least one of the speech attribute and the gesture attribute of the interactive robot may include the interactive robot based on at least one of basic setting information, the contextual context information, and the extracted linguistic attribute. You can set the robot's firing properties.

이때, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계는, 상기 상대방과의 대화 내용으로부터 상기 상황 문맥 정보를 추정하는 단계, 그리고 상기 상대방의 기본 언어적 속성 및 기 설정된 시간 동안 상기 상대방의 언어적 속성 정보를 이용하여, 상기 상대방의 언어적 속성 변화 정보를 추출하는 단계를 포함하고, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는, 상기 상황 문맥 정보 및 상기 상대방의 언어적 속성 변화 정보를 이용하여, 상기 인터랙티브 로봇의 발화 속성을 결정하는 단계를 포함할 수 있다. In this case, the extracting at least one of a linguistic attribute and a non-verbal attribute of the counterpart includes estimating the contextual context information from the conversation content with the counterpart, and the basic linguistic attribute and a preset time of the counterpart In the meantime, using the language attribute information of the counterpart, extracting the language attribute change information of the counterpart, and determining at least one of the speech attribute and the gesture attribute of the interactive robot, the context context And determining the speech attribute of the interactive robot by using the information and the language attribute change information of the counterpart.

이때, 상기 상황 문맥 정보를 추정하는 단계는, 상기 대화 내용을 기반으로, 상기 상대방의 언어적 속성을 모사하는 모사 모드, 기본 설정 모드 및 상기 상대방의 언어적 속성에 대응되는 모드인 반대 모드 중 어느 하나로 상기 상황 문맥 정보를 추정할 수 있다. In this case, the step of estimating the contextual context information may include any of a copy mode that simulates the language attribute of the other party, a basic setting mode, and an opposite mode corresponding to the language attribute of the other party based on the conversation content. With one, the contextual context information can be estimated.

이때, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는, 상기 인터랙티브 로봇의 기본 설정 정보 및 추출된 상기 비언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 제스처 속성을 설정할 수 있다. In this case, the determining of at least one of the speech attribute and the gesture attribute of the interactive robot may include setting the gesture attribute of the interactive robot based on at least one of the basic setting information of the interactive robot and the extracted non-verbal attribute. I can.

이때, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계는, 상기 영상 정보로부터 상기 상대방의 스켈레톤 정보를 추출하는 단계, 추출된 상기 스켈레톤 정보의 조인트 좌표에 대한 정규화를 수행하는 단계, 정규화된 상기 스켈레톤 정보를 이용하여, 상기 상대방의 제스처 사용 빈도를 연산하는 단계, 그리고 정규화된 상기 스켈레톤 정보를 이용하여, 상기 상대방의 제스처 사이즈를 연산하는 단계를 포함할 수 있다. In this case, the extracting at least one of a linguistic attribute and a non-verbal attribute for the counterpart may include extracting the skeleton information of the counterpart from the image information, and normalizing the joint coordinates of the extracted skeleton information. The step, using the normalized skeleton information, calculating a frequency of use of the gesture of the other party, and calculating a gesture size of the other party using the normalized skeleton information.

이때, 상기 상대방의 제스처 사용 빈도를 연산하는 단계는, 단위 시간 동안 상기 조인트 좌표의 위치 변화를 이용하여 상기 상대방의 제스처 사용 여부를 판단하고, 기 설정된 주기 동안 상기 상대방의 제스처 사용 빈도를 카운트할 수 있다. In this case, calculating the frequency of use of the counterpart's gesture may include determining whether or not the counterpart uses a gesture using the position change of the joint coordinates during a unit time period, and counting the frequency of use of the counterpart's gesture during a preset period. have.

이때, 상기 상대방의 제스처 사이즈를 연산하는 단계는, 단위 시간 동안 상기 조인트 좌표의 최대 값과 상기 조인트 좌표의 최소 값의 차이를 이용하여 상기 상대방의 제스처 사이즈를 연산할 수 있다. In this case, in the calculating of the gesture size of the counterpart, the gesture size of the counterpart may be calculated by using a difference between the maximum value of the joint coordinates and the minimum value of the joint coordinates during a unit time.

이때, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는, 제1 가중치가 부여된 상기 상대방의 비 언어적 속성과 제2 가중치가 부여된 상기 인터랙티브 로봇의 기본 제스처 속성의 합을 연산하여, 상기 인터랙티브 로봇의 제스처 속성을 결정하는 단계를 더 포함할 수 있다. In this case, determining at least one of the speech attribute and the gesture attribute of the interactive robot may include a sum of the non-verbal attribute of the counterpart to which the first weight is assigned and the basic gesture attribute of the interactive robot to which the second weight is assigned. It may further include determining a gesture property of the interactive robot by calculating.

이때, 상기 상대방에 대한 영상 정보는, 상기 인터랙티브 로봇의 시점에서 촬영된 것일 수 있다. In this case, the image information on the other party may be photographed from the viewpoint of the interactive robot.

또한, 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치는, 인터랙티브 로봇과 상호 작용하는 상대방에 대한 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함하는 상대방 대화 정보를 입력받는 상대방 대화 정보 입력부, 상기 상대방 대화 정보를 분석하여, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 상대방의 대화 속성 추출부, 상기 인터랙티브 로봇의 기본 설정 정보, 상기 인터랙티브 로봇과 상기 상대방의 대화 내용으로 추정된 상황 문맥 정보, 상기 언어적 속성 및 상기 비언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 발화 및 제스처 결정부, 그리고 결정된 상기 인터랙티브 로봇의 발화 속성 및 상기 제스처 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 동작을 제어하는 인터랙티브 로봇 제어부를 포함한다. In addition, an apparatus for determining speech and gesture properties of an interactive robot according to an embodiment of the present invention includes a counterpart conversation receiving input of counterpart conversation information including at least one of voice information and image information for a counterpart interacting with the interactive robot. An information input unit, a conversation attribute extraction unit of the other party that analyzes the conversation information of the other party and extracts at least one of a linguistic attribute and a non-verbal attribute of the other party, basic setting information of the interactive robot, and the interactive robot and the other party A speech and gesture determination unit that determines at least one of a speech attribute and a gesture attribute of the interactive robot based on at least one of contextual context information, the verbal attribute, and the non-verbal attribute estimated as conversation content, and the determined And an interactive robot control unit that controls an operation of the interactive robot based on at least one of a speech attribute and the gesture attribute of the interactive robot.

이때, 상기 상대방의 대화 속성 추출부는, 상기 음성 정보를 분석하여 상기 음의 고저, 진폭 및 스피드 중 적어도 어느 하나를 포함하는 상기 상대방에 대한 상기 언어적 속성을 추출하거나, 상기 영상 정보를 분석하여 상기 상대방의 제스처 사용 빈도 및 제스처 사이즈 중 적어도 어느 하나를 포함하는 상기 상대방에 대한 상기 비언어적 속성을 추출할 수 있다. In this case, the conversation attribute extraction unit of the counterpart analyzes the voice information to extract the linguistic property of the counterpart including at least one of pitch, amplitude, and speed of the sound, or analyzes the video information The non-verbal attribute of the counterpart may be extracted, including at least one of the counterpart's gesture use frequency and gesture size.

이때, 상기 상대방의 대화 속성 추출부는, 상기 상대방과의 대화 내용으로부터 상기 상황 문맥 정보를 추정하고, 상기 상대방의 기본 언어적 속성 및 기 설정된 시간 동안 상기 상대방의 언어적 속성 정보를 이용하여 상기 상대방의 언어적 속성 변화 정보를 추출하여, 상기 발화 및 제스처 결정부가, 상기 상황 문맥 정보 및 상기 상대방의 언어적 속성 변화 정보를 이용하여 상기 인터랙티브 로봇의 발화 속성을 결정하도록 할 수 있다. At this time, the conversation attribute extraction unit of the counterpart estimates the contextual context information from the conversation contents with the counterpart, and uses the counterpart's basic linguistic attribute and the counterpart's linguistic attribute information for a preset time. By extracting the linguistic attribute change information, the speech and gesture determination unit may determine the speech attribute of the interactive robot using the contextual context information and the language attribute change information of the counterpart.

이때, 상기 발화 및 제스처 결정부는, 상기 대화 내용을 기반으로, 상기 상대방의 언어적 속성을 모사하는 모사 모드, 기본 설정 모드 및 상기 상대방의 언어적 속성에 대응되는 모드인 반대 모드 중 어느 하나로 상기 상황 문맥 정보를 추정할 수 있다. At this time, the utterance and gesture determination unit, based on the conversation content, one of a simulation mode that simulates the language attribute of the other party, a basic setting mode, and an opposite mode corresponding to the language attribute of the other party. Context information can be estimated.

이때, 상기 상대방의 대화 속성 추출부는, 상기 영상 정보로부터 상기 상대방의 스켈레톤 정보를 추출하고, 추출된 상기 스켈레톤 정보의 조인트 좌표에 대한 정규화를 수행하며, 정규화된 상기 스켈레톤 정보를 이용하여 상기 상대방의 제스처 사용 빈도를 연산하고, 정규화된 상기 스켈레톤 정보를 이용하여 상기 상대방의 제스처 사이즈를 연산할 수 있다. At this time, the conversation attribute extraction unit of the counterpart extracts the counterpart's skeleton information from the image information, normalizes the joint coordinates of the extracted skeleton information, and uses the normalized skeleton information to make the counterpart's gesture The frequency of use may be calculated, and the gesture size of the counterpart may be calculated using the normalized skeleton information.

이때, 상기 상대방의 대화 속성 추출부는, 단위 시간 동안 상기 조인트 좌표의 위치 변화를 이용하여 상기 상대방의 제스처 사용 여부를 판단하고, 기 설정된 주기 동안 상기 상대방의 제스처 사용 빈도를 카운트할 수 있다. In this case, the conversation attribute extraction unit of the counterpart may determine whether or not the counterpart uses a gesture by using the position change of the joint coordinates during a unit time, and count the frequency of the counterpart's gesture use during a preset period.

이때, 상기 상대방의 대화 속성 추출부는, 단위 시간 동안 상기 조인트 좌표의 최대 값과 상기 조인트 좌표의 최소 값의 차이를 이용하여 상기 상대방의 제스처 사이즈를 연산할 수 있다. In this case, the conversation attribute extraction unit of the counterpart may calculate the gesture size of the counterpart by using a difference between the maximum value of the joint coordinate and the minimum value of the joint coordinate during a unit time.

이때, 상기 발화 및 제스처 결정부는, 제1 가중치가 부여된 상기 상대방의 비 언어적 속성과 제2 가중치가 부여된 상기 인터랙티브 로봇의 기본 제스처 속성의 합을 연산하여, 상기 인터랙티브 로봇의 제스처 속성을 결정할 수 있다. In this case, the speech and gesture determination unit determines the gesture attribute of the interactive robot by calculating a sum of the non-verbal attribute of the counterpart to which the first weight is assigned and the basic gesture attribute of the interactive robot to which the second weight is assigned. I can.

이때, 상기 상대방에 대한 영상 정보는, 상기 인터랙티브 로봇의 시점에서 촬영된 것일 수 있다. In this case, the image information on the other party may be photographed from the viewpoint of the interactive robot.

본 발명에 따르면, 대화하는 상대방의 언어적 속성 및 인터랙티브 로봇의 퍼스널리티를 고려하여, 인터랙티브 로봇의 발화 속성 및 제스처 속성을 변경할 수 있다. According to the present invention, it is possible to change the speech attribute and gesture attribute of the interactive robot in consideration of the verbal attribute of the conversation partner and the personality of the interactive robot.

또한 본 발명에 따르면, 상대방 및 주위 환경에 따라 인터랙티브 로봇의 발화 속성 및 제스처 속성을 변경하여, 상대방이 로봇을 보다 친밀하고 지능적으로 느끼도록 할 수 있다. In addition, according to the present invention, by changing the speech attribute and gesture attribute of the interactive robot according to the other party and the surrounding environment, the other party can feel the robot more intimately and intelligently.

도 1은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 적용되는 환경을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 속성을 결정하는 방법을 나타낸 순서도이다.
도 5는 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 발화 속성을 결정하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 제스처 속성을 결정하는 방법을 나타낸 순서도이다.
도 7은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 제스처 속성을 결정하는 과정을 설명하기 위한 도면이다.
도 8은 도 6의 S610 단계에서 스켈레톤 정보를 추출하는 과정을 설명하기 위한 예시도이다.
도 9는 도 6의 S630 단계에서 제스처 사이즈를 연산하는 과정을 설명하기 위한 예시도이다.
도 10은 본 발명의 일 실시예에 따른 컴퓨터 시스템을 나타낸 블록도이다.
1 is a diagram schematically illustrating an environment in which an apparatus for determining speech and gesture properties of an interactive robot according to an embodiment of the present invention is applied.
2 is a block diagram showing a configuration of an apparatus for determining speech and gesture properties of an interactive robot according to an embodiment of the present invention.
3 is a flowchart illustrating a method of determining speech and gesture properties of an interactive robot according to an embodiment of the present invention.
4 is a flowchart illustrating a method of determining ignition properties of an interactive robot according to an embodiment of the present invention.
FIG. 5 is a diagram illustrating a process of determining a speech attribute by an apparatus for determining speech and gesture attributes of an interactive robot according to an embodiment of the present invention.
6 is a flowchart illustrating a method of determining a gesture property of an interactive robot according to an embodiment of the present invention.
7 is a diagram for describing a process of determining a gesture attribute by an apparatus for determining a speech and gesture attribute of an interactive robot according to an embodiment of the present invention.
FIG. 8 is an exemplary diagram illustrating a process of extracting skeleton information in step S610 of FIG. 6.
9 is an exemplary diagram for explaining a process of calculating a gesture size in step S630 of FIG. 6.
10 is a block diagram showing a computer system according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.In the present invention, various modifications may be made and various embodiments may be provided, and specific embodiments will be illustrated in the drawings and described in detail.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.However, this is not intended to limit the present invention to a specific embodiment, it is to be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or combinations thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof, does not preclude in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in the present application. Does not.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the accompanying drawings. In describing the present invention, in order to facilitate an overall understanding, the same reference numerals are used for the same elements in the drawings, and duplicate descriptions for the same elements are omitted.

도 1은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 적용되는 환경을 개략적으로 나타낸 도면이다. 1 is a diagram schematically illustrating an environment in which an apparatus for determining speech and gesture properties of an interactive robot according to an embodiment of the present invention is applied.

도 1에 도시한 바와 같이, 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 시스템은 인터랙티브 로봇(100), 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200) 및 상대방(300)을 포함할 수 있다. As shown in FIG. 1, the interactive robot speech and gesture attribute determination system according to an embodiment of the present invention includes an interactive robot 100, an interactive robot speech and gesture attribute determination apparatus 200, and a counterpart 300. Can include.

인터랙티브 로봇(100)은 마이크를 이용하여 상대방(300)의 발화 음성을 인식하고, 상대방(300)의 발화 음성에 적절한 대화 응답을 생성하여 TTS(Text-to-Speech)를 통해 출력할 수 있다. 또한, 인터랙티브 로봇(100)은 대화 응답에 적절한 제스처를 출력할 수 있다. The interactive robot 100 may use a microphone to recognize the spoken voice of the other party 300, generate a conversation response appropriate to the spoken voice of the other party 300, and output it through a text-to-speech (TTS). In addition, the interactive robot 100 may output a gesture suitable for a conversation response.

이때, 인터랙티브 로봇(100)은 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)로부터 수신한 발화 속성을 기반으로 대화 응답을 출력하는 과정 및 제스처 속성을 기반으로 제스처를 출력하는 과정을 지속적으로 반복하여, 상대방(300)과 대화를 수행할 수 있다. At this time, the interactive robot 100 continuously repeats the process of outputting a conversation response based on the speech property received from the apparatus 200 for determining speech and gesture properties of the interactive robot and a process of outputting a gesture based on the gesture property. , It is possible to conduct a conversation with the other party (300).

특히, 인터랙티브 로봇(100)은 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)로부터 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 포함하는 동작 제어 신호를 수신할 수 있다. 그리고 인터랙티브 로봇(100)은 동작 제어 신호의 발화 속성에 따라 TTS를 통해 대화 응답을 출력하거나, 동작 제어 신호의 제스처 속성에 따라 몸체, 팔 등을 움직여 제스처를 출력할 수 있다. In particular, the interactive robot 100 may receive a motion control signal including at least one of a speech attribute and a gesture attribute of the interactive robot 100 from the apparatus 200 for determining speech and gesture attributes of the interactive robot. In addition, the interactive robot 100 may output a conversation response through the TTS according to the utterance property of the motion control signal, or may output a gesture by moving a body, an arm, etc. according to the gesture property of the motion control signal.

여기서, 인터랙티브 로봇(100)의 발화 속성은 음의 고저(Pitch), 진폭(Amplitude) 및 스피드(Speed) 중 적어도 어느 하나를 포함할 수 있고, 제스처 속성은 제스처 수행 빈도(Frequency) 및 제스처 크기(Volume) 중 적어도 어느 하나를 포함할 수 있다. Here, the speech property of the interactive robot 100 may include at least one of pitch, amplitude, and speed, and the gesture property is a frequency of gesture execution and a gesture size ( Volume) may include at least one of.

또한, 인터랙티브 로봇(100)이 상대방(300)의 음성을 인식하고, 대화 응답을 생성하는 기술은 통상적인 챗봇(Chatbot) 또는 인공지능 스피커와 실질적으로 동일할 수 있다. In addition, the interactive robot 100 recognizes the voice of the other party 300 and generates a conversation response may be substantially the same as a typical chatbot or artificial intelligence speaker.

다음으로 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)의 기본 설정 정보, 상황 문맥 정보, 상대방(300)의 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 고려하여 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성을 결정하고, 결정된 속성에 따라 인터랙티브 로봇의 동작을 제어할 수 있다. Next, the apparatus 200 for determining speech and gesture properties of the interactive robot considers at least one of basic setting information, context context information, linguistic property and non-verbal property of the interactive robot 100, and the interactive robot ( 100) utterance property and gesture property may be determined, and motion of the interactive robot may be controlled according to the determined property.

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)에 대한 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함하는 상대방 대화 정보를 입력받을 수 있다. The apparatus 200 for determining utterance and gesture properties of the interactive robot may receive input of counterpart conversation information including at least one of voice information and image information for the counterpart 300.

여기서, 상대방(300)에 대한 영상 정보는 인터랙티브 로봇(100)의 시점에서 촬영된 것일 수 있다. 그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)으로부터 상대방 대화 정보를 입력받거나, 직접 마이크, 카메라 등의 모듈을 이용하여 상대방 대화 정보를 수집할 수도 있다. Here, the image information on the counterpart 300 may be photographed from the viewpoint of the interactive robot 100. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot may receive the other party's conversation information from the interactive robot 100, or directly collect the other party's conversation information using a module such as a microphone or a camera.

또한, 상대방(300)이 통신 가능한 장치 형태로 구현된 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 장치 형태로 구현된 상대방(300)으로부터 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함하는 상대방 대화 정보를 입력받을 수 있다. In addition, when the other party 300 is implemented in the form of a communication capable device, the interactive robot speech and gesture property determination apparatus 200 includes at least one of voice information and image information from the other party 300 implemented in the device form. The conversation information of the other party can be input.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방 대화 정보를 분석하여, 상대방에 대한 언어적 속성 및 비언어적 속성을 추출할 수 있다. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot may analyze the conversation information of the other party and extract a verbal property and a non-verbal property for the other party.

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방의 음성 정보를 분석하여, 음의 고저, 진폭, 스피드 중 적어도 어느 하나를 포함하는 상대방에 대한 언어적 속성을 추출할 수 있다. 또한, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방에 대한 영상 정보를 분석하여, 상대방의 제스처 사용 빈도 및 제스처 사이즈 중 적어도 어느 하나를 포함하는 상대방에 대한 비언어적 속성을 추출할 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot may analyze the voice information of the other party and extract a linguistic property of the other party including at least one of pitch, amplitude, and speed of a sound. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot may analyze image information about the other party and extract a non-verbal property of the other party including at least one of a frequency and a gesture size of the other party's gesture use.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 추출된 언어적 속성, 비언어적 속성, 인터랙티브 로봇(100)의 기본 설정 정보 및 인터랙티브 로봇(100)과 상대방(300)의 대화 내용으로 추정된 상황 문맥 정보 중 적어도 어느 하나를 기반으로, 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성을 결정할 수 있다. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot includes the extracted linguistic properties, non-verbal properties, basic setting information of the interactive robot 100, and a situation estimated by the conversation content between the interactive robot 100 and the counterpart 300. The speech attribute and the gesture attribute of the interactive robot 100 may be determined based on at least one of the context information.

또한, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 결정된 발화 속성 및 제스처 속성을 포함하는 동작 제어 신호를 인터랙티브 로봇(100)으로 전송하여, 인터랙티브 로봇(100)을 제어할 수 있다. In addition, the apparatus 200 for determining speech and gesture attributes of the interactive robot may control the interactive robot 100 by transmitting a motion control signal including the determined speech attribute and gesture attribute to the interactive robot 100.

설명의 편의를 위하여, 인터랙티브 로봇(100)과 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)가 별개의 장치로 구현되는 것으로 설명하였으나, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100) 내에 탑재되는 형태로 구현될 수 있다. For convenience of explanation, it has been described that the interactive robot 100 and the apparatus 200 for determining utterance and gesture properties of the interactive robot are implemented as separate devices, but the apparatus 200 for determining utterance and gesture properties of the interactive robot is an interactive robot. It can be implemented in a form mounted in (100).

마지막으로, 상대방(300)은 인터랙티브 로봇(100)과 대화를 수행하며, 사람이거나 또 다른 인터랙티브 로봇(100)일 수 있다. Finally, the other party 300 communicates with the interactive robot 100 and may be a person or another interactive robot 100.

그리고 상대방(300)은 통신 가능한 장치로 구현될 수 있으며, 사람은 장치 형태의 상대방(300)을 이용하여 인터랙티브 로봇(100)과 대화를 수행할 수 있다. In addition, the other party 300 may be implemented as a device capable of communication, and a person may communicate with the interactive robot 100 using the other party 300 in the form of a device.

이하에서는 도 2를 통하여 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치의 구성에 대하여 더욱 상세하게 설명한다. Hereinafter, a configuration of an apparatus for determining speech and gesture properties of an interactive robot according to an embodiment of the present invention will be described in more detail with reference to FIG. 2.

도 2는 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치의 구성을 나타낸 블록도이다. 2 is a block diagram showing a configuration of an apparatus for determining speech and gesture properties of an interactive robot according to an embodiment of the present invention.

도 2에 도시한 바와 같이, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방 대화 정보 입력부(210), 대화 속성 추출부(220), 발화 및 제스처 결정부(230) 및 인터랙티브 로봇 제어부(240)를 포함한다. As shown in FIG. 2, the apparatus 200 for determining speech and gesture properties of the interactive robot includes a counterpart conversation information input unit 210, a conversation attribute extraction unit 220, a speech and gesture determination unit 230, and an interactive robot controller ( 240).

먼저, 상대방 대화 정보 입력부(210)는 인터랙티브 로봇(100)과 상호 작용하는 상대방(300)에 대한 상대방 대화 정보를 입력받는다. 여기서, 상대방 대화 정보는 상대방(300)의 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함할 수 있다. First, the counterpart conversation information input unit 210 receives counterpart conversation information for the counterpart 300 interacting with the interactive robot 100. Here, the counterpart conversation information may include at least one of audio information and video information of the counterpart 300.

그리고 대화 속성 추출부(220)는 상대방 대화 정보를 분석하여, 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출한다. In addition, the conversation attribute extraction unit 220 analyzes the conversation information of the other party and extracts at least one of a linguistic attribute and a non-verbal attribute of the other party.

대화 속성 추출부(220)는 상대방(300)의 음성 정보를 분석하여, 상대방에 대한 음의 고저, 진폭 및 스피드 중 적어도 어느 하나를 포함하는 언어적 속성을 추출할 수 있다. The conversation attribute extracting unit 220 may analyze the voice information of the counterpart 300 to extract a linguistic attribute including at least one of pitch, amplitude, and speed of the counterpart.

또한, 대화 속성 추출부(220)는 상대방(300)의 영상 정보를 분석하여, 상대방의 제스처 사용 빈도 및 제스처 사이즈 중 적어도 어느 하나를 포함하는 비언어적 속성을 추출할 수 있다. In addition, the conversation attribute extraction unit 220 may analyze image information of the other party 300 to extract a non-verbal attribute including at least one of a frequency of use of a gesture and a gesture size of the other party.

다음으로 발화 및 제스처 결정부(230)는 인터랙티브 로봇(100)의 기본 설정 정보, 인터랙티브 로봇(100)과 상대방(300)의 대화 내용으로 추정된 상황 문맥 정보, 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 기반으로 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정할 수 있다. Next, the speech and gesture determination unit 230 includes at least one of basic setting information of the interactive robot 100, contextual context information estimated from the conversation contents of the interactive robot 100 and the counterpart 300, a linguistic attribute, and a non-verbal attribute. At least one of a speech attribute and a gesture attribute of the interactive robot 100 may be determined based on one.

발화 및 제스처 결정부(230)는 인터랙티브 로봇(100)의 기본 설정 정보를 기반으로 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성을 결정함으로써, 인터랙티브 로봇(100)의 퍼스널리티(Personality)를 고려한 발화 및 제스처를 출력할 수 있다. The speech and gesture determination unit 230 determines the speech and gesture properties of the interactive robot 100 based on basic setting information of the interactive robot 100, and thus speech and gestures in consideration of the personality of the interactive robot 100 Gestures can be output.

또한, 발화 및 제스처 결정부(230)는 상대방(300)과의 대화 내용으로부터 상황 문맥 정보를 추정하고, 상대방(300)의 언어적 속성 변화 정보를 추출하며, 상황 문맥 정보 및 언어적 속성 변화 정보를 이용하여 인터랙티브 로봇(100)의 발화 속성을 설정할 수 있다. In addition, the speech and gesture determination unit 230 estimates contextual context information from the conversation content with the counterpart 300, extracts language attribute change information of the counterpart 300, and contextual context information and language attribute change information The ignition property of the interactive robot 100 may be set by using.

이때, 발화 및 제스처 결정부(230)는 상대방(300)의 기본 발화 속성, 기 설정된 시간 동안 상대방(300)의 언어적 속성 정보를 이용하여, 상대방(300)의 언어적 속성 변화 정보를 추출할 수 있다. At this time, the speech and gesture determination unit 230 extracts the language attribute change information of the counterpart 300 by using the basic speech attribute of the counterpart 300 and the linguistic attribute information of the counterpart 300 for a preset time. I can.

그리고 발화 및 제스처 결정부(230)는 상대방(300)과의 대화 내용을 기반으로, 상황 문맥 정보를 추정할 수 있다. 여기서, 상황 문맥 정보는 상대방(300)의 언어적 속성을 모사하는 모사 모드, 상대방(300)의 언어적 속성에 대응되는 모드인 반대 모드 및 기본 설정 모드 중 어느 하나일 수 있다. In addition, the speech and gesture determination unit 230 may estimate contextual context information based on the content of the conversation with the counterpart 300. Here, the context context information may be any one of a copy mode that mimics the linguistic attribute of the counterpart 300, an opposite mode that corresponds to the linguistic attribute of the counterpart 300, and a default setting mode.

또한, 발화 및 제스처 결정부(230)는 상대방(300)의 스켈레톤 정보를 이용하여 상대방(300)의 제스처 사이즈를 연산하고, 기 설정된 주기 동안 상대방(300)의 제스처 사용 빈도를 카운트할 수 있다. In addition, the speech and gesture determination unit 230 may calculate the gesture size of the counterpart 300 by using the skeleton information of the counterpart 300 and count the frequency of use of the gesture of the counterpart 300 during a preset period.

이때, 발화 및 제스처 결정부(230)는 영상 정보로부터 상대방(300)의 스켈레톤 정보를 추출하고, 추출된 스켈레톤 정보의 조인트 좌표에 대한 정규화를 수행할 수 있다. 그리고 발화 및 제스처 결정부(230)는 정규화된 스켈레톤 정보를 이용하여 상대방(300)의 상대방의 제스처 사이즈 및 제스처 사용 빈도를 연산할 수 있다. In this case, the speech and gesture determination unit 230 may extract skeleton information of the other party 300 from the image information, and normalize joint coordinates of the extracted skeleton information. In addition, the speech and gesture determination unit 230 may calculate a gesture size and a gesture use frequency of the other party 300 by using the normalized skeleton information.

그리고 발화 및 제스처 결정부(230)는 제스처 사이즈를 연산할 때, 단위 시간 동안 조인트 좌표의 최대값과 최소값 간 차이를 이용하여, 상대방(300)의 제스처 사이즈를 연산할 수 있다. In addition, when calculating the gesture size, the speech and gesture determination unit 230 may calculate the gesture size of the counterpart 300 by using the difference between the maximum value and the minimum value of the joint coordinate for a unit time.

또한, 발화 및 제스처 결정부(230)는 제스처 사용 빈도를 연산할 때, 단위 시간 동안 조인트 좌표의 위치 변화를 이용하여 상대방(300)의 제스처 사용 여부를 판단하고, 제스처 사용 빈도를 카운트할 수 있다. In addition, when calculating the frequency of use of the gesture, the speech and gesture determination unit 230 may determine whether or not to use the gesture of the other party 300 by using the position change of the joint coordinates for a unit time, and count the frequency of use of the gesture. .

발화 및 제스처 결정부(230)는 상대방(300)의 제스처 사이즈 및 제스처 사용 빈도 중 적어도 어느 하나를 연산한 후, 상대방(300)의 제스처 사이즈 및 제스처 사용 빈도에 가중치를 부여하고, 인터랙티브 로봇(100)의 기본 제스처 속성에 가중치를 부여하여, 인터랙티브 로봇(100)의 제스처 속성을 결정할 수 있다. The speech and gesture determination unit 230 calculates at least one of a gesture size and a gesture use frequency of the other party 300, and then assigns a weight to the gesture size and the gesture use frequency of the other party 300, and the interactive robot 100 By assigning a weight to the basic gesture attribute of ), the gesture attribute of the interactive robot 100 may be determined.

마지막으로 인터랙티브 로봇 제어부(240)는 결정된 인터랙티브 로봇의 발화 속성 및 제스처 속성을 기반으로, 인터랙티브 로봇의 동작을 제어할 수 있다. Finally, the interactive robot control unit 240 may control the operation of the interactive robot based on the determined speech attribute and gesture attribute of the interactive robot.

인터랙티브 로봇 제어부(240)는 음의 고저(Pitch), 진폭(Amplitude) 및 스피드(Speed) 중 적어도 어느 하나를 포함하는 인터랙티브 로봇의 발화 속성에 따라, 인터랙티브 로봇(100)이 발화하도록 제어할 수 있다. 또한, 인터랙티브 로봇 제어부(240)는 제스처 수행 빈도(Frequency) 및 제스처 크기(Volume) 중 적어도 어느 하나를 포함하는 인터랙티브 로봇의 제스처 속성에 따라, 인터랙티브 로봇(100)이 제스처를 출력하도록 제어할 수 있다. The interactive robot controller 240 may control the interactive robot 100 to ignite according to the ignition property of the interactive robot including at least one of pitch, amplitude, and speed. . In addition, the interactive robot control unit 240 may control the interactive robot 100 to output a gesture according to a gesture property of the interactive robot including at least one of a gesture execution frequency (Frequency) and a gesture size (Volume). .

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)가 인터랙티브 로봇(100)과 별개의 장치로 구현된 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)으로 발화 속성 및 제스처 속성 중 적어도 어느 하나를 포함하는 동작 제어 신호를 전송할 수 있다. When the apparatus 200 for determining speech and gesture properties of the interactive robot is implemented as a device separate from the interactive robot 100, the apparatus 200 for determining speech and gesture properties of the interactive robot is used as the interactive robot 100. A motion control signal including at least one of the attributes may be transmitted.

반면, 인터랙티브 로봇(100) 내에 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)가 포함되는 형태로 구현되는 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 발화 속성에 따라 발화하고, 제스처 속성에 따라 제스처를 출력하도록 인터랙티브 로봇(100)을 제어할 수 있다. On the other hand, when the interactive robot 100 includes the interactive robot's speech and gesture attribute determination device 200, the interactive robot's speech and gesture attribute determination device 200 utters according to the speech attribute, and The interactive robot 100 may be controlled to output a gesture according to an attribute.

이하에서는 도 3을 통하여 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치에 의해 수행되는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법에 대하여 더욱 상세하게 설명한다.Hereinafter, a method for determining utterance and gesture properties of the interactive robot performed by the apparatus for determining speech and gesture properties of the interactive robot according to an embodiment of the present invention will be described in more detail with reference to FIG. 3.

도 3은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법을 설명하기 위한 순서도이다. 3 is a flowchart illustrating a method of determining speech and gesture properties of an interactive robot according to an embodiment of the present invention.

먼저, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 대화 정보를 입력받는다(S310). First, the apparatus 200 for determining speech and gesture properties of the interactive robot receives conversation information of the other party 300 (S310).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)에 대한 음성 정보 및 영상 정보를 포함하는 상대방 대화 정보를 입력받는다. The apparatus 200 for determining speech and gesture properties of the interactive robot receives counterpart conversation information including audio information and image information for the counterpart 300.

이때, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)으로부터 상대방 대화 정보를 수신하거나, 통신 가능한 장치 형태로 구현된 상대방(300)으로부터 상대방 대화 정보를 수신할 수 있다. 또한, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 구비된 마이크 및 카메라 등을 이용하여 상대방 대화 정보를 수집할 수 있으며, 인터랙티브 로봇(100)과 상호작용하는 상대방(300)에 대한 대화 정보를 입력받는 방법은 이에 한정되지 않는다. In this case, the apparatus 200 for determining utterance and gesture properties of the interactive robot may receive counterpart conversation information from the interactive robot 100 or may receive counterpart conversation information from the counterpart 300 implemented in the form of a device capable of communication. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot may collect the other party's conversation information using the equipped microphone and camera, and the conversation information about the other party 300 interacting with the interactive robot 100 The method of receiving the input is not limited thereto.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)에 대한 언어적 속성 및 비언어적 속성을 추출한다(S320). In addition, the apparatus 200 for determining speech and gesture attributes of the interactive robot extracts a verbal attribute and a non-verbal attribute for the counterpart 300 (S320).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 S310 단계에서 입력받은 음성 정보로부터 언어적 속성을 추출하고, 영상 정보로부터 비언어적 속성을 추출할 수 있다. 여기서, 언어적 속성은 상대방(300)의 음성에 대한 음의 고저, 진폭, 스피드 중 적어도 어느 하나를 포함할 수 있고, 비언어적 속성은 상대방(300)의 제스처에 대한 제스처 사용 빈도 및 제스처 사이즈 중 적어도 어느 하나를 포함할 수 있다. The apparatus 200 for determining speech and gesture attributes of the interactive robot may extract a linguistic attribute from the voice information input in step S310 and extract a non-verbal attribute from the image information. Here, the linguistic property may include at least one of pitch, amplitude, and speed of a sound of the counterpart 300's voice, and the non-verbal property is at least one of a gesture use frequency and a gesture size for a gesture of the counterpart 300 It can contain either.

다음으로 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200) 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성을 결정한다(S330). Next, the apparatus 200 for determining speech and gesture properties of the interactive robot determines speech properties and gesture properties of the interactive robot 100 (S330).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 추출된 상대방(300)에 대한 언어적 속성 및 비언어적 속성과 인터랙티브 로봇(100)의 기본 설정 정보, 인터랙티브 로봇(100)과 상대방(300)의 대화 상황에 대한 상황 문맥 정보 중 적어도 어느 하나를 기반으로, 인터랙티브 로봇의 발화 속성 및 제스처 속성을 결정할 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot includes verbal and non-verbal properties for the extracted counterpart 300, basic setting information of the interactive robot 100, and a conversation between the interactive robot 100 and the counterpart 300. Based on at least any one of contextual context information about the situation, the speech property and the gesture property of the interactive robot may be determined.

특히, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 언어적 속성, 인터랙티브 로봇(100)의 기본 설정 정보 및 상황 문맥 정보 중 적어도 둘 이상을 조합하여, 인터랙티브 로봇(100)의 발화 속성을 결정할 수 있다. In particular, the apparatus 200 for determining speech and gesture properties of the interactive robot may determine the speech properties of the interactive robot 100 by combining at least two of a linguistic property, basic setting information of the interactive robot 100, and context context information. I can.

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)의 기본 설정 정보를 반영하여 인터랙티브 로봇(100)의 발화 속성을 결정함으로써, 인터랙티브 로봇(100)의 퍼스널리티(Personality)를 고려하여 발화하도록 인터랙티브 로봇(100)을 제어할 수 있다. The apparatus 200 for determining the speech and gesture properties of the interactive robot determines the speech properties of the interactive robot 100 by reflecting basic setting information of the interactive robot 100, taking into account the personality of the interactive robot 100. The interactive robot 100 can be controlled to fire.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)과 상대방(300)의 대화 내용을 기반으로 추정한 상황 문맥 정보를 반영하여 인터랙티브 로봇(100)의 발화 속성을 결정함으로써, 대화 상황이나 대화 내용에 적절하게 발화하도록 인터랙티브 로봇(100)을 제어할 수 있다. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot determines the speech properties of the interactive robot 100 by reflecting the contextual information estimated based on the conversation contents of the interactive robot 100 and the counterpart 300, The interactive robot 100 may be controlled to properly utter a conversation situation or conversation content.

또한 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 비언어적 속성 및 인터랙티브 로봇(100)의 기본 설정 정보를 조합하여, 인터랙티브 로봇(100)의 제스처 속성을 결정할 수 있다. Also, the apparatus 200 for determining speech and gesture properties of the interactive robot may determine a gesture property of the interactive robot 100 by combining the non-verbal property and basic setting information of the interactive robot 100.

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)의 기본 설정 정보를 반영하여 인터랙티브 로봇(100)의 제스처 속성을 결정함으로써, 인터랙티브 로봇(100)의 퍼스널리티(Personality)를 고려하여 제스처를 출력하도록 인터랙티브 로봇(100)을 제어할 수 있다. The apparatus 200 for determining the speech and gesture properties of the interactive robot determines the gesture properties of the interactive robot 100 by reflecting the basic setting information of the interactive robot 100, taking into account the personality of the interactive robot 100. The interactive robot 100 may be controlled to output a gesture.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)에 대한 비언어적 속성인 제스처 사용 빈도 및 제스처 사이즈를 반영하여 인터랙티브 로봇(100)의 제스처 속성을 결정함으로써, 상대방(300)이 안정감이나 친밀감을 느낄 수 있는 정도의 제스처를 출력하도록 인터랙티브 로봇(100)을 제어할 수 있다. In addition, the apparatus 200 for determining the speech and gesture properties of the interactive robot determines the gesture properties of the interactive robot 100 by reflecting the frequency of use of the gesture and the size of the gesture, which are non-verbal properties of the other party 300, so that the other party 300 feels stable Alternatively, the interactive robot 100 may be controlled to output a gesture of a degree to which intimacy can be felt.

S330 단계에서 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성을 결정하는 과정은 후술할 도 4의 S440 단계 및 도 6의 S640 단계에서 더욱 상세하게 설명하기로 한다. The process of determining the speech and gesture properties of the interactive robot 100 in step S330 will be described in more detail in steps S440 of FIG. 4 and S640 of FIG. 6 to be described later.

마지막으로 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)의 동작을 제어한다(S340). Finally, the apparatus 200 for determining speech and gesture properties of the interactive robot controls the operation of the interactive robot 100 (S340).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 S330 단계에서 결정된 인터랙티브 로봇(100)의 발화 속성 및 제스처 속성에 따라 인터랙티브 로봇(100)이 동작하도록 제어한다. The apparatus 200 for determining speech and gesture properties of the interactive robot controls the interactive robot 100 to operate according to the speech and gesture properties of the interactive robot 100 determined in step S330.

이때, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)과 별개의 장치로 구현된 경우, 인터랙티브 로봇(100)으로 발화 속성 및 제스처 속성을 포함하는 동작 제어 신호를 전송하여, 인터랙티브 로봇(100)의 발화 및 제스처 출력을 제어할 수 있다. At this time, when the interactive robot's speech and gesture attribute determination device 200 is implemented as a separate device from the interactive robot 100, it transmits a motion control signal including the speech attribute and the gesture attribute to the interactive robot 100, It is possible to control speech and gesture output of the interactive robot 100.

이하에서는 도 4 및 도 5를 통하여 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 인터랙티브 로봇의 발화 속성을 결정하는 과정에 대하여 더욱 상세하게 설명한다. Hereinafter, a process of determining the speech property of the interactive robot by the apparatus for determining speech and gesture properties of the interactive robot according to an embodiment of the present invention will be described in more detail with reference to FIGS. 4 and 5.

도 4는 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 속성을 결정하는 방법을 나타낸 순서도이고, 도 5는 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 발화 속성을 결정하는 과정을 설명하기 위한 도면이다.4 is a flowchart showing a method of determining utterance properties of an interactive robot according to an embodiment of the present invention, and FIG. 5 is a device for determining speech and gesture properties of an interactive robot according to an embodiment of the present invention to determine utterance properties. It is a diagram for explaining the process of doing.

먼저, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 언어적 속성을 추출한다(S410). First, the apparatus 200 for determining speech and gesture properties of the interactive robot extracts the linguistic properties of the counterpart 300 (S410).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방에 대한 음성 정보로부터 상대방의 언어적 속성을 추출할 수 있다. 이때, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방의 발화에 대한 음의 고저, 진폭 및 스피드 중 적어도 어느 하나를 포함하는 언어적 속성을 추출할 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot may extract a language property of the counterpart from voice information about the counterpart. In this case, the apparatus 200 for determining speech and gesture attributes of the interactive robot may extract a linguistic attribute including at least one of pitch, amplitude, and speed of a sound for the other party's speech.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 언어적 속성 변화 정보를 추출한다(S420).In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot extracts linguistic property change information of the counterpart 300 (S420).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 기본 언어적 속성 및 기 설정된 시간 동안 상대방(300)의 언어적 속성 정보를 이용하여, 언어적 속성 변화 정보를 추출할 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot may extract linguistic property change information by using the basic linguistic property of the counterpart 300 and the linguistic property information of the counterpart 300 for a preset time. .

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 음성 정보로부터 최근 M 시간 동안 상대방(300)이 발화한 음성에 대한 언어적 속성인 Pitchhuman_recent, Amplitudehuman_recent 및 Speedhuman_recent를 추출할 수 있다. 그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 최근 M 시간 동안의 언어적 속성과 상대방(300)의 기본 언어적 속성의 차이를 연산하여 다음의 수학식 1과 같이, 언어적 속성 변화 정보를 추출할 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot may extract Pitch human_recent , Amplitude human_recent, and Speed human_recent , which are linguistic properties of the speech uttered by the other party 300 during the last M hours from the speech information. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot calculates the difference between the linguistic property of the last M time and the basic linguistic property of the counterpart 300, and the linguistic property change information as shown in Equation 1 below. Can be extracted.

[수학식 1] [Equation 1]

음의 고저 변화 정보 = Pitchhuman_recent - Pitchhuman_base Pitch human_recent -Pitch human_base

진폭 변화 정보 = Amplitudehuman_recent - Amplitudehuman_base Amplitude change information = Amplitude human_recent -Amplitude human_base

스피드 변화 정보 = Speedhuman_recent - Speedhuman_base Speed change information = Speed human_recent -Speed human_base

여기서, 상대방(300)의 기본 언어적 속성인 Pitchhuman_base, Amplitudehuman_base, Speedhuman_base는 상대방(300)의 전체 음성에 대한 언어적 속성을 의미하며, 음성 정보로부터 추출된 것일 수 있다. Here, Pitch human_base, Amplitude human_base, Speed human_base the default language attribute of the other side 300 refers to a language attribute of the entire audio of the other party 300, and may be extracted from the audio information.

다음으로 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 대화 내용으로부터 상황 문맥 정보를 추정한다(S430). Next, the apparatus 200 for determining speech and gesture properties of the interactive robot estimates contextual context information from the conversation content (S430).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)과 상대방(300)의 대화 내용을 기반으로, 대화 상황에 대한 정보인 상황 문맥 정보(Context)를 추정한다. 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 대화 상황의 분위기를 인식하고, 인식된 분위기 정보를 기반으로 상황 문맥 정보를 -1, 0, +1 세 가지의 값 중 어느 하나로 추정할 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot estimates context context information, which is information about the conversation situation, based on the conversation contents of the interactive robot 100 and the counterpart 300. The apparatus 200 for determining utterance and gesture properties of the interactive robot may recognize the atmosphere of the conversation situation and estimate the context context information to one of three values of -1, 0, and +1 based on the recognized atmosphere information. .

아래의 수도코드 1은 상황 문맥 정보를 추정하는 기술에 대한 의사 코드(Pseudo Code)의 일 예를 나타낸 것이다. Pseudocode 1 below shows an example of a pseudo code for a technique for estimating contextual information.

[수도코드 1][Water code 1]

if Sentiment(로봇 발화 내용) == 'Neutral'if Sentiment (robotic speech content) =='Neutral'

Context = 0 Context = 0

else if Sentiment(상대방 발화 내용) == Sentiment(로봇 발화 내용)else if Sentiment(contents of other party's speech) == Sentiment(contents of robotic speech)

Context = 1 Context = 1

else else

Context = -1 Context = -1

수도코드 1과 같이, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)의 발화 분위기에 감정(Sentiment)이 포함되지 않은 중립적(neutral) 상태인 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상황 문맥 정보를 0으로 설정하고, 상대방(300)과 인터랙티브 로봇(100)의 발화 분위기가 동일한 경우 상황 문맥 정보를 +1로 설정할 수 있다. As shown in the capital code 1, when the interactive robot's speech and gesture attribute determination device 200 is in a neutral state in which emotions are not included in the speech atmosphere of the interactive robot 100, the interactive robot's speech and gestures The attribute determining device 200 may set the contextual context information to 0 and set the contextual context information to +1 when the utterance atmosphere of the counterpart 300 and the interactive robot 100 is the same.

또한, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)과 인터랙티브 로봇(100)의 발화 분위기가 반대인 경우 상황 문맥 정보를 -1로 설정할 수 있다. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot may set the contextual context information to -1 when the speech atmosphere of the counterpart 300 and the interactive robot 100 is opposite.

예를 들어, 상대방(300)이 화를 내는 상황이고, 인터랙티브 로봇(100)은 상대방(300)을 진정시키는 응답을 발화하는 경우, 상대방(300)과 인터랙티브 로봇(100)의 발화 분위기가 반대이므로 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상황 문맥 정보를 -1로 설정할 수 있다. For example, in a situation where the other party 300 is angry, and the interactive robot 100 utters a response that calms the other party 300, the utterance atmosphere of the other party 300 and the interactive robot 100 is opposite. The apparatus 200 for determining speech and gesture properties of the interactive robot may set contextual context information to -1.

마지막으로, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)의 발화 속성을 결정한다(S440). Finally, the apparatus 200 for determining speech and gesture properties of the interactive robot determines speech properties of the interactive robot 100 (S440).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 S420 단계에서 추출된 상대방(300)의 언어적 속성 변화 정보와 S430 단계에서 추정된 상황 문맥 정보(Context) 및 인터랙티브 로봇(100)의 기본 설정 정보 중 적어도 어느 하나를 기반으로, 인터랙티브 로봇(100)의 발화 속성을 결정한다. The apparatus 200 for determining speech and gesture properties of the interactive robot includes linguistic property change information of the counterpart 300 extracted in step S420, contextual context information estimated in step S430, and basic setting information of the interactive robot 100 Based on at least one of them, the ignition property of the interactive robot 100 is determined.

여기서, 인터랙티브 로봇(100)의 발화 속성은 음의 고저(Pitch), 진폭(Amplitude) 및 스피드(Speed) 중 적어도 어느 하나를 포함할 수 있다. Here, the ignition property of the interactive robot 100 may include at least one of pitch, amplitude, and speed of sound.

인터랙티브 로봇(100)의 기본 설정 정보는 인터랙티브 로봇(100) 고유의 퍼스널리티(personality)를 의미하며, Pitchrobot_base, Amplituderobot_base, Speedrobot_base를 포함할 수 있다. 그리고 인터랙티브 로봇(100)의 기본 설정 정보는 로봇 제조사나 로봇 소유자로부터 설정된 것일 수 있다. The basic setting information of the interactive robot 100 means personality unique to the interactive robot 100 and may include Pitch robot_base , Amplitude robot_base , and Speed robot_base . In addition, basic setting information of the interactive robot 100 may be set by a robot manufacturer or a robot owner.

예를 들어, 인터랙티브 로봇(100)이 여성 로봇인 경우 Pitchrobot_base는 높게 설정되고, 남성 로봇인 경우 Pitchrobot_base는 낮게 설정될 수 있다. 이와 같이, 인터랙티브 로봇(100)의 기본 설정 정보를 수정하여, 개별 인터랙티브 로봇(100)의 퍼스널리티를 적용할 수 있다. For example, when the interactive robot 100 is a female robot, the Pitch robot_base may be set high, and when the interactive robot 100 is a male robot, the Pitch robot_base may be set low. In this way, by modifying the basic setting information of the interactive robot 100, the personalities of the individual interactive robots 100 can be applied.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 다음의 수도코드 2와 같이 인터랙티브 로봇(100)의 발화 속성을 결정할 수 있다. 아래의 수도코드 2는 인터랙티브 로봇(100)의 발화 속성인 음의 고저(Pitch), 진폭(Amplitude) 및 스피드(Speed)를 결정하는 기술에 대한 의사 코드의 일 예를 나타낸 것이다. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot may determine the speech properties of the interactive robot 100 as shown in the following number code 2. Pseudocode 2 below shows an example of a pseudo code for a technique of determining pitch, amplitude, and speed of sound, which are the firing properties of the interactive robot 100.

[수도코드 2] [Water Code 2]

Pitchrobot <- Pitchrobot_base + Context * (Pitchhuman_recent - Pitchhuman_base) Pitch robot <- Pitch robot_base + Context * (Pitch human_recent -Pitch human_base )

Amplituderobot <- Amplituderobot_base + Context * (Amplitudehuman_recent - Amplitudehuman_base) Amplitude robot <- Amplitude robot_base + Context * (Amplitude human_recent -Amplitude human_base )

Speedrobot <- Speedrobot_base + Context * (Speedhuman_recent - Speedhuman_base)Speed robot <- Speed robot_base + Context * (Speed human_recent -Speed human_base )

수도코드 2와 같이, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 언어적 속성 변화 정보에 상황 문맥 정보(Context)를 곱하고, 인터랙티브 로봇(100)의 기본 설정 정보를 더하여 인터랙티브 로봇(100)의 발화 속성을 결정할 수 있다. Like the number code 2, the interactive robot's speech and gesture attribute determination apparatus 200 multiplies the linguistic attribute change information of the counterpart 300 by the contextual context information, and adds basic setting information of the interactive robot 100 The ignition property of the interactive robot 100 may be determined.

수도코드 2에서, 상황 문맥 정보(Context)가 0인 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 언어적 속성을 반영하지 않고, 사전에 설정된 인터랙티브 로봇(100)의 기본 설정 정보로 인터랙티브 로봇(100)의 발화 속성을 결정할 수 있다. In the capital code 2, when the contextual context information (Context) is 0, the interactive robot's speech and gesture property determination apparatus 200 does not reflect the language property of the other party 300 and the preset interactive robot 100 The ignition property of the interactive robot 100 may be determined with the basic setting information of.

반면, 상황 문맥 정보(Context)가 +1인 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 언어적 속성을 모사하여 인터랙티브 로봇(100)의 발화 속성을 결정할 수 있다. On the other hand, when the contextual context information (Context) is +1, the apparatus 200 for determining speech and gesture properties of the interactive robot may determine the speech properties of the interactive robot 100 by simulating the linguistic properties of the counterpart 300. .

예를 들어, 상황 문맥 정보(Context)가 +1이고, 상대방(300)이 큰 목소리로 소리치는 경우, 상대방(300)의 큰 목소리를 모사하여 목소리의 크기를 크게 설정하도록 인터랙티브 로봇(100)의 발화 속성이 결정될 수 있다. For example, when the contextual context information (Context) is +1 and the other party 300 yells in a loud voice, the interactive robot 100 may simulate the loud voice of the other party 300 and set the volume of the voice to be large. The firing properties can be determined.

그리고 상황 문맥 정보(Context)가 -1인 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 언어적 속성과 반대되는 속성으로 인터랙티브 로봇(100)의 발화 속성을 결정할 수 있다. In addition, when the contextual context information (Context) is -1, the apparatus 200 for determining the speech and gesture properties of the interactive robot may determine the speech property of the interactive robot 100 as a property opposite to the linguistic property of the counterpart 300. have.

예를 들어, 상황 문맥 정보(Context)가 -1이고, 상대방(300)이 큰 목소리로 빠르게 발화하는 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 크고 빠른 목소리와 반대로 목소리의 크기를 작게 설정하고, 스피드를 느리게 설정하여 차분하게 응답하도록 인터랙티브 로봇(100)의 발화 속성을 결정할 수 있다. For example, when the contextual context information (Context) is -1 and the other party 300 speaks quickly with a loud voice, the apparatus 200 for determining the speech and gesture properties of the interactive robot may match the loud and fast voice of the other party 300 Conversely, the speech property of the interactive robot 100 may be determined so as to respond calmly by setting the volume of the voice to be small and setting the speed to be slow.

이하에서는 도 6 및 도 9를 통하여 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 인터랙티브 로봇의 제스처 속성을 결정하는 과정에 대하여 더욱 상세하게 설명한다. Hereinafter, a process of determining the gesture attribute of the interactive robot by the apparatus for determining the utterance and gesture attribute of the interactive robot according to an embodiment of the present invention will be described in more detail with reference to FIGS. 6 and 9.

도 6은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 제스처 속성을 결정하는 방법을 나타낸 순서도이고, 도 7은 본 발명의 일 실시예에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치가 제스처 속성을 결정하는 과정을 설명하기 위한 도면이다. 6 is a flowchart showing a method of determining a gesture property of an interactive robot according to an embodiment of the present invention, and FIG. 7 is a flow chart showing a method of determining a gesture property of an interactive robot according to an embodiment of the present invention. It is a diagram for explaining the process of doing.

먼저, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 스켈레톤 정보를 추출하고, 정규화를 수행한다(S610). First, the apparatus 200 for determining speech and gesture properties of the interactive robot extracts skeleton information of the counterpart 300 and performs normalization (S610).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 영상 정보로부터 상대방(300)의 스켈레톤(Skeleton) 정보를 추출한다. 여기서, 영상 정보는 인터랙티브 로봇(100)의 시점에서 상대방(300)을 촬영한 영상 정보일 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot extracts skeleton information of the other party 300 from the image information. Here, the image information may be image information photographing the other party 300 from the viewpoint of the interactive robot 100.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 도 7과 같이, 상대방(300)에 대한 비언어적 속성을 추출하기 위하여 먼저 S610 단계를 수행할 수 있다. In addition, as shown in FIG. 7, the apparatus 200 for determining speech and gesture properties of the interactive robot may first perform step S610 in order to extract non-verbal properties for the counterpart 300.

S610 단계에서, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 기존의 영상 인식 소프트웨어를 이용하여 스켈레톤을 추출하거나, 키넥트(Kinect)와 같은 3D 센서를 이용하여 스켈레톤 정보를 추출할 수 있다. In step S610, the apparatus 200 for determining speech and gesture properties of the interactive robot may extract a skeleton using existing image recognition software, or extract skeleton information using a 3D sensor such as Kinect.

도 8은 도 6의 S610 단계에서 스켈레톤 정보를 추출하는 과정을 설명하기 위한 예시도이다. FIG. 8 is an exemplary diagram illustrating a process of extracting skeleton information in step S610 of FIG. 6.

도 8에 도시한 바와 같이, 추출된 스켈레톤 정보에서 각 관절 포인트는 x, y 좌표(Jraw i = (xi, yi))로 표현될 수 있으며, 도 8에서 관절 포인트(조인트)의 개수는 19개로 i는 1 내지 19의 값을 가진다. As shown in FIG. 8, each joint point in the extracted skeleton information may be expressed as x, y coordinates (J raw i = (x i , y i )), and the number of joint points (joints) in FIG. 8 Is 19 and i has a value of 1 to 19.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 조인트 좌표가 일정한 범위의 값을 가지도록 몸의 중심점(Jcenter)을 기준으로 정규화(Ji = Jraw i - Jcenter)를 수행할 수 있다. 이때, 몸의 중심점은 스켈레톤 정보에서 상대방의 중심점에 해당하는 조인트 좌표를 의미할 수 있다. In addition, the interactive robot's speech and gesture property determination apparatus 200 may perform normalization (J i = J raw i -J center ) based on the body's center point (J center ) so that the joint coordinates have a value in a certain range. have. In this case, the center point of the body may mean a joint coordinate corresponding to the center point of the counterpart in the skeleton information.

다음으로 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 제스처 사용 빈도를 연산한다(S620). Next, the apparatus 200 for determining speech and gesture properties of the interactive robot calculates the frequency of using the gesture of the other party 300 (S620).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 기 설정된 임계값 이상의 움직임이 있는 것으로 판단된 경우 상대방(300)이 제스처를 표현한 것으로 판단하고, 임계값 이상의 움직임이 있는 경우의 횟수를 카운트하여 제스처 사용 빈도(frequency)를 연산할 수 있다. The interactive robot's speech and gesture attribute determination apparatus 200 determines that the other party 300 has expressed a gesture when it is determined that there is a movement of more than a preset threshold value, and counts the number of times when there is a movement of more than a threshold value to make a gesture. You can calculate the frequency of use.

아래의 수도코드 3은 상대방(300)의 제스처 사용 빈도를 연산하는 기술에 대한 의사 코드의 일 예를 나타낸 것이다. The following pseudo code 3 shows an example of a pseudo code for a technique of calculating the frequency of use of a gesture by the counterpart 300.

[수도코드 3][Water Code 3]

time_slot = (T, T-Ts), (T- Ts, T-2* Ts), ... (T-(N-1)* Ts, T-N* Ts)time_slot = (T, TT s ), (T- T s , T-2* T s ), ... (T-(N-1)* T s , TN* T s )

frequency = 0frequency = 0

for each time_slot ifor each time_slot i

motion_sum =

Figure 112018030063027-pat00001
motion_sum =
Figure 112018030063027-pat00001

if motion_sum > threshold if motion_sum> threshold

frequency += 1 frequency += 1

frequency = frequency / Nfrequency = frequency / N

여기서, Ts는 단위 시간을 의미하고, N은 제스처 사용 빈도를 측정할 단위 구간의 개수를 의미한다. 예를 들어, 최근 1분 동안의 제스처 사용 빈도를 측정하고자 하는 경우 Ts는 10초이고, N은 6으로 설정될 수 있다. Here, T s denotes a unit time, and N denotes the number of unit sections to measure the frequency of gesture use. For example, in the case of measuring the frequency of use of the gesture for the last minute, T s may be 10 seconds and N may be set to 6.

다시 도 6에 대하여 설명하면, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 제스처 사이즈를 연산한다(S630). Referring to FIG. 6 again, the apparatus 200 for determining speech and gesture properties of the interactive robot calculates a gesture size of the other party 300 (S630).

상대방(300)의 제스처 사이즈는 상대방(300)이 표현한 제스처의 움직임이 얼마나 큰 지를 나타내는 것으로, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 조인트 좌표 x, y 각각에 대하여 최소값과 최대값 간 차이를 이용하여 상대방(300)의 제스처 사이즈를 연산할 수 있다. The gesture size of the counterpart 300 indicates how large the movement of the gesture expressed by the counterpart 300 is, and the apparatus 200 for uttering the interactive robot and determining the gesture property is between the minimum and maximum values for each of the joint coordinates x and y. Using the difference, the size of the gesture of the other party 300 may be calculated.

도 9는 도 6의 S630 단계에서 제스처 사이즈를 연산하는 과정을 설명하기 위한 예시도이다.9 is an exemplary diagram for explaining a process of calculating a gesture size in step S630 of FIG. 6.

도 9에 도시한 제1 제스처(910)와 같이, 상대방(300)이 팔을 넓게 벌려 제스처를 크게 표현할 경우, 상대방(300)의 제스처 사이즈 값은 커진다. 반면, 제2 제스처(920)와 같이 상대방(300)이 몸 앞에서 작게 제스처를 표현할 경우 상대방(300)의 제스처 사이즈 값은 작은 값을 가진다. As in the first gesture 910 illustrated in FIG. 9, when the other party 300 expresses the gesture with a wide open arm, the gesture size value of the other party 300 increases. On the other hand, when the other party 300 expresses a small gesture in front of the body like the second gesture 920, the gesture size value of the other party 300 has a small value.

도 9에는 상대방(300)의 제스처에 따른 조인트 좌표의 최대값을 이용하여 직사각형 박스를 설정하고, 설정된 직사각형 박스의 크기를 이용하여 상대방(300)의 제스처 사이즈를 연산하는 것으로 설명하였으나 이에 한정하지 않고, 상대방(300)의 팔이나 손의 움직임에 따른 조인트 좌표 값을 이용하여 제스처 사이즈를 연산할 수도 있다. In FIG. 9, it has been described that a rectangular box is set using the maximum value of joint coordinates according to the gesture of the other party 300, and the gesture size of the other party 300 is calculated using the set size of the rectangular box, but the present invention is not limited thereto. , The gesture size may be calculated using a joint coordinate value according to the movement of the arm or hand of the counterpart 300.

S620 단계 및 S630 단계에서 상대방(300)의 제스처 사용 빈도 및 제스처 사이즈를 연산하는 과정은, 도 3의 S320 단계에서 상대방(300)에 대한 비언어적 속성을 추출하는 과정과 실질적으로 동일하며, 설명의 편의를 위하여 중복되는 설명은 생략한다. The process of calculating the frequency of use of the gesture of the counterpart 300 and the size of the gesture in steps S620 and S630 is substantially the same as the process of extracting non-verbal attributes for the counterpart 300 in step S320 of FIG. For the sake of this, duplicate descriptions are omitted.

마지막으로 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)의 제스처 속성을 결정한다(S640). Finally, the apparatus 200 for determining speech and gesture properties of the interactive robot determines the gesture properties of the interactive robot 100 (S640).

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 S620 단계에서 연산된 상대방(300)의 제스처 사용 빈도 및 S630 단계에서 연산된 상대방(300)의 제스처 사이즈와, 인터랙티브 로봇(100)의 퍼스널리티에 상응하는 기본 설정 정보를 기반으로, 인터랙티브 로봇(100)의 제스처 속성을 결정할 수 있다. The interactive robot's speech and gesture attribute determination apparatus 200 corresponds to the frequency of use of the gesture of the counterpart 300 calculated in step S620, the gesture size of the counterpart 300 calculated in step S630, and the personality of the interactive robot 100 Based on the basic setting information, a gesture property of the interactive robot 100 may be determined.

여기서, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)가 결정하는 인터랙티브 로봇(100)의 제스처 속성은 제스처 수행 빈도(Frequency) 및 제스처 크기(Volume) 중 적어도 어느 하나를 포함할 수 있다. Here, the gesture attribute of the interactive robot 100 determined by the apparatus 200 for determining speech and gesture attributes of the interactive robot may include at least one of a gesture execution frequency and a gesture volume.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 상대방(300)의 비언어적 속성인 제스처 사용 빈도(Frequencyhuman) 및 제스처 사이즈(Volumehuman)에 제1 가중치를 부여하고, 인터랙티브 로봇(100)의 기본 설정 정보 중 기본 제스처 속성(Frequencyrobot_base, Volumerobot_base)에 제2 가중치를 부여하여, 인터랙티브 로봇(100)의 제스처 속성을 결정할 수 있다. In addition, the apparatus 200 for determining speech and gesture properties of the interactive robot assigns a first weight to the non-verbal properties of the counterpart 300, such as a frequency human and a volume human , and the interactive robot 100 The gesture attribute of the interactive robot 100 may be determined by assigning a second weight to the basic gesture attributes (Frequency robot_base and Volume robot_base ) among the basic setting information.

아래의 수도코드 4는 상대방(300)의 비언어적 속성 및 인터랙티브 로봇(100)의 기본 제스처 속성에 가중치를 부여하여 인터랙티브 로봇(100)의 제스처 속성을 결정하는 기술에 대한 의사 코드의 일 예를 나타낸 것이다. The following pseudo code 4 shows an example of a pseudo code for a technique of determining the gesture property of the interactive robot 100 by assigning a weight to the non-verbal property of the counterpart 300 and the basic gesture property of the interactive robot 100 .

[수도코드 4][Water Code 4]

Frequencyrobot <- w * Frequencyhuman + (1-w) * Frequencyrobot_base Frequency robot <- w * Frequency human + (1-w) * Frequency robot_base

Volumerobot <- w * Volumehuman + (1-w) * Volumerobot_base Volume robot <- w * Volume human + (1-w) * Volume robot_base

여기서, w는 제1 가중치를 의미하고, 1-w는 제2 가중치를 의미한다. 그리고 가중치는 로봇 제조사나 로봇 소유자로부터 설정된 것일 수 있다. Here, w means a first weight, and 1-w means a second weight. And the weight may be set by the robot manufacturer or the robot owner.

그리고 아래의 수도코드 5는 결정된 인터랙티브 로봇(100)의 제스처 속성을 기반으로, 인터랙티브 로봇(100)이 출력할 제스처 동작을 생성하는 기술에 대한 의사 코드의 일 예를 나타낸 것이다. In addition, the pseudo code 5 below shows an example of a pseudo code for a technique of generating a gesture motion to be output by the interactive robot 100 based on the determined gesture property of the interactive robot 100.

[수도코드 5] [Water Code 5]

for each word in speech_sentencefor each word in speech_sentence

if random() < Frequencyrobot if random() <Frequency robot

gesture = get_gesture(word) gesture = get_gesture(word)

make_gesture(gesture, Volumerobot)make_gesture(gesture, Volume robot )

여기서, speech_sentence는 인터랙티브 로봇(100)이 발화할 문장을 의미한다. Here, speech_sentence means a sentence to be spoken by the interactive robot 100.

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)이 발화할 문장의 모든 단어에 대해서 제스처를 출력하도록 설정할 수 있으며, 수도코드 5와 같이, 인터랙티브 로봇(100)의 제스처 수행 빈도(Frequencyrobot)에 따라 제스처의 생성 및 출력 여부를 결정할 수 있다. The apparatus 200 for determining speech and gesture properties of the interactive robot may be set to output a gesture for all words of a sentence to be uttered by the interactive robot 100, and as shown in the capital code 5, the frequency of the gesture execution of the interactive robot 100 It is possible to determine whether to generate and output a gesture according to (Frequency robot ).

예를 들어, 인터랙티브 로봇(100)의 제스처 수행 빈도(Frequencyrobot)가 0.7인 경우, 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)이 발화할 문장에 포함된 10개의 단어 중에서 7개의 단어에 대해 제스처를 생성할 수 있다. For example, when the frequency robot of the interactive robot 100 is 0.7, the interactive robot's speech and gesture attribute determination device 200 includes 10 words included in a sentence to be uttered by the interactive robot 100 You can create gestures for 7 words among them.

그리고 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치(200)는 인터랙티브 로봇(100)이 생성된 제스처를 출력할 때, 제스처 크기(Volumerobot)에 상응하는 크기로 제스처를 출력하도록 하는 동작 제어 신호를 생성할 수 있다. In addition, when the interactive robot 100 outputs the generated gesture, the interactive robot's speech and gesture attribute determination apparatus 200 generates a motion control signal that outputs a gesture in a size corresponding to the gesture size (Volume robot ). I can.

수도코드 5에서, 각 단어에 적합한 제스처를 선택하는 함수인 get_gesture 함수, 선택된 제스처를 인터랙티브 로봇(100)이 표현하는 함수인 make_gesture함수는 각 로봇 제조사마다 상이한 방식으로 구현될 수 있다. In the pseudo code 5, the get_gesture function, which is a function for selecting a gesture suitable for each word, and the make_gesture function, which is a function for expressing the selected gesture by the interactive robot 100, may be implemented in different ways for each robot manufacturer.

도 10은 본 발명의 일 실시예에 따른 컴퓨터 시스템을 나타낸 블록도이다.10 is a block diagram showing a computer system according to an embodiment of the present invention.

도 10을 참조하면, 본 발명의 실시예는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다. 도 10에 도시된 바와 같이, 컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들어, 메모리는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.Referring to FIG. 10, an embodiment of the present invention may be implemented in a computer system 1000 such as a computer-readable recording medium. As shown in FIG. 10, the computer system 1000 includes one or more processors 1010, a memory 1030, a user interface input device 1040, and a user interface output device 1050 communicating with each other through a bus 1020. And a storage 1060. Further, the computer system 1000 may further include a network interface 1070 connected to the network 1080. The processor 1010 may be a central processing unit or a semiconductor device that executes processing instructions stored in the memory 1030 or the storage 1060. The memory 1030 and the storage 1060 may be various types of volatile or nonvolatile storage media. For example, the memory may include a ROM 1031 or a RAM 1032.

따라서, 본 발명의 실시예는 컴퓨터로 구현된 방법이나 컴퓨터에서 실행 가능한 명령어들이 기록된 비일시적인 컴퓨터에서 읽을 수 있는 매체로 구현될 수 있다. 컴퓨터에서 읽을 수 있는 명령어들이 프로세서에 의해서 수행될 때, 컴퓨터에서 읽을 수 있는 명령어들은 본 발명의 적어도 한 가지 태양에 따른 방법을 수행할 수 있다.Accordingly, an embodiment of the present invention may be implemented in a computer-implemented method or a non-transitory computer-readable medium in which instructions executable in a computer are recorded. When computer-readable instructions are executed by a processor, the computer-readable instructions may perform a method according to at least one aspect of the present invention.

이상에서와 같이 본 발명에 따른 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다. As described above, the apparatus and method for determining speech and gesture properties of an interactive robot according to the present invention are not limited to the configuration and method of the embodiments described above, but various modifications may be made to the embodiments. All or part of each of the embodiments may be selectively combined and configured.

100: 인터랙티브 로봇
200: 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치
210: 상대방 대화 정보 입력부
220: 대화 속성 추출부
230: 발화 및 제스처 결정부
240: 인터랙티브 로봇 제어부
910: 제1 제스처
920: 제2 제스처
1000: 컴퓨터 시스템
1010: 프로세서
1020: 버스
1030: 메모리
1031: 롬
1032: 램
1040: 사용자 인터페이스 입력 장치
1050: 사용자 인터페이스 출력 장치
1060: 스토리지
1070: 네트워크 인터페이스
1080: 네트워크
100: interactive robot
200: Interactive robot speech and gesture property determination device
210: counterpart conversation information input unit
220: conversation attribute extraction unit
230: speech and gesture determination unit
240: interactive robot control unit
910: first gesture
920: second gesture
1000: computer system
1010: processor
1020: bus
1030: memory
1031: Rom
1032: RAM
1040: user interface input device
1050: user interface output device
1060: storage
1070: network interface
1080: network

Claims (20)

인터랙티브 로봇의 발화 및 제스처 속성 결정 장치에 의해 수행되는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법에 있어서,
인터랙티브 로봇과 상호 작용하는 상대방에 대한 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함하는 상대방 대화 정보를 입력받는 단계,
상기 상대방 대화 정보를 분석하여, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계,
상기 인터랙티브 로봇과 상기 상대방의 대화 내용으로 추정된 상황 문맥 정보, 상기 언어적 속성 및 상기 비언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계, 그리고
결정된 상기 인터랙티브 로봇의 발화 속성 및 상기 제스처 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 동작을 제어하는 단계를 포함하되,
상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계는,
상기 인터랙티브 로봇의 발화 속성 및 제스처 속성을 결정하기 위하여, 상기 음성 정보를 분석하여 음의 고저, 진폭 및 스피드 중 어느 하나를 포함하는 상기 상대방에 대한 상기 언어적 속성을 추출하거나, 상기 영상 정보를 분석하여 상대방의 제스처 사용 빈도 및 제스처 사이즈 중 적어도 어느 하나를 포함하는 상기 상대방에 대한 상기 비언어적 속성을 추출하고,
상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계는,
상기 영상 정보로부터 상기 상대방의 스켈레톤 정보를 추출하는 단계,
추출된 상기 스켈레톤 정보의 조인트 좌표에 대한 정규화를 수행하는 단계,
정규화된 상기 스켈레톤 정보를 이용하여, 상기 상대방의 제스처 사용 빈도를 연산하는 단계, 그리고
정규화된 상기 스켈레톤 정보를 이용하여, 상기 상대방의 제스처 사이즈를 연산하는 단계를 포함하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
In the interactive robot speech and gesture attribute determination method performed by an interactive robot speech and gesture attribute determination device,
Receiving a counterpart conversation information including at least one of voice information and video information for a counterpart interacting with the interactive robot,
Analyzing the counterpart conversation information, extracting at least one of a verbal attribute and a non-verbal attribute for the counterpart,
Determining at least one of a speech attribute and a gesture attribute of the interactive robot based on at least one of contextual context information, the linguistic attribute, and the non-verbal attribute estimated as the conversation content between the interactive robot and the counterpart, And
Including the step of controlling the operation of the interactive robot based on at least one of the determined speech attribute and the gesture attribute of the interactive robot,
Extracting at least one of a linguistic attribute and a non-verbal attribute for the counterpart,
In order to determine the speech attribute and gesture attribute of the interactive robot, the speech information is analyzed to extract the linguistic attribute of the counterpart including any one of pitch, amplitude, and speed, or the image information is analyzed. By doing so, extracting the non-verbal attribute of the other party including at least one of a frequency of use of a gesture and a gesture size of the other party,
Extracting at least one of a linguistic attribute and a non-verbal attribute for the counterpart,
Extracting skeleton information of the counterpart from the image information,
Performing normalization on the joint coordinates of the extracted skeleton information,
Calculating the frequency of use of the counterpart's gesture using the normalized skeleton information, and
And calculating a gesture size of the counterpart by using the normalized skeleton information.
삭제delete 제1항에 있어서,
상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는,
상기 인터랙티브 로봇의 기본 설정 정보, 상기 상황 문맥 정보 및 추출된 상기 언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 발화 속성을 설정하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 1,
Determining at least one of a speech attribute and a gesture attribute of the interactive robot,
The method of determining speech and gesture properties of the interactive robot, characterized in that, based on at least one of the basic setting information of the interactive robot, the contextual context information, and the extracted linguistic attribute, the speech attribute of the interactive robot is set.
제1항에 있어서,
상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 단계는,
상기 상대방과의 대화 내용으로부터 상기 상황 문맥 정보를 추정하는 단계, 그리고
상기 상대방의 기본 언어적 속성 및 기 설정된 시간 동안 상기 상대방의 언어적 속성 정보를 이용하여, 상기 상대방의 언어적 속성 변화 정보를 추출하는 단계를 포함하고,
상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는,
상기 상황 문맥 정보 및 상기 상대방의 언어적 속성 변화 정보를 이용하여, 상기 인터랙티브 로봇의 발화 속성을 결정하는 단계를 포함하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 1,
Extracting at least one of a linguistic attribute and a non-verbal attribute for the counterpart,
Estimating the contextual context information from the conversation content with the counterpart, and
And extracting change information of the counterpart's linguistic attribute by using the counterpart's basic linguistic attribute and the counterpart's linguistic attribute information for a preset time,
Determining at least one of a speech attribute and a gesture attribute of the interactive robot,
And determining the speech attribute of the interactive robot using the contextual context information and the language attribute change information of the counterpart.
제4항에 있어서,
상기 상황 문맥 정보를 추정하는 단계는,
상기 대화 내용을 기반으로, 상기 상대방의 언어적 속성을 모사하는 모사 모드, 기본 설정 모드 및 상기 상대방의 언어적 속성에 대응되는 모드인 반대 모드 중 어느 하나로 상기 상황 문맥 정보를 추정하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 4,
Estimating the contextual context information,
Based on the conversation content, the contextual context information is estimated in one of a simulation mode that simulates the language attribute of the other party, a basic setting mode, and an opposite mode that is a mode corresponding to the language attribute of the other party. How to determine speech and gesture properties of interactive robots.
제1항에 있어서,
상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는,
상기 인터랙티브 로봇의 기본 설정 정보 및 추출된 상기 비언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 제스처 속성을 설정하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 1,
Determining at least one of a speech attribute and a gesture attribute of the interactive robot,
A method of determining speech and gesture properties of the interactive robot, comprising setting a gesture property of the interactive robot based on at least one of the basic setting information of the interactive robot and the extracted non-verbal property.
삭제delete 제1항에 있어서,
상기 상대방의 제스처 사용 빈도를 연산하는 단계는,
단위 시간 동안 상기 조인트 좌표의 위치 변화를 이용하여 상기 상대방의 제스처 사용 여부를 판단하고, 기 설정된 주기 동안 상기 상대방의 제스처 사용 빈도를 카운트하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 1,
The step of calculating the frequency of use of the counterpart's gesture,
A method for determining speech and gesture properties of an interactive robot, comprising determining whether or not the counterpart uses a gesture by using a position change of the joint coordinate during a unit time, and counting the frequency of the counterpart's gesture use during a preset period.
제1항에 있어서,
상기 상대방의 제스처 사이즈를 연산하는 단계는,
단위 시간 동안 상기 조인트 좌표의 최대 값과 상기 조인트 좌표의 최소 값의 차이를 이용하여 상기 상대방의 제스처 사이즈를 연산하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 1,
The step of calculating the gesture size of the other party,
A method for determining speech and gesture properties of an interactive robot, characterized in that the gesture size of the counterpart is calculated using a difference between the maximum value of the joint coordinate and the minimum value of the joint coordinate during a unit time.
제1항에 있어서,
상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 단계는,
제1 가중치가 부여된 상기 상대방의 비 언어적 속성과 제2 가중치가 부여된 상기 인터랙티브 로봇의 기본 제스처 속성의 합을 연산하여, 상기 인터랙티브 로봇의 제스처 속성을 결정하는 단계를 더 포함하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 1,
Determining at least one of a speech attribute and a gesture attribute of the interactive robot,
Comprising the sum of the non-verbal properties of the counterpart to which the first weight is assigned and the basic gesture properties of the interactive robot to which the second weight is assigned, and determining the gesture properties of the interactive robot. How to determine speech and gesture properties of interactive robots.
제1항에 있어서,
상기 상대방에 대한 영상 정보는,
상기 인터랙티브 로봇의 시점에서 촬영된 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 방법.
The method of claim 1,
The video information for the other party,
A method of determining speech and gesture properties of an interactive robot, characterized in that photographed from the viewpoint of the interactive robot.
인터랙티브 로봇과 상호 작용하는 상대방에 대한 음성 정보 및 영상 정보 중 적어도 어느 하나를 포함하는 상대방 대화 정보를 입력받는 상대방 대화 정보 입력부,
상기 상대방 대화 정보를 분석하여, 상기 상대방에 대한 언어적 속성 및 비언어적 속성 중 적어도 어느 하나를 추출하는 상대방의 대화 속성 추출부,
상기 인터랙티브 로봇의 기본 설정 정보, 상기 인터랙티브 로봇과 상기 상대방의 대화 내용으로 추정된 상황 문맥 정보, 상기 언어적 속성 및 상기 비언어적 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 발화 속성 및 제스처 속성 중 적어도 어느 하나를 결정하는 발화 및 제스처 결정부, 그리고
결정된 상기 인터랙티브 로봇의 발화 속성 및 상기 제스처 속성 중 적어도 어느 하나를 기반으로, 상기 인터랙티브 로봇의 동작을 제어하는 인터랙티브 로봇 제어부를 포함하되,
상기 상대방의 대화 속성 추출부는,
상기 인터랙티브 로봇의 발화 속성 및 상기 제스처 속성을 결정하기 위하여, 상기 음성 정보를 분석하여 음의 고저, 진폭 및 스피드 중 적어도 어느 하나를 포함하는 상기 상대방에 대한 상기 언어적 속성을 추출하거나, 상기 영상 정보를 분석하여 상대방의 제스처 사용 빈도 및 제스처 사이즈 중 적어도 어느 하나를 포함하는 상기 상대방에 대한 상기 비언어적 속성을 추출하고,
상기 상대방의 대화 속성 추출부는,
상기 영상 정보로부터 상기 상대방의 스켈레톤 정보를 추출하고, 추출된 상기 스켈레톤 정보의 조인트 좌표에 대한 정규화를 수행하며, 정규화된 상기 스켈레톤 정보를 이용하여 상기 상대방의 제스처 사용 빈도를 연산하고, 정규화된 상기 스켈레톤 정보를 이용하여 상기 상대방의 제스처 사이즈를 연산하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치.
A counterpart conversation information input unit for receiving counterparty conversation information including at least one of voice information and video information for the counterpart interacting with the interactive robot,
A conversation attribute extraction unit of the other party for analyzing the conversation information of the other party and extracting at least one of a linguistic attribute and a non-verbal attribute for the other party,
Based on at least one of the basic setting information of the interactive robot, contextual context information estimated from the conversation content of the interactive robot and the counterpart, the verbal attribute and the non-verbal attribute, among the speech attribute and gesture attribute of the interactive robot A speech and gesture determination unit that determines at least any one, and
An interactive robot control unit that controls an operation of the interactive robot based on at least one of the determined speech attribute and the gesture attribute of the interactive robot,
The conversation attribute extraction unit of the other party,
In order to determine the speech attribute and the gesture attribute of the interactive robot, the speech information is analyzed to extract the linguistic attribute of the counterpart including at least one of pitch, amplitude, and speed, or the image information And extracting the non-verbal attribute of the counterpart including at least one of the counterpart's gesture use frequency and gesture size by analyzing
The conversation attribute extraction unit of the other party,
Extracts the counterpart's skeleton information from the image information, normalizes the joint coordinates of the extracted skeleton information, calculates the counterpart's gesture usage frequency using the normalized skeleton information, and normalizes the skeleton An apparatus for determining speech and gesture properties of an interactive robot, characterized in that the gesture size of the counterpart is calculated using information.
삭제delete 제12항에 있어서,
상기 상대방의 대화 속성 추출부는,
상기 상대방과의 대화 내용으로부터 상기 상황 문맥 정보를 추정하고, 상기 상대방의 기본 언어적 속성 및 기 설정된 시간 동안 상기 상대방의 언어적 속성 정보를 이용하여 상기 상대방의 언어적 속성 변화 정보를 추출하여, 상기 발화 및 제스처 결정부가, 상기 상황 문맥 정보 및 상기 상대방의 언어적 속성 변화 정보를 이용하여 상기 인터랙티브 로봇의 발화 속성을 결정하도록 하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치.
The method of claim 12,
The conversation attribute extraction unit of the other party,
By estimating the contextual context information from the contents of the conversation with the counterpart, extracting the counterpart's linguistic attribute change information using the counterpart's basic linguistic attribute and the counterpart's linguistic attribute information for a preset time, The speech and gesture attribute determination apparatus of an interactive robot, wherein the speech and gesture determination unit determines the speech attribute of the interactive robot using the contextual context information and the language attribute change information of the counterpart.
제14항에 있어서,
상기 발화 및 제스처 결정부는,
상기 대화 내용을 기반으로, 상기 상대방의 언어적 속성을 모사하는 모사 모드, 기본 설정 모드 및 상기 상대방의 언어적 속성에 대응되는 모드인 반대 모드 중 어느 하나로 상기 상황 문맥 정보를 추정하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치.
The method of claim 14,
The speech and gesture determination unit,
Based on the conversation content, the contextual context information is estimated in one of a simulation mode that simulates the language attribute of the other party, a basic setting mode, and an opposite mode that is a mode corresponding to the language attribute of the other party. A device for determining speech and gesture properties of an interactive robot.
삭제delete 제12항에 있어서,
상기 상대방의 대화 속성 추출부는,
단위 시간 동안 상기 조인트 좌표의 위치 변화를 이용하여 상기 상대방의 제스처 사용 여부를 판단하고, 기 설정된 주기 동안 상기 상대방의 제스처 사용 빈도를 카운트하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치.
The method of claim 12,
The conversation attribute extraction unit of the other party,
The apparatus for determining utterance and gesture properties of an interactive robot, characterized in that for determining whether or not the counterpart uses a gesture by using a position change of the joint coordinates during a unit time, and counting the frequency of the counterpart's gesture use during a preset period.
제12항에 있어서,
상기 상대방의 대화 속성 추출부는,
단위 시간 동안 상기 조인트 좌표의 최대 값과 상기 조인트 좌표의 최소 값의 차이를 이용하여 상기 상대방의 제스처 사이즈를 연산하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치.
The method of claim 12,
The conversation attribute extraction unit of the other party,
An apparatus for determining speech and gesture properties of an interactive robot, characterized in that for calculating a gesture size of the counterpart by using a difference between a maximum value of the joint coordinate and a minimum value of the joint coordinate during a unit time.
제12항에 있어서,
상기 발화 및 제스처 결정부는,
제1 가중치가 부여된 상기 상대방의 비 언어적 속성과 제2 가중치가 부여된 상기 인터랙티브 로봇의 기본 제스처 속성의 합을 연산하여, 상기 인터랙티브 로봇의 제스처 속성을 결정하는 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치.
The method of claim 12,
The speech and gesture determination unit,
The speech of the interactive robot, characterized in that the sum of the non-verbal properties of the counterpart to which the first weight is assigned and the basic gesture properties of the interactive robot to which the second weight is assigned is calculated to determine the gesture properties of the interactive robot. And a gesture property determination device.
제12항에 있어서,
상기 상대방에 대한 영상 정보는,
상기 인터랙티브 로봇의 시점에서 촬영된 것을 특징으로 하는 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치.
The method of claim 12,
The video information for the other party,
An apparatus for determining speech and gesture properties of an interactive robot, characterized in that photographed from a viewpoint of the interactive robot.
KR1020180034715A 2017-11-24 2018-03-26 Apparatus for determining speech properties and motion properties of interactive robot and method thereof KR102147835B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/102,398 US10777198B2 (en) 2017-11-24 2018-08-13 Apparatus for determining speech properties and motion properties of interactive robot and method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170158953 2017-11-24
KR20170158953 2017-11-24

Publications (2)

Publication Number Publication Date
KR20190060637A KR20190060637A (en) 2019-06-03
KR102147835B1 true KR102147835B1 (en) 2020-08-25

Family

ID=66849436

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180034715A KR102147835B1 (en) 2017-11-24 2018-03-26 Apparatus for determining speech properties and motion properties of interactive robot and method thereof

Country Status (1)

Country Link
KR (1) KR102147835B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005003926A (en) * 2003-06-11 2005-01-06 Sony Corp Information processor, method, and program
JP2008254122A (en) * 2007-04-05 2008-10-23 Honda Motor Co Ltd Robot

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2933071A1 (en) 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems for managing dialogs of a robot

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005003926A (en) * 2003-06-11 2005-01-06 Sony Corp Information processor, method, and program
JP2008254122A (en) * 2007-04-05 2008-10-23 Honda Motor Co Ltd Robot

Also Published As

Publication number Publication date
KR20190060637A (en) 2019-06-03

Similar Documents

Publication Publication Date Title
US20200279553A1 (en) Linguistic style matching agent
JP6465077B2 (en) Voice dialogue apparatus and voice dialogue method
US11151997B2 (en) Dialog system, dialog method, dialog apparatus and program
US11430438B2 (en) Electronic device providing response corresponding to user conversation style and emotion and method of operating same
JP5753869B2 (en) Speech recognition terminal and speech recognition method using computer terminal
CN112204564A (en) System and method for speech understanding via integrated audio and visual based speech recognition
KR20200034039A (en) Robot and method for operating the same
KR100906136B1 (en) Information processing robot
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
EP3373301A1 (en) Apparatus, robot, method and recording medium having program recorded thereon
JP7260221B2 (en) Robot interaction method and device
EP1256931A1 (en) Method and apparatus for voice synthesis and robot apparatus
KR20200034038A (en) Robot and method for operating the same
KR20220130000A (en) Ai avatar-based interaction service method and apparatus
JP2008125815A (en) Conversation robot system
US10777198B2 (en) Apparatus for determining speech properties and motion properties of interactive robot and method thereof
GB2578766A (en) Apparatus and method for controlling vehicle system operation
JP6798258B2 (en) Generation program, generation device, control program, control method, robot device and call system
KR102147835B1 (en) Apparatus for determining speech properties and motion properties of interactive robot and method thereof
JP2008107673A (en) Conversation robot
JP2021117371A (en) Information processor, information processing method and information processing program
Feldman et al. Engagement with artificial intelligence through natural interaction models
WO2017200077A1 (en) Dialog method, dialog system, dialog device, and program
EP4131130A1 (en) Method and device for providing interpretation situation information
KR102128812B1 (en) Method for evaluating social intelligence of robot and apparatus for the same

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant