KR102576788B1 - 로봇 인터랙션 행위 생성 장치 및 방법 - Google Patents
로봇 인터랙션 행위 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR102576788B1 KR102576788B1 KR1020200105409A KR20200105409A KR102576788B1 KR 102576788 B1 KR102576788 B1 KR 102576788B1 KR 1020200105409 A KR1020200105409 A KR 1020200105409A KR 20200105409 A KR20200105409 A KR 20200105409A KR 102576788 B1 KR102576788 B1 KR 102576788B1
- Authority
- KR
- South Korea
- Prior art keywords
- robot
- action
- interaction
- behavior
- actions
- Prior art date
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
- B25J11/001—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1661—Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1669—Programme controls characterised by programming, planning systems for manipulators characterised by special application, e.g. multi-arm co-operation, assembly, grasping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1692—Calibration of manipulator
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40411—Robot assists human in non-industrial environment like home or office
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Manipulator (AREA)
Abstract
로봇 인터랙션 행위 생성 장치 및 방법이 개시된다. 본 발명의 실시예에 따른 로봇 인터랙션 행위 생성 방법은, 사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계, 미리 학습된 로봇 자세 추정 신경망 모델을 기반으로 상기 사용자의 관절 위치 및 로봇의 현재 관절 위치로부터 추정된 로봇의 다음 관절 위치에 기반하여 로봇의 교류 행위를 생성하는 단계 및 상기 발화 행위 및 교류 행위 중 적어도 하나를 이용하여 최종 행위를 생성하는 단계를 포함할 수 있다.
Description
기재된 실시예는 로봇이 사용자의 발화와 비언어적 행위를 이해하고 이에 대응하는 인터랙션 행위를 생성하는 기술에 관한 것이다.
1인 가구, 특히 독거노인 가구의 급증으로 사람과 함께 생활하면서 정서적으로 교류할 수 있는 소셜 로봇에 대한 관심이 높아지면서, 최근에는 아이보(Aibo), 지보(Jibo) 등 상용 로봇들이 속속 등장하고 있다. 이러한 로봇들이 사용자와 정서적 교감을 나누기 위해서는 사용자의 발화와 행동을 이해하고 이에 대응하는 교류 행위를 생성하는 기술이 필요하다. 예컨대, 사용자와 대화가 가능해야 할 뿐 아니라, 사용자가 기뻐하며 한 손을 높이 들어올리면 로봇도 같이 손을 들어 하이-파이브를 하거나, 사용자가 두 손으로 얼굴을 가리고 흐느끼면 두 팔로 안아주는 행위를 생성해야 한다. 이러한 기술은 사람에 대한 이해와 공감을 통해 한 차원 높은 수준의 정서 지원 서비스를 제공할 수 있게 해줄 것이다.
기존 로봇의 교류 행위는 심리학이나 사회학 분야의 대인 커뮤니케이션 관련 이론과 실험 결과를 근거로 사람이 직접 교류 행위 패턴을 도출하고 이를 규칙이나 상태 전이 모델로 기술하여 구현하였다. 이러한 교류 방식은 모든 교류 행위를 사전에 정의하고 규칙에 따라 현재 상황에 맞는 하나의 행위를 선택하여 정해진 궤적에 따라 움직인다. 따라서, 생성되는 교류 행위가 획일적이며 다양한 상황에 대응하지 못하는 경우가 빈번하게 발생한다.
또한 소셜 로봇은 발화를 통해서도 소통하게 되는데, 발화와 비언어적 교류가 동시에 이루어질 때에는 발화 행위와 비언어적 교류 행위 중 하나를 선택해야 하는 경우가 발생한다. 예컨대, 사용자가 "오늘 날씨가 참 좋구나" 라고 말하며 손을 내밀어 악수를 청할 경우, 로봇은 "네. 참 날씨가 화창하네요" 라고 대답하며 자신의 발화 내용과 어울리는 행위를 생성할 수도 있고, 사용자가 청한 악수를 받아줄 수도 있을 것이다. 그러나 기존의 기술들은 비언어적 상호 작용만 하거나 발화를 통한 소통만 하는 단일 교류 상황들을 고려하였기 때문에 이러한 복합 교류 상황에 대처할 수가 없다.
기재된 실시예는 발화와 비언어적 교류가 동시에 이루어지는 복합 교류 상황에서 로봇의 자연스런 인터랙션 행위를 생성하는데 그 목적이 있다.
실시예에 따른 로봇 인터랙션 행위 생성 방법은, 사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계, 미리 학습된 로봇 자세 추정 신경망 모델을 기반으로 상기 사용자의 관절 위치 및 로봇의 현재 관절 위치로부터 추정된 로봇의 다음 관절 위치에 기반하여 로봇의 교류 행위를 생성하는 단계 및 상기 발화 행위 및 교류 행위 중 적어도 하나를 이용하여 최종 행위를 생성하는 단계를 포함할 수 있다.
이때, 로봇의 교류 행위를 생성하는 단계는, 로봇 자세 추정 신경망 모델을 기반으로 생성된 교류 행위를 로봇의 감정 상태를 기반으로 수정하는 단계를 더 포함할 수 있다.
이때, 수정하는 단계는, 유쾌 또는 불쾌의 정도를 나타내는 감정 상태값을 기반으로 산출된 교류 행위의 크기와, 긴장 또는 이완의 정도를 나타내는 감정 상태값에 따라 산출된 교류 행위의 교류 행위의 속도를 기반으로 교류 행위를 수정할 수 있다.
이때, 최종 행위를 생성하는 단계는, 로봇이 대기 상태일 때, 사용자 발화 입력에 따라 로봇의 발화 행위를 출력하고, 사용자 행위 입력에 따라 로봇의 교류 행위만을 출력하고, 사용자 발화 입력 및 사용자 행위 입력에 따라 로봇의 발화 행위 및 교류 행위를 동시에 출력할 수 있다.
이때, 최종 행위를 생성하는 단계는, 로봇이 발화 행위의 상태일 때, 사용자 발화 입력에 따라 로봇의 신규 발화 행위를 출력하고, 사용자 행위 입력에 따라 로봇의 기존 발화 행위 및 신규 교류 행위를 동시에 출력하고, 사용자 발화 입력 및 사용자 행위 입력에 따라 로봇의 신규 발화 행위 및 신규 교류 행위를 동시에 출력할 수 있다.
이때, 최종 행위를 생성하는 단계는, 로봇이 교류 행위의 상태일 때, 사용자 발화 입력에 따라 로봇의 신규 발화 행위 및 기존 교류 행위를 동시에 출력하고, 사용자 행위 입력에 따라 로봇의 신규 교류 행위를 출력하고, 사용자 발화 입력 및 사용자 행위 입력에 따라 로봇의 신규 발화 행위 및 신규 교류 행위를 동시에 출력할 수 있다.
이때, 최종 행위를 생성하는 단계는, 로봇이 기존 교류 행위 및 신규 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하거나, 로봇이 발화 행위 및 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하는 경우, 두 행위들 중 우선 순위를 결정하는 단계, 우선 순위가 높은 행위의 동작 변화량을 산출하는 단계 및 동작 변화량을 기준으로 두 행위들 중 하나를 출력하거나, 두 행위들을 중첩하여 출력하는 단계를 포함할 수 있다.
이때, 우선 순위를 결정하는 단계는, 교류 행위를 발화 행위 보다 높은 우선 순위로 결정하거나, 기존 교류 행위를 신규 교류 행위 보다 높은 우선 순위로 결정할 수 있다.
이때, 동작 변화량을 산출하는 단계는, 행위에 따른 모든 관절들의 위치 변화량의 합으로 동작 변화량을 산출할 수 있다.
이때, 출력하는 단계는, 동작 변화량이 상위 임계치보다 클 경우, 우선 순위가 높은 행위를 출력하고, 동작 변화량이 하위 임계치보다 작을 경우, 우선 순위가 낮은 행위를 출력하고, 동작 변화량이 상위 임계치 및 하위 임계치 사이일 경우, 두 행위들을 중첩할 수 있다.
이때, 출력하는 단계는, 두 행위들을 중첩함에 있어, 두 행위들 각각에 상응하는 신체 카테고리를 검출하고, 두 행위들 각각에 상응하는 신체 카테고리가 동일할 경우, 우선 순위가 높은 행위만을 출력하고, 두 행위들 각각에 상응하는 신체 카테고리가 상이할 경우, 두 행위들을 동시에 출력할 수 있다.
이때, 신체 카테고리는, 머리, 몸통, 오른팔, 왼팔 및 하체를 포함할 수 있다.
이때, 출력하는 단계는, 행위에 따른 신체 카테고리를 검출함에 있어, 행위 각각에 따른 신체 카테고리별 관절들의 위치 변화량을 기반으로 검출할 수 있다.
실시예에 따른 로봇 인터랙션 행위 생성 장치는, 적어도 하나의 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계, 미리 학습된 로봇 자세 추정 신경망 모델을 기반으로 상기 사용자의 관절 위치 및 로봇의 현재 관절 위치로부터 추정된 로봇의 다음 관절 위치에 기반하여 로봇의 교류 행위를 생성하는 단계 및 상기 발화 행위 및 교류 행위 중 적어도 하나를 이용하여 최종 행위를 생성하는 단계를 수행할 수 있다.
이때, 로봇의 교류 행위를 생성하는 단계는, 로봇 자세 추정 신경망 모델을 기반으로 생성된 교류 행위를 로봇의 감정 상태를 기반으로 수정하는 단계를 더 포함할 수 있다.
이때, 수정하는 단계는, 유쾌 또는 불쾌의 정도를 나타내는 감정 상태값을 기반으로 산출된 교류 행위의 크기와, 긴장 또는 이완의 정도를 나타내는 감정 상태값에 따라 산출된 교류 행위의 교류 행위의 속도를 기반으로 교류 행위를 수정할 수 있다.
이때, 최종 행위를 생성하는 단계는, 로봇이 기존 교류 행위 및 신규 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하거나, 로봇이 발화 행위 및 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하는 경우, 두 행위들 중 우선 순위를 결정하는 단계, 우선 순위가 높은 행위의 동작 변화량을 산출하는 단계 및 동작 변화량을 기준으로 두 행위들 중 하나를 출력하거나, 두 행위들을 중첩하여 출력하는 단계를 포함할 수 있다.
이때, 출력하는 단계는, 동작 변화량이 상위 임계치보다 클 경우, 우선 순위가 높은 행위를 출력하고, 동작 변화량이 하위 임계치보다 작을 경우, 우선 순위가 낮은 행위를 출력하고, 동작 변화량이 상위 임계치 및 하위 임계치 사이일 경우, 두 행위들을 중첩할 수 있다.
이때, 출력하는 단계는, 두 행위들을 중첩하여 출력함에 있어, 행위 각각에 따른 신체 카테고리별 관절들의 위치 변화량을 기반으로 두 행위들 각각에 상응하는 신체 카테고리를 검출하고, 두 행위들 각각에 상응하는 신체 카테고리가 동일할 경우, 우선 순위가 높은 행위만을 출력하고, 두 행위들 각각에 상응하는 신체 카테고리가 상이할 경우, 두 행위들을 동시에 출력할 수 있다.
실시예에 따른 로봇 인터랙션 행위 생성 방법은, 사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계, 사용자의 행위 입력에 대응되는 로봇의 교류 행위를 생성하는 단계 및 상기 발화 행위 및 교류 행위 중 적어도 하나를 이용하여 최종 행위를 생성하는 단계를 수행하되, 최종 행위를 생성하는 단계는, 로봇이 기존 교류 행위 및 신규 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하거나, 로봇이 발화 행위 및 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하는 경우, 두 행위들 중 우선 순위를 결정하는 단계, 우선 순위가 높은 행위의 동작 변화량을 산출하는 단계 및 동작 변화량을 기준으로 두 행위들 중 하나를 출력하거나, 두 행위들을 중첩하여 출력하는 단계를 더 포함할 수 있다.
이때, 출력하는 단계는, 두 행위들을 중첩하여 출력함에 있어, 행위 각각에 따른 신체 카테고리별 관절들의 위치 변화량을 기반으로 두 행위들 각각에 상응하는 신체 카테고리를 검출하고, 두 행위들 각각에 상응하는 신체 카테고리가 동일할 경우, 우선 순위가 높은 행위만을 출력하고, 두 행위들 각각에 상응하는 신체 카테고리가 상이할 경우, 두 행위들을 동시에 출력할 수 있다.
실시예에 따라, 사람이 주거하는 공간에서 함께 생활하는 로봇이 사람의 행동에 대응하는 상호 작용 행위를 생성함으로써 사람과 로봇 간 유대 관계를 형성하고 정서적 교감을 할 수 있도록 한다.
실시예에 따라, 종래 기술에서는 다루지 않았던 복합 교류 상황, 즉, 발화 교류와 비언어적 교류가 동시에 이루어지는 상황에서 어떠한 교류 행위를 생성해야 할지에 대해 결정할 수 있도록 한다.
실시예에 따라, 로봇이 사람과 사람 간의 교류 행위를 관찰하고 스스로 학습하여 교류 모델을 자동으로 습득하므로 종래의 기술들과 달리 사람이 직접 교류 행위 패턴을 정의하거나 따로 휴먼-로봇 교류 패턴을 수집할 필요가 없다는 이점이 있다.
실시예에 따라, 저장된 행위 궤적을 따라 움직이는 것이 아니라 매 스텝(1 프레임)마다 다음 관절 위치를 생성하고 로봇의 감정상태에 따라 생성된 동작을 수정하므로, 생성된 행동이 획일적이지 않고 반응 속도가 빠르다는 장점이 있다.
도 1은 로봇과 사람간의 발화 교류 상황의 예시도이다.
도 2는 로봇과 사람간의 비언어적 교류 상황의 예시도이다.
도 3은 로봇과 사람 간의 복합 교류 상황의 예시도이다.
도 4는 실시예에 따른 로봇 인터랙션 행위 생성 장치의 개략적인 블록 구성도이다.
도 5는 실시예에 따른 교류 행위 생성부의 동작을 설명하기 위한 순서도이다.
도 6은 사용자 관절 위치 예시도이다.
도 7은 실시예에 따른 로봇 자세 추정 신경망 모델의 예시도이다.
도 8은 실시예에 따른 휴먼-휴먼 상호 작용 데이터를 교류 행위 학습 데이터로 변환하는 과정을 설명하기 위한 도면이다.
도 9는 러셀(Russell)이 제안한 감정 상태 표현법을 도시한 도면이다.
도 10은 로봇의 감정 상태가 반영된 로봇 포즈 예시도이다.
도 11은 실시예에 따른 로봇 최종 행위 결정 단계를 설명하기 위한 순서도이다.
도 12는 실시예에 따른 로봇 발화 행위 상태에서의 사용자 입력에 따른 최종 행위 결정 시나리오를 설명하기 위한 도면이다.
도 13은 실시예에 따른 로봇의 교류 행위 상태에서의 사용자 입력에 따른 최종 행위 결정 시나리오를 설명하기 위한 도면이다.
도 14는 실시예에 따른 동시 행위 생성 과정을 설명하기 위한 순서도이다.
도 15는 실시예에 따른 로봇의 관절 카테고리 분류 예시도이다.
도 16은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
도 2는 로봇과 사람간의 비언어적 교류 상황의 예시도이다.
도 3은 로봇과 사람 간의 복합 교류 상황의 예시도이다.
도 4는 실시예에 따른 로봇 인터랙션 행위 생성 장치의 개략적인 블록 구성도이다.
도 5는 실시예에 따른 교류 행위 생성부의 동작을 설명하기 위한 순서도이다.
도 6은 사용자 관절 위치 예시도이다.
도 7은 실시예에 따른 로봇 자세 추정 신경망 모델의 예시도이다.
도 8은 실시예에 따른 휴먼-휴먼 상호 작용 데이터를 교류 행위 학습 데이터로 변환하는 과정을 설명하기 위한 도면이다.
도 9는 러셀(Russell)이 제안한 감정 상태 표현법을 도시한 도면이다.
도 10은 로봇의 감정 상태가 반영된 로봇 포즈 예시도이다.
도 11은 실시예에 따른 로봇 최종 행위 결정 단계를 설명하기 위한 순서도이다.
도 12는 실시예에 따른 로봇 발화 행위 상태에서의 사용자 입력에 따른 최종 행위 결정 시나리오를 설명하기 위한 도면이다.
도 13은 실시예에 따른 로봇의 교류 행위 상태에서의 사용자 입력에 따른 최종 행위 결정 시나리오를 설명하기 위한 도면이다.
도 14는 실시예에 따른 동시 행위 생성 과정을 설명하기 위한 순서도이다.
도 15는 실시예에 따른 로봇의 관절 카테고리 분류 예시도이다.
도 16은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하에서는, 도 1 내지 도 16을 참조하여 실시예에 따른 로봇 인터랙션 행위 생성 장치 및 방법이 상세히 설명된다.
도 1은 로봇과 사람간의 발화 교류 상황의 예시도이고, 도 2는 로봇과 사람간의 비언어적 교류 상황의 예시도이고, 도 3은 로봇과 사람 간의 복합 교류 상황의 예시도이다.
로봇과 사람 간의 교류 상황은 크게 발화 교류 상황 및 비언어적 교류 상황이 있을 수 있다.
이때, 발화 교류 상황은, 도 1에 도시된 바와 같이 로봇이 사용자 발화를 인식하고 그에 대응되는 로봇의 발화와 그에 상응하는 발화 행위를 수행하는 상황일 수 있다. 이때, 비언어적 교류 상황은, 도 2에 도시된 바와 같이 로봇이 사용자의 비언어적 행위를 인식하고 그에 대응되는 교류 행위를 수행하는 상황일 수 있다.
종래에는 발화 교류 상황 및 비언어적 교류 상황이 각각 독립적으로 수행되었다. 즉, 종래에는 비언어적 상호작용만 하거나 발화를 통한 소통만 하는 단일 교류 상황들을 고려하였기 때문에 복합 교류 상황에 대처할 수가 없었다.
실시예에 따른 로봇 인터랙션 행위 생성 장치 및 방법에서는 전술한 발화 교류 상황 및 비언어적 교류 상황 뿐만 아니라 복합 교류 상황을 더 고려한다.
이때, 복합 교류 상황은, 도 3에 도시된 바와 같이, 사용자 발화와 사용자 행위를 인식함에 따라 그에 대응되는 로봇의 발화와 행위를 동시에 수행하는 상황일 수 있다.
도 4는 실시예에 따른 로봇 인터랙션 행위 생성 장치의 개략적인 블록 구성도이다.
도 4를 참조하면. 실시예에 따른 로봇 인터랙션 행위 생성 장치(100)는, 대화 생성부(110), 발화 행위 생성부(120), 교류 행위 생성부(130) 및 최종 행위 결정부(140)를 포함할 수 있다.
대화 생성부(110)는 사용자의 발화 입력에 따른 상응하는 발화 문장을 인식하고, 인식된 발화 문장에 대응하는 로봇의 발화 문장을 생성한다.
이때, 대화 생성부(110)는, 미리 학습된 대회 예제 기반 대화 모델을 기반으로 사용자 발화 문장에 대응하는 로봇의 발화 문장을 생성할 수 있다.
이때, 예제 기반 대화 모델은, 사람들 간의 다양한 대화 예제들로부터 사용자 발화 문장과 가장 유사한 대화 예제를 검색해내고, 검색된 대화 예제를 기반으로 로봇의 대화 문장을 생성해낸다.
또한, 대화 생성부(110)는, 구글 알파고와 같이 강화 학습을 이용하는 POMDP(Partially Observable Markov Decision Process) 기반 대화 모델을 기반으로 할 수도 있다.
대화 생성부(110)는, 생성된 발화 문장을 사람이 들을 수 있는 가청 음향으로 생성하여 출력할 있다. 이때, 발화 문장은 TTS (text-to-speech) 기술에 의해 사람의 음성으로 발현될 수 있다. 이때, 생성되는 발화 문장은 대화 주제나 상황에 따라 달라질 수 있다.
발화 행위 생성부(120)는 대화 생성부(110)에서 생성된 로봇의 발화 문장에 상응하는 로봇의 행위, 즉, 몸체 및 팔의 제스처를 생성한다. 이러한 발화 문장에 상응하는 로봇의 행위를 발화 행위라 칭하기로 한다.
이때, 발화 행위의 속성은 특허(APPARATUS FOR DETERMINING SPEECH PROPERTIES AND MOTION PROPERTIES OF INTERACTIVE ROBOT AND METHOD THEREOF, 출원 국가: USA, 출원 번호: 16/102398)에 개시된 기술에 따를 수 있다.
우선, 로봇 시점의 카메라 영상 정보를 이용하여 대화 상대방을 분석하여 제스처 속성을 결정한다. 이때, 제스처 속성으로는 크기(Volume), 속도(Speed) 및 빈도(Frequency) 중 적어도 하나를 추출할 수 있다.
이때, 크기(Volume)는 사용자의 제스처가 차지하는 공간적 크기로 얼마나 제스처를 크게 하는지를 나타내고, 속도(Speed)는 제스처를 취함에 있어서 손이나 몸을 움직이는 빠르기를 나타내고, 빈도(Frequency)는 대화 중에 제스처를 취하는 빈도로, 얼마나 자주 제스처를 취하는지를 나타낸다. 이러한 속성 파라미터는 영상 기반 사용자 골격(skeleton) 검출 기술을 이용하여 취득될 수 있다.
다음으로, 로봇과 사람이 대화하고 있는 장소 콘텍스트(context)를 인식한다. 예컨대, 대화 공간을 집, 사무실, 교실, 실외 등으로 구분하여 인식할 수 있다.
발화 행위 생성부(120)는, 전술한 바와 같은 대화 상대방의 제스처 속성과 공간 콘텍스트(context) 정보를 취합하여 로봇의 제스처 속성을 결정할 수 있다. 또한, 로봇의 제스처 속성은 개발자 또는 사용자에 의해 미리 정의된 스타일에 의해 결정될 수도 있다.
교류 행위 생성부(130)는, 사용자의 행위 입력에 대응하는 로봇의 교류 행위를 생성한다. 이러한 사용자의 행위 입력에 대응하는 로봇의 행위를 교류 행위로 칭하기로 한다. 교류 행위 생성부(130)의 상세한 동작 설명은 도 5 내지 도 10을 참조하여 후술하기로 한다.
최종 행위 결정부(140)는, 로봇의 현재 행위 및 사용자 입력을 기반으로 발화 행위 및 교류 행위 중 적어도 하나를 최종 행위로 결정한다.
최종 행위 결정부(140)는, 사용자의 발화 입력 및 행위 입력 중 적어도 하나와 로봇의 현재 행위를 기반으로 발화 행위 및 교류 행위 중 적어도 하나를 최종 행위로 생성한다.
이때, 로봇의 현재 행위는, 대기 상태, 발화 행위 상태 및 교류 행위 상태를 포함할 수 있다. 여기서, 대기 상태는 로봇이 어떠한 행위를 하지 않고 대기하는 상태를 의미하고, 발화 행위 상태는 로봇이 발화와 함께 발화 행위를 발현하고 있는 상태를 의미하고, 교류 행위 상태는 로봇이 사용자 행위에 대응하는 교류 행위를 발현하고 있는 상태를 의미한다.
이때, 사용자 입력은, 사용자 발화만 입력되는 경우, 사용자 행위만 입력되는 경우 및 사용자 발화 및 행위가 동시 입력되는 경우를 포함할 수 있다. 이에 따라, 도 4에 도시된 발화 행위 생성부(120) 및 교류 행위 생성부(130) 중 적어도 하나에 의해 발화 행위 및 교류 행위 중 적어도 하나가 생성될 수 있다.
그러면, 최종 행위 결정부(140)는, 로봇의 현재 행위에 따라 발화 행위 생성부(120) 및 교류 행위 생성부(130) 중 적어도 하나에 의해 발화 행위 및 교류 행위 중 적어도 하나를 최종 행위로 결정하여 생성하는 것이다.
또한, 최종 행위 결정부(140)가 로봇의 최종 행위 선택은 다음과 같은 가정을 전제로 수행될 수 있다. 이때, 전제가 되는 가정은, 사용자 발화 입력은 발화가 완전히 끝나는 시점에 인식된다는 것과, 로봇 발화와 발화 행위는 동시에 시작 및 종료된다는 것과, 로봇의 발화 생성은 행위 발현과는 독립적으로 수행된다는 것과, 로봇의 행위가 다른 행위로 전환될 때에는 기존 기술(Interpolation 등)을 이용하여 부드럽게 연결될 수 있다는 것 중 적어도 하나를 포함할 수 있다.
이러한 최종 행위 결정부(140)의 상세한 동작 설명은 도 11 내지 도 15를 참조하여 후술하기로 한다.
도 5는 실시예에 따른 교류 행위 생성부의 동작을 설명하기 위한 순서도이고, 도 6은 사용자 관절 위치 예시도이다.
도 5를 참조하면, 교류 행위 생성부(130)는, 로봇이 현재 위치한 지점에서 로봇의 시점으로 사용자의 상반신이 포함된 영상을 촬영한다(S210). 즉, 로봇이 바라보는 시점 방향으로 영상을 촬영할 수 있도록, 로봇의 이마 또는 눈의 위치에 설치된 카메라를 통해 사용자의 영상이 촬영될 수 있다.
그런 후, 교류 행위 생성부(130)는, 촬영된 영상에서 사용자의 상반신 관절들을 위치를 검출한다(S220).
이때, 상반신 관절은, 도 6에 도시된 바와 같이, 몸통(TORSO), 어깨 중앙(SPINE SHOULDER), 머리(HEAD), 왼쪽 어깨(LEFT SHOULDER), 왼쪽 팔꿈치(LEFT ELBOW), 왼쪽 손목(LEFT WRIST), 오른쪽 어깨(RIGHT SHOULDER), 오른쪽 팔꿈치(RIGHT ELBOW) 및 오른쪽 손목 관절(RIGHT WRIST)을 포함할 수 있다.
교류 행위 생성부(130)는, 사용자의 상반신 관절들의 위치가 모두 검출되었는지를 판단한다(S230).
S230의 판단 결과 사용자의 상반신 관절들의 위치가 모두 검출되지 않았을 경우, 교류 행위 생성부(130)는 사용자의 상반신 관절들의 위치가 모두 검출될 때까지 S210 내지 S230을 반복 수행한다.
반면, S230의 판단 결과 사용자의 상반신 관절들의 위치가 모두 검출되었을 경우, 교류 행위 생성부(130)는 현재 관절 위치 정보를 저장한다(S240).
그런 후, 교류 행위 생성부(130)는 저장된 관절 위치 정보의 개수가 충분한지를 판단한다(S250). 즉, 관절 위치 정보의 개수가 소정 개수, 예컨대 20개 이상인지를 판단한다.
S250의 판단 결과 저장된 사용자의 상반신 관절 위치 정보의 개수가 충분하지 않을 경우, 교류 행위 생성부(130)는 S210 내지 S250을 반복 수행한다.
반면, S250의 판단 결과 저장된 관절 위치 정보의 개수가 충분할 경우, 교류 행위 생성부(130)는 미리 학습된 로봇 자세 추정 신경망 모델(도 7 참조)을 기반으로 사용자의 상반신 관절 위치 및 로봇의 현재 관절 위치로부터 로봇의 다음 관절 위치를 추정한다(S260). 즉, 로봇의 교류 행위로 취할 자세에서의 로봇의 관절들의 위치를 추정해내는 것이다. 이러한 로봇 자세 추정 신경망 모델에 대한 설명은 도 7 및 도 8을 참조하여 후술하기로 한다.
추가적으로, 교류 행위 생성부(130)는 로봇의 감정 상태를 기반으로 로봇의 교류 행위를 수정한다(S270). 이때, 로봇의 감정 상태는, 1978년 러셀(Russell)이 제안한 방식에 따라 수치화될 수 있다.
또한, 교류 행위 생성부(130)는, 수치화된 로봇의 감정 상태를 기반으로 로봇 교류 행위의 속성을 결정할 수 있다. 이때, 교류 행위의 속성은 크기(volume) 및 속도(speed)를 포함하는 속성들 중 적어도 하나를 포함할 수 있다.
즉, 교류 행위 생성부(130)는, 유쾌 또는 불쾌의 정도를 나타내는 감정 상태값을 기반으로 산출된 교류 행위의 크기(volume)와, 긴장 또는 이완의 정도를 나타내는 감정 상태값에 따라 산출된 교류 행위의 교류 행위의 속도(speed)를 기반으로 교류 행위를 수정할 수 있다.
러셀이 제안한 방식에 따라 수치화된 로봇의 감정 상태를 기반으로 하는 로봇의 교류 행위 속성 결정에 대한 내용은 도 9 및 도 10을 참조하여 후술하기로 한다.
도 7은 실시예에 따른 로봇 자세 추정 신경망 모델의 예시도이다.
도 7을 참조하면, 로봇 자세 추정 신경망 모델(300)은, 매 스텝(프레임)마다 사용자의 현재 관절 위치 및 이전 관절 위치 시퀀스 데이터들을 입력받아 다음 로봇 관절 위치값을 출력한다. 출력된 다음 로봇의 관절 위치값은 로봇에게 전달되어 일련의 움직임, 즉 로봇의 자세로 생성될 수 있다.
로봇 자세 추정 신경망 모델(300)은, 크게 로봇의 1인칭 시점 영상에서 추출된 시퀀스별 사용자의 관절 위치값들을 입력받아 처리하는 인코더(Encoder)(310) 및 인코더(310)의 출력값 및 로봇의 현재 자세를 입력받아 로봇의 다음 관절 위치를 출력하는 디코더(Decoder)(320)를 포함할 수 있다.
이때, 로봇 자세 추정 신경망 모델(300)은, RNN(Recurrent Neural Network) 또는 LSTM(Long Short-Term Memory)의 학습 알고리즘을 사용한 학습 모델의 형태로 구현될 수도 있다.
RNN(Recurrent Neural Network) 또는 LSTM(Long Short-Term Memory)은 시간의 흐름에 따라 변하는 시계열 데이터를 학습하고 인공지능을 예측하는 학습 알고리즘이다. RNN은 매순간의 데이터를 인공신경망 구조에 쌓아올린 것으로 딥 러닝 중 가장 깊은 네트워크 구조이다. 시계열 데이터의 예로는 주가, 사람의 움직임, 기후, 인터넷 접속자수, 검색어 등을 생각해 볼 수 있다. LSTM은 Long Short-Term Memory란 게이트 유닛을 노드마다 배치하여 인공신경망이 너무 깊어서 오랜 시간 전의 데이터들을 까먹는 현상(vanishing gradient problem)을 해결한 알고리즘이다.
이때, 인코더(310) 및 디코더(320)는 모두 RNN(Recurrent Neural Network) 또는 LSTM(Long Short-Term Memory)으로 구성될 수 있다.
이때, 인코더(310)에서 출력된 값은 사용자의 행위 정보를 함축하는 것일 수 있다.
한편, 로봇 자세 추정 신경망 모델(100)은 로봇 자세 추정 신경망 모델 학습 장치(미도시)에 의해 사람들 간의 상호 작용 데이터를 기반으로 생성된 교류 행위 학습 데이터에 의해 미리 기계 학습 방법을 통해 미리 학습된 것일 수 있다.
이때, 충분한 학습을 위해서는 교류 행위 학습 데이터는 대용량이어야 하는데, 로봇 자세 추정 신경망 모델 학습 장치는 이러한 교류 행위 학습 데이터를 K3HI, ShakeFive2, SBU Kinect Interaction, NTU RGB+D 등과 같은 공개된 휴먼-휴먼 상호 작용 데이터 셋을 활용하여 생성할 수 있다.
도 8은 실시예에 따른 휴먼-휴먼 상호 작용 데이터를 교류 행위 학습 데이터로 변환하는 과정을 설명하기 위한 도면이다.
도 8을 참조하면, 휴먼-휴먼 상호 작용 학습 데이터는, RGB-D 카메라로 두 휴먼들 간의 상호 작용을 촬영한 것일 수 있다. 즉, 악수하거나, 하이파이브 하는 장면 등을 촬영한 것일 수 있다.
이때, 휴먼-휴먼 상호 작용 학습 데이터는, 골격(skeleton) 정보를 함께 제공할 수 있다. 다음의 <표 1>은 휴먼-휴먼 상호 작용 데이터의 일 예이다.
휴먼 1(사용자 역할) | 휴먼 2(로봇 역할) |
문 열고 들어오기 | 고개 숙여 인사하기 |
멀리서 쳐다보지 않기 | 쳐다보기 |
이리 오라고 손짓하기 | 다가가기 |
가까이서 쳐다보기 | 머리 만지기 |
한 손을 앞으로 내밀기 | 악수하려 두 손 내밀기 |
손으로 얼굴을 가리기 | 껴안으려 두 손 내밀기 |
하이파이브하기 | 하이파이브하기 |
때리려 손 들기 | 손으로 막으며 움츠리기 |
저리 가라며 손을 휘젓기 | 뒤돌아 가기 |
뒤돌아 나가기 | 고개숙여 인사하기 |
도 8을 참조하면, 휴먼-휴먼 상호작용 데이터는 학습하고자 하는 행동에 따라 사용자 골격과 로봇 골격으로 분리된다(S410).
보통 사용자의 행위가 먼저 이루어지고 로봇은 그에 대해 반응하는 형태이므로, <표 1>과 같이 먼저 행위를 시작하는 휴먼 1의 골격이 사용자 골격으로 분리되고, 나중에 반응하는 행위를 하는 휴먼 2의 골격이 로봇 골격으로 분리될 수 있다.
이때, 분리된 사용자 골격 및 로봇 골격은 전체 뷰 카메라 기준 좌표로 표현된 것일 수 있다. 따라서, 사용자 골격은 로봇 1인칭 시점 뷰 위치로 변환될 수 있다(S420). 그리고, 로봇 골격은 로봇의 관절 위치값으로 변환된다(S430).
이와 같이 변환된 사용자 골격 및 로봇 골격은 교류 행위 생성 학습 데이터로 사용된다.
즉, 로봇 자세 추정 신경망 모델 학습 장치는 전술한 바와 같이 생성된 교류 행위 학습 데이터의 사용자 골격을 로봇 자세 추정 신경망 모델(300)에 입력시키고, 로봇 자세 추정 신경망 모델(300)의 출력을 사용자 골격에 라벨링된 로봇 골격의 관절 위치값과 비교하여 로봇 자세 추정 신경망 모델을 역전파(back propagation)시키면서 가중치를 업데이트시킬 수 있다.
도 9는 러셀(Russell)이 제안한 감정 상태 표현법을 도시한 도면이고, 도 10은 로봇의 감정 상태가 반영된 로봇 포즈 예시도이다.
도 9를 참조하면, 로봇의 내부 감정 상태는 1978년 러셀(Russell)이 제안한대로 유쾌/불쾌-긴장/이완(pleasantness - arousal)축의 값으로 표현한다.
도 9에 도시된 가로축인 유쾌(PLEASANT)/불쾌(UNPLEASANT) 축은 정서의 좋음-나쁨 또는 호감 정도를 나타낸다. 이러한 유쾌/불쾌 축에서의 감정 상태값인 는 [-1, 1]의 범위를 가진다. 즉, 의 값이 1일 때는 유쾌한(pleasant) 상태를, -1일 때는 불쾌한(unpleasant) 상태를 의미한다.
도 9에 도시된 세로축인 긴장/이완 축은 각성 또는 흥분 정도를 나타낸다. 이러한 긴장/이완 축에서의 감정 상태값인 는 [-1, 1]의 범위를 가진다. 즉, 값이 1일 때는 격양된(intense) 상태를, -1일 때는 온화한(mild) 상태를 의미한다.
종래에는 기쁨(happy), 화남(angry), 졸림(sleepy), 지루함(bored) 등과 같은 명확한 감정 상태만이 표현될 수 있었다. 그런데, 이러한 Russell이 제안한 감정 상태 표현 방식을 사용할 경우, 명확한 감정 상태가 아닌 중간 정도의 애매한 감정도 두 축을 기준으로 하는 감정 상태 좌표 (, )을 이용하여 표현될 수 있다.
한편, 전술한 바와 같이 이와 같이 러셀이 제안한 감정 상태 표현 방식에 따른 로봇 감정 상태를 기반으로 로봇 교류 행위의 크기(volume)와 속도(speed)가 결정될 수 있다.
이때, 로봇 교류 행위의 크기(volume)는, 교류 행위를 얼마나 크게 하는지를 나타내고, 속도(speed)는 교류 행위를 취함에 있어서 손이나 몸을 움직이는 속도를 나타낸다.
이러한 로봇 행위의 크기 은 로봇의 유쾌/불쾌 축의 감정 상태값 에 의해 다음의 <수학식 1>과 같이 결정될 수 있다.
<수학식 1>에서 은 로봇의 유쾌 또는 불쾌 정도를 얼마나 반영할지를 결정하는 상수로 (0, 1) 범위의 값으로 설정되며, 값이 클수록 더 많이 반영됨을 의미한다.
즉, 의 값이 1이면 로봇 자세 추정 신경망 모델에서 생성된 행위를 그대로 발현하겠다는 것이고, 1보다 작으면 생성된 행위보다 작은 동작을, 1보다 크면 더 큰 동작을 한다는 의미이다.
또한, 로봇 행위의 속도 는 긴장 또는 이완 정도 에 의해 다음의 <수학식 2>와 같이 결정될 수 있다.
<수학식 2>에서 은 로봇의 이완 정도를 얼마나 반영할지를 결정하는 상수로 (0, 1)값으로 설정하며 값이 클수록 더 많이 반영한다는 것이다.
즉, 결정된 의 값이 1이면 로봇 자세 추정 신경망 모델에서 생성된 행위를 그대로 발현하겠다는 것이고, 1보다 작으면 생성된 행위보다 느린 동작을, 1보다 크면 빠른 동작을 한다는 의미이다.
최종적으로 로봇 감정을 반영한 로봇 포즈 는 다음의 <수학식 3>과 같이 결정된다.
<수학식 3>에서 는 로봇 자세 추정 신경망 모델에서 생성된 로봇 포즈를, 는 현재 로봇 포즈를 나타낸다.
도 10을 참조하면, (1)이 현재 포즈()이고 (3)이 로봇 자세 추정 신경망 모델에서 생성된 다음 포즈()일 때, (2)와 (4)는 로봇의 감정 상태가 반영된 다음 로봇 포즈 예시이다. (2)는 일 때 원래보다 더 작거나 느린 행위를 생성한 예시이며, (4)는 반대로 일 때 더 크거나 빠른 행위를 생성한 예시를 보여준다. 만약 로봇의 감정 상태가 중립적이어서 라면, 로봇 자세 추정 신경망 모델에서 생성된 다음 로봇 포즈를 그대로 생성하게 된다.
다음으로, 최종 행위 결정부(140)의 동작에 대해 도 11 내지 도 15를 참조하여 설명하기로 한다.
도 11은 실시예에 따른 로봇 최종 행위 결정 단계를 설명하기 위한 순서도이다.
도 11을 참조하면, 먼저 로봇이 대기 상태일 때, 최종 행위 결정부(140)는 사용자 발화가 입력 여부 및 사용자 행위가 입력 여부를 판단한 결과에 따라 최종 행위를 결정한다.
판단 결과, 사용자 발화 및 사용자 행위가 모두 입력되지 않은 것으로 판단(S510, S520)될 경우, 최종 행위 결정부(140)는 계속 대기 상태를 유지한다(S530).
판단 결과, 사용자 발화가 입력되지 않고, 사용자 행위만 입력된 것으로 판단(S510, S520)될 경우, 최종 행위 결정부(140)는 교류 행위를 발현한다(S540).
판단 결과, 사용자 발화가 입력되지 않고, 사용자 행위만 입력된 것으로 판단(S510, S520)될 경우, 최종 행위 결정부(140)는 교류 행위를 발현한다(S560).
판단 결과, 사용자 발화가 입력되고, 사용자 행위가 입력되지 않은 것으로 판단(S510, S550)될 경우, 최종 행위 결정부(140)는 발화 행위를 발현한다(S560).
판단 결과, 사용자 발화 및 사용자 행위가 모두 입력된 것으로 판단(S510, S550)될 경우, 최종 행위 결정부(140)는 발화 행위 및 교류 행위를 동시에 발현한다(S560).
전술한 바와 같은 과정을 통해 로봇은 대기 상태, 발화 행위 상태, 교류 행위 상태 및 동시 행위 상태가 되는데, 각각에 상태에서 다시 사용자 입력에 따라 로봇의 최종 행위는 각각 상이하게 결정될 수 있다.
도 12는 실시예에 따른 로봇 발화 행위 상태에서의 사용자 입력에 따른 최종 행위 결정 시나리오를 설명하기 위한 도면이다.
도 12를 참조하면, 로봇의 발화 행위 상태에서 1)과 같이 사용자 발화만 입력되었을 경우, 로봇 또한 새로운 발화를 시작하게 되므로 기존의 발화 행위를 중단하고 새로운 발화 내용에 맞는 발화 행위를 생성한다.
로봇의 발화 행위 상태에서 2)와 같이 사용자 행위만 입력되었을 경우, 최종 행위 결정부(140)는 이에 대응하는 새로운 교류 행위와 기존의 발화 행위를 결합하여 동시 행위를 생성한다.
로봇의 발화 행위 상태에서 3)과 같이 사용자 발화와 행위가 동시에 입력되었을 경우, 최종 행위 결정부(140)는 기존의 발화 행위를 중단하고 새로 생성된 발화 행위와 교류 행위를 결합하여 동시 행위를 생성한다.
도 13은 실시예에 따른 로봇의 교류 행위 상태에서의 사용자 입력에 따른 최종 행위 결정 시나리오를 설명하기 위한 도면이다.
도 13을 참조하면, 로봇의 교류 행위 상태에서 1)과 같이 사용자 발화만 입력되었을 경우, 최종 행위 결정부(140)는 기존의 교류 행위와 새로 생성한 발화 행위를 결합하여 동시 행위를 생성한다.
로봇의 교류 행위 상태에서 2)와 같이 사용자 행위만 입력되었을 경우, 최종 행위 결정부(140)는 이에 대응하는 새로운 교류 행위를 생성한다.
로봇의 교류 행위 상태에서 3)과 같이 사용자 발화와 행위가 동시에 입력되었을 경우, 최종 행위 결정부(140)는 기존의 교류 행위를 중단하고, 새로 생성된 발화 행위와 교류 행위를 결합하여 동시 행위를 생성한다.
마지막으로 로봇이 동시 행위를 발현하고 있을 때의 처리 방식은 도 13에 도시된 교류 행위 상태일 때와 동일하므로, 그 상세한 설명은 생략하기로 한다.
한편, 전술한 바와 같은 시나리오들을 고려했을 때, 동시 행위는 다음과 같은 상황에서 생성된다.
즉, 대기 상태에서 사용자의 발화와 행위가 동시에 입력되는 경우, 교류 행위 상태에서 사용자의 발화가 입력되는 경우, 발화 행위 상태에서 사용자의 행위가 입력되는 경우에 동시 행위가 발현될 수 있다.
이때, 서로 상이한 두 행위들을 결합하는 데에 있어, 단순히 두 행위의 중간 동작을 생성한다면 자칫 부자연스러운 행위가 될 수도 있다. 예컨대, 악수하기와 하이-파이브하기 행위는 서로 비슷하게 움직이는 행위임에도 불구하고 그 중간의 궤적으로 행위가 생성될 경우, 이는 악수하려는 행동으로도, 하이-파이브를 하려는 행동으로도 보이지 않게 된다.
반면, 두 행위 중 단순히 한 행위를 선택한다면 사용자의 발화나 행위 중 하나가 무시되는 상황이 발생될 수 있다. 따라서, 실시예에서는 사용자의 발화와 행위 모두에 최대한 반응하면서도 자연스러운 동시 행위 생성 방법을 제안한다.
도 14는 실시예에 따른 동시 행위 생성 과정을 설명하기 위한 순서도이고, 도 15는 실시예에 따른 로봇의 관절 카테고리 분류 예시도이다.
최종 행위 결정부(140)는 먼저 동시 행위를 구성하는 두 행위가 충돌했을 때 어떤 행위를 더 중점적으로 발현할지를 결정한다. 이는 두 행위의 성격에 따라 다음과 같이 결정될 수 있다.
도 14를 참조하면, 최종 행위 결정부(140)는, 두 행위의 우선 순위를 결정한다(S610).
예컨대, 도 12의 2)의 경우나 도 13의 1)의 경우처럼 기존 행위와 새로운 행위가 결합되는 경우, 기존 행위의 우선순위를 높게 설정하고 새로운 행위의 우선순위를 낮게 설정할 수 있다. 즉, 새로운 입력이 들어올 때마다 행위를 계속 바꾸면 산만하게 보일 수 있기 때문이다.
또한, 도 11에서와 같이 사용자의 발화와 행위가 동시에 입력되는 상황이거나, 도 12의 3), 도 13의 3)의 상황처럼 새로운 발화 행위와 교류 행위가 결합되는 경우, 교류 행위의 우선순위를 높게 설정하고 발화 행위의 우선순위를 낮게 설정할 수 있다. 이는 발화 행위를 발현하지 않더라도 발화 내용으로 어느 정도 의미 전달이 될 수 있기 때문이다.
그런 후, 최종 행위 결정부(140)는, 우선순위가 높은 행위의 동작 변화량 산출하고, 산출된 동작 변화량을 기준으로 두 행위를 중첩하거나 하나의 행위를 선택할지 결정한다(S620~S650).
이때, 행위의 동작 변화량은 행위에 따른 모든 관절의 위치 변화량의 합으로 다음의 <수학식 4>와 같이 계산될 수 있다.
<수학식 4>에서 는 점 와 사이의 거리를, 와 는 각각 번째 관절의 현재 위치와 다음 위치를 나타낸다.
<수학식 4>에서와 같이 계산된 동작 변화량의 값에 따라 두 행위들의 결합 방식은 다음과 같이 결정될 수 있다.
도 14를 참조하면, 최종 행위 결정부(140)는 우선 순위가 높은 행위의 변화량이 상위 임계치 보다 클 경우, 해당 행위가 중요한 동작일 확률이 높으므로, 해당 행위를 발현한다(S630).
최종 행위 결졍부(140)는, 우선 순위가 높은 행위의 변화량이 하위 임계치 보다 작고 보다 클 경우, 두 행위들을 중첩한다(S640).
최종 행위 결정부(140)는 우선순위가 높은 행위의 동작 변화량이 보다 작을 경우, 해당 행위가 중요하지 않은 동작일 확률이 높으므로 해당 행위는 무시하고 우선순위가 낮은 행위를 선택하여 발현한다(S650).
이때, 와 는 상수 값으로 로봇의 크기와 구동하는 환경에 따라 사용자나 개발자가 상이하게 설정할 수도 있고, 학습에 의해 결정될 수도 있다.
이때, 두 행위들을 중첩함에 있어, 두 행위들 각각에 상응하는 신체 카테고리를 검출하고, 두 행위들 각각에 상응하는 신체 카테고리가 동일할 경우, 우선 순위가 높은 행위만을 출력하고, 두 행위들 각각에 상응하는 신체 카테고리가 상이할 경우, 두 행위들을 동시에 출력할 수 있다.
이때, 신체 카테고리는, 도 15에 도시된 바와 같이, 머리, 몸통, 오른팔, 왼팔 및 하체를 포함할 수 있다.
즉, 두 행위들의 중첩은 우선순위가 높은 행위가 주로 사용하는 신체 관절 카테고리들을 찾고, 그 외의 신체 관절들을 이용하여 우선순위가 낮은 행위가 발현되도록 할 수 있다. 예컨대, 우선 순위가 높은 행위가 오른손으로 악수하는 동작이라면, 이 행위가 주로 사용하는 신체 카테고리는 "오른팔"이다. 이때, 중첩할 다른 행위가 왼손으로 특정 위치를 가리키는 행위라면 주로 사용하는 신체 관절 카테고리가 겹치지 않으므로 "오른팔"로는 악수를 하면서 "왼팔"로 가리키는 행위를 발현한다.
반면, 중첩할 다른 행위가 오른손으로 하이-파이브하는 행위라면 주로 사용하는 신체 관절 카테고리가 "오른팔"로 동일하므로 우선순위가 높은 악수하는 행위만을 발현한다.
이때, 행위에 따른 신체 카테고리를 검출함에 있어, 행위 각각에 따른 신체 카테고리별 관절들의 위치 변화량을 기반으로 검출할 수 있다.
즉, 주로 사용하는 신체 카테고리의 여부는 해당 카테고리에 속하는 각 관절 위치 변화량이 소정 임계치 이상으로 큰지를 기준으로 판단한다. 예컨대, 해당 행위가 오른팔을 주로 사용하는지 판단하기 위해서는 오른팔 동작 변화량을 다음의 <수학식 5>와 같이 계산할 수 있다.
이 값이 상수 값 보다 크다면 주로 사용하는 신체 카테고리라고 판단한다. 은 로봇의 크기와 구동하는 환경에 따라 사용자나 개발자가 다르게 설정할 수도 있고 학습에 의해 결정될 수도 있다. 은 오른팔을 구성하는 관절 번호들의 집합이다.
도 16은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
실시예에 따른 로봇 인터랙션 행위 생성 장치 및 로봇 자세 추정 신경망 모델 학습 장치 각각은 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.
컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.
한편, 실시예에 따른 로봇 인터랙션 행위 생성 방법은, 사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계 및 사용자의 행위 입력에 대응하는 로봇의 교류 행위를 생성하는 단계 중 적어도 하나와, 사용자의 발화 입력 및 행위 입력 중 적어도 하나와 로봇의 현재 행위를 기반으로 발화 행위 및 교류 행위 중 적어도 하나를 최종 행위로 결정하는 단계를 포함할 수 있다.
이러한 실시예에 따른 로봇 인터랙션 행위 생성 방법의 상세한 설명은 도 4 내지 도 15를 참조하여 전술한 로봇 인터랙션 행위 생성 장치의 동작과 동일하므로 상세한 설명은 생략하기로 한다.
이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100 : 로봇 인터랙션 행위 생성 장치
110 : 대화 생성부 120 : 발화 행위 생성부
130 : 교류 행위 생성부 140 : 최종 행위 결정부
110 : 대화 생성부 120 : 발화 행위 생성부
130 : 교류 행위 생성부 140 : 최종 행위 결정부
Claims (20)
- 사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계;
미리 학습된 로봇 자세 추정 신경망 모델을 기반으로 상기 사용자의 관절 위치 및 로봇의 현재 관절 위치로부터 추정된 로봇의 다음 관절 위치에 기반하여 로봇의 교류 행위를 생성하는 단계; 및
상기 발화 행위 및 교류 행위 중 적어도 하나를 이용하여 최종 행위를 생성하는 단계를 포함하되,
로봇 자세 추정 신경망 모델은,
로봇의 1인칭 시점 영상에서 추출된 시퀀스별 사용자의 관절 위치값들을 입력받아 처리하는 인코더; 및
인코더의 출력값 및 로봇의 현재 관절 위치를 입력받아 로봇의 다음 관절 위치를 출력하는 디코더를 포함하고,
최종 행위를 생성하는 단계는,
로봇이 기존 교류 행위 및 신규 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하거나, 로봇이 발화 행위 및 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하는 경우,
두 행위들 중 우선 순위를 결정하는 단계;
우선 순위가 높은 행위의 동작 변화량을 산출하는 단계;
동작 변화량을 기준으로 두 행위들 중 하나를 출력하거나, 두 행위들을 중첩하여 출력하는 단계를 포함하는, 로봇 인터랙션 행위 생성 방법. - 제1 항에 있어서, 로봇의 교류 행위를 생성하는 단계는,
로봇 자세 추정 신경망 모델을 기반으로 생성된 교류 행위를 로봇의 감정 상태를 기반으로 수정하는 단계를 더 포함하는, 로봇 인터랙션 행위 생성 방법. - 제2 항에 있어서, 수정하는 단계는,
유쾌 또는 불쾌의 정도를 나타내는 감정 상태값을 기반으로 산출된 교류 행위의 크기와, 긴장 또는 이완의 정도를 나타내는 감정 상태값에 따라 산출된 교류 행위의 교류 행위의 속도를 기반으로 교류 행위를 수정하는, 로봇 인터랙션 행위 생성 방법. - 제1 항에 있어서, 최종 행위를 생성하는 단계는,
로봇이 대기 상태일 때,
사용자 발화 입력에 따라 로봇의 발화 행위를 출력하고,
사용자 행위 입력에 따라 로봇의 교류 행위만을 출력하고,
사용자 발화 입력 및 사용자 행위 입력에 따라 로봇의 발화 행위 및 교류 행위를 동시에 출력하는, 로봇 인터랙션 행위 생성 방법. - 제1 항에 있어서, 최종 행위를 생성하는 단계는,
로봇이 발화 행위의 상태일 때,
사용자 발화 입력에 따라 로봇의 신규 발화 행위를 출력하고,
사용자 행위 입력에 따라 로봇의 기존 발화 행위 및 신규 교류 행위를 동시에 출력하고,
사용자 발화 입력 및 사용자 행위 입력에 따라 로봇의 신규 발화 행위 및 신규 교류 행위를 동시에 출력하는, 로봇 인터랙션 행위 생성 방법. - 제1 항에 있어서, 최종 행위를 생성하는 단계는,
로봇이 교류 행위의 상태일 때,
사용자 발화 입력에 따라 로봇의 신규 발화 행위 및 기존 교류 행위를 동시에 출력하고,
사용자 행위 입력에 따라 로봇의 신규 교류 행위를 출력하고,
사용자 발화 입력 및 사용자 행위 입력에 따라 로봇의 신규 발화 행위 및 신규 교류 행위를 동시에 출력하는, 로봇 인터랙션 행위 생성 방법. - 삭제
- 제 1항에 있어서, 우선 순위를 결정하는 단계는,
교류 행위를 발화 행위 보다 높은 우선 순위로 결정하거나, 기존 교류 행위를 신규 교류 행위 보다 높은 우선 순위로 결정하는, 로봇 인터랙션 행위 생성 방법. - 제1 항에 있어서, 동작 변화량을 산출하는 단계는,
행위에 따른 모든 관절들의 위치 변화량의 합으로 동작 변화량을 산출하는, 로봇 인터랙션 행위 생성 방법. - 제 1항에 있어서, 출력하는 단계는,
동작 변화량이 상위 임계치보다 클 경우, 우선 순위가 높은 행위를 출력하고,
동작 변화량이 하위 임계치보다 작을 경우, 우선 순위가 낮은 행위를 출력하고,
동작 변화량이 상위 임계치 및 하위 임계치 사이일 경우, 두 행위들을 중첩하는, 로봇 인터랙션 행위 생성 방법. - 제10 항에 있어서, 출력하는 단계는,
두 행위들을 중첩함에 있어,
두 행위들 각각에 상응하는 신체 카테고리를 검출하고,
두 행위들 각각에 상응하는 신체 카테고리가 동일할 경우, 우선 순위가 높은 행위만을 출력하고,
두 행위들 각각에 상응하는 신체 카테고리가 상이할 경우, 두 행위들을 동시에 출력하는, 로봇 인터랙션 행위 생성 방법. - 제11 항에 있어서, 신체 카테고리는,
머리, 몸통, 오른팔, 왼팔 및 하체를 포함하는, 로봇 인터랙션 행위 생성 방법. - 제11 항에 있어서, 출력하는 단계는,
행위에 따른 신체 카테고리를 검출함에 있어, 행위 각각에 따른 신체 카테고리별 관절들의 위치 변화량을 기반으로 검출하는, 로봇 인터랙션 행위 생성 방법. - 적어도 하나의 프로그램이 기록된 메모리; 및
프로그램을 실행하는 프로세서를 포함하며,
프로그램은,
사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계;
미리 학습된 로봇 자세 추정 신경망 모델을 기반으로 상기 사용자의 관절 위치 및 로봇의 현재 관절 위치로부터 추정된 로봇의 다음 관절 위치에 기반하여 로봇의 교류 행위를 생성하는 단계; 및
상기 발화 행위 및 교류 행위 중 적어도 하나를 이용하여 최종 행위를 생성하는 단계를 수행하되,
로봇 자세 추정 신경망 모델은,
로봇의 1인칭 시점 영상에서 추출된 시퀀스별 사용자의 관절 위치값들을 입력받아 처리하는 인코더; 및
인코더의 출력값 및 로봇의 현재 관절 위치를 입력받아 로봇의 다음 관절 위치를 출력하는 디코더를 포함하고,
최종 행위를 생성하는 단계는,
로봇이 기존 교류 행위 및 신규 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하거나, 로봇이 발화 행위 및 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하는 경우,
두 행위들 중 우선 순위를 결정하는 단계;
우선 순위가 높은 행위의 동작 변화량을 산출하는 단계;
동작 변화량을 기준으로 두 행위들 중 하나를 출력하거나, 두 행위들을 중첩하여 출력하는 단계를 포함하는, 로봇 인터랙션 행위 생성 장치. - 제14 항에 있어서, 로봇의 교류 행위를 생성하는 단계는,
로봇 자세 추정 신경망 모델을 기반으로 생성된 교류 행위를 로봇의 감정 상태를 기반으로 수정하는 단계를 더 포함하되,
수정하는 단계는,
유쾌 또는 불쾌의 정도를 나타내는 감정 상태값을 기반으로 산출된 교류 행위의 크기와, 긴장 또는 이완의 정도를 나타내는 감정 상태값에 따라 산출된 교류 행위의 교류 행위의 속도를 기반으로 교류 행위를 수정하는, 로봇 인터랙션 행위 생성 장치. - 삭제
- 제 14항에 있어서, 출력하는 단계는,
동작 변화량이 상위 임계치보다 클 경우, 우선 순위가 높은 행위를 출력하고, 동작 변화량이 하위 임계치보다 작을 경우, 우선 순위가 낮은 행위를 출력하고, 동작 변화량이 상위 임계치 및 하위 임계치 사이일 경우, 두 행위들을 중첩하는, 로봇 인터랙션 행위 생성 장치. - 제14 항에 있어서, 출력하는 단계는,
두 행위들을 중첩하여 출력함에 있어, 행위 각각에 따른 신체 카테고리별 관절들의 위치 변화량을 기반으로 두 행위들 각각에 상응하는 신체 카테고리를 검출하고,
두 행위들 각각에 상응하는 신체 카테고리가 동일할 경우, 우선 순위가 높은 행위만을 출력하고,
두 행위들 각각에 상응하는 신체 카테고리가 상이할 경우, 두 행위들을 동시에 출력하는, 로봇 인터랙션 행위 생성 장치. - 사용자의 발화 입력에 대응되는 로봇의 발화 행위를 생성하는 단계;
사용자의 행위 입력에 대응되는 로봇의 교류 행위를 생성하는 단계; 및
상기 발화 행위 및 교류 행위 중 적어도 하나를 이용하여 최종 행위를 생성하는 단계를 수행하되,
최종 행위를 생성하는 단계는,
로봇이 기존 교류 행위 및 신규 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하거나, 로봇이 발화 행위 및 교류 행위를 포함하는 두 행위들 중 적어도 하나를 출력하는 경우,
두 행위들 중 우선 순위를 결정하는 단계;
우선 순위가 높은 행위의 동작 변화량을 산출하는 단계;
동작 변화량을 기준으로 두 행위들 중 하나를 출력하거나, 두 행위들을 중첩하여 출력하는 단계를 더 포함하는, 로봇 인터랙션 행위 생성 방법. - 제19 항에 있어서, 출력하는 단계는,
두 행위들을 중첩하여 출력함에 있어, 행위 각각에 따른 신체 카테고리별 관절들의 위치 변화량을 기반으로 두 행위들 각각에 상응하는 신체 카테고리를 검출하고,
두 행위들 각각에 상응하는 신체 카테고리가 동일할 경우, 우선 순위가 높은 행위만을 출력하고,
두 행위들 각각에 상응하는 신체 카테고리가 상이할 경우, 두 행위들을 동시에 출력하는, 로봇 인터랙션 행위 생성 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200105409A KR102576788B1 (ko) | 2020-08-21 | 2020-08-21 | 로봇 인터랙션 행위 생성 장치 및 방법 |
US17/105,924 US11691291B2 (en) | 2020-08-21 | 2020-11-27 | Apparatus and method for generating robot interaction behavior |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200105409A KR102576788B1 (ko) | 2020-08-21 | 2020-08-21 | 로봇 인터랙션 행위 생성 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220023543A KR20220023543A (ko) | 2022-03-02 |
KR102576788B1 true KR102576788B1 (ko) | 2023-09-11 |
Family
ID=80269356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200105409A KR102576788B1 (ko) | 2020-08-21 | 2020-08-21 | 로봇 인터랙션 행위 생성 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11691291B2 (ko) |
KR (1) | KR102576788B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230103946A (ko) | 2021-12-31 | 2023-07-07 | 한양대학교 산학협력단 | 학습자의 간호수행력 추정 및 가상에이전트의 감정 상태 업데이트를 이용한 동적 인터랙션 제공 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019030949A (ja) * | 2017-08-09 | 2019-02-28 | 日本電信電話株式会社 | ロボット制御装置、ロボット制御方法およびロボット制御プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100510597B1 (ko) | 2003-02-04 | 2005-08-30 | 동부아남반도체 주식회사 | 웨이퍼의 임의 공급방법 |
KR100639068B1 (ko) | 2004-09-06 | 2006-10-30 | 한국과학기술원 | 로봇의 감정표현장치 및 방법 |
US9431027B2 (en) | 2011-01-26 | 2016-08-30 | Honda Motor Co., Ltd. | Synchronized gesture and speech production for humanoid robots using random numbers |
WO2017169826A1 (ja) * | 2016-03-28 | 2017-10-05 | Groove X株式会社 | お出迎え行動する自律行動型ロボット |
US10593349B2 (en) * | 2016-06-16 | 2020-03-17 | The George Washington University | Emotional interaction apparatus |
US20180133900A1 (en) * | 2016-11-15 | 2018-05-17 | JIBO, Inc. | Embodied dialog and embodied speech authoring tools for use with an expressive social robot |
KR102640420B1 (ko) * | 2016-12-22 | 2024-02-26 | 삼성전자주식회사 | 홈 로봇 장치의 동작 운용 방법 및 이를 지원하는 홈 로봇 장치 |
US20180229372A1 (en) * | 2017-02-10 | 2018-08-16 | JIBO, Inc. | Maintaining attention and conveying believability via expression and goal-directed behavior with a social robot |
KR102497042B1 (ko) * | 2018-01-29 | 2023-02-07 | 삼성전자주식회사 | 사용자 행동을 바탕으로 반응하는 로봇 및 그의 제어 방법 |
KR102168802B1 (ko) | 2018-09-20 | 2020-10-22 | 한국전자통신연구원 | 상호 작용 장치 및 방법 |
US20210201661A1 (en) * | 2019-12-31 | 2021-07-01 | Midea Group Co., Ltd. | System and Method of Hand Gesture Detection |
US11482238B2 (en) * | 2020-07-21 | 2022-10-25 | Harman International Industries, Incorporated | Audio-visual sound enhancement |
-
2020
- 2020-08-21 KR KR1020200105409A patent/KR102576788B1/ko active IP Right Grant
- 2020-11-27 US US17/105,924 patent/US11691291B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019030949A (ja) * | 2017-08-09 | 2019-02-28 | 日本電信電話株式会社 | ロボット制御装置、ロボット制御方法およびロボット制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20220023543A (ko) | 2022-03-02 |
US11691291B2 (en) | 2023-07-04 |
US20220055221A1 (en) | 2022-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368609B (zh) | 基于情绪引擎技术的语音交互方法、智能终端及存储介质 | |
KR101925440B1 (ko) | 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법 | |
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
CN108227932B (zh) | 交互意图确定方法及装置、计算机设备及存储介质 | |
CN106457563B (zh) | 人形机器人和执行人形机器人与用户之间的对话的方法 | |
US20200090393A1 (en) | Robot and method for operating the same | |
US20190279642A1 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
US11017551B2 (en) | System and method for identifying a point of interest based on intersecting visual trajectories | |
KR102448382B1 (ko) | 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법 | |
US10785489B2 (en) | System and method for visual rendering based on sparse samples with predicted motion | |
CN114995657B (zh) | 一种智能机器人的多模态融合自然交互方法、系统及介质 | |
US20220215678A1 (en) | System and method for reconstructing unoccupied 3d space | |
KR20210070213A (ko) | 음성 사용자 인터페이스 | |
CN106502382B (zh) | 用于智能机器人的主动交互方法和系统 | |
KR102222911B1 (ko) | 로봇 상호작용 시스템 및 그를 위한 프로그램 | |
JP2023027060A (ja) | ロボット、ロボットの制御方法及びプログラム | |
CN115631267A (zh) | 生成动画的方法及装置 | |
KR102576788B1 (ko) | 로봇 인터랙션 행위 생성 장치 및 방법 | |
KR102120936B1 (ko) | 스마트 단말의 기능을 탑재한 캐릭터 인형 제작 서비스 제공 시스템 | |
Chandrasiri et al. | Internet communication using real-time facial expression analysis and synthesis | |
WO2024014318A1 (ja) | 学習モデル生成装置、推論処理装置、学習モデル生成方法および推論処理方法 | |
JP7474211B2 (ja) | ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 | |
JP2024152707A (ja) | 行動制御システム | |
Aylett et al. | Peter 2.0: Building a Cyborg | |
Alexander | A Photo-realistic Voice-bot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |