KR20220011078A - 능동적 인터랙션 방법, 장치, 전자 기기 및 판독 가능 기록 매체 - Google Patents
능동적 인터랙션 방법, 장치, 전자 기기 및 판독 가능 기록 매체 Download PDFInfo
- Publication number
- KR20220011078A KR20220011078A KR1020210087893A KR20210087893A KR20220011078A KR 20220011078 A KR20220011078 A KR 20220011078A KR 1020210087893 A KR1020210087893 A KR 1020210087893A KR 20210087893 A KR20210087893 A KR 20210087893A KR 20220011078 A KR20220011078 A KR 20220011078A
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- interaction
- image frame
- active
- visual
- Prior art date
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 226
- 238000000034 method Methods 0.000 title claims abstract description 104
- 239000013598 vector Substances 0.000 claims abstract description 175
- 230000000007 visual effect Effects 0.000 claims abstract description 142
- 230000000977 initiatory effect Effects 0.000 claims abstract description 20
- 230000004931 aggregating effect Effects 0.000 claims abstract description 3
- 230000015654 memory Effects 0.000 claims description 19
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
본 발명은 능동적 인터랙션 방법, 장치, 전자 기기 및 판독 가능 기록 매체를 개시하였는 바, 심층 학습 및 이미지 처리 기술 분야에 관한 것이다. 본 발명의 능동적 인터랙션을 실행할 때 채용하는 실현 방안은, 실시간으로 촬영한 비디오를 취득하는 단계; 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성하는 단계; 상기 비디오의 각각의 이미지 프레임에 대해 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성하는 단계; 동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성하는 단계; 및 소정의 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시하는 것을 포함한다. 본 발명은 능동적 인터랙션의 정확성 및 지능성을 향상시킬 수 있다.
Description
본 발명은 인공 지능 기술(artificial intelligence technology) 분야에 관한 것으로, 특히 이미지 처리 기술(image processing technology) 분야의 방법, 장치, 전자 기기 및 판독 가능 기록 매체에 관한 것이다.
기존의 능동적 인터랙션의 종래의 해결안은 인체 검출, 얼굴 검출 등 방법을 사용하여, 소정의 규칙에 따라 간단한 인터랙션 논리를 트리거 하여 능동적 인터랙션을 실현한다.
종래의 해결안은 일부 사회학 중의 사람과 사람 사이의 인터랙션의 기준을 융합하여 규칙으로 설정하지만, 감지한 신호의 단일한 차원에 국한되어 복잡한 규칙을 설정하기 어렵기에, 간단한 인사만 가능할 뿐, 실제의 복잡한 시나리오의 복수의 종류의 인터랙션 의도에 대해 피드백을 제공할 수 없다. 특히 여러 사람의 시나리오에 대해, 규칙에 의해 구동되는 방법은 제일 중요한 인터랙션 가능 대상을 발견하기 매우 어려우며, 보행자를 방해하는 정황 등을 초래할 수 있으며, 따라서 능동적 인터랙션의 정확성(accuracy) 및 지능성(intelligence)이 모두 비교적 낮다.
본 발명이 기술 문제를 해결하기 위하여 채용하는 기술안은 능동적 인터랙션 방법을 제공한다.
당해 방법은, 실시간으로 촬영한 비디오를 취득하는 단계; 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성하는 단계; 상기 비디오의 각각의 이미지 프레임에 대해 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성하는 단계; 동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성하는 단계; 및 기 결정된 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시하는 것을 포함한다.
본 발명이 기술 문제를 해결하기 위하여 채용하는 기술안은 능동적 인터랙션 장치를 제공하는 바, 당해 장치는, 실시간으로 촬영한 비디오를 취득하기 위한 취득 유닛; 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성하기 위한 제1 생성 유닛; 상기 비디오의 각각의 이미지 프레임에 대해 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성하기 위한 제2 생성 유닛; 동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성하기 위한 제3 생성 유닛; 및 기 결정된 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시하기 위한 인터랙션 유닛을 구비한다.
전자 기기에 있어서, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어 상기 적어도 하나의 프로세서로 하여금 상기 방법을 실행하도록 한다.
컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기 방법을 실행하도록 한다.
본 발명의 일 실시예는 아래의 이점 또는 유익한 효과를 가진다. 본 발명은 능동적 인터랙션의 정확성 및 지능성을 향상시킬 수 있다. 인터랙션 대상의 시각 정보를 분석하고, 인터랙션 대상에 대해 시공간 모델을 구축하여 인터랙션 대상의 인터랙션 의도를 분석하는 기술 수단을 채용하였기에, 종래 기술에서 간단한 인터랙션 논리에만 기반하여 능동적 인터랙션을 트리거 함으로써 초래하는 정확성 및 지능성이 낮아지는 기술 문제를 극복하였으며, 능동적 인터랙션의 정확성 및 지능성을 향상시키는 기술 효과를 실현하였다.
상기 선택적인 방식이 가지는 기타 효과는 아래에서 구체적인 실시예를 참조하여 설명하기로 한다.
도면은 본 방안을 더 잘 이해하도록 하기 위한 것이며, 본 발명에 대한 한정을 이루지 않는다.
도 1은 본 발명에 따른 제1 실시예의 모식도이다.
도 2는 본 발명에 따른 제2 실시예의 모식도이다.
도 3은 본 발명에 따른 제3 실시예의 모식도이다.
도 4는 본 발명은 실시예를 실현하기 위한 능동적 인터랙션 방법의 전자 기기의 블럭도이다.
도 1은 본 발명에 따른 제1 실시예의 모식도이다.
도 2는 본 발명에 따른 제2 실시예의 모식도이다.
도 3은 본 발명에 따른 제3 실시예의 모식도이다.
도 4는 본 발명은 실시예를 실현하기 위한 능동적 인터랙션 방법의 전자 기기의 블럭도이다.
이하, 도면을 참조하여 본 발명의 시범적인 실시예를 설명하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 설명에서는 잘 알려진 기능 및 구조의 설명을 생략하였다.
도 1은 본 발명에 따른 제1 실시예의 모식도이다. 도 1에 나타낸 바와 같이, 본 실시예의 능동적 인터랙션 방법은 구체적으로 아래의 것을 포함할 수 있다.
S101에 있어서, 실시간으로 촬영한 비디오를 취득한다.
S102에 있어서, 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표(visual target)를 추출하고, 각각의 시각 목표의 제1 특징 벡터(first feature vector)를 생성한다.
S103에 있어서, 상기 비디오의 각각의 이미지 프레임에 대해 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터(second feature vector)를 생성한다.
S104에 있어서, 동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터(third feature vector)를 생성한다.
S105에 있어서, 소정의 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시한다.
본 실시예의 능동적 인터랙션 방법의 수행 주체는 지능 로봇이며, 인터랙션 대상의 시각 정보를 분석하고, 인터랙션 대상에 대해 시공간 모델을 구축(time-space modeling)함으로써, 인터랙션 대상의 인터랙션 의도를 충분히 분석할 수 있고, 능동적 인터랙션의 지능성 및 정확성을 향상시킬 수 있다.
본 실시예는 S101을 수행하여 실시간으로 촬영한 비디오를 취득할 때, 지능 로봇을 통해 자신이 휴대한 촬영 장치를 이용하여 실시간으로 촬영한 비디오를 취득할 수 있으며, 또한 지능 로봇을 통해 기타 촬영 장치가 실시간으로 촬영한 비디오를 취득할 수 있다.
본 실시예는 S101을 수행하여 실시간으로 촬영한 비디오를 취득한 후, S102를 수행하여 비디오에 포함된 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표에 대응하는 제1 특징 벡터를 생성한다. 여기서, 본 실시예에 있어서, S102를 수행하여 이미지 프레임 내에서 추출한 시각 목표는 이미지 프레임 내의 특정 목표이며, 이미지 프레임 내의 사람, 배낭, 여행 가방 및 핸드폰과 같은 4개의 유형의 목표이다.
이는 실제 접수원이 사람의 배낭 유형, 여행 가방이 있는지 여부 등의 시각 정보에 기반하여 당해 사람이 건물 내의 직원인지 외부 방문객인지를 판단하고, 또한 핸드폰은 종종 사람의 상태를 반영할 수 있기 때문이다. 예를 들면 서둘러 도킹하는 사람과 연계하거나, 또는 로봇을 촬영할 수 있다. 따라서, 본 실시예에 있어서, 상기 능동적 인터랙션에 대해 영향을 줄 수 있는 목표를 특정 목표로 설정함으로써, S102를 통해 이미지 프레임 내의 특정 목표만을 추출함으로써, 무관한 시각 목표(irrelevant visual target)의 추출을 회피할 수 있으며, 지능 로봇 능동적 인터랙션의 정확성을 더 한층 향상시킬 수 있다.
계산 과정의 복잡도를 줄이기 위하여, 본 실시예는 S102를 수행하여 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출할 때, 추출하는 시각 목표의 수량을 설정할 수 있는 바, 예를 들면 각각의 이미지 프레임 내에서 2개의 시각 목표를 추출함을 이해할 수 있다.
구체적으로, 본 실시예는 S102를 수행하여 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성할 때 채용할 수 있는 선택적인 실현 방식은, 이미지 프레임의 특징 맵에 기반하여 시각 목표를 식별하는 바, 예를 들면 컨볼루션 신경망(convolutional neural networks) CSPDarknet53을 사용하여 크기가 13×13×512인 특징 맵을 얻은 후, 다시 SPP+YOLO Head 구조에 기반한 목표 검출 모델을 사용하여 이미지 프레임 내의 시각 목표의 경계 박스를 식별하고; 특징 맵 중에서 시각 목표에 대응하는 특징 맵 서브 영역을 추출하며, 각각의 특징 맵 서브 영역을 크기가 동일한 서브 특징 맵으로 변환하는 바, 예를 들면 ROI Align 기술을 사용하여 특징 맵 중에서 대응하는 수용 필드 내의 특징 서브 맵 영역을 추출한 후, 보간 또는 다운 샘플링을 통해 크기가 서로 다른 특징 맵 서브 영역을 크기가 5×5×512인 서브 특징 맵으로 변환하며; 각각의 서브 특징 맵에 대해 전역 평균 풀링(GAP, Global Average Polling)을 실행한 후, 각각의 시각 목표에 대응하는 제1 특징 벡터를 얻는 바, 예를 들면 표현 시각 목표 정보의 512 차원의 특징 벡터를 얻는다.
그러나, 시각 목표의 그림 영역을 특징 서브 맵으로 표현한 후, 시각 목표의 이미지 프레임 내의 위치 및 크기 정보가 분실된다. 때문에 상기 정보의 분실을 회피하기 위하여, 본 실시예는 S102를 수행하여 각각의 시각 목표의 제1 특징 벡터를 생성할 때, 또한 이하의 내용을 포함할 수 있는 바, 즉, 이미지 프레임의 중심을 원점으로 하는 2차원 좌표계에서, 각각의 시각 목표의 이미지 프레임 내에서의 좌상단의 좌표 (Xmin, Ymin) 및 우하단의 좌표 (Xmax, Ymax)를 결정하는 단계; 이미지 프레임 내의 각각의 시각 목표에 대응하는 [Xmin, Xmax] 및 [Ymin, Ymax] 범위 내에서 복수의 점을 각각 선택한 후, 각각의 시각 목표의 2차원 평면에서의 위치 표현을 구축하는 바, 예를 들면 각각의 범위 내에서 5개의 점 (시각 목표의 서브 특징 맵의 크기에 대응함)을 균일하게 추출하고, 2차원 평면 5×5×2의 위치 행렬을 구축하는 단계; 구축한 위치 표현을 소정의 차원의 위치 특징 벡터로 타일링(tiling)한 후, 예를 들면 Flatten 함수를 사용하여 위치 표현을 50 차원의 특징 벡터로 타일링하여, 시각 목표의 이미지 프레임 내의 위치 표현으로 설정하며, 당해 위치 표현은 시각 특징의 이미지 프레임 중심에 대한 위치 및 크기 정보를 나타내기 위한 단계; 및 얻은 위치 특징 벡터와 시각 목표의 제1 특징 벡터를 스티칭(stitching)하는 바, 예를 들면 특징 맵 중에서 얻은 512 차원의 제1 특징 벡터와 50 차원의 위치 특징 벡터를 스티칭하여, 시각 목표에 대응하는 562 차원의 특징 벡터를 얻는 것을 포함한다.
본 실시예는 S102를 수행하여 각각의 시각 목표의 제1 특징 벡터를 생성한 후, S103을 수행하여 비디오 중의 각각의 이미지 프레임에 대해, 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성한다. 여기서, 본 실시예에 있어서, 자신이 속하는 이미지 프레임의 식별 정보는 각각의 시각 목표가 속하는 이미지 프레임 및 프레임 사이의 상대 위치(relative position)를 기록하기 위하여 사용된다.
능동적 인터랙션을 개시할 때, 흥미를 갖는 인터랙션 대상을 발견할 필요가 있는 것 외에, 인터랙션 대상의 과거의 일정한 시간 내의 행위에 기반하여 능동적 인터랙션을 개시할지 여부를 결정할 필요가 있으며, 따라서 동일한 인터랙션 대상의 과거의 일정한 시간의 행위 특징을 추출할 필요가 있다.
본 실시예는 S102를 수행할 때, 자기주의(self-attention) 메커니즘을 도입하여 이미지 프레임 내의 시각 목표에 대해 시공간 모델을 구축할 수 있으며, 따라서 시각 목표의 시간 정보와 공간 정보를 융합하여 시각 목표에 대응하는 제2 특징 벡터를 얻으며, 얻은 당해 제2 특징 벡터는 시각 목표의 과거 행위 특징(historical behavior feature)을 포함한다.
본 실시예에 있어서, S103을 수행하여 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성할 때 채용할 수 있는 선택적인 실현 방식은, 비디오 중의 각각의 이미지 프레임에 대해, 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 사전에 구축한 신경망 모델(neural network model)에 입력하고, 당해 신경망 모델은 복수의 디코더 블록(Decoder Block)을 포함하고, 각각의 디코더 블록은 자기주의 계층 및 피드포워드 계층을 포함하며; 상기 신경망 모델의 출력 결과를 시각 목표의 제2 특징 벡터로 설정한다.
여기서, 본 실시예에 있어서, 자기주의 계층은 아래의 계산식을 사용하여 주의력 값을 계산한다.
계산식에 있어서, 는 계산하여 얻은 주의력 값을 나타내고; 는 서로 동일한 바, 입력된 제1 특징 벡터 및 이미지 프레임의 식별 정보로 구성된 벡터이며; 는 입력된 벡터의 차원을 나타낸다. 따라서, 본 실시예에 있어서, 디코더 블록 중의 자기주의 계층은 상기 계산식을 통해 입력된 벡터의 주의력 값을 얻은 후, 피드포워드 계층을 통해 다음의 디코더 블록 중의 자기주의 계층에 전달하여 계산을 실행하며, 이렇게 지속적으로 실행하여, 마지막 디코더 블록 중의 피드포워드 계층의 출력을 시각 목표의 제2 특징 벡터로 설정한다.
본 실시예는 S103을 수행하여 각각의 시각 목표의 제2 특징 벡터를 생성한 후, S104를 수행하여 동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성한다.
다시 말하면, 본 실시예에 있어서, S104를 수행하여 동일한 이미지 프레임의 시각 목표에 속하는 제2 특징 벡터를 1 그룹으로 설정하고, 최대 풀링(max pooling)의 방식을 통해 1 그룹 중에 포함된 복수의 제2 특징 벡터를 취합함으로써(aggregating), 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 얻는다.
본 실시예는 S104를 수행하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성한 후, S105를 수행하여 소정의 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행할지 여부를 결정하고, 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시한다.
본 실시예에 있어서, S105에 언급된 소정의 이미지 프레임은 취득한 비디오 중의 임의의 하나의 프레임 이미지일 수 있으며; 슬라이딩 윈도우를 설정하고, 슬라이딩 윈도우 내에 위치한 마지막 하나의 프레임 이미지를 소정의 이미지 프레임으로 설정할 수 있다. 예를 들면 슬라이딩 윈도우 내에 20개의 프레임 이미지가 포함되어 있으면, 소정의 이미지 프레임은 당해 슬라이딩 윈도우 내의 마지막 하나의 프레임 이미지이다.
본 실시예는 S105를 수행하여 소정의 이미지 프레임의 제3 특징 벡터에 기반하여 결정 능동적 인터랙션을 실행할 때 채용할 수 있는 선택적인 실현 방식은, 소정의 이미지 프레임의 제3 특징 벡터를 사전 트레이닝을 통해 얻은 제1 판별 모델에 입력하고; 제1 판별 모델의 출력 결과에 기반하여 능동적 인터랙션을 실행할지 여부를 결정하는 바, 예를 들면 판별 모델이 “예”를 출력하면, 능동적 인터랙션을 실행하는 것으로 결정하고, “아니오”를 출력하면 능동적 인터랙션을 실행하지 않는다.
본 실시예에 있어서, S105에서 사용한 제1 판별 모델은 입력된 특징 벡터에 기반하여 능동적 인터랙션을 실행하는지 여부의 판별 결과를 출력할 수 있음을 이해할 수 있다.
본 실시예에 의해 제공되는 상기 방법을 채용하면, 지능 로봇이 인터랙션 대상의 시각 정보를 분석하고, 인터랙션 대상에 대해 시공간 모델을 구축함으로써, 인터랙션 대상의 인터랙션 의도를 충분히 분석할 수 있고, 따라서 능동적 인터랙션의 지능성 및 정확성을 향상시킬 수 있다.
도 2는 본 발명에 따른 제2 실시예의 모식도이다. 도 2에 나타낸 바와 같이, 본 실시예는 S105를 수행하여 능동적 인터랙션을 개시할 때 구체적으로 아래의 단계를 포함할 수 있다.
S201에 있어서, 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 취득한다.
S202에 있어서, 소정의 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정한다.
S203에 있어서, 결정된 다중 모드 인터랙션 방식을 이용하여 능동적 인터랙션을 실행한다.
본 실시예에 언급된 다중 모드 인터랙션 방식은, 지능 로봇과 인터랙션 대상이 인터랙션을 실행할 때 사용한 인터랙션 언어, 인터랙션 표정 및 인터랙션 동작인 바, 서로 다른 다중 모드 인터랙션 방식은 서로 다른 인터랙션 언어(different interactive languages), 인터랙션 표정(interactive expressions) 또는 인터랙션 동작(interactive actions)을 포함한다.
본 실시예에 있어서, S201을 수행하여 취득한 각각의 다중 모드 인터랙션 동작에 대응하는 특징 벡터는 아래의 방식을 통해 얻은 거인 바, 즉 사전 트레이닝 된 언어 모델을 사용하여 각각의 인터랙션 문구를 나타내는 시맨틱 벡터를 취득하는 바, 예를 들면 ERNIE(Enhanced Representation through kNowledge IntEgration)를 사용하여 언어 모델을 사전 트레이닝 하는 단계; 각각의 인터랙션 표정 및 각각의 인터랙션 동작을 각각 나타내는 원-핫 코드(one-hot code)를 취득하는 단계; 서로 다른 인터랙션 언어, 인터랙션 표정 및 인터랙션 동작을 사용하여 서로 다른 다중 모드 인터랙션 방식을 구축하는 단계; 및 각각의 다중 모드 인터랙션 방식에 대응하는 시맨틱 벡터 및 원-핫 코드를 스티칭한 후, 완전 연결 네트워크에 입력하여 출력 결과를 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터로 설정하는 것을 포함한다.
본 실시예에 있어서, S202를 수행하여 소정의 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정할 때 채용할 수 있는 선택적인 실현 방식은, 소정의 이미지 프레임의 제3 특징 벡터와 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 각각 곱한 후, 사전 트레이닝을 통해 얻은 제2 판별 모델에 입력하는 단계; 및 제2 판별 모델의 출력 결과에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하는 바, 즉 제2 판별 모델은 입력에 기반하여 현재 시나리오에서의 각각의 다중 모드 인터랙션 방식의 점수를 출력할 수 있으며, 따라서 점수가 높은 하나의 다중 모드 인터랙션 방식을 선택하여 능동적 인터랙션을 실행하는 것을 포함한다.
본 실시예에 있어서, S202에서 사용한 제2 판별 모델은 입력된 특징 벡터에 기반하여 각각의 다중 모드 인터랙션 방식에 대응하는 점수를 출력한다.
본 실시예에 의해 제공되는 상기 방법을 채용하면, 지능 로봇이 능동적 인터랙션을 개시할 때, 또한 현재 시나리오에 부합되는 다중 모드 인터랙션 방식을 선택함으로써, 개시하는 능동적 인터랙션이 더욱 섬세하도록 할 수 있으며, 사람과 사람 사이의 사회적 인터랙션에 더 가깝게 만들며, 따라서 능동적 인터랙션의 지능성을 향상시킨다.
도 3은 본 발명에 따른 제3 실시예의 모식도이다. 도 3에 나타낸 바와 같이, 본 실시예의 능동적 인터랙션 장치는 지능 로봇 내에 위치한다. 당해 장치는,
실시간으로 촬영한 비디오를 취득하기 위한 취득 유닛(301);
상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성하기 위한 제1 생성 유닛(302);
상기 비디오의 각각의 이미지 프레임에 대해 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성하기 위한 제2 생성 유닛(303);
동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성하기 위한 제3 생성 유닛(304); 및
소정의 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시하기 위한 인터랙션 유닛(305)을 구비한다.
취득 유닛(301)은 실시간으로 촬영한 비디오를 취득할 때, 지능 로봇을 통해 자신이 휴대한 촬영 장치를 이용하여 실시간으로 촬영한 비디오를 취득할 수 있으며, 또한 지능 로봇을 통해 기타 촬영 장치가 실시간으로 촬영한 비디오를 취득할 수 있다.
취득 유닛(301)이 실시간으로 촬영한 비디오를 취득한 후, 제1 생성 유닛(302)이 비디오에 포함된 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표에 대응하는 제1 특징 벡터를 생성한다. 여기서, 제1 생성 유닛(302)이미지 프레임 내에서 추출한 시각 목표는 이미지 프레임 내의 특정 목표이며, 포함 이미지 프레임 내의 사람, 배낭, 여행 가방 및 핸드폰과 같은 4개의 유형의 목표이다.
계산 과정의 복잡도를 줄이기 위하여, 제1 생성 유닛(302)은 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출할 때, 추출하는 시각 목표의 수량을 설정할 수 있는 바, 예를 들면 각각의 이미지 프레임 내에서 2개의 시각 목표를 추출함을 이해할 수 있다.
구체적으로, 제1 생성 유닛(302)이 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성할 때 채용할 수 있는 선택적인 실현 방식은, 이미지 프레임의 특징 맵에 기반하여 시각 목표를 식별하는 단계; 특징 맵 중에서 시각 목표에 대응하는 특징 맵 서브 영역을 추출하며, 각각의 특징 맵 서브 영역을 크기가 동일한 서브 특징 맵으로 변환하는 단계; 및 각각의 서브 특징 맵에 대해 전역 평균 풀링을 실행한 후, 각각의 시각 목표에 대응하는 제1 특징 벡터를 얻는 것을 포함한다.
시각 목표의 그림 영역을 특징 서브 맵으로 표현한 후, 시각 목표의 이미지 프레임 내의 위치 및 크기 정보가 분실된다. 때문에 상기 정보의 분실을 회피하기 위하여, 제1 생성 유닛(302)은 각각의 시각 목표의 제1 특징 벡터를 생성한 후, 또한 이하의 내용을 포함할 수 있는 바, 즉, 이미지 프레임의 중심을 원점으로 하는 2차원 좌표계에서, 각각의 시각 목표의 이미지 프레임 내에서의 좌상단의 좌표 (Xmin, Ymin)및 우하단의 좌표 (Xmax, Ymax)를 결정하는 단계; 이미지 프레임 내의 각각의 시각 목표에 대응하는 [Xmin, Xmax] 및 [Ymin, Ymax] 범위 내에서 복수의 점을 각각 선택한 후, 각각의 시각 목표의 2차원 평면에서의 위치 표현을 구축하는 단계; 및 구축한 위치 표현을 소정의 차원의 위치 특징 벡터로 타일링한 후, 시각 목표의 제1 특징 벡터와 스티칭하는 것을 포함한다.
제1 생성 유닛(302)이 각각의 시각 목표의 제1 특징 벡터를 생성한 후, 제2 생성 유닛(303)이 비디오 중의 각각의 이미지 프레임에 대해, 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성한다. 여기서, 제2 생성 유닛(303)에 속하는 이미지 프레임의 식별 정보는 각각의 시각 목표가 속하는 이미지 프레임 및 프레임 사이의 상대 위치를 기록하기 위하여 사용된다.
능동적 인터랙션을 개시할 때, 흥미를 갖는 인터랙션 대상을 발견해야 하는 것 외에, 인터랙션 대상의 과거의 일정한 시간 내의 행위에 기반하여 능동적 인터랙션을 개시할지 여부를 결정할 필요가 있으며, 따라서 동일한 인터랙션 대상의 과거의 일정한 시간의 행위 특징을 추출할 필요가 있다.
제2 생성 유닛(303)은 자기주의(self-attention) 메커니즘을 도입하여 이미지 프레임 내의 시각 목표에 대해 시공간 모델을 구축할 수 있으며, 따라서 시각 목표의 시간 정보와 공간 정보를 융합하여 시각 목표에 대응하는 제2 특징 벡터를 얻으며, 얻은 당해 제2 특징 벡터는 시각 목표의 과거 행위 특징을 포함한다.
제2 생성 유닛(303)이 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성할 때 채용할 수 있는 선택적인 실현 방식은, 비디오 중의 각각의 이미지 프레임에 대해, 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 사전에 구축한 신경망 모델에 입력하는 것이다. 당해 신경망 모델은 복수의 디코더 블록을 포함하고, 각각의 디코더 블록은 자기주의 계층 및 피드포워드 계층을 포함하며; 상기 신경망 모델의 출력 결과를 시각 목표의 제2 특징 벡터로 설정한다.
여기서, 제2 생성 유닛(303)에서 자기주의 계층은 아래의 계산식을 사용하여 주의력 값을 계산한다.
계산식에 있어서, 는 계산하여 얻은 주의력 값을 나타내고; 는 서로 동일한 바, 입력된 제1 특징 벡터 및 이미지 프레임의 식별 정보로 구성된 벡터이며; 는 입력된 벡터의 차원을 나타낸다. 따라서, 본 실시예에 있어서, 디코더 블록 중의 자기주의 계층은 상기 계산식을 통해 입력된 벡터의 주의력 값을 얻은 후, 피드포워드 계층을 통해 다음의 디코더 블록 중의 자기주의 계층에 전달하여 계산을 실행하며, 이렇게 지속적으로 실행하여, 마지막 디코더 블록 중의 피드포워드 계층의 출력을 시각 목표의 제2 특징 벡터로 설정한다.
제2 생성 유닛(303)이 각각의 시각 목표의 제2 특징 벡터를 생성한 후, 제3 생성 유닛(304)이 동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성한다.
다시 말하면, 제3 생성 유닛(304)은 동일한 이미지 프레임의 시각 목표에 속하는 제2 특징 벡터를 1 그룹으로 설정하고, 최대 풀링(max pooling)의 방식을 통해 1 그룹 중에 포함된 복수의 제2 특징 벡터를 취합함으로써, 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 얻는다.
제3 생성 유닛(304)이 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성한 후, 인터랙션 유닛(305)이 소정의 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행할지 여부를 결정하고, 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시한다.
인터랙션 유닛(305)에서 언급된 소정의 이미지 프레임은 취득한 비디오 중의 임의의 하나의 프레임 이미지일 수 있으며; 슬라이딩 윈도우를 설정하고, 슬라이딩 윈도우 내에 위치한 마지막 하나의 프레임 이미지를 소정의 이미지 프레임으로 설정할 수 있다. 예를 들면 슬라이딩 윈도우 내에 20개의 프레임 이미지가 포함되어 있으면, 소정의 이미지 프레임은 당해 슬라이딩 윈도우 내의 마지막 하나의 프레임 이미지이다.
인터랙션 유닛(305)이 소정의 이미지 프레임의 제3 특징 벡터에 기반하여 결정 능동적 인터랙션을 실행할 때 채용할 수 있는 선택적인 실현 방식은, 소정의 이미지 프레임의 제3 특징 벡터를 사전 트레이닝을 통해 얻은 제1 판별 모델에 입력하고; 제1 판별 모델의 출력 결과에 기반하여 능동적 인터랙션을 실행할지 여부를 결정하는 바, 예를 들면 판별 모델이 “예”를 출력하면, 능동적 인터랙션을 실행하는 것으로 결정하고, “아니오”를 출력하면 능동적 인터랙션을 실행하지 않는다.
인터랙션 유닛(305)에서 사용한 제1 판별 모델은 입력된 특징 벡터에 기반하여 능동적 인터랙션을 실행하는지 여부의 판별 결과를 출력할 수 있음을 이해할 수 있다.
인터랙션 유닛(305)이 능동적 인터랙션을 실행할 때 채용할 수 있는 선택적인 실현 방식은, 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 취득하는 단계; 소정의 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하는 단계; 및 결정된 다중 모드 인터랙션 방식을 이용하여 능동적 인터랙션을 실행하는 것을 포함한다.
인터랙션 유닛(305)이 각각의 다중 모드 인터랙션 동작에 대응하는 특징 벡터를 취득할 때 채용할 수 있는 선택적인 실현 방식은, 사전 트레이닝 된 언어 모델을 사용하여 각각의 인터랙션 문구를 나타내는 시맨틱 벡터를 취득하는 단계; 각각의 인터랙션 표정 및 각각의 인터랙션 동작을 각각 나타내는 원-핫 코드를 취득하는 단계; 서로 다른 인터랙션 언어, 인터랙션 표정 및 인터랙션 동작을 사용하여 서로 다른 다중 모드 인터랙션 방식을 구축하는 단계; 및 각각의 다중 모드 인터랙션 방식에 대응하는 시맨틱 벡터 및 원-핫 코드를 스티칭한 후, 완전 연결 네트워크에 입력하여 출력 결과를 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터로 설정하는 것을 포함한다.
인터랙션 유닛(305)이 소정의 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정할 때 채용할 수 있는 선택적인 실현 방식은, 소정의 이미지 프레임의 제3 특징 벡터와 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 각각 곱한 후, 사전 트레이닝을 통해 얻은 제2 판별 모델에 입력하는 단계; 및 제2 판별 모델의 출력 결과에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하는 단계를 포함한다. 즉 제2 판별 모델은 입력에 기반하여 현재 시나리오에서의 각각의 다중 모드 인터랙션 방식의 점수를 출력할 수 있으며, 따라서 점수가 높은 하나의 다중 모드 인터랙션 방식을 선택하여 능동적 인터랙션을 실행한다.
인터랙션 유닛(305)에서 사용한 제2 판별 모델은 입력된 특징 벡터에 기반하여 각각의 다중 모드 인터랙션 방식에 대응하는 점수를 출력할 수 있음을 이해할 수 있다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기 및 컴퓨터 판독 가능 기록 매체를 더 제공한다.
도 4는 본 발명에 따른 실시예의 능동적 인터랙션 방법을 실현하는 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기는 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 설명하거나 및/또는 요구하는 본 발명의 실현을 한정하려는 것이 아니다.
도 4에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(401), 메모리(402) 및 각각의 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각각의 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 실행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 (예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각각의 기기는 부분적인 필요한 조작 (예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 4에서는 하나의 프로세서(401)의 예를 들었다.
메모리(402)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기억 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 능동적 인터랙션 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기억 매체는 컴퓨터 명령을 기억하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 본 발명에 의해 제공되는 능동적 인터랙션 방법을 수행하도록 한다.
메모리(402)는 일종의 비 일시적 컴퓨터 판독 가능 기억 매체로서, 비 일시적 소프트웨어 프로그램을 기억하는데 사용될 수 있는 바, 예를 들면 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈, 본 발명 실시예 중의 능동적 인터랙션 방법 대응하는 프로그램 명령/모듈 (예를 들면, 도 3에 나타낸 취득 유닛(301), 제1 생성 유닛(302), 제2 생성 유닛(303), 제3 생성 유닛(304) 및 인터랙션 유닛(305))을 기억하는데 사용될 수 있다. 프로세서(401)는 메모리(402) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 즉 상술한 방법 실시예 중의 능동적 인터랙션 방법을 실현한다.
메모리(402)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기억할 수 있고, 데이터 기억 영역은 능동적 인터랙션 방법을 실현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(402)는 선택적으로 프로세서(401)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 능동적 인터랙션 방법을 실현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
능동적 인터랙션 방법을 실현하는 전자 기기는 입력 장치(403) 및 출력 장치(404)를 더 포함할 수 있다. 프로세서(401), 메모리(402), 입력 장치(403) 및 출력 장치(404)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 4에서는 버스를 통해 연결하는 예를 들었다.
입력 장치(403)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 능동적 인터랙션 방법을 실현하는 전자 기기의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(404)는 디스플레이 기기, 보조 조명 장치(예를 들면 LED) 및 촉각 피드백 장치(예를 들면 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 실시 예는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 기억 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 계산 프로그램 (프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 (예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치(예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.
여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템(예를 들면 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템(예를 들면 응용 서버), 또는 프런트 엔드 구성 요소를 포함하는 계산 시스템(예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 당해 그래픽 유저 인터페이스 또는 당해 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트 엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 (예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 실행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.
본 발명의 실시예의 기술안에 따르면, 인터랙션 대상의 시각 정보를 분석하고, 인터랙션 대상에 대해 시공간 모델을 구축함으로써, 인터랙션 대상의 인터랙션 의도를 충분히 분석할 수 있고, 따라서 능동적 인터랙션의 지능성 및 정확성을 향상시킬 수 있다.
상기에 나타낸 다양한 형태의 흐름을 이용하여 것을 재정렬, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각각의 것은 병렬로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 실행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.
Claims (19)
- 능동적 인터랙션 방법에 있어서,
실시간으로 촬영한 비디오를 취득하는 단계;
상기 비디오의 각각의 이미지 프레임 내에서 시각 목표(visual target)를 추출하고, 각각의 시각 목표의 제1 특징 벡터(first feature vector)를 생성하는 단계;
상기 비디오의 각각의 이미지 프레임에 대해, 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보(identification information)를 융합하여, 각각의 시각 목표의 제2 특징 벡터(second feature vector)를 생성하는 단계;
동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여(aggregating), 각각의 이미지 프레임에 대응하는 제3 특징 벡터(third feature vector)를 생성하는 단계; 및
기 결정된 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시하는 단계;
를 포함하는,
능동적 인터랙션 방법. - 제1항에 있어서,
상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하는 단계는:
상기 비디오의 각각의 이미지 프레임 내에서 특정 목표를 추출하여 시각 목표로 설정하는 단계;를 포함하는,
능동적 인터랙션 방법. - 제1항에 있어서,
상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성하는 단계는:
이미지 프레임의 특징 맵(feature map)에 기반하여 시각 목표를 식별하는 단계;
특징 맵 중에서 상기 시각 목표에 대응하는 특징 맵 서브 영역을 추출하고, 각각의 특징 맵 서브 영역을 크기가 동일한 서브 특징 맵(sub-feature maps)으로 변환하는 단계; 및
각 서브 특징 맵에 대해 전역 평균 풀링(global average pooling)을 실행한 후, 각각의 시각 목표의 제1 특징 벡터를 얻는 단계;를 포함하는
능동적 인터랙션 방법. - 제3항에 있어서,
상기 각각의 시각 목표의 제1 특징 벡터를 얻은 후, 이미지 프레임의 중심을 원점으로 하는 2차원 좌표계에서, 각각의 시각 목표의 이미지 프레임 내에서의 좌상단(upper left corner)의 좌표 및 우하단(lower right corner)의 좌표를 결정하는 단계;
이미지 프레임 내의 각각의 시각 목표에 대응하는 좌표 범위 내에서 각각 복수의 점을 선택한 후, 각각의 시각 목표의 2차원 평면에서의 위치 표현을 구축하는 단계; 및
구축한 위치 표현을 소정의 차원의 위치 특징 벡터로 타일링(tiling)한 후, 각각의 시각 목표의 제1 특징 벡터와 스티칭(stitching)하는 단계;
를 더 포함하는,
능동적 인터랙션 방법. - 제1항에 있어서,
상기 비디오의 각각의 이미지 프레임에 대해, 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여, 각각의 시각 목표의 제2 특징 벡터를 생성하는 단계는:
비디오 중의 각각의 이미지 프레임에 대해, 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 사전에 구축한 신경망 모델(neural network model)에 입력하는 단계; 및
상기 신경망 모델의 출력 결과를 시각 목표의 제2 특징 벡터로 설정하는 단계;를 포함하며,
상기 신경망 모델은 복수의 디코더 블록을 포함하고,
각각의 디코더 블록은 자기주의(self-attention) 계층 및 피드포워드(feed forward) 계층을 포함하는,
능동적 인터랙션 방법. - 제1항에 있어서,
상기 능동적 인터랙션을 개시하는 단계는:
각 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 취득하는 단계;
기 결정된 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여, 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하는 단계; 및
결정된 다중 모드 인터랙션 방식을 이용하여 능동적 인터랙션을 실행하는 단계;를 포함하는,
능동적 인터랙션 방법. - 제6항에 있어서,
상기 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 취득하는 단계는:
사전 트레이닝된 언어 모델을 사용하여 각각의 인터랙션 문구를 나타내는 시맨틱 벡터(semantic vector)를 취득하는 단계;
각 인터랙션 표정 및 각각의 인터랙션 동작을 각각 나타내는 원-핫 코드(one-hot code)를 취득하는 단계;
서로 다른 인터랙션 언어, 인터랙션 표정 및 인터랙션 동작을 사용하여 서로 다른 다중 모드 인터랙션 방식을 구축하는 단계; 및
각 다중 모드 인터랙션 방식에 대응하는 시맨틱 벡터 및 원-핫 코드를 스티칭한 후, 완전 연결 네트워크에 입력하여 출력 결과를 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터로 설정하는 단계;를 포함하는,
능동적 인터랙션 방법. - 제6항에 있어서,
상기 기 설정된 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여, 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하는 단계는:
기 결정된 이미지 프레임의 제3 특징 벡터와 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 각각 곱한 후, 사전 트레이닝을 통해 얻은 제2 판별 모델에 입력하는 단계; 및
상기 제2 판별 모델의 출력 결과에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하는 단계;를 포함하는,
능동적 인터랙션 방법. - 능동적 인터랙션 장치에 있어서,
실시간으로 촬영한 비디오를 취득하기 위한 취득 유닛;
상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성하기 위한 제1 생성 유닛;
상기 비디오의 각각의 이미지 프레임에 대해 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성하기 위한 제2 생성 유닛;
동일한 식별 정보를 갖는 제2 특징 벡터를 각각 취합하여 각각의 이미지 프레임에 대응하는 제3 특징 벡터를 생성하기 위한 제3 생성 유닛; 및
기 결정된 이미지 프레임의 제3 특징 벡터에 기반하여 능동적 인터랙션을 실행하는 것으로 결정한 후, 능동적 인터랙션을 개시하기 위한 인터랙션 유닛
을 구비하는,
능동적 인터랙션 장치. - 제9항에 있어서,
상기 취득 유닛은 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출할 때,
상기 비디오의 각각의 이미지 프레임 내에서 특정 목표를 추출하여 시각 목표로 설정하는,
능동적 인터랙션 장치. - 제9항에 있어서,
상기 제1 생성 유닛은 상기 비디오의 각각의 이미지 프레임 내에서 시각 목표를 추출하고, 각각의 시각 목표의 제1 특징 벡터를 생성할 때,
이미지 프레임의 특징 맵에 기반하여 시각 목표를 식별하고;
특징 맵 중에서 상기 시각 목표에 대응하는 특징 맵 서브 영역을 추출하고, 각각의 특징 맵 서브 영역을 크기가 동일한 서브 특징 맵으로 변환하며;
각 서브 특징 맵에 대해 전역 평균 풀링을 실행한 후, 각각의 시각 목표의 제1 특징 벡터를 얻는,
능동적 인터랙션 장치. - 제9항에 있어서,
상기 제1 생성 유닛은:
각 시각 목표의 제1 특징 벡터를 얻은 후, 이미지 프레임의 중심을 원점으로 하는 2차원 좌표계에서, 각각의 시각 목표의 이미지 프레임 내에서의 좌상단의 좌표 및 우하단의 좌표를 결정하는 것;
이미지 프레임 내의 각각의 시각 목표에 대응하는 좌표 범위 내에서 각각 복수의 점을 선택한 후, 각각의 시각 목표의 2차원 평면에서의 위치 표현을 구축하는 것; 및
구축한 위치 표현을 소정의 차원의 위치 특징 벡터로 타일링한 후, 각각의 시각 목표의 제1 특징 벡터와 스티칭하는 것을 수행하는,
능동적 인터랙션 장치. - 제9항에 있어서,
상기 제2 생성 유닛은 상기 비디오의 각각의 이미지 프레임에 대해 각각의 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 융합하여 각각의 시각 목표의 제2 특징 벡터를 생성할 때,
비디오 중의 각각의 이미지 프레임에 대해, 시각 목표의 제1 특징 벡터 및 자신이 속하는 이미지 프레임의 식별 정보를 사전에 구축한 신경망 모델에 입력하고;
상기 신경망 모델의 출력 결과를 시각 목표의 제2 특징 벡터로 설정하며,
여기서, 상기 신경망 모델은 복수의 디코더 블록을 포함하고, 각각의 디코더 블록은 자기주의 계층 및 피드포워드 계층을 포함하는,
능동적 인터랙션 장치. - 제9항에 있어서,
상기 인터랙션 유닛은 능동적 인터랙션을 개시할 때,
각 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 취득하고;
기 결정된 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하며,
결정된 다중 모드 인터랙션 방식을 이용하여 능동적 인터랙션을 실행하는,
능동적 인터랙션 장치. - 제14항에 있어서,
상기 인터랙션 유닛은 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 취득할 때,
사전 트레이닝 된 언어 모델을 사용하여 각각의 인터랙션 문구를 나타내는 시맨틱 벡터를 취득하고;
각 인터랙션 표정 및 각각의 인터랙션 동작을 각각 나타내는 원-핫 코드를 취득하며;
서로 다른 인터랙션 언어, 인터랙션 표정 및 인터랙션 동작을 사용하여 서로 다른 다중 모드 인터랙션 방식을 구축하고;
각 다중 모드 인터랙션 방식에 대응하는 시맨틱 벡터 및 원-핫 코드를 스티칭한 후, 완전 연결 네트워크에 입력하여 출력 결과를 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터로 설정하는,
능동적 인터랙션 장치. - 제14항에 있어서,
상기 인터랙션 유닛은 기 결정된 이미지 프레임의 제3 특징 벡터 및 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정할 때 구체적으로,
기 결정된 이미지 프레임의 제3 특징 벡터와 각각의 다중 모드 인터랙션 방식에 대응하는 특징 벡터를 각각 곱한 후, 사전 트레이닝을 통해 얻은 제2 판별 모델에 입력하고;
상기 제2 판별 모델의 출력 결과에 기반하여 능동적 인터랙션을 개시할 때 채용하는 다중 모드 인터랙션 방식을 결정하는,
능동적 인터랙션 장치. - 전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
전자 기기. - 컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
기록 매체. - 비 일시적 컴퓨터 판독 가능 기록 매체에 기록되어 있는 프로그램에 있어서,
상기 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
비 일시적 컴퓨터 판독 가능 기록 매체에 기록되어 있는 프로그램.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010700592.3 | 2020-07-20 | ||
CN202010700592.3A CN112001248B (zh) | 2020-07-20 | 2020-07-20 | 主动交互的方法、装置、电子设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220011078A true KR20220011078A (ko) | 2022-01-27 |
KR102551835B1 KR102551835B1 (ko) | 2023-07-04 |
Family
ID=73468050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210087893A KR102551835B1 (ko) | 2020-07-20 | 2021-07-05 | 능동적 인터랙션 방법, 장치, 전자 기기 및 판독 가능 기록 매체 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11734392B2 (ko) |
EP (1) | EP3944132A1 (ko) |
JP (1) | JP2022020588A (ko) |
KR (1) | KR102551835B1 (ko) |
CN (1) | CN112001248B (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688820B (zh) * | 2021-08-25 | 2024-07-16 | 维沃移动通信有限公司 | 频闪条带信息识别方法、装置和电子设备 |
CN114429552A (zh) * | 2022-01-21 | 2022-05-03 | 北京有竹居网络技术有限公司 | 对象属性识别方法、装置、可读存储介质及电子设备 |
CN115278360B (zh) * | 2022-07-18 | 2023-11-07 | 天翼云科技有限公司 | 一种视频数据处理方法及电子设备 |
CN115439483B (zh) * | 2022-11-09 | 2023-03-24 | 四川川锅环保工程有限公司 | 一种高质量的焊缝及焊缝缺陷识别系统、方法、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106537293A (zh) * | 2016-06-29 | 2017-03-22 | 深圳狗尾草智能科技有限公司 | 一种机器人交互内容的生成方法、系统及机器人 |
JP2019200551A (ja) * | 2018-05-15 | 2019-11-21 | 株式会社日立製作所 | データから潜在因子を発見するニューラルネットワーク |
US20200143171A1 (en) * | 2018-11-07 | 2020-05-07 | Adobe Inc. | Segmenting Objects In Video Sequences |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087242B2 (en) * | 2011-11-04 | 2015-07-21 | Google Inc. | Video synthesis using video volumes |
US8751042B2 (en) * | 2011-12-14 | 2014-06-10 | Toyota Motor Engineering & Manufacturing North America, Inc. | Methods of robot behavior generation and robots utilizing the same |
US9047376B2 (en) | 2012-05-01 | 2015-06-02 | Hulu, LLC | Augmenting video with facial recognition |
US9607223B2 (en) * | 2015-04-09 | 2017-03-28 | Facebook, Inc. | Systems and methods for defining and analyzing video clusters based on video image frames |
CN107533363B (zh) * | 2015-04-17 | 2020-06-30 | 三菱电机株式会社 | 手势识别装置、手势识别方法以及信息处理装置 |
CN105093986A (zh) * | 2015-07-23 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的拟人机器人控制方法、系统及拟人机器人 |
CN105798918B (zh) * | 2016-04-29 | 2018-08-21 | 北京光年无限科技有限公司 | 一种面向智能机器人的交互方法和装置 |
CN106022294B (zh) * | 2016-06-01 | 2020-08-18 | 北京光年无限科技有限公司 | 一种面向智能机器人的人机交互方法及装置 |
MY190933A (en) * | 2016-09-08 | 2022-05-20 | Goh Soo Siah | Video ingestion framework for visual search platform |
CN106502382B (zh) * | 2016-09-21 | 2020-01-14 | 北京光年无限科技有限公司 | 用于智能机器人的主动交互方法和系统 |
US10908612B2 (en) | 2018-03-29 | 2021-02-02 | Toyota Research Institute, Inc. | Systems and methods for an autonomous cart robot |
JP7252690B2 (ja) | 2018-04-04 | 2023-04-05 | 節夫 鶴田 | 会話処理装置、会話処理システム、会話処理方法及びプログラム |
JP7299245B2 (ja) * | 2018-05-23 | 2023-06-27 | アイオロス ロボティクス, インク. | 観察可能な健康状態の兆候のためのロボット対話 |
WO2019235067A1 (ja) * | 2018-06-05 | 2019-12-12 | ソニー株式会社 | 情報処理装置、情報処理システム、プログラム、及び情報処理方法 |
CN110490813B (zh) * | 2019-07-05 | 2021-12-17 | 特斯联(北京)科技有限公司 | 卷积神经网络的特征图增强方法、装置、设备及介质 |
CN110866099B (zh) * | 2019-10-30 | 2023-05-09 | 上海益商网络科技有限公司 | 一种基于智能音箱语音交互的智能管家服务方法及系统 |
-
2020
- 2020-07-20 CN CN202010700592.3A patent/CN112001248B/zh active Active
-
2021
- 2021-04-22 US US17/237,978 patent/US11734392B2/en active Active
- 2021-04-23 EP EP21170233.7A patent/EP3944132A1/en not_active Ceased
- 2021-07-05 KR KR1020210087893A patent/KR102551835B1/ko active IP Right Grant
- 2021-07-16 JP JP2021118327A patent/JP2022020588A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106537293A (zh) * | 2016-06-29 | 2017-03-22 | 深圳狗尾草智能科技有限公司 | 一种机器人交互内容的生成方法、系统及机器人 |
JP2019200551A (ja) * | 2018-05-15 | 2019-11-21 | 株式会社日立製作所 | データから潜在因子を発見するニューラルネットワーク |
US20200143171A1 (en) * | 2018-11-07 | 2020-05-07 | Adobe Inc. | Segmenting Objects In Video Sequences |
Non-Patent Citations (1)
Title |
---|
[과제 최종보고서] ‘다양한 인터랙션 컨텐츠를 갖춘 자율행동과 학습 기반의 휴머노이드형 소셜로봇 개발,’ 주관연구기간: ㈜토룩, 연구책임자: 전동수, 주관부처: 산업통상자원부, 과제명: 디자인혁신역량강화 (2017.09.)* * |
Also Published As
Publication number | Publication date |
---|---|
EP3944132A1 (en) | 2022-01-26 |
CN112001248B (zh) | 2024-03-01 |
JP2022020588A (ja) | 2022-02-01 |
US20220019847A1 (en) | 2022-01-20 |
US11734392B2 (en) | 2023-08-22 |
CN112001248A (zh) | 2020-11-27 |
KR102551835B1 (ko) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854118B2 (en) | Method for training generative network, method for generating near-infrared image and device | |
KR102551835B1 (ko) | 능동적 인터랙션 방법, 장치, 전자 기기 및 판독 가능 기록 매체 | |
CN111259751B (zh) | 基于视频的人体行为识别方法、装置、设备及存储介质 | |
CN111783620B (zh) | 表情识别方法、装置、设备及存储介质 | |
US20210201161A1 (en) | Method, apparatus, electronic device and readable storage medium for constructing key-point learning model | |
Nazir et al. | SemAttNet: Toward attention-based semantic aware guided depth completion | |
US11641446B2 (en) | Method for video frame interpolation, and electronic device | |
CN114972958B (zh) | 关键点检测方法、神经网络的训练方法、装置和设备 | |
EP3945456A1 (en) | Video event recognition method and apparatus, electronic device and storage medium | |
CN111539897A (zh) | 用于生成图像转换模型的方法和装置 | |
CN114092759A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
CN116309983B (zh) | 虚拟人物模型的训练方法、生成方法、装置和电子设备 | |
CN111710008B (zh) | 人流密度的生成方法、装置、电子设备以及存储介质 | |
JP2021114313A (ja) | 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN111523467B (zh) | 人脸跟踪方法和装置 | |
US20240037898A1 (en) | Method for predicting reconstructabilit, computer device and storage medium | |
CN115661336A (zh) | 一种三维重建方法及相关装置 | |
Su et al. | Monocular depth estimation using information exchange network | |
JP2022185096A (ja) | 仮想アイドルの生成方法、装置及び電子機器 | |
EP4156124A1 (en) | Dynamic gesture recognition method and apparatus, and device and storage medium | |
CN112200169B (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN116246026B (zh) | 三维重建模型的训练方法、三维场景渲染方法及装置 | |
CN112560678A (zh) | 表情识别方法、装置、设备及计算机存储介质 | |
CN116433826B (zh) | 虚拟形象驱动方法、装置、设备和介质 | |
CN117078817A (zh) | 视频生成方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |