KR102589164B1 - 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법 - Google Patents

협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법 Download PDF

Info

Publication number
KR102589164B1
KR102589164B1 KR1020210066635A KR20210066635A KR102589164B1 KR 102589164 B1 KR102589164 B1 KR 102589164B1 KR 1020210066635 A KR1020210066635 A KR 1020210066635A KR 20210066635 A KR20210066635 A KR 20210066635A KR 102589164 B1 KR102589164 B1 KR 102589164B1
Authority
KR
South Korea
Prior art keywords
activity
activities
relationship
transformer
attention
Prior art date
Application number
KR1020210066635A
Other languages
English (en)
Other versions
KR20220158963A (ko
Inventor
이동만
김현주
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020210066635A priority Critical patent/KR102589164B1/ko
Publication of KR20220158963A publication Critical patent/KR20220158963A/ko
Application granted granted Critical
Publication of KR102589164B1 publication Critical patent/KR102589164B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예에 따른 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법은, 협업 작업의 에피소드에 포함된 복수의 활동에 대한 복수의 튜플을 입력받고, 각 튜플과 이전 튜플 사이의 시간적 관계를 계산하는 단계; 임베딩 레이어에서 상기 각 튜플에 포함된 활동 세트 및 시간적 관계를 복수의 벡터로 변환하는 단계; 인코더에서 상기 복수의 벡터에 대한 복수회의 어텐션 과정을 수행하여 활동과 이전 활동 간의 관계를 학습하는 단계; 디코더에서 상기 복수의 벡터에 대한 복수회의 마스킹된 어텐션 과정 및 상기 인코더의 결과에 대한 어텐션 과정을 수행하여 예측할 활동과 이전 활동 간의 관계를 학습하는 단계; 및 상기 어텐션 과정에서 획득한 어텐션 값을 사용하여 다음 활동과 이의 현재 활동과의 시간적 관계를 예측하는 단계를 포함할 수 있다.

Description

협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법 {Transformer based Activity Prediction Method Exploiting Temporal Relations in a Collaborative Task}
본 출원은 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법에 관한 것이다.
활동 예측은 활동 인식을 통해 스마트 공간에서 스마트 애플리케이션을 개발하는데 중요한 기술이다. 활동 예측 연구는 현재 활동 직후 나타날 가능성이 있는 활동을 예측한다. 다음 활동을 예측하기 위해 기존 연구는 다양한 종류의 데이터를 사용한다. 실제 스마트 애플리케이션을 지원하기 위해 비디오 기반 접근 방식과 웨어러블 센서 기반 접근 방식이 인간 활동을 예측하기 위해 제안되었다. 그러나 프라이버시 문제로 인해 두 가지 접근 방식 모두 스마트 공간의 인지 지원에 적용하기가 어렵다.
이와 같은 프라이버시 문제 또는 일관성 없는 데이터 수집 문제로 인해 비디오 또는 웨어러블 장치 대신 주변 센서(예를 들어, 모션 센서, IoT 장치 등)가 활용될 수 있다.
주변 센서를 사용하는 초기 접근 방식은 온톨로지 기반(비특허문헌 1 참조) 또는 그래픽 모델 기반(비특허문헌 2 참조) 기술이다. 그러나 두 접근 방식은 모두 이전 활동만을 기반으로 사용자의 다음 활동을 예측하고 시퀀스에서 이력 정보를 덜 사용하므로 정확하지 않다. 이를 극복하기 위해 딥 러닝 기반 접근 방식이 제안되었다.
비특허문헌 3 및 4는 가장 주목할 만한 딥 러닝 기반 활동 예측 기법을 개시하고 있다. 비특허문헌 3은 활동을 하나의 상관 벡터로 표현하는 Word2Vec 알고리즘을 적용하고 다음 활동을 예측하기 위해 상관 벡터를 LSTM 계층에 입력하는 기술을 개시한다. 비특허문헌 4는 활동 벡터에 지속 시간을 곱하고 이를 하나로 인코딩하여 다음 활동과 지속 시간을 예측하는 LSTM 기반 기법을 구성한다. 그러나 두 가지 접근 방식은 둘 이상의 사용자가 함께 있는 상황을 처리하지 못한다. 이 상황에서 작업(즉, 일련의 활동)은 다중 사용자 독립 작업과 다중 사용자 협업 작업의 두 가지 유형으로 분류될 수 있으며, 전자는 사용자가 독립적으로 다른 작업을 수행하는 반면 후자는 사용자가 동일한 작업을 함께 실행함을 의미한다.
다중 사용자 협업 작업의 활동 예측은 기존 접근 방식에 세 가지 주요 과제를 야기한다.
첫째, 모든 활동이 순차적으로 수행된다는 가정을 기반으로 다음 활동을 예측하기 때문에 중복 활동(즉, 둘 이상의 사용자가 수행한 활동)을 처리하지 못한다. 따라서, 중복 활동에 대한 새로운 표현 기법이 필요하다.
둘째, 특정 활동을 예측하는데 중요한 하나의 활동이 발생하고 이 두 활동 사이에 다양한 활동이 있다고 가정한다. 기존 접근 방식은 일련의 활동 간의 장기적인 시간적 상관관계에서 정보 손실이 발생하는 LSTM을 활용하기 때문에 이 둘 간의 관계의 중요성을 도출하기 어렵다.
셋째, 드물게 발생하지만 작업의 중요한 기능인 활동이 있을 수 있다(예를 들어, 프로젝트 회의에서 빔 프로젝터 켜기). 그러나 기존 접근 방식이 모든 활동에 동일한 중요성을 부여하기 때문에 이러한 활동은 포착하기 어려운 중요하지 않은 활동으로 간주될 수 있다.
한편, 최근 NLP 분야에서는 트랜스포머(비특허문헌 5 참조)라는 보다 효과적이고 효율적인 seq2seq 모델이 제안되었다. 이는 가중치 형태로 컨텍스트 간의 상관 관계를 반영하는 어텐션 메커니즘만을 사용하며, 중요한 컨텍스트를 찾을 수 있을 뿐만 아니라 위치 정보를 유지할 수 있는 방법론이다. 또한, 소멸 그래디언트 문제(vanishing gradient problem)를 내재하지 않으며 이전 기술에 비해 더 긴 상관 관계를 찾을 수 있다. 이러한 장점으로 인해 트랜스포머를 적용하여 특정 컨텍스트를 예측할 수 있다.
G. M. Lunardi, F. Al Machot, V. A. Shekhovtsov, V. Maran, G. M. Machado, A. Machado, H. C. Mayr, and J. P. M. de Oliveira, "IoT-based human action prediction and support," Internet of Things, vol. 3, pp. 52-68, 2018. E. Nazerfard, and D. J. Cook, "CRAFFT: an activity prediction model based on Bayesian networks," Journal of ambient intelligence and humanized computing, vol. 6, no. 2, pp. 193-205, 2015. A. Almeida, and G. Azkune, "Predicting human behaviour with recurrent neural networks," Applied Sciences, vol. 8, no. 2, pp. 305, 2018. K. Krishna, D. Jain, S. V. Mehta, S. Choudhary, "An lstm based system for prediction of human activities with durations," Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, vol. 1, no. 4, pp. 1-31, 2018. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, £. Kaiser, and I. Polosukhin, "Attention is all you need," In Advances in neural information processing systems, pp. 5998-6008, 2017.
따라서, 당해 기술분야에서는 종래 기술의 한계를 극복하고 다중 사용자 협업 작업에서 활동을 예측하기 위한 방안이 요구되고 있다.
상기 과제를 해결하기 위해서, 본 발명의 일 실시예는 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법을 제공한다.
상기 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법은, 협업 작업의 에피소드에 포함된 복수의 활동에 대한 복수의 튜플을 입력받고, 각 튜플과 이전 튜플 사이의 시간적 관계를 계산하는 단계; 임베딩 레이어에서 상기 각 튜플에 포함된 활동 세트 및 시간적 관계를 복수의 벡터로 변환하는 단계; 인코더에서 상기 복수의 벡터에 대한 복수회의 어텐션 과정을 수행하여 활동과 이전 활동 간의 관계를 학습하는 단계; 디코더에서 상기 복수의 벡터에 대한 복수회의 마스킹된 어텐션 과정 및 상기 인코더의 결과에 대한 어텐션 과정을 수행하여 예측할 활동과 이전 활동 간의 관계를 학습하는 단계; 및 상기 어텐션 과정에서 획득한 어텐션 값을 사용하여 다음 활동과 이의 현재 활동과의 시간적 관계를 예측하는 단계를 포함할 수 있다.
덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 협업 작업에서 다음 활동 및 현재 활동과의 시간적 관계를 예측함에 있어서 종래 기술에 비해 더 높은 정확도를 제공할 수 있다.
도 1은 다중 사용자 협업 작업에서 중복 활동이 발생하는 상황을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법의 전체 흐름을 도시하는 도면이다.
도 3은 알렌의 시간적 관계를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예의 성능 평가를 위해 다양한 스마트 객체 및 센서가 설치된 테스트 베드의 예를 도시하는 도면이다.
도 5는 프로젝트 미팅에서 본 발명 및 TRE + LSTM 모델의 정규화된 혼동 행렬을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 '연결'되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 '간접적으로 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
우선, 본 발명의 실시예에 따른 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법에 대해 설명하기에 앞서, 다중 사용자 협업 스마트 환경에서 주변 센서만 사용하여 활동을 예측하는 경우에 고려해야 할 사항에 대해 설명한다.
먼저, 주변 센서가 있는 스마트 공간에서 도 1에 도시된 바와 같이 여러 사용자가 동시에 또는 중복된 방식으로 활동을 수행하는 협업 작업을 수행하는 경우에 활동 소유자를 식별하기가 어렵다. 이에 활동 간의 시간적 관계를 설명하기 위한 추가 표현을 필요로 한다. 또한, 주어진 활동과 바로 앞의 활동이 서로 다른 사용자에 의해 수행되는 경우 서로 상관 관계가 없을 수도 있다. LSTM과 같은 종래의 방향성 모델은 과거 데이터만으로 구성되어 있기 때문에 활동 간의 잘못된 관계를 잘못 학습하게 된다. 모델을 학습할 때 과거 활동뿐만 아니라 미래 활동을 기반으로 관련 활동이 더욱 연결될 필요가 있다.
다음으로, 스마트 공간에서 주변 감지는 사운드 센서와 같은 센서뿐만 아니라 스마트 TV 또는 빔 프로젝터와 같은 스마트 객체의 데이터를 활용할 수 있다. 스마트 객체와 관련된 활동에서는 일반적으로 스마트 객체가 한 번 켜지면 세션이 끝날 때까지 지속되는 반면 센서와 관련된 활동에서는 센서가 자주 켜고 꺼지며, 특히 여러 사용자가 함께 있을 때 더욱 빈번해진다. 협업 작업(즉, 여러 사용자가 수행하는 인터리브된 일련의 활동)이 진행됨에 따라 주변 센서 기반 활동이 증가하고 총 활동 수에 대한 스마트 객체 기반 활동의 비율이 크게 감소한다. 이는 활동 순서 학습 중에 스마트 객체 기반 활동을 중요한 활동으로 포착하기 어렵게 만들고 예측 성능을 저하시킨다. 학습 기법은 예측 정확도가 손상되는 것을 방지하기 위해 지속 기간이 길지만 자주 발생하지 않는 활동을 주목할 만한 것으로 취급할 필요가 있다.
도 2는 본 발명의 일 실시예에 따른 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법의 전체 흐름을 도시하는 도면이다.
이하, A, TR, ST, ET 및 G는 각각 활동 세트, 시간적 관계, 시작 시간, 종료 시간 및 협업 작업을 나타낸다. 는 스마트 공간에서 허용되는 협업 작업 유형의 수를 나타내고, i 번째 작업 유형의 j 번째 에피소드는 Gij = 로 표시된다. 현재 상태를 n으로 표시한다.
도 2를 참조하면, Gij의 n 번째 튜플을 입력으로 수신하면, 해당 튜플과 이전 튜플인 번째 튜플 사이의 시간적 관계를 계산한다(①).
이후, 임베딩 레이어에서 튜플을 벡터 로 변환한다(②).
이는 인코더에 입력되고, 사이의 중요한 관계를 발견한다(③).
디코더는 에 대해 마스킹을 더하여 인코더와 동일한 프로세스를 수행한다(④).
이후, 인코딩된 결과가 디코더에 입력되고(⑤), 마지막으로 사이의 관계의 중요도 값을 얻는다(③). 여기서 관계의 중요도 가중치는 후술하는 어텐션 메커니즘에 의해 얻는다.
추론 단계에서 의 예측을 위해 어텐션 값을 사용한다.
이하, 각 단계에 대해 보다 구체적으로 설명한다.
시간적 관계 계산(①)에서는, Gij에서 는 트랜스포머의 입력으로 들어가기 전에 를 이용하여 로 표현되어야 한다. 여기서, 트랜스포머는 일반적으로 NLP 분야에서 사용하기 때문에 순서 기반 방법이고, 복잡한 관계를 표현하는데 한계가 있다.
본 발명의 실시예에서는 도 3에 도시된 바와 같은 알렌의 시간적 관계(Allen's Temporal Relations)를 사용하여 활동 간의 중복 또는 병렬 관계를 나타낸다. Gij의 활동은 시작 시간을 기준으로 정렬된다. 시작 시간이 같거나 비슷한 경우 활동 인터리빙은 활동 기간의 오름차순으로 정렬된다. 정렬된 시퀀스를 기반으로 각 활동은 시작 시간과 종료 시간을 이전 활동과 비교하여 이들 사이의 적절한 시간적 관계를 감지한다. 예를 들어, 에 대해 이고, 에 대해 , 이면, 중복(Overlap) 시간적 관계가 있다.
한편, LSTM 기반 접근 방식은 소멸 그래디언트 문제가 있으며 주어진 활동 시퀀스에서 장기적인 관계를 도출하지 못한다. 이에, 본 발명의 실시예에서는 협업 작업의 복잡한 활동 순서에서 서로 관련된 활동의 연관성을 강화하기 위해 트랜스포머를 사용한다. 먼저, 임베딩 레이어 및 어텐션 메커니즘에 대해 설명하고 인코더 및 디코더 구조에 대해 설명하기로 한다.
상술한 바와 같이 를 이용해서 를 계산한 후, 튜플을 기초로 튜플을 생성하고, 이는 임베딩 레이어에 입력으로 들어간다. 임베딩 레이어(②)에서 값은 벡터 로 변환되어 다음 활동과 이의 현재 활동과의 시간적 관계를 함께 예측한다. 트랜스포머 구조는 시간 정보를 포함하지 않기 때문에 본 발명에서는 벡터 간의 순차적 관계를 표현하기 위해 위치 인코딩(Positional Encoding)을 함께 사용한다. sin 및 cos 함수로 계산된 위치 인코딩 값은 시퀀스에서의 위치에 따라 각 벡터에 추가된다. 입력 시퀀스 의 최종 임베딩은 인코더로 공급되고 는 훈련을 위해 디코더로 입력된다.
어텐션 메커니즘(③)은 트랜스포머의 주요 요소로서, 활동 간의 중요한 가중치를 계산하는 스케일 내적(scaled-dot product)을 기반으로 한다. 본 발명에서는 하기의 수학식 1에 따라 어텐션 값을 계산할 수 있다.
[수학식 1]
여기서, Q는 하나의 특정 활동을 의미하고, K는 다른 활동을 의미하며, V는 두 활동 간의 관계의 영향(impact)을 나타낸다. Q와 K 사이의 스케일 내적을 이용하여 모든 활동의 어텐션 점수를 획득하고 이를 소프트맥스(softmax)와 V와의 내적에 의해 압축한다. 어텐션 과정을 여러 번(즉, Multi-head Attention) 수행하고 이를 연결하여 활동 간의 관계의 다양한 측면을 커버한다. 즉, 연결된 값은 상관 관계 측면에서 작업에서 임의의 두 활동 간의 중요성을 나타낸다.
인코더는 상술한 바와 같은 1개의 셀프 어텐션(③)과 1개의 피드 포워드(⑤)로 구성된다. 본 발명의 일 실시예에서는 M개의 인코더를 연결하여 이전 활동 간의 관계를 최대한 많이 학습하여 소멸 그래디언트 문제없이 가능한 한 예측할 수 있다. 다음 인코더는 이전 인코더의 결과를 가져오며, K와 V의 M 번째 결과가 디코더의 어텐션 구성 요소로 입력된다.
디코더는 마스킹된 셀프 어텐션(④), 인코더 결과에 대한 어텐션(③), 그리고 피드 포워드(⑤)의 세 가지 구성 요소를 포함할 수 있다. 본 발명의 일 실시예에서는 M개의 디코더를 연결하여 예측할 활동과 이전 활동 간의 관계를 학습한다. 예측 결과를 순차적으로 도출하기 위해 각 디코더는 셀프 어텐션 메커니즘(③)에서 마스킹 방법을 사용하여 다음 활동으로 어텐션 값을 숨긴다. 그런 다음 셀프 어텐션 메커니즘에서 Q를 추출하고 인코더에서 K와 V를 가져와 입력 활동과 예측된 활동 간의 어텐션 값을 계산한다.
인코더와 디코더 모두 피드 포워드(FF)(⑤)를 사용하며, 선형 활성화를 사용하여 활동 간의 시간적 관계 정보를 보존할 수 있다. FF의 공식은 하기의 수학식 2와 같다.
[수학식 2]
본 발명의 실시예에서는 모든 인코더 및 디코더의 입력 및 출력은 동일한 형태를 유지하고 Add & Norm 구성 요소에 의해 값을 정규화할 수 있다.
한편, 본 발명의 실시예에서는 활동 및 시간적 관계 예측 훈련을 위해 범주형 교차 엔트로피 손실이 손실 함수로 적용될 수 있다. 이 경우, 손실 함수의 공식은 하기의 수학식 3과 같다 (는 y로 표시됨).
[수학식 3]
다음 활동의 유형별 확률을 얻기 위해 소프트맥스 함수가 활성화 함수로 사용될 수 있다. 비특허문헌 5를 참조하여 학습률을 변경하면서 상술한 본 발명의 실시예를 훈련시키고 아담 옵티마이저(dam Optimizer) 사용할 수 있다.
본 발명의 실시예에서는 argmax 방법을 소프트맥스 함수의 결과에 적용하고 형태를 변경하여, 이로부터 가장 가능성이 높은 다음 활동 튜플인 를 획득할 수 있다. 예를 들어, , 이면, 한 사용자가 조명을 켤 때 조명이 활성화된 동안 프로젝트가 사용되는 것으로 해석할 수 있다. 의 대략적인 시작 시간을 예측하기 위해, 본 발명의 실시예에서는 협업 작업의 각 활동에 대한 시퀀스에 따라 평균 지속 기간 분포를 사용할 수 있다.
이하, 상술한 바와 같은 본 발명의 성능을 평가한 결과에 대해 설명한다.
도 4는 본 발명의 실시예의 성능 평가를 위해 다양한 스마트 객체 및 센서가 설치된 테스트 베드의 예를 도시하는 도면으로, 세미나룸 테스트 베드에서 얻은 실제 데이터 세트를 활용하여 평가를 수행하였다. 데이터 세트는 학생과 교수진이 다양한 그룹 작업을 수행하는 테스트 베드로부터 획득한 3,466,339 개의 센서 원시 값으로 구성된다. 표 1은 테스트 베드에서 수행되는 다중 사용자 협업 작업(즉, 그룹 작업)의 유형을 나타낸다. 그룹 작업은 그늘 사용, 방 떠나기, 연단 점유, 좌석 점유, 조명 사용, 말하기 및 프로젝터 사용을 포함하는 7 가지 활동 중 일부 또는 전부로 구성될 수 있다.
그룹 작업 설명 사람 수 활동 시퀀스의 평균 길이
그룹 채팅 한 쌍의 사람들이 근처에 앉아 일상적인 대화를 함 2~3 21
세미나 한 명 이상의 연사가 프레젠테이션을 하고 다른 사람들은 프레젠테이션 주제에 대해 토론함 4≤ 53
프로젝트 미팅 프로젝터를 사용하여 토론 주제를 디스플레이하면 많은 사람들이 이에 대해 토론함 4≤ 56
그룹 스터디 몇몇 사람이 장시간 동안 함께 스터디를 함 2~3 86
또한 CASAS 그룹에서 수집한 공개 데이터 세트를 사용하여 본 발명의 일 실시예의 적용 가능성을 보여준다. CASAS 데이터 세트에서 두 명의 사용자가 스마트 홈에서 게임 플레이, 저녁 식사 준비 및 피크닉 준비를 포함하는 세 가지 그룹 작업을 수행한다. 각 작업은 복수의 위치에서 움직이는 사람의 시퀀스, 복수의 아이템 사용 및 복수의 캐비닛 사용으로 구성된다. 활동 시퀀스의 평균 길이는 각각 저녁 식사 준비에서 28 개, 게임 플레이에서 32 개, 피크닉 준비에서 104 개이다.
이하, 상술한 테스트 베드의 데이터 세트를 'K', CASAS 데이터 세트를 'C'라고 지칭한다.
예측 성능을 평가하기 위해 5 겹 교차 검증을 사용하였다. 무작위로 훈련 세트와 테스트 세트를 10 번 선택하고 그로부터 평균값을 얻었다. CASAS 데이터 세트는 트랜스포머를 훈련시키기 위한 상대적으로 적은 양의 데이터를 가지고 있으므로, 여러 센서 값을 무작위로 빼고 삽입하여 데이터 증대를 수행하였다. 활동 및 시간적 관계 예측의 성능을 평가하기 위해 평균 정확성 값을 사용한다. 다음 활동 예측과 그 시간적 관계 예측의 정확성은 (T × TR)정확성으로 표시된다. 비특허문헌 3 및 4에서는 LSTM 기반 접근 방식이 규칙 기반 또는 그래프 기반 접근 방식보다 더 높은 예측 성능으로 이어진다는 것을 이미 입증하였다. 공정한 비교를 위해 알렌의 시간적 관계 모델을 기존의 LSTM 접근법(비특허문헌 4 참조)에 적용하고 이를 TRE + LSTM 모델이라고 한다. 또한 성능을 BiLSTM와 비교하였으며, 이를 TRE + BiLSTM 모델이라고 한다. 두 접근법 모두 어텐션 메커니즘을 포함하지 않는다. 또한, 본 발명의 실시예는 TAP(Transformer based Activity Prediction)라 한다.
먼저, 테스트 베드 데이터 세트의 결과를 분석한다. 표 2는 모든 그룹 작업에서 본 발명의 실시예가 TRE + LSTM에 비해 성능이 우수함을 보여준다. 본 발명의 실시예에 따르면, 그룹 채팅, 세미나, 프로젝트 미팅 및 그룹 스터디에서 (T × TR) 정확도를 각각 54 %, 53 %, 47 % 및 44 % 만큼 향상시킬 수 있다.
도 5는 프로젝트 미팅에서 본 발명 및 TRE + LSTM 모델의 정규화된 혼동 행렬을 설명하기 위한 도면으로, 도 5를 참조하면 본 발명에서 위양성 활동(세로축 오류) 및 위음성 활동(가로축 오류)이 참 양성 활동(대각선 값)에 더 잘 수렴된다는 것을 알 수 있다.
TRE + LSTM 모델에서는 많은 활동이 좌석 점유 또는 말하기로 예측됨을 알 수 있다. 이는 이들 활동이 다른 활동보다 자주 발생하여 다른 활동이 예측된 활동으로 나타나는 것을 방해하기 때문이다.
이에 반해, 본 발명의 실시예는 TRE + LSTM 모델에 비해 훨씬 높은 예측 정확도를 달성한다. 본 발명에서 어텐션 메커니즘이 상호 관련된 활동 관계를 강화하고 이러한 활동의 중요성을 강조하기 때문에 조명 사용 또는 프로젝터 사용과 같이 드물게 발생하는 활동을 잘 예측함을 암시한다. 그룹 채팅과 세미나에서 효과는 동일하며 표 2는 본 발명의 실시예가 기존 접근 방식보다 더 높은 정확도를 보여줌을 나타낸다.
공정한 평가를 위해 이전 연구와 같이 활동만을 예측하는 실험도 수행하였으며, 그 결과는 표 2의 A 아래 열이다. 상술한 바와 같은 이유로 인해 본 발명이 기존 접근 방식보다 훨씬 더 높은 정확도를 달성한다.
본 발명의 (T × TR) 정확도를 참조하면 채팅의 활동 예측 정확도는 가장 높은 비율로 증가하고 그룹 스터디에서는 가장 낮은 비율로 향상됨을 알 수 있다. 그룹 스터디는 채팅(표 1 참조)에 비해 활동 시퀀스가 더 길기 때문에 다른 활동보다 더 많은 활동 변화를 유발한다. 즉, 예측 정확도가 활동 시퀀스의 길이에 반비례하여 향상됨을 알 수 있다.
표 3에서 볼 수 있듯이 CASAS 데이터 세트에 대한 본 발명의 예측 성능도 TRE + LSTM보다 우수하다. 본 발명은 게임 플레이, 저녁 식사 준비, 피크닉 준비에서 각각 (T × TR) 정확도를 40 %, 34 %, 41 % 향상시킨다. CASAS 데이터 세트의 활동 간의 시간적 관계는 다양하지 않고 대부분 순차적이다. 따라서 (T × TR) 정확도는 CASAS 데이터 세트의 시간적 관계 정확도에 영향을 받지 않는다. 본 발명의 어텐션 메커니즘은 아이템 사용과 같은 드문 활동을 추출하여 본 발명을 다른 방법보다 더 정확하게 만들 수 있다.
상술한 실시예에서는 각 활동의 시간적 관계와 평균 지속 시간 분포를 통합하여 활동의 시작 시간을 대략적으로 계산하였으나, 보다 정확한 시작 시간을 얻기 위해서는 활동과 함께 지속 시간을 예측할 필요가 있다. 그러나, 트랜스포머는 예측 결과를 추출하기 위해 소프트 맥스 함수(즉, 분류에 적합 함)를 사용하기 때문에 연속 값인 지속 기간 예측에 직접 적용하기가 어렵다. 이를 해결하기 위해, 다른 실시예에 따르면 다음 활동의 지속 기간(시작 및 종료 시간)을 예측하기 위한 회귀 계층이 있는 다른 트랜스포머를 추가할 수 있다.
한편, 사용자 그룹의 활동 순서는 단일 사용자보다 시간이 지남에 따라 더 많은 변동이 있다. 따라서 작업이 진행됨에 따라(즉, 활동 시퀀스의 길이와 변동이 커짐에 따라) 다음 활동 예측이 더 어려워질 수 있다. 상술한 실험을 통해 작업의 길이가 평균값보다 길어짐에 따라 예측 정확도가 저하, 즉 그룹 채팅, 세미나, 프로젝트 미팅 및 그룹 스터디의 경우 각각 15 %, 14 %, 16 %, 13 % 감소하는 것을 확인하였다. 이를 극복하기 위해서는 정확도가 급격히 저하되는 지점을 찾아 피드백을 통한 재 학습 방법이 추가할 수 있다.
본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.

Claims (3)

  1. 트랜스포머 기반 활동 예측 방법으로, 상기 트랜스포머가 협업 작업의 에피소드에 포함된 복수의 활동에 대한 복수의 튜플을 입력받고, 각 튜플과 이전 튜플 사이의 시간적 관계를 계산하는 단계;
    상기 트랜스포머가 임베딩 레이어에서 상기 각 튜플에 포함된 활동 세트 및 시간적 관계를 복수의 벡터로 변환하는 단계;
    상기 복수의 벡터가 상기 트랜스포머의 인코더에 입력되어 상기 복수의 벡터에 대한 복수회의 어텐션 과정을 수행하여 활동과 이전 활동 간의 관계를 학습하는 단계;
    상기 트랜스포머의 디코더에서 상기 복수의 벡터에 대한 복수회의 마스킹된 어텐션 과정 및 상기 인코더의 결과에 대한 어텐션 과정을 수행하여 예측할 활동과 이전 활동 간의 관계를 학습하는 단계; 및
    상기 어텐션 과정에서 획득한 어텐션 값을 사용하여 다음 활동과 이의 현재 활동과의 시간적 관계를 예측하는 단계를 포함하며,
    상기 시간적 관계를 계산하는 단계는 시작 시간이 같거나 비슷한 경우 활동 인터리빙은 활동 기간의 오름차순으로 정렬한 후, 상기 정렬된 시퀀스를 기반으로 각 활동은 시작 시간과 종료 시간을 이전 활동과 비교하여 이들 사이의 적절한 시간적 관계를 감지하며,
    상기 복수의 벡터는 벡터 간의 순차적 관계를 표현하기 위해 위치 인코딩(Positional Encoding)값을 포함하며,
    상기 어텐션 과정은 하기 식 (1) 에 따라 Q와 K 사이의 스케일 내적을 이용하여 모든 활동의 어텐션 점수를 획득하고 이를 소프트맥스(softmax)와 V와의 내적에 의해 압축하는 것을 특징으로 하는, 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법.
    (1)
    (상기 식에서 Q는 하나의 특정 활동, K, V는 두 활동 간의 관계의 영향(impact)을 나타냄)
  2. 삭제
  3. 제 1 항에 있어서,
    상기 인코더 및 상기 디코더는 피드 포워드를 사용하고, 선형 활성화를 사용하여 활동 간의 시간적 관계를 보존하는 것을 특징으로 하는 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법.
KR1020210066635A 2021-05-25 2021-05-25 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법 KR102589164B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210066635A KR102589164B1 (ko) 2021-05-25 2021-05-25 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210066635A KR102589164B1 (ko) 2021-05-25 2021-05-25 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법

Publications (2)

Publication Number Publication Date
KR20220158963A KR20220158963A (ko) 2022-12-02
KR102589164B1 true KR102589164B1 (ko) 2023-10-13

Family

ID=84413074

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210066635A KR102589164B1 (ko) 2021-05-25 2021-05-25 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법

Country Status (1)

Country Link
KR (1) KR102589164B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102539679B1 (ko) * 2023-02-01 2023-06-02 (주)피플리 사용자의 경로를 이용하여 사용자 맞춤형 장소 추천 방법, 장치 및 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110192206A (zh) * 2017-05-23 2019-08-30 谷歌有限责任公司 基于注意力的序列转换神经网络

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국 인터넷 정보학회, ‘유비쿼터스 홈 네트워크 시스템에서 은닉 마르코프 모델을 이용한 사용자 행동 상태 분석 및 예측 알고리즘’, 신동규 외(2011.04.)*

Also Published As

Publication number Publication date
KR20220158963A (ko) 2022-12-02

Similar Documents

Publication Publication Date Title
CN108681610B (zh) 生成式多轮闲聊对话方法、系统及计算机可读存储介质
CN109844741B (zh) 在自动聊天中生成响应
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
Wu et al. Multimodal integration-a statistical view
KR20210114074A (ko) 멀티미디어 데이터의 캡셔닝 정보를 생성하는 방법, 장치, 디바이스 및 매체
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN106297789A (zh) 智能机器人的个性化交互方法及交互系统
CN109829049B (zh) 利用知识库渐进时空注意力网络解决视频问答任务的方法
Shahbazian Multimodal input fusion in human-computer interaction
CN107463609A (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
Ochs et al. A User Perception--Based Approach to Create Smiling Embodied Conversational Agents
De Leersnyder et al. Emotional acculturation
KR102415101B1 (ko) 피검사자 음성으로부터 추출한 음성 데이터 및 텍스트 데이터와 그림 데이터를 이용하여 피검사자의 감정을 분석하는 장치
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
KR102589164B1 (ko) 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법
CN112100350B (zh) 一种用于强化回复个性化表达的开放域对话方法
Serban et al. A deep reinforcement learning chatbot (short version)
CN109800295A (zh) 基于情感词典和词概率分布的情感会话生成方法
Iio et al. Double-meaning agreements by two robots to conceal incoherent agreements to user's opinions
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成系统及方法
Wu et al. Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models
CN113420111A (zh) 一种用于多跳推理问题的智能问答方法及装置
US20210056489A1 (en) Controlling submission of content
Kim et al. TAP: A Transformer based Activity Prediction Exploiting Temporal Relations in Collaborative Tasks
KR20150128006A (ko) 계층적 은닉 마르코프 모델을 이용한 행동 인식 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant