KR102591048B1

KR102591048B1 - 어노테이션 생성 지원 장치 및 방법

Info

Publication number: KR102591048B1
Application number: KR1020220107548A
Authority: KR
Inventors: 조용장; 송남구; 정지희
Original assignee: (주)메디아이플러스
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2023-10-19
Also published as: WO2024043744A1

Abstract

대용량 데이터 레이블링을 위한 고효율 어노테이션 생성 지원 장치 및 방법이 개시된다. 일 실시 예에 따른 어노테이션 생성 지원 장치는 데이터 베이스로부터 하나 이상의 원시 데이터를 수신하여 하나 이상의 원시 데이터 각각에 대한 하나 이상의 레이블링 후보 정보를 생성하는 레이블링 지원부; 및 하나 이상의 레이블링 후보 정보를 출력하는 인터페이스부를 포함할 수 있다.

Description

어노테이션 생성 지원 장치 및 방법{Apparatus and method for supporting annotation generation}

대용량 데이터 레이블링을 위한 고효율 어노테이션 생성 지원 장치 및 방법에 관한 것이다.

최근 인공 신경망의 활용 범위가 넓어지며 이를 학습하기 위한 학습 데이터 생성 방법에 많은 연구가 진행되고 있다. 종래 학습 데이터를 생성하기 위한 레이블링 기술은 데이터에 라벨을 연결 짓는 기본적인 수행 과정에서의 어노테이션 시스템에 국한되며, 이러한 시스템은 시스템의 기본 정의를 구현하는 데이터 입력부, 데이터 출력부, 어노테이션 인터페이스 등 기본적인 구조에 한정되어 있다.

하지만 이런 기본적인 기능은 데이터의 수가 기하급수적으로 늘어나거나 레이블러가 데이터를 레이블링하기 위해 수준 높은 도메인 지식이 요구되는 경우, 또는, 다수의 사용자가 레이블러로 참여하여 라벨 결과에 이견이 있을 경우 등 다양한 환경에 적합하지 않다.

대용량 데이터 레이블링을 위한 고효율 어노테이션 생성 지원 장치 및 방법을 제공하는데 목적이 있다.

일 양상에 따르면, 어노테이션 생성 지원 장치는 데이터 베이스로부터 하나 이상의 원시 데이터를 수신하여 하나 이상의 원시 데이터 각각에 대한 하나 이상의 레이블링 후보 정보를 생성하는 레이블링 지원부; 및 하나 이상의 레이블링 후보 정보를 출력하는 인터페이스부를 포함할 수 있다.

레이블링 지원부는 원시 데이터에 포함된 하나 이상의 메타 데이터 중 적어도 하나를 기준으로 하나 이상의 원시 데이터를 그룹핑하며, 동일한 그룹에 포함된 하나 이상의 원시 데이터에 포함된 기준이 된 메타 데이터에 대한 리스트를 생성할 수 있다.

레이블링 지원부는 기준이 된 메타 데이터를 기초로 유클리드 거리 및 맨해튼 거리 중 어느 하나인 휴리스틱 함수 또는 그래프 상의 에지 홉 (Edge Hop)을 이용하여 하나 이상의 원시 데이터에 포함된 메타 데이터의 거리를 측정하며, 측정된 메타 데이터의 거리를 기초로 원시 데이터를 그룹핑할 수 있다.

레이블링 지원부는 메타 데이터에 대한 리스트에 포함된 메타 데이터 중 중복되는 메타 데이터를 리스트에서 제거하여 레이블링 후보 정보를 생성할 수 있다.

레이블링 지원부는 기준이 된 메타 데이터 이외의 다른 메타 데이터를 이용하여 중복된 메타 데이터의 식별 정보로 생성할 수 있다.

인터페이스부는 하나 이상의 레이블링 후보 정보를 출력하며, 사용자로부터 하나 이상의 레이블링 정보 중 어느 하나를 선택하는 입력 신호를 수신할 수 있다.

레이블링 지원부는 인터페이스부를 통하여 수신한 레이블링 정보를 선택하는 입력 신호에 기초하여 선택된 레이블링 후보에 해당하는 메타 데이터를 동일한 그룹에 포함된 하나 이상의 원시 데이터의 레이블로 설정할 수 있다.

원시 데이터는 영상 데이터, 텍스트 데이터 및 이미지 데이터 중 적어도 하나일 수 있다.

레이블링 지원부는 인터페이스부를 통하여 사용자로부터 하나 이상의 레이블링 정보 중 어느 하나를 제거하는 입력 신호를 수신하며, 수신한 레이블링 정보를 제거하는 입력 신호에 기초하여 선택된 레이블링 후보에 해당하는 원시 데이터를 그룹에서 제외할 수 있다.

레이블링 지원부는 하나 이상의 원시 데이터를 입력받아 회귀, 분류 및 군집 중 어느 하나를 수행하여 분석 벡터를 생성하는 데이터 레이블링 지원부; 분석 벡터를 시각적 데이터로 변환하는 데이터 시각화부; 및 분석 벡터에 대한 보팅(voting)을 수행하여 레이블링 후보 정보를 생성하는 데이터 무결성 제어부를 포함할 수 있다.

레이블링 지원부는 편집 거리(edit distance)를 이용하여 하나 이상의 원시 데이터에 포함된 메타 데이터의 거리를 측정하되, 메타 데이터가 고유명사를 포함하는 경우 고유명사의 종류 별로 가중치를 부여할 수 있다.

일 양상에 따르면, 어노테이션 생성 지원 방법은 데이터 베이스로부터 하나 이상의 원시 데이터를 수신하여 하나 이상의 원시 데이터 각각에 대한 하나 이상의 레이블링 후보 정보를 생성하는 단계; 및 하나 이상의 레이블링 후보 정보를 출력하는 단계를 포함할 수 있다.

일 실시 예에 따를 경우, 대용량 데이터에 대한 고효율 어노테이션 시스템을 구축할 수 있으며, 레이블러가 어노테이션 시스템을 수행할 때 발생하는 경험적인 애로사항들을 해결할 수 있다.

도 1은 일 실시 예에 따른 어노테이션 생성 지원 장치의 구성도이다.
도 2는 일 실시 예에 따른 원시 데이터 그룹핑 방법을 설명하기 위한 예시도이다.
도 3은 일 실시 예에 따른 레이블링 지원부의 구성도이다.
도 4는 일 예에 따른 레이블링 지원부의 동작을 설명하기 위한 예시도이다.
도 5는 일 실시 예에 따른 어노테이션 생성 지원 방법을 도시한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 어노테이션 생성 지원 장치 및 방법의 실시 예들을 도면들을 참고하여 자세히 설명한다.

도 1은 일 실시 예에 따른 어노테이션 생성 지원 장치의 구성도이다.

도 1을 참조하면, 어노테이션 생성 지원 장치(100)는 데이터 베이스로부터 하나 이상의 원시 데이터를 수신하여 하나 이상의 원시 데이터 각각에 대한 하나 이상의 레이블링 후보 정보를 생성하는 레이블링 지원부(110) 및 하나 이상의 레이블링 후보 정보를 출력하는 인터페이스부(120)를 포함할 수 있다.

일 예에 따르면, 원시 데이터는 영상 데이터, 텍스트 데이터 및 이미지 데이터 중 적어도 하나일 수 있다. 예를 들어, 원시 데이터는 임상 시험을 수행한 논문 데이터일 수 있다.

일 예로, 레이블링 후보 정보는 원시 데이터를 구분하기 위한 정보일 수 있다. 예를 들어, 원시 데이터가 논문 데이터인 경우, 레이블링 후보 정보는 논문의 저자, 생성기관, 생성일자, 연구 주제, 연구 고유번호, 및 연구 분야 중 적어도 하나일 수 있다.

일 실시 예에 따르면, 레이블링 지원부(110)는 원시 데이터에 포함된 하나 이상의 메타 데이터 중 적어도 하나를 기준으로 하나 이상의 원시 데이터를 그룹핑하며, 동일한 그룹에 포함된 하나 이상의 원시 데이터에 포함된 기준이 된 메타 데이터에 대한 리스트를 생성할 수 있다.

일 예로, 메타 데이터는 레이블링 후보 정보가 될 수 있는 데이터일 수 있다. 이에 따라, 원시 데이터가 논문 데이터인 경우, 메타 데이터는 논문의 저자, 생성기관, 생성일자, 연구 주제, 연구 고유번호 및 연구 분야 중 적어도 하나일 수 있다.

일 예에 따르면, 레이블링 지원부(110)는 메타 데이터에 포함되는 논문의 저자, 생성기관, 생성일자, 연구 주제, 연구 고유번호 및 연구 분야 중 어느 하나를 기준으로 원시 데이터를 그룹핑할 수 있다. 예를 들어, 기준이 된 메타 데이터가 생성기관인 경우, 레이블링 지원부(110)는 생성기관을 기준으로 동일 또는 유사한 생성기관이 포함된 논문 데이터들을 그룹핑할 수 있다.

일 예에 따르면, 레이블링 지원부(110)는 동일한 그룹에 포함된 원시 데이터에 대한 그룹핑의 기준이 된 메타 데이터 리스트를 생성할 수 있다. 예를 들어, 제 1 그룹에 해당하는 원시 데이터가 10개이며, 각각의 생성기관이 'University of Pennsylvania Hospital, Univ of Pennsylvania, University of Pennsylvannia, University of Pennsylvanica, Univ of Pennsylvania , University of Pennsylvania Faculty, University of Pensylvania, Univesity of Pennsylvania, University of Pennsylvannia, University of Pennsylvania Hospital'일 수 있다. 이러한 경우, 레이블링 지원부(110)는 위의 생성기관에 대한 메타 데이터를 이용하여 메타 데이터 리스트를 생성할 수 있다.

일 실시 예에 따르면, 레이블링 지원부(110)는 기준이 된 메타 데이터를 기초로 하나 이상의 원시 데이터에 포함된 메타 데이터의 거리를 측정하며, 측정된 메타 데이터의 거리를 기초로 원시 데이터를 그룹핑할 수 있다.

일 예로, 레이블링 지원부(110)는 유클리드 거리 및 맨해튼 거리 중 어느 하나인 휴리스틱 함수 또는 그래프 상의 에지 홉 (Edge Hop)을 이용하여 하나 이상의 원시 데이터에 포함된 메타 데이터의 거리를 측정할 수 있다.

일 예로, 레이블링 지원부(110)는 편집 거리(edit distance)를 이용하여 메타 데이터의 거리를 측정할 수 있다. 예를 들어, 메타 데이터 a = '안녕하세요' 이며, 메타 데이터 b = '안녕하십니까'인 경우, 메타 데이터 간 음절이 다른 '십니까'를 기준으로 두 메타 데이터 간 거리 = 3 이 될 수 있다.

일 예로, 레이블링 지원부(110)는 편집 거리(edit distance)를 이용하여 메타 데이터의 거리를 측정 시 고유명사의 종류별로 가중치 부여할 수 있다. 예를 들어, 인명, 기관명, 지명 및 국호와 같은 고유명사를 포함하는 메타 데이터가 입력되는 경우, 레이블링 지원부(110)는 메타 데이터에 포함된 각각의 고유명사 종류별로 지정된 소정의 함수를 통하여 고유명사 별로 지정된 소정의 가중치를 부여할 수 있다. 예를 들어, 두 개의 메타 데이터가 인명 및 지명에 대한 고유 명사를 포함하고 있는 경우, 레이블링 지원부(110)는 인명이 다른 경우의 가중치와 지명이 다른 경우의 가중치를 상이하게 적용할 수 있다.

일 예로, 메타 데이터는 하나 이상의 단어를 포함하는 문장 또는 하나 이상의 문자를 포함하는 문자열로 구성될 수 있다.

일 예로, 레이블링 지원부(110)는 대체, 삽입, 삭제 및 순서변경에 따른 거리의 가중치를 다르게 부여할 수 있다.

일 예를 들어, 메타 데이터가 'Winikoff, Beverly'및 'Winikoff, B'인 경우, 두 메타 데이터는 'everly'의 '추가 또는 삭제'가 된 관계일 수 있다. 반면, 두 메타 데이터가 'Winikoff, Grey' 및 'Winikoff, B'인 경우, 'Grey'와 'B'는 '대체' 관계에 있을 수 있다. 위의 두 경우 중 '추가 또는 삭제'의 경우, 이름을 축약한 경우로서 동일한 이름을 의미하는 것일 가능성이 높은 반면, '대체'는 서로 다른 이름일 가능성이 높다. 이에 따라, '추가 또는 삭제'의 경우 거리에 대한 가중치를 작게 설정하며, '대체'의 경우 거리에 대한 가중치를 크게 설정할 수 있다.

일 예를 들어, 메타 데이터 'Beverly Winikoff'및 'Winikoff Beverly'의 경우, 두 단어 'Winikoff' 와 'Beverly'의 순서가 다른 것으로, 두 단어의 순서를 변경하는 경우 동일한 메타 데이터가 될 수 있다. 이에 따라, 두 메타 데이터가 '순서 변경' 관계에 있는 경우, 거리에 대한 가중치를 작게 설정할 수 있다.

일 실시 예에 따르면, 레이블링 지원부(110)는 메타 데이터에 대한 리스트에 포함된 메타 데이터 중 중복되는 메타 데이터를 리스트에서 제거하여 레이블링 후보 정보를 생성할 수 있다.

일 예를 들어, 위에서 언급한 제 1 그룹의 경우, 메타 데이터 University of Pennsylvania Hospital, University of Pennsylvannia 및 Univ of Pennsylvania가 중복되어 있다. 이때, 레이블링 지원부(110)는 중복되는 메타 데이터를 리스트에서 제거하여 레이블링 후보 정보를 생성할 수 있다.

예를 들어, 레이블링 후보 정보는 아래 표와 같이 생성될 수 있다.

레이블링 후보 정보	사용자 선택 입력
University of Pennsylvania Hospital	University of Pennsylvania
Univ of Pennsylvania
University of Pennsylvannia
University of Pennsylvanica
University of Pennsylvania Faculty
University of Pensylvania
Univesity of Pennsylvania

일 실시 예에 따르면, 인터페이스부(120)는 하나 이상의 레이블링 후보 정보를 출력하며, 사용자로부터 하나 이상의 레이블링 정보 중 어느 하나를 선택하는 입력 신호를 수신할 수 있다.

예를 들어, 표 1에서와 같이, 인터페이스부(120)는 레이블링 지원부(110)로부터 7개의 레이블링 후보 정보를 수신하여 출력할 수 있으며, 사용자로부터 출력된 레이블링 후보 정보 중 1 개를 선택하는 입력을 수신할 수 있다. 예를 들어, 인터페이스부(120)는 사용자로부터 7개의 레이블링 후보 정보에서 'University of Pennsylvania'를 선택하는 입력 신호를 수신할 수 있다.

일 실시 예에 따르면, 레이블링 지원부(110)는 인터페이스부(120)를 통하여 수신한 레이블링 정보를 선택하는 입력 신호에 기초하여 선택된 레이블링 후보에 해당하는 메타 데이터를 동일한 그룹에 포함된 하나 이상의 원시 데이터의 레이블로 설정할 수 있다.

예를 들어, 표 1에서 표시된 레이블링 후보 정보에 해당하는 제 1 그룹에 포함되는 원시 데이터 10개는 모두 동일하게 'University of Pennsylvania'를 레이블링으로 설정될 수 있다.

일 실시 예에 따르면, 레이블링 지원부(110)는 인터페이스부(120)를 통하여 사용자로부터 하나 이상의 레이블링 정보 중 어느 하나를 제거하는 입력 신호를 수신할 수 있으며, 수신한 레이블링 정보를 제거하는 입력 신호에 기초하여 선택된 레이블링 후보에 해당하는 원시 데이터를 그룹에서 제외할 수 있다.

예를 들어, 레이블링 지원부(110)가 인터페이스부(120)로부터 7개의 레이블링 후보 정보 중 'University of Pennsylvania Hospital'를 제거하는 입력을 요청받는 경우, 레이블링 지원부(110)는 레이블링 후보 정보에서 해당 정보를 제거하고 6개의 레이블링 후보 정보를 출력할 수 있다. 또한, 레이블링 지원부(100)는 제거된 'University of Pennsylvania Hospital'메타 데이터를 포함하고 있는 원시 데이터를 제 1 그룹에서 제거할 수 있다.

일 실시 예에 따르면, 레이블링 지원부(110)는 기준이 된 메타 데이터 이외의 다른 메타 데이터를 이용하여 중복된 메타 데이터의 식별 정보로 생성할 수 있다.

예를 들어, 레이블링 지원부(110)는 위의 실시 예에서 기준으로 적용한 생성기관 외 연구 고유번호를 식별 정보로 활용할 수 있다. 예를 들어, 도 2(a)에서 'National Center for Research Resources (NCRR)'에 해당하는 원시 데이터는 도 2(b)와 같이 나타낼 수 있으며, 여기서 'source id'를 기초로 11개의 원시 데이터를 식별할 수 있다. 다른 예를 들어, 예를 들어, 도 2(a)에서 'Weill Medical College of Cornell University'에 해당하는 원시 데이터는 도 2(c)와 같이 나타낼 수 있으며, 여기서 'source id'를 기초로 16 원시 데이터를 식별할 수 있다.

도 3은 일 실시 예에 따른 레이블링 지원부의 구성도이다.

도 3을 참조하면, 레이블링 지원부(110)는 데이터 레이블링 지원부(111), 데이터 시각화부(113) 및 데이터 무결성 제어부(115)를 포함할 수 있다.

도 4는 일 예에 따른 레이블링 지원부의 동작을 설명하기 위한 예시도이다.

일 예에 따르면, 데이터 레이블링 지원부(111)는 레이블링 진행 시 데이터 시각화를 하기 바로 전까지 진행되는 모든 과정을 수행할 수 있다. 데이터 레이블링 지원부(111)는 원시 데이터를 입력받을 수 있으며, 복소수 값을 포함하는 벡터로 결과를 출력할 수 있다. 예를 들어, 원시 데이터는 영상, 텍스트, 이미지 등 정형 및 비정형 데이터를 포함할 수 있다.

일 예를 들어, 영상 또는 이미지와 같은 원시 데이터의 경우 이미지 전경(Image foreground)에서의 객체 거리(object distance), 트리플렛 손실(Triplet loss), 두 이미지 사이에서 휴리스틱 거리, 쿨백-라이블러 발산(KL Divergence) 또는 교차 엔트로피(cross entropy)와 같은 분포의 차이 등을 이용하여 메타 데이터 거리를 계산할 수 있다.

일 예로, 데이터 레이블링 지원부(111)는 모델 또는 머신 러닝 모델을 포함할 수 있다. 예를 들어, 머신 러닝 모델은 지도 학습 모델, 비지도 학습 모델, 강화 학습 모델 중 어느 하나일 수 있다. 다른 예로, 데이터 레이블링 지원부(111)는 Rule-base 모델로 구현될 수 있으며, 원천 데이터에서 추출된 특징(feature)의 종류에 따라 각기 다른 가중치를 특징에 적용할 수 있다. 여기서, 가중치를 특징에 적용한다는 것은 임의로 설정한 값을 벡터로 산출된 특징에 곱하는 것을 의미한다.

일 예로, 데이터 레이블링 지원부(111)는 동시에 다수의 머신 러닝 모델들 또는 다수의 Rule-base 모델을 이용하여 입력된 원시 데이터에 대한 분석을 수행할 수 있으며, 여러 모델에서 출력된 결과는 앙상블(Ensemble) 방식으로 활용될 수 있다.

일 예로, 데이터 레이블링 지원부(111)에서 출력하는 결과 벡터는 데이터 시각화에서의 입력으로 사용되며 동시에 시각화 결과에 영향을 주는 조건 값으로 사용될 수 있다. 또한, 각 모델의 출력 결과는 회귀, 분류, 군집 중 하나에 해당할 수 있으며, 데이터 시각화 단계에서 선행 추론, 선행 군집 결과로 보여질 수 있다. 다시 말해, 사용자가 데이터에 라벨을 부여하기 전까지 레이블이 부여되지 않은 데이터(Unlabeled data)는 유사 데이터 셋에 사전 학습된 (Pre-trained) 모델의 추론 결과 값을 기본값(default)으로 가지고 있을 수 있다.

일 예로, 군집 결과로 추출된 벡터들 중 사전에 모델에 의해 레이블링 되기 어려운 데이터들은 데이터 간의 유클리드 거리 또는 그래프 상의 에지 홉(Edge Hop)을 계산하여 상대적 거리를 추출할 수 있다. 이때, 데이터 레이블링 지원부(111)는 Fuzzy matching, Cosine similarity, Edit distance, Cross-Entropy, Kullback-Leibler divergence 등 상대적 거리(또는 분포의 차이)를 계산하는 알고리즘이나 metric을 사용할 수 있다.

일 예에 따르면, 데이터 시각화부(113)는 데이터 레이블링 지원부(111)에서 생성된 모델 결과 벡터를 클라이언트의 단말에 전달하고 이를 조건에 따라 시각화하여 레이블링 결과를 다시 서버로 전달하여 어노테이션 수행 이력 테이블에 저장하는 동작을 수행할 수 있다. 여기서, 클라이언트의 사용자는 어노테이션을 수행하는 레이블러일 수 있으며, 서버와 클라이언트의 통신은 유무선을 포함한 모든 통신 방식을 포함할 수 있다. 또한, 단말이란 레이블러가 어노테이션을 수행하는 유무선 통신이 가능한 전자 장비를 나타낸다.

일 예로, 데이터 시각화부(113)는 어노테이션을 수행하기 위하여 서버와 클라이언트 간 양방향 파라미터 전송을 수행할 수 있다. 예를 들어, http, https 프로토콜 통신에서 RestfulAPI로 전달되는 파라미터들이 이에 해당할 수 있다.

일 예에 따르면, 데이터 시각화부(113)는 클라이언트로 전송하는 모델 결과 벡터와 레이블이 부여되지 않은 데이터를 색상, 도표, 도형, 스케일, 상호작용, 프로그램상에 표현되는 이벤트, 텍스트, 영상, 소리 등으로 표현할 수 있으며, 이때 출력은 데이터 시각화 조건절과 모델 결과 벡터 값에 따라서 상이하게 표현될 수 있다.

일 예에 따르면, 데이터 시각화부(113)는 클라이언트로 전송된 레이블이 부여되지 않은 데이터를 레이블러가 작업을 수행하기 전까지 모델의 추론 결과로 대체하여 레이블이 부여된 상태로 만들 수 있다.

일 예에 따르면, 모델의 결과가 '회귀'나 '분류'가 아닌 '군집'의 경우 클라이언트는 레이블이 부여되지 않은 데이터들 각각을 벡터 사이의 거리가 가까운 것끼리 모아 볼 수 있다.

일 예에 따르면, 레이블러에 의해 어노테이션이 완료된 데이터는 다시 서버로 전송되며 임시 어노테이션 테이블에 저장될 수 있다. 서버에서 제공하는 레이블이 부여되지 않은 데이터는 데이터 그 자체뿐만 아니라 레이블이 부여되지 않은 데이터의 원천 데이터 소스, 데이터의 특징 등 데이터를 이해하기 위해 필요한 레퍼런스 정보들을 포함할 수 있다.

일 예에 따르면, 레이블러는 레이블링을 진행하려는 데이터를 명확히 어떤 클래스로 분류할 수 없을 때 이를 건너뛰거나 특정 예외 클래스로 레이블링 할 수 있다. 레이블러는 어노테이션을 수행할 때마다 서버로부터 어노테이션 진행률, 건너뜀 횟수, 예외 클래스 정보, 어노테이션 수행 매뉴얼 등을 제공 받을 수 있다.

일 예에 따르면, 데이터 무결성 제어부(115)는 한 명 혹은 다수의 사용자, 또는 상이한 전문 지식수준을 가진 레이블러가 참여하는 경우 다르게 레이블링 될 수 있는 데이터 상의 격차 또는 인적 오류(Human error)를 최소화하기 위한 논리적 장치이다.

일 예에 따르면, 클라이언트의 레이블링 결과는 임시 테이블에 저장되며 임시 테이블에 저장된 어노테이션 결과는 특정 트리거 또는 조건에 의해 데이터 매핑 테이블, 데이터 인덱스 테이블, 데이터 속성 테이블에 나뉘어 저장될 수 있다.

일 예로, 데이터 매핑 테이블은 원천 또는 원시 데이터가 최종적으로 식별 가능한 어떤 데이터로 매핑 되어야 하는지에 대한 정보가 기록되어 있는 테이블로 추후 같은 원천 또는 원시 데이터를 레이블러가 재-레이블링 (re-Labeling)하지 않도록 차단해주는 기능을 수행할 수 있다. 따라서 대용량 데이터에 대한 어노테이션 시스템을 구축할 때 특히 필요하며 실시간 서비스에서 비정형 데이터가 해당 테이블을 통해 정형화된 형태로 식별될 수 있게 해준다.

일 예로, 데이터 인덱스 테이블의 각 요소는 원시 데이터가 실제로 레이블링 된 하나의 개체(Entity)이며 각 개체는 의미적으로 독립적이며 고유한 키 값을 가진다. 다시 말해 실시간으로 들어오는 원시 데이터는 매핑 테이블을 거쳐 어떤 키로 연결될 지를 확인한 후 데이터 인덱스 테이블에서 식별된다.

일 예로, 데이터 속성 테이블은 데이터 인덱스 테이블의 각 개체에 대한 특징 (Characteristics 또는 Features)으로 구성된 테이블이다. 식별된 개체에 대한 특징들은 해당 테이블에서 정의될 수 있다.

일 예에 따르면, 클라이언트의 레이블링 결과는 데이터의 특성이나 레이블러의 수에 따라서 두 가지 방식으로 테이블에 저장될 수 있다. 일 예를 들어, 데이터를 레이블링 하기 위해 전문 지식을 요구하지 않거나 다수의 레이블러가 참여하는 경우, 머신 러닝 종래의 기술 중 하나인 하드 보팅(Hard voting) 또는 소프트 보팅(Soft Voting) 기법을 사용할 수 있다.

여기서, 하드 보팅이란 다수의 레이블러가 하나의 데이터에 대해서 두 종류 (또는 클래스)의 이름으로 어노테이션 했을 경우 그 결과를 다수결에 의해서 결정하는 방식을 의미한다. 소프트 보팅이란 다수의 레이블러가 하나의 데이터에 대해서 해당 데이터가 각 클래스에 속할 확률을 각기 다른 실수의 값으로 부여하고 최종적으로 데이터의 클래스를 여러 레이블러의 실수 레이블링 값을 가중평균해서 (예를 들면 가중치는 도메인 지식 수준에 따라) 결정하는 방식이다.

일 예로, 반복적인 전문지식 레이블링(Iterative Expertise Labeling) 방법은 데이터를 레이블링하기 위해 전문 지식이 요구되고 레이블러의 수가 적은 경우 사용될 수 있다. 반복적인 전문지식 레이블링은 레이블링 단계를 도메인 지식수준에 따라 나누고 지식수준에 따라 어노테이션 세트를 수행한 후 각 세트의 결과를 상위 도메인 전문가 그룹에 넘김으로써 같은 어노테이션 세트를 수차례 반복하는 레이블링 방식이다.

일 예로, 하드 보팅, 소프트 보팅 및 반복적인 전문지식 레이블링 방식 모두 도메인 지식 격차나 인적 오류를 최소화하기 위한 기술이며, 데이터 레이블링 지원부(111), 데이터 시각화부(113) 및 데이터 무결성 제어부(115)는 대용량 데이터에 대한 어노테이션 시스템을 구현하기 위해 필요한 최소한의 기능이다.

도 5는 일 실시 예에 따른 어노테이션 생성 지원 방법을 도시한 흐름도이다.

일 실시 예에 따르면, 어노테이션 생성 지원 장치는 데이터 베이스로부터 하나 이상의 원시 데이터를 수신하여 하나 이상의 원시 데이터 각각에 대한 하나 이상의 레이블링 후보 정보를 생성할 수 있다(510). 이후, 어노테이션 생성 지원 장치는 하나 이상의 레이블링 후보 정보를 사용자에게 출력할 수 있다(520).

도 5의 실시예 중 도 1 내지 도 4를 참조하여 설명한 내용과 중복되는 설명은 생략하였다.

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

100: 어노테이션 생성 지원 장치
110: 레이블링 지원부
111: 데이터 레이블링 지원부
113: 데이터 시각화부
115: 데이터 무결성 제어부
120: 인터페이스부

Claims

데이터 베이스로부터 하나 이상의 원시 데이터를 수신하여 상기 하나 이상의 원시 데이터 각각에 대한 하나 이상의 레이블링 후보 정보를 생성하는 레이블링 지원부; 및
상기 하나 이상의 레이블링 후보 정보를 출력하는 인터페이스부를 포함하며,
상기 레이블링 지원부는
상기 하나 이상의 원시 데이터 각각에 포함된 하나 이상의 메타 데이터의 종류 중 어느 하나를 기준으로 결정하며,
유클리드 거리 및 맨해튼 거리 중 어느 하나인 휴리스틱 함수 또는 그래프 상의 에지 홉 (Edge Hop)을 이용하여 상기 기준이 된 메타 데이터 종류에 해당하는 하나 이상의 원시 데이터에 포함된 메타 데이터 간의 거리를 측정하며,
측정된 메타 데이터의 거리를 기초로 상기 하나 이상의 원시 데이터를 그룹핑하며,
각각의 그룹 별로 상기 기준이 된 메타 데이터 종류에 해당하는 메타 데이터에 대한 리스트를 포함하는 하나 이상의 레이블링 후보 정보를 생성하며,
상기 인터페이스부를 통하여 사용자로부터 각각의 그룹 별로 메타 데이터에 대한 리스트에 포함된 어느 하나의 메타 데이터를 선택하는 입력 신호를 수신하며,
상기 기준이 된 메타 데이터 종류에 해당하는 하나 이상의 메타 데이터 중 각각의 그룹 별로 선택된 메타 데이터 이외의 메타 데이터를 각각의 그룹 별로 선택된 메타 데이터로 변경하는, 어노테이션 생성 지원 장치.
삭제
삭제
제 1 항에 있어서,
상기 레이블링 지원부는
상기 메타 데이터에 대한 리스트에 포함된 메타 데이터 중 중복되는 메타 데이터를 리스트에서 제거하여 레이블링 후보 정보를 생성하는, 어노테이션 생성 지원 장치.
제 4 항에 있어서,
상기 레이블링 지원부는
상기 기준이 된 메타 데이터 이외의 다른 메타 데이터를 이용하여 중복된 메타 데이터의 식별 정보로 생성하는, 어노테이션 생성 지원 장치.
삭제
삭제
제 1 항에 있어서,
상기 원시 데이터는 영상 데이터, 텍스트 데이터 및 이미지 데이터 중 적어도 하나인, 어노테이션 생성 지원 장치.
제 1 항에 있어서,
상기 레이블링 지원부는
상기 인터페이스부를 통하여 사용자로부터 상기 하나 이상의 레이블링 정보 중 어느 하나를 제거하는 입력 신호를 수신하며,
수신한 레이블링 정보를 제거하는 입력 신호에 기초하여 선택된 레이블링 후보에 해당하는 원시 데이터를 그룹에서 제외하는, 어노테이션 생성 지원 장치.
제 1 항에 있어서,
상기 레이블링 지원부는
상기 하나 이상의 원시 데이터를 입력받아 회귀, 분류 및 군집 중 어느 하나를 수행하여 분석 벡터를 생성하는 데이터 레이블링 지원부;
상기 분석 벡터를 시각적 데이터로 변환하는 데이터 시각화부; 및
상기 분석 벡터에 대한 보팅(voting)을 수행하여 레이블링 후보 정보를 생성하는 데이터 무결성 제어부를 포함하는, 어노테이션 생성 지원 장치.
제 1 항에 있어서,
상기 레이블링 지원부는
편집 거리(edit distance)를 이용하여 하나 이상의 원시 데이터에 포함된 메타 데이터의 거리를 측정하되, 메타 데이터가 고유명사를 포함하는 경우 고유명사의 종류 별로 가중치를 부여하는, 어노테이션 생성 지원 장치.
하나 이상의 프로세서, 및
상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 구비한 어노테이션 생성 지원 장치에서 수행되는 방법으로서,
데이터 베이스로부터 하나 이상의 원시 데이터를 수신하여 상기 하나 이상의 원시 데이터 각각에 대한 하나 이상의 레이블링 후보 정보를 생성하는 단계; 및
인터페이스부를 통하여 상기 하나 이상의 레이블링 후보 정보를 출력하는 단계를 포함하며,
상기 레이블링 후보 정보를 생성하는 단계는
상기 하나 이상의 원시 데이터 각각에 포함된 하나 이상의 메타 데이터의 종류 중 어느 하나를 기준으로 결정하며,
유클리드 거리 및 맨해튼 거리 중 어느 하나인 휴리스틱 함수 또는 그래프 상의 에지 홉 (Edge Hop)을 이용하여 상기 기준이 된 메타 데이터 종류에 해당하는 하나 이상의 원시 데이터에 포함된 메타 데이터 간의 거리를 측정하며,
측정된 메타 데이터의 거리를 기초로 상기 하나 이상의 원시 데이터를 그룹핑하며,
각각의 그룹 별로 상기 기준이 된 메타 데이터 종류에 해당하는 메타 데이터에 대한 리스트를 포함하는 하나 이상의 레이블링 후보 정보를 생성하며,
상기 인터페이스부를 통하여 사용자로부터 각각의 그룹 별로 메타 데이터에 대한 리스트에 포함된 어느 하나의 메타 데이터를 선택하는 입력 신호를 수신하며,
상기 기준이 된 메타 데이터 종류에 해당하는 하나 이상의 메타 데이터 중 각각의 그룹 별로 선택된 메타 데이터 이외의 메타 데이터를 각각의 그룹 별로 선택된 메타 데이터로 변경하는, 어노테이션 생성 지원 방법.
삭제
삭제
제 12 항에 있어서,
상기 레이블링 후보 정보를 생성하는 단계는
상기 메타 데이터에 대한 리스트에 포함된 메타 데이터 중 중복되는 메타 데이터를 리스트에서 제거하여 레이블링 후보 정보를 생성하는, 어노테이션 생성 지원 방법.
제 15 항에 있어서,
상기 레이블링 후보 정보를 생성하는 단계는
상기 기준이 된 메타 데이터 이외의 다른 메타 데이터를 이용하여 중복된 메타 데이터의 식별 정보로 생성하는, 어노테이션 생성 지원 방법.
삭제
삭제
제 12 항에 있어서,
상기 원시 데이터는 영상 데이터, 텍스트 데이터 및 이미지 데이터 중 적어도 하나인, 어노테이션 생성 지원 방법.
제 12 항에 있어서,
상기 레이블링 후보 정보를 출력하는 단계는
상기 인터페이스를 통하여 사용자로부터 상기 하나 이상의 레이블링 정보 중 어느 하나를 제거하는 입력 신호를 수신하며,
수신한 레이블링 정보를 제거하는 입력 신호에 기초하여 선택된 레이블링 후보에 해당하는 원시 데이터를 그룹에서 제외하는, 어노테이션 생성 지원 방법.
제 12 항에 있어서,
상기 레이블링 후보 정보를 출력하는 단계는
상기 하나 이상의 원시 데이터를 입력받아 회귀, 분류 및 군집 중 어느 하나를 수행하여 분석 벡터를 생성하며,
상기 분석 벡터를 시각적 데이터로 변환하며,
상기 분석 벡터에 대한 보팅(voting)을 수행하여 레이블링 후보 정보를 생성하는, 어노테이션 생성 지원 방법.
제 12 항에 있어서,
상기 레이블링 후보 정보를 출력하는 단계는
편집 거리(edit distance)를 이용하여 하나 이상의 원시 데이터에 포함된 메타 데이터의 거리를 측정하되, 메타 데이터가 고유명사를 포함하는 경우 고유명사의 종류 별로 가중치를 부여하는, 어노테이션 생성 지원 방법.