KR20180114496A - 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템 - Google Patents

자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템 Download PDF

Info

Publication number
KR20180114496A
KR20180114496A KR1020180003142A KR20180003142A KR20180114496A KR 20180114496 A KR20180114496 A KR 20180114496A KR 1020180003142 A KR1020180003142 A KR 1020180003142A KR 20180003142 A KR20180003142 A KR 20180003142A KR 20180114496 A KR20180114496 A KR 20180114496A
Authority
KR
South Korea
Prior art keywords
vector
representative
activation pattern
pattern
generating
Prior art date
Application number
KR1020180003142A
Other languages
English (en)
Other versions
KR101983493B1 (ko
Inventor
맹성현
장경록
박주희
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20180114496A publication Critical patent/KR20180114496A/ko
Application granted granted Critical
Publication of KR101983493B1 publication Critical patent/KR101983493B1/ko

Links

Images

Classifications

    • G06F17/27
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템이 개시된다. 객체 표상(entity representation)을 해석 및 시각화하는 방법에 있어서, 자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 단계, 복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 단계, 및 상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 단계를 포함할 수 있다.

Description

자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템{SYSTEM AND METHOD FOR VISUALIZING AND INTERPRETING PROPERTY INCLUDED LEARNED ENTITY REPRESENTATION FROM NATURAL LANGUAGE TEXT}
본 발명은 자연어 텍스트로부터 학습된 객체 표상(entity representation)을 해석하고 시각화하는 기술에 관한 것이다.
객체 표상 학습 (entity representation learning) 기술은 빌 게이츠, 스티브 잡스 등 현실 세계에서 등장하는 객체(entity)가 갖는 의미, 개념 등의 특성을 방대한 양의 텍스트로부터 자동으로 학습하는 기술로서, 자연어처리 (Natural Language Processing) 분야에서 지속적으로 중요하게 다루어지고 있다.
객체(entity)가 갖는 의미를 컴퓨팅 가능한 형태로 표상화하기 위해 사용되는 기법 중 하나로, 모든 단어를 수학의 벡터 (vector) 형태로 초기화하고, 모델링하고자 하는 대상 단어의 벡터가 텍스트에서 함께 등장한 문맥 단어들의 벡터와 최대한 유사한 형태를 갖도록 최적화하는 기법이 있다. 단어 벡터를 최적의 형태로 학습하기 위해 딥 러닝 (Deep Learning)이 주로 사용되며, 결과물로 생성된 단어 벡터는 서로 유사한 의미를 지닐수록 유사한 형태를 가지게 되므로 의미 공간(semantic space) 안에서 비슷한 위치에 배치되게 된다.
객체 모델링의 관점에서 볼 때, 현재 주로 사용되는 표상화 방식의 가장 큰 문제는 객체의 의미를 담은 벡터를 사람이 해석 불가능하다는 점이다. 일반적으로 사용되는 형태인 "저차원 연속값 밀집 벡터(low-dimensional continuous dense vector)"는 컴퓨팅 관점에서는 효율적일지 몰라도 그것을 활용하는 보다 고도화된 어플리케이션(예컨대, 질의응답 시스템)을 개발하는 개발자의 입장에서는 모델링한 객체가 구체적으로 어떤 특성(property)을 가지고 있는지, 객체의 특성이 정확하게 모델링이 되었는지 여부를 해석할 수 없기에 그것을 활용하고 디버깅하는 데 큰 제약이 따르게 된다.
단어 벡터를 해석 가능한 형태로 변환하기 위한 연구 중 하나로서, 아래의 비특허문헌 [1]Faruqui, Manaal, et al. "Sparse overcomplete word vector representations." arXiv preprint arXiv:1506.02004 (2015).에서는 밀도있고 연속적인 단어 벡트를 사람이 해석하기 상대적으로 용이한 "고차원 분절값 희소 벡터(high-dimensional sparse binary vector)" 형태로 변환하는 방법을 제시하고 있다. 고차원 분절값 희소 벡터라는 새로운 벡터는 기존 300차원 대비 최대 3,000차원의 크기를 갖고, 그 중 90% 이상의 벡터 요소(component)가 0의 값을 가지므로 희소(sparse)하며, 각 벡터 요소는 1 또는 0의 값을 가지므로 분절값(binary)에 해당한다. 이 연구에서 저자들은 비슷한 특성을 공유하는 객체(예컨대, 빌 게이츠, 스티브 잡스, 기업가)의 벡터는 비슷한 벡터 요소(component)로 구성된 활성화 패턴을 가짐을 보였고, 해당 패턴이 고차원 분절값 희소 벡터에서 더욱 뚜렷이 나타났다는 사실을 밝혀 냈다.
그러나, 특정 활성화 패턴이 대상 객체의 어떤 특성(예컨대, 기업가, 미국인 등)을 나타내는지 까지는 규명해내지 못하였다. 즉, 임의의 객체가 다른 객체와 어떤 특성을 공유하고 있다는 사실을 파악하는 데는 도움을 주었으나, 구체적으로 어떤 특성을 지녔는지에 대한 이해는 주지 못하고 있다.
한국등록특허 제10-1644044호는 개념 및 관계 의역 시스템 및 방법에 관한 것으로, 외부로부터 입력되는 말뭉치를 자연어 처리하여 의미역이 부착된 말뭉치를 생성하고, 생성된 말중치로부터 주체, 행동, 객체가 포함된 정보 집합을 추출하는 구성을 제시하고 있다.
[1]Faruqui, Manaal, et al. "Sparse overcomplete word vector representations." arXiv preprint arXiv:1506.02004 (2015). [2]Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013. [3]Boleda, Gemma, and Katrin Erk. "Distributional Semantic Features as Semantic Primitives―Or Not." 2015 AAAI Spring Symposium Series. 2015. [4]McRae, Ken, et al. "Semantic feature production norms for a large set of living and nonliving things." Behavior research methods 37.4 (2005): 547-559.
본 발명은 자연어 처리된 자연어 텍스트(natural language text)로부터 학습을 통해 생성된 객체 표상을 나타내는 표상 벡터에 해당 객체가 갖는 의미, 개념을 나타내는 특성(property)을 해석하는 기술에 관한 것이다.
또한, 해석된 특성과 상기 표상 벡터를 사용자가 한 눈에 쉽게 인지 가능하도록 시각화하여 제공하는 기술에 관한 것이다.
객체 표상(entity representation)을 해석 및 시각화하는 방법에 있어서, 자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 단계, 복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 단계, 및 상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 단계를 포함할 수 있다.
일측면에 따르면, 상기 목표 특성을 맵핑 시키는 단계는, 상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하는 단계, 및 결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시키는 단계를 포함할 수 있다.
다른 측면에 따르면, 상기 벡터 활성화 패턴을 생성하는 단계는, 상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하는 단계, 결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 단계, 및 상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계는, 상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하는 단계, 계산된 평균값을 해당 벡터 요소의 세기로 결정하는 단계, 및 결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 표상 벡터를 생성하는 단계는, 상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나일 수 있다.
또 다른 측면에 따르면, 상기 표상 벡터를 생성하는 단계는, 상기 정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시키는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 목표 특성을 시각화하여 제공하는 단계는, 상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공하는 것
객체 표상(entity representation)을 해석 및 시각화하는 시스템에 있어서, 자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 벡터 생성부, 복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 패턴 결정부, 및 상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 맵핑부를 포함할 수 있다.
일측면에 따르면, 상기 맵핑부는, 상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하고, 결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시킬 수 있다.
다른 측면에 따르면, 상기 패턴 결정부는, 상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하고, 결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 필터링부, 및 상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 패턴 결정 제어부를 포함할 수 있다.
또 다른 측면에 따르면, 상기 패턴 결정 제어부는, 상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하고, 계산된 평균값을 해당 벡터 요소의 세기로 결정하고, 결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성할 수 있다.
또 다른 측면에 따르면, 상기 벡터 생성부는, 상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해할 수 있다.
또 다른 측면에 따르면, 상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나일 수 있다.
또 다른 측면에 따르면, 상기 벡터 생성부는, 상기 정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시킬 수 있다.
또 다른 측면에 따르면, 특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 시각화 제어부를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 시각화 제어부는, 상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공할 수 있다.
본 발명의 실시예들에 따르면, 자연어 처리된 자연어 텍스트(natural language text)로부터 학습을 통해 생성된 객체 표상을 나타내는 표상 벡터에 해당 객체가 갖는 의미, 개념을 나타내는 특성(property)을 해석하여 제공하고, 해석된 특성과 상기 표상 벡터를 사용자가 한 눈에 쉽게 인지 가능하도록 시각화하여 제공함으로써, 사용자가 객체에 대한 텍스트를 모두 읽고 해당 특성을 이해하는데 도움을 줄 수 있다. 예컨대, 검색 시스템 등과 같이 자연어 기반 어플리케이션에서, 디버깅(debugging)하고 개선하는 데 유용하게 사용될 수 있다. 즉, 인공지능 대화형 에이전트인 챗봇(chatbot) 등이 객체에 대해 가지고 있는 지식이 정확한지 여부를 디버깅하고 개선하는 데 활용함으로써, 지식의 정확도를 높일 수 있다.
도 1은 본 발명의 일실시예에 있어서, 객체 표상을 해석하여 시각화하는 전체 프로세스를 개략적으로 도시한 도면이다.
도 2는 본 발명의 일실시예에 있어서, 해석 및 시각화 시스템의 내부 구성을 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서, 해석 및 시각화 방법을 도시한 흐름도이다.
도 4는 본 발명의 일실시예에 있어서, 벡터 활성화 패턴을 결정하는 동작을 설명하기 위해 제공되는 도면이다.
도 5는 본 발명의 일실시예에 있어서, 시각화 방법을 설명하기 위해 제공되는 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명은 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성(property)을 해석하고, 해석된 특성을 시각화하여 제공하는 기술에 관한 것으로서, 특히, 특정 객체의 표상, 즉, 객체 표상(entity representation)을 나타내는 저차원 연속값 밀집 벡터(low-dimensional continuous dense vector)에 속하는 벡터 요소들(components)을 해석하여 객체 별로 포함된 공통된 벡터 요소들로 구성된 벡터 활성화 패턴을 찾고, 찾은 해당 패턴에 특정 의미, 개념 등의 특성(property)을 부여/지정하는 기술에 관한 것이다. 즉, 객체들 간에 공유하고 있는(일관되게 나타나는) 패턴을 시스템에서 자동으로 결정하고, 결정된 패턴이 의미하는 개념을 주석(annotation) 달아주는 기술에 관한 것이다.
본 실시예들에서, "객체 표상(entity representation)"은 실제 세계에서 객체가 가지는 의미, 개념 등의 특성(property)을 나타내는 것으로서, 사용자가 컴퓨터에 문의한 질의(query)를 컴퓨터에서 이해하기 위한 필수적인 요소에 해당할 수 있다.
본 실시예들에서, "자연어 텍스트"는 자연어(natural language), 기계어와 대비되는 개념으로 인간이 생성한 텍스트를 나타낼 수 있으며, 엄밀하게는 텍스트만을 포함하며, 음성을 한차례 처리하여(예컨대, 전처리하여) 텍스트로 변환한 경우도 자연어 텍스트라 할 수 있다.
본 실시예들에서, "벡터 요소(component)"는 특정 객체의 표상을 나타내는 표상 벡터(예컨대, 저차원 연속값 밀집 벡터(low-dimensional dense continuous vector))를 구성하는 복수개의 요소(component)를 나타낼 수 있다. 예를 들어, 햄스터를 표현하는 수학적 벡터가 300차원(dimension)인 경우, 하나의 차원(dimension)이 "벡터 요소(component)"에 해당할 수 있다. 이때, 300차원 벡터와 같은 저차원 벡터에서는 각 벡터 요소(component)가 하나 이상의 성질이 다른 세부개념(예컨대, 달리다+귀엽다)을 나타낼 수 있으므로, 최대한 잘개 쪼개서(즉, 분할하여) 각 벡터 요소(component)가 '최소 의미 단위'를 나타내도록(그래서 정밀한 의미 해석이 가능하도록) 스파스 코딩(sparse coding) 기법이 이용될 수 있다. 예컨대, 스파스 코딩(Sparse coding)을 적용 시 300차원이 2500차원으로 확장되어 분해될 수 있으며, 스파스 코딩(Sparse coding) 시 설정 여부에 따라 300차원이 2500차원 이외의 3000차원, 1500차원 등으로 분해될 수도 있다.
본 실시예들에서, "객체 표상 학습(entity representation learning)"은 현실 세계에 등장/존재하는 특정 객체(entity)가 갖는 의미, 개념 등의 특성(property)을 방대한 양의 텍스트(예컨대, 자연어 텍스트)로부터 시스템이 자동으로 학습하는 것을 의미할 수 있다.
본 실시예들에서, 해석 및 시각화 시스템은 네트워크를 통해 서버와 통신을 수행하며, 서버에 플랫폼 형태로 구현될 수도 있고, 서버와 별도로 외부에 위치할 수도 있다. 예컨대, 해석 및 시각화 시스템은 서버와 네트워크로 연결된 메모리 DB에 모듈화되어 구현될 수 있으며, 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 이외에, 해석 및 시각화 시스템은 서버와 네트워크를 통해 통신을 수행하는 사용자 단말에 설치되는 어플리케이션 형태로 구현될 수도 있다. 예컨대, 사용자 단말은 스마트폰(smartphone), 태블릿(tablet), 노트북, PC 등의 전자 기기를 나타낼 수 있다.
도 1은 본 발명의 일실시예에 있어서, 객체 표상을 해석하여 시각화하는 전체 프로세스를 개략적으로 도시한 도면이다.
도 1을 참고하면, 객체 표상을 해석 및 시각화하는 프로세스는 크게 객체 표상을 나타내는 벡터(즉, 표상 벡터)를 생성(110)하고, 스파스 코딩(sparse coding)을 적용하여 표상 벡터를 변환(120)할 수 있다.
예를 들어, 대규모의 자연어 텍스트로부터 저차원 연속값 밀집 벡터가 생성되면, 생성된 상기 벡터들을 대상으로 스파스 코딩(sparse coding)이 적용될 수 있다. 그러면, 스파스 코딩을 통해 고차원이면서, 일정 레벨 이상으로 충분히 강한 정보를 가진 벡터 요소만 남겨질 수 있다(즉, 필터링될 수 있다). 스파스 코딩을 통해 변환된 객체 별 표상 벡터(즉, 변환된 저차원 연속값 밀집 벡터)를 대상으로 벡터 활성화 패턴을 파악(130)하고, 벡터 활성화 패턴에 해당 패턴의 의미를 나타내는 개념(즉, 특성)을 맵핑(140)시키고, 특정 객체와 관련하여 맵핑된 적어도 하나의 특성을 시각화하여 제공(150)하는 것으로 이루어질 수 있다.
도 1에서, 표상 벡터를 생성하여 시각화할 때까지의 자세한 프로세스는 아래의 도 2를 참고하여 설명하기로 한다.
도 2는 본 발명의 일실시예에 있어서, 해석 및 시각화 시스템의 내부 구성을 도시한 블록도이고, 도 3은 본 발명의 일실시예에 있어서, 해석 및 시각화 방법을 도시한 흐름도이다.
도 2를 참고하면, 해석 및 시각화 시스템(200)은 벡터 생성부(210), 패턴 결정부(220), 맵핑부(230), 및 시각화 제어부(240)를 포함하고, 패턴 결정부(220)는 필터링부(221) 및 패턴 결정 제어부(222)를 포함할 수 있다. 그리고, 도 3의 해석 및 시각화 방법을 위한 각 단계들(310 내지 340 단계)은 도 2의 해석 및 시각화 시스템(200)의 구성 요소인 벡터 생성부(210), 패턴 결정부(220) 및 맵핑부(230)에 의해 수행될 수 있다.
310 단계에서, 벡터 생성부(210)는 자연어 텍스트를 대상으로 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터(즉, 단어 벡터)를 생성할 수 있다.
일례로, 벡터 생성부(210)는 대규모의 인터넷 웹, 모바일 웹 등을 통해 수집된 빅데이터를 대상으로 자연어 처리를 통해 획득한 자연어 텍스트를 대상으로, 학습된 객체 표상을 나타내는 벡터(즉, 표상 벡터)를 생성할 수 있다. 예컨대, 벡터 생성부(210)는 위의 비특허 문헌[2]Tomas Mikolov , Kai Chen, Greg Corrado , and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR , 2013.에 제시된 저차원 연속값 밀집 벡터(low-dimensional continuous dense vector) 형태로 객체 별 표상을 나타내는 상기 표상 벡터를 생성할 수 있다.
그리고, 벡터 생성부(210)는 객체 별로 생성된 표상 벡터를 대상으로, 스파스 코딩(sparse coding)을 적용하여 표상 벡터에 속하는 복수개의 벡터 요소 각각을 분해할 수 있다. 이때, 벡터 생성부(210)는 복수의 객체들 중 미리 정의된 목표 특성(예컨대, 귀여움)에 기초하여 선택된 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로 스파스 코딩을 적용할 수 있다. 여기서, 스파스 코딩(sparse coding) 과정은 여러 특성이 동일한 패턴에 맵핑되는 경우를 방지하기 위해 수행되는 것으로서, 예를 들어, 벡터 활성화 패턴 1에 "귀여움"이라는 특성과 "네 발로 걸어다님"이라는 서로 다른 특성이 맵핑되는 것을 최소화하기 위해 수행될 수 있다. 예컨대, 위의 비특허 문헌 [3]Boleda , Gemma , and Katrin Erk . "Distributional Semantic Features as Semantic Primitives―Or Not." 2015 AAAI Spring Symposium Series. 2015.에 제시된 단어 벡터를 최소 의미 단위로 분해하는 방법에 기초하여, 스파스 코딩(sparse coding)을 통해 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 해당 특성이 갖는 최소 의미 단위(atomic property)로 분해될 수 있다. 예컨대, 정밀한 의미 해석을 위해 스파스 코딩(sparse coding)이 적용된 경우, 패턴 1은 "귀여움"으로만, 패턴 2는 "네 발로 걸어다님"으로만 매핑되도록 최소 의미 단위로 '분해'될 수 있다.
320 단계에서, 패턴 결정부(220)는 복수개의 객체 별로 생성된 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 목표 특성에 해당하는 벡터 활성화 패턴을 결정할 수 있다.
321 단계에서, 필터링부(221)는 상기 적어도 둘 이상의 객체에 해당하는 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정할 수 있다. 여기서, 적어도 둘 이상의 객체는 복수의 객체들 중 미리 정의된 목표 특성(예컨대, 귀여움)에 기초하여 선택된 객체(entity)를 나타낼 수 있다.
322 단계에서, 필터링부(221)는 결정된 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별(즉, 추출)하기 위한 필터링(filtering)을 수행할 수 있다.
323 단계에서, 패턴 결정 제어부(222)는 필터링을 통해 선별된 벡터 요소에 기초하여 목표 특성에 해당하는 벡터 활성화 패턴을 결정할 수 있다. 여기서, 필터링 및 선별된 벡터 요소를 기반으로 벡터 활성화 패턴을 결정하는 자세한 설명은 아래의 도 4를 참조하여 후술하기로 한다.
330 단계에서, 맵핑부(230)는 결정된 벡터 활성화 패턴에 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)할 수 있다. 즉, 맵핑부(230)는 둘 이상의 객체의 표상 벡터에 속하는 벡터 요소들을 대상으로 결정된 공통되는 패턴(즉, 상기 벡터 활성화 패턴)에 목표 특성을 맵핑할 수 있다.
예를 들어, 객체의 표상 벡터에 속하는 벡터 요소들의 조합에 따라 복수개의 패턴이 존재할 수 있고, 패턴 별로 서로 다른 의미(즉, 특성)가 존재할 수 있다. 예컨대, 고양이라는 객체를 나타내는 표상 벡터에 속하는 벡터 요소들을 대상으로, 달릴 수 있음, 귀여움, 꼬리 등의 다양한 패턴이 존재할 수 있다. 이에 따라, 특정 객체에 속하는 다양한 패턴들과 패턴 별 특성이 구분되도록, 맵핑부(230)는 상기 결정된 벡터 활성화 패턴의 식별자 정보와 목표 특성(즉, 특성 정보)를 연관시켜 메모리에 저장 및 유지할 수 있다.
340 단계에서, 시각화 제어부(240)는 특정 객체의 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공할 수 있다.
일례로, 시각화 제어부(240)는 맵핑된 목표 특성이 의미하는 정지영상, 동영상, 또는 텍스트를 포함하는 이미지(image)를 해당 객체의 벡터 활성화 패턴에 해당하는 영역과 연관시켜 제공할 수 있다. 예컨대, 시각화 제어부(240)는 해당 객체를 나타내는 표상 벡터를 구성하는 벡터 요소들 중 상기 벡터 활성화 패턴에 해당하는 벡터 요소들이 표시되는 영역과 연관된 영역에 상기 목표 특성을 나타내는 이미지가 표시되도록 제어할 수 있다. 여기서, 시각화하는 자세한 동작은 도 5를 참고하여 후술하기로 한다.
도 4는 본 발명의 일실시예에 있어서, 벡터 활성화 패턴을 결정하는 동작을 설명하기 위해 제공되는 도면이다.
필터링 및 스파스 코딩(sparse coding)을 통해 변환된 객체별 표상 벡터들 각각은 복수개의 벡터 요소가 포함될 수 있으며, 벡터 활성화 패턴은 목표 특성과 관련된 여러 객체의 표상 벡터에 속하는 벡터 요소들에 기초하여 결정될 수 있다.
도 4에서는 복수의 객체들 중 "귀여움"이라는 목표 특성과 관련하여 햄스터, 고양이, 아기가 객체로 선택된 경우를 예로 들어 설명하나, 햄스터, 고양이 아기 이외에 다양한 객체가 존재하면 3개 이하, 4개 이상의 객체의 표상 벡터에 기초하여 벡터 활성화 패턴이 결정될 수 있다. 여기서, 목표 특성 "귀여움"과 관련하여 선택된 객체 햄스터, 고양이, 아기는 사용자가 단말의 입력장치(키보드, 마우스, 터치패드 등)를 통해 선택/입력함에 따라 선택될 수 있다. 예컨대, 여러 객체 이미지들 중 귀여움에 해당하는 이미지들을 선택할 수도 있고, 햄스터, 고양이, 아기에 해당하는 텍스트를 입력창에 입력할 수도 있고, 화면 상에 표시되는 복수의 객체들 주변 영역에 함께 제공되는 체크박스를 선택함으로써 선택될 수도 있다.
도 4에서, 햄스터 객체(410)를 참고하면, 햄스터 객체(410)에 해당하는 표상 벡터는 필터링을 통해 일정 세기 미만의 약한 세기를 갖는 벡터 요소는 제거되고, 일정 세기 이상의 강한 세기(즉, 강한 정보)를 갖는 벡터 요소만 남겨질 수 있다. 그리고, 남겨진 벡터 요소들은 스파스 코딩(sparse coding)을 통해 최소 의미 단위로 분해될 수 있다. 그러면, 햄스터 객체(410)의 표상 벡터에는 상기 분해된 벡터 요소들(411, 412, 413, 414, 415, 416)이 속할 수 있다. 동일한 방법으로, 고양이(420)의 표상 벡터에는 벡터 요소들(421, 422, 423, 424, 425, 426)이 속하고, 아기(430)의 표상 벡터에는 벡터 요소들(431, 432, 433, 434, 435)이 속할 수 있다.
패턴 결정부(220)는 햄스터, 고양이, 아기의 표상 벡터에 속하는 벡터 요소들(411, 412, 413, 414, 415, 416, 421, 422, 423, 424, 425, 426, 431, 432, 433, 434, 435)을 대상으로, 귀여움에 해당하는 벡터 요소들을 대상으로 벡터 요소 별 평균값을 계산할 수 있다. 예를 들어, 객체 별 제1 벡터 요소(411,422,431), 제2 벡터 요소(413, 424, 432) 및 제3 벡터 요소(415, 426, 434)가 귀여움에 해당하는 벡터 요소들인 경우(즉, 제1, 제2 및 제3 벡터 요소가 동시에 활성화되는 경우에 귀여움이라는 특성을 나타내는 경우), 패턴 결정부(220)는 제1 벡터 요소(411, 422, 431)의 평균값을 계산하고, 제2 벡터 요소(413, 424, 432)의 평균값을 계산하고, 제3 벡터 요소(415, 426, 434)의 평균값을 계산할 수 있다.
이와는 다른 방식으로, 패턴 결정부(220)는 객체 별 벡터 요소들을 통째로 평균을 내어 평균값을 계산할 수도 있다. 예컨대, 햄스터 객체(410)의 표상 벡터에 속하는 벡터 요소들(411, 412, 413, 414, 415, 416)의 평균값을 계산하고, 고양이(420)의 표상 벡터에 속하는 벡터 요소들(421, 422, 423, 424, 425, 426)의 평균값을 계산하고, 아기(430)의 표상 벡터에 속하는 벡터 요소들(431, 432, 433, 434, 435)의 평균값을 계산할 수 있다.
그리고, 패턴 결정부(220)는 계산된 평균된 평균값에 기초하여 귀여움이라는 특성에 해당하는 벡터 활성화 패턴(440)을 결정할 수 있다. 예컨대, 제1 벡터 요소의 평균값을 갖는 벡터 요소(441), 제2 벡터 요소의 평균값을 갖는 벡터 요소(442) 및 제3 벡터 요소의 평균값을 갖는 벡터 요소(443)로 구성된 벡터 활성화 패턴(440)을 결정할 수 있다. 이외에, 전체 벡터 요소의 평균값을 기반으로 결정된 벡터 요소(441, 442, 443)에 기초하여 벡터 활성화 패턴(440)을 결정할 수도 있다.
이처럼, 벡터 활성화 패턴(440)이 결정되면, 맵핑부(230)는 결정된 벡터 활성화 패턴(440)에 목표 특성(예컨대, 귀여움)을 맵핑시킬 수 있다. 예컨대, 맵핑부(230)는 벡터 활성화 패턴(440)의 식별자 정보에 목표 특성을 나타내는 식별자 정보 또는 코드값 등을 맵핑시킬 수 있다. 이때, 맵핑부(230)는 벡터 활성화 패턴(440) 및 목표 특성(예컨대, 귀여움)을 맵핑할 때, 상기 목표 특성을 가진 객체(예컨대, 햄스터, 아기, 고양이)의 식별자 정보를 함께 맵핑하여 저장 및 유지할 수 있다. 그리고, 맵핑부(230)는 주석 달기 요청 명령을 발생시켜, 학습된 복수의 객체들의 표상 벡터를 대상으로 상기 목표 특성에 맵핑된 벡터 활성화 패턴(440)과 매칭하는 패턴이 존재하는지 여부를 검색할 수 있다. 그리고, 매칭하는 패턴이 검색되면, 맵핑부(230)는 해당 객체의 식별자 정보를 벡터 활성화 패턴(440) 및 목표 특성(예컨대, 귀여움)에 맵핑시킬 수 있다.
스파스 코딩을 통해 여러 특성(예컨대, 귀여움, 네 발로 걸어다님)이 하나의 동일 패턴에 맵핑되지 않을 수 있으나, 상기 하나의 동일 패턴 생성을 위해 이용된 복수의 객체들(예컨대, 고양이, 햄스터, 아기) 상이에 공유되는 특성이 주석을 달고자 하는 목표 특성이 아닌 다른 특성을 나타내는 패턴에 맵핑되는 경우가 존재할 수 있다. 예컨대, 도 4의 벡터 활성화 패턴(440)이 실제로는 "귀여움"이라는 목표 특성을 나타내는 것이나, 시스템에서 "네 발로 기어다님"이라는 특성에 잘못 맵핑하는 오류가 존재할 수 있다. 이러한 맵핑 오류를 최소화하기 위해 목표 특성이 어떻게 지정되는지가 중요할 수 있다.
일례로, 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나일 수 있다. 위의 비특허 문헌 [4]McRae , Ken, et al. "Semantic feature production norms for a large set of living and nonliving things." Behavior research methods 37.4 (2005): 547-559.에 제시된 대상 객체가 지닌 일반적인 특성을 정리한 "Semantic feature norm" 실험의 결과물이 상기 정제된 데이터 셋으로서 미리 저장될 수 있으며, 상기 정제된 데이터 셋에 저장된 특성 정보들 중 벡터 활성화 패턴을 생성하기 위해 선택된 어느 하나의 특성(예컨대, 귀여움)이 목표 특성으로 지정될 수 있다. 예컨대, 객체 선택 시와 마찬가지로 정제된 데이터 셋이 화면에 표시될 수 있으며, 화면 상에 표시된 정제된 데이터 셋 중 어느 하나의 특성 정보가 선택될 수 있다. 그러면, 선택된 특성 정보가 목표 특성으로 지정될 수 있다. 이때, 특성 정보 선택 시 벡터 활성화 패턴 생성을 위해 이용될 객체들(예컨대, 이미지, 체크박스 등)이 함께 선택될 수 있으며, 선택된 객체들의 표상 벡터를 대상으로 상기 목표 특성에 해당하는 벡터 활성화 패턴이 생성될 수 있다.
이처럼, 특정 특성에 해당하는 벡터 활성화 패턴을 생성하기 위해 최초 한번은 사용자 개입하여 객체들 및 특성 정보를 선택하나, 벡터 활성화 패턴이 생성된 이후에는, 시스템에서 상기 생성된 벡터 활성화 패턴에 매칭하는 패턴을 갖는 표상 벡터를 자동으로 결정하고, 결정된 표상 벡터에 해당하는 객체를 상기 패턴에 자동으로 맵핑시킬 수 있다.
한편, 상기 정제된 데이터 셋에 기록된(즉, 포함된) 특성 정보들은 함께 기록된 객체의 벡터에서 뚜렷하게 나타날 가능성이 높으므로, 높은 정확도로 패턴-특성 사이의 관계 파익이 가능할 수 있다. 이때, 정제된 데이터 셋을 기반으로 목표 특성이 지정되는 경우, 정제된 데이터 셋에 기록된 특성 정보만으로 목표 특성이 제한되는 경우가 발생할 수 있다. 이러한 제한을 해소하기 위해, 벡터 생성부(210)는 상기 정제된 데이터 셋에 기록된 복수의 특성 정보들을 기준으로 기계학습(machine learning) 또는 텍스트 규칙(rule) 기반의 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 기록된 특성 정보들을 확장할 수 있다. 예컨대, 벡터 생성부(210)는 상기 정제된 데이터 셋에 기록된 복수의 특성 정보들을 기계학습 기반의 학습 모델의 시작점(즉, 입력 파라미터)으로 설정할 수 있다. 그러면, 학습 모델을 통해 학습이 수행되어 상기 정제된 데이터 셋에 기록된 특성 정보들이 정확도가 높은 특성 정보들을 더 포함하도록 상기 정제된 데이터 셋이 확장될 수 있다.
도 5는 본 발명의 일실시예에 있어서, 시각화 방법을 설명하기 위해 제공되는 도면이다.
시각화 제어부(240)는 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공할 수 있다.
일례로, 복수개의 객체 중 어떤 특성(property)을 가지고 있는지 해석하고자 하는 특정 객체에 대한 요청이 수신될 수 있다. 그러면, 시각화 제어부(240)는 요청된 상기 특정 객체의 표상 벡터와 연관된 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 정보(예컨대, 정지영상, 동영상 등의 이미지, 텍스트를 포함하는 이미지 등)가 화면에 표시되도록 제어할 수 있다. 예컨대, 도 5를 참고하면, 고양이 객체가 갖고 있는 특성을 추출하여 시각화하고자 하는 경우, 고양이에 해당하는 표상 벡터에 속하는 벡터 요소들이 미리 지정된 특정 색상의 점(예컨대, blue color point) 형태로 화면 상에 표시될 수 있다. 이때, 시각화 제어부(240)는 화면 상에 표시되는 벡터 요소들 중 벡터 활성화 패턴에 해당하는 벡터 요소들이 붉은 색상의 원(red circle, 510, 520, 530)으로 구분하여 표시되도록 제어할 수 있다. 즉, 각각의 붉은 색상의 원(510, 520, 530) 안에 벡터 활성화 패턴에 해당하는 벡터 요소들이 포함될 수 있다. 시각화 제어부(240)는 붉은 색상의 원(510, 520, 530) 주변 영역에 해당 벡터 활성화 패턴이 나타내는 특성(즉, 맵핑된 특성 정보)가 함께 표시되도록 제어할 수 있다.
예를 들어, 원(510)에 해당하는 벡터 활성화 패턴은 "귀여움"이라는 특성 정보가 맵핑된 것으로서, 원(510)의 주변 영역에 귀여움을 나타내는 이미지(511)가 표시되도록 제어할 수 있다. 여기서, 이미지(511)는 "CUTE"의 텍스트를 포함하는 이미지, 정지 영상, 동영상, 이모티콘 등을 모두 포함할 수 있다.
원(520)에 해당하는 벡터 활성화 패턴은 "달릴 수 있음"이라는 특성 정보가 맵핑된 것으로서, 원(520)의 주변 영역에 달리기를 나타내는 이미지(521)가 표시될 수 있다. 예컨대, 달리는 동영상, 정지영상, 또는 "RUN"의 텍스트를 포함하는 이미지가 표시될 수 있다.
원(530)에 해당하는 벡터 활성화 패턴은 "꼬리가 있음"이라는 특성 정보가 맵핑된 것으로서, 원(530)의 주변 영역에 꼬리를 나타내는 이미지(531)가 표시되도록 제어할 수 있다. 여기서, 이미지(531)는 고양이의 꼬리를 나타내는 영상, "tail"의 텍스트를 포함하는 이미지, 이모티콘 등을 모두 포함할 수 있다.
도 5에서는 고양이와 관련하여 꼬리가 있음, 달릴 수 있음, 귀여움의 특성 정보를 시각화 제공하는 것을 예로 들어 설명하였으나, 이는 실시예에 해당되며, 꼬리가 있음, 달릴 수 있음, 귀여움 이외에 다양한 특성 정보가 더 시각화되어 제공될 수 있다. 예컨대, 울음소리, 고양이눈 등의 특성 정보가 해당 벡터 활성화 패턴에 속하는 벡터 요소들과 함께 시각화되어 제공될 수 있다.
이상에서 설명한 바와 같이, 해석 및 시각화 방법 그리고 시스템은 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성을 벡터 기반으로 해석하고, 해석된 패턴이 의미하는 특성을 이미지 형태로 시각화하여 제공함으로써, 방대한 양의 텍스트 데이터에 포함된 현실 세계 객체에 대한 정보를 사람(즉, 사용자)가 한 눈에 이해할 수 있는 형태로 제공할 수 있으며, 결국, 사용자가 해당 객체와 연관된 텍스트를 모두 읽고, 해당 특성을 이해하도록 할 수 있다. 이러한 해석 가능함을 통해 자연어 기반 어플리케이션(예컨대, 검색 시스템)의 성능을 개선할 수 있다. 예컨대, 유사한 단어 또는 문장 찾기, 객체 분류 하기 등의 태스크 처리에 유용할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (18)

  1. 객체 표상(entity representation)을 해석 및 시각화하는 방법에 있어서,
    자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 단계;
    복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 단계; 및
    상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 단계
    를 포함하는 해석 및 시각화 방법.
  2. 제1항에 있어서,
    상기 목표 특성을 맵핑 시키는 단계는,
    상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하는 단계; 및
    결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시키는 단계
    를 포함하는 해석 및 시각화 방법.
  3. 제1항에 있어서,
    상기 벡터 활성화 패턴을 생성하는 단계는,
    상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하는 단계;
    결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 단계; 및
    상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계
    를 포함하는 해석 및 시각화 방법.
  4. 제3항에 있어서,
    상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계는,
    상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하는 단계;
    계산된 평균값을 해당 벡터 요소의 세기로 결정하는 단계; 및
    결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성하는 단계
    를 포함하는 해석 및 시각화 방법.
  5. 제1항에 있어서,
    상기 표상 벡터를 생성하는 단계는,
    상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해하는 단계
    를 포함하는 해석 및 시각화 방법.
  6. 제1항에 있어서,
    상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나인 것
    을 특징으로 하는 해석 및 시각화 방법.
  7. 제6항에 있어서,
    상기 표상 벡터를 생성하는 단계는,
    상기 정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시키는 단계
    를 포함하는 해석 및 시각화 방법.
  8. 제1항에 있어서,
    특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 단계
    를 더 포함하는 해석 및 시각화 방법.
  9. 제8항에 있어서,
    상기 목표 특성을 시각화하여 제공하는 단계는,
    상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공하는 것
    을 특징으로 하는 해석 및 시각화 방법.
  10. 객체 표상(entity representation)을 해석 및 시각화하는 시스템에 있어서,
    자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 벡터 생성부;
    복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 패턴 결정부; 및
    상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 맵핑부
    를 포함하는 해석 및 시각화 시스템.
  11. 제10항에 있어서,
    상기 맵핑부는,
    상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하고, 결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시키는 것
    을 특징으로 하는 해석 및 시각화 시스템.
  12. 제10항에 있어서,
    상기 패턴 결정부는,
    상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하고, 결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 필터링부; 및
    상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 패턴 결정 제어부
    를 포함하는 해석 및 시각화 시스템.
  13. 제12항에 있어서,
    상기 패턴 결정 제어부는,
    상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하고, 계산된 평균값을 해당 벡터 요소의 세기로 결정하고, 결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성하는 것
    을 특징으로 하는 해석 및 시각화 시스템.
  14. 제10항에 있어서,
    상기 벡터 생성부는,
    상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해하는 것
    을 특징으로 하는 해석 및 시각화 시스템.
  15. 제10항에 있어서,
    상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나인 것
    을 특징으로 하는 해석 및 시각화 시스템.
  16. 제15항에 있어서,
    상기 벡터 생성부는,
    상기 정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시키는 것
    을 특징으로 하는 해석 및 시각화 시스템.
  17. 제10항에 있어서,
    특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 시각화 제어부
    를 더 포함하는 해석 및 시각화 시스템.
  18. 제17항에 있어서,
    상기 시각화 제어부는,
    상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공하는 것
    을 특징으로 하는 해석 및 시각화 시스템.
KR1020180003142A 2017-04-10 2018-01-10 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템 KR101983493B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170045837 2017-04-10
KR1020170045837 2017-04-10

Publications (2)

Publication Number Publication Date
KR20180114496A true KR20180114496A (ko) 2018-10-18
KR101983493B1 KR101983493B1 (ko) 2019-05-29

Family

ID=64132874

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180003142A KR101983493B1 (ko) 2017-04-10 2018-01-10 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템

Country Status (1)

Country Link
KR (1) KR101983493B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100701044B1 (ko) * 2004-07-20 2007-03-29 황상석 온라인망을 기반으로 하는 위급상황 처리 시스템
US8200597B2 (en) * 2006-12-06 2012-06-12 Huawei Technologies Co., Ltd. System and method for classifiying text and managing media contents using subtitles, start times, end times, and an ontology library
KR20150067242A (ko) * 2012-10-05 2015-06-17 에스.아이.에스브이.이엘. 쏘시에타‘ 이탈리아나 퍼 로 스빌루포 델‘엘레트로니카 에스.피.에이. 멀티미디어 플랫폼을 통해서 멀티미디어 컨텐츠를 추천하기 위한 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100701044B1 (ko) * 2004-07-20 2007-03-29 황상석 온라인망을 기반으로 하는 위급상황 처리 시스템
US8200597B2 (en) * 2006-12-06 2012-06-12 Huawei Technologies Co., Ltd. System and method for classifiying text and managing media contents using subtitles, start times, end times, and an ontology library
KR20150067242A (ko) * 2012-10-05 2015-06-17 에스.아이.에스브이.이엘. 쏘시에타‘ 이탈리아나 퍼 로 스빌루포 델‘엘레트로니카 에스.피.에이. 멀티미디어 플랫폼을 통해서 멀티미디어 컨텐츠를 추천하기 위한 방법 및 시스템

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
[1]Faruqui, Manaal, et al. "Sparse overcomplete word vector representations." arXiv preprint arXiv:1506.02004 (2015).
[2]Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[3]Boleda, Gemma, and Katrin Erk. "Distributional Semantic Features as Semantic Primitives―Or Not." 2015 AAAI Spring Symposium Series. 2015.
[4]McRae, Ken, et al. "Semantic feature production norms for a large set of living and nonliving things." Behavior research methods 37.4 (2005): 547-559.
임연자 외, HTML 문서의 자동구축을 위한 문서 객체의 범주 분류 방법, 한국정보과학회 학술발표논문집 Vol.25 No.1B, 1998 *
장경록 외, 상품 평가 텍스트에 내재된 사용자 관점 추출, 한국정보과학회 논문지 소프트웨어및응용 41(5) pp.376-386 (2014.05) *

Also Published As

Publication number Publication date
KR101983493B1 (ko) 2019-05-29

Similar Documents

Publication Publication Date Title
US20230202513A1 (en) Systems and Methods for Graph-Based AI Training
Cheng et al. ImageSpirit: Verbal guided image parsing
JP6888484B2 (ja) 検索プログラム、検索方法、及び、検索プログラムが動作する情報処理装置
CN114648681B (zh) 一种图像生成方法、装置、设备及介质
Qi et al. A semantic feature for human motion retrieval
JP7451015B2 (ja) オブジェクト検出のための訓練データの生成
Mewada et al. Automatic room information retrieval and classification from floor plan using linear regression model
CN115775116B (zh) 基于bim的路桥工程管理方法及系统
Ortega et al. Generating 3D city models from open LiDAR point clouds: Advancing towards smart city applications
CN110750297B (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
Li et al. Caption generation from road images for traffic scene modeling
JP2019128634A (ja) 最適化装置及びハイパーパラメータの最適化方法
Dehbi et al. Learning grammar rules of building parts from precise models and noisy observations
CN113379767B (zh) 一种构建自我监督点云学习的语义扰动重构网络的方法
CN116610304B (zh) 页面代码生成方法、装置、设备和存储介质
Gan et al. Experimental comparison of three topic modeling methods with LDA, Top2Vec and BERTopic
KR101983493B1 (ko) 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템
CN111950582A (zh) 为分类模型确定扰动掩模
CN115204318B (zh) 事件自动层级分类方法及电子设备
Lv et al. A challenge of deep‐learning‐based object detection for hair follicle dataset
CN114880457A (zh) 工艺推荐模型的训练、工艺推荐方法及电子设备
WO2022194674A1 (en) Generating three-dimensional data models of two-dimensional floor plans
WO2021014495A1 (ja) ラベル推定装置、ラベル推定方法、及びラベル推定プログラム
KR102558101B1 (ko) 딥러닝 기반 참조 도면 정보 탐색을 통한 bim 모델의 자동 2차원 도면생성 방법 및 시스템
Ghaemmaghami et al. Integrated-Block: A New Combination Model to Improve Web Page Segmentation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant