KR101983493B1 - System and method for visualizing and interpreting property included learned entity representation from natural language text - Google Patents

System and method for visualizing and interpreting property included learned entity representation from natural language text Download PDF

Info

Publication number
KR101983493B1
KR101983493B1 KR1020180003142A KR20180003142A KR101983493B1 KR 101983493 B1 KR101983493 B1 KR 101983493B1 KR 1020180003142 A KR1020180003142 A KR 1020180003142A KR 20180003142 A KR20180003142 A KR 20180003142A KR 101983493 B1 KR101983493 B1 KR 101983493B1
Authority
KR
South Korea
Prior art keywords
vector
representative
activation pattern
analysis
visualization system
Prior art date
Application number
KR1020180003142A
Other languages
Korean (ko)
Other versions
KR20180114496A (en
Inventor
맹성현
장경록
박주희
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20180114496A publication Critical patent/KR20180114496A/en
Application granted granted Critical
Publication of KR101983493B1 publication Critical patent/KR101983493B1/en

Links

Images

Classifications

    • G06F17/27
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Abstract

자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템이 개시된다. 객체 표상(entity representation)을 해석 및 시각화하는 방법에 있어서, 자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 단계, 복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 단계, 및 상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 단계를 포함할 수 있다.A characteristic analysis and visualization method and system embodied in an object representation learned from natural language text are disclosed. A method of analyzing and visualizing an entity representation, the method comprising the steps of: analyzing and visualizing an entity representation of an object representation for an entity representation learning that grasps the nature of the object present in the real world, Generating a vector activation pattern by performing filtering on a representative vector corresponding to at least two objects among the representative vectors generated for each of a plurality of objects; And mapping target properties associated with two or more objects.

Figure R1020180003142
Figure R1020180003142

Description

자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템{SYSTEM AND METHOD FOR VISUALIZING AND INTERPRETING PROPERTY INCLUDED LEARNED ENTITY REPRESENTATION FROM NATURAL LANGUAGE TEXT}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and a system for analyzing and visualizing characteristics included in an object represented by a natural language text,

본 발명은 자연어 텍스트로부터 학습된 객체 표상(entity representation)을 해석하고 시각화하는 기술에 관한 것이다. The present invention relates to techniques for interpreting and visualizing object representations learned from natural language text.

객체 표상 학습 (entity representation learning) 기술은 빌 게이츠, 스티브 잡스 등 현실 세계에서 등장하는 객체(entity)가 갖는 의미, 개념 등의 특성을 방대한 양의 텍스트로부터 자동으로 학습하는 기술로서, 자연어처리 (Natural Language Processing) 분야에서 지속적으로 중요하게 다루어지고 있다.Entity representation learning technology is a technology that automatically learns the meaning, concept, and other characteristics of entities appearing in the real world, such as Bill Gates and Steve Jobs, from a vast amount of text, Language Processing).

객체(entity)가 갖는 의미를 컴퓨팅 가능한 형태로 표상화하기 위해 사용되는 기법 중 하나로, 모든 단어를 수학의 벡터 (vector) 형태로 초기화하고, 모델링하고자 하는 대상 단어의 벡터가 텍스트에서 함께 등장한 문맥 단어들의 벡터와 최대한 유사한 형태를 갖도록 최적화하는 기법이 있다. 단어 벡터를 최적의 형태로 학습하기 위해 딥 러닝 (Deep Learning)이 주로 사용되며, 결과물로 생성된 단어 벡터는 서로 유사한 의미를 지닐수록 유사한 형태를 가지게 되므로 의미 공간(semantic space) 안에서 비슷한 위치에 배치되게 된다.One of the techniques used to represent the meaning of an entity in a form that can be computed is to initialize all words into a vector form of mathematics. The vector of the target word to be modeled is called a context word There is a technique to optimize the shape of the vector to be as close as possible. Deep learning is mainly used to learn the word vector in an optimal form, and word vectors generated as a result have similar shapes as they have similar meanings, so they are arranged at similar positions in the semantic space .

객체 모델링의 관점에서 볼 때, 현재 주로 사용되는 표상화 방식의 가장 큰 문제는 객체의 의미를 담은 벡터를 사람이 해석 불가능하다는 점이다. 일반적으로 사용되는 형태인 "저차원 연속값 밀집 벡터(low-dimensional continuous dense vector)"는 컴퓨팅 관점에서는 효율적일지 몰라도 그것을 활용하는 보다 고도화된 어플리케이션(예컨대, 질의응답 시스템)을 개발하는 개발자의 입장에서는 모델링한 객체가 구체적으로 어떤 특성(property)을 가지고 있는지, 객체의 특성이 정확하게 모델링이 되었는지 여부를 해석할 수 없기에 그것을 활용하고 디버깅하는 데 큰 제약이 따르게 된다.From the viewpoint of object modeling, the biggest problem of the representation method currently used mainly is that a human can not interpret a vector containing the meaning of the object. A commonly used form, " low-dimensional continuous dense vector " may be efficient from a computing standpoint, but for a developer developing a more sophisticated application that utilizes it (e.g., a query response system) It is impossible to interpret whether the modeled object has a specific property or whether the property of the object is accurately modeled. Therefore, there is a great restriction to utilize and debug the modeled object.

단어 벡터를 해석 가능한 형태로 변환하기 위한 연구 중 하나로서, 아래의 비특허문헌 [1]Faruqui, Manaal, et al. "Sparse overcomplete word vector representations." arXiv preprint arXiv:1506.02004 (2015).에서는 밀도있고 연속적인 단어 벡트를 사람이 해석하기 상대적으로 용이한 "고차원 분절값 희소 벡터(high-dimensional sparse binary vector)" 형태로 변환하는 방법을 제시하고 있다. 고차원 분절값 희소 벡터라는 새로운 벡터는 기존 300차원 대비 최대 3,000차원의 크기를 갖고, 그 중 90% 이상의 벡터 요소(component)가 0의 값을 가지므로 희소(sparse)하며, 각 벡터 요소는 1 또는 0의 값을 가지므로 분절값(binary)에 해당한다. 이 연구에서 저자들은 비슷한 특성을 공유하는 객체(예컨대, 빌 게이츠, 스티브 잡스, 기업가)의 벡터는 비슷한 벡터 요소(component)로 구성된 활성화 패턴을 가짐을 보였고, 해당 패턴이 고차원 분절값 희소 벡터에서 더욱 뚜렷이 나타났다는 사실을 밝혀 냈다.As one of the studies for converting a word vector into an interpretable form, the following non-patent document [1] Faruqui, Manaal, et al. "Sparse overcomplete word vector representations." arXiv preprint arXiv: 1506.02004 (2015) proposes a method to convert dense, continuous word vectors into a form of "high-dimensional sparse binary vector", which is relatively easy for human interpretation. A new vector called a high-dimensional segment value sparse vector has a maximum size of 3,000 dimensions compared to the conventional 300 dimensions, and 90% or more of the vector elements are sparse because they have a value of 0, and each vector element is 1 or 0, and therefore corresponds to a binary value. In this study, the authors showed that vectors of objects that share similar characteristics (eg, Bill Gates, Steve Jobs, entrepreneurs) have an activation pattern composed of similar vector components, and that the pattern has a higher And it became apparent.

그러나, 특정 활성화 패턴이 대상 객체의 어떤 특성(예컨대, 기업가, 미국인 등)을 나타내는지 까지는 규명해내지 못하였다. 즉, 임의의 객체가 다른 객체와 어떤 특성을 공유하고 있다는 사실을 파악하는 데는 도움을 주었으나, 구체적으로 어떤 특성을 지녔는지에 대한 이해는 주지 못하고 있다.However, it has not been possible to elucidate whether a particular activation pattern represents certain characteristics of a target object (for example, an entrepreneur, an American, etc.). In other words, it helps to understand that an arbitrary object shares certain characteristics with other objects, but it does not give an understanding of what characteristics it has.

한국등록특허 제10-1644044호는 개념 및 관계 의역 시스템 및 방법에 관한 것으로, 외부로부터 입력되는 말뭉치를 자연어 처리하여 의미역이 부착된 말뭉치를 생성하고, 생성된 말중치로부터 주체, 행동, 객체가 포함된 정보 집합을 추출하는 구성을 제시하고 있다.Korean Patent No. 10-1644044 relates to a system and method for conceptual and relationship interpretation, wherein corpus inputted from outside is processed in a natural language to generate a corpus attached with a semantic domain, and subject, action, and object And extracts the included information set.

[1]Faruqui, Manaal, et al. "Sparse overcomplete word vector representations." arXiv preprint arXiv:1506.02004 (2015).[1] Faruqui, Manaal, et al. "Sparse overcomplete word vector representations." arXiv preprint arXiv: 1506.02004 (2015). [2]Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.[2] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013. [3]Boleda, Gemma, and Katrin Erk. "Distributional Semantic Features as Semantic Primitives―Or Not." 2015 AAAI Spring Symposium Series. 2015.[3] Boleda, Gemma, and Katrin Erk. "Distributional Semantic Features as Semantic Primitives-Or Not." 2015 AAAI Spring Symposium Series. 2015. [4]McRae, Ken, et al. "Semantic feature production norms for a large set of living and nonliving things." Behavior research methods 37.4 (2005): 547-559.[4] McRae, Ken, et al. "Semantic feature production norms for a large set of living and nonliving things." Behavior research methods 37.4 (2005): 547-559.

본 발명은 자연어 처리된 자연어 텍스트(natural language text)로부터 학습을 통해 생성된 객체 표상을 나타내는 표상 벡터에 해당 객체가 갖는 의미, 개념을 나타내는 특성(property)을 해석하는 기술에 관한 것이다.TECHNICAL FIELD The present invention relates to a technique for analyzing a property representing a meaning and concept of a corresponding object in a representative vector representing an object representation generated through learning from a natural language text processed in a natural language.

또한, 해석된 특성과 상기 표상 벡터를 사용자가 한 눈에 쉽게 인지 가능하도록 시각화하여 제공하는 기술에 관한 것이다.The present invention also relates to a technique for visualizing and providing the analyzed characteristics and the representative vector so that the user can easily recognize the same at a glance.

객체 표상(entity representation)을 해석 및 시각화하는 방법에 있어서, 자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 단계, 복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 단계, 및 상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 단계를 포함할 수 있다.A method of analyzing and visualizing an entity representation, the method comprising the steps of: analyzing and visualizing an entity representation of an object representation for an entity representation learning that grasps the nature of the object present in the real world, Generating a vector activation pattern by performing filtering on a representative vector corresponding to at least two objects among the representative vectors generated for each of a plurality of objects; And mapping target properties associated with two or more objects.

일측면에 따르면, 상기 목표 특성을 맵핑 시키는 단계는, 상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하는 단계, 및 결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시키는 단계를 포함할 수 있다.According to an aspect of the present invention, the step of mapping the target characteristics may include the steps of: determining an object corresponding to the vector activation pattern for the representative vector generated for each of the plurality of objects; And mapping the target characteristic to a pattern composed of vector elements corresponding to the vector activation pattern, with respect to the vector elements belonging to the target vector.

다른 측면에 따르면, 상기 벡터 활성화 패턴을 생성하는 단계는, 상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하는 단계, 결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 단계, 및 상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계를 포함할 수 있다.According to another aspect of the present invention, the step of generating the vector activation pattern includes: determining a vector element having a signal intensity representing a vector element equal to or greater than a predetermined intensity level, with respect to a plurality of vector elements belonging to the at least two representative vector Performing filtering to select a vector element common to at least two or more representative vector objects on vector elements corresponding to the determined constant intensity or more and based on the vector elements selected through the filtering, And generating the vector activation pattern.

또 다른 측면에 따르면, 상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계는, 상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하는 단계, 계산된 평균값을 해당 벡터 요소의 세기로 결정하는 단계, 및 결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성하는 단계를 포함할 수 있다.According to another aspect, the step of generating the vector activation pattern based on the vector elements selected through the filtering may include calculating the average value of the vector elements for the selected vector elements belonging to the at least two representative vector elements Determining the calculated mean value as the intensity of the corresponding vector element, and generating the vector activation pattern by associating the determined intensity of the vector element with identifier information representing the selected vector element. have.

또 다른 측면에 따르면, 상기 표상 벡터를 생성하는 단계는, 상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해하는 단계를 포함할 수 있다.According to another aspect, the step of generating the representative vector may include generating at least one vector activation pattern associated with the representative vector, based on sparse coding, on the representative vector corresponding to each of the plurality of objects, The method comprising:

또 다른 측면에 따르면, 상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나일 수 있다.According to another aspect, the target characteristic may be any one of characteristic information included in a refined data set predefined for each object.

또 다른 측면에 따르면, 상기 표상 벡터를 생성하는 단계는, 상기 정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시키는 단계를 포함할 수 있다.According to another aspect of the present invention, the step of generating the representative vector includes performing learning based on a machine learning or a bootstrapping technique on the basis of characteristic information including the refined data set, And expanding the property information contained in the refined dataset.

또 다른 측면에 따르면, 특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 단계를 더 포함할 수 있다.According to another aspect, the method may further include visualizing and providing a target characteristic mapped to at least one vector activation pattern associated with a representative vector corresponding to a specific object.

또 다른 측면에 따르면, 상기 목표 특성을 시각화하여 제공하는 단계는, 상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공하는 것According to another aspect, the step of visualizing and providing the target characteristic comprises: displaying a target image corresponding to a target characteristic mapped to at least one vector activation pattern associated with the representative image, (image) together with

객체 표상(entity representation)을 해석 및 시각화하는 시스템에 있어서, 자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 벡터 생성부, 복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 패턴 결정부, 및 상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 맵핑부를 포함할 수 있다.A system for analyzing and visualizing an entity representation, the system comprising: means for analyzing and visualizing an entity representation corresponding to an object representation for entity representation learning, A pattern generating unit for generating a vector activation pattern by performing filtering on a representative vector corresponding to at least two of the representative vectors generated for each of the plurality of objects, And a mapping unit that maps a target property associated with the at least two objects to the pattern.

일측면에 따르면, 상기 맵핑부는, 상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하고, 결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시킬 수 있다.According to an aspect of the present invention, the mapping unit may determine an object corresponding to the vector activation pattern for the representative vector generated for each of the plurality of objects, extract vector elements belonging to the representative vector corresponding to the determined object, The target characteristic may be mapped to a pattern composed of vector elements corresponding to the vector activation pattern.

다른 측면에 따르면, 상기 패턴 결정부는, 상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하고, 결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 필터링부, 및 상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 패턴 결정 제어부를 포함할 수 있다.According to another aspect of the present invention, the pattern determining unit determines a vector element having a signal intensity representing a vector element equal to or greater than a predetermined intensity, for a plurality of vector elements belonging to the at least two representative vector, A filtering unit configured to perform filtering to select vector elements common to at least two or more representative vector vectors with respect to vector elements corresponding to or more than a predetermined threshold value and to generate vector activation patterns based on the vector elements selected through the filtering, And a pattern determination control unit for generating a pattern.

또 다른 측면에 따르면, 상기 패턴 결정 제어부는, 상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하고, 계산된 평균값을 해당 벡터 요소의 세기로 결정하고, 결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성할 수 있다.According to another aspect of the present invention, the pattern determination control unit may calculate an average value for each vector element about the selected vector element belonging to the at least two representative vectors, determine the calculated average value as the intensity of the vector element, The vector activation pattern can be generated by associating the determined strength of the vector element with the identifier information indicating the selected vector element.

또 다른 측면에 따르면, 상기 벡터 생성부는, 상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해할 수 있다.According to another aspect, the vector generation unit may decompose at least one vector activation pattern related to the representative vector based on sparse coding, on a representative vector corresponding to each of the plurality of objects have.

또 다른 측면에 따르면, 상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나일 수 있다.According to another aspect, the target characteristic may be any one of characteristic information included in a refined data set predefined for each object.

또 다른 측면에 따르면, 상기 벡터 생성부는, 상기 정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시킬 수 있다.According to another aspect of the present invention, the vector generation unit performs learning based on a machine learning or a bootstrapping technique on the basis of characteristic information including the refined data set, It is possible to expand the characteristic information included in the characteristic information.

또 다른 측면에 따르면, 특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 시각화 제어부를 더 포함할 수 있다.According to another aspect, the visualization control unit may further include a visualization control unit for visualizing and providing target characteristics mapped to at least one vector activation pattern associated with a representative vector corresponding to a specific object.

또 다른 측면에 따르면, 상기 시각화 제어부는, 상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공할 수 있다.According to another aspect of the present invention, the visualization control unit provides an image corresponding to a target characteristic mapped to at least one vector activation pattern associated with the representative vector and a representative vector corresponding to a specific object among the plurality of objects can do.

본 발명의 실시예들에 따르면, 자연어 처리된 자연어 텍스트(natural language text)로부터 학습을 통해 생성된 객체 표상을 나타내는 표상 벡터에 해당 객체가 갖는 의미, 개념을 나타내는 특성(property)을 해석하여 제공하고, 해석된 특성과 상기 표상 벡터를 사용자가 한 눈에 쉽게 인지 가능하도록 시각화하여 제공함으로써, 사용자가 객체에 대한 텍스트를 모두 읽고 해당 특성을 이해하는데 도움을 줄 수 있다. 예컨대, 검색 시스템 등과 같이 자연어 기반 어플리케이션에서, 디버깅(debugging)하고 개선하는 데 유용하게 사용될 수 있다. 즉, 인공지능 대화형 에이전트인 챗봇(chatbot) 등이 객체에 대해 가지고 있는 지식이 정확한지 여부를 디버깅하고 개선하는 데 활용함으로써, 지식의 정확도를 높일 수 있다. According to embodiments of the present invention, a property representing a meaning and a concept of a corresponding object is analyzed and provided to a representative vector representing an object representation generated through learning from a natural language text processed with natural language , And the analyzed characteristics and the representative vector can be visualized and provided to the user at a glance so as to be easily recognizable, thereby helping the user to read all the texts about the object and understand the characteristics thereof. For example, it can be useful for debugging and improving natural language based applications such as a search system. In other words, it can improve the accuracy of knowledge by debugging and improving whether or not knowledge possessed by an artificial intelligent interactive agent, such as chatbot, is accurate.

도 1은 본 발명의 일실시예에 있어서, 객체 표상을 해석하여 시각화하는 전체 프로세스를 개략적으로 도시한 도면이다.
도 2는 본 발명의 일실시예에 있어서, 해석 및 시각화 시스템의 내부 구성을 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서, 해석 및 시각화 방법을 도시한 흐름도이다.
도 4는 본 발명의 일실시예에 있어서, 벡터 활성화 패턴을 결정하는 동작을 설명하기 위해 제공되는 도면이다.
도 5는 본 발명의 일실시예에 있어서, 시각화 방법을 설명하기 위해 제공되는 도면이다.
1 is a diagram schematically showing an overall process of analyzing and visualizing an object representation in an embodiment of the present invention.
2 is a block diagram illustrating an internal configuration of an analysis and visualization system in one embodiment of the present invention.
3 is a flow chart illustrating an analysis and visualization method in one embodiment of the present invention.
Figure 4 is a diagram provided to illustrate an operation for determining a vector activation pattern in an embodiment of the present invention.
5 is a diagram for explaining a visualization method in an embodiment of the present invention.

이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명은 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성(property)을 해석하고, 해석된 특성을 시각화하여 제공하는 기술에 관한 것으로서, 특히, 특정 객체의 표상, 즉, 객체 표상(entity representation)을 나타내는 저차원 연속값 밀집 벡터(low-dimensional continuous dense vector)에 속하는 벡터 요소들(components)을 해석하여 객체 별로 포함된 공통된 벡터 요소들로 구성된 벡터 활성화 패턴을 찾고, 찾은 해당 패턴에 특정 의미, 개념 등의 특성(property)을 부여/지정하는 기술에 관한 것이다. 즉, 객체들 간에 공유하고 있는(일관되게 나타나는) 패턴을 시스템에서 자동으로 결정하고, 결정된 패턴이 의미하는 개념을 주석(annotation) 달아주는 기술에 관한 것이다.The present invention relates to a technique for analyzing a property included in an object representation learned from a natural language text and providing an interpreted characteristic by visualizing it. More particularly, the present invention relates to an object representation of an object, It analyzes the vector elements belonging to the low-dimensional continuous dense vector, and finds a vector activation pattern composed of common vector elements contained in each object. And / or the like. That is, the present invention relates to a technique of automatically determining a pattern (which appears consistently) shared among objects and automatically annotating concepts that are determined by the determined pattern.

본 실시예들에서, "객체 표상(entity representation)"은 실제 세계에서 객체가 가지는 의미, 개념 등의 특성(property)을 나타내는 것으로서, 사용자가 컴퓨터에 문의한 질의(query)를 컴퓨터에서 이해하기 위한 필수적인 요소에 해당할 수 있다. In the present embodiments, the term " entity representation " refers to a property such as the meaning, concept, etc., of an object in the real world. This can be an essential element.

본 실시예들에서, "자연어 텍스트"는 자연어(natural language), 기계어와 대비되는 개념으로 인간이 생성한 텍스트를 나타낼 수 있으며, 엄밀하게는 텍스트만을 포함하며, 음성을 한차례 처리하여(예컨대, 전처리하여) 텍스트로 변환한 경우도 자연어 텍스트라 할 수 있다.In the present embodiment, " natural language text " is a natural language, which can represent human-generated text as a concept compared to a machine language, and strictly includes only text, If the text is converted into text, it can be called natural text.

본 실시예들에서, "벡터 요소(component)"는 특정 객체의 표상을 나타내는 표상 벡터(예컨대, 저차원 연속값 밀집 벡터(low-dimensional dense continuous vector))를 구성하는 복수개의 요소(component)를 나타낼 수 있다. 예를 들어, 햄스터를 표현하는 수학적 벡터가 300차원(dimension)인 경우, 하나의 차원(dimension)이 "벡터 요소(component)"에 해당할 수 있다. 이때, 300차원 벡터와 같은 저차원 벡터에서는 각 벡터 요소(component)가 하나 이상의 성질이 다른 세부개념(예컨대, 달리다+귀엽다)을 나타낼 수 있으므로, 최대한 잘개 쪼개서(즉, 분할하여) 각 벡터 요소(component)가 '최소 의미 단위'를 나타내도록(그래서 정밀한 의미 해석이 가능하도록) 스파스 코딩(sparse coding) 기법이 이용될 수 있다. 예컨대, 스파스 코딩(Sparse coding)을 적용 시 300차원이 2500차원으로 확장되어 분해될 수 있으며, 스파스 코딩(Sparse coding) 시 설정 여부에 따라 300차원이 2500차원 이외의 3000차원, 1500차원 등으로 분해될 수도 있다.In the present embodiments, a " vector element " refers to a component that represents a representation of a particular object (e.g., a low-dimensional dense continuous vector) . For example, when a mathematical vector representing a hamster is 300 dimensions, one dimension may correspond to a " component ". At this time, in a low-dimensional vector such as a 300-dimensional vector, each vector element can represent a detailed concept (for example, running + cute) a sparse coding scheme may be used so that the component represents a 'minimal semantic unit' (so that precise semantic interpretation is possible). For example, when sparse coding is applied, 300 dimensions can be decomposed into 2500 dimensions and 300 dimensions can be decomposed into 3000 dimensions, 1500 dimensions, etc. in addition to 2500 dimensions according to whether or not sparse coding is set up. . ≪ / RTI >

본 실시예들에서, "객체 표상 학습(entity representation learning)"은 현실 세계에 등장/존재하는 특정 객체(entity)가 갖는 의미, 개념 등의 특성(property)을 방대한 양의 텍스트(예컨대, 자연어 텍스트)로부터 시스템이 자동으로 학습하는 것을 의미할 수 있다.In the present embodiments, the term " entity representation learning " is used to refer to a property such as meaning, concept or the like of a specific entity appearing / existing in the real world as an enormous amount of text ) Can be automatically learned by the system.

본 실시예들에서, 해석 및 시각화 시스템은 네트워크를 통해 서버와 통신을 수행하며, 서버에 플랫폼 형태로 구현될 수도 있고, 서버와 별도로 외부에 위치할 수도 있다. 예컨대, 해석 및 시각화 시스템은 서버와 네트워크로 연결된 메모리 DB에 모듈화되어 구현될 수 있으며, 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 이외에, 해석 및 시각화 시스템은 서버와 네트워크를 통해 통신을 수행하는 사용자 단말에 설치되는 어플리케이션 형태로 구현될 수도 있다. 예컨대, 사용자 단말은 스마트폰(smartphone), 태블릿(tablet), 노트북, PC 등의 전자 기기를 나타낼 수 있다.In the present embodiments, the analysis and visualization system communicates with the server via the network, and may be implemented in a platform in the server or may be located separately from the server. For example, the analysis and visualization system may be implemented in a memory DB connected to a server and a network, and may be implemented as a computer apparatus or a plurality of computer apparatuses that provide commands, codes, files, contents, services, and the like. In addition, the analysis and visualization system may be implemented in the form of an application installed in a user terminal performing communication with a server via a network. For example, the user terminal may represent an electronic device such as a smartphone, a tablet, a notebook, a PC, and the like.

도 1은 본 발명의 일실시예에 있어서, 객체 표상을 해석하여 시각화하는 전체 프로세스를 개략적으로 도시한 도면이다.1 is a diagram schematically showing an overall process of analyzing and visualizing an object representation in an embodiment of the present invention.

도 1을 참고하면, 객체 표상을 해석 및 시각화하는 프로세스는 크게 객체 표상을 나타내는 벡터(즉, 표상 벡터)를 생성(110)하고, 스파스 코딩(sparse coding)을 적용하여 표상 벡터를 변환(120)할 수 있다.Referring to FIG. 1, the process of analyzing and visualizing an object representation includes a process of generating (110) a vector (i.e., a representative vector) representing an object representation and applying a sparse coding to transform the representation vector 120 )can do.

예를 들어, 대규모의 자연어 텍스트로부터 저차원 연속값 밀집 벡터가 생성되면, 생성된 상기 벡터들을 대상으로 스파스 코딩(sparse coding)이 적용될 수 있다. 그러면, 스파스 코딩을 통해 고차원이면서, 일정 레벨 이상으로 충분히 강한 정보를 가진 벡터 요소만 남겨질 수 있다(즉, 필터링될 수 있다). 스파스 코딩을 통해 변환된 객체 별 표상 벡터(즉, 변환된 저차원 연속값 밀집 벡터)를 대상으로 벡터 활성화 패턴을 파악(130)하고, 벡터 활성화 패턴에 해당 패턴의 의미를 나타내는 개념(즉, 특성)을 맵핑(140)시키고, 특정 객체와 관련하여 맵핑된 적어도 하나의 특성을 시각화하여 제공(150)하는 것으로 이루어질 수 있다. For example, when a low-dimensional continuous value dense vector is generated from a large-scale natural language text, sparse coding may be applied to the generated vectors. Then, only sparse coding can leave (i.e., be filtered) only those vector elements that are high-dimensional and have sufficiently strong information above a certain level. A vector activation pattern is recognized (130) on an object representative vector (i.e., a transformed low dimensional continuous value density vector) transformed through sparse coding, and a concept representing the meaning of the corresponding pattern in the vector activation pattern (140), and visualizing and providing (150) at least one property mapped in relation to the specific object.

도 1에서, 표상 벡터를 생성하여 시각화할 때까지의 자세한 프로세스는 아래의 도 2를 참고하여 설명하기로 한다.In FIG. 1, a detailed process of generating and visualizing a representative vector will be described with reference to FIG. 2 below.

도 2는 본 발명의 일실시예에 있어서, 해석 및 시각화 시스템의 내부 구성을 도시한 블록도이고, 도 3은 본 발명의 일실시예에 있어서, 해석 및 시각화 방법을 도시한 흐름도이다.FIG. 2 is a block diagram illustrating an internal configuration of an analysis and visualization system in an embodiment of the present invention, and FIG. 3 is a flowchart illustrating an analysis and visualization method in an embodiment of the present invention.

도 2를 참고하면, 해석 및 시각화 시스템(200)은 벡터 생성부(210), 패턴 결정부(220), 맵핑부(230), 및 시각화 제어부(240)를 포함하고, 패턴 결정부(220)는 필터링부(221) 및 패턴 결정 제어부(222)를 포함할 수 있다. 그리고, 도 3의 해석 및 시각화 방법을 위한 각 단계들(310 내지 340 단계)은 도 2의 해석 및 시각화 시스템(200)의 구성 요소인 벡터 생성부(210), 패턴 결정부(220) 및 맵핑부(230)에 의해 수행될 수 있다.2, the analysis and visualization system 200 includes a vector generation unit 210, a pattern determination unit 220, a mapping unit 230, and a visualization control unit 240. The pattern determination unit 220, A filtering unit 221 and a pattern determination control unit 222. [ Each step (steps 310 to 340) for the analysis and visualization method of FIG. 3 includes a vector generation unit 210, a pattern determination unit 220, and a mapping unit 210, which are components of the analysis and visualization system 200 of FIG. (230). ≪ / RTI >

310 단계에서, 벡터 생성부(210)는 자연어 텍스트를 대상으로 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터(즉, 단어 벡터)를 생성할 수 있다.In operation 310, the vector generation unit 210 generates a representation vector corresponding to an object representation for entity representation learning, which grasps a characteristic representing the meaning of an object existing in the real world, Word vector).

일례로, 벡터 생성부(210)는 대규모의 인터넷 웹, 모바일 웹 등을 통해 수집된 빅데이터를 대상으로 자연어 처리를 통해 획득한 자연어 텍스트를 대상으로, 학습된 객체 표상을 나타내는 벡터(즉, 표상 벡터)를 생성할 수 있다. 예컨대, 벡터 생성부(210)는 위의 비특허 문헌[2]Tomas Mikolov , Kai Chen, Greg Corrado , and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR , 2013.에 제시된 저차원 연속값 밀집 벡터(low-dimensional continuous dense vector) 형태로 객체 별 표상을 나타내는 상기 표상 벡터를 생성할 수 있다.For example, the vector generation unit 210 may generate a vector representing a learned object representation (that is, a representation of a representative object) on a natural language text acquired through natural language processing on big data collected through a large-scale Internet web, Vector). For example, the vector generator 210 of the above Non-Patent Document [2] Tomas Mikolov , Kai Chen, Greg Corrado , and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. It is possible to generate the representational vector representing the representation for each object in the form of a low-dimensional continuous dense vector given in In Proceedings of Workshop at ICLR ,

그리고, 벡터 생성부(210)는 객체 별로 생성된 표상 벡터를 대상으로, 스파스 코딩(sparse coding)을 적용하여 표상 벡터에 속하는 복수개의 벡터 요소 각각을 분해할 수 있다. 이때, 벡터 생성부(210)는 복수의 객체들 중 미리 정의된 목표 특성(예컨대, 귀여움)에 기초하여 선택된 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로 스파스 코딩을 적용할 수 있다. 여기서, 스파스 코딩(sparse coding) 과정은 여러 특성이 동일한 패턴에 맵핑되는 경우를 방지하기 위해 수행되는 것으로서, 예를 들어, 벡터 활성화 패턴 1에 "귀여움"이라는 특성과 "네 발로 걸어다님"이라는 서로 다른 특성이 맵핑되는 것을 최소화하기 위해 수행될 수 있다. 예컨대, 위의 비특허 문헌 [3]Boleda , Gemma , and Katrin Erk . "Distributional Semantic Features as Semantic Primitives―Or Not." 2015 AAAI Spring Symposium Series. 2015.에 제시된 단어 벡터를 최소 의미 단위로 분해하는 방법에 기초하여, 스파스 코딩(sparse coding)을 통해 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 해당 특성이 갖는 최소 의미 단위(atomic property)로 분해될 수 있다. 예컨대, 정밀한 의미 해석을 위해 스파스 코딩(sparse coding)이 적용된 경우, 패턴 1은 "귀여움"으로만, 패턴 2는 "네 발로 걸어다님"으로만 매핑되도록 최소 의미 단위로 '분해'될 수 있다.The vector generating unit 210 may decompose each of the plurality of vector elements belonging to the representative vector by applying sparse coding to the representative vector generated for each object. At this time, the vector generation unit 210 may apply sparse coding to a representative vector corresponding to at least two objects selected based on a predefined target characteristic (for example, cuteness) among a plurality of objects. Here, the sparse coding process is performed in order to prevent a case where a plurality of characteristics are mapped to the same pattern. For example, in the vector activation pattern 1, a characteristic called " cute " May be performed to minimize the mapping of different characteristics. For example, Boleda , Gemma , and Katrin [3] Erk . "Distributional Semantic Features as Semantic Primitives-Or Not." 2015 AAAI Spring Symposium Series. Based on the method of decomposing the word vector shown in 2015. into a minimum semantic unit, at least one vector activation pattern associated with the representative vector is converted into a minimum atomic property of the characteristic by sparse coding, Lt; / RTI > For example, if sparse coding is applied for precise semantic analysis, pattern 1 can be "disassembled" in minimal semantics so that it is only "cute" and pattern 2 is mapped only to "walk on four feet" .

320 단계에서, 패턴 결정부(220)는 복수개의 객체 별로 생성된 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 목표 특성에 해당하는 벡터 활성화 패턴을 결정할 수 있다.In step 320, the pattern determination unit 220 may perform filtering on a representative vector corresponding to at least two of the representative vectors generated for a plurality of objects to determine a vector activation pattern corresponding to the target characteristic.

321 단계에서, 필터링부(221)는 상기 적어도 둘 이상의 객체에 해당하는 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정할 수 있다. 여기서, 적어도 둘 이상의 객체는 복수의 객체들 중 미리 정의된 목표 특성(예컨대, 귀여움)에 기초하여 선택된 객체(entity)를 나타낼 수 있다.In step 321, the filtering unit 221 may determine a vector element having a signal intensity representing a vector element equal to or greater than a predetermined intensity target, with respect to a plurality of vector elements belonging to a representative vector corresponding to the at least two objects have. Here, at least two objects may represent an entity selected based on a predefined target characteristic (e.g., cuteness) of the plurality of objects.

322 단계에서, 필터링부(221)는 결정된 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별(즉, 추출)하기 위한 필터링(filtering)을 수행할 수 있다. In step 322, the filtering unit 221 may perform filtering for selecting (i.e., extracting) vector elements common to at least two or more representative vector objects on vector elements corresponding to a predetermined constant intensity or more have.

323 단계에서, 패턴 결정 제어부(222)는 필터링을 통해 선별된 벡터 요소에 기초하여 목표 특성에 해당하는 벡터 활성화 패턴을 결정할 수 있다. 여기서, 필터링 및 선별된 벡터 요소를 기반으로 벡터 활성화 패턴을 결정하는 자세한 설명은 아래의 도 4를 참조하여 후술하기로 한다.In step 323, the pattern determination control unit 222 may determine a vector activation pattern corresponding to the target characteristic based on the selected vector element through filtering. Here, a detailed explanation for determining the vector activation pattern based on the filtering and the selected vector elements will be described later with reference to FIG. 4 below.

330 단계에서, 맵핑부(230)는 결정된 벡터 활성화 패턴에 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)할 수 있다. 즉, 맵핑부(230)는 둘 이상의 객체의 표상 벡터에 속하는 벡터 요소들을 대상으로 결정된 공통되는 패턴(즉, 상기 벡터 활성화 패턴)에 목표 특성을 맵핑할 수 있다. In operation 330, the mapping unit 230 may map a target property associated with at least two objects to the determined vector activation pattern. That is, the mapping unit 230 may map the target characteristic to a common pattern (i.e., the vector activation pattern) determined for the vector elements belonging to the representative vector of two or more objects.

예를 들어, 객체의 표상 벡터에 속하는 벡터 요소들의 조합에 따라 복수개의 패턴이 존재할 수 있고, 패턴 별로 서로 다른 의미(즉, 특성)가 존재할 수 있다. 예컨대, 고양이라는 객체를 나타내는 표상 벡터에 속하는 벡터 요소들을 대상으로, 달릴 수 있음, 귀여움, 꼬리 등의 다양한 패턴이 존재할 수 있다. 이에 따라, 특정 객체에 속하는 다양한 패턴들과 패턴 별 특성이 구분되도록, 맵핑부(230)는 상기 결정된 벡터 활성화 패턴의 식별자 정보와 목표 특성(즉, 특성 정보)를 연관시켜 메모리에 저장 및 유지할 수 있다. For example, a plurality of patterns may exist according to a combination of vector elements belonging to a representative vector of an object, and different meanings (i.e., characteristics) may exist for each pattern. For example, various patterns such as running, cuteness, and tail may exist on vector elements belonging to a representative vector representing an object called a cat. Accordingly, the mapping unit 230 may store and maintain the identifier information of the determined vector activation pattern and the target characteristic (i.e., characteristic information) in association with each other so that the various patterns belonging to the specific object are distinguished from the pattern- have.

340 단계에서, 시각화 제어부(240)는 특정 객체의 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공할 수 있다.In operation 340, the visualization control unit 240 may visualize and provide target characteristics mapped to at least one vector activation pattern associated with the representative vector of the specific object.

일례로, 시각화 제어부(240)는 맵핑된 목표 특성이 의미하는 정지영상, 동영상, 또는 텍스트를 포함하는 이미지(image)를 해당 객체의 벡터 활성화 패턴에 해당하는 영역과 연관시켜 제공할 수 있다. 예컨대, 시각화 제어부(240)는 해당 객체를 나타내는 표상 벡터를 구성하는 벡터 요소들 중 상기 벡터 활성화 패턴에 해당하는 벡터 요소들이 표시되는 영역과 연관된 영역에 상기 목표 특성을 나타내는 이미지가 표시되도록 제어할 수 있다. 여기서, 시각화하는 자세한 동작은 도 5를 참고하여 후술하기로 한다. For example, the visualization control unit 240 may associate an image including a still image, a moving image, or text, which is mapped with a target characteristic, with an area corresponding to a vector activation pattern of the object. For example, the visualization control unit 240 can control to display an image representing the target characteristic in an area associated with a region in which vector elements corresponding to the vector activation pattern among the vector elements constituting the representative vector representing the object are displayed have. Here, the detailed operation for visualizing will be described later with reference to FIG.

도 4는 본 발명의 일실시예에 있어서, 벡터 활성화 패턴을 결정하는 동작을 설명하기 위해 제공되는 도면이다.Figure 4 is a diagram provided to illustrate an operation for determining a vector activation pattern in an embodiment of the present invention.

필터링 및 스파스 코딩(sparse coding)을 통해 변환된 객체별 표상 벡터들 각각은 복수개의 벡터 요소가 포함될 수 있으며, 벡터 활성화 패턴은 목표 특성과 관련된 여러 객체의 표상 벡터에 속하는 벡터 요소들에 기초하여 결정될 수 있다.Each of the representational vectors for each object transformed through filtering and sparse coding may include a plurality of vector elements and the vector activation pattern may be based on vector elements belonging to the representational vectors of various objects related to the target characteristic Can be determined.

도 4에서는 복수의 객체들 중 "귀여움"이라는 목표 특성과 관련하여 햄스터, 고양이, 아기가 객체로 선택된 경우를 예로 들어 설명하나, 햄스터, 고양이 아기 이외에 다양한 객체가 존재하면 3개 이하, 4개 이상의 객체의 표상 벡터에 기초하여 벡터 활성화 패턴이 결정될 수 있다. 여기서, 목표 특성 "귀여움"과 관련하여 선택된 객체 햄스터, 고양이, 아기는 사용자가 단말의 입력장치(키보드, 마우스, 터치패드 등)를 통해 선택/입력함에 따라 선택될 수 있다. 예컨대, 여러 객체 이미지들 중 귀여움에 해당하는 이미지들을 선택할 수도 있고, 햄스터, 고양이, 아기에 해당하는 텍스트를 입력창에 입력할 수도 있고, 화면 상에 표시되는 복수의 객체들 주변 영역에 함께 제공되는 체크박스를 선택함으로써 선택될 수도 있다. 4 shows an example in which a hamster, a cat, and a baby are selected as objects in relation to a target characteristic of "cuteness" among a plurality of objects. However, if there are various objects other than a hamster and a cat, The vector activation pattern can be determined based on the representative vector of the object. Here, the object hamsters, cats, and babies selected in association with the target characteristic " cuteness " can be selected as the user selects / inputs through the input device (keyboard, mouse, touch pad, etc.) of the terminal. For example, it is possible to select images corresponding to cuteness among various object images, input texts corresponding to hamsters, cats, and babies into the input window, May be selected by selecting a check box.

도 4에서, 햄스터 객체(410)를 참고하면, 햄스터 객체(410)에 해당하는 표상 벡터는 필터링을 통해 일정 세기 미만의 약한 세기를 갖는 벡터 요소는 제거되고, 일정 세기 이상의 강한 세기(즉, 강한 정보)를 갖는 벡터 요소만 남겨질 수 있다. 그리고, 남겨진 벡터 요소들은 스파스 코딩(sparse coding)을 통해 최소 의미 단위로 분해될 수 있다. 그러면, 햄스터 객체(410)의 표상 벡터에는 상기 분해된 벡터 요소들(411, 412, 413, 414, 415, 416)이 속할 수 있다. 동일한 방법으로, 고양이(420)의 표상 벡터에는 벡터 요소들(421, 422, 423, 424, 425, 426)이 속하고, 아기(430)의 표상 벡터에는 벡터 요소들(431, 432, 433, 434, 435)이 속할 수 있다.Referring to FIG. 4, referring to the hamster object 410, a representative vector corresponding to the hamster object 410 is filtered to remove a vector element having a weak intensity less than a predetermined intensity, Information) may be left. Then, the remaining vector elements can be decomposed into a minimum semantic unit through sparse coding. Then, the decomposed vector elements 411, 412, 413, 414, 415, and 416 may belong to the representative vector of the hamster object 410. 422, 423, 424, 425, and 426 belong to the representative vector of the cat 420 and the vector elements 431, 432, 433, 434, 435).

패턴 결정부(220)는 햄스터, 고양이, 아기의 표상 벡터에 속하는 벡터 요소들(411, 412, 413, 414, 415, 416, 421, 422, 423, 424, 425, 426, 431, 432, 433, 434, 435)을 대상으로, 귀여움에 해당하는 벡터 요소들을 대상으로 벡터 요소 별 평균값을 계산할 수 있다. 예를 들어, 객체 별 제1 벡터 요소(411,422,431), 제2 벡터 요소(413, 424, 432) 및 제3 벡터 요소(415, 426, 434)가 귀여움에 해당하는 벡터 요소들인 경우(즉, 제1, 제2 및 제3 벡터 요소가 동시에 활성화되는 경우에 귀여움이라는 특성을 나타내는 경우), 패턴 결정부(220)는 제1 벡터 요소(411, 422, 431)의 평균값을 계산하고, 제2 벡터 요소(413, 424, 432)의 평균값을 계산하고, 제3 벡터 요소(415, 426, 434)의 평균값을 계산할 수 있다. The pattern determination unit 220 determines the vector elements 411, 412, 413, 414, 415, 416, 421, 422, 423, 424, 425, 426, 431, 432, 433 belonging to the representational vectors of the hamster, , 434, and 435), it is possible to calculate the average value of the vector elements corresponding to the cuteness. For example, if the first vector elements 411, 422, and 431, the second vector elements 413, 424, and 432, and the third vector elements 415, 426, and 434 are vector elements corresponding to cuteness 1, and the second and third vector elements are simultaneously activated), the pattern determination unit 220 calculates the average value of the first vector elements 411, 422, and 431, The average value of the elements 413, 424, and 432 may be calculated and the average value of the third vector elements 415, 426, and 434 may be calculated.

이와는 다른 방식으로, 패턴 결정부(220)는 객체 별 벡터 요소들을 통째로 평균을 내어 평균값을 계산할 수도 있다. 예컨대, 햄스터 객체(410)의 표상 벡터에 속하는 벡터 요소들(411, 412, 413, 414, 415, 416)의 평균값을 계산하고, 고양이(420)의 표상 벡터에 속하는 벡터 요소들(421, 422, 423, 424, 425, 426)의 평균값을 계산하고, 아기(430)의 표상 벡터에 속하는 벡터 요소들(431, 432, 433, 434, 435)의 평균값을 계산할 수 있다.Alternatively, the pattern determination unit 220 may calculate an average value by averaging all the vector elements per object. For example, the average value of the vector elements 411, 412, 413, 414, 415, and 416 belonging to the representative vector of the hamster object 410 is calculated and the vector elements 421 and 422 belonging to the representative vector of the cat 420 The average value of the vector elements 431, 432, 433, 434, and 435 belonging to the representative vector of the baby 430 can be calculated.

그리고, 패턴 결정부(220)는 계산된 평균된 평균값에 기초하여 귀여움이라는 특성에 해당하는 벡터 활성화 패턴(440)을 결정할 수 있다. 예컨대, 제1 벡터 요소의 평균값을 갖는 벡터 요소(441), 제2 벡터 요소의 평균값을 갖는 벡터 요소(442) 및 제3 벡터 요소의 평균값을 갖는 벡터 요소(443)로 구성된 벡터 활성화 패턴(440)을 결정할 수 있다. 이외에, 전체 벡터 요소의 평균값을 기반으로 결정된 벡터 요소(441, 442, 443)에 기초하여 벡터 활성화 패턴(440)을 결정할 수도 있다.Then, the pattern determination unit 220 can determine the vector activation pattern 440 corresponding to the characteristic of cuteness based on the calculated average value. For example, a vector activation pattern 440 composed of a vector element 441 having the average value of the first vector element, a vector element 442 having the average value of the second vector element, and a vector element 443 having the average value of the third vector element Can be determined. In addition, the vector activation pattern 440 may be determined based on the vector elements 441, 442, 443 determined based on the average value of the entire vector elements.

이처럼, 벡터 활성화 패턴(440)이 결정되면, 맵핑부(230)는 결정된 벡터 활성화 패턴(440)에 목표 특성(예컨대, 귀여움)을 맵핑시킬 수 있다. 예컨대, 맵핑부(230)는 벡터 활성화 패턴(440)의 식별자 정보에 목표 특성을 나타내는 식별자 정보 또는 코드값 등을 맵핑시킬 수 있다. 이때, 맵핑부(230)는 벡터 활성화 패턴(440) 및 목표 특성(예컨대, 귀여움)을 맵핑할 때, 상기 목표 특성을 가진 객체(예컨대, 햄스터, 아기, 고양이)의 식별자 정보를 함께 맵핑하여 저장 및 유지할 수 있다. 그리고, 맵핑부(230)는 주석 달기 요청 명령을 발생시켜, 학습된 복수의 객체들의 표상 벡터를 대상으로 상기 목표 특성에 맵핑된 벡터 활성화 패턴(440)과 매칭하는 패턴이 존재하는지 여부를 검색할 수 있다. 그리고, 매칭하는 패턴이 검색되면, 맵핑부(230)는 해당 객체의 식별자 정보를 벡터 활성화 패턴(440) 및 목표 특성(예컨대, 귀여움)에 맵핑시킬 수 있다.As such, when the vector activation pattern 440 is determined, the mapping unit 230 can map the target characteristic (e.g., cuteness) to the determined vector activation pattern 440. [ For example, the mapping unit 230 may map identifier information or a code value indicating the target characteristic to the identifier information of the vector activation pattern 440. At this time, when mapping the vector activation pattern 440 and the target characteristic (e.g., cuteness), the mapping unit 230 maps the identifier information of the object having the target characteristic (e.g., a hamster, a baby, And can maintain. The mapping unit 230 generates an annotation request command to search for the presence of a pattern matching the vector activation pattern 440 mapped to the target characteristic of the representative vector of the learned plurality of objects . When the matching pattern is found, the mapping unit 230 can map the identifier information of the object to the vector activation pattern 440 and the target characteristic (e.g., cuteness).

스파스 코딩을 통해 여러 특성(예컨대, 귀여움, 네 발로 걸어다님)이 하나의 동일 패턴에 맵핑되지 않을 수 있으나, 상기 하나의 동일 패턴 생성을 위해 이용된 복수의 객체들(예컨대, 고양이, 햄스터, 아기) 상이에 공유되는 특성이 주석을 달고자 하는 목표 특성이 아닌 다른 특성을 나타내는 패턴에 맵핑되는 경우가 존재할 수 있다. 예컨대, 도 4의 벡터 활성화 패턴(440)이 실제로는 "귀여움"이라는 목표 특성을 나타내는 것이나, 시스템에서 "네 발로 기어다님"이라는 특성에 잘못 맵핑하는 오류가 존재할 수 있다. 이러한 맵핑 오류를 최소화하기 위해 목표 특성이 어떻게 지정되는지가 중요할 수 있다.A plurality of objects (e.g., cats, hamsters, etc.) used for generating one identical pattern may not be mapped to one same pattern through sparse coding, There may be a case in which the characteristic shared by the child is mapped to a pattern representing a characteristic other than the target characteristic to be annotated. For example, the vector activation pattern 440 of FIG. 4 actually exhibits a target characteristic of " cute ", but there may be an error in the system that incorrectly maps to the characteristic " crawl with four feet. &Quot; It may be important how the target characteristics are specified to minimize this mapping error.

일례로, 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나일 수 있다. 위의 비특허 문헌 [4]McRae , Ken, et al. "Semantic feature production norms for a large set of living and nonliving things." Behavior research methods 37.4 (2005): 547-559.에 제시된 대상 객체가 지닌 일반적인 특성을 정리한 "Semantic feature norm" 실험의 결과물이 상기 정제된 데이터 셋으로서 미리 저장될 수 있으며, 상기 정제된 데이터 셋에 저장된 특성 정보들 중 벡터 활성화 패턴을 생성하기 위해 선택된 어느 하나의 특성(예컨대, 귀여움)이 목표 특성으로 지정될 수 있다. 예컨대, 객체 선택 시와 마찬가지로 정제된 데이터 셋이 화면에 표시될 수 있으며, 화면 상에 표시된 정제된 데이터 셋 중 어느 하나의 특성 정보가 선택될 수 있다. 그러면, 선택된 특성 정보가 목표 특성으로 지정될 수 있다. 이때, 특성 정보 선택 시 벡터 활성화 패턴 생성을 위해 이용될 객체들(예컨대, 이미지, 체크박스 등)이 함께 선택될 수 있으며, 선택된 객체들의 표상 벡터를 대상으로 상기 목표 특성에 해당하는 벡터 활성화 패턴이 생성될 수 있다. For example, the target characteristic may be any one of the characteristic information included in the refined data set that is predefined for each object. Non-patent document [4] McRae , Ken, et al. "Semantic feature production norms for a large set of living and nonliving things." Behavior research methods 37.4 (2005): 547-559. The result of the " Semantic feature norm " experiment, which summarizes the general characteristics of the target object presented in the database, can be stored in advance as the refined data set. In order to generate the vector activation pattern among the characteristic information stored in the refined data set Any one selected characteristic (e.g., cuteness) can be designated as the target characteristic. For example, as in object selection, the refined data set can be displayed on the screen, and any one of the refined data sets displayed on the screen can be selected. Then, the selected characteristic information can be designated as the target characteristic. At this time, the objects (for example, images, check boxes, etc.) to be used for generating the vector activation pattern can be selected together when the characteristic information is selected, and the vector activation pattern corresponding to the target characteristic Lt; / RTI >

이처럼, 특정 특성에 해당하는 벡터 활성화 패턴을 생성하기 위해 최초 한번은 사용자 개입하여 객체들 및 특성 정보를 선택하나, 벡터 활성화 패턴이 생성된 이후에는, 시스템에서 상기 생성된 벡터 활성화 패턴에 매칭하는 패턴을 갖는 표상 벡터를 자동으로 결정하고, 결정된 표상 벡터에 해당하는 객체를 상기 패턴에 자동으로 맵핑시킬 수 있다.As described above, in order to generate a vector activation pattern corresponding to a specific characteristic, objects and characteristic information are selected by user intervention for the first time. After the vector activation pattern is generated, a pattern matching the generated vector activation pattern It is possible to automatically determine the representative vector and automatically map the object corresponding to the determined representative vector to the pattern.

한편, 상기 정제된 데이터 셋에 기록된(즉, 포함된) 특성 정보들은 함께 기록된 객체의 벡터에서 뚜렷하게 나타날 가능성이 높으므로, 높은 정확도로 패턴-특성 사이의 관계 파익이 가능할 수 있다. 이때, 정제된 데이터 셋을 기반으로 목표 특성이 지정되는 경우, 정제된 데이터 셋에 기록된 특성 정보만으로 목표 특성이 제한되는 경우가 발생할 수 있다. 이러한 제한을 해소하기 위해, 벡터 생성부(210)는 상기 정제된 데이터 셋에 기록된 복수의 특성 정보들을 기준으로 기계학습(machine learning) 또는 텍스트 규칙(rule) 기반의 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 기록된 특성 정보들을 확장할 수 있다. 예컨대, 벡터 생성부(210)는 상기 정제된 데이터 셋에 기록된 복수의 특성 정보들을 기계학습 기반의 학습 모델의 시작점(즉, 입력 파라미터)으로 설정할 수 있다. 그러면, 학습 모델을 통해 학습이 수행되어 상기 정제된 데이터 셋에 기록된 특성 정보들이 정확도가 높은 특성 정보들을 더 포함하도록 상기 정제된 데이터 셋이 확장될 수 있다.On the other hand, since the characteristic information recorded (i.e., included) in the refined data set is likely to be apparent in the vector of the object recorded together, it is possible to make a relationship between pattern-characteristics with high accuracy. At this time, when the target characteristic is designated based on the refined data set, the target characteristic may be limited only by the characteristic information recorded in the refined data set. In order to solve such a limitation, the vector generation unit 210 may perform a vector learning based on a machine learning or a text rule based bootstrapping technique based on a plurality of characteristic information recorded in the refined data set The characteristic information recorded in the refined data set can be extended. For example, the vector generation unit 210 may set a plurality of characteristic information items recorded in the refined data set as starting points (i.e., input parameters) of a learning model based on a machine learning. Then, the refined data set can be extended such that learning is performed through the learning model, and the characteristic information recorded in the refined data set further includes highly accurate characteristic information.

도 5는 본 발명의 일실시예에 있어서, 시각화 방법을 설명하기 위해 제공되는 도면이다.5 is a diagram for explaining a visualization method in an embodiment of the present invention.

시각화 제어부(240)는 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공할 수 있다.The visualization control unit 240 may provide an image corresponding to a target characteristic mapped to at least one vector activation pattern associated with the representative vector and the representative vector corresponding to the specific object.

일례로, 복수개의 객체 중 어떤 특성(property)을 가지고 있는지 해석하고자 하는 특정 객체에 대한 요청이 수신될 수 있다. 그러면, 시각화 제어부(240)는 요청된 상기 특정 객체의 표상 벡터와 연관된 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 정보(예컨대, 정지영상, 동영상 등의 이미지, 텍스트를 포함하는 이미지 등)가 화면에 표시되도록 제어할 수 있다. 예컨대, 도 5를 참고하면, 고양이 객체가 갖고 있는 특성을 추출하여 시각화하고자 하는 경우, 고양이에 해당하는 표상 벡터에 속하는 벡터 요소들이 미리 지정된 특정 색상의 점(예컨대, blue color point) 형태로 화면 상에 표시될 수 있다. 이때, 시각화 제어부(240)는 화면 상에 표시되는 벡터 요소들 중 벡터 활성화 패턴에 해당하는 벡터 요소들이 붉은 색상의 원(red circle, 510, 520, 530)으로 구분하여 표시되도록 제어할 수 있다. 즉, 각각의 붉은 색상의 원(510, 520, 530) 안에 벡터 활성화 패턴에 해당하는 벡터 요소들이 포함될 수 있다. 시각화 제어부(240)는 붉은 색상의 원(510, 520, 530) 주변 영역에 해당 벡터 활성화 패턴이 나타내는 특성(즉, 맵핑된 특성 정보)가 함께 표시되도록 제어할 수 있다. For example, a request may be received for a particular object to interpret which property of a plurality of objects it has. Then, the visualization control unit 240 displays information (e.g., an image including a still image, a moving image, or the like) corresponding to the target characteristic mapped to the vector activation pattern associated with the requested representative vector of the specific object, As shown in FIG. For example, referring to FIG. 5, when a characteristic of a cat object is extracted and visualized, vector elements belonging to a representative vector corresponding to a cat are displayed in a predetermined color point (for example, blue color point) Lt; / RTI > At this time, the visualization control unit 240 may control the vector elements corresponding to the vector activation pattern among the vector elements displayed on the screen to be divided into red circles (510, 520, and 530). That is, vector elements corresponding to the vector activation pattern may be included in each red color circle 510, 520, 530. The visualization control unit 240 can control the display of the characteristics (i.e., the mapped characteristic information) represented by the vector activation patterns in the areas around the circles 510, 520, and 530 of red color.

예를 들어, 원(510)에 해당하는 벡터 활성화 패턴은 "귀여움"이라는 특성 정보가 맵핑된 것으로서, 원(510)의 주변 영역에 귀여움을 나타내는 이미지(511)가 표시되도록 제어할 수 있다. 여기서, 이미지(511)는 "CUTE"의 텍스트를 포함하는 이미지, 정지 영상, 동영상, 이모티콘 등을 모두 포함할 수 있다.For example, the vector activation pattern corresponding to the circle 510 is mapped to the characteristic information " cute ", and it is possible to control the display of the image 511 indicating the cuteness in the peripheral region of the circle 510. [ Here, the image 511 may include an image including a text of " CUTE ", a still image, a moving image, an emoticon, and the like.

원(520)에 해당하는 벡터 활성화 패턴은 "달릴 수 있음"이라는 특성 정보가 맵핑된 것으로서, 원(520)의 주변 영역에 달리기를 나타내는 이미지(521)가 표시될 수 있다. 예컨대, 달리는 동영상, 정지영상, 또는 "RUN"의 텍스트를 포함하는 이미지가 표시될 수 있다.The vector activation pattern corresponding to the circle 520 is mapped to the characteristic information " Runable ", and an image 521 indicating running in the peripheral region of the circle 520 may be displayed. For example, an image including a running movie, a still image, or a text of " RUN " may be displayed.

원(530)에 해당하는 벡터 활성화 패턴은 "꼬리가 있음"이라는 특성 정보가 맵핑된 것으로서, 원(530)의 주변 영역에 꼬리를 나타내는 이미지(531)가 표시되도록 제어할 수 있다. 여기서, 이미지(531)는 고양이의 꼬리를 나타내는 영상, "tail"의 텍스트를 포함하는 이미지, 이모티콘 등을 모두 포함할 수 있다.The vector activation pattern corresponding to the circle 530 is mapped with the characteristic information "with tail", and it is possible to control so that the image 531 indicating the tail is displayed in the peripheral area of the circle 530. Here, the image 531 may include an image representing the tail of the cat, an image including the text of the " tail ", an emoticon, and the like.

도 5에서는 고양이와 관련하여 꼬리가 있음, 달릴 수 있음, 귀여움의 특성 정보를 시각화 제공하는 것을 예로 들어 설명하였으나, 이는 실시예에 해당되며, 꼬리가 있음, 달릴 수 있음, 귀여움 이외에 다양한 특성 정보가 더 시각화되어 제공될 수 있다. 예컨대, 울음소리, 고양이눈 등의 특성 정보가 해당 벡터 활성화 패턴에 속하는 벡터 요소들과 함께 시각화되어 제공될 수 있다.In FIG. 5, a description has been given by way of example of providing visualization of characteristic information of tail, runnable, and cuteness in relation to a cat, but this corresponds to the embodiment, and various characteristic information other than tail, runnable, Can be provided more visually. For example, characteristic information such as cries, cat eyes, etc. may be visualized together with vector elements belonging to the corresponding vector activation pattern.

이상에서 설명한 바와 같이, 해석 및 시각화 방법 그리고 시스템은 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성을 벡터 기반으로 해석하고, 해석된 패턴이 의미하는 특성을 이미지 형태로 시각화하여 제공함으로써, 방대한 양의 텍스트 데이터에 포함된 현실 세계 객체에 대한 정보를 사람(즉, 사용자)가 한 눈에 이해할 수 있는 형태로 제공할 수 있으며, 결국, 사용자가 해당 객체와 연관된 텍스트를 모두 읽고, 해당 특성을 이해하도록 할 수 있다. 이러한 해석 가능함을 통해 자연어 기반 어플리케이션(예컨대, 검색 시스템)의 성능을 개선할 수 있다. 예컨대, 유사한 단어 또는 문장 찾기, 객체 분류 하기 등의 태스크 처리에 유용할 수 있다.As described above, the analysis and visualization method and the system can analyze the characteristics included in the object representation learned from the natural language text on a vector basis and visualize the characteristics of the analyzed pattern as an image form, Information about a real world object included in text data can be provided in a form that can be understood by a person (i.e., a user) at a glance. As a result, the user can read all the text associated with the object, can do. This interpretability makes it possible to improve the performance of natural language based applications (e.g., search systems). For example, it may be useful for task processing such as finding similar words or phrases, classifying objects, and the like.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (18)

해석 및 시각화 시스템에 의해 수행되는 객체 표상(entity representation)을 해석 및 시각화하는 방법에 있어서,
상기 해석 및 시각화 시스템에서, 자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 단계;
상기 해석 및 시각화 시스템에서, 복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 단계; 및
상기 해석 및 시각화 시스템에서, 상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 단계
를 포함하는 해석 및 시각화 방법.
A method for analyzing and visualizing an entity representation performed by an analysis and visualization system,
In the analysis and visualization system, generating a representative vector corresponding to an object representation for entity representation learning that grasps characteristics representing the meaning of an object existing in the real world, with respect to natural language text;
Generating a vector activation pattern by performing filtering on a representative vector corresponding to at least two of the representative vectors generated for each of the plurality of objects in the analysis and visualization system; And
In the analysis and visualization system, mapping a target property associated with the at least two objects to the vector activation pattern,
/ RTI >
제1항에 있어서,
상기 해석 및 시각화 시스템에서, 상기 목표 특성을 맵핑 시키는 단계는,
상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하는 단계; 및
결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시키는 단계
를 포함하는 해석 및 시각화 방법.
The method according to claim 1,
In the analysis and visualization system, mapping the target characteristic may comprise:
Determining an object corresponding to the vector activation pattern on the representative vector generated for each of the plurality of objects; And
Mapping the target characteristic to a pattern composed of vector elements corresponding to the vector activation pattern, with respect to vector elements belonging to a representative vector corresponding to the determined object;
/ RTI >
제1항에 있어서,
상기 해석 및 시각화 시스템에서, 상기 벡터 활성화 패턴을 생성하는 단계는,
상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하는 단계;
결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 단계; 및
상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계
를 포함하는 해석 및 시각화 방법.
The method according to claim 1,
In the analysis and visualization system, the step of generating the vector activation pattern comprises:
Determining a vector element having a signal intensity representing a vector element greater than or equal to a predetermined constant intensity for a plurality of vector elements belonging to the at least two representative vectors;
Performing filtering to select a vector element common to at least two or more representative vector vectors about vector elements corresponding to the determined constant intensity or more; And
Generating the vector activation pattern based on the vector elements selected through the filtering
/ RTI >
제3항에 있어서,
상기 해석 및 시각화 시스템에서, 상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 단계는,
상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하는 단계;
계산된 평균값을 해당 벡터 요소의 세기로 결정하는 단계; 및
결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성하는 단계
를 포함하는 해석 및 시각화 방법.
The method of claim 3,
Wherein in the analysis and visualization system, generating the vector activation pattern based on the vector elements selected through the filtering comprises:
Calculating an average value of vector elements for the selected vector elements belonging to the at least two representative vectors;
Determining the calculated average value as the intensity of the corresponding vector element; And
Generating the vector activation pattern by associating the determined intensity of the vector element with identifier information representing the selected vector element
/ RTI >
제1항에 있어서,
상기 해석 및 시각화 시스템에서, 상기 표상 벡터를 생성하는 단계는,
상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해하는 단계
를 포함하는 해석 및 시각화 방법.
The method according to claim 1,
In the analysis and visualization system, the step of generating the representation vector comprises:
Decomposing at least one vector activation pattern associated with the representative vector based on sparse coding on a representative vector corresponding to each of the plurality of objects,
/ RTI >
제1항에 있어서,
상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나인 것
을 특징으로 하는 해석 및 시각화 방법.
The method according to claim 1,
Wherein the target characteristic is any one of characteristic information included in a refined data set predefined for each object
The method comprising the steps of:
제1항에 있어서,
상기 해석 및 시각화 시스템에서, 상기 표상 벡터를 생성하는 단계는,
정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시키는 단계
를 포함하는 해석 및 시각화 방법.
The method according to claim 1,
In the analysis and visualization system, the step of generating the representation vector comprises:
Expanding characteristic information contained in the refined data set by performing learning based on machine learning or bootstrapping techniques based on characteristic information including a refined dataset,
/ RTI >
제1항에 있어서,
상기 해석 및 시각화 시스템에서, 특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 단계
를 더 포함하는 해석 및 시각화 방법.
The method according to claim 1,
Visualizing and providing target characteristics mapped to at least one vector activation pattern associated with a representative vector corresponding to a particular object in said analysis and visualization system
≪ / RTI >
제8항에 있어서,
상기 해석 및 시각화 시스템에서, 상기 목표 특성을 시각화하여 제공하는 단계는,
상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공하는 것
을 특징으로 하는 해석 및 시각화 방법.
9. The method of claim 8,
In the analysis and visualization system, visualizing and providing the target characteristic may include:
And providing an image corresponding to a target characteristic mapped to at least one vector activation pattern associated with the representative vector and a representative vector corresponding to a specific object among the plurality of objects
The method comprising the steps of:
객체 표상(entity representation)을 해석 및 시각화하는 시스템에 있어서,
자연어 텍스트를 대상으로, 현실 세계에 존재하는 객체의 의미를 나타내는 특성을 파악하는 객체 표상 학습(entity representation learning)을 위한 객체 표상에 해당하는 표상 벡터를 생성하는 벡터 생성부;
복수개의 객체 별로 생성된 상기 표상 벡터 중 적어도 둘 이상의 객체에 해당하는 표상 벡터를 대상으로, 필터링을 수행하여 벡터 활성화 패턴을 생성하는 패턴 결정부; 및
상기 벡터 활성화 패턴에 상기 적어도 둘 이상의 객체에 연관된 목표 특성(property)을 맵핑(mapping)시키는 맵핑부
를 포함하는 해석 및 시각화 시스템.
A system for analyzing and visualizing an entity representation,
A vector generation unit for generating a representation vector corresponding to an object representation for entity representation learning, the characteristic representation representing a meaning of an object existing in the real world, with respect to the natural language text;
A pattern determining unit for performing a filtering on a representative vector corresponding to at least two of the representative vectors generated for each of the plurality of objects to generate a vector activation pattern; And
A mapping unit that maps a target property associated with the at least two objects to the vector activation pattern,
And an analysis and visualization system.
제10항에 있어서,
상기 맵핑부는,
상기 복수개의 객체 별로 생성된 상기 표상 벡터를 대상으로, 상기 벡터 활성화 패턴에 해당하는 객체를 결정하고, 결정된 객체에 해당하는 표상 벡터에 속하는 벡터 요소들(components)을 대상으로, 상기 벡터 활성화 패턴에 해당하는 벡터 요소들로 구성된 패턴에 상기 목표 특성을 맵핑시키는 것
을 특징으로 하는 해석 및 시각화 시스템.
11. The method of claim 10,
Wherein the mapping unit comprises:
Determining an object corresponding to the vector activation pattern for the representative vector generated for each of the plurality of objects and outputting the vector activation pattern to the vector elements belonging to the representative vector corresponding to the determined object, Mapping the target characteristic to a pattern composed of corresponding vector elements
And an analysis and visualization system.
제10항에 있어서,
상기 패턴 결정부는,
상기 적어도 둘 이상의 표상 벡터에 속하는 복수의 벡터 요소(component)를 대상으로, 벡터 요소를 나타내는 신호 세기가 미리 지정된 일정 세기 이상인 벡터 요소를 결정하고, 결정된 상기 일정 세기 이상에 해당하는 벡터 요소들을 대상으로, 상기 적어도 둘 이상의 표상 벡터에서 공통되는 벡터 요소를 선별하기 위한 필터링을 수행하는 필터링부; 및
상기 필터링을 통해 선별된 벡터 요소에 기초하여 상기 벡터 활성화 패턴을 생성하는 패턴 결정 제어부
를 포함하는 해석 및 시각화 시스템.
11. The method of claim 10,
Wherein the pattern determination unit
Determining a vector element having a signal intensity representative of a vector element equal to or greater than a predetermined intensity for a plurality of vector elements belonging to the at least two representative vectors, A filtering unit configured to perform filtering to select vector elements common to at least two or more representative vectors; And
A pattern determination unit for generating the vector activation pattern based on the vector elements selected through the filtering,
And an analysis and visualization system.
제12항에 있어서,
상기 패턴 결정 제어부는,
상기 적어도 둘 이상의 표상 벡터에 속하는 상기 선별된 벡터 요소를 대상으로, 벡터 요소 별 평균값을 계산하고, 계산된 평균값을 해당 벡터 요소의 세기로 결정하고, 결정된 상기 벡터 요소의 세기를 상기 선별된 벡터 요소를 나타내는 식별자 정보에 연관시킴으로써, 상기 벡터 활성화 패턴을 생성하는 것
을 특징으로 하는 해석 및 시각화 시스템.
13. The method of claim 12,
Wherein the pattern determination control unit comprises:
Calculating a mean value for each vector element based on the selected vector elements belonging to the at least two representative vectors, determining the calculated average value as the intensity of the vector element, and comparing the determined intensity of the vector element with the selected vector element With the identifier information indicating the vector activation pattern
And an analysis and visualization system.
제10항에 있어서,
상기 벡터 생성부는,
상기 복수개의 객체 각각에 해당하는 표상 벡터를 대상으로, 스파스 코딩(sparse coding)에 기초하여 상기 표상 벡터와 관련된 적어도 하나의 벡터 활성화 패턴을 분해하는 것
을 특징으로 하는 해석 및 시각화 시스템.
11. The method of claim 10,
Wherein the vector generating unit comprises:
Decomposing at least one vector activation pattern associated with the representative vector based on sparse coding on a representative vector corresponding to each of the plurality of objects
And an analysis and visualization system.
제10항에 있어서,
상기 목표 특성은 객체 별로 미리 정의된 정제된 데이터 셋(data set)에 포함된 특성 정보 중 어느 하나인 것
을 특징으로 하는 해석 및 시각화 시스템.
11. The method of claim 10,
Wherein the target characteristic is any one of characteristic information included in a refined data set predefined for each object
And an analysis and visualization system.
제15항에 있어서,
상기 벡터 생성부는,
상기 정제된 데이터 셋이 포함된 특성 정보를 기준으로 기계학습(machine learning) 또는 부트스트랩(bootstrapping) 기법에 기초하여 학습을 수행함으로써, 상기 정제된 데이터 셋에 포함된 특성 정보를 확장시키는 것
을 특징으로 하는 해석 및 시각화 시스템.
16. The method of claim 15,
Wherein the vector generating unit comprises:
Expanding the characteristic information included in the refined data set by performing learning based on a machine learning or a bootstrapping technique based on characteristic information including the refined data set
And an analysis and visualization system.
제10항에 있어서,
특정 객체에 해당하는 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성을 시각화하여 제공하는 시각화 제어부
를 더 포함하는 해석 및 시각화 시스템.
11. The method of claim 10,
A visualization control unit for visualizing and providing a target characteristic mapped to at least one vector activation pattern associated with a representative vector corresponding to a specific object,
And an analysis and visualization system.
제17항에 있어서,
상기 시각화 제어부는,
상기 복수개의 객체 중 특정 객체에 해당하는 표상 벡터 및 상기 표상 벡터와 연관된 적어도 하나의 벡터 활성화 패턴에 맵핑된 목표 특성에 해당하는 이미지(image)를 함께 제공하는 것
을 특징으로 하는 해석 및 시각화 시스템.
18. The method of claim 17,
The visualization control unit,
And providing an image corresponding to a target characteristic mapped to at least one vector activation pattern associated with the representative vector and a representative vector corresponding to a specific object among the plurality of objects
And an analysis and visualization system.
KR1020180003142A 2017-04-10 2018-01-10 System and method for visualizing and interpreting property included learned entity representation from natural language text KR101983493B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170045837 2017-04-10
KR1020170045837 2017-04-10

Publications (2)

Publication Number Publication Date
KR20180114496A KR20180114496A (en) 2018-10-18
KR101983493B1 true KR101983493B1 (en) 2019-05-29

Family

ID=64132874

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180003142A KR101983493B1 (en) 2017-04-10 2018-01-10 System and method for visualizing and interpreting property included learned entity representation from natural language text

Country Status (1)

Country Link
KR (1) KR101983493B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100701044B1 (en) 2004-07-20 2007-03-29 황상석 System for handling the state of emergency based on the on-line network

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100449547C (en) * 2006-12-06 2009-01-07 华为技术有限公司 Medium contents management system and method
ITTO20120867A1 (en) * 2012-10-05 2014-04-06 Rai Radiotelevisione Italiana METHOD AND SYSTEM FOR RECOMMENDATION OF MULTIMEDIA CONTENT ON A MULTIMEDIA PLATFORM

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100701044B1 (en) 2004-07-20 2007-03-29 황상석 System for handling the state of emergency based on the on-line network

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
임연자 외, HTML 문서의 자동구축을 위한 문서 객체의 범주 분류 방법, 한국정보과학회 학술발표논문집 Vol.25 No.1B, 1998
장경록 외, 상품 평가 텍스트에 내재된 사용자 관점 추출, 한국정보과학회 논문지 소프트웨어및응용 41(5) pp.376-386 (2014.05)

Also Published As

Publication number Publication date
KR20180114496A (en) 2018-10-18

Similar Documents

Publication Publication Date Title
US11507099B2 (en) Systems and methods for graph-based AI training
US9633483B1 (en) System for filtering, segmenting and recognizing objects in unconstrained environments
EP3179407A1 (en) Recognition of a 3d modeled object from a 2d image
JP6888484B2 (en) A search program, a search method, and an information processing device on which the search program operates.
KR101665861B1 (en) System and method for processing data in environment of internet of things
Qi et al. A semantic feature for human motion retrieval
CN114648681B (en) Image generation method, device, equipment and medium
Mewada et al. Automatic room information retrieval and classification from floor plan using linear regression model
CN113377356A (en) Method, device, equipment and medium for generating user interface prototype code
JP2022095591A (en) Machine-learning for 3d object detection
CN115775116A (en) BIM-based road and bridge engineering management method and system
Dehbi et al. Learning grammar rules of building parts from precise models and noisy observations
CN116610304B (en) Page code generation method, device, equipment and storage medium
KR101983493B1 (en) System and method for visualizing and interpreting property included learned entity representation from natural language text
CN111950582A (en) Determining a perturbation mask for a classification model
CN115204318B (en) Event automatic hierarchical classification method and electronic equipment
CN113379767B (en) Method for constructing semantic disturbance reconstruction network for self-supervision point cloud learning
CN113434722B (en) Image classification method, device, equipment and computer readable storage medium
CN114880457A (en) Training method of process recommendation model, process recommendation method and electronic equipment
CN115830569A (en) Visual analysis system for diagnosing and improving deep learning model of movable object
WO2022194674A1 (en) Generating three-dimensional data models of two-dimensional floor plans
CN114332288A (en) Method for generating text generation image of confrontation network based on phrase driving and network
Lv et al. A challenge of deep‐learning‐based object detection for hair follicle dataset
KR102558101B1 (en) Method and system for automatic generation of 2d drawings from bim models through deep learning-based information search of regerence drawings
Wang et al. Keyframe image processing of semantic 3D point clouds based on deep learning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant