KR101599692B1 - A method for visualizing vocabularies by utilizing pca method and the apparatus thereof - Google Patents

A method for visualizing vocabularies by utilizing pca method and the apparatus thereof Download PDF

Info

Publication number
KR101599692B1
KR101599692B1 KR1020130068990A KR20130068990A KR101599692B1 KR 101599692 B1 KR101599692 B1 KR 101599692B1 KR 1020130068990 A KR1020130068990 A KR 1020130068990A KR 20130068990 A KR20130068990 A KR 20130068990A KR 101599692 B1 KR101599692 B1 KR 101599692B1
Authority
KR
South Korea
Prior art keywords
vocabulary
meaning
vector
coordinate
matrix
Prior art date
Application number
KR1020130068990A
Other languages
Korean (ko)
Other versions
KR20140146387A (en
Inventor
김동현
김진현
이진원
Original Assignee
김동현
김진현
이진원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김동현, 김진현, 이진원 filed Critical 김동현
Priority to KR1020130068990A priority Critical patent/KR101599692B1/en
Publication of KR20140146387A publication Critical patent/KR20140146387A/en
Application granted granted Critical
Publication of KR101599692B1 publication Critical patent/KR101599692B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 PCA 기법을 활용한 어휘의 시각화 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 적어도 하나 이상의 어휘의 목록에 대해서 각 어휘의 의미들을 벡터화하고, 벡터화된 성분들의 값들에 주성분 분석법(PCA 기법)을 적용하여, 어휘 목록에 포함된 각 어휘에 대한 좌표를 추출하며, 추출된 좌표목록으로 각 어휘를 그래프, 도형, 그림, 이미지(동영상 포함) 또는 이들의 조합으로 시각화하는 방법과 그 장치에 관한 것이다. 본 발명은 특정 어휘목록에 포함된 각 어휘의 의미에 따라 해당 어휘들의 위치를 부여하여 어휘의 의미를 공간적으로 시각화하여 이해할 수 있도록 도와주고 다른 어휘와의 차이를 한눈에 알아볼 수 있도록 하는 것으로, 기존의 어휘 사전 및 어휘 학습을 대체할 수 있는 새로운 방식으로, 외국어의 어휘 학습자에게 공간적으로 시각화하여 어휘를 효율적으로 학습할 수 있도록 하는 효과가 있다.The present invention relates to a method and an apparatus for visualizing a vocabulary using a PCA technique, and more particularly, to a method and apparatus for visualizing a vocabulary using a PCA technique, ) To extract the coordinates of each vocabulary included in the vocabulary list and to visualize each vocabulary with a list of extracted coordinates by using a graph, a figure, a picture, an image (including a moving picture), or a combination thereof . According to the present invention, the position of the corresponding vocabulary is given according to the meaning of each vocabulary included in a specific vocabulary list to help understand the meaning of the vocabulary spatially and understand it, and to recognize the difference with other vocabulary at a glance. Is a new method that can replace vocabulary dictionary and vocabulary learning of vocabulary, so that it is possible to visualize vocabulary learners in a foreign language and to learn vocabulary efficiently.

Description

PCA 기법을 활용한 어휘의 시각화 방법 및 그 장치{A METHOD FOR VISUALIZING VOCABULARIES BY UTILIZING PCA METHOD AND THE APPARATUS THEREOF}TECHNICAL FIELD The present invention relates to a method of visualizing a vocabulary using a PCA technique,

본 발명은 PCA 기법을 활용한 어휘의 시각화 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 적어도 하나 이상의 어휘의 목록에 대해서 각 어휘의 의미들을 벡터화하고, 벡터화된 성분들의 값들에 주성분 분석법(Principal Component Analysis, 이하 PCA 기법)을 적용하여, 어휘 목록에 포함된 각 어휘에 대한 좌표를 추출하며, 추출된 좌표목록으로 각 어휘를 그래프, 도형, 그림, 이미지(동영상 포함) 또는 이들의 조합으로 시각화하는 방법과 그 장치에 관한 것이다.The present invention relates to a method and an apparatus for visualizing a vocabulary using a PCA technique, and more particularly, to a method and apparatus for visualizing vocabulary using a PCA technique, Analysis, PCA technique) is applied to extract the coordinates of each vocabulary included in the vocabulary list, and each vocabulary is visualized as a graph, a figure, a picture, an image (including a moving picture), or a combination thereof by using the extracted coordinate list Method and apparatus thereof.

일반적으로 특정 언어에 대한 어휘의 학습 방법은 각 단어의 의미를 오프라인상의 사전이나 온라인상의 사전을 활용하여 학습을 한다. 이 경우에는 각 어휘가 가지고 있는 의미를 공간적으로 나열해두고, 사용자의 필요에 따라 이를 검색하여 습득한다. 이와 같은 방법을 사용하면 특정 어휘가 가지는 의미가 여러 가지일 경우, 각각의 개별적인 의미를 학습하는데 많은 시간과 노력을 소비할 수밖에 없다.In general, learning method of a vocabulary for a specific language uses a dictionary in an off-line mode or a dictionary on an online basis to sense the meaning of each word. In this case, the semantics of each vocabulary are spatially listed, and the search is acquired according to the user's needs. In this way, when a specific vocabulary has many meanings, it takes a lot of time and effort to learn each individual meaning.

그리고 어휘를 학습하는데 있어서 텍스트만을 이용하는 경우에는 그 실질적인 의미를 직관적으로 연상하지 못하므로 학습의 효율성이 떨어지는 문제점이 있다.In the case of using only texts for learning vocabulary, there is a problem that the efficiency of learning is poor because it does not intuitively remind the actual meaning thereof.

최근 이미지와 같은 보조적인 수단을 활용하여 여러 가지 방법으로 어휘 학습의 효율성을 높이고자 하는 시도가 있어 왔지만, 그 효용성이 입증된 경우가 드물고, 특히 특정 어휘의 유사어 혹은 반의어까지 학습하기에는 힘든 문제점이 있다.Recently, there have been attempts to improve the efficiency of vocabulary learning in various ways by using ancillary means such as images. However, its effectiveness has been rarely proved, and especially it has a difficult problem to learn a similar vocabulary or an opposite word .

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로, 단순히 일반적인 사전과 같이 어휘의 사전적 의미들을 나열하는 것이 아닌, 적어도 하나 이상의 어휘 목록에 대해서 각 어휘의 좌표를 추출하여 다른 어휘와의 차이를 한 눈에 알아볼 수 있도록 PCA 기법을 활용한 어휘의 시각화 방법 및 그 장치를 제공하는데 그 목적이 있다.The present invention has been made to solve the above problems and it is an object of the present invention to extract the coordinates of each vocabulary for at least one or more vocabulary lists instead of simply listing the dictionary meanings of vocabularies like a general dictionary, And to provide a method and apparatus for visualizing a vocabulary using the PCA technique.

또한 본 발명은 PCA기법을 활용하여 사용자의 편의성과 요구에 따라 사용자가 원하는 그래프(예: 분산형 그래프), 도형(예: 언어맵 ), 그림, 이미지(동영상 포함) 또는 이들의 조합의 형태로 가공하여 표시해주는 어휘의 시각화 방법 및 그 장치를 제공하는데 그 목적이 있다.In addition, the present invention can be implemented in the form of graphs (e.g., distributed graphs), graphics (e.g., language maps), pictures, images (including moving pictures) And to provide a visualization method and apparatus for a vocabulary to be processed and displayed.

또한 본 발명은 각 어휘에 대해서 그것의 의미에 따라 위치를 부여하여, 사용자로 하여금 각 어휘의 의미를 공간적으로 시각화하여 이해할 수 있도록 하는데 목적이 있다.The present invention also aims to provide a position for each vocabulary according to its meaning so that the user can visually understand and understand the meaning of each vocabulary.

또한 본 발명은 각 어휘의 지도를 만들어 사용자로 하여금 위치 기반의 어휘 기억을 유도하는 PCA 기법을 활용한 어휘의 시각화 방법 및 그 장치를 제공하는데 그 목적이 있다.The present invention also provides a method and a device for visualizing a vocabulary utilizing a PCA technique for generating a map of each vocabulary and inducing a user to memorize a location based vocabulary.

또한 본 발명은 사용자로 하여금 특정 어휘의 반의어뿐만 아니라 유사어들 간의 차이를 구분할 수 있도록 도움을 주는 PCA 기법을 활용한 어휘의 시각화 방법 및 그 장치를 제공하는데 그 목적이 있다.It is another object of the present invention to provide a method and apparatus for visualizing a vocabulary utilizing a PCA technique, which helps a user distinguish differences between similar words as well as an opposite vocabulary.

본 발명의 일 측면에 따른 PCA 기법을 활용한 어휘의 시각화 장치는, 사용자로부터 적어도 하나 이상의 어휘에 대한 어휘목록을 입력받는 입력 수단; 상기 입력된 어휘목록에 대해서 각 어휘별 벡터를 생성하여 벡터화하는 벡터 생성 수단; 및 상기 벡터 생성 수단에서 벡터화한 결과에 PCA 기법을 적용하여 각 어휘에 대한 좌표를 추출하는 좌표추출 수단;을 포함하는 것을 특징으로 한다. 또한, 상기 PCA 기법을 활용한 어휘의 시각화 장치는, 상기 어휘목록의 각 어휘에 대해서 상기 각 어휘의 의미와 각 의미에 대한 사용빈도를 포함한 데이터를 저장하는 데이터베이스;를 더 포함하며, 상기 좌표추출 수단에서 추출된 어휘별 좌표목록을 사용자가 원하는 분산형그래프를 포함한 그래프, 언어맵을 포함한 도형, 그림, 이미지 또는 이들의 조합을 이용한 공간적으로 시각화한 데이터를 생성 및 가공하여 출력하는 시각화 수단;을 더 포함하고, 상기 벡터 생성 수단은 어휘목록의 각 어휘에 대해서, 상기 각 어휘의 의미들을 좌표축으로 하며, 상기 각 의미에 대한 사용빈도를 좌표값으로 설정하여 벡터화하는 것을 특징으로 하며, 상기 입력 수단; 벡터 생성 수단; 좌표추출 수단, 데이터베이스, 시각화수단 또는 이들의 조합은 하나의 서버에서 구성되거나 클라우드 컴퓨팅 구조를 포함한 분산 네트워크 환경, 로컬 인트라 네트워크, 인터넷, 전용 네트워크, 또는 이들의 조합으로 구성되는 유선, 무선 또는 이들의 조합으로 구성되는 네트워크에 접속되어 구성되는 것을 특징으로 한다.According to one aspect of the present invention, there is provided an apparatus for visualizing a vocabulary utilizing a PCA technique, comprising: input means for inputting a vocabulary list of at least one vocabulary from a user; Vector generating means for generating a vector for each lexical item for the input lexical item list and vectorizing the generated vector; And coordinate extracting means for extracting coordinates for each vocabulary by applying the PCA technique to the vectorized result in the vector generating means. The apparatus for visualizing a vocabulary utilizing the PCA technique may further include a database for storing data including the meaning of each of the vocabularies and the frequency of use of each meaning for each vocabulary of the vocabulary list, A visualization means for generating, processing, and outputting spatially-visualized data using a graphic including a distributed graph, a graphic map including a language map, a picture, an image, or a combination thereof; Wherein the vector generating means vectorizes the meanings of the respective vocabularies as coordinate axes for each vocabulary in the vocabulary list and sets the frequency of use for each meaning as a coordinate value, ; Vector generating means; The coordinate extracting means, the database, the visualizing means, or a combination thereof may be a wired, wireless or wireless network consisting of a distributed network environment comprising a single server or a cloud computing structure, a local intranet, the Internet, a private network, And is connected to a network constituted by a combination.

한편, 본 발명의 또 다른 일실시예에 의한 PCA 기법을 활용한 어휘의 시각화 방법은, 사용자로부터 적어도 하나 이상의 어휘에 대한 어휘목록을 입력받는 입력 단계; 상기 입력된 어휘목록에 대해서 각 어휘별 벡터를 생성하여 벡터화하는 벡터화 단계; 및 상기 벡터 생성 수단에서 벡터화한 결과에 PCA 기법을 적용하여 각 어휘에 대한 좌표를 추출하는 좌표추출 단계;를 포함하는 것을 특징으로 한다. 또한, 상기 PCA 기법을 활용한 어휘의 시각화 방법은 상기 어휘목록의 각 어휘에 대해서 상기 각 어휘의 의미와 각 의미에 대한 사용빈도를 포함한 데이터를 저장하는 저장 단계;를 더 포함하며, 상기 좌표추출 단계에서 추출된 어휘별 좌표목록을 사용자가 원하는 분산형그래프를 포함한 그래프, 언어맵을 포함한 도형, 그림, 이미지 또는 이들의 조합을 이용한 공간적으로 시각화한 데이터를 생성 및 가공하여 출력하는 시각화 단계;를 더 포함하고, 상기 벡터 생성 단계는 어휘목록의 각 어휘에 대해서, 상기 각 어휘의 의미들을 좌표축으로 하며, 상기 각 의미에 대한 사용빈도를 좌표값으로 설정하여 벡터화하는 것을 특징으로 하며, 상기 PCA 기법을 적용하여 좌표를 추출하는 좌표추출 단계는, 벡터화한 어휘들의 평균벡터를 구하는 단계; 상기 어휘들의 각 벡터에서 평균벡터를 빼서 중심벡터를 구하는 단계; 상기 중심벡터들로 구성한 행렬과 상기 행렬의 전치행렬을 구하고, 상기 행렬과 전치행렬을 곱하여 공분산행렬을 구하는 단계; 상기 공분산 행렬의 고유값과 고유벡터를 구하는 단계; 상기 고유값이 가장 큰 순서대로 고유벡터를 정렬하여, 그 중에서 미리 정해진 수의 고유벡터를 선택하여 고유공간을 생성하는 단계; 상기 선택된 고유벡터들로 구성된 고유행렬을 만들고, 상기 고유행렬의 전치행렬을 구하는 단계; 및 상기 고유행렬의 전치행렬과 상기 입력한 어휘들의 중심벡터를 곱하여 각 어휘들의 고유공간에서의 새로운 좌표를 얻는 단계;를 더 포함하고, 상기 고유공간에 투영된 각 어휘들의 새로운 좌표를 출력하는 단계;를 더 포함하며, 상기 입력 단계; 벡터 생성 단계; 좌표추출 단계, 저장 단계, 시각화 단계 또는 이들의 조합은 하나의 서버에서 구성되거나 클라우드 컴퓨팅 구조를 포함한 분산 네트워크 환경, 로컬 인트라 네트워크, 인터넷, 전용 네트워크, 또는 이들의 조합으로 구성되는 유선, 무선 또는 이들의 조합으로 구성되는 네트워크에 접속되어 구성되는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a method of visualizing a vocabulary using a PCA technique, the method comprising: inputting a vocabulary list of at least one vocabulary from a user; A vectorization step of generating vectors for each lexical item for the input vocabulary list and vectorizing the vectors; And a coordinate extracting step of extracting coordinates for each vocabulary by applying the PCA technique to the vectorized result in the vector generating means. In addition, the method of visualizing a vocabulary utilizing the PCA technique may further include storing data including the meaning of each vocabulary and the frequency of use of each meaning for each vocabulary of the vocabulary list, A visualization step of generating, processing, and outputting spatially-visualized data using a graphic including a distributed graph, a graphic map including a language map, a picture, an image, or a combination thereof, Wherein the vector generating step comprises vectorizing the vocabulary list by using the meanings of the vocabularies as coordinate axes for each vocabulary in the vocabulary list and setting the frequency of use for each meaning as a coordinate value, Extracting a coordinate by extracting a coordinate of the vector, the step of extracting coordinates includes a step of obtaining an average vector of vectorized vocabularies; Subtracting an average vector from each vector of the lexicals to obtain a center vector; Obtaining a matrix constituted by the center vectors and a transpose matrix of the matrix, and obtaining a covariance matrix by multiplying the matrix by a transpose matrix; Obtaining eigenvalues and eigenvectors of the covariance matrix; Arranging eigenvectors in order of largest eigenvalues, selecting a predetermined number of eigenvectors from the eigenvectors to generate a eigenspace; Generating an intrinsic matrix composed of the selected eigenvectors and obtaining a transpose matrix of the intrinsic matrix; And obtaining new coordinates in a unique space of each vocabulary by multiplying the transpose matrix of the intrinsic matrix by a center vector of the input vocabularies and outputting new coordinates of the vocabularies projected in the unique space Further comprising: an input step; Vector generation step; The coordinate extracting step, the storing step, the visualizing step, or a combination thereof may be a wired, wireless or wireless network consisting of a distributed network environment including a cloud computing structure, a local intranet, the Internet, a dedicated network, And a network connected to the network.

본 발명은 특정 어휘목록에 포함된 각 어휘의 의미에 따라 해당 어휘들의 위치를 부여하여 어휘의 의미를 공간적으로 시각화하여 이해할 수 있도록 도와주고 다른 어휘와의 차이를 한눈에 알아볼 수 있도록 하는 것이다. 이를 바탕으로 어휘의 지도를 만들어 사용자들로 하여금 위치 기반의 어휘 기억을 유도할 수 있다. 또한 반의어뿐만 아니라 유사어간의 차이를 구분할 수 있도록 도움을 줄 수 있다. 이는 기존의 어휘 사전 및 어휘 학습을 대체할 수 있는 새로운 방식으로, 외국어의 어휘 학습자에게 공간적으로 시각화하여 어휘를 효율적으로 학습할 수 있도록 하는 효과가 있다.According to the present invention, the position of a corresponding vocabulary is given according to the meaning of each vocabulary included in a specific vocabulary list, so that the meaning of the vocabulary can be spatially visualized and understood, and the difference with other vocabulary can be recognized at a glance. Based on this, it is possible to map the vocabulary and induce the user to memorize the location based vocabulary. It can also help to distinguish the differences between similar words as well as antonyms. This is a new method that can replace existing vocabulary dictionary and vocabulary learning, and it is effective to enable vocabulary to be efficiently learned by visualizing the vocabulary learners in a foreign language spatially.

도 1a는 본 발명의 일 실시예에 따른 PCA 기법을 활용한 어휘의 시각화 장치의 구성을 나타낸 예시도.
도 1b는 본 발명의 일 또 다른 실시예에 따른 PCA 기법을 활용한 어휘의 시각화 장치의 구성을 나타낸 예시도.
도 2는 본 발명의 일 실시예에 따른 PCA 기법을 활용한 어휘의 시각화 장치의 동작을 설명하기 위한 흐름도.
도 3은 본 발명의 일 실시예에 따른 PCA 기법을 활용한 어휘의 시각화 장치에서 입력된 어휘 목록으로부터 각 어휘들의 새로운 좌표를 생성하여 출력하는 방법을 설명하기 위한 흐름도.
도 4는 본 발명의 일 실시예에 따른 고유행렬의 전치행렬과 처음 입력한 어휘들의 중심벡터를 곱하여 각 어휘들의 고유공간에서의 새로운 좌표를 얻는 개념도.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1A is a diagram illustrating a configuration of an apparatus for visualizing a vocabulary utilizing a PCA technique according to an embodiment of the present invention; FIG.
FIG. 1B is a diagram illustrating a configuration of a vocabulary visualization apparatus using a PCA technique according to another embodiment of the present invention. FIG.
2 is a flowchart illustrating an operation of a vocabulary visualization apparatus using a PCA technique according to an embodiment of the present invention.
FIG. 3 is a flowchart illustrating a method for generating new coordinates of vocabularies from a vocabulary list input by a visualization apparatus for a vocabulary utilizing a PCA technique according to an exemplary embodiment of the present invention.
4 is a conceptual diagram for obtaining new coordinates in a unique space of each vocabulary by multiplying a transpose matrix of an original matrix according to an embodiment of the present invention by a center vector of vocabulary input first.

이하, 첨부된 도면을 참조하여 본 발명에 따른 PCA 기법을 활용한 어휘의 시각화 방법 및 그 장치의 일실시예를 설명하고자 한다.Hereinafter, a method of visualizing a vocabulary utilizing the PCA technique and an embodiment of the apparatus will be described with reference to the accompanying drawings.

도 1a는 본 발명의 일 실시예에 따른 PCA 기법을 활용한 어휘의 시각화를 위한 장치의 구성도를 보인 예시도로서, 이에 도시된 바와 같이 클라이언트(100), 서비스 서버(200), PCA 서버(300) 및 DB(400)을 포함하여 구성될 수 있다.FIG. 1A is a block diagram illustrating an apparatus for visualizing a vocabulary using a PCA technique according to an embodiment of the present invention. As shown in FIG. 1A, a client 100, a service server 200, a PCA server 300, and a DB 400. [0040]

여기서 클라이언트(100)는 사용자로부터 어휘 목록을 입력받고 서비스 서버에서 상기 어휘의 위치 정보를 그래프, 도형, 그림, 이미지(동영상 포함) 또는 이들의 조합을 통해서 공간적으로 시각화한 데이터를 제공받아 디스플레이한다.Here, the client 100 receives the vocabulary list from the user and receives and displays the spatialized visualized data of the vocabulary in the service server through a graph, an image, a picture, an image (including a moving picture), or a combination thereof.

또한 서비스 서버(200)는 PCA 서버(300)로 상기 어휘목록을 전송하고 PCA 서버에서 수신한 좌표목록에 따라 각 어휘에 위치를 부여하며, 상기 어휘의 위치 정보를 사용자가 원하는 그래프, 도형, 그림, 이미지(동영상 포함) 또는 이들의 조합(예: 분산형 그래프나 언어맵 등)을 포함하는 형태로 공간적으로 시각화한 데이터를 클라이언트에게 전송하는 역할을 한다.In addition, the service server 200 transmits the list of lexical items to the PCA server 300, assigns positions to the vocabularies according to the list of coordinates received from the PCA server, and provides the positional information of the vocabulary to a graph, , Images (including moving images), or a combination thereof (e.g., distributed graphs, language maps, etc.).

아울러 PCA 서버(300)는 상기 서비스 서버(200)에서 받은 어휘목록과 DB(400)에서 상기 어휘목록의 각 어휘에 대한 의미와 사용빈도를 추출하고, 이를 바탕으로 어휘별로 벡터화한 후 PCA 기법을 활용하여 좌표를 생성하여 서비스 서버로 출력하는 역할을 한다. 더욱 구체적으로 상기 PCA 서버는 DB(400)에서 추출한 특정 어휘의 의미와 사용빈도를 바탕으로 벡터를 생성하는 어휘별 벡터생성수단(310) 및 어휘별로 생성된 벡터를 바탕으로 좌표를 생성하는 좌표생성과정수단(320)을 포함하며, PCA 서버에서 사용하는 각 언어별 어휘에 대한 의미와 사용빈도에 관한 데이터를 저장하고 있다가, PCA 서버의 요구에 따라 그 데이터를 제공해주는 DB(400)를 포함할 수 있다.The PCA server 300 extracts the vocabulary list received from the service server 200 and the meaning and frequency of use of each vocabulary in the vocabulary list from the DB 400, And generates coordinates to output to the service server. More specifically, the PCA server includes a vocabulary-based vector generation unit 310 for generating a vector on the basis of the meaning and frequency of use of a specific vocabulary extracted from the DB 400, and a coordinate generating unit 310 for generating coordinates based on the vocabulary- And a database 400 for storing data on the meaning and frequency of use of the vocabulary for each language used in the PCA server and providing the data according to the request of the PCA server can do.

본 발명에서는 서비스 서버(200)와 PCA 서버(300)을 별도로 두어 설명하고 있으나, 실제 상기 서비스 서버(200)와 PCA 서버(300)은 하나의 서버에서 개별적으로 구성될 수도 있고, 아니면 클라우드 컴퓨팅 서버에서 분산병렬 서버의 구조로 구성될 수도 있다.Although the service server 200 and the PCA server 300 are separately described in the present invention, the service server 200 and the PCA server 300 may be separately configured in one server, A distributed parallel server may be constructed.

도 1b는 본 발명의 일 또 다른 실시예에 따른 PCA 기법을 활용한 어휘의 시각화 장치의 구성을 나타낸 예시도로서, 이에 도시된 바와 같이 클라이언트(100), PCA 서버(300) 및 DB(400)는 클라우드 컴퓨팅 구조를 포함한 분산 네트워크 환경, 로컬 인트라 네트워크, 인터넷, 전용 네트워크, 또는 이들의 조합으로 구성되는 유선, 무선 또는 이들의 조합으로 구성되는 네트워크에 접속될 수 있다. 여기서 서비스 서버의 기능은 PCA 서버에 포함되어 구성될 수 있으며, 도 1a에서도 서비스 서버와 PCA 서버는 서로 통합되어 구현될 수 있으며, 설명의 편의를 위해서 서비스 서버와 PCA 서버를 별도로 표시하였을 뿐임을 밝혀두고자 한다. 1B is a block diagram illustrating a configuration of a vocabulary visualization apparatus using a PCA technique according to another embodiment of the present invention. As shown in FIG. 1B, a client 100, a PCA server 300, and a DB 400, May be connected to a network consisting of a wired, wireless, or a combination thereof, consisting of a distributed network environment including a cloud computing architecture, a local intranet network, the Internet, a private network, or a combination thereof. Here, the function of the service server can be included in the PCA server. In FIG. 1A, the service server and the PCA server can be integrated with each other, and for convenience of explanation, the service server and the PCA server are shown separately I want to leave.

따라서 상기 DB(400)는 도 1a와 같이 PCA 서버의 내부 즉, 로컬에 구성되어 있을 수도 있고, 유선 혹은 무선 네트워크를 통한 저장장치에 구성될 수도 있으며, 또한 클라우드 컴퓨팅 환경으로 구성되는 것이 가능하다. 여기서 클라우드 컴퓨팅 환경으로 서버와 클라이언트가 연결되는 경우에는, 상기 서버에서 모든 컴퓨팅, 즉 PCA 기법에 의한 어휘의 좌표목록 추출과 시각화에 필요한 모든 과정을 수행하며, 클라이언트는 이른바 신(thin) 클라이언트로 대부분의 컴퓨팅에 필요한 처리는 상기 서버에 의존한다는 의미를 내포하고 있다.Accordingly, the DB 400 may be configured in the PCA server, that is, locally, as shown in FIG. 1A, in a storage device via a wired or wireless network, or in a cloud computing environment. In this case, when a server and a client are connected to a cloud computing environment, the server performs all processes necessary for extracting and visualizing a vocabulary coordinate list by all computing, that is, a PCA technique. The client is a so- The processing required for the computing of the server depends on the server.

아울러 상기 클라이언트(100)는 N-스크린이 적용되어 클라이언트 측 기기가 PC, 태블릿, 노트북, 넷북, 스마트 폰, PDA 또는 이들의 조합을 포함한 어떤 종류의 기기라도 그 화면의 해상도에 무관하게 디스플레이할 수 있도록 지원된다. 여기서 N-스크린을 지원하기 위해서 클라이언트와 서버(서비스 서버 및 PCA 서버 포함) 사이에서 상기 서버가 클라이언트 기기의 해상도를 검출하고, 해당 해상도에 맞추어 결과를 출력할 수도 있고, 클라이언트가 서버에서 전송되어 오는 신호의 해상도 정보를 분석하여 디스플레이 해상도에 맞추어 출력할 수도 있다. In addition, the client 100 can display any type of device including a PC, a tablet, a notebook, a netbook, a smart phone, a PDA, or a combination thereof regardless of the resolution of the screen by using the N-screen . In order to support the N-screen, the server may detect the resolution of the client device between the client and the server (including the service server and the PCA server), output the result according to the resolution, The resolution information of the signal can be analyzed and output according to the display resolution.

상기 해상도에 독립적인 N-스크린 기능을 제공하고, 클라이언트 측 기기의 종류와 OS에 독립적인 웹 어플리케이션을 제공하기 위해서, HTML5에 의한 웹 어플리케이션을 통해 상기 PCA 서버와 클라이언트 기기가 상호 정보를 송수신할 수 있다.In order to provide a N-screen function independent of the resolution and to provide a web application independent of the type of the client-side device and the OS, the PCA server and the client device can transmit and receive the mutual information through the web application by HTML5 have.

더욱 상세하게는, 도 1a의 서비스 서버(200)는 어휘목록을 단순히 클라이언트로부터 PCA 서버로 전달해 주는 역할과 PCA 서버에서 전달받은 좌표목록으로부터 사용자가 원하는 그래프, 도형, 그림, 이미지(동영상 포함) 또는 이들의 조합(예: 분산형 그래프나 언어맵 등)을 포함하는 형태로 공간적으로 시각화한 것으로, 별도의 웹서버, PCA 서버 혹은 클라이언트상의 어플리케이션 프로그램에서 수행하도록 구성할 수도 있다. 상기 어플리케이션 프로그램은 또한 PCA 서버와 유무선으로 통신할 수 있는 메시지 규격이나 인터페이스를 구비할 수 있으며, 클라이언트는 일반 PC 혹은 전용단말기가 될 수도 있으며, 또한 스마트폰, 테블릿 PC, 혹은 스마트 패드 등을 포함한 무선 단말이 될 수도 있는바, 상기 다양한 종류의 이기종 단말에 상기 어플리케이션 프로그램이 독립적으로 수행될 수 있도록, 디바이스 독립적인 웹 어플리케이션을 제공하는 것이 가능하다. 즉, HTML5 규격으로 상기 웹 어플리케이션 프로그램을 만들어 어떤 디바이스나 OS 환경에서도 구동될 수 있도록 구성하는 것이 가능하다는 것을 의미한다.More specifically, the service server 200 shown in FIG. 1A can display a graph, a figure, a picture, an image (including a moving picture) desired by the user from a list of coordinates transmitted from a PCA server and a role of delivering a vocabulary list simply from a client to a PCA server Or a combination thereof (for example, a distributed graph or a language map), and may be configured to be performed by an application program on a separate web server, a PCA server, or a client. The application program may also have a message standard or interface capable of communicating with the PCA server by wire / wireless. The client may be a general PC or a dedicated terminal, and may also include a smart phone, a tablet PC, It is possible to provide a device independent web application so that the application programs can be independently executed on the various types of heterogeneous terminals. That is, it means that it is possible to construct the web application program in the HTML5 standard so as to be able to be operated in any device or OS environment.

또한, 도 1a 및 도 1b는 본원 발명의 기술적 특징을 실현하기 위한 하나의 예시이므로, 상기 PCA 서버와 서비스 서버는 하나의 시스템 상에서 동작하도록 할 수 있도록 하거나 네트워크상에서 분산 혹은 집중 시스템으로 구성하여 동작하게 할 수 있으며, 또한 상기 각 서버는 그 기능상의 경계를 별도로 정함이 없이 하나의 프로세스 상에서 동작할 수도 있는 등 시스템을 설계하는 자의 의도에 따라 사용자로부터 어휘 목록을 입력받고 PCA 기법을 활용하여 어휘의 좌표를 추출하는 과정을 포함하도록 하면 족하다.1A and 1B are one example for realizing the technical features of the present invention. Therefore, the PCA server and the service server can operate on one system or operate as a distributed or concentrated system on a network In addition, each server may operate in a single process without specifying its functional boundary. For example, according to the intention of a system designer, a list of vocabulary items is input from a user and a coordinate of a vocabulary is calculated It is enough to include the extraction process.

전술한 바와 같이, 도 1a 및 도 1b에 도시된 PCA 서버(300)는 클라이언트로부터 서비스 서버를 통해서 사용자의 요청과 함께 어휘목록을 입력 받고, DB(400)로부터 각 어휘에 대한 의미와 사용 빈도 데이터를 가져온다. 이때, DB(400)에서 가져온 각 어휘들 중에서 상호 의미가 중복되는 부분은 제거하고 하나의 차원으로 설정하며, 각 어휘가 특정 의미로 사용되는 사용 빈도를 값으로 하여 사용자가 요청한 어휘들을 벡터화 시킨다. 이때 복수의 어휘에 대해서 의미가 중복되는 부분을 하나의 차원으로 설정할 때, 각 어휘에 대한 의미의 사용빈도는 다를 수 있으므로, 각 어휘에 따른 상기 특정 의미의 사용빈도를 값으로 나타내면 복수의 서로 다른 값이 생성되고, 상기 복수의 서로 다른 값을 하나의 의미(차원)에 대한 값으로 설정하려면 대표값을 정하여야 하는데, 본 발명에서는 상기 대표값을 복수의 사용빈도 값에 대한 평균값을 취하거나, 경우에 따라서 최대값 혹은 최소값을 대표값으로 정할 수도 있으며, 아울러 개별적인 어휘에 대한 사용빈도를 계속 유지하면서 어휘별 좌표목록에 별도로 적용할 수도 있다.As described above, the PCA server 300 shown in FIG. 1A and FIG. 1B receives a list of vocabulary from a client through a service server through a service server and receives a vocabulary list from the DB 400, Lt; / RTI > At this time, the parts of the vocabulary taken from the DB 400 are removed and the dimension is set as one dimension, and the vocabulary requested by the user is vectorized using the frequency of use of each vocabulary as a specific value. In this case, when a portion where the meaning overlaps with respect to a plurality of vocabularies is set as one dimension, the frequency of use of the meaning with respect to each vocabulary may be different. Therefore, when the frequency of use of the specific meaning according to each vocabulary is expressed as a value, A value is generated and a representative value must be set in order to set the plurality of different values to a value for one meaning (dimension). In the present invention, the representative value is taken as an average value for a plurality of use frequency values, In some cases, the maximum value or the minimum value may be set as the representative value, or separately applied to the lexical coordinate list while maintaining the frequency of use of the individual vocabulary.

이렇게 벡터화한 각 어휘들을 PCA 기법을 이용하여, 좌표로 생성할 차원(예: 2차원, 3차원, 다차원 등)에 따라, 미리 정해진 개수(예: 3차원의 경우 3개)의 고유벡터로 구성된 새로운 고유공간을 생성하고, 그 고유공간에 투영된 각 어휘들의 새로운 좌표를 생성하여 그 목록을 서비스 서버에 반환한다.Each of the vectorized vocabularies is composed of a predetermined number (for example, three in the case of three dimensions) of eigenvectors according to dimensions (for example, two dimensional, three dimensional, Creates a new unique space, creates new coordinates of each vocabulary projected in the unique space, and returns the list to the service server.

도 2는 본 발명에 따른 PCA 기법을 활용한 어휘의 좌표 추출 장치의 동작을 설명하기 위한 흐름도로서, PCA 서버가 클라이언트 혹은 서비스 서버로부터 어휘 목록을 입력 받으면(S101), PCA 서버는 데이터베이스에서 입력된 각 어휘들에 대한 의미들과 각 의미들이 사용된 빈도 데이터를 가져오며(S102), 데이터베이스에서 가져온 각 어휘에 대한 의미들의 사용빈도 데이터를 이용하여 어휘별 벡터를 생성하고(S103), 다시 벡터화한 어휘들을 PCA 기법을 이용하여 소정의 차원(2차원, 3차원 혹은 다차원이 될 수 있음)을 가진 고유벡터로 구성된 고유공간을 생성하며, 상기 고유공간에 투영된 각 어휘들의 새로운 좌표를 생성하여(S104), 입력된 각 어휘들에 대한 좌표를 출력(S105)하게 된다.FIG. 2 is a flowchart for explaining an operation of a lexical coordinate extracting apparatus using the PCA technique according to the present invention. When a PCA server receives a lexical item list from a client or a service server (S101) (S102), and a vocabulary-specific vector is generated using the frequency-of-use data of the semantics of each vocabulary obtained from the database (S103) The vocabularies are generated using a PCA technique to create a unique space composed of eigenvectors having a predetermined dimension (which can be two-dimensional, three-dimensional or multi-dimensional), and new coordinates of each vocabulary projected in the unique space are generated S104), and outputs the coordinates for each input vocabulary (S105).

도 3은 본 발명에 따른 PCA 기법을 활용한 어휘의 좌표 추출 장치에서, 클라이언트 혹은 서비스 서버에서 입력된 어휘 목록으로부터 각 어휘들의 새로운 좌표를 생성하여 출력하는 방법을 설명하기 위한 흐름도로서, 먼저 PCA 서버가 클라이언트 혹은 서비스 서버에서 어휘 목록을 입력 받으면(S201), 데이터베이스로부터 각 어휘에 대한 의미들과 그 의미로 사용되는 각 사용빈도 데이터를 가져오며(S202), 각 의미가 중복되면 이를 제거하고, 그 의미를 차원으로 하고 사용빈도를 값으로 하여 어휘들을 벡터화하며(S203), 다시 벡터화한 어휘들의 평균벡터를 구한 후 어휘들의 벡터에서 상기 평균벡터를 뺀 중심벡터를 구하며(S204), 상기 중심벡터들로부터 하나의 행렬을 구성한 뒤, 상기 구성된 행렬로 전치행렬을 구하고(S205), 상기 중심벡터들로 구성된 행렬과 이 행렬의 전치행렬을 곱하여 공분산행렬을 구하고(S206), 다시 상기 공분산 행렬의 고유벡터와 고유값을 구한다(S207). 상기 고유값이 가장 큰 순서대로 고유벡터를 정렬하고 그 중에서 정해진 수의 고유벡터를 선택해 고유공간을 생성하며(S208), 선택된 고유벡터들로 구성된 고유행렬을 만들고 이 고유행렬의 전치행렬을 구하며(S209), 다음으로, 그 고유행렬의 전치행렬과 처음 입력한 어휘들의 중심벡터를 곱하여 각 어휘들의 고유공간에서의 새로운 좌표를 생성하고(S210), 고유공간에 투영된 각 어휘들의 새로운 좌표를 출력(S211)한다.3 is a flowchart for explaining a method for generating new coordinates of vocabularies from a list of vocabulary input from a client or a service server and outputting the new coordinates in a vocabulary coordinate extraction apparatus using the PCA technique according to the present invention. (S201). Then, the system obtains the meaning of each vocabulary from the database and each frequency of use data used in the meaning (S202). If the meaning of each vocabulary is duplicated, (S203). Then, a mean vector of the re-vectorized vocabularies is obtained and a center vector obtained by subtracting the average vector from a vector of vocabularies is obtained (S204). The center vectors A matrix composed of the center vectors and a matrix composed of the center vectors are obtained. The covariance matrix is obtained by multiplying the transpose matrix of this matrix (S206), and the eigenvector and eigenvalue of the covariance matrix are obtained again (S207). The eigenvalues are sorted in the order of largest eigenvalues, and a predetermined number of eigenvectors are selected from the eigenvectors to generate a eigenspace (S208). A unique matrix composed of the selected eigenvectors is generated, a transpose matrix of the eigenmatrix is obtained S209). Next, the new matrix is multiplied by the center matrix of the first input vocabulary by the transpose matrix of the original matrix (S210), and new coordinates of the vocabulary projected in the unique space are output (S211).

상기 PCA 서버(300)의 동작을 좀 더 상세하게 기술하면 다음과 같다.The operation of the PCA server 300 will be described in more detail as follows.

1. (S201 단계) PCA 서버가 클라이언트 혹은 서비스 서버로부터 어휘 목록을 입력 받는다.1. (Step S201) The PCA server receives a vocabulary list from a client or a service server.

2. (S202 단계) 입력 받은 어휘들의 목록으로 DB(400)에서 각 어휘의 의미들과 그 의미로 사용되는 빈도 데이터를 가져온다.2. (Step S202) The DB 400 obtains the meaning of each vocabulary and frequency data used in the meaning of the vocabulary in the DB 400 as a list of inputted vocabularies.

3. (S203 단계) 데이터베이스에서 가져온 각 어휘의 의미들과 그 의미로 사용되는 빈도 데이터에서 중복을 제거(중복된 것을 하나로 취급)하고, 의미를 차원으로 사용 빈도를 값으로 하여 어휘들을 벡터화한다. 어휘수가 n개인 경우를 생각하면, 어휘의 의미를 차원으로, 사용빈도를 값으로 하여 각 어휘를 벡터화한 것을 다음과 같이 일반화하여 표현할 수 있다.3. (Step S203) The redundancy is removed from the meaning of each vocabulary retrieved from the database and the frequency data used as the meaning thereof (the redundant one is treated as one), and the vocabularies are vectorized using the meaning as the dimension and the frequency of use. Considering the case where the number of vocabulary is n, the vectorization of each vocabulary using the meaning of the vocabulary as a dimension and the frequency of use as a value can be generalized as follows.

즉, 어휘를 벡터화한 것을 표현하면,In other words, when a vector is expressed as a vector,

Figure 112013053555809-pat00001
와 같이 표현된다.
Figure 112013053555809-pat00001
.

좀 더 간략화하여 설명하면 다음과 같다. 예를 들어, 2 개의 어휘, v1 및 v2를 가진 어휘목록, v에 대해서, v1은 a1, a2, a3, a4의 의미를 가지고 있고, v2는 a3, a4, a5, a6의 의미를 가진다면, 여기서 의미 a3, a4는 v1과 v2에 중복된다. 따라서 v1과 v2의 전체 의미에 대한 집합은 a1, a2, a3, a4, a5, a6의 6개가 된다. 여기서 v1과 v2의 각 a3, a4는 같지만(즉, 의미는 같지만) 각 의미의 빈도수는 다르다. 이제, v1과 v2의 의미 a1, a2, a3, a4, a5, a6에 대한 빈도수는 v1과 v2에 대해서 각각 다음과 같이 나타내고자 한다.A simpler explanation is as follows. For example, if v1 has the meaning a1, a2, a3, a4, and v2 has the meanings a3, a4, a5, and a6, Here, the meaning a3 and a4 overlap with v1 and v2. Thus, v1 and v2 have a total set of six a1, a2, a3, a4, a5, and a6. Here, a3 and a4 of v1 and v2 are the same (ie, have the same meaning), but the frequency of each meaning is different. Now, the frequencies of the meanings a1, a2, a3, a4, a5, and a6 of v1 and v2 are expressed as follows for v1 and v2, respectively.

Figure 112013053555809-pat00002
Figure 112013053555809-pat00002

이 경우, a15=a16=0이고, a21 = a22 = 0이다. 또한 a13 ≠ a23, a14 ≠ a24이다.In this case, a15 = a16 = 0 and a21 = a22 = 0. Also, a13 ≠ a23 and a14 ≠ a24.

4. (S204 단계) 상기 벡터화한 어휘들의 평균벡터를 구한다. 또한 상기 벡터화한 어휘들의 평균벡터를 일반화하여 표현하면,4. In step S204, an average vector of the vectorized vocabularies is obtained. Also, if the mean vector of the vectorized vocabularies is generalized,

Figure 112013053555809-pat00003
와 같이 나타낼 수 있다. 좀 더 간략화하여 설명하면, v1과 v2의 평균벡터({g}(=AVG))는 다음과 같이 표현할 수 있다. 여기서 평균벡터는,
Figure 112013053555809-pat00003
As shown in Fig. To explain it more simply, the average vector ({g} (= AVG)) of v1 and v2 can be expressed as follows. Here,

Figure 112013053555809-pat00004
Figure 112013053555809-pat00004

와 같이 나타낼 수 있다.As shown in Fig.

다음으로 벡터화한 어휘들의 평균벡터를 구한 후, 벡터화한 어휘들의 벡터에 평균벡터를 빼서 중심 벡터를 구한다. 이를 수식으로 표현하면,Next, the mean vector of the vectorized vocabularies is obtained, and the center vector is obtained by subtracting the mean vector from the vector of the vectorized vocabularies. Expressing this as an equation,

Figure 112013053555809-pat00005
와 같이 표현할 수 있다.
Figure 112013053555809-pat00005
Can be expressed as

5. (S205 단계) 이렇게 벡터화한 어휘들의 중심벡터들로 하나의 행렬을 구성할 수 있다. 즉, 상기 중심벡터들로 행렬을 구성하면,5. (Step S205) One matrix may be constructed by center vectors of the vectorized vocabulary. That is, if a matrix is constructed with the center vectors,

Figure 112013053555809-pat00006
와 같이 표현할 수 있다. 또한 벡터화한 어휘들의 중심벡터들로 구성한 행렬의 전치행렬을 구하면,
Figure 112013053555809-pat00006
Can be expressed as In addition, if the transpose matrix of the matrix composed of vector vectors of center vectors is obtained,

Figure 112013053555809-pat00007
와 같이 표현할 수 있다.
Figure 112013053555809-pat00007
Can be expressed as

6. (S206 단계) 다음으로, 벡터화한 어휘들의 중심벡터들로 구성한 행렬과 이 행렬의 전치행렬을 곱해 공분산 행렬을 구한다. 즉, 공분산 행렬은, 6. (Step S206) Next, the covariance matrix is obtained by multiplying the matrix composed of the vector vectors of the lexical vectors and the transpose matrix of the matrix. That is, the covariance matrix,

Figure 112013053555809-pat00008
와 같이 나타낼 수 있다.
Figure 112013053555809-pat00008
As shown in Fig.

7. (S207 단계) 그리고 상기 행렬 곱으로 생성된 공분산 행렬의 고유벡터와 고유값을 다음과 같은 과정으로 구한다.7. (Step S207) Then, the eigenvectors and eigenvalues of the covariance matrix generated by the matrix multiplication are obtained by the following procedure.

Figure 112013053555809-pat00009
Figure 112013053555809-pat00009

8. (S208 단계) 다음으로 고유값이 가장 큰 순서대로 고유벡터를 정렬하고, 그 중에서 3개 이하의 고유벡터를 선택해 고유공간을 생성한다. 즉, 고유값이 가장 큰 순서로 고유벡터를 정렬하여 미리 정해진 수(예: 3차원으로 표시할 경우 3개)의 고유벡터를 선택하고 나머지 고유벡터들은 버린다. 이리하여 선택된 고유벡터들은 새로운 고유공간의 축을 이루게 된다.8. (Step S208) Next, the eigenvectors are sorted in order of largest eigenvalues, and three or less eigenvectors are selected from the eigenvectors to generate a unique space. That is, the eigenvectors are sorted in order of largest eigenvalues to select a predetermined number of eigenvectors (e.g., three if three dimensions are displayed), and the remaining eigenvectors are discarded. Thus, the selected eigenvectors form the axis of the new eigen space.

Figure 112013053555809-pat00010
Figure 112013053555809-pat00010

9. (S209 단계) 선택된 고유벡터들로 구성된 고유행렬을 만들고, 이 고유행렬의 전치행렬을 구한다. 즉, 고유행렬과 상기 고유행렬의 전치행렬은,9. (Step S209) A unique matrix composed of the selected eigenvectors is created, and a transpose matrix of the eigenmatrix is obtained. That is, the permutation matrix and the permutation matrix of the permutation matrix,

Figure 112013053555809-pat00011
와 같이 나타낼 수 있다.
Figure 112013053555809-pat00011
As shown in Fig.

10. (S210 단계) 이 고유행렬의 전치행렬과 처음 입력한 어휘들의 중심벡터를 곱하여, 각 어휘들의 새로운 고유공간의 새로운 좌표를 얻게 된다. 이러한 관계는 도 4에 도시되어 있다.10. In step S210, the new matrix is obtained by multiplying the transpose matrix of this eigenmatrix by the center vector of the first inputted vocabulary. This relationship is shown in FIG.

즉,

Figure 112013053555809-pat00012
In other words,
Figure 112013053555809-pat00012

Figure 112013053555809-pat00013
Figure 112013053555809-pat00014
같은 3개의 좌표를 얻는다.
Figure 112013053555809-pat00013
And
Figure 112013053555809-pat00014
Gets the same three coordinates.

11. (S211 단계) 고유공간에 투영된 각 어휘들의 새로운 좌표를 출력하여 반환하고 PCA 서버(300)의 작업 루틴은 종료된다.11. (Step S211) The new coordinates of the projected vocabularies in the unique space are outputted and returned, and the work routine of the PCA server 300 is terminated.

이렇게 반환된 어휘들의 새로운 좌표는 사용자가 원하는 그래프, 도형, 그림, 이미지(동영상 포함) 또는 이들의 조합(예: 분산형 그래프나 언어맵 등)을 포함하는 형태로 공간적으로 시각화한 데이터로 생성 및 가공되어 사용자에게 제공 된다.The new coordinates of the returned vocabularies will be generated and generated as spatially visualized data in the form of graphs, figures, drawings, images (including video) or a combination thereof (eg, distributed graphs or language maps) Processed and provided to the user.

이상으로 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, I will understand the point. Accordingly, the technical scope of the present invention should be defined by the following claims.

100 : 클라이언트 200 : 서비스 서버
300 : PCA 서버 310 : 어휘목록(어휘별 벡터 생성)
320 : 좌표목록(좌표생성) 400 : 데이터베이스(DB)
100: client 200: service server
300: PCA server 310: List of vocabulary (vocabulary-specific vector generation)
320: Coordinate list (coordinate creation) 400: Database (DB)

Claims (13)

사용자로부터 적어도 하나 이상의 어휘에 대한 어휘목록을 입력받는 입력 수단;
복수의 어휘와 각 어휘의 의미 그리고 각 의미에 대한 사용빈도를 포함한 어휘와 관련한 데이터를 저장 및 관리하는 데이터베이스;
상기 데이터베이스로부터 상기 어휘목록의 각 어휘에 대해서 상기 각 어휘의 의미와 각 의미에 대한 사용빈도를 포함한 데이터를 가져와서 각 어휘별 벡터를 생성하여 벡터화하되, 각 어휘 중에서 상호 의미가 중복되는 부분을 제거하고 각 의미에 대해서 하나의 좌표축으로 설정하며, 상기 의미에 대한 사용빈도를 해당 좌표축의 좌표값으로 설정하여, 상기 입력된 어휘목록에 대해서 각 어휘별 벡터를 생성하여 벡터화하는 벡터 생성 수단;
상기 벡터 생성 수단에서 벡터화한 결과에 PCA 기법을 적용하여 각 어휘에 대한 새로운 좌표를 추출하는 좌표추출 수단; 및
상기 좌표추출 수단에서 추출된 상기 어휘목록의 좌표목록을 사용자가 원하는 분산형그래프를 포함한 그래프, 언어맵을 포함한 도형, 그림, 이미지, 동영상 또는 이들의 조합을 이용한 공간적으로 시각화한 데이터를 생성 및 가공하여 출력하는 시각화 수단;을 더 포함하는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 장치.
Input means for inputting a vocabulary list of at least one vocabulary from a user;
A database for storing and managing data related to a vocabulary including a plurality of vocabularies, meaning of each vocabulary, and frequency of use for each meaning;
Data from each of the vocabulary lists of the vocabulary list is retrieved from the database, including the meaning of each vocabulary and the frequency of use of each meaning, thereby generating vectors for each vocabulary and vectorizing the vocabulary. A vector generating means for setting vectors used as the coordinate values of the coordinate axes and generating vector vectors for the input vocabulary lists and vectorizing the vocabulary vectors;
Coordinate extracting means for extracting new coordinates for each vocabulary by applying a PCA technique to the vectorized result in the vector generating means; And
A coordinate list of the vocabulary list extracted by the coordinate extracting means is generated and processed as a spatially visualized data using a graphic including a decentralized graph, a graphic including a language map, a picture, an image, a moving picture or a combination thereof And a visualization means for outputting the visualization result to the visualization means.
청구항 1에 있어서,
상기 벡터 생성 수단에서, 복수의 어휘에 대한 의미가 중복되는 부분을 하나의 좌표축으로 설정할 때, 각 어휘에 대한 특정 의미의 사용빈도가 다를 수 있으므로, 각 어휘에 따른 특정 의미의 사용빈도를 좌표값으로 나타내면, 각 의미마다 복수의 서로 다른 사용빈도에 대한 좌표값이 생성되고, 상기 복수의 서로 다른 사용빈도에 대한 좌표값을 특정 의미에 대한 하나의 좌표축에 대한 좌표값으로 설정하려면 대표값을 정하여야 하는데, 상기 대표값을 복수의 사용빈도에 대한 평균값, 최대값 혹은 최소값 중 하나로 정하는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 장치.
The method according to claim 1,
The frequency of use of a specific meaning for each vocabulary may be different when the part of the vector generation means in which the meaning for a plurality of vocabularies is overlapped is set as one coordinate axis, A coordinate value for a plurality of different usages is generated for each meaning, and if the coordinate value for the plurality of different usages is set as a coordinate value for one coordinate axis for a specific meaning, Wherein the representative value is defined as one of a mean value, a maximum value, and a minimum value of a plurality of usage frequencies.
삭제delete 삭제delete 청구항 1항에 있어서,
상기 입력 수단; 벡터 생성 수단; 좌표추출 수단; 데이터베이스; 시각화수단 또는 이들의 조합은 하나의 서버에서 구성되거나 클라우드 컴퓨팅 구조를 포함한 분산 네트워크 환경, 로컬 인트라 네트워크, 인터넷, 전용 네트워크, 또는 이들의 조합 중 어느 하나로 구성되는 유선, 무선 또는 이들의 조합으로 구성되는 네트워크에 접속되어 구성되는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 장치.
The method according to claim 1,
The input means; Vector generating means; Coordinate extraction means; Database; Visualization means, or a combination thereof, may be composed of a wired, wireless, or a combination thereof, configured in one server or in a distributed network environment including a cloud computing architecture, a local intranet, the Internet, a private network, Wherein the computer-readable medium is connected to a network.
PCA 기법을 활용한 어휘의 시각화 장치를 이용하여 어휘를 시각화하는 방법에 있어서,
상기 어휘의 시각화 장치가 사용자로부터 적어도 하나 이상의 어휘에 대한 어휘목록을 입력받는 입력 단계;
상기 어휘의 시각화 장치가 복수의 어휘와 각 어휘의 의미 그리고 각 의미에 대한 사용빈도를 포함한 어휘와 관련한 데이터를 저장 및 관리하는 단계;
상기 어휘의 시각화 장치가 데이터베이스로부터 상기 어휘목록의 각 어휘에 대해서 상기 각 어휘의 의미와 각 의미에 대한 사용빈도를 포함한 데이터를 가져와서 각 어휘별 벡터를 생성하여 벡터화하되, 각 어휘 중에서 상호 의미가 중복되는 부분을 제거하고 각 의미에 대해서 하나의 좌표축으로 설정하며, 상기 의미에 대한 사용빈도를 해당 좌표축의 좌표값으로 설정하여, 상기 입력된 어휘목록에 대해서 각 어휘별 벡터를 생성하여 벡터화하는 벡터 생성 단계;
상기 어휘의 시각화 장치가 상기 벡터 생성 단계에서 벡터화한 결과에 PCA 기법을 적용하여 각 어휘에 대한 새로운 좌표를 추출하는 좌표추출 단계; 및
상기 어휘의 시각화 장치가 상기 좌표추출 단계에서 추출된 상기 어휘목록의 좌표목록을 사용자가 원하는 분산형그래프를 포함한 그래프, 언어맵을 포함한 도형, 그림, 이미지, 동영상 또는 이들의 조합을 이용한 공간적으로 시각화한 데이터를 생성 및 가공하여 출력하는 시각화 단계;를 더 포함하는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 방법.
A method for visualizing a vocabulary using a visualization device of a vocabulary utilizing a PCA technique,
An input step of the vocabulary visualization device receiving a vocabulary list of at least one vocabulary from a user;
Storing and managing data related to a vocabulary including a plurality of vocabularies, meaning of each vocabulary, and frequency of use for each meaning;
The visualization apparatus of the lexical item retrieves data including the meaning of each vocabulary and the frequency of use of each meaning for each vocabulary in the vocabulary list from the database to generate vector for each vocabulary and vectorize the vocabulary, A vector for generating a vector for each lexical item for the input lexical item list by setting the frequency of use of the meaning as a coordinate value of the corresponding coordinate axis, Generating step;
A coordinate extracting step of extracting new coordinates for each vocabulary by applying the PCA technique to the vectorized result of the vocabulary visualization device in the vector generation step; And
The visualization apparatus of the lexical portion may perform a spatial visualization using a graphic including a decentralized graph desired by the user, a graphic including a language map, a picture, an image, a moving picture, or a combination thereof, And a visualization step of generating and processing one data and outputting the generated data.
청구항 6에 있어서,
상기 벡터 생성 단계에서, 복수의 어휘에 대한 의미가 중복되는 부분을 하나의 좌표축으로 설정할 때, 각 어휘에 대한 특정 의미의 사용빈도가 다를 수 있으므로, 각 어휘에 따른 특정 의미의 사용빈도를 좌표값으로 나타내면, 각 의미마다 복수의 서로 다른 사용빈도에 대한 좌표값이 생성되고, 상기 복수의 서로 다른 사용빈도에 대한 좌표값을 특정 의미에 대한 하나의 좌표축에 대한 좌표값으로 설정하려면 대표값을 정하여야 하는데, 상기 대표값을 복수의 사용빈도에 대한 평균값, 최대값 혹은 최소값 중 하나로 정하는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 방법.
The method of claim 6,
In the vector generation step, when a part where the meaning of a plurality of vocabularies overlap is set as one coordinate axis, the frequency of use of a specific meaning for each vocabulary may be different. Therefore, A coordinate value for a plurality of different usages is generated for each meaning, and if the coordinate value for the plurality of different usages is set as a coordinate value for one coordinate axis for a specific meaning, Wherein the representative value is determined to be one of a mean value, a maximum value, and a minimum value of a plurality of use frequencies, and a method of visualizing a vocabulary utilizing the PCA technique.
삭제delete 삭제delete 청구항 6에 있어서,
상기 PCA 기법을 적용하여 좌표를 추출하는 좌표추출 단계는,
벡터화한 어휘들의 평균벡터를 구하고, 상기 어휘들의 각 벡터에서 평균벡터를 빼서 중심벡터를 구하는 단계;
상기 중심벡터들로 구성한 행렬과 상기 행렬의 전치행렬을 구하고, 상기 행렬과 전치행렬을 곱하여 공분산행렬을 구하는 단계;
상기 공분산 행렬의 고유값과 고유벡터를 구하고, 상기 고유값이 큰 순서대로 고유벡터를 정렬하여, 그 중에서 미리 정해진 수의 고유벡터를 선택하여 고유공간을 생성하는 단계;
상기 선택된 고유벡터들로 구성된 고유행렬을 만들고, 상기 고유행렬의 전치행렬을 구하는 단계; 및
상기 고유행렬의 전치행렬과 상기 입력한 어휘들의 중심벡터를 곱하여 각 어휘들의 고유공간에서의 새로운 좌표를 얻는 단계;를 더 포함하는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 방법.
The method of claim 6,
In the coordinate extraction step of extracting coordinates by applying the PCA technique,
Obtaining an average vector of vectorized vocabularies, subtracting an average vector from each vector of the vocabularies to obtain a center vector;
Obtaining a matrix constituted by the center vectors and a transpose matrix of the matrix, and obtaining a covariance matrix by multiplying the matrix by a transpose matrix;
Obtaining eigenvalues and eigenvectors of the covariance matrix, sorting the eigenvectors in order of increasing eigenvalues, and selecting a predetermined number of eigenvectors to generate eigenvalues;
Generating an intrinsic matrix composed of the selected eigenvectors and obtaining a transpose matrix of the intrinsic matrix; And
And obtaining new coordinates in a unique space of each vocabulary by multiplying the transposed matrix of the intrinsic matrix by the center vector of the input vocabularies.
청구항 10에 있어서,
상기 고유공간에 투영된 각 어휘들의 새로운 좌표를 출력하는 단계;를 더 포함하는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 방법.
The method of claim 10,
And outputting new coordinates of the respective vocabularies projected in the unique space by using the PCA technique.
청구항 6에 있어서,
상기 입력 단계; 벡터 생성 단계; 좌표추출 단계; 저장 단계; 시각화 단계 또는 이들의 조합은 하나의 서버에서 구성되거나 클라우드 컴퓨팅 구조를 포함한 분산 네트워크 환경, 로컬 인트라 네트워크, 인터넷, 전용 네트워크, 또는 이들의 조합으로 구성되는 유선, 무선 또는 이들의 조합으로 구성되는 네트워크에 접속되어 구성되는 것을 특징으로 하는 PCA 기법을 활용한 어휘의 시각화 방법.
The method of claim 6,
The input step; Vector generation step; A coordinate extraction step; A storage step; Visualization steps, or a combination thereof, may be implemented in a network consisting of a wired, wireless, or a combination thereof configured in a single server or in a distributed network environment including a cloud computing architecture, a local intranet, the Internet, a private network, And a visualization method of a vocabulary utilizing the PCA technique.
청구항 6, 청구항 7, 또는 청구항 10 내지 청구항 12 중 어느 한 항에 의한 PCA 기법을 활용한 어휘의 시각화 방법을 실행하기 위해서 컴퓨터로 실행 가능한 프로그램을 저장한 기록매체.A recording medium storing a computer executable program for executing a method of visualizing a vocabulary utilizing the PCA technique according to any one of claims 6, 7, 12,
KR1020130068990A 2013-06-17 2013-06-17 A method for visualizing vocabularies by utilizing pca method and the apparatus thereof KR101599692B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130068990A KR101599692B1 (en) 2013-06-17 2013-06-17 A method for visualizing vocabularies by utilizing pca method and the apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130068990A KR101599692B1 (en) 2013-06-17 2013-06-17 A method for visualizing vocabularies by utilizing pca method and the apparatus thereof

Publications (2)

Publication Number Publication Date
KR20140146387A KR20140146387A (en) 2014-12-26
KR101599692B1 true KR101599692B1 (en) 2016-03-04

Family

ID=52675650

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130068990A KR101599692B1 (en) 2013-06-17 2013-06-17 A method for visualizing vocabularies by utilizing pca method and the apparatus thereof

Country Status (1)

Country Link
KR (1) KR101599692B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102140976B1 (en) * 2020-03-30 2020-08-04 (주)위세아이텍 Device and method for extracting features extracted by applying principal component analysis to word vectors generated from text data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224625A (en) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd Method and program for visualizing keyword two-dimensional

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224625A (en) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd Method and program for visualizing keyword two-dimensional

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문1(2002.10)*

Also Published As

Publication number Publication date
KR20140146387A (en) 2014-12-26

Similar Documents

Publication Publication Date Title
US20230343055A1 (en) Reconstruction of 3d model with immersive experience
US20230005178A1 (en) Method and apparatus for retrieving target
US11887388B2 (en) Object pose obtaining method, and electronic device
CN106846497B (en) Method and device for presenting three-dimensional map applied to terminal
KR102635777B1 (en) Methods and apparatus, electronic devices and storage media for detecting molecular binding sites
JP6872044B2 (en) Methods, devices, media and equipment for determining the circumscribed frame of an object
CN110109535A (en) Augmented reality generation method and device
KR20210040005A (en) Positioning method, positioning device and electronic device
US10997323B2 (en) Deep-learning based functional correlation of volumetric designs
CN111739005A (en) Image detection method, image detection device, electronic equipment and storage medium
CN113407850B (en) Method and device for determining and acquiring virtual image and electronic equipment
US11604963B2 (en) Feedback adversarial learning
CN115393872B (en) Method, device and equipment for training text classification model and storage medium
CN111832396A (en) Document layout analysis method and device, electronic equipment and storage medium
CN112580666A (en) Image feature extraction method, training method, device, electronic equipment and medium
CN114998433A (en) Pose calculation method and device, storage medium and electronic equipment
US10496694B2 (en) Rating and advising for selection of augmented reality markers
KR101599692B1 (en) A method for visualizing vocabularies by utilizing pca method and the apparatus thereof
CN112365607A (en) Augmented reality AR interaction method, device, equipment and storage medium
CN115100142A (en) Image processing method, apparatus and computer-readable storage medium
CN109857838B (en) Method and apparatus for generating information
CN109313506B (en) Information processing apparatus, information processing method, and program
EP4343715A1 (en) Determining 3d models corresponding to an image
CN114579806B (en) Video detection method, storage medium and processor
Zhou et al. Visualizing confusion matrices for multidimensional signal detection correlational methods

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20190211

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200206

Year of fee payment: 5