WO2020050706A1 - 워드벡터 보정 방법 - Google Patents

워드벡터 보정 방법 Download PDF

Info

Publication number
WO2020050706A1
WO2020050706A1 PCT/KR2019/095025 KR2019095025W WO2020050706A1 WO 2020050706 A1 WO2020050706 A1 WO 2020050706A1 KR 2019095025 W KR2019095025 W KR 2019095025W WO 2020050706 A1 WO2020050706 A1 WO 2020050706A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
dimensional
word vector
vector
vectors
Prior art date
Application number
PCT/KR2019/095025
Other languages
English (en)
French (fr)
Inventor
조휘열
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US16/553,014 priority Critical patent/US11256869B2/en
Publication of WO2020050706A1 publication Critical patent/WO2020050706A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a method for correcting word vectors.
  • Natural language refers to the language that we use in our daily life, and natural language processing means to analyze the meaning of these natural languages and allow the computer to process them.
  • One of the main issues of the natural language processing is to grasp the similarity between words or documents, and the words and documents can be quantified using TDM, Word2Vec, and the like to calculate the similarity in terms of Euclidean distance and cosine similarity.
  • a word that is quantified using a vector may be referred to as a word vector or a word vector, and the word vector is configured to occupy an arbitrary space in the vector space. Words are located closer or farther apart from each other in vector space according to similarity, and similar words are located closer to each other.
  • the present invention is to propose a word vector correction method capable of more clearly distinguishing between similar and dissimilar words in a vector space.
  • the present invention relates to a method for correcting a word vector using a word vector having n-dimensionality, and generating an n + 1-dimensional first word vector using an average value of elements included in the n-dimensional first word vector. , Using the average value of the elements included in the second word vector of the dimension, generating a second word vector of the n + 1 dimension, based on the synonym information previously specified, the agent corresponding to the first word vector Determining whether the word is similar between the first word and the second word corresponding to the second word vector, and when the first and second words are similar words, the first and second n + 1 dimensions are determined.
  • the first of the n + 1 dimension may be determined according to whether the first word corresponding to the n-dimensional first word vector and the second word corresponding to the n-dimensional second word vector are similar. And determining whether to update the n + 1th element value included in each of the second word vectors.
  • the average value of the n + 1 th element included in each of the first and second word vectors in the n + 1 dimension is determined. And calculating the n + 1th element value included in each of the first and second word vectors in the n + 1 dimension to the calculated average value.
  • the value of the n + 1th element included in each of the first and second word vectors in the n + 1 dimension is updated. It is characterized by not being.
  • the value of the n + 1th element included in the n + 1-dimensional first word vector is an average value of elements included in the n-dimensional first word vector
  • the n + 1-dimensional The n + 1th element value included in the second word vector is characterized in that it is an average value of elements included in the n-dimensional second word vector.
  • the value of the 1 to n-th element included in the n + 1-dimensional first word vector is the same as the value of the 1 to n-th element included in the n-dimensional first word vector
  • the The value of the 1 to n-th element included in the n + 1-dimensional second word vector is the same as the value of the 1 to n-th element included in the n-dimensional second word vector.
  • the correcting step may include applying a linear discriminant analysis (LDA) algorithm to each of the n + 1-dimensional first and second word vectors, so that the value of the n + 1-th element is removed from the n-dimensional dimension. Characterized in that it is dispersed in elements included in the first and second word vectors, respectively.
  • LDA linear discriminant analysis
  • the distance between the corrected n-dimensional first and second word vectors on the n-dimensional is different from the distance between the first and second word vectors of the n-dimensional before correction.
  • the distance between the corrected n-dimensional first and second word vectors is greater than the distance between the n-dimensional first and second word vectors before correction. It is characterized by being closer.
  • the distance between the corrected n-dimensional first and second word vectors is the distance between the n-dimensional first and second word vectors before correction. It is characterized by being more distant.
  • the present invention by expanding the dimension of the word vector, can reflect the similarity of words corresponding to the word vector to the elements of the expanded word vector. Therefore, the word vector of the expanded dimension is updated to reflect the similarity of words.
  • the word vector of this extended dimension is converted back to the original dimension by a specific technique, and as a result of the conversion, the distance between similar words in the vector space becomes closer, and the distance between dissimilar words becomes further. Therefore, according to the present invention, the distinction between similar words and dissimilar words becomes clear, and as a result, similar words can be more accurately determined.
  • FIG. 1 is a block diagram illustrating a word vector correction method according to the present invention.
  • FIG. 2 is a flowchart illustrating a word vector correction method according to the present invention.
  • FIG. 3 is a conceptual diagram for explaining a word vector correction method according to the present invention.
  • 4A, 4B, 4C, and 4D are conceptual views for explaining a dimensional expansion and reduction method related to a word vector correction method according to the present invention.
  • 5A and 5B are conceptual views for explaining a result of performing a word vector correction method according to the present invention.
  • NLP Natural Language Processing
  • Natural language processing is to represent a word in a numerical way that can be processed by a computer so that the computer can recognize the meaning of an arbitrary word, and among them, a typical method is a word embedding modle that converts a word into a vector.
  • word2vec exists as an example of the word embedding model.
  • a word can be expressed as a vector through a word embedding model, and such a vector is referred to as a 'word vector' in the present invention.
  • Words expressed as vectors have specific coordinates corresponding to the vectors in the vector space.
  • the positions of words in the vector space are relatively close or far apart depending on whether the words are similar or dissimilar.
  • the distance between the word 'animal' and the word 'plant' in the vector space may be greater than the distance between the word 'animal' and the word 'lion'.
  • each word is represented by a different vector, and in natural language processing, the word represented by the vector is used to recognize and understand the meaning of the word and the sentence formed by the words.
  • FIG. 1 is a block diagram illustrating a word vector correction method according to the present invention
  • FIG. 2 is a flowchart illustrating a word vector correction method according to the present invention
  • FIG. 3 is a conceptual diagram for explaining a word vector correction method according to the present invention
  • FIGS. 4A, 4B, 4C, and 4D illustrate dimensional expansion and reduction methods related to the word vector correction method according to the present invention. These are conceptual diagrams to do.
  • 5A and 5B are conceptual views for explaining a result of performing a word vector correction method according to the present invention.
  • the word vector correction system 100 for performing the word vector correction method according to the present invention includes an embedding unit 110, a word vector dimension expansion unit 120, a similarity determining unit 130, a similarity reflecting unit 140, and a word.
  • a vector dimension reduction unit 150 may be included.
  • the embedding unit 110 may also be referred to as a 'word vector embedding unit', and a word is numerically converted into a word vector.
  • the embedding unit 110 converts words included in an arbitrary document into word vectors having different vector coordinates for each word.
  • the dimension of the word vector converted by the embedding unit 110 corresponds to the number of elements included in the word vector.
  • a word vector composed of 10 elements may be expressed as a '10 -dimensional word vector '. .
  • the dimension of the word vector is not specifically limited, and will be arbitrarily named as 'n dimension'.
  • the word vector correction method according to the present invention is not limited to the number of dimensions of the word vector, and can be commonly applied to any dimension.
  • the word vector dimension expansion unit 120 expands an n-dimensional word vector into a word vector having a dimension larger than the n-dimensional, for example, an n-dimensional word vector into an n + 1-dimensional word vector. Expands,
  • the word vector dimension expansion unit 120 sums all the values of the n elements included in the n-dimensional first word vector W1, averages them, and uses the average value to obtain an n + 1-dimensional first Create a word vector (W1 '). More specifically, the word vector dimension expansion unit 120 includes elements in the first word vector W1 'of the n + 1 dimension, and elements 1 to n th in the first word vector W1 of the n dimension. Assign elements. In addition, the word vector dimension expansion unit 120 calculates an average value of elements from 1 to n th in the n-dimensional first word vector W1 in the n + 1-dimensional first word vector W1 ', n Assigned as the + 1st element.
  • the word vector dimension expansion unit 120 sums all the values of n elements included in the n-dimensional second word vector W2, averages them, and uses the average value to obtain an n + 1-dimensional dimension.
  • the second word vector W2 ' is generated. More specifically, the word vector dimension expansion unit 120 includes elements from 1 to n th in the second word vector W2 'in the n + 1 dimension, and is included in the second word vector W2 in the n dimension. Assign elements. In addition, the word vector dimension expansion unit 120 calculates an average value of elements from 1 to n th in the n-dimensional second word vector W2 in the n + 1-dimensional second word vector W2 ', n Assigned as the + 1st element.
  • the word vector dimension expansion unit 120 may expand the dimension of each word vector using elements included in each word vector.
  • the value of the n + 1th element included in the n + 1-dimensional first word vector W1 ' is an average value of elements included in the n-dimensional first word vector W1.
  • the value of the n + 1th element included in the n + 1-dimensional second word vector W2 ' is an average value of elements included in the n-dimensional second word vector W2.
  • the value of the 1st to nth elements included in the n + 1D first word vector W1 ' is the value of the 1st to nth element included in the nD 1st word vector W1.
  • the value of the 1st to nth elements included in the n + 1-dimensional second word vector W2 ' is the value of the 1st to nth element included in the n-dimensional second word vector W2. same.
  • the similarity determining unit 130 determines similarity between the expanded n + 1-dimensional word vectors.
  • the similarity determination unit 130 corresponds to the first word corresponding to the first word vector W1 or W1 'and the second word vector W2 or W2' based on the synonym information specified in advance. It is determined whether the second word is similar.
  • the pre-specified synonym information may include data such as GloVe (Global Vectors) as a database including synonym information for words.
  • GloVe Global Vectors
  • the similarity determining unit 130 determines whether the at least two word vectors, which are the object of the similarity determination, are similar based on the predetermined synonym information.
  • the similarity reflecting unit 140 corresponds to the first word corresponding to the first word vector W1 or W1 'and the second word vector W2 or W2' based on the result determined by the similarity determining unit 130.
  • the second word is a similar word
  • the n + 1th element value included in each of the n + 1-dimensional first and second word vectors W1 'and W2' may be updated.
  • the similarity reflecting unit 140 may also be referred to as an 'update unit'.
  • Similarity reflecting unit 140 the first word corresponding to the first word vector (W1 or W1 ') and the second word corresponding to the second word vector (W2 or W2'), whether the n + It is determined whether an n + 1th element value included in each of the first and second word vectors W1 'and W2' in one dimension is updated.
  • the similarity reflecting unit 140 is included in each of the first and second word vectors W1 'and W2' in the n + 1 dimension. Calculate the average value of the n + 1 th element, and change the n + 1 th element value included in each of the first and second word vectors W1 'and W2' in the n + 1 dimension to the calculated average value do.
  • the first and second word vectors W1 'and W2' of the n + 1 dimension are n + 1 dimensions whose n + 1th element value is changed. And the first and second word vectors W1 "and W2".
  • the similarity determining unit 130 when the first and second words are dissimilar words, the n + 1th element included in each of the first and second word vectors in the n + 1 dimension The value of is not updated.
  • the similarity reflecting unit 140 when the first and second words are non-similar words, the value of the n + 1th element included in each of the first and second word vectors in the n + 1 dimension Keeps unchanged.
  • the first and second word vectors W1, W1 ', W1 ", and W2 are updated only when the first and second words are similar, by updating the n + 1th element value to the same value. , W2 ', W2 ").
  • the element value of the n + 1th element when the element value of the n + 1th element is the same, the element value of the n + 1th element is not the same. However, it is possible to maintain a closer distance from each other in the vector space.
  • the word vector dimension reduction unit 150 reduces the dimension of the n + 1 dimensional word vector back to an n dimensional word vector.
  • the word vector dimension reduction unit 150 sets the n + 1th element values of the first and second word vectors W1 'or W1 ", W2' or W2" in the n + 1 dimension, and the first and The n-dimensional first and second word vectors W1 and W2 are corrected by reflecting the elements included in each of the second word vectors W1 and W2.
  • the word vector dimension reduction unit 150 applies a linear discriminant analysis (LDA) algorithm to each of the n + 1 dimensional first and second word vectors (W1 'or W1 ", W2', or W2"), so that the n
  • the first and second word vectors (W1 'or W1 ", W2', or W2" in the +1 dimension) are corrected with n-dimensional first and second word vectors (W1 "', W2"').
  • LDA linear discriminant analysis
  • the word vector dimension reduction unit 150 applies a linear discriminant analysis (LDA) algorithm to each of the n + 1 dimensional first and second word vectors (W1 'or W1 ", W2' or W2"). By dispersing the value of the n + 1th element into elements included in the n-dimensional first and second word vectors W1 and W2, the n-dimensional first and second word vectors W1, W2) can be corrected.
  • LDA linear discriminant analysis
  • the distance between the corrected n-dimensional first and second word vectors W1 "'and W2"' is the first and second n-dimensional corrections.
  • the distance between the word vectors W1 and W2 may be different.
  • the distance between the corrected n-dimensional first and second word vectors W1 "'and W2"' is the n-dimensional first before correction. It may be disposed closer than the distance between the first and second word vectors W1 and W2. Furthermore, when the first and second words are dissimilar words, the distance between the corrected n-dimensional first and second word vectors W1 "'and W2"' is the first and second n-dimensional values before correction. The distance may be greater than the distance between the second word vectors W1 and W2.
  • the present invention by extending the dimension of the word vector, can reflect the similarity of words corresponding to the word vector to the elements of the expanded word vector.
  • the word vector of the expanded dimension is updated to reflect the similarity of words.
  • the word vector of this extended dimension is converted back to the original dimension by a specific technique, and as a result of the conversion, the distance between similar words in the vector space becomes closer, and the distance between dissimilar words becomes further. Therefore, according to the present invention, the distinction between similar words and dissimilar words becomes clear, and as a result, similar words can be more accurately determined.
  • the embedding process may be performed by the embedding unit 110.
  • words included in an arbitrary document are digitized and converted into word vectors having different vector coordinates for each word. .
  • the dimension of the word vector converted in the process of embedding corresponds to the number of elements included in the word vector.
  • a word vector consisting of 10 elements may be expressed as a '10 -dimensional word vector '.
  • the dimension of the word vector is not specifically limited, and will be arbitrarily named as 'n dimension'.
  • an n-dimensional word vector is generated, and more specifically, the n-dimensional word vector may include a plurality of word vectors composed of n elements, as shown in FIG. 4A. have.
  • the plurality of word vectors include an n-dimensional first word vector W1 corresponding to the first word and an n-dimensional second word vector W2 corresponding to the second word. You can.
  • the word vector dimension expansion unit 120 converts an n-dimensional word vector into an n + 1-dimensional word vector one dimension larger than the n-dimensional, and as illustrated in FIG. 4B, the word vector dimension expansion unit 120 An n-dimensional first word vector W1 corresponding to the first word is converted into an n + 1-dimensional first word vector W1 ', and an n-dimensional second word vector W2 corresponding to the second word is converted. Is transformed into a second word vector (W2 ') of n + 1 dimension.
  • the values are averaged, and the averaged value is n + 1-dimensional. It is assigned as the value of the n + 1th element of the word vector. Then, the values of the first to n-th elements in the n + 1 dimension are assigned as the values of the elements in the n-dimensional word vector.
  • the word vector dimension expansion unit 120 sums the values of all n elements included in the n-dimensional first word vector W1, averages them, and uses the average value, n + 1 A dimensional first word vector W1 'is generated. More specifically, the word vector dimension expansion unit 120 includes elements in the first word vector W1 'of the n + 1 dimension, and elements 1 to n th in the first word vector W1 of the n dimension. Assign elements. In addition, the word vector dimension expansion unit 120 calculates an average value of elements from 1 to n th in the n-dimensional first word vector W1 in the n + 1-dimensional first word vector W1 ', n Assigned as the + 1st element.
  • the word vector dimension expansion unit 120 sums all the values of n elements included in the n-dimensional second word vector W2, averages them, and uses the average value to obtain an n + 1-dimensional dimension.
  • the second word vector W2 ' is generated. More specifically, the word vector dimension expansion unit 120 includes elements from 1 to n th in the second word vector W2 'in the n + 1 dimension, and is included in the second word vector W2 in the n dimension. Assign elements. In addition, the word vector dimension expansion unit 120 calculates an average value of elements from 1 to n th in the n-dimensional second word vector W2 in the n + 1-dimensional second word vector W2 ', n Assigned as the + 1st element.
  • the word vector dimension expansion unit 120 may expand the dimension of each word vector using elements included in each word vector.
  • the value of the n + 1th element included in the n + 1-dimensional first word vector W1 ' is an average value of elements included in the n-dimensional first word vector W1.
  • the value of the n + 1th element included in the n + 1-dimensional second word vector W2 ' is an average value of elements included in the n-dimensional second word vector W2.
  • the value of the 1st to nth elements included in the n + 1D first word vector W1 ' is the value of the 1st to nth element included in the nD 1st word vector W1.
  • the value of the 1st to nth elements included in the n + 1-dimensional second word vector W2 ' is the value of the 1st to nth element included in the n-dimensional second word vector W2. same.
  • the similarity determining unit 130 determines the similarity between the expanded n + 1-dimensional word vectors when the n-dimensional word vector is expanded to the n + 1-dimensional word vector.
  • the similarity determination unit 130 corresponds to the first word corresponding to the first word vector W1 or W1 'and the second word vector W2 or W2' based on the synonym information specified in advance. It is determined whether the second word is similar.
  • the similarity determination unit 130 may determine similarity between at least two n + 1-dimensional word vectors.
  • the specified synonym information may include similarity information between at least two words.
  • the pre-specified synonym information may include data such as GloVe (Global Vectors) as a database including synonym information for words.
  • the similarity determining unit 130 determines whether the at least two word vectors, which are the object of the similarity determination, are similar based on the predetermined synonym information.
  • the similarity reflecting unit 140 corresponds to the first word corresponding to the first word vector W1 or W1 'and the second word vector W2 or W2' based on the result determined by the similarity determining unit 130.
  • the second word is a similar word
  • the n + 1th element value included in each of the n + 1-dimensional first and second word vectors W1 'and W2' may be updated.
  • the similarity reflecting unit 140 may also be referred to as an 'update unit'.
  • Similarity reflecting unit 140 the first word corresponding to the first word vector (W1 or W1 ') and the second word corresponding to the second word vector (W2 or W2'), whether the n + It is determined whether an n + 1th element value included in each of the first and second word vectors W1 'and W2' in one dimension is updated.
  • the similarity reflecting unit 140 may include the first and second word vectors W1 'in the n + 1 dimension. , W2 ') to calculate the average value of the n + 1 th element included in each (eg, calculated as 0.45 as shown in FIG. 4C), and the first and second words in the n + 1 dimension.
  • the n + 1 th element value included in each of the vectors W1 'and W2' is changed to the calculated average value.
  • the first and second word vectors W1 'and W2' of the n + 1 dimension are n + 1 dimensions whose n + 1th element value is changed. And the first and second word vectors W1 "and W2".
  • the similarity determining unit 130 when the first and second words are dissimilar words, the n + 1th element included in each of the first and second word vectors in the n + 1 dimension The value of is not updated.
  • the similarity reflecting unit 140 is included in each of the first and second word vectors W1 'and W2' in the n + 1 dimension.
  • the value of the n + 1th element remains unchanged.
  • the element values of the first and second word vectors W1 'and W2' in the n + 1 dimension are maintained.
  • the first and second word vectors W1, W1 ', W1 ", and W2 are updated only when the first and second words are similar, by updating the n + 1th element value to the same value. , W2 ', W2 ").
  • the element value of the n + 1th element when the element value of the n + 1th element is the same, the element value of the n + 1th element is not the same. However, it is possible to maintain a closer distance from each other in the vector space.
  • the word vector dimension reduction unit 150 reduces the dimension of the n + 1 dimensional word vector back to the n dimensional word vector.
  • the word vector dimension reduction unit 150 sets the n + 1th element values of the first and second word vectors W1 'or W1 ", W2' or W2" in the n + 1 dimension, and the first and The n-dimensional first and second word vectors W1 and W2 are corrected by reflecting the elements included in each of the second word vectors W1 and W2.
  • the word vector dimension reduction unit 150 applies a linear discriminant analysis (LDA) algorithm to each of the n + 1 dimensional first and second word vectors (W1 'or W1 ", W2', or W2"), so that the n
  • the first and second word vectors (W1 'or W1 ", W2', or W2" in the +1 dimension) are corrected with n-dimensional first and second word vectors (W1 "', W2"').
  • LDA linear discriminant analysis
  • the word vector dimension reduction unit 150 applies the linear discriminant analysis (LDA) algorithm to each of the n + 1 dimensional first and second word vectors (W1 'or W1 ", W2' or W2"), respectively. , By dispersing the value of the n + 1th element into elements included in the n-dimensional first and second word vectors W1 and W2, the n-dimensional first and second word vectors W1 and W2 are respectively distributed. ) Can be corrected.
  • LDA linear discriminant analysis
  • the distance between the corrected n-dimensional first and second word vectors W1 "'and W2"' is the first and second n-dimensional corrections.
  • the distance between the word vectors W1 and W2 may be different.
  • the corrected n-dimensional first and second word vectors W1 "'(510”' ), W2 "'(520”')) may be disposed closer than the distance between the n-dimensional first and second word vectors W1 510 and W2 520 before correction.
  • the distance between the corrected n-dimensional first and second word vectors W1 "'(510”') and W2 "'(520"') Before the correction, the n-dimensional first and second word vectors W1 (510, W2 520) may be disposed farther than a distance.
  • the present invention by expanding the dimension of the word vector, can reflect the similarity of words corresponding to the word vector to the elements of the expanded word vector. Therefore, the word vector of the expanded dimension is updated to reflect the similarity of words.
  • the word vector of this extended dimension is converted back to the original dimension by a specific technique, and as a result of the conversion, the distance between similar words in the vector space becomes closer, and the distance between dissimilar words becomes further. Therefore, according to the present invention, the distinction between similar words and dissimilar words becomes clear, and as a result, similar words can be more accurately determined.
  • the above-described present invention can be embodied as computer readable codes on a medium on which a program is recorded.
  • the computer-readable medium includes any kind of recording device in which data readable by a computer system is stored. Examples of computer-readable media include a hard disk drive (HDD), solid state disk (SSD), silicon disk drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device. This includes, and is also implemented in the form of a carrier wave (eg, transmission over the Internet).
  • the computer may include a control unit 180 of the terminal. Accordingly, the above detailed description should not be construed as limiting in all respects, but should be considered illustrative. The scope of the invention should be determined by rational interpretation of the appended claims, and all changes within the equivalent scope of the invention are included in the scope of the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 워드 벡터를 보정하는 방법에 관한 것이다. 본 발명은 n차원을 갖는 워드벡터를 이용한 워드벡터 보정 방법에 관한 것으로서, n차원의 제 1 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제1 워드벡터를 생성하는 단계, 차원의 제2 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제2 워드벡터를 생성하는 단계, 기 특정된 동의어 정보에 기반하여, 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부를 판단하는 단계를 포함한다.

Description

워드벡터 보정 방법
본 발명은 워드 벡터를 보정하는 방법에 관한 것이다.
인공지능 기술이 발전함에 따라, 자연어 처리(natural language processing)의 필요성이 나날이 증대되고 있다. 자연어(natural language)란 우리가 일상 생활 속에서 사용하는 언어를 말하며, 자연어 처리(natural language processing)란 이러한 자연어를 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 의미한다.
이러한 자연어 처리의 주요 이슈 중 하나는 단어 또는 문서의 유사도를 파악하는 것으로서, 단어, 문서를 TDM, Word2Vec 등의 방식으로 수치화하여, 유클리디안 거리, 코사인 유사도 등 의 식으로 유사도를 계산할 수 있다.
예를 들어, 단어를 벡터를 이용하여 수치화한 것을 단어벡터 또는 워드벡터라고 명명할 수 있으며, 이러한 워드벡터는 벡터 공간에서 임의의 공간을 차지하도록 이루어진다. 단어들은, 유사도에 따라 벡터 공간에서 서로 가깝거나 멀게 위치하며, 서로 유사한 단어일수록 서로 가깝게 위치하는 특성을 갖는다.
본 발명은 벡터 공간에서 유사한 단어와 비유사한 단어 간의 구분을 보다 명확하게 할 수 있는 워드 벡터 보정 방법을 제안하기 위한 것이다.
본 발명은 n차원을 갖는 워드벡터를 이용한 워드벡터 보정 방법에 관한 것으로서, n차원의 제 1 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제1 워드벡터를 생성하는 단계, 차원의 제2 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제2 워드벡터를 생성하는 단계, 기 특정된 동의어 정보에 기반하여, 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부를 판단하는 단계, 상기 판단결과, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을 업데이트하는 단계 및 상기 업데이트된 n+1번째 원소 값을, 상기 n차원의 제1 및 제2 워드벡터 각각에 포함된 원소들에 반영하여, 상기 n차원의 제1 및 제2 워드벡터를 보정하는 단계를 포함하는 것을 특징으로 한다.
실시 예에 있어서, 상기 n차원의 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 n차원의 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부에 따라, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값의 업데이트 여부가 결정되는 것을 특징으로 한다.
실시 예에 있어서, 상기 업데이트하는 단계는, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소의 평균값을 산출하고, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경하는 것을 특징으로 한다.
실시 예에 있어서, 상기 판단결과, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 업데이트 되지 않는 것을 특징으로 한다.
실시 예에 있어서, 상기 n+1차원의 제1 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 원소들의 평균 값이고, 상기 n+1차원의 제2 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 원소들의 평균 값인 것을 특징으로 한다.
실시 예에 있어서, 상기 n+1차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값과 동일하고, 상기 n+1차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값과 동일한 것을 특징으로 한다.
실시 예에 있어서, 상기 보정하는 단계는, 상기 n+1차원의 제1 및 제2 워드벡터 각각에 LDA(Linear Discriminant Analysis) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터에 포함된 원소들에 각각 분산하는 것을 특징으로 한다.
실시 예에 있어서, 상기 n차원 상에서, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리의 거리와 다른 것을 특징으로 한다.
실시 예에 있어서, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 가까운 것을 특징으로 한다.
실시 예에 있어서, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 먼 것을 특징으로 한다.
위에서 살펴본 것과 같이, 본 발명은, 워드 벡터의 차원을 확장함으로써, 확장된 워드 벡터의 원소에 워드 벡터에 대응되는 단어들의 유사도를 반영할 수 있다. 따라서, 확장된 차원의 워드 벡터는 단어들의 유사도를 반영하도록 업데이트된다. 이러한 확장된 차원의 워드 벡터는 특정 기법에 의하여, 다시 원래의 차원으로 환산되며, 환산 결과, 벡터 공간 상에서 유사한 단어 간의 거리는 더욱 가까워지고, 비유사한 단어간의 거리는 더욱 멀어진다. 따라서, 본 발명에 따르면 유사 단어와 비유사 단어간의 구분이 명확해지며, 그 결과 유사 단어를 보다 정확하게 판단할 수 있다.
도 1는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 블록도이다.
도 2는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 개념도들이다.
도 4a, 도 4b, 도 4c 및 도 4d는 본 발명에 따른 워드벡터 보정 방법과 관련된 대한 차원 확장 및 축소 방법을 설명하기 위한 개념도들이다.
도 5a 및 도 5b은 본 발명에 따른 워드벡터 보정 방법을 수행한 결과를 설명하기 위한 개념도들이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
먼저, NLP(Natural Language Processing, 자연어 처리)는 컴퓨터가 인간이 사용하는 언어를 이해하고, 분석할 수 있도록 하기 위한 기술로서, 인공지능을 구현하기 위한 가장 핵심적인 기술이다.
자연어 처리는, 임의의 단어의 의미를 컴퓨터가 인지할 수 있도록, 컴퓨터가 처리 가능한 수치적인 방식으로 단어를 표현하는 것으로서, 그중 대표적인 방법은 단어를 벡터로 바꾸는 워드 임베딩 모델(word embedding modle)이다. 워드 임베딩 모델의 일 예로서, word2vec이 존재한다.
한편, 워드 임베딩 모델을 통하여, 단어를 벡터로 표현할 수 있으며, 이러한 벡터를 본 발명에서는 '워드벡터'라고 명명한다. 벡터로 표현된 단어는 벡터공간 내에서 해당 벡터에 대응되는 특정 좌표를 갖는다.
벡터공간 내에서의 단어들의 위치는, 단어들 간의 유사 또는 비유사 여부에 따라 상대적으로 가깝거나 멀게 위치한다.
예를 들어, 벡터 공간 내에서 '동물'이라는 단어와 '식물' 이라는 단어 간의 거리는, '동물'이라는 단어와 '사자'라는 단어 사이의 거리보다 더 멀 수 있다.
이와 같이, 단어마다 서로 다른 벡터로 표현이 되며, 자연어 처리에서는, 벡터로 표현된 단어를 이용하여, 해당 단어 및 단어들이 이루는 문장의 의미를 인지 및 이해한다.
한편, 위에서 살펴본 것과 같이, 각 단어들이 갖는 벡터가, 각 단어들 간의 유사도 정도를 보다 정확하게 나타내어질 수 있다면, 자연어 처리의 성능은 보다 향상될 수 있다.
이에, 본 발명에서는, 워드벡터를 보정하여, 워드벡터로 나타내어지는 단어들 간의 유사도를 보다 정확하게 나타낼 수 있는 방법에 대하여 제안한다. 이하에서는 첨부된 도면과 함께, 워드벡터를 보정하는 방법에 대하여 보다 구체적으로 살펴본다. 도 1는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 블록도이고, 도 2는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 흐름도이다. 나아가, 도 3은 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 개념도들이고, 도 4a, 도 4b, 도 4c 및 도 4d는 본 발명에 따른 워드벡터 보정 방법과 관련된 대한 차원 확장 및 축소 방법을 설명하기 위한 개념도들이다. 도 5a 및 도 5b은 본 발명에 따른 워드벡터 보정 방법을 수행한 결과를 설명하기 위한 개념도들이다.
본 발명에 따른 워드벡터 보정 방법을 수행하기 위한 워드벡터 보정 시스템(100)은 임베딩부(110), 워드벡터 차원 확장부(120), 유사도 판단부(130), 유사도 반영부(140), 워드벡터 차원 축소부(150)를 포함할 수 있다.
여기에서, 임베딩부(110)는 '워드벡터 임베딩부'라고도 명명될 수 있으며, 단어를 수치화하여 워드벡터로 변환한다.
임베딩부(110)는 임의의 문서에 포함된 단어들을 수치화하여 각 단어마다 서로 다른 벡터 좌표를 갖는 워드벡터로 변환한다.
임베딩부(110)에서 변환된 워드벡터의 차원은, 워드벡터에 포함된 원소의 개수에 대응되며, 예를 들어, 10개의 원소로 이루어진 워드벡터는 '10차원의 워드벡터'라고 표현될 수 있다.
본 발명에서는, 워드벡터의 차원을 구체적으로 한정하지 않으며, 'n차원'이라고 임의로 명명하기로 한다.
본 발명에 따른 워드벡터 보정 방법은, 워드벡터의 차원 수에 한정되지 않고, 임의의 차원에 대하여 모두 공통적으로 적용될 수 있다.
다음으로, 워드벡터 차원 확장부(120)는, n차원의 워드벡터를 n차원보다 큰 차원의 워드벡터로 확장하는 것으로서, 예를 들어, n차원의 워드벡터를 n+1차원의 워드벡터로 확장한다,
워드벡터 차원 확장부(120)에서 n차원의 워드벡터를, n차원보다 한 차원 큰 n+1차원의 워드벡터로 변환하는 방법에 대하여 설명한다. 임베딩부(110)에서 워드 임베딩 결과, n 차원의 제1 및 제2 워드벡터가 존재한다고 가정하자.
워드벡터 차원 확장부(120)는, n차원의 제 1 워드벡터(W1)에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균 값을 이용하여, n+1차원의 제1 워드벡터(W1')를 생성한다. 보다 구체적으로, 워드벡터 차원 확장부(120)는, n+1 차원의 제1 워드벡터(W1')에서, 1에서 n번째까지의 원소는 n차원의 제1 워드벡터(W1)에 포함된 원소를 할당한다. 그리고, 워드벡터 차원 확장부(120)는 n차원의 제1 워드벡터(W1)에 포함된 1부터 n번째까지의 원소들의 평균값을 n+1차원의 제1 워드벡터(W1')에서, n+1번째 원소로서 할당한다.
마찬가지로, 워드벡터 차원 확장부(120)는, n차원의 제 2 워드벡터(W2)에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균 값을 이용하여, n+1차원의 제2 워드벡터(W2')를 생성한다. 보다 구체적으로서, 워드벡터 차원 확장부(120)는, n+1 차원의 제2 워드벡터(W2')에서, 1에서 n번째까지의 원소는 n차원의 제2 워드벡터(W2)에 포함된 원소를 할당한다. 그리고, 워드벡터 차원 확장부(120)는 n차원의 제2 워드벡터(W2)에 포함된 1부터 n번째까지의 원소들의 평균값을 n+1차원의 제2 워드벡터(W2')에서, n+1번째 원소로서 할당한다.
이와 같은 방식으로, 워드벡터 차원 확장부(120)는 각각의 워드벡터에 포함된 원소들을 이용하여, 각각의 워드벡터의 차원을 확장할 수 있다.
즉, n+1차원의 제1 워드벡터(W1')에 포함된 n+1번째 원소의 값은, 상기 n차원의 제1 워드벡터(W1)에 포함된 원소들의 평균 값이다. 그리고, 상기 n+1차원의 제2 워드벡터(W2')에 포함된 n+1번째 원소의 값은, 상기 n차원의 제2 워드벡터(W2)에 포함된 원소들의 평균 값이다.
나아가, 상기 n+1차원의 제1 워드벡터(W1')에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제1 워드벡터(W1)에 포함된 1부터 n번째 원소의 값과 동일하다. 마찬가지로, 상기 n+1차원의 제2 워드벡터(W2')에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제2 워드벡터(W2)에 포함된 1부터 n번째 원소의 값과 동일하다.
한편, 유사도 판단부(130)는, n차원의 워드벡터가, n+1차원의 워드벡터로 확장된 경우, 확장된 n+1차원의 워드벡터들 간의 유사도를 판단한다.
보다 구체적으로, 유사도 판단부(130)는 기 특정된 동의어 정보에 기반하여, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어 간의 유사 여부를 판단한다.
여기에서, 기 특정된 동의어 정보는, 단어들에 대한 유사어 정보를 포함하는 데이터 베이스로서, GloVe(Global Vectors) 같은 데이터를 의미할 수 있다.
유사도 판단부(130)는 이러한 기 특정된 동의어 정보에 기반하여, 유사 여부의 판단 대상이 되는 적어도 두개의 워드벡터들의 유사 여부를 판단한다.
유사도 반영부(140)는 유사도 판단부(130)에서 판단한 결과에 기반하여, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어가 유사 단어인 경우, 상기 n+1차원의 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값을 업데이트할 수 있다. 유사도 반영부(140)는 '업데이트부'라고도 명명될 수 있다.
유사도 반영부(140)는, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어 유사여부에 따라, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값의 업데이트 여부를 결정한다.
보다 구체적으로, 유사도 반영부(140)는, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소의 평균값을 산출하고, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경한다.
따라서, 상기 제1 및 제2 단어가 유사단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2')는, n+1번째 원소 값이 변경된 n+1차원의 제1 및 제2 워드벡터(W1", W2")로 변경된다.
한편, 유사도 판단부(130)에서 판단 결과, 상기 제1 및 제2 단어가, 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 업데이트 되지 않는다.
즉, 유사도 반영부(140)는, 상기 제1 및 제2 단어가, 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 변경하지 않고 유지한다.
이와 같이, 본 발명에서는, 제1 및 제2 단어가 유사한 경우에만, n+1번째의 원소값을, 동일한 값으로 업데이트 함으로써, 제1 및 제2 워드벡터(W1, W1', W1", W2, W2', W2")간의 연관성을 부여한다.
제1 및 제2 워드벡터(W1, W1', W1", W2, W2', W2")에서, n+1번째의 원소값이 동일한 경우, n+1번째의 원소값이 동일하지 않은 경우보다, 벡터 공간에서 상호 더 가까운 거리를 유지할 수 있다.
한편, n+1번째 원소에 대한 업데이트가 완료되면, 워드벡터 차원 축소부(150)는, 상기 n+1차원의 워드벡터를 다시 n차원의 워드벡터로 차원을 축소한다.
워드벡터 차원 축소부(150)는, n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2")의 n+1번째 원소 값을, n차원의 제1 및 제2 워드벡터(W1, W2) 각각에 포함된 원소들에 반영하여, 상기 n차원의 제1 및 제2 워드벡터(W1, W2)를 보정한다.
워드벡터 차원 축소부(150)는 상기 n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2") 각각에 LDA(Linear Discriminant Analysis) 알고리즘을 적용하여, 상기 n+1차원의 제1 및 제2 워드벡터 (W1'또는 W1", W2' 또는 W2")를 n차원의 제1 및 제2 워드벡터(W1"', W2"')로 보정한다. 보정 결과, 보정 후의 n차원의 제1 및 제2 워드벡터(W1"', W2"')의 원소 값 중 적어도 하나는, 보정 전의 제1 및 제2 워드벡터(W1, W2)와 상이할 수 있다.
워드벡터 차원 축소부(150)는 상기 n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2") 각각에 LDA(Linear Discriminant Analysis, 도 3b 참조) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터(W1, W2)에 포함된 원소들에 각각 분산함으로써, 상기 n차원의 제1 및 제2 워드벡터(W1, W2)를 보정할 수 있다.
이상에서 살펴본 것과 같이, 보정 결과, 상기 n차원 상에서, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"', W2"') 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1, W2) 간의 거리의 거리와 다를 수 있다.
본 발명에 따르면, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"', W2"') 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1, W2) 간의 거리보다 더 가깝게 배치될 수 있다. 나아가, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"', W2"') 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1, W2) 간의 거리보다 더 멀게 배치될 수 있다. 본 발명은, 워드 벡터의 차원을 확장함으로써, 확장된 워드 벡터의 원소에 워드 벡터에 대응되는 단어들의 유사도를 반영할 수 있다. 따라서, 확장된 차원의 워드 벡터는 단어들의 유사도를 반영하도록 업데이트된다. 이러한 확장된 차원의 워드 벡터는 특정 기법에 의하여, 다시 원래의 차원으로 환산되며, 환산 결과, 벡터 공간 상에서 유사한 단어 간의 거리는 더욱 가까워지고, 비유사한 단어간의 거리는 더욱 멀어진다. 따라서, 따라서, 본 발명에 따르면 유사 단어와 비유사 단어간의 구분이 명확해지며, 그 결과 유사 단어를 보다 정확하게 판단할 수 있다.
위에서 살펴본 워드벡터 보정 시스템(100)의 설명을 참조하여, 워드 벡터 보정 방법에 대하여 보다 구체적으로 살펴보면, 먼저, 제1 및 제2 단어에 대한 임베딩을 수행하는 과정이 진행된다(S210).
보다 구체적으로, 임베딩 수행 과정은, 임베딩부(110)에 의하여 수행될 수 있으며, 임베딩 수행 과정에서는, 임의의 문서에 포함된 단어들이 수치화하여 각 단어마다 서로 다른 벡터 좌표를 갖는 워드벡터로 변환된다.
임베딩 수행 과정에서 변환된 워드벡터의 차원은, 워드벡터에 포함된 원소의 개수에 대응되며, 예를 들어, 10개의 원소로 이루어진 워드벡터는 '10차원의 워드벡터'라고 표현될 수 있다. 본 발명에서는, 워드벡터의 차원을 구체적으로 한정하지 않으며, 'n차원'이라고 임의로 명명하기로 한다.
임베딩 수행 과정(S210)을 통해, n차원의 워드벡터가 생성되며, 보다 구체적으로, n차원의 워드벡터는, 도 4a에 도시된 것과 같이, n개의 원소로 이루어진 복수의 워드벡터를 포함할 수 있다.
도 4a에 도시된 것과 같이, 복수의 워드벡터는, 제1 단어에 대응되는 n차원의 제1 워드벡터(W1) 및 제2 단어에 대응되는 n차원의 제2 워드벡터(W2)를 포함할 수 있다.
다음으로, n차원의 워드벡터를, n차원보다 한 차원 큰 n+1차원의 워드벡터로 변환하는 과정이 수행된다(S220).
워드벡터 차원 확장부(120)에서 n차원의 워드벡터를, n차원보다 한 차원 큰 n+1차원의 워드벡터로 변환하며, 도 4b에 도시된 것과 같이, 워드벡터 차원 확장부(120)는 제1 단어에 대응되는 n차원의 제1 워드벡터(W1)를 n+1차원의 제1 워드벡터(W1')로 변환하고, 제2 단어에 대응되는 n차원의 제2 워드벡터(W2)를 n+1차원의 제2 워드벡터(W2')로 변환한다.
워드벡터 차원을 확장하는 단계에서는, 도 4b에 도시된 것과 같이, n차원의 각각의 워드벡터에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균된 값을 n+1차원의 워드벡터의 n+1번째 원소의 값으로 할당한다. 그리고, n+1차원의 제1 부터 n번째의 원소들의 값을, n차원의 워드벡터의 원소들 값을 그대로 할당한다.
예를 들어, 워드벡터 차원 확장부(120)는, n차원의 제 1 워드벡터(W1)에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균 값을 이용하여, n+1차원의 제1 워드벡터(W1')를 생성한다. 보다 구체적으로, 워드벡터 차원 확장부(120)는, n+1 차원의 제1 워드벡터(W1')에서, 1에서 n번째까지의 원소는 n차원의 제1 워드벡터(W1)에 포함된 원소를 할당한다. 그리고, 워드벡터 차원 확장부(120)는 n차원의 제1 워드벡터(W1)에 포함된 1부터 n번째까지의 원소들의 평균값을 n+1차원의 제1 워드벡터(W1')에서, n+1번째 원소로서 할당한다.
마찬가지로, 워드벡터 차원 확장부(120)는, n차원의 제 2 워드벡터(W2)에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균 값을 이용하여, n+1차원의 제2 워드벡터(W2')를 생성한다. 보다 구체적으로서, 워드벡터 차원 확장부(120)는, n+1 차원의 제2 워드벡터(W2')에서, 1에서 n번째까지의 원소는 n차원의 제2 워드벡터(W2)에 포함된 원소를 할당한다. 그리고, 워드벡터 차원 확장부(120)는 n차원의 제2 워드벡터(W2)에 포함된 1부터 n번째까지의 원소들의 평균값을 n+1차원의 제2 워드벡터(W2')에서, n+1번째 원소로서 할당한다.
이와 같은 방식으로, 워드벡터 차원 확장부(120)는 각각의 워드벡터에 포함된 원소들을 이용하여, 각각의 워드벡터의 차원을 확장할 수 있다.
즉, n+1차원의 제1 워드벡터(W1')에 포함된 n+1번째 원소의 값은, 상기 n차원의 제1 워드벡터(W1)에 포함된 원소들의 평균 값이다. 그리고, 상기 n+1차원의 제2 워드벡터(W2')에 포함된 n+1번째 원소의 값은, 상기 n차원의 제2 워드벡터(W2)에 포함된 원소들의 평균 값이다.
나아가, 상기 n+1차원의 제1 워드벡터(W1')에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제1 워드벡터(W1)에 포함된 1부터 n번째 원소의 값과 동일하다. 마찬가지로, 상기 n+1차원의 제2 워드벡터(W2')에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제2 워드벡터(W2)에 포함된 1부터 n번째 원소의 값과 동일하다.
이와 같이, 워드벡터의 확장이 이루어지면, 확장된 차원의 워드벡터들 간의 유사도를 판단하는 과정을 수행한다(S230).
유사도 판단부(130)는, n차원의 워드벡터가, n+1차원의 워드벡터로 확장된 경우, 확장된 n+1차원의 워드벡터들 간의 유사도를 판단한다.
보다 구체적으로, 유사도 판단부(130)는 기 특정된 동의어 정보에 기반하여, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어 간의 유사 여부를 판단한다.
유사도 판단부(130)는 적어도 두개의 n+1차원의 워드벡터들 간의 유사도를 판단할 수 있다. 특정된 동의어 정보는, 적어도 두개의 단어 간의 유사도 정보를 포함할 수 있다.
여기에서, 기 특정된 동의어 정보는, 단어들에 대한 유사어 정보를 포함하는 데이터 베이스로서, GloVe(Global Vectors) 같은 데이터를 의미할 수 있다. 유사도 판단부(130)는 이러한 기 특정된 동의어 정보에 기반하여, 유사 여부의 판단 대상이 되는 적어도 두개의 워드벡터들의 유사 여부를 판단한다.
이와 같이, 유사도의 판단이 수행되면, 유사도 판단 결과를, 확장된 차원의 워드벡터에 반영하는 과정이 진행된다(S240).
유사도 반영부(140)는 유사도 판단부(130)에서 판단한 결과에 기반하여, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어가 유사 단어인 경우, 상기 n+1차원의 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값을 업데이트할 수 있다. 유사도 반영부(140)는 '업데이트부'라고도 명명될 수 있다.
유사도 반영부(140)는, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어 유사여부에 따라, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값의 업데이트 여부를 결정한다.
보다 구체적으로, 도 4c에 도시된 것과 같이, 유사도 반영부(140)는, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소의 평균값(예를 들어, 도 4c에 도시된 것과 같이, 0.45로 산출됨)을 산출하고, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경한다.
따라서, 상기 제1 및 제2 단어가 유사단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2')는, n+1번째 원소 값이 변경된 n+1차원의 제1 및 제2 워드벡터(W1", W2")로 변경된다.
한편, 유사도 판단부(130)에서 판단 결과, 상기 제1 및 제2 단어가, 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 업데이트 되지 않는다.
즉, 유사도 반영부(140)는, 상기 제1 및 제2 단어가, 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1번째 원소의 값은 변경하지 않고 유지한다. 이 경우, 도 4b에 도시된 것과 같이, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2')의 원소값이 그대로 유지된다.
이와 같이, 본 발명에서는, 제1 및 제2 단어가 유사한 경우에만, n+1번째의 원소값을, 동일한 값으로 업데이트 함으로써, 제1 및 제2 워드벡터(W1, W1', W1", W2, W2', W2")간의 연관성을 부여한다.
제1 및 제2 워드벡터(W1, W1', W1", W2, W2', W2")에서, n+1번째의 원소값이 동일한 경우, n+1번째의 원소값이 동일하지 않은 경우보다, 벡터 공간에서 상호 더 가까운 거리를 유지할 수 있다.
이와 같이, 유사도 판단 결과의 반영이 완료되면, 워드벡터의 차원을 축소하는 과정이 진행된다(S250).
즉, n+1번째 원소에 대한 업데이트가 완료되면, 워드벡터 차원 축소부(150)는, 상기 n+1차원의 워드벡터를 다시 n차원의 워드벡터로 차원을 축소한다.
워드벡터 차원 축소부(150)는, n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2")의 n+1번째 원소 값을, n차원의 제1 및 제2 워드벡터(W1, W2) 각각에 포함된 원소들에 반영하여, 상기 n차원의 제1 및 제2 워드벡터(W1, W2)를 보정한다.
워드벡터 차원 축소부(150)는 상기 n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2") 각각에 LDA(Linear Discriminant Analysis) 알고리즘을 적용하여, 상기 n+1차원의 제1 및 제2 워드벡터 (W1'또는 W1", W2' 또는 W2")를 n차원의 제1 및 제2 워드벡터(W1"', W2"')로 보정한다. 보정 결과, 보정 후의 n차원의 제1 및 제2 워드벡터(W1"', W2"')의 원소 값 중 적어도 하나는, 보정 전의 제1 및 제2 워드벡터(W1, W2)와 상이할 수 있다.
워드벡터 차원 축소부(150)는 상기 n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2") 각각에 LDA(Linear Discriminant Analysis, 도 참조) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터(W1, W2)에 포함된 원소들에 각각 분산함으로써, 상기 n차원의 제1 및 제2 워드벡터(W1, W2)를 보정할 수 있다.
이상에서 살펴본 것과 같이, 보정 결과, 상기 n차원 상에서, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"', W2"') 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1, W2) 간의 거리의 거리와 다를 수 있다.
본 발명에 따르면, 상기 제1 및 제2 단어가 유사 단어인 경우, 도 5a 및 도 5b에 도시된 것과 같이, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"' (510"'), W2"'(520"')) 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1(510), W2 (520)) 간의 거리보다 더 가깝게 배치될 수 있다. 나아가, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"'(510"'), W2"' (520"')) 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1(510, W2(520) 간의 거리보다 더 멀게 배치될 수 있다.
한편, 도 5a 및 도 5b에 도시된 것과 같이, 제3 단어가 제1 및 제2 단어와 비유사 단어인 경우, 보정 전 제3 단어에 해당하는 n차원의 제3 워드벡터(W3(530))와, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1(510), W2(530)) 간의 거리는, 보정 후 더 멀어질 수 있다(도 5b의 510"', 520"', 530"' 참조).
이와 같이, 본 발명은, 워드 벡터의 차원을 확장함으로써, 확장된 워드 벡터의 원소에 워드 벡터에 대응되는 단어들의 유사도를 반영할 수 있다. 따라서, 확장된 차원의 워드 벡터는 단어들의 유사도를 반영하도록 업데이트된다.
이러한 확장된 차원의 워드 벡터는 특정 기법에 의하여, 다시 원래의 차원으로 환산되며, 환산 결과, 벡터 공간 상에서 유사한 단어 간의 거리는 더욱 가까워지고, 비유사한 단어간의 거리는 더욱 멀어진다. 따라서, 따라서, 본 발명에 따르면 유사 단어와 비유사 단어간의 구분이 명확해지며, 그 결과 유사 단어를 보다 정확하게 판단할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (10)

  1. n차원을 갖는 워드벡터를 이용한 워드벡터 보정 방법에 관한 것으로서,
    n차원의 제 1 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제1 워드벡터를 생성하는 단계;
    n차원의 제2 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제2 워드벡터를 생성하는 단계;
    기 특정된 동의어 정보에 기반하여, 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부를 판단하는 단계;
    상기 판단결과, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을 업데이트하는 단계; 및
    상기 업데이트된 n+1번째 원소 값을, 상기 n차원의 제1 및 제2 워드벡터 각각에 포함된 원소들에 반영하여, 상기 n차원의 제1 및 제2 워드벡터를 보정하는 단계를 포함하는 것을 특징으로 하는 워드벡터 보정 방법.
  2. 제1항에 있어서,
    상기 n차원의 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 n차원의 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부에 따라,
    상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값의 업데이트 여부가 결정되는 것을 특징으로 하는 워드벡터 보정 방법.
  3. 제2항에 있어서,
    상기 업데이트하는 단계는,
    상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소의 평균값을 산출하고,
    상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경하는 것을 특징으로 하는 워드벡터 보정 방법.
  4. 제3항에 있어서,
    상기 판단결과, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 업데이트 되지 않는 것을 특징으로 하는 워드벡터 보정 방법.
  5. 제1항에 있어서,
    상기 n+1차원의 상기 제1 워드벡터를 생성하는 단계에서, 상기 n+1차원의 제1 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 원소들의 평균 값이고,
    상기 n+1차원의 상기 제1 워드벡터를 생성하는 단계에서, 상기 n+1차원의 제2 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 원소들의 평균 값인 것을 특징으로 하는 워드벡터 보정 방법.
  6. 제5항에 있어서,
    상기 n+1차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값과 동일하고,
    상기 n+1차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값과 동일한 것을 특징으로 하는 워드벡터 보정 방법.
  7. 제1항에 있어서,
    상기 보정하는 단계는,
    상기 n+1차원의 제1 및 제2 워드벡터 각각에 LDA(Linear Discriminant Analysis) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터에 포함된 원소들에 각각 분산하는 것을 특징으로 하는 워드벡터 보정 방법.
  8. 제7항에 있어서,
    상기 n차원 상에서,
    상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는,
    보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리의 거리와 다른 것을 특징으로 하는 워드벡터 보정 방법.
  9. 제8항에 있어서,
    상기 제1 및 제2 단어가 유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 가까운 것을 특징으로 하는 워드벡터 보정 방법.
  10. 제9항에 있어서,
    상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 먼 것을 특징으로 하는 워드벡터 보정 방법.
PCT/KR2019/095025 2018-09-06 2019-05-31 워드벡터 보정 방법 WO2020050706A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/553,014 US11256869B2 (en) 2018-09-06 2019-08-27 Word vector correction method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862728063P 2018-09-06 2018-09-06
US62/728,063 2018-09-06

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/553,014 Continuation US11256869B2 (en) 2018-09-06 2019-08-27 Word vector correction method

Publications (1)

Publication Number Publication Date
WO2020050706A1 true WO2020050706A1 (ko) 2020-03-12

Family

ID=69723080

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/095025 WO2020050706A1 (ko) 2018-09-06 2019-05-31 워드벡터 보정 방법

Country Status (1)

Country Link
WO (1) WO2020050706A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
JP2016224482A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 同義語ペア獲得装置、方法、及びプログラム
JP2017152042A (ja) * 2017-05-10 2017-08-31 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム
KR20170141570A (ko) * 2016-06-15 2017-12-26 숭실대학교산학협력단 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
JP2016224482A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 同義語ペア獲得装置、方法、及びプログラム
KR20170141570A (ko) * 2016-06-15 2017-12-26 숭실대학교산학협력단 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
JP2017152042A (ja) * 2017-05-10 2017-08-31 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HWIYEOL JO: "Extrofitting: Enriching Word Representation and its Vector Space with Semantic Lexicons", 3 June 2018 (2018-06-03), XP081236993, Retrieved from the Internet <URL:https://arxiv.org/pdf/1804.07946v2.pdf> [retrieved on 20190830] *

Similar Documents

Publication Publication Date Title
WO2018212484A1 (ko) 객체의 서식을 유지하는 문서 편집 장치 및 그의 동작 방법
WO2021194056A1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
WO2018026033A1 (ko) 문서의 동시 편집을 지원하는 문서 협업 지원 장치 및 그 동작 방법
WO2019209040A1 (en) Multi-models that understand natural language phrases
WO2014106979A1 (ko) 통계적 음성 언어 이해 방법
WO2022124725A1 (ko) 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
WO2020032420A1 (en) Method for training and testing data embedding network to generate marked data by integrating original data with mark data, and training device and testing device using the same
WO2017092636A1 (zh) 具有三级索引结构的海图数据库及其数据读取方法
WO2016208941A1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
WO2020213785A1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
WO2022220354A1 (ko) 어군 생태계의 이상 여부를 감지하기 위한 어군 생태계 모니터링 시스템 장치 및 그 동작 방법
WO2020050706A1 (ko) 워드벡터 보정 방법
WO2021215620A1 (ko) 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법
WO2023167466A1 (ko) 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템
WO2019198900A1 (en) Electronic apparatus and control method thereof
WO2019231162A1 (ko) 이미지 분할 방법 및 장치
WO2020213757A1 (ko) 단어 유사도 판단 방법
WO2022270840A1 (ko) 외국어 학습자의 어휘 실력 예측과 향상을 위한 딥러닝 기반의 단어 추천 시스템
WO2022107955A1 (ko) 의미역 결정 기반 신경망 연산 방법 및 장치
WO2021002523A1 (ko) 뉴로모픽 장치
WO2022220496A1 (ko) 신경망 기반의 생물학적상태데이터 변환 장치 및 그 방법
WO2023090499A1 (ko) 심층신경망을 위한 희소성 학습 기반 필터 프루닝 기법
WO2019189969A1 (ko) 빅데이터 개인정보 익명화 및 익명 데이터 결합 방법
WO2023204474A1 (ko) 사용자 의도의 매핑을 이용하는 대화시스템
WO2023085499A1 (ko) 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19856955

Country of ref document: EP

Kind code of ref document: A1