KR20210070768A - Learning data generating apparatus, and control method thereof - Google Patents

Learning data generating apparatus, and control method thereof Download PDF

Info

Publication number
KR20210070768A
KR20210070768A KR1020190160880A KR20190160880A KR20210070768A KR 20210070768 A KR20210070768 A KR 20210070768A KR 1020190160880 A KR1020190160880 A KR 1020190160880A KR 20190160880 A KR20190160880 A KR 20190160880A KR 20210070768 A KR20210070768 A KR 20210070768A
Authority
KR
South Korea
Prior art keywords
word
english word
english
learning data
attribute
Prior art date
Application number
KR1020190160880A
Other languages
Korean (ko)
Other versions
KR102390804B1 (en
Inventor
이승우
이상환
장홍준
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020190160880A priority Critical patent/KR102390804B1/en
Publication of KR20210070768A publication Critical patent/KR20210070768A/en
Application granted granted Critical
Publication of KR102390804B1 publication Critical patent/KR102390804B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Abstract

The present invention relates to a device for generating learning data for reflecting text composition information included in a word when embedding an English word as a vector for learning; and an operation method thereof. The device for generating learning data comprises: a confirmation part; and a conversion part.

Description

학습데이터생성장치 및 그 동작 방법{LEARNING DATA GENERATING APPARATUS, AND CONTROL METHOD THEREOF}Learning data generating device and its operation method {LEARNING DATA GENERATING APPARATUS, AND CONTROL METHOD THEREOF}

본 발명은 학습데이터 생성과 관련된 것으로서, 영어 단어를 학습을 위한 벡터로 임베딩(embedding)할 때, 단어에 포함된 문자 구성 정보를 반영하기 위한 방안에 관한 것이다.The present invention relates to the generation of learning data, and relates to a method for reflecting character composition information included in the word when embedding an English word as a vector for learning.

NLP(Natural Language Processing) 및 텍스트 마이닝 분야에서 딥러닝 기술을 적용하기 위해서는 필연적으로 텍스트(단어 혹은 문자)를 수치 벡터로 변환하는 임베딩 과정이 요구된다.In order to apply deep learning technology in the fields of NLP (Natural Language Processing) and text mining, an embedding process that converts text (words or characters) into numerical vectors is inevitably required.

여기에는 대용량 텍스트 데이터로부터 단어의 벡터를 미리 학습하는 pre-trained word embedding 방식으로 예컨대, Word2Vec, Glove, Fasttext 등의 기술이 사용되고 있다.For example, Word2Vec, Glove, and Fasttext are used as a pre-trained word embedding method that learns a vector of words from large text data in advance.

그러나 이러한 기존 기술들은 각 단어의 주변 단어들의 분포 다시 말해, 단어간 정보(inter-word info.)로부터 그 단어의 벡터를 학습하는 방식으로, 각 단어의 문자 구성(대소문자 알파벳, 숫자, 기호 등)에 대한 정보는 담지 못한다는 한계점이 있다.However, these existing technologies are a method of learning the vector of the word from the distribution of words around each word, that is, inter-word info., and the character composition of each word (uppercase and lowercase alphabets, numbers, symbols, etc.) ) has a limitation in that it cannot contain information about

이를 보완하기 위한 방안으로 문자 단위의 임베딩이나 대표적인 4~5가지 문자구성 유형(eg. allCaps, initCap, mixedCaps, lowecase, 등)으로 구분하는 정보를 추가하는 방식이 사용되고 있지만, 마찬가지로 단어의 다양한 문자 구성을 제대로 커버하지는 못하고 있는 실정이다. As a way to supplement this, embedding in character units or adding information to classify into 4 or 5 typical character composition types (eg allCaps, initCap, mixedCaps, lowecase, etc.) is used, but similarly, various character composition of words is not properly covered.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 영어 단어를 학습을 위한 벡터로 임베딩(embedding)할 때, 단어에 포함된 문자 구성 정보를 반영하는데 있다.The present invention was created in view of the above circumstances, and an object of the present invention is to reflect the character composition information included in the word when embedding an English word as a vector for learning.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 학습데이터생성장치는, 학습 대상인 영어 단어의 문자 구성 정보로부터 상기 영어 단어에 대한 단어 속성을 확인하는 확인부; 및 상기 단어 속성 별로 기 정의되는 추상화 규칙에 따라 상기 영어 단어를 축약하여 추상화 단어로 변환하는 변환부를 포함하는 것을 특징으로 한다.According to an embodiment of the present invention, there is provided an apparatus for generating learning data for achieving the above object, comprising: a confirmation unit for confirming a word attribute of an English word from character composition information of an English word to be learned; and a conversion unit that abbreviates and converts the English word into an abstract word according to an abstraction rule defined for each word attribute.

구체적으로, 상기 학습데이터생성장치는, 상기 추상화 단어에 대한 임베딩(embedding)을 통해 상기 영어 단어의 학습을 위한 벡터를 생성하는 생성부를 더 포함할 수 있다.Specifically, the learning data generating apparatus may further include a generator for generating a vector for learning the English word through embedding of the abstract word.

구체적으로, 상기 단어 속성은, 상기 영어 단어의 문자 구성 정보로서 포함될 수 있는 알파벳, 숫자, 및 기호 중 적어도 하나의 단어 유형에 의해 결정될 수 있다.Specifically, the word attribute may be determined by a word type of at least one of alphabets, numbers, and symbols that may be included as character composition information of the English word.

구체적으로, 상기 변환부는, 상기 단어 속성이 알파벳인 것으로 확인되는 경우, 상기 영어 단어에 포함된 대문자 및 소문자를 기 정의된 대표 알파벳 대문자 및 소문자로 각각 대체하여 나타내며, 상기 영어 단어가 포함하는 2 이상의 연속된 대문자 문자열 및 소문자 문자열에 대해서는, 상기 대표 알파벳 대문자 및 소문자 각각을 기 정의된 개수만큼 나열한 형태로 축약할 수 있다.Specifically, when it is confirmed that the word attribute is an alphabet, the conversion unit replaces the uppercase and lowercase letters included in the English word with a predefined representative uppercase letter and lowercase letter, respectively, and displays two or more words included in the English word. With respect to the continuous uppercase and lowercase character strings, each of the uppercase and lowercase letters of the representative alphabet may be abbreviated in a form in which a predefined number is arranged.

구체적으로, 상기 변환부는, 상기 단어 속성이 숫자인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 각 숫자를 기 정의된 대표 숫자로 대체하여 나타내며, 상기 영어 단어가 포함하는 숫자의 자릿수에 대해서는, 숫자임을 나타내는 지정 알파벳 문자와 상기 자릿수에 상응하는 수치의 숫자를 이웃하게 나열한 형태로 축약할 수 있다.Specifically, when it is confirmed that the word attribute is a number, the conversion unit replaces each number included in the English word with a predefined representative number, and for the number of digits of the number included in the English word, a number It can be abbreviated in the form of arranging the designated alphabetic character indicating that , and the number of the numerical value corresponding to the number of digits.

구체적으로, 상기 변환부는, 상기 단어 속성이 기호인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 2 이상의 연속된 특정 기호에 대해서 상기 특정 기호를 기 정의된 개수만큼 나열한 형태로 축약할 수 있다.Specifically, when it is confirmed that the word attribute is a symbol, the conversion unit may abbreviate in a form in which a predetermined number of the specific symbols are listed for two or more consecutive specific symbols included in the English word.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 학습데이터생성장치의 동작 방법은, 학습 대상인 영어 단어의 문자 구성 정보로부터 상기 영어 단어에 대한 단어 속성을 확인하는 확인단계; 및 상기 단어 속성 별로 기 정의되는 추상화 규칙에 따라 상기 영어 단어를 축약하여 추상화 단어로 변환하는 변환단계를 포함하는 것을 특징으로 한다.In order to achieve the above object, an operating method of an apparatus for generating learning data according to an embodiment of the present invention includes: a confirmation step of confirming a word attribute of an English word from character composition information of an English word to be learned; and a conversion step of converting the English word into an abstract word by abbreviated according to an abstraction rule previously defined for each word attribute.

구체적으로, 상기 방법은, 상기 추상화 단어에 대한 임베딩(embedding)을 통해 상기 영어 단어의 학습을 위한 벡터를 생성하는 생성단계를 더 포함할 수 있다.Specifically, the method may further include a generating step of generating a vector for learning the English word through embedding of the abstract word.

구체적으로, 상기 단어 속성은, 상기 영어 단어의 문자 구성 정보로서 포함될 수 있는 알파벳, 숫자, 및 기호 중 적어도 하나의 단어 유형에 의해 결정될 수 있다.Specifically, the word attribute may be determined by a word type of at least one of alphabets, numbers, and symbols that may be included as character composition information of the English word.

구체적으로, 상기 단어 속성이 알파벳인 것으로 확인되는 경우, 상기 영어 단어에 포함된 대문자 및 소문자를 기 정의된 대표 알파벳 대문자 및 소문자로 각각 대체하여 나타내며, 상기 영어 단어가 포함하는 2 이상의 연속된 대문자 문자열 및 소문자 문자열에 대해서는, 상기 대표 알파벳 대문자 및 소문자 각각을 기 정의된 개수만큼 나열한 형태로 축약할 수 있다.Specifically, when it is confirmed that the word attribute is an alphabet, uppercase and lowercase letters included in the English word are replaced with predefined representative uppercase and lowercase letters, respectively, and two or more consecutive uppercase character strings included in the English word and for the lowercase character string, each of the uppercase and lowercase letters of the representative alphabet may be abbreviated in a form in which a predefined number is listed.

구체적으로, 상기 변환단계는, 상기 단어 속성이 숫자인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 각 숫자를 기 정의된 대표 숫자로 대체하여 나타내며, 상기 영어 단어가 포함하는 숫자의 자릿수에 대해서는, 숫자임을 나타내는 지정 알파벳 문자와 상기 자릿수에 상응하는 수치의 숫자를 이웃하게 나열한 형태로 축약할 수 있다.Specifically, in the conversion step, when it is confirmed that the word attribute is a number, each number included in the English word is replaced with a predefined representative number, and with respect to the number of digits of the number included in the English word, It can be abbreviated in a form in which a designated alphabetic character indicating a number and a number of a numerical value corresponding to the number of digits are arranged adjacent to each other.

구체적으로, 상기 변환단계는, 상기 단어 속성이 기호인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 2 이상의 연속된 특정 기호에 대해서 상기 특정 기호를 기 정의된 개수만큼 나열한 형태로 축약할 수 있다.Specifically, in the conversion step, when it is confirmed that the word attribute is a symbol, for two or more consecutive specific symbols included in the English word, the specific symbols may be abbreviated in a form in which a predefined number is listed.

이에, 본 발명의 학습데이터생성장치 및 그 동작 방법에서는, 영어 단어를 학습을 위한 벡터로 임베딩할 때, 단어에 포함된 문자 구성 정보를 반영함으로써, NLP(Natural Language Processing) 및 텍스트 마이닝 분야에서의 학습 효과를 높일 수 있다.Accordingly, in the learning data generating apparatus and the operating method of the present invention, when embedding an English word as a vector for learning, by reflecting the character composition information included in the word, in the field of NLP (Natural Language Processing) and text mining It can increase the learning effect.

도 1은 본 발명의 일 실시예에 따른 학습 데이터 생성 환경을 나타내는 예시도.
도 2는 본 발명의 일 실시예에 따른 학습데이터생성장치의 개략적인 구성도.
도 3은 본 발명의 일 실시예에 따른 학습데이터생성장치의 동작 방법을 설명하기 위한 순서도.
1 is an exemplary diagram illustrating a learning data generation environment according to an embodiment of the present invention.
2 is a schematic configuration diagram of an apparatus for generating learning data according to an embodiment of the present invention;
3 is a flowchart illustrating an operating method of an apparatus for generating learning data according to an embodiment of the present invention;

도 1은 본 발명의 일 실시예에 따른 학습 데이터 생성 환경을 개략적으로 보여주고 있다.1 schematically shows a learning data generation environment according to an embodiment of the present invention.

본 발명의 일 실시예에서는, NLP(Natural Language Processing) 및 텍스트 마이닝 분야에서 딥러닝 기술의 적용을 위해 영어 단어를 수치 벡터로 변환하는 절차인 임베딩 과정을 다루고 있다.An embodiment of the present invention deals with an embedding process, which is a procedure for converting English words into numerical vectors for application of deep learning techniques in the fields of natural language processing (NLP) and text mining.

영어 단어는 알파벳 대문자와 알파벳 소문자, 숫자, 다양한 기호들을 포함하는 문자 구성 정보를 가질 수 있다.The English word may have character composition information including uppercase letters and lowercase letters of the alphabet, numbers, and various symbols.

영어에서 알파벳의 경우, 대문자인지 소문자인지의 구분은 고유명사(이름)인지 여부를 판단하는데 중요한 힌트가 될 수 있다. 또한, 첫 문자만 대문자인지, 단어 전체가 대문자인지 또한 의미를 갖는다.In the case of the English alphabet, the distinction between uppercase and lowercase letters can be an important hint in determining whether or not it is a proper noun (name). It also has meaning whether only the first letter is capitalized or the whole word is capitalized.

숫자의 경우, 몇 자리 숫자인지의 정보가 중요하다.In the case of numbers, information about how many digits is important is important.

예를 들어, 날짜 (년, 월, 일)를 표현하는데 숫자가 사용되는데, 년도는 주로 2자리 혹은 4자리 숫자로 표현되며, 월과 일은 1자리 혹은 2자리 숫자로 표현된다.For example, a number is used to represent a date (year, month, day). The year is usually represented by two or four digits, and the month and day are represented by one or two digits.

따라서, 숫자가 몇 자리인지는 그 숫자를 년도나 월, 일로 해석할 수 있는지에 대한 힌트를 제공할 수 있다.Therefore, the number of digits in a number can provide a hint as to whether the number can be interpreted as a year, month, or day.

다양한 기호들 또한 문장에서 사용될 때, 각각의 의미를 가질 수 있다.Various symbols can also have different meanings when used in a sentence.

이처럼, 문자 구성 정보는 영어 단어가 가지는 의미를 해석하는데 있어서 중요한 역할을 하며, As such, the character composition information plays an important role in interpreting the meaning of English words,

이에, NLP및 텍스트 마이닝 분야에 있어서 영어 단어의 학습 효과를 제고하기 위해서는, 이러한 문자 구성 정보의 학습이 반드시 필요하다고 볼 수 있다.Therefore, in order to improve the learning effect of English words in the fields of NLP and text mining, it can be seen that learning of such character composition information is absolutely necessary.

이에, 본 발명의 일 실시예에 따른 학습 데이터 생성 환경에서는, 영어 단어를 학습을 위한 벡터로 임베딩(embedding)할 때, 단어에 포함된 문자 구성 정보를 반영하기 위한 구성인, 학습데이터생성장치(100)의 구성을 포함하게 된다.Accordingly, in the learning data generating environment according to an embodiment of the present invention, when embedding an English word as a vector for learning, the learning data generating device ( 100) will be included.

이러한, 학습데이터생성장치(100)는 NLP및 텍스트 마이닝 분야에서 학습 데이터를 생성하는 장치를 일컫는 것으로서, 예컨대, 소프트웨어(예: 애플리케이션)를 탑재한 컴퓨팅장치(예: PC), 또는 유무선 통신망을 통해 접속 가능한 서버의 형태로 구현될 수 있다.The learning data generating device 100 refers to a device for generating learning data in the fields of NLP and text mining, for example, a computing device (eg, PC) loaded with software (eg, application), or through a wired/wireless communication network. It can be implemented in the form of a connectable server.

참고로, 이러한 학습데이터생성장치(100)가 서버의 형태로 구현되는 경우에는, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다.For reference, when the learning data generating apparatus 100 is implemented in the form of a server, it may be implemented in the form of, for example, a web server, a database server, a proxy server, etc., and a network load balancing mechanism, or a service device is provided on the Internet Alternatively, one or more of various software to be operated on another network may be installed, and may be implemented as a computerized system through this.

이상 본 발명의 일 실시예에 따른 학습 데이터 생성 환경에서는, 전술한 구성을 통해서 영어 단어를 학습을 위한 벡터로 임베딩(embedding)할 때, 단어에 포함된 문자 구성 정보를 반영할 수 있는데, 이하에서는 이를 실현하기 위한 학습데이터생성장치(100)의 구성을 보다 구체적으로 설명하기로 한다.As described above, in the learning data generation environment according to an embodiment of the present invention, when an English word is embedded as a vector for learning through the above-described configuration, character composition information included in the word may be reflected. The configuration of the learning data generating apparatus 100 for realizing this will be described in more detail.

도 2는 본 발명의 일 실시예에 따른 학습데이터생성장치(100)의 개략적인 구성을 보여주고 있다.2 shows a schematic configuration of an apparatus 100 for generating learning data according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 학습데이터생성장치(100)는 영어 단어의 단어 속성을 확인하는 확인부(10), 및 영어 단어를 추상화 단어로 변환하는 변환부(20)를 포함할 수 있다.As shown in FIG. 2 , the learning data generating apparatus 100 according to an embodiment of the present invention includes a confirmation unit 10 that checks the word properties of English words, and a conversion unit that converts English words into abstract words ( 20) may be included.

또한, 본 발명의 일 실시예에 따른 학습데이터생성장치(100)는 전술한 구성 이외에 영어 단어의 학습을 위한 벡터를 생성하는 생성부(30)를 더 포함할 수 있다.In addition, the learning data generating apparatus 100 according to an embodiment of the present invention may further include a generating unit 30 that generates a vector for learning English words in addition to the above-described configuration.

이상의 확인부(10), 변환부(20), 및 생성부(30)를 포함하는 학습데이터생성장치(100)의 전체 구성 내지는 적어도 일부의 구성은 소프트웨어 모듈 또는 하드웨어 모듈 형태로 구현되거나, 내지는 소프트웨어 모듈과 하드웨어 모듈이 조합된 형태로도 구현될 수 있다.The entire configuration or at least a part of the configuration of the learning data generating apparatus 100 including the confirmation unit 10, the conversion unit 20, and the generation unit 30 is implemented in the form of a software module or a hardware module, or software A module and a hardware module may be implemented in a combined form.

여기서, 소프트웨어 모듈이란, 예컨대, 학습데이터생성장치(100) 내에서 연산을 수행하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 학습데이터생성장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.Here, the software module, for example, may be understood as an instruction executed by a processor that performs an operation in the learning data generating apparatus 100, and these instructions are mounted in a memory in the learning data generating apparatus 100. will be able to have

한편, 본 발명의 일 실시예에 따른 학습데이터생성장치(100)는 전술한 구성 이외에, 데이터 송수신을 위한 통신부(40)의 구성을 더 포함할 수 있다.Meanwhile, the learning data generating apparatus 100 according to an embodiment of the present invention may further include a configuration of the communication unit 40 for data transmission and reception in addition to the aforementioned configuration.

이러한, 통신부(40)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.The communication unit 40 includes, for example, but not limited to, an antenna system, an RF transceiver, one or more amplifiers, a tuner, one or more oscillators, a digital signal processor, a codec (CODEC) chipset, and a memory, and the like, All known circuits to perform may be included.

결국, 본 발명의 일 실시예에 따른 학습데이터생성장치(100)는 위 구성을 통해 영어 단어를 문자 구성 정보를 반영한 추상화 단어로 변환하여 학습을 위한 벡터로 생성할 수 있는데, 이하에서는 이를 실현하기 위한 학습데이터생성장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.After all, the learning data generating apparatus 100 according to an embodiment of the present invention can convert an English word into an abstract word reflecting character composition information through the above configuration and generate a vector for learning. For each configuration in the learning data generating apparatus 100 will be described in more detail.

확인부(10)는 학습을 위한 영어 단어의 단어 속성을 확인하는 기능을 수행한다.The confirmation unit 10 performs a function of confirming the word attribute of an English word for learning.

보다 구체적으로, 확인부(100)는 학습 대상인 영어 단어의 문자 구성 정보로부터 영어 단어가 가지는 단어 속성을 확인하게 된다.More specifically, the check unit 100 checks the word attribute of the English word from the character composition information of the English word as a learning target.

여기서, 문자 구성 정보는, 앞서 잠시 언급한 바와 같이, 알파벳 대문자와 알파벳 소문자, 숫자, 다양한 기호들을 포함한다.Here, the character configuration information includes uppercase letters and lowercase letters of the alphabet, numbers, and various symbols, as briefly mentioned above.

이에, 확인부(100)는 영어 단어의 문자 구성 정보로서 포함될 수 있는 알파벳, 숫자, 및 기호 중 적어도 하나의 단어 유형을 영어 단어의 단어 속성으로서 확인할 수 있다.Accordingly, the confirmation unit 100 may confirm, as a word attribute of an English word, a word type of at least one of alphabets, numbers, and symbols that may be included as character configuration information of an English word.

변환부(20)는 영어 단어를 추상화 단어로 변환하는 기능을 수행한다.The conversion unit 20 performs a function of converting an English word into an abstract word.

보다 구체적으로, 영어 단어에 대한 단어 속성이 확인되면, 단어 속성 별로 기 정의되는 추상화 규칙에 따라 영어 단어를 축약하여 추상화 단어로 변환하게 된다.More specifically, when the word attribute of the English word is confirmed, the English word is abbreviated and converted into an abstract word according to an abstraction rule predefined for each word attribute.

이때, 변환부(20)는 영어 단어의 단어 속성이 알파벳인 것으로 확인되는 경우, 영어 단어에 포함된 대문자 및 소문자를 기 정의된 대표 알파벳 대문자(예: A) 및 소문자(예: a)로 각각 대체하여 나타낼 수 있다.At this time, when it is confirmed that the word attribute of the English word is an alphabet, the conversion unit 20 converts uppercase and lowercase letters included in the English word into predefined representative uppercase letters (eg, A) and lowercase letters (eg, a), respectively. can be represented by substitution.

예를 들어, 아래 [표 1]에는 본 발명의 일 실시예에 따른 알파벳 변환 방식을 예시적으로 보여주고 있다.For example, [Table 1] below exemplarily shows an alphabet conversion method according to an embodiment of the present invention.

영어 단어 내 알파벳english word my alphabet 대표 알파벳representative alphabet 추상화 단어abstract word A~ZA to Z AA AA a~za-z aa aa

한편, 변환부(20)는 영어 단어가 포함하는 2 이상의 연속된 대문자 문자열 및 소문자 문자열에 대해서는, 대표 알파벳 대문자(예: A) 및 소문자(예: a) 각각을 기 정의된 개수(예: 2개)만큼 나열한 형태로 축약할 수 있다.이와 관련하여, 아래 [표 2]에는 본 발명의 일 실시예에 따른 알파벳 문자열 변환 방식을 예시적으로 보여주고 있다.On the other hand, the conversion unit 20, for two or more consecutive uppercase character string and lowercase character string included in the English word, each of the representative alphabet uppercase letters (eg, A) and lowercase letters (eg, a) a predefined number (eg, 2) ) can be abbreviated. In this regard, [Table 2] below exemplarily shows an alphabetic character string conversion method according to an embodiment of the present invention.

영어 단어 내 알파벳english word my alphabet 대표 알파벳representative alphabet 추상화 단어abstract word AA+AA+ AA AAAA a+a+ aa aaaa

여기서, +는 해당 알파벳 문자가 기재 이상으로 존재한다는 것을 의미한다.또한, 변환부(20)는 단어 속성이 숫자인 것으로 확인되는 경우, 영어 단어가 포함하는 각 숫자를 기 정의된 대표 숫자(예: 9)로 대체하는 방식으로 나타낼 수 있다.Here, + means that the corresponding alphabetic character exists more than described. In addition, when it is confirmed that the word attribute is a number, the conversion unit 20 converts each number included in the English word to a predefined representative number (eg, : 9) can be expressed in a way that replaces

이와 관련하여, 아래 [표 3]에는 본 발명의 일 실시예에 따른 숫자 변환 방식을 예시적으로 보여주고 있다.In this regard, [Table 3] below exemplarily shows a number conversion method according to an embodiment of the present invention.

영어 단어 내 숫자numbers in english words 대표 숫자representative number 추상화 단어abstract word 0~90-9 99 99

한편, 변환부(20)는 영어 단어가 포함하는 숫자의 자릿수에 대해서는, 숫자임을 나타내는 지정 알파벳 문자(예: D)와 자릿수에 상응하는 수치의 숫자를 이웃하게 나열한 형태로 축약할 수 있다. 다만, 자릿수에 상응하는 수치의 숫자는 임계수치(예:5)를 초과할 수 없도록 정의될 수 있다.Meanwhile, the conversion unit 20 may abbreviate the number of digits included in the English word in a form in which a designated alphabetic character (eg, D) indicating that it is a number and a number of a numerical value corresponding to the number of digits are arranged adjacent to each other. However, the number of numerical values corresponding to the number of digits may be defined not to exceed a threshold value (eg, 5).

이와 관련하여, 아래 [표 4]에는 본 발명의 일 실시예에 따른 자릿수 표현 방식을 예시적으로 보여주고 있다.In this regard, [Table 4] below exemplarily shows a digit expression method according to an embodiment of the present invention.

영어 단어 내 숫자numbers in english words 지정 알파벳designated alphabet 추상화 단어abstract word 99999+99999+ DD D5D5 99999999 D4D4 999999 D3D3 9999 D2D2 99 D1D1

여기서, +는 해당 숫자의 자릿수가 기재 이상으로 존재한다는 것을 의미한다.또한, 변환부(20)는 영어 단어의 단어 속성이 기호인 것으로 확인되는 경우, 영어 단어가 포함하는 2 이상의 연속된 특정 기호에 대해서 상기 특정 기호를 기 정의된 개수(예: 2개)만큼 나열한 형태로 축약할 수 있다.Here, + means that the number of digits of the corresponding number is greater than described. In addition, when it is confirmed that the word attribute of the English word is a symbol, the conversion unit 20 includes two or more consecutive specific symbols included in the English word. can be abbreviated in a form in which the specific symbols are listed by a predefined number (eg, two).

이와 관련하여, 아래 [표 5]에는 본 발명의 일 실시예에 따른 기호 변환 방식을 예시적으로 보여주고 있다.In this regard, [Table 5] below exemplarily shows a symbol conversion method according to an embodiment of the present invention.

영어 단어 내 숫자numbers in english words 추상화 단어abstract word --+--+ ----

여기서, +는 해당 기호가 기재 이상으로 존재한다는 것을 의미한다.이처럼, 본 발명의 일 실시예에서는, 영어 단어의 단어 속성 별 추상화 규칙에 따라 추상화 단어로의 변환을 수행함에 따라, 하나의 영어 단어 내 알파벳, 숫자, 기호가 복합되더라도 전술한 속성 변환 방식을 동일하게 적용하는 것이 가능하다.Here, + means that the corresponding symbol exists beyond the description. As such, in an embodiment of the present invention, as the conversion into an abstract word is performed according to the abstract rule for each word attribute of an English word, one English word Even if my alphabets, numbers, and symbols are complex, it is possible to apply the above-described property conversion method identically.

이와 관련하여, 아래 [표 6]에는 본 발명의 일 실시예에 따른 복합 단어 속성의 변환 결과를 예시적으로 보여주고 있다.In this regard, [Table 6] below exemplarily shows conversion results of compound word attributes according to an embodiment of the present invention.

영어 단어english words 추상화 단어abstract word BillBill Aaaaaa USAUSA AAAA iPhoneiPhone aAaaaaaa 2019-09-272019-09-27 D4-D2-D2D4-D2-D2 O157O157 AD3AD3

생성부(30)는 학습을 위한 벡터를 생성하는 기능을 수행한다.보다 구체적으로, 생성부(30)는 영어 단어의 추상화 단어로의 변환이 완료되면, 추상화 단어에 대한 임베딩(embedding)을 통해 상기 영어 단어의 학습을 위한 벡터를 생성한다.The generator 30 performs a function of generating a vector for learning. More specifically, when the conversion of the English word into the abstract word is completed, the generator 30 performs embedding of the abstract word. A vector for learning the English word is generated.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 학습데이터생성장치(100)의 구성에 따르면, NLP 및 텍스트 마이닝의 다양한 태스크에서 기존 단어 임베딩에 문자 추상화 단어 임베딩을 추가(concatenate)하여 사용할 수 있으며, 이를 통해 태스크의 최종 학습 효과(성능)을 높일 수 있다.As described above, according to the configuration of the learning data generating apparatus 100 according to an embodiment of the present invention, in various tasks of NLP and text mining, it is possible to add (concatenate) character abstraction word embeddings to existing word embeddings. and, through this, the final learning effect (performance) of the task can be increased.

이하에서는, 도 3을 참조하여 본 발명의 일 실시예에 따른 학습데이터생성장치(100)의 동작 방법을 설명하기로 한다.Hereinafter, an operating method of the learning data generating apparatus 100 according to an embodiment of the present invention will be described with reference to FIG. 3 .

먼저, 확인부(100)는 학습 대상인 영어 단어의 문자 구성 정보로부터 영어 단어가 가지는 단어 속성을 확인한다(S10).First, the check unit 100 checks the word attribute of the English word from the character configuration information of the English word as a learning target ( S10 ).

여기서, 문자 구성 정보는, 앞서 잠시 언급한 바와 같이, 알파벳 대문자와 알파벳 소문자, 숫자, 다양한 기호들을 포함한다.Here, the character configuration information includes uppercase letters and lowercase letters of the alphabet, numbers, and various symbols, as briefly mentioned above.

이에, 확인부(100)는 영어 단어의 문자 구성 정보로서 포함될 수 있는 알파벳, 숫자, 및 기호 중 적어도 하나의 단어 유형을 영어 단어의 단어 속성으로서 확인할 수 있다.Accordingly, the confirmation unit 100 may confirm, as a word attribute of an English word, at least one word type among alphabets, numbers, and symbols that may be included as character configuration information of an English word.

그리고 나서, 영어 단어에 대한 단어 속성이 확인되면, 단어 속성 별로 기 정의되는 추상화 규칙에 따라 영어 단어를 축약하여 추상화 단어로 변환한다.Then, when the word attribute of the English word is checked, the English word is abbreviated and converted into an abstract word according to an abstraction rule predefined for each word attribute.

이때, 변환부(20)는 영어 단어의 단어 속성이 알파벳인 것으로 확인되는 경우, 영어 단어에 포함된 대문자 및 소문자를 기 정의된 대표 알파벳 대문자(예: A) 및 소문자(예: a)로 각각 대체하여 나타낼 수 있다(S20-S30).At this time, when it is confirmed that the word attribute of the English word is the alphabet, the converting unit 20 converts the uppercase and lowercase letters included in the English word into a predefined representative uppercase letter (eg, A) and a lowercase letter (eg, a), respectively. It can be represented by substitution (S20-S30).

여기서, 변환부(20)는 영어 단어가 포함하는 2 이상의 연속된 대문자 문자열 및 소문자 문자열에 대해서는, 대표 알파벳 대문자(예: A) 및 소문자(예: a) 각각을 기 정의된 개수(예: 2개)만큼 나열한 형태로 축약할 수 있다.Here, for two or more consecutive uppercase character strings and lowercase character strings included in the English word, the conversion unit 20 converts each of the representative alphabet uppercase letters (eg, A) and lowercase letters (eg, a) to a predefined number (eg, 2). It can be abbreviated in the form listed as

또한, 변환부(20)는 단어 속성이 숫자인 것으로 확인되는 경우, 영어 단어가 포함하는 각 숫자를 기 정의된 대표 숫자(예: 9)로 대체하는 방식으로 나타낼 수 있다(S40-S50).In addition, when it is confirmed that the word attribute is a number, the conversion unit 20 may represent each number included in the English word in a manner of replacing each number included in the English word with a predefined representative number (eg, 9) (S40-S50).

여기서, 변환부(20)는 영어 단어가 포함하는 숫자의 자릿수에 대해서는, 숫자임을 나타내는 지정 알파벳 문자(예: D)와 자릿수에 상응하는 수치의 숫자를 이웃하게 나열한 형태로 축약할 수 있다.Here, the conversion unit 20 may abbreviate the number of digits included in the English word in a form in which a designated alphabetic character (eg, D) indicating that it is a number and a number of a numerical value corresponding to the number of digits are arranged adjacent to each other.

다만, 자릿수에 상응하는 수치의 숫자는 임계수치(예:5)를 초과할 수 없도록 정의될 수 있다.However, the number of numerical values corresponding to the number of digits may be defined not to exceed a threshold value (eg, 5).

또한, 변환부(20)는 영어 단어의 단어 속성이 기호인 것으로 확인되는 경우, 영어 단어가 포함하는 2 이상의 연속된 특정 기호에 대해서 상기 특정 기호를 기 정의된 개수(예: 2개)만큼 나열한 형태로 축약할 수 있다(S60-S70).In addition, when it is confirmed that the word attribute of the English word is a symbol, the conversion unit 20 lists the specific symbols by a predefined number (eg, two) for two or more consecutive specific symbols included in the English word. It can be abbreviated to the form (S60-S70).

이처럼, 본 발명의 일 실시예에서는, 영어 단어의 단어 속성 별 추상화 규칙에 따라 추상화 단어로의 변환을 수행함에 따라, 하나의 영어 단어 내 알파벳, 숫자, 기호가 복합되더라도 전술한 속성 변환 방식을 동일하게 적용하는 것이 가능하다.As such, in one embodiment of the present invention, as the conversion into an abstract word is performed according to the abstract rule for each word property of an English word, even if the alphabet, number, and symbol in one English word are compounded, the above-described property conversion method is the same. It is possible to apply

이후, 생성부(30)는 영어 단어의 추상화 단어로의 변환이 완료되면, 추상화 단어에 대한 임베딩(embedding)을 통해 상기 영어 단어의 학습을 위한 벡터를 생성한다(S80).Thereafter, when the conversion of the English word into the abstract word is completed, the generator 30 generates a vector for learning the English word through embedding of the abstract word ( S80 ).

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 학습데이터생성장치(100)의 동작 방법에 따르면, NLP 및 텍스트 마이닝의 다양한 태스크에서 기존 단어 임베딩에 문자 추상화 단어 임베딩을 추가(concatenate)하여 사용할 수 있으며, 이를 통해 태스크의 최종 학습 효과(성능)을 높일 수 있다.As described above, according to the method of operation of the apparatus 100 for generating learning data according to an embodiment of the present invention, in various tasks of NLP and text mining, character abstraction word embedding is added (concatenated) to the existing word embedding to be used. This can increase the final learning effect (performance) of the task.

한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 처리하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.On the other hand, the functional operations and implementations of the subject matter described in this specification are implemented as digital electronic circuits, computer software, firmware or hardware including the structures disclosed in this specification and structural equivalents thereof, or at least one of these It can be implemented by combining. Implementations of the subject matter described herein are one or more computer program products, ie, one or more modules of computer program instructions encoded on a tangible program storage medium for processing or execution by a processing system. can be implemented.

컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.The computer readable medium may be a machine readable storage device, a machine readable storage substrate, a memory device, a composition of matter that affects a machine readable radio wave signal, or a combination of one or more thereof.

본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 포괄한다. 처리 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.As used herein, the term “system” or “device” encompasses all devices, devices and machines for processing data, including, for example, programmable processors, computers, or multiple processors or computers. The processing system may include, in addition to hardware, code that, upon request, forms an execution environment for a computer program, such as code constituting processor firmware, a protocol stack, a database management system, an operating system, or a combination of one or more thereof. .

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선언적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script or code) may be written in any form of programming language, including compiled or interpreted language or declarative or procedural language, as a stand-alone program or module; It can be deployed in any form, including components, subroutines or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in a file system. A program may be placed in a single file provided to the requested program, or in multiple interacting files (eg, files that store one or more modules, subprograms, or portions of code), or portions of files that hold other programs or data. (eg, one or more scripts stored within a markup language document). The computer program may be deployed to be executed on a single computer or multiple computers located at one site or distributed over a plurality of sites and interconnected by a communication network.

한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.On the other hand, computer-readable media suitable for storing computer program instructions and data include, for example, semiconductor memory devices such as EPROMs, EEPROMs and flash memory devices, such as magnetic disks such as internal hard disks or external disks, magneto-optical disks and CDs. -Can include all types of non-volatile memory, media and memory devices, including ROM and DVD-ROM disks. The processor and memory may be supplemented by, or incorporated into, special purpose logic circuitry.

본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.An implementation of the subject matter described herein may include a backend component, such as a data server, or a middleware component, such as an application server, or a web browser or graphical user, such as a user capable of interacting with an implementation of the subject matter described herein. It may be implemented in a front-end component, such as a client computer having an interface, or in a computing system including any combination of one or more of such back-end, middleware, or front-end components. The components of the system may be interconnected by any form or medium of digital data communication, such as, for example, a communication network.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.While this specification contains numerous specific implementation details, they should not be construed as limitations on the scope of any invention or claim, but rather as descriptions of features that may be specific to particular embodiments of particular inventions. should be understood Likewise, certain features that are described herein in the context of separate embodiments may be implemented in combination in a single embodiment. Conversely, various features that are described in the context of a single embodiment may also be implemented in multiple embodiments, either individually or in any suitable subcombination. Furthermore, although features operate in a particular combination and may be initially depicted as claimed as such, one or more features from a claimed combination may in some cases be excluded from the combination, the claimed combination being a sub-combination. or a variant of a sub-combination.

또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다Also, although operations are depicted in the drawings in a specific order herein, it is not to be understood that such operations must be performed in the specific order or sequential order shown or that all illustrated operations must be performed in order to achieve desirable results. Can not be done. In certain cases, multitasking and parallel processing may be advantageous. Further, the separation of the various system components of the above-described embodiments should not be construed as requiring such separation in all embodiments, and the program components and systems described may generally be integrated together into a single software product or packaged into multiple software products. It should be understood that

이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, this specification is not intended to limit the invention to the specific terminology presented. Accordingly, although the present invention has been described in detail with reference to the above-described examples, those skilled in the art can make modifications, changes, and modifications to the examples without departing from the scope of the present invention. The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

본 발명에 따른 학습데이터생성장치 및 그 동작 방법에 따르면, 영어 단어를 학습을 위한 벡터로 임베딩(embedding)할 때, 단어에 포함된 문자 구성 정보를 반영할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.According to the learning data generating apparatus and the method of operation thereof according to the present invention, when embedding an English word as a vector for learning, it is possible to reflect the character composition information included in the word, the limitation of the existing technology It is an invention with industrial applicability because the possibility of marketing or business of the applied device, not only the use of the related technology, as well as the degree to which it can be clearly implemented in reality is sufficient.

100: 학습데이터생성장치
10: 확인부 20: 변환부
30: 생성부
100: learning data generating device
10: confirmation unit 20: conversion unit
30: generator

Claims (12)

학습 대상인 영어 단어의 문자 구성 정보로부터 상기 영어 단어에 대한 단어 속성을 확인하는 확인부; 및
상기 단어 속성 별로 기 정의되는 추상화 규칙에 따라 상기 영어 단어를 축약하여 추상화 단어로 변환하는 변환부를 포함하는 것을 특징으로 하는 학습데이터생성장치.
a confirmation unit for confirming a word attribute of an English word from character composition information of an English word as a learning target; and
and a conversion unit that abbreviates and converts the English word into an abstract word according to an abstraction rule defined for each word attribute.
제 1 항에 있어서,
상기 학습데이터생성장치는,
상기 추상화 단어에 대한 임베딩(embedding)을 통해 상기 영어 단어의 학습을 위한 벡터를 생성하는 생성부를 더 포함하는 것을 특징으로 하는 학습데이터생성장치.
The method of claim 1,
The learning data generating device,
The apparatus for generating learning data, characterized in that it further comprises a generator for generating a vector for learning the English word through embedding of the abstract word.
제 1 항에 있어서,
상기 단어 속성은,
상기 영어 단어의 문자 구성 정보로서 포함될 수 있는 알파벳, 숫자, 및 기호 중 적어도 하나의 단어 유형에 의해 결정되는 것을 특징으로 하는 학습데이터생성장치.
The method of claim 1,
The word attribute is
The learning data generating apparatus, characterized in that it is determined by the type of at least one of alphabets, numbers, and symbols that can be included as the character composition information of the English word.
제 3 항에 있어서,
상기 변환부는,
상기 단어 속성이 알파벳인 것으로 확인되는 경우, 상기 영어 단어에 포함된 대문자 및 소문자를 기 정의된 대표 알파벳 대문자 및 소문자로 각각 대체하여 나타내며,
상기 영어 단어가 포함하는 2 이상의 연속된 대문자 문자열 및 소문자 문자열에 대해서는, 상기 대표 알파벳 대문자 및 소문자 각각을 기 정의된 개수만큼 나열한 형태로 축약하는 것을 특징으로 하는 학습데이터생성장치.
4. The method of claim 3,
The conversion unit,
When it is confirmed that the word attribute is an alphabet, uppercase and lowercase letters included in the English word are replaced with predefined representative uppercase and lowercase letters, respectively,
For two or more consecutive uppercase and lowercase character strings included in the English word, each of the uppercase and lowercase letters of the representative alphabet is abbreviated in a form in which a predefined number is listed.
제 3 항에 있어서,
상기 변환부는,
상기 단어 속성이 숫자인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 각 숫자를 기 정의된 대표 숫자로 대체하여 나타내며,
상기 영어 단어가 포함하는 숫자의 자릿수에 대해서는, 숫자임을 나타내는 지정 알파벳 문자와 상기 자릿수에 상응하는 수치의 숫자를 이웃하게 나열한 형태로 축약하는 것을 특징으로 하는 학습데이터생성장치.
4. The method of claim 3,
The conversion unit,
When it is confirmed that the word attribute is a number, each number included in the English word is replaced with a predefined representative number,
With respect to the number of digits of the number included in the English word, the learning data generating apparatus, characterized in that the abbreviation of the designated alphabetic character indicating that it is a number and the number of the numerical value corresponding to the number of digits is abbreviated in a form adjacent to each other.
제 3 항에 있어서,
상기 변환부는,
상기 단어 속성이 기호인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 2 이상의 연속된 특정 기호에 대해서 상기 특정 기호를 기 정의된 개수만큼 나열한 형태로 축약하는 것을 특징으로 하는 학습데이터생성장치.
4. The method of claim 3,
The conversion unit,
When it is confirmed that the word attribute is a symbol, the learning data generating apparatus, characterized in that for two or more consecutive specific symbols included in the English word, the specific symbols are abbreviated in a form in which a predefined number is listed.
학습 대상인 영어 단어의 문자 구성 정보로부터 상기 영어 단어에 대한 단어 속성을 확인하는 확인단계; 및
상기 단어 속성 별로 기 정의되는 추상화 규칙에 따라 상기 영어 단어를 축약하여 추상화 단어로 변환하는 변환단계를 포함하는 것을 특징으로 하는 학습데이터생성장치의 동작 방법.
a confirmation step of confirming the word attribute of the English word from the character composition information of the English word to be learned; and
and converting the English word into an abstract word by abbreviated according to an abstraction rule defined for each word attribute.
제 7 항에 있어서,
상기 방법은,
상기 추상화 단어에 대한 임베딩(embedding)을 통해 상기 영어 단어의 학습을 위한 벡터를 생성하는 생성단계를 더 포함하는 것을 특징으로 하는 학습데이터생성장치의 동작 방법.
8. The method of claim 7,
The method is
The method of operating the learning data generating apparatus, characterized in that it further comprises a generating step of generating a vector for learning the English word through embedding of the abstract word.
제 7 항에 있어서,
상기 단어 속성은,
상기 영어 단어의 문자 구성 정보로서 포함될 수 있는 알파벳, 숫자, 및 기호 중 적어도 하나의 단어 유형에 의해 결정되는 것을 특징으로 하는 학습데이터생성장치의 동작 방법.
8. The method of claim 7,
The word attribute is
The operating method of the learning data generating apparatus, characterized in that it is determined by the type of at least one of alphabets, numbers, and symbols that can be included as the character composition information of the English word.
제 9 항에 있어서,
상기 변환단계는,
상기 단어 속성이 알파벳인 것으로 확인되는 경우, 상기 영어 단어에 포함된 대문자 및 소문자를 기 정의된 대표 알파벳 대문자 및 소문자로 각각 대체하여 나타내며,
상기 영어 단어가 포함하는 2 이상의 연속된 대문자 문자열 및 소문자 문자열에 대해서는, 상기 대표 알파벳 대문자 및 소문자 각각을 기 정의된 개수만큼 나열한 형태로 축약하는 것을 특징으로 하는 학습데이터생성장치의 동작 방법.
10. The method of claim 9,
The conversion step is
When it is confirmed that the word attribute is an alphabet, uppercase and lowercase letters included in the English word are replaced with predefined representative uppercase and lowercase letters, respectively,
For two or more consecutive uppercase and lowercase character strings included in the English word, each of the uppercase and lowercase letters of the representative alphabet is abbreviated in a form in which a predefined number is arranged.
제 9 항에 있어서,
상기 변환단계는,
상기 단어 속성이 숫자인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 각 숫자를 기 정의된 대표 숫자로 대체하여 나타내며,
상기 영어 단어가 포함하는 숫자의 자릿수에 대해서는, 숫자임을 나타내는 지정 알파벳 문자와 상기 자릿수에 상응하는 수치의 숫자를 이웃하게 나열한 형태로 축약하는 것을 특징으로 하는 학습데이터생성장치의 동작 방법.
10. The method of claim 9,
The conversion step is
When it is confirmed that the word attribute is a number, each number included in the English word is replaced with a predefined representative number,
With respect to the number of digits of the number included in the English word, the operation method of the learning data generating apparatus, characterized in that the abbreviation of the designated alphabetic character indicating that it is a number and the number of the numerical value corresponding to the number of digits adjacent to each other.
제 9 항에 있어서,
상기 변환단계는,
상기 단어 속성이 기호인 것으로 확인되는 경우, 상기 영어 단어가 포함하는 2 이상의 연속된 특정 기호에 대해서 상기 특정 기호를 기 정의된 개수만큼 나열한 형태로 축약하는 것을 특징으로 하는 학습데이터생성장치의 동작 방법.
10. The method of claim 9,
The conversion step is
When it is confirmed that the word attribute is a symbol, for two or more consecutive specific symbols included in the English word, the specific symbols are abbreviated in a form in which a predetermined number of specific symbols are listed. .
KR1020190160880A 2019-12-05 2019-12-05 Learning data generating apparatus, and control method thereof KR102390804B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190160880A KR102390804B1 (en) 2019-12-05 2019-12-05 Learning data generating apparatus, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190160880A KR102390804B1 (en) 2019-12-05 2019-12-05 Learning data generating apparatus, and control method thereof

Publications (2)

Publication Number Publication Date
KR20210070768A true KR20210070768A (en) 2021-06-15
KR102390804B1 KR102390804B1 (en) 2022-04-26

Family

ID=76412270

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190160880A KR102390804B1 (en) 2019-12-05 2019-12-05 Learning data generating apparatus, and control method thereof

Country Status (1)

Country Link
KR (1) KR102390804B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101997783B1 (en) * 2017-08-18 2019-07-08 동아대학교 산학협력단 Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs and Method of the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101997783B1 (en) * 2017-08-18 2019-07-08 동아대학교 산학협력단 Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs and Method of the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mark Ennis. http://www.txt2re.com/. [Online]. (2006.10.28.) 1부.* *

Also Published As

Publication number Publication date
KR102390804B1 (en) 2022-04-26

Similar Documents

Publication Publication Date Title
CN100452023C (en) System and method for providing a transient dictionary that travels with an original electronic document
US9436679B2 (en) Generating a context for translating strings based on associated application source code and markup
US7721271B2 (en) Language localization and intercepting data using translation tables
US20150169386A1 (en) Automating software availability management based on api versioning
GB2556978A (en) Testing applications with a defined input format
US20190391892A1 (en) System and method for assisting user to resolve a hardware issue and a software issue
CN107924326A (en) The moving method of updated type is covered
US11080068B2 (en) Adaptive user-interface assembling and rendering
US11893367B2 (en) Source code conversion from application program interface to policy document
CN105630763A (en) Method and system for making mention of disambiguation in detection
US8635233B2 (en) Techniques to automatically build a language dependency graph for localizable resources
CN112269706A (en) Interface parameter checking method and device, electronic equipment and computer readable medium
CN110309631B (en) Programming language structure confusion processing method, intelligent terminal and storage medium
US9563635B2 (en) Automated recognition of patterns in a log file having unknown grammar
US20210165647A1 (en) System for performing automatic code correction for disparate programming languages
CN112395882B (en) Method, electronic device and storage medium for named entity recognition
KR102390804B1 (en) Learning data generating apparatus, and control method thereof
CN116346777A (en) Dictionary tree domain name matching method, device, equipment and storage medium
KR20130002365A (en) Webshell detecting apparatus using meta pattern
US11481547B2 (en) Framework for chinese text error identification and correction
WO2021152568A1 (en) Relation extraction using full dependency forests
US20230108067A1 (en) System and method for extracting issues based on trouble ticket mining
US20230245486A1 (en) Methods, systems, articles of manufacture and apparatus to improve tagging accuracy
US20210349873A1 (en) Using border data structure with index
AU2018313995B2 (en) Systems and methods for providing globalization features in a service management application interface

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant