KR20220055277A - 텍스트 데이터 증강 장치 및 방법 - Google Patents

텍스트 데이터 증강 장치 및 방법 Download PDF

Info

Publication number
KR20220055277A
KR20220055277A KR1020200139566A KR20200139566A KR20220055277A KR 20220055277 A KR20220055277 A KR 20220055277A KR 1020200139566 A KR1020200139566 A KR 1020200139566A KR 20200139566 A KR20200139566 A KR 20200139566A KR 20220055277 A KR20220055277 A KR 20220055277A
Authority
KR
South Korea
Prior art keywords
data
augmentation
augmented
text data
input text
Prior art date
Application number
KR1020200139566A
Other languages
English (en)
Other versions
KR102617753B1 (ko
Inventor
강나은
이건
이민영
김민수
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020200139566A priority Critical patent/KR102617753B1/ko
Priority to EP21204712.0A priority patent/EP3989100A1/en
Priority to US17/510,640 priority patent/US12008330B2/en
Publication of KR20220055277A publication Critical patent/KR20220055277A/ko
Application granted granted Critical
Publication of KR102617753B1 publication Critical patent/KR102617753B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

텍스트 데이터를 증강하기 위한 방법 및 장치가 개시된다. 일 실시예에 따른 텍스트 데이터 증강 장치는 입력 텍스트 데이터의 자연어 처리 태스크(Natural Language Processing Task) 종류에 기초하여 결정되는 데이터 증강(data augmentation) 방식에 따라 입력 텍스트 데이터를 증강하여 증강 데이터를 생성하는 데이터 증강부; 및 하나 이상의 데이터 분류 기준을 기초로 증강 데이터가 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류하는 데이터 분류부를 포함할 수 있다.

Description

텍스트 데이터 증강 장치 및 방법{Apparatus and method for augmenting textual data}
개시되는 실시예들은 텍스트 데이터 증강 기술과 관련된다.
최근 인공 신경망을 학습시키기 위한 데이터를 생성하는 방법으로 데이터를 증강하는 방법이 활발히 연구되고 있다. 특히, 데이터 증강 방법 중 음성 및 이미지 분야에 대한 데이터 증강 방법의 경우 다양한 기법의 데이터 증강 방법이 연구되어 실제로 적용되고 있다. 반면, 자연어 처리 분야에서 데이터 증강에 대한 연구는 미미하게 시도되고 있다.
자연어 처리 분야의 경우 임의로 나열한 문자열이 문장으로 성립하지 않거나, 발음이 비슷한 단어 간의 의미가 서로 상이한 경우가 많은 문제가 있어 음성 및 이미지 분야의 연구결과를 그대로 적용하는데 문제가 있다.
대한민국 공개특허공보 제 10-2020-0110400 호 (2020.09.23. 공개)
개시되는 실시예들은 텍스트 데이터를 증강하기 위한 방법 및 장치를 제공하기 위한 것이다.
일 실시예에 따른 텍스트 데이터 증강 장치는 입력 텍스트 데이터의 자연어 처리 태스크(Natural Language Processing Task) 종류에 기초하여 결정되는 데이터 증강(data augmentation) 방식에 따라 입력 텍스트 데이터를 증강하여 증강 데이터를 생성하는 데이터 증강부; 및 하나 이상의 데이터 분류 기준을 기초로 증강 데이터가 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류하는 데이터 분류부를 포함할 수 있다.
하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터를 이용할지 여부를 결정하는 정합성 판정부를 더 포함할 수 있다.
데이터 증강부는 자연어 처리 태스크 종류, 데이터 증강 방식, 핵심 문장인지 여부 및 입력 텍스트 데이터의 종류 중 하나 이상에 기초하여 증강 규모를 결정할 수 있다.
데이터 분류부는 데이터 증강 방식 및 입력 텍스트 데이터의 자연어 처리 태스크 종류에 따라 미리 설정된 매핑 테이블을 이용하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 1 분석기, 증강 데이터가 문법을 만족하는지 여부를 분석하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 2 분석기 및 사용자 입력 레이블 예측값과 증강 데이터의 레이블을 비교하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 3 분석기 중 적어도 하나를 포함할 수 있다.
정합성 판정부는 제 1 분석기, 제 2 분석기 및 제 3 분석기 중 적어도 하나의 결과 중 양성 샘플로 결정된 결과의 비율 또는 개수를 기초로 증강 데이터를 이용할지 여부를 결정할 수 있다.
정합성 판정부는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 양성 샘플이라고 판단한 경우, 증강 데이터를 이용하는 것으로 결정하며, 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 증강 데이터를 이용하지 않는 것으로 결정할 수 있다.
정합성 판정부는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 입력 텍스트 데이터의 자연어 처리 태스크 종류에 더 기초하여 증강 데이터를 이용할지 여부를 결정할 수 있다.
텍스트 데이터 증강 장치는 토큰화(tokenization), 불용어 제거(stopword), 어간 추출(stemming) 및 표제어 추출(lemmatization) 중 적어도 하나를 사용하여 입력 텍스트 데이터를 전처리하여 데이터 증강부로 전송하는 전처리부를 더 포함할 수 있다.
텍스트 데이터 증강 장치는 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부, 입력 테스트 데이터의 지배적 언어 종류, 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부 및 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류 중 적어도 하나를 결정하는 입력 데이터 분석부를 더 포함할 수 있다.
데이터 증강을 위한 소정의 요건은 입력 텍스트 데이터가 하나 이상의 문장 성분이 결합된 하나 이상의 문장을 포함하는 것일 수 있다.
입력 테스트 데이터의 지배적 언어의 종류는 언어별 유니코드를 기초로 결정될 수 있다.
자연어 처리 태스크 종류는 입력 텍스트 데이터의 레이블을 기초로 결정될 수 있다.
일 양상에 따름 텍스트 데이터 증강 방법은 입력 텍스트 데이터의 자연어 처리 태스크(Natural Language Processing Task) 종류에 기초하여 결정되는 데이터 증강(data augmentation) 방식에 따라 입력 텍스트 데이터를 증강하여 증강 데이터를 생성하는 단계; 하나 이상의 데이터 분류 기준을 기초로 증강 데이터가 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류하는 단계를 포함할 수 있다.
하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터를 이용할지 여부를 결정하는 단계를 더 포함할 수 있다.
증강 데이터를 생성하는 단계는 자연어 처리 태스크 종류, 데이터 증강 방식, 핵심 문장인지 여부 및 입력 텍스트 데이터의 종류 중 하나 이상에 기초하여 증강 규모를 결정할 수 있다.
증강 데이터를 분류하는 단계는 데이터 증강 방식 및 입력 텍스트 데이터의 자연어 처리 태스크 종류에 따라 미리 설정된 매핑 테이블을 이용하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 1 분석법, 증강 데이터가 문법을 만족하는지 여부를 분석하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 2 분석법 및 사용자 입력 레이블 예측값과 증강 데이터의 레이블을 비교하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 3 분석법 중 적어도 하나를 이용하여 증강 데이터를 분류할 수 있다.
증강 데이터를 이용할지 여부를 결정하는 단계는 제 1 분석법, 제 2 분석법 및 제 3 분석법 중 적어도 하나의 결과 중 양성 샘플로 결정된 결과의 비율 또는 개수를 기초로 증강 데이터를 이용할지 여부를 결정할 수 있다.
증강 데이터를 이용할지 여부를 결정하는 단계는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 양성 샘플이라고 판단한 경우, 증강 데이터를 이용하는 것으로 결정하며, 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 증강 데이터를 이용하지 않는 것으로 결정할 수 있다.
증강 데이터를 이용할지 여부를 결정하는 단계는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 입력 텍스트 데이터의 자연어 처리 태스크 종류에 더 기초하여 증강 데이터를 이용할지 여부를 결정할 수 있다.
텍스트 데이터 증강 방법은 토큰화(tokenization), 불용어 제거(stopword), 어간 추출(stemming) 및 표제어 추출(lemmatization) 중 적어도 하나를 사용하여 입력 텍스트 데이터를 전처리하는 단계를 더 포함할 수 있다.
텍스트 데이터 증강 방법은 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부, 입력 테스트 데이터의 지배적 언어 종류, 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부 및 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류 중 적어도 하나를 결정하는 단계를 더 포함할 수 있다.
데이터 증강을 위한 소정의 요건은 입력 텍스트 데이터가 하나 이상의 문장 성분이 결합된 하나 이상의 문장을 포함할 수 있다.
입력 테스트 데이터의 지배적 언어의 종류는 언어별 유니코드를 기초로 결정될 수 있다.
자연어 처리 태스크 종류는 입력 텍스트 데이터의 레이블을 기초로 결정될 수 있다.
개시되는 실시예들에 따르면, 전처리를 통해 언어의 종류에 상관없이 동일한 데이터 증강 방식을 적용할 수 있는 바, 다양한 언어에 대한 텍스트 데이터를 이용하여 증강된 텍스트 데이터를 생성할 수 있다.
도 1은 일 실시예에 따른 텍스트 데이터 증강 장치의 구성도
도 2는 일 실시예에 따른 데이터 분류부의 구성도
도 3은 일 실시예에 따른 텍스트 데이터 증강 장치의 구성도
도 4는 일 실시예에 따른 텍스트 데이터 증강 방법의 순서도
도 5는 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 일 실시예에 따른 텍스트 데이터 증강 장치의 구성도이다.
도 1을 참조하면, 텍스트 데이터 증강 장치(100)는 입력 데이터를 증강하는(augmentation) 데이터 증강부(110), 증강된 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류하는 데이터 분류부(120) 및 증강 데이터를 이용할지 여부를 결정하는 정합성 판정부(130)를 포함할 수 있다.
일 실시예에 따르면, 데이터 증강부(110)는 입력 텍스트 데이터의 자연어 처리 태스크(Natural Language Processing Task) 종류에 기초하여 결정되는 데이터 증강(data augmentation) 방식에 따라 입력 텍스트 데이터를 증강하여 증강 데이터를 생성할 수 있다.
일 예에 따르면, 자연어 처리 태스크는 화행(dialogue act) 분석, 텍스트 분류(text classification), 감성 분석(sentiment analysis), 의도 탐색(intend detection), 품사 태깅(part-of-speech tagging), 개체명 인식(named entity recognition), 정보 추출(information extraction), 관계 추출(relation extraction), 텍스트 요약(text summarization), 토픽 추출(topic extraction) 등과 같이 분석 목적이 상이한 다양한 종류의 자연어 처리 중 하나를 수행하기 위한 태스크일 수 있다. 그러나, 자연어 처리 태스크에 의해 수행되는 자연어 처리의 종류는 반드시 상술한 예에 한정되는 것은 아니며, 상술한 예 외에도 다양한 종류의 자연어 처리를 위한 자연어 처리 태스크가 프로젝트에 포함될 수 있다.
일 예에 따르면, 데이터 증강(data augmentation) 방식은 기계 번역을 2회 이상 수행하여 데이터를 증강하는 의역(Paraphrasing) 방식, 형태소 분석(POS tagger)의 결과 얻어진 동사의 부정형으로 치환하여 증강하는 문장 부정(Sentence negation) 방식, 형태소 분석(POS tagger)의 결과 얻어진 대명사를 다른 대명사로 치환하거나, 대용어 복원(anaphora resolution)을 활용하여 대명사 치환을 수행하는 대명사 교환(Pronoun swap) 방식, 개체 인식(Entity Recognition)을 수행하여 얻어진 개체(Entity)를 같은 타입의 다른 개체로 치환하는 개체 교환(Entity swap) 방식, 개체 인식(Entity Recognition)을 수행하여 얻어진 개체를 같은 타입의 다른 개체로 치환하여 얻거나, 형태소 분석의 결과 수치 타입의 요소(element)를 다른 값으로 변환하는 번호 교환(Number swap) 방식, 형태소 분석의 결과 얻어진 요소 별 동일한 값을 n회 추가하거나, 불용어(stop words)의 값들을 추가하는 잡음 주입(Noise injection) 방식, 형태소 분석의 결과 얻어진 동일한 태그(tag)의 요소 별 유의어 사전의 치환, 단어 임베딩(Word Embeddings) 기반 치환 혹은 개체 인식(Entity Recognition)을 수행하여 얻어진 개체 별 동의어 사전의 치환 , 단어 임베딩(Word Embeddings) 기반 치환을 수행하는 동의어 대체(Synonym replacement) 방식, 형태소 분석의 결과 얻어진 요소와 요소 사이에 임의의 값을 추가하는 무작위 삽입(Random insertion) 방식, 형태소 분석의 결과 얻어진 요소와 요소의 순서를 변경하는 무작위 교환(Random swap) 방식, 형태소 분석의 결과 얻어진 요소 중 일부를 제거하는 무작위 삭제(Random deletion) 방식, 기학습된 모델(Pre-trained Model) 혹은 언어 모델(Language Model) 출력 결과 혹은 형태소 분석의 결과 요소 간 공백을 임의로 제거하거나 추가하는 공백(Spacing) 방식, 요약(Summarization)을 수행하는 요약(Summarization) 방식 중 적어도 하나일 수 있다.
일 예에 따르면, 입력 텍스트 데이터를 증강하기 위한 데이터 증강 방식은 자연어 처리 태스크의 종류에 따라 결정될 수 있다. 일 예로, 자연어 처리 태스크가 텍스트 요약(text summarization)인 경우, 데이터 증강 방식을 요약(Summarization) 방식으로 결정할 수 있다.
일 예에 따르면, 입력 텍스트 데이터를 증강하기 위하여 둘 이상의 데이터 증강 방식을 이용할 수 있다. 일 예로, 하나의 입력 텍스트 데이터에 의역(Paraphrasing) 방식과 잡음 주입(Noise injection) 방식이 각각 개별적으로 적용되거나 소정의 순서로 함께 적용될 수 있다.
일 예에 따르면, 하나의 입력 텍스트 데이터는 둘 이상의 자연어 처리 태스크에 해당할 수 있다. 일 예로, 하나의 입력 텍스트 데이터에 감성 분석(sentiment analysis), 의도 탐색(intend detection) 태스크가 적용될 수 있다. 이러한 경우, 데이터 증강 방식은 감성 분석(sentiment analysis) 및 의도 탐색(intend detection) 각각에 따라 개별적으로 결정될 수 있으며, 하나의 입력 텍스트 데이터에 각각의 데이터 증강 방식이 개별적으로 적용되거나, 소정의 순서로 함께 적용될 수 있다.
일 실시예에 따르면, 데이터 증강부(110)는 자연어 처리 태스크 종류, 데이터 증강 방식, 핵심 문장인지 여부 및 입력 텍스트 데이터의 종류 중 하나 이상에 기초하여 증강 규모를 결정할 수 있다.
일 예에 따르면, 데이터 증강부(110)는 자연어 처리 태스크 종류에 기초하여 데이터 증강 규모를 결정할 수 있다. 일 예로, 데이터 증강부(110)는 화행(dialogue act) 분석의 경우 입력 텍스트 데이터의 4배, 텍스트 분류(text classification)의 경우 100배, 감성 분석(sentiment analysis)의 경우 10배 등과 같이 데이터 증강 규모를 결정할 수 있다.
일 예에 따르면, 데이터 증강부(110)는 데이터 증강 방식에 기초하여 데이터 증강 규모를 결정할 수 있다. 일 예로, 데이터 증강부(110)는 의역(Paraphrasing) 방식의 경우 10배, 문장 부정(Sentence negation) 방식의 경우 100배, 대명사 교환(Pronoun swap) 방식의 경우 5배 등과 같이 데이터 증강 규모를 결정할 수 있다.
일 예에 따르면, 데이터 증강부(110)는 핵심 문장인지 여부에 기초하여 데이터 증강 규모를 결정할 수 있다. 일 예로, 데이터 증강부(110)는 소정의 문장이 핵심 문장인 경우 100배, 일반 문장의 경우 10배 등과 같이 데이터 증강 규모를 결정할 수 있다.
일 예에 따르면, 데이터 증강부(110)는 입력 텍스트 데이터의 종류에 기초하여 데이터 증강 규모를 결정할 수 있다. 일 예로, 데이터 증강부(110)는 단일 문장의 경우 10배, 단일 문서의 경우 100배, 말뭉치인 경우 1000배 등과 같이 데이터 증강 규모를 결정할 수 있다.
일 예에 따르면, 데이터 증강부(110)는 입력 텍스트 데이터의 최소 4배 내지 최대 10 제곱 배만큼 데이터 증강 규모를 결정할 수 있다.
일 실시예에 따르면, 데이터 분류부(120)는 하나 이상의 데이터 분류 기준을 기초로 증강 데이터가 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류할 수 있다.
일 예에 따르면, 데이터 분류부(120)는 입력 텍스트 데이터의 레이블 정보를 유지하며 데이터 증강된 경우 양성 샘플(positive sample)로 분류되며, 입력 텍스트 데이터의 반대의 의미를 가지거나 문장 자체가 성립되지 않는 잡음 데이터를 포함하는 등 입력 텍스트 데이터를 손상한 경우 음성 샘플(negative sample)로 분류할 수 있다.
일 실시예에 따르면 정합성 판정부(130)는 하나 이상의 데이터 분류 기준을 기초로 분류된 결과에 따라 증강 데이터를 이용할지 여부를 결정할 수 있다.
일 예에 따르면, 데이터 분류부(120)는 하나의 분류 방식을 이용하여 하나의 분류 결과를 출력하거나 또는 둘 이상의 분류 방식을 이용하여 둘 이상의 분류 결과를 출력할 수 있다.
일 예를 들어, 데이터 분류부(120)가 하나의 분류 방식을 이용하여 분류 결과를 출력하는 경우, 정합성 판정부(130)는 하나의 분류 결과가 양성 샘플인지 또는 음성 샘플인지 여부를 기초로 해당 증강 데이터를 사용할지 여부를 결정할 수 있다.
일 예로, 분류 결과가 양상 샘플인 경우, 데이터 판정부(130)는 해당 증강 데이터를 사용하는 것으로 결정할 수 있다.
다른 예로, 분류 결과가 음성 샘플인 경우, 데이터 판정부(130)는 해당 증강 데이터를 사용하지 않는 것으로 결정할 수 있다.
일 예에 따르면, 데이터 판정부(130)는 증강 데이터가 음성 샘플로 분류된 경우, 해당 입력 텍스트 데이터에 따른 자연어 처리 태스크의 종류에 따라 해당 증강 데이터의 사용 여부를 결정할 수 있다.
일 예로, 입력 텍스트 데이터의 자연어 처리 태스크가 노이즈 데이터가 학습에 긍정적인 영향을 미치는 multi-task learning이며 증강 데이터의 분류 결과가 음성 샘플인 경우, 데이터 판정부(130)는 해당 증강 데이터가 음성 샘플로 분류됨에도 불구하고 사용하는 것으로 결정할 수 있다.
일 예에 따르면, 데이터 분류부(120)는 둘 이상의 분류 방식을 이용하여 둘 이상의 분류 결과를 출력할 수 있다.
일 예를 들어, 데이터 분류부(120)가 둘 이상의 분류 방식을 이용하여 분류 결과를 출력하는 경우, 정합성 판정부(130)는 둘 이상의 분류 결과 중 양성 샘플 및 음성 샘플의 개수 또는 양성 샘플 및 음성 샘플의 비율을 기초로 해당 증강 데이터를 사용할지 여부를 결정할 수 있다.
도 2는 일 실시예에 따른 데이터 분류부의 구성도이다.
도 2를 참조하면, 데이터 분류부(120)는 하나 이상의 분석기(121, 123, 125)를 포함할 수 있다.
일 실시예에 따르면, 데이터 분류부(120)는 하나 이상의 데이터 분류 기준을 기초로 증강 데이터가 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류할 수 있다.
일 예에 따르면, 데이터 분류부(120)는 데이터 증강 방식 및 입력 텍스트 데이터의 자연어 처리 태스크 종류에 따라 미리 설정된 매핑 테이블을 이용하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 1 분석기(121)를 포함할 수 있다.
일 예로, 자연어 처리 태스크의 성격에 따라 데이터 증강 방식에 따른 증강 데이터가 양성 샘플일지 또는 음성 샘플일지 여부를 예측할 수 있다. 일 예를 들어, 감성 분석 태스크의 경우 문장 부정(Sentence negation) 방식을 사용하여 데이터를 증강 시 음성 샘플을 생성할 가능성이 높다. 이에 따라, 제 1 분석기는 감성 분석 태스크 및 문장 부정(Sentence negation) 방식을 사용하는 경우 음성 샘플로 매핑된 매핑 테이블을 가질 수 있다.
일 예에 따르면, 데이터 분류부(120)는 증강 데이터가 문법을 만족하는지 여부를 분석하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 2 분석기(123)를 포함할 수 있다.
일 예를 들어, 증강 데이터의 형태소 분석 결과 단문에 동사가 2회 이상 출현하는 경우 제 2 분석기(123)는 해당 증강 데이터가 비문인 것으로 판단하여 음성 샘플로 분류할 수 있다.
일 예에 따르면, 데이터 분류부(120)는 사용자 입력 레이블 예측값과 증강 데이터의 레이블을 비교하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 3 분석기(125)를 포함할 수 있다.
일 예를 들어, 사용자는 증강 데이터에 대한 레이블을 예측할 수 있으며, 제 3 분석기(125)는 사용자가 예측한 레이블과 증강 데이터의 실제 레이블을 비교하여 두 레이블이 일치하면 양성 샘플로 결정하고, 두 레이블이 일치하지 않으면 음성 샘플로 결정할 수 있다.
일 예로, 제 3 분석기(125)는 레이블의 종류가 2 종 이상이며, 각 레이블 당 10개 이상의 문장 데이터를 포함하는 조건을 만족한 경우에 동작이 가능할 수 있다.
일 실시예에 따르면, 정합성 판정부(130)는 제 1 분석기, 제 2 분석기 및 제 3 분석기 중 적어도 하나의 결과 중 양성 샘플로 결정된 결과의 비율 또는 개수를 기초로 증강 데이터를 이용할지 여부를 결정할 수 있다.
이 예에 따르면, 정합성 판정부(130)는 제 1 분석기, 제 2 분석기 및 제 3 분석기 중 적어도 하나의 결과를 이용하여 증강 데이터가 양성 샘플인지 또는 음성 샘플인지 여부를 판단할 수 있다.
일 예를 들어, 데이터 분류부(120)가 제 1 분석기, 제 2 분석기 및 제 3 분석기를 모두 포함하고 있으며, 3개의 분류 결과를 출력하는 경우, 정합성 판정부(130)는 3개의 분류 결과 중 2개 이상이 양성 샘플인 경우, 해당 증강 데이터가 양성 샘플인 것으로 판단할 수 있다.
일 실시예에 따르면, 정합성 판정부(130)는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 양성 샘플이라고 판단한 경우, 증강 데이터를 이용하는 것으로 결정할 수 있다. 일 예를 들어, 3개의 분류 결과 중 2개 이상이 양성 샘플인 경우, 정합성 판정부(130)는 해당 증강 데이터가 양성 샘플인 것으로 판단할 수 있으며, 판단 결과에 따라 해당 증강 데이터를 사용하는 것으로 결정할 수 있다.
일 실시예에 따르면, 정합성 판정부(130)는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 증강 데이터를 이용하지 않는 것으로 결정할 수 있다. 일 예를 들어, 3개의 분류 결과 중 1개가 양성 샘플인 경우, 정합성 판정부(130)는 해당 증강 데이터가 음성 샘플인 것으로 판단할 수 있으며, 판단 결과에 따라 해당 증강 데이터를 사용하자 않는 것으로 결정할 수 있다.
일 실시예에 따르면, 정합성 판정부(130)는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 입력 텍스트 데이터의 자연어 처리 태스크 종류에 더 기초하여 증강 데이터를 이용할지 여부를 결정할 수 있다.
일 예를 들어, 3개의 분류 결과 중 1개가 양성 샘플인 경우, 정합성 판정부(130)는 해당 증강 데이터가 음성 샘플인 것으로 판단할 수 있다. 이때, 입력 텍스트 데이터의 자연어 처리 태스크가 노이즈 데이터가 학습에 긍정적인 영향을 미치는 multi-task learning인 경우, 데이터 판정부(130)는 해당 증강 데이터가 음성 샘플로 분류됨에도 불구하고 사용하는 것으로 결정할 수 있다.
도 3은 일 실시예에 따른 텍스트 데이터 증강 장치의 구성도이다.
도 3을 참조하면, 텍스트 데이터 증강 장치(300)는 입력 데이터 분석부(310), 전처리부(320), 데이터 증강부(330), 데이터 분류부(340) 및 정합성 판정부(350)를 포함할 수 있다.
일 실시예에 따르면, 입력 데이터 분석부(310)는 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부, 입력 테스트 데이터의 지배적 언어 종류, 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부 및 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류 중 적어도 하나를 결정할 수 있다.
일 예에 따르면, 입력 데이터 분석부(310)는 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부를 결정할 수 있다. 일 예로, 소정의 요건은 입력 텍스트 데이터가 하나 이상의 문장 성분이 결합된 하나 이상의 문장을 포함하는 여부가 될 수 있다.
일 예에 따르면, 입력 데이터 분석부(310)가 입력 텍스트 데이터가 하나 이상의 문장을 포함하고 있지 않은 것으로 판단하는 경우, 입력 데이터 분석부(310)는 사용자에게 입력 텍스트 데이터를 재입력하도록 메시지를 출력할 수 있다.
일 실시예에 따르면, 입력 데이터 분석부(310)는 입력 테스트 데이터의 지배적 언어 종류를 결정할 수 있다.
일 예에 따르면, 입력 테스트 데이터의 지배적 언어의 종류는 언어별 유니코드를 기초로 결정될 수 있다. 일 예로, 각 언어별 유니 코드의 범위가 다를 수 있으며, 입력 데이터 분석부(310)는 유니 코드의 범위에 기초하여 입력 텍스트 데이터의 지배적 언어를 결정할 수 있다. 예를 들어, 한글의 유니코드 범위는 1100 내지 11FF일 수 있다.
일 예에 따르면, 입력 데이터 분석부(310)는 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부를 결정할 수 있다.
일 예에 따르면, 입력 데이터 분석부(310)는 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류를 결정할 수 있다. 일 예로, 자연어 처리 태스크 종류는 입력 텍스트 데이터의 레이블을 기초로 결정될 수 있다.
일 실시예에 따르면, 전처리부(320)는 토큰화(tokenization), 불용어 제거(stopword), 어간 추출(stemming) 및 표제어 추출(lemmatization) 중 적어도 하나를 사용하여 입력 텍스트 데이터를 전처리하여 데이터 증강부로 전송할 수 있다. 일 예로, 전처리부(320)는 입력 데이터 분석부(310)에서 결정된 지배적 언어를 기반으로 전처리에 사용할 언어 자원을 결정할 수 있다.
일 예로, 언어 자원은 word embedding, pre-trained models, dictionaries, anaphora resolution, POS tagger, entity recognition, summarization, machine translation 중 적어도 하나일 수 있다.
일 실시예에 따르면, 데이터 증강부(330), 데이터 분류부(340) 및 정합성 판정부(350)는 도 1 내지 2를 참조하여 설명한 데이터 증강부(110), 데이터 분류부(120) 및 정합성 판정부(130)에 대한 실시예와 같이 동작할 수 있다.
도 4는 일 실시예에 따른 텍스트 데이터 증강 방법의 순서도이다.
도 4를 참조하면, 텍스트 데이터 증강 장치는 입력 텍스트 데이터의 자연어 처리 태스크(Natural Language Processing Task) 종류에 기초하여 결정되는 데이터 증강(data augmentation) 방식에 따라 입력 텍스트 데이터를 증강하여 증강 데이터를 생성할 수 있다(410).
일 실시예에 따르면, 텍스트 데이터 증강 장치는 자연어 처리 태스크 종류, 데이터 증강 방식, 핵심 문장인지 여부 및 입력 텍스트 데이터의 종류 중 하나 이상에 기초하여 증강 규모를 결정할 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치는 입력 텍스트 데이터의 최소 4배 내지 최대 10 제곱 배만큼 데이터 증강 규모를 결정할 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 하나 이상의 데이터 분류 기준을 기초로 증강 데이터가 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류할 수 있다(420).
일 실시예에 따르면, 텍스트 데이터 증강 장치는 데이터 증강 방식 및 입력 텍스트 데이터의 자연어 처리 태스크 종류에 따라 미리 설정된 매핑 테이블을 이용하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 1 분석법, 증강 데이터가 문법을 만족하는지 여부를 분석하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 2 분석법 및 사용자 입력 레이블 예측값과 증강 데이터의 레이블을 비교하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 3 분석법 중 적어도 하나를 이용하여 증강 데이터를 분류할 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치는 데이터 증강 방식 및 입력 텍스트 데이터의 자연어 처리 태스크 종류에 따라 미리 설정된 매핑 테이블을 이용하여 양성 샘플 또는 음성 샘플인지 여부를 결정할 수 있다.
일 예로, 자연어 처리 태스크의 성격에 따라 데이터 증강 방식에 따른 증강 데이터가 양성 샘플일지 또는 음성 샘플일지 여부를 예측할 수 있다. 일 예를 들어, 감성 분석 태스크의 경우 문장 부정(Sentence negation) 방식을 사용하여 데이터를 증강 시 음성 샘플을 생성할 가능성이 높다. 이에 따라, 텍스트 데이터 증강 장치는 감성 분석 태스크 및 문장 부정(Sentence negation) 방식을 사용하는 경우 음성 샘플로 매핑된 매핑 테이블을 가질 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치는 증강 데이터가 문법을 만족하는지 여부를 분석하여 양성 샘플 또는 음성 샘플인지 여부를 결정할 수 있다.
일 예를 들어, 증강 데이터의 형태소 분석 결과 단문에 동사가 2회 이상 출현하는 경우 텍스트 데이터 증강 장치는 해당 증강 데이터가 비문인 것으로 판단하여 음성 샘플로 분류할 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치는 사용자 입력 레이블 예측값과 증강 데이터의 레이블을 비교하여 양성 샘플 또는 음성 샘플인지 여부를 결정할 수 있다.
일 예를 들어, 사용자는 증강 데이터에 대한 레이블을 예측할 수 있으며, 텍스트 데이터 증강 장치는 사용자가 예측한 레이블과 증강 데이터의 실제 레이블을 비교하여 두 레이블이 일치하면 양성 샘플로 결정하고, 두 레이블이 일치하지 않으면 음성 샘플로 결정할 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터를 이용할지 여부를 결정할 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 제 1 분석법, 제 2 분석법 및 제 3 분석법 중 적어도 하나의 결과 중 양성 샘플로 결정된 결과의 비율 또는 개수를 기초로 증강 데이터를 이용할지 여부를 결정할 수 있다.
일 예를 들어, 텍스트 데이터 증강 장치는 제 1 분석법, 제 2 분석법 및 제 3 분석법에 따른 3개의 분류 결과 중 2개 이상이 양성 샘플인 경우, 해당 증강 데이터가 양성 샘플인 것으로 판단할 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 양성 샘플이라고 판단한 경우, 증강 데이터를 이용하는 것으로 결정하며, 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 증강 데이터를 이용하지 않는 것으로 결정할 수 있다.
일 예를 들어, 3개의 분류 결과 중 2개 이상이 양성 샘플인 경우, 텍스트 데이터 증강 장치는 해당 증강 데이터가 양성 샘플인 것으로 판단할 수 있으며, 판단 결과에 따라 해당 증강 데이터를 사용하는 것으로 결정할 수 있다.
일 예를 들어, 3개의 분류 결과 중 1개가 양성 샘플인 경우, 텍스트 데이터 증강 장치는 해당 증강 데이터가 음성 샘플인 것으로 판단할 수 있으며, 판단 결과에 따라 해당 증강 데이터를 사용하자 않는 것으로 결정할 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터가 음성 샘플이라고 판단한 경우, 입력 텍스트 데이터의 자연어 처리 태스크 종류에 더 기초하여 증강 데이터를 이용할지 여부를 결정할 수 있다.
일 예를 들어, 3개의 분류 결과 중 1개가 양성 샘플인 경우, 텍스트 데이터 증강 장치는 해당 증강 데이터가 음성 샘플인 것으로 판단할 수 있다. 이때, 입력 텍스트 데이터의 자연어 처리 태스크가 노이즈 데이터가 학습에 긍정적인 영향을 미치는 multi-task learning인 경우, 텍스트 데이터 증강 장치는 해당 증강 데이터가 음성 샘플로 분류됨에도 불구하고 사용하는 것으로 결정할 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 토큰화(tokenization), 불용어 제거(stopword), 어간 추출(stemming) 및 표제어 추출(lemmatization) 중 적어도 하나를 사용하여 입력 텍스트 데이터를 전처리할 수 있다.
일 예로, 언어 자원은 word embedding, pre-trained models, dictionaries, anaphora resolution, POS tagger, entity recognition, summarization, machine translation 중 적어도 하나일 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부, 입력 테스트 데이터의 지배적 언어 종류, 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부 및 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류 중 적어도 하나를 결정할 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치는 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부를 결정할 수 있다. 일 예로, 소정의 요건은 입력 텍스트 데이터가 하나 이상의 문장 성분이 결합된 하나 이상의 문장을 포함하는 여부가 될 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치가 입력 텍스트 데이터가 하나 이상의 문장을 포함하고 있지 않은 것으로 판단하는 경우, 텍스트 데이터 증강 장치는 사용자에게 입력 텍스트 데이터를 재입력하도록 메시지를 출력할 수 있다.
일 실시예에 따르면, 텍스트 데이터 증강 장치는 입력 테스트 데이터의 지배적 언어 종류를 결정할 수 있다.
일 예에 따르면, 입력 테스트 데이터의 지배적 언어의 종류는 언어별 유니코드를 기초로 결정될 수 있다. 일 예로, 각 언어별 유니 코드의 범위가 다를 수 있으며, 텍스트 데이터 증강 장치는 유니 코드의 범위에 기초하여 입력 텍스트 데이터의 지배적 언어를 결정할 수 있다. 예를 들어, 한글의 유니코드 범위는 1100 내지 11FF일 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치는 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부를 결정할 수 있다.
일 예에 따르면, 텍스트 데이터 증강 장치는 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류를 결정할 수 있다. 일 예로, 자연어 처리 태스크 종류는 입력 텍스트 데이터의 레이블을 기초로 결정될 수 있다.
도 5는 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 텍스트 데이터 증강 장치(120)에 포함되는 하나 이상의 컴포넌트일 수 있다. 컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 텍스트 데이터 증강 장치
110: 데이터 증강부
120: 데이터 분류부
121, 123, 125: 분석기
130: 정합성 판정부
300: 텍스트 데이터 증강 장치
310: 입력 데이터 분석부
320: 전처리부
330: 데이터 증강부
340: 데이터 분류부
350: 정합성 판정부

Claims (24)

  1. 입력 텍스트 데이터의 자연어 처리 태스크(Natural Language Processing Task) 종류에 기초하여 결정되는 데이터 증강(data augmentation) 방식에 따라 입력 텍스트 데이터를 증강하여 증강 데이터를 생성하는 데이터 증강부;
    하나 이상의 데이터 분류 기준을 기초로 상기 증강 데이터가 상기 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 상기 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류하는 데이터 분류부를 포함하는, 텍스트 데이터 증강 장치.
  2. 청구항 1에 있어서,
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터를 이용할지 여부를 결정하는 정합성 판정부를 더 포함하는, 텍스트 데이터 증강 장치.
  3. 청구항 1에 있어서,
    상기 데이터 증강부는
    자연어 처리 태스크 종류, 데이터 증강 방식, 핵심 문장인지 여부 및 입력 텍스트 데이터의 종류 중 하나 이상에 기초하여 증강 규모를 결정하는, 텍스트 데이터 증강 장치.
  4. 청구항 2에 있어서,
    상기 데이터 분류부는
    데이터 증강 방식 및 입력 텍스트 데이터의 자연어 처리 태스크 종류에 따라 미리 설정된 매핑 테이블을 이용하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 1 분석기,
    상기 증강 데이터가 문법을 만족하는지 여부를 분석하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 2 분석기 및
    사용자 입력 레이블 예측값과 상기 증강 데이터의 레이블을 비교하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 3 분석기 중 적어도 하나를 포함하는, 텍스트 데이터 증강 장치.
  5. 청구항 4에 있어서,
    상기 정합성 판정부는
    상기 제 1 분석기, 상기 제 2 분석기 및 상기 제 3 분석기 중 적어도 하나의 결과 중 양성 샘플로 결정된 결과의 비율 또는 개수를 기초로 증강 데이터를 이용할지 여부를 결정하는, 텍스트 데이터 증강 장치.
  6. 청구항 2에 있어서,
    상기 정합성 판정부는
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 상기 증강 데이터가 양성 샘플이라고 판단한 경우, 상기 증강 데이터를 이용하는 것으로 결정하며,
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 상기 증강 데이터가 음성 샘플이라고 판단한 경우, 상기 증강 데이터를 이용하지 않는 것으로 결정하는, 텍스트 데이터 증강 장치.
  7. 청구항 5에 있어서,
    상기 정합성 판정부는
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 상기 증강 데이터가 음성 샘플이라고 판단한 경우, 상기 입력 텍스트 데이터의 자연어 처리 태스크 종류에 더 기초하여 증강 데이터를 이용할지 여부를 결정하는, 텍스트 데이터 증강 장치.
  8. 청구항 1에 있어서,
    토큰화(tokenization), 불용어 제거(stopword), 어간 추출(stemming) 및 표제어 추출(lemmatization) 중 적어도 하나를 사용하여 상기 입력 텍스트 데이터를 전처리하여 상기 데이터 증강부로 전송하는 전처리부를 더 포함하는, 텍스트 데이터 증강 장치.
  9. 청구항 1에 있어서,
    상기 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부, 상기 입력 테스트 데이터의 지배적 언어 종류, 상기 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부 및 상기 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류 중 적어도 하나를 결정하는 입력 데이터 분석부를 더 포함하는, 텍스트 데이터 증강 장치.
  10. 청구항 9에 있어서,
    상기 데이터 증강을 위한 소정의 요건은 상기 입력 텍스트 데이터가 하나 이상의 문장 성분이 결합된 하나 이상의 문장을 포함하는 것인, 텍스트 데이터 증강 장치.
  11. 청구항 9에 있어서,
    상기 입력 테스트 데이터의 지배적 언어의 종류는 언어별 유니코드를 기초로 결정되는, 텍스트 데이터 증강 장치.
  12. 청구항 9에 있어서,
    상기 자연어 처리 태스크 종류는 상기 입력 텍스트 데이터의 레이블을 기초로 결정되는, 텍스트 데이터 증강 장치.
  13. 입력 텍스트 데이터의 자연어 처리 태스크(Natural Language Processing Task) 종류에 기초하여 결정되는 데이터 증강(data augmentation) 방식에 따라 입력 텍스트 데이터를 증강하여 증강 데이터를 생성하는 단계; 및
    하나 이상의 데이터 분류 기준을 기초로 상기 증강 데이터가 상기 입력 텍스트 데이터의 레이블 정보를 유지하는지 여부를 판단하여 상기 증강 데이터를 양성 샘플(positive sample) 또는 음성 샘플(negative sample)로 분류하는 단계를 포함하는, 텍스트 데이터 증강 방법.
  14. 청구항 13에 있어서,
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 증강 데이터를 이용할지 여부를 결정하는 단계를 포함하는, 텍스트 데이터 증강 방법.
  15. 청구항 13에 있어서,
    상기 증강 데이터를 생성하는 단계는
    자연어 처리 태스크 종류, 데이터 증강 방식, 핵심 문장인지 여부 및 입력 텍스트 데이터의 종류 중 하나 이상에 기초하여 증강 규모를 결정하는, 텍스트 데이터 증강 방법.
  16. 청구항 14에 있어서,
    상기 증강 데이터를 분류하는 단계는
    데이터 증강 방식 및 입력 텍스트 데이터의 자연어 처리 태스크 종류에 따라 미리 설정된 매핑 테이블을 이용하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 1 분석법,
    상기 증강 데이터가 문법을 만족하는지 여부를 분석하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 2 분석법 및
    사용자 입력 레이블 예측값과 상기 증강 데이터의 레이블을 비교하여 양성 샘플 또는 음성 샘플인지 여부를 결정하는 제 3 분석법 중 적어도 하나를 이용하여 증강 데이터를 분류하는, 텍스트 데이터 증강 방법.
  17. 청구항 16에 있어서,
    상기 증강 데이터를 이용할지 여부를 결정하는 단계는
    상기 제 1 분석법, 상기 제 2 분석법 및 상기 제 3 분석법 중 적어도 하나의 결과 중 양성 샘플로 결정된 결과의 비율 또는 개수를 기초로 증강 데이터를 이용할지 여부를 결정하는, 텍스트 데이터 증강 방법.
  18. 청구항 14에 있어서,
    상기 증강 데이터를 이용할지 여부를 결정하는 단계는
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 상기 증강 데이터가 양성 샘플이라고 판단한 경우, 상기 증강 데이터를 이용하는 것으로 결정하며,
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 상기 증강 데이터가 음성 샘플이라고 판단한 경우, 상기 증강 데이터를 이용하지 않는 것으로 결정하는, 텍스트 데이터 증강 방법.
  19. 청구항 18에 있어서,
    상기 증강 데이터를 이용할지 여부를 결정하는 단계는
    상기 하나 이상의 데이터 분류 기준에 따라 분류된 결과를 기초로 상기 증강 데이터가 음성 샘플이라고 판단한 경우, 상기 입력 텍스트 데이터의 자연어 처리 태스크 종류에 더 기초하여 증강 데이터를 이용할지 여부를 결정하는, 텍스트 데이터 증강 방법.
  20. 청구항 13에 있어서,
    토큰화(tokenization), 불용어 제거(stopword), 어간 추출(stemming) 및 표제어 추출(lemmatization) 중 적어도 하나를 사용하여 상기 입력 텍스트 데이터를 전처리하는 단계를 더 포함하는, 텍스트 데이터 증강 방법.
  21. 청구항 13에 있어서,
    상기 입력 텍스트 데이터가 데이터 증강을 위한 소정의 요건을 만족하는지 여부, 상기 입력 테스트 데이터의 지배적 언어 종류, 상기 입력 텍스트 데이터가 단일 문장, 단일 문서 및 말뭉치(corpus) 중 어느 하나의 종류에 해당하는지 여부 및 상기 입력 텍스트 데이터에 대응하는 자연어 처리 태스크 종류 중 적어도 하나를 결정하는 단계를 더 포함하는, 텍스트 데이터 증강 방법.
  22. 청구항 21에 있어서,
    상기 데이터 증강을 위한 소정의 요건은 상기 입력 텍스트 데이터가 하나 이상의 문장 성분이 결합된 하나 이상의 문장을 포함하는 것인, 텍스트 데이터 증강 방법.
  23. 청구항 21에 있어서,
    상기 입력 테스트 데이터의 지배적 언어의 종류는 언어별 유니코드를 기초로 결정되는, 텍스트 데이터 증강 방법.
  24. 청구항 21에 있어서,
    상기 자연어 처리 태스크 종류는 상기 입력 텍스트 데이터의 레이블을 기초로 결정되는, 텍스트 데이터 증강 방법.
KR1020200139566A 2020-10-26 2020-10-26 텍스트 데이터 증강 장치 및 방법 KR102617753B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200139566A KR102617753B1 (ko) 2020-10-26 2020-10-26 텍스트 데이터 증강 장치 및 방법
EP21204712.0A EP3989100A1 (en) 2020-10-26 2021-10-26 Apparatus and method for augmenting texual data
US17/510,640 US12008330B2 (en) 2020-10-26 2021-10-26 Apparatus and method for augmenting textual data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200139566A KR102617753B1 (ko) 2020-10-26 2020-10-26 텍스트 데이터 증강 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220055277A true KR20220055277A (ko) 2022-05-03
KR102617753B1 KR102617753B1 (ko) 2023-12-27

Family

ID=78695455

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200139566A KR102617753B1 (ko) 2020-10-26 2020-10-26 텍스트 데이터 증강 장치 및 방법

Country Status (2)

Country Link
EP (1) EP3989100A1 (ko)
KR (1) KR102617753B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240042741A (ko) 2022-09-26 2024-04-02 주식회사 케이티 텍스트 데이터 증강 방법 및 그 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220511A1 (en) * 2014-02-04 2015-08-06 Maluuba Inc. Method and system for generating natural language training data
US20200134025A1 (en) * 2018-10-24 2020-04-30 International Business Machines Corporation Augmentation of a Text Representation Model
KR20200068769A (ko) * 2018-11-27 2020-06-16 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
US20200226212A1 (en) * 2019-01-15 2020-07-16 International Business Machines Corporation Adversarial Training Data Augmentation Data for Text Classifiers
KR20200110400A (ko) 2018-05-18 2020-09-23 구글 엘엘씨 학습 데이터 증강 정책

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494667B2 (en) * 2018-01-18 2022-11-08 Google Llc Systems and methods for improved adversarial training of machine-learned models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220511A1 (en) * 2014-02-04 2015-08-06 Maluuba Inc. Method and system for generating natural language training data
KR20200110400A (ko) 2018-05-18 2020-09-23 구글 엘엘씨 학습 데이터 증강 정책
US20200134025A1 (en) * 2018-10-24 2020-04-30 International Business Machines Corporation Augmentation of a Text Representation Model
KR20200068769A (ko) * 2018-11-27 2020-06-16 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
KR102147582B1 (ko) * 2018-11-27 2020-08-26 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
US20200226212A1 (en) * 2019-01-15 2020-07-16 International Business Machines Corporation Adversarial Training Data Augmentation Data for Text Classifiers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Marivate, Vukosi, and Tshephisho Sefara. Improving short text classification through global augmentation methods. arXiv preprint arXiv:1907.03752. 2019.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240042741A (ko) 2022-09-26 2024-04-02 주식회사 케이티 텍스트 데이터 증강 방법 및 그 장치

Also Published As

Publication number Publication date
EP3989100A1 (en) 2022-04-27
KR102617753B1 (ko) 2023-12-27
US20220129644A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
Denecke Using sentiwordnet for multilingual sentiment analysis
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
Salloum et al. Elissa: A dialectal to standard Arabic machine translation system
US11386270B2 (en) Automatically identifying multi-word expressions
Kawahara et al. Rapid development of a corpus with discourse annotations using two-stage crowdsourcing
KR20210142891A (ko) 자연어 처리 모델을 맞춤화하기 위한 방법 및 장치
Kuzmenko Morphological analysis for Russian: Integration and comparison of taggers
KR20210090906A (ko) 감성 분석을 위한 학습 데이터 생성 방법 및 장치
Boltayevich et al. Methods for creating a morphological analyzer
EP3989100A1 (en) Apparatus and method for augmenting texual data
Yung et al. A psycholinguistic model for the marking of discourse relations
US12008330B2 (en) Apparatus and method for augmenting textual data
Chimalamarri et al. Linguistically enhanced word segmentation for better neural machine translation of low resource agglutinative languages
Deka et al. A study of various natural language processing works for assamese language
Stodden et al. A multi-lingual and cross-domain analysis of features for text simplification
Alotaibi et al. Using Sentence Embedding for Cross-Language Plagiarism Detection
KR20220046987A (ko) 문단 내 객체 탐지 방법 및 장치
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
Laki Investigating the Possibilities of Using SMT for Text Annotation
Shamsfard et al. Thematic role extraction using shallow parsing
Mihi et al. Automatic Sarcasm Detection in Dialectal Arabic Using BERT and TF-IDF
Birshert et al. Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models
Bhargava et al. Enhancing Deep Learning Approach for Tamil English Mixed Text Classification
Hammouda et al. Arabic NooJ parser: nominal sentence case
Benko et al. Comparison of Novel Approach to Part-Of-Speech Tagging of Slovak Language

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X601 Decision of rejection after re-examination
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2023101001852; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20230829

Effective date: 20231121

GRNO Decision to grant (after opposition)
GRNT Written decision to grant