KR20230160619A - A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same - Google Patents

A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same Download PDF

Info

Publication number
KR20230160619A
KR20230160619A KR1020220060361A KR20220060361A KR20230160619A KR 20230160619 A KR20230160619 A KR 20230160619A KR 1020220060361 A KR1020220060361 A KR 1020220060361A KR 20220060361 A KR20220060361 A KR 20220060361A KR 20230160619 A KR20230160619 A KR 20230160619A
Authority
KR
South Korea
Prior art keywords
data
data set
raw
expert
translation
Prior art date
Application number
KR1020220060361A
Other languages
Korean (ko)
Inventor
한승희
손기준
조인호
Original Assignee
포스트에이아이 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포스트에이아이 주식회사 filed Critical 포스트에이아이 주식회사
Priority to KR1020220060361A priority Critical patent/KR20230160619A/en
Publication of KR20230160619A publication Critical patent/KR20230160619A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

본 발명에 따른 외국어 병렬 말뭉치 원천데이터 구축방법은, 관리서버의 데이터저장부가 기 설정된 기준에 의해 선별되며, 복수 개의 어절로 구성되는 원시 말뭉치 복수 개를 입력받아 데이터베이스에 저장하는 (a)단계, 관리서버의 데이터처리부가 상기 데이터베이스에 저장된 각 원시 말뭉치를 n개의 상세 주제에 따라 분류하는 (b)단계, 상기 데이터처리부가 상기 (b)단계에 의해 상세 주제가 분류된 원시 말뭉치를 추출하여 대화문의 패턴으로 구성되는 원시데이터 세트로서 정제하는 (c)단계, 상기 데이터저장부가 미리 구축된 저작용 클라우드서버에 상기 원시데이터 세트를 업로드하는 (d)단계, 상기 저작용 클라우드서버의 기계번역부가 상기 저작용 클라우드서버에 업로드된 상기 원시데이터 세트에 대한 기계번역을 수행하여 기계번역데이터 세트를 생성하는 (e)단계, 상기 데이터저장부가 상기 저작용 클라우드서버에 업로드된 상기 원시데이터 세트에 대해 전문가 번역을 거친 전문가번역데이터 세트를 상기 저작용 클라우드서버에 업로드하는 (f)단계, 상기 저작용 클라우드서버의 데이터구축부가 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대해 각각 항목 별 품질 평가를 수행하는 (g)단계 및 상기 관리서버의 데이터처리부가 상기 저작용 클라우드서버에서 품질 평가가 이루어진 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트를 다운로드하여, 외국어 병렬 말뭉치 원천데이터를 구축하는 (h)단계를 포함한다.The method of constructing foreign language parallel corpus source data according to the present invention includes step (a) of selecting a data storage unit of the management server according to preset criteria, receiving a plurality of raw corpora consisting of a plurality of words, and storing them in a database, management Step (b), where the data processing unit of the server classifies each raw corpus stored in the database according to n detailed topics, and the data processing unit extracts the raw corpus classified by detailed topics in step (b) and converts it into a conversation pattern. Step (c) of refining the raw data set as a set, (d) uploading the raw data set to the authoring cloud server in which the data storage unit is pre-built, and the machine translation unit of the authoring cloud server to the authoring cloud server. Step (e) of generating a machine-translated data set by performing machine translation on the raw data set uploaded to a server, wherein the data storage unit is an expert who has performed expert translation on the raw data set uploaded to the authoring cloud server. Step (f) of uploading the translation data set to the authoring cloud server, and (g) where the data construction unit of the authoring cloud server performs quality evaluation for each item on the machine translation data set and the expert translation data set. and a step (h) in which the data processing unit of the management server downloads the machine translation data set and the expert translation data set whose quality has been evaluated from the authoring cloud server to construct foreign language parallel corpus source data.

Description

외국어 병렬 말뭉치 원천데이터 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 저장매체{A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same}A method for constructing foreign language parallel corpus source data and a storage medium recording a program for executing it {A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same}

본 발명은 외국어 병렬 말뭉치 원천데이터 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 저장매체에 관한 것으로서, 보다 상세하게는 언어문화 컨텐츠 사업의 전 세계적 확산을 도모하고, 인공지능 기반 언어문화 컨텐츠 산업의 활성화를 위한 기반 자료를 제공할 수 있도록 하는 외국어 병렬 말뭉치 원천데이터 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 저장매체에 관한 것이다.The present invention relates to a method for constructing foreign language parallel corpus source data and a storage medium recording a program for executing the same. More specifically, it aims to promote the global expansion of the language culture content business and revitalize the artificial intelligence-based language culture content industry. This is about a method of constructing source data for a foreign language parallel corpus that can provide basic data for this purpose, and a storage medium that records a program to execute it.

최근 국제적인 팬데믹(Pandemic) 사태로 인해 전 세계 경제 성장률이 부실한 가운데 한류 컨텐츠가 세계적인 흐름이 되면서 한국 문화와 한국어에 대한 관심이 빠르게 확산되고 있다.As the global economic growth rate has been sluggish due to the recent international pandemic, interest in Korean culture and the Korean language is rapidly spreading as Korean Wave content has become a global trend.

이에 따라 정보통신 및 융합기술이 고도화되고, 컨텐츠 유통 플랫폼이 다양화되는 4차 산업혁명의 미래에 대응해 '디지털'과 '글로벌'이라는 양 축을 중심으로 한 언어문화 컨텐츠 사업의 확산은 한국 경제가 추진해야 할 혁신 전략의 일환이 될 것으로 예측되고 있다Accordingly, in response to the future of the 4th Industrial Revolution, where information and communication and convergence technologies are becoming more sophisticated and content distribution platforms are diversifying, the expansion of language and culture content businesses centered on the two axes of 'digital' and 'global' is expected to help the Korean economy. It is predicted that it will be part of the innovation strategy to be pursued.

따라서 한류와 한국어 교육의 연관 관계를 바탕으로 한국어의 세계화를 위해 문화가 바탕이 되는 언어 교육이 이루어져야 하며, 전 세계 어디에서는 접근할 수 있는 디지털 환경의 구축이 적극적으로 추진되어야 할 필요가 있다.Therefore, based on the relationship between the Korean Wave and Korean language education, language education based on culture must be provided for the globalization of the Korean language, and the establishment of a digital environment that can be accessed anywhere in the world needs to be actively promoted.

특히 외국어 교육에 있어서는 목표 언어와 학습자 모국어 간의 차이점과 유사점을 살피는 대조 언어학적 방법론이 유용하게 활용되며, 언어 간 대응 쌍을 객관적으로 추출하는 것이 매우 중요하다.In particular, in foreign language education, contrastive linguistic methodology that examines the differences and similarities between the target language and the learner's native language is useful, and it is very important to objectively extract correspondence pairs between languages.

이를 위해 다양한 컨텐츠에 활용이 가능한 기반 자료를 제공할 수 있도록 하는 외국어 병렬 말뭉치 원천데이터를 구축해야 할 필요성이 대두되고 있으나, 현재까지는 이와 같은 시도가 이루어지지 않고 있어 관련 연구 및 데이터 구축에 노력이 요구되는 상황이다.To this end, there is an emerging need to build foreign language parallel corpus source data that can provide basic data that can be used for various contents. However, no such attempt has been made to date, so efforts are required to conduct related research and build data. It's a situation.

한국등록특허 제10-2140983호Korean Patent No. 10-2140983

본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여 안출된 발명으로서, 외국어 병렬 말뭉치 원천데이터를 효율적으로 구축하여 언어문화 콘텐츠 사업의 전 세계적 확산을 도모하고, 인공지능 기반 언어문화 콘텐츠 산업의 활성화를 위한 기반 자료를 제공할 수 있도록 하기 위한 목적을 가진다.The present invention is an invention made to solve the problems of the prior art described above, and promotes the global spread of language culture content business by efficiently constructing foreign language parallel corpus source data and revitalizing the artificial intelligence-based language culture content industry. The purpose is to provide basic data for

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the description below.

상기한 목적을 달성하기 위한 본 발명의 외국어 병렬 말뭉치 원천데이터 구축방법은, 관리서버의 데이터저장부가 기 설정된 기준에 의해 선별되며, 복수 개의 어절로 구성되는 원시 말뭉치 복수 개를 입력받아 데이터베이스에 저장하는 (a)단계, 관리서버의 데이터처리부가 상기 데이터베이스에 저장된 각 원시 말뭉치를 n개의 상세 주제에 따라 분류하는 (b)단계, 상기 데이터처리부가 상기 (b)단계에 의해 상세 주제가 분류된 원시 말뭉치를 추출하여 대화문의 패턴으로 구성되는 원시데이터 세트로서 정제하는 (c)단계, 상기 데이터저장부가 미리 구축된 저작용 클라우드서버에 상기 원시데이터 세트를 업로드하는 (d)단계, 상기 저작용 클라우드서버의 기계번역부가 상기 저작용 클라우드서버에 업로드된 상기 원시데이터 세트에 대한 기계번역을 수행하여 기계번역데이터 세트를 생성하는 (e)단계, 상기 데이터저장부가 상기 저작용 클라우드서버에 업로드된 상기 원시데이터 세트에 대해 전문가 번역을 거친 전문가번역데이터 세트를 상기 저작용 클라우드서버에 업로드하는 (f)단계, 상기 저작용 클라우드서버의 데이터구축부가 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대해 각각 항목 별 품질 평가를 수행하는 (g)단계 및 상기 관리서버의 데이터처리부가 상기 저작용 클라우드서버에서 품질 평가가 이루어진 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트를 다운로드하여, 외국어 병렬 말뭉치 원천데이터를 구축하는 (h)단계를 포함한다.The method of constructing foreign language parallel corpus source data of the present invention to achieve the above purpose is to select the data storage unit of the management server according to preset standards, receive input of a plurality of raw corpora consisting of a plurality of words, and store them in the database. Step (a), where the data processing unit of the management server classifies each raw corpus stored in the database according to n detailed topics, and where the data processing unit classifies the raw corpus classified into detailed topics by step (b). Step (c) of extracting and refining the raw data set consisting of conversation patterns, (d) uploading the raw data set to the authoring cloud server in which the data storage unit is pre-built, and the machine of the authoring cloud server Step (e) in which the translation unit performs machine translation on the raw data set uploaded to the authoring cloud server to generate a machine translation data set, wherein the data storage unit performs machine translation on the raw data set uploaded to the authoring cloud server. Step (f) of uploading an expert translation data set that has undergone expert translation to the authoring cloud server, wherein the data construction unit of the authoring cloud server evaluates the quality of each item for the machine translation data set and the expert translation data set. Step (g) of performing and the data processing unit of the management server downloads the machine translation data set and the expert translation data set whose quality has been evaluated from the authoring cloud server, and constructs foreign language parallel corpus source data (h) ) steps are included.

이때 상기 (a)단계는, 상기 데이터저장부가 구어 컨텐츠에 포함된 일상대화, 메신저 대화 및 준구어와, 문어 컨텐츠에 포함된 어학자료를 균일한 비율로 수집하여 원시 말뭉치로서 입력받을 수 있다.At this time, in step (a), the data storage unit collects everyday conversation, messenger conversation, and semi-spoken language included in spoken language content, and linguistic data included in written content in a uniform ratio and can receive input as a raw corpus.

또한 상기 (b)단계는, 상기 데이터처리부가 상기 n개의 상세 주제 별 구축량을 각각 균일한 비율로 설정할 수 있다.In addition, in step (b), the data processing unit may set the construction amount for each of the n detailed topics at a uniform ratio.

더불어 상기 (c)단계는, 상기 데이터처리부가 상기 (b)단계에 의해 상세 주제가 분류된 원시 말뭉치를 임의로 추출하는 (c-1)단계, 상기 데이터처리부가 상기 (c-1)단계에 의해 추출된 2개의 원시 말뭉치를 조합하여 대화문의 패턴인 말차례(Single-Turn)로 구성하는 (c-2)단계 및 상기 데이터처리부가 상기 (c-2)단계에 의해 구성된 말차례를 3개 조합하여 하나의 원시데이터 세트로서 정제하는 (c-3)단계를 포함할 수 있다.In addition, the step (c) is a step (c-1) in which the data processing unit randomly extracts the raw corpus into which detailed topics are classified by the step (b), and the data processing unit extracts the raw corpus by the step (c-1). Step (c-2), which combines the two raw corpora to form a single-turn, which is a conversation pattern, and the data processing unit combines three turns composed by step (c-2) It may include step (c-3) of refining as one raw data set.

또한 상기 (g)단계는, 상기 데이터구축부가 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대해 전문가 평가를 거친 평가자료를 입력받는 (g-1)단계, 상기 데이터구축부가 상기 평가자료를 기반으로 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대한 항목 별 품질 평가를 수행하는 (g-2)단계, 상기 데이터구축부가 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에서 기 설정된 품질기준점수 이상인 항목에 대해서는 합격 라벨을 부여하고, 기 설정된 품질기준점수 이상인 항목에 대해서는 불합격 라벨을 부여하는 (g-3)단계, 상기 데이터구축부가 불합격 라벨이 부여된 항목에 대한 보완 처리가 수행된 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대해 전문가 평가를 다시 거친 평가자료를 재입력받는 (g-4)단계 및 상기 데이터구축부가 불합격 라벨이 부여된 항목이 발생하지 않을 때까지 상기 (g-2)단계 내지 상기 (g-4)단계를 반복 수행하는 (g-5)단계를 포함할 수 있다.In addition, the step (g) is a step (g-1) in which the data construction unit receives evaluation data that has undergone expert evaluation for the machine translation data set and the expert translation data set, and the data construction unit bases the evaluation data on the data set. Step (g-2) of performing a quality evaluation for each item on the machine translation data set and the expert translation data set, wherein the data construction unit has a quality standard score higher than or equal to a preset quality standard score in the machine translation data set and the expert translation data set. Step (g-3) of assigning a pass label to items and assigning a fail label to items that have a preset quality standard score or higher, and the machine translation in which the data construction unit performs supplementary processing for items given a fail label. Step (g-4) of re-entering the evaluation data that has undergone expert evaluation for the data set and the expert translation data set, and (g-2) until the data construction unit does not generate any items labeled as failed. It may include step (g-5) of repeating steps through (g-4).

그리고 상기 (h)단계 이후에는, 상기 데이터저장부가 상기 (a)단계 내지 상기 (h)단계의 데이터 구축 이력을 인공지능 학습모델에 업로드하여 상기 인공지능 학습모델에 의한 학습을 진행시키는 (i)단계가 더 수행될 수 있다.And after step (h), the data storage unit uploads the data construction history of steps (a) to (h) to the artificial intelligence learning model to proceed with learning by the artificial intelligence learning model (i) Further steps may be performed.

한편 본 발명은 이상과 같은 외국어 병렬 말뭉치 원천데이터 구축방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체 형태로 제공될 수 있다.Meanwhile, the present invention can be provided in the form of a computer-readable storage medium on which a program for executing the foreign language parallel corpus source data construction method described above is recorded.

상기한 과제를 해결하기 위한 본 발명의 외국어 병렬 말뭉치 원천데이터 구축방법은 대용량, 고품질의 외국어 병렬 말뭉치 원천데이터를 제공할 수 있으며, 기계학습용 병렬 말뭉치 구축 방법론과 언어 데이터 품질 검수 및 검증 체계를 수립하는 데 표준을 제시할 수 있는 것은 물론, 언어학, 번역학, 언어 공학, 외국어 교육 등 관련 연구의 기초 자료로 활용이 가능하다는 장점을 가진다.The foreign language parallel corpus source data construction method of the present invention to solve the above problems can provide large-capacity, high-quality foreign language parallel corpus source data, and establishes a parallel corpus construction methodology for machine learning and a language data quality inspection and verification system. It has the advantage of not only being able to present standards for research, but also being able to be used as basic data for related research such as linguistics, translation studies, language engineering, and foreign language education.

특히 본 발명은 외국어 병렬 말뭉치 원천데이터를 효율적으로 구축하여 언어문화 콘텐츠 사업의 전 세계적 확산을 도모하고, 인공지능 기반 언어문화 콘텐츠 산업의 활성화를 위한 기반 자료를 제공할 수 있다.In particular, the present invention can efficiently build foreign language parallel corpus source data to promote global expansion of language and culture content business and provide basic data for revitalizing the artificial intelligence-based language and culture content industry.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description of the claims.

도 1은 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법의 각 과정을 나타낸 도면;
도 2는 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법을 수행하기 위한 시스템의 구성을 나타낸 도면;
도 3은 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법에 있어서, (c)단계의 세부 과정을 나타낸 도면;
도 4는 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법에 있어서, (g)단계의 세부 과정을 나타낸 도면; 및
도 5는 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법의 일련의 프로세스를 개략적으로 나타낸 도면이다.
1 is a diagram showing each process of the foreign language parallel corpus source data construction method according to an embodiment of the present invention;
Figure 2 is a diagram showing the configuration of a system for performing a method of constructing foreign language parallel corpus source data according to an embodiment of the present invention;
Figure 3 is a diagram showing the detailed process of step (c) in the foreign language parallel corpus source data construction method according to an embodiment of the present invention;
Figure 4 is a diagram showing the detailed process of step (g) in the foreign language parallel corpus source data construction method according to an embodiment of the present invention; and
Figure 5 is a diagram schematically showing a series of processes of a method for constructing foreign language parallel corpus source data according to an embodiment of the present invention.

이하 본 발명의 목적이 구체적으로 실현될 수 있는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다. 본 실시예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention, in which the object of the present invention can be realized in detail, will be described with reference to the attached drawings. In describing this embodiment, the same names and the same symbols are used for the same components, and additional description accordingly will be omitted.

본 발명은 '디지털'과 '글로벌'이라는 두 축을 중심으로 언어문화 컨텐츠 사업을 확산시키기 위한 기초 데이터의 구축을 목적으로 하는 것으로, 인공지능 기반 자막 번역기, 언어학습용 또는 라이브 커머스용 챗봇 등의 개발을 위한 학습용 데이터로서 활용될 원천데이터를 설계하고자 하는 것이다.The purpose of the present invention is to build basic data to spread the language and culture content business around the two axes of 'digital' and 'global', and to develop artificial intelligence-based subtitle translators, chatbots for language learning or live commerce, etc. The goal is to design source data that will be used as learning data for learning.

그리고 본 발명에 따른 외국어 병렬 말뭉치 원천데이터 구축방법은 저장매체에 저장된 외국어 병렬 말뭉치 원천데이터 구축용 프로그램이 설치된 관리서버를 통해 수행되는 것으로서, 관리서버의 프로세서에 의해 구동될 수 있다.In addition, the method for constructing foreign language parallel corpus source data according to the present invention is performed through a management server in which a program for constructing foreign language parallel corpus source data stored in a storage medium is installed, and can be driven by a processor of the management server.

이때 외국어 병렬 말뭉치 원천데이터 구축용 프로그램은 디스플레이 모듈 등 영상 출력장치를 통해 출력될 수 있으며, 사용자가 소유한 모바일 단말기, 데스크탑 컴퓨터, 랩탑 컴퓨터 등에서 시각화된 그래픽 유저 인터페이스를 통해 가시적인 정보를 제공할 수 있다.At this time, the program for constructing foreign language parallel corpus source data can be output through an image output device such as a display module, and visible information can be provided through a graphical user interface visualized on the user's mobile terminal, desktop computer, laptop computer, etc. there is.

특히 외국어 병렬 말뭉치 원천데이터 구축용 프로그램이 저장된 저장매체는 이동식 디스크나 통신망을 이용하여 관리서버에 설치될 수 있으며, 외국어 병렬 말뭉치 원천데이터 구축용 프로그램은 관리서버가 다양한 기능적 수단으로 운용되도록 할 수 있다.In particular, the storage medium storing the program for building foreign language parallel corpus source data can be installed on the management server using a removable disk or a communication network, and the program for building foreign language parallel corpus source data can enable the management server to be operated by various functional means. .

즉 본 발명은 소프트웨어에 의한 정보 처리가 하드웨어를 통해 구체적으로 실현된다.In other words, in the present invention, information processing by software is concretely realized through hardware.

이하, 첨부된 도 1 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법에 대해서 설명하도록 한다.Hereinafter, a method for constructing foreign language parallel corpus source data according to an embodiment of the present invention will be described with reference to the attached FIGS. 1 to 4.

도 1은 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법의 각 과정을 나타낸 도면이다.Figure 1 is a diagram showing each process of the foreign language parallel corpus source data construction method according to an embodiment of the present invention.

또한 도 2는 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법을 수행하기 위한 시스템의 구성을 나타낸 도면으로, 이하 설명에 있어서 각 구성요소에 할당된 부호는 본 도면을 기준으로 한다.In addition, Figure 2 is a diagram showing the configuration of a system for performing a method of constructing foreign language parallel corpus source data according to an embodiment of the present invention. In the following description, the codes assigned to each component are based on this diagram.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법은 (a)단계 내지 (i)단계를 포함한다.As shown in Figure 1, the method for constructing foreign language parallel corpus source data according to an embodiment of the present invention includes steps (a) to (i).

(a)단계는 관리서버(100)의 데이터저장부(110)가 기 설정된 기준에 의해 선별되며, 복수 개의 어절로 구성되는 원시 말뭉치 복수 개를 입력받아 데이터베이스(130)에 저장하는 과정이다.Step (a) is a process in which the data storage unit 110 of the management server 100 selects according to preset criteria, receives a plurality of raw corpora consisting of a plurality of words, and stores them in the database 130.

특히 본 단계에서는 데이터저장부(110)가 구어 컨텐츠에 포함된 일상대화, 메신저 대화 및 준구어와, 문어 컨텐츠에 포함된 어학자료를 균일한 비율로 수집하여 원시 말뭉치로서 입력받도록 할 수 있다.In particular, in this step, the data storage unit 110 can collect daily conversations, messenger conversations, and semi-spoken language included in spoken language content, and linguistic data included in written content at a uniform rate and receive them as a raw corpus.

예컨대, 이하의 표 1과 같이, 일상대화, 메신저 대화, 준구어, 어학자료는 각각 25%에 해당하는 비율로 수집될 수 있다. 또한 표 1에 나타난 예시에서는 일상대화, 메신저 대화, 준구어, 어학자료가 각각 25만 어절을 포함하는 것으로 하였으나, 이는 하나의 예시로서 제시된 수치이다.For example, as shown in Table 1 below, daily conversation, messenger conversation, semi-spoken language, and language data can each be collected at a rate of 25%. In addition, in the example shown in Table 1, daily conversation, messenger conversation, semi-spoken language, and language data each contain 250,000 words, but this figure is provided as an example.

다음으로, 관리서버(100)의 데이터처리부(120)가 데이터베이스(130)에 저장된 각 원시 말뭉치를 n개의 상세 주제에 따라 분류하는 (b)단계가 수행된다.Next, step (b) is performed in which the data processing unit 120 of the management server 100 classifies each raw corpus stored in the database 130 according to n detailed topics.

이와 같은 (b)단계에서는 데이터처리부(120)가 n개의 상세 주제 별 구축량을 각각 균일한 비율로 설정할 수 있다. 이와 같이 하는 이유는, 본 발명이 범용 데이터의 구축 및 공개를 목표로 하기 때문으로, 데이터의 편향성 방지를 위해 범주 별, 개체 별 균일성을 확보하기 위한 것이다.In step (b), the data processing unit 120 can set the construction amount for each n detailed topics at a uniform ratio. The reason for doing this is because the present invention aims to build and disclose general-purpose data, and is to ensure uniformity by category and individual to prevent data bias.

예컨대, (b)단계에 의해 상세 주제 별로 분류된 원시 말뭉치의 비율은 이하 표 2에 나타난 바와 같이 정해질 수 있다. 해당 예시에서는, 목표에 부합하는 10개의 상세 주제를 선정하였으며, 데이터의 편향성을 방지하기 위해 세부 주제 별 구축량을 일정 비율로 설정하였다.For example, the ratio of the raw corpus classified by detailed topic in step (b) can be determined as shown in Table 2 below. In this example, 10 detailed topics that met the goal were selected, and the amount of construction for each detailed topic was set at a certain ratio to prevent bias in the data.

다음으로, 데이터처리부(120)가 (b)단계에 의해 상세 주제가 분류된 원시 말뭉치를 추출하여 대화문의 패턴으로 구성되는 원시데이터 세트로서 정제하는 (c)단계가 수행된다.Next, step (c) is performed in which the data processing unit 120 extracts the raw corpus classified by detailed topics in step (b) and refines it into a raw data set composed of conversation patterns.

도 3은 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법에 있어서, (c)단계의 세부 과정을 나타낸 도면이다.Figure 3 is a diagram showing the detailed process of step (c) in the method for constructing foreign language parallel corpus source data according to an embodiment of the present invention.

도 3에 도시된 바와 같이 (c)단계는 세부적으로, 데이터처리부(120)가 (b)단계에 의해 상세 주제가 분류된 원시 말뭉치를 임의로 추출하는 (c-1)단계와, 데이터처리부(120)가 (c-1)단계에 의해 추출된 2개의 원시 말뭉치를 조합하여 대화문의 패턴인 말차례(Single-Turn)로 구성하는 (c-2)단계와, 데이터처리부(120)가 (c-2)단계에 의해 구성된 말차례를 3개 조합하여 하나의 원시데이터 세트로서 정제하는 (c-3)단계를 포함한다.As shown in Figure 3, step (c) is in detail, step (c-1) in which the data processing unit 120 randomly extracts the raw corpus into which detailed topics have been classified by step (b), and the data processing unit 120 (c-2) step of combining the two raw corpora extracted in step (c-1) to form a single-turn, which is a conversation pattern, and the data processing unit 120 performs (c-2) It includes step (c-3) of combining three word sequences composed by step ) and refining them as one raw data set.

즉 (c)단계는 상세 주제가 분류된 원시 말뭉치를 추출한 뒤, 이 중 2개의 원시 말뭉치를 조합하여 말차례를 구성하고, 이와 같은 말차례를 3개 조합하여 하나의 원시데이터 세트를 이루도록 할 수 있다.That is, in step (c), a raw corpus in which detailed topics are classified is extracted, two of these raw corpora are combined to form a word sequence, and three such word sequences can be combined to form one raw data set. .

또한 이와 같은 정제 과정에서는, 이하 표 3에 나타난 기준이 적용될 수 있다.Also, in this purification process, the standards shown in Table 3 below can be applied.

다음으로, 데이터저장부(110)가 미리 구축된 저작용 클라우드서버(200)에 원시데이터 세트를 업로드하는 (d)단계가 수행된다. 즉 본 과정에 의해 (c)단계에서 구축된 원시데이터 세트가 저작용 클라우드서버(200)에 등록된다.Next, step (d) of uploading the raw data set to the authoring cloud server 200 in which the data storage unit 110 is pre-built is performed. That is, through this process, the raw data set constructed in step (c) is registered in the authoring cloud server 200.

그리고 (e)단계에서는, 저작용 클라우드서버(200)의 기계번역부(210)가 저작용 클라우드서버(200)에 업로드된 원시데이터 세트에 대한 기계번역을 수행하여 기계번역데이터 세트를 생성하는 과정이 이루어진다.And in step (e), the machine translation unit 210 of the authoring cloud server 200 performs machine translation on the raw data set uploaded to the authoring cloud server 200 to generate a machine translation data set. This comes true.

이때 본 과정에서 기계번역부(210)에서 사용되는 기계번역기는 종래 공지된 다양한 기계번역기를 비롯하여 향후 개발될 기계번역기 등 다양한 모델이 적용될 수 있는 바, 이에 대한 자세한 설명은 생략하도록 한다.At this time, the machine translator used in the machine translation unit 210 in this process may be of various models, including various previously known machine translators and machine translators that will be developed in the future, so a detailed description thereof will be omitted.

이후 (f)단계에서는, 데이터저장부(110)가 저작용 클라우드서버(200)에 업로드된 원시데이터 세트에 대해 전문가 번역을 거친 전문가번역데이터 세트를 저작용 클라우드서버(200)에 업로드하는 과정이 이루어진다.In step (f), the data storage unit 110 uploads an expert translation data set that has undergone expert translation for the raw data set uploaded to the authoring cloud server 200 to the authoring cloud server 200. It comes true.

본 과정에서 전문가번역데이터 세트는, 원시데이터 세트가 일정 기준에 의해 구성된 전문자들에 의해 번역된 후 데이터저장부(110)에 저장된 것으로서, 원문의 주제영역에 따라 사용역에 맞는 어휘를 선택하고, 전문용어 및 참고자료를 활용하여 목표 언어의 사회문화적/어휘규범적 특성을 반영할 수 있다.In this process, the expert translation data set is stored in the data storage unit 110 after the raw data set is translated by experts organized according to certain standards. Vocabulary appropriate for the field of use is selected according to the subject area of the original text. , jargon and reference materials can be used to reflect the socio-cultural/lexical normative characteristics of the target language.

다음으로, 저작용 클라우드서버(200)의 데이터구축부(220)가 기계번역데이터 세트와 전문가번역데이터 세트에 대해 각각 항목 별 품질 평가를 수행하는 (g)단계가 수행된다.Next, step (g) is performed in which the data construction unit 220 of the authoring cloud server 200 performs quality evaluation for each item on the machine translation data set and the expert translation data set.

도 5는 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법에 있어서, (g)단계의 세부 과정을 나타낸 도면이다. 도 5에 도시된 바와 같이, (g)단계는 세부적으로 (g-1)단계 내지 (g-5)단계를 포함할 수 있다.Figure 5 is a diagram showing the detailed process of step (g) in the foreign language parallel corpus source data construction method according to an embodiment of the present invention. As shown in Figure 5, step (g) may include steps (g-1) to (g-5) in detail.

(g-1)단계에서는 데이터구축부(220)가 기계번역데이터 세트와 전문가번역데이터 세트에 대해 전문가 평가를 거친 평가자료를 입력받는 과정이 이루어지며, (g-2)단계에서는 이와 같은 평가자료를 기반으로 데이터구축부(220)가 기계번역데이터 세트와 전문가번역데이터 세트에 대한 항목 별 품질 평가를 수행하는 과정이 이루어진다.In step (g-1), the data construction unit 220 receives evaluation data that has undergone expert evaluation for the machine translation data set and expert translation data set, and in step (g-2), such evaluation data is performed. Based on this, the data construction unit 220 performs a quality evaluation for each item on the machine translation data set and the expert translation data set.

이때 품질 평가가 이루어지는 각 항목은 다양한 기준에 의해 선정될 수 있으며, 본 실시예의 경우 정확성/명확성/유창성/결속성/일관성/중의성/간결설/기능성의 총 8가지 항목을 선정하여 평가를 수행하는 것으로 하였다.At this time, each item for which quality evaluation is made can be selected based on various criteria. In this embodiment, a total of 8 items are selected and evaluated: accuracy/clarity/fluency/cohesion/consistency/significance/succinctness/functionality. It was decided that

이하의 표 4에는, 위와 같은 품질 평가 기준 8가지 항목에 대한 상세 설명을 기재하고 있다.Table 4 below provides a detailed explanation of the eight quality evaluation criteria mentioned above.

다음으로 (g-3)단계에서는, 데이터구축부(220)가 기계번역데이터 세트와 전문가번역데이터 세트에서 기 설정된 품질기준점수 이상인 항목에 대해서는 합격 라벨을 부여하고, 기 설정된 품질기준점수 이상인 항목에 대해서는 불합격 라벨을 부여하는 과정이 이루어진다.Next, in step (g-3), the data construction unit 220 assigns a passing label to items with a preset quality standard score or higher in the machine translation data set and the expert translation data set, and to items with a preset quality standard score or higher. A process of assigning a failed label is carried out.

예컨대, 각 언어 별 품질기준점수의 기준은 이하의 표 4와 같이 정해질 수 있다. 정확한 평가를 위해, 사전에 각 언어 별로 해당 언어의 전공학과 전문가들이 공통된 평가 기준을 적용하여 기계번역 품질평가 및 사후편집을 수행한 뒤, 언어쌍 별 차이를 반영하여 오류 별 가중치를 정하고, 텍스트 장르 및 언어 별 상황을 고려하여 데이터 품질의 최저 합격선을 정하는 방식이 이루어질 수 있다.For example, the quality standard score for each language can be determined as shown in Table 4 below. For accurate evaluation, machine translation quality evaluation and post-editing are performed in advance by experts in each language's major department by applying common evaluation standards, then weights for each error are determined by reflecting differences in each language pair, and text genre is determined. A method can be implemented to determine the lowest passing line for data quality, taking into account the situation for each language.

이하의 표 5는, 언어 별로 각 항목에 대해 설정된 품질기준점수의 예시를 나타낸 것이다.Table 5 below shows examples of quality standard scores set for each item by language.

다음으로, (g-4)단계에서는 데이터구축부(220)가 불합격 라벨이 부여된 항목에 대한 보완 처리가 수행된 기계번역데이터 세트와 전문가번역데이터 세트에 대해 전문가 평가를 다시 거친 평가자료를 재입력받는 과정이 이루어지며, (g-5)단계에서는 데이터구축부(220)가 불합격 라벨이 부여된 항목이 발생하지 않을 때까지 (g-2)단계 내지 (g-4)단계를 반복 수행하는 과정이 이루어진다.Next, in step (g-4), the data construction unit 220 re-examines the evaluation data that has undergone expert evaluation on the machine translation data set and the expert translation data set for which supplementary processing has been performed for items assigned a failed label. An input process is carried out, and in step (g-5), the data construction unit 220 repeats steps (g-2) to (g-4) until no items are assigned a failed label. The process takes place.

이때 (g-5)단계를 수행하는 과정에서 기 설정된 반복횟수 이상 불합격 라벨이 유지되는 경우, 데이터구축부(220)는 해당 기계번역데이터 세트와 전문가번역데이터 세트에 대해 보류 라벨을 부여하여, 클라우드서버(200) 상에 보류 데이터로서 보관할 수 있다.At this time, in the process of performing step (g-5), if the failed label is maintained for more than the preset number of repetitions, the data construction unit 220 grants a hold label to the corresponding machine translation data set and expert translation data set, and cloud It can be stored as pending data on the server 200.

이와 같이 보류 데이터로서 보관되어 있는 기계번역데이터 세트와 전문가번역데이터 세트는, 치후 시간의 경과에 따라 후술할 (i)단계, 즉 데이터 구축 이력을 인공지능 학습모델(300)에 업로드하여 인공지능 학습모델(300)에 의한 학습을 수행하는 과정이 종료될 때마다 체크를 진행하여 (g-2)단계 내지 (g-4)단계를 재수행하도록 할 수 있으며, 이를 통해 업그레이드된 체크 과정을 거쳐 재처리 및 재평가를 수행하여 불합격 라벨이 부여된 항목이 발생하지 않는 시점에 활용하도록 할 수 있다.In this way, the machine translation data set and the expert translation data set stored as pending data are subjected to artificial intelligence learning by uploading the data construction history to the artificial intelligence learning model 300 in step (i), which will be described later, as time passes. Whenever the process of performing learning by the model 300 is completed, a check can be performed and steps (g-2) to (g-4) can be re-performed, and through this, the upgraded check process can be performed again. Processing and re-evaluation can be performed to ensure that items labeled as failing are utilized at a time when they no longer occur.

다음으로 (h)단계에서는, 관리서버(100)의 데이터처리부(120)가 저작용 클라우드서버(200)에서 품질 평가가 이루어진 기계번역데이터 세트와 전문가번역데이터 세트를 다운로드하여, 외국어 병렬 말뭉치 원천데이터를 구축하는 과정이 수행된다. 이상의 과정에 따라, 본 발명은 대용량, 고품질의 외국어 병렬 말뭉치 원천데이터를 제공할 수 있다.Next, in step (h), the data processing unit 120 of the management server 100 downloads the machine translation data set and the expert translation data set for which the quality has been evaluated from the authoring cloud server 200, and creates foreign language parallel corpus source data. The process of building is carried out. According to the above process, the present invention can provide large-capacity, high-quality foreign language parallel corpus source data.

한편 이와 같은 (h)단계 이후에는, 데이터저장부(110)가 (a)단계 내지 (h)단계의 데이터 구축 이력을 인공지능 학습모델(300)에 업로드하여 인공지능 학습모델(300)에 의한 학습을 진행시키는 (i)단계가 더 수행될 수 있으며, 이를 통해 이후 외국어 병렬 말뭉치 원천데이터를 구축하는 과정을 보다 정밀하고 효율적으로 운용할 수 있다.Meanwhile, after step (h), the data storage unit 110 uploads the data construction history of steps (a) to (h) to the artificial intelligence learning model 300 and Step (i), which advances learning, can be further performed, and through this, the process of constructing foreign language parallel corpus source data can be operated more precisely and efficiently.

도 5는 본 발명의 일 실시예에 따른 외국어 병렬 말뭉치 원천데이터 구축방법의 일련의 프로세스를 개략적으로 나타낸 도면이다.Figure 5 is a diagram schematically showing a series of processes of a method for constructing foreign language parallel corpus source data according to an embodiment of the present invention.

도 5에 도시된 바와 같이, 본 발명의 전체적인 프로세스는, (a)단계 내지 (d)단계의 수집 및 정제 프로세스, (e)단계 및 (f)단계의 가공 프로세스, (g)단계 및 (h)단계의 검증 프로세스를 통해 이루어진다.As shown in Figure 5, the overall process of the present invention includes the collection and purification process of steps (a) to (d), the processing process of steps (e) and (f), and steps (g) and (h). ) through a three-step verification process.

수집 및 정제 프로세스에서는 유형 별 주제가 선정된 후, 수집된 텍스트에 대한 전처리가 이루어짐에 따라 원문이 선정되며, 이는 원시데이터로서 저장된다.In the collection and purification process, topics by type are selected, and the collected texts are preprocessed to select the original text, which is stored as raw data.

이후 가공 프로세스에서는 업로드된 원시데이터 세트에 의한 기계번역 및 전문가번역이 이루어지고, 이들에 대한 오류 평가 및 오류 교정 과정을 거쳐 라벨링데이터로서 저장된다.In the subsequent processing process, machine translation and expert translation are performed using the uploaded raw data set, and these are stored as labeling data after going through an error evaluation and error correction process.

또한 검증 프로세스에서는 기계번역 및 전문가번역 각각에 대한 검증 과정이 수행되며, 검증이 완료된 결과물은 외국어 병렬 말뭉치 원천데이터로서 구축된다.In addition, in the verification process, verification processes are performed for each machine translation and expert translation, and the verification completed results are constructed as foreign language parallel corpus source data.

이상과 같이 본 발명에 따른 바람직한 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화될 수 있다는 사실은 해당 기술에 통상의 지식을 가진 이들에게는 자명한 것이다. 그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하고, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수도 있다.As described above, the preferred embodiments according to the present invention have been examined, and the fact that the present invention can be embodied in other specific forms in addition to the embodiments described above without departing from the spirit or scope thereof is recognized by those skilled in the art. It is self-evident to them. Therefore, the above-described embodiments are to be regarded as illustrative and not restrictive, and thus the present invention is not limited to the above description but may be modified within the scope of the appended claims and their equivalents.

100: 관리서버
110: 데이터저장부
120: 데이터처리부
130: 데이터베이스
200: 저작용 클라우드서버
210: 기계번역부
220: 데이터구축부
300: 인공지능 학습모델
100: Management server
110: data storage unit
120: Data processing unit
130: database
200: Cloud server for authoring
210: Machine translation department
220: Data construction department
300: Artificial intelligence learning model

Claims (7)

관리서버의 데이터저장부가 기 설정된 기준에 의해 선별되며, 복수 개의 어절로 구성되는 원시 말뭉치 복수 개를 입력받아 데이터베이스에 저장하는 (a)단계;
관리서버의 데이터처리부가 상기 데이터베이스에 저장된 각 원시 말뭉치를 n개의 상세 주제에 따라 분류하는 (b)단계;
상기 데이터처리부가 상기 (b)단계에 의해 상세 주제가 분류된 원시 말뭉치를 추출하여 대화문의 패턴으로 구성되는 원시데이터 세트로서 정제하는 (c)단계;
상기 데이터저장부가 미리 구축된 저작용 클라우드서버에 상기 원시데이터 세트를 업로드하는 (d)단계;
상기 저작용 클라우드서버의 기계번역부가 상기 저작용 클라우드서버에 업로드된 상기 원시데이터 세트에 대한 기계번역을 수행하여 기계번역데이터 세트를 생성하는 (e)단계;
상기 데이터저장부가 상기 저작용 클라우드서버에 업로드된 상기 원시데이터 세트에 대해 전문가 번역을 거친 전문가번역데이터 세트를 상기 저작용 클라우드서버에 업로드하는 (f)단계;
상기 저작용 클라우드서버의 데이터구축부가 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대해 각각 항목 별 품질 평가를 수행하는 (g)단계; 및
상기 관리서버의 데이터처리부가 상기 저작용 클라우드서버에서 품질 평가가 이루어진 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트를 다운로드하여, 외국어 병렬 말뭉치 원천데이터를 구축하는 (h)단계;
를 포함하는,
외국어 병렬 말뭉치 원천데이터 구축방법.
Step (a) of selecting the data storage unit of the management server according to preset criteria, receiving a plurality of raw corpora consisting of a plurality of words, and storing them in a database;
Step (b) where the data processing unit of the management server classifies each raw corpus stored in the database according to n detailed topics;
Step (c) in which the data processing unit extracts the raw corpus classified by detailed topics in step (b) and refines it into a raw data set composed of conversation patterns;
Step (d) of uploading the raw data set to an authoring cloud server in which the data storage unit is pre-established;
Step (e) of the machine translation unit of the authoring cloud server performing machine translation on the raw data set uploaded to the authoring cloud server to generate a machine translation data set;
Step (f) of the data storage unit uploading an expert translation data set that has undergone expert translation of the raw data set uploaded to the authoring cloud server to the authoring cloud server;
Step (g) of the data construction unit of the authoring cloud server performing quality evaluation for each item on the machine translation data set and the expert translation data set; and
Step (h) of the data processing unit of the management server downloading the machine translation data set and the expert translation data set whose quality has been evaluated from the authoring cloud server to construct foreign language parallel corpus source data;
Including,
Method for constructing foreign language parallel corpus source data.
제1항에 있어서,
상기 (a)단계는,
상기 데이터저장부가 구어 컨텐츠에 포함된 일상대화, 메신저 대화 및 준구어와, 문어 컨텐츠에 포함된 어학자료를 균일한 비율로 수집하여 원시 말뭉치로서 입력받는,
외국어 병렬 말뭉치 원천데이터 구축방법.
According to paragraph 1,
In step (a),
The data storage unit collects everyday conversations, messenger conversations, and semi-spoken language included in spoken language content, and linguistic data included in written content at a uniform rate and receives them as a raw corpus,
Method for constructing foreign language parallel corpus source data.
제1항에 있어서,
상기 (b)단계는,
상기 데이터처리부가 상기 n개의 상세 주제 별 구축량을 각각 균일한 비율로 설정하는,
외국어 병렬 말뭉치 원천데이터 구축방법.
According to paragraph 1,
In step (b),
The data processing unit sets the construction amount for each of the n detailed topics at a uniform ratio,
Method for constructing foreign language parallel corpus source data.
제1항에 있어서,
상기 (c)단계는,
상기 데이터처리부가 상기 (b)단계에 의해 상세 주제가 분류된 원시 말뭉치를 임의로 추출하는 (c-1)단계;
상기 데이터처리부가 상기 (c-1)단계에 의해 추출된 2개의 원시 말뭉치를 조합하여 대화문의 패턴인 말차례(Single-Turn)로 구성하는 (c-2)단계; 및
상기 데이터처리부가 상기 (c-2)단계에 의해 구성된 말차례를 3개 조합하여 하나의 원시데이터 세트로서 정제하는 (c-3)단계;
를 포함하는,
외국어 병렬 말뭉치 원천데이터 구축방법.
According to paragraph 1,
In step (c),
Step (c-1) in which the data processing unit randomly extracts the raw corpus into which detailed topics have been classified in step (b);
Step (c-2) in which the data processing unit combines the two raw corpora extracted in step (c-1) to form a single-turn, which is a conversation pattern; and
Step (c-3) in which the data processing unit combines three word sequences formed in step (c-2) and refines them into one raw data set;
Including,
Method for constructing foreign language parallel corpus source data.
제1항에 있어서,
상기 (g)단계는,
상기 데이터구축부가 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대해 전문가 평가를 거친 평가자료를 입력받는 (g-1)단계;
상기 데이터구축부가 상기 평가자료를 기반으로 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대한 항목 별 품질 평가를 수행하는 (g-2)단계;
상기 데이터구축부가 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에서 기 설정된 품질기준점수 이상인 항목에 대해서는 합격 라벨을 부여하고, 기 설정된 품질기준점수 이상인 항목에 대해서는 불합격 라벨을 부여하는 (g-3)단계;
상기 데이터구축부가 불합격 라벨이 부여된 항목에 대한 보완 처리가 수행된 상기 기계번역데이터 세트와 상기 전문가번역데이터 세트에 대해 전문가 평가를 다시 거친 평가자료를 재입력받는 (g-4)단계; 및
상기 데이터구축부가 불합격 라벨이 부여된 항목이 발생하지 않을 때까지 상기 (g-2)단계 내지 상기 (g-4)단계를 반복 수행하는 (g-5)단계;
를 포함하는,
외국어 병렬 말뭉치 원천데이터 구축방법.
According to paragraph 1,
In step (g),
Step (g-1) where the data construction unit receives evaluation data that has undergone expert evaluation for the machine translation data set and the expert translation data set;
Step (g-2) in which the data construction unit performs an item-specific quality evaluation of the machine translation data set and the expert translation data set based on the evaluation data;
(g-3) wherein the data construction unit grants a pass label to items exceeding a preset quality standard score in the machine translation data set and the expert translation data set, and grants a fail label to items exceeding a preset quality standard score. step;
A (g-4) step in which the data construction unit re-inputs evaluation data that has undergone expert evaluation on the machine translation data set and the expert translation data set on which supplementary processing has been performed for items labeled as failed; and
Step (g-5) in which the data building unit repeats steps (g-2) to (g-4) until no items are labeled as failed;
Including,
Method for constructing foreign language parallel corpus source data.
제1항에 있어서,
상기 (h)단계 이후에는,
상기 데이터저장부가 상기 (a)단계 내지 상기 (h)단계의 데이터 구축 이력을 인공지능 학습모델에 업로드하여 상기 인공지능 학습모델에 의한 학습을 진행시키는 (i)단계가 더 수행되는,
외국어 병렬 말뭉치 원천데이터 구축방법.
According to paragraph 1,
After step (h) above,
Step (i) is further performed in which the data storage unit uploads the data construction history of steps (a) to (h) to the artificial intelligence learning model to proceed with learning by the artificial intelligence learning model,
Method for constructing foreign language parallel corpus source data.
컴퓨터에 제1항 내지 제6항 중 어느 한 항의 외국어 병렬 말뭉치 원천데이터 구축방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체.A computer-readable storage medium that records a program for executing the foreign language parallel corpus source data construction method of any one of paragraphs 1 to 6 on a computer.
KR1020220060361A 2022-05-17 2022-05-17 A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same KR20230160619A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220060361A KR20230160619A (en) 2022-05-17 2022-05-17 A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220060361A KR20230160619A (en) 2022-05-17 2022-05-17 A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same

Publications (1)

Publication Number Publication Date
KR20230160619A true KR20230160619A (en) 2023-11-24

Family

ID=88972523

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220060361A KR20230160619A (en) 2022-05-17 2022-05-17 A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same

Country Status (1)

Country Link
KR (1) KR20230160619A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102140983B1 (en) 2013-01-03 2020-08-04 업투데이트 인코포레이티드 Data base query translation system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102140983B1 (en) 2013-01-03 2020-08-04 업투데이트 인코포레이티드 Data base query translation system

Similar Documents

Publication Publication Date Title
JP7150842B2 (en) Multilingual Document Retrieval Based on Document Structure Extraction
US11531928B2 (en) Machine learning for associating skills with content
US11687826B2 (en) Artificial intelligence (AI) based innovation data processing system
Kenny Human and machine translation
CN107247751B (en) LDA topic model-based content recommendation method
CN111061861A (en) XLNET-based automatic text abstract generation method
JP2017199363A (en) Machine translation device and computer program for machine translation
CN106776808A (en) Information data offering method and device based on artificial intelligence
Rigau et al. Meaning: A roadmap to knowledge technologies
Alamelu et al. Resume validation and filtration using natural language processing
Uthus et al. Youtube-asl: A large-scale, open-domain american sign language-english parallel corpus
WO2019045746A1 (en) Data-driven automated selection of profiles of translation professionals for translation tasks
Onan et al. Improving Turkish text sentiment classification through task-specific and universal transformations: an ensemble data augmentation approach
CN112836525A (en) Human-computer interaction based machine translation system and automatic optimization method thereof
CN116955591A (en) Recommendation language generation method, related device and medium for content recommendation
KR20230160619A (en) A Method for Constructing Foreign Language Parallel Corpus Source Data and a Storage Medium Recording a Program for Executing the Same
CN114491152B (en) Method for generating abstract video, storage medium and electronic device
Sygkounas et al. A replication study of the top performing systems in semeval twitter sentiment analysis
Ren et al. Product promotion copywriting from multimodal data: New benchmark and model
CN114840680A (en) Entity relationship joint extraction method, device, storage medium and terminal
Ghafouri et al. AriaBERT: A Pre-trained Persian BERT Model for Natural Language Understanding
Lee Mapping translation studies in Korea using the Holmes map of translation studies
CN111090720A (en) Hot word adding method and device
Sokolova Translation of IT Marketing Texts: Linguistic and Pragmatic Factors
Sangeetha et al. Sentiment Analysis on Code-Mixed Tamil-English Corpus: A Comprehensive Study of Transformer-Based Models