KR20240029461A - 사투리 자동 번역 시스템 - Google Patents

사투리 자동 번역 시스템 Download PDF

Info

Publication number
KR20240029461A
KR20240029461A KR1020220107956A KR20220107956A KR20240029461A KR 20240029461 A KR20240029461 A KR 20240029461A KR 1020220107956 A KR1020220107956 A KR 1020220107956A KR 20220107956 A KR20220107956 A KR 20220107956A KR 20240029461 A KR20240029461 A KR 20240029461A
Authority
KR
South Korea
Prior art keywords
dialect
translation
dictionary
word
sentence
Prior art date
Application number
KR1020220107956A
Other languages
English (en)
Inventor
황기현
주수민
김현주
Original Assignee
동서대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동서대학교 산학협력단 filed Critical 동서대학교 산학협력단
Priority to KR1020220107956A priority Critical patent/KR20240029461A/ko
Publication of KR20240029461A publication Critical patent/KR20240029461A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

본발명은 사투리 자동 번역 시스템에 관한 것으로, 번역 모델 개발을 위한 학습데이터 수집모듈;
사전과 번역모델 모듈;
문장인식을 위한 자연어 처리모듈;을 포함하여 구성되는 것을 특징으로 하는
학습데이터 수집모듈은 각 지방에서 사용되는 말뭉치를 수집하고, 인공지능 학습에 사용할 수 있는 json 파일의 데이터셋을 구축하는 것으로,
본발명은 사투리를 빠르고 정확하게 번역하여 제공하는 현저한 효과가 있다.

Description

사투리 자동 번역 시스템{dialect automatic translation system}
본발명은 사투리 자동 번역 시스템에 관한 것으로, 보다 상세하게는 사투리를 빠르고 정확하게 번역하여 제공하는 사투리 자동 번역 시스템에 관한 것이다.
일반적으로 사투리를 표준어처럼 알아듣게 번역하는 시스템이 개발되고 있으며, 종래특허기술의 일례로서 등록특허공보 등록번호 10-1836430호에는 단말 장치에서 사투리가 섞인 음성을 인식하여 번역하기 위한 방법으로서,
(a) 발성된 음성을 입력 인터페이스를 통해 인식하는 단계;
(b) 상기 인식된 음성이 사투리가 섞인 발성 음성에 해당되면, 상기 인식된 사투리 음성이 갖고 있는 음색 노이즈를 제거하는 단계;
(c) 상기 음색 노이즈가 제거된 사투리 언어 데이터를 자국의 표준 언어 데이터로 변환하는 단계;
(d) 상기 변환된 표준 언어 데이터를 번역기를 통해 소정의 타국어로 번역하는 단계; 및
(e) 상기 번역된 타국어를 출력 인터페이스를 통해 표시 화면에 표시하거나 음성 형태로 출력하는 단계;
를 포함하는 음성을 인식하여 번역하는 방법에 있어서,
상기 (b) 단계는,
상기 인식된 음성에 대한 표준어의 제2 음색 수치와 상기 사투리 음성의 제1 음색 수치를 비교한 언어 식별 정확도를 기초로, 상기 표준어의 음색보다 큰 상기 사투리 음성의 음색 노이즈를 제거하는 단계; 및
상기 음색 노이즈가 제거된 음성에 대해 음소 노이즈를 더 제거하는 단계;
를 더 포함하며, 상기 제1 음색 수치는, 상기 사투리가 갖는 정해진 음색의 높낮이 크기이며,상기 제2 음색 수치는, 상기 사투리에 매칭된 표준어가 갖는 정해진 음색의 높낮이 크기이고, 상기 언어 식별 정확도는, 상기 인식된 음성이 포함하는 각 단어 또는 문장마다 상기 제1 음색 수치와 제2 음색 수치를 비교하여 결정되며, 상기 음소 노이즈는 쌍자음 발음인 ㅆ 및 ㅃ에 대한 노이즈인, 음성을 인식하여 번역하는 방법이 공개되어 있다.
또한, 등록특허공보 등록번호 10-2406251호에는 언어 현지화에서 번역 완성도를 높이기 위한 자동 번역 및 코딩 방법이 공개되어 있다.
그러나 상기 종래기술들은 번역이 정확하지 않고 번역속도가 느린 단점이 있었다.
따라서 본발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, 한국어 번역 특성을 고려하여 ETRI 인공지능 API를 사용하고 DNN, ReLU기반의 번역 모델을 사용하는 번역 시스템을 제공하고자 하는 것이다.
본발명은 사투리 자동 번역 시스템에 관한 것으로, 번역 모델 개발을 위한 학습데이터 수집모듈;
사전과 번역모델 모듈;
문장인식을 위한 자연어 처리모듈;을 포함하여 구성되는 것을 특징으로 하는
학습데이터 수집모듈은 각 지방에서 사용되는 말뭉치를 수집하고, 인공지능 학습에 사용할 수 있는 json 파일의 데이터셋을 구축하는 것을 특징으로 한다.
따라서 본발명은 사투리를 빠르고 정확하게 번역하여 제공하는 현저한 효과가 있다.
도 1은 본발명의 번역 모델 구성도
도 2는 데이터셋 구축 과정도
도 3은 사전 활용에 이용할 데이터 구조도
도 4는 과정 순서도
도 5는 의존구문분석 ETRI API 사용 예시도
도 6은 예상 결과물 도면
도 7은 JSON파일 중 일부 화면
도 8은 utterance 중 방언 어절 리스트화면
도 9는 [라벨]경상도_학습데이터_1 파일 구성, txt파일, json파일화면
도 10은 pickle파일 생성과 생성된 모습화면
도 11은 인덱스를 이용한 방언-표준어 쌍 화면
도 12는 pairs.csv 파일화면
13은 번역생성화면
14는 번역결과화면
도 15는 품사구분을 위한 태그 선언화면
도 16은 train_df.csv : 단어의 품사를 저장한 파일 화면
도 17은 동의어 학습을 위해 추가된 리스트 화면
도 18은 pickle 파일 (eojeol_dict.pickle, synonym_list_test.pickle)
도 19는 동의어 모델을 학습시키는 화면(synonym_model.h5)
도 20은 summary함수를 사용하여 모델의 구조 및 노드의 개수 등 정보를 표시해주는 화면
도 21은 ETRI API KEY 발급화면
도 22는 API를 사용하기 위한 파라미터 작성화면
도 23은 번역이 제대로 되는 경우화면
도 24는 데이터셋 내 단어가 존재하지 않는 모습과, 존재할 때 단어 번역 결과화면
본발명은 사투리 자동 번역 시스템에 관한 것으로, 번역 모델 개발을 위한 학습데이터 수집모듈;
사전과 번역모델 모듈;
문장인식을 위한 자연어 처리모듈;을 포함하여 구성되는 것을 특징으로 하는
학습데이터 수집모듈은
각 지방에서 사용되는 말뭉치를 수집하고, 인공지능 학습에 사용할 수 있는 json 파일의 데이터셋을 구축하는 것을 특징으로 한다.
또한, 상기 사전과 번역모델 개발모듈은 번역을 위해 단어의 정보를 담은 사전을 만든다.
구분을 위해 사투리 사전을 만들고, 전체 사전을 API로 불러온 후, 단어에 따라 번역 모델에 넣거나 그대로 사용하는 것을 특징으로 한다.
또한, 상기 문장인식을 위한 자연어 처리모듈은
문장을 어절로 나누고, 불용어나 기호등을 제거하여 어절 단위로 분리하는 것을 특징으로 한다.
본발명을 첨부도면에 의해 상세히 설명하면 다음과 같다.
번역 모델 개발을 위한 학습데이터 수집단계는 제어부는 학습데이터 수집모듈을 통해 각 지방에서 사용되는 말뭉치를 수집하고, 인공지능 학습에 사용할 수 있는 json 파일의 데이터셋을 구축한다.
용도에 맞게 활용하기 위하여 데이터에서 필요한 정보를 리스트화 한다.
사전과 번역모델 구축단계는 제어부는 사전과 번역모델 구축 모듈을 통해 번역을 위해 단어의 정보를 담은 사전을 만든다.
구분을 위해 사투리 사전을 만들고, 전체 사전을 API로 불러온 후, 단어에 따라 번역 모델에 넣거나 그대로 사용한다.
사투리 번역 모델 : 입력 문장 안에서 사투리 단어를 발견하면 번역모델로 보낼 수 있도록 한다.
동음이의어 분류 모델 : 단어를 어절단위로 구분하기 때문에 같은 텍스트여도 다른 뜻일 수 있음. 입력받은 동의어가 사투리인지 표준어인지 구분하는 모델을 생성한다.
문장인식을 위한 자연어 처리단계는 제어부는 자연어 처리모듈을 통해 문장을 어절로 나누고, 불용어나 기호등을 제거하여 어절 단위로 분리한다.
동음이의어일 경우 품사를 구분하여 같은 단어의 뜻을 구분한다.
상기 번역 모델 구축을 위한 학습데이터 수집단계는 구체적으로, 사투리를 사용하는 10대 ~ 60대의 일상 대화를 수집하여 음성을 문자로 실시간 변환한다. 사투리 AI 학습 데이터 구축을 위하여 수집한 사투리를 일차적으로 지역적 사투리의 특성을 살려 사투리를 전사하고 표준에 규정에서 벗어나 방언에 해당하는 부분에 대한 표준어 대응쌍을 제시하는 형태로 전사하여 만들어진 JSON 형식의 학습 데이터셋을 사용한다.
학습데이터 JSON 파일에서 말뭉치에 해당하는 utterance 부분을 리스트로 만들어 사투리 사전을 위한 데이터로 사용한다(방언 어절 eojeol, 표준어 어절 standard).
도별 '한국어 방언 발화' 데이터셋을 번역모델 학습을 위한 데이터로 사용하여 사투리 번역기로 통합한다.
사전과 번역모델 구축은 구체적으로 사투리, 표준어 사전 생성 함수로서, 사전 생성을 위해 학습데이터 중 utterance 태그가 되어 있는 대화 내용을 불러온다. re 내장모듈 내 compile 메소드를 사용해 학습데이터 중 문장만을 가져온다.
문장 중 각 단어의 태그를 통해 사투리는 dialect 리스트로, 표준어는 standard 리스트로 저장한다. (eojeol, dialect, standard)
높은 용량의 텍스트 파일을 파싱할 경우 txt파일은 비효율적이기 때문에 필요한 딕셔너리, 리스트, 튜플을 pickle을 통해 저장한다. ( pickle : 필요한 딕셔너리, 리스트, 튜플을 pickle을 통해 저장한다. pickle 모듈을 활용해 객체 자체를 바이너리로 저장함 )
- 방언 -> 인덱스, 표준어 -> 인덱스, 인덱스->방언, 표준어->방언을 구분하여 pickle.dump를 이용하여 사용한다.
동의어 처리 데이터셋은 같은 단어도 문장에서 쓰임이 다르면 뜻이 달라짐을 이용해, 품사가 다름을 통해 동음이의어를 구분한다.
품사는 의존 구문분석 태그셋의 구문레이블 ['NP','VP','AP','VNP','DP','IP','X','L','R']), 기능레이블(['SBJ','OBJ','MOD','AJT','CMP','CNJ']) 태그를 이용해 정의하고, 단어에 품사 태그를 적용하여 동음이의어를 구분하는데 사용할 수 있게 만든다. (의존관계 설정 가이드라인은 세종 구문분석 가이드라인을 기반으로 한 TTA 표준 의존 구문분석 가이드라인 (TTAK.KO-10.0853)과 제27회 한글 및 한국어 정보처리 학술대회 논문집의 "의존 구문분석을 위한 한국어 의존관계 가이드라인 및 엑소브레인 언어분석 말뭉치"를 따르고 있다.)
동의어 사전 생성 함수는 방언 사전과 표준어 사전에 모두 있는 단어를 동의어 리스트에 저장한다. 리스트에 저장한 내용을 더 빠르게 사용하기 위해 pickle.dump를 사용하여 저장한다.
단어가 사투리, 표준어, 동음이의어인지 구분하기 위해 단어와 연결된 단어의 품사를 ETRI API를 이용해 가져온다.
사투리 사전
O X
표준어 사전 O 동의어 표준어
X 사투리 불용어
<표> 사투리와 표준어 구분
동의어 처리 모델은 문장을 이어붙이고, 이어붙인 문장의 어절을 돌면서 동의어 목록에 있는 어절을 발견하면 동의어를 학습시킬 리스트에 추가한다.
동의어 모델을 학습시킨다. (학습 모델 이름 : synonym_model.h5)
relu 함수 : 내부 hidden layer를 활성화 시키는 함수로 sigmoid를 사용하지 않고 ReLU라는 활성화 함수를 사용하게 되는데, 이 함수는 쉽게 말해 0보다 작은 값이 나온 경우 0을 반환하고, 0보다 큰 값이 나온 경우, 그 값을 그대로 반환하는 함수다. 0보다 큰 값일 경우 1을 반환하는 sigmoid와 다르다. 따라서 내부 hidden layer에는 ReLU를 적용하고, 마지막 output layer에서만 sigmoid 함수를 적용하면 이전에 비해 정확도가 훨씬 올라가게 된다.
문장을 입력하면 어절별로 나누어서 정리한 후, 만약 사투리 사전에 있으면 전체 어절 사전으로 넘어가고 전체 어절 사전에도 존재하면 동의어 처리 모델로 넘겨주어서 표준어에 가까운지 사투리에 가까운지 판단한 후 출력한다.
문장을 어절로 나누거나, 품사 정보를 가져오기 위해 ETRI open API 이용한다.
결과물로서, 번역하길 원하는 문장을 입력하고 각 어절별로 문장을 인식하여 문장의 품사, 전체 어절, 동의어, 어절별 의존 구문의 품사에 따라 사전을 구축한다. 가장 정확성이 높은 문장을 계산하여 출력한다.
본발명에 대한 실험결과는 다음과 같다.
번역 모델 개발을 위한 학습데이터 수집단계는 학습데이터 수집 및 정제
사투리와 표준어 대응쌍으로 전사된 JSON 파일에서 말뭉치에 해당하는 utterance 부분을 리스트로 만들어 사투리 사전을 위한 데이터로 사용함 (방언 어절 eojeol, 표준어 어절 standard)
방언과 표준어 전사 쌍을 태그로 분류하여 리스트로 저장한다. (eojeol, dialect, standard)
사전과 번역모델 개발단계;
사투리, 표준어 사전 생성 함수
솔트룩수에서 주관하여 구축한 학습데이터셋을 이용한다. 사전 생성을 위해 학습데이터 중 utterance 태그가 되어 있는 대화 내용을 불러온다.
re.compile('[^가-+]') 을 이용해 utterance 중 문장을 가져온다.
문장 중 각 단어의 태그를 통해 사투리는 dialect 리스트로, 표준어는 standard 리스트로 저장한다. (eojeol, dialect, standard)
방언 -> 인덱스, 표준어 -> 인덱스, 인덱스->방언, 표준어->방언을 구분하여 pickle.dump를 이용하여 사용한다.
인덱스를 이용해 방언과 표준어 쌍을 만든다. 방언 표준어 쌍을 csv 파일로 저장한다.
사투리 to 표준어 번역 모델 개발은 방언 표준어 쌍(paris.csv)을 이용해 사투리의 표준어 번역을 학습시킨다. 자주 사용된 사투리일수록 정확도가 높다
relu함수를 이용하여 패키지를 부착한 후 역전파를 차용하여 가장 확률이 근접한 값을 출력한다.
Sequential()함수를 사용하여 모델을 생성한다.
번역모델을 학습한 후 translate_model.save() 함수를 통해 번역모델을 저장한다.
동의어 처리 데이터셋은
품사는 의존 구문분석 태그셋의 구문레이블 (a_tab), 기능레이블([b_tag]) 태그를 이용해 정의하고, 단어에 품사 태그를 적용하여 동음이의어를 구분하는데 사용할 수 있게 만든다.
a, b, c 태그를 생성하여서 각각 어절별로 나누어서 할당해 준다.
문장을 이어붙이고, 이어붙인 문장의 어절을 돌면서 동의어 목록에 있는 어절을 발견하면 동의어를 학습시킬 리스트에 추가한다.
train_df.csv : 단어의 품사를 저장한 파일.
동의어 사전 생성 함수는 품사 태그를 선언하고 단어의 품사가 다름을 통해 동음이의어를 구분한다. 단어가 사투리인지 표준어인지 구분하기 위해 단어와 연결된 단어의 품사를 ETRI API를 이용해 가져온다.
사투리->인덱스, 인덱스->표준어 pickle 파일을 이용해 데이터 전체 어절을 딕셔너리로 만든다. 문장 내에서 표준어와 사투리를 구분하기 위해 사투리 인덱스에는 0을 붙여준다. (eojeol_dict.pickle)
- 방언 사전과 표준어 사전에 모두 있는 단어를 동의어 리스트에 저장한다. 리스트에 저장한 내용을 더 빠르게 사용하기 위해 pickle.dump를 사용하여 저장한다. (synonym_list_test.pickle)
동의어 처리 모델 개발은 동의어 모델을 학습시킨다. (synonym_model.h5)
summary함수를 사용하여 모델의 구조 및 노드의 개수 등 정보를 표시해준다.
문장인식을 위한 자연어 처리 (ETRI)는 입력하면 어절별로 나누어서 정리한 후 사투리 사전에 있으면 전체 어절 사전으로 넘어가고, 전체 어절 사전에도 존재하면 동의어 처리 모델로 넘겨주어서 표준어에 가까운지 사투리에 가까운지 판단한 후 출력한다.
결과물로서 목표 문장을 입력하고 번역 버튼을 누르면 번역결과를 볼 수 있다.
번역이 제대로 되는 경우는
사투리 문장 → 표준어 문장 [아이가 → 않아]
표준어 문장 → 표준어 문장 [아이가 → 아이가]
번역이 잘되지 않은 경우는 데이터셋 내에 존재하지 않거나 사용된 빈도수가 저조한 경우 제대로 된 단어의 의미 구분을 할 수 없어 번역이 원활하게 진행되지 않는다.
본발명 제어기는 발성한 음성을 입력받는 입력 인터페이스; 사투리 언어 데이터를 포함한 언어 데이터를 저장하는 저장부; 이하의 제어기의 명령에 대응하여 해당하는 데이터를 출력하는 출력 인터페이스; 및 상기 입력 인터페이스와 상기 저장부 및 상기 출력 인터페이스를 제어하는 제어기를 포함하여 구성된다.

Claims (3)

  1. 번역 모델 개발을 위한 학습데이터 수집모듈;
    사전과 번역모델 모듈;
    문장인식을 위한 자연어 처리모듈;을 포함하여 구성되는 것을 특징으로 하는
    학습데이터 수집모듈은
    각 지방에서 사용되는 말뭉치를 수집하고, 인공지능 학습에 사용할 수 있는 데이터셋을 구축하는 것을 특징으로 하는 사투리 자동 번역 시스템
  2. 제1항에 있어서, 상기 사전과 번역모델 개발모듈은 번역을 위해 단어의 정보를 담은 사전을 만들고, 구분을 위해 사투리 사전을 만들며, 전체 사전을 API로 불러온 후, 단어에 따라 번역 모델에 넣거나 그대로 사용하는 것을 특징으로 하는 사투리 자동 번역 시스템
  3. 제2항에 있어서, 상기 문장인식을 위한 자연어 처리모듈은 문장을 어절로 나누고, 불용어나 기호등을 제거하여 어절 단위로 분리하는 것을 특징으로 하는 사투리 자동 번역 시스템
KR1020220107956A 2022-08-26 2022-08-26 사투리 자동 번역 시스템 KR20240029461A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220107956A KR20240029461A (ko) 2022-08-26 2022-08-26 사투리 자동 번역 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220107956A KR20240029461A (ko) 2022-08-26 2022-08-26 사투리 자동 번역 시스템

Publications (1)

Publication Number Publication Date
KR20240029461A true KR20240029461A (ko) 2024-03-05

Family

ID=90298753

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220107956A KR20240029461A (ko) 2022-08-26 2022-08-26 사투리 자동 번역 시스템

Country Status (1)

Country Link
KR (1) KR20240029461A (ko)

Similar Documents

Publication Publication Date Title
EP0262938B1 (en) Language translation system
US5384701A (en) Language translation system
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US8370130B2 (en) Speech understanding system using an example-based semantic representation pattern
WO1999063456A1 (fr) Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d&#39;enregistrement de programme
US20060129393A1 (en) System and method for synthesizing dialog-style speech using speech-act information
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
López-Cózar et al. Using knowledge of misunderstandings to increase the robustness of spoken dialogue systems
Graja et al. Statistical framework with knowledge base integration for robust speech understanding of the Tunisian dialect
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP2000200273A (ja) 発話意図認識装置
CN115116428A (zh) 韵律边界标注方法、装置、设备、介质及程序产品
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
KR20240029461A (ko) 사투리 자동 번역 시스템
Thatphithakkul et al. LOTUS-BI: A Thai-English code-mixing speech corpus
Nahid et al. Comprehending real numbers: Development of bengali real number speech corpus
JP3518340B2 (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
Gros et al. SI-PRON pronunciation lexicon: a new language resource for Slovenian
Rahate et al. An experimental technique on text normalization and its role in speech synthesis
JP3009654B1 (ja) 機械翻訳処理装置
Rodríguez et al. Evaluation of sublexical and lexical models of acoustic disfluencies for spontaneous speech recognition in Spanish.