KR102373358B1 - 판례 번역 시스템 및 판례 번역 방법 - Google Patents

판례 번역 시스템 및 판례 번역 방법 Download PDF

Info

Publication number
KR102373358B1
KR102373358B1 KR1020200067475A KR20200067475A KR102373358B1 KR 102373358 B1 KR102373358 B1 KR 102373358B1 KR 1020200067475 A KR1020200067475 A KR 1020200067475A KR 20200067475 A KR20200067475 A KR 20200067475A KR 102373358 B1 KR102373358 B1 KR 102373358B1
Authority
KR
South Korea
Prior art keywords
text
judgment
translation
english
sentence
Prior art date
Application number
KR1020200067475A
Other languages
English (en)
Other versions
KR20210150706A (ko
Inventor
오경원
Original Assignee
주식회사 까리용
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 까리용 filed Critical 주식회사 까리용
Priority to KR1020200067475A priority Critical patent/KR102373358B1/ko
Publication of KR20210150706A publication Critical patent/KR20210150706A/ko
Application granted granted Critical
Publication of KR102373358B1 publication Critical patent/KR102373358B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

판결문이 대부분 이미지 스캔본 상태로만 법원에서 제공되고 있으므로 해당 스캔본을 텍스트로 변환하여 번역될 수 있는 상태로 변환하고, 번역결과에서 사용자가 번역단위별로 임의수정 가능케 하고 이를 저장하여 데이터베이스화 함으로써 사용자 경험이 누적될 수록 번역률이 높아지는 지능형 번역시스템.

Description

판례 번역 시스템 및 판례 번역 방법{System for translating judicial precedents and method of translating judicial precedents}
본 발명은 법률용어로 작성된 판결문을 실시간으로 번역하는 시스템과 그 번역 방법에 관한 것이다.
대한민국의 사법권은 법관으로 구성된 법원에 속하고, 법원은 법률에 대해서 최종적인 해석권한을 가지고 있으며, 법원은 재판의 심리를 진행하여 양쪽 당사자의 의견을 충분하게 들은 후 종국판결(終局判決)을 선고하고 있다.
법원의 판결문은 재심 등의 방법이 아니고서는 불복수단이 존재하지 않으며, 개인 등의 권리의무관계를 최종적으로 규율하고 있으므로, 민사소송법은 판결서의 형식 등을 엄격하게 규율하고 있으며 법관이 서명날인한 경우에만 그 효력이 인정되도록 하고 있다.
민사소송법 제217조는 외국법원의 확정판결 또는 이와 동일한 효력이 인정되는 재판 또한 특정 요건을 갖출 결루 승인될 수 있다고 규정하고 있으며, 외국 법원의 경우에도 상호보증이 있거나 대한민국과 그 외국법원이 속하는 국가에 있어 확정재판 등의 승인요건이 현저히 균형을 상실하지 아니하고 중요한 점에서 실질적으로 차이가 없는 경우에는 대한민국의 판결문을 승인하는 경우가 다수이다.
국내 판결문을 외국 법원에서 승인받거나 국외 판결문을 국내 법원에서 승인받고자 하기 위해서는 해당 법원이 위치한 국가의 언어로 판결문을 번역하는 것이 선행되어야 한다. 그러나 판결문은 법관에 의해서 작성된 법률문서이므로 그 형식이 엄격할 뿐만 아니라, 내용에 있어서도 전문적인 용어 등으로 구성되어 있으므로 외국어에 능통한 변호사 정도로 법률 분야에 전문적 지식을 갖추지 않은 사람은 이를 해석하는데 매우 많은 시간이 소요된다.
특히 법률용어는 일반 영어사전 등에 등재되지 않은 것이 대부분이고, 영미법과 대륙법에서 사용하고 있는 용어에 상당한 차이가 있으므로, 양국의 법제도에 대해서 구체적인 자료를 찾아보아 일일이 번역해야 하며, 법률용어나 공식용어가 아닌 단어는 이를 검색하여 파악하는 등의 번거로운 작업을 거쳐야 한다. 따라서 일반 변호사가 번역하는데는 많은 어려움이 있으며, 전문적인 팀이 있는 경우에도 경우에도 수십장에 이르는 판결문을 번역하는데 장기간이 소요되는 실정이다.
본 발명에서 해결하려는 과제는 아래와 같다.
판결문이 대부분 이미지 스캔본 상태로만 법원에서 제공되고 있으므로 해당 스캔본을 텍스트로 변환하여 번역될 수 있는 상태로 변환하고, 번역결과에서 사용자가 번역단위별로 임의수정 가능케 하고 이를 저장하여 데이터베이스화 함으로써 사용자 경험이 누적될 수록 번역률이 높아지는 지능형 번역시스템을 만드며, 우선순위에 따른 번역을 수행하여 번역의 정확도를 향상시키고자 한다.
본 발명은 상기와 같은 과제를 해결하기 위하여,
판결문스캔본(10)을 판결문텍스트본(20)으로 변환하는 판결문스캔모듈(100); 판결문텍스트본(20)의 영한 또는 한영으로 판결문번역모듈(200); 번역을 수행할 데이터 및 데이터를 가공하기 위한 툴이 저장되는 데이터베이스및가공툴(300); 번역 학습을 위한 데이터를 수집하는 웹크롤러(310); 수집한 데이터가 법률 문서인지 판별하는 법률문서판별기(380); 한글 문서를 문장단위로 분리해주는 한글문장토크나이저(320); 영어 문서를 문장단위로 분리해주는 영어문장토크나이저(330); 같은 의미를 갖는 한글 문장과 영어 문장을 1:1, 1:N, 또는 N:1로 짝지어 번역모듈의 학습을 위한 데이터를 수집, 정리하는 문장배열모듈(340); 문장배열모듈(340)에 의해 짝지어진 문장들이 학습되기 이전에 저장되는 트레이닝데이터DB(350); 판결문번역모듈(200)에 의해 번역된 결과를 판결문텍스트본(20)에 반영하여 판결문번역본(30)을 작성하는 번역문작성모듈(400);을 포함한다.
판결문번역모듈(200)은 신경망 기반의 기계번역 도구로, 판결문텍스트본(20)의 영어를 한글로 번역하는 기능을 제공하고, 자연어를 숫자 벡터로 변환하는 입력임베딩(210), 입력 벡터의 나열을 읽고 단일 벡터를 출력하는 인코더(220), 해당 벡터를 읽어 출력 벡터의 나열을 생성하는 디코더(230), 벡터를 자연어로 변환하는 출력임베딩(240)을 포함하여 구성된다.
구체적으로는 트레이닝데이터DB(350)에 저장된 문장을 학습 세트, 검증 세트, 평가 세트로 나누고, 학습 세트의 문장을 사용하여 인코더(220)와 디코더(230) 신경망 모델을 학습시키고, 학습 세트 1회가 끝날때마다 검증 세트의 번역 품질을 수치화하여 확인한다. 이 때 검증 세트를 이용하여 법률용어검사기를 이용한 별도의 학습을 검증 세트의 번역 품질이 더 나아지지 않고 수렴할 때까지 학습을 반복하고 최종 번역 품질은 평가 세트를 이용해 판단한다. 평가 세트의 번역 품질이 최고가 되도록, 신경망 모델의 매개변수를 조절하고 트레이닝데이터DB(350)를 업데이트하며 모델 학습을 지속한다.
상기 데이터베이스및가공툴(300)은 용어로 이루어진 법률용어와 그에 대응되는 한글 사전이 저장되는 법률용어DB(360)를 포함하고, 사용자가 부족한 기계번역 결과를 직접 수정하는 경우를 수집하기 위한 사용자수정결과DB(370)를 포함한다. 상기 판결문번역모듈(200)은 딥러닝을 이용한 기계번역 방법으로 구현을 하되, 구체적으로는 최근 기계학습의 정확도와 속도를 크게 향상시킨 지도학습 방식의 트랜스포머(Transformer) 모델을 적용할 수 있다.
트랜스포머 모델을 학습시키기 위해서 웹에 존재하는 한글과 영어 버전이 둘다 존재하는 문서를 웹크롤러(310)를 이용하여 수집하고 법률문서판별기(370)를 이용하여 법률문서로 판단되는 데이터만 선별하여 데이터베이스및가공툴(300)에 저장한다. 지도학습인 트랜스포머 모델을 학습시키기 위해서는 데이터베이스및가공툴(300)에 수집한 문장을 한글-영어 표현이 짝지어진 형태로 정리하고 가공해야 한다. 먼저 여러 문장으로 구성된 문서를 마침표, 줄내림, 여백문자와 같은 문장부호와 구성 단어의 의미를 통해 문장 단위로 분리해주는 한글문장토크나이저(320); 영어문장토크나이저(330)를 활용한다. 분리된 문장의 나열을 같은 의미를 갖는 한글 문장과 영어 문장을 1:1, 1:N, 또는 N:1로 짝지어주는 문장배열모듈(340)을 활용하여 학습데이터의 형태로 가공을 마쳐 트레이닝데이터DB(350)에 해당 문장을 저장한다.
상기 번역본작성모듈(400)에서 판결문텍스트본(20)의 각 대응되는 위치에 번역된 문장을 대입하여 판결문번역본(3)을 작성하여 사용자에게 제공하고 사용자가 직접 수정할 수 있는 인터페이스를 제공하여 수정한 정보도 데이터베이스로 수집할 수 있는 판결문 번역 시스템을 제시한다.
법률 용어를 우선적으로 번역하여 번역의 정확도를 향상시킬 수 있으며, 번역결과에서 사용자가 번역단위별로 임의수정을 가능하게 하고 이를 저장 후 데이터베이스로 활용함으로써 사용자 경험이 누적될 수록 번역률이 높아지는 강화학습의 효과를 갖는 장점이 있다.
도 1은 본 발명에 의해 번역이 수행되는 화면을 나타낸 도면.
도 2는 번역대상인 판결문의 예시 도면.
도 3은 도 2의 판결문이 번역된 결과의 예시 도면.
도 4는 사용자단어 목록에 대한 도면.
도 5는 본 발명의 전체 구성에 대한 블록도.
도 6은 판결문모듈의 세부 구성에 대한 블록도.
본 발명의 권리범위는 특허청 청구범위 기재에 의하여 파악되어야 하며, 첨부된 도면을 바탕으로 본 발명의 바람직한 실시예에 대해서 설명하고자 한다. 다만 통상의 기술자라면 구현할 수 있는 공지기술에 대한 설명은 생략한다.
본 발명의 판결문 번역 시스템은 판결문스캔모듈(100), 판결문번역모듈(200), 데이터베이스및가공툴(300), 번역본작성모듈(400)을 포함하여 구성된다.
판결문스캔모듈(100)은 판결문스캔본을(10) 판결문텍스트본(20)으로 변환하는 기능을 제공하며, 스캔파일수신부(110), 파일형식변환부(120), 텍스트추출부(130), 텍스트파일생성부(140)를 포함한다. 판결문 스캔본(10)은 영어를 포함하는 언어로 작성된 판결문을 스캔한 파일, 판결문텍스트본(20)은 판결문스캔본(10)이 판결문스캔모듈(100)에 의해 변환된 파일을 의미한다.
스캔파일수신부(110)는 판결문스캔본(10), 즉 판결문을 스캔하여 생성된 파일을 수신하는 부분이다. 이때 판결문은 한국 또는 미국의 법원에서 발급받은 것으로서 대부분 법률용어로 작성되어 있다. 판결문을 스캔하면 판결문에 적힌 글자가 이미지 파일인 판결문스캔본(10)이 생성된다.이 판결문스캔본(10)을 서버에 업로드하면 스캔파일수신부(110)에서 수신하게 된다.
파일형식변환부(120)는 스캔파일수신부(110)에서 수신된 판결문스캔본(10)을 텍스트 추출 가능한 pdf 또는 xml 파일형식으로 저장된다. 즉, 스캔파일수신부(110)에서 수신된 jpg파일을 파일형식변환부(120)에서 pdf 또는 xml 파일로 변환하는 것이다. 텍스트추출부(130)은 파일형식변환부(120)에서 형식변환된 파일에서 이미지를 인식하여 텍스트로 추출하는 부분이며 이는 OCR 기능을 이용할 수 있다.
OCR 관점에서 판결문의 경우 통상적으로 동일한 형식으로 구성되어 있으므로 여러 문서에서 공통적으로 나타나는 이미지나 글자는 템플릿으로 인식하여 쉽게 제거할 수 있다. 비슷한 폰트, 자간, 행간, 글자 크기등을 사용하는 경우 한 줄 또는 한 단어, 한 글자 단위로 세분화하고 여백을 제거한뒤 기계학습을 적용하여 OCR 정확도를 향상시킬 수 있다.
도2에서 판결문의 예시를 확인할 수 있으며, 이는 판결문스캔본(10)이 판결문스캔모듈(100)에 의해 변환된 판결문텍스트본(20)으로서, 판결문스캔본(10)역시 이미지형태일 뿐 같은 형태의 문서이다.
판결문번역모듈(200)은 판결문텍스트본(20)의 영어 및 한글을 한글 및 영어로 번역하는 기능을 제공하며, 자연어를 백터로 변환하는 입력임베딩(210), 입력시퀀스를 읽고 단일 벡터를 출력하는 인코더(220), 해당 벡터를 읽어 출력 시퀀스를 생성하는 디코더(230), 백터를 자연어로 변환하는 출력임베딩(240)을 포함하여 구성된다.
번역 기계학습을 위해서 한글 또는 영어 문장을 기계학습 알고리즘에 적용가능한 숫자 벡터로 표현해야 한다. 입력임베딩(210) 모듈은 한글 또는 영어 문장을 벡터로 변환하는 모듈로, 단어 단위로 토크나이징을 적용한뒤, 문장의 시작을 알리는 특수문자, 문장의 마지막을 알리는 특수문자를 삽입하여 토큰의 나열(sequence)로 변환하고 각각의 토큰을 원-핫 인코딩(one-hot encoding)을 이용해 벡터로 변환을 마친다. 인코더(220)는 RNN(recurrent neural network)이라고 불리는 딥러닝 모델을 활용한다. 입력 벡터를 순차적으로 신경망(neural network)에 전달하여 가지고 있는 숨겨진 레이어(hidden layer)와 연산한뒤 결과 레이어(output layer)를 도출하여 다시 인코더(220) 신경망에 재전달하는 식으로 입력 벡터를 소비한다. 인코더(220)가 소비를 마치면, 인코더(220)의 결과 레이어를 디코더(230)에 전달하고, 디코더(230)의 결과 레이어는 번역하고자하는 대상 언어의 토큰에 해당하는 의미를 가진다. 또한 결과 레이어를 계속 디코더(230) 신경망에 재전달하여 문장의 마지막을 알리는 토큰을 만날 때 까지 반복한다. 디코더(230)가 생성한 결과 레이어 각각을 출력임베딩(240)을 통해 대상 언어의 단어로 변환할 수 있고 변환된 단어를 띄어쓰기로 구분하여 나열하면 번역이 완료된다. 이 작업이 나열-나열(sequence-to-sequence) 모델을 이용한 기계번역의 기본적인 형태이며 신경망의 형태와 연산을 향상시킨 트랜스포머(Transformer) 모델을 적용하며 번역품질 향상을 기대할 수 있다. 법률문서로 선별되고 법률문서에 특화된 도구를 통해 가공한 데이터를 이용하여 모델을 학습했기 때문에 범용적인 데이터로 학습한 기계번역과 비교하여 모델의 숨겨진 레이어가 차별성을 가지며 고품질의 법률문서 번역 성능으로 나타난다.
데이터베이스및가공툴(300)은 번역을 수행할 데이터가 저장되는 부분으로 웹크롤러(310), 한글문장토크나이저(320), 영어문장토크나이저(330), 문장배열모듈(340), 법률용어DB(360), 사용자수정결과DB(370)를 포함한다.
웹크롤러(310)는 판결문번역모듈(200)이 번역 학습을을 하기 위해 필요한 데이터를 수집하는 가공툴이다.
한글문장토크나이저(320)는 웹크롤러(310)에 의해 수집된 한글문서를 문장단위로 분리해주는 가공툴이다.
영어문장토크나이저(330)는 웹크롤러(310)에 의해 수집된 영어문서를 문장단위로 분리해주는 가공툴이다.
문장배열모듈(340)은 한글문장토크나이저(320)과 영어문장토크나이저(330)에 의해서 분리된 한글 문장과 영어 문장을 1:1, 1:N, 또는 N:1로 짝지어주는 가공툴이다.
트레이닝데이터DB(350)는 문장배열모듈(340)에 의해서 짝지어진 문장들이 인코더(220)와 디코더(230)를 포함하는 모델에 의해 학습되기 위해서 저장되는 데이터베이스이다.
법률용어DB(360)는 구절로 된 영어 및 한글 법학용어와 그에 대응되는 한글 및 영어용어가 저장되는 데이터베이스이다.
사용자수정결과DB(370)는 사용자가 부족한 기계번역 결과를 직접 수정한 내용이 저장되는 데이터베이스이다.
법률문서판별기(380)는 웹크롤러(310)가 발견한 문서가 법률문서인지 판별해주는 도구이며 트레이닝데이터DB(350)에 저장된 문장을 임력임베딩(210)을 통해 벡터로 변환하고 형태소분석기를 통해 체언에 해당하는 벡터의 평균값을 기반으로 이상감지(anomaly detection) 기법을 활용한다.
한글토크나이저(320)와 영어토크나이저(330)는 문장부호를 기반으로 정규표현식과 일치하면 문장으로 나누는 방식과 문장의 의미에 따라 문장의 완료를 판단하는 기계학습 모델을 모두 활용하는 것이 특징이다.
웹크롤러(310)이 발견한 법률문서의 한글과 영어버전이 있을 때 문장배열모듈(340)을 이용하여 트레이닝데이터DB(350)에 저장하는데, 이 때에도 판결문번역모듈(200)을 이용하여 선순환된다는 특징이 있다. 판결문번역모듈(200)의 성능이 좋아지면 문장배열모듈(340)의 성능도 좋아지고, 이는 고품질의 트레이닝데이터DB(350)를 구성하며 다시 판결문번역모듈(200)의 성능 향상으로 연결된다.
웹크롤러가 발견한 문서 중 먼저 한글문서를 영어로 판결문번역모듈(200)로 번역한 뒤, 기계번역 된 영어 문장과 영어 문서의 문장이 BLEU 점수가 최대가 되도록 1:1또는 1:N으로 나눈다. 영어문서에 대해서도 마찬가지로 방식으로 배열하되 한글문장을 기준으로 1:1로 배열된 부분은 중복이 되어 제외하고 진행한 뒤 트레이닝데이터DB(350)에 저장한다.
상기 데이터베이스에 저장되는 데이터는 서버에 저장되는 것이므로 법무법인 등에서 공유하게 될 경우 다른 변호사가 등록해 놓은 사용자 단어나 약어, 구절도 참고할 수 있게 된다(도4 참고).
번역본작성모듈(400)은 판결문번역모듈(200)에 의해 번역된 결과를 판결문텍스트본(20)에 반영하여 판결문번역본(30)을 작성하는 부분이다. 도 1과 같은 화면에서 번역작업이 완료된 후, 이를 도 2와 같은 판결문텍스트본(20)의 각 대응되는 위치에 판결문번역본(30)을 작성한다. 이 때 작성된 판결문번역본(30)은 도 3에서 확인할 수 있다. 바람직하게는 도1과 같이 판결문 원본과 번역본을 한 화면에 출력하여 대응관계를 한눈에 확인하도록 할 수 있다. 특히, 원본과 번역본의 각 문구의 위치가 대응되므로, 원본에 적힌 영어원문에 해당하는 번역문을 번역본의 같은 위치에서 확인할 수 있고, 반대로 번역본에 제시된 번역문에 해당하는 원문을 원본의 같은 위치에서 확인할 수 있으므로, 모호한 의미 파악이 용이해진다.
상술한 구성에 의해 판결문을 번역하는 방법은 다음과 같은 순서로 행해진다.
s1: 판결문스캔본(10)에서 텍스트를 추출하여 판결문텍스트본(20)을 생성하는 단계
s1-1: 서버에서 판결문스캔본(10)을 수신하여 텍스트 추출 가능한 파일형식으로 변환한다.
s1-2: s1-1의 형식변환된 파일에서 이미지를 인식하여 텍스트를 추출한다.
s1-3: s1-2에서 추출된 텍스트를 판결문텍스트본(20)으로 저장한다.
s2: 판결문텍스트본(20)의 한글을 영어 또는 영어를 한글로 번역하는 단계
s2-1: 판결문텍스트본(20)의 텍스트를 한글문장토크나이저 또는 영어문장토크나이저를 이용하여 문장단위로 추출하고 판결문번역모듈(200)으로 전달하여 번역한다.
s3: 변역된 결과를 반영하여 판결문번역본(30)을 작성하는 단계
s3-1: s2에서 번역작업이 완료된 번역문장을 판결문텍스트본(20)의 원문장을 대체하는 방식으로 판결문 번역본(30)을 작성한다.
s3-2: 판결문스캔본(10) 또는 판결문텍스트본(20)과 판결문번역본([0118] 30)을 도 8과 같이 원문과 번역문의 텍스트 위치가 대응되도록 하여 한 화면에 출력한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것은 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경 가능함은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어서 명백할 것이다.
100 : 판결문스캔모듈
110 : 스캔파일수신부
120 : 파일형식변환부
130 : 텍스트추출부
140 : 텍스트파일생성부
200 : 판결문번역모듈
210 : 입력임베딩
220 : 인코더
230 : 디코더
240 : 출력임베딩
300 : 데이터베이스및가공툴
310 : 웹크롤러
320 : 한글문장토크나이저
330 : 영어문장토크나이저
340 : 문장배열모듈
350 : 트레이닝데이터DB
360 : 법률용어DB
370 : 사용자수정결과DB
380 : 법률문서판별기
400 : 번역본작성모듈
10 : 판결문스캔본
20 : 판결문텍스트본
30 : 판결문번역본

Claims (1)

  1. 판결문스캔본(10)을 판결문텍스트본(20)으로 변환하는 판결문스캔모듈(100);
    판결문텍스트본(20)의 영어 또는 한글을 머신러닝 기반 알고리즘을 바탕으로 한글 또는 영어로 번역하는 판결문번역모듈(200);
    번역을 수행할 데이터 및 데이터를 가공하는 툴이 저장되는 데이터베이스및가공툴(300);
    판결문번역모듈(200)에 의해 번역된 결과를 판결문텍스트본(20)에 반영하여 판결문번역본(30)을 작성하는 번역본작성모듈(400)을 포함하고,
    상기 판결문스캔모듈(100)은
    판결문스캔본을(10) 스캔하여 생성된 파일을 수신하는 스캔파일수신부(110),
    스캔파일수신부(110)에서 수신된 판결문스캔본(10)을 텍스트 추출 가능한 pdf 또는 xml 파일형식으로 저장하는 파일형식변환부(120),
    파일형식변환부(120)에서 판결문에서 통상적으로 사용되는 폰트, 자간, 행간, 글자 크기 등의 형식에 특화된 OCR 기능을 이용하여, 형식변환된 파일에서 이미지를 인식 후 텍스트로 추출하는 텍스트추출부(130),
    추출된 텍스트를 바탕으로 파일을 생성하는 텍스트파일생성부(14)을 포함하며,
    상기 판결문번역모듈(200)은
    기계학습 알고리즘을 이용하여 판결문텍스트본(20)의 영어 및 한글을 한글 및 영어로 번역하는 기능을 제공하며, 자연어를 백터로 변환하는 입력임베딩(210),
    입력시퀀스를 읽고 단일 벡터를 출력하는 인코더(220),
    해당 벡터를 읽어 출력 시퀀스를 생성하는 디코더(230),
    백터를 자연어로 변환하는 출력임베딩(240)을 포함하되,
    상기 번역본작성모듈(400)에서 판결문텍스트본(20)의 각 대응되는 위치에 번역된 결과를 대입하여 판결문번역본(30)을 작성할 수 있는 것을 특징으로 하며,
    상기 데이터베이스및가공툴(300)은
    번역 학습을 위한 데이터를 선별적으로 수집하는 웹크롤러(310),
    웹크롤러(310)에 의해 수집된 한글문서를 문장단위로 분리해주는 한글문장토크나이저(320),
    웹크롤러(310)에 의해 수집된 영어문서를 문장단위로 분리해주는 영어문장토크나이저(330),
    한글문장토크나이저(320)과 영어문장토크나이저(330)에 의해서 분리된 한글 문장과 영어 문장을 1:1, 1:N, 또는 N:1로 짝지어주는 문장배열모듈(340),
    문장배열모듈(340)에 의해서 짝지어진 문장들이 인코더(220)와 디코더(230)를 포함하는 모델에 의해 학습되기 위해서 저장되는 트레이닝데이터DB(350),
    구절로 된 영어 및 한글 법학용어와 그에 대응되는 한글 및 영어용어가 저장되는 법률용어DB(360),
    사용자가 부족한 기계번역 결과를 직접 수정한 내용이 저장되는 사용자수정결과DB(370),
    웹크롤러(310)가 발견한 문서가 법률문서인지 판별하는 법률문서판별기(380)를 포함하고,
    트레이닝데이터DB(350)에 저장된 문장을 입력임베딩(210)을 통해 벡터로 변환하고 형태소분석기를 통해 체언에 해당하는 벡터의 평균값을 기반으로 이상감지(anomaly detection) 기법을 활용하여 법률문서만을 선별하여 수집하고, 법률문서만으로 트레이닝데이터DB(350)를 구성하는 것을 특징으로 하는
    판결문 번역 시스템.
KR1020200067475A 2020-06-04 2020-06-04 판례 번역 시스템 및 판례 번역 방법 KR102373358B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200067475A KR102373358B1 (ko) 2020-06-04 2020-06-04 판례 번역 시스템 및 판례 번역 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200067475A KR102373358B1 (ko) 2020-06-04 2020-06-04 판례 번역 시스템 및 판례 번역 방법

Publications (2)

Publication Number Publication Date
KR20210150706A KR20210150706A (ko) 2021-12-13
KR102373358B1 true KR102373358B1 (ko) 2022-03-11

Family

ID=78831974

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200067475A KR102373358B1 (ko) 2020-06-04 2020-06-04 판례 번역 시스템 및 판례 번역 방법

Country Status (1)

Country Link
KR (1) KR102373358B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102569264B1 (ko) 2023-01-17 2023-08-23 주식회사 코딧 캐시모듈을 이용한 인공지능 기반의 고속 번역방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018146A (ja) 2003-06-23 2005-01-20 Hitachi Ltd 各国法律/規格/基準の比較,検索,翻訳システム
JP2015201225A (ja) 2009-04-23 2015-11-12 アイティーアイピー・ディヴェロップメント・エルエルシーItip Development, Llc 法的文書を提出するためのシステムおよび方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102449842B1 (ko) * 2017-11-30 2022-09-30 삼성전자주식회사 언어 모델 학습 방법 및 이를 사용하는 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018146A (ja) 2003-06-23 2005-01-20 Hitachi Ltd 各国法律/規格/基準の比較,検索,翻訳システム
JP2015201225A (ja) 2009-04-23 2015-11-12 アイティーアイピー・ディヴェロップメント・エルエルシーItip Development, Llc 法的文書を提出するためのシステムおよび方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김장호 외, '전자무역서신 작성을 위한 NMT 기반 번역프로그램 연구', 국제e-비즈니스학회, 2018.
서정목, '법률번역에 있어서 전문용어의 번역에 관한 연구', 2013.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102569264B1 (ko) 2023-01-17 2023-08-23 주식회사 코딧 캐시모듈을 이용한 인공지능 기반의 고속 번역방법 및 시스템

Also Published As

Publication number Publication date
KR20210150706A (ko) 2021-12-13

Similar Documents

Publication Publication Date Title
KR101376863B1 (ko) 문서 시각 구조의 문법 분석
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN110287484B (zh) 一种基于人脸特征的汉语文本描述人脸图像生成方法
CN111460793A (zh) 纠错方法、装置、设备及存储介质
CN110929714A (zh) 一种基于深度学习的密集文本图片的信息提取方法
CN110688863A (zh) 一种文档翻译系统及文档翻译方法
KR102373358B1 (ko) 판례 번역 시스템 및 판례 번역 방법
Mozaffari et al. IfN/Farsi-Database: a database of Farsi handwritten city names
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
Panda et al. Odia offline typewritten character recognition using template matching with unicode mapping
CN110502759A (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN114239546A (zh) 一种基于语法树剪枝的翻译机测试方法
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
CN115048940B (zh) 基于实体词属性特征和回译的中文金融文本数据增强方法
Garain et al. Identification of embedded mathematical expressions in scanned documents
Aliwy et al. Corpus-based technique for improving Arabic OCR system
Teng et al. End-to-End Model Based on Bidirectional LSTM and CTC for Online Handwritten Mongolian Word Recognition
Drobac OCR and post-correction of historical newspapers and journals
Ali et al. Database of handwritten Arabic mathematical formula images
CN115269807B (zh) 一种基于问题类型识别的问答对联合生成模型
JPH0748217B2 (ja) 文書要約装置
JP2007264858A (ja) 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法
Gupta et al. Marwari (Heritage Script) OCR Using Attention Based Encoder-Decoder Architecture
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
Iqbal et al. Conversion of urdu nastaliq to roman urdu using OCR

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant