KR102529987B1

KR102529987B1 - Crf 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법

Info

Publication number: KR102529987B1
Application number: KR1020200010977A
Authority: KR
Inventors: 김소정
Original assignee: (주)나라지식정보
Priority date: 2020-01-30
Filing date: 2020-01-30
Publication date: 2023-05-09
Also published as: KR20210097366A

Abstract

본 문서에 개시되는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치는 외부와 통신하도록 구성된 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 통신 회로를 이용하여 문장 및 어구를 구별하는 미리 입력된 태그를 포함하는 입력 텍스트를 수신하고, 입력 텍스트에 포함된 글자 각각에 대한 특성 함수를 결정하고, 통신 회로를 이용하여 번역 대상 텍스트를 수신하고, 특성 함수를 이용하여 번역 대상 텍스트에 포함된 글자 시퀀스에 대한 문장 및 어구를 구별하는 복수의 라벨 시퀀스 각각의 출현 확률을 산출하고, 출현 확률에 기초하여 복수의 라벨 시퀀스 중 글자 시퀀스에 대응하는 라벨 시퀀스를 획득하고, 라벨 시퀀스에 기초하여 번역 대상 텍스트에 문장 및 어구를 구별하는 문장 부호를 삽입할 수 있다.

Description

CRF 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법{APPARATUS AND METHOD FOR IDENTIFYING SENTENCE AND PHRASE OF CHINESE CHARACTER TEXT BASED ON CONDITIONAL RANDOM FIELD}

본 문서에서 개시되는 실시 예들은 고전 한자 문헌에서 문장 및 어구를 식별하는 장치 및 방법과 관련된다.

중국의 문자인 한자는 5세기 이후 동아시아 지역에서 공식어로서 수백년간 사용되어 왔다. 고전 한자 문헌에서 사용되는 패턴, 문법 및 단어는 현대 중국어에서 사용되는 그것과 매우 상이하다. 또한, 동일한 시대에 작성된 고전 한자 문헌이라도, 그 문헌이 작성된 지역(예: 중국, 한국, 베트남 및 일본 등)에 따라 그 패턴, 문법 및 단어가 매우 상이하다. 한편, 고전 한자 문헌은 문단 단위로만 구분되어 작성되고, 문단 내에서는 띄어쓰기 및 문장 부호가 사용되지 않는다.

따라서, 고전 한자 문헌의 번역을 위해서는, 해당 지역 문헌에 대한 전문가가 문헌에 포함된 텍스트를 문장 단위로 분할하고, 해당 문장을 어구 단위로 분할하여 문장 및 어구를 구별하는 표점(標點)을 입력하는 작업이 요구된다.

상술한 표점 입력 작업에는 고전 한자 문헌의 번역에 있어서 높은 비중의 시간과 비용이 소요된다. 한국고전번역원의 자료에 따르면, 국내의 고전 한자 문헌 중 하나인 승정원 일기의 경우 현재 번역이 약 21% 완료된 상태이며, 현재와 동일한 작업 속도로는 완역까지 약 41년이 소요될 것으로 예상된다. 따라서, 번역의 속도를 높여 고전 한자 문헌을 활용하기 위해서는, 표점 입력 작업을 자동화함으로써 표점 입력에 소요되는 인력, 시간 및 비용을 감소시킬 필요성이 있다.

본 발명의 실시 예들은, 기계 학습 기법을 활용하여 고전 한자 문헌의 문장 및 어구를 식별하도록 하는 표점을 입력할 수 있는 장치 및 방법을 제공하기 위한 것이다.

일 실시 예에 따르면, 미리 입력된 태그는 입력 텍스트에 포함된 어구의 첫 글자 및 문장의 마지막 글자와 이웃하게 배치되고, 프로세서는 번역 대상 텍스트에서 어구를 구별하는 라벨에 대응하는 글자 앞에 쉼표를 삽입하고, 문장을 구별하는 라벨에 대응하는 글자 뒤에 마침표를 삽입할 수 있다.

일 실시 예에 따르면, 미리 입력된 태그는 입력 텍스트에 포함된 어구의 마지막 글자 및 문장의 마지막 글자와 이웃하게 배치되고, 프로세서는 번역 대상 텍스트에서 어구를 구별하는 라벨에 대응하는 글자 뒤에 쉼표를 삽입하고, 문장을 구별하는 라벨에 대응하는 글자 뒤에 마침표를 삽입할 수 있다.

일 실시 예에 따르면, 프로세서는 미리 입력된 태그 및 입력 텍스트에 포함된 글자에 기초하여 입력 텍스트에 포함된 글자 각각에 대한 라벨을 포함하는 학습 데이터를 생성하고, 학습 데이터에 기초하여 입력 텍스트에 포함된 글자 각각에 대한 특성 함수를 결정할 수 있다.

일 실시 예에 따르면, 특성 함수는 입력 텍스트에 포함된 특정 글자, 특정 글자의 위치, 특정 글자에 대응하는 라벨, 및 특정 글자에 이웃하는 다른 글자에 대응하는 라벨에 기초하여 결정될 수 있다.

일 실시 예에 따르면, 프로세서는 입력 텍스트에 포함된 글자 각각에 대해 복수의 특성 함수를 결정하고, 복수의 특성 함수 각각에 상이한 가중치를 부여하고, 복수의 특성 함수의 리턴 값 및 가중치에 기초하여 출현 확률을 산출할 수 있다.

일 실시 예에 따르면, 프로세서는 CRF(conditional random field)에 따라 출현 확률을 산출하고, 라벨 시퀀스를 획득할 수 있다.

일 실시 예에 따르면, 라벨 시퀀스는 복수의 라벨 시퀀스 중 글자 시퀀스에 대한 출현 확률이 가장 높은 시퀀스일 수 있다.

일 실시 예에 따르면, 프로세서는 번역 대상 텍스트 및 문장 부호를 포함하는 결과 텍스트를 제공할 수 있다.

본 문서에 개시되는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 방법은, 문장 및 어구를 구별하는 미리 입력된 태그를 포함하는 입력 텍스트를 수신하는 단계, 입력 텍스트에 포함된 글자 각각에 대한 특성 함수를 결정하는 단계, 번역 대상 텍스트를 수신하는 단계, 특성 함수를 이용하여 번역 대상 텍스트에 포함된 글자 시퀀스에 대한 문장 및 어구를 구별하는 복수의 라벨 시퀀스 각각의 출현 확률을 산출하는 단계, 출현 확률에 기초하여 복수의 라벨 시퀀스 중 글자 시퀀스에 대응하는 라벨 시퀀스를 획득하는 단계, 및 라벨 시퀀스에 기초하여 번역 대상 텍스트에 문장 및 어구를 구별하는 문장 부호를 삽입하는 단계를 포함할 수 있다.

본 문서에 개시되는 실시 예들에 따르면, 문장 및 어구의 구별이 없는 고전 한자 문헌에 대해 특성 함수를 이용하여 문장 및 어구를 구별하는 라벨링을 수행함으로써, 비규칙적이고 무작위적인 고전 한자 문헌의 문장 및 어구의 식별을 동시에 효율적으로 처리할 수 있다. 특히, 일정한 종결 어미 및 조사를 갖는 우리말에 비해 문장의 종결 및 어구의 분리를 판단하기 어려운 한자로 이루어진 텍스트에서 그 효과는 증대될 수 있다.

이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.

도 1은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치의 동작 환경을 나타낸다.
도 2는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치의 구성을 나타내는 블록도이다.
도 3은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 수신되는 예시적인 입력 텍스트를 도시한다.
도 4는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 생성되는 예시적인 학습 데이터를 도시한다.
도 5는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 생성되는 예시적인 학습 데이터를 도시한다.
도 6은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 수신되는 예시적인 번역 대상 텍스트의 처리 과정을 도시한다.
도 7은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 방법을 설명하기 위한 흐름도이다.
도 8은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 방법을 설명하기 위한 흐름도이다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.

이하, 본 발명의 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.

도 1은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치의 동작 환경을 나타낸다.

도 1을 참조하면, 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치는 서버(100) 형태로 구현될 수 있다. 그러나, 이에 제한되지 않고, 한자 문헌의 문장 및 어구 식별 장치는 다양한 형태의 컴퓨팅 디바이스 중 하나로 구현될 수도 있다. 또한, 한자 문헌의 문장 및 어구 식별 장치는 도 1에 도시된 것과 같이 하나의 장치로 구현될 수도 있으나, 이에 제한되지 않고, 2 이상의 장치의 집합으로 구현될 수도 있다.

일 실시 예에 따른 서버(100)는 외부로부터 번역 대상 텍스트(12)를 수신할 수 있다. 예를 들어, 서버(100)는 사용자 단말 또는 다른 서버로부터 번역 대상 텍스트(12)를 수신할 수 있다. 번역 대상 텍스트(12)는 문장 부호 및 띄어쓰기를 포함하지 않을 수 있다. 서버(100)는, 예를 들어, CRF(conditional random field) 기반 알고리즘을 이용하여 번역 대상 텍스트(12)에 포함된 문장 및 어구를 식별할 수 있다.

서버(100)는 문장을 구별하기 위한 마침표 및 어구를 구별하기 위한 쉼표 등과 같은 문장 부호를 번역 대상 텍스트(12)에 삽입할 수 있다. 서버(100)는 문장 부호가 삽입된 결과 텍스트(12)를 사용자 단말 또는 다른 서버로 제공할 수 있다. 사용자는 결과 텍스트(12)를 이용하여 고전 한자 문헌의 번역을 수행할 수 있다. 번역 대상 텍스트(12)에 표점을 입력하는 과정을 자동화함으로써, 번역에 소요되는 인력, 시간 및 비용을 감소시킬 수 있다.

도 2는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치의 구성을 나타내는 블록도이다.

도 2를 참조하면, 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치는 서버(200)로 구현될 수 있다. 일 실시 예에 따른 서버(200)는 통신 회로(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다.

통신 회로(210)는 외부와 통신하도록 구성될 수 있다. 통신 회로(210)는 무선 통신 인터페이스 및/또는 유선 통신 인터페이스를 포함할 수 있다. 예를 들어, 통신 회로(210)는 사용자 단말 및/또는 다른 외부 서버 등과 같은 외부 장치와 데이터를 송수신할 수 있다.

메모리(220)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(220)는 서버(200)에서 취급되는 다양한 데이터를 저장할 수 있다. 예를 들어, 메모리(220)는 사용자 단말 및/또는 다른 외부 서버로부터 수신된 데이터를 저장할 수 있고, 서버(200) 내부에서 처리된 데이터를 저장할 수도 있다.

프로세서(230)는 통신 회로(210) 및 메모리(220)와 전기적으로 연결될 수 있다. 프로세서(240)는 통신 회로(210) 및 메모리(220)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 통신 회로(210)를 이용하여 문장 및 어구를 구별하는 미리 입력된 태그를 포함하는 입력 텍스트를 수신할 수 있다. 수신된 입력 텍스트는 메모리(220)에 저장될 수 있다. 미리 입력된 태그는 문장의 시작, 문장의 종결, 어구의 분리를 나타낼 수 있다. 예를 들어, 미리 입력된 태그는 입력 텍스트에 포함된 어구의 첫 글자 및 문장의 마지막 글자와 이웃하게 배치될 수 있다. 다른 예를 들면, 미리 입력된 태그는 입력 텍스트에 포함된 어구의 마지막 글자 및 문장의 마지막 글자와 이웃하게 배치될 수 있다. 입력 텍스트는 학습을 위한 데이터로서 이용될 수 있다. 입력 텍스트의 구체적인 예시에 대해서는 도 3을 참조하여 상세히 설명한다.

일 실시 예에 따르면, 프로세서(230)는 입력 텍스트에 포함된 글자 각각에 대한 특성 함수(feature function)를 결정할 수 있다. 글자의 특성은 글자의 앞 또는 뒤에 위치하는 글자, 글자들의 집합(N-gram) 또는 그 글자가 속한 집합을 의미할 수 있다. 특성 함수는 그 특성에 해당하는지 여부를 나타내는 함수일 수 있고, 참 또는 거짓을 나타내는 논리 값(예: 0 또는 1)을 반환할 수 있다. 프로세서(230)는 특성 함수를 메모리(220)에 저장할 수 있다. 특성 함수는, 예를 들어, 입력 텍스트에 포함된 특정 글자, 특정 글자의 위치, 특정 글자에 대응하는 라벨, 및 특정 글자에 이웃하는 다른 글자에 대응하는 라벨에 기초하여 결정될 수 있다.

프로세서(230)는 복수의 특성 함수를 결정할 수도 있다. 프로세서(230)는 복수의 특성 함수 각각에 상이한 가중치를 부여할 수 있다. 예를 들어, 프로세서(230)는 MLE(maximum likelihood estimation)을 이용한 반복 계산을 통해 학습 데이터에 대해 정확한 결과를 도출하도록 하는 가중치를 산출할 수 있다. 특성 함수의 구체적인 예시에 대해서는 도 4를 참조하여 상세히 설명한다.

일 실시 예에 따르면, 프로세서(230)는 미리 입력된 태그 및 입력 텍스트에 포함된 글자에 기초하여 입력 텍스트에 포함된 글자 각각에 대한 라벨을 포함하는 학습 데이터를 생성하고, 학습 데이터에 기초하여 입력 텍스트에 포함된 글자 각각에 대한 특성 함수를 결정할 수 있다. 학습 데이터는 입력 텍스트에 포함된 글자, 글자 각각에 대응하는 라벨, 및 글자의 위치를 나타내는 인덱스를 포함하는 테이블로 구성될 수 있다. 생성된 학습 데이터는 메모리(220)에 저장될 수 있다. 프로세서(230)는 학습 데이터를 특성 함수의 입력 값으로 활용할 수 있다. 학습 데이터의 구체적인 예시에 대해서는 도 4 및 도 5를 참조하여 상세히 설명한다.

일 실시 예에 따르면, 프로세서(230)는 통신 회로(210)를 이용하여 번역 대상 텍스트를 수신할 수 있다. 프로세서(230)는 사용자 단말에 의해 웹 페이지의 입력창을 통해 입력되는 텍스트를 수신할 수도 있고, 사용자 단말에 의해 업로드된 파일(파일은 텍스트를 포함함)을 수신할 수도 있다. 프로세서(230)는 사용자 단말로부터 직접 번역 대상 텍스트를 수신할 수도 있고, 다른 외부 장치를 통해 번역 대상 텍스트를 수신할 수도 있다. 프로세서(230)는 번역 대상 텍스트를 메모리(220)에 저장할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 특성 함수를 이용하여 번역 대상 텍스트에 포함된 글자 시퀀스에 대한 문장 및 어구를 구별하는 복수의 라벨 시퀀스 각각의 출현 확률을 산출할 수 있다. 프로세서(230)는, 예를 들어, CRF에 따라 출현 확률을 산출할 수 있다. 프로세서(230)는 번역 대상 텍스트에 포함된 글자 시퀀스에 대응할 수 있는 모든 라벨 시퀀스를 파약할 수 있다. 프로세서(230)는 모든 라벨 시퀀스 중 특정 라벨 시퀀스가 출현할 확률을 산출할 수 있다. 프로세서(230)는 모든 라벨 시퀀스 각각에 대해 출현 확률을 산출할 수 있다. 확률을 산출하는 예시적인 수학식은 아래와 같다.

[수학식 1]

여기서, x는 번역 대상 텍스트에 포함된 글자의 확률 변수이고, y는 번역 대상 텍스트에 포함된 글자에 대응하는 라벨의 확률 변수이고, n은 글자 시퀀스의 길이이고, m은 특성 함수의 종류의 수이고, y'은 글자 시퀀스에 대응할 수 있는 모든 라벨 시퀀스이고, f는 특성 함수이고, λ는 특성 함수에 대한 가중치일 수 있다. 모든 라벨 시퀀스 각각에 대한 확률의 합은 1일 수 있다. 수학식 1을 이용하여 글자 시퀀스에 대한 모든 라벨 시퀀스 각각의 출현 확률을 산출할 수 있다. 수학식 1은 λ를 산출하기 위해 사용될 수도 있고, 이 경우 입력 값은 학습 데이터에 해당할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 출현 확률에 기초하여 복수의 라벨 시퀀스 중 글자 시퀀스에 대응하는 라벨 시퀀스를 획득할 수 있다. 프로세서(230)는, 예를 들어, CRF에 따라 라벨 시퀀스를 획득할 수 있다. 라벨 시퀀스는 복수의 라벨 시퀀스 중 글자 시퀀스에 대한 출현 확률이 가장 높은 시퀀스일 수 있다. 글자 시퀀스에 대응하는 라벨 시퀀스를 획득하기 위한 예시적인 수학식은 아래와 같다.

[수학식 2]

여기서, x는 번역 대상 텍스트에 포함된 글자 시퀀스이고, y는 글자 시퀀스에 대응할 수 있는 모든 라벨 시퀀스이고, y*는 복수의 라벨 시퀀스 중 해당 글자 시퀀스 x에 대해 출현 확률이 가장 높은 라벨 시퀀스이다.

일 실시 예에 따르면, 프로세서(230)는 라벨 시퀀스에 기초하여 번역 대상 텍스트에 문장 및 어구를 구별하는 문장 부호를 삽입할 수 있다. 프로세서(230)는 라벨 시퀀스에서 어구를 구별하는 라벨 및 문장을 구별하는 라벨을 인식하고, 어구를 구별하는 라벨을 참조하여 어구를 구별하기 위한 문장 부호를 삽입하고, 문장을 구별하는 라벨을 참조하여 문장을 구별하기 위한 문장 부호를 삽입할 수 있다. 예를 들어, 프로세서(230)는 번역 대상 텍스트에서 어구를 구별하는 라벨에 대응하는 글자 앞에 쉼표를 삽입하고, 문장을 구별하는 라벨에 대응하는 글자 뒤에 마침표를 삽입할 수 있다. 다른 예를 들면, 프로세서(230)는 번역 대상 텍스트에서 어구를 구별하는 라벨에 대응하는 글자 뒤에 쉼표를 삽입하고, 문장을 구별하는 라벨에 대응하는 글자 뒤에 마침표를 삽입할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 번역 대상 텍스트 및 문장 부호를 포함하는 결과 텍스트를 제공할 수 있다. 예를 들어, 프로세서(230)는 통신 회로(210)를 이용하여 결과 텍스트를 웹 페이지를 통해 제공할 수도 있고, 결과 텍스트를 포함하는 전자 파일을 제공할 수도 있다. 프로세서(230)는 통신 회로(210)를 이용하여 결과 텍스트를 사용자 단말 또는 다른 외부 장치로 제공할 수 있다.

도 3은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 수신되는 예시적인 입력 텍스트를 도시한다.

도 3을 참조하면, 일 실시 예에 따른 장치에 의해 수신되는 입력 텍스트는 문장의 시작 또는 종결을 나타내는 태그 및 어구의 시작 또는 종결을 나타내는 태그를 포함할 수 있다. 태그는 사용자에 의해 미리 입력될 수 있다.

예를 들어, 고전 한자 문헌의 일부에 해당하는 원본 텍스트는 “光海由後苑門出走”일 수 있다. 이 경우, “光海”가 하나의 어구에 해당하고, “由後苑門出走”가 다른 하나의 어구에 해당하며, “光海由後苑門出走”가 하나의 문장에 해당할 수 있다.

일 실시 예에 따르면, 하나의 문장의 마지막 글자 뒤에 문장의 종결을 나타내는 <END>가 태그되고, 어구의 첫 글자 뒤에 어구의 시작을 나타내는 /S가 태그될 수 있다. 이 경우, 제1 어구 “光海”의 첫 글자인 “光” 뒤에 /S가 태그되고, 제2 어구 “由後苑門出走”의 첫 글자인 “由” 뒤에 /S가 태그되고, 문장 “光海由後苑門出走”의 마지막 글자인 “走” 뒤에 <END>가 태그될 수 있다. 이 경우, 입력 텍스트는 “光/S海由/S後苑門出走<END>”일 수 있다(입력 텍스트 1).

일 실시 예에 따르면, 하나의 문장의 마지막 글자 뒤에 문장의 시작을 나타내는 <START>가 태그되고, 어구의 마지막 글자 뒤에 어구의 종결을 나타내는 /S가 태그될 수 있다. 이 경우, 제1 어구 “光海”의 마지막 글자인 “海” 뒤에 /S가 태그되고, 제2 어구 “由後苑門出走”의 마지막 글자인 “走” 뒤에 /S가 태그되고, 문장 “光海由後苑門出走”의 마지막 글자인 “走” 뒤에 <START>가 태그될 수 있다. 이 경우, 입력 텍스트는 “光海/S由後苑門出走<START>/S”일 수 있다(입력 텍스트 2).

입력 텍스트 1 또는 입력 텍스트 2는 구현 방식에 따라 임의로 선택될 수 있다. 또한, 상술한 입력 텍스트는 예시적인 것일 뿐이고, 입력 텍스트는 어구 및 문장을 구별하도록 하는 다양한 형태의 태그를 포함할 수 있다. 입력 텍스트는 학습을 위한 데이터로 활용될 수 있다. 입력 텍스트에 어구를 식별하는 태그 및 문장을 식별하는 태그가 모두 포함되어 있으므로, 이를 학습을 위한 데이터로 활용함으로써, 어구 및 문장의 구별이 없는 고전 한자 문헌에 대한 표점 입력 작업이 효율적으로 수행될 수 있다.

도 4는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 생성되는 예시적인 학습 데이터를 도시한다.

도 4에 도시된 표에서, x는 입력 텍스트에 포함된 글자이고, y는 글자 각각에 대응하는 라벨이고, i는 한 문장 내 글자의 위치를 의미한다. 도 4에 도시된 학습 데이터는 도 3에서 설명된 입력 데이터 1에 기반하여 생성된다.

도 4를 참조하면, 학습 데이터의 항목 x에는 입력 텍스트에 포함된 글자가 입력될 수 있다. 예를 들어, 항목 x에는 글자 “光海由後苑門出走”가 순서대로 입력될 수 있다. 학습 데이터의 항목 i에는 각각의 글자의 순번을 나타내는 숫자가 배열될 수 있다. 예를 들어, 항목 i에는 첫 번째 글자 “光”에 대응하여 0이 입력되고, 두 번째 글자 “海”에 대응하여 숫자 1이 입력되고, 일곱 번째 글자 “走”에 대응하여 숫자 7이 입력될 수 있다. 학습 데이터의 항목 y에는 각각의 글자에 대응하는 라벨이 입력될 수 있다. 예를 들어, /S가 태그된 글자 “光” 및 “由”에는 라벨 S가 입력되고, <END>가 태그된 글자 “走”에는 라벨 E가 입력되고, 태그되지 않은 나머지 글자에는 라벨 N이 입력될 수 있다. 상술한 학습 데이터를 이용하여 이하와 같이 학습을 진행하고, 번역 대상 텍스트에 표점을 입력할 수 있다. 학습 데이터에 어구를 식별하는 라벨 및 문장을 식별하는 라벨이 모두 포함되어 있고, 학습 데이터를 이용하여 특성 함수 및 가중치를 설정함으로써, 띄어쓰기 및 문장 부호를 포함하지 않는 고전 한자 문헌의 어구 및 문장을 효율적으로 식별할 수 있다.

장치는 학습 데이터에 포함된 글자 각각에 대한 특성 함수를 결정할 수 있다. 특성 함수의 종류는, 예를 들어, 3개 일 수 있다. 예를 들어, 3 종류의 특성 함수는 f₁(x, i, y_i, y_i-1), f₂(x, i, y_i) 및 f₃(x, i, y_i, y_i-1, y_i-2)일 수 있다. 여기서, i=6인 경우, 도 4에 도시된 학습 데이터에 기초하여, f₁(x, 6, y₆, y₅)은 x=出, y₆=N, y₅=N일 때 1을 반환하고, 아니면 0을 반환하도록 설정될 수 있다. f₂(x, 6, y₆)은 x=出, y₆=N일 때 1을 반환하고, 아니면 0을 반환하도록 설정될 수 있다. f₃(x, 6, y₆, y₅, y₄)은 x=出, y₆=N, y₅=N, y₄=N일 때 1을 반환하고, 아니면 0을 반환하도록 설정될 수 있다. 상술한 것과 동일한 방식으로, 학습 데이터에 포함된 각각의 글자에 대해 f₁, f₂ 및 f₃ 등의 특성 함수가 모두 설정될 수 있다. 중복되는 특성 함수는 제거될 수 있다. 특성 함수가 결정되면, 장치는 수학식 1을 이용하여 특성함수 f₁, f₂ 및 f₃ 각각에 대한 가중치 λ₁, λ₂ 및 λ₃을 설정할 수 있다. 가중치는 MLE에 따라 수학식 1이 학습 데이터 내에서 가장 적합한 확률을 산출할 수 있도록 설정될 수 있다.

특성 함수 및 가중치가 결정되면, 장치는 수학식 1 및 수학식 2를 이용하여, 번역 대상 텍스트에 포함된 글자 시퀀스에 대응하는 라벨 시퀀스를 결정할 수 있다. 장치는 글자 시퀀스에 대응할 수 있는 모든 라벨 시퀀스 각각에 대해 수학식 1을 이용하여 확률 값을 산출할 수 있고, 수학식 2를 이용하여 가장 높은 확률 값을 갖는 라벨 시퀀스를 획득할 수 있다. 장치는 라벨 시퀀스에서 라벨 E에 대응하는 글자를 문장의 마지막 글자로 인식하고, 해당 글자의 뒤에 마침표를 삽입할 수 있다. 장치는 라벨 시퀀스에서 라벨 S에 대응하는 글자를 어구의 첫 글자로 인식하고, 해당 글자의 앞에 쉼표를 삽입할 수 있다. 쉼표와 마침표가 중복되는 경우, 쉼표는 제거될 수 있다.

도 5는 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 생성되는 예시적인 학습 데이터를 도시한다.

도 5 참조하면, 학습 데이터의 항목 x에는 입력 텍스트에 포함된 글자가 입력될 수 있다. 예를 들어, 항목 x에는 글자 “光海由後苑門出走”가 순서대로 입력될 수 있다. 학습 데이터의 항목 i에는 각각의 글자의 순번을 나타내는 숫자가 배열될 수 있다. 예를 들어, 항목 i에는 첫 번째 글자 “光”에 대응하여 0이 입력되고, 두 번째 글자 “海”에 대응하여 숫자 1이 입력되고, 일곱 번째 글자 “走”에 대응하여 숫자 7이 입력될 수 있다. 학습 데이터의 항목 y에는 각각의 글자에 대응하는 라벨이 입력될 수 있다. 예를 들어, /S가 태그된 글자 “海”에는 라벨 S가 입력되고, <START>가 태그된 글자 “走”에는 라벨 ST가 입력되고, 태그되지 않은 나머지 글자에는 라벨 N이 입력될 수 있다. 상술한 학습 데이터를 이용하여 학습을 진행하고, 번역 대상 텍스트에 표점을 입력할 수 있다. 특성 함수 및 가중치의 설정과 라벨 시퀀스의 획득은 도 4에 대한 설명과 유사한 방식으로 수행될 수 있다.

장치는 라벨 시퀀스에서 라벨 ST에 대응하는 글자를 문장의 마지막 글자로 인식하고, 해당 글자의 뒤에 마침표를 삽입할 수 있다. 장치는 라벨 시퀀스에서 라벨 S에 대응하는 글자를 어구의 마지막 글자로 인식하고, 해당 글자의 뒤에 쉼표를 삽입할 수 있다. 쉼표와 마침표가 중복되는 경우, 쉼표는 제거될 수 있다.

도 6은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 장치에 의해 수신되는 예시적인 번역 대상 텍스트의 처리 과정을 도시한다.

도 6을 참조하면, 일 실시 예에 따른 장치는 번역 대상 텍스트를 수신할 수 있다. 수신된 번역 대상 텍스트는 어구 및 문장이 구별되지 않은 상태인 텍스트이고, 예를 들어, “兵人爭入寢殿燃炬搜覓火延簾因燒諸殿”일 수 있다.

장치는 특성 함수 및 가중치를 이용하여 번역 대상 텍스트에 대응하는 라벨 시퀀스를 획득할 수 있다. 장치는 수학식 1을 이용하여 번역 대상 텍스트에 대응할 수 있는 모든 라벨 시퀀스 각각에 대한 확률을 산출할 수 있다. 예를 들어, 라벨 시퀀스 y₁, y₂, y₃ 및 y₄ 등에 대하여 확률 P(y₁|x), P(y₂|x), P(y₃|x) 및 P(y₄|x) 등을 산출할 수 있다. 장치는 수학식 2에 따라 라벨 시퀀스 중 가장 높은 확률 값 0.80에 대응하는 라벨 시퀀스 y₁(S N N N N N S N N N S N N N S N N E)을 획득할 수 있다. 라벨 시퀀스는 어구를 식별하기 위한 라벨 S 및 문장을 식별하기 위한 라벨 E를 포함할 수 있다.

장치는 라벨 시퀀스 y₁에 대응하도록 번역 대상 텍스트에 문장 부호를 삽입할 수 있다. 예를 들어, 라벨 시퀀스 y₁에 포함된 라벨 S에 대응하는 글자 “兵”, “燃”, “火” 및 “因” 앞에 쉼표를 삽입하고, 라벨 E에 대응하는 글자 “殿” 뒤에 마침표를 삽입할 수 있다. 장치는 문장 부호를 삽입한 출력 텍스트 “兵人爭入寢殿, 燃炬搜覓, 火延簾, 因燒諸殿。”을 제공할 수 있다.

특성 함수를 이용하여 어구를 식별하는 라벨 및 문장을 식별하는 라벨을 포함하는 라벨 시퀀스를 획득함으로써, 띄어쓰기 및 문장 부호를 포함하지 않는 고전 한자 문헌에서 어구를 식별하기 위한 문장 부호 및 문장을 구별하기 위한 문장 부호를 동시에 처리할 수 있다. 특히, 일정한 종결 어미 및 조사를 갖는 우리말에 비해 문장의 종결 및 어구의 분리를 판단하기 어려운 한자로 이루어진 텍스트에서 그 효과는 증대될 수 있다.

도 7은 일 실시 예에 따른 한자 문헌의 문장 및 어구 식별 방법을 설명하기 위한 흐름도이다.

이하에서는 도 2의 서버(200)가 도 7의 프로세스를 수행하는 것을 가정한다. 또한, 도 7의 설명에서, 서버(200)에 의해 수행되는 것으로 기술된 동작은 프로세서(230)에 의해 제어되는 것으로 이해될 수 있다.

도 7을 참조하면, 단계 710에서, 서버는 문장 및 어구를 구별하는 미리 입력된 태그를 포함하는 입력 텍스트를 수신할 수 있다. 예를 들어, 서버는 사용자에 의해 문장을 구별하는 태그 및 어구를 구별하는 태그가 삽입된 입력 텍스트를 외부로부터 다양한 인터페이스를 통해 수신할 수 있다.

단계 720에서, 서버는 입력 텍스트에 포함된 글자 각각에 대한 특성 함수를 결정할 수 있다. 예를 들어, 서버는 복수의 종류의 특성 함수를 설정할 수 있고, 입력 텍스트에 포함된 글자 각각에 대해 복수의 종류의 특성 함수 각각의 리턴 값을 설정할 수 있다.

단계 730에서, 서버는 번역 대상 텍스트를 수신할 수 있다. 예를 들어, 서버는 띄어쓰기 및 문장 부호 등을 포함하지 않는 한자로 이루어진 번역 대상 텍스트를 외부로부터 다양한 인터페이스를 통해 수신할 수 있다.

단계 740에서, 서버는 특성 함수를 이용하여 번역 대상 텍스트에 포함된 글자 시퀀스에 대한 문장 및 어구를 구별하는 복수의 라벨 시퀀스 각각의 출현 확률을 산출할 수 있다. 예를 들어, 서버는 번역 대상 텍스트에 포함된 글자 시퀀스를 단계 720에서 설정된 특성 함수에 입력하고, 단계 720에서 설정된 리턴 값을 이용하여 글자 시퀀스에 대응할 수 있는 모든 라벨 시퀀스 각각의 출현 확률을 산출할 수 있다.

단계 750에서, 서버는 출현 확률에 기초하여 복수의 라벨 시퀀스 중 글자 시퀀스에 대응하는 라벨 시퀀스를 획득할 수 있다. 예를 들어, 서버는 출현 확률이 가장 높은 라벨 시퀀스를 획득할 수 있다.

단계 760에서, 서버는 라벨 시퀀스에 기초하여 번역 대상 텍스트에 문장 및 어구를 구별하는 문장 부호를 삽입할 수 있다. 예를 들어, 서버는 라벨 시퀀스에서 문장의 분리를 나타내는 라벨 및 어구의 분리를 나타내는 라벨에 기초하여 해당 라벨에 대응하는 글자의 앞 또는 뒤에 문장 부호를 삽입할 수 있다. 번역 대상 텍스트에 문장 부호가 삽입된 결과 텍스트는 다양한 인터페이스를 통해 외부로 제공될 수 있다.

본 문서의 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤 구성요소가 다른 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소를 통하여 연결될 수 있다.

본 문서에서, "~하도록 설정된(adapted to or configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 설정된 (또는 구성된) 프로세서"는 해당 동작들을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU)를 의미할 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어(firmware)로 구성된 유닛(unit)을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다.

일 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다.

일 실시 예에 따른 구성 요소(예: 모듈 또는 프로그램 모듈) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소를 더 포함할 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램 모듈)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 일 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims

한자 문헌의 문장 및 어구 식별 장치에 있어서,
외부와 통신하도록 구성된 통신 회로;
메모리; 및
상기 통신 회로 및 상기 메모리와 전기적으로 연결된 프로세서를 포함하고,
상기 프로세서는,
상기 통신 회로를 이용하여 문장 및 어구를 구별하는 미리 입력된 태그를 포함하는 입력 텍스트를 수신하고, - 상기 미리 입력된 태그는 상기 문장의 시작 또는 종결을 나타내는 태그 및 상기 어구의 시작 또는 종결을 나타내는 태그를 포함함 -
상기 입력 텍스트에 포함된 글자 각각에 대한 특성 함수를 결정하고,
MLE(maximum likelihood estimation)을 이용한 반복 계산을 통해 상기 특성 함수에 대한 가중치를 산출하고,
상기 통신 회로를 이용하여 번역 대상 텍스트를 수신하고,
상기 특성 함수 및 상기 가중치를 이용하여 상기 번역 대상 텍스트에 포함된 글자 시퀀스에 대한 상기 문장 및 상기 어구를 구별하는 복수의 라벨 시퀀스 각각의 출현 확률을 산출하고,
상기 출현 확률에 기초하여 상기 복수의 라벨 시퀀스 중 상기 글자 시퀀스에 대응하는 라벨 시퀀스를 획득하고,
상기 라벨 시퀀스에 기초하여 상기 번역 대상 텍스트에 상기 문장 및 상기 어구를 구별하는 문장 부호를 삽입하고,
상기 통신 회로를 이용하여 상기 번역 대상 텍스트 및 상기 문장 부호를 포함하는 결과 텍스트를 제공하고,
상기 특성 함수는 상기 입력 텍스트에 포함된 특정 글자, 상기 특정 글자의 위치, 상기 특정 글자에 대응하는 라벨, 및 상기 특정 글자에 이웃하는 다른 글자에 대응하는 라벨을 입력 값으로서 포함하고, 논리 값 0 또는 1을 반환하도록 설정되고,
상기 프로세서는,
상기 미리 입력된 태그 및 상기 입력 텍스트에 포함된 글자에 기초하여 상기 문장 및 상기 어구를 구별하는 상기 입력 텍스트에 포함된 글자 각각에 대한 라벨을 포함하는 학습 데이터를 생성하고, - 상기 학습 데이터는 상기 입력 텍스트에 포함된 글자, 상기 입력 텍스트에 포함된 글자 각각에 대응하는 라벨 및 상기 입력 텍스트에 포함된 글자 각각의 위치를 나타내는 인덱스를 포함하는 테이블로 구성됨 -
상기 학습 데이터에 기초하여 상기 입력 텍스트에 포함된 글자 각각에 대해 복수의 특성 함수 및 상기 복수의 특성 함수 각각에 대한 리턴 값을 설정하고,
상기 복수의 특성 함수 각각에 상이한 가중치를 부여하고,
상기 번역 대상 텍스트에 포함된 글자 시퀀스를 상기 복수의 특성 함수에 입력함으로써, 상기 복수의 특성 함수의 리턴 값 및 상기 가중치에 기초하여 CRF(conditional random field)에 따라 상기 출현 확률을 산출하고,
상기 CRF에 따라 상기 라벨 시퀀스를 획득하고,
상기 라벨 시퀀스는 상기 복수의 라벨 시퀀스 중 상기 글자 시퀀스에 대한 상기 출현 확률이 가장 높은 시퀀스인 것을 특징으로 하는, 장치.
제 1 항에 있어서,
상기 미리 입력된 태그는 상기 입력 텍스트에 포함된 상기 어구의 첫 글자 및 상기 문장의 마지막 글자와 이웃하게 배치되고,
상기 프로세서는,
상기 번역 대상 텍스트에서 상기 어구를 구별하는 라벨에 대응하는 글자 앞에 쉼표를 삽입하고, 상기 문장을 구별하는 라벨에 대응하는 글자 뒤에 마침표를 삽입하는 것을 특징으로 하는, 장치.
제 1 항에 있어서,
상기 미리 입력된 태그는 상기 입력 텍스트에 포함된 상기 어구의 마지막 글자 및 상기 문장의 마지막 글자와 이웃하게 배치되고,
상기 프로세서는,
상기 번역 대상 텍스트에서 상기 어구를 구별하는 라벨에 대응하는 글자 뒤에 쉼표를 삽입하고, 상기 문장을 구별하는 라벨에 대응하는 글자 뒤에 마침표를 삽입하는 것을 특징으로 하는, 장치.
삭제
삭제
삭제
삭제
삭제
삭제
컴퓨팅 디바이스에 포함된 프로세서에 의해 수행되는 한자 문헌의 문장 및 어구 식별 방법에 있어서,
문장 및 어구를 구별하는 미리 입력된 태그를 포함하는 입력 텍스트를 수신하는 단계; - 상기 미리 입력된 태그는 상기 문장의 시작 또는 종결을 나타내는 태그 및 상기 어구의 시작 또는 종결을 나타내는 태그를 포함함 -
상기 입력 텍스트에 포함된 글자 각각에 대한 특성 함수를 결정하는 단계;
MLE(maximum likelihood estimation)을 이용한 반복 계산을 통해 상기 특성 함수에 대한 가중치를 산출하는 단계;
번역 대상 텍스트를 수신하는 단계;
상기 특성 함수 및 상기 가중치를 이용하여 상기 번역 대상 텍스트에 포함된 글자 시퀀스에 대한 상기 문장 및 상기 어구를 구별하는 복수의 라벨 시퀀스 각각의 출현 확률을 산출하는 단계;
상기 출현 확률에 기초하여 상기 복수의 라벨 시퀀스 중 상기 글자 시퀀스에 대응하는 라벨 시퀀스를 획득하는 단계;
상기 라벨 시퀀스에 기초하여 상기 번역 대상 텍스트에 상기 문장 및 상기 어구를 구별하는 문장 부호를 삽입하는 단계; 및
상기 번역 대상 텍스트 및 상기 문장 부호를 포함하는 결과 텍스트를 제공하는 단계를 포함하고,
상기 특성 함수는 상기 입력 텍스트에 포함된 특정 글자, 상기 특정 글자의 위치, 상기 특정 글자에 대응하는 라벨, 및 상기 특정 글자에 이웃하는 다른 글자에 대응하는 라벨을 입력 값으로서 포함하고, 논리 값 0 또는 1을 반환하도록 설정되고,
상기 특성 함수를 결정하는 단계는,
상기 미리 입력된 태그 및 상기 입력 텍스트에 포함된 글자에 기초하여 상기 문장 및 상기 어구를 구별하는 상기 입력 텍스트에 포함된 글자 각각에 대한 라벨을 포함하는 학습 데이터를 생성하는 단계; 및 - 상기 학습 데이터는 상기 입력 텍스트에 포함된 글자, 상기 입력 텍스트에 포함된 글자 각각에 대응하는 라벨 및 상기 입력 텍스트에 포함된 글자 각각의 위치를 나타내는 인덱스를 포함하는 테이블로 구성됨 -
상기 학습 데이터에 기초하여 상기 입력 텍스트에 포함된 글자 각각에 대해 복수의 특성 함수 및 상기 복수의 특성 함수 각각에 대한 리턴 값을 설정하는 단계를 포함하고,
상기 가중치를 산출하는 단계는,
상기 복수의 특성 함수 각각에 상이한 가중치를 부여하는 단계를 포함하고,
상기 출현 확률을 산출하는 단계는,
상기 번역 대상 텍스트에 포함된 글자 시퀀스를 상기 복수의 특성 함수에 입력함으로써, 상기 복수의 특성 함수의 리턴 값 및 상기 가중치에 기초하여 CRF에 따라 상기 출현 확률을 산출하는 단계를 포함하고,
상기 라벨 시퀀스를 획득하는 단계는,
상기 CRF에 따라 상기 라벨 시퀀스를 획득하는 단계를 포함하고,
상기 라벨 시퀀스는 상기 복수의 라벨 시퀀스 중 상기 글자 시퀀스에 대한 상기 출현 확률이 가장 높은 시퀀스인 것을 특징으로 하는, 방법.