KR101638442B1 - 중국어 구문 분절 방법 및 장치 - Google Patents

중국어 구문 분절 방법 및 장치 Download PDF

Info

Publication number
KR101638442B1
KR101638442B1 KR1020090113923A KR20090113923A KR101638442B1 KR 101638442 B1 KR101638442 B1 KR 101638442B1 KR 1020090113923 A KR1020090113923 A KR 1020090113923A KR 20090113923 A KR20090113923 A KR 20090113923A KR 101638442 B1 KR101638442 B1 KR 101638442B1
Authority
KR
South Korea
Prior art keywords
chinese
sentence
segmentation
syntax
segment
Prior art date
Application number
KR1020090113923A
Other languages
English (en)
Other versions
KR20110057495A (ko
Inventor
김운
권오욱
오영순
최승권
이기영
노윤형
김창현
양성일
서영애
황금하
박은진
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090113923A priority Critical patent/KR101638442B1/ko
Publication of KR20110057495A publication Critical patent/KR20110057495A/ko
Application granted granted Critical
Publication of KR101638442B1 publication Critical patent/KR101638442B1/ko

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

구문 규칙 기반의 구문 분석에서 구문 분석의 성능과 정확도를 높이기 위해 구문 분절을 수행하는 것은 영어, 한국어 등 언어의 구문 분석 모듈에서도 사용되고 있으나, 중국어는 고립어로서 굴절 현상이 없고, 단어 사의에 띄어쓰기를 하지 않아 단어의 경계가 모호한 특징을 가지고 있다. 대신, 중국어 문장 중에는 문장 기호를 빈번하게 사용하며, 중국어 문장만이 지니고 있는 문맥 특징이 있다. 본 발명에서는, 중국어 문장 기호, 특정 어휘, 문장의 길이, 단어의 품사 등 중국어 문맥 정보를 이용하여 구문 분절을 수행함으로써, 구문 규칙 기반의 중국어 구문 분석 성능을 높이고 분석 정확도를 향상시킬 수 있는 중국어 문맥정보를 이용한 중국어 구문 분절 기술을 제안하고자 한다.
구문 분절, 문장 분할, 중국어, 구문 분석

Description

중국어 구문 분절 방법 및 장치{METHOD AND APPARATUS FOR SEGMENTING CHINESE SENTENCE}
본 발명은 중국어 자연언어 처리 분야에서의 구문 분석(parsing)에 관한 것으로서, 특히 중국어 입력 문장의 문맥 정보(contextual features)를 이용하여 중국어의 구문 분석 성능을 높이고 분석 정확도를 향상시키는데 적합한 중국어 구문 분절(segmenting) 방법 및 장치에 관한 것이다.
본 발명은 지식경제부의 국가연구개발사업의 일환으로 수행한 연구로부터 도출된 것이다[2009-S-034-01, 한중영 대화체 및 기업문서 자동번역 기술개발].
구문 분절(sentence segment)이란 문장 분할이라고도 부르는데, 자연어 처리 분야에서 구문 규칙 기반의 구문 분석 성능을 향상시키기 위해 문장을 여러 개의 작고 독립적인 부분으로 나누는 것을 말한다. 이렇게 여러 개로 나누어진 부분은 하나의 구(Clausal), 절(Phrase) 또는 단어가 된다. 구문 분절에 있어서 가장 중요한 원칙은 분절 전후 구문 분석으로 인한 문장의 의미가 변해서는 안 된다는 점이다.
구문 규칙 기반의 구문 분석에서 구문 분석 성능과 정확도를 높이기 위해 구문 분절을 수행하는 것은 영어, 한국어 등 언어의 구문 분석 모듈에서도 사용되고 있다. 하지만, 중국어는 고립어로서 굴절 현상이 없고, 단어 사의에 띄어쓰기를 하지 않아 단어의 경계가 모호한 특징을 가지고 있다. 대신, 중국어 문장 중에는 문장 기호를 빈번하게 사용하며, 중국어 문장만이 지니고 있는 문맥 특징이 있다.
종래 구문 분절 방법으로는 크게 쉼표를 이용한 중국어 장문 분할 방법과 한국어, 영어와 같은 언어의 구문 분석에서 분절하는 방법 두 가지 방법으로 나눈다. 상기 두 가지 방법으로부터 문제점을 분석해 보면 다음과 같다.
첫째, 종래의 기술로서, 쉼표를 이용한 중국어 장문 분할 방법은 중국어에서 쉼표 즉, 콤마(comma)의 사용이 빈번한 특징을 이용하여 콤마 기반의 자동분류 방법을 제안하였다. 이 방법에서는 콤마 주변의 문맥(부사, 전치사, 조사, 동사 등)을 자질로 사용하여 통계적 모델인 SVM(Support Vector Machine)을 이용하여 분절하였다.
둘째, 한국어, 영어와 같은 언어의 구문 분석에서 구문 분석의 복잡도와 정확률을 높이기 위해 구문 분절을 수행한다. 구문 분절이 목적은 주로 복잡하거나 모호성이 강한 문장을 여러 작은 문장으로 분할하는 것이다. 하지만, 한국어와 영어는 어미 사용이 빈번하며, 중국어와 같이 문장 부호를 많이 사용하지 않는다. 따라서, 문장 분절 방법에서는 주로 콤마(comma)나 접속사와 같은 연결어를 이용한다.
본 발명은 이러한 종래의 상황을 감안한 것으로, 중국어 문장 기호, 특정 어휘, 문장의 길이, 단어의 품사 등 중국어 문맥 정보를 이용하여 구문 분절을 수행함으로써, 구문 규칙 기반의 중국어 구문 분석 성능 및 구문 분석 정확도를 높일 수 있는 중국어 문맥정보를 이용한 중국어 구문 분절 기술을 제안하고자 한다.
본 발명의 과제를 해결하기 위한 중국어 구문 분절 방법에 따르면, 입력되는 중국어 문장에 대하여, 분절 가능한 분절 위치를 추정하는 과정과, 추정되는 상기 분절 위치를 기반으로 상기 중국어 문장 중에 포함되어 있는 정보를 추출하여 패턴 기반의 구문 분절을 수행하는 과정을 포함할 수 있다.
여기서, 상기 중국어 구문 분절 방법은, 상기 중국어 문장에 대해 분절에 필요한 파라미터를 설정하는 과정을 더 포함할 수 있다.
또한, 상기 파라미터는, 상기 중국어 문장의 도메인 정보에 따라 설정될 수 있다.
또한, 상기 구문 분절을 수행하는 과정은, 설정되는 상기 도메인 정보의 단위로 분절 길이를 상이하게 설정하는 과정일 수 있다.
또한, 상기 중국어 문장 중에 포함되어 있는 정보는, 특정 품사, 특정 어휘, 문장 기호, 문장 길이 중 적어도 하나의 정보일 수 있다.
또한, 상기 구문 분절을 수행하는 과정은, 상기 중국어 문장의 문장 끝 기호를 이용하여 분절하는 과정과, 추정되는 상기 분절 위치가 특수 분절 패턴에 속하면 상기 중국어 문장을 특수 패턴 분절하는 과정과, 추정되는 상기 분절 위치가 문두 패턴에 속하면 상기 중국어 문장을 문두 어휘 사전을 이용하여 분절하는 과정과, 추정되는 상기 분절 위치가 절 또는 구 기반 패턴에 속하면 상기 중국어 문장을 쉼표에 의해 분절하는 과정을 포함할 수 있다.
또한, 상기 문장 끝 기호는, 엔드마크(。), 감탄표(!), 물음표(?), 줄임표(....), 세미콜론(;), 상기 감탄표(!) 다음에 닫는 인용표(”) 중 어느 하나일 수 있다.
또한, 상기 중국어 문장은, 형태소 분석된 중국어 문장일 수 있다.
본 발명의 과제를 해결하기 위한 중국어 구문 분절 장치에 따르면, 형태소 분석된 중국어 문장에 대해 분절에 필요한 파라미터를 설정하는 분절 파라미터 설정부와, 상기 분절 파라미터 설정부에 의해 파라미터 설정된 중국어 문장에 대하여, 분절 가능한 위치와 최대 분절 개수를 추정하는 분절 위치 추정부와, 상기 분절 위치 추정부를 통해 추정된 분절 위치와, 파라미터 설정된 상기 중국어 문장으로부터 추출한 정보를 이용하여 패턴 기반의 분절을 수행하는 분절 수행부를 포함할 수 있다.
여기서, 상기 분절 파라미터 설정부는, 상기 분절 위치에서의 중국어 단어 개수가 기 설정되어 있는 도메인 별 값으로 변경할 수 있다.
본 발명에 의하면, 중국어 문장 기호, 특정 어휘, 문장의 길이, 단어의 품사 등 중국어 문맥 정보를 이용하여 구문 분절을 수행함으로써, 구문 규칙 기반의 중국어 구문 분석 성능 및 구문 분석 정확도를 높일 수 있다.
본 발명은 구문 규칙 기반의 중국어 구문 분석의 성능과 정확률 향상을 위해 중국어 문장 기호, 특정 어휘, 문장의 길이, 단어의 품사 정보 등 중국어 문장에 존재하고 있는 문맥 정보를 이용한 구문 분절 방법을 제공한다.
본 발명에서는 형태소 분석을 거친 중국어 문장에 대하여 중국어의 다양한 문장 기호(쉼표, 괄호, 의문표 등), 품사, 특정 어휘 등을 이용하여 구문 분절 패턴에 기반한 분절을 수행하고, 입력 문장 도메인 별 분절 길이를 조절하는 것을 특징으로 한다.
본 발명에서는 콤마뿐만 아니라, 중국어의 모든 문장 기호를 대상으로 한 분절 방법을 사용하였으며, 주변 문맥에서도 단어의 품사 정보뿐만 아니라 특정 어휘를 사용하고, 특수 패턴에 의한 분절 방법을 사용한 것을 특징으로 한다.
본 발명에서는 중국어 문장에 대한 구문 분절 방법에 관한 것이며, 중국어 문장 중 단어 사이의 띄어쓰기와 어미 굴절 대신 여러 가지 문장 기호를 많이 사용하는 점을 감안하여, 문장 기호 기반의 구문 분절과 특정 어휘, 도메인에 따른 분절 길이 조절, 문두 분절에 따른 구문 분절 방법을 사용한 것을 특징으로 한다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예에 대해 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 구문 정보를 이용한 중국어 구문 분절 장치에 대한 구성을 예시적으로 나타낸 블록도로서, 분절 파라미터(parameter) 설정부(100), 분절 위치 추정부(102), 분절 수행부(104) 등을 포함할 수 있다.
도 1에 예시한 바와 같이, 분절 파라미터 설정부(100)는 형태소 분석된 중국어 문장에 대해 분절에 필요한 파라미터를 설정하는 역할을 할 수 있다. 파라미터 설정은 분할 위치에서의 중국어 단어 개수가 미리 설정되어 있는 도메인 별 값으로 바꿔주는 과정을 말한다. 만일, 입력된 중국어 문장의 도메인 정보가 구어체이면, 파라미터 값을 실험에 의해 정해진 구어체 값으로 설정하고, 입력된 중국어 문장이 뉴스이면, 파라미터 값을 뉴스 도메인 값으로 설정할 수 있다. 또한, 입력된 중국어 문장의 도메인 정보를 모를 경우, 디폴트(default) 파라미터 값으로 설정할 수 있다.
분절 위치 추정부(102)는 분절 파라미터 설정부(100)에 의해 파라미터 설정된 중국어 문장에 대하여, 분절 가능한 모든 위치와 최대 분절 개수를 추정하는 역할을 할 수 있다. 또한, 분절 위치 추정부(102)는 입력된 중국어 문장 중에 포함되어 있는 정보들, 예컨대 특정 품사, 특정 어휘, 문장 기호, 문장 길이 등의 정보를 추출할 수 있다.
분절 수행부(104)는 분절 위치 추정부(102)를 통해 추정된 분절 위치와, 파라미터 설정된 중국어 문장으로부터 추출한 정보를 이용하여 패턴 기반의 분절을 수행하는 역할을 할 수 있다. 만일, 모든 패턴에 부합되지 않으면 이 분절 위치는 분절하지 않으며, 하나의 패턴이라도 부합되면 분절하게 된다. 또한, 분절된 토큰은 최종 자료 구조에 저장되어 출력될 수 있다.
이하, 상술한 구성과 함께, 본 발명의 실시예에 따른 중국어 구문 분절 과정을 첨부한 도 2의 흐름도를 참조하여 구체적으로 설명하기로 한다.
도 2에 도시한 바와 같이, 단계(S200)는 문장 끝 기호를 분절하는 과정으로서, 문장 끝 기호가 있으면 분절을 수행할 수 있다. 이때, 사용되는 문장 끝 기호에는, 예컨대 엔드마크( 。), 감탄표( ! ),물음표( ? ), 줄임표( .... ), 세미콜론( ; ), ( ― ), ( ~ ~ )와 이런 기호와 조합하여 닫는 인용표( " )이다. 예를 들어, 감탄표거나 감탄표 다음에 닫는 인용표이면 분절하게 된다.
이후, 추정된 분절 위치가 특수 분절 패턴에 속할 경우에는(S202), 특수 패턴 분절 과정을 수행할 수 있다(S204). 특수 분절에는 다음과 같은 패턴들이 존재할 수 있다.
첫째, 열림 괄호( ( ), 열림 인용표( " )면서 이런 기호가 마지막까지 닫힘 기호가 없거나, 대응되는 닫힘 기호가 문장의 마지막일 경우 분절할 수 있다.
둘째, 숫자(한자 숫자 포함(예를 들면, "一"))로 시작하면서 바로 뒤에 포즈마크(pause mark)( 、)를 사용한 경우 분절할 수 있다. 이러한 패턴은 중국어 문장에서 주로 장(chapter)과 절을 나타낼 때 사용한다. 하지만, 포즈마크는 중국어에서 병렬 문에서 주로 사용하는 문장 기호로 문두에서 사용하는 것은 특수 분절 처리가 필요하다.
셋째, 문장의 마지막에 나오면서 바로 앞에 문장 기호가 없는 특수 어휘 일 때 분절할 수 있다. 예를 들면, "
Figure 112009072157702-pat00001
(그렇습니까)", "
Figure 112009072157702-pat00002
(맞습니까)", "
Figure 112009072157702-pat00003
(감사합니다)" 등 표현과 숙어, 속담 등이 이에 속한다.
이후, 추정한 분절 위치가 문두 패턴에 속할 경우(S206), 문두 분절을 수행할 수 있는데, 예컨대 추정한 분절 위치가 문두 패턴에 속하면 문두 어휘 사전을 이용하여 분절할 수 있다(S208). 문두 어휘는 주로 중국어 뉴스 문장 작성 시 "주어 술어 …" 형태로서, 예를 들면, "
Figure 112009072157702-pat00004
。(그가 강조하기를 도시의 발전은 농촌을 제외할 수 없다.)"이다. 이 외에도 "
Figure 112009072157702-pat00005
(보도)", "
Figure 112009072157702-pat00006
(전)", "
Figure 112009072157702-pat00007
(소식)" 등 단어가 문두에 나타나거나 세미콜론(":")이 뒤에 따르는 패턴도 분절할 수 있다.
이후, 단계(S210) 및 단계(212)에서는 일반적인 절 또는 구 기반 분절을 수행할 수 있다. 절 또는 구 기반 분절 과정에서는 주로 쉼표(",")에 의해 분절을 하게 되는데, 이때, 분절할 위치의 좌측 토큰에는 다음과 같은 분절 조건을 만족할 필요가 있다.
우선, 적어도 하나의 일반 동사, 형용사, 계동사, 보조 동사, 존재 동사가 있어야 하며, 분절 파라미터 설정부(100)에서 설정한 분절 가능한 단어 개수를 만족해야 하고, 열린 괄호, 열린 인용기호가 없어야 한다.
이상 설명한 바와 같이, 본 실시예에서는, 형태소 분석을 거친 중국어 문장 에 대하여 중국어의 다양한 문장 기호(쉼표, 괄호, 의문표 등), 품사, 특정 어휘 등을 이용하여 구문 분절 패턴에 기반한 분절을 수행하고, 입력 문장 도메인 별 분절 길이를 조절함으로써, 구문 규칙 기반의 중국어 구문 분석 성능 및 구문 분석 정확도를 높일 수 있게 구현한 것이다.
도 1은 본 발명의 실시예에 따른 중국어 구문 정보를 이용한 중국어 구문 분절 장치의 구성 블록도,
도 2는 본 발명의 실시예에 따른 중국어 구문 정보를 이용한 중국어 구문 분절 과정의 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 분절 파라미터 설정부
102 : 분절 위치 추정부
104 : 분절 수행부

Claims (9)

  1. 입력되는 중국어 문장에 대하여, 문장의 도메인 정보에 따라 분절 파라미터 설정부가 분절에 필요한 파라미터를 설정하는 과정과,
    상기 분절 파라미터 설정부에 의해 파라미터 설정된 중국어 문장에 대하여, 분절 위치 추정부가 분절 가능한 분절 위치를 추정하는 과정과,
    상기 분절 위치 추정부를 통해 추정되는 상기 분절 위치를 기반으로 상기 중국어 문장 중에 포함되어 있는 정보를 추출하여 패턴 기반의 구문 분절을 분절 수행부를 통해 수행하는 과정을 포함하는
    중국어 구문 분절 장치의 중국어 구문 분절 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 구문 분절을 수행하는 과정은, 설정되는 상기 도메인 정보의 단위로 분절 길이를 상이하게 설정하는 과정인
    중국어 구문 분절 장치의 중국어 구문 분절 방법.
  5. 제 1 항에 있어서,
    상기 중국어 문장 중에 포함되어 있는 정보는, 특정 품사, 특정 어휘, 문장 기호, 문장 길이 중 적어도 하나의 정보인
    중국어 구문 분절 장치의 중국어 구문 분절 방법.
  6. 제 1 항에 있어서,
    상기 구문 분절을 수행하는 과정은,
    상기 중국어 문장의 문장 끝 기호를 이용하여 분절하는 과정과,
    추정되는 상기 분절 위치가 특수 분절 패턴에 속하면 상기 중국어 문장을 특수 패턴 분절하는 과정과,
    추정되는 상기 분절 위치가 문두 패턴에 속하면 상기 중국어 문장을 문두 어휘 사전을 이용하여 분절하는 과정과,
    추정되는 상기 분절 위치가 절 또는 구 기반 패턴에 속하면 상기 중국어 문장을 쉼표에 의해 분절하는 과정을 포함하는
    중국어 구문 분절 장치의 중국어 구문 분절 방법.
  7. 제 6 항에 있어서,
    상기 문장 끝 기호는, 엔드마크(。), 감탄표(!), 물음표(?), 줄임표(....), 세미콜론(;), 상기 감탄표(!) 다음에 닫는 인용표(") 중 어느 하나인
    중국어 구문 분절 장치의 중국어 구문 분절 방법.
  8. 형태소 분석된 중국어 문장에 대해 분절에 필요한 파라미터를 설정하는 분절 파라미터 설정부와,
    상기 분절 파라미터 설정부에 의해 파라미터 설정된 중국어 문장에 대하여, 분절 가능한 위치와 최대 분절 개수를 추정하는 분절 위치 추정부와,
    상기 분절 위치 추정부를 통해 추정된 분절 위치와, 파라미터 설정된 상기 중국어 문장으로부터 추출한 정보를 이용하여 패턴 기반의 분절을 수행하는 분절 수행부를 포함하되,
    상기 분절 파라미터 설정부는, 상기 분절 위치에서의 중국어 단어 개수가 기 설정되어 있는 도메인 별 값으로 변경하는
    중국어 구문 분절 장치.
  9. 삭제
KR1020090113923A 2009-11-24 2009-11-24 중국어 구문 분절 방법 및 장치 KR101638442B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090113923A KR101638442B1 (ko) 2009-11-24 2009-11-24 중국어 구문 분절 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090113923A KR101638442B1 (ko) 2009-11-24 2009-11-24 중국어 구문 분절 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110057495A KR20110057495A (ko) 2011-06-01
KR101638442B1 true KR101638442B1 (ko) 2016-07-12

Family

ID=44393120

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090113923A KR101638442B1 (ko) 2009-11-24 2009-11-24 중국어 구문 분절 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101638442B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102317910B1 (ko) * 2020-04-20 2021-10-26 주식회사 코난테크놀로지 중국어 형태소 분석 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008144964A1 (en) 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448474A (en) * 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008144964A1 (en) 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
K. H. Lee 외, Text Segmentation for Chinese Spell Checking, Journal of the American Society for Information Science, 50(9), pp.751-759, 1999.*

Also Published As

Publication number Publication date
KR20110057495A (ko) 2011-06-01

Similar Documents

Publication Publication Date Title
US9798720B2 (en) Hybrid machine translation
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
US20140163951A1 (en) Hybrid adaptation of named entity recognition
Sawaf Arabic dialect handling in hybrid machine translation
Salloum et al. Elissa: A dialectal to standard Arabic machine translation system
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
Simionescu Hybrid pos tagger
Mager et al. Probabilistic finite-state morphological segmenter for wixarika (huichol) language
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
KR20090061158A (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
Mahata et al. Simplification of English and Bengali sentences for improving quality of machine translation
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
CA3110046A1 (en) Machine learning lexical discovery
KR101638442B1 (ko) 중국어 구문 분절 방법 및 장치
Salami et al. Phrase-boundary model for statistical machine translation
Leidig et al. Automatic detection of anglicisms for the pronunciation dictionary generation: a case study on our German IT corpus.
Sinhal et al. Machine translation approaches and design aspects
Kolachina et al. Replacing OOV words for dependency parsing with distributional semantics
Green et al. NP subject detection in verb-initial Arabic clauses
Assylbekov et al. A free/open-source hybrid morphological disambiguation tool for Kazakh
Saini et al. Relative clause based text simplification for improved english to hindi translation
Rajendran Parsing in tamil: Present state of art
Paul et al. Word segmentation for dialect translation
KR20130102926A (ko) 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치
Gavhal et al. Sentence Compression Using Natural Language Processing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant