KR20120045906A - 코퍼스 오류 교정 장치 및 그 방법 - Google Patents

코퍼스 오류 교정 장치 및 그 방법 Download PDF

Info

Publication number
KR20120045906A
KR20120045906A KR1020100107785A KR20100107785A KR20120045906A KR 20120045906 A KR20120045906 A KR 20120045906A KR 1020100107785 A KR1020100107785 A KR 1020100107785A KR 20100107785 A KR20100107785 A KR 20100107785A KR 20120045906 A KR20120045906 A KR 20120045906A
Authority
KR
South Korea
Prior art keywords
corpus
vocabulary
domain
morpheme
unit
Prior art date
Application number
KR1020100107785A
Other languages
English (en)
Inventor
정의석
전형배
김종진
박전규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100107785A priority Critical patent/KR20120045906A/ko
Publication of KR20120045906A publication Critical patent/KR20120045906A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

코퍼스 오류 교정의 결과 및 형태소 분석의 결과를 함께 출력할 수 있는 코퍼스 오류 교정 기술이 개시된다. 본 발명에 따른 코퍼스 오류 교정 장치는 사용자에 의하여 입력되는 코퍼스를 코퍼스의 분야에 대응하는 분야의 도메인 어휘 데이터를 바탕으로, 코퍼스의 도메인 어휘를 분석하는 도메인 어휘 반영부; 기 입력된 형태소 어휘 데이터를 바탕으로, 도메인 어휘 반영부에 의하여 도메인 어휘가 분석된 코퍼스의 형태소를 분석하는 형태소 어휘 분석 및 반영부; 및 기 입력된 언어 모델을 바탕으로, 형태소 어휘 분석 및 반영부에 의하여 형태소별로 분석된 코퍼스의 띄어쓰기 오류를 교정하는 오류 교정부를 포함한다. 따라서, 본 발명에 따른 코퍼스 오류 교정 장치는 코퍼스 정제의 정확성을 높일 수 있으며, 신조어 즉, 새롭게 반영되는 어휘에 대한 띄어쓰기 오류 교정 및 형태소 분석을 가능하게 할 수 있다.

Description

코퍼스 오류 교정 장치 및 그 방법{Apparatus and method for correcting error of corpus}
본 발명은 코퍼스 오류 교정 장치 및 그 방법에 관한 것이다. 특히, 본 발명은 코퍼스 오류 교정의 결과 및 형태소 분석의 결과를 함께 출력할 수 있는 코퍼스 오류 교정 장치 및 그 방법에 관한 것이다.
컴퓨터의 대중화와 문서 편집 프로그램의 보급으로 컴퓨터를 이용한 문서의 작성이 증가하고 있다.
사용자에 의한 컴퓨터를 이용한 문서의 작성 즉, 사용자에 의한 문자, 기호 등의 입력은 다량의 오타나 문법적 오류를 포함하고 있다. 특히, 음성 인식에 의한 문자 입력, 혹은 블로그, 트위터, 지식 공유 게시판 등을 포함하는 대용량의 대화체 코퍼스(Corpus)는 기술적인 문제 혹은, 사용자의 입력 실수, 편의에 의한 문법의 무시에 의하여 다량의 문법적 오류를 포함하고 있다.
상기한 과제를 해결하기 위한 본 발명의 목적은, 대상 코퍼스의 오류 교정의 결과 및 형태소 분석의 결과를 함께 출력할 수 있는 것을 목적으로 한다. 즉, 본 발명은 음성 인식기의 언어 모델 구축을 위해 수집된 코퍼스의 문법적 오류 특히, 띄어쓰기 오류를 교정하는 것을 목적으로 한다.
또한, 본 발명은 교정 대상 코퍼스와 관련해 수집된 도메인 어휘를 통하여 오류 교정 작업 및 형태소 분석을 함으로써, 신조어 즉, 새롭게 반영되는 어휘에 대한 오류 교정 및 형태소 분석을 가능하게 하는 것을 목적으로 한다.
또한, 본 발명은 실제 교정할 코퍼스의 정보와 독립된 형태소 어휘 데이터베이스를 구축하고, 이를 통하여 코퍼스를 정제함으로써 코퍼스 정제의 정확성을 더욱 높이는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따른 차량 코퍼스 오류 교정 장치는 사용자에 의하여 입력되는 코퍼스를 상기 코퍼스의 분야에 대응하는 분야의 도메인 어휘 데이터를 바탕으로, 상기 코퍼스의 도메인 어휘를 분석하는 도메인 어휘 반영부; 기 입력된 형태소 어휘 데이터를 바탕으로, 상기 도메인 어휘 반영부에 의하여 도메인 어휘가 분석된 상기 코퍼스의 형태소를 분석하는 형태소 어휘 분석 및 반영부; 및 기 입력된 언어 모델을 바탕으로, 상기 형태소 어휘 분석 및 반영부에 의하여 형태소별로 분석된 상기 코퍼스의 띄어쓰기 오류를 교정하는 오류 교정부를 포함한다.
본 발명에 따르면, 교정 대상 코퍼스의 오류 교정의 결과 및 형태소 분석의 결과를 함께 출력할 수 있다. 즉, 본 발명은 음성 인식기의 언어 모델 구축을 위해 수집된 코퍼스의 문법적 오류 특히, 띄어쓰기 오류를 교정할 수 있다.
또한, 본 발명은 교정 대상 코퍼스와 관련하여 수집된 도메인 어휘를 통해 오류 교정 작업 및 형태소 분석을 함으로써, 신조어 즉, 새롭게 반영되는 어휘에 대한 오류 교정 및 형태소 분석을 가능하게 할 수 있다.
또한, 본 발명은 실제 교정할 코퍼스의 정보와 독립된 형태소 어휘 데이터베이스를 구축하고, 이를 통하여 코퍼스를 정제함으로써 코퍼스 정제의 정확성을 더욱 높일 수 있다.
도 1은 본 발명에 따른 코퍼스 오류 교정 장치를 간략히 도시한 블록도이다.
도 2는 본 발명에 따른 코퍼스 오류 교정 방법을 설명하기 위한 플로우챠트이다.
도 3은 본 발명에 따른 코퍼스 오류 교정 방법에 적용되는 도메인 어휘 데이터베이스의 구축 방법을 설명하기 위한 플로우챠트이다.
도 4는 본 발명에 따른 코퍼스 오류 교정 방법에 적용되는 형태소 어휘 데이터베이스 구축 방법 및 언어 모델 데이터베이스의 구축 방법을 설명하기 위한 플로우챠트이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하에서는 본 발명에 따른 코퍼스 오류 교정 장치의 구성 및 동작에 대하여 설명하도록 한다.
도 1은 본 발명에 따른 코퍼스 오류 교정 장치를 간략히 도시한 블록도이다.
도 1을 참조하면, 본 발명에 따른 코퍼스 오류 교정 장치(100)는 도메인 어휘 반영부(140), 형태소 어휘 분석 및 반영부(150) 및 오류 교정부(160)를 포함하여 구성된다. 또한, 본 발명에 따른 코퍼스 오류 교정 장치(100)는 교정 대상 코퍼스 데이터베이스(110), 문장 추출부(120), 음절 테이블 생성부(130) 및 출력부(170)를 더 포함하여 구성될 수 있다.
교정 대상 코퍼스 데이터베이스(110)는 사용자에 의하여 입력된 문자, 숫자, 기호 등의 집합체인 교정 대상 말뭉치 즉, 코퍼스(Corpus)를 저장하는 데이터베이스이다.
문장 추출부(120)는 교정 대상 코퍼스 데이터 베이스(110)에 저장된 코퍼스에 대하여, 텍스트 정제(Text normalization)를 행하여 불필요한 기호, 웹 문서의 태그 정보와 같은 노이즈를 제거시킨다. 그리고, 문장 추출부(120)는 노이즈가 제거된 코퍼스에서 오류 교정 대상 단위를 추출한다. 이 때, 오류 교정 대상 단위는 어절 단위, 문장 단위, 또는 단락 단위 중의 하나일 수 있다. 이러한 오류 교정 대상 단위는 기계적으로 텍스트를 구성하는 코드 체계에서 행 제어 문자 코드에 따라 결정될 수도 있다. 다시 말해, 오류 교정 대상 단위는 마침표 등과 같은 심볼(예를 들어, 마침표(.), 물음표(?), 느낌표(!))이나, 서술어(예를 들어, '했다', '했습니까', '습니다' 등)의 검출로, 문장 끝점을 찾아 추출될 수 있다. 문장 추출부(120)는 문장 첫 어절을 메모리 버퍼에 저장한다. 그리고, 문장 추출부(120)는 문장 첫 어절 이후의, 공백으로 분리된 다음 어절을 읽는데, 해당 다음 어절이 문장 끝점 정보를 갖고 있으면, 메모리 버퍼를 다음 단계로 전달하고, 그렇지 않은 경우에는 텍스트로부터 다음 어절을 지속적으로 읽게 된다.
음절 테이블 생성부(130)는 문장 추출부(120)에 의하여 문장 단위로 추출된 코퍼스를 음절별로 분리시킨다. 그리고, 음절 테이블 생성부(130)는 분리된 음절을 이용하여 음절 기반 테이블을 생성한다.
도메인 어휘 반영부(140)는 기 입력된 도메인 어휘를 저장하고 있는 도메인 어휘 데이터베이스(145)를 통해 교정 대상 코퍼스의 어휘를 분석한다. 이 때, 도메인 어휘 데이터베이스(145)는 교정 대상 코퍼스의 분야에 대응하는 분야의 오류를 포함하지 않는 도메인 어휘를 저장하고 있을 수 있다. 이 때, 분야는 전공, 시기, 지역 등으로 분류될 수 있다. 그리고, 도메인 어휘 데이터베이스(145)에는 지속적으로 도메인 어휘가 갱신될 수 있다. 지속적으로 저장 값이 갱신되며, 교정 대상 코퍼스의 분야와 대응되는 분야의 데이터 값을 저장하고 있는 도메인 어휘 데이터베이스(145)를 통하여 교정 대상 코퍼스의 어휘를 분석함으로써, 해당 분야에서 새롭게 반영되는 어휘 즉, 신조어에 대한 형태소 등의 분석 및 오류 교정을 가능하게 할 수 있다.
형태소 어휘 분석 및 반영부(150)는 형태소 어휘에 대한 일반적 데이터가 기 입력된 형태소 어휘 데이터베이스(155)를 이용해, 도메인 어휘 반영부(140)를 통하여 도메인 어휘 분석이 완료된 코퍼스에 대한 형태소 어휘 자질을 할당하여, 코퍼스의 형태소 어휘를 분석한다. 그리고, 형태소 어휘 분석 및 반영부(150)는 코퍼스에서 각각 나뉘어진 형태소별로 다른 상태 표지를 부가할 수 있다. 즉, 형태소 어휘 분석 및 반영부(150)는 코퍼스의 각 형태소별 종류를 표시하기 위하여 명사, 조사, 부사, 어간, 어미 등으로 각각 나누어 동일한 형태소 간에는 같은 상태 표지가 부착될 수 있도록 할 수 있다.
오류 교정부(160)는 언어 모델이 기 입력된 언어 모델 데이터베이스(165)를 이용해, 도메인 어휘 반영부(140) 및 형태소 어휘 분석 및 반영부(150)를 통하여 형태소 분석이 완료된 코퍼스의 띄어쓰기 오류를 교정한다. 이 때, 언어 모델 데이터베이스(165)는 앞뒤의 형태소의 종류에 따른 띄어쓰기 및 붙여쓰기의 규칙에 대한 데이터가 저장되어 있을 수 있다. 오류 교정부(160)의 동작 알고리즘은 다음과 같다. 먼저, 오류 교정부(160)는 코퍼스를 구성하는 음절 벡터를 입력으로 받는다. 그리고, 오류 교정부(160)는 음절 벡터의 임의의 위치를 지칭하는 i 에서, 도메인 어휘 데이터베이스(145), 형태소 어휘 데이터베이스(155)를 검색하여, 음절 벡터로 조합될 수 있는 음절 시퀀스를 검출하여, 음절 벡터에 대하여 띄어쓰기를 반영한다. 그리고, 오류 교정부는 i 값을 띄어쓰기가 반영된 어휘의 길이만큼 확장하고, 대기행렬(queue)에 저장한다. 또한, 오류 교정부(160)는 대기행렬(queue)에 저장된 띄어쓰기가 반영된 i 값에 대하여, 반복하여 도메인 어휘 데이터베이스(145), 형태소 어휘 데이터베이스(155)를 검색하여, 음절 벡터로 조합될 수 있는 음절 시퀀스를 검색한다. 또한, 오류 교정부(160)는 대기행렬(queue)로부터 추출된 띄어쓰기 결과물에 대한 모든 음절 벡터를 검색하였다면, 해당 결과물에 언어 모델을 적용하여 확률 값을 구한다. 그리고, 오류 교정부(160)는 모든 띄어쓰기 경우를 고려하여, 가장 확률 값이 높은 띄어쓰기 결과물을 결과물로 출력한다.
출력부(170)는 띄어쓰기 오류가 교정되고 각각의 형태소의 분석이 완료된 코퍼스를 외부로 출력한다. 즉, 출력부(170)는 시각적 출력 장치인 디스플레이 유닛 혹은 음성적 출력 장치인 스피커로써, 오류 교정 및 형태소 분석이 완료된 코퍼스를 출력할 수 있다.
이하에서는 본 발명에 따른 코퍼스 오류 교정 방법에 대하여 설명하도록 한다.
도 2는 본 발명에 따른 코퍼스 오류 교정 방법을 설명하기 위한 플로우챠트이다. 도 3은 본 발명에 따른 코퍼스 오류 교정 방법에 적용되는 도메인 어휘 데이터베이스의 구축 방법을 설명하기 위한 플로우챠트이다. 도 4는 본 발명에 따른 코퍼스 오류 교정 방법에 적용되는 형태소 어휘 데이터베이스 구축 및 언어 모델 데이터베이스의 구축 방법을 설명하기 위한 플로우챠트이다.1
도 2를 참조하면, 본 발명에 따른 코퍼스 오류 교정 방법은 먼저, 교정 대상이 되는 코퍼스(Corpus)를 입력 받게 된다(S210).
그리고, 입력된 교정 대상 코퍼스는 문장 단위로 추출된다(S220). 이 때, 코퍼스에서 문장 단위 추출은 문장의 끝과 시작을 알 수 있는 기호 또는 문장의 끝을 나타내는 문장(예를 들어, '했다', '했습니까', '습니다' 등)을 추출함에 의하여 이루어질 수 있다.
또한, 단계(S220)에 의하여 문장 단위로 추출된 코퍼스는 음절별로 분리되고, 각각의 음절은 음절 기반 테이블로 생성된다(S230).
또한, 단계(S230)에 의하여 음절별로 분리된 코퍼스는 기 입력된 도메인 어휘를 저장하고 있는 도메인 어휘 데이터베이스를 통하여 도메인 어휘 자질이 반영된다(S240). 이 때, 도메인 어휘 데이터베이스에 저장된 도메인 어휘는 사용자에 의하여 입력된 코퍼스의 분야와 대응하는 분야의 오류를 포함하지 않는 도메인 어휘를 저장하고 있을 수 있다. 그리고, 이러한 도메인 어휘는 지속적으로 갱신되어 도메인 어휘 데이터베이스에 저장될 수 있다.
이러한, 도메인 어휘 데이터베이스의 구축 방법은 다음과 같다. 도 3과 함께 참조하면, 먼저, 사용자가 입력할 교정 대상 코퍼스의 분야에 대응되고, 오류가 정제된 대용량의 코퍼스를 입력한다(S310). 그리고, 상기 대용량의 코퍼스에 포함된 특수 기호, 심볼 등을 제거하여 코퍼스의 텍스트를 정제한다(S320). 또한, 단계(S320)를 통하여 정제된 텍스트의 어절 목록을 생성하고(S330), 해당 어절 목록을 통하여 도메인 어휘 데이터베이스를 구축한다(S340).
또한, 단계(S250)에 의하여 도메인 어휘의 자질이 반영된 코퍼스는 기 입력된 형태소간 접속 테이블을 포함하는 형태소 어휘 데이터베이스를 통하여 형태소 어휘 자질을 할당 받게 된다(S260).
또한, 단계(S260)에 의하여 형태소 단위로 분리된 코퍼스는 언어 모델을 통하여, 전체적으로 띄어쓰기 오류가 교정된다. 그리고, 띄어쓰기 오류 교정과 함께, 단계(S250) 및 단계(S260)를 통하여 분석된 형태소의 정보 즉, 코퍼스 형태소의 시퀀스에 대한 정보를 생성한다(S270).
단계(S250)와 단계(S260)의 형태소 어휘 데이터베이스의 구축 방법 및 언어 모델 데이터베이스의 구축 방법은 다음과 같다. 도 4와 함께 참조하면, 먼저, 오류가 정제된 형태소 태깅 코퍼스를 입력 받는다(S410). 그리고, 단계(S410)에 의하여 입력된 코퍼스를 표층 형태 변환한다(S420). 또한, 단계(S420)에 의하여 표층 형태 변환된 코퍼스의 형태소간 접속 정보를 추출한다(S430). 또한, 단계(S420)에 의하여 접속 정보가 추출된 코퍼스를 데이터 베이스에 저장함에 의하여 형태소 어휘 데이터베이스를 구축하게 된다(S440). 또한, 단계(S420)에 의하여 표층 형태 변환된 코퍼스는 코퍼스의 띄어쓰기 오류를 교정하기 위한 언어 모델을 저장하는 언어 모델 데이터베이스로 구축된다(S450).
이상에서와 같이 본 발명에 따른 코퍼스 오류 교정 장치 및 그 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 코퍼스 오류 교정 장치
110: 교정 대상 코퍼스 데이터베이스
120; 문장 추출부
130; 음절 테이블 생성부
140; 도메인 어휘 반영부
145; 도메인 어휘 데이터베이스
150; 형태소 어휘 분석 및 반영부
155; 형태소 어휘 데이터베이스
160; 오류 교정부
165; 언어 모델 데이터베이스
170; 출력부

Claims (1)

  1. 사용자에 의하여 입력되는 코퍼스를 상기 코퍼스의 분야에 대응하는 분야의 도메인 어휘 데이터를 바탕으로, 상기 코퍼스의 도메인 어휘를 분석하는 도메인 어휘 반영부;
    기 입력된 형태소 어휘 데이터를 바탕으로, 상기 도메인 어휘 반영부에 의하여 도메인 어휘가 분석된 상기 코퍼스의 형태소를 분석하는 형태소 어휘 분석 및 반영부; 및
    기 입력된 언어 모델을 바탕으로, 상기 형태소 어휘 분석 및 반영부에 의하여 형태소별로 분석된 상기 코퍼스의 띄어쓰기 오류를 교정하는 오류 교정부를 포함하는 것을 특징으로 하는 코퍼스 오류 교정 장치.
KR1020100107785A 2010-11-01 2010-11-01 코퍼스 오류 교정 장치 및 그 방법 KR20120045906A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100107785A KR20120045906A (ko) 2010-11-01 2010-11-01 코퍼스 오류 교정 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100107785A KR20120045906A (ko) 2010-11-01 2010-11-01 코퍼스 오류 교정 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20120045906A true KR20120045906A (ko) 2012-05-09

Family

ID=46265297

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100107785A KR20120045906A (ko) 2010-11-01 2010-11-01 코퍼스 오류 교정 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20120045906A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018088664A1 (ko) * 2016-11-10 2018-05-17 창원대학교 산학협력단 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
KR20180113849A (ko) * 2017-04-07 2018-10-17 주식회사 카카오 대량 데이터 기반 의미 오류 교정 규칙 생성 및 의미 오류 교정 방법, 이를 구현한 오류 교정 시스템
KR101949880B1 (ko) * 2017-12-19 2019-02-19 주식회사 이르테크 작문 오류 식별 및 평가 시스템
KR20220074547A (ko) * 2020-11-27 2022-06-03 주식회사 투블럭에이아이 3단계 언어 모델을 이용한 문서 인식 개선 장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018088664A1 (ko) * 2016-11-10 2018-05-17 창원대학교 산학협력단 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
US11074406B2 (en) 2016-11-10 2021-07-27 Changwon National University Industry University Cooperation Foundation Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor
KR20180113849A (ko) * 2017-04-07 2018-10-17 주식회사 카카오 대량 데이터 기반 의미 오류 교정 규칙 생성 및 의미 오류 교정 방법, 이를 구현한 오류 교정 시스템
KR101949880B1 (ko) * 2017-12-19 2019-02-19 주식회사 이르테크 작문 오류 식별 및 평가 시스템
KR20220074547A (ko) * 2020-11-27 2022-06-03 주식회사 투블럭에이아이 3단계 언어 모델을 이용한 문서 인식 개선 장치 및 방법

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
WO2014048172A1 (en) Method and system for correcting text
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US10565982B2 (en) Training data optimization in a service computing system for voice enablement of applications
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
CN110352423B (zh) 使用噪声信道模型生成目标序列的方法、存储介质和系统
US10553203B2 (en) Training data optimization for voice enablement of applications
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
JP2018206262A (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
US8977538B2 (en) Constructing and analyzing a word graph
JP2010092169A (ja) 情報処理装置及びプログラム
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
JP2006243976A (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
CN108959617B (zh) 一种语法特征的匹配方法、装置、介质和计算设备
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP7258627B2 (ja) 採点支援装置、その方法、およびプログラム
Koo A weighted finite-state transducer implementation of phoneme rewrite rules for english to korean pronunciation conversion

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination