KR20210076877A

KR20210076877A - 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법

Info

Publication number: KR20210076877A
Application number: KR1020200176593A
Authority: KR
Inventors: 권혁철; 김민호
Original assignee: 부산대학교 산학협력단
Priority date: 2019-12-16
Filing date: 2020-12-16
Publication date: 2021-06-24
Also published as: KR102604758B1

Abstract

본 발명은 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법에 관한 것으로, 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것이다.

Description

사용자 정보를 이용한 맞춤법 검사 시스템 및 방법{System and Method for Spell Checking using User Information}

본 발명은 맞춤법 검사에 관한 것으로, 구체적으로 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법에 관한 것이다.

일반적으로 맞춤법 검사기란 좁게는 단순한 철자 및 문법의 교정에 필요한 정보를 제공하는 것을 의미한다.

더 넓은 범위로는 문서, 혹은 문장의 효과적인 작성을 지원하기 위해서 문체상 오류를 검사하는 기능을 하며, 순화 용어를 제공하고, 구두점 등 문장부호의 사용에 대한 적합성을 알려주며, 오류에 대한 학습 정보와, 오류의 빈도나 강도에 따른 교정된 정보를 제공하고, 단어의 사용 용례 등을 함께 제공하는 것을 말한다.

이와 같은 맞춤법 검사기는 사용자가 입력한 문장이나 작성된 문서 내에 철자오류와 같은 잘못된 단어가 있는지를 자동으로 검사하고 교정하는 시스템이다.

일반적으로 맞춤법 검사는 검사 대상을 형태소나 어절 단위의 토큰으로 자른 다음 해당 토큰이 사전(dictionary)에 존재하지 않으면 오류어로 판단한다.

그러므로 맞춤법 검사기의 사전에 존재하지 않는 신조어나 고유명사와 같은 미등록어는 오류어로 판단된다.

따라서, 맞춤법 검사기의 사전에 존재하지 않는 신조어나 고유명사와 같은 미등록어의 맞춤법 검사가 효율적으로 이루어지도록 한 새로운 기술의 개발이 요구되고 있다.

대한민국 공개특허 제10-2009-0090840호 대한민국 공개특허 제10-2019-0129701호 대한민국 공개특허 제10-2005-0026732호

본 발명은 종래 기술의 맞춤법 검사 시스템의 문제점을 해결하기 위한 것으로, 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사로 정확도를 높인 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사를 통하여 검사 정확도를 높일 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템은 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것을 특징으로 한다.

여기서, 상기 일반사전 기반 분석부는, 개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것을 특징으로 한다.

그리고 상기 사용자 사전 생성부는, 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것을 특징으로 한다.

그리고 상기 사용자 사전 기반 분석부는, 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것을 특징으로 한다.

그리고 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법은 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징하는 단계;일반사전 기반 분석부에서 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단하는 단계;사용자 사전 기반 분석부에서 일반사전 기반 분석부에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석하는 단계;사용자 사전 생성부에서 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성하는 단계;를 포함하는 것을 특징으로 한다.

여기서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 다음과 같은 효과가 있다.

첫째, 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한다.

둘째, 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사로 정확도를 높인다.

셋째, 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사를 통하여 검사 정확도를 높일 수 있도록 한다.

도 1은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 구성도
도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도
도 3은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 나타낸 플로우 차트

이하, 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 구성도이고, 도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도이다.

본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 것이다.

이를 위하여 본 발명은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사를 하는 구성을 포함할 수 있다.

본 발명은 사용자 사전 생성부를 통하여 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 구성을 포함할 수 있다.

본 발명은 사용자 사전 기반 분석부를 통하여 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 구성을 포함할 수 있다.

본 발명은 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 구성을 포함할 수 있다.

도1은 본 발명에 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사 시스템의 구성도이다.

본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템은 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부(101)와, 데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부(102)와, 사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부(103)를 포함한다.

여기서, 상기 일반사전 기반 분석부(101)는 개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것이다.

그리고 사용자 사전 생성부(102)는 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것이다.

도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도이다.

사용자 사전 생성부(102)는 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부(101)를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가한다.

그리고 사용자 사전 기반 분석부(103)는 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것이다.

본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 구체적으로 설명하면 다음과 같다.

도 3은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 나타낸 플로우 차트이다.

먼저, 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징한다.(S301)

이어, 일반사전 기반 분석부(101)는 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단한다.(S302)

예를 들어, '나는'이라는 어절은 '나 + 는', '나다 + 는', '날다 + 는'의 형태소 결합으로 분석될 수 있으므로 오류가 아닌다.

반면에 '김민호는'이라는 어절은 일반사전에 '김민호'라는 형태소가 없다면 분석이 될 수 없으므로 오류로 판단한다.

그리고 사용자 사전 기반 분석부(103)는 일반사전 기반 분석부(101)에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석한다.(303)

예를 들어, '김민호는'은 일반사전 기반 분석부(101)에 의하여 오류였지만, 사용자 사전에 '김민호'라는 형태소가 들어있다면 이를 바탕으로 '김민호 + 는'이라고 분석을 할 수 있다.

사용자 사전 생성부(102)는 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성한다.(304)

이상에서 설명한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사를 하는 것으로, 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 것이다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

101. 일반사전 기반 분석부
102. 사용자 사전 생성부
103. 사용자 사전 기반 분석부

Claims

명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;
데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;
사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
제 1 항에 있어서, 상기 일반사전 기반 분석부는,
개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
제 1 항에 있어서, 상기 사용자 사전 생성부는,
데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
제 1 항에 있어서, 상기 사용자 사전 기반 분석부는,
사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
제 1 항에 있어서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징하는 단계;
일반사전 기반 분석부에서 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단하는 단계;
사용자 사전 기반 분석부에서 일반사전 기반 분석부에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석하는 단계;
사용자 사전 생성부에서 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성하는 단계;를 포함하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 방법.
제 5 항에 있어서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 방법.