KR20210076877A - 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 - Google Patents

사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 Download PDF

Info

Publication number
KR20210076877A
KR20210076877A KR1020200176593A KR20200176593A KR20210076877A KR 20210076877 A KR20210076877 A KR 20210076877A KR 1020200176593 A KR1020200176593 A KR 1020200176593A KR 20200176593 A KR20200176593 A KR 20200176593A KR 20210076877 A KR20210076877 A KR 20210076877A
Authority
KR
South Korea
Prior art keywords
dictionary
user
user information
general
analysis unit
Prior art date
Application number
KR1020200176593A
Other languages
English (en)
Other versions
KR102604758B1 (ko
Inventor
권혁철
김민호
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Publication of KR20210076877A publication Critical patent/KR20210076877A/ko
Application granted granted Critical
Publication of KR102604758B1 publication Critical patent/KR102604758B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법에 관한 것으로, 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것이다.

Description

사용자 정보를 이용한 맞춤법 검사 시스템 및 방법{System and Method for Spell Checking using User Information}
본 발명은 맞춤법 검사에 관한 것으로, 구체적으로 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법에 관한 것이다.
일반적으로 맞춤법 검사기란 좁게는 단순한 철자 및 문법의 교정에 필요한 정보를 제공하는 것을 의미한다.
더 넓은 범위로는 문서, 혹은 문장의 효과적인 작성을 지원하기 위해서 문체상 오류를 검사하는 기능을 하며, 순화 용어를 제공하고, 구두점 등 문장부호의 사용에 대한 적합성을 알려주며, 오류에 대한 학습 정보와, 오류의 빈도나 강도에 따른 교정된 정보를 제공하고, 단어의 사용 용례 등을 함께 제공하는 것을 말한다.
이와 같은 맞춤법 검사기는 사용자가 입력한 문장이나 작성된 문서 내에 철자오류와 같은 잘못된 단어가 있는지를 자동으로 검사하고 교정하는 시스템이다.
일반적으로 맞춤법 검사는 검사 대상을 형태소나 어절 단위의 토큰으로 자른 다음 해당 토큰이 사전(dictionary)에 존재하지 않으면 오류어로 판단한다.
그러므로 맞춤법 검사기의 사전에 존재하지 않는 신조어나 고유명사와 같은 미등록어는 오류어로 판단된다.
따라서, 맞춤법 검사기의 사전에 존재하지 않는 신조어나 고유명사와 같은 미등록어의 맞춤법 검사가 효율적으로 이루어지도록 한 새로운 기술의 개발이 요구되고 있다.
대한민국 공개특허 제10-2009-0090840호 대한민국 공개특허 제10-2019-0129701호 대한민국 공개특허 제10-2005-0026732호
본 발명은 종래 기술의 맞춤법 검사 시스템의 문제점을 해결하기 위한 것으로, 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사로 정확도를 높인 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사를 통하여 검사 정확도를 높일 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템은 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것을 특징으로 한다.
여기서, 상기 일반사전 기반 분석부는, 개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것을 특징으로 한다.
그리고 상기 사용자 사전 생성부는, 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것을 특징으로 한다.
그리고 상기 사용자 사전 기반 분석부는, 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것을 특징으로 한다.
그리고 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법은 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징하는 단계;일반사전 기반 분석부에서 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단하는 단계;사용자 사전 기반 분석부에서 일반사전 기반 분석부에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석하는 단계;사용자 사전 생성부에서 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성하는 단계;를 포함하는 것을 특징으로 한다.
여기서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 다음과 같은 효과가 있다.
첫째, 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한다.
둘째, 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사로 정확도를 높인다.
셋째, 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사를 통하여 검사 정확도를 높일 수 있도록 한다.
도 1은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 구성도
도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도
도 3은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 나타낸 플로우 차트
이하, 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 구성도이고, 도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도이다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 것이다.
이를 위하여 본 발명은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사를 하는 구성을 포함할 수 있다.
본 발명은 사용자 사전 생성부를 통하여 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 구성을 포함할 수 있다.
본 발명은 사용자 사전 기반 분석부를 통하여 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 구성을 포함할 수 있다.
본 발명은 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 구성을 포함할 수 있다.
도1은 본 발명에 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사 시스템의 구성도이다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템은 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부(101)와, 데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부(102)와, 사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부(103)를 포함한다.
여기서, 상기 일반사전 기반 분석부(101)는 개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것이다.
그리고 사용자 사전 생성부(102)는 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것이다.
도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도이다.
사용자 사전 생성부(102)는 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부(101)를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가한다.
그리고 사용자 사전 기반 분석부(103)는 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것이다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 구체적으로 설명하면 다음과 같다.
도 3은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 나타낸 플로우 차트이다.
먼저, 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징한다.(S301)
이어, 일반사전 기반 분석부(101)는 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단한다.(S302)
예를 들어, '나는'이라는 어절은 '나 + 는', '나다 + 는', '날다 + 는'의 형태소 결합으로 분석될 수 있으므로 오류가 아닌다.
반면에 '김민호는'이라는 어절은 일반사전에 '김민호'라는 형태소가 없다면 분석이 될 수 없으므로 오류로 판단한다.
그리고 사용자 사전 기반 분석부(103)는 일반사전 기반 분석부(101)에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석한다.(303)
예를 들어, '김민호는'은 일반사전 기반 분석부(101)에 의하여 오류였지만, 사용자 사전에 '김민호'라는 형태소가 들어있다면 이를 바탕으로 '김민호 + 는'이라고 분석을 할 수 있다.
사용자 사전 생성부(102)는 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성한다.(304)
이상에서 설명한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사를 하는 것으로, 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
101. 일반사전 기반 분석부
102. 사용자 사전 생성부
103. 사용자 사전 기반 분석부

Claims (7)

  1. 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;
    데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;
    사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
  2. 제 1 항에 있어서, 상기 일반사전 기반 분석부는,
    개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
  3. 제 1 항에 있어서, 상기 사용자 사전 생성부는,
    데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
  4. 제 1 항에 있어서, 상기 사용자 사전 기반 분석부는,
    사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
  5. 제 1 항에 있어서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
  6. 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징하는 단계;
    일반사전 기반 분석부에서 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단하는 단계;
    사용자 사전 기반 분석부에서 일반사전 기반 분석부에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석하는 단계;
    사용자 사전 생성부에서 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성하는 단계;를 포함하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 방법.
  7. 제 5 항에 있어서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 방법.
KR1020200176593A 2019-12-16 2020-12-16 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 KR102604758B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190167900 2019-12-16
KR1020190167900 2019-12-16

Publications (2)

Publication Number Publication Date
KR20210076877A true KR20210076877A (ko) 2021-06-24
KR102604758B1 KR102604758B1 (ko) 2023-11-22

Family

ID=76607377

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200176593A KR102604758B1 (ko) 2019-12-16 2020-12-16 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102604758B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010037310A (ko) * 1999-10-15 2001-05-07 정명식 음절 정규화 표현 사전을 이용한 미등록어 분석 방법 및 미등록어를 포함한 문장의 형태소 분석방법
KR20050026732A (ko) 2003-09-06 2005-03-16 채수환 사용자별로 최적화된 오타 교정 단어 제공 방법
KR100798752B1 (ko) * 2007-06-26 2008-01-28 (주)나라인포테크 한국어 맞춤법 검사기 및 검사방법
KR100886687B1 (ko) * 2007-12-12 2009-03-04 한국전자통신연구원 중국어 미등록어 자동 추출 방법 및 장치
KR20090090840A (ko) 2008-02-22 2009-08-26 주식회사 솔트룩스 사용자 맞춤형 정보 제공 시스템 및 그 방법
KR20190129701A (ko) 2018-05-11 2019-11-20 김영태 키워드의 중요도에 의한 사용자간의 매칭정보를 제공하는 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010037310A (ko) * 1999-10-15 2001-05-07 정명식 음절 정규화 표현 사전을 이용한 미등록어 분석 방법 및 미등록어를 포함한 문장의 형태소 분석방법
KR20050026732A (ko) 2003-09-06 2005-03-16 채수환 사용자별로 최적화된 오타 교정 단어 제공 방법
KR100798752B1 (ko) * 2007-06-26 2008-01-28 (주)나라인포테크 한국어 맞춤법 검사기 및 검사방법
KR100886687B1 (ko) * 2007-12-12 2009-03-04 한국전자통신연구원 중국어 미등록어 자동 추출 방법 및 장치
KR20090090840A (ko) 2008-02-22 2009-08-26 주식회사 솔트룩스 사용자 맞춤형 정보 제공 시스템 및 그 방법
KR20190129701A (ko) 2018-05-11 2019-11-20 김영태 키워드의 중요도에 의한 사용자간의 매칭정보를 제공하는 시스템 및 방법

Also Published As

Publication number Publication date
KR102604758B1 (ko) 2023-11-22

Similar Documents

Publication Publication Date Title
US5774833A (en) Method for syntactic and semantic analysis of patent text and drawings
Yeniterzi Exploiting morphology in Turkish named entity recognition system
CA2614416C (en) Processing collocation mistakes in documents
Ingason et al. A mixed method lemmatization algorithm using a hierarchy of linguistic identities (HOLI)
Vosse Detecting and correcting morpho-syntactic errors in real texts
US20090192787A1 (en) Grammer checker
US20100174524A1 (en) Empirical Methods for Splitting Compound Words with Application to Machine Translation
Diab et al. Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon.
US20070179779A1 (en) Language information translating device and method
Cherry Writing tools
Tesfaye A rule-based Afan Oromo Grammar Checker
Goyal et al. Hindi to Punjabi machine translation system
Carroll et al. The automatic acquisition of verb subcategorisations and their impact on the performance of an HPSG parser
Ganfure et al. Design and implementation of morphology based spell checker
JP6541239B2 (ja) 主語動詞の一致誤り検出装置及び一致誤り検出用プログラム
Bick DanProof: Pedagogical spell and grammar checking for Danish
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Deksne et al. CFG Based Grammar Checker for Latvian
US7620541B2 (en) Critiquing clitic pronoun ordering in french
Gondaliya et al. A Rule-based Grammar and Spell Checking
Hatem et al. Morphological analysis for rule based machine translation
Kinoshita et al. CoGrOO: a Brazilian-Portuguese Grammar Checker based on the CETENFOLHA Corpus.
KR20210076877A (ko) 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법
Van Zaanen et al. The development of Dutch and Afrikaans language resources for compound boundary analysis
Kirchhoff et al. Semi-automatic error analysis for large-scale statistical machine translation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right