KR20210076877A - 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 - Google Patents
사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 Download PDFInfo
- Publication number
- KR20210076877A KR20210076877A KR1020200176593A KR20200176593A KR20210076877A KR 20210076877 A KR20210076877 A KR 20210076877A KR 1020200176593 A KR1020200176593 A KR 1020200176593A KR 20200176593 A KR20200176593 A KR 20200176593A KR 20210076877 A KR20210076877 A KR 20210076877A
- Authority
- KR
- South Korea
- Prior art keywords
- dictionary
- user
- user information
- general
- analysis unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000008520 organization Effects 0.000 claims abstract description 15
- 230000000877 morphologic effect Effects 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
본 발명은 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법에 관한 것으로, 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것이다.
Description
본 발명은 맞춤법 검사에 관한 것으로, 구체적으로 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법에 관한 것이다.
일반적으로 맞춤법 검사기란 좁게는 단순한 철자 및 문법의 교정에 필요한 정보를 제공하는 것을 의미한다.
더 넓은 범위로는 문서, 혹은 문장의 효과적인 작성을 지원하기 위해서 문체상 오류를 검사하는 기능을 하며, 순화 용어를 제공하고, 구두점 등 문장부호의 사용에 대한 적합성을 알려주며, 오류에 대한 학습 정보와, 오류의 빈도나 강도에 따른 교정된 정보를 제공하고, 단어의 사용 용례 등을 함께 제공하는 것을 말한다.
이와 같은 맞춤법 검사기는 사용자가 입력한 문장이나 작성된 문서 내에 철자오류와 같은 잘못된 단어가 있는지를 자동으로 검사하고 교정하는 시스템이다.
일반적으로 맞춤법 검사는 검사 대상을 형태소나 어절 단위의 토큰으로 자른 다음 해당 토큰이 사전(dictionary)에 존재하지 않으면 오류어로 판단한다.
그러므로 맞춤법 검사기의 사전에 존재하지 않는 신조어나 고유명사와 같은 미등록어는 오류어로 판단된다.
따라서, 맞춤법 검사기의 사전에 존재하지 않는 신조어나 고유명사와 같은 미등록어의 맞춤법 검사가 효율적으로 이루어지도록 한 새로운 기술의 개발이 요구되고 있다.
본 발명은 종래 기술의 맞춤법 검사 시스템의 문제점을 해결하기 위한 것으로, 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사로 정확도를 높인 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사를 통하여 검사 정확도를 높일 수 있도록 한 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템은 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것을 특징으로 한다.
여기서, 상기 일반사전 기반 분석부는, 개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것을 특징으로 한다.
그리고 상기 사용자 사전 생성부는, 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것을 특징으로 한다.
그리고 상기 사용자 사전 기반 분석부는, 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것을 특징으로 한다.
그리고 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법은 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징하는 단계;일반사전 기반 분석부에서 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단하는 단계;사용자 사전 기반 분석부에서 일반사전 기반 분석부에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석하는 단계;사용자 사전 생성부에서 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성하는 단계;를 포함하는 것을 특징으로 한다.
여기서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 다음과 같은 효과가 있다.
첫째, 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한다.
둘째, 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사로 정확도를 높인다.
셋째, 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사를 통하여 검사 정확도를 높일 수 있도록 한다.
도 1은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 구성도
도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도
도 3은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 나타낸 플로우 차트
도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도
도 3은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 나타낸 플로우 차트
이하, 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 구성도이고, 도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도이다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 인명, 직명, 기관명 등과 같은 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 것이다.
이를 위하여 본 발명은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사를 하는 구성을 포함할 수 있다.
본 발명은 사용자 사전 생성부를 통하여 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 구성을 포함할 수 있다.
본 발명은 사용자 사전 기반 분석부를 통하여 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 구성을 포함할 수 있다.
본 발명은 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 구성을 포함할 수 있다.
도1은 본 발명에 사용자 정보를 포함하고 있는 사용자 데이터베이스로부터 자동으로 생성한 사용사 사전을 이용하는 맞춤법 검사 시스템의 구성도이다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템은 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부(101)와, 데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부(102)와, 사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부(103)를 포함한다.
여기서, 상기 일반사전 기반 분석부(101)는 개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것이다.
그리고 사용자 사전 생성부(102)는 데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것이다.
도 2는 인명, 직명, 기관명을 포함하고 있는 사용자 데이터베이스의 예시도이다.
사용자 사전 생성부(102)는 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부(101)를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가한다.
그리고 사용자 사전 기반 분석부(103)는 사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것이다.
본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 구체적으로 설명하면 다음과 같다.
도 3은 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 방법을 나타낸 플로우 차트이다.
먼저, 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징한다.(S301)
이어, 일반사전 기반 분석부(101)는 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단한다.(S302)
예를 들어, '나는'이라는 어절은 '나 + 는', '나다 + 는', '날다 + 는'의 형태소 결합으로 분석될 수 있으므로 오류가 아닌다.
반면에 '김민호는'이라는 어절은 일반사전에 '김민호'라는 형태소가 없다면 분석이 될 수 없으므로 오류로 판단한다.
그리고 사용자 사전 기반 분석부(103)는 일반사전 기반 분석부(101)에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석한다.(303)
예를 들어, '김민호는'은 일반사전 기반 분석부(101)에 의하여 오류였지만, 사용자 사전에 '김민호'라는 형태소가 들어있다면 이를 바탕으로 '김민호 + 는'이라고 분석을 할 수 있다.
사용자 사전 생성부(102)는 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성한다.(304)
이상에서 설명한 본 발명에 따른 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법은 인명, 직명, 기관명과 같은 고유명사가 오류어로 판단되지 않도록 사용자 정보에서 추출한 고유명사를 이용한 맞춤법 검사를 하는 것으로, 사용자 정보를 이용하여 형태분석 사전에 없는 미등록어를 효율적으로 검사할 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
101. 일반사전 기반 분석부
102. 사용자 사전 생성부
103. 사용자 사전 기반 분석부
102. 사용자 사전 생성부
103. 사용자 사전 기반 분석부
Claims (7)
- 명사, 동사, 형용사와 같은 일반적인 어휘를 기반으로 오류 여부를 판단하는 일반사전 기반 분석부;
데이터베이스로부터 인명, 직명, 기관명과 같은 사용자 정보를 획득하여 이를 사전화하는 사용자 사전 생성부;
사용자 사전을 기반으로 오류 여부를 판단하는 사용자 사전 기반 분석부;를 포함하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템. - 제 1 항에 있어서, 상기 일반사전 기반 분석부는,
개별 단어가 형태론적 또는 통사론적 특성에 따라 구별되는 식별번호를 가진 일반사전을 사용하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템. - 제 1 항에 있어서, 상기 사용자 사전 생성부는,
데이터베이스로부터 사용자 정보를 자동으로 추출하고 이를 사전화하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템. - 제 1 항에 있어서, 상기 사용자 사전 기반 분석부는,
사용자가 수동으로 생성한 사용자 사전과 데이터베이스로부터 자동으로 생성된 사용자 사전을 모두 이용하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템. - 제 1 항에 있어서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 시스템.
- 검색 대상 문장이 들어오면 띄어쓰기 단위인 어절로 토크나이징하는 단계;
일반사전 기반 분석부에서 일반사전을 이용하여 각 어절을 형태소 단위로 분석하고, 만약 분석이 실패하면 오류어로 판단하는 단계;
사용자 사전 기반 분석부에서 일반사전 기반 분석부에 의해 오류로 판단된 단어를 대상으로 사용자 사전에 기반하여 분석하는 단계;
사용자 사전 생성부에서 사용자 데이터베이스를 이용하여 사용자 사전을 자동으로 생성하는 단계;를 포함하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 방법. - 제 5 항에 있어서, 사용자 사전 생성부에서 해당 테이블을 읽어 들인 다음, 각 칸에 들어있는 값을 일반사전 기반 분석부를 이용하여 분석하고, 미등록어로 나오는 단어를 모두 사용자 사전에 추가하는 것을 특징으로 하는 사용자 정보를 이용한 맞춤법 검사 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20190167900 | 2019-12-16 | ||
KR1020190167900 | 2019-12-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210076877A true KR20210076877A (ko) | 2021-06-24 |
KR102604758B1 KR102604758B1 (ko) | 2023-11-22 |
Family
ID=76607377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200176593A KR102604758B1 (ko) | 2019-12-16 | 2020-12-16 | 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102604758B1 (ko) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010037310A (ko) * | 1999-10-15 | 2001-05-07 | 정명식 | 음절 정규화 표현 사전을 이용한 미등록어 분석 방법 및 미등록어를 포함한 문장의 형태소 분석방법 |
KR20050026732A (ko) | 2003-09-06 | 2005-03-16 | 채수환 | 사용자별로 최적화된 오타 교정 단어 제공 방법 |
KR100798752B1 (ko) * | 2007-06-26 | 2008-01-28 | (주)나라인포테크 | 한국어 맞춤법 검사기 및 검사방법 |
KR100886687B1 (ko) * | 2007-12-12 | 2009-03-04 | 한국전자통신연구원 | 중국어 미등록어 자동 추출 방법 및 장치 |
KR20090090840A (ko) | 2008-02-22 | 2009-08-26 | 주식회사 솔트룩스 | 사용자 맞춤형 정보 제공 시스템 및 그 방법 |
KR20190129701A (ko) | 2018-05-11 | 2019-11-20 | 김영태 | 키워드의 중요도에 의한 사용자간의 매칭정보를 제공하는 시스템 및 방법 |
-
2020
- 2020-12-16 KR KR1020200176593A patent/KR102604758B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010037310A (ko) * | 1999-10-15 | 2001-05-07 | 정명식 | 음절 정규화 표현 사전을 이용한 미등록어 분석 방법 및 미등록어를 포함한 문장의 형태소 분석방법 |
KR20050026732A (ko) | 2003-09-06 | 2005-03-16 | 채수환 | 사용자별로 최적화된 오타 교정 단어 제공 방법 |
KR100798752B1 (ko) * | 2007-06-26 | 2008-01-28 | (주)나라인포테크 | 한국어 맞춤법 검사기 및 검사방법 |
KR100886687B1 (ko) * | 2007-12-12 | 2009-03-04 | 한국전자통신연구원 | 중국어 미등록어 자동 추출 방법 및 장치 |
KR20090090840A (ko) | 2008-02-22 | 2009-08-26 | 주식회사 솔트룩스 | 사용자 맞춤형 정보 제공 시스템 및 그 방법 |
KR20190129701A (ko) | 2018-05-11 | 2019-11-20 | 김영태 | 키워드의 중요도에 의한 사용자간의 매칭정보를 제공하는 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102604758B1 (ko) | 2023-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5774833A (en) | Method for syntactic and semantic analysis of patent text and drawings | |
Yeniterzi | Exploiting morphology in Turkish named entity recognition system | |
CA2614416C (en) | Processing collocation mistakes in documents | |
Ingason et al. | A mixed method lemmatization algorithm using a hierarchy of linguistic identities (HOLI) | |
Vosse | Detecting and correcting morpho-syntactic errors in real texts | |
US20090192787A1 (en) | Grammer checker | |
US20100174524A1 (en) | Empirical Methods for Splitting Compound Words with Application to Machine Translation | |
Diab et al. | Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon. | |
US20070179779A1 (en) | Language information translating device and method | |
Cherry | Writing tools | |
Tesfaye | A rule-based Afan Oromo Grammar Checker | |
Goyal et al. | Hindi to Punjabi machine translation system | |
Carroll et al. | The automatic acquisition of verb subcategorisations and their impact on the performance of an HPSG parser | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
JP6541239B2 (ja) | 主語動詞の一致誤り検出装置及び一致誤り検出用プログラム | |
Bick | DanProof: Pedagogical spell and grammar checking for Danish | |
Duran et al. | Some issues on the normalization of a corpus of products reviews in Portuguese | |
Deksne et al. | CFG Based Grammar Checker for Latvian | |
US7620541B2 (en) | Critiquing clitic pronoun ordering in french | |
Gondaliya et al. | A Rule-based Grammar and Spell Checking | |
Hatem et al. | Morphological analysis for rule based machine translation | |
Kinoshita et al. | CoGrOO: a Brazilian-Portuguese Grammar Checker based on the CETENFOLHA Corpus. | |
KR20210076877A (ko) | 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 | |
Van Zaanen et al. | The development of Dutch and Afrikaans language resources for compound boundary analysis | |
Kirchhoff et al. | Semi-automatic error analysis for large-scale statistical machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |