KR101461062B1

KR101461062B1 - 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법

Info

Publication number: KR101461062B1
Application number: KR1020110108839A
Authority: KR
Inventors: 고병일; 기윤서; 김태일; 서희철
Original assignee: 네이버 주식회사
Priority date: 2011-10-24
Filing date: 2011-10-24
Publication date: 2014-11-17
Also published as: KR20110132295A

Abstract

로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법이 개시된다. 일본어 자동 추천 시스템은 일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어의 발음을 로마자로 변환하는 로마자 변환부 및 상기 변환된 로마자에 기초하여 상기 단어에 대한 유사어를 검색하는 유사어 검색부를 포함할 수 있다.

Description

로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법{SYSTEM AND METHOD FOR RECOMMENDDING JAPANESE LANGUAGE AUTOMATICALLY USING TRANFORMATIOM OF ROMAJI}

본 발명은 입력된 일본어에 대한 유사어를 추천하는 시스템 및 방법에 관한 것으로, 보다 자세하게는, 입력된 일본어의 발음을 로마자로 변환하여 유사어를 추천하는 시스템 및 방법에 관한 것이다.

사용자는 원하는 정보를 얻기 위해 검색 엔진의 검색 창에 단어를 입력하여 검색을 수행한다. 이 때, 사용자가 단어를 잘못 입력하여 오타가 발생하는 경우, 오타로 인해 검색되는 문서의 품질이 떨어지거나 검색되는 문서의 수가 거의 없는 문제가 발생하였다. 이러한 문제를 해결하기 위해 검색 엔진은 이러한 단어를 오타로 판단하여 사용자가 실제 입력하고자 하는 단어를 추천하였다.

또한, 사용자가 단어를 입력하여 검색을 수행하더라도, 사용자가 원하는 결과를 얻기 위한 최적의 단어를 입력하는 경우가 소수에 불과하다. 이 경우, 검색 엔진은 사용자에게 검색 결과를 제공하더라도, 사용자는 검색 결과에 불만을 가질 수 밖에 없다. 이러한 문제를 해결하기 위해 검색 엔진은 사용자가 입력한 단어에 대한 연관어 또는 유사어를 제공함으로써 검색의 정확도를 향상시킬 수 있다.

특히, 위에서 언급한 상황들은 일본어 검색의 경우 보다 문제가 될 수 있다. 사용자가 입력한 일본어를 오타로 판단하여 정답을 제시하거나 또는 사용자가 입력한 일본어에 대해 유사어를 제공하는 경우, 종래에는 정확도를 보장하기 어려웠다. 무엇보다, 일본어는 한자, 히라가나 및 가타카나의 형태로 표현될 수 있기 때문에, 사용자가 입력한 단어에 대해 적절한 단어를 추천하는 것이 어려운 문제가 존재하였다. 따라서, 어떠한 형태의 일본어가 입력되더라도 적절한 단어를 추천하는 방법이 요구되고 있다.

본 발명의 일실시예에 따른 일본어 자동 추천 시스템은 일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어의 발음을 로마자(romaji)로 변환하는 로마자 변환부 및 상기 변환된 로마자에 기초하여 상기 단어에 대한 유사어를 검색하는 유사어 검색부를 포함할 수 있다.

본 발명의 일실시예에 따른 일본어 자동 추천 시스템은 상기 검색된 유사어를 상기 히라가나, 가타카나 또는 한자 중 어느 하나의 일본어 형태로 변환하여 추천하는 유사어 추천부를 더 포함할 수 있다.

본 발명의 일실시예에 따른 일본어 자동 추천 시스템은 입력된 단어를 분석하여 상기 단어가 오타인 지 여부를 판단하는 오타 판단부를 더 포함할 수 있다.

본 발명의 일실시예에 따른 일본어 자동 추천 시스템은 입력된 단어가 오타인 경우, 유사도 점수 또는 단어 출현 빈도에 따른 편집 거리를 고려하여 상기 검색된 유사어 중 상기 단어에 대한 정답 단어를 선택하는 정답 단어 선택부를 더 포함할 수 있다.

본 발명의 일실시예에 따른 일본어 자동 추천 시스템은 입력된 단어가 한자인 경우, 토큰 분할 학습 데이터를 이용하여 상기 단어를 토큰 별로 분할하고, 한자-히라가나 변환 학습 데이터를 이용하여 상기 분할된 토큰에 대응하는 히라가나로 변환하는 한자-히라가나 변환부를 더 포함할 수 있다.

본 발명의 일실시예에 따른 일본어 자동 추천 방법은 일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어의 발음을 로마자(romaji)로 변환하는 단계 및 상기 변환된 로마자에 기초하여 상기 단어에 대한 유사어를 검색하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따르면, 입력된 일본어 단어의 발음을 로마자로 변환하고, 변환된 로마자에 기초하여 단어에 대한 유사어를 검색함으로써 일본어에 대한 유사어 검색의 정확도를 향상시킬 수 있다.

본 발명의 일실시예에 따르면, 입력된 일본어 단어가 오타인지 판별하고, 오타인 경우 유사어를 검색하여 정답 단어를 제공함으로써, 사용자가 검색 질의를 잘못 입력하더라도 적절한 정답 단어를 추천하여 검색의 정확도를 향상시킬 수 있다.

본 발명의 일실시예에 따르면, 입력된 일본어 단어가 한자인 경우, 기계학습을 통해 생성한 학습 데이터를 통해 토큰으로 분할하고 분할된 토큰에 대해 히라가나로 변환함으로써 신속하고 정확한 한자-히라가나 변환을 수행할 수 있다.

본 발명의 일실시예에 따르면, 사용자가 입력한 일본어 단어의 형태와 다른 형태의 유사어를 검색하여 추천함으로써, 사용자에게 보다 정확한 검색을 수행할 수 있도록 한다.

도 1은 본 발명의 일실시예에 따른 일본어 자동 추천 시스템의 전체 구성을 도시한 블록 다이어그램이다.
도 2는 본 발명의 일실시예에 따라 입력된 단어에 대해 로마자 변환을 통해 일본어를 자동으로 추천하는 과정을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따라 한자로부터 히라가나로 변환하는 과정을 도시한 도면이다.
도 4는 본 발명의 일실시예에 따라 로마자로 변환하는 일례를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 일본어 자동 추천 방법의 전체 과정을 도시한 플로우차트이다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 따른 일본어 자동 추천 시스템의 전체 구성을 도시한 블록 다이어그램이다.

도 1을 참고하면, 일본어 자동 추천 시스템(100)은 오타 판단부(101), 한자-히라가나 변환부(102), 로마자 변환부(103), 유사어 검색부(104), 유사어 추천부(105) 및 정답 단어 선택부(106)를 포함할 수 있다.

일본어 검색에 있어, 사용자는 원하는 정보 검색을 위해 일본어를 입력할 수 있다. 이 때, 사용자는 한자, 히라가나 또는 가타카나 형태의 일본어인 단어 A(107)를 입력할 수 있다. 일본어 자동 추천 시스템(100)은 사용자가 입력한 단어(107)의 발음을 로마자 변환함으로써 보다 정확한 일본어인 단어 B(108)를 추천할 수 있다.

본 발명의 일실시예에 따르면, 사용자가 오타를 입력하는 경우, 일본어 자동 추천 시스템(100)은 오타 판단부(101) 내지 정답 단어 선택부(106)를 통해 오타에 대한 정답을 선택하여 제공할 수 있다. 그리고, 본 발명의 다른 일실시예에 따르면, 사용자가 오타가 아닌 정자를 입력하는 경우, 일본어 자동 추천 시스템(100)은 한자-히라가나 변환부(102) 내지 유사어 추천부(105)를 통해 유사어를 제공할 수 있다. 이하에서는, 사용자가 오타를 입력하는 경우를 중심으로 설명된다.

오타 판단부(101)는 사용자로부터 입력된 단어(107)를 분석하여 단어(107)가 오타인지 여부를 판단할 수 있다. 이 경우, 로마자 변환부(103)는 사용자가 입력한 단어(107)가 오타인 경우, 단어(107)를 로마자로 변환할 수 있다.

일례로, 오타 판단부(101)는 사용자가 입력한 단어(107)가 미리 설정한 오타 데이터에 포함되는 지 여부를 고려하여 단어(107)가 오타인지 여부를 판단할 수 있다. 구체적으로, 오타 판단부(101)는 사전에 등재된 단어나 검색 엔진에서 구축한 컨텐츠 DB 목록, 수동 검수 등을 통해 결정된 오타 데이터를 이용하여 사용자가 입력한 단어(107)가 오타 데이터에 포함되는 경우 오타로 판단할 수 있다.

다른 일례로, 오타 판단부(101)는 사용자가 입력한 단어(107)의 입력 빈도 또는 문서 출현 빈도가 미리 설정된 기준 빈도보다 낮은지 여부를 고려하여 단어(107)가 오타인지 여부를 판단할 수 있다.

이 때, 단어(107)의 입력 빈도는 사용자가 입력한 단어(107)의 입력 횟수를 의미한다. 즉, 오타 판단부(101)는 입력 빈도가 낮은 단어(107)를 오타로 판단할 수 있다. 그리고, 문서 출현 빈도는 입력된 단어(107)를 통해 검색하였을 때 검색 결과로 도출되는 문서의 개수를 의미할 수 있다. 즉, 오타 판단부(101)는 문서 출현 빈도가 낮은 단어(107)를 오타로 판단할 수 있다.

또는 오타 판단부(101)는 단어(107)에 대해 문서 출현 빈도가 질의 빈도보다 낮은 경우, 해당 단어(107)를 오타로 판단할 수 있다. 그리고, 오타 판단부(101)는 문서 출현 빈도가 낮으면서 연속된 단어(107)를 오타로 판단할 수 있다.

또 다른 일례로, 오타 판단부(101)는 사용자가 입력한 단어(107)가 형태소로 분리되는 지 여부를 고려하여 단어(107)가 오타인지 여부를 판단할 수 있다. 이 때, 오타 판단부(101)는 입력된 단어가 형태소 분석기나 품사 태거에 의해 각 형태소로 분리되는 경우 해당 단어(107)가 오타가 아니라고 판단할 수 있다. 다시 말해서, 단어가 오타가 아닌 경우, 형태소로 쉽게 분리될 수 없어서 오타 판단부(101)는 단어가 형태소로 쉽게 분리되는 경우 정자로 판단할 수 있다.

한자-히라가나 변환부(102)는 입력된 단어(107)가 한자인 경우, 토큰 분할 학습 데이터를 이용하여 단어를 토큰 별로 분할할 수 있다. 그리고, 한자-히라가나 변환부(102)는 한자-히라가나 변환 학습 데이터를 이용하여 상기 분할된 토큰에 대응하는 히라가나로 변환할 수 있다. 일본에서 같은 한자라도 쓰임에 따라 읽는 방법이 상이하기 때문에, 한자에 대응하는 정확한 히라가나로 변환하는 것이 중요하다. 한자-히라가나 변환부(102)에 대해서는 도 3에서 구체적으로 설명한다.

로마자 변환부(103)는 일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어(107)의 발음을 로마자(romaji)로 변환할 수 있다. 만약, 단어가 한자인 경우 한자-히라가나 변환부(102)를 통해 히라가나로 변환된 후, 로마자로 변환될 수 있다. 예를 들어, 입력된 단어가 한자인 映?(영화)인 경우, 한자-히라가나 변환부(102)를 통해 えいが로 변환되고, 로마자 변환부(103)는 단어의 발음을 로마자(eiga)로 변환할 수 있다. 로마자 변환부(103)가 로마자로 변환하는 예는 도 4에서 구체적으로 설명된다.

유사어 검색부(104)는 변환된 로마자에 기초하여 단어(107)에 대한 유사어를 검색할 수 있다. 일례로, 유사어 검색부(104)는 로마자로 변환된 단어의 유사도 점수를 고려하여 단어에 대한 유사도를 검색할 수 있다. 히라가나/가타카나 또는 한자 상태에서 유사도를 측정하는 것은 편집 거리의 해상도가 매우 낮아 정확도가 떨어지기 때문에, 본 발명에 따르면 단어의 발음을 로마자로 변환하여 유사도를 측정할 수 있다. 예를 들어, オリゴン와 オリコン을 직접 비교하는 것보다 이를 로마자로 변환하여 origon과 orikon을 비교함으로써 보다 정확하게 유사도를 비교할 수 있다.

이 때, 유사도 점수는 단어의 길이에 따른 입력 빈도, 단어가 장음, 가운데점, 촉음 또는 탁음의 포함 여부에 따른 편집 거리 또는 단어의 원형 상태의 비교 정도 중 적어도 하나에 기초하여 결정될 수 있다. 일례로, 단어가 한자인 경우, 유사어 검색부(104)는 로마자로 변환된 형태의 비교 결과, 히라가나로 변환된 형태의 비교 결과 및 한자 원래 형태의 비교 결과를 고려하여 유사도 점수를 결정할 수 있다. 유사어 검색에 대해서는 도 2에서 구체적으로 설명한다.

유사어 추천부(105)는 검색된 유사어를 상기 히라가나, 가타카나 또는 한자 중 어느 하나의 일본어 형태의 단어(108)로 변환하여 추천할 수 있다. 사용자는 추천된 단어(108)를 입력하여 검색을 수행할 수 있다.

일례로, 유사어 추천부(105)는 검색된 유사어를 사용자가 입력한 단어(107)의 일본어 형태와 다른 형태의 단어(108)로 변환하여 추천할 수 있다. 예를 들면, 사용자가 히라가나 형태의 단어(107)를 입력하더라도, 유사어 추천부(105)는 입력된 단어(107)에 대한 유사어를 한자 형태의 단어(108)로 변환하여 추천할 수 있다.

정답 단어 선택부(106)는 사용자로부터 입력된 단어(107)가 오타인 경우, 유사도 점수 또는 단어의 입력 빈도에 따른 편집 거리를 고려하여 검색된 유사어 중 단어(107)에 대한 정답 단어(108)를 선택할 수 있다. 즉, 입력된 단어(107)의 오타에 대해 복수의 유사어가 추천되는 경우, 정답 단어 선택부(106)는 유사도 점수가 높거나 입력 빈도가 높은 유사어를 정답 단어(108)로 선택하여 제공할 수 있다.

도 2는 본 발명의 일실시예에 따라 입력된 단어에 대해 로마자 변환을 통해 일본어를 자동으로 추천하는 과정을 도시한 도면이다.

사용자로부터 일본어로 이루어진 단어가 입력되면, 오타 판단부(101)는 입력된 단어가 오타인지 판단할 수 있다. 앞서 설명하였듯이, 오타 판단부(101)는 단어가 미리 설정된 오타 데이터에 포함되는 지 여부, 단어의 입력 빈도 또는 문서 출현 빈도가 미리 설정된 기준 빈도보다 낮은지 여부 또는 단어가 형태소로 분리되는 지 여부를 고려하여 단어가 오타인 지 여부를 판단할 수 있다.

만약, 입력된 단어가 오타인 경우, 정답 단어 선택부(106)는 입력된 단어의 유사어 중 정답 단어를 선택하여 제공할 수 있다. 반대로, 만약, 입력된 단어가 정자인 경우, 정답 단어 선택부(106)는 동작하지 않는다.

도 2에서 볼 수 있듯이, 입력된 단어가 히라가나 형태, 가타카나 형태 또는 한자 형태 중 어느 하나일 수 있다. 이 때, 입력된 단어가 히라가나 형태 또는 가타카나 형태인 경우, 로마자 변환부(103)는 일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어의 발음을 로마자(romaji)로 변환할 수 있다.

만약, 입력된 단어가 한자 형태인 경우, 한자를 직접 로마자로 변환하기 어렵기 때문에 한자-히라가나 변환부(102)를 통해 히라가나 형태로 정규화하는 과정을 거칠 수 있다. 구체적으로, 한자-히라가나 변환부(102)는 토큰 분할 학습 데이터를 이용하여 한자를 토큰 별로 분할하고, 한자-히라가나 변환 학습 데이터를 이용하여 분할된 토큰에 대응하는 히라가나로 변환할 수 있다. 그러면, 로마자 변환부(103)는 변환된 히라가나의 발음을 로마자로 변환할 수 있다.

그러면, 유사어 검색부(104)는 변환된 로마자에 기초하여 단어에 대한 유사어를 검색할 수 있다. 구체적으로, 유사어 검색부(104)는 로마자로 변환된 단어의 유사도 점수를 고려하여 단어에 대한 유사어를 검색할 수 있다.

일례로, 유사도 점수는 단어의 길이에 따른 입력 빈도, 단어가 장음, 가운데점, 촉음 또는 탁음의 포함 여부에 따른 편집 거리 또는 단어의 원형 상태의 비교 정도 중 적어도 하나에 기초하여 결정될 수 있다

단어의 길이, information -information [편집거리, 유사도]

장음 : ハロワ-ク(오타), ハロ-ワ-ク(오타), ハロ-ワ-ク(정답)

중점 : ピ-トロ-ズ(오타), ピ-ト·ロ-ズ(정답)

반탁음 : オリゴン(오타), オリコン(정답)

촉음 : ビクカメラ(오타) ビックカメラ(정답)

원형 : 花よりだんごファイナル(오타) 花より男子ファイナル(정답)

단어의 길이가 짧을수록 단어의 입력 빈도가 증가되기 때문에, 유사도 검색부(104)는 단어의 길이가 짧을수록 유사도 점수를 증가시킬 수 있다.

일본어의 장음(-)은 다른 문자에 비해 쉽게 삽입되거나 삭제되기 때문에, 유사어 검색부(104)는 단어에 장음이 포함된 경우 편집 거리를 작게 가중하여 유사도 점수를 증가시킬 수 있다. 그리고, 일본어의 중점(中點, ·)은 다른 문자에 비해 쉽게 삽입되거나 또는 삭제되기 때문에, 유사어 검색부(104)는 단어에 중점이 포함된 경우 편집 거리를 작게 가중하여 유사도 점수를 높일 수 있다. 일본어의 촉음(っ)은 쉽게 생략되거나 유사 발음으로 잘못 쓰이는 경우가 많기 때문에, 유사어 검색부(104)는 단어에 촉음이 포함된 경우 편집 거리를 작게 가중하여 유사도 점수를 높일 수 있다.

또한, 로마자로 변환된 형태뿐만 아니라, 유사어 검색부(104)는 단어의 원형 상태도 비교하여 유사도 점수에 반영할 수 있다. 원형 상태를 비교함으로써 로마자로 정규화한 상태에서 유사어를 검색하는 결과의 오류를 보완할 수 있다. 예를 들어, 입력된 단어가 うとん(우통)인 경우, 유사어 검색부(104)는 うろん(우롱)보다는 원형 상태가 유사한 うどん(우동)의 유사도 점수를 높게 부여함으로써, 로마자 변환을 통해 유사도를 판단할 때의 오류를 보완할 수 있다.

일례로, 단어가 한자인 경우, 유사어 검색부(104)는 로마자로 변환된 형태의 비교 결과, 히라가나로 변환된 형태의 비교 결과 및 한자 원래 형태의 비교 결과를 고려하여 유사도 점수를 결정할 수 있다. 구체적으로, 단어가 한자인 경우, 유사어 검색부(104)는 하기 수학식 1에 따라 유사도 점수를 결정할 수 있다.

여기서, q는 사용자가 입력한 일본어(질의어), t는 유사어를 의미한다. 그리고, a, b, c는 상수를 의미한다. 이 때, a, b, c는 기계 학습 등을 통해 도출될 수 있다.

이러한 과정을 통해 유사어가 검색되면, 도 2에서 볼 수 있듯이, 유사어 추천부(105)는 검색된 유사어를 히라가나, 가타카나 또는 한자 중 어느 하나의 일본어 형태로 변환하여 추천할 수 있다. 예를 들어, 입력된 단어가 히라가나 형태인 경우, 유사어 추천부(105)는 검색된 유사어를 히라가나 형태, 가타카나 형태 또는 한자 형태 중 어느 하나의 일본어 형태로 변환하여 추천할 수 있다. 즉, 유사어 추천부(105)는 검색된 유사어를 입력된 단어의 일본어 형태와 다른 형태로 변환하여 추천할 수 있다.

일례로, 유사어 추천부(105)는 로마자로 변환된 상태의 유사도와 로마자로 변환되지 않은 상태의 유사도의 차이가 미리 설정한 기준을 초과하는 경우, 유사어를 추천하지 않을 수 있다. 다른 일례로, 유사어 추천부(105)는 입력된 단어가 추천된 유사어보다 더 많이 사용되는 경우 유사어를 추천하지 않을 수 있다.

그리고, 입력된 단어가 오타인 경우, 정답 단어 선택부(106)는 유사도 점수 또는 단어의 입력 빈도에 따른 편집 거리를 고려하여 검색된 유사어 중 단어에 대한 정답 단어를 선택할 수 있다. 구체적으로, 정답 단어 선택부(106)는 유사도 점수가 가장 높거나 단어의 입력 빈도가 높아 편집 거리가 낮은 유사어를 단어에 대한 정답 단어를 선택할 수 있다.

도 3은 본 발명의 일실시예에 따라 한자로부터 히라가나로 변환하는 과정을 도시한 도면이다.

본 발명의 일실시예에 따른 한자-히라가나 변환부는 입력된 한자에 대해 히라가나로 변환할 수 있다. 그러면, 로마자 변환부는 히라가나를 로마자로 변환할 수 있다.

일례로, 한자-히라가나 변환부는 토큰 분할 학습 데이터(302)를 이용하여 토큰 분할(305)에 따라 한자(304)를 토큰 별로 분할하고, 한자-히라가나 변환 학습 데이터(303)를 이용하여 한자-히라가나 변환(306)을 통해 분할된 토큰(305)에 대응하는 히라가나(307)로 변환할 수 있다.

僕と彼女の生きる道의 경우 토큰 문할 학습 데이터(302)를 이용하여 僕, と, 彼女, の, 生き, る, 道로 토큰 분할을 하고, 각 토근 바이그램들에서 최대 확률 값을 갖는 히라가나 상태열을 선택한다. 그 결과 다음과 같이 수행 될 수 있다. 僕-ぼく　と　彼女-かのじょ　の　生きる-いきる　道-みち 최종적으로 ぼくとかのじょのいきるみち로 변환할 수 있다..

이 때, 학습 데이터는 일본어 뉴스 또는 일본어 블로그에 게시된 문서와 같은 일본어 문서(301)에서 한자(304)에 대응하는 히라가나 학습 문서를 만들고, 상기 학습 문서를 바탕으로 기계학습 방법을 통해 입력 형태에 따른 히라가나를 선택 조합함으로써 수행될 수 있다.

일례로, 토큰 분할 학습 데이터(302)는 한자의 형태소 토큰 별로 나누어진 코퍼스(corpus)를 이용하여 은닉 마르코프 모델(Hidden Markov Model: HMM) 기반의 띄어쓰기 학습을 통해 결정될 수 있다. 이 때, 음절 trigam HMM 기반의 띄어쓰기 학습을 통해 토큰 분할 학습 데이터(302)가 결정될 수 있다.

일례로, 한자-히라가나 변환 학습 데이터(303)는 한자(304)의 형태소 토큰 별로 분리된 코퍼스(corpus)에 기초한 학습을 통해 결정된 유니그램(unigram) 사전(303-1) 및 바이그램(bigram) 사전(303-2)을 포함할 수 있다. 이 때, 유니그램 사전(303-1)은 토큰과 히라가나 간의 빈도수 (토큰 - 히라가나)로 구축될 수 있다. 바이그램 사전(303-2)은 토큰 간의 빈도수(토큰 1 - 토큰 2)로 구축될 수 있다. 즉, 한자-히라가나 변환부는 문서(301)로부터 학습 과정을 통해 결정된 토큰 분할 학습 데이터(302) 및 한자-히라가나 변환 학습 데이터(303)를 이용하여 한자(304)를 히라가나(307)로 변환할 수 있다.

일례로, 한자-히라가나 변환부는 토큰 분할 학습 데이터(301)를 통해 한자(304)로부터 분할된 토큰에 대해 2개의 토큰씩 바이그램 사전(303-2)을 검색하여 최대 확률을 갖는 토큰을 선택할 수 있다. 그리고, 한자-히라가나 변환부(102)는 최종적으로 선택된 토큰들에 대해 유니그램 사전(303-1)에 대응하는 히라가나(307)로 변환할 수 있다. 만약, 바이그램 사전(303-2)의 정보량이 부족한 경우, 한자-히라가나 변환부는 유니그램 사전(303-1)을 이용하여 최대 확률을 갖는 토큰을 선택할 수 있다.

도 4는 본 발명의 일실시예에 따라 로마자로 변환하는 일례를 도시한 도면이다.

도 4에 의하면, "아"행과 "가"행에 대해 로마자로 변환하는 일례를 나타내고 있다. 로마자 변환부는 일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어의 발음을 로마자(romaji)로 변환할 수 있다. 이 때, 입력된 단어가 한자인 경우, 한자-히라가나 변환부는 한자를 히라가나로 변환할 수 있다.

도 4에서 볼 수 있듯이, あ行에 대해, 로마자 변환부는 あ를 로마자 "a"로 변환할 수 있다. 그리고, 로마자 변환부는 い를 로마자 "i"로 변환할 수 있다. 마찬가지로, 로마자 변환부는 각각 う를 "u"로, え를 "e"로, お를 "o"로 변환할 수 있다. 이러한 과정을 통해, 일본어 자동 추천 시스템은 히라가나 또는 가타카나를 로마자로 변환함으로써 보다 정밀하게 입력된 단어의 유사어를 검색할 수 있다.

앞서 설명했듯이, 히라가나와 가타카나를 그대로 사용하여 유사어를 검색하는 경우, 편집 거리의 해상도가 낮아 인간이 아닌 서버와 같은 기계의 경우 オリゴン와 オリコン를 구별하기 힘들다. 이 경우, オリゴン와 オリコン를 로마자인 origon과 orikon을 비교함으로써 보다 정밀한 유사도 점수를 산정하여 유사어 추천의 정확도를 향상시킬 수 있다.

도 5는 본 발명의 일실시예에 따른 일본어 자동 추천 방법의 전체 과정을 도시한 플로우차트이다.

도 5를 참고하면, 일본어 자동 추천 시스템은 사용자로부터 입력된 단어가 오타인지 판단할 수 있다(S501). 이 때, 입력된 단어가 오타인 경우, 일본어 자동 추천 시스템은 단어에 대한 유사어 중 정답 단어를 선택하여 제공할 수 있다(S507).

일본어 자동 추천 시스템은 입력된 단어가 오타뿐만 아니라 정자인 경우에도 입력된 단어에 대한 유사어를 자동으로 추천할 수 있다. 일본어 자동 추천 시스템은 입력된 단어가 한자인지 판단할 수 있다(S502). 만약, 단어가 한자인 경우, 일본어 자동 추천 시스템은 한자를 히라가나로 변환할 수 있다(S503). 그런 후, 단계(S504)가 수행된다. 입력된 단어가 한자가 아닌 경우, 별도의 변환 과정을 거치지 않는다.

구체적으로, 일본어 자동 추천 시스템은 토큰 분할 학습 데이터를 이용하여 상기 단어를 토큰 별로 분할하고, 한자-히라가나 변환 학습 데이터를 이용하여 상기 분할된 토큰에 대응하는 히라가나로 변환할 수 있다.

이 때, 토큰 분할 학습 데이터는 한자의 형태소 토큰 별로 나누어진 코퍼스(corpus)를 이용하여 은닉 마르코프 모델(Hidden Markov Model: HMM) 기반의 띄어쓰기 학습을 통해 결정될 수 있다. 또한, 한자-히라가나 변환 학습 데이터는 한자의 형태소 토큰 별로 분리된 코퍼스(corpus)에 기초한 학습을 통해 결정된 바이그램(bigram) 사전 및 유니그램(unigram) 사전을 포함할 수 있다. 여기서, 바이그램 사전은 토큰 간의 빈도수로 구축되고, 유니그램 사전은 토큰과 히라가나 간의 빈도수로 구축될 수 있다.

그러면, 일본어 자동 추천 시스템은 분할된 토큰에 대해 바이그램 사전을 검색하여 최대 확률을 나타내는 토큰을 선택하고, 선택된 토큰에 대해 유니그램 사전에 대응하는 히라가나로 변환할 수 있다.

일본어 자동 추천 시스템은 일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어의 발음을 로마자로 변환할 수 있다(S504). 그러면, 일본어 자동 추천 시스템은 변환된 로마자에 기초하여 단어에 대한 유사어를 검색할 수 있다(S505).

일례로, 일본어 자동 추천 시스템은 로마자로 변환된 단어의 유사도 점수를 고려하여 단어에 대한 유사어를 검색할 수 있다. 이 때, 유사도 점수는 단어의 길이에 따른 입력 빈도, 단어가 장음, 중점, 촉음 또는 탁음의 포함 여부에 따른 편집 거리 또는 단어의 원형 상태의 비교 정도 중 적어도 하나에 기초하여 결정될 수 있다.

그리고, 일본어 자동 추천 시스템은 검색된 유사어를 히라가나, 가타카나 또는 한자 중 어느 하나의 일본어 형태로 변환하여 추천할 수 있다(S506). 이 때, 유사어 추천부는 검색된 유사어를 입력된 단어의 일본어 형태와 다른 형태로 변환하여 추천할 수 있다.

일례로, 로마자로 변환된 상태의 유사도와 로마자로 변환되지 않은 상태의 유사도의 차이가 미리 설정한 기준을 초과하는 경우, 일본어 자동 추천 시스템은 유사어를 추천하지 않지 않을 수 있다. 다른 일례로, 입력된 단어가 추천된 유사어보다 더 많이 사용되는 경우, 일본어 자동 추천 시스템은 유사어를 추천하지 않을 수 있다.

일본어 자동 추천 시스템은 단계(S501)에서 입력된 단어가 오타로 판단된 경우, 유사도 점수 또는 단어 출현 빈도에 따른 편집 거리를 고려하여 검색된 유사어 중 상기 단어에 대한 정답 단어를 선택할 수 있다(S507).

도 5에서 구체적으로 설명되지 않은 부분은 도 1 내지 도 4의 설명을 참고할 수 있다.

또한 본 발명의 일실시예에 따른 일본어 자동 추천 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

100: 일본어 자동 추천 시스템
101: 오타 판단부
102: 한자-히라가나 변환부
103: 로마자 변환부
104: 유사어 검색부
105: 유사어 추천부
106: 정답 단어 선택부

Claims

일본어의 히라가나 형태 또는 가타카나 형태로 표현된 단어를 분석하여 상기 단어가 오타인지 여부를 판단하는 오타 판단부;
상기 단어가 오타인 경우 상기 단어의 발음을 로마자(romaji)로 변환하는 로마자 변환부;
상기 변환된 로마자에 기초하여 상기 단어에 대한 유사어를 검색하는 유사어 검색부; 및
상기 검색된 유사어 중 상기 단어에 대한 정답 단어를 선택하여 제공하는 정답 단어 선택부
를 포함하고,
상기 유사어 검색부는,
상기 로마자로 변환된 단어의 유사도 점수를 고려하여 상기 단어에 대한 유사어를 검색하고,
상기 정답 단어 선택부는,
상기 검색된 유사어 중에서 유사도 점수 또는 단어의 입력 빈도에 따른 편집 거리를 고려하여 상기 정답 단어를 선택하는 것을 특징으로 하는 일본어 자동 추천 시스템.
제1항에 있어서,
상기 오타 판단부는,
상기 단어가 미리 설정된 오타 데이터에 포함되는지 여부, 상기 단어의 입력 빈도 또는 문서 출현 빈도가 미리 설정된 기준 빈도보다 낮은지 여부, 또는 상기 단어가 형태소로 분리되는지 여부를 고려하여 상기 단어가 오타인지 여부를 판단하는 것을 특징으로 하는 일본어 자동 추천 시스템.
제1항에 있어서,
상기 유사도 점수는,
상기 단어가 장음, 중점, 촉음 또는 탁음을 포함하는지 여부에 따라 변경되는 것을 특징으로 하는 일본어 자동 추천 시스템.
제1항에 있어서,상기 유사도 점수는,
상기 단어의 길이에 따른 입력 빈도, 상기 단어가 장음, 중점, 촉음 또는 탁음의 포함 여부에 따른 편집 거리 또는 상기 단어의 원형 상태의 비교 정도 중 적어도 하나에 기초하여 결정되는 것을 특징으로 하는 일본어 자동 추천 시스템.
제1항에 있어서,
상기 유사어 검색부는,
상기 단어가 한자인 경우, 로마자로 변환된 형태의 비교 결과, 히라가나로 변환된 형태의 비교 결과 및 한자 원래 형태의 비교 결과를 고려하여 유사도 점수를 결정하는 것을 특징으로 하는 일본어 자동 추천 시스템.
제1항에 있어서,
상기 단어가 오타가 아닌 경우 상기 검색된 유사어를 상기 히라가나, 가타카나 또는 한자 중 어느 하나의 일본어 형태로 변환하여 추천하는 유사어 추천부
를 더 포함하는 일본어 자동 추천 시스템.
제6항에 있어서,
상기 유사어 추천부는,
(1) 로마자로 변환된 상태의 유사도와 로마자로 변환되지 않은 상태의 유사도의 차이가 미리 설정한 기준을 초과하는 경우, 상기 유사어를 추천하지 않거나, 또는
(2) 상기 단어가 상기 추천된 유사어보다 더 많이 사용되는 경우 상기 유사어를 추천하지 않는 것을 특징으로 하는 일본어 자동 추천 시스템.
제6항에 있어서,
상기 유사어 추천부는,
상기 검색된 유사어를 상기 단어의 일본어 형태와 다른 형태로 변환하여 추천하는 것을 특징으로 하는 일본어 자동 추천 시스템.