KR101049358B1 - 유사어 결정 방법 및 시스템 - Google Patents

유사어 결정 방법 및 시스템 Download PDF

Info

Publication number
KR101049358B1
KR101049358B1 KR1020080124248A KR20080124248A KR101049358B1 KR 101049358 B1 KR101049358 B1 KR 101049358B1 KR 1020080124248 A KR1020080124248 A KR 1020080124248A KR 20080124248 A KR20080124248 A KR 20080124248A KR 101049358 B1 KR101049358 B1 KR 101049358B1
Authority
KR
South Korea
Prior art keywords
language
strings
string
candidate
input string
Prior art date
Application number
KR1020080124248A
Other languages
English (en)
Other versions
KR20100065747A (ko
Inventor
김태일
기윤서
이도길
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080124248A priority Critical patent/KR101049358B1/ko
Priority to JP2009266174A priority patent/JP5323652B2/ja
Priority to CN2009102503983A priority patent/CN101751465B/zh
Publication of KR20100065747A publication Critical patent/KR20100065747A/ko
Application granted granted Critical
Publication of KR101049358B1 publication Critical patent/KR101049358B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Abstract

본 발명의 일 측면에 따른 유사어 결정 방법은 입력 문자열이 제1언어인지 또는 제2언어인지 여부를 판단하는 단계; 상기 입력 문자열이 상기 제2언어인 경우, 상기 제1언어로 표기된 후보 문자열들 중 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 단계; 및 상기 후보 문자열들 중 상기 입력 문자열과의 상기 편집 거리가 기준치 이하인 상기 제2언어로 표기한 문자열들에 해당하는 상기 제1언어로 표기된 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 단계를 포함한다.
검색, 추천 질의어, 편집 거리, 유사어, 외국어

Description

유사어 결정 방법 및 시스템{Method and System for Determining Similar Word with Input String}
본 발명은 검색 서비스에 관한 것으로서 보다 상세하게는 외국어 또는 해당 외국어 발음의 한국어 표기에 대한 유사어를 추천 질의어로 제공하는 방법 및 시스템에 관한 것이다.
최근 과학기술의 발전 및 경제 수준의 향상으로 인해 초고속 인터넷과 같은 통신망의 보급과 초고속 통신망 이용자의 급격한 증가가 이루어졌고, 초고속 통신망 이용자의 급격한 증가는 통신망을 통한 신규 서비스의 개발 및 서비스 아이템의 다양화를 가능하게 하였다. 이러한 통신망을 이용한 서비스 중 가장 일반적인 서비스가 검색 서비스라 할 수 있다.
검색 서비스란 사용자로부터 질의어가 입력되면, 입력된 질의어에 상응하는 검색 결과(예컨대, 입력된 질의어를 포함하는 웹 사이트, 입력된 질의어를 포함하는 기사, 또는 입력된 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.
그러나, 검색 서비스를 이용하는 사용자들은 질의어를 입력함에 있어서, 질 의어를 정확하게 입력하지 못하고 오타 질의어를 입력하거나 자신이 원하는 질의어를 정확히 알지 못하여 자신이 입력하기 원했던 질의어를 정확하게 입력하지 못할 수도 있는데, 이러한 경우 검색 서비스 제공자는 실제로 입력된 질의어를 기준으로 검색을 수행할 수 밖에 없어 결과적으로 사용자들은 자신이 원하는 검색결과를 제공 받을 수 없게 된다는 불편함이 있다.
이러한 불편함을 해결하기 위해 최근의 검색 서비스는, 사용자가 입력한 질의어에 대한 추천 질의어 제공 또는 연관 질의어 제공 등과 같은 다양한 검색 서비스를 제공하고 있는데, 여기서, 추천 질의어 제공이란, 사용자에 의해 입력된 질의어와 유사한 질의어들 중 일부를 추천 질의어로 제공하는 서비스를 의미한다.
특히, 이러한 추천 질의어를 제공함에 있어서, 사용자가 외국어에 익숙하지 않아 해당 외국어의 표기 또는 발음을 정확히 알지 못하는 경우에는 사용자가 검색하고자 하는 질의어의 외국어 표기 또는 해당 외국어 발음의 한국어 표기를 잘못 입력하여 사용자가 원하는 검색 결과를 정확하게 제공하지 못하는 문제점이 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 사용자가 검색하고자 하는 질의어에 대한 해당 외국어 표기 또는 발음을 정확히 알지 못하는 경우에도 유사한 외국어 문자열 또는 유사한 발음에 해당하는 외국어 문자열을 추천 질의어로 제공할 수 있는 유사어 결정 방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.
또한, 본 발명은 사용자가 검색하고자 하는 질의어가 외국어인 경우 해당 외국어를 모르지만 해당 외국어 발음의 모국어 표기를 아는 경우에도 발음이 유사한 외국어를 추천 질의어로 제공할 수 있는 유사어 결정 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.
또한, 본 발명은 사용자가 검색하고자 하는 질의어가 중국어, 영어 등 다양한 언어인 경우에도 유사한 단어를 추천 질의어로 제공할 수 있는 유사어 결정 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 유사어 결정 방법은 입력 문자열이 제1언어인지 또는 제2언어인지 여부를 판단하는 단계; 상기 입력 문자열이 상기 제2언어인 경우, 상기 제1언어로 표기된 후보 문자열들 중 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 단계; 및 상기 후보 문자열들 중 상기 입력 문자열과의 상기 편집 거리가 기준치 이하인 상기 제2언어로 표기한 문자열들에 해당하는 상기 제1언어로 표기된 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 단계를 포함한다.
여기서, 상기 제2언어가 모국어인 경우, 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들은 상기 후보 문자열들이 상기 모국어에 대한 음차 변환기에 의해 변환된 것을 특징으로 하며, 바람직하게, 상기 제2언어가 한국어인 경우, 상기 모국어에 대한 음차 변환기는 한국어 음차 변환기인 것을 특징으로 한다.
한편, 상기 판단 단계에서, 상기 입력 문자열이 상기 제1언어인 경우, 상기 후보 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 단계; 및 상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 편집 거리를 산출하는 단계에서, 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환 가능한지 여부를 판단하는 단계를 더 포함하며, 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환이 가능하지 않은 경우, 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 것을 특징으로 한다.
그리고, 본 발명의 일 실시예에 따른 유사어 결정 방법은 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환이 가능한 경우, 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환하는 단계; 및 상기 제1언어로 변환된 문자열과 상기 후보 문자열들과의 편집 거리를 산출하는 단계; 및 상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 단 계를 더 포함하는 것을 특징으로 한다.
이 때, 상기 변환하는 단계에서, 상기 제1언어가 외국어인 경우, 상기 입력 문자열을 해당 외국어에 대한 음차 복원기를 이용하여 상기 해당 외국어로 된 문자열로 변환하는 것을 특징으로 한다. 일 실시예에 있어서, 상기 제1언어가 일본어인 경우, 상기 해당 외국어에 대한 음차 복원기는 일본어 음차 복원기일 수 있다.
일 실시예에 있어서, 상기 제1언어는 외국어 중 어느 하나이며, 상기 제2언어는 모국어일 수 있다. 또한, 상기 입력 문자열 및 후보 문자열들은 검색 질의어일 수 있다.
한편, 본 발명의 일 실시예에 따른 유사어 결정 방법은 상기 판단 단계 이전에, 사용자 단말기로부터 상기 입력 문자열을 수신하는 단계를 더 포함하고, 상기 유사어 결정 단계 이후에, 상기 결정된 유사어를 추천 질의어로 상기 사용자 단말기로 제공하는 단계를 더 포함하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 후보 문자열들은 미리 저장된 후보 문자열들 중 상기 입력 문자열과의 편집 거리가 기준치 이하인 후보 문자열들 또는 상기 입력 문자열과 공통된 문자를 포함하고 있는 후보 문자열들 중 상기 입력 문자열과의 문자 유사도 점수가 상위 N위 이내인 후보 문자열들 중 적어도 하나에서 선정되는 것을 특징으로 한다.
여기서, 상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들은 상기 편집 거리 산출을 위한 각 연산 별로 와일드 카드 문자(Wild Card Character) 검색을 이용하여 선정되는 것을 특징으로 하며, 상기 입력 문자열과 공 통된 문자를 포함하고 있는 후보 문자열들은 상기 입력 문자열과 공통된 ngram을 포함하고 있는 후보 문자열들이고, 상기 문자 유사도 점수는 상기 입력 문자열과 공통된 ngram의 크기, 상기 공통된 ngram의 개수, 상기 공통된 ngram이 발견된 위치의 유사도, 및 상기 입력 문자열과 상기 각 후보 문자열간의 길이 차를 이용하여 결정되는 것을 특징으로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 유사어 결정 시스템은 사용자 단말기로부터 입력 문자열을 수신하고, 상기 입력 문자열에 대한 유사어를 추천 질의어로 상기 사용자 단말기로 제공하는 사용자 인터페이스부; 및
상기 입력 문자열이 제2언어인 경우, 제1언어로 표기된 후보 문자열들 중 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리가 기준치 이하인 상기 제2언어로 표기한 문자열들에 해당하는 상기 제1언어로 표기된 후보 문자열들을 상기 입력 문자열의 유사어로 결정하여 상기 사용자 인터페이스부로 제공하는 유사어 결정부를 포함한다.
본 발명에 따르면, 사용자가 검색하고자 하는 질의어가 외국어인 경우 정확한 외국어를 모르는 경우에도 표기가 유사한 외국어를 추천 질의어로 제공할 수 있다는 효과가 있다.
또한, 본 발명은 사용자가 검색하고자 하는 질의어가 외국어인 경우 해당 외국어를 모르지만 해당 외국어 발음의 모국어 표기를 아는 경우에도 발음이 유사한 외국어를 추천 질의어로 제공할 수 있다는 효과가 있다.
또한, 본 발명은 사용자가 검색하고자 하는 질의어가 중국어, 영어 등 다양한 언어인 경우에도 유사한 단어를 추천 질의어로 제공할 수 있다는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 유사어 결정 시스템이 포함된 네트워크 구성을 보여주는 도면이다. 도시된 바와 같이, 유사어 결정 시스템(100)은 인터넷(110)을 통해 연결된 사용자 단말기(120)로부터 입력 문자열을 수신하고, 수신된 입력 문자열에 대한 유사어를 결정하여 결정된 유사어를 추천 질의어로 사용자 단말기(120)로 제공한다. 이러한 유사어 결정 시스템(100)은 도시된 바와 같이, 사용자 인터페이스부(130), 후보 문자열 제공부(140) 및 유사어 결정부(160)를 포함한다.
먼저, 사용자 인터페이스부(130)는 사용자 단말기(120)로부터 외국어로 표기된 입력 문자열 또는 상기 외국어의 발음이 한국어로 표기된 입력 문자열을 수신하고, 후술할 유사어 결정부(160)로부터 유사어들은 입력 문자열에 대한 추천 질의어로 사용자 단말기(120)로 제공한다.
후보 문자열 제공부(140)는 사용자에게 제공할 추천 질의어 결정을 위해 입력 문자열과의 편집 거리 산출을 위해 후보 문자열들을 유사어 결정부(160)로 제공한다. 본 발명에서의 후보 문자열들은 미리 저장된 질의어들 중에서 일부가 후보 문자열들로 선정된 것으로, 유사어 결정부(150)는 미리 저장해 놓은 모든 질의어들을 대상으로 입력 문자열과 편집 거리를 계산하는 것이 아니라, 후보 문자열 제공 부(140)로부터 제공된 후보 문자열들과 입력 문자열과의 편집 거리를 계산함으로써 입력 질의어에 대한 유사어 제공 서비스의 응답 속도를 개선할 수 있다.
여기서, 후보 문자열 제공부(140)에서 제공하는 후보 문자열들은 입력 문자열과의 편집 거리가 기준치 이하인 후보 문자열들 또는 입력 문자열과 공통된 문자를 포함하고 있는 후보 문자열들 중 입력 문자열과의 문자 유사도 점수가 상위 N위 이내인 후보 문자열들 중 적어도 하나를 데이터베이스(미도시)에 미리 저장해 놓을 수 있다.
또한, 상기 후보 문자열들 중 편집 거리가 기준치 이하인 후보 문자열들은 편집 거리 산출을 위한 각 연산 별로 와일드 카드 문자(Wild Card Character) 검색을 이용하여 선정할 있다.
여기서, 각 연산은 삽입연산, 삭제연산, 교체연산, 및 전위연산을 포함하는 것으로서, 삽입연산은 특정 문자열에 새로운 문자를 추가함에 따라 발생하는 연산을 의미하고, 삭제연산은 특정 문자열에 포함된 문자를 삭제함에 따라 발생하는 연산을 의미하며, 교체연산은 특정 문자열에 포함된 문자를 새로운 문자로 교체함에 따라 발생하는 연산을 의미하고, 전위연산은 특정 문자열에 포함된 서로 인접한 문자의 순서를 변경함에 따라 발생하는 연산을 의미한다.
그리고, 상기 입력 문자열과 공통된 문자를 포함하고 있는 후보 문자열들은 상기 입력 문자열과 공통된 ngram을 포함하고 있는 후보 문자열들이고, 상기 문자 유사도 점수는 상이 입력 문자열과 공통된 ngram의 크기, 상기 공통된 ngram의 개수, 상기 공통된 ngram이 발견된 위치의 유사도 및 상기 입력 문자열과 상기 각 후 보 문자열간의 길이 차를 이용하여 결정될 수 있는 것이다.
유사어 결정부(150)는 입력 문자열이 제1언어의 발음에 해당하는 제2언어로 표기된 문자열인 경우, 후보 문자열 제공부(140)에 의해 제공된 미리 저장된 후보 문자열 중 상기 후보 문자열들의 발음에 해당하는 상기 제2언어로 표기된 문자열과 상기 입력 문자열과의 편집 거리가 기준치 이하인 상기 제2언어로 표기된 문자열에 해당하는 후보 문자열들을 상기 입력 문자열의 유사어로 결정하여 사용자 인터페이스부(130)로 제공한다. 이를 위해 유사어 결정부(150)는 도 2에 도시된 바와 같이, 입력 문자열 판단부(210), 문자열 변환 여부 판단부(220), 제1편집 거리 산출부(230), 제1결정부(240), 제2편집 거리 산출부(250), 제2결정부(260) 및 문자열 변환부(270)을 포함한다. 이하에서는 도 2를 참조하여 유사어 결정부(150)를 구체적으로 설명한다.
입력 문자열 판단부(210)는 입력 문자열이 제1언어로 표기된 문자열인지 또는 제1언어의 발음에 해당하는 제2언어로 표기된 문자열인지 여부를 판단한다. 일 실시예에 있어서, 제1언어는 외국어 중 어느 하나일 수 있으며, 제2언어는 모국어일 수 있다. 예를 들어, 대한민국에 있어서, 제1언어는 외국어인 일본어, 중국어 및 영어등 다양한 외국어 중 하나일 수 있으며, 제2언어는 모국어인 한국어일 수 있다. 만일, 상기 제1언어가 일본어인 경우, 상기 입력 문자열은 히라가나, 카타카나 및 한자 중 적어도 하나를 포함할 수도 있다. 여기서, 상기 입력 문자열 및 후보 문자열들은 검색 질의어일 수 있다.
일 실시예예 있어서, 입력 문자열 판단부(210)는 입력 문자열의 각 글자들의 문자 코드에 의해 입력 문자열이 제1언어로 표기된 문자열인지 제2언어로 표기된 문자열인지 판단할 수 있다. 예를 들어, 제1언어가 일본어, 제2언어가 한국어라고 가정하면, 입력 문자열 판단부(210)는 입력 문자열의 모든 음절의 각각의 문자 코드를 확인하여, 모든 글자가 한글인 경우에만 입력 문자열이 한국어인 것으로 판단할 수 있으며, 일본어와 한국어가 함께 표기되어 있는 경우에는 입력 문자자열이 일본어인 것으로 판단할 수 있다. 좀 더 바람직하게는 입력 문자열의 각 문자를 UCS-2 코드로 변환하여 유니코드 값이 0xAC00 과 0xD7A3 라는 영역 내에 있으면 입력 문자열을 한국어인 것으로 판단할 수 있다.
한편, 본 발명에서 제1언어 및 제2언어는 본 발명에 기재된 언어에 국한되지 않으며, 제1언어 및 제2언어는 다양한 언어일 수 있다. 또한, 설명의 편의상 이하에서는, 제1언어가 일본어 및 제2언어가 한국어인 것으로 가정하고 설명하기로 한다.
다시 말해, 입력 문자열 판단부(210)는 사용자 단말기를 통해 입력된 문자열이 일본어 문자열인지 또는 일본어의 발음이 한국어로 표기된 문자열인지 여부를 판단한다.
문자열 변환 여부 판단부(220)는 입력 문자열 판단부(210)에 의해 입력 문자열이 상기 제2언어로 표기된 입력 문자열인 것으로 판단된 경우, 상기 입력 문자열이 상기 제1언어로 표기된 문자열로 변환가능한지 여부를 판단한다. 예를 들어, 입력 문자열이 "탓뿌리"인 경우 해당 일본어 표기인 "たっぷり"가 존재하여 일본어로 변환이 가능한 것으로, 입력 문자열이 "탓뿔리"인 경우에는 해당 일본어 표기가 존 재하지 않아 일본어로 변환이 불가능한 것으로 판단을 한다.
제1편집 거리 산출부(230)는 상기 입력 문자열 판단부(210)에 의해 상기 입력 문자열이 상기 제2언어로 표기된 문자열인 것으로 판단된 경우, 상기 후보 문자열들의 발음에 해당하는 상기 제2언어로 표기된 문자열과 상기 입력 문자열과의 편집 거리를 산출한다. 예를 들어, 입력 문자열이 발음이 한국어로 표기된 문자열인 "탓뿌리"인 경우, 입력 문자열인 "탓뿌리"와 후보 문자열들의 발음인 한국어 문자열과의 편집 거리를 산출한다.
일 실시예에 있어서, 제1편집 거리 산출부(230)는 상기 문자열 변환 여부 판단부(220)에 의해, 상기 제2언어로 표기된 입력 문자열을 상기 제1언어로 표기된 문자열로 변환이 가능하지 않은 것으로 판단된 경우, 상기 후보 문자열들의 발음에 해당하는 상기 제2언어로 표기된 문자열과 상기 입력 문자열과의 편집 거리를 산출할 수 있다. 다시 말해, 상술한 바와 같이, "탓뿔리"와 같이 한국어로 표기된 입력 문자열이 일본어로 변환이 불가능한 경우에는, "탓뿔리"와 후보 문자열들의 발음에 해당하는 "탓뿌리", "탓쓰루, "타타에루"등과 같은 문자열과 편집 거리를 산출하는 것이다.
제1결정부(240)는 상기 후보 문자열들 중 상기 입력 문자열과의 상기 편집 거리가 기준치 이하인 상기 제2언어로 표기된 문자열에 해당하는 후보 문자열들을 상기 입력 문자열의 유사어로 결정한다. 예를 들어, 입력 문자열이 한국어로 표기된 문자열인 "탓뿌리"인 경우 "탓뿌리"와 편집 거리가 기준치 이하인 "탓뿌리", "탓쓰루", "타타에루"에 해당하는 후보 문자열인 "たっぷり", "たっする", "たたえ る"가 입력 문자열의 유사어로 결정될 수 있다. 한편, 본 발명에서의 편집 거리의 기준치는 상황에 따라 변경이 가능하며, 특정 수치로 한정되지는 않는다.
여기서, 상기 제2언어가 한국어인 경우, 상기 후보 문자열들의 발음에 해당하는 제2언어로 표기된 문자열은 상기 후보 문자열들에 대한 한국어 음차 변환기를 이용하여 획득될 수 있다.
제2편집 거리 산출부(250)는 상기 입력 문자열 판단부(210)에 의해 상기 입력 문자열이 상기 제1언어로 표기된 문자열로 판단된 경우, 상기 후보 문자열들과 상기 입력 문자열과의 편집 거리를 산출한다. 예를 들어, 입력 문자열이 일본어인 "たっぷる"가 입력된 경우, 후보 문자열들과 입력 문자열인 "たっぷる"와의 편집 거리를 산출한다.
제2결정부(260)는 상기 후보 문자열들 중 상기 제2편집 거리 산출부(250)에 의해 산출된 편집 거리가 기준치 이하인 후보 문자열들을 상기 입력 문자열의 유사어로 결정한다. 예를 들어, 입력 문자열이 일본어인 "たっぷる"인 경우, 후보 문자열들과 입력 문자열인 "たっぷる"와의 편집 거리가 기준치 이하인 후보 문자열인 "たっぷり", "たっする", "たたえる"를 입력 문자열인 "たっぷる"의 유사어로 결정한다.
문자열 변환부(270)는 상기 문자열 변환 여부 판단부(220)에 의해 상기 제2언어로 표기된 입력 문자열이 상기 제1언어로 표기된 문자열로 변환가능한 것으로 판단된 경우, 상기 제2언어로 표기된 입력 문자열을 상기 제1언어로 표기된 문자열로 변환한다. 여기서, 제2편집 거리 산출부(250)는 문자열 변환부(270)에 의해 변 환된 상기 제1언어로 표기된 문자열로 변환된 입력 문자열과 상기 후보 문자열과의 편집 거리를 산출할 수 있다.
일 실시예에 있어서, 상기 문자열 변환부(270)는 상기 제1언어가 일본어인 경우, 상기 입력 문자열을 일본어 문자열로 변환하는 일본어 음차 복원기일 수 있다.
한편, 상술한 실시예에 있어서는 후보 문자열 제공부(140)가 유사어 결정 시스템(100)에 포함되는 것으로 기재하였으나, 변형된 실시예에 있어서는 별도의 시스템에 포함될 수도 있으며, 데이터베이스(미도시)가 그 역할을 대신할 수도 있을 것이다.
이하에서는 도 3을 참조하여 본 발명에 따른 유사어 결정 방법을 설명한다. 도 3은 본 발명의 일 실시예에 따른 유사어 결정 방법을 보여주는 플로우차트이다.
도시된 바와 같이, 사용자에 의해 입력된 문자열을 사용자 단말기를 통해 수신한다(S300).
다음으로, 입력 문자열이 제1언어인지 또는 제2언어인지 여부를 판단한다(S310). 여기서, 제1언어는 일본어, 중국어 및 영어 중 하나일 수 있으며, 제2언어는 한국어일 수 있다. 다시 말해, 입력 문자열이 일본어인지 또는 해당 일본어 발음의 한국어 표기인지 여부를 판단한다. 또한, 상기 제1언어가 일본어인 경우, 상기 입력 문자열은 히라가나, 카타카나 및 한자 중 적어도 하나를 포함할 수 있다.
다음으로, 입력 문자열이 제2언어인 경우, 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환 가능한지 여부를 판단한다(S320). 예를 들어, 입력 문자열이 "탓뿌리"인 경우 해당 일본어 표기인 "たっぷり"가 존재하여 일본어로 변환이 가능한 것으로, 입력 문자열이 "탓뿔리"인 경우에는 해당 일본어 표기가 존재하지 않아 일본어로 변환이 불가능한 것으로 판단할 수 있다.
다음으로, 입력 문자열이 상기 제1언어로 변환이 불가능한 경우, 상기 제1언어로 표기된 후보 문자열들 중 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리를 산출한다(S330). 여기서, 상기 입력 문자열 및 후보 문자열들은 검색 질의어일 수 있다. 예를 들어, 입력 문자열이 발음이 한국어로 표기된 문자열인 "탓뿌리"인 경우, 입력 문자열인 "탓뿌리"와 후보 문자열들의 발음을 한국어로 표기한 문자열들과의 편집 거리를 산출한다.
여기서, 후보 문자열들은 미리 저장된 후보 문자열들 중 입력 문자열과의 편집 거리가 기준치 이하인 후보 문자열들 또는 입력 문자열과 공통된 문자를 포함하고 있는 후보 문자열들 중 입력 문자열과의 문자 유사도 점수가 상위 N위 이내인 후보 문자열들 중 적어도 하나일 수 있다.
또한, 상기 후보 문자열들 중 편집 거리가 기준치 이하인 후보 문자열들은 편집 거리 산출을 위한 각 연산 별로 와일드 카드 문자(Wild Card Character) 검색을 이용하여 선정할 있다.
그리고, 상기 입력 문자열과 공통된 문자를 포함하고 있는 후보 문자열들은 상기 입력 문자열과 공통된 ngram을 포함하고 있는 후보 문자열들이고, 상기 문자 유사도 점수는 상이 입력 문자열과 공통된 ngram의 크기, 상기 공통된 ngram의 개 수, 상기 공통된 ngram이 발견된 위치의 유사도 및 상기 입력 문자열과 상기 각 후보 문자열간의 길이 차를 이용하여 결정될 수 있는 것이다.
다음으로, 상기 후보 문자열들 중 상기 입력 문자열과의 상기 편집 거리가 기준치 이하인 상기 제2언어로 표기한 문자열들에 해당하는 상기 제1언어로 표기된 후보 문자열들을 상기 입력 문자열의 유사어로 결정한다(S340). 예를 들어, 입력 문자열이 한국어로 표기된 문자열인 "탓뿌리"인 경우 "탓뿌리"와 편집 거리가 기준치 이하인 "탓뿌리", "탓쓰루", "타타에루"에 해당하는 후보 문자열인 "たっぷり", "たっする", "たたえる"가 입력 문자열의 유사어로 결정될 수 있다.
마지막으로, 결정된 유사어를 추천 질의어로 사용자 단말기로 제공한다(S350).
한편, 상기 S310단계에서 입력 문자열이 제1언어인 경우, 상기 후보 문자열들과 상기 입력 문자열과의 편집 거리를 산출하며(S360), 상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들을 상기 입력 문자열의 유사어로 결정한다(S370). 예를 들어, 입력 문자열이 일본어인 "たっぷる"인 경우, 후보 문자열들과 입력 문자열인 "たっぷる"와의 편집 거리가 기준치 이하인 후보 문자열인 "たっぷり", "たっする", "たたえる"를 입력 문자열인 "たっぷる"의 유사어로 결정한다.
또한, 상기 S320단계에서 입력 문자열이 상기 제1언어로 변환이 가능한 경우, 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환하며(S380), 상기 제1언어로 변환된 입력 문자열과 상기 후보 문자열들과의 편집 거리를 산출한다(S360).
상술한 유사어 결정 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
한편, 본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명의 일 실시예에 따른 유사어 결정 시스템의 개략적인 블록도이다.
도 2는 도 1에 도시된 유사어 결정부의 세부 구성을 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 따른 유사어 결정 방법을 보여주는 플로우차트이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 유사어 결정 시스템 110: 인터넷
120: 사용자 단말기 130: 사용자 인터페이스부
140: 후보 문자열 제공부 150: 유사어 결정부

Claims (22)

  1. 입력 문자열이 제1언어인지 또는 제2언어인지 여부를 판단하는 단계;
    상기 입력 문자열이 상기 제2언어인 경우, 상기 제1언어로 표기된 후보 문자열들 중 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 단계; 및
    상기 후보 문자열들 중 상기 입력 문자열과의 상기 편집 거리가 기준치 이하인 상기 제2언어로 표기한 문자열들에 해당하는 상기 제1언어로 표기된 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 단계를 포함하는 것을 특징으로 하는 유사어 결정 방법.
  2. 제 1 항에 있어서, 상기 제2언어가 모국어인 경우,
    상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들은 상기 후보 문자열들이 상기 모국어에 대한 음차 변환기에 의해 변환된 것을 특징으로 하는 유사어 결정 방법.
  3. 제 1 항에 있어서, 상기 판단 단계에서,
    상기 입력 문자열이 상기 제1언어인 경우, 상기 후보 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 단계; 및
    상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들을 상 기 입력 문자열의 유사어로 결정하는 단계를 더 포함하는 것을 특징으로 하는 유사어 결정 방법.
  4. 제 1 항에 있어서, 상기 편집 거리를 산출하는 단계에서,
    상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환 가능한지 여부를 판단하는 단계를 더 포함하며,
    상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환이 가능하지 않은 경우, 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 것을 특징으로 하는 유사어 결정 방법.
  5. 제 1 항에 있어서,
    상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환이 가능한 경우, 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환하는 단계; 및
    상기 상기 제1언어로 변환된 문자열과 상기 후보 문자열들과의 편집 거리를 산출하는 단계; 및
    상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 단계를 더 포함하는 것을 특징으로 하는 유사어 결정 방법.
  6. 제 5 항에 있어서, 상기 제1언어로 변환하는 단계에서,
    상기 제1언어가 외국어인 경우, 상기 제2언어로 된 입력 문자열을 해당 외국어에 대한 음차 복원기를 이용하여 상기 해당 외국어로 된 문자열로 변환하는 것을 특징으로 하는 외국어 유사어 결정 방법.
  7. 제 1 항에 있어서,
    상기 제1언어는 외국어 중 어느 하나이며, 상기 제2언어는 모국어인 것을 특징으로 하는 유사어 결정 방법.
  8. 제 1 항에 있어서,
    상기 입력 문자열 및 후보 문자열들은 검색 질의어인 것을 특징으로 하는 유사어 결정 방법.
  9. 제 1 항에 있어서,
    상기 판단 단계 이전에, 사용자 단말기로부터 상기 입력 문자열을 수신하는 단계를 더 포함하고,
    상기 유사어 결정 단계 이후에, 상기 결정된 유사어를 추천 질의어로 상기 사용자 단말기로 제공하는 단계를 더 포함하는 것을 특징으로 하는 유사어 결정 방법.
  10. 제 1 항에 있어서, 상기 후보 문자열들은
    미리 저장된 후보 문자열들 중 상기 입력 문자열과의 편집 거리가 기준치 이하인 후보 문자열들 또는 상기 입력 문자열과 공통된 문자를 포함하고 있는 후보 문자열들 중 상기 입력 문자열과의 문자 유사도 점수가 상위 N위 이내인 후보 문자열들 중 적어도 하나에서 선정되는 것을 특징으로 하는 유사어 결정 방법.
  11. 제 10 항에 있어서,
    상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들은 상기 편집 거리 산출을 위한 각 연산 별로 와일드 카드 문자(Wild Card Character) 검색을 이용하여 선정되는 것을 특징으로 하는 유사어 결정 방법.
  12. 제 10 항에 있어서,
    상기 입력 문자열과 공통된 문자를 포함하고 있는 후보 문자열들은 상기 입력 문자열과 공통된 ngram을 포함하고 있는 후보 문자열들이고,
    상기 문자 유사도 점수는 상기 입력 문자열과 공통된 ngram의 크기, 상기 공통된 ngram의 개수, 상기 공통된 ngram이 발견된 위치의 유사도, 및 상기 입력 문자열과 상기 각 후보 문자열간의 길이 차를 이용하여 결정되는 것을 특징으로 하는 유사어 결정 방법.
  13. 제 1 항 내지 제 12 항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 기록매체.
  14. 사용자 단말기로부터 입력 문자열을 수신하고, 상기 입력 문자열에 대한 유사어를 추천 질의어로 상기 사용자 단말기로 제공하는 사용자 인터페이스부; 및
    상기 입력 문자열이 제2언어인 경우, 제1언어로 표기된 후보 문자열들 중 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리가 기준치 이하인 상기 제2언어로 표기한 문자열들에 해당하는 상기 제1언어로 표기된 후보 문자열들을 상기 입력 문자열의 유사어로 결정하여 상기 사용자 인터페이스부로 제공하는 유사어 결정부를 포함하는 것을 특징으로 하는 유사어 결정 시스템.
  15. 제 14 항에 있어서, 상기 유사어 결정부는
    상기 입력 문자열이 제1언어인지 또는 제2언어인지 여부를 판단하는 입력 문자열 판단부;
    상기 입력 문자열이 상기 제2언어인 경우, 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열과 상기 입력 문자열과의 편집 거리를 산출하는 제1편집 거리 산출부; 및
    상기 후보 문자열들 중 상기 입력 문자열과의 상기 편집 거리가 기준치 이하인 상기 제2언어로 표기한 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 제1결정부를 포함하는 것을 특징으로 하는 유사어 결정 시스템.
  16. 제 15 항에 있어서, 상기 유사어 결정부는
    상기 제2언어로 표기된 입력 문자열을 상기 제1언어로 표기된 문자열로 변환 가능한지 여부를 판단하는 문자열 변환 여부 판단부를 더 포함하며,
    상기 제1편집 거리 산출부가 상기 제2언어로 된 문자열을 상기 제1언어로 변환이 가능하지 않은 경우, 상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 것을 특징으로 하는 유사어 결정 시스템.
  17. 제 14 항에 있어서, 상기 제2언어가 모국어인 경우
    상기 후보 문자열들의 발음을 상기 제2언어로 표기한 문자열들은 상기 후보 문자열들이 상기 모국어에 대한 음차 변환기에 의해 변환된 것을 특징으로 하는 유사어 결정 시스템.
  18. 제 14 항에 있어서, 상기 유사어 결정부는
    상기 입력 문자열이 상기 제1언어인 경우, 상기 후보 문자열들과 상기 입력 문자열과의 편집 거리를 산출하는 제2편집 거리 산출부; 및
    상기 후보 문자열들 중 상기 편집 거리가 기준치 이하인 후보 문자열들을 상기 입력 문자열의 유사어로 결정하는 제2결정부를 더 포함하는 것을 특징으로 하는 유사어 결정 시스템.
  19. 제 18 항에 있어서, 상기 유사어 결정부는
    상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환이 가능한 경우, 상기 제2언어로 된 입력 문자열을 상기 제1언어로 변환하는 문자열 변환부를 더 포함하며,
    상기 제2편집 거리 산출부는 상기 제1언어로 변환된 문자열과 상기 후보 문자열들과의 편집 거리를 산출하는 것을 특징으로 하는 유사어 결정 시스템.
  20. 제 19 항에 있어서, 상기 문자열 변환부는
    상기 제1언어가 외국어인 경우, 상기 제2언어로 된 입력 문자열을 해당 외국어로 된 문자열로 변환하는 상기 해당 외국어에 대한 음차 복원기인 것을 특징으로 하는 외국어 유사어 결정 시스템.
  21. 제 14 항에 있어서,
    상기 제1언어는 외국어 중 어느 하나이며, 상기 제2언어는 모국어인 것을 특징으로 하는 유사어 결정 시스템.
  22. 제 14 항에 있어서,
    상기 입력 문자열 및 후보 문자열들은 검색 질의어인 것을 특징으로 하는 유사어 결정 시스템.
KR1020080124248A 2008-12-08 2008-12-08 유사어 결정 방법 및 시스템 KR101049358B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020080124248A KR101049358B1 (ko) 2008-12-08 2008-12-08 유사어 결정 방법 및 시스템
JP2009266174A JP5323652B2 (ja) 2008-12-08 2009-11-24 類似語決定方法およびシステム
CN2009102503983A CN101751465B (zh) 2008-12-08 2009-12-07 相似词决定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080124248A KR101049358B1 (ko) 2008-12-08 2008-12-08 유사어 결정 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20100065747A KR20100065747A (ko) 2010-06-17
KR101049358B1 true KR101049358B1 (ko) 2011-07-13

Family

ID=42346105

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080124248A KR101049358B1 (ko) 2008-12-08 2008-12-08 유사어 결정 방법 및 시스템

Country Status (3)

Country Link
JP (1) JP5323652B2 (ko)
KR (1) KR101049358B1 (ko)
CN (1) CN101751465B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101286296B1 (ko) 2012-11-29 2013-07-15 김건오 워드그래프 관리 방법 및 시스템
KR20200126896A (ko) * 2019-04-30 2020-11-09 정철환 작명을 지원하는 전자 장치, 방법, 및 컴퓨터 프로그램

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268176B (zh) * 2012-06-26 2017-10-31 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法
DE112013006764T5 (de) * 2013-03-04 2015-11-19 Mitsubishi Electric Corporation Suchvorrichtung
KR101483433B1 (ko) * 2013-03-28 2015-01-16 (주)이스트소프트 오타 교정 시스템 및 오타 교정 방법
CN104239495B (zh) * 2014-09-09 2018-06-05 百度在线网络技术(北京)有限公司 搜索方法和搜索装置
KR101699478B1 (ko) * 2015-06-23 2017-01-25 주식회사 비엔알아이 네이밍 분석 서버 및 분석 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010035679A (ko) * 1999-10-01 2001-05-07 윤덕용 외래어 음차표기의 음성적 거리 계산방법
KR20050032759A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
KR20080000801A (ko) * 2006-06-28 2008-01-03 엔에이치엔(주) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템
KR20080003364A (ko) * 2005-04-25 2008-01-07 마이크로소프트 코포레이션 대체 단어들을 제안하는 컴퓨터로 구현되는 방법, 대체단어들을 제안하기 위한 후보 표를 발생시키는 컴퓨터로구현되는 방법 및 대체 단어들을 제안하는 철자 검사시스템

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3285149B2 (ja) * 1990-04-27 2002-05-27 富士ゼロックス株式会社 外国語電子辞書検索方法及び装置
JPH0628396A (ja) * 1992-07-06 1994-02-04 Canon Inc 電子化辞書装置
JPH08339376A (ja) * 1995-06-12 1996-12-24 Toshiba Corp 外国語検索装置及び情報検索システム
JP2000127647A (ja) * 1998-04-27 2000-05-09 Nobuyuki Sotani カナ見出しによる英単語の検索・調査用辞書および英単語の検索・調査装置
JP2000231559A (ja) * 1999-02-12 2000-08-22 Matsushita Electric Ind Co Ltd 情報処理装置
JP3677016B2 (ja) * 2002-10-21 2005-07-27 富士ゼロックス株式会社 外国語電子辞書検索装置
JP4035111B2 (ja) * 2004-03-10 2008-01-16 日本放送協会 対訳語抽出装置、及び対訳語抽出プログラム
JP4936650B2 (ja) * 2004-07-26 2012-05-23 ヤフー株式会社 類似単語検索装置、その方法、そのプログラム、および、情報検索装置
JP4511892B2 (ja) * 2004-07-26 2010-07-28 ヤフー株式会社 類義語検索装置、その方法、そのプログラム、および、情報検索装置
KR100643801B1 (ko) * 2005-10-26 2006-11-10 엔에이치엔(주) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
JP2008084070A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 構造化文書検索装置およびプログラム
JP2008140074A (ja) * 2006-11-30 2008-06-19 Casio Comput Co Ltd 例文検索装置および例文検索処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010035679A (ko) * 1999-10-01 2001-05-07 윤덕용 외래어 음차표기의 음성적 거리 계산방법
KR20050032759A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
KR20080003364A (ko) * 2005-04-25 2008-01-07 마이크로소프트 코포레이션 대체 단어들을 제안하는 컴퓨터로 구현되는 방법, 대체단어들을 제안하기 위한 후보 표를 발생시키는 컴퓨터로구현되는 방법 및 대체 단어들을 제안하는 철자 검사시스템
KR20080000801A (ko) * 2006-06-28 2008-01-03 엔에이치엔(주) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101286296B1 (ko) 2012-11-29 2013-07-15 김건오 워드그래프 관리 방법 및 시스템
KR20200126896A (ko) * 2019-04-30 2020-11-09 정철환 작명을 지원하는 전자 장치, 방법, 및 컴퓨터 프로그램
KR102353381B1 (ko) * 2019-04-30 2022-01-19 정철환 작명을 지원하는 전자 장치, 방법, 및 컴퓨터 프로그램
US11481556B2 (en) 2019-04-30 2022-10-25 Chul Hwan Jung Electronic device, method, and computer program which support naming

Also Published As

Publication number Publication date
KR20100065747A (ko) 2010-06-17
CN101751465A (zh) 2010-06-23
JP5323652B2 (ja) 2013-10-23
CN101751465B (zh) 2013-05-08
JP2010134922A (ja) 2010-06-17

Similar Documents

Publication Publication Date Title
KR101049358B1 (ko) 유사어 결정 방법 및 시스템
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
KR101083540B1 (ko) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
CN105068997B (zh) 平行语料的构建方法及装置
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
US20110320464A1 (en) Retrieval device
KR20100060165A (ko) 유사어 결정 방법 및 시스템
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
JP2019159826A (ja) 表示制御プログラム、表示制御装置及び表示制御方法
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
US20160283446A1 (en) Input assistance device, input assistance method and storage medium
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
US8977538B2 (en) Constructing and analyzing a word graph
JP6055267B2 (ja) 文字列分割装置、モデルファイル学習装置および文字列分割システム
KR20130122437A (ko) 영어의 한글 표기 방법 및 시스템
JP2017041207A (ja) 構造解析装置、方法、及びプログラム
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
JP2010211004A (ja) 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム
JP2006053866A (ja) カタカナ文字列の表記ゆれの検出方法
JP5159657B2 (ja) 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
JP6556411B2 (ja) 読み推定装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150701

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 9