KR101449551B1 - 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체 - Google Patents

유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체 Download PDF

Info

Publication number
KR101449551B1
KR101449551B1 KR1020110106952A KR20110106952A KR101449551B1 KR 101449551 B1 KR101449551 B1 KR 101449551B1 KR 1020110106952 A KR1020110106952 A KR 1020110106952A KR 20110106952 A KR20110106952 A KR 20110106952A KR 101449551 B1 KR101449551 B1 KR 101449551B1
Authority
KR
South Korea
Prior art keywords
sentence
language
similarity
similar
unit
Prior art date
Application number
KR1020110106952A
Other languages
English (en)
Other versions
KR20130042839A (ko
Inventor
김정세
김상훈
이수종
왕지현
윤승
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110106952A priority Critical patent/KR101449551B1/ko
Priority to US13/598,017 priority patent/US20130103382A1/en
Publication of KR20130042839A publication Critical patent/KR20130042839A/ko
Application granted granted Critical
Publication of KR101449551B1 publication Critical patent/KR101449551B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

통상적인 유사문장 검색 기술은, 입력부, 유사도 계산부, 출력부 등으로 구성되며, 유사도 계산부의 결과인 문장 유사도 확률값이 동일하게 발생될 수 있다. 유사도 계산 결과가 입력문장과 완전히 일치하는 경우에는 1순위로 순위를 조정하면 되지만, 완전히 일치하지 않을 경우에는 동일한 확률값을 가진 문장들 중에서 어느 것을 상위로 결정하느냐에 대한 문제가 발생한다. 이를 위해 다양한 확률값을 활용한 유사문장 검색의 순위 재조정 기법이 있으나, 번역된 제2 언어에 대한 순위 재조정 기법은 전무한 실정이다. 이에 본 발명의 실시예에서는, 문장간 유사도 측정시 검색된 문장들의 순위를 재조정하여 입력문장과 유사가 높은 최적의 문장을 제공함으로써 유사 문장검색 기술 성능을 향상시킬 수 있는 유사문장 검색 기술을 제안하고자 한다.

Description

유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체{METHOD AND APPARATUS FOR SEARCHING SIMILAR SENTENCE, STORAGE MEDIA FOR SIMILAR SENTENCE SEARCHING SCHEME}
본 발명은 유사문장 검색 기술에 관한 것으로, 특히 문장간 유사도 측정시 검색된 문장들의 순위를 재조정하여 입력문장과 보다 유사한 의도의 문장을 제공함으로써 유사 문장검색 기술 성능을 향상시키는데 적합한 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체에 관한 것이다.
통상적인 유사문장 검색 기술은, 입력부, 유사도 계산부, 출력부 등으로 구성되며, 유사도 계산부의 결과인 문장 유사도 확률값이 동일하게 발생될 수 있다.
유사도 계산 결과가 입력문장과 완전히 일치하는 경우에는 1순위로 순위를 조정하면 되지만, 완전히 일치하지 않을 경우에는 동일한 확률값을 가진 문장들 중에서 어느 것을 상위로 결정하느냐에 대한 문제가 발생한다.
이를 위해 다양한 확률값을 활용한 유사문장 검색의 순위 재조정 기법이 있으나, 번역된 제2 언어에 대한 순위 재조정 기법은 전무한 실정이다.
한국공개특허 2010-006361호, 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법, 2010.01.19 공개 미국특허 7818315호, Re-ranking search results based on query log, 2010.10.19 등록
이에 본 발명의 실시예에서는, 문장간 유사도 측정시 검색된 문장들의 순위를 재조정하여 입력문장과 유사가 높은 최적의 문장을 제공함으로써 유사 문장검색 기술 성능을 향상시킬 수 있는 유사문장 검색 기술을 제안하고자 한다.
본 발명의 실시예에 따른 유사문장 검색 장치는, 제1 언어 및 제2 언어의 쌍으로 구성된 기 번역 문장이 저장되는 번역문장 데이터베이스를 갖는 유사문장 검색 장치에 있어서, 임의의 문장이 입력되는 입력부와, 상기 입력부를 통해 입력되는 문장에 대해 상기 제1 언어의 문장으로 언어 처리하는 제1 언어 처리부와, 상기 번역문장 데이터베이스의 기 번역 문장을 참조하여 상기 제1 언어의 문장에 대한 유사문장을 추출하는 제1 언어 유사도 계산부와, 상기 임의의 문장을 상기 제2 언어의 문장으로 번역하는 번역부와, 상기 번역부를 통해 번역되는 상기 제2 언어의 문장을 언어 처리하는 제2 언어 처리부와, 상기 번역문장 데이터베이스의 기 번역 문장을 참조하여 상기 제2 언어의 문장에 대한 유사문장을 추출하는 제2 언어 유사도 계산부와, 상기 제1 언어의 유사문장 추출 결과와 상기 제2 언어의 유사문장 추출 결과를 조합하여 문장 출력순위를 재조정하는 순위 재조정부를 포함할 수 있다.
여기서, 상기 순위 재조정부는, 상기 제1 언어의 유사도 계산 결과와 상기 제2 언어의 유사도 계산 결과를 조합하여 문장 출력순위를 재조정할 수 있다.
또한, 상기 제1 언어 처리부는, 상기 제1 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출할 수 있다.
또한, 상기 유사도 계산에 필요한 요소는, 단어, 또는 어절, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함할 수 있다.
또한, 상기 제2 언어 처리부는, 상기 제2 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출할 수 있다.
또한, 상기 유사도 계산에 필요한 요소는, 단어, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함할 수 있다.
또한, 상기 입력부는, 음성인식 수단 또는 키 입력 수단에 의해 상기 임의의 문장이 입력될 수 있다.
또한, 상기 유사문장 검색 장치는, 상기 순위 재조정부의 순위 재조정 결과값을 제공받아 순위 재조정된 번역 문장을 외부로 출력하는 출력부를 더 포함할 수 있다.
본 발명의 실시예에 따른 유사문장 검색 방법은, 입력부를 통해 입력되는 임의의 문장에 대해 제1 언어 처리부가 제1 언어 문장으로 언어 처리하는 과정과, 언어 처리되는 상기 제1 언어 문장과 기 저장된 번역 문장을 제1 언어 유사도 계산부에서 비교하여 문장 유사도를 계산하는 과정과, 번역부를 통해 상기 임의의 문장을 제2 언어로 번역하는 과정과, 번역되는 상기 제2 언어를 제2 언어 처리부가 제2 언어 문장으로 언어 처리하는 과정과, 언어 처리되는 상기 제2 언어 문장과 기 저장된 번역 문장을 제2 언어 유사도 계산부에서 비교하여 문장 유사도를 계산하는 과정과, 순위 재조정부가 상기 제1 언어 문장과 상기 제2 언어 문장에 대한 각각의 문장 유사도 계산 결과를 조합하여 최종 번역 문장의 출력순위를 재조정하는 과정을 포함할 수 있다.
여기서, 상기 제1 언어 문장으로 언어 처리하는 과정은, 상기 제1 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출하는 과정을 포함할 수 있다.
또한, 상기 제1 언어 유사도 계산부의 유사도 계산에 필요한 요소는, 단어, 또는 어절, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함할 수 있다.
또한, 상기 제2 언어 문장으로 언어 처리하는 과정은, 상기 제2 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출하는 과정을 포함할 수 있다.
또한, 상기 제2 언어 유사도 계산부의 유사도 계산에 필요한 요소는, 단어, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함할 수 있다.
또한, 상기 유사문장 검색 방법은, 상기 순위 재조정부의 순위 재조정 결과값을 제공받아 순위 재조정된 번역 문장을 외부로 출력하는 과정을 더 포함할 수 있다.
또한, 본 발명의 상기 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체를 포함할 수 있다.
본 발명에 의하면, 음성 인식 결과에 대해 문장 유사도 측정, 문틀 유사도 측정 등의 기술을 이용하여 사용자의 의도가 포함된 기 번역문장을 검색하게 하여 유사 문장검색 기술 성능을 향상시킬 수 있다. 이로 인해, 자동 번역기의 복잡한 알고리즘이나 번역을 위한 많은 리소스를 사용할 필요가 없으며, 자동 번역기의 통역 성능을 향상시킬 수 있다.
도 1은 본 발명의 실시예에 따른 유사문장 검색 장치에 대한 개략적인 구성 블록도,
도 2는 본 발명의 실시예에 따른 유사문장 검색 방법을 예시적으로 설명하는 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 유사문장 검색 장치에 대한 개략적인 구성 블록도로서, 입력부(100), 제1 언어 처리부(102), 제1 언어 유사도 계산부(104), 번역부(106), 제2 언어 처리부(108), 제2 언어 유사도 계산부(110), 순위 재조정부(112), 출력부(114) 및 번역문장 DB(Data-Base)(200) 등을 포함할 수 있다.
도 1에 도시한 바와 같이, 입력부(100)는 사용자로부터의 문장을 입력 받는 역할을 할 수 있다. 이때의 문장 입력은, 예를 들어 음성인식 수단 또는 키 입력 수단 등에 의해 구현될 수 있으며, 특정 수단에 한정될 필요는 없다. 다만, 음성인식 수단의 경우에는 사용자의 음성을 인식한 후 해당 음성을 문장으로 변환하는 기술이 포함될 수 있으며, 키 입력 수단의 경우에는 키 패드를 통한 다양한 방식의 키 입력 수단이 적용될 수 있을 것이다.
제1 언어 처리부(102)는 입력부(100)를 통해 입력되는 문장에 대해 제1 언어 문장으로 언어 처리, 예를 들어 한국어 문장에 대해 언어 처리하여 후술하는 제1 언어 유사도 계산부(104)의 유사도 계산에 필요한 요소들을 추출하는 역할을 할 수 있다. 유사도 계산에 필요한 요소들은, 예컨대 단어, 어절(한국어의 경우), 형태소 및 품사, 문형, 시제, 긍정 및 부정, 양태정보, 대화의 흐름을 표현하는 화행정보 등에서 적어도 하나를 포함할 수 있다.
또한, 제1 언어 처리부(102)는 인명, 지명, 금액, 날짜, 숫자 등에 대하여 상위 의미정보(클래스 정보)를 적용할 수 있다.
또한, 제1 언어 처리부(102)는 유사단어 확장과 이형태 확장을 통해 유사 표현이 검색될 수 있게 한다. 유사단어라 함은, 예를 들어 "빼앗기다 - 강탈당하다" 처럼 유사한 의미를 가지는 다른 단어를 말하며, 이형태라 함은, 예를 들어 "시트 - 씨트"와 같은 외래어나 "깨트리다 - 깨뜨리다"와 같이 형태는 다르나 의미가 같은 단어를 말한다.
제1 언어 유사도 계산부(104)는 제1 언어와 제2 언어의 쌍으로 구성된 번역 문장 DB(200) 내의 기 번역 문장들 중에서 제1 언어에 대한 유사 문장을 추출하는 역할을 할 수 있다. 구체적으로, 제1 언어 유사도 계산부(104)는 제1 언어 처리부(102)의 언어처리 결과인 제1 언어 문장에 대한 번역 문장 DB(200)의 키워드와 검색대상 말뭉치의 각 후보 문장들에 대해 키워드의 유사도를 판단하여 최적의 유사 문장을 추출할 수 있다.
번역부(106)는 입력부(100)를 통해 입력되는 문장을 번역하는 역할을 할 수 있다. 예를 들어, 번역부(106)는 한국어 문장을 영어 문장으로 번역할 수 있다.
제2 언어 처리부(108)는 번역부(106)를 통해 번역된 제2 언어, 예컨대 영어 문장을 언어 처리하여 후술하는 제2 언어 유사도 계산부(110)의 유사도 계산에 필요한 요소들을 추출하는 역할을 할 수 있다. 유사도 계산에 필요한 요소들은, 예컨대 단어, 형태소 및 품사, 문형, 시제, 긍정 및 부정, 양태정보, 화행정보 등에서 적어도 하나를 포함할 수 있다.
또한, 제2 언어 처리부(108)는 인명, 지명, 금액, 날짜, 숫자 등에 대하여 상위 의미정보(클래스 정보)를 적용할 수 있으며, 유사단어 확장과 이형태 확장을 통해 유사 표현이 검색될 수 있게 하는 역할을 할 수 있다.
제2 언어 유사도 계산부(110)는 제1 언어와 제2 언어의 쌍으로 구성된 번역 문장 DB(200) 내의 기 번역 문장들 중에서 제2 언어에 대한 유사 문장을 추출하는 역할을 할 수 있다. 구체적으로, 제2 언어 유사도 계산부(110)는 제2 언어 처리부(108)의 언어처리 결과인 입력 문장에 대한 번역 문장 DB(200)의 키워드와 검색대상 말뭉치의 각 후보 문장들에 대해 키워드의 유사도를 판단하여 최적의 유사 문장을 추출할 수 있다.
순위 재조정부(112)는 제1 언어의 유사 문장 추출 결과(유사도 계산 결과)와 제2 언어의 유사 문장 추출 결과(유사도 계산 결과)를 조합하여 문장 출력순위를 재조정하는 역할을 할 수 있다.
이러한 순위 재조정부(112)의 순위 재조정 결과값은 다음 [수식 1]과 같이 표현될 수 있다.
Figure 112011081763810-pat00001
여기서, A와 B의 합은 1이다.
출력부(114)는 순위 재조정부(112)의 순위 재조정 결과값을 제공받아 순위 재조정된 번역 문장을 외부로 출력하는 역할을 할 수 있다. 이때의 외부 출력은, 예를 들면 디스플레이 장치를 통한 화면 출력 등이 적용될 수 있을 것이다.
번역 문장 DB(200)는 다수의 기 번역된 문장들이 저장될 수 있으며, 필요에 따라 제1 언어 유사도 계산부(104) 또는 제2 언어 유사도 계산부(110)에 의해 기 번역된 문장들이 참조될 수 있다.
이와 같은 번역 문장 DB(200)는 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이터베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이터베이스 관리 시스템(OODBMS)을 이용하여 본 발명의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(field)들을 가질 수 있다.
이하, 상술한 구성과 함께, 본 발명의 실시예에 따른 유사문장 검색 방법을 첨부한 도 2의 흐름도를 참조하여 상세히 설명하기로 한다.
도 2에 도시한 바와 같이, 입력부(100)를 통해서 임의의 문장이 입력되면(S100), 제1 언어 처리부(102)는 입력부(100)를 통해 입력되는 임의의 문장에 대해 제1 언어 문장으로 언어 처리, 예를 들어 한국어 문장에 대해 언어 처리하여 후술하는 제1 언어 유사도 계산부(104)의 유사도 계산에 필요한 요소들을 추출할 수 있다(S102). 이때의 유사도 계산에 필요한 요소들은, 예컨대 단어, 어절(한국어의 경우), 형태소 및 품사, 문형, 시제, 긍정 및 부정, 양태정보, 대화의 흐름을 표현하는 화행정보 등에서 적어도 하나를 포함할 수 있다.
이후, 제1 언어 유사도 계산부(104)는 제1 언어 처리부(102)를 통해 언어 처리된 제1 언어 문장과 번역 문장 DB(200)에 기 저장된 번역 문장을 비교하여 문장 유사도를 계산함으로써, 제1 언어 문장에 대한 유사 문장을 추출할 수 있다(S104).
한편, 번역부(106)는 입력부(100)를 통해 입력되는 임의의 문장에 대해 번역 처리할 수 있다(S106). 예컨대, 한국어 문장을 영어 문장으로 번역 처리할 수 있다.
이후, 제2 언어 처리부(108)는 번역부(106)를 통해 번역된 제2 언어, 예컨대 영어 문장을 언어 처리하여 제2 언어 유사도 계산부(110)의 유사도 계산에 필요한 요소들을 추출할 수 있다(S108). 유사도 계산에 필요한 요소들은, 예컨대 단어, 형태소 및 품사, 문형, 시제, 긍정 및 부정, 양태정보, 화행정보 등에서 적어도 하나를 포함할 수 있다.
제2 언어 유사도 계산부(110)는 제2 언어 처리부(108)를 통해 언어 처리된 제2 언어 문장과 번역 문장 DB(200)에 기 저장된 번역 문장을 비교하여 문장 유사도를 계산함으로써, 제2 언어 문장에 대한 유사 문장을 추출할 수 있다(S110).
이와 같이 제1 언어 문장과 제2 언어 문장에 대한 유사 문장이 추출되면(각각의 유사도가 계산되면), 순위 재조정부(112)는 제1 언어 문장의 유사 문장 추출 결과(유사도 계산 결과)와 제2 언어 문장의 유사 문장 추출 결과(유사도 계산 결과)를 조합하여 최종 번역 문장의 출력순위를 재조정할 수 있다(S112).
끝으로, 순위 재조정부(112)를 통해 재조정된 출력순위에 따라 최종 문장이 외부로 출력될 수 있다(S114).
한편, 상술한 바와 같이 다양한 실시예를 제시하고 있는 본 발명의 유사문장 검색 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 실행할 수 있는 코드로서 구현할 수 있는데, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, 광 기록매체 등이 있으며, 컴퓨터로 실행할 수 있는 코드 또는 프로그램은 본 발명의 기능을 분산적으로 수행하기 위해 네트워크로 연결된 컴퓨터 시스템에 분산되어 실행될 수도 있다.
이상 설명한 바와 같은 본 발명의 실시예에 의하면, 문장간 유사도 측정시 검색된 문장들의 순위를 재조정하여 입력문장과 유사가 높은 최적의 문장을 제공하고, 음성 인식 결과에 대해 문장 유사도 측정, 문틀 유사도 측정 등의 기술을 이용하여 사용자의 의도가 포함된 기 번역문장을 검색하게 하여 유사 문장검색 기술 성능을 향상시키도록 구현하였다. 이로 인해, 자동 번역기의 복잡한 알고리즘이나 번역을 위한 많은 리소스를 사용할 필요가 없으며, 자동 번역기의 통역 성능을 향상시킬 수 있다.
100: 입력부
102: 제1 언어 처리부
104: 제1 언어 유사도 계산부
106: 번역부
108: 제2 언어 처리부
110: 제2 언어 유사도 계산부
112: 순위 재조정부
114: 출력부
200: 번역 문장 DB

Claims (15)

  1. 제1 언어 및 제2 언어의 쌍으로 구성된 기 번역 문장이 저장되는 번역문장 데이터베이스를 갖는 유사문장 검색 장치에 있어서,
    임의의 문장이 입력되는 입력부와,
    상기 입력부를 통해 입력되는 문장에 대해 상기 제1 언어의 문장으로 언어 처리하는 제1 언어 처리부와,
    상기 번역문장 데이터베이스의 기 번역 문장을 참조하여 상기 제1 언어의 문장에 대한 유사문장을 추출하는 제1 언어 유사도 계산부와,
    상기 임의의 문장을 상기 제2 언어의 문장으로 번역하는 번역부와,
    상기 번역부를 통해 번역되는 상기 제2 언어의 문장을 언어 처리하는 제2 언어 처리부와,
    상기 번역문장 데이터베이스의 기 번역 문장을 참조하여 상기 제2 언어의 문장에 대한 유사문장을 추출하는 제2 언어 유사도 계산부와,
    상기 제1 언어의 유사문장 추출 결과와 상기 제2 언어의 유사문장 추출 결과를 조합하여 문장 출력순위를 재조정하는 순위 재조정부를 포함하는
    유사문장 검색 장치.
  2. 제 1 항에 있어서,
    상기 순위 재조정부는, 상기 제1 언어의 유사도 계산 결과와 상기 제2 언어의 유사도 계산 결과를 조합하여 문장 출력순위를 재조정하는
    유사문장 검색 장치.
  3. 제 1 항에 있어서,
    상기 제1 언어 처리부는, 상기 제1 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출하는
    유사문장 검색 장치.
  4. 제 3 항에 있어서,
    상기 유사도 계산에 필요한 요소는, 단어, 또는 어절, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함하는
    유사문장 검색 장치.
  5. 제 1 항에 있어서,
    상기 제2 언어 처리부는, 상기 제2 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출하는
    유사문장 검색 장치.
  6. 제 5 항에 있어서,
    상기 유사도 계산에 필요한 요소는, 단어, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함하는
    유사문장 검색 장치.
  7. 제 1 항에 있어서,
    상기 입력부는, 음성인식 수단 또는 키 입력 수단에 의해 상기 임의의 문장이 입력되는
    유사문장 검색 장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 유사문장 검색 장치는, 상기 순위 재조정부의 순위 재조정 결과값을 제공받아 순위 재조정된 번역 문장을 외부로 출력하는 출력부를 더 포함하는
    유사문장 검색 장치.
  9. 입력부를 통해 입력되는 임의의 문장에 대해 제1 언어 처리부가 제1 언어 문장으로 언어 처리하는 과정과,
    언어 처리되는 상기 제1 언어 문장과 기 저장된 번역 문장을 제1 언어 유사도 계산부에서 비교하여 문장 유사도를 계산하는 과정과,
    번역부를 통해 상기 임의의 문장을 제2 언어로 번역하는 과정과,
    번역되는 상기 제2 언어를 제2 언어 처리부가 제2 언어 문장으로 언어 처리하는 과정과,
    언어 처리되는 상기 제2 언어 문장과 기 저장된 번역 문장을 제2 언어 유사도 계산부에서 비교하여 문장 유사도를 계산하는 과정과,
    순위 재조정부가 상기 제1 언어 문장과 상기 제2 언어 문장에 대한 각각의 문장 유사도 계산 결과를 조합하여 최종 번역 문장의 출력순위를 재조정하는 과정을 포함하는
    유사문장 검색 방법.
  10. 제 9 항에 있어서,
    상기 제1 언어 문장으로 언어 처리하는 과정은, 상기 제1 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출하는 과정을 포함하는
    유사문장 검색 방법.
  11. 제 10 항에 있어서,
    상기 제1 언어 유사도 계산부의 유사도 계산에 필요한 요소는, 단어, 또는 어절, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함하는
    유사문장 검색 방법.
  12. 제 9 항에 있어서,
    상기 제2 언어 문장으로 언어 처리하는 과정은, 상기 제2 언어 유사도 계산부의 유사도 계산에 필요한 요소를 추출하는 과정을 포함하는
    유사문장 검색 방법.
  13. 제 12 항에 있어서,
    상기 제2 언어 유사도 계산부의 유사도 계산에 필요한 요소는, 단어, 또는 형태소 및 품사, 또는 문형, 또는 시제, 또는 긍정 및 부정, 또는 양태정보, 또는 화행정보 중 적어도 하나를 포함하는
    유사문장 검색 방법.
  14. 제 9 항에 있어서,
    상기 유사문장 검색 방법은, 상기 순위 재조정부의 순위 재조정 결과값을 제공받아 순위 재조정된 번역 문장을 외부로 출력하는 과정을 더 포함하는
    유사문장 검색 방법.
  15. 제 9 항 내지 제 14 항 중 어느 한 항의 상기 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020110106952A 2011-10-19 2011-10-19 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체 KR101449551B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110106952A KR101449551B1 (ko) 2011-10-19 2011-10-19 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
US13/598,017 US20130103382A1 (en) 2011-10-19 2012-08-29 Method and apparatus for searching similar sentences

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110106952A KR101449551B1 (ko) 2011-10-19 2011-10-19 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체

Publications (2)

Publication Number Publication Date
KR20130042839A KR20130042839A (ko) 2013-04-29
KR101449551B1 true KR101449551B1 (ko) 2014-10-14

Family

ID=48136679

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110106952A KR101449551B1 (ko) 2011-10-19 2011-10-19 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체

Country Status (2)

Country Link
US (1) US20130103382A1 (ko)
KR (1) KR101449551B1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US9619513B2 (en) 2014-07-29 2017-04-11 International Business Machines Corporation Changed answer notification in a question and answer system
US10169326B2 (en) 2015-05-22 2019-01-01 International Business Machines Corporation Cognitive reminder notification mechanisms for answers to questions
US9912736B2 (en) 2015-05-22 2018-03-06 International Business Machines Corporation Cognitive reminder notification based on personal user profile and activity information
US10152534B2 (en) 2015-07-02 2018-12-11 International Business Machines Corporation Monitoring a corpus for changes to previously provided answers to questions
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
US10769185B2 (en) 2015-10-16 2020-09-08 International Business Machines Corporation Answer change notifications based on changes to user profile information
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
KR101663454B1 (ko) * 2016-08-03 2016-10-07 주식회사 비욘드테크 키워드 가중치를 이용한 문장 유사도 산출 장치 및 그 방법
KR102589638B1 (ko) * 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
US10885900B2 (en) * 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
US10535361B2 (en) * 2017-10-19 2020-01-14 Kardome Technology Ltd. Speech enhancement using clustering of cues
CN109145313A (zh) * 2018-07-18 2019-01-04 广州杰赛科技股份有限公司 语句的翻译方法、装置和存储介质
KR102637340B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
US10831989B2 (en) 2018-12-04 2020-11-10 International Business Machines Corporation Distributing updated communications to viewers of prior versions of the communications
CN109697286A (zh) * 2018-12-18 2019-04-30 众安信息技术服务有限公司 一种基于词向量的诊断标准化方法及装置
CN110378704B (zh) * 2019-07-23 2021-10-22 珠海格力电器股份有限公司 基于模糊识别的意见反馈的方法、存储介质和终端设备
CN110795541B (zh) * 2019-08-23 2023-05-26 腾讯科技(深圳)有限公司 文本查询方法、装置、电子设备及计算机可读存储介质
KR102287167B1 (ko) * 2019-10-24 2021-08-06 주식회사 한글과컴퓨터 번역 엔진에 미포함된 신규 개체명에 대한 번역 기능을 제공하기 위한 번역 처리 장치 및 그 동작 방법
KR102338949B1 (ko) 2020-02-19 2021-12-10 이영호 기술문서 번역 지원 시스템
KR102523767B1 (ko) * 2020-11-17 2023-04-21 주식회사 한글과컴퓨터 Bleu 스코어를 기초로 유사 문장에 대한 검색을 수행하는 전자 장치 및 그 동작 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056655A (ko) * 2001-12-28 2003-07-04 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8700383B2 (en) * 2005-08-25 2014-04-15 Multiling Corporation Translation quality quantifying apparatus and method
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US7805289B2 (en) * 2006-07-10 2010-09-28 Microsoft Corporation Aligning hierarchal and sequential document trees to identify parallel data
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
GB2444084A (en) * 2006-11-23 2008-05-28 Sharp Kk Selecting examples in an example based machine translation system
CN101271452B (zh) * 2007-03-21 2010-07-28 株式会社东芝 生成译文和机器翻译的方法及装置
TWI386822B (zh) * 2007-09-05 2013-02-21 Shing Lung Chen 建置多語翻譯資料庫內容之方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056655A (ko) * 2001-12-28 2003-07-04 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법

Also Published As

Publication number Publication date
US20130103382A1 (en) 2013-04-25
KR20130042839A (ko) 2013-04-29

Similar Documents

Publication Publication Date Title
KR101449551B1 (ko) 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US9633006B2 (en) Question answering system and method for structured knowledgebase using deep natural language question analysis
CN106997376B (zh) 一种基于多级特征的问题和答案句子相似度计算方法
US9223779B2 (en) Text segmentation with multiple granularity levels
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
KR101923650B1 (ko) 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
US20140379329A1 (en) Methods and apparatuses for mining synonymous phrases, and for searching related content
KR101768852B1 (ko) 트리플 데이터의 생성 방법 및 시스템
US20230130006A1 (en) Method of processing video, method of quering video, and method of training model
KR102468481B1 (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
CN113157930A (zh) 基于多源异构数据的知识图谱构建方法、系统以及终端
CN111666764A (zh) 一种基于XLNet的自动摘要方法与装置
WO2019173085A1 (en) Intelligent knowledge-learning and question-answering
CN112949293A (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
KR101092363B1 (ko) 중한자동번역을 위한 한국어 연결어미 생성 방법 및 그 장치
KR102594734B1 (ko) LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치
CN112559550B (zh) 基于语义规则和多维模型的多数据源nl2sql系统
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
KR102117281B1 (ko) 빈도 테이블을 이용한 챗봇 발언 생성 방법
CN113408302A (zh) 一种机器翻译结果的评估方法、装置、设备及存储介质
CN112732743A (zh) 一种基于中文自然语言的数据分析方法及装置
JP5700833B2 (ja) 並替モデル生成装置、語順並替装置、方法及びプログラム
Gamallo et al. Distributional semantics for diachronic search

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170927

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181001

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190925

Year of fee payment: 6