KR101507637B1 - 오역의 검출을 지원하는 장치 및 방법 - Google Patents

오역의 검출을 지원하는 장치 및 방법 Download PDF

Info

Publication number
KR101507637B1
KR101507637B1 KR1020117014447A KR20117014447A KR101507637B1 KR 101507637 B1 KR101507637 B1 KR 101507637B1 KR 1020117014447 A KR1020117014447 A KR 1020117014447A KR 20117014447 A KR20117014447 A KR 20117014447A KR 101507637 B1 KR101507637 B1 KR 101507637B1
Authority
KR
South Korea
Prior art keywords
document data
data group
word
document
value
Prior art date
Application number
KR1020117014447A
Other languages
English (en)
Other versions
KR20110102358A (ko
Inventor
마사히코 마에데라
타카아키 시라토리
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20110102358A publication Critical patent/KR20110102358A/ko
Application granted granted Critical
Publication of KR101507637B1 publication Critical patent/KR101507637B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 특정의 분야에 있어서 역어로서 부적절하다고 고려되는 단어를 효율이 좋도록 검출한다. 본 발명은 클라이언트(10)에 있어서, 번역 지시(11)는, 원문서의 번역을 번역 엔진(20)에 지시하고, 형태소 해석부(13)는 번역 엔진(20)으로부터 수신한 번역 문서를 형태소 해석하여 복합어를 추출하고, 검색 지시부(15)는 추출한 복합어를 포함한 검색 쿼리(query)를 검색 엔진(30)에 투입하여, 특정 사이트에 있어서 완전 일치 페이지의 수 α, 특정 사이트에 있어 공기 일치 페이지(cooccurrency matching page)의 수 β, 모든 사이트에 있어서 완전 일치 페이지의 수 γ, 모든 사이트에 있어서 공기 일치 페이지의 수 δ를 구한다. 그리고, 평가 처리부(17)는, α 또는 β와 γ 또는 δ를 비교하는 것에 의해, 복합어를 특정 사이트에 있어서 번역으로서 적절한지를 나타내는 레벨로 분류하고, 사전 갱신부(19)는 그 레벨의 표시에 근거하는 유저의 지시에 따라 번역 엔진(20)에 있어서 사전을 갱신한다.

Description

오역의 검출을 지원하는 장치 및 방법{DEVICE AND METHOD FOR SUPPORTING DETECTION OF MISTRANSLATION}
본 발명은 오역의 검출을 지원하는 장치 및 방법에 관한 것이다. 특히, 본 발명은 원 문서를 기계 번역하여 얻은 번역 문서에서 오역의 검출을 지원하는 장치 및 방법에 관한 것이다.
최근, 비즈니스 글로벌화에 동반하여, 인터넷 상의 정보도 여러 가지 언어로 제공되도록 되어 있다. 여기서, 이와 같은 여러 가지의 언어의 정보도, 원래는 영어로 제공되어, 이것을 다른 언어로 번역한 것이 많다. 이 번역 작업은 일반적으로 전문가에 의해 수행되지만, 요즘에는 제공되는 정보도 증가의 일로를 가고 있어, 전문가에 의한 번역 작업이 따라갈 수 없는 상황이 발생하고 있다.
이러한 문제를 해결하기 위해, 기계 번역 서버를 이용하여, 영어의 정보를 다른 언어로 기계 번역하여 얻은 정보를 제공하는 것이 수행되도록 되어 있다.
하지만, 기계 번역에도 다음과 같은 문제점이 있다.
첫째, 소프트웨어에서는 문맥을 추리할 수 없기 때문에, 문맥에 따른 역어를 선택하는 것은 곤란한 문제점이다.
둘째, 적절한 역어가 사용되었는지의 검증에 수작업이 필요하기 때문에, 증가하는 정보에 대한 검증 작업에 시간이 걸리고, 그 정보를 필요로 하는 고객의 만족도가 저하되는 문제점이다.
종래, 기계 번역에서 발생하는 오역의 검증이나 정정의 작업을 효율화하는 기술이 제안되었다(예를 들면, 특허 문헌 1~3 참조).
특허 문헌 1에서는, 원 문서를 기계 번역에 의해 번역하여 얻어진 번역 문서를 기억하는 것과 함께, 이용자 단말로부터 번역 문서에 포함되는 오역을 수정한 수정 번역 문서를 수신하여 기억하고, 이용자 단말로부터 문서 요구를 수신했을 때, 지정된 원 문서와 그것에 대응하는 수정 번역 문서를 이용자 단말에 송신한다.
특허 문헌 2에서는, 제 1 자연 언어의 원문을 제 2 자연 언어로 번역한 번역문과, 번역문을 제 1 자연 언어로 번역한 역번역문(reversely translated text)과, 원문을 대응하여 표시하고, 원문의 형태소 중 제 2 자연 언어의 역어의 후보 리스트로부터, 유저의 지시에 따라 하나의 후보를 선택하고, 이 선택한 역어를 대응하는 형태소의 역어로서 이용하여 번역문 및 역번역문을 재생성한다.
특허 문헌 3에서는, 유저가 소망하는 편집 방법에 따른 어노테이션(annotation)을 번역 후의 문장의 편집 대상 장소에 부가하여 확정시키면, 어노테이션의 종류에 대응하는 편집 방법에 따라 어노테이션이 부가된 대상 역어의 개소의 편집 처리를 수행한다.
특허 문헌 1: 특허 공개 2008-123234호 공보 특허 문헌 2: 특허 공개 2006-318202호 공보 특허 문헌 3: 특허 공개 2006-276915호 공보
이와 같이, 종래부터 기계 번역에서 발생하는 오역의 검출이나 정정의 효율화를 도모하는 기술은 있었다.
하지만, 특허 문헌 1~3의 기술은 특정 분야에 있어서 역어로서 부적절하다고 고려되는 단어를 효율적으로 검출하기 위한 수단을 제공하는 것은 아니다.
본 발명의 목적은 특정 분야에 있어서 역어로서 부적절하다고 생각되는 단어를 효율적으로 검출하는 것이다.
이러한 목적하에서, 본 발명은 원 문서를 기계 번역하여 얻은 번역 문서 내의 오역의 검출을 지원하는 장치를 제공하는데, 상기 장치는 번역 문서에 포함되는 단어를 취득하는 제 1의 취득부와, 제 1의 취득부에 의해 취득된 단어에 관련되는 문서 데이터를 제 1의 문서 데이터군 및 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 제 2의 취득부와, 제 1의 취득부에 의해 취득된 단어의 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표를, 제 2의 취득부에 의해 취득된 검색 결과에 근거하여 생성하는 생성부와, 생성부에 의해 생성된 지표를 출력하는 출력부를 갖는다.
여기서, 제 2의 취득부는 제 1의 문서 데이터군 내의 단어에 관련되는 문서 데이터의 수를 나타내는 제 1의 값과, 제 2의 문서 데이터군 내의 단어에 관련되는 문서 데이터의 수를 나타내는 제 2의 값을, 검색 결과로서 취득하여, 생성부는 제 1의 값과 제 2의 값과의 비교 결과에 근거하여 지표를 생성하는 것이어도 된다. 이 경우, 생성부는 제 1의 값의 제 2의 값에 대한 비율이 소정의 임계값 이하인 경우, 제 1의 취득부에 의해 취득된 단어가 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서 타당하지 않는다는 것을 나타내는 지표를 생성하는 것이어도 된다.
또한, 제 2의 취득부는 제 1의 문서 데이터 군의 지정과 단어를 포함하는 제 1의 검색 쿼리를 자동 생성하여 제 1의 검색 쿼리를 검색 엔진에 투입하는 것으로, 단어에 관련되는 문서 데이터를 제 1의 문서 데이터군에서 검색한 검색 결과를 취득하고, 제 1의 문서 데이터군의 지정을 포함하지 않고 단어를 포함하는 제 2의 검색 쿼리를 자동 생성하여 제 2의 검색 쿼리를 검색 엔진에 투입하는 것으로, 단어에 관련되는 문서 데이터를 제 2의 문서 데이터군에서 검색한 검색 결과를 취득하는 것이어도 된다.
또한, 제 1의 취득부는 복수의 구성어를 포함하는 복합어를 단어로서 취득하고, 제 2의 취득부는 복수의 구성어를 포함하는 문서 데이터를 단어에 관련되는 문서 데이터로서 제 1의 문서 데이터군 및 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 것이어도 되고, 제 2의 취득부는, 제 1의 문서 데이터군 내의 복수의 구성을 포함하는 문서 데이터의 수를 나타내는 제 1의 값과, 제 2의 문서 데이터군 내의 복수의 구성어를 포함하는 문서 데이터의 수를 나타내는 제 2의 값을 검색 결과로서 취득하고, 생성부는 제 1의 값과 제 2의 값의 비교 결과에 근거하여 지표를 생성하는 것이어도 된다. 그 결과, 생성부는 제 1의 값의 제 2의 값에 대한 비율이 제 1의 임계값 이상인 경우, 제 1의 취득부에 의해 취득된 복합어의 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서 타당성이 제 1의 레벨이라는 것을 나타내는 지표를 생성하고, 비율이 제 1의 임계값 이하의 제 2의 임계값보다 작은 경우에, 복합어의 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성이 제 1의 레벨보다 낮은 제 2의 레벨이라는 것을 나타내는 지표를 생성하는, 것이어도 된다. 또, 제 2의 취득부는, 복합어를 포함하는 문서 데이터를 제 1의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 3의 값을 더 취득하고, 생성부는 제 3의 값과, 제 3의 임계값과의 비교 결과에 더 근거하여 지표를 생성하는 것이어도 된다. 또한, 제 2의 취득부는 복합어를 포함하는 문서 데이터를 제 2의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 4의 값을 더 취득하고, 생성부는 제 4의 값과 제 4의 임계값과의 비교 결과에 더 근거하여 지표를 생성하는 것이어도 된다.
또한, 본 발명은 원 문서를 기계 번역하여 얻은 번역 문서 내의 오역의 검출을 지원하는 장치로, 번역 문서에 포함되어, 복수의 구성어를 포함하는 복합어를 취득하는 제 1의 취득부와, 복수의 구성어를 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정을 포함하지 않고 제 1의 문서 데이터군의 지정과 복합어를 포함하는 제 1의 검색 쿼리를 자동 생성하여 제 1의 검색 쿼리를 검색 엔진에 투입하는 것으로, 복수의 구성어를 포함하는 문서 데이터를 제 1의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 1의 값을 취득하고, 복수의 구성어를 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정도 제 1의 문서 데이터군의 지정도 포함하지 않고 복합어를 포함하는 제 2의 검색 쿼리를 자동 생성하여 제 2의 검색 쿼리를 검색 엔진에 투입하는 것으로, 복수의 구성어를 포함하는 문서 데이터를 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 2의 값을 취득하고, 제 1의 문서 데이터군의 지정과 복수의 구성어를 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정과 복합어를 포함하는 제 3의 검색 쿼리를 자동 생성하여 제 3의 검색 쿼리를 검색 엔진에 투입하는 것으로, 복합어를 포함하는 문서 데이터를 제 1의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 3의 값을 취득하고, 제 1의 문서 데이터군의 지정을 포함하지 않고 복수의 구성어를 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정과 복합어를 포함하는 제 4의 검색 쿼리를 자동 생성하여 제 4의 검색 쿼리를 검색 엔진에 투입하는 것으로, 복합어를 포함하는 문서 데이터를 제 2의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 4의 값을 취득하는 제 2의 취득부와, 제 1의 취득부에 의해 취득된 복합어의 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서 타당성을 나타내는 지표를, 제 2의 취득부에 의해 취득된 제 1의 값 및 제 3의 값의 적어도 어느 한쪽과, 제 2의 취득부에 의해 취득된 제 2의 값 및 제 4의 값의 적어도 어느 한 쪽과의 비교 결과에 근거하여 생성하는 생성부와, 생성부에 의해 생성된 지표를 출력하는 출력부를 갖춘 장치도 제공한다.
또한, 본 발명은 원 문서를 기계 번역하여 얻은 번역 문서내의 오역의 검출을 지원하는 방법으로, 번역 문서에 포함되는 단어를 취득하는 단계와, 취득된 단어에 관련하는 문서 데이터를 제 1의 문서 데이터군 및 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 단계와, 취득된 단어의 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표를, 취득된 검색 결과에 근거하여 생성하는 단계와, 생성된 지표를 출력하는 단계를 포함하는 방법도 제공한다.
또한, 본 발명은 원 문서를 기계 번역하여 얻은 번역 문서 내의 오역의 검출을 지원하는 장치로서 컴퓨터를 기능시키는 프로그램으로, 컴퓨터를, 번역 문서에 포함되는 단어를 취득하는 제 1의 취득부와, 제 1의 취득부에 의해 취득된 단어에 관련하는 문서 데이터를 제 1의 문서 데이터군 및 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 제 2의 취득부와, 제 1의 취득부에 의해 취득된 단어의 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표를, 제 2의 취득부에 의해 취득된 검색 결과에 근거하여 생성하는 생성부와, 생성부에 의해 생성된 지표를 출력하는 출력부로서 기능시키는 프로그램도 제공한다.
본 발명에 따르면, 특정 분야에 있어서 역어로서 부적절하다고 생각되는 단어를 효율 좋게 검색할 수 있도록 된다.
도 1은 본 발명의 실시 형태에 있어서 컴퓨터 시스템의 전체 구성을 나타낸 도이다.
도 2는 본 발명의 실시 형태에서 이용되는 기호의 정의를 나타낸 도이다.
도 3은 본 발명의 실시 형태에 있어서 복합어의 평가에 대해 설명하기 위한 도이다.
도 4는 본 발명의 실시 형태에 있어서 클라이언트의 기능 구성 예를 나타낸 도이다.
도 5는 본 발명의 실시 형태의 클라이언트에 있어서 번역 지시부의 동작 예를 나타낸 흐름도이다.
도 6은 본 발명의 실시 형태의 클라이언트에 있어서 형태소 해석의 동작 예를 나타낸 흐름도이다.
도 7은 본 발명의 실시 형태의 클라이언트에 있어서 검색 지시부의 동작 예를 나타낸 흐름도이다.
도 8은 본 발명의 실시 형태의 클라이언트에 있어서 검색 지시부가 이용되는 검색 쿼리의 한 예를 나타낸 도이다.
도 9는 본 발명의 실시 형태의 클라이언트에 있어서 검색 결과 기억부의 기억 내용의 한 예를 나타낸 도이다.
도 10은 본 발명의 실시 형태의 클라이언트에 있어서 평가 처리부의 동작 예를 나타낸 흐름도이다.
도 11은 본 발명의 실시 형태의 클라이언트에 있어서 평가 정보 기억부의 기억 내용의 한 예를 나타낸 도이다.
도 12는 본 발명의 실시 형태의 클라이언트에 있어서 사전 갱신부의 동작 예를 나타낸 흐름도이다.
도 13은 본 발명의 실시 형태를 적용 가능한 컴퓨터의 하드웨어 구성을 나타낸 도이다.
이하, 첨부된 도면을 참조하여, 본 발명을 설명하기 위한 최적의 형태(이하, 실시 형태라고 한다)에 대해 상세히 설명하도록 한다.
먼저, 본 실시 형태가 적용되는 컴퓨터 시스템에 대해 설명한다.
도 1은, 이와 같은 컴퓨터 시스템의 전체 구성 예를 나타낸 도이다.
도시한 것처럼, 이 컴퓨터 시스템은 클라이언트(10a, 10b)와 번역 엔진(20)이 네트워크(60)에 접속되고, 검색 엔진(30)이 네트워크(70)에 접속되며, 네트워크(60)와 네트워크(70)가 라우터(80)를 통해 서로 접속되는 것으로 구성된다.
클라이언트(10a, 10b)는 유저가 사용하는 PC(Personal Computer) 등의 단말 장치이다. 더 상세하게는, 웹 브라우저가 인스톨되어, 번역 엔진(20)이 제공하는 웹 페이지(이하, 페이지라고 한다)를 웹 브라우저에서 표시하고, 지정된 원 문서(번역 전의 문서)의 번역을 그 페이지로부터 번역 엔진(20)에 지시하고, 번역 엔진(20)으로부터 보내진 번역 문서(번역 후의 문서)를 그 페이지 상에 표시한다. 또한, 도에서는, 클라이언트(10a, 10b)를 나타내었지만, 이것들을 구별할 필요가 없는 경우에는, 클라이언트(10)라고 칭하는 경우도 있다. 또한, 도에는 2대의 클라이언트(10)만 나타내었지만, 3대 이상의 클라이언트(10)를 설치해도 된다.
번역 엔진(20)은 어느 언어로 기술된 문서를 다른 언어로 기술된 문서로 번역하는 처리를 소프트웨어로 수행하는 엔진으로서, 소위 번역 서버에 해당한다. 특히, 본 실시 형태에 있어서, 번역 엔진(20)은 네트워크(60)로 접속된 특정의 조직(예를 들면, 기업)이 관계되는 분야에 특화한 번역을 수행하는 번역 엔진이라고 한다.
검색 엔진(30)은 크롤러(crawler)가 하이퍼링크(링크)를 더듬어 가며 자동적으로 인터넷 상의 컨텐츠에 액세스하고, 그 컨텐츠의 인덱스 정보를 축적하여 클라이언트로부터의 검색 요구에 응답하는 로봇형 검색 엔진이 예시된다. 단, 관리자가 컨텐츠를 적절한 디렉토리에 등록하고, 클라이언트로부터 검색 요구가 있으면 그 등록된 정보에 근거하여 검색 결과를 보내는 디렉토리형 검색 엔진이어도 된다.
네트워크(60, 70)는 각종 데이터의 송수신에 이용되는 통신 수단이다. 본 실시 형태에서는, 네트워크(60)로서, 특정의 조직 내의 네트워크인 인트라넷을 상정하고 있다. 또, 네트워크(70)로서, 특정의 조직 외에 넓어지는 네트워크인 인터넷을 상정하고 있다.
라우터(80)는 네트워크(60)가 네트워크(70)에 송신하는 데이터나, 네트워크(60)가 네트워크(70)로부터 수신하는 데이터를 중단하는 기기이다.
이와 같은 구성을 가진 컴퓨터 시스템에 있어서, 본 실시 형태에서는, 영어로 제공되는 기술 정보를 일본어로 기계 번역한 결과의 품질을 효율 좋게 향상시키는 방법을 제안한다.
영어의 정보를 일본어로 기계 번역하면, 일본어로서 문법적으로는 바르지만, 문맥상 부적절한 용어를 포함하는 결과가 얻어지는 일도 있다. 예를 들면, 일반적인 분야에 있어서 역어로서는 적절하지만, 특정의 분야에 있어서 역어로서는 부적절하다는 경우이다. 특히, 복합어의 역어에 관하여, 이와 같은 상황이 발생하는 일이 많다.
이러한 경우의 오역 검출의 작업은 종래, 인간이 눈으로 보고 수행하였는데, 기계 번역에 의한 오역은 용어의 문제로부터 문의 구조나 형식의 파악의 문제까지, 여러 가지의 문제가 원인으로 발생하기 때문에, 이와 같은 작업에서는 효율이 올라가지 않는다. 따라서, 본 실시 형태에서는, 번역 결과에 포함되는 복합어가 오역일 가능성(이하, “오역인 것 같은 느낌”이라고 함)을 수치화하여 유저에게 제시한다. 이렇게 하는 것으로, 오역 검출의 작업을 신속하게 수행할 수 있고, 기계 번역의 품질을 효율 좋게 개선할 수 있게 된다.
구체적으로는, 인터넷 검색을 수행하여, 언어로서 채용된 복합어에 관련하는 페이지 중, 다음의 4개의 타입의 페이지의 수를 알아본다. 그리고, 이것들의 페이지의 수에 근거하여 오역인 것 같은 느낌을 수치화한다.
1. 특정 사이트에 있어서 완전 일치 페이지(exactly matching page)
2. 특정 사이트에 있어서 공기(cooccurrence) 일치 페이지
3. 모든 사이트에 있어서 완전 일치 페이지
4. 모든 사이트에 있어서 공기 일치 페이지
여기서, 특정 사이트 및 모든 사이트는 일본어 문서만을 포함하는 사이트인 것으로 한다. 그리고, 그 일본어의 문서는 기계 번역에 의해 얻은 문서가 아니라, 일본어에 정통한 사람이 기술한 문서인 것이 바람직하다. 오역인 것 같은 느낌을 검증하는 기준이 되는 문서에 오역이 있으면, 요구한 오역인 것 같은 느낌의 신뢰성이 낮아져 버리기 때문이다.
또한, 완전 일치 페이지란, 복합어와 완전히 일치하는 말을 포함하는 페이지를 의미한다. 일부의 검색 엔진은 복합어를 인용 부호로 묶어 검색어로서 지정하면, 이와 같은 페이지를 검색한다.
또한, 공기 일치 페이지(cooccurrence matching page)란, 복합어를 분해하여 얻은 복수의 단어(구성어)를 모두 포함하는 페이지를 의미한다. 일부의 검색 엔진은 복합어를 인용 부호로 묶지 않고 검색어로서 지정하면, 자동적으로 복합어를 단어로 분해하고, 이와 같은 페이지를 검색한다. 예를 들면, 우주 런 타임 이라고 하는 복합어를 고려해 본다. 이 경우, 우주 런 타임을 우주와 런 타임으로 분해하여 검색하는 것으로, 공기 일치 페이지 즉, 우주 런 타임이라고 하는 복합어를 포함하지 않아도 되지만 우주 및 런 타임의 양쪽을 포함하는 페이지를 검색한다.
도 2에 있어서, 상기 4개의 타이프의 페이지의 수를 나타내는 기호를 정의한다.
도시한 것처럼, 본 실시 형태에서는, 특정 사이트에 있어서 완전 일치 페이지의 수를 α로 하고, 특정 사이트에 있어서 공기 일치 페이지의 수를 β로 하고, 모든 사이트에 있어서 완전 일치 페이지의 수를 γ로 하고, 모든 사이트에 있어서 공기 일치 페이지의 수를 δ로 한다.
이와 같이 정의한 경우, 이하의 조건식이 성립된다.
α≤β≤δ
α≤γ≤δ
여기서, β와 γ의 대소는 정해지지 않았지만, 사이트의 전문성을 분석하기 위해서는 유용하다.
또한, 본 실시 형태에서는 단어의 한 예로서, 복합어를 이용하여, 문서 데이터의 한 예로서, 페이지를 이용하고, 제 1의 문서 데이터군의 한 예로서, 특정 사이트를 이용하고, 제 2의 문서 데이터군의 한 예로서, 모든 사이트를 이용한다. 또한, 제 1의 문서 데이터군 내의 단어에 관련하는 문서 데이터의 수를 나타내는 제 1의 값의 한 예로서, α또는 β를 이용하고, 제 2의 문서 데이터군 내의 단어에 관련하는 문서 데이터의 수를 나타내는 제 2의 값의 한 예로서, γ또는 δ를 이용한다. 또한, 복수의 구성어를 포함하는 문서 데이터를 제 1의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 1의 값의 한 예로서, β를 이용하고, 복수의 구성어를 포함하는 문서 데이터를 제 2의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 2의 값의 한 예로서, δ를 이용하고, 복합어를 포함하는 문서 데이터를 제 1의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 3의 값의 한 예로서, α를 이용하고, 복합어를 포함하는 문서 데이터를 제 2의 문서 데이터군에서 검색하여 얻은 문서 데이터의 수를 나타내는 제 4의 값의 한 예로서, γ를 이용한다.
다음으로, 5개의 복합어(W1~W5)를 예로 하여, 오역인 것 같은 느낌의 평가 방법에 대해서 기술하도록 한다.
도 3은, 복합어(W1~W5)에 대해서, α,β,γ,δ의 값을 나타낸 그래프이다.
복합어(W1)에 관해서는, α의 값이 어느 정도 큰 것이므로, 특정 사이트 내에 있어서 완전 일치 페이지가 다수 있다는 것을 알 수 있다. 따라서, 복합어(W1)는, 특정 사이트 내에서 바른 역어라고 말할 수 있다.
복합어(W2)에 관해서는, β의 값도 γ의 값도 일정 이상이므로, 특정 사이트 내에 있어서 공기 일치 페이지도 모든 사이트에 있어서 완전 일치 페이지도 어느 정도 있다는 것을 알 수 있다. 따라서, 복합어(W2)는 바른 일본어이며, 바른 역어일 가능성이 높다고 말할 수 있다.
복합어(W3)에 관해서는, α의 값도 β의 값도 0에 가깝지만 γ의 값은 일정 이상이므로, 특정 사이트 내에 있어서 완전 일치 페이지나 공기 일치 페이지는 거의 없는데, 모든 사이트에 있어서 완전 일치는 어느 정도 있다는 것을 알 수 있다. 따라서, 복합어(W3)는 바른 일본어이지만, 특정 사이트 내에서는 부적절할 가능성이 높다고 말할 수 있다. 이와 같은 복합어에 대해서는, 예를 들면, α/γ의 값을 구하여, 이 값이 소정의 임계값 이하이면, 특정 사이트에 있어서 역어로서 부적절하다고 판단해도 된다. 또는, β/γ의 값을 이용하여 똑 같은 방법으로 판단을 수행해도 되고, α및 β의 적어도 어느 한 쪽과, γ및 δ의 적어도 어느 한 쪽과의 비교 결과에 근거하는 판단이면, 이하의 기준에 근거하여 판단해도 된다.
복합어(W4)에 관해서는, γ의 값이 0이므로, 모든 사이트에 있어서 완전 일치 페이지가 없다는 것을 알 수 있다. 따라서, 복합어(W4)는 일본어로서 재검증의 필요가 있다고 말할 수 있다.
복합어(W5)에 관해서는, γ의 값이 0이고 δ의 값도 0에 가까우므로, 모든 사이트에 있어서 완전 일치 페이지가 없고 공기 일치 페이지도 거의 없다는 것을 알 수 있다. 따라서, 복합어(W5)는 일본어로서 부적절하다고 말할 수 있다.
여기서, 복합어(W2, W3, W4)에 대해서는, 더 β/δ를 산출하고, β/δ가 적을수록 오역의 가능성이 높다고 판단할 수도 있다.
이상의 설명 알 수 있듯이, 본 실시 형태에서는, 본래, 존재하는 말을 검색 키로 하여 수행되는 인터넷 검색을, 실재하지 않는 말을 검출하기 위해서 이용하고 있다.
다음으로, 본 실시 형태에 있어서 클라이언트(10)에 대해서 상세히 설명한다. 또한, 이하에서도, 영어로 기술된 원 문서를 기계 번역하여 일본어의 번역 문서를 취득하여 오역을 검증하는 것을 상정한다. 단, 원 문서 및 번역 문서의 언어는, 이것으로 한정되는 것이 아니다.
우선, 클라이언트(10)의 기능 구성에 대해서 설명한다.
도 4는 클라이언트(10)의 기능 구성 예를 나타낸 블록도이다.
도시한 것처럼, 클라이언트(10)는 번역 지시부(11)와, 번역 문서 기억부(12)와, 형태소 해석부(13)와, 복합어 리스트 기억부(14)와, 검색 지시부(15)를 갖춘다. 또한, 검색 결과 기억부(16)와, 평가 처리부(17)와, 평가 정보 기억부(18)와, 사전 갱신부(19)를 갖춘다.
번역 지시부(11)는 유저에 의한 영어의 문서의 지정을 번역 엔진(20)에 전달하여 그 영어의 문서를 일본어로 번역하라고 지시하고, 번역 엔진(20)에 의한 번역의 결과로서 일본어의 문서를 수취한다.
번역 문서 기억부(12)는 번역 지시부(11)가 번역 엔진(20)으로부터 수취한 일본어의 문서를 기억한다.
형태소 기억부(13)는 번역 문서 기억부(12)에 기억된 일본어의 문서에 대해 형태소 해석을 수행하고 복합어를 추출한다. 본 실시 형태에서는, 단어를 취득하는 제 1의 취득부의 한 예로서, 형태서 해석부(13)를 갖추고 있다.
복합어 리스트 기억부(14)는 형태소 해석부(13)가 추출한 복합어의 리스트(복합어 리스트)를 기억한다.
검색 지시부(15)는 복합어 리스트 기억부(14)에 기억된 복합어에 관련한 페이지를 특정 사이트 및 모든 사이트로부터 검색하는 검색 쿼리를 검색 엔진(30)에 투입하고, 검색 엔진(30)에 의한 검색 결과를 수취한다. 본 실시 형태에서는, 단어에 관련한 문서 데이터를 제 1의 문서 데이터군 및 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 제 2의 취득부의 한 예로서, 검색 지시부(15)를 갖추고 있다.
검색 결과 기억부(16)는 검색 지시부(15)가 검색 엔진(30)으로부터 수취한 검색 결과를 기억한다.
평가 처리부(17)는 검색 결과 기억부(16)에 기억된 검색 결과에 근거하여, 복합어의 오역인 것 같은 느낌을 나타내는 평가 정보(각 복합어의 레벨의 정보)를 생성한다. 본 실시 형태에서는, 단어의 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표의 한 예로서, 평가 정보를 이용하고, 지표를 생성하는 생성부의 한 예로서, 평가 처리부(17)를 갖추고 있다.
평가 정보 기억부(18)는 평가 처리부(17)가 생성한 평가 정보를 기억한다.
사전 갱신부(19)는 번역 엔진(20)이 기계 번역을 수행할 때에 참조하는 사전을 갱신한다. 그 때, 평가 정보 기억부(18)에 기억된 평가 정보를 유저에 제시하고, 각 복합어에 관하여 사전의 갱신을 수행할 지의 지시를 유저에게 구해도 된다.
계속하여, 본 실시 형태의 동작에 대해서 상세히 설명한다.
우선, 유저가 번역 엔진(20)이 제공하는 페이지를 클라이언트(10)에 표시하고, 그 페이지 상에서 번역 대상의 영어의 문서를 지정하는 조작을 수행하였다고 하자. 그러면, 클라이언트(10)에서는 번역 지시부(11)가 동작을 개시한다.
도 5는 이 때의 번역 지시부(11)의 동작 예를 나타낸 흐름도이다.
우선, 번역 지시부(11)는 번역 대상의 영어의 문서의 유저에 의한 지정을 접수한다(단계(101)). 여기에서, 번역 대상의 영어의 문서는, 인터넷 상의 페이지일 수도 있고, 특정의 어플리케이션에서 작성되어 클라이언트(10) 내에 기억된 전자 문서여도 된다.
다음으로, 번역 지시부(11)는 지정된 영어의 문서의 번역을 번역 엔진(20)에 지시한다(단계(102)). 그러면, 번역 엔진(20)은 영어의 문서에 대해서 기계 번역을 수행하고, 일본어의 문서를 취득한다.
이것으로, 번역 지시부(11)는 기계 번역에 의해 얻은 일본어의 문서를 번역 엔진(20)으로부터 수취한다(단계(103)). 그리고, 이 수취한 일본의 문서를 번역 문서 기억부(12)에 기억하고, 표시 기구(90d)(도 13 참조)에 표시한다(단계(104)).
이와 같이 하여, 일본어의 문서가 번역 문서 기억부(12)에 기억되면, 형태소 해석부(13)가 그 일본어의 문서에 대해서 형태소 해석을 수행하고, 오역인 것 같은 느낌의 검증의 대상인 복합어를 추출한다.
도 6은 이 때의 형태소 해석부(13)의 동작 예를 나타낸 흐름도이다.
우선, 형태소 해석부(13)는 기계 번역에 의해 얻은 일본어의 문서를 번역 문서 기억부(12)로부터 읽어낸다(단계(121)).
다음으로, 형태소 해석부(13)는 일본의 문서의 형태소 해석을 수행하는 것으로, 복합어를 추출한다(단계(122)). 또한, 여기에서 추출되는 복합어는 한 단어로 한정되지 않고, 일반적으로 복수의 복합어가 추출된다.
그리고, 형태소 해석부(13)는 추출한 복합어를 복합어 리스트로서 복합어 리스트 기억부(14)에 기억한다(단계(123).
이와 같이 하여, 복합어 리스트 기억부(14)에 복합어 리스트가 기억되면, 검색 지시부(15)가 검색 엔진(30)을 이용하여, 복합어 리스트에 포함되는 복합어에 관련하는 페이지의 인터넷 상에서의 검색을 수행한다.
도 7은, 이 때의 검색 지시부(15)의 동작 예를 나타낸 흐름도이다. 또한, 이 동작 예에 있어서 검색 엔진(30)에 송신된 검색 쿼리의 예를 도 8에 나타낸다.
우선, 검색 지시부(15)는 복합어 리스트 기억부(14)에 기억된 하나의 복합어를 취하여, 검색 결과 기억부(16)에 있어서 복합어 란에 세트한다(단계(141)). 또한, 검색 결과 기억부(16)에 있어서 기억 형식에 대해서는, 이후에 상세히 설명하겠다.
다음으로, 검색 지시부(15)는 특정 사이트에 있어서 완전 일치 페이지의 검색을 검색 엔진(30)에 지시한다(단계(142)). 이때, 검색 지시부(15)는, 예를 들면, 도 8(a)와 같은 검색 쿼리를 검색 엔진(30)에 송신한다. 이 검색 쿼리는, 복합어 XYZ를 인용 부호(도에서는 %22라고 표기)로 묶어 검색어로서 지정한 것으로 되어 있다. 또 vs=ibm.com이라는 기술에 의해, 특정 사이트로서 ibm.com이 지정된다. 그러면, 검색 엔진(30)은 특정 사이트에 있어서 완전 일치 페이지를 검색하고, 그와 같은 페이지의 수 α를 클라이언트(10)에 보낸다.
이것으로, 검색 지시부(15)는 검색 엔진(30)으로부터 를 취득하고, 검색 결과 기억부(16)의 α란에 세트한다(단계(143)).
또한, 검색 지시부(15)는 특정 사이트에 있어서 공기 일치 페이지의 검색을 검색 엔진(30)에 지시한다(단계(144)). 이때, 검색 지시부(15)는, 예를 들면, 도 8(b)와 같은 검색 쿼리를 검색 엔진(30)에 송신한다. 이 검색 쿼리는 복합어 XYZ를 인용 부호로 묶지 않고 검색어로서 지정한 것으로 되어 있다. 또 vs=ibm.com이라는 기술에 의해, 특정 사이트로서 ibm.com이 지정된다. 그러면, 검색 엔진(30)은 특정 사이트에 있어서 완전 일치 페이지를 검색하고, 그와 같은 페이지의 수 β를 클라이언트(10)에 보낸다.
이것으로, 검색 지시부(15)는 검색 엔진(30)으로부터 β를 취득하고, 검색 결과 기억부(16)의 β란에 세트한다(단계(145)).
또한, 검색 지시부(15)는 특정 사이트에 있어서 완전 일치 페이지의 검색을 검색 엔진(30)에 지시한다(단계(146)). 이때, 검색 지시부(15)는, 예를 들면, 도 8(c)와 같은 검색 쿼리를 검색 엔진(30)에 송신한다. 이 검색 쿼리는 복합어 XYZ를 인용 부호(도에서는 %22라고 표기)로 묶어 검색어로서 지정한 것으로 되어 있다. 또 vs=라는 기술이 아니고, 특정 사이트는 지정되지 않는다. 그러면, 검색 엔진(30)은, 모든 사이트에 있어서 완전 일치 페이지를 검색하고, 그와 같은 페이지의 수 γ를 클라이언트(10)에 보낸다.
이것으로, 검색 지시부(15)는 검색 엔진(30)으로부터 γ를 취득하고, 검색 결과 기억부(16)의 γ란에 세트한다(단계(147)).
또한, 검색 지시부(15)는 특정 사이트에 있어서 공기 일치 페이지의 검색을 검색 엔진(30)에 지시한다(단계(148)). 이때, 검색 지시부(15)는, 예를 들면, 도 8(d)와 같은 검색 쿼리를 검색 엔진(30)에 송신한다. 이 검색 쿼리는 복합어 XYZ를 인용 부호로 묶지 않고 검색어로서 지정한 것으로 되어 있다. 또 vs= 라는 기술이 아니고, 특정 사이트는 지정되지 않는다. 그러면, 검색 엔진(30)은, 모든 사이트에 있어서 공기 일치 페이지를 검색하고, 그와 같은 페이지의 수 δ를 클라이언트(10)에 보낸다.
이것으로, 검색 지시부(15)는, 검색 엔진(30)으로부터 δ를 취득하고, 검색 결과 기억부(16)의 δ란에 세트한다(단계(149)).
그 후, 검색 지시부(15)는 복합어 리스트 기억부(14)에 미처리의 복합어가 기억되었는지를 판정한다(단계(150)). 그리고, 그와 같은 복합어가 기억되어 있으면, 그 복합어에 대해서 단계(141~149)의 처리를 반복한다. 또한, 그와 같은 복합어가 기억되어 있지 않으면, 처리를 종료한다.
여기서, 이와 같은 처리에 의해 검색 결과 기억부(16)에 기억된 검색 결과에 대해 설명한다.
도 9는, 검색 결과 기억부(16)에 기억된 검색 결과의 한 예를 나타낸 도이다.
도시한 것처럼, 검색 결과는 복합어와, α의 값과, β의 값과, γ의 값과, δ의 값을 대응한 것으로 되어 있다. 또한, 도 9에서는, β/δ의 값도 대응되어 있지만, 이것은 설명의 편의상 포함한 것으로, 실제로는 검색 결과 기억부(16)에 기억하지 않아도 된다. 또한, 도 9는 도 7의 처리에 따라 정보가 기억되었을 때의 상태를 나타내고, 기계 번역에 의해 얻은 일본어의 문서에 출현하는 복합어의 순으로 검색 결과가 기억된다. 예를 들면, 기계 번역에 의해 얻은 일본어의 문서에 최초로 출현하는 복합어는 오픈 소스이며, 특정 사이트에, 오프 소스를 포함하는 페이지가 3830건 있고, 오픈 및 소스를 포함하는 페이지가 5610건 있고, 모든 사이트에 오픈 소스를 포함하는 페이지가 3000만 건 있고, 오픈 및 소스를 포함하는 페이지가 4300만 건 있다는 것을 나타낸다.
이와 같이 하여, 검색 결과 기억부(16)에 검색 결과가 기억되면, 평가 처리부(17)가 이 정보에 근거하여, 각 복합어의 오역인 것 같은 느낌의 레벨인 평가 정보를 생성한다.
즉, 평가 처리부(17)는 검색 결과를 경험측에서 구한 다음의 4개의 기준(criteria)에 적용하여, 역어로서 채용된 복합어를, “올바름(correct)”, “주의가 필요”, “수정이 필요”로 나눈다.
A. 특정 사이트 내에서 완전 일치 페이지가 2개 이상 발견된 경우에 복합어에 할당되는 기준이다. 이 기준에 할당된 복합어는 특정 사이트에 있어서 역어로서 올바르다고 간주할 수 있다.
B. 특정 사이트 내에서 완전 일치 페이지가 2개 이상 발견되지 않았지만, 모든 사이트에서는 완전 일치 페이지가 2개 이상 발견된 경우에 복합어에 할당되는 기준이다. 이 기준에 분류된 복합어는, 일본어로서 거의 올바르지만, 특정 사이트에서는 적절하지 않은 가능성이 있기 때문에 주의가 필요하다.
C. 특정 사이트 내에서도 모든 사이트 내에서도 완전 일치 페이지가 2개 이상 발견되지 않은 경우에 복합어에 할당되는 기준이다. 이 기준에 분류된 복합어는, 오역의 가능성이 있기 때문에, 주의가 필요하다.
D. 위에 어느 조건에도 적용되지 않고, 특정 사이트 내에서 공기 일치 페이지가 발견되지 않은 경우에 복합어에 할당되는 기준이다. 이 기준에 분류된 복합어는, 역어의 가능성이 높기 때문에, 수정이 필요하다.
또한, 상기에서 주의를 필요로 하는 기준이 할당된 복합어에 대해서는, 평가식에 의해 주의를 하는 우선순위(priority)를 붙인다. 여기서, 평가식에는, 모든 사이트에 있어서 공기 일치 페이지의 수에 대한 특정 사이트 내에서의 공기 일치 페이지의 수의 비율을 이용한다. 즉, 복합어를 구성하는 복수의 단어의 공기 출현 빈도와, 그것들의 단어가 복합어와 같은 순서로 나타나는 경우의 출현 빈도와의 비(比)를 구한다.
이 값이 클수록 그 복합어의 특정 사이트에의 침투도가 높기 때문에, 오역이 아닐 가능성이 높다. 또한, 이 값이 작을 수록, 그 복합어의 특정 사이트에의 침투도가 낮기 때문에, 오역일 가능성이 높고, 주의가 필요하다.
단, 이 값이 어느 정도의 크기가 될지는 특정 사이트로서 지정된 사이트의 종류(도메인이나 문서의 종류)에 의해 달라지기 때문에, 값의 평균이나, 값의 평균의 10분의 1을 임계값으로서 이용하여, 기준을 3단계(레벨)로 나누어, 주의를 할 때의 기준으로 한다.
도 10은 평가 정보를 생성할 때의 평가 처리부(17)의 동작 예를 나타낸 흐름도이다. 또한, 이 동작 예에서는, 주의를 필요로 하는 기준은 아니지만, 기준 A도 평가식을 이용하여 2단계(레벨)로 나눈다. 또한, 이 동작에 앞서, 모든 복합어에 대한 의 평균치 AVG를 구하여, 평가 처리부(17)가 참조 가능한 메모리에 기억해 두는 것으로 한다. 예를 들면, 도 9의 예의 경우, AVG=(0.0001305+0.0000000+0.0003688+0.0000097+0.0006135+0.1043860+0.0029358+0.0051106+0.0384384+0.0002405+0.0000000+0.0001655)/12=0.0126999로 되기 때문에, 이 값이 메모리에 기억된다.
우선, 평가 처리부(17)는 검색 결과 기억부(16)에 기억된 검색 결과로부터 1행을 리드(read)한다(단계(61)).
다음으로, 평가 처리부(17)는 리드한 검색 결과에 있어서 β의 값이 0보다 큰지를 판단한다(단계(162)).
여기서, β의 값이 0보다 크면, 평가 처리부(17)는 리드한 검색 결과에 있어 α의 값이 1보다 큰지를 판정한다(단계(163)).
그 결과, α의 값이 1보다 크면, 처리 대상의 복합어는 레벨 A로 분류된다. 단, 본 실시 형태에서는, 레벨 A를 β/δ의 값에 의해 레벨 A1 레벨 A2로 나누기 때문에, 복합어를 이 어느 한 레벨로 분류한다. 즉, 평가 처리부(17)는, 리드 한 검색 결과에 있어서 β와 δ로부터 β/δ를 산출하는 것과 함께 메모리로부터 AVG를 리드하고, β/δ와 AVGx0.1의 대소 관계를 판정한다(단계(164)). 그리고, β/δ가 AVGx0.1이상이면, 처리 대상의 복합어 레벨 A1로 분류한다(단계(165)). 즉, 평가 정보 기억부(18)의 레벨 A1에 관련하여 그 복합어를 기억한다. 또, β/δ가 AVGx0.1미만이면, 처리 대상의 복합어를 레벨 A2로 분류한다(단계(166)). 즉, 평가 정보 기억부(18)의 레벨 A2에 관련하여 그 복합어를 기억한다.
한편, 단계(163)에서 α의 값이 1이하이면, 평가 처리부(17)는 단계(161)에서 리드한 검색 결과에 있어서 γ의 값이 1보다 큰지를 판정한다(단계(167)). 그리고, γ의 값이 1보다 크면, 평가 처리부(17)는 처리 대상의 복합어를 레벨 B로 분류한다(단계(168)). 즉, 평가 정보 기억부(18)의 레벨 B과 관련하여 그 복합어를 기억한다.
또한, γ의 값이 1이하이면, 처리 대상의 복합어는 레벨 C로 분류된다. 단, 본 실시 형태에서는 레벨 C를 β/δ의 값에 의해 레벨 C1과 레벨 C2와 레벨 C3으로 나누기 때문에, 복합어를 어느 한 레벨로 분류한다. 즉, 평가 처리부(17)는 리드한 검색 결과에 있어서 β와 δ로부터 β/δ를 산출하는 것과 함께 메모리로부터 AVG를 리드하고, β/δ와 AVG, β/δ와 AVGx0.1의 대소 관계를 판정한다(단계(169)). 그리고, β/δ가 AVG이상이면, 처리 대상의 복합어를 레벨 C1로 분류한다(단계(170)). 즉, 평가 정보 기억부(18)의 레벨 C1에 관련하여 그 복합어를 기억한다. 또한, β/δ가 AVG미만 또는 AVGx0.1이상이면, 처리 대상의 복합어 레벨 C2로 분류한다(단계(171)). 즉, 평가 정보 기억부(18)의 레벨 C2에 관련하여 그 복합어를 기억한다. 또한, β/δ가 AVGx0.1미만이면, 처리 대상의 복합어를 레벨 C3로 분류한다(단계(172)). 즉, 평가 정보 기억부(18)의 레벨 C3에 관련하여 그 복합어를 기억한다.
또한, 단계(162)에서 β의 값이 0이면, 평가 처리부(17)는 처리 대상의 복합어를 레벨 D로 분류한다(단계(173)). 즉, 평가 정보 기억부(18)의 레벨 D에 관련하여 그 복합어를 기억한다.
그 후, 평가 처리부(17)는 검색 결과 기억부(16)에 미처리의 검색 결과가 기억되었는지를 판정한다(단계(174)). 그리고, 그와 같은 검색 결과가 기억되어 있으면, 그 검색 결과에 대해서 단계(161~173)의 처리를 반복한다. 또한, 그와 같은 검색 결과가 기억되어 있지 않으면, 처리를 종료한다.
여기서, 그와 같은 처리에 의해 평가 정보 기억부(18)에 기억된 평가 정보에 대해 설명한다.
도 11은 평가 정보 기억부(18)에 기억된 평가 정보의 한 예를 나타낸 도이다.
도시한 것처럼, 평가 정보는 레벨과, 복합어를 대응한 것으로 되어 있다.
예를 들면, 복합어 오픈 소스는, β=5610>0, 그리고, α=3830>1, 그리고 β/δ=0.0001305<0.0012700=AVGx0.1이기 때문에, 레벨 A2에 대응된다. 복합어 ”군집 방법”은, β=0이기 때문에, 레벨 D에 대응된다.
복합어 “어플리케이션 시큐리티 문제”는, β=5790, 그리고, α=0≤1, 그리고, γ=0≤1 , 그리고, β/δ=0.0003688<0.0012700=AVGx0.1이기 때문에, 레벨 C3에 대응된다.
이와 같이 하여, 평가 정보 기억부(18)에 평가 정보가 기억되면, 사전 갱신부(19)는 평가 정보에 근거하여 유저의 지시에 의해, 기계 번역에서 채용된 일본어의 복합어를 번역 전의 영어의 복합어의 역어로서 사전에 등록한다.
도 12는 이 때의 사전 갱신부(19)의 동작 예를 나타낸 흐름도이다.
우선, 사전 갱신부(19)는 평가 정보 기억부(18)에 기억된 평가 정보로부터 1행을 리드한다(단계(181)). 그리고, 도 5의 단계(104)에서 표시 기구(90d)(도 13 참조)에 표시된 일본어의 문서 상에서, 이 리드한 평가 정보에 포함되는 복합어를, 이 리드 한 평가 정보에 포함되는 레벨에 따른 속성으로 표시한다(단계(182)). 여기서, 속성으로서는, 예를 들면, 복합어를 표시할 때의 표시 색을 이용하면 된다. 구체적으로는, 레벨 A로 분류된 복합어는 녹색으로, 레벨 B로 분류된 복합어는 청색으로, 레벨 C로 분류된 복합어는 황색으로, 레벨 D로 분류된 복합어는 적색으로 표시하도록 하는 것이 고려된다.
그 후, 사전 갱신부(19)는 평가 정보 기억부(18)에 기억된 평가 정보로부터 모든 행을 리드하였는지를 판정한다(단계(183)). 그리고, 모든 행을 리드하지 않았으면, 단계(181~182)의 처리를 반복한다. 또한, 모든 행을 리드하였으면, 일본어의 문서 상에 있어서 복합어의 표시에 근거하는 유저 조작에 의해, 복합어를 사전에 등록하는 처리를 수행한다.
즉, 우선, 사전 갱신부(19)는 복합어의 사전에의 등록 작업을 수행하지 않는다는 것을 유저가 명시적으로 선택했는지를 판정한다(단계(184)). 여기서, 복합어의 사전에의 등록 작업을 수행하지 않는다는 것이 선택된 경우는, 처리를 종료하지만, 복합어의 사전에의 등록 작업을 수행하지 않는다는 것을 선택하지 않은 경우는, 유저에 의한 특정의 복합어의 사전에의 등록 작업이 일정 기간 내에 수행되었는지를 판정한다(단계(185)).
그 결과, 특정의 복합어의 사전에의 등록 작업이 일정 기간 내에 수행되어 있으면, 지정된 복합어를 사전에 등록하고(단계(186)), 단계(184)에 리턴한다. 한편, 특정의 복합어의 사전에의 등록 작업이 일정 기간 내에 수행되어 있지 않으면, 복합어의 사전에의 등록은 수행하지 않고, 단계(184)에 리턴한다.
또한, 여기서 기술한 복합어의 평가는 엄밀하게 말하면, 도 3을 참조하여 설명한 복합어의 평가와 다르다. 하지만, 복합어를 검색 키로서 인터넷 검색을 수행했을 때의 모든 사이트에서의 히트 수에 비교하여 특정 사이트에서의 히트 수가 극단적으로 적은 경우에 그 복합어는 특정 사이트에서의 역어로서 적절하지 않다고 하는 생각에 있어서는 공통이다.
또 이와는 반대로, 모든 사이트에서의 히트 수에 비하여 특정 사이트에서의 히트 수가 극단적으로 적은 경우에, 그 복합어는 특정 사이트에서의 역어로서 적절하지 않다고 하는 생각을 도입하면, 그 다른 조건은 여러 가지로 변경 가능하다. 예를 들면, 도 10에서는, β>0, 그리고, α1일 때, β/δ에 대해서 평가하도록 했지만, β>0이라는 조건을 빼도 된다. 또한, β>0, 그리고, α≤1, 그리고, γ≤1일 때에, β/δ에 대해서 평가하도록 했지만, β>0 및 α≤1이라는 조건을 빼거나, β>0 및 γ≤1이라는 조건을 빼거나 해도 된다.
또한, 임의 조건으로 정의한 기준 중에서 레벨을 결정하기 위해, β/δ의 값을 이용하는 것으로서 발명을 파악해도 된다. 즉, β/δ가 제 1의 임계값 이상이면, 특정 사이트에 대응하는 분야에 있어서 역어로서의 타당성을 제 1의 레벨로 하고, β/δ가 제 1의 임계값 이하의 제 2의 임계값보다 작으면, 특정 사이트에 대응하는 분야에 있어서 역어로서의 타당성을 제 1의 레벨보다도 낮은 제 2의 레벨로 하는 방법으로 레벨을 결정하는 것으로 고려해도 된다.
이상, 본 실시 형태에 대해서 설명하였다.
이와 같이, 본 실시 형태에서는, 어느 복합어를 포함하는 페이지를 특정 사이트와 모든 사이트에서 검색하고, 특정의 사이트에서의 히트 수와 모든 사이트에서의 히트 수에 근거하여, 그 복합어의 오역인 것 같은 느낌을 수치화했다. 이것으로, 특정 사이트의 문맥에 있어서 역어로서 적절한지를 검증해야 할 복합어의 순위 부여가 가능해지고, 검증해야 할 복합어를 수작으로 검출한 경우에 비하여, 검출에 필요한 시간을 큰 폭으로 단축할 수 있다. 또, 사람의 손을 거의 번거롭게 하지 않고, 복합어에 대해서, 오역인지를 코퍼스(corpus)를 이용하지 않아도 판별할 수 있게 되었다.
또한, 본 실시 형태에서는, 2개 이상의 단어가 결합하여 생긴 단어인 복합어를 오역 검출의 대상으로 했지만, 그 이상 알 수 없는 단어인 단순어를 오역 검출의 대상으로 해도 된다. 그 경우는, 완전 일치와 공기 일치의 구별이 없어지기 때문에, α=β, 그리고 γ=δ가 된다. 예를 들면, 특정 사이트에 대응하는 분야가 컴퓨터 관계인 경우에, 그 특정 사이트의 번역 엔진이 authority의 역어로서 권력자를 채용하였다고 하자. 이 경우, 모든 사이트를 대상으로서 권력자를 검색하면, 많은 페이지가 히트하는데, 특정 사이트를 대상으로 하여 권력자를 검색한 경우, 히트 수는 그렇게 많지 않다고 고려된다. 따라서, 권력자는 특정 사이트에서의 역어로서는 적절하지 않다고 판단하고, 유저에게 검증을 촉구하고, 컴퓨터 관련하여 적절한 역어인 오소리티(authority)를 얻을 수 있다.
또한, 본 실시 형태에서는, 단어를 포함하는 페이지를 검색하도록 했는데, 예를 들면, 단어가 인덱스로서 등록된 페이지와 같이, 단어에 관련하는 페이지를 검색하도록 해도 된다.
또한, 본 실시 형태에서는, 클라이언트(10)가 형태소 해석을 수행하였는데, 꼭 이와 같은 형태에 한정되지 않는다. 즉, 형태소 해석을 수행하는 형태소 해석 엔진을 클라이언트(10)의 외부에 설치하여, 클라이언트(10)가, 형태소 해석 엔진에 번역 문서를 주고 형태소 해석을 지시하고, 그 결과를 형태소 해석 엔진으로부터 수취하도록 해도 된다.
또, 반대로, 본 실시 형태에서는, 클라이언트(10)가, 외부에 설치된 번역 엔진(20)에 번역을 지시하고, 외부에 설치된 검색 엔진(30)에 검색을 지시하도록 했지만, 꼭 이와 같은 형태로 한정되지 않는다. 클라이언트(10)가 자신이 번역을 수행하거나 자신이 검색을 수행하거나 나는 구성을 채용해도 된다.
또한, 본 실시 형태에서는, 인트라넷에 접속된 번역 엔진(20)이 채용한 역어가 인트라넷에서 접속된 기업 등이 관계하는 분야에 있어서 역어로서 적절한지를 검증하기 위한 시스템에 대해서 설명했다. 하지만, 클라이언트(10)가, 어느 분야를 지정하여, 그 분야에 있어서 역어로서 적절한지를 서버에 문의하면, 서버가 역어에 수치적 평가를 주어, 유저에 의한 오역의 검증을 촉구하도록 해도 된다.
마지막으로, 본 실시 형태를 적용하는데 바람직한 컴퓨터의 하드웨어 구성에 대해 설명한다. 도 13은 이와 같은 컴퓨터의 하드웨어 구성의 한 예를 나타낸 도이다. 도시한 것처럼, 컴퓨터는, 산출 수단인 CPU(Central Processing Unit)(90a)와, M/B(마더 보드) 칩 세트(90b)를 통하여 CPU(90a)에 접속된 표시 기구(90d)를 갖춘다. 또 M/B 칩 세트(90b)에는, 브릿지 회로(90e)를 통하여, 네트워크 인터페이스(90f)와, 자기 디스크 장치(HDD)(90g)와, 음성 기구(90h)와, 키보드/마우스(90i)와, 플렉시블 디스크 드라이브(90j)가 접속된다.
또한, 도 13에서 각 구성 요소는 버스를 통하여 접속된다. 예를 들면, CPU(90a)와 M/B 칩 세트(90b)의 사이나, M/B 칩 세트(90b)와 메인 메모리(90c)의 사이는 CPU 버스를 통하여 접속된다. 또, M/B 칩 세트(90b)와 표시 기구(90d)와의 관계는 AGP(Accelerated Graphics Port)를 통하여 접속되어도 되지만, 표시 기구(90d)가 PCI Express 대응의 비디오 카드를 포함하는 경우, M/B 칩 세트(90b)와 이 비디오 카드의 사이는, PCI Express(PCIe) 버스를 통하여 접속된다. 또, 브릿지 회로(90e)와 접속하는 경우, 네트워크 인터페이스(90f)에 대해서는, 예를 들면, PCI Express를 이용할 수 있다. 또, 자기 디스크 장치(90g)에 대해서는, 예를 들면 시리얼 ATA(AT Attachment), 패러렐 전송의 ATA, PCI(Peripheral Components Interconnect)를 이용할 수 있다. 또, 키보드/마우스(90i), 및, 플렉시블 디스크 드라이브(90j)에 대해서는, USB(Universal Serial Bus)를 이용할 수 있다.
여기서, 본 발명은 모든 하드웨어에서 실현해도 되고, 모든 소프트웨어에서 실현해도 된다. 또한, 하드웨어 및 소프트웨어의 양쪽에 의해 실현하는 것도 가능하다. 또한, 본 발명은 컴퓨터, 데이터 처리 시스템, 컴퓨터 프로그램으로서 실현할 수 있다. 이 컴퓨터 프로그램은, 컴퓨터에 의해 리드 가능한 매체에 기억되고, 제공될 수 있다. 여기서, 매체로서는, 전자적, 자기적, 광학적, 전자기적, 적외선 또는 반도체 시스템(장치 또는 기기), 혹은, 전송 매체가 고려된다. 또한, 컴퓨터에 의해 리드가능한 매체로서는, 반도체, 솔리드 스테이트 기억 장치, 자기 테이프, 착탈식 컴퓨터 디스켓, 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 리지드 자기 디스크, 및 광 디스크가 예시된다. 현시점에 있어서 광 디스크의 예는, 콤팩트 디스크 리드 온리 메모리(CD-ROM), 콤팩트 디스크 리드/라이트(CD-R/W) 및 DVD가 포함된다.
이상, 본 발명을 실시 형태를 이용하여 설명하였는데, 본 발명의 기술적 범위는 상기 실시 형태에는 한정되지 않는다. 본 발명의 정신 및 범위로부터 일탈하는 일 없이 여러 가지 변경하거나 대체 태양을 채용하거나 하는 것이 가능한 것은, 당업자라면 알 수 있다.
10 : 클라이언트 11 : 번역 지시부
12 : 번역 문서 기억부 13 : 형태소 해석부
14 : 복합어 리스트 기억부 15 : 검색 지시부
16 : 검색 결과 기억부 17 : 평가 처리부
18 : 평가 정보 기억부 19 : 사전 갱신부
20 : 번역 엔진 30 : 검색 엔진

Claims (12)

  1. 원 문서를 기계 번역하여 얻은 번역 문서 내의 오역의 검출을 지원하는 장치에 있어서,
    상기 번역 문서에 포함되는 단어를 취득하는 제 1의 취득부와,
    상기 제 1의 취득부에 의해 취득된 상기 단어에 관련되는 문서 데이터를 제 1의 문서 데이터군 및 상기 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 제 2의 취득부와,
    상기 제 1의 취득부에 의해 취득된 상기 단어의 상기 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표를 상기 제 2의 취득부에 의해 취득된 상기 검색 결과에 근거하여 생성하는 생성부와,
    상기 생성부에 의해 생성된 상기 지표를 출력하는 출력부를 포함하는
    장치.
  2. 제1항에 있어서, 상기 제 2의 취득부는 상기 제 1의 문서 데이터군 내의 상기 단어에 관련되는 문서 데이터의 수를 나타내는 제 1의 값과, 상기 제 2의 문서 데이터군 내의 상기 단어에 관련되는 문서 데이터의 수를 나타내는 제 2의 값을 상기 검색 결과로서 취득하고,
    상기 생성부는 상기 제 1의 값과 상기 제 2의 값과의 비교 결과에 근거하여 상기 지표를 생성하는,
    장치.
  3. 제2항에 있어서, 상기 생성부는 상기 제 1의 값의 상기 제 2의 값에 대한 비율이 소정의 임계값 이하인 경우에, 상기 제 1의 취득부에 의해 취득된 상기 단어가 상기 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서 타당하지 않다는 것을 나타내는 상기 지표를 생성하는,
    장치.
  4. 제1항에 있어서, 상기 제 2의 취득부는 상기 제 1의 문서 데이터군의 지정과 상기 단어를 포함하는 제 1의 검색 쿼리를 자동 생성하여 상기 제 1의 검색 쿼리를 검색 엔진에 투입함에 의해, 상기 단어에 관련하는 문서 데이터를 상기 제 1의 문서 데이터군에서 검색한 검색 결과를 취득하고, 상기 제 1의 문서 데이터군의 지정을 포함하지 않고 상기 단어를 포함하는 제 2의 검색 쿼리를 자동 생성하여 상기 제 2의 검색 쿼리를 상기 검색 엔진에 투입함에 의해, 상기 단어에 관련하는 문서 데이터를 상기 제 2의 문서 데이터군에서 검색한 검색 결과를 취득하는,
    장치.
  5. 제1항에 있어서, 상기 제 1의 취득부는 복수의 구성어를 포함하는 복합어를 상기 단어로서 취득하고,
    상기 제 2의 취득부는 상기 복수의 구성어를 포함하는 문서 데이터를 상기 단어에 관련되는 문서 데이터로서, 상기 제 1의 문서 데이터군 및 상기 제 2의 문서 데이터군의 양쪽에서 검색한 상기 검색 결과를 취득하는,
    장치.
  6. 제5항에 있어서, 상기 제 2의 취득부는 상기 제 1의 문서 데이터군 내의 상기 복수의 구성어를 포함하는 문서 데이터의 수를 나타내는 제 1의 값과, 상기 제 2의 문서 데이터군 내의 상기 복수의 구성어를 포함하는 문서 데이터의 수를 나타내는 제 2의 값을, 상기 검색 결과로서 취득하고,
    상기 생성부는 상기 제 1의 값과 상기 제 2의 값과의 비교 결과에 근거하여 상기 지표를 생성하는,
    장치.
  7. 제6항에 있어서, 상기 생성부는 상기 제 1의 값의 상기 제 2의 값에 대한 비율이 제 1의 임계값 이상인 경우, 상기 제 1의 취득부에 의해 취득된 상기 복합어의 상기 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성이 제 1의 레벨이라는 것을 나타내는 상기 지표를 생성하고, 상기 비율이 상기 제 1의 임계값 이하의 제 2의 임계값보다 작은 경우, 상기 복합어의 상기 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성이 상기 제 1의 레벨보다 낮은 제 2의 레벨이라는 것을 나타내는 상기 지표를 생성하는,
    장치.
  8. 삭제
  9. 삭제
  10. 원 문서를 기계 번역하여 얻은 번역 문서 내의 오역의 검출을 지원하는 장치에 있어서,
    상기 번역 문서에 포함되어 복수의 구성어를 포함하는 복합어를 취득하는 제 1의 취득부와,
    상기 복수의 구성어를 상기 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정을 포함하지 않고 제 1의 문서 데이터군의 지정과 상기 복합어를 포함하는 제 1의 검색 쿼리를 자동 생성하여 상기 제 1의 검색 쿼리를 검색 엔진에 투입하는 것에 의해, 상기 복수의 구성어를 포함하는 문서 데이터를 상기 제 1의 문서 데이터군에서 검색하여 얻은 상기 문서 데이터의 수를 나타내는 제 1의 값을 취득하고, 상기 복수의 구성어를 상기 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정도 제 1의 문서 데이터 군의 지정도 포함하지 않고 상기 복합어를 포함하는 제 2의 검색 쿼리를 자동 생성하여 상기 제 2의 검색 쿼리를 상기 검색 엔진에 투입하는 것에 의해, 상기 복수의 구성어를 포함하는 문서 데이터를 상기 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군에서 검색하여 얻은 상기 문서 데이터의 수를 나타내는 제 2의 값을 취득하고, 상기 제 1의 문서 데이터군의 지정과 상기 복수의 구성어를 상기 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정과 상기 복합어를 포함하는 제 3의 검색 쿼리를 자동 생성하여 상기 제 3의 검색 쿼리를 상기 검색 엔진에 투입하는 것에 의해, 상기 복합어를 포함하는 문서 데이터를 상기 제 1의 문서 데이터군에서 검색하여 얻은 상기 문서 데이터의 수를 나타내는 제 3의 값을 취득하고, 상기 제 1의 문서 데이터군의 지정을 포함하지 않고 상기 복수의 구성어를 상기 복합어에 있어서 순서대로 포함한다고 하는 조건의 지정과 상기 복합어를 포함하는 제 4의 검색 쿼리를 자동 생성하여 상기 제 4의 검색 쿼리를 상기 검색 엔진에 투입하는 것에 의해, 상기 복합어를 포함하는 문서 데이터를 상기 제 2의 문서 데이터군에서 검색하여 얻은 상기 문서 데이터의 수를 나타내는 제 4의 값을 취득하는 제 2의 취득부와,
    상기 제 1의 취득부에 의해 취득된 상기 복합어의 상기 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표를 상기 제 2의 취득부에 의해 취득된 상기 제 1의 값 및 상기 제 3의 값의 적어도 어느 한 쪽과, 상기 제 2의 취득부에 의해 취득된 상기 제 2의 값 및 상기 제 4의 값의 적어도 어느 한 쪽과의 비교 결과에 근거하여 생성하는 생성부와,
    상기 생성부에 의해 생성된 상기 지표를 출력하는 출력부를 포함하는,
    장치.
  11. 원 문서를 기계 번역하여 얻은 번역 문서 내의 오역의 검출을 지원하는 방법에 있어서,
    상기 번역 문서에 포함되는 단어를 취득하는 단계와,
    취득된 상기 단어에 관련되는 문서 데이터를 제 1의 문서 데이터군 및 상기 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 단계와,
    취득된 상기 단어의 상기 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표를, 취득된 상기 검색 결과에 근거하여 생성하는 단계와,
    생성된 상기 지표를 출력하는 단계를 포함하는,
    방법.
  12. 컴퓨터 판독가능 매체에 있어서,
    상기 컴퓨터 판독가능 매체는 원 문서를 기계 번역하여 얻은 번역 문서내의 오역의 검출을 지원하는 장치로서 컴퓨터를 기능시키는 컴퓨터 프로그램을 포함하고,
    상기 컴퓨터 프로그램은,
    상기 컴퓨터를,
    상기 번역 문서에 포함되는 단어를 취득하는 제 1의 취득부와,
    상기 제 1의 취득부에 의해 취득된 상기 단어에 관련되는 문서 데이터를 제 1의 문서 데이터군 및 상기 제 1의 문서 데이터군을 포함하는 제 2의 문서 데이터군의 양쪽에서 검색한 검색 결과를 취득하는 제 2의 취득부와,
    상기 제 1의 취득부에 의해 취득된 상기 단어의 검색 제 1의 문서 데이터군에 대응하는 분야에 있어서 역어로서의 타당성을 나타내는 지표를, 상기 제 2의 취득부에 의해 취득된 상기 검색 결과에 근거하여 생성하는 생성부와,
    상기 생성부에 의해 생성된 상기 지표를 출력하는 출력부로서 기능시키는,
    컴퓨터 판독가능 매체.
KR1020117014447A 2008-11-27 2009-11-13 오역의 검출을 지원하는 장치 및 방법 KR101507637B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008302585 2008-11-27
JPJP-P-2008-302585 2008-11-27
PCT/JP2009/069316 WO2010061733A1 (ja) 2008-11-27 2009-11-13 誤訳の検出を支援する装置及び方法

Publications (2)

Publication Number Publication Date
KR20110102358A KR20110102358A (ko) 2011-09-16
KR101507637B1 true KR101507637B1 (ko) 2015-03-31

Family

ID=42225612

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117014447A KR101507637B1 (ko) 2008-11-27 2009-11-13 오역의 검출을 지원하는 장치 및 방법

Country Status (6)

Country Link
US (1) US8676791B2 (ko)
EP (1) EP2309397A4 (ko)
JP (1) JP5204244B2 (ko)
KR (1) KR101507637B1 (ko)
CN (1) CN102227723B (ko)
WO (1) WO2010061733A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959516B2 (en) 2007-07-30 2015-02-17 International Business Machines Corporation Methods and systems for coordinated financial transactions in distributed and parallel environments
CN104346325B (zh) * 2013-07-30 2017-05-10 富士通株式会社 信息处理方法和装置
CN106708834A (zh) * 2015-08-07 2017-05-24 腾讯科技(深圳)有限公司 一种对象搜索方法、装置及服务器
JP6709997B2 (ja) * 2016-09-23 2020-06-17 パナソニックIpマネジメント株式会社 翻訳装置、翻訳システム、および評価サーバ
JP6880956B2 (ja) * 2017-04-10 2021-06-02 富士通株式会社 解析プログラム、解析方法および解析装置
JP7110644B2 (ja) * 2018-03-22 2022-08-02 カシオ計算機株式会社 情報表示装置、情報表示方法及び情報表示プログラム
US11222176B2 (en) * 2019-05-24 2022-01-11 International Business Machines Corporation Method and system for language and domain acceleration with embedding evaluation
US11386276B2 (en) * 2019-05-24 2022-07-12 International Business Machines Corporation Method and system for language and domain acceleration with embedding alignment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259375A (ja) 2001-03-02 2002-09-13 Internatl Business Mach Corp <Ibm> 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
JP2004280574A (ja) 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
JP2006276915A (ja) 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳処理方法、文書翻訳装置およびプログラム
JP2006318202A (ja) 2005-05-12 2006-11-24 Suri Kaiseki Kenkyusho:Kk 翻訳装置、翻訳プログラム及び翻訳システム
US20070130112A1 (en) * 2005-06-30 2007-06-07 Intelligentek Corp. Multimedia conceptual search system and associated search method
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP2008123234A (ja) 2006-11-10 2008-05-29 Nec Corp 翻訳サーバ装置、翻訳システム、翻訳方法、翻訳プログラム
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
CN100527125C (zh) * 2007-05-29 2009-08-12 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法和系统
CN101520779A (zh) * 2009-04-17 2009-09-02 哈尔滨工业大学 一种机器翻译自动诊断评价方法
US20130066862A1 (en) * 2011-09-12 2013-03-14 Microsoft Corporation Multi-factor correlation of internet content resources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259375A (ja) 2001-03-02 2002-09-13 Internatl Business Mach Corp <Ibm> 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
JP2004280574A (ja) 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体

Also Published As

Publication number Publication date
JPWO2010061733A1 (ja) 2012-04-26
KR20110102358A (ko) 2011-09-16
WO2010061733A1 (ja) 2010-06-03
US20110202518A1 (en) 2011-08-18
CN102227723A (zh) 2011-10-26
CN102227723B (zh) 2013-10-09
EP2309397A4 (en) 2016-05-18
US8676791B2 (en) 2014-03-18
JP5204244B2 (ja) 2013-06-05
EP2309397A1 (en) 2011-04-13

Similar Documents

Publication Publication Date Title
KR101507637B1 (ko) 오역의 검출을 지원하는 장치 및 방법
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7526474B2 (en) Question answering system, data search method, and computer program
US7818173B2 (en) Information retrieval system, method, and program
US9754207B2 (en) Corpus quality analysis
US7209875B2 (en) System and method for machine learning a confidence metric for machine translation
US7844598B2 (en) Question answering system, data search method, and computer program
US20200250375A1 (en) Predicting style breaches within textual content
US20040002848A1 (en) Example based machine translation system
US8938383B2 (en) Enabling test script play back in different locales
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
KR20100031800A (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
KR101664258B1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
JP4859779B2 (ja) 有害コンテンツの評価付与装置、プログラム及び方法
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
US10055400B2 (en) Multilingual analogy detection and resolution
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
WO2014203573A1 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
US10061770B2 (en) Multilingual idiomatic phrase translation
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP2006309377A (ja) 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP5853090B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JPH09223143A (ja) 文書情報処理装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190227

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200227

Year of fee payment: 6