KR20150001665A - 저널을 생성하는 방법 및 장치 - Google Patents

저널을 생성하는 방법 및 장치 Download PDF

Info

Publication number
KR20150001665A
KR20150001665A KR20140078386A KR20140078386A KR20150001665A KR 20150001665 A KR20150001665 A KR 20150001665A KR 20140078386 A KR20140078386 A KR 20140078386A KR 20140078386 A KR20140078386 A KR 20140078386A KR 20150001665 A KR20150001665 A KR 20150001665A
Authority
KR
South Korea
Prior art keywords
journal description
description data
journal
source data
data sequence
Prior art date
Application number
KR20140078386A
Other languages
English (en)
Other versions
KR101595479B1 (ko
Inventor
전화 둥
궁 장
량웨이 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20150001665A publication Critical patent/KR20150001665A/ko
Application granted granted Critical
Publication of KR101595479B1 publication Critical patent/KR101595479B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은, 다양한 소스로부터의 데이터에 기초하여 저널의 자동 생성을 구현할 수 있는, 저널을 생성하는 방법 및 장치를 제공한다. 상기 방법은, 소스 데이터 세트와 상기 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하는 단계; 상기 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 상기 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률(alignment probability)을 계산하여 정렬 확률 세트를 취득하는 단계; 상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트(occurrence probability set)를 취득하는 단계; 상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하는 단계; 및 상기 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역하는 단계를 포함한다.

Description

저널을 생성하는 방법 및 장치 {METHOD AND APPARATUS FOR GENERATING JOURNAL}
본 발명은 정보 처리 기술분야에 관한 것으로, 특히 저널을 생성하는 및 장치에 관한 것이다.
관련출원의 상호참조
본 출원은 2013년 6월 26일에 출원된 중국 특허출원 제201310260039.2호에 대해 우선권을 주장하며, 그 내용 전부는 인용에 의해 본 명세서에 포함된다.
현재, 저널의 자동 생성을 구현하는 방법은, 많은 수의 저널 생성 규칙 및 번역 템플릿을 수동으로 기록(manually writing)한 다음, 외부 디바이스에 의해 기록된 사용자 활동 데이터(user activity data)를 저널 생성 규칙 및 번역 템플릿에 따라 텍스트 기술 정보(text description information)로 번역한다. 일반적으로 사용자 활동 데이터는 다양한 소스로부터 올 수 있다. 예를 들면, 사용자 활동 데이터는 글로벌 위치 시스템(global position system, GPS) 센서에 의해 수집된 데이터 또는 단말기 자체에 의해 기록된 사용자 전화 기록 등일 수 있다. 사용자 활동 데이터의 소스가 상이한 경우, 사용자 활동 데이터를 텍스트 기술 정보를 번역하기 위해 상이한 규칙 및 번역 템플릿이 사용된다.
그러므로, 저널을 자동 생성하기 위한 기존의 방법이 저널 생성을 실현하기 위해 사용되는 경우, 상이한 소스들로부터의 사용자 활동 데이터는 상이한 규칙 및 번역 템플릿을 필요로 하고, 그 규칙 및 번역 템플릿은 수동으로 기록되어야 한다. 그 결과, 새로운 소스로부터 사용자 활동 데이터가 출현하는 경우, 기존의 규칙 및 번역 템플릿을 사용하여 그 새로운 유형의 사용자 활동 데이터를 처리할 수 없어, 실사용에 있어 유연성(flexibility)이 부족하다.
본 발명의 실시예는, 다양한 소스로부터의 데이터에 기초하여 자동 저널 생성을 구현할 수 있는, 저널을 생성하는 방법 및 장치를 제공한다.
상기한 목적을 달성하기 위해, 본 발명의 실시예는 다음의 기술적 방안을 채택한다.
제1 측면은 저널을 생성하는 방법을 제공하며, 상기 방법은,
소스 데이터 세트와 상기 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하는 단계;
상기 소스 데이터 세트 내의 적어도 하나의 소스 데이터를 포함하는 각각의 소스 데이터 시퀀스와, 상기 저널 기술 데이터 세트 내의 적어도 하나의 저널 기술 데이터를 포함하는 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률(alignment probability)을 계산하여 정렬 확률 세트를 취득하는 단계;
상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트(occurrence probability set)를 취득하는 단계;
상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하는 단계; 및
상기 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역하는 단계를 포함한다.
상기 제1 측면을 참조하여, 제1 측면의 제1 구현 방식에서, 상기 방법은,
상기 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리(lexical processing)를 수행하여 어휘적으로 처리된 소스 데이터를 취득하는 단계; 및
상기 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하는 단계를 더 포함한다.
상기 제1 측면의 제1 구현 방식을 참조하여, 상기 제1 측면의 제2 구현 방식에서,
상기 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 상기 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하는 단계는,
미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트를 구성하는 단계; 및
각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하는 단계를 포함하고,
한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되고, S_all은 상기 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고 S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m 번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 상기 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 상기 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고, T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 제n 어휘적으로 처리된 소스 데이터를 나타내며, n은 상기 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이고;
상기 소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 상기 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
제1 측면의 제1 구현 방식을 참조하여, 제1 측면의 제3 실현 방식에서, 상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하는 단계는,
각각의 저널 기술 데이터 시퀀스가 상기 저널 기술 데이터 세트에 출현하는 확률을 계산하여 상기 출현 확률 세트를 취득하는 단계를 포함하고, 상기 저널 기술 데이터 시퀀스는 상기 저널 기술 데이터 세트 내의 상기 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
제1 측면의 전술한 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제4 구현 방식에서, 상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하는 단계는,
소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률인 각각의 P(S|T)에 대한 상기 정렬 확률 세트와, 상기 저널 기술 데이터 세트 내의 상기 저널 기술 데이터 시퀀스 T의 출현 확률인 각각의 P(T)에 대한 상기 출현 확률 세트를 검색하는 단계; 및
소스 데이터 시퀀스 S가 번역될 상기 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 상기 타겟 저널 기술 데이터 시퀀스인 것으로 결정하는 단계를 포함한다.
제1 측면의 전술한 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제5 구현 방식에서, 상기 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역하는 단계는,
상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상기 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 상기 저널 기술 텍스트를 생성하는 단계를 포함한다.
제2 측면은 저널을 생성하는 장치를 제공하며, 상기 장치는,
소스 데이터 세트와 상기 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하도록 구성된 취득 모듈;
상기 소스 데이터 세트 내의 적어도 하나의 소스 데이터를 포함하는 각각의 소스 데이터 시퀀스와, 상기 저널 기술 데이터 세트 내의 적어도 하나의 저널 기술 데이터를 포함하는 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률(alignment probability)을 계산하여 정렬 확률 세트를 취득하도록 구성되고, 상기 저널 기술 데이터 세트 내에서 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트(occurrence probability set)를 취득하도록 구성된, 계산 모듈;
상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하도록 구성된 번역 모듈; 및
상기 타켓 저널 기술 데이터 시퀀스에 따라 저널 기술 텍스트를 생성하도록 구성된 저널 생성 모듈을 포함한다.
상기 제2 측면을 참조하여, 제2 측면의 제1 구현 방식에서, 상기 장치는,
상기 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리(lexical processing)를 수행하여 어휘적으로 처리된 소스 데이터를 취득하도록 구성되고, 상기 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하도록 구성된, 어휘 처리 모듈을 더 포함한다.
상기 제2 측면의 제1 구현 방식을 참조하여, 상기 제2 측면의 제2 구현 방식에서,
상기 계산 모듈은,
미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트를 구성하도록 구성되고;
각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되며;
한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되며, S_all은 상기 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고, S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m 번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 상기 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 상기 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고, T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 제n 어휘적으로 처리된 소스 데이터를 나타내며, n은 상기 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이고;
상기 소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 상기 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
제2 측면의 제1 구현 방식을 참조하여, 제2 측면의 제3 실현 방식에서, 상기 계산 모듈은, 상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되고,
상기 저널 기술 데이터 시퀀스는 상기 저널 기술 데이터 세트 내의 상기 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
제2 측면의 전술한 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제4 구현 방식에서,
상기 번역 모듈은,
소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률인 각각의 P(S|T)에 대한 상기 정렬 확률 세트와, 상기 저널 기술 데이터 세트 내에 상기 저널 기술 데이터 시퀀스 T의 출현 확률인 각각의 P(T)에 대한 상기 출현 확률세트를 검색하도록 구성되고;
소스 데이터 시퀀스 S가 번역될 상기 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 상기 타겟 저널 기술 데이터 시퀀스인 것으로 결정하도록 구성된다.
제2 측면의 전술한 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제5 구현 방식에서,
상기 저널 생성 모듈은, 상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상기 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 상기 저널 기술 텍스트를 생성하도록 구성된다.
제3 측면은 프로세서 및 메모리를 포함하는 저널을 생성하는 장치를 제공하며,
상기 프로세서는,
소스 데이터 세트와 상기 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하도록 구성되고;
상기 소스 데이터 세트 내의 적어도 하나의 소스 데이터를 포함하는 각각의 소스 데이터 시퀀스와, 상기 저널 기술 데이터 세트 내의 적어도 하나의 저널 기술 데이터를 포함하는 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되고,
상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되고;
상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하도록 구성되고;
상기 타켓 저널 기술 데이터 시퀀스에 따라 저널 기술 텍스트를 생성하도록 구성되며;
상기 메모리는, 상기 프로세서가 상기한 기능들을 구현하기 위한 프로그램 코드를 저장하도록 구성된다.
상기 제3 측면을 참조하여, 제3 측면의 제1 구현 방식에서,
상기 프로세서는,
상기 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 소스 데이터를 취득하도록 구성되고;
상기 프로세서는 상기 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하도록 구성된다.
상기 제3 측면의 제1 구현 방식을 참조하여, 상기 제3 측면의 제2 구현 방식에서,
상기 프로세서는,
미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트를 구성하도록 구성되고,
각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되며,
한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되며, S_all은 상기 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고, S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m 번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 상기 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 상기 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고, T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 제n 어휘적으로 처리된 소스 데이터를 나타내며, n은 상기 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이고;
상기 소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 상기 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
제3 측면의 제1 구현 방식을 참조하여, 제3 측면의 제3 실현 방식에서,
상기 프로세서는, 상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되고, 상기 저널 기술 데이터 시퀀스는 상기 저널 기술 데이터 세트 내의 상기 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
제3 측면의 전술한 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제4 구현 방식에서,
상기 프로세서는,
소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률인 각각의 P(S|T)에 대한 상기 정렬 확률 세트와, 상기 저널 기술 데이터 세트 내에 상기 저널 기술 데이터 시퀀스 T의 출현 확률인 각각의 P(T)에 대한 상기 출현 확률 세트를 검색하도록 구성되고;
소스 데이터 시퀀스 S가 번역될 상기 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 상기 타겟 저널 기술 데이터 시퀀스인 것으로 결정하도록 구성된다.
제3 측면의 전술한 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제5 구현 방식에서, 상기 프로세서는, 상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상기 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 상기 저널 기술 텍스트를 생성하도록 구성된다.
본 발명의 실시예에서는, 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하고; 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하고; 그 후 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하며; 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역한다. 종래기술과 비교하여, 본 발명은 종래기술의 규칙에 기초하여 저널이 자동 생성되는 경우에 새로운 데이터 유형을 처리할 수 없기 때문에 실제 사용에서의 유연성이 부족한 문제를 회피한다. 본 발명의 실시예에서, 저널의 자동 생성은 정렬 확률 세트와 출현 확률 세트에 기초하여 구현되고, 소스 데이터의 유형에 대한 한정은 없다. 즉, 다양한 유형의 소스 데이터에 기초한 저널의 자동 생성을 구현할 수 있다. 본 발명의 실시예가 제공하는 방법 및 장치는 실제 사용 시에 우수한 확장성(extensibility)을 가진다.
본 발명의 실시예의 기술 방안 또는 종래 기술을 더욱 명확하게 설명하기 위해, 실시예 또는 종래기술을 설명하는 데 필요한 첨부도면을 아래에 간략하게 소개한다. 명백히, 아래의 설명에서의 첨부도면은 본 발명의 일부 실시예를 나타낼 뿐이며, 본 발명이 속하는 기술분야의 당업자는 창의적인 노력 없이 첨부도면으로부터 다른 도면을 얻을 수 있다.
도 1은 본 발명의 실시예에 따른 저널을 생성하는 방법의 흐름도이다.
도 1a는 본 발명의 실시예에 따른 저널을 생성하는 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 저널을 생성하는 장치의 구성도이다.
도 2a는 본 발명의 실시예에 따른 저널을 생성하는 다른 장치의 구성도이다.
도 3은 본 발명의 실시예에 따른 저널을 생성하는 또 다른 장치의 구성도이다.
본 발명의 실시예의 첨부도면을 참조하여 본 발명의 실시예의 기술 방안을 더욱 명확하게 설명한다. 명백히, 설명하는 실시예는 본 발명에 대한 모든 실시예가 아니라 일부일 뿐이다. 본 발명이 속하는 기술분야의 당업자가 본 발명의 실시예에 기초하여 창의적인 노력 없이 얻은 다른 모든 실시예는, 본 발명의 보호 범위에 속한다.
본 발명의 실시예는 다음의 단계들을 포함하는 저널을 생성하는 방법을 제공한다:
101. 소스 데이터 세트와 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득한다.
소스 데이터 세트의 취득하는 것은 다양한 센서에 의해 획득된 데이터, 예를 들면 가속도 센서에 의해 획득된 가속도 데이터, GPS 센서에 획득된 GPS 데이터, 및 방향 센서에 의해 획득된 방향 데이터를 취득하는 것일 수 있으며; 사용자의 사용 환경(use condition)에 관한 정보, 예를 들면 호(call) 정보, 단문 메시지 및 단말기상의 각 애플리케이션에 관한 사용 정보를 취득하는 것일 수도 있다.
소스 데이터 세트 내의 상이한 유형의 소스 데이터는 상이한 데이터 표현 형식을 사용하여 표현된다.
예를 들어, 가속도 센서에 의해 획득된 가속도 데이터는 튜플(tuple)[데이터 획득 시각, x축 가속도, y축 가속도, z축 가속도]을 사용하여 표현될 수 있다. 다른 예로, GPS 센서에 획득된 GPS 데이터는 튜플[데이터 획득 시각, 경도, 위도, 고도]을 사용하여 표현될 수 있다. 다른 예로, 획득된 호 정보, 예를 들어 호 개시 시각, 호 종료 시각, 호 지속기간(call duration), 발신자(calling party), 수신자(called party), 및 부재중 전화(unanswered call)의 호 대기 시간은 튜플[데이터 획득 시각, 로컬 이동전화 상태, 피어 이동전화 상태, 로컬 이동전화 설정 상태, 피어 이동전화 ID], 예를 들어 [호출 시각, 호 수신, 발신, 이동전화의 링잉(ringing), 피어 이동전화 ID]를 사용하여 표현될 수 있다.
소스 데이터의 표현 형태는 다수 존재할 수 있으며, 본 발명의 실시예는 전술한 튜플 기반(uple-based) 표현 형태만을 언급한다. 명백히 다른 데이터 표현 형태도 사용될 수 있으며, 본원에서는 한정되지 않는다.
소스 데이터 세트에 대응하는 저널 기술 데이터 세트는 미리 수동으로 설정될 수 있다. 예를 들면, 소스 데이터 세트는 GPS 데이터를 포함하고; 따라서 대응하는 저널 기술 데이터 세트는 사용자의 활동 기술(activity description), 위치 정보 등으로 미리 설정될 수 있다. 사용자 활동 기술은, 예를 들면, "나는 일을 하고 있었다(I was at work), "점심 식사를 하러 공원에 갔다(went to the park for lunch)", "나는 집에 있었다(I was at work)" 등일 수 있고; 위치 정보는, 예를 들어, "사무실", 공원", 및 "집"일 수 있다. 저널 기술 데이터 세트 내의 저널 기술 데이터는 단락, 문장, 또는 단어일 수 있다.
102. 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률(alignment probability)을 계산하여 정렬 확률 세트를 취득한다.
소스 데이터 시퀀스는 적어도 하나의 소스 데이터를 포함하고, 저널 기술 데이터 시퀀스는 적어도 하나의 저널 기술 데이터를 포함한다.
예를 들면, 정렬 확률 세트를 취득하기 위해, 각각의 소스 데이터 시퀀스와, 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 IBM translation model 2에서의 정렬 확률을 사용하여 계산될 수 있다.
물론, IBM translation model 2에서의 정렬 확률 외에, 구문(syntax) 번역 모델, 어구(phrase) 번역 모델, 또는 최대 엔트로피(maximum entropy) 번역 모델과 같은 통계적인 기계 번역 방법이 사용될 수도 있다.
103. 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트(occurrence probability set)를 취득한다.
예를 들면, 출현 확률 세트를 취득하기 위해, 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률은 최대 우도 추정 방법(maximum likelihood estimation method)을 사용하여 계산될 수 있다.
유의할 것은, 본 단계에서는, 최대 우도 추정법을 사용하여 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하며; 또, 베이지안 추정 방법(Bayesian estimation method), 최대 사후 확률 추정 방법(maximum posterior probability estimation method) 등이 사용될 수도 있으며, 본원에서는 한정되지 않는다는 것이다.
104. 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하며, 번역될 소스 데이터 시퀀스는 소스 데이터 시퀀스 중 어느 하나이다.
105. 타켓 저널 기술 데이터 시퀀스에 따라 저널 기술 텍스트를 생성한다.
본 발명의 실시예에서는, 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하고; 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하고; 그 후 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하며; 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역한다. 종래기술과 비교하여, 본 발명은 종래기술의 규칙에 기초하여 저널이 자동 생성되는 경우에 새로운 데이터 유형을 처리할 수 없기 때문에 실제 사용에서의 유연성이 부족한 문제를 회피한다. 본 발명의 실시예에서, 저널의 자동 생성은 정렬 확률 세트와 출현 확률 세트에 기초하여 구현되고, 소스 데이터의 유형에 대한 한정은 없다. 즉, 다양한 유형의 소스 데이터에 기초한 저널의 자동 생성을 구현할 수 있다. 본 발명의 실시예가 제공하는 방법은 실제 사용 시에 우수한 확장성(extensibility)을 가진다.
또, 본 발명의 실시예에서, 저널의 자동 생성은 정렬 확률 세트와 출현 확률 세트에 기초하여 구현되며, 정렬 확률 세트와 출현 확률 세트는 대량의 훈련 데이터(training data)를 사용하여 모델 훈련 및 학습(model training and learning)을 수행함으로써 취득될 수 있다. 대량의 훈련 데이터는, 정렬 확률 세트 및 출현 확률 세트에 기초하여 저널을 자동으로 생성할 때의 더 높은 정밀도를 의미한다.
선택적으로, 도 1a에 도시된 바와 같이, 단계 102 이전에, 상기 방법은 다음의 단계를 더 포함할 수 있다:
1001. 소스 데이터 세트 내의 소스 데이터에 대해 대응하는 어휘 처리(lexical processing)를 수행하여 어휘적으로 처리된 소스 데이터를 취득하고; 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득한다.
이하에 일례로서 GPS를 사용하여 소스 데이터 세트 내의 소스 데이터에 대해 대응하는 어휘 처리를 수행하여 어휘적으로 처리된 소스 데이터를 취득하는 단계에 대해 설명한다.
예를 들어, 소스 데이터 세트 내의 GPS 데이터에 대해 클러스터링 처리(clustering processing)를 수행하여, 짧은 거리 내의 GPS 데이터를 하나의 클러스터로 분류하며, 대응하는 어휘 처리는 공간 분할 방법(space partitioning method)을 사용하는 클러스터링 처리일 수 있다.
예를 들어, 100m×100m 범위 내의 위치에 대응하는 GPS 데이터는 하나의 GPS 클러스터로서 집합적으로 표현되고, 처리된 소스 데이터는 100m×100m 범위 내의 GPS 데이터 각각에 대응하는 GPS 클러스터 ID이며, 예를 들면, GPS 1, GPS 2, … GPS M으로 표현되며, 여기서 M은 GPS 클러스터 ID이다.
저널 기술 데이터가 사용자 활동 기술인 경우를 예로 사용하여, 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하는 것에 대해 설명한다.
저널 기술 데이터 세트 내의 저널 기술 데이터가 "나는 바다링)에서 만리장성을 관광했다. 나는 일을 하고 있었다. 나는 꽃을 보러 공원에 갔고, 나는 집으로 돌아갔다(I toured the Great Wall at Badaling, I was at work, I went to the park to see flowers, and I went back home)"라는 단락이라고 가정하면; 대응하는 어휘 처리는 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 수행되어 처리된 저널 기술 데이터 "나는 바다링에서 만리장성을 관광했다(I am toured the Great Wall at Badaling)", "나는 일을 하고 있었다(I was at work)", "나는 꽃을 보러 공원에 갔다(I went to the park to see flowers)", 그리고 "나는 집으로 돌아갔다(I went back home)"를 취득하는 중국어 단어 분할 처리를 일 수 있다.
물론, 실제 애플리케이션의 상이한 요건에 따라, 대응하는 어휘 처리는 저널 기술 데이터 세트 내의 저널 기술 데이터에 대한 어구 추출일 수도 있다. 예를 들어, 저널 기술 데이터 세트 내의 저널 기술 데이터는 몇 개의 문장, "나는 레스토랑에서 식사를 했다(I had a meal at a restaurant)", "코트에서 볼 게임을 했다(played a ball game at a court)", 및 "저녁에 게임을 했다(played a game in the evening)"이고; 어구 추출 처리가 수행된 후, "식사를 했다(had a meal)", "볼 게임을 했다(played a ball game)", 그리고 "게임을 했다(played a game)"가 취득될 수 있다.
유의해야 할 것은, 어휘 처리는, 예를 들어 하나의 문장에 대해 중국어 단어 분할을 수행하여 하나의 문장으로부터 어구를 추출하는 등, 문장을 바꾸기 위해 주로 사용된다는 것이다. 어휘 처리하기 전의 데이터가 이미 하나의 단어이면, 대응하는 어휘 처리 작업은 수행되지 않을 수 있음을 알 수 있을 것이다.
또, 단계 102에서, 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하는 것은 구체적으로 다음의 방식으로 구현될 수 있다;
먼저, 미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트(parallel text)를 구성한다.
한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되고, S_all은 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고 S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고 T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 n번째(제n) 어휘적으로 처리된 소스 데이터를 나타내며, n은 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이다.
예를 들어, 소스 데이터 세트는 첫째 날에 사용자의 GPS 데이터에 대해 어휘 처리를 수행하여 취득된 GPS 데이터이고, S_all = GPS 1, …, GPS m으로 표현되고; 저널 기술 데이터 세트는 S1_all에 대응하는 첫째 날에 사용자의 활동 데이터 기술이고, T1_all = Activity 1, …, Activity n으로 표현된다. 한 쌍의 병렬 텍스트는 첫째 날에 저널 기술 데이터 세트 및 소스 데이터 세트에 기초하여 구성될 수 있으며, (S_all, T_all)로 표현된다.
유사하게, (S2_all, T2_all)도 구성될 수 있으며, S2_all은 둘째 날의 소스 데이터 세트를 나타내고, T2_all은 S2_all에 대응하는 저널 기술 데이터 세트를 나타낸다. 유추에 의해, N일의 소스 데이터 세트와 저널 기술 데이터 세트를 사용하여, ST = {(S1_all, T1_all), (S2_all, T2_all)…(Sn_all, Tn_all)}로 표현되는, 병렬 코퍼스(parallel corpus)가 구성될 수 있다.
그 후, 각각의 소스 데이터 시퀀스와, 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득한다.
본 단계에서, 구체적으로는, IBM translation model 2에서의 정렬 확률을 사용하여 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여, 정렬 확률 세트를 취득할 수 있다.
소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
유의해야 할 것은, IBM translation model 2에서의 정렬 확률을 사용하여 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하는 경우, 소스 데이터 시퀀스와 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 특정 조건 하의 정렬 확률이라는 것이다.
그 특정 조건은 [소스 데이터 시퀀스, 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스, 세트 S_all 내의 소스 데이터 시퀀스의 위치, 세트 T_all 내의 소스 데이터 시퀀스에 대응한 저널 기술 데이터 시퀀스의 위치, 세트 S_all의 길이, 세트 T_all의 길이]로 표현된다.
정렬 확률을 더 잘 이해할 수 있도록, 정렬 확률의 개념을 다음과 같이 간단히 설명한다:
통계적 자연어 처리(statistical natural language processing)에서, 정렬 모델(alignment model)은 다음과 같이 정의된다.
S_m이 길이 m인 소스 언어 내의 문장이고 T_l이 길이 l인 타켓 언어 내의 문장인 경우, T_l과 S_m 내의 단어들 사이에는 lxm개의 대응관계가 존재한다. "정렬"은 단어들 사이의 대응관계에 의해 결정된다. 그 결과, 정렬 관계 세트는 합계 2l*m개의 정렬 유형을 가진다.
주어진 문장 쌍(S_m|T_l)에 대해, 모든 단어 쌍(sj, tj)(여기서, sj는 S_m 내의 단어이고 tj는 T_l 내의 단어임) 사이에 대응관계가 존재한다고 가정하면, 이들 대응관계를 나타내기 위한 모델은 정렬 모델이라고 한다.
"정렬 확률"은 특정 조건하에서 sj를 tj로 번역하는 확률을 가리킨다.
정렬 확률의 더욱 상세한 설명에 대해서는 통계적 자연어 처리에서의 관련 설명을 참조할 수 있다.
이해하기 쉽도록, 본 발명의 실시예에서는, 소스 데이터 시퀀스는 S로 표현되고, 저널 기술 데이터 시퀀스는 T로 표현되며, 소스 데이터 시퀀스와 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 P(S|T)로 표현된다.
예를 들어, 한 쌍의 병렬 텍스트 (S1_all, T1_all)가 존재하고, 정렬 확률 계산은 IBM translation model 2에서의 정렬 확률을 사용하여 다음과 같이 실행된다:
병렬 텍스트에서, 소스 데이터 세트는 S1_all = GPS 1, …, GPS m이고, 저널 기술 데이터 세트는 T1_all = Activity 1, …, Activity n이라고 하자.
소스 데이터 시퀀스가 S인 GPS 2인 경우, 저널 기술 데이터 시퀀스는 Activity 3이고, 세트 S1_all 내의 소스 데이터 시퀀스의 위치는 2이고, 세트 T1_all 내의 저널 기술 데이터 시퀀스의 위치는 3이고, 세트 S1_all의 길이는 12이고 T1_all의 길이는 14이며, P(S|T)를 계산하는 프로세스는 다음과 같다:
{
Figure pat00001
병렬 코퍼스 내의 [GPS 2, Activity 3, X, 3, 12, 14]의 출현 횟수}에 대한 {병렬 코퍼스 내의 [GPS 2, Activity 3, 2, 3, 12, 14]의 출현 횟수}의 비, 여기서 M은 세트 S_all의 길이이다.
예를 들어, GPS 2의 값이 (116.45, 39.92)이고 Activity 3의 값이 "tour(관광)"이며, 병렬 코퍼스 ST 내에 [(116.45, 39.92), "tour", 2, 3, 12, 14]의 출현 횟수가 저널 기술 데이터 세트의 길이가 14인 경우의 전체 병렬 코퍼스 내에서의 출현 횟수를 가리키는 경우, 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 "tour"의 위치는 3이고, 소스 데이터 시퀀스 (116.45, 39.92)의 위치는 2이다.
[GPS 2, Activity 3, X, 3, 12, 14]의 출현 횟수의 합은, 저널 기술 데이터 세트의 길이가 14이고, 소스 데이터 세의 길이가 12이고, 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 "tour"의 위치가 3이고, 소스 데이터 시퀀스 (116.45, 39.92) 가 소스 데이터 세트의 X번째 위치인 경우의, 전체 병렬 코퍼스 내에서의 출현 횟수를 가리킨다.
유의해야 할 것은, 전술한 소스 데이터 시퀀스는 일례로 하나의 소스 데이터를 사용하여 기술된다는 것이다. 물론, 소스 데이터 시퀀스는 둘 이상의 소스 데이터를 포함할 수도 있고, 저널 기술 데이터 시퀀스도 둘 이상의 저널 기술 데이터를 포함할 수 있다.
본 단계의 IBM translation model 2에서의 정렬 확률을 사용하는 구현을 더욱 상세하게 설명하기 위해 종래기술을 참조할 수 있다. 물론, 본 단계에서, IBM translation model 2에서의 정렬 확률이 사용될 수 있으며; 또, 구문 번역 모델, 어구 번역 모델, 또는 최대 엔트로피 번역 모델과 같은 통계적인 기게 번역 방법이 사용될 수도 있다.
또한, 단계 103에서 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하는 것은 다음을 포함한다:
상기 저널 기술 데이터 세트내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 상기 출현 확률 세트를 취득하는 것을 포함하고, 저널 기술 데이터 시퀀스는 저널 기술 데이터 세트 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
실제 애플리케이션에서, 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률은, 예를 들어 최대 우도 추정 방법(maximum likelihood estimation method)을 사용하여 계산될 수 있으며, 이에 대해 예시적인 예를 참조하여 구체적으로 설명한다.
예를 들어, 저널 기술 데이터 세트는 다음의 세 개의 문장이다:
(1) 존은 성경을 읽는다(JOHN READ HOLY BIBLE).
(2) 마크는 교과서를 읽는다(MARK READ A TEXT BOOK).
(3) 그는 다윗이 쓴 책을 읽는다(HE READ A BOOK BY DAVID).
예를 들어, 저널 기술 데이터 시퀀스 T가 문장 (1)인 경우를 예를 들어 계산하면, 저널 기술 데이터 세트에서 저널 기술 데이터 시퀀스 T의 출현 확률은 P(T)로 표현되고, P(T)를 계산하는 프로세스는 다음과 같다:
P(JOHN READ A BOOK)
= P(JOHN|<BOS>)×P(READ|JOHN)×P(A|READ)×P(BOOK|A)×P(<EOS>|BOOK)
= 1/3×1/1×2/3×1/2×1/2
= 0.06
최대 우도 추정 방법의 더욱 자세한 구현을 위해 기존의 관련 기술을 참조할 수 있다.
유의할 것은, 본 단계에서, 최대 우도 추정 방법이 저널 기술 데이터 세트에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하기 위해 사용될 수 있으며; 또, 베이지안 추정 방법, 최대 사후 확률 추정 방법이 사용될 수도 있으며, 본원에서는 한정되지 않는다는 것이다.
단계 101∼103의 작업 후에, 정렬 확률 세트 및 출현 확률 세트가 취득될 수 있으며, 정렬 확률 세트는 대량의 P(S|T)를 포함하고, 출현 확률 세트는 대량의 P(T)를 포함한다.
또, 단계 104에서, 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하는 단계는,
소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률인 각각의 P(S|T)에 대한 상기 정렬 확률 세트와, 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 T의 출현 확률인 각각의 P(T)에 대한 출현 확률 세트를 검색하는 단계; 및
소스 데이터 시퀀스 S가 번역될 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 타겟 저널 기술 데이터 시퀀스인 것으로 결정하는 단계를 포함한다.
예를 들어, 단계 102 후에 취득된 정렬 확률 세트가 다음과 같다고 하자:
P(GPS1|"I toured the Great Wall at Badaling") = 0.05
P(GPS1|"I was at work") = 0.0
P(GPS2|"I was at work") = 0.005
P(GPS3|"went to the park for lunch") = 0.015
P({GPS2,GPS3}|{"I was at work", "went to the park for lunch}) = 0.0005
P(GPS4|"I was at home") = 0.015
P(GPS5|"got off work") = 0.015
...
P(GPS4|"got off work") = 0.0015
P({GPS1, GPS2, GPS3, GPS4}|{"I was at home", "I was at work", "went to the park for lunch", "got off work"}) = 0.0001
P({GPS1, GPS2, GPS3, GPS4}|{"I was at home", "I was at work", "went to the park to see flowers", "got off work"}) = 0.00008
단계 103 후에 취득된 출현 확률 세트가 다음과 같다고 하자:
P("I toured the Great Wall at Badaling") = 0.01
P("I was at work") = 0.003
P("went to the park for lunch") = 0.01
P("I was at home") = 0.003
...
P("got off work") = 0.0001
P("I was at home", "I was at work", "went to the park for lunch", "got off work") = 0.00008
P("I was at home", "I was at work", "went to the park to see flowers", "got off work") = 0.0000001
번역될 소스 데이터 시퀀스가 S = {GPS 1, GPS 2, GPS 3, GPS 4}이면, 정렬 확률 세트 내의 각 P(S|T)와 출현확률 세트 내의 각 P(T)를 검색하여 P(S|T)×P(T)를 최대값에 이르게 하는 저널 기술 데이터 시퀀스 T가 T = {"I was at home", "I was at work", "went to the park to see flowers", "got off work(퇴근했다)"}인 것을 찾아낸다.
{"I was at home", "I was at work", "went to the park to see flowers", "got off work"}는 타켓 저널 기술 데이터 시퀀스이다.
또한, 단계 105에서, 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트를 생성하는 것은,
상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 저널 기술 텍스트를 생성하는 것을 포함한다.
번역될 소스 데이터 시퀀스 내의 소스 데이터 각각은 획득이 수행된 때를 나타내는 시각 식별자를 포함한다. 번역될 소스 데이터 시퀀스 내의 소스 데이터는 저널 기술 데이터 시퀀스의 저널 기술 데이터에 대응한다. 이러한 대응관계는, 하나의 소스 데이터가 하나의 저널 기술 데이터에 대응하고, 복수의 소스 데이터가 하나의 저널 기술 데이터에 대응하고, 또는 하나의 소스 데이터가 복수의 저널 기술 데이터에 대응하는 것일 수 있다. 대응관계의 구체적인 방식은 실제 애플리케이션에 따라 달라진다. 따라서, 복수의 타켓 저널 기술 데이터 시퀀스는 저널 기술 텍스트의 단락을 형성하기 위해 소스 데이터의 시각 식별자를 사용하여 연결될 수 있다.
예를 들어, 번역될 데이터 시퀀스가 가속도 센서 데이터인 경우, 번역에 의해 취득되는 타켓 저널 기술 데이터 시퀀스는 {일어나다(get up), 식사하다(have meal), 출근하다(go to work), 점심 시간(lunch break), 근무중(work), 퇴근하다(get off work), 집에 가다(go home)}이다.
번역될 데이터 시퀀스가 시각 데이터일 때, 번역에 의해 취득되는 타켓 저널 기술 데이터 시퀀스는 {7:00 am, 7:20 am, 8:00 am, 12:00 pm, 2:00 pm, 6:00 pm}이다.
번역될 데이터 시퀀스가 GPS 및 WiFi 데이터인 경우, 번역에 의해 취득되는 타켓 저널 기술 데이터 시퀀스는 {집(home), 식당(dining hall), 사무실(office), 공원(park), 사무실(office), 거리(street)}이다.
따라서, 최종 생성되는 저널 기술 텍스트는 다음과 같다:
나는 오전 7시에 일어나서, 오전 7시 20분에 집을 떠나 식당에서 아침식사를 했고, 오전 8시에 사무실에 도착하여 일을 시작했고, 오후 12시 점심식사를 하러 공원에 갔고, 오후 2시에 사무실로 돌아와 오후 일을 시작했고, 오후 6시에 퇴근하여 집에 갔다(I got up at 7:00 am, left home to have breakfast in the dining hall at 7:20 am, arrived at the office to start work at 8:00 am, went to the park for a lunch break at 12:00 pm, went back to the office to start afternoon work at 2:00 pm, and got off work and went home at 6:00 pm).
도 2에 도시된 바와 같이, 본 발명의 실시예는 저널을 생성하기 위한 장치를 제공하며, 상기 장치는 취득 모듈(21), 계산 모듈(22), 번역 모듈(23), 및 저널 생성 모듈(24)을 포함한다.
취득 모듈(21)은 소스 데이터 세트와 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하도록 구성되어 있다.
소스 데이터 세트의 취득은 각종 센서에 의해 획득된 취득 데이터일 수 있다.
소스 데이터 세트 내의 상이한 유형의 소스 데이터는 상이한 데이터 표현 형식을 사용하여 표현되며, 예를 들면 소스 데이터는 튜플을 사용하여 표현될 수 있다. 소스 데이터에 대해 다수의 데이터 표현 형식이 존재할 수 있으며, 본 발명의 실시예는 전술한 튜플 기반 표현 형식에 대해서만 언급한다. 물론, 다른 데이터 표현 형식이 사용될 수도 있으며, 본원에서는 한정되지 않는다.
소스 데이터 세트에 대응하는 저널 기술 데이터 세트는 미리 수동으로 설정될 수 있다. 예를 들어, 소스 데이터 세트는 GPS 데이터를 포함하고; 그에 따라 대응하는 저널 기술 데이터 세트는 사용자의 활동 기술, 위치 정보, 등으로 미리 설정될 수 있다. 사용자의 활동 기술은, 예를 들어 "나는 일하고 있었다", "점심을 먹으러 공원에 갔다", "나는 집에 있었다", 등이고; 위치 정보는, 예를 들어, "사무실", "공원", 및 "집"이다.
저널 기술 데이터 세트 내의 저널 기술 데이터는 단락, 문장, 또는 단어일 수 있다.
계산 모듈(22)은 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되어 있다.
소스 데이터 시퀀스는 적어도 하나의 소스 데이터를 포함하고, 저널 기술 데이터 시퀀스는 적어도 하나의 저널 기술 데이터를 포함한다.
예를 들어, 정렬 확률 세트를 취득하기 위해, 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 IBM translation model 2에서의 정렬 확률을 사용하여 계산될 수 있다. 물론, IBM translation model 2에서의 정렬 확률 외에, 구문(syntax) 번역 모델, 어구(phrase) 번역 모델, 또는 최대 엔트로피(maximum entropy) 번역 모델과 같은 통계적인 기계 번역 방법이 사용될 수도 있다.
계산 모듈(22)은 또한 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되어 있다.
예를 들어, 계산 모듈(22)은 출현 확률 세트를 취득하기 위해, 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 최대 우도 추정 방법(maximum likelihood estimation method)을 사용하여 계산할 수 있다.
유의해야 할 것은, 본 단계에서는, 최대 우도 추정법을 사용하여 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산할 수 있고; 또, 베이지안 추정 방법(Bayesian estimation method), 최대 사후 확률 추정 방법(maximum posterior probability estimation method) 등이 사용될 수도 있으며, 본원에서는 한정되지 않는다는 것이다.
번역 모듈(23)은, 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하도록 구성되어 있으며, 번역될 소스 데이터 시퀀스는 소스 데이터 시퀀스 중 어느 하나이다.
저널 생성 모듈(24)은 타켓 저널 기술 데이터 시퀀스에 따라 저널 기술 텍스트를 생성하도록 구성되어 있다.
본 발명의 실시예가 제공하는 장치의 기능 구현에 대해서는 저널을 생성하는 방법에 대한 관련 설명을 참조할 수 있다.
본 발명의 실시예에서는, 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하고; 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하고; 그 후 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하며; 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역한다. 종래기술과 비교하여, 본 발명은 종래기술의 규칙에 기초하여 저널이 자동 생성되는 경우에 새로운 데이터 유형을 처리할 수 없기 때문에 실제 사용에서의 유연성이 부족한 문제를 회피한다. 본 발명의 실시예에서, 저널의 자동 생성은 정렬 확률 세트와 출현 확률 세트에 기초하여 구현되고, 소스 데이터의 유형에 대한 한정은 없다. 즉, 다양한 유형의 소스 데이터에 기초한 저널의 자동 생성을 구현할 수 있다. 본 발명의 실시예가 제공하는 장치는 실제 사용 시에 우수한 확장성(extensibility)을 가진다.
또, 본 발명의 실시예에서, 저널의 자동 생성은 정렬 확률 세트와 출현 확률 세트에 기초하여 구현되며, 정렬 확률 세트와 출현 확률 세트는 대량의 훈련 데이터(training data)를 사용하여 모델 훈련 및 학습을 수행함으로써 취득될 수 있다. 대량의 훈련 데이터는, 정렬 확률 세트 및 출현 확률 세트에 기초하여 저널을 자동으로 생성할 때의 더 높은 정밀도를 의미한다.
선택적으로, 도 2a에 도시된 바와 같이, 저널을 생성하는 장치는, 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 소스 데이터를 취득하도록 구성된 어휘 처리 모듈(25)을 더 포함한다.
예를 들어, 소스 데이터 세트 내의 GPS 데이터에 대해 클러스터링 처리(clustering processing)를 수행하여, 짧은 거리 내의 GPS 데이터를 하나의 클러스터로 분류하며, 대응하는 어휘 처리는 공간 분할 방법(space partitioning method)을 사용하는 클러스터링 처리일 수 있다.
예를 들어, 100m×100m 범위 내의 위치에 대응하는 GPS 데이터는 하나의 GPS 클러스터로서 집합적으로 표현되고, 처리된 소스 데이터는 100m×100m 범위 내의 GPS 데이터 각각에 대응하는, 예를 들면 GPS 1, GPS 2, … GPS M으로 표현되는(M은 GPS 클러스터 ID임), GPS 클러스터 ID이다.
어휘 처리 모듈(25)은 또한 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하도록 구성되어 있다.
예를 들어, 저널 기술 데이터 세트 내의 저널 기술 데이터가 "나는 바다링에서 만리장성을 관광했다. 나는 일을 하고 있었다. 나는 꽃을 보러 공원에 갔고, 나는 집으로 돌아갔다"라는 단락이라고 가정하면; 대응하는 어휘 처리는, 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 수행되어 처리된 저널 기술 데이터 "나는 바다링에서 만리장성을 관광했)", "나는 일을 하고 있었다", "(나는 꽃을 보러 공원에 갔다)", 그리고 "나는 집으로 돌아갔다"를 취득하는 중국어 단어 분할 처리를 일 수 있다.
물론, 실제 애플리케이션의 상이한 요건에 따라, 대응하는 어휘 처리는 저널 기술 데이터 세트 내의 저널 기술 데이터에 대한 어구 추출일 수도 있다. 예를 들어, 저널 기술 데이터 세트 내의 저널 기술 데이터는 몇 개의 문장, "나는 레스토랑에서 식사를 했다", "코트에서 볼 게임을 했다", 및 "저녁에 게임을 했다"이고; 어구 추출 처리가 수행된 후, "식사를 했다", "볼 게임을 했다", 그리고 "게임을 했다"가 취득될 수 있다.
유의해야 할 것은, 어휘 처리는, 예를 들어 하나의 문장에 대해 중국어 단어 분할을 수행하여 하나의 문장으로부터 어구를 추출하는 등, 문장을 바꾸기 위해 주로 사용된다는 것이다. 어휘 처리하기 전의 데이터가 이미 하나의 단어이면, 대응하는 어휘 처리 작업은 수행되지 않을 수 있음을 알 수 있을 것이다.
본 발명의 실시예가 제공하는 어휘 처리 모듈(25)의 기능 구현에 대해서는, 저널을 생성하는 방법에서의 단계 1001∼1002의 관련 설명을 참조할 수 있다.
또, 저널을 생성하는 장치에서, 계산 모듈(22)은 구체적으로, 미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트(parallel text)를 구성하도록 구성되어 있다.
한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현된다.
S_all은 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고 S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고;
T_all은 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고 T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 n번째(제n) 어휘적으로 처리된 소스 데이터를 나타내며, n은 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이다.
예를 들어, 소스 데이터 세트는 첫째 날에 사용자의 GPS 데이터에 대해 어휘 처리를 수행하여 취득된 GPS 데이터이고, S_all = GPS 1, …, GPS m으로 표현되고; 저널 기술 데이터 세트는 S1_all에 대응하는 첫째 날에 사용자의 활동 데이터 기술이고, T1_all = Activity 1, …, Activity n으로 표현된다. 한 쌍의 병렬 텍스트는 첫째 날에 저널 기술 데이터 세트 및 소스 데이터 세트에 기초하여 구성될 수 있으며, (S_all, T_all)로 표현된다.
유사하게, (S2_all, T2_all)도 구성될 수 있으며, S2_all은 둘째 날의 소스 데이터 세트를 나타내고, T2_all은 S2_all에 대응하는 저널 기술 데이터 세트를 나타낸다. 유추에 의해, N째 날의 소스 데이터 세트와 저널 기술 데이터 세트를 사용하여, ST = {(S1_all, T1_all), (S2_all, T2_all)…(Sn_all, Tn_all)}로 표현되는, 병렬 코퍼스가 구성될 수 있다.
계산 모듈(22)은 구체적으로 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되어 있다.
소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
예를 들어, 계산 모듈(22)은, 정렬 확률 세트를 취득하기 위해, IBM translation model 2에서의 정렬 확률을 사용하여 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산한다.
IBM translation model 2에서의 정렬 확률을 사용하여 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하는 경우, 소스 데이터 시퀀스와 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 특정 조건 하의 정렬 확률이라는 것이다.
그 특정 조건은 [소스 데이터 시퀀스, 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스, 세트 S_all 내의 소스 데이터 시퀀스의 위치, 세트 T_all 내의 소스 데이터 시퀀스에 대응한 저널 기술 데이터 시퀀스의 위치, 세트 S_all의 길이, 세트 T_all의 길이]로 표현된다.
이해하기 쉽도록, 본 발명의 실시예에서는, 소스 데이터 시퀀스는 S로 표현되고, 저널 기술 데이터 시퀀스는 T로 표현되며, 소스 데이터 시퀀스와 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 P(S|T)로 표현된다.
예를 들어, 한 쌍의 병렬 텍스트 (S1_all, T1_all)가 존재하고, 정렬 확률 계산은 IBM translation model 2에서의 정렬 확률을 사용하여 다음과 같이 실행된다:
병렬 텍스트에서, 소스 데이터 세트는 S1_all = GPS 1, …, GPS m이고, 저널 기술 데이터 세트는 T1_all = Activity 1, …, Activity n이라고 하자.
소스 데이터 시퀀스가 S인 GPS 2인 경우, 저널 기술 데이터 시퀀스는 Activity 3이고, 세트 S1_all 내의 소스 데이터 시퀀스의 위치는 2이고, 세트 T1_all 내의 저널 기술 데이터 시퀀스의 위치는 3이고, 세트 S1_all의 길이는 12이고 T1_all의 길이는 14이며, P(S|T)를 계산하는 프로세스는 다음과 같다:
{
Figure pat00002
병렬 코퍼스 내의 [GPS 2, Activity 3, X, 3, 12, 14]의 출현 횟수}에 대한 {병렬 코퍼스 내의 [GPS 2, Activity 3, 2, 3, 12, 14]의 출현 횟수}의 비, 여기서 M은 세트 S_all의 길이이다.
예를 들어, GPS 2의 값이 (116.45, 39.92)이고 Activity 3의 값이 "tour(관광)"이며, 병렬 코퍼스 ST 내에 [(116.45, 39.92), "tour", 2, 3, 12, 14]의 출현 횟수가, 저널 기술 데이터 세트의 길이가 14인 경우의 전체 병렬 코퍼스 내에서의 출현 횟수를 가리키는 경우, 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 "tour"의 위치는 3이고, 소스 데이터 시퀀스 (116.45, 39.92)의 위치는 2이다.
[GPS 2, Activity 3, X, 3, 12, 14]의 출현 횟수의 합은, 저널 기술 데이터 세트의 길이가 14이고, 소스 데이터 세의 길이가 12이고, 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 "tour"의 위치가 3이고, 소스 데이터 시퀀스 (116.45, 39.92) 가 소스 데이터 세트의 X번째 위치인 경우의, 전체 병렬 코퍼스 내에서의 출현 횟수를 가리킨다.
본 발명의 실시예가 제공하는 계산 모듈(22)의 기능 구현을 대해서는, 저널을 생성하는 방법에서의 단계 102의 관련 설명을 참조할 수도 있다.
또한, 저널을 생성하는 장치에서, 계산 모듈(22)은 구체적으로 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되어 있다.
저널 기술 데이터 시퀀스는 저널 기술 데이터 세트 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
실제 애플리케이션에서, 계산 모듈(22)은 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을, 예를 들어 최대 우도 추정 방법(maximum likelihood estimation method)을 사용하여 계산할 수 있으며, 이에 대해 예시적인 예를 참조하여 구체적으로 설명한다.
예를 들어, 저널 기술 데이터 세트는 다음의 세 개의 문장이다:
(1) 존은 성경을 읽는다(JOHN READ HOLY BIBLE).
(2) 마크는 교과서를 읽는다(MARK READ A TEXT BOOK).
(3) 그는 다윗이 쓴 책을 읽는다(HE READ A BOOK BY DAVID).
예를 들어, 저널 기술 데이터 시퀀스 T가 문장 (1)인 경우를 예를 들어 계산하면, 저널 기술 데이터 세트에서 저널 기술 데이터 시퀀스 T의 출현 확률은 P(T)로 표현되고, P(T)를 계산하는 프로세스는 다음과 같다:
P(JOHN READ A BOOK)
= P(JOHN|<BOS>)×P(READ|JOHN)×P(A|READ)×P(BOOK|A)×P(<EOS>|BOOK)
= 1/3×1/1×2/3×1/2×1/2
= 0.06
본 발명의 실시예가 제공하는 계산 모듈(22)의 기능 구현에 대해서는, 저널을 생성하는 방법에서의 단계 103의 관련 설명을 참조할 수도 있다.
또한, 저널을 생성하는 장치에서, 번역 모듈(23)은 구체적으로 정렬 확률 세트 내의 각각의 P(S|T) 와 출현 확률 세트 내의 각각의 P(T) 를 검색하도록 구성되어 있다.
P(S|T)는 소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률이고, P(T)는 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 T의 출현 확률이다.
S가 번역될 상기 소스 데이터 시퀀스인 경우, T가 P(S|T)×P(T)를 최대값에 이르게 하는 타겟 저널 기술 데이터 시퀀스인 것으로 결정한다.
또한, 저널을 생성하는 장치에서, 저널 생성 모듈(24)은 구체적으로, 상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 저널 기술 텍스트를 생성하도록 구성되어 있다.
번역될 소스 데이터 시퀀스 내의 소스 데이터 각각은 획득이 수행된 때를 나타내는 시각 식별자를 포함한다. 번역될 소스 데이터 시퀀스 내의 소스 데이터는 저널 기술 데이터 시퀀스 내의 저널 기술 데이터에 대응한다. 이러한 대응 관계는, 하나의 소스 데이터는 하나의 저널 기술 데이터에 대응하거나, 복수의 소스 데이터는 복수의 저널 기술 데이터에 대응하거나, 하나의 소스 데이터가 복수의 저널 기술 데이터에 대응하는 것일 수 있다. 대응관계의 구체적인 방식은 실제 애플리케이션에 따라 달라진다. 따라서, 복수의 타켓 저널 기술 데이터 시퀀스는 소스 데이터의 시각 식별자를 사용하여 연결되어 저널 기술 텍스트의 단락을 형성할 수 있다.
본 발명의 실시예가 제공하는 저널 생성 모듈(24)의 기능 구현에 대해서는, 저널을 생성하는 방법에서의 단계 105의 관련 설명을 참조할 수도 있다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예는 저널을 생성하는 장치를 더 제공하며, 상기 장치는 프로세서(31), 메모리(34), 버스(3000), 및 구동 회로(3001)를 포함한다.
프로세서(31)는 소스 데이터 세트와 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하도록 구성되어 있다.
예를 들어, 소스 데이터 세트의 취득은 각종 센서에 의해 획득된 취득 데이터일 수 있다.
소스 데이터 세트 내의 상이한 유형의 소스 데이터는 상이한 데이터 표현 형식을 사용하여 표현되며, 예를 들면 소스 데이터는 튜플을 사용하여 표현될 수 있다. 소스 데이터에 대해 다수의 데이터 표현 형식이 존재할 수 있으며, 본 발명의 실시예는 전술한 튜플 기반 표현 형식에 대해서만 언급한다. 물론, 다른 데이터 표현 형식이 사용될 수도 있으며, 본원에서는 한정되지 않는다.
소스 데이터 세트에 대응한 저널 기술 데이터 세트는 미리 수동으로 설정될 수 있다. 예를 들어, 소스 데이터 세트는 GPS 데이터를 포함하고; 그에 따라 대응하는 저널 기술 데이터 세트는 사용자의 활동 기술, 위치 정보, 등으로 미리 설정될 수 있다. 사용자의 활동 기술은, 예를 들어 "나는 일을 하고 있었다", "점심을 먹으러 공원에 갔다", "나는 집에 있었다", 등이고; 위치 정보는, 예를 들어, "사무실", "공원", 및 "집"이다.
저널 기술 데이터 세트 내의 저널 기술 데이터는 단락, 문장, 또는 단어일 수 있다.
프로세서(31)는 또한 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와, 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되어 있다.
소스 데이터 시퀀스는 적어도 하나의 소스 데이터를 포함하고, 저널 기술 데이터 시퀀스는 적어도 하나의 저널 기술 데이터를 포함한다.
예를 들어, 정렬 확률 세트를 취득하기 위해, 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 IBM translation model 2에서의 정렬 확률을 사용하여 계산될 수 있다.
물론, IBM translation model 2에서의 정렬 확률 외에, 구문(syntax) 번역 모델, 어구(phrase) 번역 모델, 또는 최대 엔트로피(maximum entropy) 번역 모델과 같은 통계적인 기계 번역 방법이 사용될 수도 있다.
프로세서(31)는 또한 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되어 있다.
예를 들어, 프로세서(31)는 출현 확률 세트를 취득하기 위해, 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 최대 우도 추정 방법(maximum likelihood estimation method)을 사용하여 계산할 수 있다.
프로세서(31)는 또한, 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하도록 구성되어 있으며, 번역될 소스 데이터 시퀀스는 소스 데이터 시퀀스 중 어느 하나이다.
프로세서(31)는 또한, 타켓 저널 기술 데이터 시퀀스에 따라 저널 기술 텍스트를 생성하도록 구성되어 있다.
메모리(34)는, 프로세서(31)가 상기한 기능들을 구현하기 위한 프로그램 코드를 저장하도록 구성되어 있다.
본 발명의 실시예가 제공하는 장치의 기능 구현에 대해서는, 저널을 생성하는 방법에 대한 관련 설명을 참조할 수 있다.
본 발명의 실시예에서는, 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하고; 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하고; 그 후 정렬 확률 세트와 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하며; 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역한다. 종래기술과 비교하여, 본 발명은 종래기술의 규칙에 기초하여 저널이 자동 생성되는 경우에 새로운 데이터 유형을 처리할 수 없기 때문에 실제 사용에서의 유연성이 부족한 문제를 회피한다. 본 발명의 실시예에서, 저널의 자동 생성은 정렬 확률 세트와 출현 확률 세트에 기초하여 구현되고, 소스 데이터의 유형에 대한 한정은 없다. 즉, 다양한 유형의 소스 데이터에 기초한 저널의 자동 생성을 구현할 수 있다. 본 발명의 실시예가 제공하는 장치는 실제 사용 시에 우수한 확장성(extensibility)을 가진다.
또, 본 발명의 실시예에서, 저널의 자동 생성은 정렬 확률 세트와 출현 확률 세트에 기초하여 구현되며, 정렬 확률 세트와 출현 확률 세트는 대량의 훈련 데이터(training data)를 사용하여 모델 훈련 및 학습을 수행함으로써 취득될 수 있다. 대량의 훈련 데이터는, 정렬 확률 세트 및 출현 확률 세트에 기초하여 저널을 자동으로 생성할 때의 더 높은 정밀도를 의미한다.
본 실시예의 구체적인 구현에서, 메모리는 다음의 메모리 디바이스: 판독 전용 메모리, 임의 접근 메모리, 또는 비휘발성 임의 접근 메모리 중 적어도 하나 이상을 포함하고, 메모리는 프로세스에 명령어 및 데이터를 제공한다.
프로세서는 집적회로 칩일 수 있고 신호를 처리할 수 있다. 프로세스의 구현에서. 전술 방법의 단계들은 하드웨어의 집적 논리회로 또는 프로세서 내의 소프트웨어 형태의 명령어를 사용하여 완성될 수 있다. 이들 명령어는 본 발명의 실시예에 개시된 방법을 내부에서 수행하는 프로세서의 협력으로 구현되고 제어될 수 있다. 프로세서는 또한 범용 프로세서, 디지털 신호 처리기(Digital Signal Processing, DSP), 주문형 직접회로(Application-Specific Integrated Circuit, ASIC), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 개별 하드웨어 요소일 수 있다.
범용 프로세서는 마이크로프로세서일 수 있거나, 임의의 일반 프로세서, 디코더 등일 수 있다. 상기 단계들은 본 발명의 실시예에 개시된 방법을 참조하여 하드웨어 프로세서 또는 하드웨어와 프로세서 내의 소프트웨어 모듈의 조합에 의해 직접 구현될 수 있다. 소프트웨어 모듈은 임의 접근 메모리, 플래시 메모리, 판독 전용 메모리, 프로그램 가능한 판독 전용 메모리, 전기적으로 소거 가능 프로그램 가능한 판독 전용 메모리, 또는 레지스터와 같은, 종래기술의 성숙한 저장 매체에 위치될 수 있다.
구동 회로(3001)는 각각의 하드웨어가 정상적으로 동작할 수 있도록, 저널을 생성하는 장치 내의 각각의 하드웨어를 구동하도록 구성되어 있다.
또, 저널을 생성하는 장치의 하드웨어 구성요소는 버스 시스템(3000)을 사용하여 연결되고, 버스 시스템(3000)은 또한 데이터 버스 외에, 전원 버스, 제어 버스, 및 상태 신호 버스를 포함한다. 그러나, 설명을 명확하게 하기 위해, 도 3에는 버스들이 버스 시스템(3000)으로서 집합적으로 표현되어 있다.
선택적으로 저널을 생성하는 장치에서, 프로세서(31)는 또한 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 소스 데이터를 취득하도록 구성되어 있다.
예를 들어, 소스 데이터 세트 내의 GPS 데이터에 대해 클러스터링 처리(clustering processing)를 수행하여, 짧은 거리 내의 GPS 데이터를 하나의 클러스터로 분류하며, 대응하는 어휘 처리는 공간 분할 방법(space partitioning method)을 사용하는 클러스터링 처리일 수 있다.
예를 들어, 100m×100m 범위 내의 위치에 대응하는 GPS 데이터는 하나의 GPS 카테고리로서 집합적으로 표현되고, 처리 후의 소스 데이터는 100m×100m 범위 내의 GPS 데이터 각각에 대응하는, 예를 들면 GPS 1, GPS 2, … GPS M으로 표현되고, M은 GPS 클러스터 ID이다.
프로세서(31)는 또한 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하도록 구성되어 있다.
예를 들어, 저널 기술 데이터 세트 내의 저널 기술 데이터는 "나는 바다링에서 만리장성을 관광했다. 나는 일을 하고 있었다. 나는 꽃을 보러 공원에 갔고, 나는 집으로 돌아갔다"라는 단락이고; 대응하는 어휘 처리는, 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 수행되어 처리된 저널 기술 데이터 "나는 바다링에서 만리장성을 관광했다", "나는 일을 하고 있었다", "나는 꽃을 보러 공원에 갔다", 그리고 "나는 집으로 돌아갔다"를 취득하는 중국어 단어 분할 처리를 일 수 있다.
물론, 실제 애플리케이션의 상이한 요건에 따라, 대응하는 어휘 처리는 저널 기술 데이터 세트 내의 저널 기술 데이터에 대한 어구 추출일 수도 있다. 예를 들어, 저널 기술 데이터 세트 내의 저널 기술 데이터는 몇 개의 문장, "나는 레스토랑에서 식사를 했다", "코트에서 볼 게임을 했다", 및 "저녁에 게임을 했다"이고; 어구 추출 처리가 수행된 후, "식사를 했다", "볼 게임을 했다", 그리고 "게임을 했다"가 취득될 수 있다.
유의해야 할 것은, 어휘 처리는, 예를 들어 하나의 문장에 대해 중국어 단어 분할을 수행하여 하나의 문장으로부터 어구를 추출하는 등, 문장을 바꾸기 위해 주로 사용된다는 것이다. 어휘 처리하기 전의 데이터가 이미 하나의 단어이면, 대응하는 어휘 처리 작업은 수행되지 않을 수 있음을 알 수 있을 것이다.
본 발명의 실시예가 제공하는 프로세서(31)의 기능 구현에 대해서는, 저널을 생성하는 방법에서의 단계 1001∼1002를 참조할 수 있다.
또, 저널을 생성하는 장치에서, 프로세서(31)는 구체적으로, 미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트(parallel text)를 구성하도록 구성되어 있다.
한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되고; S_all은 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고 S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고 T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 n번째(제n) 어휘적으로 처리된 소스 데이터를 나타내며, n은 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이다.
예를 들어, 소스 데이터 세트는 첫째 날에 사용자의 GPS 데이터에 대해 어휘 처리를 수행하여 취득된 GPS 데이터이고, S_all = GPS 1, …, GPS m으로 표현되고; 저널 기술 데이터 세트는 S1_all에 대응하는 첫째 날에 사용자의 활동 데이터 기술이고, T1_all = Activity 1, …, Activity n으로 표현된다. 한 쌍의 병렬 텍스트는 첫째 날에 저널 기술 데이터 세트 및 소스 데이터 세트에 기초하여 구성될 수 있으며, (S_all, T_all)로 표현된다.
유사하게, (S2_all, T2_all)도 구성될 수 있으며, S2_all은 둘째 날의 소스 데이터 세트를 나타내고, T2_all은 S2_all에 대응하는 저널 기술 데이터 세트를 나타낸다. 유추에 의해, N째 날의 소스 데이터 세트와 저널 기술 데이터 세트를 사용하여, ST = {(S1_all, T1_all), (S2_all, T2_all)…(Sn_all, Tn_all)}로 표현되는, 병렬 코퍼스가 구성될 수 있다.
프로세서(31)는 또한 구체적으로 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되어 있다.
소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
예를 들어, 프로세서(31)는, 정렬 확률 세트를 취득하기 위해, IBM translation model 2에서의 정렬 확률을 사용하여 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산한다.
IBM translation model 2에서의 정렬 확률을 사용하여 각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하는 경우, 소스 데이터 시퀀스와 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 특정 조건 하의 정렬 확률이라는 것이다.
그 특정 조건은 [소스 데이터 시퀀스, 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스, 세트 S_all 내의 소스 데이터 시퀀스의 위치, 세트 T_all 내의 소스 데이터 시퀀스에 대응한 저널 기술 데이터 시퀀스의 위치, 세트 S_all의 길이, 세트 T_all의 길이]로 표현된다.
이해하기 쉽도록, 본 발명의 실시예에서는, 소스 데이터 시퀀스는 S로 표현되고, 저널 기술 데이터 시퀀스는 T로 표현되며, 소스 데이터 시퀀스와 소스 데이터 시퀀스에 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률은 P(S|T)로 표현된다.
예를 들어, 한 쌍의 병렬 텍스트 (S1_all, T1_all)가 존재하고, 정렬 확률 계산은 IBM translation model 2에서의 정렬 확률을 사용하여 다음과 같이 실행된다:
병렬 텍스트에서, 소스 데이터 세트는 S1_all = GPS 1, …, GPS m이고, 저널 기술 데이터 세트는 T1_all = Activity 1, …, Activity n이라고 하자.
소스 데이터 시퀀스가 S인 GPS 2인 경우, 저널 기술 데이터 시퀀스는 Activity 3이고, 세트 S1_all 내의 소스 데이터 시퀀스의 위치는 2이고, 세트 T1_all 내의 저널 기술 데이터 시퀀스의 위치는 3이고, 세트 S1_all의 길이는 12이고 T1_all의 길이는 14이며, P(S|T)를 계산하는 프로세스는 다음과 같다:
{
Figure pat00003
병렬 코퍼스 내의 [GPS 2, Activity 3, X, 3, 12, 14]의 출현 횟수}에 대한 {병렬 코퍼스 내의 [GPS 2, Activity 3, 2, 3, 12, 14]의 출현 횟수}의 비, 여기서 M은 세트 S_all의 길이이다.
예를 들어, GPS 2의 값이 (116.45, 39.92)이고 Activity 3의 값이 "tour(관광)"이며, 병렬 코퍼스 ST 내에 [(116.45, 39.92), "tour", 2, 3, 12, 14]의 출현 횟수가, 저널 기술 데이터 세트의 길이가 14인 경우의 전체 병렬 코퍼스 내에서의 출현 횟수를 가리키는 경우, 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 "tour"의 위치는 3이고, 소스 데이터 시퀀스 (116.45, 39.92)의 위치는 2이다.
[GPS 2, Activity 3, X, 3, 12, 14]의 출현 횟수의 합은, 저널 기술 데이터 세트의 길이가 14이고, 소스 데이터 세의 길이가 12이고, 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 "tour"의 위치가 3이고, 소스 데이터 시퀀스 (116.45, 39.92) 가 소스 데이터 세트의 X번째 위치인 경우의, 전체 병렬 코퍼스 내에서의 출현 횟수를 가리킨다.
본 발명의 실시예가 제공하는 프로세서(31)의 기능 구현을 대해서는, 저널을 생성하는 방법에서의 단계 102의 관련 설명을 참조할 수도 있다.
또한, 저널을 생성하는 장치에서, 프로세서(31)는 구체적으로 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되어 있다.
저널 기술 데이터 시퀀스는 저널 기술 데이터 세트 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함한다.
실제 애플리케이션에서, 프로세서(31)는 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을, 예를 들어 최대 우도 추정 방법(maximum likelihood estimation method)을 사용하여 계산할 수 있으며, 이에 대해 예시적인 예를 참조하여 구체적으로 설명한다.
예를 들어, 저널 기술 데이터 세트는 다음의 세 개의 문장이다:
(1) 존은 성경을 읽는다(JOHN READ HOLY BIBLE).
(2) 마크는 교과서를 읽는다(MARK READ A TEXT BOOK).
(3) 그는 다윗이 쓴 책을 읽는다(HE READ A BOOK BY DAVID).
예를 들어, 저널 기술 데이터 시퀀스 T가 문장 (1)인 경우를 예를 들어 계산하면, 저널 기술 데이터 세트에서 저널 기술 데이터 시퀀스 T의 출현 확률은 P(T)로 표현되고, P(T)를 계산하는 프로세스는 다음과 같다:
P(JOHN READ A BOOK)
= P(JOHN|<BOS>)×P(READ|JOHN)×P(A|READ)×P(BOOK|A)×P(<EOS>|BOOK)
= 1/3×1/1×2/3×1/2×1/2
= 0.06
유의할 것은, 본 단계에서는, 최대 우도 추정법을 사용하여 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산할 수 있고; 또, 베이지안 추정 방법(Bayesian estimation method), 최대 사후 확률 추정 방법(maximum posterior probability estimation method) 등이 본원에 한정되지 않고 사용될 수 있다는 것이다.
본 발명의 실시예가 제공하는 프로세서(31)의 기능 구현에 대해서는 저널을 생성하는 방법에서의 단계 103에 대한 관련 설명을 참조할 수 있다.
또한, 저널을 생성하는 장치에서, 프로세서(31)는 구체적으로 각각의 P(S|T)에 대한 정렬 확률 세트와 각각의 P(T)에 대한 출현 확률 세트를 검색하도록 구성되어 있고, P(S|T)는 소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률이고, P(T)는 저널 기술 데이터 세트 내의 저널 기술 데이터 시퀀스 T의 출현 확률이다.
소스 데이터 시퀀스 S가 번역될 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 타겟 저널 기술 데이터 시퀀스인 것으로 결정한다.
본 발명이 제공하는 프로세서(31)의 기능 구현에 대해서는 저널을 생성하는 방법에서이 단계 104의 관련 설명을 참조할 수 있다.
또한, 저널을 생성하는 장치에서, 프로세서(31)는 구체적으로, 상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 저널 기술 텍스트를 생성하도록 구성되어 있다.
번역될 소스 데이터 시퀀스 내의 소스 데이터 각각은, 획득이 수행된 때를 나타내는 시각 식별자를 포함한다. 번역될 소스 데이터 시퀀스 내의 소스 데이터는 저널 기술 데이터 시퀀스 내의 저널 기술 데이터에 대응한다. 이러한 대응 관계는, 하나의 소스 데이터가 하나의 저널 기술 데이터에 대응하거나, 복수의 소스 데이터가 복수의 저널 기술 데이터에 대응하거나, 하나의 소스 데이터가 복수의 저널 기술 데이터에 대응하는 것일 수 있다. 대응관계의 구체적인 방식은 실제 애플리케이션에 따라 달라진다. 따라서, 복수의 타켓 저널 기술 데이터 시퀀스는 소스 데이터의 시각 식별자를 사용하여 연결되어 저널 기술 텍스트의 단락을 형성할 수 있다.
본 발명이 제공하는 프로세서의 기능 구현에 대해서는 저널을 생성하는 방법에서의 단계 105의 관련 설명을 참조할 수 있다.
본 발명의 실시예는 주로, 저널의 자동 번역 및 처리에 적용된다.
본 발명의 실시예에 따른 저널을 생성하는 장치는 무선 단말기 또는 유선 단말기일 수 있고, 무선 단말기는 사용자에게 음성 및/또는 데이터 연결성을 제공하는 디바이스, 무선 접속 기능을 구비한 핸드헬드 디바이스, 또는 무선 모뎀에 접속된 다른 처리 디바이스를 가리킬 수 있다. 무선 단말기는 무선 액세스 네트워크(RAN, Radio Access Network)를 사용하여 하나 이상의 코어 네트워크와 통신할 수 있다. 무선 단말기는, 이동전화("셀룰러"폰이라고도 함)와 같은 이동 단말기, 또는 무선 액세스 네트워크와 음성 및/또는 데이터를 교환하는, 예를 들어, 휴대형, 포켓형, 핸드헬드, 컴퓨터 내장형, 또는 차량 장착형 이동 장치 등의, 이동 단말기를 구비한 컴퓨터일 수 있다. 예를 들어, 무선 단말기는 개인 통신 서비스(Personal Communication Service, PCS) 전화, 무선 전화, 세션 개시 프로토콜(Session Initiation Protocol, SIP) 전화, 무선 로컬 루프(Wireless Local Loop, WLL) 국(station), 개인 휴대 정보 단말기(Personal Digital Assistant, PDA)와 같은 디바이스일 수 있다. 무선 단말기는 또한 시스템, 가입자 유닛(Subscriber Unit), 가입자 국(Subscriber Station), 이동국(Mobile Station),이동기(Mobile), 원격국(Remote Station), 액세스 포인트(Access Point), 원격 단말기(Remote Terminal), 액세스 단말기(Access Terminal), 사용자 단말기(User Terminal), 사용자 에이전트(User Agent), 사용자 디바이스(User Device), 또는 사용자 장비(User Equipment)일 가리킬 수도 있다.
본 발명이 속하는 기술분야의 당업자라면, 설명의 편의와 간결함을 위해, 단지 전술한 기능 모듈의 분할은 예로서 기술된 것임을 이해할 수 있을 것이다. 실제 애플리케이션에서, 기능들은 필요에 따라 상이한 기능 모듈에 할당되고 수행될 수 있다, 즉, 장치의 내부 구조는 이상에서 설명한 기능의 전부 또는 일부를 수행하는 상이한 기능 모듈로 분할되어 있다. 전술한 시스템, 장치, 유닛의 상세한 작업 프로세스에 대해서는전술한 방법 실시예에서의 대응하는 프로세스를 참조할 수 있으므로, 자세한 것은 여기에 다시 설명하지 않는다.
본 애플리케이션에 제공된 몇몇 실시예에서, 개시된 시스템, 장치, 및 방법은 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 예를 들어, 설명한 장치 실시예는 단시 예시일 뿐이다. 예를 들어, 모듈 또는 유닛 분할(division)은 단지 로컬 기능 분할이며 실제 구현 시에는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소가 다른 시스템에 결합되거나 통합될 수 있거나, 일부 특징이 무시되거나 수행되지 않을 수 있다. 또, 표시되거나 언급된 상호 결합, 또는 직접 결합, 또는 통신 연결은 몇몇 인터페이스를 사용하여 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합 또는 통신 연결은 전자적, 기계적, 또는 다른 형태로 구현될 수 있다.
개별 부분으로 기술된 유닛은 물리적으로 분리되거나 될 수 없을 수 있고, 유닛으로 표시된 부분은 물리 유닛이거나 아닐 수 있고, 한 곳에 위치되거나 복수의 네트워크 유닛에 분산될 수 있다. 유닛의 일부 또는 전부는 실시예에서의 방안의 목적을 달성하기 위해 실제 필요에 따라 선택될 수 있다.
전술한 실시예에 대한 설명에 기초하여, 본 발명이 속하는 기술분야의 당업자는, 본 발명은 필요한 일반적인 하드웨어와 함께 소프트웨어로 구현될 수 있음을 명확하게 이해할 수 있을 것이다. 물론, 본 발명은 하드웨어만으로도 구현될 수 있다. 그러나, 전자가 바람직한 구현 방식이다. 이러한 이해를 바탕으로, 종래기술에 본질적으로, 또는 부분적으로 기여하는 본 발명의 기술 방안은 소프트웨어 제품 형태로 구현될 수 있다. 그 컴퓨터 소프트웨어 제품은, 예를 들어 플로피 디스크, 하드 디스크, 또는 컴퓨터의 광디스크 등의, 판독 가능한 저장 매체에 저장될 수 있으며, (개인용 컴퓨터, 서버 또는 네트워크 디바이스일 수 있는) 컴퓨터 디바이스에 본 발명의 실시예에서 설명한 방법을 수행하도록 지시하기 위한 명렁어를 포함한다.
상기한 설명은 본 발명의 구체적인 실시예일 뿐이며, 본 발명의 보호 범위를 한정하려는 것은 아니다. 본 발명에 개시된 기술적 범위 내에서 당업자에 의해 쉽게 알아낼 수 있는 임의의 변형 또는 대체는 본 발명의 보호 범위에 속한다. 따라서, 본 발명의 보호 범위는 특허청구범위의 보호 범위에 따른다.

Claims (18)

  1. 소스 데이터 세트와 상기 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하는 단계;
    상기 소스 데이터 세트 내의 적어도 하나의 소스 데이터를 포함하는 각각의 소스 데이터 시퀀스와, 상기 저널 기술 데이터 세트 내의 적어도 하나의 저널 기술 데이터를 포함하는 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률(alignment probability)을 계산하여 정렬 확률 세트를 취득하는 단계;
    상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트(occurrence probability set)를 취득하는 단계;
    상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하는 단계; 및
    상기 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역하는 단계
    를 포함하는 저널을 생성하는 방법.
  2. 제1항에 있어서,
    상기 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리(lexical processing)를 수행하여 어휘적으로 처리된 소스 데이터를 취득하는 단계; 및
    상기 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하는 단계를 더 포함하는 저널을 생성하는 방법.
  3. 제2항에 있어서,
    상기 소스 데이터 세트 내의 각각의 소스 데이터 시퀀스와 상기 저널 기술 데이터 세트 내의 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하는 단계는,
    미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트(parallel text)를 구성하는 단계; 및
    각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하는 단계를 포함하고,
    한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되고, S_all은 상기 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고 S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m 번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 상기 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 상기 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고 T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 제n 어휘적으로 처리된 소스 데이터를 나타내며, n은 상기 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이고;
    상기 소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 상기 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함하는, 저널을 생성하는 방법.
  4. 제2항에 있어서,
    상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하는 단계는,
    상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 상기 출현 확률 세트를 취득하는 단계를 포함하고, 상기 저널 기술 데이터 시퀀스는 상기 저널 기술 데이터 세트 내의 상기 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함하는, 저널을 생성하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하는 단계는,
    소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률인 각각의 P(S|T)에 대한 상기 정렬 확률 세트와, 상기 저널 기술 데이터 세트 내의 상기 저널 기술 데이터 시퀀스 T의 출현 확률인 각각의 P(T)에 대한 상기 출현 확률 세트를 검색하는 단계; 및
    소스 데이터 시퀀스 S가 번역될 상기 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 상기 타겟 저널 기술 데이터 시퀀스인 것으로 결정하는 단계를 포함하는, 저널을 생성하는 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 타켓 저널 기술 데이터 시퀀스를 저널 기술 텍스트로 번역하는 단계는,
    상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상기 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 상기 저널 기술 텍스트를 생성하는 단계를 포함하는, 저널을 생성하는 방법.
  7. 소스 데이터 세트와 상기 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하도록 구성된 취득 모듈;
    상기 소스 데이터 세트 내의 적어도 하나의 소스 데이터를 포함하는 각각의 소스 데이터 시퀀스와, 상기 저널 기술 데이터 세트 내의 적어도 하나의 저널 기술 데이터를 포함하는 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되고, 상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성된, 계산 모듈;
    상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하도록 구성된 번역 모듈; 및
    상기 타켓 저널 기술 데이터 시퀀스에 따라 저널 기술 텍스트를 생성하도록 구성된 저널 생성 모듈
    을 포함하는 저널을 생성하는 장치.
  8. 제7항에 있어서,
    상기 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 소스 데이터를 취득하도록 구성되고, 상기 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하도록 구성된, 어휘 처리 모듈을 더 포함하는 저널을 생성하는 장치.
  9. 제8항에 있어서,
    상기 계산 모듈은,
    미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트를 구성하도록 구성되고;
    각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되며;
    한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되며, S_all은 상기 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고 S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m 번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 상기 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 상기 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고 T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 제n 어휘적으로 처리된 소스 데이터를 나타내며, n은 상기 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이고;
    상기 소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 상기 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함하는, 저널을 생성하는 장치.
  10. 제8항에 있어서,
    상기 계산 모듈은, 상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되고,
    상기 저널 기술 데이터 시퀀스는 상기 저널 기술 데이터 세트 내의 적어도 하나의 상기 어휘적으로 처리된 저널 기술 데이터를 포함하는, 저널을 생성하는 장치.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 번역 모듈은,
    소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률인 각각의 P(S|T)에 대한 상기 정렬 확률 세트와, 상기 저널 기술 데이터 세트 내에 상기 저널 기술 데이터 시퀀스 T의 출현 확률인 각각의 P(T)에 대한 상기 출현 확률 세트를 검색하도록 구성되고;
    소스 데이터 시퀀스 S가 번역될 상기 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 상기 타겟 저널 기술 데이터 시퀀스인 것으로 결정하도록 구성되는, 저널을 생성하는 장치.
  12. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 저널 생성 모듈은, 상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상기 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 상기 저널 기술 텍스트를 생성하도록 구성되는, 저널을 생성하는 장치.
  13. 프로세서 및 메모리를 포함하는 저널을 생성하는 장치로서,
    상기 프로세서는,
    소스 데이터 세트와 상기 소스 데이터 세트에 대응하는 저널 기술 데이터 세트를 취득하도록 구성되고;
    상기 소스 데이터 세트 내의 적어도 하나의 소스 데이터를 포함하는 각각의 소스 데이터 시퀀스와, 상기 저널 기술 데이터 세트 내의 적어도 하나의 저널 기술 데이터를 포함하는 각각의 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되고,
    상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되고,
    상기 정렬 확률 세트와 상기 출현 확률 세트에 따라 각각의 저널 기술 데이터 시퀀스로부터, 상기 소스 데이터 시퀀스 중 어느 하나인 번역될 소스 데이터 시퀀스에 대응하는 타켓 저널 기술 데이터 시퀀스를 결정하도록 구성되고;
    상기 타켓 저널 기술 데이터 시퀀스에 따라 저널 기술 텍스트를 생성하도록 구성되며;
    상기 메모리는, 상기 프로세서가 상기한 기능들을 구현하기 위한 프로그램 코드를 저장하도록 구성되는, 저널을 생성하는 장치.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 소스 데이터 세트 내의 소스 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 소스 데이터를 취득하도록 구성되고;
    상기 저널 기술 데이터 세트 내의 저널 기술 데이터에 대해 어휘 처리를 수행하여 어휘적으로 처리된 저널 기술 데이터를 취득하도록 구성되는, 저널을 생성하는 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    미리 설정된 동일한 시간 내에 소스 데이터 세트와 저널 기술 데이터 세트로부터 한 쌍의 병렬 텍스트를 구성하도록 구성되고;
    각각의 소스 데이터 시퀀스와 각각의 소스 데이터 시퀀스에 각각 대응하는 저널 기술 데이터 시퀀스 사이의 정렬 확률을 계산하여 정렬 확률 세트를 취득하도록 구성되며;
    한 쌍의 병렬 텍스트는 (S_all, T_all)로 표현되며, S_all은 상기 병렬 텍스트의 쌍 내의 소스 데이터 세트를 나타내고 S_all = G1, …, Gm이며, G1은 S_all 내의 첫 번째(제1) 어휘적으로 처리된 소스 데이터를 나타내고, Gm은 S_all 내의 m 번째(제m) 어휘적으로 처리된 소스 데이터를 나타내며, m은 상기 소스 데이터 세트 내의 어휘적으로 처리된 소스 데이터의 수이고; T_all은 상기 병렬 텍스트의 쌍 내의 저널 기술 데이터 세트를 나타내고 T_all = A1, …, An이며, A1은 제1 어휘적으로 처리된 저널 기술 데이터를 나타내고, An은 제n 어휘적으로 처리된 소스 데이터를 나타내며, n은 상기 저널 기술 데이터 세트 내의 어휘적으로 처리된 저널 기술 데이터의 수이고;
    상기 소스 데이터 시퀀스는 S_all 내의 적어도 하나의 어휘적으로 처리된 소스 데이터를 포함하고, 상기 저널 기술 데이터 시퀀스는 T_all 내의 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함하는, 저널을 생성하는 장치.
  16. 제14항에 있어서,
    상기 프로세서는, 상기 저널 기술 데이터 세트 내에 각각의 저널 기술 데이터 시퀀스가 출현하는 확률을 계산하여 출현 확률 세트를 취득하도록 구성되고,
    상기 저널 기술 데이터 시퀀스는 상기 저널 기술 데이터 세트 내의 상기 적어도 하나의 어휘적으로 처리된 저널 기술 데이터를 포함하는, 저널을 생성하는 장치.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 프로세서는,
    소스 데이터 시퀀스 S와 저널 기술 데이터 시퀀스 T 사이의 정렬 확률인 각각의 P(S|T)에 대한 상기 정렬 확률 세트와, 상기 저널 기술 데이터 세트 내에 상기 저널 기술 데이터 시퀀스 T의 출현 확률인 각각의 P(T)에 대한 상기 출현 확률 세트를 검색하도록 구성되고;
    소스 데이터 시퀀스 S가 번역될 상기 소스 데이터 시퀀스인 경우, 저널 기술 데이터 시퀀스 T가 P(S|T)×P(T)를 최대값에 이르게 하는 상기 타겟 저널 기술 데이터 시퀀스인 것으로 결정하도록 구성되는, 저널을 생성하는 장치.
  18. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 프로세서는, 상이한 유형의 번역될 데이터 시퀀스에 포함되어 있는 시각 식별자에 따라, 상기 상이한 유형의 번역될 데이터 시퀀스에 따라 취득된 각각의 타켓 저널 기술 데이터 시퀀스로부터 상기 저널 기술 텍스트를 생성하도록 구성되는, 저널을 생성하는 장치.
KR1020140078386A 2013-06-26 2014-06-25 저널을 생성하는 방법 및 장치 KR101595479B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310260039.2 2013-06-26
CN201310260039.2A CN104252439B (zh) 2013-06-26 2013-06-26 日记生成方法及装置

Publications (2)

Publication Number Publication Date
KR20150001665A true KR20150001665A (ko) 2015-01-06
KR101595479B1 KR101595479B1 (ko) 2016-02-18

Family

ID=51136300

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140078386A KR101595479B1 (ko) 2013-06-26 2014-06-25 저널을 생성하는 방법 및 장치

Country Status (6)

Country Link
US (1) US8996360B2 (ko)
EP (1) EP2819026A3 (ko)
JP (1) JP5934749B2 (ko)
KR (1) KR101595479B1 (ko)
CN (1) CN104252439B (ko)
WO (1) WO2014206087A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108103A1 (en) * 2012-10-17 2014-04-17 Gengo, Inc. Systems and methods to control work progress for content transformation based on natural language processing and/or machine learning
CN107133224B (zh) * 2017-04-25 2020-11-03 中国人民大学 一种基于主题词的语言生成方法
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
CN109829080B (zh) * 2019-01-14 2020-12-22 广东科学技术职业学院 一种智能记录日迹的系统及方法
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
EP4220416A4 (en) * 2020-09-25 2023-11-29 Life Quest Inc. DIARY GENERATING APPARATUS, DIARY GENERATING SYSTEM, DIARY GENERATING METHOD AND PROGRAM

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324335B1 (en) * 1996-11-29 2001-11-27 Sony Corporation Editing system and editing method
JP2002215611A (ja) * 2001-01-16 2002-08-02 Matsushita Electric Ind Co Ltd 日記作成支援装置
EP1306775A1 (en) 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
JP2003288354A (ja) * 2002-03-28 2003-10-10 Seiko Epson Corp 行動記録の自動作成方法、情報記録媒体、及び行動記録自動作成システム
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7827297B2 (en) * 2003-01-18 2010-11-02 Trausti Thor Kristjansson Multimedia linking and synchronization method, presentation and editing apparatus
WO2004088643A2 (en) 2003-03-25 2004-10-14 Saul Shapiro Intergenerational interactive lifetime journaling/diary an advice/guidance system
US20040243422A1 (en) * 2003-05-30 2004-12-02 Weber Goetz M. Event management
AU2004202391A1 (en) 2003-06-20 2005-01-13 Microsoft Corporation Adaptive machine translation
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities
US8138926B2 (en) * 2008-06-30 2012-03-20 Intel-Ge Care Innovations Llc Methods and apparatus for monitoring and guiding human subjects interacting with objects
US8631070B2 (en) * 2009-03-27 2014-01-14 T-Mobile Usa, Inc. Providing event data to a group of contacts
US8140621B2 (en) * 2009-03-27 2012-03-20 T-Mobile, Usa, Inc. Providing event data to a group of contacts
US8682342B2 (en) * 2009-05-13 2014-03-25 Microsoft Corporation Constraint-based scheduling for delivery of location information
GB2484644B (en) * 2009-07-22 2016-05-18 Univ Of Ontario Inst Of Tech System, method and computer program for multi-dimensional temporal data mining
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
GB201003628D0 (en) * 2010-03-04 2010-04-21 Touchtype Ltd System and method for inputting text into electronic devices
US8447604B1 (en) * 2010-04-12 2013-05-21 Adobe Systems Incorporated Method and apparatus for processing scripts and related data
US8385723B2 (en) * 2010-06-18 2013-02-26 Microsoft Corporation Recording of sports related television programming
US9237393B2 (en) * 2010-11-05 2016-01-12 Sony Corporation Headset with accelerometers to determine direction and movements of user head and method
US8594485B2 (en) * 2010-12-30 2013-11-26 Taser International, Inc. Systems and methods for presenting incident information
US8600730B2 (en) * 2011-02-08 2013-12-03 Microsoft Corporation Language segmentation of multilingual texts
JP5421309B2 (ja) * 2011-03-01 2014-02-19 ヤフー株式会社 行動ログメッセージを生成して投稿する投稿装置及びその方法
US20120311416A1 (en) * 2011-06-03 2012-12-06 Hannes Richter Integrated hazard mapping system
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Peter E Brown 외 3명, "The Mathematics of Statistical Machine Translation: Parameter Estimation", Computational Linguistics, 1993년, 제19권, 제2호, pp 263~311 *

Also Published As

Publication number Publication date
US20150006152A1 (en) 2015-01-01
JP5934749B2 (ja) 2016-06-15
EP2819026A2 (en) 2014-12-31
KR101595479B1 (ko) 2016-02-18
WO2014206087A1 (zh) 2014-12-31
US8996360B2 (en) 2015-03-31
CN104252439A (zh) 2014-12-31
JP2015011711A (ja) 2015-01-19
CN104252439B (zh) 2017-08-29
EP2819026A3 (en) 2015-03-11

Similar Documents

Publication Publication Date Title
KR101595479B1 (ko) 저널을 생성하는 방법 및 장치
CN103377652B (zh) 一种用于进行语音识别的方法、装置和设备
CN101164102B (zh) 自动扩展移动通信设备的话音词汇的方法和装置
EP2518642A1 (en) Method and terminal device for updating word stock
US10127245B2 (en) Systems, methods, and computer-readable media for interpreting geographical search queries
CN104407834A (zh) 信息输入方法和装置
CN105486325A (zh) 具有语音处理机制的导航系统及其操作方法
CN110413719A (zh) 信息处理方法及装置、设备、存储介质
CN103383699A (zh) 字符串检索方法及系统
CN111179904B (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN109348467A (zh) 紧急呼叫实现方法、电子装置及计算机可读存储介质
CN101958954A (zh) 一种在通讯录中查找联系人的输入方法、系统及移动终端
CN103118346A (zh) 一种发送短信的方法、装置及终端
CN107112007B (zh) 语音识别装置及语音识别方法
CN103838464B (zh) 盲人手机读屏图形控件自动适配方法
CN108595141A (zh) 语音输入方法及装置、计算机装置和计算机可读存储介质
KR102192935B1 (ko) 그림을 이용한 영어학습 방법 및 시스템
WO2021190309A1 (zh) 查找联系人的方法和相关设备
CN104811474A (zh) 一种路线信息整合的方法和装置
CN110797014A (zh) 一种语音识别方法、装置及计算机存储介质
JP2021119455A (ja) 情報処理方法、プログラム、端末
CN104050168A (zh) 信息处理方法、电子设备及词库服务器
CN103607497B (zh) 联系人关联装置及方法
CN111695350B (zh) 一种文本的分词方法及分词装置
CN103634341A (zh) 移动终端、云服务器以及热门景点的识别方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
FPAY Annual fee payment

Payment date: 20200115

Year of fee payment: 5