KR102232643B1 - 엔드 투 엔드 모델링 방법 및 시스템 - Google Patents

엔드 투 엔드 모델링 방법 및 시스템 Download PDF

Info

Publication number
KR102232643B1
KR102232643B1 KR1020197003257A KR20197003257A KR102232643B1 KR 102232643 B1 KR102232643 B1 KR 102232643B1 KR 1020197003257 A KR1020197003257 A KR 1020197003257A KR 20197003257 A KR20197003257 A KR 20197003257A KR 102232643 B1 KR102232643 B1 KR 102232643B1
Authority
KR
South Korea
Prior art keywords
layer
enhancement
training data
target
filtering
Prior art date
Application number
KR1020197003257A
Other languages
English (en)
Other versions
KR20190025976A (ko
Inventor
자 판
실량 장
쉬푸 슝
시 웨이
궈핑 후
Original Assignee
아이플라이텍 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이플라이텍 캄파니 리미티드 filed Critical 아이플라이텍 캄파니 리미티드
Publication of KR20190025976A publication Critical patent/KR20190025976A/ko
Application granted granted Critical
Publication of KR102232643B1 publication Critical patent/KR102232643B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

엔드 투 엔드 모델링 방법 및 시스템. 상기 방법은, 입력 계층, 인코딩 계층, 코드 향상 (code enhancement) 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함하는 타겟 기반 엔드 투 엔드 (end-to-end) 모델의 토폴로지 구조를 결정하는 단계; 여기서 상기 코드 향상 계층은 상기 인코딩 계층에 의해 출력되는 특징 시퀀스 (feature sequence)에 타겟 유닛의 정보를 추가하도록 구성되고, 상기 필터링 계층은 상기 코드 향상 계층에 의해 상기 타겟 유닛의 정보가 부가된 상기 특징 시퀀스를 필터링하도록 구성되며; 복수의 트레이닝 데이터 (training data)를 수집하는 단계; 상기 트레이닝 데이터의 각 부분의 라벨링 오브젝트를 결정하고, 상기 라벨링 오브젝트 내의 타겟 유닛을 라벨링하는 단계; 상기 트레이닝 데이터의 각 부분의 특징 시퀀스를 추출하는 단계; 및 상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 획득하기 위해, 복수의 트레이닝 데이터의 특징 시퀀스 및 복수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 이용하여 상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하는 단계를 포함한다. 본 발명에 의하면, 모델링의 정확성이 향상될 수 있다.

Description

엔드 투 엔드 모델링 방법 및 시스템
본 발명은 기계 학습의 기술 분야에 관한 것으로, 특히 엔드 투 엔드 (end-to-end) 모델링을 위한 방법 및 시스템에 관한 것이다.
엔드 투 엔드 (end-to-end) 모델링은 입력단의 특징 시퀀스 (feature sequence)와 출력단의 특징 시퀀스 간의 대응에 기초하여 모델을 구축하는 것을 가리킨다. 엔드 투 엔드 모델링은 패턴 인식 또는 기계 학습 분야에서 널리 사용된다. 예를 들어, 엔드 투 엔드 모델링은 음성 인식, 이미지 인식, 기계 번역 등을 위한 애플리케이션 시스템에서 일반적으로 사용된다. 입력단과 출력단 사이의 대응 관계는 애플리케이션 시스템의 요구 사항을 달성하기 위해 설정된다. 음성 인식을 예로 들면, 엔드 투 엔드 모델링은 음향 (acoustic) 모델을 언어 (language) 모델과 결합하여 모델을 구축하여, 인식 텍스트 (recognition text)를 직접 출력하는 것을 의미한다. 중국어의 경우, 한자 또는 단어는 일반적으로 모델링 유닛 (modeling unit), 즉 타겟 라벨링 유닛 (target labeling unit)으로 제공되며, 모델은 입력된 음성 신호 시퀀스 (speech signal sequence)와 출력된 한자 또는 단어 사이의 대응 관계를 학습함으로써 구축된다.
엔드 투 엔드 모델링을 위한 종래의 방법은 일반적으로 인코드-디코드 (Encode-Decode) 모델에 기초하여 실현되며, 이 방법은 다음 단계를 포함한다:
(1) 인코드-디코드 모델의 토폴로지 구조를 결정하는 단계;
(2) 복수의 트레이닝 데이터 (training data)를 수집하고, 각 트레이닝 데이터의 특징 시퀀스를 추출하고, 트레이닝 데이터에서 타겟 라벨링 정보를 결정하는 단계; 및
(3) 복수의 트레이닝 데이터의 특징 시퀀스 및 트레이닝 데이터 내의 타겟 라벨 정보를 이용하여 모델의 파라미터를 트레이닝 (training)하는 단계를 포함한다.
디코드 모델의 토폴로지 구조는, 도 1에 도시된 바와 같이 주로 입력 계층, 인코딩 계층, 디코딩 계층 및 출력 계층을 포함한다. 인코딩 계층은 입력 계층으로부터 입력된 특징 시퀀스를 인코딩하도록 구성된다. 디코딩 계층은 인코딩된 특징 시퀀스를 디코딩하도록 구성된다. 디코딩된 특징 시퀀스는 출력 계층의 입력으로 제공되고, 출력 계층은 각 타겟 라벨링 유닛의 사후 확률 (posteriori probability)을 출력한다.
도 1로부터 알 수 있는 바와 같이, 이 모델에서는, 입력된 특징 시퀀스만을 인코딩하여 인코딩 정보를 획득하고, 이 인코딩 정보가 인코딩 계층의 입력으로 되고, 인코딩 정보는 디코딩 계층에 의해 디코되는 것을 알 수 있다. 이러한 방식으로, 획득된 인코딩된 특징 시퀀스는 타겟 라벨링 유닛과 큰 차이를 가지며, 입력단의 특징 시퀀스와 출력단의 특징 시퀀스 간의 정확한 관계가 구축되지 않을 수 있으므로, 모델링의 정확도는 낮아진다.
모델링의 정확성을 향상시키기 위해, 본 발명의 실시 예들에서 엔드 투 엔드 (end-to-end) 모델링을 위한 방법 및 시스템이 제공된다.
다음의 기술적 해결책이 본 발명에 의해 제공된다.
엔드 투 엔드 (end-to-end) 모델링을 위한 방법에 있어서,
입력 계층, 인코딩 계층, 코드 향상 (code enhancement) 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함하는 타겟 기반 엔드 투 엔드 (end-to-end) 모델의 토폴로지 구조를 결정하는 단계; 여기서 상기 코드 향상 계층은 상기 인코딩 계층에 의해 출력되는 특징 시퀀스 (feature sequence)에 타겟 유닛의 정보를 추가하도록 구성되고, 상기 필터링 계층은 상기 코드 향상 계층에 의해 상기 타겟 유닛의 정보가 부가된 상기 특징 시퀀스를 필터링하도록 구성되며;
복수의 트레이닝 데이터 (training data)를 수집하는 단계;
상기 트레이닝 데이터의 각 부분의 라벨링 오브젝트를 결정하고, 상기 라벨링 오브젝트 내의 타겟 유닛을 라벨링하는 단계;
상기 트레이닝 데이터의 각 부분의 특징 시퀀스를 추출하는 단계; 및
상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 획득하기 위해, 복수의 트레이닝 데이터의 특징 시퀀스 및 복수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 이용하여 상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하는 단계를 포함한다.
바람직하게는, 상기 인코딩 계층의 개수는 하나 또는 그 이상이고, 상기 인코딩 계층의 노드 수는 상기 입력 계층의 노드 수와 동일하다.
바람직하게는 각각의 인코딩 계층은 단방향 또는 양방향 장기 단기 메모리 뉴럴 네트워크 (Long Short Term Memory neural network)의 장기 단기 메모리 계층 (Long Short Term Memory layer) 이거나 컨벌루션 뉴럴 네트워크의 컨벌루션 계층 (convolutional layer)이다.
바람직하게는, 상기 토폴로지 구조는 인접한 인코딩 계층들 사이에 위치된 다운 샘플링 계층을 더 포함한다.
바람직하게는, 상기 다운 샘플링 계층들의 수는 하나 또는 그 이상이다.
바람직하게는, 상기 다운 샘플링 계층의 각 노드의 입력은 상기 다운 샘플링 계층 이전의 인코딩 계층의 복수의 인접 노드들의 특징 정보이다.
바람직하게는, 상기 타겟 유닛의 정보는 향상 노드를 통해 상기 코드 향상 계층에 추가되고, 각 타겟 유닛은 하나의 향상 노드에 대응하고, 타겟 유닛의 특징 벡터는 상기 타겟 유닛에 대응되는 상기 향상 노드에 입력되며, 상기 코드 향상 계층의 개수와 상기 향상 노드의 개수는 상기 타겟 유닛의 개수와 동일하다.
바람직하게는, 각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 모든 노드에 연결되며; 또는 각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 제 1 노드에만 연결된다.
바람직하게는, 상기 필터링 계층의 개수는 상기 코드 향상 계층의 개수와 동일하고, 각각의 코드 향상 계층은 하나의 필터링 계층에 직접 연결된다.
바람직하게는, 상기 필터링 계층은 단방향 또는 양방향 장기 단기 메모리 계층 (Long Short Term Memory layer)의 구조를 가지며, 상기 필터링 계층의 노드들의 개수는 상기 코드 향상 계층의 노드들의 개수와 동일하고, 각 코드 향상 계층에 의해 출력되는 특징은 상기 코드 향상 계층에 연결된 필터링 계층의 입력으로 제공되고, 상기 필터링 계층의 마지막 노드의 출력은 상기 필터링 계층의 출력으로 제공되고; 또는
상기 필터링 계층은 컨벌루션 뉴럴 네트워크에서 컨벌루션 계층 (convolutional layer)과 풀링 (pooling) 계층의 구조를 가지며, 각각의 필터링 계층은 하나 또는 그 이상의 컨벌루션 계층과 하나의 풀링 계층을 포함하며, 상기 풀링 계층의 출력은 상기 풀링 계층을 포함하는 필터링 계층의 출력으로 제공된다.
바람직하게는, 상기 복수의 트레이닝 데이터의 특징 시퀀스와 상기 복수의 트레이닝 데이터에서의 상기 타겟 유닛의 라벨링 정보를 이용하여, 상기 타겟 기반의 엔드 투 엔드 모델의 파라미터를 트레이닝 하는 단계는,
복수의 트레이닝 데이터의 특징 시퀀스를 상기 엔드 투 엔드 모델의 입력으로 사용하고, 상기 복수의 트레이닝 데이터에서의 상기 타겟 유닛의 라벨링 정보를 사용하여, 상기 엔드 투 엔드 모델의 파라미터를 트레이닝하는 단계를 포함하고, 여기서 상기 엔드 투 엔드 모델의 상기 파라미터는 상기 엔드 투 엔드 모델의 계층들간의 연결을 위한 가중치 (weights) 및 바이어스 (biases)라 불리는 변환 행렬 (converting matrices)이다.
엔드 투 엔드 (end-to-end) 모델링을 위한 시스템으로서,
입력 계층, 인코딩 계층, 코드 향상 (code enhancement) 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함하는 타겟 기반 엔드 투 엔드 (end-to-end) 모델의 토폴로지 구조를 결정하도록 구성된 토폴로지 구조 결정 모듈; 여기서 상기 코드 향상 계층은 상기 인코딩 계층에 의해 출력되는 특징 시퀀스 (feature sequence)에 타겟 유닛의 정보를 추가하도록 구성되고, 상기 필터링 계층은 상기 코드 향상 계층에 의해 상기 타겟 유닛의 정보가 부가된 상기 특징 시퀀스를 필터링하도록 구성되며;
복수의 트레이닝 데이터 (training data)를 수집하도록 구성된 트레이닝 데이터 수집 모듈;
상기 트레이닝 데이터의 각 부분의 라벨링 오브젝트를 결정하고, 상기 라벨링 오브젝트 내의 타겟 유닛을 라벨링하도록 구성된 라벨링 모듈;
상기 트레이닝 데이터의 각 부분의 특징 시퀀스를 추출하도록 구성된 특징 추출 모듈; 과
상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 획득하기 위해, 복수의 트레이닝 데이터의 특징 시퀀스 및 복수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 이용하여 상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하도록 구성된 파라미터 트레이닝 모듈을 포함한다.
바람직하게는, 상기 인코딩 계층의 개수는 하나 또는 그 이상이고, 상기 인코딩 계층의 노드 수는 상기 입력 계층의 노드 수와 동일하다.
바람직하게는, 각각의 인코딩 계층은 단방향 또는 양방향 장기 단기 메모리 뉴럴 네트워크 (Long Short Term Memory neural network)의 장기 단기 메모리 계층 (Long Short Term Memory layer) 이거나 컨벌루션 뉴럴 네트워크의 컨벌루션 계층 (convolutional layer)이다.
바람직하게는, 상기 토폴로지 구조는 인접한 인코딩 계층들 사이에 위치된 다운 샘플링 계층을 더 포함한다.
바람직하게는, 상기 다운 샘플링 계층들의 수는 하나 또는 그 이상이다.
바람직하게는, 상기 다운 샘플링 계층의 각 노드의 입력은 상기 다운 샘플링 계층 이전의 인코딩 계층의 복수의 인접 노드들의 특징 정보이다.
바람직하게는, 상기 타겟 유닛의 정보는 향상 노드를 통해 상기 코드 향상 계층에 추가되고, 각 타겟 유닛은 하나의 향상 노드에 대응하고, 타겟 유닛의 특징 벡터는 상기 타겟 유닛에 대응되는 상기 향상 노드에 입력되며, 상기 코드 향상 계층의 개수와 상기 향상 노드의 개수는 상기 타겟 유닛의 개수와 동일하다.
바람직하게는, 각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 모든 노드에 연결되며; 또는 각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 제 1 노드에만 연결된다.
바람직하게는, 상기 필터링 계층의 개수는 상기 코드 향상 계층의 개수와 동일하고, 각각의 코드 향상 계층은 하나의 필터링 계층에 직접 연결된다.
바람직하게는, 상기 필터링 계층은 단방향 또는 양방향 장기 단기 메모리 계층 (Long Short Term Memory layer)의 구조를 가지며, 상기 필터링 계층의 노드들의 개수는 상기 코드 향상 계층의 노드들의 개수와 동일하고, 각 코드 향상 계층에 의해 출력되는 특징은 상기 코드 향상 계층에 연결된 필터링 계층의 입력으로 제공되고, 상기 필터링 계층의 마지막 노드의 출력은 상기 필터링 계층의 출력으로 제공되고; 또는상기 필터링 계층은 컨벌루션 뉴럴 네트워크에서 컨벌루션 계층 (convolutional layer)과 풀링 (pooling) 계층의 구조를 가지며, 각각의 필터링 계층은 하나 또는 그 이상의 컨벌루션 계층과 하나의 풀링 계층을 포함하며, 상기 풀링 계층의 출력은 상기 풀링 계층을 포함하는 필터링 계층의 출력으로 제공된다.
바람직하게는, 상기 파라미터 트레이닝 모듈은, 복수의 트레이닝 데이터의 특징 시퀀스를 상기 엔드 투 엔드 모델의 입력으로 사용하고, 상기 복수의 트레이닝 데이터에서의 상기 타겟 유닛의 라벨링 정보를 사용하여, 상기 엔드 투 엔드 모델의 파라미터를 트레이닝하도록 구성되고, 여기서 상기 엔드 투 엔드 모델의 상기 파라미터는 상기 엔드 투 엔드 모델의 계층들간의 연결을 위한 가중치 (weights) 및 바이어스 (biases)라 불리는 변환 행렬 (converting matrices)이다.
본 발명의 실시 예들에 의해 제공되는 엔드 투 엔드 모델링을 위한 방법 및 시스템에 따르면, 코드 향상 계층 및 필터링 계층이 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조에 추가된다. 코드 향상 계층은 인코딩 계층에 의해 출력 된 특징 시퀀스에 타겟 유닛의 라벨링 정보를 부가하도록 구성되어, 코드 향상에 의해 얻어진 인코딩된 특징 시퀀스는 더욱 완전한 정보를 포함하고, 인코딩된 특징 시퀀스와 타겟 라벨링 유닛간의 차이가 효과적으로 감소된다. 필터링 계층은 코드 향상 계층에 의해 상기 타겟 유닛의 라벨링 정보가 부가된 특징 시퀀스를 필터링하여, 코드 향상 후의 중복 (redundant) 정보를 제거하도록 구성된다. 디코딩 계층은 필터링된 특징 시퀀스를 디코딩하도록 구성된다. 디코딩된 특징 시퀀스는 출력 계층의 입력으로 제공되어, 출력 계층에 의해 정규화된 특징 시퀀스가 얻어지고, 입력단에서 출력단까지 모델링의 정확성이 효과적으로 향상된다.
도 1은 종래 기술의 인코드-디코드 모델의 토폴로지 구조의 개략도;
도 2는 본 발명의 일 실시 예에 따른 엔드 투 엔드 모델링 방법의 흐름도;
도 3은 본 발명의 일 실시 예에 따른 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조의 개략도;
도 4는 본 발명의 일 실시 예에 따른 도 3에 도시된 토폴로지 구조에서 인코딩 계층들 사이에 다운 샘플링 계층을 삽입하는 개략도;
도 5a는 본 발명의 일 실시 예에 따른, 향상 노드와 코드 향상 계층의 노드 사이의 연결의 개략도;
도 5b는 본 발명의 다른 실시 예에 따른, 향상 노드와 코드 향상 계층의 노드 사이의 연결의 개략도;
도 6a는 본 발명의 일 실시 예에 따른, 코드 향상 계층과 필터링 계층 간의 연결의 개략도;
도 6b는 본 발명의 다른 실시 예에 따른, 코드 향상 계층과 필터링 계층 간의 연결의 개략도; 그리고
도 7은 본 발명의 일 실시 예에 따른 엔드 투 엔드 모델링을 위한 시스템의 개략적인 구조도이다.
본 발명의 실시 예들 또는 종래 기술의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시 예들의 설명에서 사용된 도면들이 이후 간단히 소개된다. 명백하게, 이하에서 설명되는 도면은 본 개시의 일부 실시 예를 도시하고, 다른 도면들도 어떤 창의적인 노력없이 이들 도면에 기초한 당업자에 의해 얻어질 수 있다.
당업자가 본 발명의 실시 예에 따른 기술적 해결책을 더 잘 이해하게 하기 위해서, 본 발명의 실시 예가 도면과 관련하여 이하에서 상세하게 설명된다.
엔드 투 엔드 (end-to-end) 모델링을 위한 종래의 방법에서 상기 문제점을 해결하기 위해서, 본 발명의 실시 예들에서 엔드 투 엔드 모델링을 위한 방법 및 시스템이 제공된다. 본 발명의 실시 예에 따른 방법 및 시스템에서, 코드 향상 계층 (code enhancement layer) 및 필터링 계층 (filtering layer)은 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조에 추가된다. 즉, 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조는 입력 계층, 인코딩 계층, 코드 향상 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함한다. 코드 향상 계층은 인코딩 계층에 의해 출력된 특징 시퀀스에 타겟 유닛의 라벨링 정보를 부가하도록 구성되어, 코드 향상에 의해 획득된 인코딩된 특징 시퀀스가 더욱 완전한 정보를 포함하고, 인코딩된 특징 시퀀스와 타겟 라벨링 유닛간의 차이가 효과적으로 감소된다. 필터링 계층은 코드 향상 계층에 의해 타겟 유닛의 라벨링 정보가 부가된 특징 시퀀스를 필터링하여, 코드 향상 후의 중복 정보를 제거하도록 구성된다. 디코딩 계층은 필터링된 특징 시퀀스를 디코딩하도록 구성된다. 디코딩된 특징 시퀀스는 출력 계층의 입력으로 제공되므로 출력 계층에 의해 정규화된 (normalized) 특징 시퀀스가 얻어지므로, 입력단에서 출력단까지 모델링의 정확성이 효과적으로 향상된다.
도 2는 본 발명의 일 실시 예에 따른 엔드 투 엔드 모델링을 위한 방법의 흐름도이다. 이 방법은 다음 단계 (201 내지 205)를 포함한다.
단계 (201)에서, 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조가 결정된다.
종래의 인코드-디코드 모델과 비교하여, 본 발명의 실시 예에 따른 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조에 코드 향상 계층 및 필터링 계층이 추가된다. 구체적으로, 엔드 투 엔드 모델의 토폴로지 구조는 입력 계층, 인코딩 계층, 코드 향상 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함한다. 코드 향상 계층은 인코딩 계층에 의해 출력되는 특징 시퀀스에 타겟 유닛의 정보를 추가하여, 코드 향상에 의해 얻어진 인코딩된 특징 시퀀스가 더욱 완전한 정보를 포함하고, 인코딩된 특징 시퀀스와 타겟 유닛 간의 차이가 효과적으로 감소된다. 필터링 계층은 코드 향상 계층에 의해 타겟 유닛의 정보가 부가된 특징 시퀀스를 필터링하여, 코드 향상 후 중복 정보를 제거하도록 구성된다. 디코딩 계층은 필터링된 특징 시퀀스를 디코딩하도록 구성된다. 디코딩된 특징 시퀀스는 출력 계층의 입력으로 제공되며, 출력 계층에 의해 정규화된 특징 시퀀스가 얻어진다. 타겟 기반 엔드 투 엔드 모델의 구체적인 구조는 이하에서 상세하게 설명된다.
단계 202에서, 다수의 트레이닝 데이터가 수집된다.
트레이닝 데이터는 애플리케이션의 요구사항에 따라 수집될 수 있으며, 예를 들어, 음성 데이터 (speech data), 이미지 데이터, 텍스트 데이터 등일 수 있다.
단계 203에서는, 각 트레이닝 데이터의 라벨링 오브젝트가 결정되고, 라벨링 오브젝트에서의 타겟 유닛이 라벨링된다.
타겟 유닛은 애플리케이션의 요구사항에 따라 결정될 수 있다. 일반적으로, 타겟 유닛은 도메인 전문가에 의해 트레이닝 데이터의 각 부분의 라벨링 오브젝트에 라벨링을 수행함으로써 얻어진다. 라벨링 오브젝트는 또한 트레이닝 데이터의 부분일 수 있다.
실제로, 타겟 유닛은 애플리케이션의 요구사항에 따라 결정될 수 있음이 설명되어야 한다. 예를 들면, 음성 인식 애플리케이션에서, 수집된 트레이닝 데이터는 음성 데이터이고, 라벨링 오브젝트는 음성 데이터에 대응하는 인식 텍스트일 수 있고, 인식 텍스트 내의 단일 문자 또는 단어는 타겟 유닛으로서 제공될 수 있다. 이미지 인식 애플리케이션에서, 수집된 트레이닝 데이터는 이미지 데이터이고, 라벨링 오브젝트는 이미지 데이터에 대응하는 인식 텍스트, 즉 이미지 인식에 의해 획득된 인식 텍스트일 수 있고, 인식 텍스트 내의 단일 문자 또는 단어는 타겟 유닛으로서 제공될 수 있다. 기계 번역 애플리케이션에서, 수집된 트레이닝 데이터는 소스 언어 텍스트 데이터이고, 라벨링 오브젝트는 타겟 언어 텍스트 데이터일 수 있고, 타겟 언어 텍스트 데이터 내의 단일 문자 또는 단어는 타겟 유닛으로서 제공될 수 있다.
단계 204에서, 트레이닝 데이터의 각각의 특징 시퀀스 (feature sequence)가 추출된다.
특징 시퀀스 내의 특징 (sequence)은 애플리케이션의 요구사항에 따라 결정될 수 있다. 예를 들어, 음성 인식 애플리케이션에서, 특징은 필터 뱅크 특징 (Filter Bank feature), MFCC 특징, PLP 특징과 같은 각 음성 프레임의 음성 데이터를 나타내는 음향 정보일 수 있다. 이미지 인식 애플리케이션에서, 특징은 각 이미지 프레임 내의 픽셀값일 수 있다. 기계 번역 애플리케이션에서, 특징은 소스 언어 텍스트 데이터 내의 각 단어의 단어 벡터일 수 있다.
단계 205에서, 다수의 트레이닝 데이터의 특징 시퀀스와 다수의 트레이닝 데이터에서 타겟 유닛의 라벨링 정보를 이용하여 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하고, 타겟 기반 엔드 투 엔드 모델의 파라미터를 획득한다.
본 발명의 실시 예들에서의 타겟 기반 엔드 투 엔드 모델은 도 3 내지 도 6과 관련하여 이하에서 상세히 설명된다.
도 3을 참조하면, 이는 본 발명의 실시 예에 따른 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조의 개략도이다.
타겟 기반 엔드 투 엔드 모델의 토폴로지 구조는 입력 계층, 인코딩 계층, 코드 향상 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함한다. 상세한 토폴로지 구조와 계층간의 특징 변환 (feature transformation)은 다음과 같이 설명된다.
(1) 입력 계층
입력 계층은 트레이닝 데이터의 특징 시퀀스를 입력하기 위해 사용되고, 입력 계층의 노드의 수는 트레이닝 데이터의 특징 시퀀스에 기초하여 결정된다. 예를 들어, 트레이닝 데이터가 음성 데이터인 경우, 입력 계층에 입력된 특징 시퀀스는 각 음성의 각 프레임의 음성 특징이다. 입력 계층의 노드 수는 각 음성의 프레임 수이며, X={x1, x2,..., xt,..., xT} 로 표현되고, 여기서 xt는 현재 트레이닝 데이터의 t 번째 프레임의 특징 벡터를 나타내고, T는 현재 트레이닝 데이터의 프레임의 수를 나타낸다.
(2) 인코딩 계층
입력 계층에 입력된 특징 시퀀스는 인코딩 계층에 의해 인코딩된다. 인코딩 계층의 수는 하나 또는 그 이상이다. 각 인코딩 계층의 노드 수는 입력 계층의 노드 수와 같다. 각 인코딩 계층은 단방향 또는 양방향 장기 단기 메모리 뉴럴 네트워크 (Long Short Term Memory neural network)의 장기 단기 메모리 계층 (Long Short Term Memory layer)이거나 컨벌루션 뉴럴 네트워크의 컨벌루션 계층이다. 인코딩 계층의 구조는 애플리케이션 프로그램의 요구사항에 따라 결정된다. 예를 들어, 다수의 트레이닝 데이터를 갖는 큰 어휘 (vocabulary)를 갖는 음성 인식 태스크의 경우, 인코딩 계층은 3 내지 5 개의 계층을 갖는 양방향 장기 단기 메모리 계층일 수있다. 적은 수의 트레이닝 데이터를 갖는 제한된 도메인에서의 음성 인식 태스크의 경우, 인코딩 계층은 1 내지 3 개의 계층을 갖는 단방향 장기 단기 메모리 계층일 수 있다.
또한, 다운 샘플링 계층은 인코딩 계층들 사이에 삽입되어 인코딩 계층들의 계산 효율을 향상시킬 수 있다. 구체적으로, 하나의 다운 샘플링 계층은 각각의 2 개의 인접한 인코딩 계층들 사이에 삽입될 수 있으며, 따라서 다수의 다운 샘플링 계층이 삽입된다. 대안적으로, 하나의 다운 샘플링 계층은 임의의 2 개의 인접한 인코딩 계층들 사이에 삽입될 수 있으며, 따라서 하나의 다운 샘플링 계층만 삽입된다. 다운 샘플링 계층이 삽입된 인코딩 계층의 노드 수는 인코딩 계층 이전의 다운 샘플링 계층의 노드 수와 동일하다. 마지막 인코딩 계층의 노드 수는 마지막 다운 샘플링 계층의 노드 수와 동일하다. 예를 들어, 음성 인식 또는 이미지 인식과 같은 다수의 프레임들의 입력된 특징 시퀀스들이 오버랩된 태스크의 경우, 인코딩 계층들 사이에 다운 샘플링 계층이 삽입되어, 계산 효율을 향상시킬 수 있다. 기계 번역과 같이 입력된 특징 시퀀스가 중복되지 않은 태스크의 경우, 다운 샘플링 계층은 인코딩 계층들 사이에 삽입되지 않을 수 있다.
도 4는 인코딩 계층 (1)과 인코딩 계층 (2) 사이에 다운 샘플링 계층을 삽입하는 개략도이다. 다운 샘플링 계층의 각 노드의 입력은 다운 샘플링 계층 이전의 인코딩 계층의 인접한 다수의 노드의 특징 정보이다. 특징 정보는, 다운 샘플링의 목적을 실현하기 위해, 다운 샘플링 계층 이전의 인코딩 계층의 다수의 노드들의 특징들의 최대값, 평균값 또는 p- 노름 (p-norm)을 계산함으로써 획득될 수 있다. 도 4에서, 다운 샘플링 계층의 각 노드의 입력은 다운 샘플링 계층 이전의 인코딩 계층의 2 개의 인접 노드들의 특징 정보이며, 여기서 M은 인코딩 계층들의 총 개수이다.
인코딩 계층의 특징 변환 (feature transformation) 방법은 인코딩 계층의 구조에 기초하여 결정된다. 예를 들어, 인코딩 계층이 단방향 또는 양방향 장기 단기 메모리 계층인 경우, l 번째 인코딩 계층의 출력 특징 시퀀스는
Figure 112019011433208-pct00001
와 같이 나타내고, 여기서,
Figure 112019011433208-pct00002
l 번째 인코딩 계층의 t 번째 프레임의 출력 특징 벡터를 나타낸다. 변환 방법은
Figure 112019011433208-pct00003
와 같이 표현되고, 여기서 f는 단방향 또는 양방향 장기 단기 변환 함수 (transforming function)이고, D1은 l 번째 인코딩 계층의 각 노드에서 특징 벡터의 차원 (dimensions) 수이다.
(3) 코드 향상 계층
타겟 유닛의 정보는 코드 향상 계층에 추가된다. 인코딩 계층에 의해 출력된 특징 시퀀스는 향상 (enhancement)이며, 향상 특징 시퀀스는 보다 완전한 정보를 포함한다.
타겟 유닛의 정보는 향상 노드를 통해 코드 향상 계층에 추가된다. 각 타겟 유닛은 하나의 향상 노드에 대응하고, 타겟 유닛의 특징 벡터는 타겟 유닛에 대응하는 향상 노드에 입력된다.
각각의 타겟 오브젝트에는 다수의 타겟 유닛이 있을 수 있으므로, 복수의 코드 향상 계층이 필요하다. 각각의 코드 향상 계층은 하나의 향상 노드에 대응한다. 코드 향상 계층의 수와 향상 노드의 수는 타겟 유닛의 수와 동일하다. 각각의 코드 향상 계층은 코드 향상 계층에 대응하는 타겟 유닛 이전의 타겟 유닛에 대응하는 향상 노드와 연결된다. 도 5a 및 도 5b에 도시된 바와 같이, 총 N 개의 타겟 유닛이 있다고 가정하고, 따라서 N 개의 코드 향상 계층이 요구된다. 코드 향상 계층 1은 비어 있는 향상 노드에 대응하고, 코드 향상 계층 2는 제 1 타겟 유닛에 대응하고, 코드 향상 계층 3은 제 2 타겟 유닛에 대응한다. 즉, 코드 향상 계층 N은 (N-1) 번째 타겟 유닛에 대응하며, (N-1) 번째 타겟 유닛까지 제 1 타겟 유닛의 정보는 계층별로 추가된다. 음성 인식을 예로 들면, 단어가 타겟 유닛으로서 제공되고, 만일 현재 음성 데이터의 타겟 유닛의 라벨링 정보가 "
Figure 112019011433208-pct00004
"이라면 타겟 유닛의 수가 4이고, 4 개의 코드 향상 계층과 4 개의 향상 노드가, 인코딩 계층에 의해 출력된 특징 시퀀스를 향상시키기 위해 필요하다. 인코딩 계층에 의해 출력된 특징 시퀀스를 향상하는 동안, 타겟 유닛 "
Figure 112019011433208-pct00005
"에 대응하는 코드 향상 계층에 타겟 유닛 "
Figure 112019011433208-pct00006
"에 대응하는 향상 노드가 연결되고, 빈 향상 노드에 제 1 코드 향상 계층이 연결된다.
타겟 유닛의 정보를 이용하여 인코딩 계층이 출력하는 특징 시퀀스를 향상하는 처리가 동일하기 때문에, 실제로는 다수의 코드 향상 계층은 하나의 코드 향상 계층에 의한 라벨링 오브젝트의 다수의 타겟 유닛에 대해 수행된 다수 회 향상 (enhancement)으로서 간주될 수 있다.
실제로, 향상 노드들 및 코드 향상 계층들은 상이한 방식으로 연결될 수 있음에 유의해야 한다. 예를 들어, 제 1 연결 방식은 도 5a에 도시된 바와 같이, 향상 노드에 대응하는 코드 향상 계층의 모든 노드에 각각의 향상 노드를 연결하는 방식이다. 제 2 연결 방식은 도 5b에 도시된 바와 같이, 향상 노드에 대응하는 코드 향상 계층의 제 1 노드에 각각의 향상 노드를 연결하는 방식이다. 도 5a 및 도 5b에서, N은 타겟 유닛의 수이다. 도 3은 도 5a에 도시된 바와 같은 제 1 연결 방식, 즉 각각의 향상 노드를 향상 노드에 대응하는 코드 향상 계층의 모든 노드에 연결하는 방식을 단순히 도시하는 것으로 설명되어야 한다. 제 2 연결 방식의 계산량이 제 1 연결 방식의 계산량보다 적고, 제 1 연결 방식의 향상 효과는 제 2 연결 방식의 향상 효과보다 우수하다.
각각의 코드 향상 계층의 노드 수는 마지막 인코딩 계층의 노드 수와 동일하고, 코드 향상 계층의 노드 연결 방식은 인코딩 계층의 노드의 연결 방식과 동일하다 .
특징 변환 (feature transformation)을 수행할 때, 각각의 향상 노드의 타겟 유닛의 특징 벡터와 코드 향상 계층의 노드의 연결 가중치 (weight)의 곱 (product)은 코드 향상 계층의 노드의 특징 벡터에 더해진다.
(4) 필터링 계층
필터링 계층은 코드 향상 계층에 의해 향상된 특징 시퀀스를 필터링하도록 구성된다. 필터링 계층의 수는 코드 향상 계층의 수와 동일하며, 각각의 코드 향상 계층은 하나의 필터링 계층에 직접 연결된다.
실제로, 필터링 계층은 다음과 같은 두 가지 유형의 구조를 가질 수 있다. 하나의 유형은 단방향 또는 양방향 장기 단기 메모리 계층의 구조이고, 다른 유형은 컨벌루션 뉴럴 네트워크 (convolutional neural network)에서 컨벌루션 (convolutional) 계층 및 풀링 (pooling) 계층의 구조이다.
도 6a는 코드 향상 계층을 필터링 계층에 연결하기 위한 제 1 연결 방식을 도시한다. 제 1 연결 방식을 사용할 경우, 필터링 계층의 개수는 코드 향상 계층의 개수와 동일하고, 필터링 계층의 노드 수는 코드 향상 계층의 노드 수와 동일하며, 코드 향상 계층에 의해 출력되는 특징은 코드 향상 계층에 연결된 필터링 계층의 입력으로 제공되고, 필터링 계층의 마지막 노드의 출력은 필터링 계층의 출력, 즉 필터링된 향상된 인코딩 정보로서 제공된다.
도 6b는 코드 향상 계층을 필터링 계층에 연결하는 제 2 연결 방식을 도시한다. 제 2 연결 방식이 사용될 때, 필터링 계층은 하나 또는 그 이상의 컨벌루션 계층들이 연결되고 이어서 컨벌루션 계층들이 풀링 계층에 연결되는 연결 방식을 갖는다. 풀링 계층의 출력은 필터링된 향상된 인코딩 정보로 제공된다. 이러한 방식으로, 향상된 인코딩 정보는 다수의 컨벌루션 계층들을 사용함으로써 각 노드로부터 필터링되고 수집되며, 향상된 인코딩 정보는 최종적으로 노드에 수렴된다. 단지 하나의 필터링 계층이 사용되는 제 1 연결 방식과 비교하여, 제 2 연결 방식은 더 나은 필터링 효과를 갖는다.
도 3은 도 6a에 도시된 제 1 연결 방식을 오직 도시한다.
필터링 계층의 특징 변환 방법은 각각의 연결 방식의 특징 변환 방법과 동일하며, 여기에서는 설명의 편의를 위해 생략하였다.
(5) 디코딩 계층
디코딩 계층의 입력은 각각의 필터링 계층에 의해 출력된 필터링된 향상된 인코딩 정보이다. 디코딩 계층은 일반적으로 단방향 장기 단기 메모리 계층의 구조를 갖는다. 하나 또는 그 이상의 디코딩 계층이 있을 수 있으며, 일반적으로 하나 또는 두 개의 디코딩 계층이 사용된다. 각 디코딩 계층의 노드 수는 필터링 계층의 수와 동일하다. 상세한 디코딩 과정은 여기에 기술되지 않은 종래 기술의 디코딩 과정과 동일하다.
(6) 출력 계층
디코딩 계층에 의해 변환된 출력 특징 시퀀스는, 출력 계층의 입력으로서 제공된다. 출력 계층은 입력 특징 시퀀스를 정규화하고 각 타겟 라벨링 유닛의 사후 확률 (posterior probability)의 벡터 시퀀스를 출력한다. 정규화를 위한 상세한 방법은 종래 기술에서 발견될 수 있고, softmax 함수와 같은 정규화 함수가 사용될 수 있다.
엔드 투 엔드 모델의 토폴로지 구조에 따르면, 모델을 트레이닝 할 때, 엔드 투 엔드 모델의 파라미터는 다수의 트레이닝 데이터의 특징 시퀀스를 엔드 투 엔드 모델의 입력으로 사용하고, 다수의 트레이닝 데이터에서 타겟 유닛의 라벨링 정보를 엔드 투 엔드 모델의 출력으로 사용하여 트레이닝되는데, 여기서 모델의 파라미터는, 엔드 투 엔드 모델의 계층들간의 연결을 위한 가중치 (weights) 및 바이어스 (biases)라 불리는 변환 행렬 (converting matrices)이다. 파라미터를 트레이닝하는 상세한 과정은 종래의 기술에서 발견될 수 있으며, 예를 들어, 크로스 엔트로피 (cross entropy)가 모델의 최적화 지표 (optimization indicator)로서 사용될 수 있고, 에러 역 전파 (error back propagation) 알고리즘을 사용하여 모델의 파라미터를 지속적으로 업데이트할 수 있다. 예를 들어, 모델의 파라미터를 업데이트하기 위해 다수의 반복 (iterations)이 적용된다. 반복 처리는 모델의 파라미터가 수렴 타겟에 도달하는 경우에 중지되고, 이로써 모델의 파라미터의 업데이트가 완료되고 엔드 투 엔드 모델의 파라미터가 획득된다.
본 발명의 실시 예들에서 제공된 엔드 투 엔드 모델링을 위한 방법에 따르면, 코드 향상 계층 및 필터링 계층이 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조에 추가된다. 입력 특징 시퀀스를 인코딩한 후에, 각 타겟 유닛에 대해 코드 향상 계층이 추가된다. 코드 향상 계층에 대응하는 타겟 유닛 이전의 타겟 유닛의 정보는, 코드 향상 계층에 의해 인코딩 시퀀스에 추가된다. 타겟 유닛의 히스토리 정보가 고려되기 때문에, 코드 향상 후의 인코딩 특징 시퀀스는 더 완전한 정보를 포함하므로, 이에 따라 인코딩된 특징 시퀀스와 타겟 유닛 간의 차이가 효과적으로 감소된다. 또한, 코드 향상 이후에 중복 정보를 제거하기 위해 각 코드 향상 계층 후에 필터링 계층이 추가된다. 코드 향상 후의 특징 시퀀스는 필터링되고, 이에 따라 필터링된 특징 시퀀스가 디코딩된다. 디코딩된 특징 시퀀스는 출력 계층에 의해 정규화된 특징 시퀀스를 얻기 위해 출력 계층의 입력으로 제공되므로, 입력단에서 출력단까지 모델링의 정확도가 효과적으로 향상된다.
전술한 실시 예들에 따른 방법의 단계들의 전부 또는 일부가, 프로그램에 의해 지시된 관련 하드웨어에 의해 수행될 수 있음은 당업자에게 이해될 수 있다. 프로그램은 ROM/RAM, 자기 디스크, 광학 디스크와 같은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.
대응하여, 본 발명에 의해 컴퓨터 판독 가능 저장 매체가 제공되며, 컴퓨터 판독 가능 저장 매체는 프로세서에 의해 실행될 때, 컴퓨터 프로그램 코드를 포함하고, 상기 프로세서로 하여금 :
입력 계층, 인코딩 계층, 코드 향상 (code enhancement) 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함하는 타겟 기반 엔드 투 엔드 (end-to-end) 모델의 토폴로지 구조를 결정하며, 여기서 코드 향상 계층은 인코딩 계층에 의해 출력되는 특징 시퀀스 (feature sequence)에 타겟 유닛의 정보를 추가하도록 구성되고, 필터링 계층은 코드 향상 계층에 의해 타겟 유닛의 정보가 부가된 특징 시퀀스를 필터링하도록 구성되며;
복수의 트레이닝 데이터 (training data)를 수집하고;
트레이닝 데이터의 각 부분의 라벨링 오브젝트를 결정하고, 라벨링 오브젝트 내의 타겟 유닛을 라벨링하며;
트레이닝 데이터의 각 부분의 특징 시퀀스를 추출하고; 그리고,
타겟 기반 엔드 투 엔드 모델의 파라미터를 획득하기 위해, 복수의 트레이닝 데이터의 특징 시퀀스 및 복수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 이용하여 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하도록 한다.
타겟 기반 엔드 투 엔드 모델의 상세한 구조는 전술한 설명을 참조할 수 있다.
프로세서는 다수의 트레이닝 데이터의 특징 시퀀스를 엔드 투 엔드 모델의 입력으로 사용하고, 다수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 엔드 투 엔드 모델의 출력으로 사용함으로써, 엔드 투 엔드 모델의 파라미터를 트레이닝한다. 모델의 파라미터는 엔드 투 엔드 모델의 계층들간 연결에 대한 가중치 및 바이어스라고 불리는 변환 행렬이다.
따라서, 엔드 투 엔드 모델링을 위한 시스템이 본 발명의 실시 예에서 제공된다. 도 7은 시스템의 개략적인 구조도이다.
본 실시 예에서, 시스템은 토폴로지 구조 결정 모듈 (701), 트레이닝 데이터 수집 모듈 (702), 라벨링 모듈 (703), 특징 추출 모듈 (704) 및 파라미터 트레이닝 모듈 (705)을 포함한다.
토폴로지 구조 결정 모듈 (701)은 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조를 결정하도록 구성된다. 토폴로지 구조는 입력 계층, 인코딩 계층, 코드 향상 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함한다. 코드 향상 계층은 인코딩 계층에 의해 출력된 특징 시퀀스에 타겟 유닛의 정보를 추가하도록 구성되며, 필터링 계층은 코드 향상 계층에 의해 타겟 유닛의 정보가 부가된 특징 시퀀스를 필터링하도록 구성된다.
트레이닝 데이터 수집 모듈 (702)은 다수의 트레이닝 데이터를 수집하도록 구성된다.
라벨링 모듈 (703)은 각각의 트레이닝 데이터의 라벨링 오브젝트를 결정하고, 라벨링 오브젝트에서 타겟 유닛을 라벨링하도록 구성된다.
특징 추출 모듈 (704)은 각각의 트레이닝 데이터의 특징 시퀀스를 추출하도록 구성된다.
파라미터 트레이닝 모듈 (705)은, 타겟 기반 엔드 투 엔드 모델의 파라미터를 획득하기 위해, 복수의 트레이닝 데이터의 특징 시퀀스와, 복수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 이용하여 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하도록 구성된다.
타겟 기반 엔드 투 엔드 모델의 토폴로지 구조는 본 명세서의 전술한 방법의 실시 예에서 상세히 설명되며, 여기에서는 반복하지 않는다.
타겟 기반 엔드 투 엔드 모델의 토폴로지 구조에 따라, 파라미터 트레이닝 모듈 (705)이 모델을 트레이닝할 때, 다수의 트레이닝 데이터의 특징 시퀀스를 엔드 투 엔드 모델의 입력으로 사용하고, 다수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 엔드 투 엔드 모델의 출력으로 사용하여, 엔드 투 엔드 모델의 파라미터가 트레이닝되는데, 여기서 모델의 파라미터는 엔드 투 엔드 모델의 계층들간의 연결을 위한 가중치 및 바이어스 라고 하는 변환 행렬이다. 파라미터를 트레이닝하는 상세한 과정은 종래의 기술에서 발견될 수 있고, 예를 들어, 크로스 엔트로피가 모델의 최적화 지표로서 사용될 수 있고, 에러 역 전파 알고리즘을 사용하여 모델의 파라미터를 지속적으로 업데이트할 수 있다. 예를 들어, 모델의 파라미터를 업데이트하기 위해 다수의 반복이 적용된다. 반복 처리는 모델의 파라미터가 수렴 타겟에 도달하는 경우에 중지되고, 이로써 모델의 파라미터의 업데이트가 완료되고 엔드 투 엔드 모델의 파라미터가 획득된다.
본 발명의 실시 예들에서 제공되는 엔드 투 엔드 모델링을 위한 시스템에 따르면, 코드 향상 계층 및 필터링 계층이 타겟 기반 엔드 투 엔드 모델의 토폴로지 구조에 추가된다. 입력 특징 시퀀스를 인코딩한 후에, 각 타겟 유닛에 대해 코드 향상 계층이 추가된다. 코드 향상 계층에 대응하는 타겟 유닛 이전의 타겟 유닛의 정보는, 코드 향상 계층에 의해 인코딩 시퀀스에 추가된다. 타겟 유닛의 히스토리 정보가 고려되기 때문에, 코드 향상 후의 인코딩 특징 시퀀스는 더 완전한 정보를 포함하므로, 이에 따라 인코딩된 특징 시퀀스와 타겟 유닛 간의 차이가 효과적으로 감소된다. 또한, 코드 향상 이후에 중복 정보를 제거하기 위해 각 코드 향상 계층 후에 필터링 계층이 추가된다. 코드 향상 후의 특징 시퀀스는 필터링되고, 이에 따라 필터링된 특징 시퀀스가 디코딩된다. 디코딩된 특징 시퀀스는 출력 계층에 의해 정규화된 특징 시퀀스를 얻기 위해 출력 계층의 입력으로 제공되므로, 입력단에서 출력단까지 모델링의 정확도가 효과적으로 향상된다.
본 발명의 실시 예들에서 엔드 투 엔드 모델링을 위한 시스템의 모듈들은 메모리, 프로세서 및 하드웨어에 의해 달성될 수 있다. 각각의 모듈은 하나 또는 그 이상의 독립적인 하드웨어 또는 복수의 모듈에 의해 통합된 하나의 하드웨어에 의해 수행될 수 있다. 일부 모듈의 기능은, 여기에 제한되지 않는 소프트웨어에 의해 또한 수행될 수도 있다.
본 발명의 실시 예들에서 제공되는 방법 및 시스템은, 음성 인식, 이미지 인식, 기계 번역과 같은, 모드 인식 또는 기계 학습 분야에서의 다수 종류의 애플리케이션 요구사항을 위해 사용될 수 있다. 음성 인식을 예로 들면, 엔드 투 엔드 모델링은 음향 모델을 언어 모델과 결합하여 인식 텍스트를 직접 출력함으로써 모델을 구축할 수 있다. 중국어의 경우, 한자 또는 단어는 일반적으로 모델링 유닛, 즉 타겟 유닛으로 제공되며, 입력된 음성 신호 시퀀스와 출력된 한자 또는 단어 사이의 대응 관계를 학습함으로써 모델이 구축된다.
본 명세서의 실시 예는 점진적으로 설명되었다. 실시 예들간에 동일하거나 유사한 부분에 대해서는, 다른 실시 예들의 설명을 참조할 수 있다. 각 실시 예는 다른 실시 예와의 차이점에 중점을 둔다. 시스템 실시 예가 방법 실시 예와 유사하기 때문에, 시스템 실시 예에 대한 설명은 비교적 간단하다. 관련된 부분에 대해서는, 방법 실시 예에서의 설명을 참조할 수 있다. 전술한 시스템 실시 예는 단지 예시적인 것이며, 개별 구성 요소로 기술된 유닛은 물리적으로 분리될 수도 있고 그렇지 않을 수도 있다. 유닛들로서 도시된 구성 요소들은 물리적 유닛일 수도 있고, 그렇지 않을 수도 있다. 즉, 유닛들은 동일한 장소에 위치하거나 또는 복수의 네트워크 유닛들에 분산될 수 있다. 모듈의 전부 또는 일부는 실시 예에 따른 해결책의 목적을 실현하기 위한 실제 요구에 기초하여 선택될 수 있다. 실시 예들에 따른 해결책은 독창적인 작업 없이도 당업자에 의해 이해되고 구현될 수 있다.
본 발명의 실시 형태는 전술한 내용에 상세하게 기재되어 있다. 본 발명의 개시는 명세서의 구체적인 실시 예에 의해 설명된다. 실시 예들에 대한 전술한 설명은 단지 본 발명의 방법 및 시스템을 이해하는 것을 돕기 위한 것이다. 당업자라면, 상술한 바와 같이, 본 발명의 개념에 기초하여 구체적인 실시 예 및 애플리케이션 범위를 변형할 수 있으며, 본 명세서는 본 발명을 한정하는 것으로 이해되어서는 안된다.

Claims (22)

  1. 컴퓨터로 구현되는 엔드 투 엔드 모델링을 위한 시스템에 의해 각 단계가 수행되는 엔드 투 엔드 (end-to-end) 모델링을 위한 방법에 있어서,
    입력 계층, 인코딩 계층, 코드 향상 (code enhancement) 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함하는 타겟 기반 엔드 투 엔드 (end-to-end) 모델의 토폴로지 구조를 결정하는 단계; 여기서 상기 코드 향상 계층은 상기 인코딩 계층에 의해 출력되는 특징 시퀀스 (feature sequence)에 타겟 유닛의 정보를 추가하도록 구성되고, 상기 타겟 유닛의 정보는 향상 노드를 통해 상기 코드 향상 계층에 추가되며, 상기 필터링 계층은 상기 코드 향상 계층에 의해 상기 타겟 유닛의 정보가 부가된 상기 특징 시퀀스를 필터링하도록 구성되며;
    복수의 트레이닝 데이터 (training data)를 수집하는 단계;
    상기 트레이닝 데이터의 각 부분의 라벨링 오브젝트를 결정하고, 상기 라벨링 오브젝트 내의 타겟 유닛을 라벨링하는 단계;
    상기 트레이닝 데이터의 각 부분의 특징 시퀀스를 추출하는 단계; 및
    상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 획득하기 위해, 복수의 트레이닝 데이터의 특징 시퀀스 및 복수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 이용하여 상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하는 단계를 포함하는 엔드 투 엔드 모델링을 위한 방법.
  2. 제 1 항에 있어서,
    상기 인코딩 계층의 개수는 하나 또는 그 이상이고, 상기 인코딩 계층의 노드 수는 상기 입력 계층의 노드 수와 동일한 엔드 투 엔드 모델링을 위한 방법.
  3. 제 2 항에 있어서,
    각각의 인코딩 계층은 단방향 또는 양방향 장기 단기 메모리 뉴럴 네트워크 (Long Short Term Memory neural network)의 장기 단기 메모리 계층 (Long Short Term Memory layer) 이거나 컨벌루션 뉴럴 네트워크의 컨벌루션 계층 (convolutional layer)인 엔드 투 엔드 모델링을 위한 방법.
  4. 제 1 항에 있어서,
    상기 토폴로지 구조는 인접한 인코딩 계층들 사이에 위치된 다운 샘플링 계층을 더 포함하는 엔드 투 엔드 모델링을 위한 방법.
  5. 제 4 항에 있어서,
    상기 다운 샘플링 계층들의 수는 하나 또는 그 이상인 엔드 투 엔드 모델링을 위한 방법.
  6. 제 4 항에 있어서,
    상기 다운 샘플링 계층의 각 노드의 입력은 상기 다운 샘플링 계층 이전의 인코딩 계층의 복수의 인접 노드들의 특징 정보인 엔드 투 엔드 모델링을 위한 방법.
  7. 제 1 항에 있어서,
    각 타겟 유닛은 하나의 향상 노드에 대응하고, 타겟 유닛의 특징 벡터는 상기 타겟 유닛에 대응되는 상기 향상 노드에 입력되며, 상기 코드 향상 계층의 개수와 상기 향상 노드의 개수는 상기 타겟 유닛의 개수와 동일한 엔드 투 엔드 모델링을 위한 방법.
  8. 제 7 항에 있어서,
    각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 모든 노드에 연결되며; 또는
    각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 제 1 노드에만 연결되는 엔드 투 엔드 모델링을 위한 방법.
  9. 제 7 항에 있어서,
    상기 필터링 계층의 개수는 상기 코드 향상 계층의 개수와 동일하고, 각각의 코드 향상 계층은 하나의 필터링 계층에 직접 연결되는 엔드 투 엔드 모델링을 위한 방법.
  10. 제 9 항에 있어서,
    상기 필터링 계층은 단방향 또는 양방향 장기 단기 메모리 계층 (Long Short Term Memory layer)의 구조를 가지며, 상기 필터링 계층의 노드들의 개수는 상기 코드 향상 계층의 노드들의 개수와 동일하고, 각 코드 향상 계층에 의해 출력되는 특징은 상기 코드 향상 계층에 연결된 필터링 계층의 입력으로 제공되고, 상기 필터링 계층의 마지막 노드의 출력은 상기 필터링 계층의 출력으로 제공되고; 또는
    상기 필터링 계층은 컨벌루션 뉴럴 네트워크에서 컨벌루션 계층 (convolutional layer)과 풀링 (pooling) 계층의 구조를 가지며, 각각의 필터링 계층은 하나 또는 그 이상의 컨벌루션 계층과 하나의 풀링 계층을 포함하며, 상기 풀링 계층의 출력은 상기 풀링 계층을 포함하는 필터링 계층의 출력으로 제공되는 엔드 투 엔드 모델링을 위한 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 복수의 트레이닝 데이터의 특징 시퀀스와 상기 복수의 트레이닝 데이터에서의 상기 타겟 유닛의 라벨링 정보를 이용하여, 상기 타겟 기반의 엔드 투 엔드 모델의 파라미터를 트레이닝 하는 단계는,
    복수의 트레이닝 데이터의 특징 시퀀스를 상기 엔드 투 엔드 모델의 입력으로 사용하고, 상기 복수의 트레이닝 데이터에서의 상기 타겟 유닛의 라벨링 정보를 사용하여, 상기 엔드 투 엔드 모델의 파라미터를 트레이닝하는 단계를 포함하고, 여기서 상기 엔드 투 엔드 모델의 상기 파라미터는 상기 엔드 투 엔드 모델의 계층들간의 연결을 위한 가중치 (weights) 및 바이어스 (biases)라 불리는 변환 행렬 (converting matrices)인 엔드 투 엔드 모델링을 위한 방법.
  12. 엔드 투 엔드 (end-to-end) 모델링을 위한 시스템으로서,
    입력 계층, 인코딩 계층, 코드 향상 (code enhancement) 계층, 필터링 계층, 디코딩 계층 및 출력 계층을 포함하는 타겟 기반 엔드 투 엔드 (end-to-end) 모델의 토폴로지 구조를 결정하도록 구성된 토폴로지 구조 결정 모듈; 여기서 상기 코드 향상 계층은 상기 인코딩 계층에 의해 출력되는 특징 시퀀스 (feature sequence)에 타겟 유닛의 정보를 추가하도록 구성되고, 상기 타겟 유닛의 정보는 향상 노드를 통해 상기 코드 향상 계층에 추가되며, 상기 필터링 계층은 상기 코드 향상 계층에 의해 상기 타겟 유닛의 정보가 부가된 상기 특징 시퀀스를 필터링하도록 구성되며;
    복수의 트레이닝 데이터 (training data)를 수집하도록 구성된 트레이닝 데이터 수집 모듈;
    상기 트레이닝 데이터의 각 부분의 라벨링 오브젝트를 결정하고, 상기 라벨링 오브젝트 내의 타겟 유닛을 라벨링하도록 구성된 라벨링 모듈;
    상기 트레이닝 데이터의 각 부분의 특징 시퀀스를 추출하도록 구성된 특징 추출 모듈; 과
    상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 획득하기 위해, 복수의 트레이닝 데이터의 특징 시퀀스 및 복수의 트레이닝 데이터에서의 타겟 유닛의 라벨링 정보를 이용하여 상기 타겟 기반 엔드 투 엔드 모델의 파라미터를 트레이닝하도록 구성된 파라미터 트레이닝 모듈을 포함하는 엔드 투 엔드 모델링을 위한 시스템.
  13. 제 12 항에 있어서,
    상기 인코딩 계층의 개수는 하나 또는 그 이상이고, 상기 인코딩 계층의 노드 수는 상기 입력 계층의 노드 수와 동일한 엔드 투 엔드 모델링을 위한 시스템.
  14. 제 13 항에 있어서,
    각각의 인코딩 계층은 단방향 또는 양방향 장기 단기 메모리 뉴럴 네트워크 (Long Short Term Memory neural network)의 장기 단기 메모리 계층 (Long Short Term Memory layer) 이거나 컨벌루션 뉴럴 네트워크의 컨벌루션 계층 (convolutional layer)인 엔드 투 엔드 모델링을 위한 시스템.
  15. 제 12 항에 있어서,
    상기 토폴로지 구조는 인접한 인코딩 계층들 사이에 위치된 다운 샘플링 계층을 더 포함하는 엔드 투 엔드 모델링을 위한 시스템.
  16. 제 15 항에 있어서,
    상기 다운 샘플링 계층들의 수는 하나 또는 그 이상인 엔드 투 엔드 모델링을 위한 시스템.
  17. 제 15 항에 있어서,
    상기 다운 샘플링 계층의 각 노드의 입력은 상기 다운 샘플링 계층 이전의 인코딩 계층의 복수의 인접 노드들의 특징 정보인 엔드 투 엔드 모델링을 위한 시스템.
  18. 제 12 항에 있어서,
    각 타겟 유닛은 하나의 향상 노드에 대응하고, 타겟 유닛의 특징 벡터는 상기 타겟 유닛에 대응되는 상기 향상 노드에 입력되며, 상기 코드 향상 계층의 개수와 상기 향상 노드의 개수는 상기 타겟 유닛의 개수와 동일한 엔드 투 엔드 모델링을 위한 시스템.
  19. 제 18 항에 있어서,
    각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 모든 노드에 연결되며; 또는
    각각의 향상 노드는 상기 향상 노드에 대응하는 코드 향상 계층의 제 1 노드에만 연결되는 엔드 투 엔드 모델링을 위한 시스템.
  20. 제 18 항에 있어서,
    상기 필터링 계층의 개수는 상기 코드 향상 계층의 개수와 동일하고, 각각의 코드 향상 계층은 하나의 필터링 계층에 직접 연결되는 엔드 투 엔드 모델링을 위한 시스템.
  21. 제 20 항에 있어서,
    상기 필터링 계층은 단방향 또는 양방향 장기 단기 메모리 계층 (Long Short Term Memory layer)의 구조를 가지며, 상기 필터링 계층의 노드들의 개수는 상기 코드 향상 계층의 노드들의 개수와 동일하고, 각 코드 향상 계층에 의해 출력되는 특징은 상기 코드 향상 계층에 연결된 필터링 계층의 입력으로 제공되고, 상기 필터링 계층의 마지막 노드의 출력은 상기 필터링 계층의 출력으로 제공되고; 또는
    상기 필터링 계층은 컨벌루션 뉴럴 네트워크에서 컨벌루션 계층 (convolutional layer)과 풀링 (pooling) 계층의 구조를 가지며, 각각의 필터링 계층은 하나 또는 그 이상의 컨벌루션 계층과 하나의 풀링 계층을 포함하며, 상기 풀링 계층의 출력은 상기 풀링 계층을 포함하는 필터링 계층의 출력으로 제공되는 엔드 투 엔드 모델링을 위한 시스템.
  22. 제 12 항 내지 제 21 항 중 어느 한 항에 있어서,
    상기 파라미터 트레이닝 모듈은,
    복수의 트레이닝 데이터의 특징 시퀀스를 상기 엔드 투 엔드 모델의 입력으로 사용하고, 상기 복수의 트레이닝 데이터에서의 상기 타겟 유닛의 라벨링 정보를 사용하여, 상기 엔드 투 엔드 모델의 파라미터를 트레이닝하도록 구성되고, 여기서 상기 엔드 투 엔드 모델의 상기 파라미터는 상기 엔드 투 엔드 모델의 계층들간의 연결을 위한 가중치 (weights) 및 바이어스 (biases)라 불리는 변환 행렬 (converting matrices)인 엔드 투 엔드 모델링을 위한 시스템.
KR1020197003257A 2016-11-29 2017-01-11 엔드 투 엔드 모델링 방법 및 시스템 KR102232643B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201611070244.2A CN108122035B (zh) 2016-11-29 2016-11-29 端到端建模方法及系统
CN201611070244.2 2016-11-29
PCT/CN2017/070812 WO2018098892A1 (zh) 2016-11-29 2017-01-11 端到端建模方法及系统

Publications (2)

Publication Number Publication Date
KR20190025976A KR20190025976A (ko) 2019-03-12
KR102232643B1 true KR102232643B1 (ko) 2021-03-26

Family

ID=62225306

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197003257A KR102232643B1 (ko) 2016-11-29 2017-01-11 엔드 투 엔드 모델링 방법 및 시스템

Country Status (6)

Country Link
US (1) US11651578B2 (ko)
EP (1) EP3550477A4 (ko)
JP (1) JP6838161B2 (ko)
KR (1) KR102232643B1 (ko)
CN (1) CN108122035B (ko)
WO (1) WO2018098892A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200003444A (ko) * 2018-07-02 2020-01-10 삼성전자주식회사 영상 모델 구축 장치 및 방법
CN108732550B (zh) * 2018-08-01 2021-06-29 北京百度网讯科技有限公司 用于预测雷达回波的方法和装置
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
CN110263868A (zh) * 2019-06-24 2019-09-20 北京航空航天大学 基于SuperPoint特征的图像分类网络
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN111261140B (zh) * 2020-01-16 2022-09-27 云知声智能科技股份有限公司 韵律模型训练方法及装置
EP4288916A4 (en) * 2021-02-04 2024-04-03 Ericsson Telefon Ab L M BUILDING AN EXPLAINABLE MACHINE LEARNING MODEL
CN112905591B (zh) * 2021-02-04 2022-08-26 成都信息工程大学 一种基于机器学习的数据表连接顺序选择方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289262A (ja) * 2008-05-29 2009-12-10 General Electric Co <Ge> 資産システムの高性能条件監視のためのシステムおよび方法
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2465047B (en) * 2009-09-03 2010-09-22 Peter Graham Craven Prediction of signals
JP5467951B2 (ja) 2010-07-05 2014-04-09 本田技研工業株式会社 ニューラルネットワーク学習装置
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN102982809B (zh) * 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
US9812150B2 (en) * 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
CN103544392B (zh) 2013-10-23 2016-08-24 电子科技大学 基于深度学习的医学气体识别方法
CN104751227B (zh) * 2013-12-31 2018-03-06 科大讯飞股份有限公司 用于语音识别的深度神经网络的构建方法及系统
JP2016139176A (ja) * 2015-01-26 2016-08-04 シャープ株式会社 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム
CN105551483B (zh) 2015-12-11 2020-02-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置
CN106022237B (zh) * 2016-05-13 2019-07-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289262A (ja) * 2008-05-29 2009-12-10 General Electric Co <Ge> 資産システムの高性能条件監視のためのシステムおよび方法
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Speech recognition with deep recurrent neural networks", IEEE INTERNATIONAL CONFERENCE(pp. 6645-6649), 2013

Also Published As

Publication number Publication date
WO2018098892A1 (zh) 2018-06-07
EP3550477A1 (en) 2019-10-09
JP6838161B2 (ja) 2021-03-03
KR20190025976A (ko) 2019-03-12
US20190279036A1 (en) 2019-09-12
US11651578B2 (en) 2023-05-16
CN108122035B (zh) 2019-10-18
CN108122035A (zh) 2018-06-05
EP3550477A4 (en) 2020-07-29
JP2019530119A (ja) 2019-10-17

Similar Documents

Publication Publication Date Title
KR102232643B1 (ko) 엔드 투 엔드 모델링 방법 및 시스템
Chen et al. Efficient approximation of deep relu networks for functions on low dimensional manifolds
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN113609965B (zh) 文字识别模型的训练方法及装置、存储介质、电子设备
CN111460833A (zh) 文本生成方法、装置和设备
WO2016036565A1 (en) Event-driven temporal convolution for asynchronous pulse-modulated sampled signals
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN109979461B (zh) 一种语音翻译方法及装置
CN115664899A (zh) 一种基于图神经网络的信道解码方法及系统
CN113011396A (zh) 基于深度学习级联特征融合的步态识别方法
CN111126059B (zh) 一种短文文本的生成方法、生成装置及可读存储介质
CN116534700A (zh) 爬楼机的控制系统及其方法
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN113673325B (zh) 一种多特征人物情绪识别方法
CN114912441A (zh) 文本纠错模型生成方法、纠错方法、系统、设备和介质
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
CN114121178A (zh) 一种基于图卷积网络的色谱保留指数预测方法及装置
CN115114930A (zh) 一种基于序列到森林的非连续实体识别方法
CN114758645A (zh) 语音合成模型的训练方法、装置、设备及存储介质
CN110349570B (zh) 语音识别模型训练方法、可读存储介质和电子设备
CN110705331B (zh) 一种手语识别方法及装置
CN113449524A (zh) 一种命名实体识别方法、系统、设备以及介质
CN115062776A (zh) 一种海关发票实时识别的模型压缩方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant