KR102363369B1 - 문서들의 벡터 표현들 생성하기 - Google Patents

문서들의 벡터 표현들 생성하기 Download PDF

Info

Publication number
KR102363369B1
KR102363369B1 KR1020167023661A KR20167023661A KR102363369B1 KR 102363369 B1 KR102363369 B1 KR 102363369B1 KR 1020167023661 A KR1020167023661 A KR 1020167023661A KR 20167023661 A KR20167023661 A KR 20167023661A KR 102363369 B1 KR102363369 B1 KR 102363369B1
Authority
KR
South Korea
Prior art keywords
words
document
word
sequence
vector representation
Prior art date
Application number
KR1020167023661A
Other languages
English (en)
Other versions
KR20160117516A (ko
Inventor
쿠옥 브이. 르
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20160117516A publication Critical patent/KR20160117516A/ko
Application granted granted Critical
Publication of KR102363369B1 publication Critical patent/KR102363369B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 벡터 표현들을 생성하기 위한, 컴퓨터 저장 미디어에 인코딩된 컴퓨터 프로그램을 포함하는, 방법들, 시스템들 및 장치이다. 방법들 중 하나는 새로운 문서를 획득하는 단계; 및 트레이닝(training)된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 벡터 표현을 결정하는 단계를 포함하며, 상기 트레이닝된 신경 네트워크 시스템은 입력 문서 및 상기 입력 문서로부터 단어들의 시퀀스를 수신하도록 그리고 단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하도록 트레이닝되었으며, 상기 각각의 단어 점수들 각각은 상기 대응하는 단어가 상기 입력 문서의 상기 시퀀스에서 마지막 단어를 뒤따를 것이라는 예측된 가능성을 표현하며, 그리고 상기 트레이닝된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하는 단계는 기울기 하강(gradient descent)을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하기 위해 상기 단어들의 복수의 시퀀스들 각각을 상기 트레이닝된 신경 네트워크 시스템에 반복적으로 제공하는 것을 포함한다.

Description

문서들의 벡터 표현들 생성하기{GENERATING VECTOR REPRESENTATIONS OF DOCUMENTS}
이 명세서는 데이터 프로세싱 시스템들을 사용하는 텍스트 분류와 관련된다.
텍스트 분류 시스템들은 전자 텍스트 예를 들면, 전자 문서들의 조각들을 분류할 수 있다. 예를 들면, 텍스트 분류 시스템들은 텍스트의 조각을 하나 이상의 미리 결정된 토픽들의 세트와 관련되는 것으로서 분류할 수 있다. 일부 텍스트 분류 시스템들은 텍스트의 조각의 구성들을 입력으로서 수신하고 상기 구성들을 텍스트의 조각에 대한 분류를 생성하는데 사용한다.
신경 네트워크들(neural networks)은 수신된 입력에 대해 출력 예를 들면, 분류를 생성하기 위해 모델들의 하나 이상의 레이어들을 이용하는 기계 학습 모델들(machine learning models)이다. 일부 신경 네트워크들은 출력 레이어에 더하여 하나 이상의 히든 레이어들(hidden layers)을 포함한다. 각 히든 레이어의 출력은 네트워크에서 다음 레이어 즉, 네트워크의 다음 히든 레이어 또는 출력 레이어에 대한 입력으로서 사용된다. 네트워크의 각 레이어는 파라미터들의 각각의 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.
일반적으로, 본 명세서에 기술된 본 발명의 일 혁신적 양태는 방법들에 포함되며, 상기 방법은 새로운 문서를 획득하는 단계, 상기 새로운 문서는 단어들의 복수의 시퀀스들, 그리고 단어들의 각 시퀀스에 대해, 상기 새로운 문서의 단어들의 상기 시퀀스에서 마지막 단어를 뒤따르는(follow) 단어를 포함하며; 및 트레이닝(training)된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 벡터 표현을 결정하는 단계를 포함하며, 상기 트레이닝된 신경 네트워크 시스템은 입력 문서 및 상기 입력 문서로부터 단어들의 시퀀스를 수신하도록 그리고 단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하도록 트레이닝되었으며, 상기 각각의 단어 점수들 각각은 상기 대응하는 단어가 상기 입력 문서의 상기 시퀀스에서 마지막 단어를 뒤따를 것이라는 예측된 가능성을 표현하며, 그리고 상기 트레이닝된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하는 단계는 기울기 하강(gradient descent)을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하기 위해 상기 단어들의 복수의 시퀀스들 각각을 상기 트레이닝된 신경 네트워크 시스템에 반복적으로 제공하는 것을 포함한다.
본 양태의 다른 실시예들은 대응하는 컴퓨터 시스템들, 장치들 및 하나 이상의 컴퓨터 저장 디바이스들에 기록된 컴퓨터 프로그램들을 포함하며, 그 각각은 방법들의 액션들을 수행하도록 구성된다.
하나 이상의 컴퓨터들을 시스템은 동작에서 상기 시스템으로 하여금 액션들을 수행하게 하는, 상기 시스템에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 그들의 조합을 가짐으로써 특정 동작들 또는 액션들을 수행하도록 구성된다. 하나 이상의 컴퓨터 프로그램들은 데이터 프로세싱 장치에 의해 실행될 때, 상기 장치로 하여금 액션들을 수행하게 하는 명령어들을 포함함으로써 특정 동작들 또는 액션들을 수행하도록 구성된다.
이들 및 다른 양태들도 다음 구성들 중 하나 이상을 선택적으로 포함할 수 있다. 트레이닝된 신경 네트워크 시스템은 입력 문서 및 입력 문서로부터의 상기 단어들의 시퀀스에서 각 단어를 각각의 벡터 표현들에 맵핑(mapping)하도록 구성된 내장 레이어(embedding layer), 상기 벡터 표현들을 조합된 표현으로 조합하도록 구성된 조합 레이어(combining layer) 및 상기 조합된 표현을 사용하여 상기 단어 점수들을 생성하도록 구성된 분류자 레이어(classifier layer)를 포함할 수 있다. 내장 레이어는 단어들의 시퀀스에서 단어들을 파타미터들의 제1 세트에 따라 벡터 표현들에 맵핑하며, 분류자 레이어는 파라미터들의 제2 세트에 따라 조합된 표현으로부터 단어 점수들을 생성할 수 있다. 파라미터들의 제1 세트의 값들 및 파라미터들의 제2 세트의 값들은 단어 점수들을 생성하기 위해 상기 신경 네트워크 시스템을 트레이닝하는 것으로부터 고정(fix)될 수 있다.
트레이닝된 신경 네트워크 시스템을 사용하여 새로운 문서에 대한 벡터 표현을 결정하는 것은 기울기 하강의 이전 반복으로부터 상기 새로운 문서의 상기 벡터 표현을 조절하기 위해 상기 단어들의 복수의 시퀀스들 각각에 대한 기울기 하강의 각각의 반복을 수행하는 것을 포함할 수 있다. 복수의 시퀀스들 각각에 대한 기울기 하강의 상기 각각의 반복을 수행하는 것은: 상기 내장 레이어를 사용하여 상기 시퀀스에서 상기 단어들의 각각을 벡터 표현에 맵핑하는 것; 조합된 표현을 생성하기 위해 상기 시퀀스에서 상기 단어들에 대한 상기 벡터 표현을 상기 이전 반복으로부터 상기 새로운 문서에 대한 상기 벡터 표현을 조합하는 것; 상기 조합된 표현으로부터 단어 점수들을 생성하는 것; 상기 단어 점수들 및 상기 새로운 문서에서 상기 시퀀스를 뒤따르는 상기 단어를 사용하여 기울기를 계산하는 것; 및 상기 기울기를 사용하여 상기 이전 반복으로부터 상기 새로운 문서에 대한 상기 벡터 표현을 조절하는 것을 포함할 수 있다. 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들을 상기 입력 문서의 상기 벡터 표현과 연관시키도록 구성될 수 있다. 상기 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들과 상기 입력 문서의 상기 벡터 표현을 평균(average)하도록 구성될 수 있다. 상기 단어들의 복수의 시퀀스들의 각각은 고정된 수의 단어들을 포함할 수 있다.
일반적으로, 본 명세서에 기술된 본 발명의 다른 혁신적 양태는 방법들에 포함되며, 상기 방법들은 복수의 트레이닝 문서들을 획득하는 단계, 상기 복수의 트레이닝 문서들에서 각 문서는 단어들의 복수의 트레이닝 시퀀스들, 그리고 단어들의 각 시퀀스에 대해, 상기 트레이닝 문서의 상기 단어들의 트레이닝 시퀀스에서 마지막 단어를 뒤따르는(follow) 단어를 포함하며; 및 기울기 하강(gradient descent) 및 역전파(backpropagation)를 사용하여 상기 트레이닝 문서들 각각에서 신경 네트워크 시스템을 트레이닝(training)하는 단계를 포함하며, 상기 신경 네트워크 시스템은 입력 문서 및 상기 입력 문서로부터 단어들의 입력 시퀀스를 식별하는 데이터를 수신하도록 그리고 단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하도록 구성되며, 상기 각각의 단어 점수들 각각은 상기 대응하는 단어가 상기 입력 문서의 상기 단어들의 시퀀스에서 마지막 단어를 뒤따를 것이라는 예측된 가능성을 표현하며, 상기 트레이닝 문서들 각각에서 상기 신경 네트워크 시스템을 트레이닝하는 단계는, 각 트레이닝 문서에 대해, 상기 트레이닝 문서에서 단어들의 각 시퀀스에 대해 기울기 하강의 각각의 반복을 수행하는 것을 포함한다.
본 양태의 다른 실시예들은 대응하는 컴퓨터 시스템들, 장치들 및 하나 이상의 컴퓨터 저장 디바이스들에 기록된 컴퓨터 프로그램들을 포함하며, 그 각각은 방법들의 액션들을 수행하도록 구성된다.
이들 및 다른 양태들도 다음의 구성들 중 하나 이상을 선택적으로 포함할 수 있다. 상기 신경 네트워크 시스템은 상기 입력 문서 및 상기 입력 문서로부터의 상기 단어들의 시퀀스에서 각 단어를 각각의 벡터 표현들에 맵핑하도록 구성된 내장 레이어(embedding layer), 상기 벡터 표현들을 조합된 표현으로 조합하도록 구성된 조합 레이어(combining layer) 및 상기 조합된 표현을 사용하여 상기 단어 점수들을 생성하도록 구성된 분류자 레이어(classifier layer)를 포함할 수 있다. 상기 내장 레이어는 상기 단어들의 시퀀스에서 상기 단어들을 파라미터들의 제1 세트에 따라 벡터 표현들에 맵핑하며, 그리고 상기 분류자 레이어는 파라미터들의 제2 세트에 따라 상기 조합된 표현으로부터 상기 단어 점수들을 생성할 수 있다. 상기 트레이닝 문서에서 상기 복수의 시퀀스들 각각에 대해 기울기 하강의 각각의 반복을 수행하는 것은: 상기 내장 레이어를 사용하여 상기 시퀀스에서 상기 단어들의 각각을 벡터 표현에 맵핑하는 것; 상기 내장 레이어를 사용하여 상기 트레이닝 문서를 식별하는 상기 데이터를 벡터 표현에 맵핑하는 것; 조합된 표현을 생성하기 위해 상기 시퀀스에서 상기 단어들에 대한 상기 벡터 표현을 상기 이전 반복으로부터 상기 트레이닝 문서에 대한 상기 벡터 표현을 조합하는 것; 상기 조합된 표현으로부터 단어 점수들을 생성하는 것; 상기 단어 점수들 및 상기 새로운 문서에서 상기 시퀀스를 뒤따르는 상기 단어를 사용하여 기울기를 계산하는 것; 및 상기 기울기를 사용하여 상기 파라미터들의 제2 세트의 값을 조절하는 것을 포함할 수 있다. 상기 기울기 하강의 각각의 반복을 수행하는 것은 역전파를 사용하여 상기 파라미터들의 제1 세트의 값을 조절하는 것을 더 포함할 수 있다. 상기 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들을 상기 입력 문서의 상기 벡터 표현과 연관시키도록 구성될 수 있다. 상기 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들과 상기 입력 문서의 상기 벡터 표현을 평균(average)하도록 구성될 수 있다. 상기 단어들의 복수의 시퀀스들의 각각은 고정된 수의 단어들을 포함할 수 있다.
본 명세서에 기술된 본원 발명의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현된다. 예를 들면, 텍스트 분류 시스템에 의해 문서의 구성(feature)으로서 사용될 수 있는 문서의 벡터 표현이 효율적으로 생성될 수 있다. 신경 네트워크 시스템은 레이블링 되지 않은 트레이닝 문서들만 사용하여 문서 표현을 생성하도록 트레이닝될 수 있다. 트레이닝된 신경 네트워크 시스템에 의해 생성된 벡터 표현들은 여러 개의 바람직한 속성들을 가질 수 있다. 예를 들면, 의미론적으로 유사한 문서들은 의미론적으로 유사한 컨텐츠를 포함하지 않는 2개의 문서들에 대한 문서 벡터 표현들보다 서로 가까운 문서 벡터 표현들을 가질 수 있다.
본 명세서에서 본원 발명의 하나 이상의 실시예들의 세부사항들이 첨부 도면들 및 아래의 설명에서 기술된다. 본원 발명의 다른 구성들, 양태들 및 이점들은 설명, 도면들 및 청구항들로부터 명백해질 것이다.
도 1은 예시적 벡터 표현 시스템을 도시한다.
도 2는 새로운 문서에 대한 문서 벡터 표현을 결정하기 위한 예시적 프로세스의 흐름도이다.
도 3은 트레이닝 문서로부터의 단어들의 시퀀스에서 신경 네트워크 시스템을 트레이닝하기 위한 예시적 프로세스의 흐름도이다.
도 4는 새로운 문서에 대한 문서 벡터 표현을 조절하기 위한 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호들은 및 기호들은 동일한 엘리먼트들을 표시한다.
도 1은 예시적 벡터 표현 시스템(100)을 도시한다. 벡터 표현 시스템(100)은 하나 이상의 위치들에서의 하나 이상의 컴퓨터들에서 컴퓨터 프로그램들로서 구현된 시스템의 예시이며, 아래에 기술된 상기 시스템들, 컴포넌트들 및 기법들이 구현된다.
벡터 표현 시스템(100)은 입력 문서들로부터 단어들의 시퀀스들에 대한 단어 점수들을 생성한다. 예를 들면, 입력 문서(102)로부터 단어 시퀀스(106)에 대한 단어 점수들(126). 단어 시퀀스(106)에 대한 단어 점수들(126)은 단어가 입력 문서의 단어 시퀀스(106)에서 마지막 단어를 뒤따를(follow) 예측된 가능성을 표현하는 주어진 단어에 대한 단어 점수를 가지는, 단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 점수를 포함한다.
주어진 입력 문서에서 단어들의 시퀀스들에 대한 단어 점수들을 생성하는 것의 일부로서, 벡터 표현 시스템(100)은 입력 문서에 대한 문서 벡터 표현을 생성한다. 예를 들면, 입력 문서(102)에 대한 문서 벡터 표현(120). 벡터 표현 시스템(100)에 의해 생성된 문서 벡터 표현은 문서의 벡터 표현이다. 예를 들면, 문서 벡터 표현들은 부동 소수점 값들 또는 양자화된 부동 소수점 값들의 벡터들이다.
특히, 벡터 표현 시스템(100)은 신경 네트워크 시스템(110)을 포함하며, 이는 주어진 입력 문서에서 주어진 단어 시퀀스에 대해, 입력 문서 및 단어 시퀀스를 식별하는 데이터를 수신하고, 단어 시퀀스에 대한 단어 점수들을 생성하기 위해 입력 문서 및 단어 시퀀스를 식별하는 데이터를 프로세싱한다. 예를 들면, 벡터 표현 시스템(100)은 입력 문서(102)로부터 입력 문서(102) 및 단어 시퀀스(106)에 대한 문서 식별자(104)를 수신하고 단어 시퀀스(106)에 대한 단어 점수들(126)을 생성한다. 문서 식별자는 예를 들면, 입력 문서(102)에 미리 할당되거나 또는 벡터 표현 시스템(100)에 의해 생성되어, 상기 식별자가 입력 문서(102)를 고유하기 식별하도록 한다.
신경 네트워크 시스템(110)은 내장 레이어(110), 조합 레이어(114) 및 분류자 레이어(116)를 포함한다. 내장 레이어(112)는 문서 파라미터들의 세트의 현재 값들에 따라, 문서를 식별하는 데이터를 문서 벡터 표현 예를 들면, 입력 문서(102)에 대한 문서 벡터 표현(120)에 맵핑한다. 또한 내장 레이어(112)는 단어 파라미터들의 세트의 현재 값들에 따라 단어 시퀀스에서 각 단어를 각각의 단어 벡터 표현 예를 들면, 단어 시퀀스(106)에서 단어들에 대한 단어 벡터 표현들(122)에 맵핑한다. 각 단어 벡터는 대응 단어의 벡터 표현 예를 들면, 부동 소수점의 벡터 또는 양자화된 부동 소수점 값들이다.
조합 레이어(114)는 문서 벡터 표현 및 단어 벡터 표현들을 수신하고, 문서 벡터 표현 및 단어 벡터 표현들로부터 조합된 표현을 생성한다. 예를 들면, 단어 벡터 표현들(122) 및 문서 벡터 표현(120)으로부터 조합된 표현(124). 조합된 표현을 생성하는 것은 도 3 및 4를 참조하여 아래에서 더 상세히 기술된다.
분류자 레이어(116)는 조합된 표현을 수신하고 분류자 파라미터들의 세트의 현재 값들에 따라 입력 문서로부터 단어 시퀀스에 대한 단어 점수들을 생성하기 위해 조합된 표현을 프로세싱한다. 예를 들면, 분류자 레이어(116)는 단어 시퀀스(106)에 대한 단어 점수들(126)을 생성하기 위해 조합된 표현(124)를 프로세싱한다.
벡터 표현 시스템(100)은 단어 파라미터들과 분류자 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝 문서들로부터 다수의 단어 시퀀스들에서 신경 네트워크 시스템(110)을 트레이닝한다. 신경 네트워크 시스템을 트레이닝하는 것은 도 2 및 3을 참조하여 아래에서 더 상세히 기술된다. 일단 단어 파라미터들과 분류자 파라미터들의 트레이닝된 값들이 결정되면, 벡터 표현 시스템(100)은 새로운 입력 문서를 수신하고 새로운 문서에 대한 문서 벡터 표현을 결정하기 위해 신경 네트워크 시스템(110)을 사용하여 새로운 입력 문서로부터 단어들의 시퀀스들을 프로세싱한다. 새로운 문서에 대한 문서 벡터 표현을 생성하는 것은 도 2 및 4를 참조하여 아래에서 더 상세히 기술된다.
일단 주어진 문서에 대한 문서 벡터 표현이 생성되면, 벡터 표현 시스템(100)은 문서 벡터 표현을 저장소에서 문서와 관련시키거나 또는 문서 표현을 일부 당면한 목적으로 사용하기 위한 별개의 시스템에 제공한다. 예를 들면, 문서 표현은 입력 문서의 구성으로서 사용될 수 있고, 예를 들면 특정 토픽들에 관련되는 것으로서 입력 문서들을 분류하도록 구성된 통상적인 기계 학습 시스템 예를 들면, 로지스틱 회귀(logistic regression) 시스템, 서포트 벡터 머신(SVM, Support Vector Machine) 시스템 또는 k-평균(k-means) 시스템에 대한 입력으로서 제공될 수 있다. 예를 들면, 통상적인 기계 학습 시스템은 입력 문서의 문서 표현 및 선택적으로 입력 문서의 다른 구성들을 수신하도록 구성되며, 문서가 대응하는 토픽에 관한 것이거나 관련될 추정된 가능성을 표현하는 각 점수를 가지는, 토픽들의 세트 각각에 대한 각각의 점수를 생성한다.
도 2는 새로운 문서에 대한 문서 벡터 표현을 결정하기 위한 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들면, 적절하게 프로그래밍된 벡터 표현 시스템 예를 들면, 도 1의 벡터 표현 시스템(100)은 프로세스(200)를 수행할 수 있다.
시스템은 단어 점수들을 생성하기 위해 신경 네트워크 시스템 예를 들면, 도 1의 신경 네트워크 시스템(110)을 트레이닝한다(단계(202)). 신경 네트워크 시스템은 내장 레이어, 조합 레이어 및 분류자 레이어를 포함하는 시스템이다. 내장 레이어는 문서 및 상기 문서로부터 단어들의 시퀀스를 식별하는 데이터를 수신하고, 문서 파라미터들의 세트의 현재 값들에 따라 문서를 식별하는 데이터를 문서 벡터 표현에 맵핑하고, 단어 파라미터들의 세트의 현재 값들에 따라 단어들의 시퀀스에서 각 단어를 각각이 단어 벡터 표현에 맵핑하도록 구성된다. 조합 레이어는 조합된 표현을 생성하기 위해 단어 벡터 표현들과 문서 벡터 표현을 조합하도록 구성된다. 분류자 레이어는 분류자 파라미터들의 세트의 현재 값들에 따라 단어 시퀀스에 대한 단어 점수들의 세트를 생성하기 위해 조합된 표현을 프로세싱하도록 구성된다.
트레이닝 동안에, 시스템은 단어 파라미터들과 분류자 파라미터들의 트레이닝된 값들을 결정하기 위해 단어 파라미터들 및 분류자 파라미터들의 값들을 조절한다. 특히, 시스템은 트레이닝 문서들의 세트로부터의 단어 시퀀스들의 세트에서 신경 네트워크 시스템을 트레이닝한다. 트레이닝 문서들은 예를 들면, 문장들, 단락들 다수의 단락들의 컬렉션들, 검색 쿼리들 또는 다수의 자연어 단어들의 기타 컬렉션들 중 하나 이상을 포함한다.
신경 네트워크 시스템의 파라미터들의 값들을 조절하기 위해, 시스템은 트레이닝 시퀀스 각각에 대한 기울기 하강 트레이닝 절차(gradient descent training procedure)의 인스턴스(instance)를 수행한다. 특히, 시스템은 시퀀스에 대한 단어 점수들을 생성하기 위해 신경 네트워크 시스템을 사용하여 단어들의 시퀀스를 프로세싱하고, 그 후 단어 점수들 및 트레이닝 문서의 시퀀스에서 마지막 단어를 뒤따르는 단어를 사용하여 즉, 기울기 하강 및 역전파(backpropagation)를 사용하여 파라미터들의 값들을 조절한다. 트레이닝 문서로부터의 단어 시퀀스를 사용하여 신경 네트워크 시스템의 파라미터들을 조절하는 것은 도 3을 참조하여 아래에서 더 상세히 기술된다.
신경 네트워크 시스템의 파라미터들의 값들을 조절하기 위해 시스템이 단어 시퀀스에 대한 단어 점수들 및 트레이닝 문서의 시퀀스에서 마지막 단어를 뒤따르는 단어만을 사용하기 때문에, 트레이닝 문서들은 신경 네트워크 시스템을 트레이닝하는 것에서 사용되기 위해 라벨링(labeled)될 필요가 없다. 즉, 시스템은 라벨링되지 않은(unlabeled) 트레이닝 문서들 즉, 임의의 특정 토픽과 관련된 것으로 분류되지 않거나 또는 이와 달리 텍스트 분류 시스템에 의해 프로세싱된 문서로부터의 단어들의 시퀀스들만을 사용하여 단어 점수들을 생성하기 위해 신경 네트워크 시스템을 트레이닝할 수 있다.
시스템은 새로운 문서를 수신한다(단계(204)). 새로운 문서는 예를 들면, 문장, 단락, 다수의 단락들의 컬렉션, 검색 쿼리들 또는 다수의 자연어 단어들의 기타 컬렉션들이다.
시스템은 트레이닝된 신경 네트워크 시스템을 사용하여 새로운 문서에 대한 문서 벡터 표현을 결정한다(단계(206)). 일반적으로, 시스템은 새로운 문서에 대한 문서 벡터 표현을 결정하기 위해 트레이닝된 신경 네트워크 시스템을 사용하여 새로운 문서로부터 다수의 단어 시퀀스들을 프로세싱한다. 특히, 시스템은 새로운 문서로부터 단어들의 다수의 시퀀스들을 식별한다. 일부 구현예들에서, 시퀀스들의 각각은 고정된 길이이다. 즉, 단어들의 동일한 고정된 수를 포함한다. 예를 들면, 시스템은 새로운 문서로부터 미리 결정된 고정된 길이의 각 가능한 시퀀스를 추출하기 위해 슬라이딩 윈도우(sliding window)를 새로운 문서에 적용한다.
그 후, 시스템은 새로운 문서에 대한 문서 벡터 표현을 반복적으로 결정하기 위해 트레이닝된 신경 네트워크 시스템을 사용하여 추출된 시퀀스들 각각을 프로세싱한다. 즉, 시스템은 새로운 문서로부터의 각 시퀀스가 시퀀스에 대한 단어 점수들을 생성하기 위해 트레이닝된 신경 네트워크 시퀀스를 통하여 프로세싱된 후에 새로운 문서의 현재 표현을 조절한다. 새로운 문서로부터의 시퀀스를 사용하여 새로운 문서에 대한 문서 벡터 표현을 조절하는 것은 도 4를 참조하여 아래에서 더 상세히 기술된다.
도 3은 트레이닝 문서로부터의 단어들의 시퀀스에서 신경 네트워크 시스템을 트레이닝하기 위한 예시적 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들면, 적절하게 프로그래밍된 벡터 표현 시스템 예를 들면, 도 1의 벡터 표현 시스템(100)은 프로세스(300)를 수행할 수 있다.
시스템은 내장 레이어를 사용하여 시퀀스에서 단어들의 각각을 각각의 단어 벡터 표현에 맵핑한다(단계(302)). 특히, 시스템은 시퀀스에서 단어들 각각에 대한 각각의 단어 벡터 표현을 결정하기 위해 단어 파라미터들의 현재 값들에 따라 시퀀스에서 각 단어를 프로세싱한다.
시스템은 내장 레이어를 사용하여 트레이닝 문서를 문서 벡터 표현에 맵핑한다(단계(304)). 특히, 시스템은 트레이닝 문서에 대한 문서 벡터 표현을 결정하기 위해 문서 파라미터들의 현재 값들에 따라 트레이닝 문서를 식별하는 데이터를 프로세싱한다.
시스템은 조합 레이어를 사용하여 단어 벡터 표현들 및 문서 벡터 표현으로부터 조합된 표현을 생성한다(단계(306)). 특히, 시스템은 조합된 표현을 생성하기 위해 조합 레이어를 사용하여 단어 벡터 표현들 및 현재 문서 벡터 표현을 프로세싱한다. 예를 들면, 조합 레이어는 조합된 레이어를 생성하기 위해 단어 벡터 표현들 및 현재 문서 벡터 표현을 연관(concatenate)시킨다. 다른 예시로서, 조합 레이어는 조합된 표현을 생성하기 위해 중심 집중 경향(central tendency)의 척도(measure) 예를 들면, 단어 벡터 표현들 및 현재 문서 벡터 표현의 중수(mean), 중간값(median) 또는 평균(average)을 계산한다.
시스템은 분류자 레이어를 사용하여 조합된 표현으로부터 단어 점수들을 생성한다(단계(308)). 특히, 시스템은 단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하기 위해 분류자 레이어를 사용하여 그리고 분류자 레이어의 파라미터들의 현재 값들에 따라 조합된 표현을 프로세싱한다.
시스템은 단어 점수들을 사용하여 기울기(gradient)를 계산한다(단계(310)). 즉, 시스템은 단어 점수들과 단어들의 시퀀스에 대한 원하는 출력 사이의 에러 즉, 새로운 문서에서 시퀀스에서 마지막 단어를 실제로 뒤따르는 단어가 시퀀스에서 다음 단어임을 표시하는 단어 점수들의 세트를 계산하고, 그 후 에러의 기울기를 계산한다.
시스템은 기울기를 사용하여 신경 네트워크 시스템의 파라미터들의 현재 값들을 조절한다(단계(312)). 특히, 시스템은 에러의 기울기를 사용하여 분류자 레이어의 파라미터들의 현재 값들을 조절하고, 그 후 역전파(backpropagation)를 사용하여, 내장 레이어의 파라미터들의 현재 값들 즉, 문서 파라미터들 및 단어 파라미터들의 현재 값들을 조절한다.
시스템은 문서의 파라미터들의 트레이닝된 값들을 반복적으로 결정하기 위해 다수의 트레이닝 문서들로부터 다수의 트레이닝 시퀀스들 각각에 대한 프로세스(300)를 수행할 수 있다. 예를 들면, 프로세스(300)의 각 반복에 대해, 시스템은 트레이닝 문서 및 상기 트레이닝 문서로부터 단어들의 고정된 길이 시퀀스를 랜덤하게 선택할 수 있다. 그 후 시스템은 트레이닝 문서들로부터의 시퀀스들에서 프로세스(300)의 반복들을 각 가능한 시퀀스가 프로세싱될 때까지 또는 트레이닝에 대한 다른 종료 기준이 만족될 때까지 수행할 수 있다.
도 4는 새로운 문서에 대한 문서 벡터 표현을 조절하기 위한 예시적 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들면, 적절하게 프로그래밍된 벡터 표현 시스템 예를 들면, 도 1의 벡터 표현 시스템(100)은 프로세스(400)를 수행할 수 있다.
시스템은 새로운 문서로부터 단어들의 시퀀스를 수신한다(단계(402)). 예를 들면, 단어들의 시퀀스는 새로운 문서로부터 추출된 단어들의 고정된 길이 시퀀스이다.
시스템은 시퀀스에서 단어들의 각각을 각각의 벡터 표현에 맵핑한다(단계(404)). 즉, 시스템은 각 단어를 단어 파라미터들의 트레이닝된 값들에 따라 단어 벡터 표현에 맵핑하기 위해 내장 레이어를 사용하여 시퀀스에서 단어들의 각각을 프로세싱한다.
시스템은 새로운 문서를 문서 벡터 표현에 맵핑한다(단계(406)). 즉, 시스템은 문서 파라미터들의 현재 값들에 따라 새로운 문서를 문서 벡터 표현에 맵핑하기 위해 내장 레이어를 사용하여 새로운 문서를 식별하는 데이터를 프로세싱한다.
시스템은 조합 레이어를 사용하여 조합된 표현을 생성한다(단계(406)). 특히, 시스템은 조합된 표현을 생성하기 위해 조합 레이어를 사용하여 단어 벡터 표현들 및 문서 벡터 표현을 프로세싱한다. 예를 들면, 조합 레이어는 조합된 표현을 생성하기 위해 단어 벡터 표현들 및 현재 문서 벡터 표현을 연관시킨다. 다른 예시로서, 조합 레이어는 조합된 표현을 생성하기 위해 중심 집중 경향(central tendency)의 척도(measure) 예를 들면, 단어 벡터 표현들 및 현재 문서 벡터 표현의 중수(mean), 중간값(median) 또는 평균(average)을 계산한다.
시스템은 분류자 레이어를 사용하여 조합된 표현으로부터 단어 점수들을 생성한다(단계(408)). 특히, 시스템은 단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하기 위해 분류자 레이어를 사용하여 그리고 분류자 레이어의 파라미터들의 현재 값들에 따라 조합된 표현을 프로세싱한다.
시스템은 단어 점수들을 사용하여 기울기(gradient)를 계산한다(단계(410)). 즉, 시스템은 단어 점수들과 단어들의 시퀀스에 대한 원하는 출력 사이의 에러 즉, 새로운 문서에서 시퀀스에서 마지막 단어를 실제로 뒤따르는 단어가 시퀀스에서 다음 단어임을 표시하는 단어 점수들의 세트를 계산하고, 그 후 에러의 기울기를 계산한다.
시스템은 기울기를 사용하여 새로운 문서에 대한 벡터 표현을 조절한다(단계(412)). 즉, 시스템은 분류자 레이어의 파라미터들의 트레이닝된 값들 및 고정된 단어 파라미터들을 보유하고, 역전파를 사용하여 문서 파라미터들의 현재 값들을 업데이트한다.
그 후 시스템은 새로운 문서로부터 단어들의 다음 시퀀스에 대한 문서 벡터 표현을 계산할 때 문서 파라미터들의 업데이트된 값들을 사용한다. 대안적으로, 만약 단어들의 현재 시퀀스가 새로운 문서로부터 프로세싱될 마지막 시퀀스인 경우, 시스템은 문서 파라미터들의 업데이트된 값들을 사용하여 새로운 문서의 조절된 문서 벡터 표현을 계산하고, 조절된 문서 벡터 표현을 새로운 문서의 문서 표현으로서 사용한다.
본 발명의 실시예들 및 본 명세서에 기술된 기능적 동작들은 본 명세서에서 개시된 구조들 및 그들의 구조적 균등물들을 포함하는 디지털 전자 회로에서, 유형적으로 수록된 컴퓨터 소프트웨어 또는 펌웨어에서, 컴퓨터 하드웨어에서 또는 그들 중 하나 이상의 조합들에서 구현될 수 있다. 본 명세서에 기술된 본 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들 즉, 데이터 프로세싱 장치에 의해 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 실행을 위한 유형적 비 일시적 프로그램 캐리어에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로서 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 프로세싱 장치에 의한 실행을 위한 적절한 리시버 장치에 전송을 위한 정보를 인코딩하기 위해 생성된 인공적으로 생성된 전파 신호 예를 들면, 기계-생성 전기적, 광학적 또는 전자기적 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저작 기판, 랜덤 또는 시리얼 엑세스 메모리 디바이스 또는 그들 중 하나 이상의 조합일 수 있다.
용어 “데이터 프로세싱 장치”는 예시로서 프로그래머블 프로세서, 컴퓨터 도는 다수의 프로세서들 또는 컴퓨터들을 포함하는 데이터를 프로세싱하기 위한 모든 종류의 장치, 디바이스들 및 기계들을 포함한다. 장치는 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)를 포함할 수 있다. 또한, 하드웨어에 추가로, 장치는 문제되는 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드 예를 들면, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 그들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 모듈, 소프트웨어 모듈 스크립트 또는 코드로도 지칭되거나 기술됨)은 컴파일된 또는 인터프리트된 언어들 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 이는 단독형 프로그램으로서 또는 컴퓨팅 환경에서 사용하기 위해 적절한 모듈, 컴포넌트 서브 루틴 또는 기타 유닛으로서를 포함한다. 컴퓨터 프로그램은 파일 시스템에서 파일에 대응하나, 반드시 대응되지는 않는다. 프로그램은 다른 프로그램들 또는 데이터를 보유하는 파일의 부분 예를 들면, 마크업 언어 문서에, 문제되는 프로그램 전용 단일 파일에 또는 다수의 편성된 파일들 예를 들면, 하나 이상의 모듈들, 서브 프로그램들 또는 코드의 부분들을 저장하는 파일들에 저장된 하나 이상의 스크립트들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 장소에 위치되거나 다수의 사이트들에 분산되고 통신 네트워크에 의해 상호 연결된 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작시키고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 컴퓨터들에 의해 수행될 수 있다. 또한, 프로세스들 및 논리 흐름들은 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 수행되고, 또한 장치는 전용 논리 회로로서 구현될 수 있다.
예시로서, 컴퓨터 프로그램의 실행을 위해 적절한 컴퓨터들은 전용 또는 범용 마이크로 프로세서들 또는 둘 다, 또는 임의의 다른 종류의 중앙 프로세싱 유닛에 기초할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 명령어들 및 데이터를 리드 온리 메모리 또는 랜덤 엑세스 메모리 또는 둘 다로부터 수신할 것이다. 컴퓨터의 기초적 엘리먼트들은 명령어들을 수행하거나 실행하기 위한 중앙 프로세싱 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 또한, 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기광학 디스크들 또는 광학적 디스크들을 포함하거나 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 연결될 것이다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가질 필요가 없다. 게다가 컴퓨터는 다른 디바이스 몇 가지 예를 들면, 모바일 전화, PDA, 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 이동식 저장 디바이스 예를 들면, USB, 플래시 드라이브에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기 위해 적절한 컴퓨터 판독가능 미디어는 예시로서, 반도체 메모리 디바이스들 예를 들면, EPROM, EEPROM 및 플래시 메모리 디바이스들; 자기 디스크들 예를 들면, 내장 하드 디스크들 또는 이동식 디스크들; 자기광학 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 미디어 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 전용 논리 회로에 의해 보충되거나 그에 통합될 수 있다.
사용자와의 인터렉션을 제공하기 위해, 본 명세서에 기술된 본 발명의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 예를 들면, CRT 또는 LCD 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들면, 마우스 또는 트랙볼을 가지는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하기 위해 사용될 수 있다; 예를 들면, 사용자에게 제공되는 피드백은 임의의 감각적 피드백 예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백일 수 있고; 사용자로부터의 입력은 청각, 음성 또는 촉각적 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서들을 송신하고 디바이스로부터 문서들을 수신함으로써 사용자와 인터렉션할 수 있다; 예를 들면, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 송신함으로써.
본 명세서에 기술된 본 발명의 실시예들은 백엔드 컴포넌트 예를 들면, 데이터 서버를 포함하거나, 또는 미들웨어 컴포넌트 예를 들면, 어플리케이션 서버를 포함하거나, 또는 프론트엔드 컴포넌트 예를 들면, 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 가지는 클라이언트 컴퓨터를 포함하는 컴퓨팅 시스템 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신 예를 들면, 통신 네트워크의 임의의 형태 또는 매체에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들면, 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 떨어져 있고, 일반적으로 통신 네트워크를 통해 인터렉션한다. 클라이언트 및 서버의 관계는 각각의 컴퓨터들에서 실행되며 상호 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해서 발생한다.
본 명세서가 많은 특정 구현예 세부사항들을 포함하고 있지만, 이들은 어떠한 발명의 범위 또는 청구된 것에 대한 제한들로서 여겨져서는 아니되며, 오히려 특정 발명들의 특정 실시예들에 국한된 구성들의 설명들로서 여겨져야 한다. 또한 별개의 실시예들의 맥락에서 본 명세서에 기술된 특정 구성들은 단일의 실시예들에서 조합으로 구현될 수 있다. 또한 반대로, 단일의 실시예의 맥락에서 기술된 다양한 구성들은 다수의 실시예들에서 별개로 또는 임의의 적절한 서브컴비네이션으로 구현될 수 있다. 게다가, 비록 구성들이 특정 조합들에서 동작하는 것으로 상기 기술되고 심지어 상기와 같이 초기적으로 청구되었지만, 일부 경우들에서, 청구된 조합으로부터 하나 이상의 구성들이 조합으로부터 실행될 수 있고, 청구된 조합은 서브컴비네이션 또는 서브 컴비네이션의 변화를 지시할 수 있다.
유사하게, 동작들이 특정 순서로 도면들에서 도시되었지만, 이는 상기 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 또는 모든 도시된 동작들이 원하는 결과들을 달성하기 위해 수행되어야 할 것을 요구하는 것으로서 이해되어서는 아니된다. 특정 환경들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리도 모든 실시예들에서 상기 분리를 요구하는 것으로서 이해되어서는 아니되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 함께 통합되거나 또는 다수의 소프트웨어 제품들에 패키징될 수 있다.
본 발명의 특정 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에 기재된 액션들은 다른 순서로 수행될 수 있고 여전히 원하는 결과를 달성한다. 일 예시로서, 첨부 도면들에서 도시된 프로세스들은 원하는 결과들을 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 필수적으로 요구하지 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다.

Claims (20)

  1. 방법으로서,
    새로운 문서를 획득하는 단계;
    상기 새로운 문서로부터, (i) 각각 미리 결정된 고정된 길이인 단어들의 복수의 시퀀스들 및 (ii) 단어들의 각 시퀀스에 대해, 상기 새로운 문서의 단어들의 상기 시퀀스에서 마지막 단어를 뒤따르는(follow) 단어를 추출하는 단계; 및
    트레이닝(training)된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 벡터 표현을 결정하는 단계를 포함하며,
    상기 트레이닝된 신경 네트워크 시스템은 복수의 라벨링되지 않은 문서들에 대해 트레이닝되었으며 그리고,
    입력 문서 및 상기 입력 문서로부터 단어들의 시퀀스를 식별하는 데이터를 수신하고,
    상기 입력 문서를 식별하는 데이터로부터, 상기 입력 문서의 벡터 표현을 생성하고, 그리고
    단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하기 위해 파라미터들의 제3 세트의 트레이닝된 값들에 따라 상기 입력 문서로부터 단어들의 시퀀스 및 상기 입력 문서의 벡터 표현을 프로세싱하도록 트레이닝되었으며,
    상기 각각의 단어 점수들 각각은 대응하는 단어가 상기 입력 문서의 상기 시퀀스에서 마지막 단어를 뒤따를 것이라는 예측된 가능성을 표현하며, 그리고
    상기 트레이닝된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하는 단계는 기울기 하강(gradient descent)을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하기 위해 상기 단어들의 복수의 시퀀스들 각각을 상기 트레이닝된 신경 네트워크 시스템에 반복적으로 제공하는 것을 포함하며, 상기 단어들의 각 시퀀스에 대해:
    상기 파라미터들의 제3 세트의 트레이닝된 값들에 따라 그리고 상기 새로운 문서의 벡터 표현을 사용하여 생성된 상기 단어들의 미리 결정된 세트에서 각 단어에 대해 각각의 단어 점수를 획득하기 위해 상기 단어들의 시퀀스를 상기 트레이닝된 신경 네트워크 시스템에 제공하는 것,
    상기 각각의 단어 점수들과 상기 새로운 문서의 단어들의 시퀀스에서 마지막 단어를 뒤따르는 상기 단어들을 식별하는 단어 점수들의 타겟 세트 사이의 에러를 측정하는 에러 함수의 벡터 표현과 관련한 기울기를 계산하는 것, 및
    상기 파라미터들의 제3 세트의 트레이닝된 값들을 고정되게 보유하면서 기울기 하강을 사용하여 상기 기울기에 기초하여 상기 새로운 문서에 대한 벡터 표현을 조절하는 것을 포함하는 것을 특징으로 하는 방법.
  2. 청구항 1에 있어서,
    상기 트레이닝된 신경 네트워크 시스템은 상기 입력 문서 및 상기 입력 문서로부터의 상기 단어들의 시퀀스에서 각 단어를 각각의 벡터 표현들에 맵핑하도록 구성된 내장 레이어(embedding layer), 상기 벡터 표현들을 조합된 표현으로 조합하도록 구성된 조합 레이어(combining layer) 및 상기 조합된 표현을 사용하여 상기 단어 점수들을 생성하도록 구성된 분류자 레이어(classifier layer)를 포함하는 것을 특징으로 하는 방법.
  3. 청구항 2에 있어서,
    상기 파라미터들의 제3 세트는 파라미터들의 제1 세트 및 파라미터들의 제2 세트를 포함하며,
    상기 내장 레이어는 상기 단어들의 시퀀스에서 상기 단어들을 상기 파라미터들의 제1 세트에 따라 벡터 표현들에 맵핑하며, 그리고
    상기 분류자 레이어는 상기 파라미터들의 제2 세트에 따라 상기 조합된 표현으로부터 상기 단어 점수들을 생성하는 것을 특징으로 하는 방법.
  4. 청구항 2에 있어서,
    상기 단어들의 복수의 시퀀스들 각각에 대해, 상기 트레이닝된 신경 네트워크 시스템은:
    상기 내장 레이어를 사용하여 상기 시퀀스에서 상기 단어들의 각각을 벡터 표현에 맵핑하고;
    조합된 표현을 생성하기 위해 상기 시퀀스에서 상기 단어들에 대한 상기 벡터 표현을 상기 단어들의 이전 시퀀스로부터 상기 새로운 문서에 대한 상기 벡터 표현을 조합하고;
    상기 조합된 표현으로부터 단어 점수들을 생성하도록 구성되는 것을 포함하는 것을 특징으로 하는 방법.
  5. 청구항 2에 있어서,
    상기 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들을 상기 입력 문서의 상기 벡터 표현과 연관시키도록 구성되는 것을 특징으로 하는 방법.
  6. 청구항 2에 있어서,
    상기 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들과 상기 입력 문서의 상기 벡터 표현을 평균(average)하도록 구성되는 것을 특징으로 하는 방법.
  7. 방법으로서,
    복수의 트레이닝 문서들을 획득하는 단계, 상기 복수의 트레이닝 문서들에서 각 문서는 라벨링되지 않았으며, 단어들의 복수의 시퀀스들, 그리고 단어들의 각 시퀀스에 대해, 상기 트레이닝 문서의 상기 단어들의 시퀀스에서 마지막 단어를 뒤따르는(follow) 단어를 포함하며; 및
    기울기 하강(gradient descent) 및 역전파(backpropagation)를 사용하여 상기 트레이닝 문서들 각각에서 신경 네트워크 시스템을 트레이닝(training)하는 단계를 포함하며,
    상기 신경 네트워크 시스템은:
    입력 문서 및 상기 입력 문서로부터 단어들의 시퀀스를 식별하는 데이터를 수신하고,
    상기 입력 문서를 식별하는 데이터로부터 상기 입력 문서의 벡터 표현을 생성하고, 그리고
    단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하기 위해 파라미터들의 세트에 따라 상기 입력 문서로부터 단어들의 시퀀스 및 상기 입력 문서의 벡터 표현을 프로세싱하도록 구성되며,
    상기 각각의 단어 점수들 각각은 대응하는 단어가 상기 입력 문서의 상기 단어들의 시퀀스에서 마지막 단어를 뒤따를 것이라는 예측된 가능성을 표현하며,
    상기 트레이닝 문서들 각각에서 상기 신경 네트워크 시스템을 트레이닝하는 단계는, 각 트레이닝 문서에 대해, 반복으로 상기 파라미터들의 세트의 값들을 업데이트하기 위해 상기 트레이닝 문서에서 단어들의 각 시퀀스에 대해 기울기 하강의 각각의 반복을 수행하는 것을 포함하는 것을 특징으로 하는 방법.
  8. 청구항 7에 있어서,
    상기 신경 네트워크 시스템은 상기 입력 문서 및 상기 입력 문서로부터의 상기 단어들의 시퀀스에서 각 단어를 각각의 벡터 표현들에 맵핑하도록 구성된 내장 레이어(embedding layer), 상기 벡터 표현들을 조합된 표현으로 조합하도록 구성된 조합 레이어(combining layer) 및 상기 조합된 표현을 사용하여 상기 단어 점수들을 생성하도록 구성된 분류자 레이어(classifier layer)를 포함하는 것을 특징으로 하는 방법.
  9. 청구항 8에 있어서,
    상기 내장 레이어는 상기 단어들의 시퀀스에서 상기 단어들을 파라미터들의 제1 세트에 따라 벡터 표현들에 맵핑하며, 그리고
    상기 분류자 레이어는 파라미터들의 제2 세트에 따라 상기 조합된 표현으로부터 상기 단어 점수들을 생성하는 것을 특징으로 하는 방법.
  10. 청구항 9에 있어서,
    상기 트레이닝 문서에서 상기 복수의 시퀀스들 각각에 대해 기울기 하강의 각각의 반복을 수행하는 것은:
    상기 내장 레이어를 사용하여 상기 시퀀스에서 상기 단어들의 각각을 벡터 표현에 맵핑하는 것;
    상기 내장 레이어를 사용하여 상기 트레이닝 문서를 식별하는 상기 데이터를 벡터 표현에 맵핑하는 것;
    조합된 표현을 생성하기 위해 상기 시퀀스에서 상기 단어들에 대한 상기 벡터 표현을 이전 반복으로부터 상기 트레이닝 문서에 대한 상기 벡터 표현을 조합하는 것;
    상기 조합된 표현으로부터 단어 점수들을 생성하는 것;
    상기 단어 점수들 및 상기 트레이닝 문서에서 상기 시퀀스를 뒤따르는 상기 단어를 사용하여 기울기를 계산하는 것; 및
    상기 기울기를 사용하여 상기 파라미터들의 제2 세트의 값을 조절하는 것을 포함하는 것을 특징으로 하는 방법.
  11. 청구항 10에 있어서,
    상기 기울기 하강의 각각의 반복을 수행하는 것은 역전파를 사용하여 상기 파라미터들의 제1 세트의 값을 조절하는 것을 더 포함하는 것을 특징으로 하는 방법.
  12. 청구항 8에 있어서,
    상기 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들을 상기 입력 문서의 상기 벡터 표현과 연관시키도록 구성되는 것을 특징으로 하는 방법.
  13. 청구항 8에 있어서,
    상기 조합 레이어는 상기 시퀀스에서 상기 단어들의 상기 벡터 표현들과 상기 입력 문서의 상기 벡터 표현을 평균(average)하도록 구성되는 것을 특징으로 하는 방법.
  14. 청구항 10에 있어서,
    상기 단어들의 복수의 시퀀스들의 각각은 고정된 수의 단어들을 포함하는 것을 특징으로 하는 방법.
  15. 시스템으로서,
    하나 이상의 컴퓨터들 및 명령어들을 저장하는 하나 이상의 저장 장치들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    새로운 문서를 획득하는 동작;
    상기 새로운 문서로부터, (i) 각각 미리 결정된 고정된 길이인 단어들의 복수의 시퀀스들 및 (ii) 단어들의 각 시퀀스에 대해, 상기 새로운 문서의 단어들의 상기 시퀀스에서 마지막 단어를 뒤따르는(follow) 단어를 추출하는 동작; 및
    트레이닝(training)된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 벡터 표현을 결정하는 동작을 포함하며,
    상기 트레이닝된 신경 네트워크 시스템은 복수의 라벨링되지 않은 문서들에 대해 트레이닝되었으며 그리고,
    입력 문서 및 상기 입력 문서로부터 단어들의 시퀀스를 식별하는 데이터를 수신하고,
    상기 입력 문서를 식별하는 데이터로부터, 상기 입력 문서의 벡터 표현을 생성하고, 그리고
    단어들의 미리 결정된 세트에서 각 단어에 대한 각각의 단어 점수를 생성하기 위해 파라미터들의 제3 세트의 트레이닝된 값들에 따라 상기 입력 문서로부터 단어들의 시퀀스 및 상기 입력 문서의 벡터 표현을 프로세싱하도록 트레이닝되었으며,
    상기 각각의 단어 점수들 각각은 대응하는 단어가 상기 입력 문서의 상기 시퀀스에서 마지막 단어를 뒤따를 것이라는 예측된 가능성을 표현하며, 그리고
    상기 트레이닝된 신경 네트워크 시스템을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하는 동작은 기울기 하강(gradient descent)을 사용하여 상기 새로운 문서에 대한 상기 벡터 표현을 결정하기 위해 상기 단어들의 복수의 시퀀스들 각각을 상기 트레이닝된 신경 네트워크 시스템에 반복적으로 제공하는 것을 포함하며, 상기 단어들의 각 시퀀스에 대해:
    상기 파라미터들의 제3 세트의 트레이닝된 값들에 따라 그리고 상기 새로운 문서의 벡터 표현을 사용하여 생성된 상기 단어들의 미리 결정된 세트에서 각 단어에 대해 각각의 단어 점수를 획득하기 위해 상기 단어들의 시퀀스를 상기 트레이닝된 신경 네트워크 시스템에 제공하는 것,
    상기 각각의 단어 점수들과 상기 새로운 문서의 단어들의 시퀀스에서 마지막 단어를 뒤따르는 상기 단어들을 식별하는 단어 점수들의 타겟 세트 사이의 에러를 측정하는 에러 함수의 벡터 표현과 관련한 기울기를 계산하는 것, 및
    상기 파라미터들의 제3 세트의 트레이닝된 값들을 고정되게 보유하면서 기울기 하강을 사용하여 상기 기울기에 기초하여 상기 새로운 문서에 대한 벡터 표현을 조절하는 것을 포함하는 것을 특징으로 하는 시스템.
  16. 청구항 15에 있어서,
    상기 신경 네트워크 시스템은 상기 입력 문서 및 상기 입력 문서로부터의 상기 단어들의 시퀀스에서 각 단어를 각각의 벡터 표현들에 맵핑하도록 구성된 내장 레이어(embedding layer), 상기 벡터 표현들을 조합된 표현으로 조합하도록 구성된 조합 레이어(combining layer) 및 상기 조합된 표현을 사용하여 상기 단어 점수들을 생성하도록 구성된 분류자 레이어(classifier layer)를 포함하는 것을 특징으로 하는 시스템.
  17. 청구항 1에 있어서,
    상기 새로운 문서에 대한 벡터 표현을 상기 새로운 문서를 분류하는데 사용하기 위한 기계 학습 시스템에 입력으로서 제공하는 방법을 더 포함하는 것을 특징으로 하는 방법.
  18. 청구항 1에 있어서,
    상기 새로운 문서의 분류를 생성하기 위해 기계 학습 시스템을 사용하여 상기 새로운 문서에 대한 벡터 표현을 포함하는 구성(feature) 입력을 프로세싱하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  19. 삭제
  20. 삭제
KR1020167023661A 2014-01-31 2015-01-30 문서들의 벡터 표현들 생성하기 KR102363369B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461934674P 2014-01-31 2014-01-31
US61/934,674 2014-01-31
PCT/US2015/013717 WO2015116909A1 (en) 2014-01-31 2015-01-30 Generating vector representations of documents

Publications (2)

Publication Number Publication Date
KR20160117516A KR20160117516A (ko) 2016-10-10
KR102363369B1 true KR102363369B1 (ko) 2022-02-15

Family

ID=52478097

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167023661A KR102363369B1 (ko) 2014-01-31 2015-01-30 문서들의 벡터 표현들 생성하기

Country Status (6)

Country Link
US (3) US10366327B2 (ko)
EP (1) EP3100212A1 (ko)
JP (1) JP6588449B2 (ko)
KR (1) KR102363369B1 (ko)
CN (1) CN105940395B (ko)
WO (1) WO2015116909A1 (ko)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614100B2 (en) * 2014-06-19 2020-04-07 International Business Machines Corporation Semantic merge of arguments
US10366324B2 (en) 2015-09-01 2019-07-30 Google Llc Neural network for processing graph data
US10803380B2 (en) 2015-09-11 2020-10-13 Google Llc Generating vector representations of documents
KR101778679B1 (ko) 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
US10354182B2 (en) 2015-10-29 2019-07-16 Microsoft Technology Licensing, Llc Identifying relevant content items using a deep-structured neural network
JP6651629B2 (ja) * 2015-12-10 2020-02-19 ディープマインド テクノロジーズ リミテッド 外部メモリを用いたニューラルネットワークの拡張
US10055489B2 (en) * 2016-02-08 2018-08-21 Ebay Inc. System and method for content-based media analysis
CN105760932B (zh) * 2016-02-17 2018-04-06 第四范式(北京)技术有限公司 数据交换方法、数据交换装置及计算装置
JP6605997B2 (ja) * 2016-03-17 2019-11-13 株式会社東芝 学習装置、学習方法及びプログラム
WO2017161320A1 (en) * 2016-03-18 2017-09-21 Google Inc. Generating dependency parses of text segments using neural networks
US10699183B2 (en) * 2016-03-31 2020-06-30 ZenDesk, Inc. Automated system for proposing help center articles to be written to facilitate resolving customer-service requests
US11436610B2 (en) * 2016-03-31 2022-09-06 ZenDesk, Inc. Automatically clustering customer-support requests to form customer-support topics
CN107315575B (zh) * 2016-04-26 2020-07-31 中科寒武纪科技股份有限公司 一种用于执行向量合并运算的装置和方法
WO2017192183A1 (en) * 2016-05-04 2017-11-09 Google Llc Augmenting neural networks with external memory using reinforcement learning
US10909459B2 (en) * 2016-06-09 2021-02-02 Cognizant Technology Solutions U.S. Corporation Content embedding using deep metric learning algorithms
US9807037B1 (en) 2016-07-08 2017-10-31 Asapp, Inc. Automatically suggesting completions of text
US10083451B2 (en) 2016-07-08 2018-09-25 Asapp, Inc. Using semantic processing for customer support
KR101886373B1 (ko) * 2016-07-14 2018-08-09 주식회사 언더핀 딥러닝 인공신경망 기반의 타스크 제공 플랫폼
US10762439B2 (en) 2016-07-26 2020-09-01 International Business Machines Corporation Event clustering and classification with document embedding
KR101842362B1 (ko) 2016-09-01 2018-03-26 성균관대학교산학협력단 인공 신경망 기반의 문단 생성 방법 및 장치
EP3510594B1 (en) * 2016-10-10 2020-07-01 Google LLC Very deep convolutional neural networks for end-to-end speech recognition
CN109923560A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 使用变分信息瓶颈来训练神经网络
US11636314B2 (en) 2016-11-15 2023-04-25 Google Llc Training neural networks using a clustering loss
KR101869438B1 (ko) * 2016-11-22 2018-06-20 네이버 주식회사 딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템
GB201620232D0 (en) * 2016-11-29 2017-01-11 Microsoft Technology Licensing Llc Data input system with online learning
CA3039755A1 (en) * 2016-12-14 2018-06-21 Landmark Graphics Corporation Automatic classification of drilling reports with deep natural language processing
US10109275B2 (en) 2016-12-19 2018-10-23 Asapp, Inc. Word hash language model
WO2018126325A1 (en) * 2017-01-06 2018-07-12 The Toronto-Dominion Bank Learning document embeddings with convolutional neural network architectures
US10817781B2 (en) * 2017-04-28 2020-10-27 SparkCognition, Inc. Generation of document classifiers
EP3602419B1 (en) * 2017-04-28 2023-09-20 Google LLC Neural network optimizer search
CN109214519B (zh) * 2017-07-07 2022-07-01 阿里巴巴集团控股有限公司 数据处理系统、方法和设备
US11823013B2 (en) * 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding
US10755144B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10755142B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
CN110019830B (zh) * 2017-09-20 2022-09-23 腾讯科技(深圳)有限公司 语料处理、词向量获取方法及装置、存储介质及设备
CN107957989B9 (zh) * 2017-10-23 2021-01-12 创新先进技术有限公司 基于集群的词向量处理方法、装置以及设备
CN108170663A (zh) 2017-11-14 2018-06-15 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
US10497004B2 (en) 2017-12-08 2019-12-03 Asapp, Inc. Automating communications using an intent classifier
US10489792B2 (en) 2018-01-05 2019-11-26 Asapp, Inc. Maintaining quality of customer support messages
US10891943B2 (en) * 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
CN110134780B (zh) * 2018-02-08 2023-11-24 株式会社理光 文档摘要的生成方法、装置、设备、计算机可读存储介质
US10210244B1 (en) 2018-02-12 2019-02-19 Asapp, Inc. Updating natural language interfaces by processing usage data
US11003856B2 (en) * 2018-02-22 2021-05-11 Google Llc Processing text using neural networks
CN108509413A (zh) * 2018-03-08 2018-09-07 平安科技(深圳)有限公司 文摘自动提取方法、装置、计算机设备及存储介质
US10606955B2 (en) * 2018-03-15 2020-03-31 Servicenow, Inc. Incident matching with vector-based natural language processing
US10169315B1 (en) 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
US11182415B2 (en) * 2018-07-11 2021-11-23 International Business Machines Corporation Vectorization of documents
US11216510B2 (en) 2018-08-03 2022-01-04 Asapp, Inc. Processing an incomplete message with a neural network to generate suggested messages
US10747957B2 (en) 2018-11-13 2020-08-18 Asapp, Inc. Processing communications using a prototype classifier
US11551004B2 (en) 2018-11-13 2023-01-10 Asapp, Inc. Intent discovery with a prototype classifier
KR102216689B1 (ko) * 2018-11-23 2021-02-17 네이버 주식회사 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템
US11410031B2 (en) * 2018-11-29 2022-08-09 International Business Machines Corporation Dynamic updating of a word embedding model
US12026462B2 (en) 2018-11-29 2024-07-02 International Business Machines Corporation Word embedding model parameter advisor
RU2744028C2 (ru) * 2018-12-26 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для хранения множества документов
US10789510B2 (en) 2019-01-11 2020-09-29 Google Llc Dynamic minibatch sizes
WO2020154373A1 (en) * 2019-01-23 2020-07-30 Google Llc Neural network training using the soft nearest neighbor loss
AU2019200976A1 (en) * 2019-02-12 2020-08-27 Canon Kabushiki Kaisha Method, system and apparatus for generating training samples for matching objects in a sequence of images
US10922486B2 (en) 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing
CN111858841A (zh) * 2019-04-24 2020-10-30 京东数字科技控股有限公司 一种生成词向量的方法和装置
US11107096B1 (en) * 2019-06-27 2021-08-31 0965688 Bc Ltd Survey analysis process for extracting and organizing dynamic textual content to use as input to structural equation modeling (SEM) for survey analysis in order to understand how customer experiences drive customer decisions
US11354361B2 (en) * 2019-07-11 2022-06-07 International Business Machines Corporation Document discrepancy determination and mitigation
US11163963B2 (en) * 2019-09-10 2021-11-02 Optum Technology, Inc. Natural language processing using hybrid document embedding
KR102280856B1 (ko) 2019-09-16 2021-07-23 서울대학교산학협력단 문서 임베딩을 생성하는 장치 및 방법
US11425064B2 (en) 2019-10-25 2022-08-23 Asapp, Inc. Customized message suggestion with user embedding vectors
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
KR102348689B1 (ko) * 2019-12-31 2022-01-07 성균관대학교산학협력단 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
CN113627135B (zh) 2020-05-08 2023-09-29 百度在线网络技术(北京)有限公司 一种招聘岗位描述文本的生成方法、装置、设备及介质
JP7547077B2 (ja) 2020-05-13 2024-09-09 株式会社Nttドコモ 文章翻訳装置及び翻訳モデル
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112104919B (zh) * 2020-09-11 2022-05-06 腾讯科技(深圳)有限公司 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
KR102666670B1 (ko) * 2020-11-25 2024-05-20 한국과학기술원 그룹 레이블링 학습에서 뉴럴 네트워크 기반 효과적인 임베딩 벡터 생성 및 이를 이용한 레이블 예측 방법, 장치 및 그 예측 모델에서의 학습 방법
KR102501869B1 (ko) * 2021-04-14 2023-02-21 건국대학교 산학협력단 문장 중요도에 기반한 문서 수준의 감성 분류 방법 및 장치
KR102569562B1 (ko) * 2022-04-05 2023-08-24 주식회사 타날리시스 자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치
US11989506B2 (en) * 2022-07-27 2024-05-21 Capital One Services, Llc Systems for database searching and database schemas management and methods of use thereof
KR20240043541A (ko) * 2022-09-27 2024-04-03 네이버 주식회사 커뮤니티 네이티브 광고를 제공하는 방법, 시스템, 및 컴퓨터 프로그램
CN115879508A (zh) * 2022-09-30 2023-03-31 华为技术有限公司 一种数据处理方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887443A (zh) 2009-05-13 2010-11-17 华为技术有限公司 一种文本的分类方法及装置
CN102968410A (zh) 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309293A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 多層構造型ニューラルネットワークの構成方法
JPH08221439A (ja) 1995-02-15 1996-08-30 Oki Electric Ind Co Ltd テキストファイルの自動分類方法
JP4394752B2 (ja) 1996-10-02 2010-01-06 エスアールアイ インターナショナル 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887443A (zh) 2009-05-13 2010-11-17 华为技术有限公司 一种文本的分类方法及装置
CN102968410A (zh) 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Holger Schwenk 외 1명, "Connectionist language modeling for large vocabulary continuous speech recognition", 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2002.05.13., pp765-768. 1부.*

Also Published As

Publication number Publication date
US10366327B2 (en) 2019-07-30
CN105940395B (zh) 2019-07-16
CN105940395A (zh) 2016-09-14
JP2017509963A (ja) 2017-04-06
EP3100212A1 (en) 2016-12-07
US20240202519A1 (en) 2024-06-20
JP6588449B2 (ja) 2019-10-09
US11853879B2 (en) 2023-12-26
US20150220833A1 (en) 2015-08-06
KR20160117516A (ko) 2016-10-10
US20190347552A1 (en) 2019-11-14
WO2015116909A1 (en) 2015-08-06

Similar Documents

Publication Publication Date Title
KR102363369B1 (ko) 문서들의 벡터 표현들 생성하기
US11960519B2 (en) Classifying data objects
US11275895B1 (en) Generating author vectors
US10803380B2 (en) Generating vector representations of documents
US20200234102A1 (en) Joint learning of local and global features for entity linking via neural networks
CN105144164B (zh) 使用深度网络对概念术语评分
US11675975B2 (en) Word classification based on phonetic features
CN107102981B (zh) 词向量生成方法和装置
US20160372118A1 (en) Context-dependent modeling of phonemes
KR20210019562A (ko) 인공신경망 기계 번역시 메타 정보를 이용하는 기법
US20110184981A1 (en) Personalize Search Results for Search Queries with General Implicit Local Intent
WO2018093926A1 (en) Semi-supervised training of neural networks
US11954594B1 (en) Training recurrent neural networks to generate sequences
CN104765728B (zh) 训练神经网络的方法和装置以及确定稀疏特征向量的方法
KR20160127100A (ko) 머신 러닝에서의 대안 트레이닝 분포 데이터
KR102695381B1 (ko) 엔티티-속성 관계 식별
US10503837B1 (en) Translating terms using numeric representations
Lozano et al. Mama Edha at SemEval-2017 Task 8: Stance classification with CNN and rules
CN111199151A (zh) 数据处理方法、及数据处理装置
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
AU2014409115A1 (en) System and method for language detection
CN112307738B (zh) 用于处理文本的方法和装置
US20190147365A1 (en) Deep vector table machine systems
Xu Multimodal LSTM for audio-visual speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant