KR20180121831A - 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 - Google Patents

흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 Download PDF

Info

Publication number
KR20180121831A
KR20180121831A KR1020180048008A KR20180048008A KR20180121831A KR 20180121831 A KR20180121831 A KR 20180121831A KR 1020180048008 A KR1020180048008 A KR 1020180048008A KR 20180048008 A KR20180048008 A KR 20180048008A KR 20180121831 A KR20180121831 A KR 20180121831A
Authority
KR
South Korea
Prior art keywords
word
vector
user
interest
data group
Prior art date
Application number
KR1020180048008A
Other languages
English (en)
Other versions
KR102057184B1 (ko
Inventor
미치마사 이나바
유야 나와테
도모야 다카타니
Original Assignee
도요타지도샤가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도요타지도샤가부시키가이샤 filed Critical 도요타지도샤가부시키가이샤
Publication of KR20180121831A publication Critical patent/KR20180121831A/ko
Application granted granted Critical
Publication of KR102057184B1 publication Critical patent/KR102057184B1/ko

Links

Images

Classifications

    • G06F17/3069
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N99/005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se

Abstract

흥미 판정 장치(1)는, 유저의 대화 정보에 포함되는 단어의 특징을 나타내는 제1 데이터군을 취득하도록 구성되는 데이터 취득부와, 데이터 취득부에 의해 취득된 상기 제1 데이터군과, 소정 단어의 특징을 나타내는 제2 데이터군을 관련지은 데이터군을 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 학습하도록 구성되는 제1 학습부(9)와, 판정 대상인 단어의 특징을 나타내는 제3 데이터군과, 데이터 취득부에 의해 취득된 제1 데이터군을 관련지은 데이터군이 제1 학습부(9)에 입력된 경우에, 해당 제1 학습부(9)로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하도록 구성되는 판정부(6)를 구비한다.

Description

흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 {INTEREST DETERMINATION SYSTEM, INTEREST DETERMINATION METHOD, AND STORAGE MEDIUM}
본 발명은 유저의 흥미를 판정하는 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체에 관한 것이다.
유저의 대화에 출현하는 단어의 특징을 나타내는 벡터를 사용하여, 그 유저의 흥미의 유무를 판정하는 장치가 알려져 있다(예를 들어, 일본 특허 공개 제2017-027168호 참조).
상기 장치에 있어서는, 유저의 대화에 출현하는 단어를 사용하여, 그 유저의 흥미의 유무를 판정하고 있다. 이 때문에, 유저의 대화에 출현하지 않는 단어에 대하여, 그 유저의 흥미의 유무를 판정하는 것은 곤란하게 된다.
본 발명은 유저의 대화에 출현하지 않는 단어에 대해서도 해당 유저의 흥미의 유무를 판정할 수 있는 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체를 제공한다.
본 발명의 제1 양태는, 유저의 대화 정보에 포함되는 단어의 특징을 나타내는 제1 데이터군을 취득하도록 구성되는 데이터 취득부와, 상기 데이터 취득부에 의해 취득된 제1 데이터군과, 소정 단어의 특징을 나타내는 제2 데이터군을 관련지은 데이터군을 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 학습하도록 구성되는 제1 학습부와, 판정 대상인 단어의 특징을 나타내는 제3 데이터군과, 상기 데이터 취득부에 의해 취득된 상기 제1 데이터군을 관련지은 데이터군이 상기 제1 학습부에 입력된 경우에, 해당 제1 학습부로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하도록 구성되는 판정부를 구비하는, 흥미 판정 장치이다. 이 일 형태에 있어서, 상기 데이터 취득부에 의해 취득되는 상기 제1 데이터군은, 유저의 대화 정보에 포함되는 단어의 특징을, 정량화하여 벡터화된 정보로서 표현되는 제1 벡터 정보여도 된다. 또한, 상기 제1 학습부는, 상기 데이터 취득부에 의해 취득된 상기 제1 벡터 정보와, 미리 설정된 소정 단어의 특징을 나타내는 상기 제2 데이터군으로서의 제2 벡터 정보를 관련지은 벡터 정보를 상기 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 학습해도 된다. 또한, 상기 판정부는, 판정 대상인 단어의 특징을 나타내는 제3 벡터 정보와, 상기 데이터 취득부에 의해 취득된 상기 제1 벡터 정보를 관련지은 벡터 정보가 상기 제1 학습부에 입력된 경우에, 해당 제1 학습부로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정해도 된다. 이 일 양태에 있어서, 상기 데이터 취득부에 의해 취득되는 상기 제1 데이터군은, 유저의 대화 정보에 포함되는 단어의 특징을, 해당 유저의 기호를 나타내는 모델로서 나타낸 기호 모델이어도 된다. 이 일 양태에 있어서, 상기 데이터 취득부는, 상기 유저의 대화 정보 중에서, 해당 유저가 흥미를 나타내는 흥미 추정 단어와, 해당 흥미 추정 단어로부터 소정 개수 전의 전반 문맥어와, 해당 흥미 추정 단어로부터 소정 개수 후의 후반 문맥어를 단어의 벡터로 변환하는 단어 벡터 변환부와, 상기 단어 벡터 변환부에 의해 변환된 전반 문맥어 및 후반 문맥어의 벡터를, 제2 학습부를 사용하여, 각각, 문장의 특징을 나타내는 전문맥 벡터 및 후문맥 벡터를 변환하고, 해당 변환한 전문맥 벡터 및 후문맥 벡터와 상기 흥미 추정 단어의 벡터를 결합한 결합 벡터를 생성하도록 구성되는 문장 벡터 생성부를 가져도 된다. 이 일 양태에 있어서, 상기 문장 벡터 생성부는, 유저가 흥미를 나타낸 대화 정보에 관하여, 상기 결합 벡터를 각각 생성하고, 상기 데이터 취득부는, 상기 문장 벡터 생성부에 의해 생성된 상기 각 결합 벡터의 평균값을, 상기 기호 모델에 있어서의 유저의 벡터 정보로서 산출하도록 구성되는 기호 모델 생성부를 더 가져도 된다. 이 일 양태에 있어서, 상기 문장 벡터 생성부에 의해 생성되는 결합 벡터를 제2 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제2 출력값으로 하여, 해당 제2 입력값 및 제2 출력값을 사용하여 최적화되도록 구성되는 제3 학습부를 더 구비하고 있어도 된다. 이 일 양태에 있어서, 상기 제1 내지 제3 학습부는 동시에 최적화되어도 된다. 이 일 형태에 있어서, 상기 제1 내지 제3 학습부는 신경망으로 구성되어 있어도 된다. 본 발명의 제2 양태는, 유저의 대화 정보에 포함되는 단어의 특징을 나타내는 제1 데이터군을 취득하는 것과, 상기 제1 데이터군과, 소정 단어의 특징을 나타내는 제2 데이터군을 관련지은 데이터군을 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 제1 학습부를 학습시키는 것과, 판정 대상인 단어의 특징을 나타내는 제3 데이터군과, 상기 취득된 제1 데이터군을 관련지은 데이터군이 상기 제1 학습부에 입력된 경우에, 해당 제1 학습부로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하는 것을 포함하는 흥미 판정 방법이어도 된다. 본 발명의 제3 양태는, 유저의 대화 정보에 포함되는 단어의 특징을 나타내는 제1 데이터군을 취득하는 처리와, 상기 제1 데이터군과, 소정 단어의 특징을 나타내는 제2 데이터군을 관련지은 데이터군을 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 제1 학습부를 학습시키는 처리와, 판정 대상인 단어의 특징을 나타내는 제3 데이터군과, 상기 제1 데이터군을 관련지은 데이터군이 상기 제1 학습부에 입력된 경우에, 해당 제1 학습부로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하는 처리를 컴퓨터에 실행시키는 프로그램을 기억한 기억 매체여도 된다.
본 발명에 따르면, 유저의 대화에 출현하지 않는 단어에 대해서도 해당 유저의 흥미의 유무를 고정밀도로 판정할 수 있는 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체를 제공할 수 있다.
본 발명의 예시적인 실시 형태의 특징, 이점, 기술적 및 산업적 의의는 첨부 된 도면을 참조하여 이하에서 설명될 것이며, 동일한 도면 부호는 동일한 요소를 나타낸다.
도 1은, 본 발명의 일 실시 형태에 관한 흥미 판정 장치의 개략적인 시스템 구성을 도시하는 블록도이다.
도 2는, 대화 로그로부터 문장 벡터를 생성하는 일례를 도시하는 도면이다.
도 3은, 제1 및 제2 신경망의 구조를 설명하기 위한 도면이다.
도 4는, 제1 및 제2 신경망의 최적화 방법을 설명하기 위한 도면이다.
도 5는, 기호 모델의 생성 과정의 일례를 설명한 도면이다.
도 6은, 제3 신경망의 구조를 도시하는 도면이다.
도 7은, 제3 신경망의 최적화 방법을 설명하기 위한 도면이다.
도 8은, 판정 대상의 단어에 대한 유저의 흥미의 유무 판정 방법을 설명하는 도면이다.
도 9는, 본 발명의 일 실시 형태에 관한 흥미 판정 방법의 플로우를 도시하는 개략적인 흐름도이다.
도 10은, 사용한 데이터의 통계 정보의 일례를 도시하는 도면이다.
도 11은, 실험 결과를 도시하는 도면이다.
도 12는, 실험에서 사용한 1대화의 전반에서 일부를 빼낸 도면이다.
도 13은, unite 모델에서 잠재적 흥미의 추정을 행한 결과의 일부를 도시하는 도면이다.
도 14는, SVM에서 추정을 행한 결과의 일부를 도시하는 도면이다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 설명한다. 본 발명의 일 실시 형태에 관한 흥미 판정 장치는, 유저의 대화 로그(대화 정보)에 출현하지 않았지만 유저가 흥미를 나타낼 가능성이 있는 잠재적인 단어(이하, 잠재적 흥미 대상 단어)에 대해서도, 유저의 흥미를 고정밀도로 판정할 수 있는 것이다.
예를 들어, 종래, 유저의 대화에 출현하는 단어를 사용하여 그 유저의 흥미의 유무를 판정하였다. 이 때문에, 유저의 대화에 출현하지 않는 단어에 대해서는, 그 유저의 흥미의 유무를 판정하는 것은 곤란하게 되어 있었다.
이에 비해, 본 실시 형태에 관한 흥미 판정 장치는, 유저의 대화 정보에 포함되는 단어의 특징을 나타내는 벡터 정보이며, 유저의 기호를 나타내는 기호 모델을 취득하고, 취득된 기호 모델의 벡터 정보와, 미리 설정된 소정 단어의 특징을 나타내는 벡터 정보를 관련지은 벡터 정보를 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 출력값으로 한 학습기(후술하는 제3 신경망(9))를, 해당 입력값 및 출력값을 사용하여 학습시키고, 판정 대상인 단어의 특징을 나타내는 벡터 정보와, 기호 모델의 벡터 정보를 관련지은 벡터 정보가 학습기에 입력된 경우에, 해당 학습기로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정한다. 여기서 학습이란, 신경망을 최적화하는 것을 의미한다.
본 실시 형태에 관한 흥미 판정 장치에 있어서, 상술한 바와 같이, 유저의 기호를 종합적으로 집약한 기호 모델과, 대화 정보에는 출현하지 않은 임의의 소정 단어를 관련지은 벡터 정보를 사용하여, 학습기(학습 수단)를 학습시킨다. 따라서, 학습기에는, 대화 정보에 출현하는 유저가 흥미를 나타내는 단어에 의한 기호뿐만 아니라, 대화 정보에는 출현하지 않지만 유저가 흥미를 나타내는 단어도 포함하는 소정 단어에 의한 기호도 반영된다. 즉, 이 학습기를 사용하여, 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정함으로써, 유저의 대화에 출현하는 단어뿐만 아니라, 출현하지 않는 단어에 대해서도 해당 유저의 흥미의 유무를 고정밀도로 판정할 수 있다.
본 실시 형태에 있어서, 상술한 바와 같이 「미리 설정된 소정 단어」와 「판정 대상의 단어」는, 이들이 가끔 동일한 경우여도 되고, 다른 경우여도 된다. 본 실시 형태에 관한 흥미 판정 장치(1)는, 후자와 같은 다른 경우라도, 유저의 흥미의 유무를 고정밀도로 판정할 수 있다.
또한, 대화 로그에 출현하지 않는, 예를 들어 명사 등의 단어를 판정하는 데 있어서, 대화 로그 중의 화제에 대한 유저의 흥미가 단서가 될 것이라고 생각된다. 그래서, 본 실시 형태에 있어서는, 후술하는 바와 같이, 우선 대화 로그 중의 전체 단어에 대하여 유저가 흥미를 갖고 있는지 여부를 판정한다. 또한, 유저가 어떠한 단어에 흥미가 있는지 여부는, 그 단어의 전후의 문맥이 중요할 것이라고 추정할 수 있다. 따라서, 본 실시 형태에 있어서는, 이 단어 전후의 문맥을 고려하여, 유저가 흥미를 갖고 있는지 여부를 판정한다.
도 1은, 본 발명의 일 실시 형태에 관한 흥미 판정 장치의 개략적인 시스템 구성을 도시하는 블록도이다. 본 실시 형태에 관한 흥미 판정 장치(1)는, 형태소 해석을 행하는 형태소 해석부(2)와, 단어를 벡터로 변환하는 단어 벡터 변환부(3)와, 문장 벡터를 생성하는 문장 벡터 생성부(4)와, 기호 모델을 생성하는 기호 모델 생성부(5)와, 유저의 흥미를 판정하는 흥미 판정부(6)와, 학습기인 제1 내지 제3 신경망(7, 8, 9)을 구비하고 있다.
또한, 흥미 판정 장치(1)는, 예를 들어 연산 처리 등을 행하는 CPU(Central Processing Unit), CPU에 의해 실행되는 연산 프로그램 등이 기억된 ROM(Read Only Memory)이나 RAM(Random Access Memory)으로 이루어지는 메모리, 외부와 신호의 입출력을 행하는 인터페이스부(I/F) 등으로 이루어지는 마이크로컴퓨터를 중심으로 하여, 하드웨어로 구성되어 있다. CPU, 메모리 및 인터페이스부는, 데이터 버스 등을 통하여 서로 접속되어 있다.
형태소 해석부(2)는, 대화 로그(대화의 텍스트 정보)에 대하여 형태소 해석을 행한다. 대화 로그는, 예를 들어 메모리 등에 기억되어 있다. 또한, 대화 로그는, 입력 장치 등을 통하여, 적절하게 형태소 해석부(2)에 입력되는 구성이어도 된다. 형태소 해석부(2)는, 대화 로그를 형태소(단어)로 분할하고, 단어의 집합인 단어열을 생성한다. 형태소 해석부(2)는, 예를 들어 Mecab(일본어 형태소 해석 시스템) 등을 사용하여, 형태소 해석을 행한다.
단어 벡터 변환부(3)는, 단어열을, 그 단어열의 의미를 나타내는 단어 벡터로 변환함으로써, 단어의 의미를 수치화한다. 단어 벡터 변환부(3)는, 형태소 해석부(2)에 의해 생성된 단어열을, 단어 벡터열로 변환한다. 단어 벡터 변환부(3)는, 예를 들어 Word2Vec[Mikolov13](단어를 벡터화하여 표현하는 정량화 방법) 등을 사용하여, 형태소 해석부(2)에 의해 생성된 단어열을, d차원의 단어 벡터열 x=(x1, x2, …, xt, xk)로 변환한다. 여기서, 흥미 추정 단어 xt란, 예를 들어 유저가 흥미를 갖고 있을 것으로 추정되는 단어이며, 메모리 등에 미리 설정되어 있다.
문장 벡터 생성부(4)는, 단어 벡터열을, 그 문장의 특징을 나타내는 문장 벡터로 변환함으로써, 그 문장의 의미를 응축한다. 문장 벡터 생성부(4)는, 단어 벡터 변환부(3)에 의해 변환된 단어 벡터열을, 문장 벡터열로 변환한다.
여기서, 상기 문장 벡터열로의 변환 방법에 대하여, 구체예를 사용하여 상세하게 설명한다. 유저의 흥미 추정에 유용한 것은, 흥미 추정 단어 xt의 주변의 단어라고 생각된다. 이 때문에, 문장 벡터 생성부(4)는, 이 흥미 추정 단어 xt의 전후 J개의 단어의 벡터를 문맥으로서 사용한다.
즉, 문장 벡터 생성부(4)는, 흥미 추정 단어 xt보다 앞의 단어의 벡터열 xf=(xt-l, xt -(l+1), …, xt - 1)과, 뒤의 단어의 벡터열 xs=(xt +1, xt +2, …, xt +l)을, 각각, 제1 신경망(7)을 사용하여, 문장 벡터로 변환한다.
제1 신경망(7)은, 제2 학습부의 일 구체예이다. 제1 신경망(7)은, 예를 들어 RNN(Recurrent Neural Network)이다. 이 RNN은 중간층에 LSTM(Long Short Term Memory)을 갖고 있다. 제1 신경망(7) 대신에, SVM(Support Vector Machine) 등의 다른 학습기가 사용되어도 된다. 또한, 후술하는 실험 결과가 나타내는 바와 같이, RNN의 제1 신경망(7)을 사용하는 것이, 판정 정밀도가 양호해지기 때문에 보다 바람직하다.
제1 신경망(7)으로의 입력 시에는, 각 단어 벡터열의 종단을 의미하는 <EOS>를 삽입한다. 이 <EOS>도 벡터이며, 그 요소는 1차원째부터 d차원째까지가 0, d+1차원째가 1인 벡터이다. 각 단어 벡터열은, 축차로 제1 신경망(7)에 입력되고, <EOS> 벡터가 입력된 시점의 제1 신경망(7)의 출력이 문장 벡터로 된다.
문장 벡터 생성부(4)는, 이 xf와 xs를 각각 제1 신경망(7)에 의해 문장 벡터열 vi f, vi s로 각각 변환한다. 예를 들어, 도 2에 도시하는 바와 같이, 문장 벡터 생성부(4)는, 「NERU MAE SNS WO MI MASU"」라고 하는 대화 로그에 기초하여, 문장 벡터를 생성한다. 「NERU MAE SNS WO MI MASU」는, 설명을 위해 일본어의 발음을 알파벳을 사용하여 표기되어 있다. 또한, 「NERU MAE SNS WO MI MASU」는 「자기 전에 SNS를 봅니다」를 의미합니다. 이 대화 로그에 있어서의 흥미 추정 단어는 「SNS」이다. 또한, 도 2의 단어는, 일본어의 발음으로 표기되어 있지만, 실제로는 word2vec 등으로 변환 완료된 벡터이다.
문장 벡터 생성부(4)는, 최초로 단어 벡터열 xf(「잔다」, 「전」, 「<EOS>」)를, 문두부터 1단어씩 제1 신경망(7)에 입력해 가서, <EOS>가 입력된 시점에서의 제1 신경망(7)의 출력을, 전문맥 벡터 vf로 한다. 문장 벡터 생성부(4)는, 마찬가지로, 단어 벡터열 xs(「을」, 「봅」, 「니다」, 「<EOS>」)에 기초하여, 후문맥 벡터 vi s를 생성한다. 문장 벡터 생성부(4)는, 흥미 추정 단어(「SNS」)를 제1 신경망(7)에 입력하지 않고, 그 단어 벡터를 그대로 흥미 추정 단어 xt로서 이용한다.
이어서, 문장 벡터 생성부(4)는, 전문맥 벡터 vf, 흥미 추정 단어 xt의 벡터, 및 후문맥 벡터 vs를 결합한 결합 벡터 vsent=[vf; xt; vs]를 생성한다. 또한, 세미콜론은 벡터의 결합을 나타내고, 이하 마찬가지로 표기한다. 문장 벡터 생성부(4)는, 이 결합 벡터 vsent를 사용하여, 흥미 추정 단어 xt에 대한 유저의 흥미 유무의 판정을 행한다. 문장 벡터 생성부(4)는, 결합 벡터 vsent를 제2 신경망(8)에 입력한다.
제2 신경망(8)은, 제3 학습부의 일 구체예이다. 이 제2 신경망(8)은, 2차원의 확률 분포이며, 각각 흥미 추정 단어 xt에 흥미가 있는 「흥미; 있음」의 확률과, 흥미가 없는 「흥미; 없음」의 확률을 출력한다. 제2 신경망(8)은, 「흥미; 있음」의 확률만을 출력하는 구성이어도 된다.
제2 신경망(8) 대신에, SVM(Support Vector Machine) 등의 다른 학습기가 사용되어도 된다. 또한, 후술하는 실험 결과가 나타내는 바와 같이, 전체 결합층의 제2 신경망(8)을 사용하는 것이, 판정 정밀도가 양호해지기 때문에 보다 바람직하다.
도 3은, 상술한 제1 및 제2 신경망(7, 8)의 구조를 설명하기 위한 도면이다. 도 3에 도시하는 바와 같이, 형태소 해석부(2)는, 대화 로그에 대하여 형태소 해석을 행하여, 흥미 추정 단어(판정 단어)와, 그 판정 단어보다 앞의 전반 문맥어(단어 1, …, 단어 N, EOS)와, 그 판정 단어보다 뒤의 후반 문맥어(단어 1, …, 단어 N, EOS)를 단어 벡터 변환부(3)에 출력한다. 단어 벡터 변환부(3)는, 형태소 해석부(2)로부터의 전반 문맥어, 흥미 추정 단어 및 후반 문맥어를 각각 단어 벡터열로 변환하고, 변환한 단어 벡터열을 문장 벡터 생성부(4)에 출력한다.
문장 벡터 생성부(4)는, 단어 벡터 변환부(3)로부터의 전반 문맥어 및 후반 문맥어의 단어 벡터열을, 제1 신경망(7)에 입력한다. 제1 신경망(7)은, 그 입력에 따라, 전문맥 벡터 및 후문맥 벡터를 출력한다. 문장 벡터 생성부(4)는, 제1 신경망(7)으로부터 출력되는 전문맥 벡터 및 후문맥 벡터와, 흥미 추정 단어의 벡터를, 벡터 결합기를 사용하여 결합함으로써 결합 벡터 vsent를 생성하고, 생성된 결합 벡터 vsent를 제2 신경망(8)에 입력한다.
여기서, 제2 신경망(8)은, 예를 들어 전체 결합층(Res-Net 8층)으로서 구성되어 있다. 제2 신경망(8)은, 상기 입력에 대하여, 2차원의 클래스 「흥미; 있음」의 확률과, 클래스 「흥미; 없음」의 확률을 출력한다.
문장 벡터 생성부(4)는, 예를 들어 메모리 등에 기억된 학습 데이터를 사용하여, 상술한 제1 및 제2 신경망(7, 8)을 최적화한다.
도 4는, 제1 및 제2 신경망의 최적화 방법을 설명하기 위한 도면이다. 학습 데이터는, 예를 들어 대화 로그(n)과, 그 대화 로그(n)(n=1, …, N)에 대한 유저의 흥미를 나타내는 흥미 태그(n)을 대응지은 데이터이다. 클래스 「흥미; 있음」의 경우, 흥미 태그(n)에는 1이 설정되고(흥미 태그(n)=1), 클래스 「흥미; 없음」의 경우, 흥미 태그(n)에는 0이 설정된다(흥미 태그(n)=0).
도 4에 도시하는 바와 같이, 전체 대화 로그(n)(n=1, …, N)에 관하여 상술한 처리를 반복하고, 또한 이포크(epoch) 횟수 반복하여, 제1 및 제2 신경망(7, 8)을 최적화한다. 이때, 문장 벡터 생성부(4)는, 대화 로그(n)에 대하여, 제2 신경망(8)으로부터 출력되는 클래스 「흥미; 있음」의 확률 및 클래스 「흥미; 없음」의 확률과, 대화 로그(n)에 대응지어진 흥미 태그(n)의 오차를 최소화하도록, 제1 및 제2 신경망(7, 8)을 최적화한다.
문장 벡터 생성부(4)는, 상술한 최적화된 제2 신경망(8)에 기초하여, 흥미 추정 단어 xt에 관한 유저의 흥미 유무를 판정한다. 이때 「흥미 있음」으로 판정된 결합 벡터 vsent는, 주 목적인 잠재적 흥미 추정을 위한 단서라고 간주할 수 있다. 따라서, 문장 벡터 생성부(4)는, 「흥미 있음」으로 판정된 경우에, 그 결합 벡터 vsent를 메모리 등에 보존한다. 본 실시 형태에 관한 흥미 판정 장치(1)는, 후술하는 바와 같이, 이 메모리에 보존된 결합 벡터 vsent에 기초하여 기호 모델을 생성하고, 이 기호 모델에 기초하여, 판정 대상의 단어에 대한 유저의 흥미 유무의 판정을 행한다.
기호 모델 생성부(5)는, 유저 기호를 표현하는 기호 모델을 생성한다. 이에 의해, 유저가 흥미를 갖는 단어 정보를 집약할 수 있다. 즉, 이 기호 모델은, 유저의 기호를 종합적으로 집약한 정보로 된다. 따라서, 이 유저 기호를 고정밀도로 반영한 기호 모델을 사용함으로써, 후술하는 바와 같이 유저의 흥미 유무를 고정밀도로 판정할 수 있다.
이어서, 기호 모델의 생성 방법에 대하여 상세하게 설명한다. 기호 모델은, 각 유저의 대화 로그에 포함되는 단어의 특징을 나타내는 벡터 정보를 유저마다 분류한 정보이다. 기호 모델 생성부(5)는, 문장 벡터 생성부(4)에 의해 생성된 결합 벡터 vsent에 기초하여, 기호 모델을 생성한다.
기호 모델 생성부(5)는, 상기 메모리에 보존한 결합 벡터 vsent에 기초하여, 예를 들어 유저마다의 결합 벡터 vsent의 평균값을 기호 모델로서 산출한다. 이와 같이, 결합 벡터 vsent의 평균값을 산출함으로써, 보다 고정밀도로 유저 기호를 표현한 기호 모델을 생성할 수 있고, 이 기호 모델을 사용하여, 후술하는 바와 같이, 판정 대상의 단어에 대하여, 유저의 흥미의 유무를 보다 고정밀도로 판정할 수 있다.
또한, 기호 모델 생성부(5)는, 유저마다의 결합 벡터 vsent의 평균값을 기호 모델로서 산출하고 있지만, 이것에 한정되지 않는다. 예를 들어, 기호 모델 생성부(5)는, 상기 메모리에 보존한 결합 벡터 vsent를 가산한 가산값을 기호 모델로서 산출해도 된다. 또한, 기호 모델 생성부(5)는, 상기 메모리에 보존한 결합 벡터 vsent에 각각 가중치 부여를 행하고, 가산한 가산값을 기호 모델로서 산출해도 되고, 유저 기호를 보다 적절하게 반영할 수 있다면 임의의 산출 방법을 적용해도 된다.
도 5는, 기호 모델의 생성 과정의 일례를 설명한 도면이다. 예를 들어, 도 5에 도시하는 바와 같이, 형태소 해석부(2)는, 학습 데이터(흥미 태그=1(흥미 있음 판정)인 대화 로그(1) 내지 대화 로그(N1))에 대하여 형태소 해석을 행하여, 전반 문맥어와, 흥미 추정 단어와, 후반 문맥어를 단어 벡터 변환부(3)에 출력한다. 단어 벡터 변환부(3)는, 형태소 해석부(2)로부터의 전반 문맥어, 흥미 추정 단어 및 후반 문맥어를 각각 단어 벡터열로 변환하고, 변환한 단어 벡터열을 문장 벡터 생성부(4)에 출력한다.
문장 벡터 생성부(4)는, 단어 벡터 변환부(3)로부터의 전반 문맥어 및 후반 문맥어의 단어 벡터열을, 상기 최적화된 제1 신경망(7)에 입력한다. 최적화된 제1 신경망(7)은, 그 입력에 따라, 전문맥 벡터 및 후문맥 벡터를 출력한다. 문장 벡터 생성부(4)는, 최적화된 제1 신경망(7)으로부터 출력되는 전문맥 벡터 및 후문맥 벡터와, 흥미 추정 단어의 벡터를, 벡터 결합기를 사용하여 결합하고, 결합 벡터 vsent를 생성한다.
문장 벡터 생성부(4)의 벡터 결합기는, 상술한 바와 같이, 대화 로그(1) 내지 대화 로그(N1)에 관하여, 각각, 결합 벡터 vsent를 생성하고, 출력한다.
기호 모델 생성부(5)는, 벡터 결합기로부터의 대화 로그(1) 내지 대화 로그(N1)의 결합 벡터 vsent의 평균값을 산출(평균화 처리)함으로써, 기호 모델을 생성한다. 또한, 기호 모델은, 미리 메모리 등에 기억되어 있어도 된다. 이 경우, 흥미 판정부(6)는, 메모리에 기억된 기호 모델을 적절하게 읽어들이도록 해도 된다.
흥미 판정부(6)는, 임의의 판정 대상의 단어에 대하여, 유저의 흥미의 유무를 판정함으로써, 대화 로그에 없는 단어에 대해서도 흥미의 유무를 판정한다. 흥미 판정부(6)는, 판정부의 일 구체예이다. 흥미 판정부(6)는, 기호 모델 생성부(5)에 의해 생성된 기호 모델에 기초하여, 제3 신경망(9)을 사용하여, 임의의 단어에 대하여, 유저의 흥미의 유무를 판정한다. 제3 신경망(9)은, 제1 학습부의 일 구체예이다.
도 6은, 제3 신경망의 구조를 도시하는 도면이다. 제3 신경망(9)은, 예를 들어 제2 신경망(8)과 마찬가지로, 전체 결합층(Res-Net 8층)으로서 구성되어 있다.
또한, 제3 신경망(9) 대신에, SVM(Support Vector Machine) 등의 다른 학습기가 사용되어도 된다. 또한, 후술하는 실험 결과가 나타내는 바와 같이, 전체 결합층의 제3 신경망(9)을 사용하는 것이, 판정 정밀도가 양호해지기 때문에 가장 바람직하다.
단어 벡터 변환부(3)는, 단어를 단어 벡터열로 변환하고, 변환한 단어 벡터열을 문장 벡터 생성부(4)에 출력한다. 문장 벡터 생성부(4)의 벡터 결합기는, 단어 벡터 변환부(3)로부터의 단어 벡터열과, 기호 모델 생성부(5)로부터의 기호 모델의 결합 벡터 vsent의 평균값을 결합한 결합 벡터를 제3 신경망(9)에 입력한다. 여기서, 단어의 단어 벡터열에, 기호 모델의 결합 벡터 vsent의 평균값을 결합하는 것은, 그 단어에 기호 모델의 기호를 부여하는 의미가 있으며, 이 결합에 의해, 단어에 기호 모델의 기호가 반영된다.
예를 들어, 유저 uj(j=0, 1, …)에 관한 결합 벡터 vsent의 평균값을 auj라고 한다. 또한, 임의의 단어의 단어 벡터열을 wuj=(w1 uj, w2 uj, …, wn uj)라고 한다. 벡터 결합기는, 결합 벡터 vsent의 평균값 auj와, 단어 벡터열 wuj를 결합한 결합 벡터 [auj; wi uj]를 제3 신경망(9)에 입력한다. 제3 신경망(9)은, 그 입력에 따라, 2차원의 클래스 「흥미; 있음」의 확률과, 클래스 「흥미; 없음」의 확률을 출력한다. 제3 신경망(9)은, 그 입력에 따라 「흥미; 있음」의 확률만을 출력하는 구성이어도 된다.
흥미 판정부(6)는, 상술한 바와 같이 구성된 제3 신경망(9)을 최적화한다. 흥미 판정부(6)는, 예를 들어 메모리 등에 기억된 학습 데이터를 사용하여, 상술한 제3 신경망(9)을 최적화한다.
도 7은, 제3 신경망의 최적화 방법을 설명하기 위한 도면이다. 제3 신경망(9)의 최적화에 사용되는 학습 데이터는, 예를 들어 소정 단어(m)과, 그 소정 단어(m)(m=1, …, M)에 대한 유저의 흥미를 나타내는 흥미 태그(m)을 대응지은 데이터이다. 소정 단어는, 예를 들어 유저의 대화 로그에 출현하지 않는 단어도 포함하는 임의의 단어이다.
클래스 「흥미; 있음」의 경우, 흥미 태그(m)에는 1이 설정되고(흥미 태그(m)=1), 클래스 「흥미; 없음」의 경우, 흥미 태그(m)에는 0이 설정된다(흥미 태그(m)=0). 학습 데이터는, 예를 들어 메모리 등에 미리 기억되어 있다.
도 7에 도시하는 바와 같이, 전체 소정 단어(m)(m=1, …, M)에 관하여 상술한 처리를 반복하고, 또한 이포크(epoch) 횟수 반복하여, 제3 신경망(9)을 최적화한다. 이때, 흥미 판정부(6)는, 소정 단어(m)에 대하여, 제3 신경망(9)으로부터 출력되는 클래스 「흥미; 있음」의 확률 및 클래스 「흥미; 없음」의 확률과, 소정 단어(m)에 대응지어진 흥미 태그(m)의 오차를 최소화하도록, 제3 신경망(9)을 최적화한다.
흥미 판정부(6)는, 기호 모델 생성부(5)에 의해 생성된 기호 모델에 기초하여, 상술한 바와 같이 최적화된 제3 신경망(9)을 사용하여, 판정 대상의 단어에 대하여, 유저의 흥미의 유무를 판정한다.
상술한 바와 같이, 소정 단어의 단어 벡터열에, 기호 모델의 결합 벡터 vsent의 평균값을 결합하는 것은, 그 소정 단어에 기호 모델의 기호를 부여하는 의미가 있으며, 이 결합에 의해, 소정 단어에 기호 모델의 기호가 반영된다. 그리고, 소정 단어는 대화 로그에 출현하지 않는 단어도 포함하는 임의의 단어라는 점에서, 대화 로그에 출현하지 않는 단어에 대해서도 유저의 기호를 반영할 수 있다. 이와 같이 하여, 생성된 학습 데이터를 사용하여 제3 신경망(9)을 최적화하고, 이 최적화한 제3 신경망(9)을 사용함으로써, 유저의 대화에 출현하는 단어뿐만 아니라, 출현하지 않는 단어에 대해서도 해당 유저의 흥미의 유무를 고정밀도로 판정할 수 있다.
도 8은, 판정 대상의 단어에 대한 유저의 흥미의 유무 판정 방법을 설명하기 위한 도면이다. 단어 벡터 변환부(3)는, 판정 대상의 단어를 단어 벡터열로 변환하고, 변환한 단어 벡터열을 문장 벡터 생성부(4)에 출력한다. 문장 벡터 생성부(4)의 벡터 결합기는, 단어 벡터 변환부(3)로부터의 단어 벡터열 wuj와, 기호 모델 생성부(5)로부터의 기호 모델의 결합 벡터 vsent의 평균값 auj를 결합한 결합 벡터 [auj; wi uj]를 생성한다.
그리고, 문장 벡터 생성부(4)는, 생성된 결합 벡터 [auj; wi uj]를 제3 신경망(9)에 입력한다. 제3 신경망(9)은, 그 입력에 따라, 2차원의 클래스 「흥미; 있음」의 확률과, 클래스 「흥미; 없음」의 확률을 출력한다. 이 제3 신경망(9)의 출력은, 대화 로그 중의 단어의 흥미 추정 시와 마찬가지로, 흥미의 유무에 관한 2차원의 확률 분포이다. 흥미 판정부(6)는, 제3 신경망(9)으로부터 출력되는 클래스 「흥미; 있음」의 확률과, 클래스 「흥미; 없음」의 확률에 기초하여, 판정 대상의 단어에 대한 잠재적 흥미 유무를 판정할 수 있다.
본 실시 형태에 있어서, 상술한 제1 내지 제3 신경망(7, 8, 9)은, 서로 독립된 것이 아니라, 서로 관련되어 있어도 된다. 즉, 제1 및 제2 신경망(7, 8)의 출력에 따라, 제3 신경망(9)의 입력이 변화하는 관계로 되어도 된다.
또한, 이들 제1 내지 제3 신경망(7, 8, 9)을 효율적으로 학습시키기 위해, 예를 들어 상술한 제2 신경망(8)의 최적화 시에 있어서의 정답과의 오차와, 제3 신경망(9)의 최적화 시에 있어서의 정답과의 오차의 합을 손실 함수라고 한다. 이와 같이, 손실 함수를 사용하여 제1 내지 제3 신경망(9)을 동시에 최적화함으로써, 대화 로그로부터의 적절한 문장 벡터를 추출할 수 있으면서, 잠재적 흥미 대상 단어에 대해서도 흥미의 유무를 고정밀도로 판정할 수 있다.
이어서, 상술한 본 실시 형태에 관한 흥미 판정 장치(1)에 의한 흥미 판정 방법의 플로우를 설명한다. 도 9는, 본 실시 형태에 관한 흥미 판정 방법의 플로우를 도시하는 개략적인 흐름도이다.
제1 및 제2 신경망(7, 8)은, 유저의 대화 로그에 기초하여 최적화된다(스텝 S101).
기호 모델 생성부(5)는, 최적화된 제1 신경망(7)으로부터 출력되는 문장 벡터를 결합한 결합 벡터 vsent의 평균값을 산출함으로써, 기호 모델을 생성한다(스텝 S102).
제3 신경망(9)은, 기호 모델의 결합 벡터의 평균값과, 미리 설정된 소정 단어의 벡터를 결합한 결합 벡터를 사용하여, 학습하고, 최적화된다(스텝 S103).
최적화된 제3 신경망(9)은, 판정 대상의 단어의 벡터와, 기호 모델의 결합 벡터의 평균값을 결합한 벡터가 입력되면, 클래스 「흥미; 있음」의 확률 및 클래스 「흥미; 없음」의 확률을 출력한다(스텝 S104).
흥미 판정부(6)는, 최적화된 제3 신경망(9)으로부터 출력되는 클래스 「흥미; 있음」의 확률 및 클래스 「흥미; 없음」의 확률에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정한다(스텝 S105).
이어서, 본 실시 형태에 관한 흥미 판정 장치(1)에 있어서, 2명의 유저에 의한 대화 데이터를 사용하여 성능 평가 실험을 행하였다. 그 실험 결과에 대하여, 이하에 설명한다.
대화 데이터 중의 모든 명사에는, 유저의 흥미의 유무를 의미하는 라벨을 부여하고 있다. 성능 평가 실험에 있어서, 대화 데이터는, 1대화에 포함되는 발화수로 2등분되며, 전반부를 흥미 판정 장치(1)에 제공하는 대화 로그, 후반부의 명사를 잠재적 흥미의 추정 대상으로 하였다(후반부의 대화 데이터는 흥미 판정 장치(1)에는 제공하지 않음). 잠재적 흥미 추정의 명사는, 후반부의 대화 데이터에 있어서, 어느 유저의 발화에 포함되어 있었는가라고 하는 관점에서 유저별로 제공되며, 그 명사를 포함하는 발화를 행한 유저가 흥미를 갖는지 여부를 판정함으로써 본 실시 형태에 관한 흥미 판정 장치(1)를 평가한다.
여기서, 실험에서 사용한 대화 데이터에 대하여 상세하게 설명한다. 대화 데이터는 크라우드 소싱 서비스로 피험자를 모집하고, 1대화 1시간의 데이터를 100건 수집하였다. 학습 및 평가를 위해, 수집한 대화 데이터에 포함되는 모든 명사에 대하여 애너테이터가 흥미를 갖고 있는지 여부의 애너테이션을 부여하였다. 명사의 추출은 형태소 해석부(2)에 의해 자동으로 행하였다. 애너테이터는, 대화 데이터와 대화 중에서 사용된 명사가 제공되며, 각 명사에 대하여 「흥미 있음」 혹은 「판단 불능 or 흥미 없음」의 2종류의 라벨 중 어느 것을 부여하였다. 부여 기준은 「애너테이션 대상의 명사를 포함하는 발화를 한 애너테이터에게 「당신 ○○(당해 명사가 들어감)」에 흥미가 있습니까?」 혹은 「당신은 「○○(당해 명사가 들어감)」에 관한 화제에 흥미가 있습니까?」라고 하는 질문을 하였을 때의, 그 애너테이터의 「예상 회답」으로 하였다. 질문의 「○○에 명사를 넣었을 때, 일본어로서 의미가 통하지 않는 경우에는 「판단 불능ㆍ흥미 없음」의 라벨을 부여하기로 하였다. 이상의 기준에 의해, 모집한 애너테이터 10명이 개별적으로 애너테이션을 행하여, 다수결에 의해 정답 라벨을 결정하였다. 「흥미 있음」과 「판단 불능 or 흥미 없음」이 각각 동일 수(5명씩)였던 경우에는 「판단 불능 or 흥미 없음」으로 하였다. 도 10은, 사용한 데이터의 통계 정보의 일례를 도시하는 도면이다. 애너테이터간의 애너테이션의 일치도를 나타내는 Fleiss' Kappa는 0.50이며, 중간 정도의 일치를 나타내었다.
이어서, 실험 설정에 대하여 상세하게 설명한다. Word2Vec는, 윈도우 사이즈는 5, 최소 출현 빈도는 10, 벡터의 차원수는 1000으로 하고, 약 100GB의 데이터를 사용하여 학습을 행하였다. 문맥 벡터에 대한 인코드에는, 흥미 추정 명사의 전후 5개씩을 사용하였다(J=5). 문맥 벡터에 대한 인코드를 행하는 RNN(제1 신경망(7))의 입력층은 1001차원, 대화 중의 명사의 흥미 추정을 위한 제2 신경망(8)의 입력층은 3000차원, 잠재적 흥미 추정을 위한 제3 신경망(9)의 입력층은 4000차원, 그 밖의 중간층의 차원은 모두 1000차원으로 하였다. 또한, 모든 중간층에 dropout를 적용하고, dropout율은 30%로 하였다. 학습 이포크수는 30으로 하고, 10분할 교차 검정에서 「흥미 있음」 판정의 정밀도, 재현율, F값에 의해 평가하였다.
이어서, 비교 방법에 대하여 상세하게 설명한다. 본 실시 형태에 관한 방법의 평가를 위해, 2개의 신경망을 동시에 갱신하는 unite 모델과, 잠재적 흥미 추정을 위한 제3 신경망(9)을 분리한 separate 모델, 및 제1 내지 제3 신경망(7, 8, 9)의 층의 수를 모두 1층으로 한 shallow 모델과, 모두 8층의 ResNet[He16]로 한 deep 모델을 준비하였다. separate 모델은, 문맥 벡터에 대한 인코드를 위한 제1 및 제2 신경망(7, 8)과, 제3 신경망(9)을 분리하고, 손실 함수도 별도로 하였다. 또한, 이 제3 신경망(9)을 분리하기 위해, 잠재적 흥미 추정을 위해 제1 신경망(7)의 출력(문맥 벡터)을 사용하지 않고, 평균 문장 벡터 대신에 평균 단어 벡터를 사용한다. 평균하는 단어 벡터의 선택에는, unite 모델과 동일하게, 제2 신경망(8)의 결과를 사용한다. 실험에서는, 상기 각각을 조합한 separateshallow, separatedeep, uniteshallow, unitedeep의 4개의 설정에서 실험을 행하였다. 또한 베이스 라인 방법으로서, 이하의 2개의 방법에 의한 실험을 행하였다.
베이스 라인 1:
단어 유사도 베이스 라인으로서, 대화 로그 중의 명사와의 유사도에 의해, 잠재적 흥미의 추정을 행한다. 본 방법은 대화 로그에 포함되는 전체 명사를 Word2Vec에 의해 단어 벡터로 변환하고, 그 단어 벡터의 평균과, 잠재적 흥미 추정 명사의 벡터의 코사인 유사도에 의해 「흥미 있음」인지 「판단 불능 or 흥미 없음」인지를 판정한다. 유사도의 역치는 0.0부터 1.0까지 0.1 간격으로 변경시켜 평가를 행하고, F값이 최대로 된 결과를 이 방법의 결과로 한다.
베이스 라인 2: SVM
또 하나의 베이스 라인으로서, SVM에 의한 판정을 행한다. 본 방법에서는 베이스 라인 1의 단어 유사도에서 사용한 평균 벡터와, 잠재적 흥미 추정 명사의 벡터를 결합한 벡터를 입력 벡터로 하여, 잠재적 흥미의 유무를 SVM에 의해 2치 분류한다.
이어서, 실험 결과에 대하여, 상세하게 설명한다. 도 11은, 실험 결과를 도시하는 도면이다. 도 11에 도시하는 바와 같이, unitedeep의 F값이 가장 높고, 계속해서 uniteshallow, separateshallow, separatedeep의 순으로 되며, 상기 베이스 라인 방법의 단어 유사도 및 SVM보다 우수한 성능을 나타내었다.
단어 유사도의 방법에서는, 대화 로그에 포함되는 전체 명사를 사용하였기 때문에, 평균 단어 벡터의 계산에 흥미의 유무와는 관계없는 단어도 많이 사용되게 되었으므로, 낮은 성능에 머물렀다고 생각된다.
상기 신경망 베이스의 흥미 판정 방법이 SVM보다 우수한 이유로서는, 신경망 베이스의 4개의 모델이 RNN을 사용하여 발화의 문맥 정보를 이용하고 있는 것에 비해, SVM 모델이 발화 중의 명사에만 주목하여 추정하고 있는 것이 고려된다.
신경망 베이스의 모델끼리 비교하면, separateshallow 모델과 separatedeep 모델에 대하여, uniteshal1ow 모델 및 unitedeep 모델이 우수한 추정 결과를 나타내고 있다.
이 점에서, 2개의 누적 오차를 통합하여 모델 전체를 학습시킨다고 하는 본 실시 형태에 관한 흥미 판정 방법이 유효하였음을 알 수 있다. shallow와 deep의 차이에 주목하면, separate 모델에 있어서는, shallow 쪽이 deep보다 F값이 크고 좋은 결과로 되었다. 한편, unite 모델에 있어서는, shallow보다 deep 쪽이, 약간 F값이 크고 좋은 결과로 되었다. 특히, unitedeep 모델은 모든 방법 중에서도 최선의 결과로 되었다. 이 점에서, 많은 층을 갖는 신경망과 unite 모델의 조합이 유효하였음이 시사되었다.
도 12는, 실험에서 사용한 1대화의 전반에서 일부를 빼낸 도면이다. 이 대화 중의 후반에서 추출한 잠재적 흥미 추정 명사에 대하여, unite 모델에서 잠재적 흥미의 판정을 행한 결과의 일부를 도 13에, SVM에서 판정을 행한 결과의 일부를 도 14에 도시한다. 도 13 및 도 14에서는 「흥미 있음」을 ○, 「불명ㆍ흥미 없음」을 ×로 나타낸다.
대화예로부터, 유저 1과 유저 2는 모두 술에 흥미를 갖고 있음을 알 수 있다. 여기서, 술 안주에 대하여 일정한 흥미가 있다고 생각되는데, 본 실시 형태에 관한 신경망, SVM 모두 「치즈」, 「훈제」, 「생 햄」에 대하여 올바르게 흥미 판정이 되어 있음을 알 수 있다. 또한, 본 실시 형태에 관한 신경망에 따르면, 유저 1은 「악기」나 「기타」 등 음악에 관한 것에 흥미가 있고, 유저 2는 그다지 흥미가 없음도 올바르게 판정되어 있다. 한편, SVM에서는, 화자별 판정에 실패하였으며, 유저 1과 유저 2에서 공통되어 있는 단어 「치즈」, 「악기」, 「기타」는 양자 모두 전부 흥미 있음으로 판정되어 있음을 알 수 있다. 이상의 결과로부터, 본 실시 형태에 관한 신경망에 의해, 유저별로 올바르게 잠재적 흥미가 판정되어 있음을 확인할 수 있었다.
이상, 본 실시 형태에 관한 흥미 판정 장치에 있어서, 제3 신경망(9)은, 유저의 기호를 나타내는 기호 모델의 벡터 정보와, 미리 설정된 소정 단어의 벡터를 관련지은 벡터 정보를 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 출력값으로 하여, 해당 입력값 및 출력값을 사용하여 학습한다. 판정 대상인 단어의 특징을 나타내는 벡터 정보와, 기호 모델의 벡터 정보를 관련지은 벡터 정보가 제3 신경망(9)에 입력된다. 흥미 판정부(6)는, 제3 신경망(9)으로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정한다.
이에 의해, 유저의 기호를 종합적으로 집약한 기호 모델과, 대화 정보에 출현하지 않은 임의의 소정 단어를 관련지은 벡터 정보를 사용하여, 제3 신경망(9)을 학습시킨다. 따라서, 제3 신경망(9)에는, 대화 정보에 출현하는 유저가 흥미를 나타내는 단어에 의한 기호뿐만 아니라, 대화 정보에는 출현하지 않지만 유저가 흥미를 나타내는 단어도 포함하는 소정 단어에 의한 기호도 반영된다. 즉, 이 제3 신경망(9)을 사용하여, 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정함으로써, 유저의 대화에 출현하는 단어뿐만 아니라, 출현하지 않는 단어에 대해서도 해당 유저의 흥미의 유무를 고정밀도로 판정할 수 있다.
또한, 본 발명은 상기 실시 형태에 한정된 것은 아니며, 취지를 일탈하지 않는 범위에서 적절하게 변경하는 것이 가능하다. 예를 들어, 상기 실시 형태에 있어서, 흥미 판정 장치(1)에 포함되는 각 구성(형태소 해석부(2), 단어 벡터 변환부(3), 문장 벡터 생성부(4), 기호 모델 생성부(5), 흥미 판정부(6), 제1 내지 제3 신경망(7, 8, 9))이나 도 4 등에 기재된 「학습 데이터」는, 그것들이 하나의 장치, CPU 등 안에 폐쇄되어 있는 경우뿐만 아니라, 각각 또는 임의의 조합마다 CPU나 PC를 설치하도록 해도 되며, 그것들을 통신 회선으로 연결하는 것도 가능하다.
본 발명은, 예를 들어 도 9에 도시하는 처리를, CPU에 컴퓨터 프로그램을 실행시킴으로써 실현하는 것도 가능하다.
프로그램은, 여러 가지 타입의 비일시적인 컴퓨터 가독 매체(non-transitory computer readable medium)를 사용하여 저장되어, 컴퓨터에 공급할 수 있다. 비일시적인 컴퓨터 가독 매체는, 여러 가지 타입의 실체가 있는 기록 매체(tangible storage medium)를 포함한다. 비일시적인 컴퓨터 가독 매체의 예는, 자기 기록 매체(예를 들어 플렉시블 디스크, 자기 테이프, 하드디스크 드라이브), 광자기 기록 매체(예를 들어 광자기 디스크), CD-ROM(Read Only Memory), CD-R, CD-R/W, 반도체 메모리(예를 들어, 마스크 ROM, PROM(Programmable ROM), EPROM(Erasable PROM), 플래시 ROM, RAM(random access memory))를 포함한다.
프로그램은, 여러 가지 타입의 일시적인 컴퓨터 가독 매체(transitory computer readable medium)에 의해 컴퓨터에 공급되어도 된다. 일시적인 컴퓨터 가독 매체의 예는, 전기 신호, 광신호 및 전자파를 포함한다. 일시적인 컴퓨터 가독 매체는, 전선 및 광파이버 등의 유선 통신로 또는 무선 통신로를 통하여, 프로그램을 컴퓨터에 공급할 수 있다.

Claims (10)

  1. 흥미 판정 장치(1)에 있어서,
    유저의 대화 정보에 포함되는 단어의 특징을 나타내는 제1 데이터군을 취득하도록 구성되는 데이터 취득부와,
    상기 데이터 취득부에 의해 취득된 제1 데이터군과, 소정 단어의 특징을 나타내는 제2 데이터군을 관련지은 데이터군을 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 학습하도록 구성되는 제1 학습부(9)와,
    판정 대상인 단어의 특징을 나타내는 제3 데이터군과, 상기 데이터 취득부에 의해 취득된 상기 제1 데이터군을 관련지은 데이터군이 상기 제1 학습부(9)에 입력된 경우에, 해당 제1 학습부(9)로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하도록 구성되는 판정부(6)를 포함하는, 흥미 판정 장치(1).
  2. 제1항에 있어서, 상기 데이터 취득부에 의해 취득되는 상기 제1 데이터군은, 유저의 대화 정보에 포함되는 단어의 특징을, 정량화하여 벡터화된 정보로서 표현되는 제1 벡터 정보이고,
    상기 제1 학습부(9)는, 상기 데이터 취득부에 의해 취득된 상기 제1 벡터 정보와, 미리 설정된 소정 단어의 특징을 나타내는 상기 제2 데이터군으로서의 제2 벡터 정보를 관련지은 벡터 정보를 상기 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 상기 제2 출력값으로 하여, 해당 제1 입력값 및 제2 출력값을 사용하여 학습하고,
    상기 판정부(6)는, 판정 대상인 단어의 특징을 나타내는 제3 벡터 정보와, 상기 데이터 취득부에 의해 취득된 상기 제1 벡터 정보를 관련지은 벡터 정보가 상기 제1 학습부(9)에 입력된 경우에, 해당 제1 학습부(9)로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하는, 흥미 판정 장치(1).
  3. 제2항에 있어서, 상기 데이터 취득부에 의해 취득되는 상기 제1 데이터군은, 유저의 대화 정보에 포함되는 단어의 특징을, 해당 유저의 기호를 나타내는 모델로서 나타낸 기호 모델인, 흥미 판정 장치(1).
  4. 제3항에 있어서, 상기 데이터 취득부는, 상기 유저의 대화 정보 중에서, 해당 유저가 흥미를 나타내는 흥미 추정 단어와, 해당 흥미 추정 단어로부터 소정 개수 전의 전반 문맥어와, 해당 흥미 추정 단어로부터 소정 개수 후의 후반 문맥어를 단어의 벡터로 변환하는 단어 벡터 변환부(3)와, 상기 단어 벡터 변환부(3)에 의해 변환된 전반 문맥어 및 후반 문맥어의 벡터를, 제2 학습부(7)를 사용하여, 각각, 문장의 특징을 나타내는 전문맥 벡터 및 후문맥 벡터를 변환하고, 해당 변환한 전문맥 벡터 및 후문맥 벡터와 상기 흥미 추정 단어의 벡터를 결합한 결합 벡터를 생성하도록 구성되는 문장 벡터 생성부(4)를 갖는, 흥미 판정 장치(1).
  5. 제4항에 있어서, 상기 문장 벡터 생성부(4)는, 유저가 흥미를 나타낸 대화 정보에 관하여, 상기 결합 벡터를 각각 생성하고,
    상기 데이터 취득부는, 상기 문장 벡터 생성부(4)에 의해 생성된 상기 각 결합 벡터의 평균값을, 상기 기호 모델에 있어서의 유저의 벡터 정보로서 산출하도록 구성되는 기호 모델 생성부(5)를 더 갖는, 흥미 판정 장치(1).
  6. 제4항 또는 제5항에 있어서, 상기 문장 벡터 생성부(4)에 의해 생성되는 결합 벡터를 제2 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제2 출력값으로 하여, 해당 제2 입력값 및 제2 출력값을 사용하여 최적화되도록 구성되는 제3 학습부(8)를 더 포함하는, 흥미 판정 장치(1).
  7. 제6항에 있어서, 상기 제1 학습부(9), 제2 학습부(7) 및 제3 학습부(8)는 동시에 최적화되는, 흥미 판정 장치(1).
  8. 제6항 또는 제7항에 있어서, 상기 제1 학습부(9), 제2 학습부(7) 및 제3 학습부(8)는 신경망으로 구성되어 있는, 흥미 판정 장치(1).
  9. 흥미 판정 방법에 있어서,
    유저의 대화 정보에 포함되는 단어의 특징을 나타내는 제1 데이터군을 취득하는 것과,
    상기 제1 데이터군과, 소정 단어의 특징을 나타내는 제2 데이터군을 관련지은 데이터군을 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 제1 학습부(9)를 학습시키는 것과,
    판정 대상인 단어의 특징을 나타내는 제3 데이터군과, 상기 취득된 제1 데이터군을 관련지은 데이터군이 상기 제1 학습부(9)에 입력된 경우에, 해당 제1 학습부(9)로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하는 것을 포함하는, 흥미 판정 방법.
  10. 컴퓨터가 판독 가능한 기억 매체에 있어서,
    컴퓨터 프로그램을 기억하는 기억부를 포함하고,
    상기 컴퓨터 프로그램이 실행되었을 때, 컴퓨터에 이하의 처리를 실행시키는, 컴퓨터가 판독 가능한 기억 매체.
    i) 유저의 대화 정보에 포함되는 단어의 특징을 나타내는 제1 데이터군을 취득하는 처리와,
    ii) 상기 제1 데이터군과, 소정 단어의 특징을 나타내는 제2 데이터군을 관련지은 데이터군을 제1 입력값으로 하고, 유저의 흥미의 유무를 나타내는 정보를 제1 출력값으로 하여, 해당 제1 입력값 및 제1 출력값을 사용하여 제1 학습부(9)를 학습시키는 처리와,
    iii) 판정 대상인 단어의 특징을 나타내는 제3 데이터군과, 상기 취득된 제1 데이터군을 관련지은 데이터군이 상기 제1 학습부(9)에 입력된 경우에, 해당 제1 학습부(9)로부터 출력된 출력값에 기초하여, 해당 판정 대상의 단어에 대한 유저의 흥미의 유무를 판정하는 처리.

KR1020180048008A 2017-05-01 2018-04-25 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 KR102057184B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017091246A JP6794921B2 (ja) 2017-05-01 2017-05-01 興味判定装置、興味判定方法、及びプログラム
JPJP-P-2017-091246 2017-05-01

Publications (2)

Publication Number Publication Date
KR20180121831A true KR20180121831A (ko) 2018-11-09
KR102057184B1 KR102057184B1 (ko) 2019-12-18

Family

ID=62196322

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180048008A KR102057184B1 (ko) 2017-05-01 2018-04-25 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체

Country Status (7)

Country Link
US (1) US11024326B2 (ko)
EP (1) EP3399470A1 (ko)
JP (1) JP6794921B2 (ko)
KR (1) KR102057184B1 (ko)
CN (1) CN108804526B (ko)
BR (1) BR102018008297A2 (ko)
RU (1) RU2692427C1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019748A (ko) * 2017-08-18 2019-02-27 삼성전자주식회사 자연어 생성 방법 및 장치
GB2568233A (en) * 2017-10-27 2019-05-15 Babylon Partners Ltd A computer implemented determination method and system
US10891352B1 (en) * 2018-03-21 2021-01-12 Optum, Inc. Code vector embeddings for similarity metrics
US10921245B2 (en) * 2018-06-08 2021-02-16 Ball Aerospace & Technologies Corp. Method and systems for remote emission detection and rate determination
US11100288B1 (en) * 2018-06-21 2021-08-24 SoundHound Inc. Factored neural networks for language modeling
US10978189B2 (en) 2018-07-19 2021-04-13 Optum, Inc. Digital representations of past, current, and future health using vectors
US11321312B2 (en) * 2019-01-14 2022-05-03 ALEX—Alternative Experts, LLC Vector-based contextual text searching
WO2020175692A1 (ja) * 2019-02-28 2020-09-03 旭化成株式会社 学習装置および判断装置
CN114169418B (zh) 2021-11-30 2023-12-01 北京百度网讯科技有限公司 标签推荐模型训练方法及装置、标签获取方法及装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US8732025B2 (en) * 2005-05-09 2014-05-20 Google Inc. System and method for enabling image recognition and searching of remote content on display
US7991715B2 (en) * 2007-12-27 2011-08-02 Arbor Labs, Inc. System and method for image classification
JP5351182B2 (ja) 2008-02-25 2013-11-27 アティジオ リミテッド ライアビリティ カンパニー 関心領域についての関連情報の決定
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
JPWO2011071174A1 (ja) * 2009-12-10 2013-04-22 日本電気株式会社 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
RU2440610C1 (ru) * 2010-06-21 2012-01-20 Геннадий Борисович Бронфельд Система для работы с интеллектуальной электронной книгой - элингой
JP5466119B2 (ja) * 2010-09-21 2014-04-09 Kddi株式会社 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法
US9536269B2 (en) * 2011-01-19 2017-01-03 24/7 Customer, Inc. Method and apparatus for analyzing and applying data related to customer interactions with social media
US8452772B1 (en) * 2011-08-01 2013-05-28 Intuit Inc. Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
US9244908B2 (en) * 2012-03-27 2016-01-26 Accenture Global Services Limited Generation of a semantic model from textual listings
US9570090B2 (en) * 2015-05-26 2017-02-14 Google Inc. Dialog system with automatic reactivation of speech acquiring mode
US10242036B2 (en) * 2013-08-14 2019-03-26 Ricoh Co., Ltd. Hybrid detection recognition system
WO2015039222A1 (en) * 2013-09-19 2015-03-26 Sysomos L.P. Systems and methods for actively composing content for use in continuous social communication
US20150248651A1 (en) * 2014-02-28 2015-09-03 Christine E. Akutagawa Social networking event planning
KR101500900B1 (ko) * 2014-04-28 2015-03-12 한양대학교 산학협력단 학습 데이터로부터 생성된 최종 분류기를 이용하여 텍스트를 분류하는 방법 및 시스템
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
US9381434B2 (en) * 2014-06-30 2016-07-05 Linkedin Corporation Social network interaction via games
JP6710907B2 (ja) * 2015-07-16 2020-06-17 Tis株式会社 嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9875258B1 (en) * 2015-12-17 2018-01-23 A9.Com, Inc. Generating search strings and refinements from an image
KR101652433B1 (ko) * 2016-02-11 2016-08-30 주식회사 위즈벤처스 Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
JP6549500B2 (ja) 2016-02-26 2019-07-24 トヨタ自動車株式会社 話題推定学習装置及び話題推定学習方法
US10116757B2 (en) * 2016-04-25 2018-10-30 Chian Chiu Li Location-based open social networks
CN107704482A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 方法、装置以及程序
US11347374B2 (en) * 2016-11-17 2022-05-31 Meta Platforms, Inc. Systems and methods for managing shared content
CN106897263A (zh) * 2016-12-29 2017-06-27 北京光年无限科技有限公司 基于深度学习的机器人对话交互方法及装置
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response

Also Published As

Publication number Publication date
US11024326B2 (en) 2021-06-01
BR102018008297A2 (pt) 2019-03-12
EP3399470A1 (en) 2018-11-07
JP2018190136A (ja) 2018-11-29
US20180315440A1 (en) 2018-11-01
KR102057184B1 (ko) 2019-12-18
CN108804526B (zh) 2023-03-31
RU2692427C1 (ru) 2019-06-24
JP6794921B2 (ja) 2020-12-02
CN108804526A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
KR20180121831A (ko) 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
CN101326572B (zh) 具有巨大词汇量的语音识别系统
JP4762103B2 (ja) 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置
Mao et al. Speech recognition and multi-speaker diarization of long conversations
JP6171544B2 (ja) 音声処理装置、音声処理方法及びプログラム
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
Lakomkin et al. KT-speech-crawler: Automatic dataset construction for speech recognition from YouTube videos
Dheram et al. Toward fairness in speech recognition: Discovery and mitigation of performance disparities
Xu et al. Audio caption in a car setting with a sentence-level loss
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
Broughton et al. Improving end-to-end neural diarization using conversational summary representations
JP2018180459A (ja) 音声合成システム、音声合成方法、及び音声合成プログラム
Chen et al. Speaker and expression factorization for audiobook data: Expressiveness and transplantation
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
Kheir et al. Speechblender: Speech augmentation framework for mispronunciation data generation
US20220335928A1 (en) Estimation device, estimation method, and estimation program
JP5342621B2 (ja) 音響モデル生成装置、音響モデル生成方法、プログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
CN112530456B (zh) 一种语言类别的识别方法、装置、电子设备及存储介质
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
Nam et al. Disentangled representation learning for multilingual speaker recognition
Yang et al. Exploring the Impact of Syntactic Structure Information on Unknown Entity Recognition in Transformer-based Natural Language Understanding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant