KR20220070826A - 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법 - Google Patents
검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20220070826A KR20220070826A KR1020200157789A KR20200157789A KR20220070826A KR 20220070826 A KR20220070826 A KR 20220070826A KR 1020200157789 A KR1020200157789 A KR 1020200157789A KR 20200157789 A KR20200157789 A KR 20200157789A KR 20220070826 A KR20220070826 A KR 20220070826A
- Authority
- KR
- South Korea
- Prior art keywords
- utterance
- token
- search
- original
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2 및 도 3은 본 발명의 일 실시예에 따른 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 방법을 설명하기 위한 전체적인 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 방법을 설명하기 위한 일 예의 구조도이다.
200 : 발화삭제모듈,
300 : 발화검색모듈,
400 : 언어학습모델
Claims (3)
- 외부로부터 입력된 원본 대화에서 임의의 한 발화를 추출하고, 상기 추출된 각 발화를 해당 원본 대화와 분리된 형태로 해당 원본 대화를 제1 재구성하며, 해당 원본 대화의 일관성을 학습할 수 있도록 상기 제1 재구성된 원본 대화의 각 발화의 앞과 마지막 발화의 뒤에 특정의 삽입토큰을 추가하는 발화삽입모듈;
해당 원본 대화가 아닌 임의의 다른 대화에서 랜덤으로 어느 한 의미가 다른 발화를 추출하고, 상기 추출된 의미가 다른 발화를 해당 원본 대화 중 어느 한 발화의 전/후에 끼워 넣은 형태로 해당 원본 대화를 제2 재구성하며, 해당 원본 대화 내 발화 간의 일관성을 학습할 수 있도록 상기 제2 재구성된 원본 대화의 각 발화의 앞에 특정의 삭제토큰을 추가하는 발화삭제모듈;
해당 원본 대화에서 임의의 마지막 발화를 추출한 후, 상기 추출된 임의의 마지막 발화를 해당 원본 대화와 분리된 형태로 제3 재구성하고, 해당 원본 대화 내 발화 간의 순서 정보를 학습할 수 있도록 상기 제3 재구성된 원본 대화의 각 발화의 앞에 특정의 검색토큰을 추가하는 발화검색모듈; 및
상기 발화삽입모듈로부터 추가된 특정의 삽입토큰, 상기 발화삭제모듈로부터 추가된 특정의 삭제토큰, 및 상기 발화검색모듈로부터 추가된 특정의 검색토큰을 출력 자질로 적용하여, 기 설정된 비지도 학습(Unsupervised Learning) 방법을 기반으로 해당 특정의 삭제토큰, 검색토큰, 및 검색토큰의 위치가 실제 삽입, 삭제, 및 검색되는 위치인지 학습하는 언어학습모델을 포함하는 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치.
- 검색 기반(Retrieval-based)의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 방법으로서,
(a) 발화삽입모듈을 통해 외부로부터 입력된 원본 대화에서 임의의 한 발화를 추출한 후, 상기 추출된 각 발화를 해당 원본 대화와 분리된 형태로 구성하는 단계;
(b) 상기 발화삽입모듈을 통해 해당 원본 대화의 일관성을 학습할 수 있도록 상기 단계(a)에서 구성된 원본 대화의 각 발화의 앞과 마지막 발화의 뒤에 특정의 삽입토큰을 추가하는 단계;
(c) 발화삭제모듈을 통해 해당 원본 대화가 아닌 임의의 다른 대화에서 랜덤으로 어느 한 의미가 다른 발화를 추출한 후, 상기 추출된 의미가 다른 발화를 해당 원본 대화 중 어느 한 발화의 전/후에 끼워 넣은 형태로 구성하는 단계;
(d) 상기 발화삭제모듈을 통해 해당 원본 대화 내 발화 간의 일관성을 학습할 수 있도록 상기 단계(c)에서 구성된 원본 대화의 각 발화의 앞에 특정의 삭제토큰을 추가하는 단계;
(e) 발화검색모듈을 통해 해당 원본 대화에서 임의의 마지막 발화를 추출한 후, 상기 추출된 임의의 마지막 발화를 해당 원본 대화와 분리된 형태로 구성하는 단계;
(f) 상기 발화검색모듈을 통해 해당 원본 대화 내 발화 간의 순서 정보를 학습할 수 있도록 상기 단계(e)에서 구성된 원본 대화의 각 발화의 앞에 특정의 검색토큰을 추가하는 단계; 및
(g) 언어학습모델을 통해 상기 단계(b)에서 추가된 특정의 삽입토큰, 상기 단계(d)에서 추가된 특정의 삭제토큰, 및 상기 단계(f)에서 추가된 특정의 검색토큰을 출력 자질로 적용하여, 기 설정된 비지도 학습(Unsupervised Learning) 방법을 기반으로 해당 특정의 삭제토큰, 검색토큰, 및 검색토큰의 위치가 실제 삽입, 삭제, 및 검색되는 위치인지 학습하는 단계를 포함하는 것을 특징으로 하는 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 방법.
- 제2 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200157789A KR102446294B1 (ko) | 2020-11-23 | 2020-11-23 | 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200157789A KR102446294B1 (ko) | 2020-11-23 | 2020-11-23 | 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220070826A true KR20220070826A (ko) | 2022-05-31 |
KR102446294B1 KR102446294B1 (ko) | 2022-09-22 |
Family
ID=81780395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200157789A Active KR102446294B1 (ko) | 2020-11-23 | 2020-11-23 | 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102446294B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230169680A (ko) | 2022-06-09 | 2023-12-18 | 주식회사 스캐터랩 | 인공지능을 이용하여 어뷰징을 감지할 수 있는 모델을 구성하는 방법 및 장치 |
KR20230169681A (ko) | 2022-06-09 | 2023-12-18 | 주식회사 스캐터랩 | 인공지능과의 관계를 반영하여 사용자에 특화된 응답을 출력하는 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102041621B1 (ko) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 |
KR102119468B1 (ko) | 2018-08-20 | 2020-06-05 | 주식회사 부뜰정보시스템 | 상담원의 상담내용을 기반으로 상담 챗봇을 학습하는 시스템 및 방법 |
KR20200106126A (ko) * | 2019-02-28 | 2020-09-11 | 네이버 주식회사 | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 |
-
2020
- 2020-11-23 KR KR1020200157789A patent/KR102446294B1/ko active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102119468B1 (ko) | 2018-08-20 | 2020-06-05 | 주식회사 부뜰정보시스템 | 상담원의 상담내용을 기반으로 상담 챗봇을 학습하는 시스템 및 방법 |
KR102041621B1 (ko) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 |
KR20200106126A (ko) * | 2019-02-28 | 2020-09-11 | 네이버 주식회사 | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230169680A (ko) | 2022-06-09 | 2023-12-18 | 주식회사 스캐터랩 | 인공지능을 이용하여 어뷰징을 감지할 수 있는 모델을 구성하는 방법 및 장치 |
KR20230169681A (ko) | 2022-06-09 | 2023-12-18 | 주식회사 스캐터랩 | 인공지능과의 관계를 반영하여 사용자에 특화된 응답을 출력하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR102446294B1 (ko) | 2022-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pietquin et al. | A probabilistic framework for dialog simulation and optimal strategy learning | |
Lee et al. | Sound-guided semantic image manipulation | |
CN114911932B (zh) | 基于主题语义增强的异构图结构多会话者情感分析方法 | |
CN115952272A (zh) | 一种生成对话信息的方法、装置、设备及可读存储介质 | |
CN113628610B (zh) | 一种语音合成方法和装置、电子设备 | |
CN114861653B (zh) | 用于虚拟交互的语言生成方法、装置、设备及存储介质 | |
KR102263656B1 (ko) | 답변을 유도하는 대화 시스템 및 대화 방법 | |
Wang et al. | Comic-guided speech synthesis | |
KR102446294B1 (ko) | 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법 | |
CN113178200A (zh) | 语音转换方法、装置、服务器及存储介质 | |
CN117173497B (zh) | 一种图像生成方法、装置、电子设备及存储介质 | |
CN113761268B (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
CN116434731A (zh) | 语音编辑方法、装置、存储介质及电子装置 | |
CN117216234A (zh) | 基于人工智能的话术改写方法、装置、设备及存储介质 | |
Fialho et al. | Meet EDGAR, a tutoring agent at MONSERRATE | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
KR20240034566A (ko) | 대화 데이터 증강 장치 및 대화 데이터 증강 방법 | |
CN112863476A (zh) | 个性化语音合成模型构建、语音合成和测试方法及装置 | |
CN114783403A (zh) | 有声读物的生成方法、装置、设备、存储介质及程序产品 | |
Santos et al. | CORAA NURC-SP Minimal Corpus: a manually annotated corpus of Brazilian Portuguese spontaneous speech | |
CN115081459B (zh) | 口语文本生成方法、装置、设备及存储介质 | |
CN116978381A (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
Röpke et al. | Training a Speech-to-Text Model for Dutch on the Corpus Gesproken Nederlands. | |
KR102426020B1 (ko) | 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치 | |
CN115438210B (zh) | 文本图像生成方法、装置、终端及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20201123 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220127 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E90F | Notification of reason for final refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20220714 Patent event code: PE09021S02D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220916 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220919 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220919 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |