KR20170044409A - 다자간 대화 시스템 및 방법 - Google Patents
다자간 대화 시스템 및 방법 Download PDFInfo
- Publication number
- KR20170044409A KR20170044409A KR1020150144069A KR20150144069A KR20170044409A KR 20170044409 A KR20170044409 A KR 20170044409A KR 1020150144069 A KR1020150144069 A KR 1020150144069A KR 20150144069 A KR20150144069 A KR 20150144069A KR 20170044409 A KR20170044409 A KR 20170044409A
- Authority
- KR
- South Korea
- Prior art keywords
- dictionary
- participant
- text
- texts
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000000284 extract Substances 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000008267 milk Substances 0.000 description 2
- 210000004080 milk Anatomy 0.000 description 2
- 235000013336 milk Nutrition 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G06Q50/30—
-
- H04N13/02—
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Machine Translation (AREA)
Abstract
다자간 대화 시스템 및 방법이 제공된다. 본 발명의 일 실시예에 따른 다자간 대화 시스템은, 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하고, 추출된 상기 텍스트 각각을 음성으로 전환하며, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성하는 사전 생성부; 및 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 상기 사전에 포함된 텍스트 중 하나 이상을 선별하며, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 정보 제공부를 포함한다.
Description
본 발명의 실시예들은 다자간 대화 환경에서 대화 참여자들의 대화를 분석하여 대화 참여자들에게 유익한 정보를 제공하는 기술과 관련된다.
일반적으로, 화상 회의, 영상 통화, 텍스트/멀티미디어 채팅, 음성 상담(예를 들어, 콜 센터 상담) 등과 같은 다자간 대화 환경에서는 다양한 분야에 종사하는 사용자들이 대화에 참여하는 경우가 빈번하다. 이 경우, 대화 참여자들 중 일부는 대화 내용 중에 언급되는 용어에 대한 이해도가 낮거나 관련 분야에 관한 지식이 부족할 수 있으며, 이로 인해 대화 상대방과의 원활한 커뮤니케이션이 이루어지지 않을 수 있다. 이와 같은 문제점은 특히, 대화 내용에 대한 전문성이 요구되는 대화 환경에서 더욱 두드러진다.
일 예시로서, 다수의 사용자들이 참여하는 화상 회의에 있어서, 전문성이 부족한 대리 또는 사원은 회의 중에 언급되는 용어를 이해하지 못해 회의에 원활히 참여하지 못할 수 있다. 다른 예시로서, 여러 고객을 상담하는 콜 센터 상담원의 음성 상담에 있어서, 상담 경력이 많지 않은 상담원은 고객이 문의한 사항 및 불만 사항에 대한 가이드 라인을 숙지하지 못해 고객이 원하는 답변을 고객에게 제공하지 못할 수 있다.
본 발명의 실시예들은 사용자별로 미리 생성된 사전을 이용하여 대화 참여자들로부터 발화되는 음성의 인식률을 향상시키고 상기 사전에 기초하여 대화 참여자들에게 최적화된 정보를 제공하기 위한 것이다.
본 발명의 예시적인 실시예에 따르면, 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하고, 추출된 상기 텍스트 각각을 음성으로 전환하며, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성하는 사전 생성부; 및 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 상기 사전에 포함된 텍스트 중 하나 이상을 선별하며, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 정보 제공부를 포함하는, 다자간 대화 시스템이 제공된다.
상기 사전 생성부는, 상기 문서 파일에 포함된 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 추출할 수 있다.
상기 정보 제공부는, 상기 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성의 유사도를 계산하고, 상기 사전에 포함된 음성 중 상기 유사도가 설정된 값 이상인 음성을 추출하며, 상기 사전에 포함된 텍스트 중 추출된 상기 음성에 대응되는 텍스트를 하나 이상 선별할 수 있다.
상기 정보 제공부는, 선별된 상기 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 키워드로 추출하고, 추출된 상기 키워드에 관한 정보를 상기 참여자가 소지하는 단말로 제공할 수 있다.
상기 텍스트에 관한 정보는, 상기 텍스트에 관한 용어 설명, 상기 용어 설명을 위한 웹 페이지의 접근 유알엘(URL), 상기 텍스트가 설정된 횟수 이상 포함된 문서 파일의 리스트 및 상기 리스트에 포함된 문서 파일의 접근 유알엘 중 하나 이상을 포함할 수 있다.
상기 다자간 대화 시스템은, 상기 참여자로부터 상기 사전의 오류 부분을 입력 받고, 상기 참여자의 입력에 따라 상기 사전의 오류를 수정하는 사전 수정부를 더 포함할 수 있다.
본 발명의 다른 예시적인 실시예에 따르면, 사전 생성부에서, 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하는 단계; 상기 사전 생성부에서, 추출된 상기 텍스트 각각을 음성으로 전환하는 단계; 상기 사전 생성부에서, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성하는 단계; 정보 제공부에서, 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 상기 사전에 포함된 텍스트 중 하나 이상을 선별하는 단계; 및 상기 정보 제공부에서, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 단계를 포함하는, 다자간 대화 방법이 제공된다.
상기 문서 파일로부터 하나 이상의 상기 텍스트를 추출하는 단계는, 상기 문서 파일에 포함된 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 추출할 수 있다.
상기 사전에 포함된 텍스트 중 하나 이상을 선별하는 단계는, 상기 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성의 유사도를 계산하고, 상기 사전에 포함된 음성 중 상기 유사도가 설정된 값 이상인 음성을 추출하며, 상기 사전에 포함된 텍스트 중 추출된 상기 음성에 대응되는 텍스트를 하나 이상 선별할 수 있다.
상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 단계는, 선별된 상기 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 키워드로 추출하고, 추출된 상기 키워드에 관한 정보를 상기 참여자가 소지하는 단말로 제공할 수 있다.
상기 텍스트에 관한 정보는, 상기 텍스트에 관한 용어 설명, 상기 용어 설명을 위한 웹 페이지의 접근 유알엘(URL), 상기 텍스트가 설정된 횟수 이상 포함된 문서 파일의 리스트 및 상기 리스트에 포함된 문서 파일의 접근 유알엘 중 하나 이상을 포함할 수 있다.
상기 다자간 대화 방법은, 사전 수정부에서, 상기 참여자로부터 상기 사전의 오류 부분을 입력 받는 단계; 및 상기 사전 수정부에서, 상기 참여자의 입력에 따라 상기 사전의 오류를 수정하는 단계를 더 포함할 수 있다.
본 발명의 다른 예시적인 실시예에 따르면, 하드웨어와 결합되어 사전 생성부에서, 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하는 단계; 상기 사전 생성부에서, 추출된 상기 텍스트 각각을 음성으로 전환하는 단계; 상기 사전 생성부에서, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성하는 단계; 정보 제공부에서, 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 상기 사전에 포함된 텍스트 중 하나 이상을 선별하는 단계; 및 상기 정보 제공부에서, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 단계를 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램이 제공된다.
본 발명의 실시예들에 따르면, 대화 참여자와 관련된 문서 파일로부터 추출된 텍스트 및 상기 텍스트의 음성 정보를 포함하는 사전에 기초하여 대화 참여자로부터 발화된 음성을 인식하도록 함으로써, 다자간 대화 환경에서의 음성 인식률을 향상시킬 수 있다.
또한, 본 발명의 실시예들에 따르면, 대화 참여자의 음성 인식 결과에 따라 정보 제공의 기초가 되는 텍스트를 선별하도록 함으로서, 대화 참여자에게 최적화된 정보를 제공할 수 있다.
또한, 본 발명의 실시예들에 따르면, 사전 생성부에서 생성된 사전에 포함된 정보의 오류 및 상기 오류의 수정 내용을 사용자로부터 입력 받도록 함으로써, 음성 인식의 정확도를 향상시키고 이에 따라 보다 정확한 정보를 사용자에게 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 다자간 대화 시스템의 상세 구성을 나타낸 블록도
도 2는 본 발명의 일 실시예에 따른 사전 생성부에서 생성된 사전의 예시를 나타낸 도면
도 3은 본 발명의 일 실시예에 따른 정보 제공부에서 텍스트에 관한 정보를 대화 참여자에게 제공하는 과정을 설명하기 위한 도면
도 4는 본 발명의 일 실시예에 따른 다자간 대화 방법을 설명하기 위한 흐름도
도 5는 도 4의 S402 단계를 설명하기 위한 흐름도
도 6은 도 4의 S414 단계를 설명하기 위한 흐름도
도 2는 본 발명의 일 실시예에 따른 사전 생성부에서 생성된 사전의 예시를 나타낸 도면
도 3은 본 발명의 일 실시예에 따른 정보 제공부에서 텍스트에 관한 정보를 대화 참여자에게 제공하는 과정을 설명하기 위한 도면
도 4는 본 발명의 일 실시예에 따른 다자간 대화 방법을 설명하기 위한 흐름도
도 5는 도 4의 S402 단계를 설명하기 위한 흐름도
도 6은 도 4의 S414 단계를 설명하기 위한 흐름도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 본 발명의 일 실시예에 따른 다자간 대화 시스템(100)의 상세 구성을 나타낸 블록도이다. 본 발명의 일 실시예에 따른 다자간 대화 시스템(100)은 다자간 대화 환경에서 대화 참여자들의 대화를 분석하여 대화 참여자들에게 유익한 정보를 제공하기 위한 것이다. 이하의 실시예들에서 다자간 대화 환경이란 둘 이상의 대화 참여자들간의 커뮤니케이션이 형성되는 환경으로서 대화 참여자들간의 화상 회의, 영상 통화, 텍스트/멀티미디어 채팅 음성 상담(예를 들어, 콜 센터 상담) 등을 모두 포함하는 넓은 의미로 사용된다. 대화 참여자들은 자신이 소지하는 단말(미도시)을 이용하여 상대방과 커뮤니케이션할 수 있으며, 상기 단말은 예를 들어, 휴대폰, 스마트폰, 태블릿 등의 개인 휴대 단말기, 또는 노트북 컴퓨터, 데스크탑 컴퓨터 등의 기기들을 포함할 수 있다. 상기 단말 각각은 네트워크(미도시)를 통해 데이터를 송수신할 수 있으며, 상기 네트워크는 예를 들어 3G 또는 LTE 네트워크 등의 이동통신망, 유무선 인터넷 망 등 패킷 통신이 가능한 모든 종류의 통신망을 포함할 수 있다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 다자간 대화 시스템(100)은 사전 생성부(102) 및 정보 제공부(104) 및 사전 수정부(106)를 포함한다.
사전 생성부(102)는 대화 참여자로부터 발화되는 음성의 인식률을 향상시키는 데 사용되는 개인별 사전(personal lexicon)을 생성한다. 상기 사전은 텍스트와 상기 텍스트에 대응되는 음성 정보를 포함할 수 있다.
이를 위해, 사전 생성부(102)는 먼저, 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출한다. 여기서, 사용자와 관련된 문서 파일이란 사용자가 소지하는 단말로부터 제출(또는 업로드)된 회의 자료, 논문 자료, 상기 사용자에 의해 전송된 이메일 등과 같이 상기 사용자에 의해 업무상 취급되는 모든 종류의 전자 파일을 의미한다. 상기 문서 파일은 상기 문서 파일을 작성, 전송 또는 업로드한 사용자에 관한 식별 정보(예를 들어, 사용자의 이름, 사번 등)를 포함할 수 있다. 사전 생성부(102)는 사내 파일 저장소(미도시)를 검색하여 상기 사용자와 관련된 문서 파일을 수집하고, 수집된 상기 문서 파일로부터 하나 이상의 텍스트를 추출할 수 있다. 이때, 사전 생성부(102)는 수집된 문서 파일에 포함된 텍스트 중 빈도수가 설정된 횟수 이상(예를 들어, 5회 이상)인 텍스트를 추출할 수 있다. 상기 추출된 텍스트는 사용자와 관련된 문서 파일에 기반하므로, 사용자가 업무상 자주 사용하는 용어일 수 있다. 또한, 각 사용자별로 관련 문서 파일이 다르므로, 각 사용자별로 추출되는 텍스트 또한 다를 수 있다.
다음으로, 사전 생성부(102)는 상기 문서 파일로부터 추출된 텍스트 각각을 음성으로 전환한다. 예를 들어, 추출된 텍스트가 “MDM” 인 경우, 사전 생성부(102)는 텍스트 “MDM” 을 음성 “엠디엠” 으로 전환할 수 있다. 사전 생성부(102)는 예를 들어, 티티에스(TTS : Text-To-Speech) 기법을 이용하여 상기 문서 파일로부터 추출된 텍스트 각각을 음성으로 전환할 수 있다.
다음으로, 사전 생성부(102)는 추출된 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 생성한다. 상술한 바와 같이, 사전 생성부(102)는 사용자와 관련되는 문서 파일을 기반으로 텍스트를 추출하고 추출된 상기 텍스트를 음성 전환하여 사전을 생성하므로, 생성된 사전은 각 사용자별로 서로 다를 수 있다. 예를 들어, 제품 홍보팀의 구성원인 사용자 A가 업무상 자주 사용하는 용어와 제품 개발팀의 구성원인 사용자 B가 업무상 자주 사용하는 용어는 서로 상이할 수 있으며, 이 경우 사용자 A와 관련된 문서 파일로부터 추출된 텍스트와 사용자 B와 관련된 문서 파일로부터 추출된 텍스트 또한 상이할 수 있다. 사전 생성부(102)는 사용자 A에 대응되는 사전과 사용자 B에 대응되는 사전을 각각 생성할 수 있으며, 상기 사전들은 서로 다른 텍스트-음성 정보를 포함할 수 있다.
정보 제공부(104)는 다자간 대화 환경에서 대화 참여자들의 대화를 분석하여 대화 참여자들에게 유익한 정보를 제공한다. 이때, 정보 제공부(104)는 사전 생성부(102)에서 생성된 사용자별 사전에 기초하여 대화 참여자들에게 유익한 정보를 제공할 수 있다.
먼저, 정보 제공부(104)는 다자간 대화 참여자로부터 발화되는 음성을 인식하고, 인식된 상기 음성과 상기 참여자에 대응되는 사전에 포함된 음성을 비교할 수 있다. 일 예시로서, 사용자 A와 사용자 B가 대화 참여자인 경우, 정보 제공부(104)는 사용자 A로부터 발화되는 음성을 인식하고, 인식된 사용자 A의 음성과 사용자 A에 대응되는 사전에 포함된 음성을 비교할 수 있다. 이때, 정보 제공부(104)는 다자간 대화 참여자로부터 발화되는 음성 중 관사, 조사, 대명사 등을 제외하고, 이들이 제외된 음성과 상기 참여자에 대응되는 사전에 포함된 음성을 단어 단위로 비교할 수 있다.
이 과정에서, 정보 제공부(104)는 상기 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 사전에 포함된 음성의 유사도를 계산하고, 상기 사전에 포함된 음성 중 유사도가 설정된 값 이상(예를 들어, 95% 이상)인 음성을 추출할 수 있다. 두 음성 간의 유사도를 계산하는 방법은 본 발명이 속한 기술분야에서 일반적으로 널리 알려져 있는바, 이에 대한 자세한 설명은 생략하기로 한다.
다음으로, 정보 제공부(104)는 상기 참여자에 대응되는 사전에 포함된 텍스트 중 상기 유사도에 따라 추출된 음성에 대응되는 텍스트를 하나 이상 선별하고, 선별된 상기 텍스트에 관한 정보를 상기 참여자(위 예시에서, 사용자 A 또는 사용자 B)가 소지하는 단말(미도시)로 제공할 수 있다. 이때, 정보 제공부(104)는 선별된 상기 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 키워드로 추출하고, 추출된 상기 키워드에 관한 정보를 상기 참여자가 소지하는 단말로 제공할 수 있다. 여기서, 상기 텍스트(또는 키워드)에 관한 정보는 상기 텍스트(또는 키워드)에 관한 용어 설명, 상기 용어 설명을 위한 웹 페이지의 접근 유알엘(URL), 상기 텍스트가 설정된 횟수 이상 포함된 문서 파일의 리스트 및 상기 리스트에 포함된 문서 파일의 접근 유알엘 중 하나 이상을 포함할 수 있다. 정보 제공부(104)는 설정된 검색 엔진(예를 들어, 구글, 위키피디아 등)을 이용하여 상기 텍스트에 관한 정보를 추출할 수 있으며, 추출된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공할 수 있다. 상기 단말은 정보 제공부(104)로부터 제공 받은 정보를 화면에 디스플레이할 수 있으며, 상기 참여자는 대화 상대방과의 대화 도중 언급된 용어에 관한 정보 또는 관련 문서 파일을 확인하고 이에 따라 대화 상대방과의 커뮤니케이션을 원활하게 수행할 수 있다.
이와 같이, 본 발명의 실시예들에 따르면, 정보 제공부(104)는 사전 생성부(102)에서 생성된 사전에 기초하여 대화 참여자로부터 발화되는 음성을 인식할 수 있다. 이때, 상기 음성을 인식하는 데 사용되는 사전은 대화 참여자와 관련된 문서 파일에 기초하여 생성되므로 대화 참여자로부터 발화되는 음성은 상기 대화 참여자가 업무상 자주 사용하는 용어일 수 있다. 또한, 대화 참여자로부터 발화되는 음성과 미리 저장된 음성 간의 유사도를 계산하여 상기 음성을 인식한다는 점에서, 종래에 비해 음성 인식률을 크게 향상시킬 수 있다.
사전 수정부(106)는 대화 참여자로부터 상기 참여자에 대응되는 사전의 오류 부분을 입력 받고, 상기 참여자의 입력에 따라 상기 사전의 오류를 수정한다. 상술한 바와 같이, 대화 참여자는 자신의 단말을 통해 대화 도중 언급된 텍스트(용어)에 관한 정보를 확인할 수 있다. 그러나, 동일한 텍스트라도 사람마다 서로 다르게 발음할 수 있으며, 어떤 텍스트의 경우에는 일반 명사로 사용됨과 동시에 고유 명사로도 사용될 수 있다. 이 경우, 대화 참여자가 단말을 통해 확인하는 텍스트에 관한 정보와 대화 참여자가 얻고자 하는 텍스트에 관한 정보가 서로 다를 수 있으며, 대화 참여자는 상기 텍스트와 관련하여 상기 참여자에 대응되는 사전의 오류 부분을 단말에 입력할 수 있다. 또한, 대화 참여자는 단말을 통해 상기 참여자에 대응되는 사전의 오류 부분, 즉 사전에 저장된 음성을 수정할 수 있다. 대화 참여자는 예를 들어, 단말의 마이크를 통해 상기 텍스트에 관한 음성을 입력할 수 있으며, 입력된 상기 음성은 사전 수정부(106)를 통해 상기 참여자에 대응되는 사전에 반영될 수 있다. 즉, 본 발명의 실시예들에 따르면, 사전 생성부(102)에서 생성된 사전에 포함된 정보의 오류 및 상기 오류의 수정 내용을 사용자로부터 입력 받도록 함으로써, 음성 인식의 정확도를 향상시키고 이에 따라 보다 정확한 정보를 사용자에게 제공할 수 있다.
일 실시예에서, 사전 생성부(102), 정보 제공부(104) 및 사전 수정부(106)는 하나 이상의 프로세서 및 그 프로세서와 연결된 컴퓨터 판독 가능 기록 매체를 포함하는 컴퓨팅 장치 상에서 구현될 수 있다. 컴퓨터 판독 가능 기록 매체는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 컴퓨팅 장치 내의 프로세서는 각 컴퓨팅 장치로 하여금 본 명세서에서 기술되는 예시적인 실시예에 따라 동작하도록 할 수 있다. 예를 들어, 프로세서는 컴퓨터 판독 가능 기록 매체에 저장된 명령어를 실행할 수 있고, 컴퓨터 판독 가능 기록 매체에 저장된 명령어는 프로세서에 의해 실행되는 경우 컴퓨팅 장치로 하여금 본 명세서에 기술되는 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
도 2는 본 발명의 일 실시예에 따른 사전 생성부(102)에서 생성된 사전의 예시를 나타낸 도면이다. 상술한 바와 같이, 사전 생성부(102)는 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하고, 추출된 상기 텍스트 각각을 음성으로 전환하며, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성할 수 있다. 도 2를 참조하면, 사전 생성부(102)는 사용자 A와 관련된 문서 파일로부터 텍스트 "CC 인증", "MDM", "KNOX"…등을 추출하고, 추출된 "CC 인증", "MDM", "KNOX"… 를 음성 "시시인증", "엠디엠", "녹스"…로 각각 전환하며, 상기 텍스트 및 상기 음성을 포함하는 사전을 사용자 A에 대한 사전으로 생성할 수 있다. 도 2에서는 설명의 편의상 사용자 A에 대한 사전만을 예시로 들었으나, 사전 생성부(102)는 사용자 B, 사용자 C, 사용자 D…등에 대한 사전을 각각 생성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 정보 제공부(104)에서 텍스트에 관한 정보를 대화 참여자에게 제공하는 과정을 설명하기 위한 도면이다. 상술한 바와 같이, 정보 제공부(104)는 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 사전에 포함된 텍스트 중 하나 이상을 선별하며, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공할 수 있다.
도 3을 참조하면, 사용자 A와 사용자 B가 대화 참여자인 경우 사용자 A가 대화 도중 “overfitting” 이라는 용어를 언급하였다고 가정한다. 정보 제공부(104)는 사용자 A가 언급한 “overfitting” 의 음성, 즉 “오버피팅” 과 사용자 A에 대응되는 사전에 포함된 음성들을 비교하여 상기 사전에 포함된 텍스트 “overfitting” 을 선별하고, 선별된 텍스트 “overfitting” 에 관한 정보를 사용자 A가 소지하는 단말 또는 사용자 B가 소지하는 단말로 제공할 수 있다. 이때, “overfitting” 에 관한 정보는 예를 들어, “overfitting” 에 관한 용어 설명, “overfitting” 이 설정된 횟수 이상 포함된 문서 파일의 리스트 등을 포함할 수 있다. “overfitting” 에 관한 정보가 사용자 A 및 B에게 제공됨에 따라, 사용자 B의 “overfitting” 에 관한 이해도가 높아질 수 있다. 또한, 사용자 A는 “overfitting” 관련 문서를 대화에서 활용함으로써 사용자 B와의 커뮤니케이션을 더욱 심도 있게 수행할 수 있다. 한편, 정보 제공부(104)는 상기 텍스트에 관한 정보를 사용자 A가 소지하는 단말 및 사용자 B가 소지하는 단말 모두에 제공할 수 있음은 물론, 사용자 A가 소지하는 단말 및 사용자 B가 소지하는 단말 중 어느 하나에만 제공할 수도 있다.
도 4는 본 발명의 일 실시예에 따른 다자간 대화 방법을 설명하기 위한 흐름도이다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
먼저, 사전 생성부(102)는 대화 참여자로부터 발화되는 음성의 인식률을 향상시키는 데 사용되는 사전을 각 사용자별로 생성한다(S402).
다음으로, 정보 제공부(104)는 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 사전에 포함된 음성을 비교한다(S404). 구체적으로, 정보 제공부(104)는 상기 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 사전에 포함된 음성의 유사도를 계산할 수 있다.
다음으로, 정보 제공부(104)는 상기 참여자에 대응되는 사전에 포함된 텍스트 중 하나 이상을 선별한다(S406). 구체적으로, 정보 제공부(104)는 상기 사전에 포함된 음성 중 상기 유사도가 설정된 값 이상인 음성을 추출하고, 상기 사전에 포함된 텍스트 중 추출된 상기 음성에 대응되는 텍스트를 하나 이상 선별할 수 있다.
다음으로, 정보 제공부(104)는 선별된 상기 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 키워드로 추출한다(S408).
다음으로, 정보 제공부(104)는 추출된 상기 키워드에 관한 정보를 상기 참여자가 소지하는 단말로 제공한다(410). 상기 단말은 정보 제공부(104)로부터 제공 받은 정보를 화면에 디스플레이할 수 있으며, 상기 참여자는 대화 상대방과의 대화 도중 언급된 용어에 관한 정보 또는 관련 문서 파일을 확인하고 이에 따라 대화 상대방과의 커뮤니케이션을 원활하게 수행할 수 있다.
만약, S410 단계에서 대화 참여자가 확인하는 텍스트에 관한 정보와 대화 참여자가 얻고자 하는 텍스트에 관한 정보가 서로 다른 경우, 사전 수정부(106)는 상기 참여자로부터 상기 사전의 오류 부분을 입력 받고, 상기 참여자의 입력에 따라 상기 사전의 오류를 수정한다(S412, S414). 즉, 본 발명의 실시예들에 따르면, 사전 생성부(102)에서 생성된 사전에 포함된 정보의 오류 및 상기 오류의 수정 내용을 사용자로부터 입력 받도록 함으로써, 음성 인식의 정확도를 향상시키고 이에 따라 보다 정확한 정보를 사용자에게 제공할 수 있다.
도 5는 도 4의 S402 단계를 설명하기 위한 흐름도이다.
먼저, 사전 생성부(102)는 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출한다(S502). 사전 생성부(102)는 사내 파일 저장소(미도시)를 검색하여 상기 사용자와 관련된 문서 파일을 수집하고, 수집된 상기 문서 파일로부터 하나 이상의 텍스트를 추출할 수 있다. 이때, 사전 생성부(102)는 수집된 문서 파일에 포함된 텍스트 중 빈도수가 설정된 횟수 이상(예를 들어, 5회 이상)인 텍스트를 추출할 수 있다. 상기 추출된 텍스트는 사용자와 관련된 문서 파일에 기반하므로, 사용자가 업무상 자주 사용하는 용어일 수 있다.
다음으로, 사전 생성부(102)는 추출된 텍스트 각각을 음성으로 전환한다(S504). 사전 생성부(102)는 예를 들어, 티티에스(TTS : Text-To-Speech) 기법을 이용하여 상기 문서 파일로부터 추출된 텍스트 각각을 음성으로 전환할 수 있다.
마지막으로, 사전 생성부(102)는 추출된 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성한다(S506). 사전 생성부(102)는 추출된 텍스트 및 상기 텍스트에 대응되는 음성을 상호 매핑시킴으로써 사전을 생성할 수 있다. 이때, 사전 생성부(102)에서 생성된 사전은 각 사용자별로 서로 다를 수 있다.
도 6은 도 4의 S414 단계를 설명하기 위한 흐름도이다.
먼저, 사전 수정부(106)는 대화 참여자로부터 사전의 오류 부분을 입력 받는다(S602). 상술한 바와 같이, 대화 참여자는 자신의 단말을 통해 대화 도중 언급된 텍스트(용어)에 관한 정보를 확인할 수 있다. 그러나, 동일한 텍스트라도 사람마다 서로 다르게 발음할 수 있으며, 어떤 텍스트의 경우에는 일반 명사로 사용됨과 동시에 고유 명사로도 사용될 수 있다. 이 경우, 대화 참여자가 확인하는 텍스트에 관한 정보와 대화 참여자가 얻고자 하는 텍스트에 관한 정보가 서로 다를 수 있으며, 대화 참여자는 상기 텍스트와 관련하여 상기 참여자에 대응되는 사전의 오류 부분을 단말에 입력할 수 있다.
다음으로, 사전 수정부(106)는 대화 참여자로부터 사전 오류의 수정 내용을 입력 받는다(S604). 대화 참여자는 예를 들어, 단말의 마이크를 통해 상기 텍스트에 관한 음성을 입력할 수 있으며, 입력된 음성은 사전 수정부(106)로 전송될 수 있다.
마지막으로, 사전 수정부(106)는 대화 참여자의 입력에 따라 상기 참여자에 대한 사전의 오류를 수정한다(S606). 사전 수정부(106)는 예를 들어, 상기 사전에 포함된 음성을 상기 참여자에 의해 입력된 음성으로 교체할 수 있다.
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램, 및 상기 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 프로그램의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 다자간 대화 시스템
102 : 사전 생성부
104 : 정보 제공부
106 : 사전 수정부
102 : 사전 생성부
104 : 정보 제공부
106 : 사전 수정부
Claims (13)
- 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하고, 추출된 상기 텍스트 각각을 음성으로 전환하며, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성하는 사전 생성부; 및
다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 상기 사전에 포함된 텍스트 중 하나 이상을 선별하며, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 정보 제공부를 포함하는, 다자간 대화 시스템.
- 청구항 1에 있어서,
상기 사전 생성부는, 상기 문서 파일에 포함된 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 추출하는, 다자간 대화 시스템.
- 청구항 1에 있어서,
상기 정보 제공부는, 상기 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성의 유사도를 계산하고, 상기 사전에 포함된 음성 중 상기 유사도가 설정된 값 이상인 음성을 추출하며, 상기 사전에 포함된 텍스트 중 추출된 상기 음성에 대응되는 텍스트를 하나 이상 선별하는, 다자간 대화 시스템.
- 청구항 1에 있어서,
상기 정보 제공부는, 선별된 상기 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 키워드로 추출하고, 추출된 상기 키워드에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는, 다자간 대화 시스템.
- 청구항 1에 있어서,
상기 텍스트에 관한 정보는, 상기 텍스트에 관한 용어 설명, 상기 용어 설명을 위한 웹 페이지의 접근 유알엘(URL), 상기 텍스트가 설정된 횟수 이상 포함된 문서 파일의 리스트 및 상기 리스트에 포함된 문서 파일의 접근 유알엘 중 하나 이상을 포함하는, 다자간 대화 시스템.
- 청구항 1에 있어서,
상기 참여자로부터 상기 사전의 오류 부분을 입력 받고, 상기 참여자의 입력에 따라 상기 사전의 오류를 수정하는 사전 수정부를 더 포함하는, 다자간 대화 시스템.
- 사전 생성부에서, 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하는 단계;
상기 사전 생성부에서, 추출된 상기 텍스트 각각을 음성으로 전환하는 단계;
상기 사전 생성부에서, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성하는 단계;
정보 제공부에서, 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 상기 사전에 포함된 텍스트 중 하나 이상을 선별하는 단계; 및
상기 정보 제공부에서, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 단계를 포함하는, 다자간 대화 방법.
- 청구항 7에 있어서,
상기 문서 파일로부터 하나 이상의 상기 텍스트를 추출하는 단계는, 상기 문서 파일에 포함된 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 추출하는, 다자간 대화 방법.
- 청구항 7에 있어서,
상기 사전에 포함된 텍스트 중 하나 이상을 선별하는 단계는, 상기 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성의 유사도를 계산하고, 상기 사전에 포함된 음성 중 상기 유사도가 설정된 값 이상인 음성을 추출하며, 상기 사전에 포함된 텍스트 중 추출된 상기 음성에 대응되는 텍스트를 하나 이상 선별하는, 다자간 대화 방법.
- 청구항 7에 있어서,
상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 단계는, 선별된 상기 텍스트 중 빈도수가 설정된 횟수 이상인 텍스트를 키워드로 추출하고, 추출된 상기 키워드에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는, 다자간 대화 방법.
- 청구항 7에 있어서,
상기 텍스트에 관한 정보는, 상기 텍스트에 관한 용어 설명, 상기 용어 설명을 위한 웹 페이지의 접근 유알엘(URL), 상기 텍스트가 설정된 횟수 이상 포함된 문서 파일의 리스트 및 상기 리스트에 포함된 문서 파일의 접근 유알엘 중 하나 이상을 포함하는, 다자간 대화 방법.
- 청구항 7에 있어서,
사전 수정부에서, 상기 참여자로부터 상기 사전의 오류 부분을 입력 받는 단계; 및
상기 사전 수정부에서, 상기 참여자의 입력에 따라 상기 사전의 오류를 수정하는 단계를 더 포함하는, 다자간 대화 방법.
- 하드웨어와 결합되어
사전 생성부에서, 사용자와 관련된 문서 파일로부터 하나 이상의 텍스트를 추출하는 단계;
상기 사전 생성부에서, 추출된 상기 텍스트 각각을 음성으로 전환하는 단계;
상기 사전 생성부에서, 상기 텍스트 및 상기 텍스트에 대응되는 음성을 포함하는 사전을 각 사용자별로 생성하는 단계;
정보 제공부에서, 다자간 대화 참여자로부터 발화되는 음성과 상기 참여자에 대응되는 상기 사전에 포함된 음성을 비교하여 상기 참여자에 대응되는 상기 사전에 포함된 텍스트 중 하나 이상을 선별하는 단계; 및
상기 정보 제공부에서, 선별된 상기 텍스트에 관한 정보를 상기 참여자가 소지하는 단말로 제공하는 단계
를 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150144069A KR20170044409A (ko) | 2015-10-15 | 2015-10-15 | 다자간 대화 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150144069A KR20170044409A (ko) | 2015-10-15 | 2015-10-15 | 다자간 대화 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20170044409A true KR20170044409A (ko) | 2017-04-25 |
Family
ID=58703609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150144069A KR20170044409A (ko) | 2015-10-15 | 2015-10-15 | 다자간 대화 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20170044409A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239152A (zh) * | 2021-05-18 | 2021-08-10 | 平安科技(深圳)有限公司 | 适用于多轮对话的对话修复方法、装置、设备及存储介质 |
-
2015
- 2015-10-15 KR KR1020150144069A patent/KR20170044409A/ko unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239152A (zh) * | 2021-05-18 | 2021-08-10 | 平安科技(深圳)有限公司 | 适用于多轮对话的对话修复方法、装置、设备及存储介质 |
CN113239152B (zh) * | 2021-05-18 | 2023-07-25 | 平安科技(深圳)有限公司 | 适用于多轮对话的对话修复方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10915570B2 (en) | Personalized meeting summaries | |
US10515632B2 (en) | Asynchronous virtual assistant | |
WO2020117506A1 (en) | Transcription generation from multiple speech recognition systems | |
US20240119934A1 (en) | Systems and methods for recognizing a speech of a speaker | |
US20220343914A1 (en) | Method and system of generating and transmitting a transcript of verbal communication | |
US8265933B2 (en) | Speech recognition system for providing voice recognition services using a conversational language model | |
US9507774B2 (en) | Systems, method and program product for speech translation | |
US8301454B2 (en) | Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition | |
US8326596B2 (en) | Method and apparatus for translating speech during a call | |
US20140244252A1 (en) | Method for preparing a transcript of a conversion | |
CN109087639B (zh) | 用于语音识别的方法、装置、电子设备及计算机可读介质 | |
US12033629B2 (en) | Systems and methods for automating voice commands | |
US10971168B2 (en) | Dynamic communication session filtering | |
WO2014078036A1 (en) | Routing of machine language translation to human language translator | |
US9728202B2 (en) | Method and apparatus for voice modification during a call | |
WO2019184191A1 (zh) | 服务提供方法、电子设备及存储介质 | |
US20190180753A1 (en) | Analysis of collaborative dialog data structures from speech processing computer system | |
JP2014206896A (ja) | 情報処理装置、及び、プログラム | |
CN112989046A (zh) | 实时话术预判方法、装置、计算机设备和存储介质 | |
CN111681650A (zh) | 一种智能会议控制方法和装置 | |
US11783836B2 (en) | Personal electronic captioning based on a participant user's difficulty in understanding a speaker | |
KR20170044409A (ko) | 다자간 대화 시스템 및 방법 | |
Bumbalek et al. | Cloud-based assistive speech-transcription services | |
KR102280453B1 (ko) | 화자 식별을 통한 전자문서 데이터 제공 방법 및 장치 | |
KR102359228B1 (ko) | 맞춤형 대화 연결 서비스 제공방법 |