KR102610360B1 - 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치 - Google Patents

발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치 Download PDF

Info

Publication number
KR102610360B1
KR102610360B1 KR1020220186565A KR20220186565A KR102610360B1 KR 102610360 B1 KR102610360 B1 KR 102610360B1 KR 1020220186565 A KR1020220186565 A KR 1020220186565A KR 20220186565 A KR20220186565 A KR 20220186565A KR 102610360 B1 KR102610360 B1 KR 102610360B1
Authority
KR
South Korea
Prior art keywords
entity name
speech
text
voice
entity
Prior art date
Application number
KR1020220186565A
Other languages
English (en)
Inventor
오성조
Original Assignee
주식회사 포지큐브
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포지큐브 filed Critical 주식회사 포지큐브
Priority to KR1020220186565A priority Critical patent/KR102610360B1/ko
Application granted granted Critical
Publication of KR102610360B1 publication Critical patent/KR102610360B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 개시의 일 실시예에 따른 컴퓨팅 시스템에 의하여 수행되는 발화 보이스에 대한 레이블링 방법은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계, 및 상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 단계를 포함한다.

Description

발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치 {METHOD FOR PROVIDING LABELING FOR SPOKEN VOICES, AND APPARATUS IMPLEMENTING THE SAME METHOD}
본 개시는 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치에 관한 것으로서, 보다 자세하게는, 고객과 상담원 간의 상담 통화가 진행되는 동안, 고객의 발화 보이스에 대한 레이블링을 수행하기 위한 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치에 관한 것이다.
실시간 STT(Speech-to-Text) 서비스는 기본적으로 STT/ASR 등을 이용하여 화자들(Caller/Callee)의 발화를 텍스트로 실시간 변환하여 제공하는 것이 기본적인 서비스이다. 실시간 STT 서비스를 구현하기 위해서는 각 화자별로 음성 채널의 분리와, STT의 실시간 처리를 위한 스트리밍 등의 기술이 필요하며, 그 외에도 VAD(voice activity detection)을 이용하여 발화의 시작 시점 및 중단 시점을 추출하는 기술 등이 요구된다.
실시간 STT 서비스의 질을 일정 수준 이상으로 유지하기 위해서는 해당 서비스 분야에 맞는 STT를 위한 다양한 학습 모델(음향모델/언어모델)을 머신 러닝을 통해 지속적으로 수정하고 학습해야만 한다.
하지만 이러한 실시간 STT 서비스를 제공함에 있어, 화자의 발화에 대한 고유한 명사 또는 엔티티(Entity)의 인식률은 상대적으로 높지 않다.
일반적으로 STT를 위한 범용의 음향 모델 및 언어 모델로 최소 몇백 시간 또는 몇천 시간 이상의 학습 시간을 통해 성능을 높이고 있으나, 이러한 학습에서 고유한 명사 또는 엔티티의 학습은 많이 이루어지지 않는다. 그 이유는, 고유한 명사 또는 엔티티에 대해 범용의 STT 모델이 적용되는 경우, 사람들이 일반적으로 많이 사용하고 발음이 유사한 다른 고유 명사와의 충돌이 발생할 수 있기 때문이다.
예를 들면, 금융 분야에서 사용되는 '대부계'라는 단어에 대해 범용 STT 모델을 적용하게 되면, 원래의 대출이라는 의미 대신 사람들이 일반적으로 많이 사용하는 '대부도' 또는 '페북에'(페이스북에) 라는 단어로 해석되는 오류가 생길 수 있다.
특히, 고객센터나 콜센터의 경우, 그 업계에 맞는 고유한 명사를 사용하는 경우가 많다. 예로서, e-커머스의 경우, 구매했거나 구매하려는 제품의 고유한 이름, 주소, 고객의 이름 등이 상담원과의 대화 내용에 포함되는 경우가 대부분이다. 또한 금융에 있어서는, 결제, 송금, 금액 등의 단어가 상담원과의 대화 내용에 포함되는 경우가 많다. 이처럼 분야별로 많이 사용되는 고유한 명사가 존재하고, 각 분야별로 서로 호환되거나 같이 사용하는 경우는 드물다.
따라서, 범용 STT 모델을 이용하여 많은 학습을 하더라도, 분야별로 특화된 고유한 명사 또는 엔티티를 적용하는 데는 한계가 있다. 더구나, 새로운 제품이 지속적으로 나오고, 시대의 변화에 따라 새로운 신조어가 나오는 환경에서, 새롭게 사용하게 되는 수많은 고유한 명사들을 빠른 시간내에 학습하기는 쉽지 않다. 또한 실시간 STT 서비스는 대부분 지도 학습(supervised learning)을 사용하므로, 학습에 필요한 데이터를 정제하고 태깅 하는데 많은 시간과 인력, 비용, 그리고 그에 따르는 노력이 수반된다.
따라서, 실시간 STT 서비스를 제공함에 있어, 고객과 상담원 간 상담 통화 시 고객의 발화로부터 고유한 명사 또는 엔티티를 높은 인식률을 가지고 추출해낼 수 있는 기술이 필요하다. 또한, 분야별로 특화된 STT 모델의 학습을 위한 학습 데이터 생성을 위해 고객의 발화로부터 추출한 고유한 명사 또는 엔티티를 레이블링 하는 과정이 요구된다.
등록특허공보 제102409873호(2022.06.13. 등록)
본 개시가 해결하고자 하는 기술적 과제는, 고객과 상담원과의 통화 내용에 대한 실시간 STT 서비스를 제공함에 있어, 고객의 발화로부터 STT 모델의 지도 학습을 위한 학습 데이터의 레이블링을 자동으로 수행할 수 있는 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치를 제공하는 것이다.
본 개시가 해결하고자 하는 다른 기술적 과제는, 실시간 STT 서비스를 제공함에 있어, 고객의 발화로부터 추출한 개체명을 레이블링 함에 의해 분야별로 특화된 STT 모델의 학습을 위한 양질의 학습 데이터를 대량으로 확보할 수 있고, 이를 통해 STT 모델의 정확도를 향상시킬 수 있는 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치를 제공하는 것이다.
본 개시가 해결하고자 하는 또 다른 기술적 과제는, 실시간 STT 서비스를 제공함에 있어, 고객의 발화로부터 STT를 통해 추출된 개체명에 오류가 있는 경우, 이를 정정하여 정확한 개체명에 관한 정보를 제공하는 사용자 인터페이스를 제공할 수 있는 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치를 제공하는 것이다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 컴퓨팅 시스템에 의하여 수행되는 발화 보이스에 대한 레이블링 방법은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계, 및 상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 단계를 포함한다.
일 실시예로서, 상기 개체명을 추출하는 단계와 상기 제2 발화 보이스를 획득하는 단계 사이에, 상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상기 상담원 단말에 디스플레이 하는 단계를 더 포함하고, 상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명이 하이라이트 표시될 수 있다.
일 실시예로서, 상기 개체명을 추출하는 단계는, 상기 추출된 개체명과 동일한 텍스트가 참조 정보에 포함되었는지 여부를 판정하는 단계를 포함하고, 상기 상담 화면을 상기 상담원 단말에 디스플레이 하는 단계는, 상기 추출된 개체명과 동일한 텍스트가 참조 정보에 포함되지 않은 것으로 판정한 것에 응답하여, 상기 제1 발화 텍스트에 포함된 상기 개체명에 인접하여 오류 인디케이터를 표시하는 상담 화면을 디스플레이 하는 단계를 포함할 수 있다.
일 실시예로서, 상기 참조 정보는, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보를 포함할 수 있다.
상기 개체명을 추출하는 단계와 상기 제2 발화 보이스를 획득하는 단계 사이에, 상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상기 상담원 단말에 디스플레이 하는 단계를 더 포함하고, 상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명의 관련 정보 표시 영역을 더 포함할 수 있다.
일 실시예로서, 상기 관련 정보 표시 영역은, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보 중 적어도 하나를 표시할 수 있다.
일 실시예로서, 상기 사용자에 대한 정보는, 상기 개체명에 대응되는 정정 개체명을 포함하는 것이며, 상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이고, 상기 관련 정보 표시 영역은, 상기 정정 개체명이 하이라이트 표시될 수 있다.
일 실시예로서, 상기 사용자와 관련된 내역 정보는, 상기 사용자와 관련된 업무 이력의 시계열 정보를 포함하고, 상기 업무 이력은 업무 대상에 대한 요약 텍스트를 포함하며, 상기 요약 텍스트는 상기 개체명에 대응되는 정정 개체명을 포함하는 것이고, 상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이며, 상기 관련 정보 표시 영역은, 상기 정정 개체명이 하이라이트 표시될 수 있다.
일 실시예로서, 상기 개체명과 관련된 상품 정보는, 상기 개체명에 대응되는 정정 개체명이 제품명, 서비스명 또는 상세정보에 포함되는 상품 또는 서비스의 정보이고, 상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이며, 상기 관련 정보 표시 영역은, 상기 정정 개체명이 하이라이트 표시될 수 있다.
일 실시예로서, 상기 개체명을 추출하는 단계는, 상기 제1 발화 텍스트를 자연어 이해(NLU; Natural Language Understanding) 알고리즘에 입력하여, 상기 제1 발화 텍스트의 의도(intent)를 결정하는 단계, 상기 제1 발화 텍스트에 대한 개체명 인식을 수행함으로써, 상기 제1 발화 텍스트에 포함된 복수의 개체명을 추출하는 단계, 상기 결정된 의도에 대응되는 필수 타입 개체명 및 옵션 타입 개체명의 순서 패턴을 참조하여, 상기 제1 발화 텍스트에서 추출된 복수의 개체명 중에서 필수 타입의 개체명을 결정하는 단계, 및 상기 필수 타입의 개체명을 상기 추출된 개체명으로 결정하는 단계를 포함할 수 있다.
일 실시예로서, 제2 발화 보이스를 획득하는 단계는, 상기 제2 발화 보이스에 대한 응답인 제3 발화 보이스를 상기 사용자 단말로부터 수신하는 단계를 포함하고, 상기 제3 발화 보이스를 텍스트로 변환하여 제3 발화 텍스트를 획득하는 단계, 상기 제3 발화 텍스트가 상기 제2 발화 보이스에 대한 긍정 피드백인지 여부를 판정하는 단계, 및 상기 제3 발화 텍스트가 상기 제2 발화 보이스에 대한 긍정 피드백인 것으로 판정된 것에 응답하여, 상기 정정 개체명을 상기 제1 발화 보이스에 레이블링하는 단계를 더 포함할 수 있다.
일 실시예로서, 상기 추출된 개체명이 레이블링된 상기 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성하는 단계, 및 상기 학습 데이터 셋을 이용한 제1 도메인 특화 STT(Speech-To-Text) 모델을 기계 학습시키는 단계를 더 포함하되, 상기 제1 도메인 특화 STT 모델은, 상기 상담원 단말 및 상기 음성 통신 세션에 대응되는 고객사에 매칭된 제1 도메인에 특화된 STT 모델일 수 있다.일 실시예로서, 상기 개체명을 추출하는 단계는, 상기 제1 발화 텍스트를 자연어 이해(NLU; Natural Language Understanding) 알고리즘에 입력하여, 상기 제1 발화 텍스트의 의도(intent)를 결정하는 단계를 포함하고, 상기 추출된 개체명이 레이블링된 상기 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성하되, 상기 학습 데이터 셋은 제1 의도를 가지는 상기 제1 발화 텍스트에서 추출된 개체명이 레이블링된 것인, 단계, 및 상기 학습 데이터 셋을 이용한 제1 도메인 특화 STT(Speech-To-Text) 모델을 기계 학습시키는 단계를 더 포함하되, 상기 제1 도메인 특화 STT 모델은, 상기 제1 의도에 매칭된 제1 도메인에 특화된 STT 모델일 수 있다.
일 실시예로서, 상기 개체명을 추출하는 단계는, 상기 제1 발화 텍스트 및 상기 제1 발화 텍스트에 선행하는 복수의 발화 텍스트를 자연어 이해(NLU; Natural Language Understanding) 알고리즘에 입력하여, 상기 음성 통신 세션을 통한 대화의 대화 모델(dialog model)을 식별하는 단계, 상기 추출된 개체명이 레이블링된 상기 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성하되, 상기 학습 데이터 셋은 상기 식별된 대화 모델 상에 따른 대화 흐름의 제1 노드를 가지는 상기 제1 발화 텍스트에서 추출된 개체명이 레이블링된 것인, 단계, 및 상기 학습 데이터 셋을 이용한 제1 도메인 특화 STT(Speech-To-Text) 모델을 기계 학습시키는 단계를 더 포함하되, 상기 제1 도메인 특화 STT 모델은, 상기 제1 노드에 매칭된 제1 도메인에 특화된 STT 모델일 수 있다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 컴퓨팅 시스템에 의하여 수행되는 발화 보이스에 대한 레이블링 방법은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계, 및 상기 개체명을 상기 제2 발화 보이스에 레이블링하는 단계를 포함한다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 컴퓨팅 시스템에 의하여 수행되는 발화 보이스에 대한 레이블링 방법은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계, 및 상기 정정 개체명을 상기 제1 발화 보이스에 레이블링하는 단계를 포함한다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 컴퓨팅 시스템에 의하여 수행되는 발화 보이스에 대한 레이블링 방법은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계, 상기 제1 발화 보이스를 범용 STT 모델을 이용하여 텍스트로 변환하여 제1-1 발화 텍스트를 획득하는 단계, 상기 제1 발화 보이스를 도메인 특화 STT 모델을 이용하여 텍스트로 변환하여 제1-2 발화 텍스트를 획득하는 단계, 상기 제1-1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1-1 발화 텍스트에 포함된 개체명을 추출하는 단계, 및 상기 제1-2 발화 텍스트에 포함된 정정 개체명으로서, 상기 추출된 개체명에 대응되는 위치에 포함된 정정 개체명을 추출하는 단계, 및 상기 사용자 단말과의 음성 통신 세션을 통하여, 상기 정정 개체명의 발음을 포함하는 개체명 고객 확인용 발화 보이스를 송신하는 단계를 포함한다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 컴퓨팅 시스템은, 하나 이상의 프로세서, 외부 장치와 통신하는 통신 인터페이스, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리, 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및 상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함한다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 컴퓨팅 시스템은, 하나 이상의 프로세서, 외부 장치와 통신하는 통신 인터페이스, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리, 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및 상기 개체명을 상기 제2 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함한다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 컴퓨팅 시스템은, 하나 이상의 프로세서, 외부 장치와 통신하는 통신 인터페이스, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리, 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및 상기 정정 개체명을 상기 제1 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함한다.
도 1은 본 개시의 실시예에 따른 발화 보이스에 대한 레이블링 수행을 위한 시스템의 구성을 도시한 것이다.
도 2는 본 개시의 실시예에 따른 발화 보이스에 대한 레이블링 수행을 위한 컴퓨팅 장치 및 데이터베이스의 세부 구성을 도시한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 컴퓨팅 시스템에 의해 수행되는 발화 보이스에 대한 레이블링 방법을 설명하기 위한 순서도이다.
도 4는 도 2에 도시된 단계들 외에 추가적으로 수행되는 단계를 도시한 것이다.
도 5는 도 3에 도시된 일부 단계의 세부 프로세스를 설명하기 위한 흐름을 도시한 것이다.
도 6은 도 2에 도시된 단계들 외에 추가적으로 수행되는 단계를 도시한 것이다.
도 7은 본 개시의 다른 실시예에 따른 컴퓨팅 시스템에 의해 수행되는 발화 보이스에 대한 레이블링 방법을 설명하기 위한 순서도이다.
도 8은 본 개시의 또 다른 실시예에 따른 컴퓨팅 시스템에 의해 수행되는 발화 보이스에 대한 레이블링 방법을 설명하기 위한 순서도이다.
도 9는 본 개시의 또 다른 실시예에 따른 컴퓨팅 시스템에 의해 수행되는 발화 보이스에 대한 레이블링 방법을 설명하기 위한 순서도이다.
도 10은 본 개시의 몇몇 실시예에 따른 발화 보이스를 텍스트 변환하여 추출된 개체명을 하이라이트 표시하는 상담 화면의 예이다.
도 11은 본 개시의 몇몇 실시예에 따른 발화 보이스를 텍스트 변환하여 추출된 개체명의 관련 정보를 표시하는 상담 화면의 예이다.
도 12는 본 개시의 몇몇 실시예에 따른 추출된 개체명에 오류가 있는 경우, 개체명에 대응하는 정정 개체명을 하이라이트 표시하는 상담 화면의 예이다.
도 13은 본 개시의 몇몇 실시예에 따른 발화 보이스를 텍스트 변환하여 추출된 복수의 개체명 중 텍스트의 의도에 대응되는 필수 타입의 개체명을 결정하는 상담 화면의 예이다.
도 14는 본 개시의 몇몇 실시예에 따른 AI 콜봇에 의한 개체명의 수정 및 확인을 위한 프로세스의 예이다.
도 15는 본 개시의 일 실시예에 따른 방법들을 구현할 수 있는 예시적인 컴퓨팅 시스템의 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시 예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1은 본 개시의 실시예에 따른 발화 보이스에 대한 레이블링 수행을 위한 시스템의 구성을 도시한 것이다. 도 1을 참조하면, 본 개시의 실시예에 따른 시스템은 컴퓨팅 장치(1), 사용자 단말(10), 상담원 단말(20), 및 데이터베이스(3)를 포함한다. 컴퓨팅 장치(1)는 상담원 단말(20)과 네트워크로 연결되고, 상담원 단말(20)은 사용자 단말(10)과 전화망, 인터넷, 또는 통신사 통신망 등으로 연결된다.
컴퓨팅 장치(1)는 기업 내에서 고객센터 또는 콜센터를 통해 실시간으로 전송되는 고객의 발화에 대해 실시간 STT(Speech-To-Text)를 통한 텍스트 변환, NLU(Natural Language Understanding)를 이용한 컨텍스트 인식, 및 TA(Text Analysis)를 통한 데이터 레이블링 등을 수행하는 서버 장치일 수 있다. 또한, 컴퓨팅 장치(1)는 고객과 관련된 고객 정보, 상담 히스토리 정보, 제품 정보, 및 마케팅 정보 등을 이용한 CRM(Customer Relationship Management) 서비스를 제공하는 엔진을 포함할 수 있다.
데이터베이스(3)는 컴퓨팅 장치(1)가 이용하는 고객 정보, 상담 히스토리 정보, 제품 정보와, 컴퓨팅 장치(1)가 실시간 STT 수행을 통해 생성한 텍스트 데이터 및 레이블링 데이터 등을 저장하는 장치일 수 있다.
사용자 단말(10)은 기업의 고객센터 또는 콜센터의 서비스를 이용하기 위해 전화, 화상 전화, 인터넷 전화 등을 이용하는 고객의 단말로, 예컨대, 스마트 폰, 태블릿 PC, 랩톱 PC, PDA 등과 같은 이동식 컴퓨팅 장치, 및 개인용 데스크탑 PC와 같은 고정식 컴퓨팅 장치 중 어느 하나일 수 있다.
상담원 단말(20)은 기업의 고객센터 또는 콜센터에서 전화, 화상 전화, 인터넷 전화 등을 통해 고객에게 상담 서비스를 제공하는 상담원의 단말로, 사용자 단말(10)과 음성 통신 세션을 통해 연결된다. 상담원 단말(20)은 예컨대, 태블릿 PC, 랩톱 PC 등과 같은 이동식 컴퓨팅 장치, 및 개인용 데스크탑 PC와 같은 고정식 컴퓨팅 장치 중 어느 하나일 수 있다.
컴퓨팅 장치(1)는 사용자 단말(10)과 상담원 단말(20)의 상담 통화 과정에서 사용자 단말(10)로부터 전송되는 고객의 발화 보이스를 수신한다. 컴퓨팅 장치(1)는 고객의 발화 보이스를 실시간 STT를 통해 텍스트 변환하고, 텍스트 변환을 통해 얻게 되는 발화 텍스트로부터 적어도 하나의 개체명(Entity)을 추출한다.
만약, 고객의 발화 보이스에 부정확한 발음이 포함되거나 잘못된 정보가 포함된 경우, STT를 통한 개체명 추출에 있어 오류가 발생할 수 있다. 컴퓨팅 장치(1)는 데이터베이스(3)에 저장된 고객 정보, 상담 히스토리 정보, 및 제품 정보 등을 참조하여, STT를 통한 개체명 추출 과정에서 오류를 자동 검출할 수 있다. 이때, 컴퓨팅 장치(1)는 검출된 오류를 상담원이 곧바로 확인할 수 있도록 상담원 단말(20)의 화면에 개체명의 오류를 식별 가능하도록 표시하도록 할 수 있다.
이 경우, 상담원은 상담원 단말(20)의 화면에 표시되는 오류를 확인한 후 정확한 발음으로 정정된 개체명을 발화하여 고객의 확인을 구하게 되고, 이로부터 컴퓨팅 장치(1)는 상담원 단말(20)로부터 정정된 개체명의 발음을 포함하는 정정된 발화 보이스를 얻을 수 있다.
컴퓨팅 장치(1)는 상기와 같은 과정을 통해 얻게 되는 정정된 개체명을 정정된 발화 보이스에 레이블링 하고, 레이블링 된 데이터는 실시간 STT 모델의 학습을 위한 학습 데이터로서 사용하게 된다.
상기와 같은 본 개시의 시스템의 구성에 의하면, 고객과 상담원과의 통화 내용에 대한 실시간 STT 서비스를 제공함에 있어, 고객의 발화로부터 STT 모델의 지도 학습을 위한 학습 데이터의 레이블링을 자동으로 수행할 수 있다.
도 2는 본 개시의 실시예에 따른 발화 보이스에 대한 레이블링 수행을 위한 컴퓨팅 장치 및 데이터베이스의 세부 구성을 도시한 블록도이다. 도 2를 참조하면, 도 1에서 설명한 본 개시의 실시예에 따른 시스템의 구성 중 컴퓨팅 장치(1)와 데이터베이스(3)의 세부적인 구성을 보여준다.
컴퓨팅 장치(1)는 실시간 STT 연동 서버(11) 및 학습 서버(12)로 구성될 수 있다. 실시간 STT 연동 서버(11)는 범용/특화 STT 엔진(111), NLU 엔진(112), TA 엔진(113), 및 CRM 엔진(114)을 포함하고, 학습 서버(12)는 범용/특화 STT 모델 학습기(121), NLU 모델 학습기(122), 및 TA 모델 학습기(123)를 포함할 수 있다.
데이터베이스(3)는 상담 녹취 파일(311), 고객 정보(312), 제품 정보(313), 및 상담 히스토리 정보(314) 등을 저장하는 제1 DB(31)와, 음성 스크립트(321), 태깅(Tagging) 정보(322), 의도(intent) 데이터(323), 개체명(Entity) 데이터(324) 등을 저장하는 제2 DB(32)를 포함한다.
범용/특화 STT 엔진(111)은 고객센터 또는 콜센터를 통해 실시간으로 전송되는 고객의 발화에 대해 실시간 STT를 통한 텍스트 변환을 수행한다. 이때, 범용/특화 STT 엔진(111)은 범용 STT 모델과 특화 STT 모델 중 적어도 하나를 이용하여 텍스트 변환을 수행할 수 있다. 이에 따라, 텍스트 변환을 통해 얻게 되는 발화 텍스트가 제2 DB(32)의 음성 스크립트 정보(321)에 저장될 수 있다.
NLU 엔진(112)은 범용/특화 STT 엔진(111)에서 고객의 발화를 텍스트 변환하여 얻은 발화 텍스트를 NLU 모델에 입력하여, 발화 텍스트로부터 개체명(Entity)을 추출하고, 발화 텍스트의 의도(intent)를 결정하는 동작을 수행한다. 이에 따라, NLU 엔진(112)을 통해 추출된 개체명과 의도에 관한 정보는 제2 DB(32)의 개체명(Entity) 정보(324)와 의도 정보(323)에 각각 저장될 수 있다. 또한, NLU 엔진(112)은 발화 텍스트의 분석을 통해 대화 모델을 식별하는 동작을 수행할 수도 있다.
TA 엔진(113)은 범용/특화 STT 엔진(111)과 NLU 엔진(112)을 통해 추출된 개체명이 제1 DB(31)에 저장된 고객 정보(312), 제품 정보(313), 및 상담 히스토리 정보(314) 중 적어도 하나에 포함되어 있는지 여부를 식별할 수 있다. TA 엔진(113)은 추출된 개체명이 고객 정보(312), 제품 정보(313), 및 상담 히스토리 정보(314) 중 적어도 하나에 포함되어 있는 것으로 식별되면, 추출된 개체명에 오류가 없는 것으로 결정하고, 추출된 개체명을 고객의 발화에 레이블링 하거나, 추출된 개체명을 고객의 발화를 확인하기 위한 상담원의 발화에 레이블링 하는 동작을 수행할 수 있다.
또한, TA 엔진(113)은 추출된 개체명이 고객 정보(312), 제품 정보(313), 및 상담 히스토리 정보(314) 중 적어도 하나에 포함되지 않은 것으로 식별되면, 추출된 개체명에 오류가 있는 것으로 결정하고, 추출된 개체명에 대응하는 정정 개체명을 상담원의 발화 또는 제1 DB(31)에 저장된 정보로부터 얻을 수 있다. 이때, TA 엔진(113)은 정정된 개체명을 상담원의 발화 또는 고객의 발화에 레이블링 하는 동작을 수행한다. 이때, 정정된 개체명은 상담원 단말(20)의 화면에 표시되는 정보로부터 얻을 수도 있다.
이에 따라, TA 엔진(113)을 통해 레이블링 된 데이터는 제2 DB(32)의 태깅(tagging) 정보(322)에 저장될 수 있다.
CRM 엔진(114)은 제1 DB(31)에 저장되어 있는 고객 정보(312), 상담 히스토리 정보(314), 제품 정보(313)와, 이러한 정보들을 이용하여 생성되는 마케팅 정보 등을 이용하여 사용자 단말(10)의 고객에 대한 CRM 서비스를 제공하는 동작을 수행할 수 있다. CRM 서비스는, 기존 고객을 위한 상담 서비스, A/S 서비스, 및 신규 고객 확보 및 제품 판매를 위한 마케팅 서비스 등을 포함할 수 있다.
한편, 학습 서버(12)에 포함된 범용/특화 STT 모델 학습기(121), NLU 모델 학습기(122), 및 TA 모델 학습기(123) 각각은, 실시간 STT 연동 서버(11)에서 생성되어 제2 DB(32)에 저장되는 개체명 데이터(324), 태깅 데이터(322), 의도 데이터(323) 등을 포함하는 학습 데이터를 이용하여 STT 모델, NLU 모델, 및 TA 모델의 학습을 수행하고, 학습 결과에 따라 각 모델을 생성 또는 수정하는 동작을 수행할 수 있다.
상기와 같은 컴퓨팅 장치(1)와 데이터베이스(3)의 세부 구성에 의하면, 실시간 STT 서비스를 제공함에 있어, 고객의 발화로부터 추출한 개체명을 자동으로 레이블링 함에 의해 분야별로 특화된 STT 모델의 학습을 위한 양질의 학습 데이터를 대량으로 확보하는 것이 가능하다. 또한, 자동 레이블링을 통해 확보된 학습 데이터를 이용한 STT 모델의 학습을 통해 STT 모델의 정확도를 향상시킬 수 있다.
도 3은 본 개시의 일 실시예에 따른 컴퓨팅 시스템에 의해 수행되는 발화 보이스에 대한 레이블링 방법을 설명하기 위한 순서도이다.
본 개시의 실시예에 따른 발화 보이스에 대한 레이블링 방법은 도 1에 도시되어 있는 컴퓨팅 장치(1)에 의하여 실행될 수 있다. 본 실시예에 따른 방법을 실행하는 상기 컴퓨팅 장치(1)는 도 15에 도시된 컴퓨팅 시스템(100)일 수 있다. 컴퓨팅 장치(1)는 예컨대, PC, 서버 등 연산 기능과 응용 프로그램의 개발 기능을 수행할 수 있는 장치일 수 있다.
본 개시의 실시예에 따른 방법에 포함되는 일부 동작의 수행 주체에 대한 기재가 생략될 수 있으며, 그러한 경우 그 주체는 컴퓨팅 장치(1)임을 유의한다.
이하에서 설명되는 본 개시의 실시예에 의하면, 고객의 발화로부터 STT 모델의 지도 학습을 위한 학습 데이터의 레이블링을 자동으로 수행하는 기능을 제공할 수 있다.
먼저, 동작 S10에서, 컴퓨팅 장치(1)는 사용자 단말(10)에서 수신된 제1 발화 보이스를 수신하고, 수신된 발화 보이스를 실시간 STT를 통해 텍스트로 변환하여 제1 발화 텍스트를 획득한다.
다음으로, 동작 S20에서, 컴퓨팅 장치(1)는 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 제1 발화 텍스트에 포함된 개체명을 추출한다.
일 실시예로서, 동작 S20은, 추출된 개체명과 동일한 텍스트가 참조 정보에 포함되었는지 여부를 판정하는 동작을 포함할 수 있다. 여기서, 참조 정부는, 사용자 단말의 사용자에 대한 정보, 사용자와 관련된 내역 정보 및 개체명과 관련된 상품 정보를 포함할 수 있다.
일 실시예로서, 동작 S20과 그 이후에 수행되는 동작 S30 사이에, 컴퓨팅 장치(1)는 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상담원 단말(20)에 디스플레이 하는 동작을 추가적으로 수행할 수 있다.
예로서, 도 4에 도시된 예와 같이, 상담 화면을 디스플레이 함에 있어, 동작 S251, 동작 S252, 및 동작 S253 중 적어도 하나가 수행될 수 있다.
동작 S251에서, 컴퓨팅 장치(1)는 상담 화면에 제1 발화 텍스트에 포함된 개체명을 하이라이트 표시할 수 있다.
도 10의 예를 살펴보면, 상담 화면(1001)에는 실시간 STT를 통해 고객의 발화 보이스와 상담원의 발화 보이스가 텍스트 변환된 발화 텍스트들이 실시간으로 표시되고, 이때, 각 발화 텍스트로부터 개체명 인식 알고리즘을 통해 추출된 개체명인 '코래버스'(1002), '김금주'(1004) 등에 대해 박스 라인(box line) 또는 볼드체(BOLD) 등의 방법으로 하이라이트 표시될 수 있다.
또한, 동작 S252에서, 컴퓨팅 장치(1)는 상담 화면에 추출된 개체명과 동일한 텍스트가 참조 정보에 포함되지 않은 것으로 판정한 것에 응답하여, 제1 발화 텍스트에 포함된 개체명에 인접하여 오류 인디케이터를 표시할 수 있다.
도 10의 예에서, 상담 화면(1001)에 있어, 고객의 발화 보이스로부터 추출된 개체명 중 '코래버스'(1002)가 제1 DB(31)에 저장되어 있는 제품 정보(313) 또는 상담 히스토리 정보(314)에 포함되어 있지 않은 경우, '제품명 오류'라는 텍스트를 포함하는 오류 인디케이터(1003)가 표시될 수 있다. 또한, 추출된 개체명 중 '김금주'(1004)가 제1 DB(31)에 저장되어 있는 고객 정보(312)에 포함되어 있지 않은 경우, '이름 오류'라는 텍스트를 포함하는 오류 인디케이터(1005)가 표시될 수 있다.
또한, 동작 S253에서, 컴퓨팅 장치(1)는 상담 화면에 제1 발화 텍스트에 포함된 개체명의 관련 정보 표시 영역을 표시할 수 있다.
도 11의 예를 살펴보면, 상담 화면(110)에 있어, 고객과의 상담 통화 내역이 실시간 STT를 통해 변환되어 표시되는 발화 텍스트들을 보여주는 실시간 통화 내역 영역(111)과 함께, 관련 정보 표시 영역(112, 113, 114)이 표시될 수 있다. 구체적으로, 관련 정보 표시 영역은, 상담 통화 중인 고객의 발화 보이스로부터 추출된 개체명인 '김금주'(1004)에 대응하는 고객 정보를 표시하는 제1 영역(113), 추출된 개체명인 김금주'(1004)에 대응하는 고객의 기존 상담 히스토리 정보를 표시하는 제2 영역(112), 및 추출된 개체명인 코래버스'(1002)에 대응하는 제품에 관한 정보를 표시하는 제3 영역(114)을 포함할 수 있다.
일 실시예로서, 도 5에 도시된 바와 같이, 동작 S20은, 제1 발화 텍스트를 자연어 이해(NLU) 알고리즘에 입력하여, 제1 발화 텍스트의 의도(intent)를 결정하는 동작 S201, 개체명 인식을 수행함으로써, 제1 발화 텍스트에 포함된 복수의 개체명을 추출하는 동작 S202, 및 제1 발화 텍스트에서 추출된 복수의 개체명 중에서 필수 타입의 개체명을 결정하고, 이를 추출된 개체명으로 결정하는 동작 S203을 포함할 수 있다.
예로서, 도 13의 예를 참조하면, 컴퓨팅 장치(1)는, 고객의 발화 텍스트인 "콜레바스 수제 구두를 좀 주문하려고 합니다."(131)를 NLU 모델에 입력하여 NLU 알고리즘의 수행을 통해 출력된 결과로부터 발화 텍스트에 포함된 의도(intent)를 'REQUEST_ORDER'(132)로 결정할 수 있다. 여기서 의도(intent)는, 미리 저장되어 있는 다양한 종류의 의도들 중, 발화 텍스트의 해석에 대응하는 의도로 결정될 수 있다. 예로서, 'REQUEST_ORDER'(132)의 경우 발화 텍스트가 제품을 주문하는 요청으로 해석된 경우에 해당하는 값일 수 있다.
또한, 컴퓨팅 장치(1)는 고객의 발화 텍스트인 "콜레바스 수제 구두를 좀 주문하려고 합니다."(131)로부터 개체명 인식 알고리즘을 통해 복수의 개체명인 '콜레바스'(133), '수제'(134), '구두'(135), '주문'(136)을 추출할 수 있다.
이때, 컴퓨팅 장치(1)는 추출된 복수의 개체명 각각을 결정된 의도인 'REQUEST_ORDER'(132)에 기초하여 필수 타입 개체명인지 혹은 옵션 타입 개체명인지를 분류할 수 있다. 예로서, '콜레바스'(133)와 '주문'(136)은 필수 타입 개체명으로 결정되고, '수제'(134)와 '구두'(135)는 옵션 타입 개체명으로 결정될 수 있다.
이때, 컴퓨팅 장치(1)는 의도에 기초하여 필수 타입 개체명과 옵션 타입 개체명을 결정함에 있어, 복수의 개체명 각각의 순서 패턴을 참조할 수 있다. 이러한 순서 패턴은, 발화 텍스트의 문장 내에서 복수의 개체명의 어순을 의미할 수 있다. 한편, 컴퓨팅 장치(1)는 어순이 변경된 다양한 학습 데이터를 이용하여 NLU 모델을 학습함에 의해 동일한 개체명을 가지는 어순이 다른 여러 문장에 대해서도 의도에 대응하는 필수 타입 개체명과 옵션 타입 개체명을 결정할 수 있다.
이에 따라, 도 13의 예에서, 컴퓨팅 장치(1)는 의도에 기초하여 결정된 필수 타입 개체명들과 옵션 타입 개체명들 중, 필수 타입의 개체명인 '콜레바스'(133)와 '주문'(136)을 레이블링을 수행할 개체명으로 결정(137)할 수 있다.
다음으로, 동작 S30에서, 컴퓨팅 장치(1)는 사용자 단말(10)과의 음성 통신 세션이 연결된 상담원 단말(20)로부터, 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득한다. 여기서, 정정 개체명은 개체명과 서로 상이한 텍스트로서, 데이터베이스(3)에 저장된 정보들 중 개체명과의 유사도가 가장 높은 것일 수 있다. 예로서, 정정 개체명은, 개체명과의 동의어 또는 유사어일 수 있다.
예로서, 도 12의 예에서, 고객의 발화 보이스로부터 추출된 개체명 중 고객의 이름에 해당하는 '김금주'(121)가 제1 DB(31)에 저장된 참조 정보에 포함되어 있지 않은 경우, 상담원에 의해 '김금주'(121)에 대응하는 정정 개체명인 '김금두'(122)가 발화되어 텍스트로 표시될 수 있다. 이때, 정정 개체명인 '김금두'(122)는, 도 11의 상담 화면의 통화 내역 영역(111)에 표시될 수 있다. 또한, 정정 개체명인 '김금두'는, 도 11의 관련 정보 표시 영역 중 고객 정보를 표시하는 제1 영역(113)에 표시될 수 있고, 이로부터 상담원이 제1 영역(113) 상에서 고객의 이름과 관련한 정정 개체명을 빠르게 식별하여 고객에게 확인할 수 있도록 박스 라인 또는 볼드체의 형태로 정정 개체명이 하이라이트 표시될 수 있다. 일 실시예로서, 개체명에 대응하는 정정 개체명은 사전에 등록되어 저장된 것일 수 있다. 예로서, 컴퓨팅 장치(1)는 고객의 발화 보이스로부터 추출된 개체명인 '김금주'(121)가 제1 DB(31)의 고객 정보(312)에 포함되어 있지 않은 경우, 유사어 검색을 통해 '김금주'(121)와 유사한 고객명인 '김금두'를 식별하고, 식별된 '김금두'를 정정 개체명으로 결정하여, 상담 화면의 관련 정보 표시 영역의 제1 영역(113)에 표시할 수 있다.
일 실시예로서, 고객의 발화 보이스로부터 추출된 개체명 중 제1 DB(31)에 저장된 참조 정보에 포함되어 있지 않은 경우, 도 11의 관련 정보 표시 영역 중 고객의 상담 히스토리 정보를 표시하는 제2 영역(112)에 추출된 개체명에 대응하는 정정 개체명이 표시될 수 있다. 이때, 고객의 상담 히스토리 정보는 고객과 관련된 업무 이력의 시계열 정보를 포함하고, 업무 이력은 업무 대상에 대한 요약 텍스트를 포함할 수 있다. 예로서, 요약 텍스트는 추출된 개체명에 대응하는 정정 개체명을 포함할 수 있다. 이 경우에 있어서도, 상담원이 제2 영역(112) 상에서 상담 히스토리의 요약 텍스트와 관련한 정정 개체명을 빠르게 식별하여 고객에게 확인할 수 있도록 박스 라인 또는 볼드체의 형태로 정정 개체명이 하이라이트 표시될 수 있다.
일 실시예로서, 고객의 발화 보이스로부터 추출된 개체명 중 제1 DB(31)에 저장된 참조 정보에 포함되어 있지 않은 경우, 도 11의 관련 정보 표시 영역 중 제품에 관한 정보를 표시하는 제3 영역(114)에 추출된 개체명에 대응하는 정정 개체명이 표시될 수 있다. 이때, 제품에 관한 정보는 제품명, 서비스명, 또는 상세정보에 포함되는 제품 또는 서비스의 정보를 포함할 수 있다. 이 경우에도, 상담원이 제3 영역(114) 상에서 제품 또는 서비스와 관련한 정정 개체명을 빠르게 식별하여 고객에게 확인할 수 있도록 박스 라인 또는 볼드체의 형태로 정정 개체명이 하이라이트 표시될 수 있다.
이에 따라, 고객의 발화로부터 STT를 통해 추출된 개체명에 오류가 있는 경우, 이를 정정하여 정확한 개체명에 관한 정보를 제공하는 사용자 인터페이스를 제공할 수 있다.
마지막으로, 동작 S40에서, 컴퓨팅 장치(1)는 동작 S30을 통해 획득한 개체명에 대응하는 정정 개체명을 정정 개체명의 발음을 포함하는 제2 발화 보이스에 레이블링 한다. 예로서, 도 12의 예와 같이, 고객의 발화 텍스트로부터 추출된 개체명인 '김금주'(121)의 인식에 오류가 있는 경우, '김금주'(121)에 대응하는 정정 개체명인 '김금두'(122)를 정정 개체명의 발음을 포함하는 상담원의 제2 발화 보이스에 레이블링 할 수 있다.
일 실시예로서, 컴퓨팅 장치(1)는 사용자 단말(10)로부터 상담원의 제2 발화 보이스에 대한 응답인 제3 발화 보이스를 수신할 수 있다. 컴퓨팅 장치(1)는 제3 발화 보이스를 텍스트 변환하여 제3 발화 텍스트를 획득하고, 제3 발화 텍스트가 상기 제2 발화 보이스에 대한 긍정 피드백인지 여부를 판정할 수 있다. 이때, 제3 발화 텍스트가 상기 제2 발화 보이스에 대한 긍정 피드백인 것으로 판정된 경우, 컴퓨팅 장치(1)는 정정 개체명을 상담원의 제2 발화 보이스가 아닌, 사용자 단말(10)로부터 수신된 제1 발화 보이스에 레이블링 할 수 있다. 예로서, 상담원이 제2 발화 보이스가 맞는지 여부에 대해 고객에게 확인을 구하는 과정에서 고객이 '네. 맞습니다'와 같은 긍정 피드백을 제공하는 경우, 정정 개체명을 고객의 제1 발화 보이스에 레이블링 할 수 있다.
일 실시예로서, 도 6에 도시된 바와 같이, 컴퓨팅 장치(1)는 도 3에서 설명한 동작 S10 내지 동작 S40을 수행한 이후에, 추가적으로 동작 S50 및 동작 S60을 더 수행할 수 있다.
동작 S50에서, 컴퓨팅 장치(1)는 추출된 개체명이 레이블링된 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성한다.
다음으로, 동작 S60에서, 컴퓨팅 장치(1)는 학습 데이터 셋을 이용한 제1 도메인 특화 STT(Speech-To-Text) 모델을 기계 학습시킨다.
일 실시예로서, 제1 도메인 특화 STT 모델은, 상담원 단말(20) 및 음성 통신 세션에 대응되는 고객사에 매칭된 제1 도메인에 특화된 STT 모델일 수 있다. 예로서, 고객사가 보험사인 경우, 보험사에서 주로 사용되는 개체명들이 레이블링 된 학습 데이터를 학습한 STT 모델이 사용될 수 있다.
다른 실시예로서, 제1 도메인 특화 STT 모델은, 고객의 제1 발화 텍스트에 대해 NLU 알고리즘을 통해 결정된 제1 의도에 매칭된 제1 도메인에 특화된 STT 모델일 수 있다. 예로서, 고객의 발화 텍스트로부터 결정된 제1 의도에 대응하는 도메인이 주소인 경우, 고객들의 주소와 관련된 발화에서 추출된 개체명들이 레이블링 된 학습 데이터를 학습한 STT 모델이 사용될 수 있다.
예를 들어, 제1 도메인에 특화된 특화 STT 모델이 주소 특화 STT 모델이라고 가정하자. 고객의 발화 보이스로부터 추출된 개체명 중 예를 들어, 고객의 주소에 해당하는 '서울특별시 구로구 감로천로 12길, 이우아파트 125동 128호'가 제1 DB(31)에 저장된 참조 정보에 포함되어 있지 않은 경우, 상담원에 의해 개체명인 '서울특별시 구로구 감로천로 12길, 이우아파트 125동 128호'에 대응하는 정정 개체명인 '서울특별시 구로구 감노철로 12길, 이유아파트 125동 128호'의 발음을 포함하는 제2 발화 보이스를 획득함으로써, 개체명이 레이블링된 제 2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성하여, 주소 특화 STT 모델을 기계 학습시킬 수 있다.
만약, 종래와 같이 고유명사가 음절 단위로 학습된 범용 STT 모델만을 이용하여 주소를 인식하고자 하는 경우, 범용 STT 모델이 주소 외의 다량의 학습 데이터를 학습해야 함에 따라, 주소와 관련된 발화에서 인식 정확도가 낮아지고, 오버피팅(overfitting)의 문제점이 발생될 수 있다.
그러나 본 발명은 개체명이 레이블링된 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 이용하여 주소 특화 STT 모델을 학습시킴으로써, 음절 단위뿐만 아니라,'~로, ~길'로 구성된 주소를 학습시켜 주소 도메인에 특화된 STT 모델을 제공할 수 있으며, 추후 고객들의 주소와 관련된 발화에 있어서 인식 정확도를 향상시킬 수 있다는 장점을 제공할 수 있다.
또 다른 실시예로서, 제1 도메인 특화 STT 모델은, 고객의 제1 발화 텍스트에 대해 NLU 알고리즘을 통해 식별된 대화 모델 상에 따른 대화 흐름의 제1 노드에 매칭된 제1 도메인에 특화된 STT 모델일 수 있다. 예로서, 고객의 제1 발화 텍스트와 그 이전에 선행하는 고객 또는 상담원의 발화 텍스트들을 분석하여 대화 모델을 식별하고, 대화 모델에 따른 대화 흐름의 제1 노드의 의도에 대응하는 제1 도메인이 주소인 경우, 고객들의 주소와 관련된 발화에서 추출된 개체명들이 레이블링 된 학습 데이터를 학습한 STT 모델이 사용될 수 있다.
상기와 같이, 본 개시의 실시예에 따른 방법에 의하면, 실시간 STT 서비스를 제공함에 있어, 고객의 발화로부터 추출한 개체명을 레이블링 함에 의해 분야별로 특화된 STT 모델의 학습을 위한 양질의 학습 데이터를 대량으로 확보할 수 있고, 이를 통해 STT 모델의 정확도를 향상시킬 수 있다.
도 7 내지 도 9는 본 개시의 다른 실시예에 따른 컴퓨팅 시스템에 의해 수행되는 발화 보이스에 대한 레이블링 방법을 설명하기 위한 순서도이다.
본 개시의 실시예에 따른 발화 보이스에 대한 레이블링 방법은 도 1에 도시되어 있는 컴퓨팅 장치(1)에 의하여 실행될 수 있다. 본 실시예에 따른 방법을 실행하는 상기 컴퓨팅 장치(1)는 도 15에 도시된 컴퓨팅 시스템(100)일 수 있다.
도 7에 도시된 예는, 고객의 발화 보이스에 대한 STT의 수행 결과에 오류가 없는 경우에 대한 실시예로서, 동작 S71 내지 동작 S74가 수행된다.
먼저, 동작 S71에서, 컴퓨팅 장치(1)는 사용자 단말(10)로부터 수신된 제1 발화 보이스를 수신하고, 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득한다.
다음으로, 동작 S72에서, 컴퓨팅 장치(1)는 제1 발화 텍스트에 대한 개체명 인식을 수행함으로써, 제1 발화 텍스트에 포함된 개체명을 추출한다.
동작 S73에서, 컴퓨팅 장치(1)는 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 추출된 개체명의 발음을 포함하는 제2 발화 보이스를 획득한다.
마지막으로, 동작 S74에서, 컴퓨팅 장치(1)는 개체명을 상담원의 제2 발화 보이스에 레이블링 한다.
상기와 같은 실시예에 의하면, 고객의 발화 보이스에 대한 STT의 수행 시 고객의 발화 보이스로부터 추출된 개체명에 오류가 없는 경우, 추출된 개체명을 동일하게 발음한 상담원의 발화 보이스에 레이블링 하여 학습 데이터에 추가할 수 있다.
도 8에 도시된 예는, 고객의 발화 보이스에 대한 STT의 수행 결과에 오류가 있는 경우에 대한 실시예로서, 동작 S81 내지 동작 S84가 수행된다.
먼저, 동작 S81에서, 컴퓨팅 장치(1)는 사용자 단말(10)로부터 수신된 제1 발화 보이스를 수신하고, 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득한다.
다음으로, 동작 S82에서, 컴퓨팅 장치(1)는 제1 발화 텍스트에 대한 개체명 인식을 수행함으로써, 제1 발화 텍스트에 포함된 개체명을 추출한다.
동작 S83에서, 컴퓨팅 장치(1)는 사용자 단말(10)과의 음성 통신 세션이 연결된 상담원 단말(20)로부터, 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득한다.
마지막으로, 동작 S84에서, 컴퓨팅 장치(1)는 정정 개체명을 고객의 제1 발화 보이스에 레이블링 한다.
상기와 같은 실시예에 의하면, 고객의 발화 보이스에 대한 STT의 수행 시 고객의 발화 보이스로부터 추출된 개체명에 오류가 있는 경우, 정정된 개체명을 고객의 발화 보이스에 레이블링 하여 학습 데이터에 추가할 수 있다.
도 9에 도시된 예는, 고객과 AI 상담원(예: AI 콜봇) 간의 상담 통화 과정에서, 고객의 발화 보이스에 대한 범용 STT의 수행에 따른 개체명과, 도메인 특화 STT의 수행에 따른 개체명이 상이한 경우, AI 상담원의 발화를 통해 정정된 개체명에 대한 확인을 구하는 실시예로서, 동작 S91 내지 동작 S95가 수행된다.
먼저, 동작 S91에서, 컴퓨팅 장치(1)는 사용자 단말(10)로부터 수신된 제1 발화 보이스를 수신하고, 제1 발화 보이스를 범용 STT 모델을 이용하여 텍스트로 변환하여 제1-1 발화 텍스트를 획득한다.
동작 S92에서, 컴퓨팅 장치(1)는 제1 발화 보이스를 도메인 특화 STT 모델을 이용하여 텍스트로 변환하여 제1-2 발화 텍스트를 획득한다.
다음으로, 동작 S93에서, 컴퓨팅 장치(1)는 제1-1 발화 텍스트에 대한 개체명 인식을 수행함으로써, 제1-1 발화 텍스트에 포함된 개체명을 추출한다.
동작 S94에서, 컴퓨팅 장치(1)는 제1-2 발화 텍스트에 포함된 정정 개체명으로서, 추출된 개체명에 대응되는 위치에 포함된 정정 개체명을 추출한다.
마지막으로, 동작 S95에서, 컴퓨팅 장치(1)는 사용자 단말(10)과의 음성 통신 세션을 통하여, 정정 개체명의 발음을 포함하는 개체명 고객 확인용 발화 보이스를 송신한다.
예로서, 도 14를 참조하면, 사용자 단말(10)의 고객과 상담원 단말(20)의 AI 상담원 간에 상담 통화가 진행되는 과정에서, 컴퓨팅 장치(1)는 사용자 단말(10)로부터 수신된 고객의 발화 보이스에 대해, 범용 STT 모델(141)과 도메인 특화 STT 모델 각각을 이용하여 제1 발화 텍스트(142)와 제2 발화 텍스트(145)를 추출할 수 있다.
이때, 컴퓨팅 장치(1)는 제1 발화 텍스트(142)로부터 추출한 개체명(143)과 제2 발화 텍스트(145)로부터 추출한 정정 개체명(146)이 상이한 경우, 정정 개체명(146)의 발음을 포함하는 개체명 고객 확인용 발화 보이스를 생성하여 상담원 단말(20)로 제공한다.
이때, 상담원 단말(20)의 AI 상담원은 컴퓨팅 장치(1)로부터 제공된 정정 개체명(146)의 발음을 포함하는 개체명 고객 확인용 발화 보이스를 음성 통신 세션을 통해 사용자 단말(10)로 송신하여, 사용자 단말(10)의 고객에게 정정 개체명(146)이 맞는지 여부에 대해 확인을 구할 수 있다.
상기와 같은 실시예에 의하면, AI 콜봇에 의한 상담 시, 고객의 발화 보이스에 대한 범용 STT의 수행에 따른 개체명과 도메인 특화 STT의 수행에 따른 개체명이 상이한 경우, AI 상담원의 발화를 통해 도메인 특화 STT에 의해 추출된 정정 개체명에 대한 확인을 고객에게 구할 수 있다. 이에 따라, 고객 발화 보이스로부터 추출되는 개체명에 오류가 있는 경우, 도메인 특화 STT를 통해 AI 상담원에 의해 발화되는 정정 개체명을 이용하여 개체명 인식의 정확도를 높일 수 있다.
상기와 같이, 본 개시의 실시예에 따른 방법들에 의하면, 실시간 STT 서비스를 제공함에 있어, 고객의 발화로부터 STT 모델의 지도 학습을 위한 학습 데이터의 레이블링을 자동으로 수행할 수 있고, 분야별로 특화된 STT 모델의 학습을 위한 양질의 학습 데이터를 대량으로 확보할 수 있다.
또한, AI 콜봇에 의한 상담에 있어서도, 고객의 발화로부터 추출된 개체명에 오류가 있는 경우, 해당 서비스의 도메인에 특화된 STT를 통해 정정된 개체명에 관한 정보를 제공할 수 있다.
도 15는 본 발명의 몇몇 실시예에 따른 방법들을 구현할 수 있는 예시적인 컴퓨팅 시스템의 하드웨어 구성도이다. 도 15에 도시된 바와 같이, 컴퓨팅 시스템(100)은 하나 이상의 프로세서(101), 버스(107), 네트워크 인터페이스(102), 프로세서(101)에 의하여 수행되는 컴퓨터 프로그램(105)을 로드(load)하는 메모리(103)와, 컴퓨터 프로그램(105)을 저장하는 스토리지(104)를 포함할 수 있다. 다만, 도 15에는 본 발명의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 15에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(101)는 컴퓨팅 시스템(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(101)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(101)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 시스템(100)은 하나 이상의 프로세서를 구비할 수 있다.
메모리(103)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(103)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(104)로부터 하나 이상의 프로그램(105)을 로드(load) 할 수 있다. 예를 들어, 컴퓨터 프로그램(105)이 메모리(103)에 로드 되면, 로직(또는 모듈)이 메모리(103) 상에 구현될 수 있다. 메모리(103)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.
버스(107)는 컴퓨팅 시스템(100)의 구성 요소 간 통신 기능을 제공한다. 버스(107)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
네트워크 인터페이스(102)는 컴퓨팅 시스템(100)의 유무선 인터넷 통신을 지원한다. 네트워크 인터페이스(102)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 네트워크 인터페이스(102)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
스토리지(104)는 하나 이상의 컴퓨터 프로그램(105)을 비임시적으로 저장할 수 있다. 스토리지(104)는 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(105)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 컴퓨터 프로그램(105)이 메모리(103)에 로드 되면, 프로세서(101)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
일 실시예로서, 컴퓨터 프로그램(105)은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및 상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함할 수 있다.
다른 실시예로서, 컴퓨터 프로그램(105)은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및 상기 개체명을 상기 제2 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함할 수 있다.
또 다른 실시예로서, 컴퓨터 프로그램(105)은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작, 상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작, 상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작, 상기 사용자 단말과의 음성 통신 세션이 연결된 상담원 단말로부터, 상기 추출된 개체명에 대응되는 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및 상기 정정 개체명을 상기 제1 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함할 수 있다.
또 다른 실시예로서, 컴퓨터 프로그램(105)은, 사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작, 상기 제1 발화 보이스를 범용 STT 모델을 이용하여 텍스트로 변환하여 제1-1 발화 텍스트를 획득하는 동작, 상기 제1 발화 보이스를 도메인 특화 STT 모델을 이용하여 텍스트로 변환하여 제1-2 발화 텍스트를 획득하는 동작, 상기 제1-1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1-1 발화 텍스트에 포함된 개체명을 추출하는 동작, 및 상기 제1-2 발화 텍스트에 포함된 정정 개체명으로서, 상기 추출된 개체명에 대응되는 위치에 포함된 정정 개체명을 추출하는 동작, 및 상기 사용자 단말과의 음성 통신 세션을 통하여, 상기 정정 개체명의 발음을 포함하는 개체명 고객 확인용 발화 보이스를 송신하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함할 수 있다.
지금까지 도 1 내지 도 15를 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 컴퓨팅 시스템에 의하여 수행되는 방법에 있어서,
    사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계;
    상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계;
    상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계;
    상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상담원 단말에 디스플레이 하되, 상기 상담 화면에 상기 추출된 개체명에 대응되는 정정 개체명이 하이라이트 표시되는 단계;
    상기 사용자 단말과의 음성 통신 세션이 연결된 상기 상담원 단말로부터, 상기 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계; 및
    상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 단계를 포함하고,
    상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명의 관련 정보 표시 영역을 더 포함하는 것이고,
    상기 관련 정보 표시 영역은, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보 중 적어도 하나를 표시하고,
    상기 사용자에 대한 정보는,
    상기 개체명에 대응되는 정정 개체명을 포함하는 것이며,
    상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이고,
    상기 관련 정보 표시 영역은, 상기 정정 개체명이 하이라이트 표시되는 것을 특징으로 하는,
    발화 보이스에 대한 레이블링 방법.
  2. 제1 항에 있어서,
    상기 상담 화면은,
    상기 제1 발화 텍스트에 포함된 상기 개체명이 하이라이트 표시되는 것을 특징으로 하는,
    발화 보이스에 대한 레이블링 방법.
  3. 제2 항에 있어서,
    상기 개체명을 추출하는 단계는,
    상기 추출된 개체명과 동일한 텍스트가 참조 정보에 포함되었는지 여부를 판정하는 단계를 포함하고,
    상기 상담 화면을 상기 상담원 단말에 디스플레이 하는 단계는,
    상기 추출된 개체명과 동일한 텍스트가 참조 정보에 포함되지 않은 것으로 판정한 것에 응답하여, 상기 제1 발화 텍스트에 포함된 상기 개체명에 인접하여 오류 인디케이터를 표시하는 상담 화면을 디스플레이 하는 단계를 포함하는,
    발화 보이스에 대한 레이블링 방법.
  4. 제3 항에 있어서,
    상기 참조 정보는,
    상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보를 포함하는,
    발화 보이스에 대한 레이블링 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 컴퓨팅 시스템에 의하여 수행되는 방법에 있어서,
    사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계;
    상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계;
    상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계;
    상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상담원 단말에 디스플레이 하되, 상기 상담 화면에 상기 추출된 개체명에 대응되는 정정 개체명이 하이라이트 표시되는 단계;
    상기 사용자 단말과의 음성 통신 세션이 연결된 상기 상담원 단말로부터, 상기 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계; 및
    상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 단계를 포함하고,
    상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명의 관련 정보 표시 영역을 더 포함하는 것이고,
    상기 관련 정보 표시 영역은, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보 중 적어도 하나를 표시하고,상기 사용자와 관련된 내역 정보는,
    상기 사용자와 관련된 업무 이력의 시계열 정보를 포함하고,
    상기 업무 이력은 업무 대상에 대한 요약 텍스트를 포함하며,
    상기 요약 텍스트는 상기 개체명에 대응되는 정정 개체명을 포함하는 것이고,
    상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이며,
    상기 관련 정보 표시 영역은,
    상기 정정 개체명이 하이라이트 표시되는 것을 특징으로 하는,
    발화 보이스에 대한 레이블링 방법.
  9. 컴퓨팅 시스템에 의하여 수행되는 방법에 있어서,
    사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계;
    상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계;
    상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계;
    상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상담원 단말에 디스플레이 하되, 상기 상담 화면에 상기 추출된 개체명에 대응되는 정정 개체명이 하이라이트 표시되는 단계;
    상기 사용자 단말과의 음성 통신 세션이 연결된 상기 상담원 단말로부터, 상기 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계; 및
    상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 단계를 포함하고,
    상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명의 관련 정보 표시 영역을 더 포함하는 것이고,
    상기 관련 정보 표시 영역은, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보 중 적어도 하나를 표시하고,
    상기 개체명과 관련된 상품 정보는,
    상기 개체명에 대응되는 정정 개체명이 제품명, 서비스명 또는 상세정보에 포함되는 상품 또는 서비스의 정보이고,
    상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이며,
    상기 관련 정보 표시 영역은,
    상기 정정 개체명이 하이라이트 표시되는 것을 특징으로 하는,
    발화 보이스에 대한 레이블링 방법.
  10. 제1 항에 있어서,
    상기 개체명을 추출하는 단계는,
    상기 제1 발화 텍스트를 자연어 이해(NLU; Natural Language Understanding) 알고리즘에 입력하여, 상기 제1 발화 텍스트의 의도(intent)를 결정하는 단계;
    상기 제1 발화 텍스트에 대한 개체명 인식을 수행함으로써, 상기 제1 발화 텍스트에 포함된 복수의 개체명을 추출하는 단계;
    상기 결정된 의도에 대응되는 필수 타입 개체명 및 옵션 타입 개체명의 순서 패턴을 참조하여, 상기 제1 발화 텍스트에서 추출된 복수의 개체명 중에서 필수 타입의 개체명을 결정하는 단계; 및
    상기 필수 타입의 개체명을 상기 추출된 개체명으로 결정하는 단계를 포함하는,
    발화 보이스에 대한 레이블링 방법.
  11. 제1 항에 있어서,
    제2 발화 보이스를 획득하는 단계는,
    상기 제2 발화 보이스에 대한 응답인 제3 발화 보이스를 상기 사용자 단말로부터 수신하는 단계를 포함하고,
    상기 제3 발화 보이스를 텍스트로 변환하여 제3 발화 텍스트를 획득하는 단계;
    상기 제3 발화 텍스트가 상기 제2 발화 보이스에 대한 긍정 피드백인지 여부를 판정하는 단계; 및
    상기 제3 발화 텍스트가 상기 제2 발화 보이스에 대한 긍정 피드백인 것으로 판정된 것에 응답하여, 상기 정정 개체명을 상기 제1 발화 보이스에 레이블링하는 단계를 더 포함하는,
    발화 보이스에 대한 레이블링 방법.
  12. 제1 항에 있어서,
    상기 추출된 개체명이 레이블링된 상기 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성하는 단계; 및
    상기 학습 데이터 셋을 이용한 제1 도메인 특화 STT(Speech-To-Text) 모델을 기계 학습시키는 단계를 더 포함하되,
    상기 제1 도메인 특화 STT 모델은,
    상기 상담원 단말 및 상기 음성 통신 세션에 대응되는 고객사에 매칭된 제1 도메인에 특화된 STT 모델인,
    발화 보이스에 대한 레이블링 방법.
  13. 제1 항에 있어서,
    상기 개체명을 추출하는 단계는,
    상기 제1 발화 텍스트를 자연어 이해(NLU; Natural Language Understanding) 알고리즘에 입력하여, 상기 제1 발화 텍스트의 의도(intent)를 결정하는 단계를 포함하고,
    상기 추출된 개체명이 레이블링된 상기 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성하되, 상기 학습 데이터 셋은 제1 의도를 가지는 상기 제1 발화 텍스트에서 추출된 개체명이 레이블링된 것인, 단계; 및
    상기 학습 데이터 셋을 이용한 제1 도메인 특화 STT(Speech-To-Text) 모델을 기계 학습시키는 단계를 더 포함하되,
    상기 제1 도메인 특화 STT 모델은,
    상기 제1 의도에 매칭된 제1 도메인에 특화된 STT 모델인,
    발화 보이스에 대한 레이블링 방법.
  14. 제1 항에 있어서,
    상기 개체명을 추출하는 단계는,
    상기 제1 발화 텍스트 및 상기 제1 발화 텍스트에 선행하는 복수의 발화 텍스트를 자연어 이해(NLU; Natural Language Understanding) 알고리즘에 입력하여, 상기 음성 통신 세션을 통한 대화의 대화 모델(dialog model)을 식별하는 단계;
    상기 추출된 개체명이 레이블링된 상기 제2 발화 보이스로 구성되는 학습 데이터들을 포함하는 학습 데이터 셋을 구성하되, 상기 학습 데이터 셋은 상기 식별된 대화 모델 상에 따른 대화 흐름의 제1 노드를 가지는 상기 제1 발화 텍스트에서 추출된 개체명이 레이블링된 것인, 단계; 및
    상기 학습 데이터 셋을 이용한 제1 도메인 특화 STT(Speech-To-Text) 모델을 기계 학습시키는 단계를 더 포함하되,
    상기 제1 도메인 특화 STT 모델은,
    상기 제1 노드에 매칭된 제1 도메인에 특화된 STT 모델인,
    발화 보이스에 대한 레이블링 방법.
  15. 삭제
  16. 컴퓨팅 시스템에 의하여 수행되는 방법에 있어서,
    사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계;
    상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 단계;
    상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 단계;
    상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상담원 단말에 디스플레이 하되, 상기 상담 화면에 상기 추출된 개체명에 대응되는 정정 개체명이 하이라이트 표시되는 단계;
    상기 사용자 단말과의 음성 통신 세션이 연결된 상기 상담원 단말로부터, 상기 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 단계; 및
    상기 정정 개체명을 상기 제1 발화 보이스에 레이블링하는 단계를 포함하고,
    상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명의 관련 정보 표시 영역을 더 포함하는 것이고,
    상기 관련 정보 표시 영역은, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보 중 적어도 하나를 표시하고,
    상기 사용자에 대한 정보는,
    상기 개체명에 대응되는 정정 개체명을 포함하는 것이며,
    상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이고,
    상기 관련 정보 표시 영역은, 상기 정정 개체명이 하이라이트 표시되는 것을 특징으로 하는,
    발화 보이스에 대한 레이블링 방법.
  17. 컴퓨팅 시스템에 의하여 수행되는 방법에 있어서,
    사용자 단말에서 수신된 제1 발화 보이스가 수신되는 단계;
    상기 제1 발화 보이스를 범용 STT 모델을 이용하여 텍스트로 변환하여 제1-1 발화 텍스트를 획득하는 단계;
    상기 제1 발화 보이스를 도메인 특화 STT 모델을 이용하여 텍스트로 변환하여 제1-2 발화 텍스트를 획득하는 단계;
    개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1-1 발화 텍스트에 포함된 제1 개체명과, 상기 제1-2 발화 텍스트에 포함되어 있으면서 상기 제1 개체명의 위치에 대응하는 제2 개체명을 추출하는 단계; 및
    상기 제1 개체명과 상기 제2 개체명이 상이한 경우, 상기 제2 개체명을 정정 개체명으로 결정하는 단계; 및
    상기 사용자 단말과의 음성 통신 세션을 통하여, 상기 정정 개체명의 발음을 포함하는 개체명 고객 확인용 발화 보이스를 송신하는 단계를 포함하고,
    상기 도메인 특화 STT 모델은, 상기 음성 통신 세션에 대응하는 고객사에 매칭된 도메인에서 사용되는 개체명들이 레이블링 된 학습 데이터를 이용하여 학습한 STT 모델인,
    발화 보이스에 대한 레이블링 방법.
  18. 하나 이상의 프로세서;
    외부 장치와 통신하는 통신 인터페이스;
    상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리; 및
    상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작,
    상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작,
    상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작,
    상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상담원 단말에 디스플레이 하되, 상기 상담 화면에 상기 추출된 개체명에 대응되는 정정 개체명이 하이라이트 표시되는 동작,
    상기 사용자 단말과의 음성 통신 세션이 연결된 상기 상담원 단말로부터, 상기 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및
    상기 정정 개체명을 상기 제2 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함하고,
    상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명의 관련 정보 표시 영역을 더 포함하는 것이고,
    상기 관련 정보 표시 영역은, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보 중 적어도 하나를 표시하고,
    상기 사용자에 대한 정보는,
    상기 개체명에 대응되는 정정 개체명을 포함하는 것이며,
    상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이고,
    상기 관련 정보 표시 영역은, 상기 정정 개체명이 하이라이트 표시되는 것을 특징으로 하는,
    컴퓨팅 시스템.
  19. 삭제
  20. 하나 이상의 프로세서;
    외부 장치와 통신하는 통신 인터페이스;
    상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리; 및
    상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    사용자 단말에서 수신된 제1 발화 보이스가 수신되는 동작,
    상기 제1 발화 보이스를 텍스트로 변환하여 제1 발화 텍스트를 획득하는 동작,
    상기 제1 발화 텍스트에 대한 개체명 인식(Named Entity Recognition; NER)을 수행함으로써, 상기 제1 발화 텍스트에 포함된 개체명을 추출하는 동작,
    상기 제1 발화 텍스트의 실시간 업데이트를 표시하는 상담 화면을 상담원 단말에 디스플레이 하되, 상기 상담 화면에 상기 추출된 개체명에 대응되는 정정 개체명이 하이라이트 표시되는 동작,
    상기 사용자 단말과의 음성 통신 세션이 연결된 상기 상담원 단말로부터, 상기 정정 개체명의 발음을 포함하는 제2 발화 보이스를 획득하는 동작, 및
    상기 정정 개체명을 상기 제1 발화 보이스에 레이블링하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함하고,
    상기 상담 화면은, 상기 제1 발화 텍스트에 포함된 상기 개체명의 관련 정보 표시 영역을 더 포함하는 것이고,
    상기 관련 정보 표시 영역은, 상기 사용자 단말의 사용자에 대한 정보, 상기 사용자와 관련된 내역 정보 및 상기 개체명과 관련된 상품 정보 중 적어도 하나를 표시하고,
    상기 사용자에 대한 정보는,
    상기 개체명에 대응되는 정정 개체명을 포함하는 것이며,
    상기 개체명과 상기 정정 개체명은 서로 상이한 텍스트이고,
    상기 관련 정보 표시 영역은, 상기 정정 개체명이 하이라이트 표시되는 것을 특징으로 하는,
    컴퓨팅 시스템.
KR1020220186565A 2022-12-28 2022-12-28 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치 KR102610360B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220186565A KR102610360B1 (ko) 2022-12-28 2022-12-28 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220186565A KR102610360B1 (ko) 2022-12-28 2022-12-28 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치

Publications (1)

Publication Number Publication Date
KR102610360B1 true KR102610360B1 (ko) 2023-12-06

Family

ID=89163941

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220186565A KR102610360B1 (ko) 2022-12-28 2022-12-28 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치

Country Status (1)

Country Link
KR (1) KR102610360B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5644680A (en) * 1994-04-14 1997-07-01 Northern Telecom Limited Updating markov models based on speech input and additional information for automated telephone directory assistance
US7280965B1 (en) * 2003-04-04 2007-10-09 At&T Corp. Systems and methods for monitoring speech data labelers
KR20160027640A (ko) * 2014-09-02 2016-03-10 삼성전자주식회사 전자 장치 및 전자 장치에서의 개체명 인식 방법
KR20170050029A (ko) * 2015-10-29 2017-05-11 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
JP2019514045A (ja) * 2016-03-21 2019-05-30 アマゾン テクノロジーズ インコーポレイテッド 話者照合方法及びシステム
KR20210074632A (ko) * 2019-12-12 2021-06-22 엘지전자 주식회사 음소 기반 자연어 처리
KR102409873B1 (ko) 2020-09-02 2022-06-16 네이버 주식회사 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5644680A (en) * 1994-04-14 1997-07-01 Northern Telecom Limited Updating markov models based on speech input and additional information for automated telephone directory assistance
US7280965B1 (en) * 2003-04-04 2007-10-09 At&T Corp. Systems and methods for monitoring speech data labelers
KR20160027640A (ko) * 2014-09-02 2016-03-10 삼성전자주식회사 전자 장치 및 전자 장치에서의 개체명 인식 방법
KR20170050029A (ko) * 2015-10-29 2017-05-11 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
JP2019514045A (ja) * 2016-03-21 2019-05-30 アマゾン テクノロジーズ インコーポレイテッド 話者照合方法及びシステム
KR20210074632A (ko) * 2019-12-12 2021-06-22 엘지전자 주식회사 음소 기반 자연어 처리
KR102409873B1 (ko) 2020-09-02 2022-06-16 네이버 주식회사 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템

Similar Documents

Publication Publication Date Title
US11450311B2 (en) System and methods for accent and dialect modification
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US7412387B2 (en) Automatic improvement of spoken language
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
US7640159B2 (en) System and method of speech recognition for non-native speakers of a language
CN101211559B (zh) 用于拆分语音的方法和设备
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
CN110428813B (zh) 一种语音理解的方法、装置、电子设备及介质
Kopparapu Non-linguistic analysis of call center conversations
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
KR20210059995A (ko) 학습 기반의 외국어 말하기 평가 방법 및 그 시스템
US20230026945A1 (en) Virtual Conversational Agent
US11615787B2 (en) Dialogue system and method of controlling the same
US10522135B2 (en) System and method for segmenting audio files for transcription
CN113051895A (zh) 语音识别的方法、装置、电子设备、介质和程序产品
US7853451B1 (en) System and method of exploiting human-human data for spoken language understanding systems
KR102610360B1 (ko) 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치
CN114783405B (zh) 一种语音合成方法、装置、电子设备及存储介质
KR102388948B1 (ko) 음성 시각화 기술을 활용한 언어 유창성 평가 방법 및 시스템
KR102583434B1 (ko) 음성 상담의 품질 평가 방법 및 시스템
CN111782779B (zh) 语音问答方法、系统、移动终端及存储介质
JP2022055347A (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善)
WO2024143886A1 (ko) 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치
Thimmaraja Yadava et al. Real-Time Automatic Continuous Speech Recognition System for Kannada Language/Dialects

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant