KR20210074649A - 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법 - Google Patents

음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법 Download PDF

Info

Publication number
KR20210074649A
KR20210074649A KR1020190165579A KR20190165579A KR20210074649A KR 20210074649 A KR20210074649 A KR 20210074649A KR 1020190165579 A KR1020190165579 A KR 1020190165579A KR 20190165579 A KR20190165579 A KR 20190165579A KR 20210074649 A KR20210074649 A KR 20210074649A
Authority
KR
South Korea
Prior art keywords
sentence
topic
classifier
natural language
request
Prior art date
Application number
KR1020190165579A
Other languages
English (en)
Other versions
KR102334961B1 (ko
Inventor
정민화
이규환
조원익
김종인
정지오
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020190165579A priority Critical patent/KR102334961B1/ko
Publication of KR20210074649A publication Critical patent/KR20210074649A/ko
Application granted granted Critical
Publication of KR102334961B1 publication Critical patent/KR102334961B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 호출어를 입력하지 않고 자연스러운 발화로부터 추출한 텍스트와 음향정보를 이용하여 응대 또는 비응대 여부를 판별하는 음성인식 방법에 관한 것으로, 본 발명의 자연어 문장에서 응대 여부를 판단하는 음성인식 방법은 의도분류기와 토픽분류기를 이용하는 Two-Pass Cascade Type이므로, 토픽분류기를 통해 각 토픽별 고유의 언어모델 구성이 가능함과 동시에 의도 분류기에서 발화가 억양에 따라 평서문일지 의문문일지 분류하기 어려운 경우의 문제를 극복하기 위해 텍스트 정보 뿐만 아니라, 음향 정보를 이용함으로써 보다 정확하게 응대와 비응대를 판단할 수 있다.

Description

음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법{Speech Recognition Method Determining the Subject of Response using Multi-Modal Analysis in Natural Language Sentences}
본 발명은 대화형 음성인식 방법에 관한 것으로, 특히 상세하게는 호출어를 입력하지 않고 자연스러운 발화로부터 추출한 텍스트와 음향정보를 이용하여 응대 또는 비응대 여부를 판별하는 음성인식 방법에 관한 것이다.
음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리로, 미리 기록해 둔 특정인의 음성 패턴과 비교해 인증용도로 사용하는 화자인식과는 구별되는 기술이다. 정보통신과 자동차 산업이 융합된 텔레매틱스(telematics)나 로봇 등 지능형 기계에서 음성으로 기기를 제어하고 정보를 검색하는데 폭넓게 사용된다. 사용자 범위를 넓힐 수 있도록 다양한 화자들이 발성한 음성을 통계적으로 모델링하여 음향모델 및 발음모델을 구성하고, 말뭉치 수집을 통해 언어모델을 구성한다.
'말'을 이용하여 인간과 기계의 대화가 가능하기 위해서는 지능형 기계의 입출력 인터페이스가 음성이어야 하고, 이러한 기계를 음성인식 기기라고도 한다. 음성인식 기기의 음성인식율 정확도가 높아지면서 음성인식기술의 응용서비스도 확대되어 스마트폰의 비서형 음성인식 시스템에서 스피커형 인공지능(Artificial Intelligence)비서를 거쳐 사물인터넷(Internet of Things)의 입력기술로 확장되고 있다.
종래의 음성인식 기기에서는 "시리"나 "OK Google" 등의 호출어를 이용하여 음성인식 모드를 활성화하거나, 호출어범위를 확대하여 미리 정해진 호출어로 활성화하기도 한다. 이처럼 호출어가 정해져 있는 경우에는 자연스러운 대화 중 발화어를 인식하여 기기를 제어할 수 없으므로, 기기의 범용성이 낮아지게 된다.
대한민국 공개특허 2014-0073889호는 '대화형 음성인식을 위한 호출어 버퍼링 및 필링 인터페이스'에 관한 것으로, 상기 발명은 사용자가 매번 음성을 입력할 때마다 호출어를 반복하여 입력하지 않더라도 사용자의 자연스러운 대화형 음성입력으로부터 명령어 구문에 대한 음성인식을 수행하여 처리할 수 있도록 하는 기술을 개시한다. 그러나, 상기 발명은 사용자가 자신의 목소리로 직접 호출어를 입력하는 과정을 거치고, 호출어와 함께 입력하는 음성파형을 인식해서 기기가 질문할 때 답변에서 그 파형을 재인식하는 방식이므로 자연어 음성인식 기술이라고 보기는 어렵다. 따라서 호출어를 사용하지 않고도 음성인식기가 응대여부를 판별할 수 있도록 하는 시스템에 대한 기술개발이 요구된다.
대한민국 공개특허 2014-0073889호
본 발명은 호출어 없이 음성 식별을 통해 사용자의 발화내용과 음향정보를 분석해서 음성인식 기기가 사용자에게 응대해야 하는 내용과 그렇지 않은 내용을 판별해내는 음성인식 방법을 제공하고자 한다.
본 발명은 자연어 문장에서 응대 여부를 판단하는 음성인식 방법으로: 상기 방법은, 사용자가 발화한 음성을 음성입력 장치에서 디지털 음성신호로 변환하는 단계; 상기 변환된 디지털 음성신호에서 음향정보 추출 툴킷인 OpenSmile Toolkit을 이용하여 음향정보를 추출하고, 임베디드용 음성인식기를 이용하여 텍스트를 단어별로 인식하는 단계; 상기 추출된 음향정보와 상기 인식된 단어를 의도분류기로 보내어, 요청문과 의문문 그리고 평서문으로 분류하는 단계; 상기 의도분류기에서 평서문으로 분류된 음성에 대해 비응대로 결정하고, 요청문과 의문문은 토픽분류기로 보내는 단계; 및 상기 요청문과 의문문을 토픽분류기에서 미리 정한 클래스의 토픽 및 기타로 분류하여 기타는 비응대로 결정하고, 상기 미리 정한 클래스의 토픽을 응대대상으로 판단하는 단계를 포함하고, 상기 토픽분류기 및 상기 의도분류기는, 자연어처리 툴킷 Fasttext의 문장분류 알고리즘인 Linear Bag of Words Classifier를 이용하는, 자연어 문장에서 응대 여부를 판단하는 음성인식 방법을 제공한다.
본 발명은 또한, 상기 의도분류기는, 음향정보로 음고(Pitch)와 포먼트(Forment)정보가 포함된 단어 인식을 위한 문장 데이터베이스를 포함하고, 상기 문장 데이터베이스는, 입력된 문장을 요청문, 평서문 및 의문문으로 분류하기 위한 음고와 포먼트 정보가 포함된 요청문, 평서문 및 의문문별 문장 데이터를 포함하며, 상기 음고와 포먼트 정보가 포함된 요청문, 평서문, 및 의문문별 문장 데이터는 미리 정한 기간 단위로 갱신하여 저장하는, 자연어 문장에서 응대 여부를 판단하는 음성인식 방법을 제공한다.
본 발명은 또한, 상기 문장 데이터베이스는, 상기 판단하는 단계에 따른 토픽별 답변을 상기 미리 정한 클래스의 토픽을 포함하는 요청문 및 의문문에 응대하는 평서문 문장 데이터로 더 포함하고, 상기 판단하는 단계는, 스피커로 상기 응대하는 평서문 문장을 발화하는 단계를 더 포함하는, 자연어 문장에서 응대 여부를 판단하는 음성인식 방법을 제공한다.
본 발명은 또한, 상기 미리 정한 클래스의 토픽은 이메일(email), 주택 제어(house control), 날씨(weather), 및 일정(schedule)이며, 상기 토픽분류기는, 상기 미리 정한 클래스의 토픽에 새로운 토픽을 추가하는 토픽추가부를 더 포함하는, 자연어 문장에서 응대 여부를 판단하는 음성인식 방법을 제공한다.
본 발명은 또한, 상기 토픽분류기는, 단어 데이터베이스를 포함하고, 상기 단어 데이터베이스는 각 토픽별 임베딩 데이터를 포함하며, 상기 각 토픽별 단어 및 유사단어 데이터는 미리 정한 기간 단위로 갱신하여 저장하는, 자연어 문장에서 응대 여부를 판단하는 음성인식 방법을 제공한다.
본 발명은 또한, 사용자가 발화한 음성을 음성입력 장치에서 디지털 음성신호로 변환하도록 프로그램된 코드 부분; 상기 변환된 디지털 음성신호에서 음향정보 추출 툴킷인 OpenSmile Toolkit을 이용하여 음향정보를 추출하고, 임베디드용 음성인식기를 이용하여 텍스트를 단어별로 인식하도록 프로그램된 코드 부분; 상기 추출된 음향정보와 상기 인식된 단어를 의도분류기로 보내어, 요청문과 의문문 그리고 평서문으로 분류하도록 프로그램된 코드 부분; 상기 의도분류기에서 평서문으로 분류된 음성에 대해 비응대로 결정하고, 요청문과 의문문은 토픽분류기로 보내도록 프로그램된 코드 부분; 및 상기 요청문과 의문문을 토픽분류기에서 미리 정한 클래스의 토픽 및 기타로 분류하여 기타는 비응대로 결정하고, 상기 미리 정한 클래스의 토픽을 응대대상으로 판단하도록 프로그램된 코드 부분을 포함하고, 상기 토픽분류기 및 상기 의도분류기는, 자연어처리 툴킷 Fasttext의 문장분류 알고리즘인 Linear Bag of Words Classifier를 이용하는, 자연어 문장에서 응대 여부를 판단하도록 프로그램된 음성인식 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체를 제공한다.
본 발명의 자연어 문장에서 응대 여부를 판단하는 음성인식 방법은 의도분류기와 토픽분류기를 이용하는 Two-Pass Cascade Type이므로, 토픽분류기를 통해 각 토픽별 고유의 언어모델 구성이 가능함과 동시에 의도 분류기에서 발화가 억양에 따라 평서문일지 의문문일지 분류하기 어려운 경우의 문제를 극복하기 위해 텍스트 정보 뿐만 아니라, 음향 정보를 이용함으로써 보다 정확하게 응대와 비응대를 판단할 수 있다.
도 1은 본 발명에 따른 음성인식기와 음향정보추출기를 거쳐 의도분류기 및 토픽분류기를 차례로 거치는 응대 및 비응대 문장판별 음성인식방법의 예시적인 구조를 나타낸다.
도 2는 본 발명에 따른 의도분류기와 토픽분류기를 이용한 응대 및 비응대 문장 판별방법의 개념적인 흐름도를 나타낸다.
다양한 양상이 도면을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항이 개시된다. 그러나 이러한 양상은 각각의 구체적인 세부사항 없이도 실행될 수 있다는 점이 인식될 것이다. 이후의 기재 및 첨부된 도면은 하나 이상의 양상에 대한 특정한 예시적인 양상을 상세하게 기술한다. 하지만, 이러한 양상은 예시적인 것이고 다양한 양상의 원리에서 다양한 방법 중 일부가 이용될 수 있으며 기술되는 설명은 그러한 양상 및 그 균등물을 모두 포함하고자 하는 의도이다.
다양한 양상 및 특징이 다수의 장치, 모듈 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템이 추가적인 장치, 부품, 구성품 등을 포함할 수 있고 그리고/또는 도면들과 관련하여 논의된 장치, 부품, 구성품 등 모두를 포함할 수 없다는 점 또한 이해되고 인식되어야 한다.
본 명세서에서 사용되는 "실시례", "예", "양상", "예시" 등은 기술된 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않아야 한다. 아래에서 사용되는 용어인 '시스템' '서버' 단말기 등은 일반적으로 컴퓨터 관련 실체(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다.
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 상기 경우 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 항목 중 하나 이상 항목의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징, 단계, 동작, 모듈, 및/또는 구성요소가 존재함을 의미하지만, 하나 이상의 다른 특징, 단계, 동작, 모듈, 구성요소, 및/또는 이 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 더불어, 본 명세서에서 제1 및 제2 등의 용어가 다양한 구성요소를 설명하기 위해 사용될 수 있지만, 이들 구성요소는 이러한 용어에 의해 한정되지 아니한다. 즉, 이러한 용어는 둘 이상의 구성요소 간의 구별을 위해서 사용될 뿐이고, 순서 또는 우선순위를 의미하는 것으로 해석되지 않아야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다. 이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
호출어 호출 없는 로봇 음성인식 기술은 호출어를 이용한 종래의 음성인식 인터페이스와는 다르게 사용자의 발화내용을 판단해서 사람과 로봇 사이의 보다 자연스러운 대화 인터페이스를 제공할 수 있다. 뿐만 아니라 기존 시스템은 (호출어 인식 -> 음성 인식 -> 테스크) 수행 이었다면, 본 발명은 (음성인식 -> 테스크) 수행으로 즉각적으로 사용자의 요구를 반영할 수 있다. 이하 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 발명에 따른 음성인식기와 음향정보추출기를 거쳐 의도분류기 및 토픽분류기를 차례로 거치는 응대 및 비응대 문장판별 음성인식방법의 예시적인 구조를 나타내고, 도 2는 본 발명에 따른 의도분류기와 토픽분류기를 이용한 응대 및 비응대 문장 판별방법의 개념적인 흐름도를 나타낸다. 본 발명의 일 구현예에서 음성인식방법은, 사용자가 발화한 음성을 음성입력 장치에서 디지털 음성신호로 변환하는 단계; 상기 변환된 디지털 음성신호에서 음향정보 추출 툴킷인 OpenSmile Toolkit을 이용하여 음향정보를 추출하고, 임베디드용 음성인식기를 이용하여 텍스트를 단어별로 인식하는 단계; 상기 추출된 음향정보와 상기 인식된 단어를 의도분류기로 보내어, 요청문과 의문문 그리고 평서문으로 분류하는 단계; 상기 의도분류기에서 평서문으로 분류된 음성에 대해 비응대로 결정하고, 요청문과 의문문은 토픽분류기로 보내는 단계; 및 상기 요청문과 의문문을 토픽분류기에서 미리 정한 클래스의 토픽 및 기타로 분류하여 기타는 비응대로 결정하고, 상기 미리 정한 클래스의 토픽을 응대대상으로 판단하는 단계를 포함한다.
본 발명의 일 구현예에서 상기 토픽분류기 및 상기 의도분류기는, 자연어처리 툴킷 Fasttext의 문장분류 알고리즘인 Linear Bag of Words Classifier를 이용할 수 있다. 상기와 같은 구성을 통해 본 발명은 자연어 문장에서 응대여부 판단의 정확도를 종래기술보다 향상시키는 것이 가능하다. 본 발명의 일 구현예에서 상기 의도분류기는, 음향정보로 음고(Pitch)와 포먼트(Forment)정보가 포함된 단어 인식을 위한 문장 데이터베이스를 포함한다. 본 발명의 일 구현예에서 상기 음향정보로 인해 억양, 강세, 템포 등의 정보의 반영이 가능하게 된다. 또한 본 발명의 일 구현예에서 상기 문장 데이터베이스는, 입력된 문장을 요청문, 평서문 및 의문문으로 분류하기 위한 음고와 포먼트 정보가 포함된 요청문, 평서문 및 의문문별 문장 데이터를 포함하며, 상기 음고와 포먼트 정보가 포함된 요청문, 평서문, 및 의문문별 문장 데이터는 미리 정한 기간 단위로 갱신하여 저장하는 것이 가능하다.
또한 본 발명의 일 구현예에서, 상기 문장 데이터베이스는, 상기 판단하는 단계에 따른 토픽별 답변을 상기 미리 정한 클래스의 토픽을 포함하는 요청문 및 의문문에 응대하는 평서문 문장 데이터로 더 포함하고, 상기 판단하는 단계는, 스피커로 상기 응대하는 평서문 문장을 발화하는 단계를 더 포함할 수 있다.
본 발명의 일 구현예에서 상기 미리 정한 클래스의 토픽은 이메일(email), 주택 제어(house control), 날씨(weather), 및 일정(schedule)이며, 상기 토픽분류기는, 상기 미리 정한 클래스의 토픽에 새로운 토픽을 추가하는 토픽추가부를 더 포함할 수 있다. 이러한 기능을 통해서 토픽의 확장이 자연스럽게 구현될 수 있다. 본 발명의 일 구현예에서 상기 토픽분류기는, 단어 데이터베이스를 포함하고, 상기 단어 데이터베이스는 각 토픽별 임베딩 데이터를 포함하며, 상기 각 토픽별 단어 및 유사단어 데이터는 미리 정한 기간 단위로 갱신하여 저장할 수 있다.
본 발명의 음성인식 방법은 컴퓨터 판독 가능한 저장매체의 형태로 구현될 수 있으며, 상기 저장매체는 자연어 문장에서 응대 여부를 판단하도록 프로그램된 음성인식 컴퓨터 프로그램을 저장할 수 있다. 상기 저장매체는 사용자가 발화한 음성을 음성입력 장치에서 디지털 음성신호로 변환하도록 프로그램된 코드 부분; 상기 변환된 디지털 음성신호에서 음향정보 추출 툴킷인 LIBROSA python library를 이용하여 음향정보를 추출하고, 임베디드용 음성인식기를 이용하여 텍스트를 단어별로 인식하도록 프로그램된 코드 부분; 상기 추출된 음향정보와 상기 인식된 단어를 의도분류기로 보내어, 요청문과 의문문 그리고 평서문으로 분류하도록 프로그램된 코드 부분; 상기 의도분류기에서 평서문으로 분류된 음성에 대해 비응대로 결정하고, 요청문과 의문문은 토픽분류기로 보내도록 프로그램된 코드 부분; 및 상기 요청문과 의문문을 토픽분류기에서 미리 정한 클래스의 토픽 및 기타로 분류하여 기타는 비응대로 결정하고, 상기 미리 정한 클래스의 토픽을 응대대상으로 판단하도록 프로그램된 코드 부분을 포함할 수 있다.
본 발명의 일 구현예에서 상기 토픽분류기 및 상기 의도분류기는, 자연어처리 툴킷 Fasttext의 문장분류 알고리즘인 Linear Bag of Words Classifier를 이용한다.
이상 살펴본 바와 같이 본 발명은 자연어 문장에서 응대 여부를 판단하는 음성인식 방법에 관한 것이다. 이 발명은 예를 들어 자동차분야에서 주행 중에 즉각적으로 사용자의 요구를 반영하는데 응용될 수 있으며, 홈 오토메이션 분야의 사물인터넷(Internet of Things) 환경에서 사용자 인터페이스 편의성 증가에 응용가능하고, 인공지능 비서 응용에서는 스마트 스피커 또는 로봇의 사용자 인터페이스 편의성 증가에 활용될 수 있다.
여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 관리서버 및/또는 시스템 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 씌여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 관리서버 및/또는 데이터베이스에 저장되고, 앱에 의해 실행될 수 있다.
한편, 여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터 판독가능한 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터 판독가능한 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능한 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (6)

  1. 자연어 문장에서 응대 여부를 판단하는 음성인식 방법으로:
    상기 방법은, 사용자가 발화한 음성을 음성입력 장치에서 디지털 음성신호로 변환하는 단계;
    상기 변환된 디지털 음성신호에서 음향정보 추출 툴킷인 OpenSmile Toolkit을 이용하여 음향정보를 추출하고, 임베디드용 음성인식기를 이용하여 텍스트를 단어별로 인식하는 단계;
    상기 추출된 음향정보와 상기 인식된 단어를 의도분류기로 보내어, 요청문과 의문문 그리고 평서문으로 분류하는 단계;
    상기 의도분류기에서 평서문으로 분류된 음성에 대해 비응대로 결정하고, 요청문과 의문문은 토픽분류기로 보내는 단계; 및
    상기 요청문과 의문문을 토픽분류기에서 미리 정한 클래스의 토픽 및 기타로 분류하여 기타는 비응대로 결정하고, 상기 미리 정한 클래스의 토픽을 응대대상으로 판단하는 단계를 포함하고,
    상기 토픽분류기 및 상기 의도분류기는, 자연어처리 툴킷 Fasttext의 문장분류 알고리즘인 Linear Bag of Words Classifier를 이용하는,
    자연어 문장에서 응대 여부를 판단하는 음성인식 방법.
  2. 제 1항에 있어서,
    상기 의도분류기는, 음향정보로 음고(Pitch)와 포먼트(Forment)정보가 포함된 단어 인식을 위한 문장 데이터베이스를 포함하고,
    상기 문장 데이터베이스는, 입력된 문장을 요청문, 평서문 및 의문문으로 분류하기 위한 음고와 포먼트 정보가 포함된 요청문, 평서문 및 의문문별 문장 데이터를 포함하며, 상기 음고와 포먼트 정보가 포함된 요청문, 평서문, 및 의문문별 문장 데이터는 미리 정한 기간 단위로 갱신하여 저장하는,
    자연어 문장에서 응대 여부를 판단하는 음성인식 방법.
  3. 제 2항에 있어서,
    상기 문장 데이터베이스는, 상기 판단하는 단계에 따른 토픽별 답변을 상기 미리 정한 클래스의 토픽을 포함하는 요청문 및 의문문에 응대하는 평서문 문장 데이터로 더 포함하고,
    상기 판단하는 단계는, 스피커로 상기 응대하는 평서문 문장을 발화하는 단계를 더 포함하는,
    자연어 문장에서 응대 여부를 판단하는 음성인식 방법.
  4. 제 1항에 있어서,
    상기 미리 정한 클래스의 토픽은 이메일(email), 주택 제어(house control), 날씨(weather), 및 일정(schedule)이며,
    상기 토픽분류기는, 상기 미리 정한 클래스의 토픽에 새로운 토픽을 추가하는 토픽추가부를 더 포함하는,
    자연어 문장에서 응대 여부를 판단하는 음성인식 방법.
  5. 제 4항에 있어서,
    상기 토픽분류기는, 단어 데이터베이스를 포함하고,
    상기 단어 데이터베이스는 각 토픽별 임베딩 데이터를 포함하며, 상기 각 토픽별 단어 및 유사단어 데이터는 미리 정한 기간 단위로 갱신하여 저장하는,
    자연어 문장에서 응대 여부를 판단하는 음성인식 방법.
  6. 사용자가 발화한 음성을 음성입력 장치에서 디지털 음성신호로 변환하도록 프로그램된 코드 부분;
    상기 변환된 디지털 음성신호에서 음향정보 추출 툴킷인 LIBROSA python library를 이용하여 음향정보를 추출하고, 임베디드용 음성인식기를 이용하여 텍스트를 단어별로 인식하도록 프로그램된 코드 부분;
    상기 추출된 음향정보와 상기 인식된 단어를 의도분류기로 보내어, 요청문과 의문문 그리고 평서문으로 분류하도록 프로그램된 코드 부분;
    상기 의도분류기에서 평서문으로 분류된 음성에 대해 비응대로 결정하고, 요청문과 의문문은 토픽분류기로 보내도록 프로그램된 코드 부분; 및
    상기 요청문과 의문문을 토픽분류기에서 미리 정한 클래스의 토픽 및 기타로 분류하여 기타는 비응대로 결정하고, 상기 미리 정한 클래스의 토픽을 응대대상으로 판단하도록 프로그램된 코드 부분을 포함하고,
    상기 토픽분류기 및 상기 의도분류기는, 자연어처리 툴킷 Fasttext의 문장분류 알고리즘인 Linear Bag of Words Classifier를 이용하는,
    자연어 문장에서 응대 여부를 판단하도록 프로그램된 음성인식 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체.
KR1020190165579A 2019-12-12 2019-12-12 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법 KR102334961B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190165579A KR102334961B1 (ko) 2019-12-12 2019-12-12 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190165579A KR102334961B1 (ko) 2019-12-12 2019-12-12 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20210074649A true KR20210074649A (ko) 2021-06-22
KR102334961B1 KR102334961B1 (ko) 2021-12-02

Family

ID=76600511

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190165579A KR102334961B1 (ko) 2019-12-12 2019-12-12 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법

Country Status (1)

Country Link
KR (1) KR102334961B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023231936A1 (zh) * 2022-06-01 2023-12-07 华为技术有限公司 一种语音交互方法及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070090642A (ko) * 2006-03-03 2007-09-06 삼성전자주식회사 음성 대화 서비스 장치 및 방법
KR20140073889A (ko) 2012-12-07 2014-06-17 현대자동차주식회사 대화형 음성인식을 위한 호출어 버퍼링 및 필링 인터페이스
JP2018181018A (ja) * 2017-04-14 2018-11-15 株式会社エルブズ 会話提供装置、会話提供方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070090642A (ko) * 2006-03-03 2007-09-06 삼성전자주식회사 음성 대화 서비스 장치 및 방법
KR20140073889A (ko) 2012-12-07 2014-06-17 현대자동차주식회사 대화형 음성인식을 위한 호출어 버퍼링 및 필링 인터페이스
JP2018181018A (ja) * 2017-04-14 2018-11-15 株式会社エルブズ 会話提供装置、会話提供方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023231936A1 (zh) * 2022-06-01 2023-12-07 华为技术有限公司 一种语音交互方法及终端

Also Published As

Publication number Publication date
KR102334961B1 (ko) 2021-12-02

Similar Documents

Publication Publication Date Title
US11887582B2 (en) Training and testing utterance-based frameworks
US10902843B2 (en) Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
US10332517B1 (en) Privacy mode based on speaker identifier
US9842585B2 (en) Multilingual deep neural network
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
WO2020186712A1 (zh) 一种语音识别方法、装置及终端
JP2005234572A (ja) 談話機能に対する予測モデルを判定する方法およびシステム
US11302329B1 (en) Acoustic event detection
US20210090563A1 (en) Dialogue system, dialogue processing method and electronic apparatus
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR20220070709A (ko) 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법
Këpuska Wake-up-word speech recognition
KR102334961B1 (ko) 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법
Chadha et al. Current Challenges and Application of Speech Recognition Process using Natural Language Processing: A Survey
Rose Word spotting from continuous speech utterances
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
KR102174148B1 (ko) 자연어 문장에서 응대 여부를 판단하는 음성인식 방법
US11250853B2 (en) Sarcasm-sensitive spoken dialog system
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
CN110895938B (zh) 语音校正系统及语音校正方法
US20210343288A1 (en) Knowledge enhanced spoken dialog system
JPH1083195A (ja) 入力言語認識装置及び入力言語認識方法
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
KR20210130465A (ko) 대화 시스템 및 그 제어 방법
Nair et al. Pair-wise language discrimination using phonotactic information

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant