KR102220106B1

KR102220106B1 - 음성 인식된 문장의 보정 방법

Info

Publication number: KR102220106B1
Application number: KR1020180159696A
Authority: KR
Inventors: 박지웅; 김인호
Original assignee: 주식회사 엘지유플러스
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2021-02-24
Also published as: KR20200072005A

Abstract

음성 인식된 문장을 보정하는 방법이 개시된다. 음성 인식된 문장을 보정하는 장치의 동작은 음성 인식된 문장을 획득하는 단계; 사용자의 프로파일을 획득하는 단계; 사용자의 프로파일에 기초하여, 데이터베이스에 저장된 복수의 코퍼스(Corpus)들 중 하나 이상의 코퍼스를 선택하는 단계; 하나 이상의 코퍼스에 기초하여, 문장을 보정하는 단계; 및 보정된 문장을 제공하는 단계를 포함한다.

Description

음성 인식된 문장의 보정 방법{METHOD FOR CORRECTING SPEECH RECOGNIZED SENTENCE}

아래 실시예들은 음성 인식된 문장을 보정하는 방법에 관한 것으로, 예를 들어 음성 인식과 관련된 기술에 관한 것이다.

컴퓨터 연산능력이 발달하고 네트워크 대역폭이 확대되면서 실시간에 가까운 데이터 분석이 가능해지고 있다. 실시간에 가까운 데이터 분석과 딥 러닝 등의 인공지능(AI) 기술이 접목되면서, 특히 모바일 시장에서 음성인식 기술이 빠르게 발전하고 있다.

일반적인 음성인식은 입력받은 음성의 특징을 추출하고 미리 구축된 음성 인식 모델(예를 들어, 확률 모델이나 신경망 모델 등)을 통하여 인식 결과를 텍스트로 변환하는 방식으로 이루어질 수 있다. 사람마다 목소리와 발음, 억양 등이 다르기 때문에 다수의 사용자들의 음성과 관련된 자료가 수집될 수 있고, 수집된 자료로부터 기준 모델이 생성될 수 있다.

일실시예에 따른 음성 인식된 문장을 보정하는 방법은 음성 인식된 문장을 획득하는 단계; 사용자의 프로파일을 획득하는 단계; 상기 사용자의 프로파일에 기초하여, 데이터베이스에 저장된 복수의 코퍼스(Corpus)들 중 하나 이상의 코퍼스를 선택하는 단계; 상기 하나 이상의 코퍼스에 기초하여, 상기 문장을 보정하는 단계; 및 상기 보정된 문장을 제공하는 단계를 포함한다.

일실시예에 따르면, 상기 문장을 보정하는 단계는 상기 문장에 포함된 하나 이상의 단어와 관련된 확률 분포에 기초하여, 상기 문장에 포함된 단어 중 보정이 필요한 하나 이상의 단어를 선별하는 단계; 상기 선택된 하나 이상의 코퍼스에 기초하여, 상기 선별된 하나 이상의 단어에 대응하는 하나 이상의 후보 단어를 결정하는 단계; 및 상기 선별된 하나 이상의 단어를 상기 결정된 하나 이상의 후보 단어로 치환하는 단계를 포함할 수 있다.

일실시예에 따르면, 음성 인식된 문장을 보정하는 방법은 상기 문장을 보정한 결과를 상기 데이터베이스에 저장하는 단계를 더 포함하고, 상기 문장을 보정한 결과는 상기 선별된 하나 이상의 단어, 상기 선택된 하나 이상의 후보 단어, 치환이 이루어진 횟수, 및 상기 사용자의 프로파일 중 적어도 하나를 포함할 수 있다.

일실시예에 따르면, 상기 하나 이상의 코퍼스를 선택하는 단계는 복수의 카테고리들에 포함되는 복수의 세부 범주들과 관련하여 미리 설정된 가중치에 기초하여, 상기 사용자의 프로파일을 점수화하는 단계; 및 상기 점수화된 프로파일에 기초하여, 상기 하나 이상의 코퍼스를 선택하는 단계를 포함하고, 상기 복수의 카테고리들은 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역 중 적어도 하나를 포함할 수 있다.

일실시예에 따르면, 상기 복수의 코퍼스들은 상기 복수의 카테고리들에 포함되는 상기 복수의 세부 범주들에 대응할 수 있다. 상기 복수의 코퍼스들 각각은 해당하는 세부 범주와 관련된 복수의 단어들; 및 상기 복수의 단어들을 치환하기 위한 복수의 후보 단어들을 포함할 수 있다.

일실시예에 따르면, 상기 문장을 획득하는 단계는 상기 사용자의 발화를 수신하는 단계; 및 상기 수신된 발화를 텍스트로 변환하는 단계를 포함하고, 상기 사용자의 발화를 수신하는 단계는 상기 사용자의 음성을 실시간으로 수신하는 단계; 및 상기 사용자의 음성이 녹음된 파일을 수신하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 문장을 획득하는 단계는 상기 문장에 포함된 단어 시퀀스에 기초하여, 상기 문장에 포함된 하나 이상의 단어에 관련된 확률 분포를 결정하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 사용자의 프로파일을 획득하는 단계는 상기 프로파일을 상기 데이터베이스로부터 불러오는 단계를 포함하고, 상기 프로파일은 하나 이상의 카테고리에 관련된 정보를 포함하고, 상기 하나 이상의 카테고리는 상기 사용자의 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역을 포함할 수 있다.

일실시예에 따른 음성 인식된 문장을 보정하는 장치는 음성 인식된 문장을 획득하고, 사용자의 프로파일을 획득하고, 상기 사용자의 프로파일에 기초하여, 데이터베이스에 저장된 복수의 코퍼스(Corpus)들 중 하나 이상의 코퍼스를 선택하고, 상기 하나 이상의 코퍼스에 기초하여, 상기 문장을 보정하고, 상기 보정된 문장을 제공하는 프로세서를 포함한다.

도 1은 일실시예에 따른 음성 인식된 문장을 보정하는 방법을 설명하기 위한 동작 흐름도이다.
도 2는 일실시예에 따른 사용자의 프로파일을 획득하고, 사용자의 프로파일을 점수화하는 방법을 설명하기 위한 도면이다.
도 3은 일실시예에 따른 코퍼스를 생성하고 데이터베이스에 저장하는 방법을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 하나 이상의 코퍼스를 선택한 결과의 예시도이다.
도 5는 일실시예에 따른 문장을 보정하는 방법을 설명하기 위한 도면이다.
도 6은 일실시예에 따른 문장을 보정한 결과를 데이터베이스에 저장한 결과의 예시도이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따른 음성 인식된 문장을 보정하는 방법을 설명하기 위한 동작 흐름도이다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 방법의 전부 또는 일부는 서버에 의하여 수행될 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 방법의 전부 또는 일부는 단말에 의하여 수행될 수 있다. 이하, 음성 인식된 문장을 보정하는 방법을 수행하는 서버 및/또는 단말을 '음성 인식된 문장을 보정하는 장치'로 일컫는다.

도 1을 참조하면, 음성 인식된 문장을 보정하는 장치는 음성 인식된 문장을 획득한다(110). 음성 인식된 문장은 사용자의 발화를 수신하고 수신된 발화를 텍스트로 변환함으로써 획득될 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 사용자의 음성을 실시간으로 수신함으로써 사용자의 발화를 수신할 수 있다. 예를 들어, 사용자는 음성 인식된 문장을 보정하는 장치와 관련된 음성 인식부가 음성을 선명하게 인식할 수 있는 거리에서 발화할 수 있고, 음성 인식된 문장을 보정하는 장치는 사용자의 음성을 인식하여 텍스트로 변환할 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 사용자의 음성이 녹음된 파일을 수신함으로써 사용자의 발화를 수신할 수 있다. 예를 들어, 음성 인식된 문장을 보정하는 장치는 사용자가 녹음기 또는 녹음 기능을 수행할 수 있는 단말을 이용하여 녹음한 음성이 포함된 파일을 수신하고, 파일에 포함되는 사용자의 음성을 인식하여 텍스트로 변환할 수 있다. 또는, 음성 인식된 문장을 보정하는 장치는 외부 장치로부터 음성 인식이 완료된 문장을 수신할 수도 있다.

음성 인식된 문장을 획득하는 단계는 문장에 포함된 단어 시퀀스에 기초하여, 문장에 포함된 하나 이상의 단어에 관련된 확률 분포를 결정하는 단계를 포함할 수 있다. 단어 시퀀스는 문장 내 연속된 복수의 단어들을 포함할 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 언어 모델을 이용하여 문장에 포함된 하나 이상의 단어에 관련된 확률 분포를 결정할 수 있다. 단어의 확률은 문장 내에서 해당하는 단어를 언어학적으로 평가하는 지표일 수 있다. 예를 들어, 언어 모델은 문맥 의존적(context-dependent)인 성격을 가지는 모델일 수 있다. 이 경우, 문장에 포함되는 개별의 단어가 해당 문장에 포함되는 다른 단어들과의 관계에 있어서 적절한 단어인지 여부를 판단할 수 있고, 판단한 결과를 확률 분포로 나타낼 수 있다. 예를 들어, 문장 "마상 입고 혼코노 갔다"와 관련하여, 문장에 포함된 단어에 관련된 확률 분포는 '마상: 20%, 입고: 80%, 혼코노: 10%, 갔다: 80%'로 결정될 수 있다. 단어 '마상' 및 단어 '혼코노'는 다른 단어들과의 관계에 있어서 적절한 단어가 아니라고 판단될 수 있다.

음성 인식된 문장을 보정하는 장치는 사용자의 프로파일을 획득한다(120). 음성 인식된 문장을 보정하는 장치는 데이터베이스로부터 사용자의 프로파일을 불러올 수 있다. 일실시예에 따르면, 데이터베이스는 음성 인식된 문장을 보정하는 장치에 포함될 수 있다. 일실시예에 따르면, 데이터베이스는 음성 인식된 문장을 보정하는 장치와 구분되는 별개의 장치로 구현될 수 있다.

사용자의 프로파일은 하나 이상의 카테고리에 관련된 정보를 포함할 수 있다. 일실시예에 따르면, 하나 이상의 카테고리는 사용자의 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역 중 적어도 하나를 포함할 수 있다.

사용자의 프로파일과 관련된 보다 상세한 사항은 도 2를 통하여 후술한다.

음성 인식된 문장을 보정하는 장치는 사용자의 프로파일에 기초하여 데이터베이스에 저장된 복수의 코퍼스(Corpus)들 중 하나 이상의 코퍼스를 선택한다(130). 복수의 코퍼스들은 복수의 카테고리들에 포함되는 복수의 세부 범주들에 대응할 수 있다. 코퍼스들 각각은 해당하는 세부 범주와 관련된 복수의 단어들 및 해당하는 단어들을 치환하기 위한 후보 단어들을 포함할 수 있다.

일실시예에 따르면, 복수의 코퍼스들은 복수의 카테고리들 및 복수의 카테고리들에 포함되는 복수의 세부 범주들에 기초하여 데이터베이스에 저장될 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 복수의 세부 범주들과 관련하여 미리 설정된 가중치에 기초하여, 사용자의 프로파일을 점수화(scoring)할 수 있다. 점수화된 프로파일에 기초하여, 음성 인식된 문장을 보정하는 장치는 하나 이상의 코퍼스를 선택할 수 있다.

사용자의 프로파일을 점수화하는 것과 관련된 보다 상세한 사항은 도 2를 통하여 후술한다. 하나 이상의 코퍼스를 선택하는 것과 관련된 보다 상세한 사항은 도 3 및 도 4를 통하여 후술한다.

음성 인식된 문장을 보정하는 장치는 하나 이상의 코퍼스에 기초하여 문장을 보정한다(140). 음성 인식된 문장을 보정하는 장치는 단계 110에서 결정된 획득된 문장에 포함된 하나 이상의 단어와 관련된 확률 분포에 기초하여, 획득된 문장에 포함된 단어 중 보정이 필요한 하나 이상의 단어를 선별할 수 있다. 일실시예에 따르면, 획득된 문장에 포함된 하나 이상의 단어와 관련된 확률 분포에 포함되는 개별 확률 값이 미리 정해진 값 미만인지 여부에 따라 개별 단어가 보정이 필요한지 여부를 결정할 수 있다.

음성 인식된 문장을 보정하는 장치는 선택된 하나 이상의 코퍼스에 기초하여, 선별된 하나 이상의 단어을 치환하기 위한 하나 이상의 후보 단어를 결정할 수 있다. 후보 단어는 선별된 단어를 치환하기 위한 후보일 수 있다. 음성 인식된 문장을 보정하는 장치는 선별된 하나 이상의 단어를 선별된 하나 이상의 단어에 대응하는 하나 이상의 후보 단어로 치환할 수 있다.

음성 인식된 문장을 보정하는 장치는 문장을 보정한 결과를 데이터베이스에 저장할 수 있다. 일실시예에 따르면, 문장을 보정한 결과는 선별된 하나 이상의 단어, 선택된 하나 이상의 후보 단어, 치환이 이루어진 횟수, 및 사용자의 프로파일 중 적어도 하나를 포함할 수 있다.

문장을 보정하는 것과 관련된 보다 상세한 사항은 도 5 및 도 6을 통하여 후술한다.

음성 인식된 문장을 보정하는 장치는 보정된 문장을 제공한다(150). 일실시예에 따르면, 문장을 보정하는 장치는 보정된 문장을 출력할 수 있다. 보정된 문장은 명시적으로(explicitly) 출력되거나, 암시적으로(implicitly) 출력될 수 있다. 예를 들어, 보정된 문장은 문자 메시지 등의 형태로 명시적으로 출력되어 사용자 등에 제공될 수 있다. 또는, 보정된 문장은 명시적으로 출력되는 대신 고객 센터의 서비스 개선이나 NLU(Natural Language Understanding, 자연 언어 이해) 기술의 개선에 이용되는 등 암시적으로 출력되어 활용될 수 있다.

도 2는 일실시예에 따른 사용자의 프로파일을 획득하고, 사용자의 프로파일을 점수화하는 방법을 설명하기 위한 도면이다.

도 2를 참조하면, 음성 인식된 문장을 보정하는 장치는 데이터베이스로부터 사용자의 프로파일을 불러올 수 있다. 사용자의 프로파일은 하나 이상의 카테고리에 관련된 정보를 포함할 수 있다. 일실시예에 따르면, 사용자의 프로파일이 포함하는 하나 이상의 카테고리는 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역 중 적어도 하나를 포함할 수 있다. 예를 들어, 사용자의 프로파일은 'ID: abcd1234', '성별: 남', '연령: 10대', '지역: 서울', '서비스 사용 영역: 게임' 등의 정보를 포함할 수 있다(210).

일실시예에 따르면, 복수의 코퍼스들은 복수의 카테고리들 및 복수의 카테고리들에 포함되는 복수의 세부 범주들에 기초하여 데이터베이스에 저장될 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 복수의 카테고리들에 포함되는 복수의 세부 범주들과 관련하여 미리 설정된 가중치에 기초하여, 사용자의 프로파일을 점수화할 수 있다. 일실시예에 따른 복수의 카테고리들은 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역을 포함할 수 있다. 일실시예에 따르면, 세부 범주가 사용자의 발화에 더 두드러지는 특징을 부여할 수 있을수록, 해당 세부 범주와 관련하여 더 큰 가중치가 설정될 수 있다. 예를 들어, 연령이 10대인 사람들이 사용하는 신조어 및 제주도에 거주하는 사람들이 사용하는 제주도 방언이 표준어와 구별되는 특징을 다수 포함하고 있다는 점을 고려하였을 때, 카테고리 '연령'이 포함하는 세부 범주 '10대' 및 카테고리 '지역'이 포함하는 세부 범주 '제주도'와 관련하여 더 큰 가중치가 설정될 수 있다.

이하, 다양한 카테고리 및 세부 범주들과 관련하여 미리 설정된 가중치에 관련된 실시예들을 제시한다. 일실시예에 따르면, 카테고리 '성별'은 세부 범주 '남' 및 세부 범주 '여'를 포함할 수 있다. 일실시예에 따르면, 세부 범주 '남' 및 세부 범주 '여'가 사용자의 발화에 특징을 부여할 수 있다. 다만, 그 특징이 두드러지는 정도는 아니므로, 세부 범주 '남'과 관련하여 가중치를 2로 설정할 수 있고, 세부 범주 '여'와 관련하여서도 가중치를 2로 설정할 수 있다.

일실시예에 따르면, 카테고리 '연령'은 세부 범주 '10대', 세부 범주 '20대' 및 세부 범주 '30대' 등을 포함할 수 있다. 일실시예에 따르면, 세부 범주 '10대'는 세부 범주 '20대'에 비하여 발화에 더 두드러지는 특징을 부여할 수 있고, 세부 범주 '20대'는 세부 범주 '30대'에 비하여 발화에 더 두드러지는 특징을 부여할 수 있다. 일실시예에 따르면, 세부 범주 '10대'와 관련하여 가중치를 7로 설정할 수 있고, 세부 범주 '20대'와 관련하여 가중치를 5로 설정할 수 있고, 세부 범주 '30대'와 관련하여 가중치를 3으로 설정할 수 있다.

일실시예에 따르면, 카테고리 '지역'은 세부 범주 '서울', 세부 범주 '부산', 및 세부 범주 '경기' 등을 포함할 수 있다. 일실시예에 따르면, 세부 범주 '부산'은 세부 범주 '경기'에 비하여 발화에 더 두드러지는 특징을 부여할 수 있고, 세부 범주 '경기'는 세부 범주 '서울'에 비하여 발화에 더 두드러지는 특징을 부여할 수 있다. 일실시예에 따르면, 세부 범주 '서울'과 관련하여 가중치를 1로 설정할 수 있고, 세부 범주 '부산'과 관련하여 가중치를 7로 설정할 수 있고, 세부 범주 '경기'와 관련하여 가중치를 2로 설정할 수 있다.

일실시예에 따르면, 앞서 제시된 사용자의 프로파일의 예시 'ID: abcd1234', '성별: 남', '연령: 10대', '지역: 서울', '서비스 사용 영역: 게임'에 있어서, '성별: 남'과 관련하여 미리 설정된 가중치는 2일 수 있고, '연령:10대'와 관련하여 미리 설정된 가중치는 7일 수 있고, '지역: 서울'과 관련하여 미리 설정된 가중치는 1일 수 있고, '서비스 사용 영역: 게임'과 관련하여 미리 설정된 가중치는 3일 수 있다(220). 이 경우, 사용자의 프로파일은 'ID: abcd1234', '성별: 남/2', '연령: 10대/7', '지역: 서울/1', '서비스 사용 영역: 게임/3'으로 점수화될 수 있다.

점수화된 프로파일에 기초하여, 음성 인식된 문장을 보정하는 장치는 하나 이상의 코퍼스를 선택할 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 점수가 가장 높은 세부 범주에 대응하는 하나의 코퍼스를 선택할 수 있다. 예를 들어, 앞서 제시된 점수화된 사용자의 프로파일의 예시 'ID: abcd1234', '성별: 남/2', '연령: 10대/7', '지역: 서울/1', '서비스 사용 영역: 게임/3'과 관련하여, 점수가 가장 높은 세부 범주 '연령: 10대'와 대응하는 하나의 코퍼스를 선택할 수 있다(230). 이 경우, 선택된 코퍼스는 세부 범주 '연령: 10대'와 관련된 '애빼시', '마상' 등의 복수의 단어들 및 복수의 단어들에 대응하는 '애교 빼면 시체', '마음의 상처' 등의 복수의 후보 단어들을 포함할 수 있다.

하나 이상의 코퍼스를 선택하는 것과 관련된 보다 상세한 사항은 도 3 및 도 4를 통하여 후술한다.

도 3은 일실시예에 따른 코퍼스를 생성하고 데이터베이스에 저장하는 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 일실시예에 따른 복수의 코퍼스들은 복수의 카테고리들 및 복수의 카테고리들에 포함되는 복수의 세부 범주들에 기초하여 생성될 수 있다. 일실시예에 따르면, 사용자와 관련된 다양한 특성들이 사용자의 발화에 특징을 부여할 수 있다. 일실시예에 따르면, 복수의 카테고리들은 사용자의 발화에 특징을 부여할 수 있는 사용자와 관련된 다양한 특성들을 포함할 수 있도록 결정될 수 있다. 예를 들어, 복수의 카테고리들은 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역 등의 특성들을 포함할 수 있다(310)

일실시예에 따르면, 미리 정해진 복수의 카테고리들에 관련하여 복수의 세부 범주들이 결정될 수 있다(320). 예를 들어, 카테고리 '연령'에 관련하여 '10대', '20대', 및 '30대' 등의 세부 범주들이 결정될 수 있다. 일실시예에 따르면, 복수의 세부 범주들에 대응하여 코퍼스들이 저장될 수 있다(330). 예를 들어, 세부 범주 '10대', 세부 범주 '20대', 및 세부 범주 '30대'에 관련하여 서로 다른 코퍼스들이 저장될 수 있다.

도 4는 일실시예에 따른 하나 이상의 코퍼스를 선택한 결과의 예시도이다.

도 4를 참조하면, 점수화된 프로파일에 기초하여, 음성 인식된 문장을 보정하는 장치는 하나 이상의 코퍼스를 선택할 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 점수가 가장 높은 세부 범주에 대응하는 하나의 코퍼스를 선택할 수 있다. 예를 들어, 사용자의 프로파일이 '제1 세부 범주/7'(410), '제2 세부 범주/3'(420), 및 '제3 세부 범주/5'(430)로 점수화된 경우, 음성 인식된 문장을 보정하는 장치는 점수가 가장 높은 세부 범주인 제1 세부 범주에 대응하는 코퍼스를 선택할 수 있다(a).

일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 프로파일의 세부 범주들에 대응하는 코퍼스를 모두 참조할 수 있다. 일실시예에 따르면, 프로파일의 세부 범주들에 대응하는 모든 코퍼스들에 기초하여, 음성 인식된 문장을 보정하는 장치는 획득된 문장에 포함된 단어 중 보정이 필요한 하나 이상의 단어에 대응하는 하나 이상의 후보 단어를 결정할 수 있다. 일실시예에 따르면, 결정된 후보 단어가 단수인 경우, 음성 인식된 문장을 보정하는 장치는 해당 후보 단어를 포함하는 코퍼스들 중 점수가 가장 높은 세부 범주에 대응하는 하나의 코퍼스를 선택할 수 있다. 일실시예에 따르면, 결정된 후보 단어가 복수인 경우, 음성 인식된 문장을 보정하는 장치는 개별의 후보 단어를 포함하는 하나 이상의 코퍼스의 점수를 합산할 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 개별의 후보 단어마다 점수를 합산한 결과를 비교하여 합산 결과가 가장 높은 하나의 후보 단어를 선택하고, 해당 후보 단어를 포함하는 하나 이상의 코퍼스를 선택할 수 있다. 예를 들어, 사용자의 프로파일이 '제1 세부 범주/7'(410), '제2 세부 범주/3'(420), 및 '제3 세부 범주/5'(430)로 점수화되었을 수 있고, 획득된 문장에 포함된 단어 중 보정이 필요한 단어는 A일 수 있다. 제1 세부 범주에 대응하는 코퍼스는 단어 A에 대응하는 후보 단어 B를 포함할 수 있고, 제2 세부 범주에 대응하는 코퍼스 및 제3 세부 범주에 대응하는 코퍼스는 단어 A에 대응하는 후보 단어 C를 포함할 수 있다. 이 경우, 제1 세부 범주에 대응하는 점수는 7점일 수 있고, 제2 세부 범주 및 제3 세부 범주에 대응하는 점수를 합산한 결과는 8점일 수 있다. 따라서, 음성 인식된 문장을 보정하는 장치는 후보 단어를 C로 선택할 수 있고, 제2 세부 범주에 대응하는 코퍼스 및 제3 세부 범주에 대응하는 코퍼스를 선택할 수 있다(b).

도 5는 일실시예에 따른 문장을 보정하는 방법을 설명하기 위한 도면이다. 도 5는 도 1의 단계 140에 대응될 수 있다.

도 5를 참조하면, 음성 인식된 문장을 보정하는 장치는 획득된 문장에 포함된 하나 이상의 단어와 관련된 확률 분포에 기초하여, 획득된 문장에 포함된 단어 중 보정이 필요한 하나 이상의 단어를 선별할 수 있다. 하나 이상의 단어와 관련된 확률 분포는 도 1의 단계 110에서 결정될 수 있다. 일실시예에 따르면, 획득된 문장에 포함된 하나 이상의 단어와 관련된 확률 분포에 포함되는 개별 확률 값이 미리 정해진 값 미만인지 여부에 따라 개별 단어가 보정이 필요한지 여부를 결정할 수 있다. 예를 들어, 보정이 필요한지 여부를 결정하는 미리 정해진 값이 30%이고, 획득된 문장 "마상 입고 혼코노 갔다"와 관련하여 확률 분포가 '마상: 20%, 입고: 80%, 혼코노: 10%, 갔다: 80%'로 결정된 경우, 음성 인식된 문장을 보정하는 장치는 확률 분포에 포함되는 개별 확률 값이 30% 미만인 단어 '마상' 및 단어 '혼코노'를 보정이 필요한 단어로 선별할 수 있다(510).

음성 인식된 문장을 보정하는 장치는 선택된 하나 이상의 코퍼스에 기초하여, 선별된 하나 이상의 단어에 대응하는 하나 이상의 후보 단어를 결정할 수 있다. 예를 들어, 선택된 코퍼스가 '연령, 10대'에 대응하는 코퍼스인 경우, 음성 인식된 문장을 보정하는 장치는 선택된 코퍼스에 기초하여 단어 '마상'에 대응하는 후보 단어를 '마음의 상처'로 결정할 수 있고, 단어 '혼코노'에 대응하는 후보 단어를 '혼자 코인 노래방'으로 결정할 수 있다(520).

음성 인식된 문장을 보정하는 장치는 선별된 하나 이상의 단어를 결정된 하나 이상의 후보 단어로 치환할 수 있다. 예를 들어, 음성 인식된 문장을 보정하는 장치는 획득된 문장 "마상 입고 혼코노 갔다"의 단어 '마상'을 후보 단어 '마음의 상처'로, 단어 '혼코노'를 후보 단어 '혼자 코인 노래방'으로 치환할 수 있다. 즉, 획득된 문장은 "마음의 상처 입고 혼자 코인 노래방 갔다"로 치환될 수 있다(530).

도 6은 일실시예에 따른 문장을 보정한 결과를 데이터베이스에 저장한 결과의 예시도이다.

음성 인식된 문장을 보정하는 장치는 문장을 보정한 결과를 데이터베이스에 저장할 수 있다. 일실시예에 따르면, 문장을 보정한 결과는 선별된 하나 이상의 단어, 선택된 하나 이상의 후보 단어, 치환이 이루어진 횟수, 및 사용자의 프로파일 중 적어도 하나를 포함할 수 있다. 일실시예에 따르면, 음성 인식된 문장을 보정하는 장치는 선별된 하나 이상의 단어 및 선택된 하나 이상의 후보 단어를 대응시킨 형태로 데이터베이스에 저장할 수 있다. 예를 들어, 획득된 문장 "마상 입고 혼코노 갔다"에서, 단어 '마상'을 후보 단어 '마음의 상처'로, '혼코노'를 후보 단어 '혼자 코인 노래방'으로 치환한 경우, 선별된 하나 이상의 단어 및 선택된 하나 이상의 후보 단어를 대응시킨 형태는 (마상, 마음의 상처), (혼코노, 혼자 코인 노래방)와 같을 수 있고, 치환이 이루어진 횟수는 2회일 수 있다. 이 경우, 문장을 보정한 결과가 데이터베이스에 저장되는 형태는 {(마상, 마음의 상처), (혼코노, 혼자 코인 노래방), 2, 남, 10대, 서울}과 같을 수 있다(610).

일실시예에 따르면, 도 1 내지 도 6을 통하여 전술한 방법들의 전부 또는 일부는 서버에 의해서 수행될 수 있다. 일실시예에 따르면, 도 1 내지 도 6을 통하여 전술한 방법들의 전부 또는 일부는 단말에 의해서 수행될 수도 있다. 일실시예에 따르면, 도 1 내지 도 6을 통하여 전술한 방법들의 일부는 서버에 의해서 수행되고, 나머지 일부는 단말에 의해서 수행되는 경우, 서버와 단말은 각각의 단계를 수행하기 위하여 필요한 정보를 상호간에 교환할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

적어도 하나의 프로세서에 의해 수행되는 문장 보정 방법에 있어서,
음성 인식된 문장을 획득하는 단계;
언어 모델에 따른 상기 문장에 포함된 하나 이상의 단어와 관련된 확률 분포에 기초하여, 상기 문장에 포함된 단어 중 보정이 필요한 하나 이상의 보정 대상 단어를 선별하는 단계;
사용자의 프로파일에 포함된 하나 이상의 카테고리의 세부 범주와 관련하여 미리 설정된 가중치에 기초하여, 데이터베이스에 저장된 복수의 코퍼스(Corpus)들 중 하나 이상의 코퍼스를 선택하는 단계;
상기 선택된 하나 이상의 코퍼스에 기초하여, 상기 보정 대상 단어에 대응하는 하나 이상의 후보 단어를 결정하는 단계;
상기 가중치 및 상기 하나 이상의 후보 단어에 기초하여, 상기 문장을 보정하는 단계; 및
상기 보정의 결과에 기초하여, 상기 선택된 하나 이상의 코퍼스를 갱신하는 단계
를 포함하는, 문장 보정 방법.
제1항에 있어서,
상기 문장을 보정하는 단계는
상기 가중치에 기초하여, 상기 보정 대상 단어에 대응하는 하나 이상의 후보 단어 중 어느 하나를 선정하는 단계; 및
상기 보정 대상 단어를 상기 선정된 후보 단어로 치환하는 단계
를 포함하는, 문장 보정 방법.
제1항에 있어서,
상기 보정의 결과는
상기 보정 대상 단어, 상기 보정 대상 단어에 대응하는 하나 이상의 후보 단어, 치환이 이루어진 횟수, 및 상기 사용자의 프로파일
중 적어도 하나를 포함하는, 문장 보정 방법.
제1항에 있어서,
상기 하나 이상의 코퍼스를 선택하는 단계는
복수의 카테고리들에 포함되는 복수의 세부 범주들과 관련하여 미리 설정된 가중치에 기초하여, 상기 사용자의 프로파일을 점수화(scoring)하는 단계; 및
상기 점수화된 프로파일에 기초하여, 상기 하나 이상의 코퍼스를 선택하는 단계
를 포함하고,
상기 복수의 카테고리들은
성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역
중 적어도 하나를 포함하는, 문장 보정 방법.
제1항에 있어서,
상기 복수의 코퍼스들은
복수의 카테고리들에 포함되는 복수의 세부 범주들에 대응하고,
상기 복수의 코퍼스들 각각은
해당하는 세부 범주와 관련된 복수의 단어들; 및
상기 복수의 단어들을 치환하기 위한 복수의 후보 단어들
을 포함하는, 문장 보정 방법.
제1항에 있어서,
상기 문장을 획득하는 단계는
상기 사용자의 발화를 수신하는 단계; 및
상기 수신된 발화를 텍스트로 변환하는 단계
를 포함하고,
상기 사용자의 발화를 수신하는 단계는
상기 사용자의 음성을 실시간으로 수신하는 단계; 및
상기 사용자의 음성이 녹음된 파일을 수신하는 단계
중 적어도 하나를 포함하는, 문장 보정 방법.
제1항에 있어서,
상기 문장을 획득하는 단계는
상기 문장에 포함된 단어 시퀀스에 기초하여, 상기 문장에 포함된 하나 이상의 단어에 관련된 확률 분포를 결정하는 단계
를 포함하는, 문장 보정 방법.
제1항에 있어서,
상기 사용자의 프로파일을 상기 데이터베이스로부터 불러오는 단계
를 더 포함하고,
상기 프로파일은
하나 이상의 카테고리의 세부 범주와 관련된 정보를 포함하고,
상기 하나 이상의 카테고리는
상기 사용자의 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역
중 적어도 하나를 포함하는, 문장 보정 방법.
하드웨어와 결합되어 제1항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
사용자의 프로파일 및 복수의 코퍼스들이 저장된 적어도 하나의 메모리; 및
음성 인식된 문장을 획득하고, 언어 모델에 따른 상기 문장에 포함된 하나 이상의 단어와 관련된 확률 분포에 기초하여, 상기 문장에 포함된 단어 중 보정이 필요한 하나 이상의 보정 대상 단어를 선별하고, 상기 사용자의 프로파일에 포함된 하나 이상의 카테고리의 세부 범주와 관련하여 미리 설정된 가중치에 기초하여, 데이터베이스에 저장된 복수의 코퍼스(Corpus)들 중 하나 이상의 코퍼스를 선택하고, 상기 선택된 하나 이상의 코퍼스에 기초하여, 상기 보정 대상 단어에 대응하는 하나 이상의 후보 단어를 결정하고, 상기 가중치 및 상기 하나 이상의 후보 단어에 기초하여, 상기 문장을 보정하며, 상기 보정의 결과에 기초하여, 상기 선택된 하나 이상의 코퍼스를 갱신하는 적어도 하나의 프로세서
를 포함하는, 문장 보정 장치.
제10항에 있어서,
상기 프로세서는
상기 문장을 보정함에 있어서,
상기 가중치에 기초하여, 상기 보정 대상 단어에 대응하는 하나 이상의 후보 단어 중 어느 하나를 선정하고, 상기 보정 대상 단어를 상기 선정된 후보 단어로 치환하는, 문장 보정 장치.
제10항에 있어서,
상기 보정의 결과는
상기 보정 대상 단어, 상기 보정 대상 단어에 대응하는 하나 이상의 후보 단어, 치환이 이루어진 횟수, 및 상기 사용자의 프로파일
중 적어도 하나를 포함하는, 문장 보정 장치.
제10항에 있어서,
상기 하나 이상의 코퍼스를 선택하는 프로세서는
복수의 카테고리들에 포함되는 복수의 세부 범주들과 관련하여 미리 설정된 가중치에 기초하여, 상기 사용자의 프로파일을 점수화하고,
상기 점수화된 프로파일에 기초하여, 상기 하나 이상의 코퍼스를 선택하는 프로세서
를 포함하고,
상기 복수의 카테고리들은
성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역
중 적어도 하나을 포함하는, 문장 보정 장치.
제10항에 있어서,
상기 복수의 코퍼스들은
복수의 카테고리들에 포함되는 복수의 세부 범주들에 대응하고,
상기 복수의 코퍼스들 각각은
해당하는 세부 범주와 관련된 복수의 단어들; 및
상기 복수의 단어들을 치환하기 위한 복수의 후보 단어들
을 포함하는, 문장 보정 장치.
제10항에 있어서,
상기 문장을 획득하는 프로세서는
상기 사용자의 발화를 수신하고,
상기 수신된 발화를 텍스트로 변환하는 프로세서
를 포함하고,
상기 사용자의 발화를 수신하는 프로세서는
상기 사용자의 음성을 실시간으로 수신하는 프로세서; 및
상기 사용자의 음성이 녹음된 파일을 수신하는 프로세서
중 적어도 하나를 포함하는, 문장 보정 장치.
제10항에 있어서,
상기 문장을 획득하는 프로세서는
상기 문장에 포함된 단어 시퀀스에 기초하여, 상기 문장에 포함된 하나 이상의 단어에 관련된 확률 분포를 결정하는 프로세서
를 포함하는, 문장 보정 장치.
제10항에 있어서,
상기 프로세서는
상기 사용자의 프로파일을 상기 데이터베이스로부터 불러오는 프로세서를 포함하고,
상기 프로파일은
하나 이상의 카테고리의 세부 범주와 관련된 관련된 정보를 포함하고,
상기 하나 이상의 카테고리는
상기 사용자의 성별, 연령, 지역, 발화 이력, 및 서비스 사용 영역
중 적어도 하나를 포함하는, 문장 보정 장치.