KR20230001496A

KR20230001496A - Ai 면접 환경에서의 음성 인식 후처리 장치 및 방법

Info

Publication number: KR20230001496A
Application number: KR1020220029909A
Authority: KR
Inventors: 임헌영; 김성원
Original assignee: 주식회사 무하유
Priority date: 2021-06-28
Filing date: 2022-03-10
Publication date: 2023-01-04
Also published as: KR102597086B1; KR102374405B1

Abstract

AI 면접 환경에서의 음성 인식 후처리 장치 및 방법에 관한 것으로, 상기 방법은, AI 면접 대상자의 면접 자료를 획득하여 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하는 단계 및 상기 AI 면접 대상자의 음성 인식 결과 텍스트를 획득하고, 상기 단어 벡터 공간을 기반으로 상기 음성 인식 결과 텍스트의 비유창성을 검증하는 단계를 포함하다.
본 발명은 서울특별시 서울산업진흥원 2020년도 인공지능(AI) 기술사업화 지원사업(CY201042)"비대면 채용환경개선을 위한 AI채용 평가시스템 사업화"를 통해 개발된 기술이다.

Description

AI 면접 환경에서의 음성 인식 후처리 장치 및 방법{APPARATUS AND METHOD FOR POST-PROCESSING SPEECH RECOGNITION IN ARTIFICIAL INTELLIGENCE INTERVIEW}

본 발명은 음성 인식 후처리 방법에 관한 것으로, 보다 구체적으로 AI 면접 환경에서의 음성 인식 후처리 장치 및 방법에 관한 것이다.

일반적으로, 음성 인식 후처리에 있어서, 비유창성 감지는, 화자가 발화한 내용 중 잘못 인식된 부분을 교정 혹은 삭제할 때 사용되는 기법이다.

비유창성 감지에 사용되는 기술은, 최근에 주로 사용되고 있는 데이터 기반 지도 학습 기법과 기존에 사용되던 규칙 기반 방법이 모두 사용 가능하다.

그러나, 데이터 기반 지도 학습 기법은, 비유창성 감지를 위한 별도의 데이터가 준비되어야 하고 한국어에 대한 충분한 성능 검증이 이루어지지 않았다는 문제가 있었다.

그리고, 규칙 기반 방법 또한 한국어의 복잡한 발음과 음운 변동을 모두 고려하여 규칙을 정의하는 것에는, 상당한 인적 자원과 시간이 소요된다는 문제가 있었다.

또한, 기존 기술의 경우에는, 발음 사전 데이터베이스 등을 별도로 생성하고, 이를 토대로 단어 간 구조적 유사성을 측정하는 방식으로 어휘 교정을 진행하였으나, 교정 완료 단어에 대한 문맥적 적합성 검증은 시행하지 않는다.

이 경우, 음성 인식 오류 교정 결과는, 구축된 발음 사전 데이터베이스의 성능에 높은 의존성을 갖게 되며, 한국어의 언어 특성 상 모든 구조적 변화 경우의 수에 대응하는 발음 사전 구축은 높은 구축 비용이 동반된다는 단점이 존재할 수 있다.

또한, 한국어는, 고유한 언어적 특성(모호함, 교착어 등)으로 인해 자연 언어 처리 분야에 있어 상당히 불리한 조건을 갖추고 있는 언어이다.

영어를 대상으로 진행되는 해외 자연 언어 처리 관련 기술들은, 실제 한국어에 적용하고 동일한 수준의 성능을 기대하기 어려운 경우가 많으며, 주요 자연 언어 처리 기법들을 선택적으로 적용할 필요성이 있다.

최근, 채용 문화는, 코로나로 인해 변화한 것 중 하나이며 흔히 면접자와 면접관이 화상 회의 프로그램 등을 사용하여 진행하는 언택트 면접, 사전에 PT 녹화를 진행하고 이를 제출하는 온라인 PT 면접, AI 면접관의 절차에 따라 몇 가지 질의응답을 진행하는 AI 면접이 있다.

이 중 AI 면접은, 사람이 아닌 기계에 의해 면접 당락이 결정되며, 질의응답 간 음성을 포함한 모든 상호작용은 면접의 결과에 반영된다.

그러므로, AI 면접에 있어 다양한 환경의 면접자 음성을 놓치지 않고 정확하게 파악하는 것은, 필수불가결한 작업이지만, 음성 인식 한계로 인하여 AI 면접 환경에서의 음성 인식 결과에 대한 보완이 필요하다.

따라서, 향후, AI 면접 환경에서, 최소 비용 및 최소 시간으로 음성 인식 결과를 보완하여 정확성 및 신뢰성이 향상된 음성 인식 결과를 제공할 수 있는 음성 인식 후처리 방법의 개발이 요구되고 있다.

본 발명은 서울특별시 서울산업진흥원 2020년도 인공지능(AI) 기술사업화 지원사업(CY201042)"비대면 채용환경개선을 위한 AI채용 평가시스템 사업화"를 통해 개발된 기술이다.

대한민국 공개특허 10-2018-0062003호 (2018. 06. 08)

상술한 바와 같은 문제점을 해결하기 위한 본 발명의 일 목적은, 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하고, 이를 기초로 음성 인식 결과 텍스트의 교정 구간에 상응하는 교정 어휘 후보군의 구조적 유사성 및 문맥적 적합성을 검증하여 최종 교정 단어 후보를 선정함으로써, AI 면접 환경에서, 최소 비용 및 최소 시간으로 음성 인식 결과를 보완하여 정확성 및 신뢰성이 향상된 음성 인식 결과를 제공할 수 있는 AI 면접 환경에서의 음성 인식 후처리 장치 및 방법을 제공하는 것이다.

또한, 본 발명은, AI 면접 환경에서 음성 인식 결과를 거친 면접자 음성 처리 텍스트를 비지도 학습 기반 기술로 생성한 단어 벡터 공간 등을 활용하여 후처리하는 음성 인식 후처리 장치 및 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 AI(Artificial Intelligence) 면접 환경에서의 음성 인식 후처리 장치의 음성 인식 후처리 방법은, AI 면접 대상자의 면접 자료를 획득하여 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하는 단계 및 상기 AI 면접 대상자의 음성 인식 결과 텍스트를 획득하고, 상기 단어 벡터 공간을 기반으로 상기 음성 인식 결과 텍스트의 비유창성을 검증하는 단계를 포함하고, 상기 단어 벡터 공간을 생성하는 단계는, 상기 AI 면접 대상자의 면접 자료들 중 자기소개 데이터를 기반으로 단어 벡터 공간을 생성하고, 상기 음성 인식 결과 텍스트의 비유창성을 검증하는 단계는, 상기 음성 인식 결과 텍스트를 획득하면 상기 음성 인식 결과 텍스트를 형태소 단위로 분리하고 품사 구분을 진행한 다음, 상기 단어 벡터 공간에 사상하여 상기 음성 인식 결과 텍스트에서 비유창성을 갖는 부분을 감지하고 상기 감지된 부분을 교정 구간으로 판단하는 것을 특징으로 한다.

또한, 상기 방법은, 상기 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 상기 단어 벡터 공간을 기반으로 상기 교정 구간에 상응하는 교정 어휘 후보군을 생성하는 단계, 상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 및 문맥적 적합성을 검증하고, 이들 간의 선택적 가중치 적용을 통해 유사성 지수를 산출하여 최종 교정 단어 후보를 선정하는 단계, 상기 선정된 최종 교정 단어 후보의 적합성 여부를 판단하는 단계 및 상기 선정된 최종 교정 단어 후보가 적합하면 상기 음성 인식 결과 텍스트 중 교정 구간을 상기 최종 교정 단어 후보로 교체하여 출력하는 단계를 더 포함할 수 있다.

또한, 상기 교정 어휘 후보군을 생성하는 단계는, 상기 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 상기 교정 구간을 형태소 단위로 분리하며, 상기 단어 벡터 공간 내에서 상기 형태소 단위로 분리된 다른 부분과 함께 등장하는 단어군을 우선적으로 추출하고, 상기 교정 구간의 예상 품사군으로 후보군을 제한하여 상기 교정 어휘 후보군을 생성하는 것을 특징으로 할 수 있다.

또한, 상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 검증은, 상기 교정 구간의 단어와 상기 교정 어휘 후보군에 속한 단어들간의 상호 변환에 필요한 최소한의 연산 개수를 단어간의 편집 거리로 정의하고, 음소간 및 음절간의 최소 편집 거리를 산출하며, 상기 산출된 최소 편집 거리를 기반으로 상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증하는 것을 특징으로 할 수 있다.

또한, 상기 교정 어휘 후보군에 속하는 단어들의 문맥적 적합성 검증은, 상기 교정 어휘 후보군에 속한 단어들이 상기 교정 구간의 단어와 교체되었을 때, 문맥적으로 적합한 문장이 완성되는지를 구술 및 기술을 포함한 면접자 관점 및 도메인 관점에서 검증하는 것을 특징으로 할 수 있다.

또한, 상기 유사성 지수를 산출하여 최종 교정 단어 후보를 선정하는 단계는, 상기 교정 어휘 후보군 단어들의 구조적 유사성과 문맥적 적합성을 각각 0에서 1 사이의 값으로 수치화하고, 이를 기반으로 상기 최종 교정 단어 후보 추출을 위한 유사성 지수를 산출하는 것을 특징으로 할 수 있다.

또한, 상기 선정된 최종 교정 단어 후보의 적합성 여부를 판단하는 단계는, 상기 선정된 최종 교정 단어 후보가 적합하지 않으면 상기 음성 인식 결과 텍스트의 원본 문장을 출력하는 것을 특징으로 할 수 있다.

본 발명의 일 실시예에 따른 AI(Artificial Intelligence) 면접 환경에서의 음성 인식 후처리 장치는, AI 면접 대상자의 면접 자료를 획득하여 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하는 단어 벡터 공간 생성부 및 상기 AI 면접 대상자의 음성 인식 결과 텍스트를 획득하여 상기 단어 벡터 공간을 기반으로 상기 음성 인식 결과 텍스트의 비유창성을 검증하는 비유창성 검증부를 포함하고, 상기 단어 벡터 공간 생성부는, 상기 AI 면접 대상자의 면접 자료들 중 자기소개 데이터를 기반으로 단어 벡터 공간을 생성하고, 상기 비유창성 검증부는, 상기 음성 인식 결과 텍스트를 획득하면 상기 음성 인식 결과 텍스트를 형태소 단위로 분리하고 품사 구분을 진행한 다음, 상기 단어 벡터 공간에 사상하여 상기 음성 인식 결과 텍스트에서 비유창성을 갖는 부분을 감지하고 상기 감지된 부분을 교정 구간으로 판단하는 것을 특징으로 한다.

또한, 상기 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 상기 단어 벡터 공간을 기반으로 상기 교정 구간에 상응하는 교정 어휘 후보군을 생성하는 교정 어휘 후보군 생성부, 상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증하는 구조적 유사성 검증부, 상기 교정 어휘 후보군에 속하는 단어들의 문맥적 적합성을 검증하는 문맥적 적합성 검증부, 상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 및 문맥적 적합성의 선택적 가중치 적용을 통해 유사성 지수를 산출하여 최종 교정 단어 후보를 선정하는 최종 교정 단어 후보 선정부, 상기 선정된 최종 교정 단어 후보의 적합성 여부를 판단하는 판단부 및 상기 선정된 최종 교정 단어 후보가 적합하면 상기 음성 인식 결과 텍스트 중 교정 구간을 상기 최종 교정 단어 후보로 교체하여 출력하는 결과 출력부를 더 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 실시 예에 따른 음성 인식 후처리 방법을 제공하는 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 상술한 방법 중 어느 하나의 방법을 수행하기 위해 매체에 저장된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

상기와 같이 본 발명에 따르면, 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하고, 이를 기초로 음성 인식 결과 텍스트의 교정 구간에 상응하는 교정 어휘 후보군의 구조적 유사성 및 문맥적 적합성을 검증하여 최종 교정 단어 후보를 선정함으로써, AI 면접 환경에서, 최소 비용 및 최소 시간으로 음성 인식 결과를 보완하여 정확성 및 신뢰성이 향상된 음성 인식 결과를 제공할 수 있다.

즉, 본 발명은, 비지도 학습으로 생성된 단어 벡터 공간을 음성 인식 결과의 비유창성 감지에 활용할 수 있음을 제시하고, 포스트 코로나 시대가 시작된 이후 높은 수요가 발생하고 있는 비대면 면접 환경에 이를 적용할 수 있다.

이처럼, 본 발명은, AI 면접 환경에서 음성 인식 결과를 거친 면접자 음성 처리 텍스트를 비지도 학습 기반 기술로 생성한 단어 벡터 공간 등을 활용하여 후처리하는 방법이다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은, 본 발명의 일 실시예에 따른 음성 인식 후처리 장치를 설명하기 위한 블록 구성도이다.
도 2 내지 5는, 본 발명의 일 실시예에 따른 음성 인식 후처리 장치의 음성 인식 후처리 방법을 설명하기 위한 흐름도이다.
도 6은, 유사성 지수 산출을 위한 수식을 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 그렇지만 용어의 설명은 본 명세서의 이해를 돕기 위한 것이므로, 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.

도 1은, 본 발명의 일 실시예에 따른 음성 인식 후처리 장치를 설명하기 위한 블록 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 AI 면접 환경에서의 음성 인식 후처리 장치는, 단어 벡터 공간 생성부(110), 비유창성 검증부(120), 교정 어휘 후보군 생성부(130), 구조적 유사성 검증부(140), 문맥적 적합성 검증부(150), 최종 교정 단어 후보 선정부(160), 판단부(170), 그리고 결과 출력부(180)를 포함할 수 있다.

여기서, 단어 벡터 공간 생성부(110)는, AI 면접 대상자의 면접 자료를 획득하여 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성할 수 있다.

일 예로, 단어 벡터 공간 생성부(110)는, AI 면접 대상자의 면접 자료들 중 자기소개 데이터를 기반으로 단어 벡터 공간을 생성할 수 있는데, 이는 일 실시예일 뿐, 이에 한정되지는 않는다.

그리고, 단어 벡터 공간 생성부(110)는, 면접 자료 데이터에서 개인 정보를 포함하는 부분 및 불용어를 전처리하고, 전처리가 완료된 면접 자료 데이터를 토큰화시켜 단어 벡터 공간을 생성할 수 있다.

여기서, 단어 벡터 공간 생성부(110)는, 토큰화시킬 때, 전처리가 완료된 면접 자료 데이터를 형태소 분리 및 품사 분류를 통해 토큰화시킬 수 있다.

다음, 비유창성 검증부(120)는, AI 면접 대상자의 음성 인식 결과 텍스트를 획득하여 단어 벡터 공간을 기반으로 음성 인식 결과 텍스트의 비유창성을 검증할 수 있다.

일 예로, 비유창성 검증부(120)는, 음성 인식 결과 텍스트를 획득하면 음성 인식 결과 텍스트를 형태소 단위로 분리하고 품사 구분을 진행한 다음, 단어 벡터 공간에 사상하여 음성 인식 결과 텍스트에서 비유창성을 갖는 부분을 감지하고 해당 부분을 교정 구간으로 판단할 수 있다.

여기서, 비유창성 검증부(120)는, 형태소 분리 및 품사 분류가 진행된 음성 인식 결과 텍스트를 단어 벡터 공간에 사상할 때, 음성 인식 오류로 잘못 인식된 형태소가 벡터 공간 내에서의 배치가 일반적이지 않거나 OOV(Out-of-Vocabulary) 문제를 갖는다는 점을 활용하여 비유창성을 갖는 부분을 감지할 수 있다.

이어, 교정 어휘 후보군 생성부(130)는, 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 단어 벡터 공간을 기반으로 교정 구간에 상응하는 교정 어휘 후보군을 생성할 수 있다.

여기서, 교정 어휘 후보군 생성부(130)는, 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 교정 구간을 형태소 단위로 분리하며, 단어 벡터 공간 내에서 형태소 단위로 분리된 다른 부분과 함께 등장하는 단어군을 우선적으로 추출하고, 교정 구간의 예상 품사군으로 후보군을 제한하여 교정 어휘 후보군을 생성할 수 있다.

다음, 구조적 유사성 검증부(140)는, 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증할 수 있다.

여기서, 구조적 유사성 검증부(140)는, 교정 구간의 단어와 교정 어휘 후보군에 속한 단어들간의 상호 변환에 필요한 최소한의 연산 개수를 단어간의 편집 거리로 정의하고, 음소간 및 음절간의 최소 편집 거리를 산출하며, 산출된 최소 편집 거리를 기반으로 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증할 수 있다.

일 예로, 구조적 유사성 검증부(140)는, 면접 환경을 고려하여 같은 음절 수를 가진 교정 구간의 단어와 교정 어휘 후보군에 속한 단어들의 편집 거리와 두 단어의 구조적 유사성이 반비례한다는 가정을 기반으로 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증할 수 있다.

이때, 구조적 유사성 검증부(140)는, 면접 환경을 고려하여 통신체, 비속어, 줄임말을 포함하는 단어를 제외하고 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증할 수 있다.

그리고, 문맥적 적합성 검증부(150)는, 교정 어휘 후보군에 속하는 단어들의 문맥적 적합성을 검증할 수 있다.

여기서, 문맥적 적합성 검증부(150)는, 교정 어휘 후보군에 속한 단어들이 교정 구간의 단어와 교체되었을 때, 문맥적으로 적합한 문장이 완성되는지를 구술 및 기술을 포함한 면접자 관점 및 도메인 관점에서 검증할 수 있다.

일 예로, 문맥적 적합성 검증부(150)는, 면접자 관점 및 도메인 관점에서 검증할 때, 토픽 모델링 및 감정 분석을 통해 검증을 수행하고, 각 검증 항목에 선택적 가중치를 부여하여 문맥적 적합성 지수를 산정하며, 산정한 문맥적 적합성 지수를 반영할 수 있다.

예를 들면, 검증 항목은, 면접자가 음성으로 기술한 사항 중 교정 대상에 포함되지 않은 다른 문장과 유사한 내용 흐름으로 진행되는지를 검증하는 제1 검증 항목, 면접자가 음성으로 기술한 사항 중 교정 대상에 포함되지 않은 다른 문장과 유사한 감정적 흐름으로 진행되는지를 검증하는 제2 검증 항목, 면접자가 제출한 자기소개서와 유사한 내용 흐름으로 진행되는지를 검증하는 제3 검증 항목, 면접자가 제출한 자기소개서와 유사한 감정적 흐름으로 진행되는지를 검증하는 제4 검증 항목, 자기소개서 데이터 내에서 유사한 문맥적 흐름의 관측이 가능한지를 검증하는 제5 검증 항목을 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 한정되지는 않는다.

이어, 최종 교정 단어 후보 선정부(160)는, 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 및 문맥적 적합성의 선택적 가중치 적용을 통해 유사성 지수를 산출하여 최종 교정 단어 후보를 선정할 수 있다.

여기서, 최종 교정 단어 후보 선정부(160)는, 교정 어휘 후보군 단어들의 구조적 유사성과 문맥적 적합성을 각각 0에서 1 사이의 값으로 수치화하고, 이를 기반으로 최종 교정 단어 후보 추출을 위한 유사성 지수를 산출할 수 있다.

일 예로, 최종 교정 단어 후보 선정부(160)는, 유사성 지수를 산출할 때, 구조적 유사성의 가중치와 문맥적 유사성의 가중치의 총합이 1일 때, 각 가중치를 선택적으로 조정해가면서 단계별로 유사성 지수를 산출하고, 단계별로 산출된 유사성 지수들로부터 톱(TOP) N개의 단어들을 추출할 수 있다.

일 예로, 최종 교정 단어 후보 선정부(160)는, 유사성 지수를 산출할 때, 유사성 지수 = (문맥적 적합성 × 문맥 유사 가중치) + (구조적 유사성 × 구조 유사 가중치)로 이루어지는 수식에 의해 유사성 지수를 산출할 수 있다.

그리고, 최종 교정 단어 후보 선정부(160)는, 추출된 단계별 톱(TOP) N개의 단어들 중 다른 단계에서 높은 유사성 지수가 부여되는 단어들을 최종 교정 단어 후보로 판단할 수 있다.

다음, 판단부(170)는, 선정된 최종 교정 단어 후보의 적합성 여부를 판단할 수 있다.

여기서, 판단부(170)는, 교정 여부를 결정하는 교정 결정 지표를 기준으로 선정된 최종 교정 단어 후보의 적합성 여부를 판단할 수 있다.

이어, 결과 출력부(180)는, 선정된 최종 교정 단어 후보가 적합하면 음성 인식 결과 텍스트 중 교정 구간을 최종 교정 단어 후보로 교체하여 출력할 수 있다.

또한, 결과 출력부(180)는, 선정된 최종 교정 단어 후보가 적합하지 않으면 음성 인식 결과 텍스트의 원본 문장을 출력할 수 있다.

이와 같이, 본 발명은, 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하고, 이를 기초로 음성 인식 결과 텍스트의 교정 구간에 상응하는 교정 어휘 후보군의 구조적 유사성 및 문맥적 적합성을 검증하여 최종 교정 단어 후보를 선정함으로써, AI 면접 환경에서, 최소 비용 및 최소 시간으로 음성 인식 결과를 보완하여 정확성 및 신뢰성이 향상된 음성 인식 결과를 제공할 수 있다.

도 2 내지 5는, 본 발명의 일 실시예에 따른 음성 인식 후처리 장치의 음성 인식 후처리 방법을 설명하기 위한 흐름도이고, 도 6은, 유사성 지수 산출을 위한 수식을 설명하기 위한 도면이다.

도 2 내지 도 5에 도시된 바와 같이, 본 발명은, AI 면접 대상자의 면접 자료를 획득하여 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성할 수 있다(S10).

여기서, 본 발명은, AI 면접 대상자의 면접 자료들 중 자기소개 데이터를 기반으로 단어 벡터 공간을 생성할 수 있는데, 면접 자료 데이터에서 개인 정보를 포함하는 부분 및 불용어를 전처리하고, 전처리가 완료된 면접 자료 데이터를 형태소 분리 및 품사 분류를 통해 토큰화시켜 단어 벡터 공간을 생성할 수 있다.

이어, 본 발명은, AI 면접 대상자의 음성 인식 결과 텍스트를 획득하고, 단어 벡터 공간을 기반으로 음성 인식 결과 텍스트의 비유창성을 검증할 수 있다(S20).

여기서, 도 3과 같이, 본 발명은, 음성 인식 결과 텍스트를 획득하면(S22), 음성 인식 결과 텍스트를 형태소 단위로 분리하고 품사 구분을 진행한 다음(S24), 단어 벡터 공간에 사상하여 음성 인식 결과 텍스트에서 비유창성을 갖는 부분을 감지하고(S26), 해당 부분을 교정 구간으로 판단할 수 있다(S28).

일 예로, 본 발명은, 형태소 분리 및 품사 분류가 진행된 음성 인식 결과 텍스트를 단어 벡터 공간에 사상할 때, 음성 인식 오류로 잘못 인식된 형태소가 벡터 공간 내에서의 배치가 일반적이지 않거나 OOV(Out-of-Vocabulary) 문제를 갖는다는 점을 활용하여 비유창성을 갖는 부분을 감지할 수 있다.

다음, 본 발명은, 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 단어 벡터 공간을 기반으로 교정 구간에 상응하는 교정 어휘 후보군을 생성할 수 있다(S30).

여기서, 도 4와 같이, 본 발명은, 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고(S32), 교정 구간을 형태소 단위로 분리하며(S34), 단어 벡터 공간 내에서 형태소 단위로 분리된 다른 부분과 함께 등장하는 단어군을 우선적으로 추출하고(S36), 교정 구간의 예상 품사군으로 후보군을 제한하여 교정 어휘 후보군을 생성할 수 있다(S38).

그리고, 본 발명은, 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 및 문맥적 적합성을 검증하고, 이들 간의 선택적 가중치 적용을 통해 유사성 지수를 산출하여 최종 교정 단어 후보를 선정할 수 있다(S40).

즉, 본 발명은, 도 5와 같이, 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증하고(S42), 교정 어휘 후보군에 속하는 단어들의 문맥적 적합성을 검증한 다음(S44), 이들 간의 선택적 가중치 적용을 통해 유사성 지수를 산출하고(S46), 유사성 기수를 기반으로 최종 교정 단어 후보를 선정할 수 있다(S48).

일 예로, 본 발명은, 유사성 지수를 산출할 때, 구조적 유사성의 가중치와 문맥적 유사성의 가중치의 총합이 1일 때, 각 가중치를 선택적으로 조정해가면서 단계별로 유사성 지수를 산출하고, 단계별로 산출된 유사성 지수들로부터 톱(TOP) N개의 단어들을 추출할 수 있다.

여기서, 도 6과 같이, 본 발명은, 유사성 지수 = (문맥적 적합성 × 문맥 유사 가중치) + (구조적 유사성 × 구조 유사 가중치)로 이루어지는 수식에 의해 유사성 지수를 산출할 수 있다.

또한, 본 발명은, 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증할 때, 교정 구간의 단어와 교정 어휘 후보군에 속한 단어들간의 상호 변환에 필요한 최소한의 연산 개수를 단어간의 편집 거리로 정의하고, 음소간 및 음절간의 최소 편집 거리를 산출하며, 산출된 최소 편집 거리를 기반으로 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증할 수 있다.

이때, 본 발명은, 면접 환경을 고려하여 통신체, 비속어, 줄임말을 포함하는 단어를 제외하고 같은 음절 수를 가진 교정 구간의 단어와 교정 어휘 후보군에 속한 단어들의 편집 거리와 두 단어의 구조적 유사성이 반비례한다는 가정을 기반으로 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증할 수 있다.

또한, 본 발명은, 교정 어휘 후보군에 속하는 단어들의 문맥적 적합성을 검증할 때, 교정 어휘 후보군에 속한 단어들이 교정 구간의 단어와 교체될 경우, 문맥적으로 적합한 문장이 완성되는지를 구술 및 기술을 포함한 면접자 관점 및 도메인 관점에서 검증할 수 있다.

또한, 본 발명은, 면접자 관점 및 도메인 관점에서 검증할 때, 토픽 모델링 및 감정 분석을 통해 검증을 수행하고, 각 검증 항목에 선택적 가중치를 부여하여 문맥적 적합성 지수를 산정하며, 산정한 문맥적 적합성 지수를 반영할 수 있다.

그리고, 본 발명은, 유사성 지수를 산출하여 최종 교정 단어 후보를 선정할 때, 교정 어휘 후보군 단어들의 구조적 유사성과 문맥적 적합성을 각각 0에서 1 사이의 값으로 수치화하고, 이를 기반으로 최종 교정 단어 후보 추출을 위한 유사성 지수를 산출할 수 있다.

여기서, 본 발명은, 유사성 지수를 산출할 때, 구조적 유사성의 가중치와 문맥적 유사성의 가중치의 총합이 1일 때, 각 가중치를 선택적으로 조정해가면서 단계별로 유사성 지수를 산출하고, 단계별로 산출된 유사성 지수들로부터 톱(TOP) N개의 단어들을 추출하며, 추출된 단계별 톱(TOP) N개의 단어들 중 다른 단계에서 높은 유사성 지수가 부여되는 단어들을 최종 교정 단어 후보로 판단할 수 있다.

이어, 본 발명은, 선정된 최종 교정 단어 후보의 적합성 여부를 판단할 수 있다(S50).

다음, 본 발명은, 선정된 최종 교정 단어 후보가 적합하면 음성 인식 결과 텍스트 중 교정 구간을 최종 교정 단어 후보로 교체하여 출력할 수 있다(S60).

또한, 본 발명은, 선정된 최종 교정 단어 후보가 적합하지 않으면 음성 인식 결과 텍스트의 원본 문장을 출력할 수 있다(S70).

이상에서 전술한 본 발명의 일 실시예에 따른 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

AI(Artificial Intelligence) 면접 환경에서의 음성 인식 후처리 장치의 음성 인식 후처리 방법에 있어서,
AI 면접 대상자의 면접 자료를 획득하여 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하는 단계; 및
상기 AI 면접 대상자의 음성 인식 결과 텍스트를 획득하고, 상기 단어 벡터 공간을 기반으로 상기 음성 인식 결과 텍스트의 비유창성을 검증하는 단계;를 포함하고,
상기 단어 벡터 공간을 생성하는 단계는,
상기 AI 면접 대상자의 면접 자료들 중 자기소개 데이터를 기반으로 단어 벡터 공간을 생성하고,
상기 음성 인식 결과 텍스트의 비유창성을 검증하는 단계는,
상기 음성 인식 결과 텍스트를 획득하면 상기 음성 인식 결과 텍스트를 형태소 단위로 분리하고 품사 구분을 진행한 다음, 상기 단어 벡터 공간에 사상하여 상기 음성 인식 결과 텍스트에서 비유창성을 갖는 부분을 감지하고 상기 감지된 부분을 교정 구간으로 판단하는 것을 특징으로 하는, 음성 인식 후처리 방법.
제1 항에 있어서,
상기 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 상기 단어 벡터 공간을 기반으로 상기 교정 구간에 상응하는 교정 어휘 후보군을 생성하는 단계;
상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 및 문맥적 적합성을 검증하고, 이들 간의 선택적 가중치 적용을 통해 유사성 지수를 산출하여 최종 교정 단어 후보를 선정하는 단계;
상기 선정된 최종 교정 단어 후보의 적합성 여부를 판단하는 단계; 및
상기 선정된 최종 교정 단어 후보가 적합하면 상기 음성 인식 결과 텍스트 중 교정 구간을 상기 최종 교정 단어 후보로 교체하여 출력하는 단계;를 더 포함하는, 음성 인식 후처리 방법.
제2 항에 있어서,
상기 교정 어휘 후보군을 생성하는 단계는,
상기 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 상기 교정 구간을 형태소 단위로 분리하며, 상기 단어 벡터 공간 내에서 상기 형태소 단위로 분리된 다른 부분과 함께 등장하는 단어군을 우선적으로 추출하고, 상기 교정 구간의 예상 품사군으로 후보군을 제한하여 상기 교정 어휘 후보군을 생성하는 것을 특징으로 하는, 음성 인식 후처리 방법.
제2 항에 있어서,
상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 검증은,
상기 교정 구간의 단어와 상기 교정 어휘 후보군에 속한 단어들간의 상호 변환에 필요한 최소한의 연산 개수를 단어간의 편집 거리로 정의하고, 음소간 및 음절간의 최소 편집 거리를 산출하며, 상기 산출된 최소 편집 거리를 기반으로 상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증하는 것을 특징으로 하는, 음성 인식 후처리 방법.
제4 항에 있어서,
상기 교정 어휘 후보군에 속하는 단어들의 문맥적 적합성 검증은,
상기 교정 어휘 후보군에 속한 단어들이 상기 교정 구간의 단어와 교체되었을 때, 문맥적으로 적합한 문장이 완성되는지를 구술 및 기술을 포함한 면접자 관점 및 도메인 관점에서 검증하는 것을 특징으로 하는, 음성 인식 후처리 방법.
제2 항에 있어서,
상기 유사성 지수를 산출하여 최종 교정 단어 후보를 선정하는 단계는,
상기 교정 어휘 후보군 단어들의 구조적 유사성과 문맥적 적합성을 각각 0에서 1 사이의 값으로 수치화하고, 이를 기반으로 상기 최종 교정 단어 후보 추출을 위한 유사성 지수를 산출하는 것을 특징으로 하는, 음성 인식 후처리 방법.
제2 항에 있어서,
상기 선정된 최종 교정 단어 후보의 적합성 여부를 판단하는 단계는,
상기 선정된 최종 교정 단어 후보가 적합하지 않으면 상기 음성 인식 결과 텍스트의 원본 문장을 출력하는 것을 특징으로 하는, 음성 인식 후처리 방법.
하드웨어인 컴퓨터와 결합되어, 제1 항 내지 제7 항 중 어느 한 항의 방법을 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램.
AI(Artificial Intelligence) 면접 환경에서의 음성 인식 후처리 장치에 있어서,
AI 면접 대상자의 면접 자료를 획득하여 면접 자료 데이터를 기반으로 단어 벡터 공간을 생성하는 단어 벡터 공간 생성부; 및
상기 AI 면접 대상자의 음성 인식 결과 텍스트를 획득하여 상기 단어 벡터 공간을 기반으로 상기 음성 인식 결과 텍스트의 비유창성을 검증하는 비유창성 검증부;를 포함하고,
상기 단어 벡터 공간 생성부는,
상기 AI 면접 대상자의 면접 자료들 중 자기소개 데이터를 기반으로 단어 벡터 공간을 생성하고,
상기 비유창성 검증부는,
상기 음성 인식 결과 텍스트를 획득하면 상기 음성 인식 결과 텍스트를 형태소 단위로 분리하고 품사 구분을 진행한 다음, 상기 단어 벡터 공간에 사상하여 상기 음성 인식 결과 텍스트에서 비유창성을 갖는 부분을 감지하고 상기 감지된 부분을 교정 구간으로 판단하는 것을 특징으로 하는, 음성 인식 후처리 장치.
제9 항에 있어서,
상기 음성 인식 결과 텍스트 중 비유창성 부분을 교정 구간으로 정의하고, 상기 단어 벡터 공간을 기반으로 상기 교정 구간에 상응하는 교정 어휘 후보군을 생성하는 교정 어휘 후보군 생성부;
상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성을 검증하는 구조적 유사성 검증부;
상기 교정 어휘 후보군에 속하는 단어들의 문맥적 적합성을 검증하는 문맥적 적합성 검증부;
상기 교정 어휘 후보군에 속하는 단어들의 구조적 유사성 및 문맥적 적합성의 선택적 가중치 적용을 통해 유사성 지수를 산출하여 최종 교정 단어 후보를 선정하는 최종 교정 단어 후보 선정부;
상기 선정된 최종 교정 단어 후보의 적합성 여부를 판단하는 판단부; 및
상기 선정된 최종 교정 단어 후보가 적합하면 상기 음성 인식 결과 텍스트 중 교정 구간을 상기 최종 교정 단어 후보로 교체하여 출력하는 결과 출력부;를 더 포함하는, 음성 인식 후처리 장치.