KR102635031B1

KR102635031B1 - 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스 제공 방법, 장치 및 시스템

Info

Publication number: KR102635031B1
Application number: KR1020230130297A
Authority: KR
Inventors: 김시원
Original assignee: 주식회사 에이아이노미스
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-02-13

Abstract

일실시예에 따른 장치는 서로 상이한 언어를 구사하는 화자의 단말로부터 음성 신호를 수신하고, 음성 신호를 텍스트로 변환하고, 원문 정보가 표시되는 제1 부분, 원문의 통역 정보가 표시되는 제2 부분 및 의미 단위의 부분 통역 정보가 표시되는 제3 부분을 포함하는 통역 화면을 생성하고, 통역 화면을 화자의 단말에 표시할 수 있다.

Description

의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스 제공 방법, 장치 및 시스템{METHOD, DEVICE, AND SYSTEM FOR PROVIDING SPEAKER SEPARATION REAL-TIME INTERPRETATION SERVICE BASED ON SEMANTIC UNIT VISUALIZATION}

아래 실시예들은 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스를 제공하는 기술에 관한 것이다.

세계적으로 소통의 기회가 넓어진만큼 번역의 필요성이 날이 갈수록 중요해지고 있다.

최근 음성인식 기술의 향상으로 인해 전자 기기를 이용한 자동 통역 서비스가 널리 사용되고 있으며, 많은 어플리케이션들이 다국어 서비스를 지원하고 있어 향상된 음성인식 성능과 다국어 지원은 자동통역에 대한 기대를 높이고 있으나, 실제 통역이 필요한 상황에서는 원활한 기능을 제공해주지 못하고 있다.

기존 통역 서비스는 문장 단위로 정확한 통역 결과를 충실하게 제공하는 것을 목표로 하고 있으며, 해당 문장 단위로의 통역 서비스는 완벽한 문장과 어휘를 구사하기 어려운 실제 대화를 대상으로 통번역을 수행하고자 할 경우에는 오류가 빈번하게 발생하며 의미 전달이 불분명하게 된다는 한계점이 있었다.

이에, 실제 대화에서 적합한 의미 단위의 시각화를 기반으로 한 통역 서비스에 대한 기술의 개발이 요구된다,

대한민국 등록특허 제10-2557092 호(2023.07.19 공고) 대한민국 등록특허 제10-2002979 호(2019.07.23 공고) 대한민국 등록특허 제10-2564008호(2023.08.07 공고) 대한민국 등록특허 제10-2450816 호(2022.10.05 공고)

실시예들은 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스를 제공하고자 한다.

실시예들은 STT (음성 인식, Speech-to-Text) 서비스를 이용하여 음성 신호에 포함된 단어를 확정 단어 및 비확정 단어를 분류하고, 확정 단어 및 비확정 단어를 문장 생성 알고리즘에 입력하여 후보 문장 및 후보 문장의 번역 정보를 제공하고자 한다.

실시예들은 음성 신호에 포함된 키워드가 해당되는 언어를 사용하는 국가에서의 키워드의 부정도를 결정하여 정상 통역 정보, 통역 수정 정보 및 통역 제외 정보를 포함하는 통역 분석 정보를 생성하고자 한다.

일실시예에 따르면, 장치에 의해 수행되는 방법은, 서로 상이한 언어를 구사하는 화자의 단말로부터 음성 신호를 수신하는 단계; 상기 음성 신호를 텍스트로 변환하는 단계; 원문 정보가 표시되는 제1 부분, 원문의 통역 정보가 표시되는 제2 부분 및 의미 단위의 부분 통역 정보가 표시되는 제3 부분을 포함하는 통역 화면을 생성하는 단계; 및 상기 통역 화면을 상기 화자의 단말에 표시하는 단계를 포함할 수 있다.

상기 부분 통역 정보는, 상기 음성 신호에 포함된 키워드 중 중요 키워드 및 후보 키워드를 포함할 수 있다.

상기 음성 신호를 텍스트로 변환하는 단계는, 제1 STT 서비스를 이용하여 상기 음성 신호를 변환하여 상기 음성 신호에 포함된 제1 단어를 획득하는 단계, 제2 STT 서비스를 이용하여 상기 음성 신호를 변환하여 상기 음성 신호에 포함된 제2 단어를 획득하는 단계, 및 상기 제1 단어 및 상기 제2 단어를 비교하여, 상기 제1 단어와 상기 제2 단어가 일치하는 단어를 확정 단어로 결정하고, 일치하지 않는 단어를 비확정 단어로 결정하되, 비확정 단어는 상기 제1 단어 및 상기 제2 단어 중 적어도 하나로 결정하는 단계,를 포함할 수 있다.

상기 장치에 의해 수행되는 방법은, 상기 확정 단어 및 상기 비확정 단어를 문장 생성 알고리즘에 입력하여 후보 문장을 생성하는 단계;를 더 포함할 수 있다.

상기 통역 화면을 생성하는 단계에서, 상기 부분 통역 정보는, 상기 확정 단어의 번역 및 상기 비확정 단어의 번역을 포함하되, 상기 확정 단어의 번역과 상기 비확정 단어의 번역은 상기 제3 부분에서 서로 다른 방식으로 표시되고, 상기 통역 화면을 생성하는 단계는, 상기 후보 문장의 번역 정보가 표시되는 제4 부분을 더 생성하는 단계를 포함할 수 있다.

상기 장치에 의해 수행되는 방법은, 상기 변환된 텍스트를 기반으로 통역 분석 정보를 생성하는 단계;를 더 포함하고, 상기 통역 화면을 생성하는 단계는, 상기 통역 분석 정보에 기반하여 수행될 수 있다.

상기 통역 분석 정보를 생성하는 단계는, 상기 텍스트로부터 키워드를 추출하는 단계, 상기 키워드가 제1 언어인 경우, 상기 제1 언어와 상이한 제2 언어를 사용하는 화자가 속한 제2 국가의 뉴스 사이트로부터 상기 추출된 키워드를 적어도 하나 이상 포함하는 뉴스 콘텐츠를 수집하는 단계, 상기 뉴스 콘텐츠에 포함된 키워드 및 상기 뉴스 콘텐츠에 등록된 댓글에 포함된 키워드 중 부정 키워드의 비율인 부정 비율을 산출하는 단계, 상기 제1 언어를 사용하는 제1 공용 언어 국가 및 상기 제2 언어를 사용하는 제2 공용 언어 국가의 웹 사이트로부터 언급된 키워드의 빈도를 각각 확인하는 단계, 상기 제1 공용 언어 국가 및 상기 제2 공용 언어 국가의 빈도의 차이를 산출하는 단계, 상기 부정 비율에 상기 빈도의 차이에 기반하여 결정된 가중치를 적용하여 키워드의 부정도를 결정하는 단계, 상기 부정도가 미리 설정된 제1 기준 미만인 것에 해당하는 키워드를 기반으로 정상 통역 정보를 생성하는 단계, 상기 부정도가 상기 제1 기준 이상이면서 미리 설정된 제2 기준 미만인 것에 해당하는 키워드를 기반으로 통역 수정 정보를 생성하는 단계, 상기 부정도가 상기 미리 설정된 제2 기준 이상인 것에 해당하는 키워드를 기반으로 통역 제외 정보를 생성하는 단계, 및 상기 정상 통역 정보, 상기 통역 수정 정보 및 상기 통역 제외 정보를 결합하여 통역 분석 정보를 생성하는 단계를 포함할 수 있다.

상기 장치에 의해 수행되는 방법은, 상기 통역 분석 정보를 상기 통역 화면에 표시하는 통역 표시 기간을 결정하는 단계;를 더 포함하고, 상기 통역 표시 기간을 결정하는 단계는, 상기 음성 신호에 대한 선행 발화가 존재하지 않는 경우, 상기 음성 신호로부터 발화 속도를 및 발화 시간을 확인하는 단계, 상기 발화 속도 및 발화 시간을 기반으로 통역 표시 기간을 결정하는 단계, 상기 음성 신호에 대한 상기 선행 발화가 존재하는 경우, 상기 선행 발화에 포함된 키워드를 확인하는 단계, 상기 선행 발화에 포함된 키워드의 개수를 산출하는 단계, 상기 선행 발화에 포함된 키워드 및 상기 음성 신호에 포함된 키워드의 유사도를 확인하는 단계, 및 상기 통역 표시 기간에 상기 키워드의 개수 및 상기 유사도를 기반으로 결정된 가중치를 적용하여 상기 통역 표시 기간을 수정하는 단계를 포함할 수 있다.

상기 통역 화면을 생성하는 단계는, 상기 화자의 단말의 카메라로부터 촬영한 화자의 얼굴 영상을 획득하는 단계, 상기 얼굴 영상으로부터 상기 화자의 안구 운동도를 결정하는 단계, 상기 화자의 안구 운동도가 미리 설정된 기준 미만인 경우, 상기 음성 신호를 수신한 제1 시점으로부터 통역 표시 기간 동안 상기 화자의 단말로부터 상기 후보 키워드에 대한 입력이 수신되었는지 여부를 판단하는 단계, 상기 입력이 수신되지 않은 경우, 상기 제3 부분에 표시된 후보 키워드를 삭제하고 상기 중요 키워드를 제1 기간 동안 표시하는 단계, 상기 입력이 수신된 경우, 상기 화자의 입력에 대응되는 후보 키워드를 웹 사이트로부터 검색하여 나오는 이미지를 수집하고, 상기 수집된 이미지를 팝업의 형태로 상기 제3 부분에 표시하는 단계, 상기 화자의 안구 운동도가 미리 설정된 기준 이상인 경우, 상기 안구 운동도에 기반하여 결정된 가중치를 상기 통역 표시 기간에 적용하여 상기 통역 표시 기간을 조정하는 단계, 상기 음성 신호의 길이가 미리 설정된 기준을 만족하는 경우, 제1 배열을 이용하여 상기 제1 부분, 상기 제2 부분 및 상기 제3 부분을 상기 통역 화면에 표시하는 단계, 및 상기 음성 신호의 길이가 상기 미리 설정된 기준을 만족하지 않는 경우, 상기 제1 배열과 상이한 제2 배열을 이용하여 상기 제1 부분, 상기 제2 부분 및 상기 제3 부분을 상기 통역 화면에 표시하는 단계를 포함할 수 있다.

상기 통역 화면을 생성하는 단계에서, 상기 음성 신호로부터 발화 시간을 확인하는 단계; 상기 음성 신호에 포함된 단어 중 상기 비확정 단어의 개수를 확인하고, 상기 음성 신호에 포함된 단어 중 상기 비확정 단어의 비율인 비확정 비율이 미리 설정된 기준을 만족하는 기간인 비정확 기간을 결정하는 단계; 상기 발화 시간에서 상기 비정확 기간이 차지하는 비율인 비정확 비율을 산출하는 단계; 상기 비확정 단어의 개수, 비정확 기간 및 비정확 비율을 기반으로 오류 지수를 결정하는 단계; 상기 오류 지수가 미리 설정된 기준을 만족하는 음성 신호에 해당하는 통역 화면을 제1 밝기로 표시하는 단계; 및 상기 오류 지수가 미리 설정된 기준을 만족하지 않는 음성 신호에 해당하는 통역 화면을 제2 밝기로 표시하고, 상기 화자의 단말로 재발화 요청 메시지를 전송하는 단계를 더 포함할 수 있다.

일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.

실시예들은 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스를 제공할 수 있다.

실시예들은 STT (음성 인식, Speech-to-Text) 서비스를 이용하여 음성 신호에 포함된 단어를 확정 단어 및 비확정 단어를 분류하고, 확정 단어 및 비확정 단어를 문장 생성 알고리즘에 입력하여 후보 문장 및 후보 문장의 번역 정보를 제공할 수 있다.

실시예들은 음성 신호에 포함된 키워드가 해당되는 언어를 사용하는 국가에서의 키워드의 부정도를 결정하여 정상 통역 정보, 통역 수정 정보 및 통역 제외 정보를 포함하는 통역 분석 정보를 생성할 수 있다.

도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스를 제공하는 과정을 설명하기 위한 순서도이다.
도 3은 일실시예에 따른 음성 신호를 텍스트로 변환하는 과정을 설명하기 위한 순서도이다.
도 4는 일실시예에 따른 통역 서비스를 제공하는 화자의 단말의 화면을 설명하기 위한 도면이다.
도 5는 일실시예에 따른 통역 분석 정보를 생성하는 과정을 설명하기 위한 순서도이다.
도 6은 일실시예에 따른 통역 표시 기간을 결정하는 과정을 설명하기 위한 순서도이다.
도 7은 일실시예에 따른 통역 화면을 생성하는 과정을 설명하기 위한 순서도이다.
도 8은 일실시예에 따른 음성 신호의 오류 지수를 기반으로 통역 화면의 밝기를 결정하는 과정을 설명하기 위한 순서도이다.
도 9는 일실시예에 따른 장치의 구성의 예시도이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다.

도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.

일실시예에 따른 시스템은 통신망을 통해 서로 통신 가능한 화자의 단말(10) 및 장치(30)를 포함할 수 있다.

먼저, 통신망은 유선 및 무선 등과 같이 그 통신 양태를 가리지 않고 구성될 수 있으며, 서버와 서버 간의 통신과 서버와 단말 간의 통신이 수행되도록 다양한 형태로 구현될 수 있다.

화자의 단말(10)은 본 발명에 따른 통역 서비스를 제공받고자 하는 화자가 사용하는 단말일 수 있다. 화자의 단말(10)은 데스크탑 컴퓨터, 노트북, 태블릿, 스마트폰 등일 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 화자의 단말(10)은 스마트폰일 수 있으며, 실시예에 따라 달리 채용될 수도 있다.

화자의 단말(10)은 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 화자의 단말(10)은 장치(30)와 유무선으로 통신하도록 구성될 수 있다.

화자의 단말(10)은 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 운영하는 웹 페이지에 접속되거나, 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 개발·배포한 애플리케이션이 설치될 수 있다. 화자의 단말(10)은 웹 페이지 또는 애플리케이션을 통해 장치(30)와 연동될 수 있다.

화자의 단말(10)은 장치(30)에서 제공하는 웹 페이지, 애플리케이션을 등을 통해 장치(30)에 접속할 수 있다.

예를 들어, 화자가 제1 언어를 사용하는 제1 화자 및 제1 언어와 상이한 언어를 사용하는 제2 화자를 포함하는 경우, 화자의 단말(10)은 제1 화자가 사용하는 제1 화자의 단말 및 제2 화자가 사용하는 제2 화자의 단말을 포함할 수 있으며, 제1 화자의 단말 및 제2 화자의 단말 각각은 제1 화자 및 제2 화자의 머리 위에 배치되어 제1 화자 및 제2 화자의 발화 내용의 통역 화면을 각각의 화자에게 제공할 수 있으나, 이는 예시일 뿐 화자의 단말의 개수 및 위치는 이에 한정되지 않고 상이한 방법으로 설정될 수 있다.

청구항에 기재된 단수의 표현은 복수를 포함하는 것으로 이해될 수 있다. 예를 들어, 청구항의 화자는 하나의 화자 또는 둘 이상의 화자를 지칭할 수 있다.

장치(30)는 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스를 제공할 수 있다. 장치(30)는 화자의 음성 신호를 실시간으로 분석하고, 대화 중 화자를 식별하고 분리하며, 문장에서 중요한 의미 단위, 즉, 중요한 단어 등을 식별하여 의미 단위를 시각적으로 표현하는 통역 화면을 제공하는 실시간 통역 서비스를 제공할 수 있다. 이때, 통역 서비스를 제공하는 과정에 대한 자세한 설명은 도 2를 참조하여 후술하기로 한다.

장치(30)는 장치(30)를 이용하여 서비스를 제공하는 자 내지 단체가 보유한 자체 서버일수도 있고, 클라우드 서버일 수도 있고, 분산된 노드(node)들의 p2p(peer-to-peer) 집합일 수도 있다. 장치(30)는 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다.

장치(30)는 화자의 단말(10)과 유무선으로 통신하도록 구성될 수 있으며, 화자의 단말(10)의 동작을 제어하고, 화자의 단말(10)의 화면에 어느 정보를 표시할 것인지에 대해 제어할 수 있다.

한편, 설명의 편의를 위해 도 1에서는 화자의 단말(10)만을 도시하였으나, 단말들의 수는 실시예에 따라 얼마든지 달라질 수 있다. 장치(30)의 처리 용량이 허용하는 한, 단말들의 수 및 프린터 장치들의 수는 특별한 제한이 없다.

일실시예에 따르면, 장치(30) 내에는 데이터베이스가 구비될 수 있으며, 이에 한정되지 않고, 장치(30)와 별도로 데이터베이스가 구성될 수 있다. 장치(30)는 기계 학습 알고리즘의 수행을 위한 다수의 인공 신경망을 포함할 수 있다.

본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.

기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화해 나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.

인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트(Ada-boost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.

이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.

컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현예가 사용될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

도 2는 일실시예에 따른 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스를 제공하는 과정을 설명하기 위한 순서도이다.

도 2를 참조하면, 먼저, S201 단계에서, 장치(30)는 서로 상이한 언어를 구사하는 화자의 단말(10)로부터 음성 신호를 수신할 수 있다.

먼저, 장치(30)는 서로 다른 언어를 사용하는 화자의 단말(10)에서 발생하는 음성 신호를 수신할 수 있다. 음성 신호는 화자가 발화하는 대화의 내용이 포함되어 있을 수 있다.

장치(30)는 수신한 음성 신호를 분리하여 서로 다른 언어를 사용하는 각 화자의 발화를 분리하여 식별할 수 있다. 이 과정에서, 장치(30)는 음성 신호의 주파수, 음조, 음성 특징, 사용 언어를 분석하여 각 화자의 발언을 구분할 수 있으나, 이에 한정되지는 않는다.

장치(30)는 음성 신호를 수신하고, 수신한 음성 신호를 데이터베이스에 저장할 수 있다.

S202 단계에서, 장치(30)는 음성 신호를 텍스트로 변환할 수 있다.

장치(30)는 음성 신호를 텍스트로 변환하기 위해 음성 신호 기술 및 언어 인식 기술을 활용할 수 있다. 장치(30)는 음성 신호 기술을 활용하여 화자의 발화 내용을 텍스트로 변환할 수 있다.

장치(30)는 음성 신호 및 변환된 텍스트를 매칭하여 데이터베이스에 저장할 수 있다.

일실시예에 따르면, 장치(30)는 음성 신호를 텍스트로 변환하는 단계에서 STT (음성 인식, Speech-to-Text) 기술을 활용할 수 있다. STT 기술은 음성 입력을 컴퓨터가 이해할 수 있는 텍스트로 변환하는 자연어 처리 기술이다.

STT 기술은 음성 신호를 텍스트로 변환하기 위해 딥러닝과 신경망 기반 기술을 사용한다.

STT 기술은 주로 메랄 케프스, MFCC (Mel Frequency Cepstral Coefficients), 또는 스펙트로그램과 같은 시계열 데이터 변환 기술을 사용하여 음성 신호에서 다양한 특징을 추출할 수 있다.

장치(30)는 추출된 특징을 다층 신경망으로 전달할 수 있으며, 이 신경망은 주로 리커런트 신경망(RNN) 또는 트랜스포머(Transformer)와 같은 아키텍처로 구성될 수 있다. 이 모델은 입력 음성 특징과 관련 정보를 활용하여 텍스트로 변환할 수 있다.

STT 모델은 대량의 음성-텍스트 데이터를 사용하여 학습될 수 있으며, 학습 데이터를 통해 모델은 입력 음성과 대응하는 텍스트를 학습하고 예측하고, 손실 함수를 최소화하여 모델을 최적화할 수 있다.

STT 모델은 일반적으로 언어 모델과 함께 사용되며, 언어 모델은 텍스트의 문맥을 고려하여 결과를 더 정확하게 만드는 데 도움을 줄 수 있다.

STT 기술은 음성 입력을 텍스트로 변환하여 자동화된 음성 인식 시스템과 음성 기반 응용 프로그램에 적용되며 음성 검색, 음성 명령 인식, 음성 텍스트 데이터 마이닝 등 다양한 응용 분야에서 사용될 수 있다.

장치(30)는 마이크 또는 다른 음성 수집 장치를 통해 대화나 음성 입력을 수집하여 디지털 오디오 형식으로 STT 모델에 입력할 수 있다.

장치(30)는 수집한 음성 신호를 전처리 함으로써, 잡음 제거, 음성 신호 정규화 및 필요한 특징 추출 등의 과정을 수행할 수 있다.

STT 모델 딥러닝 기술을 사용하여 음성을 텍스트로 변환하며, 예를 들어, 리커런트 신경망(RNN), 컨볼루션 신경망(CNN), 트랜스포머(Transformer) 등의 신경망 구조를 사용할 수 있으나 이에 한정되지는 않는다.

STT 모델은 음성 신호를 입력으로 받아 텍스트로 변환할 수 있으며, 음성 신호의 특징을 추출하고, 언어 모델과 함께 가장 가능성 높은 텍스트로 변환할 수 있다.

STT 모델은 텍스트로 변환된 결과를 출력할 수 있다.

이때, 음성 신호를 텍스트로 변환하는 과정에 대한 자세한 설명은 도 3을 참조하여 후술하기로 한다.

S203 단계에서, 장치(30)는 원문 정보가 표시되는 제1 부분(100), 원문의 통역 정보가 표시되는 제2 부분(200) 및 의미 단위의 부분 통역 정보가 표시되는 제3 부분(300)을 포함하는 통역 화면을 생성할 수 있다.

이때, 원문 정보는 화자가 실제로 말한 내용으로서 음성 신호를 텍스트로 변환한 내용을 포함할 수 있다. 원문 정보는 화자가 사용하는 언어로 표시될 수 있으며, 원문 정보가 표시되는 제1 부분(100)은 화자의 실제 발언 내용을 포함할 수 있다. 즉, 장치(30)는 제1 부분(100)에 원문 정보를 표시하여 통역 서비스의 원본 텍스트에 대한 정보를 제공할 수 있다.

통역 정보는 원문의 통역 정보를 나타내는 것으로, 제1 부분(100)에 표시된 원문 정보를 다른 언어로 표현한 것으로, 일반적으로 음성 신호를 듣는 다른 화자가 이해할 수 있는 언어로 번역된 내용을 포함할 수 있다.

예를 들어, 제1 화자가 제1 언어를 사용하고, 제2 화자가 제1 언어와 상이한 제2 언어를 사용하는 경우, 장치(30)는 제1 화자의 음성 신호를 수신하여 텍스트로 변환하고, 제1 화자의 실제 발화 내용을 제1 언어로 표시한 원문 정보를 제1 부분(100)에 표시할 수 있으며, 제1 화자의 실제 발화 내용을 제2 언어로 번역한 통역 정보를 제2 부분(200)에 표시할 수 있다. 이때, 제1 언어 및 제2 언어는 서로 상이하게 설정되는 것이 바람직하며, 제1 언어 및 제2 언어는 실시예에 따라 상이하게 설정될 수 있다.

부분 통역 정보는 원문의 의미 단위에 대한 부분 통역 정보를 포함할 수 있다. 대화의 중요한 의미 단위 또는 단어, 어구, 또는 문장 등이 의미 단위로 분할될 수 있으나, 의미 단위는 실시예에 따라 상이하게 설정될 수 있다. 장치(30)는 원문에 해당하는 언어의 각 의미 단위가 가 통역된 내용을 표시할 수 있다.

일실시예에 따르면, 부분 통역 정보는 음성 신호에 포함된 키워드 중 중요 키워드 및 후보 키워드를 포함할 수 있다. 장치(30)는 음성 신호에 포함된 키워드를 추출하고, 추출된 키워드가 대화에서 중요한 의미 또는 핵심 내용을 나타내는 중요 키워드 및 중의적인 표현 또는 다의성이 있는 키워드인 후보 키워드를 제3 부분(300)에 표시할 수 있다.

장치(30)는 원문 정보가 표시되는 제1 부분(100), 원문의 통역 정보가 표시되는 제2 부분(200) 및 의미 단위의 부분 통역 정보가 표시되는 제3 부분(300)의 세 가지 부분으로 통역 화면을 나누어 화자에게 제공함으로써, 화자에게 대화의 원문, 해당 언어로 된 통역, 그리고 중요한 의미 단위에 대한 정보를 제공하여 상호 언어 소통을 원활하게 도울 수 있다.

또한, 장치(30)는 중요한 키워드와 후보 키워드를 부분 통역 정보에 포함시킴으로써, 음성 통역 서비스는 화자가 대화를 더 잘 이해하고, 필요한 정보를 신속하게 찾을 수 있도록 할 수 있다. 장치(30)는 중요 키워드를 통해 사용자가 대화의 핵심 내용을 더 쉽고 빠르게 파악할 수 있도록 하며, 후보 키워드를 통해 대화하는 과정에서 화자가 중의적인 표현이나 모호한 표현, 다의성 있는 표현에 대한 다양한 해석을 고려하도록 할 수 있으며, 화자가 문맥을 고려하여 올바른 의미를 선택하거나 확인하는데 도움을 줄 수 있다.

장치(30)는 중요 키워드 및 후보 키워드를 시각적으로 상이하게 표시하도록 하여 화자가 시각적으로 쉽게 식별할 수 있도록 할 수 있다. 예를 들어, 장치(30)는 중요 키워드 및 후보 키워드에 해당하는 텍스트의 굵기를 상이하게 표시할 수 있으나, 중요 키워드 및 후보 키워드를 시각적으로 상이하게 표시하는 방법은 예시일 뿐 이에 한정되지 않는다.

이를 통해, 화자는 화자가 사용하는 언어와 상이한 언어를 활용하는 대화를 보다 효과적으로 이해하고 참여할 수 있다.

이때, 통역 화면에 대한 자세한 설명은 도 4를 참조하여 후술하기로 한다.

S204 단계에서, 장치(30)는 통역 화면을 화자의 단말(10)에 표시할 수 있다.

예를 들어, 화자가 제1 언어를 구사하는 제1 화자 및 제2 언어를 구사하는 제2 화자를 포함하고, 제1 화자가 제1 화자의 단말을 사용하고, 제2 화자가 제2 화자의 단말을 이용하는 경우, 장치(30)는 제1 화자의 단말에 제2 언어를 사용하는 제2 화자의 발화를 제1 언어로 통역한 정보를 포함하는 통역 화면을 표시하고, 제2 화자의 단말에 제1 언어를 사용하는 제1 화자의 발화를 제2 언어로 통역한 정보를 포함하는 통역 화면을 표시할 수 있다.

도 3은 일실시예에 따른 음성 신호를 텍스트로 변환하는 과정을 설명하기 위한 순서도이다.

도 3을 참조하면, 먼저, S301 단계에서, 장치(30)는 제1 STT 서비스를 이용하여 음성 신호를 변환하여 음성 신호에 포함된 제1 단어를 획득할 수 있다. 이때, 장치(30)는 음성 신호 및 제1 단어를 매칭하여 데이터베이스에 저장할 수 있다.

장치(30)는 음성 신호를 텍스트로 변환하는 서비스 중 어느 하나인 제1 STT 서비스를 이용하여 음성 신호를 텍스트로 변환할 수 있다.

이때, 제1 단어는 제1 STT 서비스를 이용하여 음성 신호를 텍스트로 변환하여 변환된 텍스트가 포함하는 단어들의 집합을 의미할 수 있다.

S302 단계에서, 장치(30)는 제2 STT 서비스를 이용하여 음성 신호를 변환하여 음성 신호에 포함된 제2 단어를 획득할 수 있다. 이때, 장치(30)는 음성 신호 및 제2 단어를 매칭하여 데이터베이스에 저장할 수 있다.

장치(30)는 음성 신호를 텍스트로 변환하는 서비스 중 어느 하나인 제2 STT 서비스를 이용하여 음성 신호를 텍스트로 변환할 수 있다. 이때, 제2 STT 서비스는 제1 STT 서비스와 상이한 서비스로 설정되는 것이 바람직하다.

이때, 제2 단어는 제2 STT 서비스를 이용하여 음성 신호를 텍스트로 변환하여 변환된 텍스트가 포함하는 단어들의 집합을 의미할 수 있다.

S303 단계에서, 장치(30)는 제1 단어 및 제2 단어를 비교하여, 제1 단어와 제2 단어가 일치하는 단어를 확정 단어로 결정하고, 일치하지 않는 단어를 비확정 단어로 결정할 수 있다.

장치(30)는 제1 단어와 제2 단어를 비교하고, 제1 단어와 제2 단어의 일치 여부를 확인할 수 있다. 장치(30)는 제1 단어 및 제2 단어를 비교하여, 제1 단어와 제2 단어가 일치하는 경우, 두번의 음성 인식 서비스 간에 동일한 결과에 해당하는 단어의 경우, 해당 단어는 음성 신호에서 텍스트로 변환되는 과정에서 정확도가 높으며 신뢰할만한 것으로 판단되어 확정 단어로 결정할 수 있다.

장치(30)는 제1 단어 및 제2 단어를 비교하여 제1 단어와 제2 단어가 일치하지 않는 경우, 제1 단어 및 제2 단어 중 어느 단어가 정확한 단어인지 판단이 어려우며 화자에게 추가 확인이나 수정이 필요한 단어로서, 일치하지 않는 단어를 비확정 단어로 결정할 수 있다.

확정 단어로 결정된 단어는 두 번의 음성 인식 서비스 간에 동일한 결과가 나온 경우로서, 대화의 일부를 정확하게 텍스트로 제공할 수 있으므로 사용자에게 정확한 정보를 제공할 수 있다. 확정 단어의 사용은 화자가 대화를 이해하고 소통하는 데 도움을 줄 수 있다.

일치하지 않는 단어인 비확정 단어의 경우, 화자에게 추가 확인이나 수정이 필요한 경우로서, 이는 번역의 정확성을 높이고, 잘못된 번역을 방지하는 데 도움을 줄 수 있다.

장치(30)는 확정 단어를 통해 정확한 통역 서비스를 제공할 수 있으며, 비확정 단어에 대한 추가 검토나 수정이 필요한 경우에만 집중적으로 통역 작업할 수 있으므로, 통역 작업의 효율성을 향상시킬 수 있다.

S304 단계에서, 장치(30)는 확정 단어 및 비확정 단어를 문장 생성 알고리즘에 입력하여 후보 문장을 생성할 수 있다.

문장 생성 알고리즘은 자연어 처리와 기계 학습 기술을 활용하여 주어진 입력 정보에 기반하여 자연어 문장을 생성하는 컴퓨터 프로그램 또는 모델이다, 예를 들어, 문장 생성 알고리즘은 GPT (Generative Pre-trained Transformer) 등과 같은 언어 모델을 포함할 수 있다.

장치(30)는 문장 생성 알고리즘에 확정 단어 및 비확정 단어를 포함하는 입력 데이터를 입력할 수 있다. 문장 생성 알고리즘은 사전에 대규모 텍스트 데이터를 학습하여 언어 모델을 구축할 수 있다.

예를 들어, GPT와 같은 모델은 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 이를 통해 문장의 문법, 문맥, 의미론을 이해하고 학습할 수 있다. 입력된 확정 단어와 비확정 단어는 언어 모델이 이해할 수 있는 형식으로 토큰화되며, 이 과정에서 문장은 단어 또는 서브워드(subword) 단위로 분할된다.

언어 모델은 입력된 토큰화된 정보를 기반으로 문장을 생성할 수 있다. 예를 들어, GPT와 같은 모델은 이전 단어들과 현재 입력을 고려하여 다음 단어를 예측하며, 확정 단어와 비확정 단어가 모두 문맥 내에서 적절한 위치에 삽입될 수 있다.

장치(30)는 비확정 단어의 경우, 여러 가지 대안을 고려하여 다양한 후보 문장을 생성할 수 있으며, 문장 생성 알고리즘은 이러한 대안을 고려하여 후보 문장을 생성할 수 있다.

장치(30)는 생성된 후보 문장들을 다양한 요소를 고려하여 평가할 수 있다. 예를 들어, 이러한 요소에는 문장의 일관성, 자연스러움, 문법적 정확성, 의미론적 일치 등이 포함될 수 있으나, 이에 한정되지는 않는다. 장치(30)는 평가된 후보 문장 중에서 가장 적합한 문장을 선택할 수 있다.

문장 생성 알고리즘은 언어 이해와 생성 능력을 결합하여 주어진 문맥과 입력 정보를 기반으로 자연스럽고 의미 있는 문장을 생성할 수 있으며, 음성 인식 결과를 텍스트로 변환하고, 번역 및 의사소통을 지원하는 데 사용될 수 있다. 예를 들어, GPT와 같은 모델은 그 중요한 예시 중 하나로, 사전 학습된 언어 모델을 기반으로 문장 생성을 수행할 수 있다.

예를 들어, 음성 신호로부터 변환된 텍스트가 “Hello. My name is James and I worked as a chef in Korea for 13 years.” 이고, 확정 단어가 work, korea이고, 비확정 단어 중 제1 단어가 chef, thirteen이고, 제2 단어가 chief, thirty인 경우, 장치(30)는 확정 단어 및 ㅂ확정 단어를 문장 생성 알고리즘에 입력하여 후보 문장을 생성할 수 있다.

예를 들어, 장치(30)는 확정 단어 및 비확정 단어 중 제1 단어를 문장 생성 알고리즘에 입력하여 "I'm a chef from Korea, and I've been working in this field for thirteen years.", "As a chef with thirteen years of experience, I take pride in my work, which is deeply rooted in the flavors of Korea." 등의 후보 문장을 생성할 수 있으나, 이에 한정되지는 않는다.

예를 들어, 장치(30)는 확정 단어 및 비확정 단어 중 제2 단어를 문장 생성 알고리즘에 입력하여, "With thirty years as a chief, I contribute to Korea's success.", "I work as the chief editor for a publishing company in Korea, where I've spent thirty years in the industry.", "As the chief scientist in a research institute in Korea, I've been exploring groundbreaking discoveries for the past thirty years." 등의 후보 문장을 생성할 수 있으나, 이에 한정되지는 않는다.

장치(30)는 확정 단어를 기반으로 한 문장을 생성함으로써, 신뢰성 있고 정확한 정보를 제공할 수 있으며, 통역 및 의사소통의 정확성을 향상시킬 수 있다.

장치(30)는 두 번의 음성 인식 결과가 다른 경우인 비확정 단어는 약간의 불확실성을 나타내지만 비확정 단어를 문장 생성 알고리즘에 입력하여 후보 문장을 생성함으로써, 다양한 가능성을 고려하고 불확실성을 줄일 수 있다.

장치(30)는 문장 생성 알고리즘을 통해 입력된 확정 단어 및 비확정 단어와 문맥을 기반으로 문장을 생성하므로, 확정 단어와 비확정 단어를 적절하게 활용하여 의사소통을 원활하게 해 줄 수 있다.

음성 인식과 문장 생성을 결합한 이러한 과정은 다국적 의사소통을 지원하는 과정에서 다양한 언어와 문화를 다루는 상황에서도 정확한 의사소통이 가능하며, 비확정 단어를 고려함으로써 다양한 가능성을 고려할 수 있도록 한다.

장치(30)는 이러한 효과를 통해 확정 단어와 비확정 단어를 효과적으로 활용하여 문장을 생성하는 과정을 통해 음성 인식(STT) 결과의 불확실성을 줄이고 통역 서비스 및 의사소통의 품질을 향상시킬 수 있다.

장치(30)는 음성 인식 서비스의 결과 중 가장 신뢰성 있는 부분을 나타내는 확정 단어를 사용하여 문장을 생성하면서 잘못 들린 부분이나 비문이 된 부분을 줄일 수 있다.

또한, 문장 생성 알고리즘을 통해 생성된 문장은 정보가 누락되거나 생략된 상태에 해당하는 불완전한 대화에 포함된 문장과 비교하여 더 자연스럽고 의미 있는 구조를 갖추므로, 발화자가 의사소통을 더 쉽게 이해하고 수행할 수 있도록 한다.

장치(30)는 비확정 단어의 다양한 가능성을 고려하여 문장을 생성함으로써, 불확실성을 관리하며, 음성 인식의 오류나 불명확한 발음으로 인해 발생하는 문제를 완화시킬 수 있다.

장치(30)는 확정 단어와 함께 문장을 생성하면서, 문맥을 보존하고 대화의 흐름을 유지할 수 있다. 이는 대화의 일관성을 유지하고 이해하기 쉽도록 한다.

장치(30)는 확정 단어 및 비확정 단어를 활용함으로써, STT 결과의 신뢰성과 의사소통의 질을 향상시킬 수 있으며, 다국적 의사소통과 다양한 상황에서 특히 유용하며, 음성 기반 서비스 및 통역 서비스의 품질을 향상시킬 수 있다.

일실시예에 따르면, 중요 키워드는 확정 단어를 포함할 수 있으며, 후보 키워드는 비확정 단어를 포함할 수 있다.

도 4는 일실시예에 따른 통역 서비스를 제공하는 화자의 단말(10)의 화면을 설명하기 위한 도면이다.

장치(30)는 원문 정보가 표시되는 제1 부분(100), 원문의 통역 정보가 표시되는 제2 부분(200) 및 의미 단위의 부분 통역 정보가 표시되는 제3 부분(300)을 포함하는 통역 화면을 생성하고, 통역 화면을 화자의 단말(10)의 화면에 표시할 수 있다.

제1 부분(100)은 화자가 실제로 말한 내용으로서 음성 신호를 텍스트로 변환한 내용인 원문 정보를 포함할 수 있다. 원문 정보는 화자가 사용하는 언어로 표시될 수 있으며, 원문 정보가 표시되는 제1 부분(100)은 화자의 실제 발언 내용을 포함할 수 있다. 즉, 장치(30)는 제1 부분(100)에 원문 정보를 표시하여 통역 서비스의 원본 텍스트에 대한 정보를 제공할 수 있다.

제2 부분(200)은 제1 부분(100)의 실제 발화 내용을 제1 부분(100)과 상이한 언어로 번역한 통역 정보를 제2 부분(200)에 표시할 수 있다.

이때, 제3 부분(300)은 중요 키워드를 표시하는 제3-1부분(310) 및 후보 키워드를 표시하는 제3-2 부분(320)을 포함할 수 있다.

제3 부분(300)은 확정 단어, 확정 단어의 번역 및 비확정 단어, 비확정 단어의 번역을 포함하되, 확정 단어의 번역과 비확정 단어의 번역은 제3 부분(300)에서 서로 다른 방식으로 표시될 수 있다.

예를 들어, 장치(30)는 확정 단어 및 확정 단어의 번역을 제1 색상으로 표시하고, 비확정 단어 및 비확정 단어의 번역을 제1 색상과 상이한 제2 색상으로 표시할 수 있으나, 이에 한정되지는 않는다.

예를 들어, 장치(30)는 확정 단어 및 확정 단어의 번역을 제1 굵기로 표시하고, 비확정 단어 및 비확정 단어의 번역을 제1 굵기와 상이한 제2 굵기로 표시할 수 있으나, 이에 한정되지는 않는다.

통역 화면은 후보 문장의 번역 정보가 표시되는 제4 부분(400)을 더 포함할 수 있다.

제4 부분(400)은 확정 단어 및 비확정 단어를 문장 생성 알고리즘에 입력하여 생성된 후보 문장 및 후보 문장의 번역 정보를 포함할 수 있다.

통역 화면은 음성 신호를 입력하기 위한 마이크 버튼(20)을 더 포함할 수 있다.

일실시예에 따르면, 장치(30)는 화자의 음성 신호를 수신하는 경우, 화자의 단말(10)로부터 마이크 버튼의 터치가 입력되는 경우, 음성 신호를 수신을 시작할 수 있다. 다른 예로, 장치(30)는 화자의 발화가 감지되는 경우, 마이크 버튼의 입력이 수신되지 않아도 음성 신호를 수집할 수도 있다.

도 5는 일실시예에 따른 통역 분석 정보를 생성하는 과정을 설명하기 위한 순서도이다.

도 5를 참조하면, 먼저, S501 단계에서, 장치(30)는 텍스트로부터 키워드를 추출할 수 있다.

예를 들어, 장치(30)는 키워드 추출 알고리즘을 기반으로 텍스트로부터 키워드를 추출할 수 있다. 예를 들어, 키워드 추출 알고리즘은 TF-IDF (Term Frequency-Inverse Document Frequency), RAKE (Rapid Automatic Keyword Extraction), TextRank, LDA (Latent Dirichlet Allocation) 등을 포함할 수 있으나, 이에 한정되지는 않는다.

이때, 텍스트로부터 키워드를 추출하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략하기로 한다.

S502 단계에서, 장치(30)는 키워드가 제1 언어인 경우, 제2 국가의 뉴스 사이트로부터 추출된 키워드를 적어도 하나 이상 포함하는 뉴스 콘텐츠를 수집할 수 있다.

장치(30)는 키워드가 제1 언어인 경우, 제1 언어와 상이한 제2 언어를 사용하는 화자가 속한 제2 국가의 뉴스 사이트로부터 추출된 키워드를 적어도 하나 이상 포함하는 뉴스 콘텐츠를 수집할 수 있다. 이때, 제2 국가의 뉴스 사이트는 제2 국가의 언론 기관 사이트, 온라인 뉴스 포털 등을 포함할 수 있으나, 이에 한정되지는 않는다.

장치(30)는 제2 국가의 뉴스 사이트에서 뉴스 사이트의 검색 기능을 활용하거나, 검색 엔진을 통해 키워드 검색을 수행할 수 있다.

장치(30)는 키워드를 포함하는 뉴스 콘텐츠를 수집하고, 데이터베이스에 수집한 뉴스 콘텐츠를 저장할 수 있다.

S503 단계에서, 장치(30)는 뉴스 콘텐츠에 포함된 키워드 및 뉴스 콘텐츠에 등록된 댓글에 포함된 키워드 중 부정 키워드의 비율인 부정 비율을 산출할 수 있다.

장치(30)는 수집한 뉴스 콘텐츠 및 수집한 뉴스 콘텐츠에 등록된 댓글을 확인하고, 수집한 뉴스 콘텐츠 및 댓글에 포함된 키워드 중 부정적인 의미를 나타내는 부정 키워드를 분류할 수 있으며, 부정 키워드가 차지하는 비율인 부정 비율을 산출할 수 있다.

예를 들어, 장치(30)는 키워드를 감성 분석 모델에 입력하여 키워드의 감정을 파악하고, 부정 키워드에 해당하는 키워드를 추출하여 부정 비율을 산출할 수 있다.

이때, 감성 분석 모델은 키워드를 긍정적, 부정적, 중립적인 감정으로 분류하는 모델을 포함할 수 있으며, 감성 분석 모델을 이용하여 키워드의 감성을 분석하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략하기로 한다.

S504 단계에서, 장치(30)는 제1 언어를 사용하는 제1 공용 언어 국가 및 제2 언어를 사용하는 제2 공용 언어 국가의 웹 사이트로부터 언급된 키워드의 빈도를 각각 확인할 수 있다.

예를 들어, 제1 언어가 영어인 경우, 제1 언어를 사용하는 제1 공용 언어 국가는 미국, 영국, 캐나다. 호주, 인도, 뉴질랜드, 싱가포르 등을 포함할 수 있으며, 제2 언어가 중국어인 경우, 제2 공용 언어 국가는 중국, 대만, 홍콩, 마카오, 싱가포르 등을 포함할 수 있으나, 이에 한정되지는 않는다.

장치(30)는 제1 언어를 사용하는 제1 공용 언어 국가가 이용하는 웹 사이트로부터 특정 키워드가 언급된 빈도 및 제2 언어를 사용하는 제2 공용 언어 국가가 이용하는 웹 사이트로부터 특정 키워드가 언급된 빈도를 각각 확인할 수 있다.

S505 단계에서, 장치(30)는 제1 공용 언어 국가 및 제2 공용 언어 국가의 빈도의 차이를 산출할 수 있다. 장치(30)는 제1 언어와 제2 언어로 언급된 키워드의 빈도를 비교하여 빈도 차이를 산출할 수 있다.

S506 단계에서, 장치(30)는 부정 비율에 빈도의 차이에 기반하여 결정된 가중치를 적용하여 키워드의 부정도를 결정할 수 있다.

장치(30)는 빈도의 차이가 클수록 가중치를 높게 결정하고, 빈도의 차이가 작을수록 가중치를 낮게 결정할 수 있다.

장치(30)는 제1 언어와 제2 언어를 사용하는 국가에서 특정 키워드의 부정도를 결정하는 과정을 통해 각 언어 환경에서의 감정 및 특정 키워드나 주제에 대한 태도를 이해하고 비교할 수 있다. 장치(30)는 제1 언어와 제2 언어를 사용하는 국가 사이의 언어 차이를 고려하여 키워드의 부정도를 비교할 수 있다.

S507 단계에서, 장치(30)는 부정도가 미리 설정된 제1 기준 미만인지 여부를 판단할 수 있다. 이때, 미리 설정된 제1 기준은 실시예에 따라 상이하게 설정될 수 있다.

S508 단계에서, 장치(30)는 부정도가 미리 설정된 제1 기준 미만인 것에 해당하는 키워드를 기반으로 정상 통역 정보를 생성할 수 있다.

정상 통역 정보는 화자의 음성 신호를 통역할 때, 음성 신호의 의미를 그대로 유지하여 그대로 통역한 정보를 포함할 수 있다. 정상 통역 정보는 화자의 발화 내용이 부정적이거나 수정할 필요가 없는 경우에 해당되며, 명확하고 일반적인 내용에 대한 통역에 사용될 수 있다.

S509 단계에서, 장치(30)는 부정도가 제1 기준 이상인 경우, 부정도가 미리 설정된 제2 기준 미만인지 여부를 판단할 수 있다. 이때, 미리 설정된 제2 기준은 실시예에 따라 상이하게 설정될 수 있다.

S510 단계에서, 장치(30)는 미리 설정된 제2 기준 미만인 것에 해당하는 키워드를 기반으로 통역 수정 정보를 생성할 수 있다.

즉, 장치(30)는 부정도가 제1 기준 이상이면서 미리 설정된 제2 기준 미만인 것에 해당하는 키워드를 기반으로 통역 수정 정보를 생성할 수 있다.

통역 수정 정보는 화자의 음성 신호를 통역할 때, 음성 신호에 포함된 키워드 중 적어도 어느 하나가 부정적인 의미로 해석되거나 민감한 주제를 다룰 경우에 해당되며, 장치(30)는 통역 수정 정보를 통해 해당 키워드를 수정하거나 추가 설명을 통해 화자의 발화 내용을 명확하게 전달할 수 있도록 한다.

S511 단계에서, 장치(30)는 부정도가 미리 설정된 제2 기준 이상인 것에 해당하는 키워드를 기반으로 통역 제외 정보를 생성할 수 있다.

통역 제외 정보는 화자의 음성 신호를 통역할 때, 음성 신호에 포함된 키워드 중 적어도 어느 하나의 키워드가 너무 부정적이거나 민감하여 통역하는 과정에서 해당 키워드를 배제해야 하는 경우를 포함할 수 있다.

S512 단계에서, 장치(30)는 정상 통역 정보, 통역 수정 정보 및 통역 제외 정보를 결합하여 통역 분석 정보를 생성할 수 있다.

장치(30)는 제1 언어 및 제2 언어를 사용하는 공용 언어 국가에서의 키워드의 부정도에 따라 정상 통역 정보, 통역 수정 정보 및 통역 제외 정보를 포함하는 통역 분석 정보를 생성함으로써, 통역 서비스를 제공하는 과정에서 각 국가 또는 언어 환경에서의 문화 감수성을 고려하여 감정적인 논쟁이나 불화를 최소화함으로써, 더 원활한 상호 작용을 하도록 도움을 줄 수 있다.

장치(30)는 음성 신호에 포함된 키워드의 부정도를 고려하여 통역 분석 정보를 생성함으로써, 통역하는 과정에서 주어진 발화 내용을 부정적으로 해석하거나 수정 또는 제외시킬 필요가 있는지 판단하고 그에 따른 통역 서비스를 제공할 수 있다. 또한, 상이한 언어를 사용하는 국가 사이의 언어 차이를 고려하여 의사 소통의 효율성을 향상시키고, 민감한 주제를 처리하며 문화 감수성을 고려하여 원활한 상호 작용을 지원하고자 한다.

도 6은 일실시예에 따른 통역 표시 기간을 결정하는 과정을 설명하기 위한 순서도이다.

도 6을 참조하면, 먼저, S601 단계에서, 장치(30)는 음성 신호에 대한 선행 발화가 존재하지 않는 경우, 음성 신호로부터 발화 속도를 및 발화 시간을 확인할 수 있다.

일실시예에 따르면, 장치(30)는 통역 분석 정보를 통역 화면에 표시하는 기간인 통역 표시 기간을 결정할 수 있다.

장치(30)는 특정 화자의 단말로부터 음성 신호를 수신한 경우, 특정 화자의 음성 신호를 수신한 시점부터 미리 설정된 기간 전까지의 기간 동안 다른 화자의 음성 신호인 선행 발화를 수신한 적이 있는지 여부를 판단할 수 있다. 이때, 미리 설정된 기간은 실시예에 따라 상이하게 설정될 수 있다 예를 들어, 미리 설정된 기간은 10분으로 설정될 수 있으며, 이에 한정되지는 않는다.

예를 들어, 장치(30)는 특정 화자의 단말로부터 음성 신호를 수신한 경우, 10분 전 까지의 기간 동안 다른 화자의 음성 신호인 선행 발화를 수신한 적이 있는지 여부를 판단할 수 있다.

S602 단계에서, 장치(30)는 음성 신호에 대한 선행 발화가 존재하지 않는 경우, 발화 속도 및 발화 시간을 기반으로 통역 표시 기간을 결정할 수 있다.

장치(30)는 특정 화자의 음성 신호에 대한 선행 발화가 존재하지 않는 경우, 특정 화자의 발화 속도 및 발화 시간을 확인하고, 발화 속도 및 발화 시간을 기반으로 통역 표시 기간을 결정할 수 있다.

일실시예에 따르면, 장치(30)는 발화 속도가 빠를수록, 발화 시간이 길수록 통역 표시 기간을 길게 결정할 수 있으며, 발화 속도가 느릴수록, 발화 시간이 짧을수록 통역 표시 기간을 짧게 결정할 수 있다.

S603 단계에서, 장치(30)는 음성 신호에 대한 선행 발화가 존재하는 경우, 선행 발화에 포함된 키워드를 확인할 수 있다.

일실시예에 따르면, 장치(30)는 장치(30)는 선행 발화에 해당하는 음성 신호를 텍스트로 변환하기 위해 음성 신호 기술 및 언어 인식 기술을 활용할 수 있다. 장치(30)는 음성 신호 기술을 활용하여 선행 발화의 내용을 텍스트로 변환할 수 있다.

일실시예에 따르면, 장치(30)는 선행 발화의 음성 신호를 텍스트로 변환하는 단계에서 STT (음성 인식, Speech-to-Text) 기술을 활용할 수 있다. 장치(30)는 선행 발화의 음성 신호를 텍스트로 변환하고 텍스트에 포함된 키워드를 확인할 수 있다.

S604 단계에서, 장치(30)는 선행 발화에 포함된 키워드의 개수를 산출할 수 있다.

S605 단계에서, 장치(30)는 선행 발화에 포함된 키워드 및 음성 신호에 포함된 키워드의 유사도를 확인할 수 있다.

일실시예에 따르면, 장치(30)는 선행 발화에 포함된 키워드의 개수 및 음성 신호에 포함된 키워드의 개수의 차이가 적을수록, 선행 발화에 포함된 키워드와 음성 신호에 포함된 키워드 중 일치하는 키워드의 개수가 많을수록, 일치하는 키워드의 문장 내에서의 위치가 유사할수록 선행 발화 및 음성 신호의 유사도를 높게 결정할 수 있으며, 반대로 선행 발화에 포함된 키워드의 개수 및 음성 신호에 포함된 키워드의 개수의 차이가 많을수록, 선행 발화에 포함된 키워드와 음성 신호에 포함된 키워드 중 일치하는 키워드의 개수가 적을수록, 일치하는 키워드의 문장 내에서의 위치가 상이할수록 선행 발화 및 음성 신호의 유사도를 낮게 결정할 수 있다.

S606 단계에서, 장치(30)는 통역 표시 기간에 키워드의 개수 및 유사도를 기반으로 결정된 가중치를 적용하여 통역 표시 기간을 수정할 수 있다.

일실시예에 따르면, 장치(30)는 키워드의 개수가 많을수록, 유사도가 낮을수록 가중치를 높게 결정하고, 키워드의 개수가 적을수록, 유사도가 높을수록 가중치를 낮게 결정할 수 있다.

장치(30)는 통역 표시 기간에 결정된 가중치를 적용하여 통역 표시 기간을 수정할 수 있다.

장치(30)는 선행 발화 및 화자의 현재 발화의 유사도를 기반으로 통역 표시 기간을 조절할 수 있으므로, 다양한 상황에 대응할 수 있다. 예를 들어, 현재 발화가 선행 발화와 유사한 내용을 다루고 있다면, 통역 표시 기간을 더 짧게 설정하여 정보 과부하를 방지할 수 있으며, 현재 발화가 선행 발화와 상이한 내용을 다루고 있다면 통역 표시 기간을 더 길게 설정하여 화자가 대화의 내용을 이해하기 용이하도록 할 수 있다.

도 7은 일실시예에 따른 통역 화면을 생성하는 과정을 설명하기 위한 순서도이다.

도 7을 참조하면, 먼저, S701 단계에서, 장치(30)는 화자의 단말(10)의 카메라로부터 촬영한 화자의 얼굴 영상을 획득할 수 있다.

장치(30)는 화자의 단말(10)의 카메라로부터 화자의 얼굴을 촬영한 화자의 얼굴 영상을 실시간으로 수집하고, 얼굴 영상을 데이터베이스에 저장할 수 있다,

S702 단계에서, 장치(30)는 얼굴 영상으로부터 화자의 안구 운동도를 결정할 수 있다.

일실시예에 따르면, 장치(30)는 획득한 얼굴 영상을 컴퓨터 비전 기술 및 얼굴 인식 기술을 사용하여 얼굴을 인식하고, 얼굴의 눈, 미간, 입술 등의 위치와 모양을 포함하는 얼굴의 주요 특징을 추출할 수 있다. 장치(30)는 추출된 얼굴 특징을 사용하여 눈의 위치를 추적하고, 눈의 움직임을 추적하고 분석함으로써 안구 운동 데이터를 수집할 수 있다.

이때, 얼굴 영상으로부터 얼굴 인식 기술을 사용하여 눈을 추적하는 과정은 통상의 기술자에게 자명한 사항이므로 자세한 설명은 생략하기로 한다.

장치(30)는 안구 운동 데이터를 분석하여 눈 깜박임, 눈의 움직임 속도, 특정 지점 주목 시간, 눈의 움직임 정도를 기반으로 화자의 안구 운동도를 결정할 수 있다.

일실시예에 따르면, 장치(30)는 화자의 눈 깜박임이 많을수록, 눈의 움직임 속도가 빠를수록, 특정 지점 주목 시간이 짧을수록, 눈의 움직임 정도가 많을수록 안구 운동도를 높게 결정하고, 화자의 눈 깜박임이 적을수록, 눈의 움직임 속도가 느릴수록, 특정 지점 주목 시간이 길수록, 눈의 움직임 정도가 적을수록 안구 운동도를 낮게 결정할 수 있다.

S703 단계에서, 장치(30)는 화자의 안구 운동도가 미리 설정된 기준 미만인 경우, 음성 신호를 수신한 제1 시점으로부터 통역 표시 기간 동안 화자의 단말(10)로부터 후보 키워드에 대한 입력이 수신되었는지 여부를 판단할 수 있다. 이때, 미리 설정된 기준은 실시예에 따라 상이하게 설정될 수 있다.

이때, 후보 키워드에 대한 사용자 입력은 후보 키워드에 대응하는 터치 입력, 음성 입력, 키보드 입력, 마우스 입력 등의 다양한 형태를 포함할 수 있으나, 이에 한정되지는 않는다,

S704 단계에서, 장치(30)는 입력이 수신되지 않은 경우, 제3 부분(300)에 표시된 후보 키워드를 삭제하고 중요 키워드를 제1 기간 동안 표시할 수 있다.

장치(30)는 화자의 단말(10)로부터 후보 키워드에 대한 입력이 수신되지 않은 경우, 제3 부분(300)에 표시된 후보 키워드를 삭제하고, 중요 키워드를 제1 기간 동안 표시할 수 있다. 이때, 제1 기간은 미리 설정되어 저장되어 있을 수 있으며, 실시예에 따라 상이하게 설정될 수 있다.

통역 화면의 제3 부분(300)은 음성 신호에 포함된 키워드 중 중요 키워드 및 후보 키워드를 포함할 수 있으며, 중의적인 표현 또는 다의성이 있는 키워드인 후보 키워드에 대한 화자 입력이 수신되지 않은 경우, 장치(30)는 후보 키워드에 대하여 화자가 헷갈리는 부분 없이 명확하게 이해한 것으로 판단하고, 불필요한 후보 키워드를 제3 부분(300)에서 삭제하고, 중요 키워드만을 제1 기간동안 제3 부분(300)에 표시하도록 할 수 있다. 이로써, 장치(30)는 화자가 명확하게 이해할 수 있는 통역 내용을 제공하여 통역하는 과정에서 이해도와 효율성을 높일 수 있다.

S705 단계에서, 장치(30)는 후보 키워드에 대한 입력이 수신된 경우, 화자의 입력에 대응되는 후보 키워드를 웹 사이트로부터 검색하여 나오는 이미지를 수집하고, 수집된 이미지를 팝업의 형태로 제3 부분(300)에 표시할 수 있다. 이때, 팝업의 크기 및 형태는 실시예에 따라 상이하게 설정될 수 있다.

장치(30)는 웹 사이트로부터 후보 키워드를 검색하여 수집한 이미지가 여러 장인 경우, 이미지의 조회수의 많은 순서대로 제3 부분(300)에 팝업의 형태로 복수의 이미지를 표시할 수 있다.

장치(30)는 후보 키워드에 대한 화자의 입력이 수신된 경우, 후보 키워드와 관련된 이미지를 팝업으로 표시하면서, 화자에게 발화 내용에 대한 시각적 정보를 제공할 수 있다. 화자는 이미지를 통해 후보 키워드와 관련된 개념, 사물 또는 상황을 더 쉽게 이해할 수 있다.

또한, 이미지를 통해 후보 키워드의 의미와 연관성을 시각적으로 파악할 수 있으므로 사용자의 이해도를 향상시킬 수 있으며, 언어의 제약을 넘어 화자 간 더 유연하고 풍부한 의사소통을 지원할 수 있다.

S706 단계에서, 장치(30)는 화자의 안구 운동도가 미리 설정된 기준 이상인 경우, 안구 운동도에 기반하여 결정된 가중치를 통역 표시 기간에 적용하여 통역 표시 기간을 조정할 수 있다.

일실시예에 따르면, 장치(30)는 안구 운동도가 높을수록 가중치를 높게 결정하고, 안구 운동도가 낮을수록 가중치를 낮게 결정할 수 있다. 장치(30)는 안구 운동도에 기반하여 결정된 가중치를 통역 표시 기간에 적용함으로써 통역 표시 기간을 조정할 수 있다.

장치(30)는 화자의 안구 운동도에 기반하여 통역 표시 기간을 조정함으로써, 화자의 요구 및 이해도, 관심도 등을 반영하여 통역 서비스를 개선하고 효과적인 의사소통을 하도록 유도할 수 있다.

S707 단계에서, 장치(30)는 음성 신호의 길이가 미리 설정된 기준을 만족하는 경우, 제1 배열을 이용하여 제2 부분(200) 및 제3 부분(300)을 통역 화면에 표시할 수 있다. 이때, 미리 설정된 기준은 실시예에 따라 상이하게 설정될 수 있다. 예를 들어, 제1 배열은 위에서부터 제1 부분(100), 제2 부분(200) 및 제3 부분(300)의 순서로 설정될 수 있으나, 이에 한정되지는 않는다.

S708 단계에서, 장치(30)는 음성 신호의 길이가 미리 설정된 기준을 만족하지 않는 경우, 제2 배열을 이용하여 제2 부분(200) 및 제3 부분(300)을 통역 화면에 표시할 수 있다. 이때, 제2 배열은 제1 배열과 상이하게 설정되는 것이 바람직하다.

예를 들어, 제2 배열은 위에서부터 제1 부분(100), 제3 부분(300) 및 제2 부분(200)의 순서로 설정될 수 있으나, 이에 한정되지는 않는다.

장치(30)는 음성 신호의 길이에 따라 원문 정보, 통역 정보 및 부분 통역 정보의 배열을 조정함으로써, 화자에게 최적화된 화면 표시를 제공하며, 통역 내용을 더 효과적으로 이해하고 추적할 수 있다.

장치(30)는 상이한 통역 정보의 배열을 통해 사용자의 편의성을 향상시키고 사용자 만족도를 높일 수 있으며, 다양한 음성 길이와 통역 요구 사항에 대응하기 위해 배열을 조정할 수 있으므로, 다양한 대화 상황에 유연하게 대응할 수 있다.

도 8은 일실시예에 따른 음성 신호의 오류 지수를 기반으로 통역 화면의 밝기를 결정하는 과정을 설명하기 위한 순서도이다.

도 8을 참조하면, 먼저, S801 단계에서, 장치(30)는 음성 신호로부터 발화 시간을 확인할 수 있다.

장치(30)는 음성 신호로부터 화자가 발화한 시간인 발화 시간을 확인할 수 있다.

장치(30)는 화자의 음성 신호를 수집하고, 수집한 음성 신호를 노이즈 제거, 음성 표준화 및 압축 등을 포함하는 전처리 과정을 수행하고, 음성의 주파수, 에너지, 음성 특징 및 패턴을 조사하여 발화가 시작되는 시점 및 발화가 종료되는 시점을 확인할 수 있으며, 발화가 시작되는 시점 및 발화가 종료되는 시점을 기반으로 발화 시간을 산출할 수 있다.

S802 단계에서, 장치(30)는 음성 신호에 포함된 단어 중 비확정 단어의 개수를 확인하고, 음성 신호에 포함된 단어 중 비확정 단어의 비율인 비확정 비율이 미리 설정된 기준을 만족하는 기간인 비정확 기간을 결정할 수 있다. 이때, 미리 설정된 기준은 실시예에 따라 상이하게 설정될 수 있다.

장치(30)는 발화 시간 동안 비확정 단어의 비율이 미리 설정된 기준을 만족하는 기간인 비확정 기간을 결정할 수 있다.

S803 단계에서, 장치(30)는 발화 시간에서 비정확 기간이 차지하는 비율인 비정확 비율을 산출할 수 있다.

S804 단계에서, 장치(30)는 비확정 단어의 개수, 비정확 기간 및 비정확 비율을 기반으로 오류 지수를 결정할 수 있다.

일실시예에 따르면, 장치(30)는 비확정 단어의 개수가 많을수록, 비정확 기간이 길수록, 비정확 비율이 클수록 오류 지수를 높게 결정하고, 비확정 단어의 개수가 적을수록, 비정확 기간이 짧을수록, 비정확 비율이 작을수록 오류 지수를 낮게 결정할 수 있다.

S805 단계에서, 장치(30)는 오류 지수가 미리 설정된 기준을 만족하는 음성 신호에 해당하는 통역 화면을 제1 밝기로 표시할 수 있다. 이때, 미리 설정된 기준은 실시예에 따라 상이하게 설정될 수 있다.

S806 단계에서, 장치(30)는 오류 지수가 미리 설정된 기준을 만족하지 않는 음성 신호에 해당하는 통역 화면을 제2 밝기로 표시하고, 화자의 단말(10)로 재발화 요청 메시지를 전송할 수 있다.

이때, 제1 밝기 및 제2 밝기는 실시예에 따라 상이하게 설정될 수 있으며, 제1 밝기는 제2 밝기보다 밝게 설정되는 것이 바람직하다.

장치(30)는 오류 지수를 고려하여 통역 화면의 밝기를 조정함으로써, 화자의 발화가 불분명한 경우에도 화자에게 오류 지수에 대한 정보를 제공하고, 재발화를 요청하는 등의 추가 조치를 취하도록 하여 화자가 더 명확하게 대화를 이해하고 수행할 수 있도록 한다.

도 9는 일실시예에 따른 장치(30)의 구성의 예시도이다.

일실시예에 따른 장치(30)는 프로세서(31) 및 메모리(32)를 포함한다. 일실시예에 따른 장치(30)는 상술한 서버 또는 단말일 수 있다. 프로세서(31)는 도 1 내지 도 8을 통하여 전술한 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 8을 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(32)는 상술한 방법과 관련된 정보를 저장하거나 상술한 방법이 구현된 프로그램을 저장할 수 있다. 메모리(32)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.

프로세서(31)는 프로그램을 실행하고, 장치(30)를 제어할 수 있다. 프로세서(31)에 의하여 실행되는 프로그램의 코드는 메모리(32)에 저장될 수 있다. 장치(30)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

장치에 의해 수행되는 방법에 있어서,
서로 상이한 언어를 구사하는 화자의 단말로부터 음성 신호를 수신하는 단계;
상기 음성 신호를 텍스트로 변환하는 단계;
원문 정보가 표시되는 제1 부분, 원문의 통역 정보가 표시되는 제2 부분 및 단어, 어구 및 문장 중 어느 하나인 의미 단위의 부분 통역 정보가 표시되는 제3 부분을 포함하는 통역 화면을 생성하는 단계; 및
상기 통역 화면을 상기 화자의 단말에 표시하는 단계를 포함하고,
상기 부분 통역 정보는,
상기 음성 신호에 포함된 키워드 중 중요 키워드 및 후보 키워드를 포함하고,
상기 음성 신호를 텍스트로 변환하는 단계는,
제1 STT 서비스를 이용하여 상기 음성 신호를 변환하여 상기 음성 신호에 포함된 제1 단어를 획득하는 단계,
제2 STT 서비스를 이용하여 상기 음성 신호를 변환하여 상기 음성 신호에 포함된 제2 단어를 획득하는 단계, 및
상기 제1 단어 및 상기 제2 단어를 비교하여, 상기 제1 단어와 상기 제2 단어가 일치하는 단어를 확정 단어로 결정하고, 일치하지 않는 단어를 비확정 단어로 결정하되, 비확정 단어는 상기 제1 단어 및 상기 제2 단어 중 적어도 하나로 결정하는 단계,를 포함하고,
상기 확정 단어 및 상기 비확정 단어를 문장 생성 알고리즘에 입력하여 후보 문장을 생성하는 단계;를 더 포함하고,
상기 통역 화면을 생성하는 단계에서, 상기 부분 통역 정보는,
상기 확정 단어의 번역 및 상기 비확정 단어의 번역을 포함하되, 상기 확정 단어의 번역과 상기 비확정 단어의 번역은 상기 제3 부분에서 서로 다른 방식으로 표시되고,
상기 통역 화면을 생성하는 단계는,
상기 후보 문장의 번역 정보가 표시되는 제4 부분을 더 생성하는 단계를 포함하고,
상기 변환된 텍스트를 기반으로 통역 분석 정보를 생성하는 단계;를 더 포함하고,
상기 통역 화면을 생성하는 단계는, 상기 통역 분석 정보에 기반하여 수행되고,
상기 통역 분석 정보를 생성하는 단계는,
상기 텍스트로부터 키워드를 추출하는 단계,
상기 키워드가 제1 언어인 경우, 상기 제1 언어와 상이한 제2 언어를 사용하는 화자가 속한 제2 국가의 뉴스 사이트로부터 상기 추출된 키워드를 적어도 하나 이상 포함하는 뉴스 콘텐츠를 수집하는 단계,
상기 뉴스 콘텐츠에 포함된 키워드 및 상기 뉴스 콘텐츠에 등록된 댓글에 포함된 키워드 중 부정 키워드의 비율인 부정 비율을 산출하는 단계,
상기 제1 언어를 사용하는 제1 공용 언어 국가 및 상기 제2 언어를 사용하는 제2 공용 언어 국가의 웹 사이트로부터 언급된 키워드의 빈도를 각각 확인하는 단계,
상기 제1 공용 언어 국가 및 상기 제2 공용 언어 국가의 빈도의 차이를 산출하는 단계,
상기 부정 비율에 상기 빈도의 차이에 기반하여 결정된 가중치를 적용하여 키워드의 부정도를 결정하는 단계,
상기 부정도가 미리 설정된 제1 기준 미만인 것에 해당하는 키워드를 기반으로 정상 통역 정보를 생성하는 단계,
상기 부정도가 상기 제1 기준 이상이면서 미리 설정된 제2 기준 미만인 것에 해당하는 키워드를 기반으로 통역 수정 정보를 생성하는 단계,
상기 부정도가 상기 미리 설정된 제2 기준 이상인 것에 해당하는 키워드를 기반으로 통역 제외 정보를 생성하는 단계, 및
상기 정상 통역 정보, 상기 통역 수정 정보 및 상기 통역 제외 정보를 결합하여 통역 분석 정보를 생성하는 단계를 포함하고,
상기 통역 분석 정보를 상기 통역 화면에 표시하는 통역 표시 기간을 결정하는 단계;를 더 포함하고,
상기 통역 표시 기간을 결정하는 단계는,
상기 음성 신호에 대한 선행 발화가 존재하지 않는 경우, 상기 음성 신호로부터 발화 속도를 및 발화 시간을 확인하는 단계,
상기 발화 속도 및 발화 시간을 기반으로 통역 표시 기간을 결정하는 단계,
상기 음성 신호에 대한 상기 선행 발화가 존재하는 경우, 상기 선행 발화에 포함된 키워드를 확인하는 단계,
상기 선행 발화에 포함된 키워드의 개수를 산출하는 단계,
상기 선행 발화에 포함된 키워드 및 상기 음성 신호에 포함된 키워드의 유사도를 확인하는 단계, 및
상기 통역 표시 기간에 상기 키워드의 개수 및 상기 유사도를 기반으로 결정된 가중치를 적용하여 상기 통역 표시 기간을 수정하는 단계를 포함하고,
상기 통역 화면을 생성하는 단계는,
상기 화자의 단말의 카메라로부터 촬영한 화자의 얼굴 영상을 획득하는 단계,
상기 얼굴 영상으로부터 상기 화자의 안구 운동도를 결정하는 단계,
상기 화자의 안구 운동도가 미리 설정된 기준 미만인 경우, 상기 음성 신호를 수신한 제1 시점으로부터 통역 표시 기간 동안 상기 화자의 단말로부터 상기 후보 키워드에 대한 입력이 수신되었는지 여부를 판단하는 단계,
상기 입력이 수신되지 않은 경우, 상기 제3 부분에 표시된 후보 키워드를 삭제하고 상기 중요 키워드를 제1 기간 동안 표시하는 단계,
상기 입력이 수신된 경우, 상기 화자의 입력에 대응되는 후보 키워드를 웹 사이트로부터 검색하여 나오는 이미지를 수집하고, 상기 수집된 이미지를 팝업의 형태로 상기 제3 부분에 표시하는 단계,
상기 화자의 안구 운동도가 미리 설정된 기준 이상인 경우, 상기 안구 운동도에 기반하여 결정된 가중치를 상기 통역 표시 기간에 적용하여 상기 통역 표시 기간을 조정하는 단계,
상기 음성 신호의 길이가 미리 설정된 기준을 만족하는 경우, 제1 배열을 이용하여 상기 제1 부분, 상기 제2 부분 및 상기 제3 부분을 상기 통역 화면에 표시하는 단계, 및
상기 음성 신호의 길이가 상기 미리 설정된 기준을 만족하지 않는 경우, 상기 제1 배열과 상이한 제2 배열을 이용하여 상기 제1 부분, 상기 제2 부분 및 상기 제3 부분을 상기 통역 화면에 표시하는 단계를 포함하는,
의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스 제공 방법.
삭제
삭제