KR20210132115A

KR20210132115A - 편집 지원 프로그램, 편집 지원 방법 및 편집 지원 장치

Info

Publication number: KR20210132115A
Application number: KR1020217030247A
Authority: KR
Inventors: 사또루 산고다; 유스께 하마다
Original assignee: 후지쯔 가부시끼가이샤
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2021-11-03
Also published as: JPWO2020188622A1; EP3940695A1; WO2020188622A1; JP7180747B2; CN113544772A; EP3940695A4; US20210383813A1

Abstract

편집 지원 프로그램은, 음성 인식에 기초하여 생성된 문장에 대해서 식별된 화자를 나타내는 정보와, 상기 문장 중의, 식별된 상기 화자에 대응하는 구간을 관련지어서 표시부에 표시하고, 상기 화자의 식별 결과를 편집하는 제1 편집 처리가 발생하고, 상기 제1 편집 처리에 의해, 인접하는 2 이상의 구간의 각 화자가 공통될 경우에는, 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하고, 결합한 상기 2 이상의 구간 내의 특정 구간에 대해서, 상기 화자의 식별 결과를 편집하는 제2 편집 처리를 행하는 구간의 시점이 지정되고, 또한 지정된 상기 시점부터, 결합한 상기 2 이상의 구간의 종점까지의 사이에 결합 전의 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소가 존재하는 경우, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는 처리를 컴퓨터에 실행시킨다.

Description

편집 지원 프로그램, 편집 지원 방법 및 편집 지원 장치

본건은, 편집 지원 프로그램, 편집 지원 방법 및 편집 지원 장치에 관한 것이다.

복수의 화자의 발언 데이터를 포함하는 음성 데이터를 재생하여, 유저가, 각 화자의 발언 데이터를 텍스트로 옮겨 적어서, 각 발언 데이터에 발언자를 나타내는 화자 명칭을 설정하는 것이 알려져 있다. 또한, 음성 데이터를 음성 특징에 기초해서 분류하여, 분류한 음성 데이터마다 임의의 화자 식별 정보를 구하는 것도 알려져 있다(이상, 예를 들어 특허문헌 1 참조).

일본 특허 공개 제2014-38132호 공보

그러나, 음성 특징으로부터 구한 화자 식별 정보는, 화자의 몸 상태 등에 따라 변화하는 경우가 있다. 그 결과, 그 화자 식별 정보가 잘못된 화자를 나타낼 우려가 있다. 이 경우, 유저는 화자 식별 정보의 편집 처리에 손이 많이 간다는 문제가 있다.

그래서, 하나의 측면에서는, 화자의 식별 결과에 대한 편집 처리의 편리성을 향상시키는 것을 목적으로 한다.

하나의 실시 양태에서는, 편집 지원 프로그램은, 음성 인식에 기초하여 생성된 문장에 대해서 식별된 화자를 나타내는 정보와, 상기 문장 중의, 식별된 상기 화자에 대응하는 구간을 관련지어서 표시부에 표시하고, 상기 화자의 식별 결과를 편집하는 제1 편집 처리가 발생하고, 상기 제1 편집 처리에 의해, 인접하는 2 이상의 구간의 각 화자가 공통될 경우에는, 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하고, 결합한 상기 2 이상의 구간 내의 특정 구간에 대해서, 상기 화자의 식별 결과를 편집하는 제2 편집 처리를 행하는 구간의 시점이 지정되고, 또한 지정된 상기 시점부터, 결합한 상기 2 이상의 구간의 종점까지의 사이에 결합 전의 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소가 존재하는 경우, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는 처리를 컴퓨터에 실행시킨다.

화자의 식별 결과에 대한 편집 처리의 편리성을 향상시킬 수 있다.

도 1은 단말 장치의 일례이다.
도 2는 단말 장치의 하드웨어 구성의 일례이다.
도 3은 단말 장치의 블록도의 일례이다.
도 4는 단말 장치의 동작의 일례를 나타내는 흐름도(그 1)이다.
도 5는 단말 장치의 동작의 일례를 나타내는 흐름도(그 2)이다.
도 6은 포털 화면의 일례이다.
도 7은 화자 데이터의 일례이다.
도 8은 제1 실시 형태에 따른 갱신 전의 문장 데이터의 일례이다.
도 9는 편집 지원 화면의 일례이다.
도 10의 (a) 내지 도 10의 (c)는 실시예에 관한 편집 작업의 일례를 설명하기 위한 도면(그 1)이다.
도 11은 문장 데이터의 갱신 예를 설명하기 위한 도면이다.
도 12의 (a) 내지 도 12의 (c)는 실시예에 관한 편집 작업의 일례를 설명하기 위한 도면(그 2)이다.
도 13은 구획 시점 개소 데이터의 일례이다.
도 14의 (a) 및 도 14의 (b)는 실시예에 관한 편집 작업의 일례를 설명하기 위한 도면(그 3)이다.
도 15는 문장 데이터의 다른 갱신 예를 설명하기 위한 도면이다.
도 16의 (a) 및 도 16의 (b)는 비교예에 관한 편집 작업의 일례를 설명하기 위한 도면이다.
도 17의 (a)는 제2 실시 형태에 따른 갱신 전의 문장 데이터의 일례이다. 도 17의 (b)는 제2 실시 형태에 따른 갱신 후의 문장 데이터의 일례이다.
도 18은 편집 지원 시스템의 일례이다.

이하, 본건을 실시하기 위한 형태에 대해서 도면을 참조하여 설명한다.

(제1 실시 형태)

도 1은 단말 장치(100)의 일례이다. 단말 장치(100)는 편집 지원 장치의 일례이다. 도 1에서는, 단말 장치(100)의 일례로서 Personal Computer(PC)가 도시되어 있지만, 태블릿 단말기와 같은 스마트 디바이스이어도 된다. 단말 장치(100)는, 키보드 및 포인팅 디바이스(이하, 단순히 키보드라고 함)(100F)를 구비하고 있다. 단말 장치(100)는 디스플레이(100G)를 구비하고 있다. 디스플레이(100G)는, 액정 디스플레이이어도 되고, 유기 electro-luminescence(EL) 디스플레이이어도 된다.

디스플레이(100G)는 다양한 화면을 표시한다. 상세는 후술하지만, 예를 들어 디스플레이(100G)는 편집 지원 화면(10)을 표시한다. 편집 지원 화면(10)은, 음성 인식에 기초하여 생성된 문장에 대해서 식별된 화자의 편집을 지원하는 화면이다. 화자의 식별은 Artificial Intelligence(AI: 인공 지능)를 이용한 것이어도 되고, AI를 이용하지 않고 사전에 정의한 소정의 음성 모델을 이용한 것이어도 된다.

단말 장치(100)를 이용하는 유저는, 편집 지원 화면(10) 상에 표시된 화자의 후보를 확인하고, 키보드(100F)를 조작해서 화자의 후보 중에서 어느 하나의 후보를 선택한다. 이에 의해, 단말 장치(100)는, AI 등에 기초하여 식별된 편집 전의 화자를 선택된 후보의 화자로 편집한다. 이와 같이, 유저는 편집 지원 화면(10)을 이용함으로써 화자를 간편하게 편집할 수 있다. 또한, 본 실시 형태에서는, 유저의 일례로서 회의의 회의록 작성자에 대해서 설명하지만, 유저는 이러한 작성자에 특별히 한정되지 않는다. 예를 들어, 유저는 방송 자막의 제작자나 콜센터의 음성 기록 담당자 등이어도 된다.

이어서, 도 2를 참조하여, 단말 장치(100)의 하드웨어 구성에 대해서 설명한다.

도 2는 단말 장치(100)의 하드웨어 구성의 일례이다. 도 2에 도시하는 바와 같이, 단말 장치(100)는, 적어도 하드웨어 프로세서로서의 Central Processing Unit(CPU)(100A), Random Access Memory(RAM)(100B), Read Only Memory(ROM)(100C) 및 네트워크 I/F(인터페이스)(100D)를 포함하고 있다. 또한, 상술한 바와 같이, 단말 장치(100)는, 키보드(100F) 및 디스플레이(100G)도 포함하고 있다.

또한, 단말 장치(100)는, 필요에 따라, Hard Disk Drive(HDD)(100E), 입출력 I/F(100H), 드라이브 장치(100I) 및 근거리 무선 통신 회로(100J)의 적어도 하나를 포함하고 있어도 된다. CPU(100A)로부터 근거리 무선 통신 회로(100J)는, 내부 버스(100K)에 의해 서로 접속되어 있다. 즉, 단말 장치(100)는 컴퓨터에 의해 실현할 수 있다. 또한, CPU(100A) 대신에 Micro Processing Unit(MPU)을 하드웨어 프로세서로서 이용해도 된다.

입출력 I/F(100H)에는 반도체 메모리(730)가 접속된다. 반도체 메모리(730)로서는, 예를 들어 Universal Serial Bus(USB) 메모리나 플래시 메모리 등이 있다. 입출력 I/F(100H)는, 반도체 메모리(730)에 기억된 프로그램이나 데이터를 판독한다. 입출력 I/F(100H)는, 예를 들어 USB 포트를 구비하고 있다. 드라이브 장치(100I)에는 가반형 기록 매체(740)가 삽입된다. 가반형 기록 매체(740)로서는, 예를 들어 Compact Disc(CD)-ROM, Digital Versatile Disc(DVD)와 같은 이동 디스크가 있다. 드라이브 장치(100I)는, 가반형 기록 매체(740)에 기록된 프로그램이나 데이터를 판독한다. 근거리 무선 통신 회로(100J)는, Wi-Fi(등록 상표)나 Bluetooth(등록 상표)와 같은 근거리 무선 통신을 실현하는 전기 회로 또는 전자 회로이다. 근거리 무선 통신 회로(100J)에는 안테나(100J')가 접속되어 있다. 근거리 무선 통신 회로(100J) 대신에 통신 기능을 실현하는 CPU가 이용되어도 된다. 네트워크 I/F(100D)는, 예를 들어 Local Area Network(LAN) 포트를 구비하고 있다.

상술한 RAM(100B)에는, ROM(100C)이나 HDD(100E)에 기억된 프로그램이 CPU(100A)에 의해 일시적으로 저장된다. RAM(100B)에는, 가반형 기록 매체(740)에 기록된 프로그램이 CPU(100A)에 의해 일시적으로 저장된다. 저장된 프로그램을 CPU(100A)가 실행함으로써, CPU(100A)는 후술하는 각종 기능을 실현하고, 또한 후술하는 각종 처리를 실행한다. 또한, 프로그램은 후술하는 흐름도에 따른 것으로 하면 된다.

이어서, 도 3을 참조하여, 단말 장치(100)의 기능 구성에 대해서 설명한다.

도 3은 단말 장치(100)의 블록도의 일례이다. 도 3에서는 단말 장치(100)의 기능의 주요부가 도시되어 있다. 도 3에 도시한 바와 같이, 단말 장치(100)는, 기억부(110), 처리부(120), 입력부(130) 및 표시부(140)를 구비하고 있다. 기억부(110)는, 상술한 RAM(100B)이나 HDD(100E)에 의해 실현할 수 있다. 처리부(120)는, 상술한 CPU(100A)에 의해 실현할 수 있다. 입력부(130)는, 상술한 키보드(100F)에 의해 실현할 수 있다. 표시부(140)는, 상술한 디스플레이(100G)에 의해 실현할 수 있다. 따라서, 기억부(110), 처리부(120), 입력부(130) 및 표시부(140)는 서로 접속되어 있다.

여기서, 기억부(110)는, 음성 기억부(111), 사전 기억부(112), 문장 기억부(113), 모델 기억부(114) 및 포인트 기억부(115)를 구성 요소로서 포함하고 있다. 처리부(120)는, 제1 표시 제어부(121), 음성 인식부(122), 문장 생성부(123) 및 화자 식별부(124)를 구성 요소로서 포함하고 있다. 또한, 처리부(120)는, 음성 재생부(125), 화자 편집부(126), 포인트 관리부(127) 및 제2 표시 제어부(128)를 구성 요소로서 포함하고 있다.

처리부(120)의 각 구성 요소는, 기억부(110)의 각 구성 요소의 적어도 하나에 액세스하여 각종 처리를 실행한다. 예를 들어, 음성 재생부(125)는, 음성 데이터의 재생 지시를 검출하면, 음성 기억부(111)에 액세스하여, 음성 기억부(111)가 기억하는 음성 데이터를 취득한다. 음성 재생부(125)는, 음성 데이터를 취득하면, 음성 데이터를 재생한다. 또한, 그 밖의 구성 요소에 대해서는, 단말 장치(100)의 동작을 설명할 때 상세하게 기재한다.

이어서, 도 4 내지 도 15를 참조하여, 단말 장치(100)의 동작에 대해서 설명한다.

먼저, 도 4에 도시하는 바와 같이, 제1 표시 제어부(121)는 포털 화면을 표시한다(스텝 S101). 보다 상세하게는, 제1 표시 제어부(121)는, 입력부(130)로부터 출력된 포털 화면의 기동 지시를 검출하면, 포털 화면을 표시부(140)에 표시한다. 이에 의해, 도 6에 도시하는 바와 같이, 표시부(140)는 포털 화면(20)을 표시한다. 포털 화면(20)은, 제1 등록 버튼(21), 제2 등록 버튼(22), 제3 등록 버튼(23) 및 복수의 제4 등록 버튼(24)을 포함하고 있다.

제1 등록 버튼(21)은 회의의 음성 데이터를 등록하는 버튼이다. 회의의 음성 데이터를 등록할 경우, 유저는 사전에 녹음된 회의의 음성 데이터를 단말 장치(100) 내에 준비한다. 유저가 제1 등록 버튼(21)을 포인터(Pt)에 의해 누르는 조작을 행하면, 제1 표시 제어부(121)는 제1 등록 버튼(21)의 누름을 검출한다. 제1 표시 제어부(121)는, 제1 등록 버튼(21)의 누름을 검출하면, 단말 장치(100) 내에 준비된 회의의 음성 데이터를 음성 기억부(111)에 보존한다.

제2 등록 버튼(22)은, 회의의 자료에 관한 자료 데이터를 등록하는 버튼이다. 자료 데이터를 등록할 경우, 유저는 사전에 회의의 자료 데이터를 단말 장치(100) 내에 준비한다. 유저가 제2 등록 버튼(22)을 포인터(Pt)에 의해 누르는 조작을 행하면, 제1 표시 제어부(121)는 제2 등록 버튼(22)의 누름을 검출한다. 제1 표시 제어부(121)는, 제2 등록 버튼(22)의 누름을 검출하면, 단말 장치(100) 내에 준비된 자료 데이터를 포털 화면(20) 내의 제1 표시 영역(20A)에 표시한다.

제3 등록 버튼(23)은 회의의 참가자를 등록하는 버튼이다. 회의의 참가자를 등록할 경우, 유저는 제3 등록 버튼(23)을 포인터(Pt)에 의해 누르는 조작을 행한다. 유저가 제3 등록 버튼(23)을 누르는 조작을 행하면, 제1 표시 제어부(121)는 제3 등록 버튼(23)의 누름을 검출한다. 제1 표시 제어부(121)는, 제3 등록 버튼(23)의 누름을 검출하면, 회의의 참가자를 화자로서 등록하기 위한 등록 화면(도시하지 않음)을 표시부(140)에 표시한다. 유저가 등록 화면에 회의에 있어서의 화자(구체적으로는 화자명을 나타내는 정보)를 입력하면, 제1 표시 제어부(121)는, 입력된 화자를 포함하는 참가자 데이터를 포털 화면(20) 내의 제2 표시 영역(20B)에 표시한다. 아울러, 제1 표시 제어부(121)는, 화자 ID를 생성하여, 입력된 화자와 관련지어서 모델 기억부(114)에 보존한다. 화자 ID는 화자를 식별하는 정보이다. 이에 의해, 모델 기억부(114)는 화자 ID 및 화자를 관련지어서 기억한다.

제4 등록 버튼(24)은 모두 화자의 음성 데이터를 등록하는 버튼이다. 화자의 음성 데이터를 등록할 경우, 유저는 사전에 녹음된 화자의 다양한 음성 데이터를 단말 장치(100) 내에 준비한다. 단말 장치(100)에 마이크를 접속하여, 마이크로부터 취득한 음성 데이터를 이용해도 된다. 유저가 등록 대상의 화자에 관한 제4 등록 버튼(24)을 포인터(Pt)에 의해 누르는 조작을 행하면, 제1 표시 제어부(121)는 제4 등록 버튼(24)의 누름을 검출한다. 제1 표시 제어부(121)는, 제4 등록 버튼(24)의 누름을 검출하면, 단말 장치(100) 내에 준비된 음성 데이터를 화자 식별부(124)에 출력한다.

화자 식별부(124)는, 제1 표시 제어부(121)로부터 출력된 화자의 음성 데이터에 기초하여 화자의 음성의 특징을 기계 학습한 학습 완료 모델을 생성한다. 화자 식별부(124)는, 생성한 학습 완료 모델을 학습 대상의 음성 데이터에 대응하는 화자의 화자 ID와 관련지어서 모델 기억부(114)에 보존한다. 이에 의해, 도 7에 도시하는 바와 같이, 모델 기억부(114)는, 화자 ID와 화자와 학습 완료 모델을 관련지은 화자 데이터를 기억한다. 모델 기억부(114)가 화자 데이터를 기억하면, 제1 표시 제어부(121)는, 등록 대상의 화자에 관한 참가자 데이터 내에 등록 마크(RM)를 표시한다. 등록 마크(RM)는, 모델 기억부(114)가 학습 완료 모델을 기억함으로써, 화자의 음성 데이터가 등록된 것을 나타내는 마크이다.

도 4로 돌아가서, 스텝 S101의 처리가 완료되면, 이어서 음성 인식부(122)는 음성 인식을 실행한다(스텝 S102). 예를 들어, 음성 인식부(122)는, 음성 기억부(111)를 참조하여, 음성 기억부(111)가 회의의 음성 데이터를 기억하고 있는지 여부를 판단한다. 음성 인식부(122)는, 음성 기억부(111)가 회의의 음성 데이터를 기억하고 있다고 판단하면, 음성 기억부(111)가 기억하고 있는 회의의 음성 데이터에 대하여 음성 인식을 실행하여, 문자열 데이터를 생성한다. 보다 상세하게는, 음성 인식부(122)는, 회의의 음성 데이터에 포함되는 화자의 음성에 기초하여 복수의 문자를 특정하고, 특정한 문자를 시계열로 배열해서 문자마다 문자 ID와 타임 코드를 부여해서 문자열 데이터를 생성한다. 음성 인식부(122)는, 문자열 데이터를 생성하면, 생성한 문자열 데이터를 문장 생성부(123)에 출력한다. 또한, 음성 인식부(122)는, 복수의 음성 인식 엔진을 구비하여, 각각 대응하는 문자열 데이터를 생성한다. 음성 인식 엔진으로서는, 예를 들어 AmiVoice(등록 상표) 등이 있다.

스텝 S102의 처리가 완료되면, 이어서 문장 생성부(123)는 문장 데이터를 생성한다(스텝 S103). 보다 상세하게는, 문장 생성부(123)는, 음성 인식부(122)가 출력한 문자열 데이터를 접수하면, 사전 기억부(112)를 참조하여, 문자열 데이터에 대하여 형태소 해석을 실행한다. 사전 기억부(112)는 형태소 사전을 기억한다. 형태소 사전에는 다양한 어구가 저장되어 있다. 예를 들어, 형태소 사전에는 「예」, 「확실히」, 「자료」, 「질문」 등의 어구가 저장되어 있다. 따라서, 문장 생성부(123)는, 사전 기억부(112)를 참조하여 문자열 데이터에 대하여 형태소 해석을 실행하면, 문자열 데이터를 복수의 단어 블록으로 분할한 문장 데이터를 생성한다. 문장 생성부(123)는, 문장 데이터를 생성하면, 생성한 문장 데이터를, 단어 블록 단위의 식별자와 관련지어서 문장 기억부(113)에 보존한다. 이에 의해, 문장 기억부(113)는 문장 데이터를 기억한다.

스텝 S103의 처리가 완료되면, 이어서 화자 식별부(124)는 화자를 식별한다(스텝 S104). 보다 상세하게는, 화자 식별부(124)는, 모델 기억부(114)를 참조하여, 모델 기억부(114)가 기억하는 학습 완료 모델과 음성 기억부(111)가 기억하는 회의의 음성 데이터를 비교한다. 화자 식별부(124)는, 학습 완료 모델과 회의의 음성 데이터를 비교하여, 회의의 음성 데이터에 학습 완료 모델과 대응(예를 들어 공통 또는 유사 등)하는 음성 부분을 검출한 경우, 그 학습 완료 모델과 관련지어진 화자 ID와 타임 코드를 특정한다. 이와 같이, 화자 식별부(124)는, 회의의 음성 데이터에 포함되는 다양한 음성 부분의 각 화자를 식별한다. 화자 식별부(124)는, 화자 ID와 타임 코드를 특정하면, 타임 코드에 기초하여, 문장 기억부(113)가 기억하는 문장 데이터에 특정한 화자 ID를 관련짓는다. 이에 의해, 도 8에 도시하는 바와 같이, 문장 기억부(113)는, 화자 ID와 관련지어진 문장 데이터를 기억한다.

문장 데이터는, 도 8에 도시하는 바와 같이, 문자 ID, 문자, 단어 블록, 타임 코드, 화자 ID(초기), 및 화자 ID(현재)를 구성 요소로서 포함하고 있다. 특히, 단어 블록에는 단어 블록의 식별자가 등록된다. 화자 ID(초기)에는 화자 식별부(124)가 최초로 식별한 화자의 화자 ID가 등록된다. 화자 ID(현재)에는 화자를 편집한 후의 화자 ID가 등록된다. 화자 식별부(124)가 화자를 식별한 직후에는, 화자 ID(초기)와 화자 ID(현재)에는 동일한 화자 ID가 등록된다. 문장 기억부(113)는 이러한 문장 데이터를 기억한다. 또한, 문자마다 부여된 타임 코드가 직전의 타임 코드와 공통될 경우, 직전의 타임 코드 이후의 타임 코드에 대해서는 생략해도 된다.

스텝 S104의 처리가 완료되면, 이어서 제1 표시 제어부(121)는 화자와 발화 구간을 표시한다(스텝 S105). 보다 상세하게는, 스텝 S104의 처리가 완료되면, 제1 표시 제어부(121)는, 포털 화면(20)의 표시부(140)에의 표시를 중지하고, 편집 지원 화면(10)을 표시부(140)에 표시한다. 그리고, 제1 표시 제어부(121)는, 편집 지원 화면(10) 내에서 화자와 그 화자에 대응하는 발화 구간을 관련지어서 표시한다.

따라서, 도 9에 도시하는 바와 같이, 표시부(140)는 편집 지원 화면(10)을 표시한다. 편집 지원 화면(10)은, 스크립트 영역(11), 설정 영역(12), 편집 영역(13), 재생 버튼(14) 등을 포함하고 있다. 제1 표시 제어부(121)는, 문장 데이터와 화자 데이터에 기초하여, 편집 지원 화면(10)의 편집 영역(13) 내에서 각 화자와 문장 중의 각 화자에 대응하는 발화 구간을 관련지어서 표시한다.

스크립트 영역(11)에는, 문장 기억부(113)가 기억하는 문장 데이터의 타임 코드와 문자가 서로 관련지어진 상태로 표시된다. 특히, 스크립트 영역(11)에서의 스크립트의 란에는 화자 ID가 전환된 최초의 타임 코드부터 그 화자 ID의 연속이 끊어지는 최후의 타임 코드까지의 문자가 결합된 상태로 시계열로 표시된다. 설정 영역(12)에는, 음성 데이터의 재생 형식에 관한 설정 항목이나 화자를 편집한 후의 문장 데이터의 출력 형식에 관한 설정 항목 등이 표시된다.

편집 영역(13)에는, 상술한 바와 같이, 화자와 발화 구간이 관련지어져서 표시된다. 예를 들어, 편집 영역(13) 내에서 화자 「오다」와 발화 구간 「…군요」가 관련지어져서 표시되어 있다. 마찬가지로, 화자 「기무라」와 발화 구간 「확실히 예 그 자료에 대해서 질문이」가 관련지어져서 표시되어 있다. 화자 「야마다」와 발화 구간 「질문 부탁합니다」가 관련지어져서 표시되어 있다.

또한, 편집 영역(13)에는, 화자와 발화 구간 이외에, 진행 마크(16) 및 전환 포인트(17)가 표시된다. 진행 마크(16)는 음성 데이터의 현재의 재생 위치를 나타내는 마크이다. 전환 포인트(17)는, 단어 블록(도 8 참조)의 전환을 나타내는 포인트이다. 즉, 단어 블록이 다른 단어 블록으로 전환되는 2개의 단어 블록의 사이의 위치에 전환 포인트(17)가 표시된다. 본 실시 형태에서는, 1개의 전환 포인트(17)를 표시하고 있지만, 예를 들어 복수의 전환 포인트를 표시하여, 복수의 전환 포인트의 1개를 현재의 전환 포인트(17)로 하고, 나머지 전환 포인트와 다른 색을 부여해도 된다. 이에 의해, 유저는 어느 위치에서 단어 블록이 전환되는지를 확인할 수 있다.

전환 포인트(17)는, 입력부(130)에 대한 조작에 따라서 좌우로 이동시킬 수 있다. 예를 들어, 유저가 우측 화살표를 나타내는 커서 키를 누르는 조작을 행하면, 제1 표시 제어부(121)는 전환 포인트(17)를 우측으로 이동시킨다. 유저가 좌측 화살표를 나타내는 커서 키를 누르는 조작을 행하면, 제1 표시 제어부(121)는 전환 포인트(17)를 좌측으로 이동시킨다. 또한, 전환 포인트(17)를 우측 일방향으로 이동시키는 경우에는, 전환 포인트(17)를 이동시키는 키를 스페이스 키로 해도 된다. 전환 포인트(17)를 이동시키는 키는 설계나 실험 등에 따라서 적절히 결정하면 된다.

스텝 S105의 처리가 완료되면, 이어서 음성 재생부(125)는 재생 지시를 검출할 때까지 대기한다(스텝 S106: "아니오"). 음성 재생부(125)는, 재생 지시를 검출하면(스텝 S106: "예"), 음성 데이터를 재생한다(스텝 S107). 보다 상세하게는, 재생 버튼(14)(도 9 참조)이 포인터(Pt)에 의해 눌러지면, 음성 재생부(125)는, 음성 데이터의 재생 지시를 검출하여, 음성 데이터를 재생하기 시작한다. 음성 데이터의 재생이 개시되면, 음성 데이터의 재생 스피드에 따라서 진행 마크(16)(도 9 참조)가 우측 방향으로 이동한다. 유저는 회의의 음성 데이터를 재생하여 그 음성을 들으면서 전환 포인트(17)를 이동시켜, 화자를 편집하는 위치를 특정하는 조작을 행한다.

스텝 S107의 처리가 완료되면, 제1 표시 제어부(121)는 시점이 지정될 때까지 대기한다(스텝 S108: "아니오"). 제1 표시 제어부(121)는, 시점이 지정되면(스텝 S108: "예"), 제1 편집 화면을 표시한다(스텝 S109). 보다 상세하게는, 도 10의 (a)에 도시하는 바와 같이, 유저는, 먼저 전환 포인트(17)를 이동시켜서 화자의 편집을 희망하는 소정의 위치에서 정지시킨다. 유저가 그 소정의 위치에서 예를 들어 엔터(Enter) 키를 누르는 조작을 행하면, 제1 표시 제어부(121)는, 그 소정의 위치가 시점으로서 지정되었다고 판단한다. 제1 표시 제어부(121)는, 시점이 지정되면, 도 10의 (b)에 도시하는 바와 같이, 제1 편집 화면(30)을 편집 영역(13)에 중첩해서 표시한다. 제1 편집 화면(30)은 편집 처리를 유저에게 요구하는 화면이다. 또한, 제1 표시 제어부(121)는, 제1 편집 화면(30)의 표시와 아울러, 그 시점에 대응하는 발화 구간에서, 그 시점보다 앞에 위치하는 하나 또는 복수의 단어 블록에 상당하는 일부 발화 구간을 특정한다. 본 실시 형태에서는, 제1 표시 제어부(121)는, 하나의 단어 블록 「확실히」에 상당하는 일부 발화 구간을 특정한다. 또한, 제1 편집 화면(30)의 표시와 일부 발화 구간의 특정 순서는 반대이어도 된다.

스텝 S109의 처리가 완료되면, 화자 편집부(126)는 선택 지시를 검출할 때까지 대기한다(스텝 S110: "아니오"). 화자 편집부(126)는, 선택 지시를 검출하면(스텝 S110: "예"), 도 5에 도시한 바와 같이 화자를 편집한다(스텝 S111). 보다 상세하게는, 도 10의 (b)에 도시하는 바와 같이, 유저가 입력부(130)를 조작해서 제1 편집 화면(30)에 포함되는 복수의 화자의 어느 것을 포인터(Pt)에 의해 선택하는 조작을 행하면, 화자 편집부(126)는 선택 지시를 검출한다. 유저는 제1 편집 화면(30)에 포함되는 복수의 수치의 어느 것을 텐키에 의해 선택하는 조작을 행해도 된다.

여기서, 제1 편집 화면(30)에 포함되는 화자는 발성 순서와 발성량의 적어도 한쪽에 따른 우선 순위에 따라서 배열되어 배치되어 있다. 예를 들어, 회의에서의 사회 진행역의 화자는 다른 화자보다 발성 순서가 앞인 경우가 많고, 또한 발성량도 많다고 상정된다. 이 때문에, 제1 편집 화면(30)에서는, 편집 가능성이 높은 화자부터 순서대로 배열되어 배치된다. 이에 의해, 화자의 편집 처리의 수고를 줄일 수 있다.

화자 편집부(126)는, 선택 지시를 검출하면, 편집 처리가 발생했다고 판단하여, 제1 표시 제어부(121)에 의해 특정된 일부 발화 구간에 편집 처리를 적용하여, 그 일부 발화 구간의 화자를, 선택된 화자로 편집해서 표시한다. 본 실시 형태에서는, 화자 편집부(126)는, 단어 블록 「확실히」에 상당하는 일부 발화 구간에 편집 처리를 적용하여, 그 일부 발화 구간의 화자 「기무라」를, 선택된 화자 「기무라」로 편집해서 표시한다. 또한, 이 예에서는 실질적인 변경이 없기 때문에, 상세한 설명은 후술한다.

스텝 S111의 처리가 완료되면, 화자 편집부(126)는, 화자가 공통되는지 여부를 판단한다(스텝 S112). 보다 상세하게는, 화자 편집부(126)는, 편집 후의 화자와 편집 후의 화자의 단어 블록에 상당하는 일부 발화 구간 직전에 위치하는 앞의 발화 구간의 화자가 공통되는지 여부를 판단한다. 본 실시 형태에서는, 화자 편집부(126)는, 편집 후의 화자 「기무라」와 편집 후의 화자 「기무라」의 단어 블록 「확실히」에 상당하는 일부 발화 구간 직전에 위치하는 앞의 발화 구간 「…군요」의 화자 「오다」가 공통되는지 여부를 판단한다. 여기에서는, 화자 「기무라」와 화자 「오다」가 공통되지 않기 때문에, 화자 편집부(126)는 화자가 공통되지 않는다고 판단한다(스텝 S112: "아니오").

화자가 공통되지 않을 경우, 화자 편집부(126)는, 스텝 S113 및 S114의 처리를 스킵하고, 시점 후가 처리 완료인지 여부를 판단한다(스텝 S115). 화자 편집부(126)는, 시점 후가 처리 완료가 아니라고 판단한 경우(스텝 S115: "아니오"), 제1 표시 제어부(121)는, 도 4에 도시하는 바와 같이 다시 스텝 S109의 처리를 실행한다. 즉, 처음의 스텝 S109의 처리에서는, 도 10의 (b)에 도시하는 바와 같이, 전환 포인트(17)에 의해 특정된 시점에 대응하는 발화 구간에서, 그 시점보다 앞에 위치하는 하나의 단어 블록 「확실히」에 상당하는 일부 발화 구간이 화자의 편집 처리의 대상으로 되었다. 그러나, 전환 포인트(17)에 의해 특정된 시점에 대응하는 발화 구간에서, 그 시점보다 후에 위치하는 복수의 단어 블록 「예 그 자료에 대해서 질문이」에 상당하는 잔여부의 발화 구간이 화자의 편집 처리의 대상으로 되어 있지 않다. 이 때문에, 화자 편집부(126)는, 시점 후가 처리 완료가 아니라고 판단하여, 제1 표시 제어부(121)는, 도 10의 (c)에 도시하는 바와 같이 다시 제1 편집 화면(30)을 편집 영역(13)에 중첩해서 표시한다. 또한, 제1 표시 제어부(121)는, 제1 편집 화면(30)의 표시와 아울러, 그 시점에 대응하는 발화 구간에서, 그 시점보다 후에 위치하는 하나 또는 복수의 단어 블록에 상당하는 잔여부의 발화 구간을 특정한다. 본 실시 형태에서는, 제1 표시 제어부(121)는, 복수의 단어 블록 「예 그 자료에 대해서 질문이」에 상당하는 잔여부의 발화 구간을 특정한다.

2회째의 스텝 S109의 처리가 완료되고, 스텝 S110의 처리에서, 화자 편집부(126)가 선택 지시를 검출하면, 스텝 S111(도 5 참조)의 처리에서, 화자 편집부(126)는 화자를 편집한다. 보다 상세하게는, 도 10의 (c)에 도시하는 바와 같이, 유저가 다시 입력부(130)를 조작해서 제1 편집 화면(30)에 포함되는 복수의 화자의 어느 것을 포인터(Pt)에 의해 선택하는 조작을 행하면, 화자 편집부(126)는 선택 지시를 검출한다. 화자 편집부(126)는, 선택 지시를 검출하면, 문장 기억부(113)에 액세스하여, 도 11에 도시한 바와 같이, 특정된 단어 블록에 대응하는 화자의 화자 ID(현재)를 편집 후의 화자의 화자 ID로 갱신한다. 또한, 화자 편집부(126)는, 선택 지시를 검출하면, 편집 처리가 발생했다고 판단하여, 특정된 잔여부의 발화 구간에 편집 처리를 적용하여, 그 잔여부의 발화 구간의 화자를, 선택된 화자로 편집해서 표시한다. 본 실시 형태에서는, 화자 편집부(126)는, 복수의 단어 블록 「예 그 자료에 대해서 질문이」에 상당하는 잔여부의 발화 구간에 편집 처리를 적용하여, 그 잔여부의 발화 구간의 화자 「기무라」를, 선택된 화자 「야마다」로 편집해서 표시한다.

스텝 S111의 처리가 완료되면, 스텝 S112의 처리에서, 화자 편집부(126)는 다시 화자가 공통되는지 여부를 판단한다. 본 실시 형태에서는, 화자 편집부(126)는, 편집 후의 화자 「야마다」와 편집 후의 화자 「야마다」의 복수의 단어 블록 「예 그 자료에 대해서 질문이」에 상당하는 잔여부의 발화 구간 직후에 위치하는 뒤의 발화 구간 「질문 부탁합니다」의 화자 「야마다」가 공통되는지 여부를 판단한다. 여기에서는, 2개의 화자 「야마다」가 공통되기 때문에, 화자 편집부(126)는 화자가 공통된다고 판단한다(스텝 S112: "예").

화자가 공통될 경우, 화자 편집부(126)는 발화 구간을 결합 상태로 표시한다(스텝 S113). 보다 상세하게는, 화자 편집부(126)는, 편집 후에 공통되는 2개의 화자의 발화 구간을 결합한 상태로 표시한다. 아울러, 화자 편집부(126)는, 결합 전의 2개의 발화 구간 각각에 대응지은 2개의 화자의 어느 한쪽을 결합 후의 발화 구간과 대응지어서 표시한다. 이에 의해, 화자 편집부(126)는, 복수의 단어 블록 「예 그 자료에 대해서 질문이」에 상당하는 잔여부의 발화 구간과 뒤의 발화 구간 「질문 부탁합니다」를 결합하여, 도 12의 (a)에 도시하는 바와 같이, 새로운 발화 구간 「예 그 자료에 대해서 질문이 질문 부탁합니다」로 2개의 발화 구간을 결합한 상태로 표시한다. 또한, 결합한 발화 구간에 대하여 1명의 화자를 대응지어서 표시한다. 이와 같이, 화자가 편집되고 발화 구간이 결합된다. 특히, 전환 포인트(17)에 의해 특정되는 시점보다 앞에 대한 처리가 완료된 후에 동적으로 그 시점보다 뒤에 대한 처리가 요구되기 때문에, 시계열을 따른 편집 작업으로 되어, 편집 작업의 수고가 억제된다.

스텝 S113의 처리가 완료되면, 이어서 포인트 관리부(127)는 구획 시점 개소를 보존한다(스텝 S114). 보다 상세하게는, 포인트 관리부(127)는, 발화 구간을 결합하기 전의 2개의 발화 구간의 구획을 특정하는 시점의 개소를 구획 시점 개소 데이터로 해서 그 개소에 대응하는 시점 및 결합한 발화 구간의 종점과 아울러 포인트 기억부(115)에 보존한다. 이에 의해, 포인트 기억부(115)는 구획 시점 개소 데이터를 기억한다.

본 실시 형태에서는, 도 10의 (c)에 도시하는 바와 같이, 발화 구간을 결합하기 전의 2개의 발화 구간의 구획 시점 개소는, 발화 구간 「확실히 예 그 자료에 대해서 질문이」와 발화 구간 「질문 부탁합니다」의 사이의 시점 P1에 상당한다. 이 때문에, 도 13에 도시하는 바와 같이, 포인트 기억부(115)는, 발화 구간의 말미의 단어 블록 「질문이」의 식별자 「08」과 발화 구간의 선두의 단어 블록 「질문」의 식별자 「09」를 관련지어, 구획 시점 개소 데이터로서 기억한다. 또한, 포인트 기억부(115)는, 구획 시점 개소 데이터의 기억과 아울러, 구획 시점 개소에 대응하는 시점 및 결합한 발화 구간의 종점을 특정할 수 있는 단어 블록의 식별자를 기억한다. 예를 들어, 포인트 기억부(115)는, 단어 블록 「확실히」의 식별자 「03」 및 단어 블록 「예」의 식별자 「04」를, 시점을 특정할 수 있는 단어 블록으로서 기억한다. 또한, 포인트 기억부(115)는, 단어 블록 「합니다」의 식별자 「11」과 소정의 식별자 「-」를, 종점을 특정할 수 있는 단어 블록의 식별자로서 기억한다. 또한, 단어 블록의 식별자 대신에, 문자 ID를 단어 블록의 식별자와 마찬가지로 이용해도 된다.

스텝 S114의 처리가 완료되면, 다시 스텝 S115의 처리에서, 화자 편집부(126)는 시점 후가 처리 완료인지 여부를 판단한다. 화자 편집부(126)는, 시점 후가 처리 완료라고 판단한 경우(스텝 S115: "예"), 이어서 제2 표시 제어부(128)는 다른 시점이 지정될 때까지 대기한다(스텝 S116: "아니오"). 제2 표시 제어부(128)는, 다른 시점이 지정되면(스텝 S116: "예"), 제2 편집 화면을 표시한다(스텝 S117). 보다 상세하게는, 도 12의 (b)에 도시하는 바와 같이, 유저가 전환 포인트(17)를 이동시켜서 상술한 소정의 위치와 다른 다른 위치에서 정지시켜, 엔터 키를 누르는 조작을 행하면, 제2 표시 제어부(128)는, 그 다른 위치가 시점으로서 지정되었다고 판단한다. 제2 표시 제어부(128)는, 다른 시점이 지정되면, 도 12의 (c)에 도시하는 바와 같이, 제2 편집 화면(40)을 편집 영역(13)에 중첩해서 표시한다. 제2 편집 화면(40)은 편집 처리를 유저에게 요구하는 화면이다. 제2 편집 화면(40)에 포함되는 화자는 제1 편집 화면(30)과 마찬가지로 배열되어 있다. 또한, 제2 표시 제어부(128)는, 제2 편집 화면(40)의 표시와 아울러, 그 시점에 대응하는 발화 구간에서, 그 시점보다 앞에 위치하는 하나 또는 복수의 단어 블록에 상당하는 일부 발화 구간을 특정한다. 본 실시 형태에서는, 제2 표시 제어부(128)는, 하나의 단어 블록 「예」에 상당하는 일부 발화 구간을 특정한다. 또한, 제2 편집 화면(40)의 표시와 일부 발화 구간의 특정 순서는 반대이어도 된다.

스텝 S117의 처리가 완료되면, 화자 편집부(126)는 선택 지시를 검출할 때까지 대기한다(스텝 S118: "아니오"). 화자 편집부(126)는, 선택 지시를 검출하면(스텝 S118: "예"), 화자를 편집한다(스텝 S119). 보다 상세하게는, 도 12의 (c)에 도시하는 바와 같이, 유저가 입력부(130)를 조작해서 제2 편집 화면(40)에 포함되는 복수의 화자의 어느 것을 포인터(Pt)에 의해 선택하는 조작을 행하면, 화자 편집부(126)는 선택 지시를 검출한다. 유저는 제2 편집 화면(40)에 포함되는 복수의 수치의 어느 것을 텐키에 의해 선택하는 조작을 행해도 된다. 화자 편집부(126)는, 선택 지시를 검출하면, 편집 처리가 발생했다고 판단하여, 특정된 일부 발화 구간에 편집 처리를 적용하여, 그 일부 발화 구간의 화자를, 선택된 화자로 편집해서 표시한다. 본 실시 형태에서는, 화자 편집부(126)는, 단어 블록 「예」에 상당하는 일부 발화 구간에 편집 처리를 적용하여, 그 일부 발화 구간의 화자 「야마다」를, 선택된 화자 「야마다」로 편집해서 표시한다. 또한, 이 예에서는 실질적인 변경이 없기 때문에, 상세한 설명은 후술한다.

스텝 S119의 처리가 완료되면, 제2 표시 제어부(128)는 제2 편집 화면을 재표시한다(스텝 S120). 보다 상세하게는, 제2 표시 제어부(128)는, 도 14의 (a)에 도시하는 바와 같이, 제2 편집 화면(40)을 편집 영역(13)에 중첩해서 재표시한다. 또한, 제2 표시 제어부(128)는, 제2 편집 화면(40)의 재표시와 아울러, 그 다른 시점에 대응하는 발화 구간에서, 그 다른 시점보다 뒤에 위치하는 하나 또는 복수의 단어 블록에 상당하는 잔여부의 발화 구간을 특정 발화 구간으로서 특정한다. 본 실시 형태에서는, 제2 표시 제어부(128)는, 복수의 단어 블록 「그 자료에 대해서 질문이 질문 부탁합니다」에 상당하는 잔여부의 발화 구간을 특정 발화 구간으로서 특정한다. 또한, 제2 편집 화면(40)의 재표시와 잔여부의 발화 구간의 특정 순서는 반대이어도 된다.

스텝 S120의 처리가 완료되면, 화자 편집부(126)는 선택 지시를 검출할 때까지 대기한다(스텝 S121: "아니오"). 화자 편집부(126)는, 선택 지시를 검출하면(스텝 S121: "예"), 포인트 관리부(127)는 구획 시점 개소가 있는지 여부를 판단한다(스텝 S122). 보다 상세하게는, 포인트 관리부(127)는, 포인트 기억부(115)를 참조하여, 구획 시점 개소 데이터가 포인트 기억부(115)에 기억되어 있는지 여부를 판단한다.

포인트 관리부(127)는, 구획 시점 개소가 있다고 판단한 경우(스텝 S122: "예"), 화자 편집부(126)는, 구획 시점 개소까지 화자를 편집하고(스텝 S123), 처리를 종료한다. 보다 상세하게는, 도 14의 (a)에 도시하는 바와 같이, 유저가 입력부(130)를 조작해서 제2 편집 화면(40)에 포함되는 복수의 화자의 어느 것을 포인터(Pt)에 의해 선택하는 조작을 행하면, 화자 편집부(126)는 선택 지시를 검출한다. 화자 편집부(126)는, 선택 지시를 검출하면, 문장 기억부(113)에 액세스한다. 그리고, 화자 편집부(126)는, 도 15에 도시하는 바와 같이, 특정된 단어 블록 중에서, 다른 시점 직후의 단어 블록부터 구획 시점 개소 직전까지의 단어 블록에 대응하는 화자의 화자 ID(현재)에 편집 처리를 적용하여, 그 화자 ID를 편집 후의 화자의 화자 ID로 갱신한다.

또한, 화자 편집부(126)는, 선택 지시를 검출하면, 편집 처리가 발생했다고 판단하여, 특정 발화 구간에 편집 처리를 적용하여, 그 특정 발화 구간의 화자를, 선택된 화자로 편집해서 표시한다. 본 실시 형태에서는, 화자 편집부(126)는, 도 14의 (b)에 도시하는 바와 같이, 복수의 단어 블록 「그 자료에 대해서 질문이」에 상당하는 특정 발화 구간에 편집 처리를 적용하여, 그 특정 발화 구간의 화자 「야마다」를, 선택된 화자 「기무라」로 편집해서 표시한다.

한편, 포인트 관리부(127)는, 구획 시점 개소가 없다고 판단한 경우(스텝 S122: "아니오"), 화자 편집부(126)는, 스텝 S123의 처리를 스킵하여 처리를 종료한다. 또한, 구획 시점 개소가 없을 경우, 화자 편집부(126)는, 에러 처리를 실행하고 나서 처리를 종료해도 된다.

도 16의 (a) 및 도 16의 (b)는 비교예를 설명하기 위한 도면이다. 특히, 도 16의 (a) 및 도 16의 (b)는, 상술한 도 14의 (a) 및 도 14의 (b)에 대응하는 도면이다. 상술한 바와 같이, 제1 실시 형태에서는, 포인트 관리부(127)가 구획 시점 개소 데이터를 포인트 기억부(115)에 보존해서 관리하는 것을 설명하였다. 예를 들어, 구획 시점 개소 데이터가 관리되어 있지 않은 경우, 도 16의 (a)에 도시하는 바와 같이, 유저가 입력부(130)를 조작해서 제2 편집 화면(40)에 포함되는 복수의 화자의 어느 것을 포인터(Pt)에 의해 선택하는 조작을 행하면, 화자 편집부(126)는 선택 지시를 검출한다. 화자 편집부(126)는, 선택 지시를 검출하면, 제2 표시 제어부(128)에 의해 특정된 복수의 단어 블록 모두에 상당하는 잔여부의 발화 구간의 화자를, 선택된 화자로 편집해서 표시한다. 비교예에서는, 화자 편집부(126)는, 도 16의 (b)에 도시하는 바와 같이, 복수의 단어 블록 「그 자료에 대해서 질문이 질문 부탁합니다」 모두에 상당하는 잔여부의 발화 구간의 화자 「야마다」를, 선택된 화자 「기무라」로 편집해서 표시한다. 이 때문에, 화자에 오류가 없는 복수의 단어 블록 「질문 부탁합니다」까지 편집되어버려, 이 부분에 대해서 다시 유저에게는 편집 작업이 발생한다. 그러나, 제1 실시 형태에 의하면, 이러한 불필요한 편집 작업이 발생하지 않는다. 즉, 제1 실시 형태에 의하면, 비교예와 대비하여, 화자의 식별 결과에 대한 편집 처리의 편리성이 향상된다.

이상, 제1 실시 형태에 의하면, 단말 장치(100)는, 처리부(120)를 포함하고, 처리부(120)는, 제1 표시 제어부(121), 화자 편집부(126) 및 제2 표시 제어부(128)를 포함하고 있다. 제1 표시 제어부(121)는, 음성 인식에 기초하여 생성된 문장 데이터에 대해서 식별된 화자를 나타내는 정보와, 문장 데이터 중의, 식별된 화자에 대응하는 발화 구간을 관련지어서 표시부(140)에 표시한다. 화자 편집부(126)는, 화자의 식별 결과를 편집하는 편집 처리가 발생하고, 그 편집 처리에 의해, 인접하는 2 이상의 발화 구간의 각 화자가 공통되는 경우에는, 인접하는 2 이상의 발화 구간을 결합한 상태로 표시부(140)에 표시한다. 제2 표시 제어부(128)는, 결합한 2 이상의 발화 구간 내의 특정 발화 구간에 대해서, 화자의 식별 결과를 편집하는 편집 처리를 행하는 발화 구간의 시점이 지정되고, 또한 지정된 시점으로부터, 결합한 2 이상의 발화 구간의 종점까지의 사이에 결합 전의 2 이상의 구간의 어느 것의 시점에 대응하는 개소가 존재하는 경우, 지정된 시점부터 그 개소까지의 발화 구간에 편집 처리를 적용한다. 이에 의해, 화자의 식별 결과에 대한 편집 처리의 편리성을 향상시킬 수 있다.

특히, 화자의 식별에 학습 완료 모델이나 소정의 음성 모델을 이용하고, 화자가 짧은 단어 블록을 발화한 경우, 화자의 음성 특징을 충분히 판별할 수 없어, 고정밀도로 화자를 식별할 수 없을 가능성이 있다. 짧은 단어 블록으로서는, 예를 들어 「예」 등, 몇 문자 정도의 단어 블록이 해당한다. 고정밀도로 화자를 식별할 수 없을 경우, 단말 장치(100)는 잘못된 식별 결과를 표시할 우려가 있다. 이러한 경우에도, 본 실시 형태에 따르면, 화자의 식별 결과에 대한 편집 처리의 편리성을 향상시킬 수 있다.

(제2 실시 형태)

계속해서, 도 17을 참조하여 본건의 제2 실시 형태에 대해서 설명한다. 도 17의 (a)는 제2 실시 형태에 따른 갱신 전의 문장 데이터의 일례이다. 도 17의 (b)는 제2 실시 형태에 따른 갱신 후의 문장 데이터의 일례이다. 제1 실시 형태에서는, 화자 편집부(126)는, 화자를 하나 또는 복수의 단어 블록 단위로 편집했지만, 단어 블록에 포함되는 문자의 단위로 화자를 편집해도 된다. 이 경우, 상술한 전환 포인트(17)를 문자 단위로 이동시키면 된다.

예를 들어, 도 17의 (a)에 도시하는 바와 같이, 단어 블록의 식별자 「09」가 공통되는 문자 「질」 및 문자 「문」에 관해서, 도 17의 (b)에 도시하는 바와 같이, 화자 편집부(126)가 문자 「질」의 화자 ID(현재)를 화자 ID 「03」에서 도시하지 않은 화자 「가가와」를 식별하는 화자 ID 「04」로 갱신한다. 이 경우, 화자 편집부(126)는, 단어 블록의 식별자를 분할하여, 단어 블록의 이후의 식별자를 다시 부여한다. 구체적으로는, 도 17의 (b)에 도시하는 바와 같이, 화자 편집부(126)는, 문자 「문」의 단어 블록의 식별자 「09」를 식별자 「10」으로 다시 부여한다. 이후의 식별자에 대해서도 마찬가지이다. 또한, 화자 편집부(126)는, 원래의 단어 블록의 발화 시간에 기초해서 새로운 단어 블록의 발화 시간을 추정할 수 있다. 예를 들어, 화자 편집부(126)는, 원래의 단어 블록의 발화 시간+문자수×수밀리초를 새로운 단어 블록의 발화 시간으로서 추정할 수 있다.

이와 같이, 제2 실시 형태에 따르면, 문자 단위로 화자를 편집하는 경우에도, 화자의 식별 결과에 대한 편집 처리의 편리성을 향상시킬 수 있다.

(제3 실시 형태)

계속해서, 도 18을 참조하여 본건의 제3 실시 형태에 대해서 설명한다. 도 18은 편집 지원 시스템(ST)의 일례이다. 또한, 도 3에 도시하는 단말 장치(100)의 각 부와 마찬가지의 구성에는 동일 부호를 붙이고, 그 설명을 생략한다.

편집 지원 시스템(ST)은, 단말 장치(100)와 서버 장치(200)를 포함하고 있다. 단말 장치(100)와 서버 장치(200)는, 통신 네트워크(NW)를 통해서 접속되어 있다. 통신 네트워크(NW)로서는, 예를 들어 Local Area Network(LAN)나 인터넷 등이 있다.

도 18에 도시하는 바와 같이, 단말 장치(100)는, 입력부(130), 표시부(140) 및 통신부(150)를 구비하고 있다. 한편, 서버 장치(200)는, 기억부(110), 처리부(120) 및 통신부(160)를 구비하고 있다. 2개의 통신부(150, 160)는 모두 네트워크 I/F(100D) 또는 근거리 무선 통신 회로(100J)에 의해 실현할 수 있다. 이와 같이, 제1 실시 형태에서 설명한 기억부(110) 및 처리부(120)를, 단말 장치(100) 대신에 서버 장치(200)가 구비하고 있어도 된다. 즉, 서버 장치(200)를 편집 지원 장치로 해도 된다.

이 경우, 단말 장치(100)의 입력부(130)가 조작되어, 상술한 회의의 음성 데이터가 2개의 통신부(150, 160)를 통해서 기억부(110)(보다 상세하게는 음성 기억부(111))에 저장된다. 또한, 입력부(130)가 조작되어, 상술한 화자의 음성 데이터가 2개의 통신부(150, 160)를 통해서 처리부(120)(보다 상세하게는 화자 식별부(124))에 입력된다.

처리부(120)는, 기억부(110)에 액세스하여 회의의 음성 데이터를 취득하고, 회의의 음성 데이터에 대하여, 제1 실시 형태에서 설명한 각종 처리를 실행해서 문장 데이터를 생성한다. 또한, 처리부(120)는, 입력된 화자의 음성 데이터에 기초하여, 화자의 음성 특징을 기계 학습한 학습 완료 모델을 생성한다. 그리고, 처리부(120)는, 회의의 음성 데이터와 학습 완료 모델에 기초하여 화자를 식별한다. 처리부(120)는, 식별한 화자와 그 화자에 대응하는 발화 구간을 관련지어서 표시하는 편집 지원 화면(10)의 화면 정보를 처리 결과로서 통신부(160)에 출력한다. 통신부(160)는, 처리 결과를 통신부(150)에 송신하고, 통신부(150)는, 처리 결과를 수신하면, 화면 정보를 표시부(140)에 출력한다. 이에 의해, 표시부(140)는 편집 지원 화면(10)을 표시한다.

이와 같이, 단말 장치(100)가 기억부(110)와 처리부(120)를 구비하지 않고, 서버 장치(200)가 기억부(110)와 처리부(120)를 구비하고 있어도 된다. 또한, 서버 장치(200)가 기억부(110)를 구비하고, 통신 네트워크(NW)에 접속된 다른 서버 장치(도시하지 않음)가 처리부(120)를 구비하고 있어도 된다. 이와 같은 구성을 편집 지원 시스템으로 해도 된다. 이러한 실시 형태에서도, 화자의 식별 결과에 대한 편집 처리의 편리성을 향상시킬 수 있다.

이상, 본 발명의 바람직한 실시 형태에 대해서 상세하게 설명했지만, 본 발명에 따른 특정 실시 형태에 한정되는 것은 아니며, 청구범위에 기재된 본 발명의 요지의 범위 내에서 다양한 변형·변경이 가능하다. 예를 들어, 상술한 실시 형태에서는, 제1 편집 화면(30)을 연속해서 동적으로 표시하는 것을 설명하였다. 한편, 커서 키로 전환 포인트(17)를 이동시키고, 엔터 키를 누름함으로써 그 때마다 제1 편집 화면(30)을 표시시키도록 해도 된다. 이러한 제어를 제2 편집 화면(40)에 적용해도 된다. 또한, 참가자 데이터가 등록되어 있지 않은 경우에는, 화자 대신에 식별 문자나 식별 기호를 식별 결과로서 채용해도 된다.

100: 단말 장치
110: 기억부
115: 포인트 기억부
120: 처리부
121: 제1 표시 제어부
122: 음성 인식부
123: 문장 생성부
124: 화자 식별부
125: 음성 재생부
126: 화자 편집부
127: 포인트 관리부
128: 제2 표시 제어부
130: 입력부
140: 표시부

Claims

음성 인식에 기초하여 생성된 문장에 대해서 식별된 화자를 나타내는 정보와, 상기 문장 중의, 식별된 상기 화자에 대응하는 구간을 관련지어서 표시부에 표시하고,
상기 화자의 식별 결과를 편집하는 제1 편집 처리가 발생하고, 상기 제1 편집 처리에 의해, 인접하는 2 이상의 구간의 각 화자가 공통될 경우에는, 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하고,
결합한 상기 2 이상의 구간 내의 특정 구간에 대해서, 상기 화자의 식별 결과를 편집하는 제2 편집 처리를 행하는 구간의 시점이 지정되고, 또한 지정된 상기 시점부터, 결합한 상기 2 이상의 구간의 종점까지의 사이에 결합 전의 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소가 존재하는 경우, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는,
처리를 컴퓨터에 실행시키기 위한 편집 지원 프로그램.
제1항에 있어서, 상기 제1 편집 처리가 발생하고, 상기 제1 편집 처리에 의해, 인접하는 상기 2 이상의 구간의 각 화자가 공통될 경우에는, 인접하는 상기 2 이상의 구간에 상기 제1 편집 처리를 적용하여, 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하는 것을 특징으로 하는, 편집 지원 프로그램.
제1항 또는 제2항에 있어서, 상기 제1 편집 처리를 요구하는 제1 편집 화면과 상기 제2 편집 처리를 요구하는 제2 편집 화면을 상기 표시부에 표시하고,
상기 제1 편집 화면에 대한 지시에 기초하여, 인접하는 상기 2 이상의 구간에 상기 제1 편집 처리를 적용하고, 상기 제2 편집 화면에 대한 지시에 기초하여, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는 것을 특징으로 하는, 편집 지원 프로그램.
제3항에 있어서, 상기 제1 편집 화면 및 상기 제2 편집 화면은 모두, 편집 대상으로서 상기 화자를 나타내는 정보를 포함하고, 상기 화자를 나타내는 정보는, 상기 화자의 발성 순서와 발성량의 적어도 한쪽에 따른 우선 순위에 따라서 배열되어 있는 것을 특징으로 하는, 편집 지원 프로그램.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제1 편집 처리가 상기 화자에 대응하는 구간의 구간 도중에 발생하고, 상기 제1 편집 처리에 의해, 상기 구간 도중보다 앞에서 인접하는 상기 2 이상의 구간의 각 화자가 공통되고, 또한 상기 구간 도중보다 뒤에서 인접하는 상기 2 이상의 구간의 각 화자가 공통될 경우에는, 상기 구간 도중보다 앞에서 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시한 후에, 상기 구간 도중보다 뒤에서 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하는 것을 특징으로 하는, 편집 지원 프로그램.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 화자의 음성과 상기 음성 인식에 기초하여 상기 문장을 생성하고,
상기 화자의 음성과 상기 화자의 음성 특징을 학습한 학습 완료 모델에 기초하여, 생성한 상기 문장에 대해서 상기 화자를 식별하는 처리를 포함하는 것을 특징으로 하는, 편집 지원 프로그램.
제1항 내지 제6항 중 어느 한 항에 있어서, 지정된 상기 시점, 및 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소를 기억부에 보존하는 처리를 포함하고,
상기 기억부를 참조하여, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는 것을 특징으로 하는, 편집 지원 프로그램.
음성 인식에 기초하여 생성된 문장에 대해서 식별된 화자를 나타내는 정보와, 상기 문장 중의, 식별된 상기 화자에 대응하는 구간을 관련지어서 표시부에 표시하고,
상기 화자의 식별 결과를 편집하는 제1 편집 처리가 발생하고, 상기 제1 편집 처리에 의해, 인접하는 2 이상의 구간의 각 화자가 공통될 경우에는, 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하고,
결합한 상기 2 이상의 구간 내의 특정 구간에 대해서, 상기 화자의 식별 결과를 편집하는 제2 편집 처리를 행하는 구간의 시점이 지정되고, 또한 지정된 상기 시점부터, 결합한 상기 2 이상의 구간의 종점까지의 사이에 결합 전의 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소가 존재하는 경우, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는,
처리를 컴퓨터가 실행하는 편집 지원 방법.
음성 인식에 기초하여 생성된 문장에 대해서 식별된 화자를 나타내는 정보와, 상기 문장 중의, 식별된 상기 화자에 대응하는 구간을 관련지어서 표시부에 표시하고,
상기 화자의 식별 결과를 편집하는 제1 편집 처리가 발생하고, 상기 제1 편집 처리에 의해, 인접하는 2 이상의 구간의 각 화자가 공통될 경우에는, 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하고,
결합한 상기 2 이상의 구간 내의 특정 구간에 대해서, 상기 화자의 식별 결과를 편집하는 제2 편집 처리를 행하는 구간의 시점이 지정되고, 또한 지정된 상기 시점부터, 결합한 상기 2 이상의 구간의 종점까지의 사이에 결합 전의 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소가 존재하는 경우, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는,
처리를 실행하는 처리부를 구비하는 편집 지원 장치.
제9항에 있어서, 상기 처리부는, 상기 제1 편집 처리가 발생하고, 상기 제1 편집 처리에 의해, 인접하는 상기 2 이상의 구간의 각 화자가 공통될 경우에는, 인접하는 상기 2 이상의 구간에 상기 제1 편집 처리를 적용하여, 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하는 것을 특징으로 하는, 편집 지원 장치.
제9항 또는 제10항에 있어서, 상기 처리부는, 상기 제1 편집 처리를 요구하는 제1 편집 화면과 상기 제2 편집 처리를 요구하는 제2 편집 화면을 상기 표시부에 표시하고, 상기 제1 편집 화면에 대한 지시에 기초하여, 인접하는 상기 2 이상의 구간에 상기 제1 편집 처리를 적용하고, 상기 제2 편집 화면에 대한 지시에 기초하여, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는 것을 특징으로 하는, 편집 지원 장치.
제11항에 있어서, 상기 처리부는, 상기 제1 편집 화면 및 상기 제2 편집 화면은 모두, 편집 대상으로서 상기 화자를 나타내는 정보를 포함하고, 상기 화자를 나타내는 정보는 상기 화자의 발성 순서와 발성량의 적어도 한쪽에 따른 우선 순위에 따라서 배열되어 있는 것을 특징으로 하는, 편집 지원 장치.
제9항 내지 제12항 중 어느 한 항에 있어서, 상기 처리부는, 상기 제1 편집 처리가 상기 화자에 대응하는 구간의 구간 도중에 발생하고, 상기 제1 편집 처리에 의해, 상기 구간 도중보다 앞에서 인접하는 상기 2 이상의 구간의 각 화자가 공통되고, 또한 상기 구간 도중보다 뒤에서 인접하는 상기 2 이상의 구간의 각 화자가 공통될 경우에는, 상기 구간 도중보다 앞에서 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시한 후에, 상기 구간 도중보다 뒤에서 인접하는 상기 2 이상의 구간을 결합한 상태로 상기 표시부에 표시하는 것을 특징으로 하는, 편집 지원 장치.
제9항 내지 제13항 중 어느 한 항에 있어서, 상기 처리부는, 상기 화자의 음성과 상기 음성 인식에 기초하여 상기 문장을 생성하고, 상기 화자의 음성과 상기 화자의 음성 특징을 학습한 학습 완료 모델에 기초하여, 생성한 상기 문장에 대해서 상기 화자를 식별하는 것을 특징으로 하는, 편집 지원 장치.
제9항 내지 제14항 중 어느 한 항에 있어서, 상기 처리부는, 지정된 상기 시점, 및 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소를 기억부에 보존하고, 상기 기억부를 참조하여, 지정된 상기 시점부터 상기 2 이상의 구간의 어느 것의 시점에 대응하는 개소까지의 구간에 상기 제2 편집 처리를 적용하는 것을 특징으로 하는, 편집 지원 장치.