KR20200140740A

KR20200140740A - 정보 처리 시스템, 정보 처리장치, 및 정보 처리방법

Info

Publication number: KR20200140740A
Application number: KR1020200067977A
Authority: KR
Inventors: 유지 나야; 토루 타카하시; 타케시 마츠무라
Original assignee: 캐논 가부시끼가이샤
Priority date: 2019-06-07
Filing date: 2020-06-05
Publication date: 2020-12-16
Also published as: KR102701088B1; CN112055126A; CN115460328A; CN112055126B; US11838459B2; US20200389565A1

Abstract

화상 형성 시스템은, 화상 형성장치; 정보를 표시가능한 디스플레이; 소리를 취득가능한 마이크로폰; 및 화상 형성시의 설정에 관련되는 파라미터를 포인팅 위치에 의해 나타내는 조작 오브젝트를 구비한 화면을 상기 디스플레이에 표시하도록 제어를 행하는 유닛과, 상기 마이크로폰을 거쳐 취득된 원 프레이즈의 음성 표현을 나타내는 음성 정보에 근거하여, 상기 조작 오브젝트에 대응하는 제1 식별 정보와 상기 포인팅 위치에 대한 갱신 처리에 대응하는 제2 식별 정보를 취득하는 유닛과, 상기 조작 오브젝트가 나타내는 현재의 포인팅 위치에 관한 정보, 상기 제1 식별 정보 및 상기 제2 식별 정보에 적어도 근거하여, 상기 포인팅 위치에 관해 갱신된 상기 조작 오브젝트를 구비하는 화면을 표시하도록 제어를 행하는 유닛으로서 기능시키도록 구성된 한 개 이상의 콘트롤러를 구비한다.

Description

정보 처리 시스템, 정보 처리장치, 및 정보 처리방법{INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING APPARATUS, AND INFORMATION PROCESSING METHOD}

본 개시내용은, 음성에 따른 조작이 가능한 정보 처리 시스템에 관한 것이다. 정보 처리 시스템은, 프린터, 스캐너, 팩시밀리 기기 및 이들 기능을 복수 구비한 복합기, 퍼스널컴퓨터, 모바일 단말 등의 정보 처리장치를 구비한다.

최근, 음성인식 기술의 발전에 의해, 음성 지시에 따른 처리를 실행하는 장치가 보급되고 있다.

일본국 특개 2019-67258호 공보에는, 유저의 목소리에 의해 내려진 인쇄 지시에 따라 인쇄 처리를 실행하도록 구성된 시스템이 개시되어 있다. 일본국 특개 2019-67258호에서는, 인쇄장치에 대한 인쇄 지시 등의 주요한 지시를 음성으로 행하는 방법을 예시하고 있지만, 설정 변경 등의 상세한 지시를 음성으로 행하는 방법에 대해서는 검토하지 않고 있다. 또한, 이와 같은 장치에서는, 설정 항목의 종류는 다양하며, 그 종류에 따라 다양한 화면구성 및 지시 방법이 존재한다. 따라서, 보다 조작성이 우수한 시스템을 제공하기 위해서는, 설정 화면의 구성에 따른 다양한 음성 지시 방법을 허용하는 것이 바람직하다.

상기한 내용을 감안하여, 본 개시내용은 설정 화면의 구성에 따른 다양하게 내려지는 음성 지시에 따라 조작이 가능한 정보 처리 시스템을 제공한다. 특히, 본 개시내용은, 슬라이더 형상의 조작 오브젝트를 구비한 설정 화면이나 복수의 선택 오브젝트를 구비한 설정 화면을 음성 지시에 따라 조작가능한 정보 처리 시스템을 제공하는 것이다.

상기한 내용을 감안하여, 본 발명은, 시트에 화상을 형성하도록 구성된 화상 형성 디바이스; 정보를 표시가능한 디스플레이; 소리를 취득가능한 마이크로폰; 및 화상 형성시의 설정에 관련되는 파라미터를 포인팅 위치에 의해 나타내는 조작 오브젝트를 구비한 화면을 상기 디스플레이에 표시하도록 제어를 행하도록 구성된 유닛과, 상기 마이크로폰을 거쳐 취득된 원 프레이즈(one-phrase)의 음성 표현을 나타내는 음성 정보에 근거하여, 상기 조작 오브젝트에 대응하는 제1 식별 정보와 상기 포인팅 위치에 대한 갱신 처리에 대응하는 제2 식별 정보를 취득하도록 구성된 유닛과, 상기 조작 오브젝트가 나타내는 현재의 포인팅 위치에 관한 정보, 상기 제1 식별 정보 및 상기 제2 식별 정보에 적어도 근거하여, 상기 포인팅 위치에 관해 갱신된 상기 조작 오브젝트를 구비하는 화면을 상기 디스플레이에 표시하도록 제어를 행하도록 구성된 유닛으로서 기능시키도록 구성된 한 개 이상의 콘트롤러를 구비한 화상 형성 시스템을 제공한다.

본 발명의 또 다른 특징은 첨부도면을 참조하는 이하의 실시형태의 설명으로부터 명백해질 것이다.

도 1은 시스템 구성도다.
도 2는 조작 패널의 구성도다.
도 3은 음성 제어장치의 하드웨어 구성을 설명하는 개념도다.
도 4는 서버의 하드웨어 구성을 설명하는 개념도다.
도 5는 화상 형성장치의 하드웨어 구성을 설명하는 개념도다.
도 6은 음성 제어장치의 제어 프로그램의 기능 구성을 설명하는 개념도다.
도7a는 서버의 제어 프로그램의 기능 구성을 설명하는 개념도다. 도 7b은 그룹 ID 판정부가 그룹 ID의 판정에 사용하는 그룹 ID 리스트의 예를 나타낸 도면이다.
도8은 화상 형성장치의 제어 프로그램의 기능 구성을 설명하는 개념도다.
도 9a 내지 도 9c은 시스템에 포함된 장치들, 각 장치의 제어 프로그램과 유저 사이에 행해지는 시퀸스를 설명하는 시퀸스도이다.
도 10은 화상 형성장치의 디바이스 제어 프로그램의 처리 플로우를 설명하는 도면이다.
도 11a 내지 도 11h은 제어 프로그램이 관리 및 이용하는 그룹 ID 리스트의 일례를 도시한 도면이다.
도 12a는 화상 형성장치의 제어 프로그램에 의해 표시된 화면을 나타낸 도면이며, 이 화면은 도 12d에 도시된 일본어 버전으로부터 번역된 영어 버전이다. 도 12b는 화상 형성장치의 제어 프로그램에 의해 관리 및 이용되는 화면 제어 정보의 일례를 나타낸 도면이다. 도 12c는 음성 제어 조작 판정 정보의 일례를 도시한 도면이다. 도 12d는 화상 형성장치의 제어 프로그램에 의해 표시된 화면을 나타낸 도면이며, 이 화면은 도 12a에 도시된 영어 버전에 대응하는 일본어 버전이다.
도 13은 화상 형성장치의 음성 제어 조작 판정부에 의해 행해진 처리 플로우를 설명하는 도면이다.
도 14a는 화면이 한 개의 슬라이더를 포함하는 경우에 대해 음성 제어 조작 판정 처리에서 사용되는 화면(영어판 화면)의 예를 나타낸 도면이다. 도 14b은 화면의 구성 정보를 도시한 도면이다. 도 14c 및 도 14d는 음성 제어 조작 판정 정보의 일례를 도시한 도면이다. 도 14e는 화면이 한 개의 슬라이더를 포함하는 경우에 대해 음성 제어 조작 판정 처리에서 사용하는 화면(도 14a의 영어 버전에 대응하는 일본어 버전)의 예를 예를 나타낸 도면이다.
도 15는 화상 형성장치의 음성 제어 조작 판정부에 복수의 슬라이더가 존재하는 경우에 대한 처리 플로우를 설명하는 도면이다.
도 16a는 화면이 복수의 슬라이더를 포함하는 경우에 대해 음성 제어 조작 판정 처리에서 사용하는 화면(영어판 화면)의 예를 나타낸 도면이다. 도 16b은 화면의 구성 정보를 도시한 도면이다. 도 16c 및 도 16d는 음성 제어 조작 판정 정보의 일례를 도시한 도면이다. 도 16e는 화면이 복수의 슬라이더를 포함하는 경우에 대해 음성 제어 조작 판정 처리에서 사용하는 화면(도 16a의 영어 버전에 대응하는 일본어 버전)의 예를 예를 나타낸 도면이다.
도17a 내지 도 17d은 한 개의 슬라이더가 설치되는 경우에 대해 시스템과 유저 사이에서 행해지는 시퀀스를 나타낸 시퀀스도이다.
도18a 내지 도 18f은 복수의 슬라이더가 설치되는 경우에 대해 시스템과 유저 사이에서 행해지는 시퀀스를 나타낸 시퀀스도이다.
도 19a 내지 도 19c는 화상 형성장치의 설정 항목 일람을 도시한 도면이다.
도 20a 내지 도 20c은 화상 형성장치의 설정 항목 일람을 도시한 도면이다.
도 21a 내지 도 21c은 화상 형성장치의 설정 항목 일람을 도시한 도면이다.
도 22a 내지 도22f는 슬라이더가 이동하는 방식의 예를 도시한 도면이다.
도 23a 내지 도 23d는 슬라이더가 이동하는 방식의 예를 도시한 도면이다.
도24는 슬라이더 형상의 조작 오브젝트를 설명하는 도면이다.
도25a 내지 도 25i는 제어 프로그램이 관리 및 이용하는 그룹 ID 리스트의 일례를 도시한 도면이다.
도 26은 화상 형성장치의 음성 제어 조작 판정부의 처리 플로우를 설명하는 도면이다.
도 27a는 음성 제어 조작 판정 처리를 설명하는 화면의 영어판 버전의 예를 나타낸 도면이다. 도27b은 음성 제어 조작 판정 처리를 설명하는 화면의 영어판 버전의 또 다른 예를 나타낸 도면이다. 도27c은 화면의 구성 정보를 도시한 도면이다. 도27d는 음성 제어 조작 판정 정보의 일례를 도시한 도면이다. 도27e는 음성 제어 조작 판정 처리를 설명하는 화면의 일본어판 버전의 예를 나타낸 도면이다.
도28 내지 도 28d은 시스템과 유저 사이의 인터랙션의 예를 설명하는 도면이다.
도 29a 내지 도 29c은 포커스가 표시되는 방법의 예를 설명하는 도면이다.
도 30a는, 디폴트 위치에 놓인 포커스를 이동하는 방식을 도시한 도면이다. 도 30b은, 유저가 지정한 위치에 표시된 포커스를 이동하는 빙식을 도시한 도면이다.

이하, 본 개시내용을 도면과 함께 실시예를 참조하여 이하에서 상세히 설명한다. 단, 실시예에서 설명한 구성요소는 어디까지나 예시이며, 본 개시내용의 범위를 한정하는 취지의 것은 아니다.

실시예1

이하에서 설명하는 실시예1은, 정보 처리 시스템에 사용되는 정보 처리장치의 일례로서 화상 형성장치의 카피 기능에 관해 설정 화면을 음성에 의해 제어하는 방법을 설명한다. 특히, 슬라이더와 같은 오브젝트를 사용해서 설정값의 변경을 행하는 설정 화면을 음성에 의해 제어하는 방법을 설명한다.

시스템의 구성

도 1은, 본 실시예에 따른 시스템 구성의 일례를 도시한 도면이다. 도 1에 나타낸 것과 같이, 본 실시예에서, 시스템은, 예를 들면, 음성 제어장치(100), 화상 형성장치(101), 서버(102), 클라이언트 단말(103), 게이트웨이(105)로 구성된다.

음성 제어장치(100), 화상 형성장치(101) 및 클라이언트 단말(103)은, 게이트웨이(105) 및 네트워크(104)을 거쳐 서로 통신가능하다. 이때, 시스템의 구성은 서로 접속되는 음성 제어장치(100), 화상 형성장치(101) 및 클라이언트 단말(103)의 각각에 대해 한 개를 포함하는 것에 한정되지 않으며, 시스템은 음성 제어장치(100), 화상 형성장치(101) 및 클라이언트 단말(103)의 일부 또는 각각에 대해 2개 이상을 포함하도록 구성되어도 된다. 이때, 음성 제어장치(100), 화상 형성장치(101) 및 클라이언트 단말(103)은, 게이트웨이(105) 및 인터넷을 거쳐 서버(102)와 통신가능하다.

음성 제어장치(100)(음성 입력 디바이스)은, 유저(106)에 의해 행해진 음성 제어 조작 개시 지시에 따라, 유저(106)가 발언한 음성을 취득해서 서버(102)에 부호화된 음성 데이터를 송신한다. 음성 제어장치(100)은, 예를 들면, 스마트 스피커 등이다. 본 실시예의 구성에서는, 음성 제어장치(100)과 화상 형성장치(101)이 독립된 별개의 장치이다. 그러나, 구성이 이 예에 한정되는 것은 아니다. 예를 들어, 음성 제어장치(100)의 하드웨어 유닛들(도 3에서 하드웨어 블록으로 설명), 및/또는, 소프트웨어 기능(도 6의 소프트웨어 블록으로 설명)의 일부가 화상 형성장치(101)에 포함되어 있어도 된다.

화상 형성장치(101)(정보 처리장치, 화상 처리장치)은, 카피 기능, 스캔 기능, 프린트 기능, 팩시밀리 기능 등의 복수의 기능을 구비한 복합기다. 화상 형성장치(101)은, 프린터나 스캐너 등의 단일의 기능을 갖는 장치이어도 된다. 조작 패널(509)은 도 2 및 도 5를 참조하여 후술한다. 이하에서는, 예를 들어 화상 형성장치(101)가 칼라 레이저 빔 복합기인 것으로 가정한다.

서버(102)(정보 처리장치)은, 음성 제어장치(100)에서 취득된 유저(106)의 음성 데이터의 음성 인식을 행하고, 음성 인식 결과로부터 화상 형성장치(101)의 설정 조작 및 잡 실행에 관한 워드를 판정한다. 또한, 화상 형성장치(101)은, 음성 인식 결과 또는 워드의 판정 결과에 따라 텍스트를 생성하고, 그 텍스트의 내용을 나타내는 음성을 재생시에 음성 제어장치(100)에 의해 사용하기 위한 음성 데이터의 합성을 행한다. 이때, 잡은, 화상 형성장치(101)이 프린트 엔진(513) 및 스캐너(515)을 사용해서 실현하는 일련의 일련의 화상 형성 처리(예를 들면, 카피, 스캔, 프린트 등)의 단위이다.

클라이언트 단말(103)은, 예를 들면, 유저(106)이 사용하는 퍼스널 컴퓨터(PC)이다. 클라이언트 단말(103)은, 전자 파일을 화상 형성장치(101)에서 프린트하기 위한 프린트 잡을 발행한다. 전자 파일은, 클라이언트 단말(103)에 보존되어 있거나, 인터넷 상의 어떤 서버(미도시)에 보존되어 있거나, 또는, 화상 형성장치(101)의 외부 기억장치(505)에 보존되어 있어도 된다. 또한, 클라이언트 단말(103)은, 화상 형성장치(101)에 의한 스캔을 통해 얻어진 화상 데이터의 수신을 행할 수도 있다. 클라이언트 단말(103)의 동작은 본 실시예의 주제와 직접적으로 관계되지 않기 때문에, 더 이상의 상세한 설명은 생략한다.

네트워크(104)은, 음성 제어장치(100), 화상 형성장치(101), 클라이언트 단말(103) 및 게이트웨이(105)을 서로 접속한다. 네트워크(104)은, 음성 제어장치(100)에서 취득해서 서버(102)에 송신하는 음성 데이터, 서버(102)로부터 송신되는 각종 데이터, 및, 프린트 잡과 스캔 잡 등의 각종 데이터 등를 송수신한다.

게이트웨이(105)은, 예를 들면, IEEE 802.11 규격 시리즈에 준거한 무선 LAN 라우터이다. 게이트웨이(105)는, 다른 무선통신 방식에 따라서 동작하는 능력을 가져도 된다. 게이트웨이(105)는, 무선 LAN 라우터 대신에, 10BASE-T, 100BASE-T, 1000BASE-T 등으로 대표되는 Ethernet 규격에 준거한 유선 LAN 라우터이어도 된다. 게이트웨이(105)는 다른 유선 통신방식에 따라서 동작하는 능력을 가져도 된다. 이때, 상기 IEEE 802.11 규격 시리즈는, IEEE 802.11a 및 IEEE 802.1lb 등과 같이 , IEEE 802.11에 속하는 일련의 규격을 포함한다.

화상 형성장치의 조작 패널

도2은, 화상 형성장치(101)의 조작 패널(509)의 구성 예를 도시한 도면이다.

조작 패널(509)은 LED(Light Emitting Diode)와 LCD(Liquid Crystal Display) 디스플레이를 구비하고, 유저(106)에 의해 행해진 조작 내용을 표시하고 장치의 내부 상태를 더 표시하는 표시부다. 조작 패널(509)은 유저(106)에 의해 행해진 조작을 접수하는 접수부로서 더 기능한다. 조작 패널(509)은, 복수의 하드웨어 키를 구비할 뿐만 아니라, LCD 디스플레이와 일체로 된 터치패널(200)을 구비한다.

LCD 터치패널(200)은, 터치 조작이 가능한 디스플레이이다. 이 LCD 터치패널(200)에서 모드 설정 및 상황 표시가 행해진다.

하드웨어 키 201 내지 210은 정보를 입력하는 입력부이다. 예를 들면, 하드웨어 키 201 내지 210으로서 택트 스위치가 사용된다.

숫자 키(201)은, 0으로부터 9 수치를 입력하기 위한 키다. ID키(202)은 장치를 사용하여 유저/부문 인증 관리에 의해 보호되는 경우에, 인증 조작(로그인/로그아웃의 조작 등)을 행할 때에 사용되는 키이다.

리셋 키(203)은 설정된 모드를 리셋트하기 위한 키다. 가이드 키(204)은 각 모드에 관한 설명 화면을 표시하기 위한 키다. 유저 모드 키(205)은 유저 모드 화면으로 들어가기 위한 키다. 키 206은 인터럽트 카피를 행하기 위한 키다.

스타트 키(207)은 카피 동작을 스타트시키기 위한 키다. 스톱 키(208)은 실행중인 카피 잡을 중지시키기 위한 키다.

전원 스위치(209)은 소프트 스위치이다. 전원 스위치(209)를 누를 때, LCD 터치패널(200)의 백라이트가 꺼지고, 장치는 저전력 상태로 진입한다, 절전 키(210)은 키이다. 이 키를 누르면, 장치가 절전 상태로 들어간다. 이 키를 다시 누르면, 절전 상태로부터 상태가 복귀한다.

조정 키(214)은 LCD 터치패널(200)의 콘트라스트를 조정하기 위한 키다.

카운터 확인 키(215)를 누르면, 카운트 화면이 표시되고 그때까지 사용한 카피의 전체 매수가 LCD 터치패널(200) 위에 표시된다.

LED 216은 잡의 실행중이고, 화상 메모리에 화상 축적중인 것을 나타내는 LED다. LED 217은 잼 또는 도어 오픈 상태 등 장치가 에러 상태에 있는 것을 나타내는 에러 LED다. LED 218은 장치의 메인 스위치가 ON 상태에 있는 것을 나타내는 전원 LED다.

음성 제어장치의 하드웨어 구성

도 3은, 음성 제어장치(100)의 콘트롤러부(300) 및 음성 제어장치(100)이 내장하고 있는 디바이스의 하드웨어 구성 예를 도시한 도면이다.

도 3에 나타낸 것과 같이, 콘트롤러부(300)은, CPU(302), RAM(303), ROM(304), 외부 기억장치(305), 네트워크 I/F(306), 마이크 I/F(307), 오디오 콘트롤러(309), 및 표시 콘트롤러(311)을 포함한다. 이들 구성은 시스템 버스(301)에 접속되어 있어, 서로 통신가능하다. 음성 제어장치(100)은, 콘트롤러부(300)에 설치 또는 부수되는 디바이스로서, 마이크로폰(308), 스피커(310), LED(312)을 포함한다.

CPU(302)은 콘트롤러부(300) 전체의 동작을 제어하는 중앙연산장치다. RAM(303)은 휘발성 메모리다. ROM(304)은 불휘발성 메모리이며, CPU(302)의 기동용 프로그램이 격납되어 있다. 외부 기억장치(305)은 RAM(303)과 비교해서 대용량의 기억 디바이스(예를 들면, SD카드)이다. 외부 기억장치(305)에는 콘트롤러부(300)에 의해 실행되는, 음성 제어장치(100)의 제어용 프로그램이 격납되어 있다. 이때, 외부 기억장치(305)은 SD카드 이외의 플래쉬 ROM 등으로 치환해도 되고, 또는 SD카드와 동등한 기능을 갖는 다른 기억 디바이스로 치환해도 된다.

CPU(302)은 전원 온시 등에 ROM(304)에 격납되어 있는 기동용 프로그램을 실행한다. 이 기동용 프로그램은, 외부 기억장치(305)에 격납되어 있는 제어용 프로그램을 판독하고, RAM(303) 위에 전개하기 위한 것이다. CPU(302)가 기동용 프로그램을 실행한 후, CPU(302)는 그후 RAM(303)에 전개한 제어용 프로그램을 실행하여, 제어를 행한다. CPU(302)은 제어용 프로그램 실행시에 데이터를 RAM(303) 위에 격납하여 RAM(303)에 대해 데이터의 읽고 쓰기를 행한다. 외부 기억장치(305)에는 제어용 프로그램 실행시에 필요한 각종 설정 데이터 등을 격납할 수 있다. 각종 설정 데이터는 CPU(302)에 의해 읽고 쓰기된다. CPU(302)은 네트워크 I/F(306)을 거쳐 네트워크(104) 상의 다른 기기와의 통신을 행한다.

네트워크 I/F(306)은, IEEE 802.11 규격 시리즈에 준거한 무선통신 방식에 따라서 통신을 행하기 위한 회로, 안테나 등을 포함하여 구성된다. 단, 통신이 무선통신에 한정되는 것은 아니다. 무선 통신방??기 대신에, Ehernet 규격에 준거한 유선통신 방식이 사용되어도 된다.

마이크로폰 I/F(307)은 마이크로폰(308)에 접속되고, 마이크로폰(308)을 거쳐 입력된 유저(106)이 발생한 음성을 부호화된 음성 데이터(음성 정보)로 변환하고, 이것은 CPU(302)의 지시에 따라 RAM(303)에 유지한다.

마이크로폰(308)은, 예를 들면, 스마트 폰 등에 탑재되는 종류를 갖는 소형의 MEMS 마이크로폰이다. 이때, 유저(106)에 의해 발생한 음성을 취득할 수 있는 것이면 다른 종류의 디바이스를 사용해도 된다. 유저(106)이 발생한 음성의 도래 방향을 판단할 수 있도록, 3개 이상의 마이크로폰(308)을 소정의 위치에 배치하는 것이 바람직하다. 단, 한 개의 마이크로폰(308)을 사용하여 본 실시예를 실현가능하고, 마이크로폰의 개수가 반드시 3개 이상일 필요는 없다.

오디오 콘트롤러(309)은 스피커(310)에 접속된다. CPU(302)의 제어하에서, 오디오 콘트롤러(309)은 음성 데이터를 아날로그 음성신호로 변환하고, 그 결과 얻어진 아날로 음성신호에 대응하는 음성/음향을 스피커(310)을 통해 출력한다.

스피커(310)은, 음성 제어장치(100)이 응답하고 있는 것을 나타내는 장치의 응답 음을 재생(통지)하고, 서버(102)에 의해 합성된 음성을 재생한다. 스피커(310)은 음성/음향을 재생하기 위한 범용의 디바이스이며, 그것의 메카니즘는 본 실시예의 주제가 아니기 때문에, 더 이상의 설명은 생략한다.

표시 콘트롤러(311)은 LED(312)에 접속되고, CPU(302)에 의해 행해진 지시에 따라 LED(312)의 표시를 제어한다. 표시 콘트롤러(311)은, 음성 제어장치(100)이 유저(106)가 발생한 음성을 정확하게 입력하고 있는 것을 나타내기 위한 LED(312)의 점등 제어를 주로 행한다.

LED(312)은, 예를 들면, 유저(106)이 가시가능한 청색 LED다. LED(312)은 범용의 디바이스이며, 본 실시예의 주제가 아니기 때문에, 더 이상의 설명은 생략한다. 이때, LED(312) 대신에, 문자나 그림을 표시가능한 디스플레이장치를 사용해도 된다.

서버의 하드웨어 구성

도 4은, 서버(102)의 콘트롤러부의 하드웨어 구성 예를 도시한 도면이다.

도 4에 나타낸 것과 같이, 콘트롤러부는, 시스템 버스(401)에 접속된 CPU(402), RAM(403), ROM(404), 외부 기억장치(405) 및 네트워크 I/F(406)을 포함한다.

CPU(402)은 콘트롤러부 전체의 동작을 제어하는 중앙연산장치다. RAM(403)은 휘발성 메모리다. ROM(404)은 불휘발성 메모리이며, CPU(402)를 기동하기 위한 기동용 프로그램이 ROM(404)에 격납되어 있다. 외부 기억장치(405)은 RAM(403)과 비교해서 대용량의 기억장치(예를 들면, 하드디스크 드라이브(HDD))이다. 외부 기억장치(405)는 콘트롤러부가 실행하는, 서버(102)의 제어용 프로그램을 격납하고 있다. 이때, 외부 기억장치(405)은, 하드디스크 드라이브와 동등한 기능을 갖는 다른 기억장치로 치환해도 된다. 예를 들면, 솔리드 스테이트 드라이브(SSD) 등을 사용해도 된다.

CPU(402)은 전원 온 등에, ROM(404)에 격납되어 있는 기동용 프로그램을 실행한다. 이 기동용 프로그램은, 외부 기억장치(405)에 격납되어 있는 제어용 프로그램을 판독하고, 그것을 RAM(403)에 전개하기 위한 것이다. CPU(402)은 기동용 프로그램을 실행한 후, CPU(402)는 그후 RAM(403)에 전개한 제어용 프로그램을 실행하여, 제어를 행한다. CPU(402)은 제어용 프로그램 실행시에 데이터를 RAM(403)에 격납해서 이 RAM(403)에 대해 이 데이터의 읽고 쓰기를 행한다. 외부 기억장치(405)는, 제어용 프로그램 실행시에 필요한 각종 설정을 더 격납할 수 있다. 각종 설정 데이터은, CPU(402)에 의해 읽고 쓰기된다. CPU(402)은 네트워크 I/F(406)을 거쳐 네트워크(104) 상의 다른 기기와의 통신을 행한다.

화상 형성장치의 하드웨어 구성

도 5은, 화상 형성장치(101)의 콘트롤러부(500) 및 화상 형성장치(101)이 내장하고 있는 디바이스의 하드웨어 구성 예를 도시한 도면이다.

도 5에 나타낸 것과 같이, 콘트롤러부(500)은, CPU(502), RAM(503), ROM(504), 외부 기억장치(505), 네트워크 I/F(506), 디스플레이 콘트롤러(507), 조작 I/F(508), 프린트 콘트롤러(512), 및 스캔 콘트롤러(514)을 포함한다. 이들 구성요소는, 시스템 버스(501)에 접속되어, 서로 통신가능하다.

CPU(502)은 콘트롤러부(500)의 전체의 동작을 제어하는 중앙연산장치다. RAM(503)은 휘발성 메모리다. ROM(504)은 불휘발성 메모리이며, CPU(502)를 기동하기 위한 기동용 프로그램이 ROM(504)에 격납되어 있다. 외부 기억장치(505)은 RAM(503)과 비교해서 대용량의 기억장치(예를 들면, 하드디스크 드라이브(HDD))이다. 외부 기억장치(505)에는 CPU(502)에 의해 실행되는, 화상 형성장치(101)의 제어용 프로그램이 격납되어 있다. 이때, 외부 기억장치(505)은 하드디스크 드라이브와 동등한 기능을 갖는 다른 기억장치로 치환해도 된다. 예를 들어, 솔리드 스테이트 드라이브(SSD) 등을 사용해도 된다.

CPU(502)은 전원 온 시 등에, ROM(504)에 격납되어 있는 기동용 프로그램을 실행한다. 이 기동용 프로그램은, 외부 기억장치(505)에 격납되어 있는 제어용 프로그램을 판독하고, 그것을 RAM(503)에 전개하기 위한 것이다. CPU(502)가 기동용 프로그램을 실행한 후, CPU)(502)는 그후 RAM(503)에 전개한 제어용 프로그램을 실행하여, 제어를 행한다. CPU(502)은 데이터를 RAM(503)에 기억하고, 제어용 프로그램 실행시에 RAM(503)에 대해 데이터를 읽고 쓰기를 행한다. 외부 기억장치(505) 에는 제어용 프로그램 실행시에 필요한 각종 설정 데이터와, 스캐너(515)에서 판독한 화상 데이터를 더 격납한다. 이들 데이터는 CPU(502)에 의해 읽고 쓰기된다. CPU(502)은 네트워크 I/F(506)을 거쳐 네트워크(104) 상의 다른기기와의 통신을 행한다.

디스플레이 콘트롤러(507)은 CPU(502)의 지시하에서 접속되는 조작 패널(509)의 LCD 터치패널(200)의 화면의 표시 제어를 행한다.

조작 I/F(508)은 조작 신호의 입출력을 행한다. 조작 I/F(508)은 조작 패널(509)에 접속된다. CPU(502)은, LCD 터치패널(200)이 눌렸을 때에, 조작 I/F(508)을 거쳐 LCD 터치패널(200) 위의 눌러진 좌표를 취득한다. 또한, 조작 I/F(508)은 조작 패널(509)의 하드웨어 키 201 내지 210의 누름을 검지한다.

프린트 콘트롤러(512)은 CPU(502)에 의해 내려진 지시에 응답하여, 접속되는 프린트 엔진(513)에 대하여 제어 코맨드와 화상 데이터를 송신한다.

프린트 엔진(513)은, 프린트 콘트롤러(512)로부터 수신한 제어 코맨드에 따라, 수신한 화상 데이터를 시트에 인쇄한다. 프린트 엔진(513)의 상세한 설명은 본 실시예의 주제가 아니기 때문에, 더 이상의 설명은 생략한다.

스캔 콘트롤러(514)은 CPU(502)에 의해 내려진 지시에 따라, 접속되는 스캐너(515)에 대하여 제어 코맨드를 송신하고, 스캐너(515)로부터 수신하는 화상 데이터를 RAM(503)에 기록한다.

스캐너(515)은, 스캔 콘트롤러(514)로부터 수신한 제어 코맨드에 따라, 화상 형성장치(101)의 원고대 글래스 위(미도시)의 원고를, 광학 유닛을 사용해서 판독한다. 스캐너(515)의 상세한 설명은 본 실시예의 주제가 아니기 때문에, 더 이상의 설명은 생략한다.

음성 제어장치의 음성 제어 프로그램의 기능 구성

도6은, CPU(302)이 실행하는 음성 제어장치(100)의 음성 제어 프로그램(601)의 기능 구성을 나타내는 블록도다.

음성 제어장치(100)의 음성 제어 프로그램(601)은, 상기한 바와 같이 외부 기억장치(305)에 격납되어 있다. 음성 제어 프로그램(601)의 기동시에, 음성 제어 프로그램(601)은 CPU(302)에 의해 RAM(303)에 전개되어 실행된다.

데이터 송수신부(602)은, 네트워크 I/F(306)을 거쳐, 네트워크(104) 상의 다른 기기와 TCP/IP에 의한 데이터의 송수신을 행한다. 데이터 송수신부(602)는, 후술하는 음성 취득부(604)에서 취득된 유저(106)이 발생한 음성의 음성 데이터를 서버(102)에 송신한다. 또한, 데이터 송수신부(602)는, 유저(106)에의 응답이 되는, 서버(102)에 의해 생성되는 음성 합성 데이터(합성 음성)의 수신을 행한다.

데이터 관리부(603)은, 음성 제어 프로그램(601)의 실행에 있어서 생성한 작업 데이터 등 다양한 종류의 데이터를 외부 기억장치(305)의 소정의 영역에 보존하고, 이들 데이터를 관리한다. 이와 같이 보존 및 관리되는 데이터의 예로는, 후술하는 음성 재생부(605)에서 재생하는 음성에 관한 음량 설정 데이터, 게이트웨이(105)과의 통신에 필요한 인증 정보, 화상 형성장치(101) 및 서버(102)와 통신하기 위해서 필요한 디바이스 정보를 들 수 있다.

음성 취득부(604)은, 마이크로폰(308)에서 취득되는 음성 제어장치(100)의 부근에 있는 유저(106)의 아날로그 음성을 음성 데이터로 변환하고, 일시 보존한다. 유저(106)의 음성은, MP3 등의 소정의 포맷으로 변환되어, 서버(102)에 송신하기 위한 부호화된 음성 데이터로서 RAM(303)에 일시적으로 보존한다. 음성 취득부(604)의 처리 개시 및 종료의 타이밍은 음성 제어부(609)에 의해 제어된다. 음성 데이터의 부호화는 범용의 스트리밍용 포맷이어도 되고, 부호화된 음성 데이터를 순차 데이터 송수신부(602)에서 송신하여도 된다.

음성 재생부(605)은, 데이터 송수신부(602)이 수신한 음성 합성 데이터를, 오디오 콘트롤러(309)을 거쳐 스피커(310)에서 재생한다. 음성 재생부(605)에 의한 음성 재생의 타이밍은 후술하는 음성 제어부(609)에 의해 제어된다.

표시부(606)은 표시 콘트롤러(311)을 거쳐, LED(312)의 온/오프를 제어한다. 예를 들면, (후술하는) 음성 제어 조작 개시 검지부(607)가 음성 제어 조작이 행해지고 있는 것을 검지했을 경우에 LED(312)를 온한다. 표시부(606)에 의한 LED(312)의 전원 온 타이밍은 후술하는 음성 제어부(609)에 의해 관리된다.

음성 제어 조작 개시 검지부(607)가 유저(106)이 발생한 웨이크 워드(wake word)를 검지하거나, 음성 제어장치(100)의 조작 개시 키(미도시)의 누름을 검지하면, 음성 제어 조작 개시 검지부(607)가 음성 제어부(609)에 조작 개시 통지를 송신한다. 여기에서, 웨이크 워드는, 미리 정해져 있는 음성 워드다. 음성 제어 조작 개시 검지부(607)은, 마이크로폰(308)에서 취득되는 음성 제어장치(100)의 부근에 있는 유저(106)의 아날로그 음성으로부터 상시 웨이크 워드를 검지하는 동작을 행한다. 유저(106)은 웨이크 워드를 말하고, 이어서 어떤 조작이 행해질 것인지를 표시하기 위해 말함으로써 화상 형성장치(101)의 조작을 행할 수 있다. 음성 제어 조작 개시 검지부(607)이 웨이크 워드를 검지한 후, 음성처리가 후술하는 것과 같이 행해진다.

발화 종료 판정부(608)은, 음성 취득부(604)에서의 처리가 종료한 시간을 검출한다. 예를 들면, 유저(106)가 특정한 기간 동안(예를 들면, 3초) 음성을 발생하지 않을 때, 유저(106)의 발화가 종료했다고 판정하고, 음성 제어부(609)에 발화 종료 통지를 송신한다. 이때, 발화 종료의 판정은, 발화가 발생하지 않는 기간(이후, 공백 시간이라고 부른다)에 근거하는 것이 아니고, 유저(106)가 발생한 소정의 어구에 근거하여 행해도 된다. 예를 들면, 소정의 어구는 "예", "아니요", "ok", "캔슬", "종료", "스타트", "개시" 등이어도 된다. 이와 같은 소정의 어구가 발생될 경우에는, 소정 기간 동안 기다리지 않고 발화 종료로 판정해도 된다. 발화 종료의 판정은, 음성 제어장치(100) 대신에, 서버(102)가 행해도 된다. 유저(106)의 발화내용의 의미나 문맥에 근거하여 발화의 종료를 판정하여도 된다.

음성 제어부(609)은 제어시에 중심 역할을 한다. 음성 제어부(609)은, 음성 제어 프로그램(601) 내의 각 모듈이 서로 연계해서 동작하도록 제어한다. 구체적으로는, 음성 제어부(609)은 음성 취득부(604), 음성 재생부(605) 및 표시부(606)에 의해 행해진 처리의 개시 및 종료의 제어를 행한다. 또한, 음성 취득부(604)에서 음성 데이터가 취득되면, 음성 제어부(609)은 음성 데이터가 데이터 송수신부(602)에 의해 서버(102)로 송신하도록 제어를 행한다. 또한, 서버(102)로부터의 음성 합성 데이터를 데이터 송수신부(602)가 수신하면, 음성 제어부(609)은 음성 재생부(605)에서 음성 합성 데이터를 재생하도록 제어를 행한다.

다음에, 음성 취득부(604), 음성 재생부(605) 및 표시부(606)에 의해 행해지는 처리의 개시 및 종료의 타이밍에 대해서 서술한다.

음성 제어부(609)가, 음성 제어 조작 개시 검지부(607)로부터의 조작 개시 통지를 수신하면, 음성 제어부(609)는 음성 취득부(604)의 처리를 개시한다. 음성 제어부(609)가 발화 종료 판정부(608)로부터의 발화 종료 통지를 수신하면, 음성 제어부(609)는 음성 취득부(604)의 처리를 종료한다. 예를 들면, 유저(106)이 웨이크 워드를 발화한 후, "복사하고 싶다"고 말한 경우, 처리가 다음과 같이 행해진다. 이 경우, 음성 제어 조작 개시 검지부(607)이 웨이크 워드의 음성을 검지하면, 음성 제어 조작 개시 검지부(607)는 음성 제어부(609)에 조작 개시 통지를 송신한다. 음성 제어부(609)가 조작 개시 통지를 수신하면, 음성 제어부(609)는 음성 취득부(604)의 처리를 개시하도록 제어를 행한다. 음성 취득부(604)가 "카피하고 싶다"고 하는 그후의 아날로그 음성을 음성 데이터로 변환하여 그 결과 얻어진 음성 데이터를 일시 보존을 한다. 발화 종료 판정부(608)가, "복사하고 싶다"의 발화후에 소정의 길이를 갖는 비발화 기간이 발생하였다고 판정하는 경우, 발화 종료 판정부(608)는 발화 종료 통지를 음성 제어부(609)에 송신한다. 음성 제어부(609)가 발화 종료 통지를 수신하면, 음성 제어부(609)는 음성 취득부(604)의 처리를 종료한다. 이때, 음성 취득부(604)이 처리를 개시한 후 종료할 때까지의 상태를 발화처리 상태로 부르는 것으로 한다. 표시부(606)은, 처리가 현재 발화처리 상태에 있는 것을 나타내기 위해 LED(312)을 점등한다.

발화가 종료되었다고 판정되면, 음성 제어부(609)은, 음성 데이터를 데이터 송수신부(602)가 서버(102)에 송신하도록 제어를 행하고, 서버(102)로부터의 응답이 수신되는 것을 기다린다. 서버(102)로부터의 응답은, 예를 들면, 이 응답이 응답인 것을 나타내는 헤더부와, 음성 합성 데이터로 이루어진 응답 메시지의 형태로 주어진다. 음성 제어부(609)가 음성 제어부(609)를 거쳐 응답 메시지를 수신하면, 음성 제어부(609)는 음성 재생부(605)가 음성 합성 데이터를 재생하도록 제어를 행한다. 음성 합성 데이터는, 예를 들면, "카피 화면을 표시합니다"를 표시한다. 발화 종료로부터 성 합성 데이터의 재생 종료까지의 상태를 응답처리 상태로 부르는 것으로 한다. 표시부(606)은, 처리가 현재 응답처리 상태에 있는 것을 나타내기 위해 LED(312)을 점멸한다.

응답처리 후 서버(102)과의 대화 세션이 계속하고 있는 기간에는, 유저(106)은 웨이크 워드를 발화하지 않고, 유저가 행하고 싶은 것을 발화할 수 있다. 서버(102)는 대화 세션의 종료를 판정한다. 서버(102)가 대화 세선이 종료한 것을 판정하면, 서버(102)는 음성 제어장치(100)에 대화 세션 종료 통지를 송신한다. 이때, 대화 세션 종료로부터 다음 대화 세션이 개시될 때까지의 상태를 대기 상태로 부르는 것으로 한다. 이때, 음성 제어장치(100)이 음성 제어 조작 개시 검지부(607)로부터의 조작 개시 통지를 수신할 때까지는, 처리 상태가 상시 대기 상태에 있는 것으로 가정한다. 표시부(606)은, 대기 상태 동안, LED(312)가 오프 상태에 있도록 제어를 행한다.

서버의 음성 데이터 변환 제어 프로그램의 기능 구성

도 7a는, CPU(402)이 실행하는 서버(102)의 음성 데이터 변환 제어 프로그램(701)의 구성을 나타내는 블럭도다. 도 7b은, 그룹 ID 판정부(707)이 그룹 ID의 판정에 사용하는 그룹 ID 리스트의 예다. 그룹 ID 리스트에는, 화상 형성장치(101)의 유저 조작에 관해 같은 의미나 의도를 갖는 워드가 그루핑되어 같은 ID가 할당된다. 이때, 워드는, 유저(106)이 음성 제어장치(100)에 대하여 발화하는 말에 대해 음성 인식을 행한 결과 얻어진다.

서버(102)의 음성 데이터 변환 제어 프로그램(701)은 상기한 바와 같이 외부 기억장치(405)에 격납되고, 프로그램이 기동할 때 CPU(402)에 의해 RAM(403)에 전개해서 실행한다.

데이터 송수신부(702)은, 네트워크 I/F(406)을 거쳐, 네트워크(104) 상의 다른 기기에 대해 TCP/IP를 사용하여 데이터의 송수신을 행한다. 데이터 송수신부(702)는, 음성 제어장치(100)로부터 유저(106)의 음성 데이터를 수신한다. 또한, 데이터 송수신부(702)는, 후술하는 그룹 ID 판정부(707)에 의해 행해진 그룹 ID 판정 결과의 송신을 행한다.

데이터 관리부(703)은, 음성 데이터 변환 제어 프로그램(701)의 실행에 있어서 생성한 작업 데이터와, 음성 데이터 변환부(704)에서 음성 인식 처리를 행하기 위해서 필요한 파라미터 등 다양한 종류의 데이터를 외부 기억장치(405)의 소정의 영역에 보존하고, 데이터 관리부(703)은 이들 다양한 종류의 데이터를 관리한다. 이와 같은 데이터의 일부 예를 이하에서 설명한다. 음성 인식부(705)이, 데이터 송수신부(702)이 수신한 음성 데이터를 텍스트 데이터(텍스트 정보)로 변환하기 위해 사용된 음향 모델 및 언어 모델을 소정의 영역에 보존하고, 관리한다. 형태소 해석부(706)에 의해 텍스트의 형태소 해석을 행하기 위해 사용하는 사전을 외부 기억장치(405)의 소정의 영역에 보존하고, 관리한다. 그룹 ID 판정부(707)에 의해 그룹 ID를 판정하기 위한 그룹 ID 리스트를 외부 기억장치(405)의 소정의 영역에 보존하고, 관리한다. 음성 합성부(708)에 의해 음성 합성을 행하기 위해 사용하는 음성 데이터베이스를 외부 기억장치(405)의 소정의 영역에 보존하고, 관리한다. 또한, 데이터 관리부(703)에는, 음성 제어장치(100) 및 화상 형성장치(101)와 통신하기 위해서 필요한 디바이스 정보가 보존, 관리된다.

음성 데이터 변환부(704)은, 음성 인식부(705), 형태소 해석부(706), 그룹 ID 판정부(707) 및 음성 합성부(708)로 이루어진다. 이하 음성 데이터 변환부(704)에 대해 더욱 상세히 설명한다.

음성 인식부(705)은, 데이터 송수신부(702)이 수신한 유저(106)의 음성 데이터를 텍스트로 변환하기 위한 음성 인식 처리를 행한다. 음성 인식 처리에서는, 음향 모델을 사용해서 유저(106)의 음성 데이터를 음소로 변환하고, 언어 모델에 의한 패턴매칭에 의해 음소를 실제의 텍스트 데이터로 더 변환한다. 음향 모델은, DNN-HMM과 같이 뉴럴 네트워크를 사용한 기계학습 수법을 사용하는 모델이거나, GMM-HMM과 같이 다른 수법을 사용한 모델이어도 된다. 뉴럴 네트워크를 사용한 기계학습에서는, 예를 들면, 음성과 텍스트의 쌍을 포함하는 교사(training) 데이터에 근거하여 학습모델의 학습이 행해진다. 언어 모델은, RNN 등의 뉴럴 네트워크에 의한 기계학습 수법의 모델을 사용하는 모델이거나, N-gram 수법 등의 다른 수법을 사용하는 모델이어도 된다.

본 실시예에서는, 텍스트 데이터는 1개 이상의 가나로 구성되는 텍스트와, "가나 한자 변환"(숫자, 알파벳, 기호 등으로의 변환을 포함한다)을 행하여 얻어진 텍스트로 이루어진다. 단, 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 처리는 전술한 수법에 제한되는 것은 아니고 다른 수법을 사용하여도 된다. 음성 인식 처리의 상세는 실시예의 주지가 아니기 때문에, 더 이상의 설명은 생략한다.

형태소 해석부(706)은, 음성 인식부(705)에 의해 변환된 텍스트 데이터에 대해 형태소 해석을 행한다. 형태소 해석에서는, 그 언어의 문법, 품사 등의 정보를 갖는 사전으로부터 형태소 열을 도출하고, 각 형태소의 품사를 판별한다. 형태소 해석부(706)은, JUMAN, ChaSen, MeCab 등의 공지의 형태소 해석 소프트웨어를 사용해서 실현할 수 있다. 예를 들어, 형태소 해석부(706)은, 음성 인식부(705)에 의한 변환의 결과로서 "카피를 하고 싶다"를 나타내는 텍스트 데이터가 주어질 때, "카피", "를", "하고", "싶다"의 형태소 열로서 텍스트 데이터를 해석한다. "A3로부터 A4로"를 나타내는 텍스트 데이터가 주어지는 경우, 형태소 해석부(706)은, 이 텍스트 데이터를 "A3", "로부터", "A4", "로"의 형태소 열로서 해석한다.

그룹 ID 판정부(707)은, 형태소 해석부(706)에 의한 형태소 해석의 결과와, 도 7b의 그룹 ID 리스트를 매칭함으로써 그룹 ID를 판정하고, 그룹 ID 판정 결과를 더 생성한다. 예를 들면, "카피", "를", "하고", "싶다"의 형태소 열로부터는, "카피"의 그룹 ID인 "FNC00001"이 검출되고, 그룹 ID 판정 결과로서, {ID:FNC00001}을 생성한다. 또한, "A3", "로부터", "A4", "로"의 형태소 열로부터는, "A3"과 "A4"의 그룹 ID인 "PAP00100"과 "PAP00101"이 2개의 그룹 ID가 검출되고, 그룹 ID 판정 결과로서, {ID:PAP00100, ID:PAP00101}을 생성한다.

그룹 ID 판정 결과로서 ID가 복수 생성되는 경우에는, 음성 인식 및 형태소 해석의 순서로 그룹 ID 판정 결과가 생성된다. 예를 들면, 음성 인식 및 형태소 해석의 결과로서 "A4" "로부터" "A3" "로"가 얻어지는 경우에, 그룹 ID 판정 결과로서 {ID:PAP00101, ID:PAP00100}가 생성된다. 이때, 인접하는 복수의 형태소를 결합해서 그룹 ID 리스트와 매칭해서, 매칭 결과에 따라 판정을 행해도 된다. 이 경우, 그룹 ID 리스트 중에서 한 개의 그룹 ID와 일치하는 1개의 형태소가 발견되고, 더구나, 이 첫 번째 한개의 형태소를 포함하는 복수의 형태소가 그룹 ID 리스트 중에서 그룹 ID들과 일치하는 것이 발견된 경우에는, 후자의 결과를 사용해서 그룹 ID 판정 결과를 생성한다. 예를 들면, 형태소 열이 "A" "4"가 주어지는 경우에는, 그룹 ID 판정 결과를 {ID:CHR00000, ID:NUM00004}가 아니고, {ID:PAP00101}로서 생성한다. 이때, 음성 인식 및 형태소 해석 결과로서 얻어지는 1개 이상의 가나로 구성되는 텍스트를 "가나 한자 변환"을 행한 결과로서 얻어지는 텍스트와 조합하여, 그 결과 얻어지는 조합을 그룹 ID 리스트와 매칭을 행하도록 매칭을 행해도 된다. 예를 들면, 먼저, 그룹 ID 판정부(707)은, "가나 한자 변환"을 통해 얻어진 텍스트와 그룹 ID 리스트의 "가나 한자" 텍스트 사이의 매칭을 행한다. 매칭하는 그룹 ID가 발견되지 않을 경우에는, 음서 인식과 형태소 해석의 결과로써 얻어진 가나 텍스트와 그룹 ID 리스트의 "가나" 텍스트 사이에서 매칭이 행해져 매칭된 가나 텍스트에 대한 그룹 ID를 검출한다. 그룹 ID 리스트 내에서 동일한 "가나"에 복수의 다른 그룹 ID 판정 ID가 할당되어, 복수의 그룹 ID가 매칭되는 경우에는, 복수의 그룹 ID 판정 결과가 복수의 후보로서 생성해도 된다. 이에 따라, "가나 한자 변환"의 오류와 한자의 후리가나의 차이를 고려한 그룹 ID 판정 결과를 생성할 수 있다.

음성 합성부(708)은, 화상 형성장치(101)로부터 수신한 통지에 근거하여, 음성 합성처리를 행한다. 음성 합성처리에서는, 통지에 대응하는 텍스트를 MP3 등의 소정의 포맷의 음성 데이터로 변환한다. 수신한 통지 데이터와 음성 합성 대상인텍스트의 조합 예에 대해서는, 도 9a 내지 도 9c에 도시된 시퀀스도를 참조하여 후술한다. 음성 합성처리에서는, 예를 들면, 데이터 관리부(703)에 보존되어 있는 음성 데이터베이스에 근거해서 음성 데이터를 생성한다. 음성 데이터베이스는, 예를 들면, 고정된 단어 또는 구에 대해 발성한 음성의 집합체를 포함하는 데이터베이스다. 본 실시예에서는, 음성 데이터베이스를 사용해서 음성 합성처리를 행하고 있다. 그러나, 음성 합성처리에 사용하는 수법은 이 예에 한정되는 것은 아니며, 다른 수법을 사용해도 된다. 음성 합성처리의 상세는 본 실시예의 주제가 아니기 때문에, 더 이상의 설명은 생략한다.

화상 형성장치의 디바이스 제어 프로그램의 기능 구성

도8은, CPU(502)이 실행하는 화상 형성장치(101)의 디바이스 제어 프로그램(801)의 기능 구성을 나타내는 블록도다.

화상 형성장치(101)의 디바이스 제어 프로그램(801)은 상기한 바와 같이 외부 기억장치(505)에 격납되고, CPU(502)에 의해 기동시에 RAM(503)에 전개해서 실행한다.

데이터 송수신부(802)은, 네트워크 I/F(506)을 거쳐, 네트워크(104) 상의 다른 기기에 대해 TCP/IP에 의한 데이터의 송수신을 행한다. 더욱 구체적으로는, 예를 들어, 데이터 송수신부(802)는, 그룹 ID 판정부(707)이 생성하는 그룹 ID 판정 결과의 수신을 행한다. 또한, 데이터 송수신부(802)는, 화상 형성장치(101)로부터 서버(102)에, 조작 패널(509) 상의 LCD 터치패널(200)에 표시된 화면 표시 내용이 갱신된 것을 나타내는 화면 갱신 통지, 및, 잡의 상태를 나타내는 잡 실행 상태 통지를 송신한다. 통지의 내용에 대해서는 도 9a 내지 도 9c에 도시된 시퀀스 도를 참조하여 후술한다.

데이터 관리부(803)은, 디바이스 제어 프로그램(801)의 실행에 있어서 생성한 작업 데이터와, 다양한 디바이스의 제어에 필요한 설정 파라미터 등의 다양한 데이터를 RAM(503) 및 외부 기억장치(505)의 소정의 영역에 보존하고, 관리한다. 예를 들면, 후술하는 디바이스 제어부(808)에서 실행하는 잡의 설정 항목 및 대응하는 설정값의 조합으로 이루어지는 잡 데이터와, 용지의 속성정보 등이 설정된 기계 설정 정보가 보존, 관리된다. 또한, 게이트웨이(105)과의 통신에 필요한 인증 정보, 서버(102)와 통신하기 위해서 필요한 디바이스 정보 등이 보존, 관리된다. 또한, 화상 형성장치(101)에 의해 처리된 화상 데이터를 보존하고, 관리한다. 또한, 표시부(806)이 화면 표시 제어를 행하는데 사용하는 화면 제어 정보와, 음성 제어 조작 판정부(807)이 조작을 판정하기 위해서 사용하는 음성 제어 조작 판정 정보를 보존하고 관리한다. 화면 제어 정보와 음성 제어 조작 판정 정보는, 표시부(806)이 표시하는 화면마다 별도로 관리한다.

스캔부(804)은, 디바이스 제어부(808)의 스캔 잡 파라미터 설정에 근거하여, 스캔 콘트롤러(514)을 거쳐 스캐너(515)를 사용하여 스캔을 실행하고, 그 결과 얻어진 스캔된 화상 데이터를 데이터 관리부(803)에 보존한다.

프린트부(805)은, 디바이스 제어부(808)의 프린트 잡 파라미터 설정에 근거하여, 프린트 콘트롤러(512)을 거쳐 프린트 엔진(513)을 사용하여 인쇄를 실행한다.

표시부(806)은 디스플레이 콘트롤러(507)을 거쳐 조작 패널(509)의 제어를 행하고, 화면 표시 제어 정보에 근거하여 유저 조작가능한 UI 부품(버튼, 풀 다운 리스트, 체크 박스 등)을 LCD 터치패널(200)에 표시한다. 또한, 표시부(806)은 조작 I/F(508)을 거쳐, LCD 터치패널(200)(이후, 화면 등으로 부른다) 상의 터치된 좌표를 취득하고, 조작 대상의 UI 부품과 UI 부품에 대한 조작 접수시에 행해질 처리를 결정한다. 또한, 조작 패널(509) 상의 하드웨어 키 201 내지 210의 누름에 대해 검출이 행해진다. 이들 결과에 따라, 화면의 표시 내용을 갱신하고, 유저 조작에 의해 설정된 잡 파라미터 및 해당 잡의 개시 지시를 디바이스 제어부에 송신한다. 마찬가지로, 후술하는 음성 제어 조작 판정부(807)의 음성 제어 조작 판정 결과에 따라, 화면의 표시 내용을 갱신하고, 유저 조작에 의해 설정된 잡 파라미터 및 해당 잡의 개시 지시를 디바이스 제어부에 송신한다.

음성 제어 조작 판정부(807)은, 데이터 송수신부(802)이 수신한 그룹 ID 판정 결과에 근거하여, 조작 패널(509)에 표시되는 화면을 구성하는 유저 조작가능한 UI 부품들 중에서 한개, 또는, 조작 패널(509)을 구성하는 하드웨어 키 201 내지 210 중 한개를 조작 대상으로서 판정한다. 음성 제어 조작 판정부(807)의 상세는 도 11a 내지 도 11h를 참조하여 후술한다.

디바이스 제어부(808)은, 프린트 콘트롤러(512) 및 스캔 콘트롤러(514)을 거쳐, 프린트 엔진(513) 및 스캐너(515)의 제어 지시를 행한다. 예를 들면, 표시부(806)이 카피 기능 화면을 표시할 때 스타트 키(207)가 눌린 것을 검지했을 경우, 디바이스 제어부(808)은 표시부(806)로부터 카피 잡의 파라미터와 잡 개시 지시를 수신한다. 그 잡 파라미터에 근거하여, 스캐너(515)에 의해 스캔된 화상 데이터를 프린트 엔진(513)이 시트에 인쇄하도록 제어를 행한다. 이때, 스캔 및 프린트 제어의 메카니즘은 본 실시예의 주제가 아니기 때문에, 더 이상의 설명은 생략한다.

시스템의 제어 시퀀스

도 9a 내지 도 9c은, 도 1에서 나타낸 시스템을 구성하는 장치들, 및, 도 6 내지 도 8에서 나타낸 장치들의 제어 프로그램 사이엣거 행해지는 시퀀스를 나타낸 시퀀스도이다. 특히, 도 9a 내지 도 9c은, 음성 제어장치(100)이 유저(106)에 의해 발생한 음성에 의한 음성 제어 조작을 받고, 화상 형성장치(101)이 이 음성 제어 조작에 따라 다양한 처리를 실행하고, 그 실행 결과를 나타내는 음성 응답을 유저(106)에게 되돌리는 시퀀스를 나타낸다.

도 9a 내지 도 9c에서 나타내는 시퀀스의 예에서는, 음성 제어장치(100), 화상 형성장치(101), 서버(102)은 서로 통신가능한 상태에 있는 것으로 가장한다. 또한, 화상 형성장치(101)은, 전원이 온이 된 후 카피 기능, 스캔 기능 및 프린트 기능 등의 기능을 호출가능한 메인 메뉴 화면을 표시하고 있는 것으로 가정한다.

우선, 스텝 905(이후, S905과 같이 표기한다)에서는, 유저(106)이 음성 제어장치(100)에 대하여 음성 제어 조작의 개시를 지시한다. 음성 재어 조작의 개시의 지시는, 유저(106)이 웨이크 워드를 발성하거나, 또는 음성 제어장치(100)의 조작 개시 키를 누름으로써 행해진다. 음성 제어 조작 개시 지시는 음성 제어 조작 개시 검지부(607)에 의해 검지된다.

음성 제어 조작 개시 지시가 검지되면, 다음에, S906에서는, 음성 제어 프로그램(601)의 표시부(606)가 발화처리가 진행중인 것을 나타내기 위해 LED를 점등한다. 이와 동시에, 음성 취득부(604)의 처리를 개시한다.

S907에서는, 유저(106)이 기능 호출 지시를 음성 제어장치(100)에 대하여 행한다. 기능 호출 지시는, 예를 들면, 유저(106)이 S905의 웨이크 워드에 이어서 "복사하고 싶다"나 "카피 화면을 열어"라고 발성하는 것에 의해 발행된다. 음성 취득부(604)에 의해 취득된 음성에 근거하여, 음성 데이터가 생성된다. 소정 시간 이상의 공백 시간이 발생하면, 발화 종료 판정부(608)은 발화가 종료했다고 판정한다.

S908에서는, 음성 제어 프로그램(601)의 표시부(606)이, 발화 종료 판정에 응답하여, 응답처리가 진행중인 것을 나타내기 위해 LED를 점멸한다. 이와 동시에, 음성 취득부(604)의 처리를 종료한다.

S907에서 기능 호출 지시의 음성 데이터가 생성되면, S909에서는, 데이터 송수신부(602)이 생성된 음성 데이터를 서버(102)에 송신한다.

S910에서는, 음성 데이터 변환 제어 프로그램(701)의 데이터 송수신부(702)이 수신한 음성 데이터에 대하여, 음성 인식부(705)가 음성 인식 처리를 행한다. 음성 인식 처리의 결과로써, 예를 들면, 유저(106)이 발생한 "복사하고 싶다"라고 하는 음성이 텍스트로 변환된다.

그후, S911에서는, 음성 데이터 변환 제어 프로그램(701)의 형태소 해석부(706)이 S910에서 생성된 텍스트에 대하여 형태소 해석 처리를 행한다. 형태소 해석 처리의 결과로써, 예를 들면, "카피하고 싶다"라는 텍스트가, "카피", "하고", "싶다"라고 하는 형태소 열로서 분할된다.

S912에서는, 음성 데이터 변환 제어 프로그램(701)의 그룹 ID 판정부(707)가 형태소 열의 텍스트에 대하여 그룹 ID 판정 처리를 행한다. 그룹 ID 판정 처리에서, "카피", "하고", "싶다"라고 하는 형태소 열과 도 7b의 그룹 ID 리스트 사이에서 매칭처리가 행해져, 그룹 ID 판정 결과로서 {ID:FNC00001}이 생성된다.

S913에서는, 음성 데이터 변환 제어 프로그램(701)의 데이터 송수신부(702)이 S911에서 얻어진 그룹 ID 판정 결과를 화상 형성장치(101)에 송신한다.

S914에서는, 디바이스 제어 프로그램(801)의 데이터 송수신부(802)이 수신한 그룹 ID 판정 결과에 대하여, 음성 제어 조작 판정부(807)이 음성 제어 조작 판정 처리를 행한다. 음성 제어 조작 판정 처리의 결과로서, 예를 들면, 그룹 ID 판정 결과 {ID:FNC00001}로부터, 메인 메뉴 화면내의 "카피"버튼이 선택된 것으로 판정된다.

그후, S915에서는, S914의 판정 결과에 따라, 표시부(806)에 의해 화면에 표시하는 내용을 갱신한다. 예를 들면, 유저가 발생한 "카피하고 싶다"의 음성으로부터, 음성 제어 조작이 화면에 표시되는 "카피" 버튼의 조작을 지정하는 것으로 판정된 경우에는, LCD 터치패널(200) 상의 "카피" 버튼이 터치되는 경우와 마찬가지로, 카피 기능 화면을 표시한다.

S916에서는, 데이터 송수신부(802)는, 서버(102)에게, 화면의 표시 내용이 갱신된 것을 통지하는 화면 갱신 통지를 송신한다. 예를 들면, 표시부(806)가 메인 메뉴 화면으로부터 카피 기능 화면으로 표시 내용을 변경한 경우, 표시부(806)는 화면 갱신 통지로서 "카피 기능 화면이 열림"이라고 하는 텍스트 데이터를 송신한다.

S917에서는, 음성 데이터 변환 제어 프로그램(701)의 데이터 송수신부(702)이 수신한 화면 갱신 통지에 응답하여, 음성 합성부(708)이 화면 갱신 통지의 내용에 대응하는 소정의 텍스트 데이터의 합성 읍성을 발생하는 음성 합성처리를 행한다. 예를 들면, 화면 갱신 통지의 내용이 "카피 기능 화면이 열림"을 나타내는 경우, 음성 합성부(708)은, 이 텍스트 데이터에 대응하는 "카피 화면이 열렸습니다"라고 하는 음성을 합성한다. 음성 합성부(708)이 음성 합성처리에서 생성한 음성 데이터(음성 합성 데이터)은, 데이터 송수신부(702)에 의해 음성 제어장치(100)에 송신된다.

S918에서는, 데이터 송수신부(602)이, S917에서 생성 및 송신된 음성 합성 데이터를 수신한다.

S919에서는, 음성 재생부(605)이, 918에서 수신한 음성 합성 데이터를 재생한다. 예를 들면, 917에서 생성한 "카피 화면이 열렸습니다"라고 하는 음성 합성 데이터를 스피커(310)을 통해 재생한다.

S920에서는, 음성 합성 데이터가 재생된 후, 음성 제어 프로그램(601)의 표시부(606)이, 발화처리가 진행중인 것을 나타내기 위해 LED를 다시 점등한다. 이와 동시에, 음성 취득부(604)의 처리를 다시 개시한다.

S921에서는, 유저(106)이 설정 화면 호출 지시를 음성 제어장치(100)에 대하여 행한다. 설정 화면 호출 지시는, 예를 들면, 유저(106)이 "용지를 선택"을 발성할 때 행해진다. 이에 응답하여, 발화된 음성에 대응하는 음성 데이터가 음성 취득부(604)에 의해 취득된다. 유저(106)에 의한 발화후 소정 시간 이상 공백 시간이 발생하면, 발화 종료 판정부(608)은 발화가 종료했다고 판정한다.

S922은, 전술한 S908과 유사하다.

S923에서는, 전술한 S909 내지 S918의 처리와 유사하게 음성 제어 조작 처리가 행해진다. 단, S923에서는, S921의 설정 화면 호출 지시에 따라, 표시부(806)이 설정 화면을 표시하도록 화면을 갱신한다. 예를 들면, 카피 기능 화면을 표시하고 있을 경우, 그룹 ID 판정 결과가 {ID:PAP00000, ID:OPR00040}이면, 용지 선택 화면을 표시한다.

S924에서은, 음성 재생부(605)이 S923에서의 음성 합성처리에서 생성한 음성 합성 데이터를 재생한다. 예를 들면, S923에서 설정 화면으로서 용지 선택 화면을 표시한 경우에는, "용지 선택 화면을 표시했습니다. 계속해서 용지를 설정해 주십시요."라고 메시지가 스피커(310)을 통해 재생된다.

S925은, 전술한 S920과 유사하다.

S926에서는, 유저(106)이 설정 변경 지시를 음성 제어장치(100)에 대하여 행한다. 설정 변경 지시는, 예를 들면, 유저(106)이 "A4"라고 발성함으로써 발생된다. 유저(106)의 발화후, 소정 시간 이상 동안 공백 시간이 발생하면, 발화 종료 판정부(608)은 발화가 종료했다고 판정한다.

S927은, 전술한 S908과 유사하다.

S923에서는, 전술한 S909 내지 S918의 처리와 유사하게 음성 제어 조작 처리가 행해진다. 단, S928에서는, S926의 설정 변경 지시에 따라, 설정 화면에 표시하는 설정값을 변경한다. 예를 들면, 용지 선택 화면을 표시하고 있을 경우, 그룹 ID 판정 결과가 {ID:PAP00101}일 때, 용지 선택 화면에서 용지이 선택이 A4로 변경되고, 결과를 표시한다.

S929에서, 음성 재생부(605)이, S928에서의 음성 합성처리에서 생성한 음성 합성 데이터를 재생한다. 예를 들면, S928에서 용지의 설정값을 변경해서 표시한 경우에는 "용지를 A4로 설정했습니다"라고 하는 음성 합성 데이터를 스피커(310)을 통해 재생한다.

S935은, 전술한 S920과 유사하다.

S936에서는, 유저(106)이 잡 실행 지시를 음성 제어장치(100)에 대하여 행한다. 잡 실행 지시는, 예를 들면, 유저(106)이 "카피 스타트"라고 발성하는 것에 의해 행해진다. 유저(106)의 발화후, 소정 시간 이상 동안 공백 시간이 발생하면, 발화 종료 판정부(608)은 발화가 종료했다고 판정한다.

S937 내지 S942은, 전술한 909 내지 913과 유사하다.

S943에서는, 디바이스 제어 프로그램(801)의 데이터 송수신부(802)이 수신한 그룹 ID 판정 결과에 대하여, 음성 제어 조작 판정부(807)이 음성 제어 조작 판정 처리를 행한다. 그룹 ID 판정 결과가 {ID:FNC00001, ID:OPP00011}일 경우, 화면에 표시하고 있는 "카피 스타트" 버튼 또는 하드웨어 스타트 키(207)이 조작되었다고 판정된다.

S944에서는, S943에서 얻어진 판정 결과에 따라, 잡의 실행 화면을 표시한다. 예를 들면, 유저가 발생하는 "카피 스타트"의 음성으로부터, 수행하도록 지시된 조적이 스타트 키(207)의 조작이라고 판정된 경우에는, 카피 잡 개시 화면을 표시한다.

S945에서는, 화상 형성장치(101)의 화면에서 설정된 잡 파라미터에 따라, 잡을 실행한다.

S946에서는, 데이터 송수신부(802)가 서버(102)에게 잡 실행 상태 통지의 내용으로서, 잡 실행을 개시한 것을 나타내는 정보(잡 실행 개시 통지)을 송신한다. 예를 들면, 카피 잡을 개시했을 경우, 잡 실행 상태의 내용으로서 "카피 잡 개시"라고 하는 텍스트 데이터를 송신한다.

S947에서는, 음성 데이터 변환 제어 프로그램(701)의 데이터 송수신부(702)가 잡 실행 상태 통지를 수신하고, 음성 합성부(708)이 잡 실행 상태 통지(잡 실행 개시 통지)의 내용에 대응하는 소정의 텍스트 데이터에 대해 음성 합성처리를 행한다. 예를 들면, 잡 실행 상태 통지의 내용이 "카피 잡 개시"인 경우, 음성 합성부(708)은, "카피를 개시합니다"라고 하는 음성을 텍스트 데이터에 따라 합성한다.

S948은, 전술한 S918과 유사하다.

S949에서는, 음성 재생부(605)이 S948에서 수신한 음성 합성 데이터를 재생한다. 예를 들면, S947에서 생성한 "카피를 개시합니다"라는 음성 합성 데이터를 스피커(310)을 통해 재생한다.

S950에서는, 데이터 송수신부(802)가, 서버(102)에게 잡 실행 상태 통지의 내용으로서, 잡 실행의 종료를 나타내는 정보(잡 실행 종료 통지)을 송신한다. 예를 들면, 카피 잡을 종료했을 경우, 잡 실행 상태 통지의 내용으로서 "카피 잡 종료"라고 하는 텍스트 데이터를 송신한다.

S951에서는, 음성 데이터 변환 제어 프로그램(701)의 데이터 송수신부(702)이 잡 실행 상태 통지를 수신하고, 음성 합성부(708)이 잡 실행 상태 통지(잡 실행 종료 통지)의 내용에 대응하는 소정의 텍스트 데이터에 대해 음성 합성처리를 행한다. 예를 들면, 잡 실행 상태 통지의 내용이 "카피 잡 종료"인 경우, 음성 합성부(708)은, "카피를 종료했습니다"라고 음성을 텍스트 데이터에 따라 합성한다.

S952에서는, S945의 잡 실행 처리의 종료에 응답하여, 표시부(806)은 잡의 실행 종료 화면을 표시한다. 예를 들면, 카피 잡의 실행이 종료했을 경우, 카피 잡 종료 화면을 표시한다.

S953에서는, 데이터 송수신부(602)이, S951에서 생성한 음성 합성 데이터를 서버(102)로부터 수신한다. 또한, 음성 제어장치(100)에 대하여 유저(106)과의 대화 세션의 종료를 통지하는 대화 세션 종료 통지를 서버(102)로부터 수신한다.

S954에서는, 음성 재생부(605)이 S953에서 수신한 음성 합성 데이터를 재생한다. 예를 들면, S951에서 생성한 "카피를 종료했습니다"라고 하는 음성 합성 데이터를 스피커(310)을 통해 재생한다.

S955에서는, S953에서 대화 세션 종료 통지의 수신에 응답하여, 음성 제어 프로그램(601)의 표시부(606)이 음성 제어장치(100)가 대기 상태로 지입하는 것을 나타내기 위해 LED를 소등한다.

S956에서는, S953에서 대화 세션 종료 통지의 수신에 응답하여, 음성 제어장치(100)을 대기 상태로 이행한다.

이때, 시퀀스 도 상에서, 응답처리가 진행중인 것을 나타내기 위해 LED가 점멸중인 상태에서 LED가 있어도 웨이크 워드는 상시 입력하는 것이 허용된다. 유저(106)은 웨이크 워드의 발화에 이어서 "캔슬", 또는 "중지"를 발언한으로써, 대화 세션을 강제적으로 종료하여도 된다.

화상 형성장치(101)의 디바이스 제어 프로그램(801)의 처리 플로우

도10은 화상 형성장치(101)의 디바이스 제어 프로그램(801)의 처리 흐름의 개요를 나타내는 흐름도다. 특히, 도10은, 도 9a 내지 도 9c에 도시된 시퀀스 도의 S914, S915, S923, S928, S933, S943 내지 S952에 있어서의 디바이스 제어 프로그램(801)의 처리 플로우의 예를 나타낸 것이다..

도 11 및 도 12는 도 10에 나타내는 처리 플로우의 일례를 구체적으로 설명하기 위해서 사용한다. 도11a 내지 도 11h은, 도 7b에서 나타낸 그룹 ID 리스트에 추가되는 그룹 ID 리스트의 다른 일례다. 도 12a는 표시부(806)에 의해 표시된 화면을 나타낸 것으로, 이 화면은 도 12d에 도시된 일본어 버전으로부터 번역된 영어 버전이다. 도 12b은, 도 12a에서 나타내는 화면에 대응하는 화면 제어 정보의 일례다. 화면 제어 정보는, 화면에 표시된 유저 조작가능한 UI 부품과 유저 조작가능한 UI 부품이 조작되었을 때 취해지는 액션(행해지는 화면 제어의 내용과 내부의 처리) 사이의 대응을 나타낸다. 도 12c은 도 12a에서 나타내는 화면에 대응하는 음성 제어 조작 판정 정보의 일례다. 이때, 음성 제어 조작 판정 정보는, 유저 조작가능한 UI 부품과 1개 이상의 그룹 ID 판정 결과 사이의 미리 정의된 대응을 나타낸다. 도 12c에 나타내는 표에서 설명된 복수의 정보 중에서, "조작시 유저에 의해 발화된 구의 예"와 "조작 패널의 조작"은 하기 설명에서 사용되며, 데이터 관리부(803)이 관리하는 음성 제어 조작 판정 정보에 포함되지 않아도 된다. 도 12a에 나타내는 실시예에서, 화면은 슬라이더 형상의 조작 오브젝트를 구비한다. 도24는 슬라이더 형상의 조작 오브젝트의 상세를 나타낸 도면이다. 본 실시예에서는, 슬라이더, 슬라이드 바, 스크롤 바, 트랙 바 등의 조작 오브젝트를 슬라이더 형상의 조작 오브젝트로 부른다. 설정값과 설정의 상태를 손잡이(스크롤러, 버블, 섬, 스크롤 박스, 노브, 엘리베이터, 퀸트, 팩, 와이퍼, 그립)의 위치로 나타낸다. 이동 버튼(애로우 버튼)의 누름, 또는, 손잡이의 드래그 조작에 의해, 손잡이의 위치를 이동할 수 있다. 전술한 이동방법들 모두 또는 한 개만 이용가능해도 된다. 슬라이더 형상의 조작 오브젝트의 본체 부분에 눈금이 설치되어 있어도 되고, 없어도 된다. 도 12c에 나타낸 예는 도 12d에 나타낸 일본어 버전 화면을 시청하는 ??버에 의해 행해진 음성 제어 조작에 적합하다.

S1001에서는, 데이터 송수신부(802)이 그룹 ID 판정부(707)에서 생성된 그룹 ID 판정 결과를 수신한다.

스텝 S1002에서는, 표시부(806)이 표시하고 있는 화면에 대응하는 화면 제어 정보와, 음성 제어 조작 판정부(807)이 조작 대상을 판정하기 위해서 사용하는 음성 제어 조작 판정 정보를 취득한다. 예를 들면, 표시부(806)이 도 12a에 나타내는 화면을 표시하고 있는 경우에는, 도 12a에 도시된 화면에 대응하는 도 12b의 화면 제어 정보와 도 12c의 음성 제어 조작 판정 정보를 취득한다.

S1003에서는, 음성 제어 조작 판정부(807)이, S1001에서 수신한 그룹 ID 판정 결과와, S1002에서 취득한 음성 제어 조작 판정 정보를 사용해서 음성 제어 조작 판정 처리를 행한다. 음성 제어 조작 판정 처리에서는, 조작 패널(509)의 화면에 표시되는 유저 조작가능한 UI 부품들 중에서 한개, 또는, 조작 패널(509)에 설치된 하드웨어 키 201 내지 210 중에서 한개가 조작 대상으로서 판정된다. 예를 들면, 유저(106)가 예를 들어 "자동"을 발화한 경우, 그룹 ID 판정부(707)이 그룹 ID 판정 결과로서 {ID:DRG00008}를 발생하고, 그룹 ID 판정 결과가 송신된다. 데이터 송수신부(802)은 S1001에서 그룹 ID 판정 결과를 수신하고, 음성 제어 조작 판정부(807)는, "자동(컬러/흑백)" 버튼이 수신된 그룹 ID 판정 결과와 일치한다는 것을 검출하므로, 음성 제어 조작 판정부(807)는 "자동(컬러/흑백)" 버튼이 조작 대상이라고 판정한다.

음성 제어 조작 판정 처리의 상세한 플로우 및 판정 처리 예에 대해서는, 도 14a 내지 도 14e와 다른 도면을 참조하여 후술한다.

S1004에서는, 표시부(806)이, S1003의 음성 제어 조작 판정 처리의 결과와, S1002에서 취득한 화면 제어 정보에 근거하여, 화면의 표시 내용을 갱신한다. 예를 들면, S1003에서 "자동(컬러/흑백)" 버튼이 조작 대상으로서 판정되면, 도 12b에 도시된 화면 제어 정보에 근거하여, 표시부(806)이 조작 대상으로서 판정된 버튼을 강조 표시하도록 화면을 갱신한다. 이때, 도 12c에 도시된 예서는, 조작 패널(509)의 LCD 터치패널(200)에 표시된 "자동(컬러/흑백)" 버튼이 터치되었을 때도, 버튼이 강조 표시된는 것으로, 음성 제어 조작 판정 정보가 표시하고 있다.

S1003의 음성 제어 조작 판정 처리의 결과가, 슬라이더 화면으로의 천이를 지시하는 음성 지시인 경우에는, 해당하는 슬라이더 화면으로 표시가 천이한다. 후술하는 S1309 내지 S1315과 같이 S1003의 음성 제어 조작 판정 처리의 결과가 슬라이더의 이동 지시인 경우에는, 다음과 같이 처리한다. 즉, 도 14b의 화면 제어 정보 및 도 14c의 음성 제어 조작 판정 정보에 근거하여 슬라이더의 눈금 위치(포인팅 위치)을 변경하도록 표시된 화면을 갱신한다. 이 처리에서, 슬라이더의 포인팅 위치는, 후술하는 S1306에서 판독되는 그 시점에 관한 슬라이더의 포인팅 위치에 근거해서 변경된다. 슬라이더에 의한 설정의 완료후, 디바이스 제어 프로그램(801)의 데이터 관리부(803)의 설정 파라미터의 갱신이 행해진다.

S1005에서는, S1003의 음성 제어 조작 판정 처리의 결과와, S1002에서 취득한 화면 제어 정보에 근거하여, 잡 실행을 행할 것인지 아닌지를 판정한다. 잡 실행을 행하는 경우에는 S1007로 처리가 진행하고, 그렇지 않으면 S1006로 처리가 진행한다. 예를 들면, S1003에서 "자동(컬러/흑백)" 버튼이 조작 대상으로서 판정된 경우에는, 도 12b에서 행해질 내부처리가 없기 때문에 잡 실행을 행하지 않는다고 판정한다. S1003에서 스타트 키(207)이 조작 대상으로서 판정된 경우에는, 이 경우에는 도 12b에서 규정된 내부처리가 "카피 잡의 실행 개시"이기 때문에, 잡 실행을 행한다고 판정한다.

S1006에서는, 전술한 S916에서 도시한 바와 같이 데이터 송수신부(802)가 화면 갱신 통지를 서버(102)에게 송신한다.

S1007에서는, 잡 파라미터의 설정값에 근거하여, 잡 실행 처리를 행한다. 잡 실행 처리에서, 화상 형성장치(101)은, 일련의 화상 형성 처리(예를 들면, 카피, 스캔, 프린트 등)을 실행한다. 예를 들면, 도 12a의 화면이 나타낸 것과 같이, "자동(컬러/흑백)" 버튼이 강조 표시되어 있을 때 카피 잡의 실행을 개시할 경우에는, 이 상태에서의 "자동(컬러/흑백)"의 설정값을 잡 파라미터로 사용하여 잡의 실행을 행한다.

S1008에서는, 전술한 S946 및 S950에 도시한 바와 같이 데이터 송수신부(802)가 잡 실행 상태 통지를 서버(102)에 송신한다.

시스템과 유저 사이의 인터랙션의 예

도 17a 내지 도 17d은, 도 9a 내지 도 9c의 시퀀스와 도 10, 도 13에서 나타내는 처리 플로우 중, 유저(106)로부터의 음성 제어 조작과 응성 제어 조작에 응답하여 시스템에 의해 주어진 인터랙션의 일례를 더욱 구체적으로 설명하기 위한 모식도다. 즉, 도17a 내지 도17d는, 유저(106)에 의해 행해진 음성 제어 조작으로서의 발화예와, 음성 제어장치(100)에 의해 음성처리 상태를 나타내기 위해 제어되는 LED의 대응하는 온/오프 상태를 나타내고 있다. 화상 형성장치의 조작 패널(509)에 표시하는 화면, 및, 음성 제어장치(100)에서 재생하는 응답용의 대응하는 음성을 나타내고 있다.

우선, 시스템에서는, LED가 소등되어 시스템이 대기 상태인 것을 나타내고, 조작 패널(509)에는 톱 화면을 표시하고 있다(S1701). 이 상태에서, 유저(106)이 웨이크 워드를 발화하면(S1702), 시스템은 음성 제어 조작의 접수를 개시하고, 발화처리가 진행중인 것을 나타내기 위해 LED를 점등한다(S1703). 이때, S1702은 도 9 중의 S905의 구체적인 일례이고, S1703은 S906의 구체적인 일례다. 웨이크 워드에 이어서, 유저(106)이 "카피를 하고 싶다"고 발화하면(S1704), 시스템은 응답처리가 진행중인 것을 나타내기 위해 LED를 점멸시키고(S1705), 시스템은 카피 톱 화면을 표시한다(S1706). 그리고, 시스템은 "카피 화면이 표시되었습니다"라고 하는 응답용의 음성을 재생하고(S1707), 유저(106)에게 다음 발화를 촉구하기 위해서 LED를 재점등한다(S1708). 이때, S1704, S1705, S1706, S1707 및 S1708은 각각 도 9a에 도시된 S907, S908, S915, S919 및 S920의 구체적인 일례다.

다음에, 유저(106)이 "원고의 종류"라고 발화하면(S1709), 시스템은 LED를 점멸시키고(S1710), 원고의 종류 설정 화면을 표시한다(S1711). 그리고, 시스템은 "원고의 종류를 변경할 수 있습니다"라고 하는 응답용의 음성을 재생하고(S1712), LED를 점등한다(S1713). 이때 S1709m S1710, S1711, S1712 및 S1713은 각각 도 9a 및 도 9b에 도시된 S921, S922, S915, S924 및 S925의 구체적인 일례다.

다음에, 유저(106)이 "레벨 조정"이라고 발화하면(S1714), 시스템은 LED를 점멸시키고(S1715), 레벨 조정 설정 화면을 표시한다(S1716). 그리고, 시스템은 "레벨 조정을 변경할 수 있습니다"라고 하는 응답용의 음성을 재생하고(S1717), LED를 점등한다(S1718). 이때, S1714, S1715, S1716, S1717 및 S1718은 각각 도 9a 및 도 9b에 도시된 S921, S922, S915, S924 및 S925의 구체적인 일례다.

다음에, 유저(106)이 "사진을 우선 버튼을 3회 선택"이라고 발화하면(S1719), 시스템은 LED를 점멸시키고(S1720), 레벨 조정(즉 슬라이더)을 우측으로 3개 위치만큼 이동한다(S1721). 그리고, 시스템은 "레벨 조정을 변경했습니다"라고 하는 응답용의 음성을 재생하고(S1722), LED를 점등한다(S1723). 슬라이더의 조작에 관한 상세는 도 13에서 후술한다. 이때, S1719, S1720, S1721, S1722 및 S1723은 각각 도 9a 및 도 9b에 나타낸 S926, S927, S915, S929 및 S925의 구체적인 일례다.

다음에, 유저(106)이 "OK"라고 발화하면(S1724), 시스템은 LED를 점멸시키고(S1725), 레벨 조정을 반영하도록 원고의 종류 설정 화면을 표시한다(S1726). 그리고, 시스템은 "설정을 확정했습니다"라고 하는 응답용의 음성을 재생하고(S1727), LED를 점등한다(S1728). 이때, S1724, S1725, S1726, S1727 및 S1728은 각각 도 9a 및 도 9b에 도시된 S931, S932, S915, S934 및 S935의 구체적인 일례다.

다음에, 유저(106)이 "카피 개시"라고 발화하면(S1729), 시스템은 LED를 점멸시키고(S1730), 카피 잡을 실행한다. 카피 잡의 실행이 개시되면, 시스템은 카피 잡 실행중인 것을 나타내는 화면을 표시하는(S1732) 동시에, "카피를 개시합니다"라고 하는 응답용의 음성을 재생한다(S1731). 카피 잡의 실행이 완료하면, 시스템은 카피 잡 실행 종료를 나타내는 화면을 표시하는 동시에, "카피를 종료했습니다"라고 하는 최종 응답용의 음성을 재생한다(S1733). 더구나, 시스템은 음성 접수가 불가능하게 된 것을 나타내기 위해 LED를 소등한다(S1734). 이때, S1729, S1730, S1731, S1733 및 S1734는 각각 도 9c에 나타낸 S936, S937, S944, S949, S954 및 S955의 구체적인 일례다.

슬라이더의 음성 제어

본 실시예에 따르면, S1719 내지 S1721에서 일례를 음성 제어 조작에 의해 다양하게 슬라이더를 제어하는 것이 허용된다. 도22a 내지 도22f는, 음성에 의해 제어된 슬라이더의 조작의 구체적인 예를 도시한 도면이다.

도22a는, "슬라이더를 우측으로 이동"이라고 하는 발화에 의해 슬라이더의 포인팅 위치를 중앙으로부터 한 개의 위치만큼 우측으로 이동시키는 방법의 일례를 나타내고 있다. 도 12a의 화면과 유사한 화면에 대한 조작이 허용되는 경우, "사진을 우선 버튼을 1회 선택" 등의 버튼 명칭을 포함하는 음성에 의해 조작이 제어된다. 본 실시예에서는, 이와 같은 통상의 음성 조작 제어 이외에, 화면에 특유한 음성 조작 제어("우측", "좌측" 등의 방향을 나타내는 음성에 따라 슬라이더를 이동)을 이용할 수 있다.

또한, 이 화면에서는, 같은 음성 조작을 복수회 반복해서 행할 수 있다. 도22b은, 도22a에에 도시된 위치에서 슬라이더가 이동한 상태를 나타내고 있다. 본 실시예에서는, 슬라이더의 이전 위치를 기억하고 있기 때문에, 2회째의 "슬라이더를 우측으로 이동"이라고 발화는 슬라이더를 중앙으로부터 우측으로 2개의 위치만큼 떨어진 위치로 이동하게 한다.

"슬라이더를 우측으로 이동" 및 "슬라이더를 우측 끝으로 이동"이라고 하는 발화를 구별하여도 된다. "슬라이더를 우측 끝으로 이동"이라고 하는 발화에 의한 음성 조작 제어는, 도22d에 나타낸 것과 같이, 슬라이더를 우측 끝으로(중앙으로부터 4개의 위치가 떨어지게) 이동시킨다. 더구나, "슬라이더를 중앙으로 이동", "슬라이더를 좌측 끝으로 이동" 등의 방화에 의한 음성 조작 제어가 허용된다. 단, 슬라이더의 현재 위치에 근거하지 않는 슬라이더 조작은 본 실시예의 주제가 아니기 때문에, 그 상세한 설명을 생략한다.

슬라이더의 포인팅 위치가, 도22d의 경우와 같이 슬라이더 범위의 우측 끝에 있는 경우, 슬라이더를 그 이상 우측으로 이동할 수 없다. 그 때문에, 도22d의 상태에서 슬라이더를 더 우측으로 이동시키는 음성 조작 제어가 행해지는 경우, 슬라이더의 이동이 불가능한 것으로 판단하여, 포인팅 위치를 이동하지 않는다. 이 경우, 요구된 이동이 허용되지 않는 것을 나타내는 일시 표시(예를 들면, 팝업 표시)을 행하거나, 및/또는 도 9B의 S929에서 음성 합성 데이터 재생시에, 슬라이더의 요구된 이동이 허용되지 않는 것을 음성으로 말해도 된다.

도22c은, "슬라이더를 2개 우측으로 이동" 또는 "슬라이더를 약간 우측으로 이동"이라고 하는 발화에 의해 포인팅 위치를 중앙으로부터 2개의 위치만큼 우측으로 이동시키는 방식의 일례를 나타내고 있다. 전술한 것과 같이 한번의 발화로 복수회만큼 슬라이더 이동을 가능하게 함으로써 조작성을 향상시킬 수 있다. 음성 조작 제어에서 "약간" 등의 애매한 표현을 사용할 수 있게 하는 것은 직감적인 조작 환경을 제공할 수 있다.

도22e 및 도22f는 "슬라이더를 1/4 정도 우측으로 이동"이라고 하는 발화에 의해 포인팅 위치를 이동시키는 방식을 나타내고 있다. 이렇게, 비율 표현을 사용하는 음성 제어 조작에 대응함으로써, 보다 유연한 음성 제어 조작을 제공할 수 있다. 이렇게 비율 표현을 사용할 경우, 현재의 포인팅 위치에 따라 이동하는 슬라이더의 눈금량이 다르다. 도22e에 도시된 예서는, 현재 포인팅 위치가 중앙이며, 우측 방향으로 나머지 4눈금이 남아 있다. 이 때문에, "슬라이더를 1/4 정도 우측으로 이동"이라고 하는 발화가 슬라이더를 1눈금만큼 우측으로 이동하게 한다. 도22f에 도시된 실시예에서는, 현재 포인팅 위치가 좌측 끝이며, 우측 방향에 나머지 8눈금이 남아 있다. 그 때문에, "슬라이더를 1/4 정도 우측으로 이동"이라고 하는 발화는 슬라이더를 2눈금만큼 우측으로 이동하게 한다.

음성 제어 조작 판정부의 처리 플로우

도13은 화상 형성장치(101)의 음성 제어 조작 판정부(807)의 처리의 개요를 나타내는 흐름도다. 도13에 나타낸 처리는, 도 10의 S1003, 및, 도 9a 및 도 9c의 S914, S943의 처리에 대응하고 있다. 도 14a 내지 도 14e는, 도 13의 음성 제어 조작 판정 처리에 의해 음성에 의해 행해지도록 지시된 조작을 판정할 때의 화면예, 및, 종래의 조작방법(조작 패널에 설치된 버튼이나 하드웨어 키 누름에 의한 방법)과 음성 조작 제어에 의한 조작방법의 예다. 이하, 도 13과 도 14a 내지 도 14e을 참조해서 음성 제어 조작 판정부(807)의 처리 플로우에 대해 설명한다.

우선, 도 14a 내지 도 14e를 참조한다. 도 14a는 화상 형성장치(101)의 카피의 레벨 조정에 있어서의, 문자·사진의 판독시 할당된 설정 우선도를 사용하기 위한 화면예(영어판)이다. 도 14e는 도 14a에 나타낸 영어판이 번역되는 화면의 일본어판이다.

버튼 1401 및 1402은 문자 및 사진에 할당된 우선도의 조정하는 슬라이더 버튼이다. 이들 버턴을 조작할 때, 화면 중앙에 설치된 슬라이더를 이동한다. 현재의 슬라이더 위치는 슬라이더 바의 중앙에 있으며, 우측 슬라이더 버튼 또는 좌측 슬라이더 버튼을 누름으로써 단계적으로 좌측 또는 우측으로 이동한다. 버튼 1403은 설정을 취소하기 위한 버튼, 버튼 1404은 설정을 반영하기 위한 OK 버튼이다. 도 14b은, 도 14a에서 나타내는 화면과 관련된 화면 제어 정보의 일례다. 도 14c 및 도 14d은, 도 14a에서 나타내는 화면과 관련된 음성 제어 조작 판정 정보의 일례다. 도 14c 및 도 14d의 행 1405 내지 행 1416은, 음성 제어 조작 판정 정보의 각 행 번호를 나타내고 있다.

이하, 도 13의 처리 플로우에 대해서 도 14a에서 나타내는 화면과, 도 14b 내지 도 14d의 화면 제어 정보와 음성 제어 조작 판정 정보의 예를 참조하여 설명한다.

S1301에 있어서, 음성 제어 조작 판정부(807)은, 도 10의 S1001에서 수신한 그룹 ID 판정 결과와, S1002에서 취득한 음성 제어 조작 판정 정보에 포함되는 버튼의 그룹 ID 정보 사이에서 매칭을 행한다. 예를 들면, 도 14a의 화면을 표시하고 있을 때, 그룹 ID 판정 결과가 {ID:NUM00003, POS00016, FIN00011}(이것은, 유저(106)이 "3개만큼 왼쪽으로 슬라이드를 이동"이라고 발화했을 때의 얻어진다)인 경우, 도 14c 및 도 14d의 음성 제어 조작 판정 정보의 행 1405 내지 행 1414의 그룹 ID 판정 결과와 그룹 ID 정보 사이에서 매칭이 행해진다. 그 결과, 행 1406의 그룹 ID "NUM00003+POS00016+FIN00011"이 히트하여, 매칭 성공이 된다.

이때, 도 14c 및 도 14에 나타낸 3개의 예에서, 유저가 도 14e에 나타낸 화면의 일본어판을 보고 있으며, 도 14e에 나타낸 화면의 일본어판에 대한 음성 조작 제어를 위해 음성을 발화하는 것으로 가정한다.

S1302에 있어서, 음성 제어 조작 판정부(807)은, S1301에서 매칭 성공하였는지 아닌지를 판정한다. 매칭 성공한 경우에는, S1306로 처리를 진행하고, 그렇지 않으면 S1303로 처리를 진행한다.

S1303에 있어서, 음성 제어 조작 판정부(807)은, 도 10의 S1001에서 수신한 그룹 ID 판정 결과와, S1002에서 취득한 음성 제어 조작 판정 정보에 포함되는 하드웨어 키의 그룹 ID 정보 사이의 매칭을 행한다. 예를 들면, 도 14a의 화면에 있어서, 서버(102)에 있어서의 그룹 ID 판정 결과가 {ID:OPR00011}(이것은 유저(106)이 "스타트"라고 발화했을 때 얻어진다)인 경우, 그 ID 판정 결과와 음성 제어 조작 판정 정보의 하드웨어 키의 그룹 ID 정보 사이에서 매칭을 행한다. 이 경우, 음성 제어 조작 판정 정보에서 그룹 ID "OPR00011"이 히트하여, 매칭 성공이 된다.

S1304에 있어서, 음성 제어 조작 판정부(807)은, S1303에서 매칭이 성공하였는지 아닌지를 판정한다. 매칭 성공한 경우에는, S1305로 처리를 진행하고, 그렇지 않으면 음성 제어 조작 판정 처리를 종료한다.

S1305에 있어서, 음성 제어 조작 판정부(807)은, S1303에서 매칭처리에서 히트한 하드웨어 키를 음성 조작 제어 지시가 조작하는 것이라고 판정하여, 음성 제어 조작 판정부(807)는 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID 정보가 "OPR00011"인 "스타트"가 히트했을 경우, 스타트 키(207)가 조작하도록 지시된 것이라고 판정하여, 음성 제어 조작 판정 처리를 종료한다.

S1306에 있어서, 음성 제어 조작 판정부(807)은, S1301에서의 매칭 결과에 표시된 조작 대상이 슬라이더 버튼인지 아닌지를 판정한다. 예를 들면, "문자를 우선을 선택"이 발화되는 경우, 도 14c 및 도 14d의 음성 제어 조작 판정 정보의 행 1405 내지 1412에서 매칭 처리에서 행 1405이 히트한다. 행 1405의 "번호"열이 1401의 값을 가지므로, 도 14b의 화면 제어 정보로부터, 조작 대상이 슬라이더 버튼이라고 판정된다.

조작 대상이 슬라이더 버튼이라고 판정된 경우에는, 조작 대상의 슬라이더의 포인팅 위치를 판독한다. 도 14a에 도시된 예에서는, 슬라이더의 포인팅 위치는 "0"(우측의 값이 양이고 좌측의 값이 음이다)이다. 슬라이더의 눈금 이동은 판독한 포인팅 위치에 근거해서 행해진다. 매칭한 조작 대상이 슬라이더 버튼인 경우에는 S1308로 처리를 진행하고, 그렇지 않으면 S1307로 처리를 진행한다.

S1307에 있어서, 음성 제어 조작 판정부(807)은, S1301에서 매칭한 결과가 조작 화면 상의 일반 버튼을 조작하는 음성 조작 제어 지시를 나타낸 것이라고 판정하여, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID가 "OPR00010"인 "OK"이 매칭한 경우, 도 14d의 음성 제어 조작 판정 정보의 행 1414에서 1404가 "번호"열에 기재되어 있으므로, 음성 조작 제어가 일반 버튼 중 한개인 "OK" 버튼의 조작을 지시한다고 판정한다.

S1308에 있어서, 음성 제어 조작 판정부(807)은, 그룹 ID 판정 결과에 조작 대상이 조작되는 횟수를 지정하는 그룹 ID가 포함되어 있는지 아닌지를 판정한다. 예를 들면, 도 10의 S1001에서 수신한 그룹 ID 판정 결과에 "3개"을 의미하는 {ID:NUM00003}이 포함되어 있는 경우, 그룹 ID 판정 결과에 횟수를 지정하는 그룹 ID가 포함되어 있다고 판정된다. 횟수를 나타내는 그룹 ID는 도 7b에서 NUM00001 내지 NUM99999이 대응한다. 그러나, 슬라이더의 조정 범위는 최대 8개이다. 그 때문에, 횟수를 지정하는 그룹 ID는 슬라이더의 최대 조정 폭까지의 범위(이와 같은 구체적인 경우에는 NUM00001 내지 NUM00008)로 설정된다. 횟수를 지정하는 그룹 ID가 포함되어 있으면 S1310로 처리를 진행하고, 그렇지 않으면 S1309로 처리를 진행한다.

S1309에 있어서, 음성 제어 조작 판정부(807)은, S1301에서 매칭한 결과가 조작 화면 상의 슬라이더 버튼에 대한 1회분의 음성 조작을 지정한다고 판정하고, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID 정보로서 도 14c의 행 1405 및 행 1409이 매칭된 경우, 음성 조작 제어가 슬라이더 버튼을 1회 조작(즉, 슬라이더 버튼 1401 또는 1402을 1회 조작)하도록 지시한다.

S1310에 있어서, 음성 제어 조작 판정부(807)은, S1308에서 판정된 횟수를 지정하는 그룹 ID가 횟수에 대한 구체적인 수를 나타내고 있는지 아닌지를 판정한다. 예를 들면, 그룹 ID 판정 결과에 NUM00001 내지 NUM00008 중 한개가 포함되어 있는 경우에는, 횟수에 대한 구체적인 수를 지정하고 있다고 판정한다. 구체적인 수이면 S1311로 처리를 진행하고, 그렇지 않으면 S1312로 처리를 진행한다.

S1311에 있어서, 음성 제어 조작 판정부(807)은, S1301에서 매칭한 결과가 조작 화면 상의 슬라이더 버튼을 지정 횟수만큼 조작하는 음성 제어 조작 지시를 나타내는지 판정하여, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID 정보로서 도 14c의 행 1406, 행 1410이 매칭한 경우(예를 들면, 유저(106)이 "문자를 우선을 2회 선택"이라고 발화했을 때에 행 1406과 매칭하는 경우), 음성 조작 제어가 지정된 횟(즉, 슬라이더 버튼 1401 또는 번호 1402을 지정된 횟수 조작)수만큼 슬라이더 버튼을 조작하는 것으로 지시하는 것으로 판정한다(즉, 슬라이더 버튼 1401 또는 번호 1402을 지정된 횟수 조작)이라고 판정한다.

S1312에 있어서, 음성 제어 조작 판정부(807)은, S1308에서 횟수를 지정하는 정보를 포함하는 것으로 판정된 그룹 ID에서, 특수 표현이 사용되거나 산출이 필요하도록 횟수가 기술된다. 특수 횟수 표현은, 에를 들어, "약간", "조금" 등을 나타내고, 도 11d의 그룹 ID의 {DRG00018}이 이와 같은 표현의 예이다. 특수 횟수 표현은, 이것에 한정하지 않고, 양이나 횟수를 애매하게 지시하는 표현(예를 들면, "거의", "상당히", "약간") 등의 표현을 포함해도 된다. 도 11h의 그룹 ID의 {FRG00103}에서와 같이 예를 들면, "1/3" 등의 분수 표현이 사용되는 경우를 횟수 산출이 필요하다.

S1313에 있어서, 음성 제어 조작 판정부(807)은, 스텝 S1301에서 매칭한 결과가 조작 화면 상의 슬라이더 버튼을 특수 표현에서 지정된 소정 횟수만큼 조작하도록 지시하는 음성 제어 조작을 나타낸다고 판정하고, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID 정보로서 도 14c의 행 1407, 행 1411이 매칭한 경우, 그룹 ID {DGR00018}에서 설명된 음성 제어 조작에 의해 지정된 횟수가 슬라이더 버튼을 2회(즉, 슬라이더 버튼 1401 또는 1402가 2회 눌린다) 조작하도록 해석된다고 판정된다. 여기에서, 그룹 ID인 {DGR00018}와 관련된 "약간"은 "2회"인 것으로 간주된다. 그러나, 이 값은 "2회"에 한정되지 않으며, 설정을 행하여 변경할 수 있다.

S1314에 있어서, 음성 제어 조작 판정부(807)은, 횟수를 산출한다. 예를 들면, 그룹 ID 정보가 {FRG00103, POS00012}(이때 "1/3"과 "우측"을 나타낸다)일 경우, 현재의 슬라이더의 위치와, 우측으로의 나머지 눈금수로부터 이동 횟수를 산출한다. 구체적으로는, 도 14a와 같이 현재의 위치가 슬라이더의 바의 중앙인 경우, 우측으로의 나머지 눈금수는 4이므로, 4×1/3=1.333≒1이 되어, 이동 횟수가 1인 것으로 판정된다는 것을 의미한다. 이렇게, 현재의 슬라이더의 바의 위치와, 바를 움직이는 방향의 나머지 눈금수, 및, 그룹 ID 정보의 분수 표현으로부터 이동 횟수를 산출한다.

S1315에 있어서, 음성 제어 조작 판정부(807)은, S1301에서 매칭한 결과가 조작 화면 상의 슬라이더 버튼을 S1314에서 산출된 횟수만큼 조작하도록 음성 제어 조작이 지시하는 것을 나타낸다고 판정하고, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID 정보로서 도 14c의 행 1407, 행 1411이 매칭한 경우, 그룹 ID {DGR00018}가 조작이 행해지는 횟수로서 "2회"를 지정하는 것으로 판정하여, 음성 제어 조작이 슬라이더 버튼을 2회 누도록 지정한 것으로(즉, 슬라이더 버튼 1401 또는 1402가 2회누르는 것으로) 판정한다. 여기에서, 그룹 ID {DGR00018}와 관련된 "약간은 "2회"로 간주한다. 그러나, 이 값은 "2회"에 한정되지 않으며, 설정을 행하여 변경할 수 있다.

보충

이상에서 설명한 바와 같이, 본 실시예에 따르면, 장치의 설정 화면의 구성에 따른 음성 제어 조작을 유저가 행할 수 있게 하는 정보 처리 시스템을 제공할 수 있다. 특히, 슬라이더 형상의 조작 오브젝트를 구비한 설정 화면 상에서 음성 제어 조작이 가능하다. 본 실시예에 따르면, 슬라이더 형상의 조작 오브젝트를 구비한 설정 화면에 있어서, 버튼 명칭에 의존하지 않고 음성 제어 조작이 가능하다. 본 실시예에서는, 현재의 설정 상태를 가미한 설정을 변경하기 위해 음성 제어 조작을 행할 수 있다. 본 실시예에서는, 슬라이더의 이동량을 수치(수치 정보)로 지정할 수 있다. 본 실시예에서는, 슬라이더의 이동량을 비율(비율 정보)로 지정할 수 있다. 상기한 바와 같이 음성에 의한 조작을 유연하게 제어할 수 있으므로 우수한 유저빌리티가 얻어질 수 있다.

실시예2

실시예 1에서는, 설정 화면에 슬라이더 형상의 조작 오브젝트가 1개 배치되어 있는 케이스에 대해 설명하였다. 후술하는 실시예 2에서는, 설정 화면에 슬라이더 형상의 조작 오브젝트가 복수 배치되어 있는 예에 대해 설명한다.

시스템과 유저 사이의 인터랙션의 예

도17a 내지 도 17d는, 도 9a 내지 도 9c의 시퀀스와 도 10, 도 15에서 나타내는 처리 플로우 중, 유저(106)로부터의 음성 제어 조작과 이 음성 제어 조작에 응답하여 시스템으로부터의 인터랙션의 일례를 더욱 구체적으로 설명하기 위한 모식도다. 즉, 도18a 및 도 18d는, 유저(106)의 음성 제어 조작에 대한 발화예와, 시스템이 음성 제어장치(100)의 음성처리 상태를 나타내기 위해 제어되는 LED의 온/오프 상태을 나타내고 있다. 화상 형성장치의 조작 패널(509)에 표시하는 화면, 및, 음성 제어장치(100)에서 재생하는 응답용의 대응하는 음성을 나타내고 있다.

우선, 시스템에서는, LED가 시스템이 대기 상태에 있다는 것을 나타내는 오프 상태에 있으며, 조작 패널(509)에는 톱 화면을 표시하고 있다(S1801). 이 상태에서, 유저(106)이 웨이크 워드를 발화하면(S1802), 시스템은 음성 제어 조작의 접수를 개시하고, 발화처리가 진행중인 것을 나타내기 위해 LED를 점등한다(S1803). 이때, S1802은 도 9a 중의 905의 구체적인 일례이고, S1803은 906의 구체적인 일례다. 웨이크 워드에 이어서, 유저(106)이 "카피를 하고 싶은"고 발화하다(S1804), 시스템은 응답처리가 진행중인 것을 나타내기 위해 LED를 점멸시키고(S1805), 시스템은 카피 톱 화면을 표시한다(S1806). 그리고, 시스템은 "카피 화면이 표시되었습니다"라고 하는 응답용의 음성을 재생하고(S1807), 유저(106)에게 다음의 발화를 촉구하기 위해서 LED를 재점등한다(S1808). 이때, S1804, S1805, S1806, S1807, S1808은 도 9a 중의 S907, S908, S915, S919, S920의 구체적인 일례다.

다음에, 유저(106)이 "기타 기능"이라고 발화하면(S1809), 시스템은 LED를 점멸시키고(S1810), 기타 기능 화면을 표시한다(S1811). 그리고, 시스템은 "기타 기능 1을 표시했습니다"라고 하는 응답용의 음성을 재생하고(S1812), LED를 점등한다(S1813). 이때, S1809, S1810, S1811, S1812, S1813은 도 9a 및 도 9b 중의 S921, S922, S915, S924, S925의 구체적인 일례다.

다음에, 유저(106)이 "다음 페이지"라고 발화하면(S1814), 시스템은 LED를 점멸시키고(S1815), 두번째 기타 기능 화면을 표시한다(S1816). 그리고, 시스템은 "기타 기능 2을 표시했습니다"라고 하는 응답용의 음성을 재생하고(S1817), LED를 점등한다(S1818). 이때, S1814, S1815, S1816, S1817, S1818은 도 9a 및 도 9b 중의 921, S922, S915, S924, S925의 구체적인 일례다.

다음에, 유저(106)이 "컬러 조정"이라고 발화하면(S1819), 시스템은 LED를 점멸시키고(S1820), 컬러 조정 설정 화면을 표시한다(S1821). 그리고, 시스템은 "컬러 조정을 변경할 수 있습니다"라고 하는 응답용의 음성을 재생하고(S1822), LED를 점등한다(S1823). 이때, S1819은 도 9 중의 S921, S1820은 S922, S1821은 S915, S1822은 S924, S1823은 S925의 구체적인 일례다.

다음에, 유저(106)이 "채도 조정"이라고 발화하면(S1824), 시스템은 LED를 점멸시키고(S1825), 채도 조정 설정 화면을 표시한다(S1826). 그리고, 시스템은 "채도 조정을 변경할 수 있습니다"라고 하는 응답용의 음성을 재생하고(S1827), LED를 점등한다(S1828). 이때, S1824은 도 9 중의 921, S1825은 S922, S1826은 S915, S1827은 S924, S1828은 S925의 구체적인 일례다.

다음에, 유저(106)이 "옐로와 시안을 2개 높게"라고 발화하면(S1829), 시스템은 LED를 점멸시키고(S1830), 채조 조정기(즉 옐로와 시안과 관련된 슬라이더)을 우측으로 2개 이동한다(S1831). 그리고, 시스템은 "채도 조정을 변경했습니다"라고 하는 응답용의 음성을 재생하고(S1832), LED를 점등한다(S1833). 슬라이더의 조작에 관한 상세는 도 15을 참조하여 후술한다. 이때, S1829은 도 9 중의 S926, S1830은 S927, S1831은 S915, S1832은 S929, S1833은 S925의 구체적인 일례다.

다음에, 유저(106)이 "시안과 마젠타를 3개 낮게"라고 발화하면(S1834), 시스템은 LED를 점멸시키고(S1835), 채도 조정기(즉 시안과 마젠타의 각 슬라이더)을 좌측으로 3개 위치 이동한다(S1836). 그리고, 시스템은 "채도 조정을 변경했습니다"라고 하는 응답용의 음성을 재생하고(S1837), LED를 점등한다(S1838). 이때, S1834은 도 9 중의 S926, S1835은 S927, S1836은 S915, S1837은 S929, S1838은 S925의 구체적인 일례다.

다음에, 유저(106)이 "OK"라고 발화하면(S1839), 시스템은 LED를 점멸시키고(S1840), 채도 조정을 반영하도록 수정된 채도 조정 설정 화면을 표시한다(S1841). 그리고, 시스템은 "설정을 확정했습니다"라고 하는 응답용의 음성을 재생하고(S1842), LED를 점등한다(S1843). 이때, S1839은 도 9 중의 S931, S1840은 S932, S1841은 S915, S1842은 S934, S1843은 S935의 구체적인 일례다.

다음에, 유저(106)이 "카피 개시"라고 발화하면(S1844)과, 시스템은 LED를 점멸시키고(S1845), 카피 잡을 실행한다. 카피 잡의 실행이 개시되면, 시스템은 카피 잡 실행중의 화면을 표시하는(S1846) 동시에, "카피를 개시합니다"라고 하는 응답용의 음성을 재생한다(S1847). 그리고, 카피 잡의 실행이 완료하면, 시스템은 카피 잡 실행이 종료된 것을 나타내는 화면을 표시하는 동시에, "카피를 종료했습니다"라고 하는 최종 응답용의 음성을 재생한다(S1848). 더구나, 시스템은 음성 접수가 종료한 것을 나타내기 위해 LED를 소등한다(S1849). 이때, S1844, S1845, S1846, S1847, S1848은 S936, S937, S944, S949, S954, S955의 구체적인 일례다.

슬라이더가 복수 있을 경우에 대한 조작 예

본 실시예에서는, S1829 내지 S1831과 S1834 내지 S1836에서 예를 든 슬라이더의 음성 제어를 다양하게 행할 수 있다.도23a 내지 도23d는, 슬라이더를 음성 제어 조작하는 구체예를 도시한 도면이다.

도23a는, "옐로를 높게"라고 하는 발화에 응답하여 옐로의 슬라이더의 포인팅 위치를 중앙으로부터 1개 위치만큼 우측으로 이동시키는 방식의 일례를 나타내고 있다. 본 실시예에서는, 설정 화면이 복수의 슬라이더를 갖는 경우, 슬라이더를 식별하기 위한 명칭(본 실시예에서는 색)을 사용함으로써, 특정한 슬라이더를 지정할 수 있으므로, 복수의 슬라이더 중 특정한 슬라이더만을 이동시킬 수 있다. 옐로 슬라이더를 지정하기 위해, "옐로"의 발화와 "옐로 슬라이더"의 발화 모두 허용된다. "높게"라고 발화하는 것이 아니고 "우측으로"로 발화해도 된다.

도23b은, "전체 색을 높게"라고 하는 발화에 의해, 화면 중의 모든 슬라이더(옐로, 그린, 시안, 블루, 마젠타, 레드의 슬라이더)가 현재 포인팅 위치로부터 1 위치만큼 우측으로 이동하도록 슬라이더를 이동시키는 방식을 나타내고 있다. 본 실시예는, 이렇게 복수의 슬라이더를 동시에 조작함에 잇어서 우수한 조작성을 제공한다.

도23c은, "옐로와 시안을 2개 높게"라고 하는 발화에 의해 옐로와 시안의 슬라이더를 현재의 포인팅 위치로부터 2 위치만큼 우측으로 이동하도록 슬라이더를 이동하는 방식을 나타내고 있다. 이렇게, 본 실시예에 따르면, 다수의 슬라이더 중 2개 이상의 슬라이더를 동시에 조작할 수 있다.

도23d는, "시안과 마젠타를 3개 낮게"라고 하는 발화에 의해 시안과 마젠타의 슬라이더의 현재의 포인팅 위치로부터 3 위치만큼 좌측으로 이동하도록 슬라이더를 이동시키는 방식을 나타내고 있다. 즉, 시안의 슬라이더가 현재 위치로부터, 즉 중심 위치로부터 우측으로 2개의 눈금 떨어진 위치에서, 중앙 위치에 바로 인접한 좌측의 눈금으로 이동하는 한편, 마젠타의 슬라이더는 중앙 위치로부터 3개의 눈금만큼 좌측으로 이동한다. 이렇게, 본 실시예에서는, 복수의 슬라이더의 각각의 현재 위치를 고려하여, 다수의 슬라이더 중 2개 이상의 슬라이더를 동시에 이동할 수 있다.

슬라이더가 복수 있을 때 음성 제어 조작 판정부의 처리 플로우

도 15a 및 도 15b은 화상 형성장치(101)의 슬라이더가 복수 있을 때의 화상 형성장치(101)의 음성 제어 조작 판정부(807)의 처리의 개요를 나타내는 흐름도다. 도 15a 및 도 15b에 도시된 처리는 도 10의 S1003, 도 9의 S914 및 도 9c의 S943에 대응하고 있다. 도16a 내지 도 16e은, 도 15a 및 도 15b의 음성 제어 조작 판정 처리에 의해 슬라이더의 조작을 판정하는 음성 제어 조작에 의해 조작할 복수의 슬라이더가 존재하는 경우에 대한 화면예를 나타낸 것이다.

이하, 도 15a 및 도 15b과 도16a 내지 도 16e을 참조해서 화면에 슬라이더가 복수 있을 때의 음성 제어 조작 판정부(807)의 처리 플로우에 대해 설명한다.

우선, 도16a 내지 도 16e에 대해 설명한다. 도16a는 화상 형성장치(101)의 채도 조정의 화면예(영어판)이고, 도 16e는 화상 형성장치(101)의 채도 조정의 화면예(도 16a에 도시된 영어판에 대응하는 일본어판)이다. 버튼 1601 내지 1614은 채도 레벨을 조정하는 슬라이더 버튼, 즉 화면 중앙에 있는 각 슬라이더를 조작하기 위한 버튼이다. 버튼 1615은 설정을 취소하기 위한 버튼, 버튼 1616은 설정을 반영하기 위한 OK 버튼이다. 도16b은, 도16a에서 나타내는 화면에 있어서의 화면 제어 정보의 일례다. 도16c 및 도16d은, 도16a에서 나타내는 화면과 관련된 음성 제어 조작 판정 정보의 일례다. 도16c 및 도 16d의 행 1617 내지 1634은, 음성 제어 조작 판정 정보의 각 행을 나타내고 있다. 이때, 도 16c 및 도 16d에 도시된 이들 실시예에서, 유저가 도 16e에 나타낸 화면의 일본어판을 보고 있으며, 도 16e에 나타낸 화면의 일본어판에 대한 음성 조작 제어를 위해 음성을 발화하는 것으로 가정한다.

이하, 도 15a 및 도 15b의 처리 플로우, 도16a에서 나타내는 화면과, 도16b 및 도 16c의 화면 제어 정보를 참조하여 처리를 설명한다. S1501 내지 S1515은, 각각 도 13의 S1301 내지 S1315와 유사하므로, 주된 차분인 S1516 내지 S1518을 중심으로 설명한다.

S1516에서는, 도 10의 S1002에서 취득한 도16b의 화면 제어 정보에 근거하여, 슬라이더가 2개 이상 있는지를 판정한다. 도16b와 같이 슬라이더가 2개 이상 있다고 판정되는 경우에는, S1517로 처리를 진행한다. 그러나, 슬라이더가 한 개 이하인 경우에는, S1501로 처리를 진행한다.

S1517에서는, 도 10의 S1001에서 수신한 그룹 ID 판정 결과에 슬라이더 명이 2개 이상 포함되는지 아닌지를 판정한다. 슬라이더 명은, 예를 들면, 도16a의 "옐로", "그린", "시안", "블루", "마젠타", "레드"을 가리킨다. 그룹 ID 판정 결과가 {COL0004, COL0006, NUM00002, DRG00013}(이것은 유저가 "옐로와 시안을 2개 높게"라고 발화한 경우에 얻어진다)인 경우, 그룹 ID {COL0004, COL0006}로부터 슬라이더 명인 "옐로"과 "시안"이 2개 이상 포함된다고 판정된다. 도16a와 같이 슬라이더 명이 2개 이상 있다고 판정되는 경우에는, S1518로 처리를 진행하고, 그렇지 않으면 S1501로 처리를 진행한다.

S1518에서는, S1517에서 판정된 슬라이더 명마다 그룹 ID 판정 결과를 재생성한다. 예를 들면, S1517의 예에서 든 것 같이 그룹 ID 판정 결과가 {COL0004, COL0006, NUM00002, DRG00013}인 경우, {COL0004, NUM00002, DRG00013}, 및, {COL0006, NUM00002, DRG00013}과 같이 슬라이더 명마다 2개의 그룹 ID 판정 결과가 재생성된다. 전술한 것과 같이 그룹 ID 판정 결과를 재생성함으로써, 유저는 한번의 발화를 행하여 동시에 2개 이상의 슬라이더를 조작할 수 있다.

이후, 그룹 ID 판정 결과가 {COL0004, COL0006, NUM00002, DRG00013}(이것은 유저가 "옐로와 시안을 2개 높게"로 발화한 경우 얻어진다)일 때의, S1501 이후의 처리 플로우에 대해서 간단하게 설명한다.

S1518에서 2개의 그룹 ID 판정 결과 {COL0004, NUM00002, DRG00013} 및 {COL0006, NUM00002, DRG00013}가 재생성된다. 이들 그룹 ID 판정 결과는 각각 S1501에 있어서 도16c의 음성 제어 조작 판정 정보의 그룹 ID 정보와 매칭한다.

다음에, S1502에서 매칭이 성공으로 판정되어 S1506으로 처리가 더 진행한다. 구체적으로는, 2개의 그룹 ID 판정 결과는, 도16c의 행 1620 및 행 1624과 매칭한다.

S1506에서는, 그룹 ID 판정 결과가 각각 슬라이더 버튼(즉 도16b의 1604 및 1608)을 나타내는 것으로 판정되고, S1508로 처리를 진행한다.

S1508에서, 각 그룹 ID 판정 결과가 횟수를 지정하는 그룹 ID {NUM0002}를 포함하므로, S1510로 처리를 진행한다.

S1510에서는, 횟수가 구체적인 수(즉 "2")로 표시되는 것으로 판정되므로, S1511로 처리를 진행한다.

S1511에서는, 그룹 ID 정보에 대응하는 화면 내의 각 슬라이더 버튼을 지정 횟수만큼 조작하도록 음성 제어 조작이 지정한다고 판정한다. 구체적으로는, 그룹 ID 정보로서 도16c의 행 1620, 행 1624이 매칭하고 있다. 그 때문에, 옐로와 시안의 슬라이더를 각각 2회 조작(즉, 버튼 1604 및 버튼 1608의 슬라이더 버튼을 2회 누른다)하도록 음성 제어 조작이 지정한다고 판정한다.

상기한 바와 같이 처리함으로써, 유저가 "옐로와 시안을 2개 높게"라고 발화했을 때에 동시에 2개 이상의 슬라이더를 조작할 수 있다.

보충

이상에서 설명한 바와 같이, 본 실시예에 따르면, 복수의 슬라이더 형상의 조작 오브젝트를 구비한 설정 화면에 있어서 음성 제어 조작을 행할 수 있다. 본 실시예에서는, 복수의 슬라이더를 구비한 설정 화면에 있어서, 특정한 슬라이더에 대해서만 포인트된 눈금이 변경되도록 음성 제어 조작을 행할 수 있다. 본 실시예에서는, 복수의 슬라이더를 동시에 이동시킬 수 있다. 본 실시예에서는, 복수의 슬라이더의 이동량을 수치를 사용하여 지정할 수 있다. 본 실시예에서는, 현재의 설정 상태를 고려하여 설정을 변경하기 위해 음성 제어 조작으로 행할 수 있다. 상기한 바와 같이, 음성에 의한 조작을 유연하게 제어할 수 있으므로 우수한 유저빌리티가 달성될 수 있다. 이때, 도16c를 참조하여 전술한 복수의 슬라이더의 제어와 관련된 음성 제어 조작 판정 정보의 예에서는, 도 13의 S1309, S1313, S1315, 및 도 14c의 그룹 ID 정보를 참조하여 전술한 경우와 마찬자기로 특수한 표현으로 정보가 표시되는 예를 생략하고 조작이 행해지는 횟수가 산출되는 예를 생략하고 있다. 그렇지만, 복수 슬라이더를 제어하기 위해 이와 유사하게 처리를 행할 수 있다.

실시예3

실시예 3는, 복수의 선택 오브젝트 중에서 특정한 선택 오브젝트가 선택되고 이 상태에서 설정값이 변경되도록 설정값을 음성 제어 조작에 의해 변경하는 방법을 설명한다. 전술한 실시예 1 및 2에서는, S1003의 음성 제어 조작 판정 처리의 결과가, 음성 제어 조작이 슬라이더 화면으로의 천이 또는 슬라이더의 이동을 지정하도록 표시하는 경우에 대해 설명하였다.

즉, 본 실시예에서는, 도27b의 화면 제어 정보 및 도27c의 음성 제어 조작 판정 정보에 근거하여 포커스 위치(주목 위치)을 변경해서 표시된 화면을 갱신한다. 이 처리에서, 포커스 위치는 후술하는 S11306에서 판독한 현재의 포커스 위치에 근거해서 변경된다. 포커스를 사용한 설정의 완료후, 디바이스 제어 프로그램(801)의 데이터 관리부(803)의 설정 파라미터의 갱신이 행해진다. 주목 위치에 설정된 버튼을 주목 버튼(주목 오브젝트)로 부르고, 주목 오브젝트의 강조에 사용하는 오브젝트를 강조 오브젝트로 부른다.

이때, 특징 부분을 제외하고, 실시예 3은 실시예 1과 유사하다. 그 때문에, 유사한 구성에 대해서는 유사한 참조번호롤 표시하고 그 설명을 생략한다.

28a 내지 도 28d은 유저(106)로부터의 음성 제어 조작과 이 음성 제어 조작에 응답하여 시스템으로부터의 인터랙션의 일례를 설명하기 위한 모식도다. 도 9a 내지 도 9c의 시퀀스와 도 26에서 나타내는 처리 플로우에 설명된 예를 더욱 구체적으로 설명한다. 즉, 도28a 내지 도 28d는, 유저(106)에 의한 음성 제어 조작으로서 주어진 발화예와, 시스템의 음성 제어장치(100)에 의해 행해지는 대응하는 음성처리와, 음성 처리 상태를 나타내는 LED의 온/오프 상태를 나타내고 있다. 화상 형성장치의 조작 패널(509)에 표시하는 화면, 및, 음성 제어장치(100)에서 재생하는 응답용의 대응하는 음성을 나타내고 있다.

우선, 시스템에서는, 시스템이 음성 대기 상태에 있는 것을 나타내기 위해 LED가 오프 상태에 있고, 조작 패널(509)에는 톱 화면을 표시하고 있다(S11501). 이 상태에서, 유저(106)이 웨이크 워드를 발화하면(S11502), 시스템은 음성 제어 조작의 접수를 개시하고, 발화처리가 진행중인 것을 나타내기 위해 LED를 점등한다(S11503). 이때, S11502은 도 9a 중의 S905, S11503은 S906의 구체적인 일례다. 웨이크 워드에 이어서, 유저(106)이 "카피를 하고 싶다"고 발화하면(S11504), 시스템은 응답처리가 진행중인 것을 나타내기 위해 LED를 점멸시키고(S11505), 시스템은 카피 톱 화면을 표시한다(S11506). 그리고, 시스템은 "카피 화면이 표시되었습니다"라고 하는 응답용의 음성을 재생하고(S11507), 유저(106)에게 다음 발화를 촉구하기 위해서 LED를 재점등한다(S11508). 이때, S11504은 도 9 중의 S907, S11505은 S908, S11506은 S915, S11507은 S919, S11508은 S920의 구체적인 일례다.

다음에, 유저(106)이 "포커스를 우측으로"라고 발화하면(S11509), 시스템은 LED를 점멸시키고(S11510), 포커스를 우측으로 이동하도록 수정된 카피 톱 화면(설정 화면)을 표시한다(S11511). 그리고, 시스템은 "포커스를 이동했습니다"라고 하는 응답용의 음성을 재생하고(S11512), LED를 점등한다(S11513). 이때, S11509은 도 9 중의 S926, S11510은 S927, S11511은 S915, S11512은 S929, S11513은 S930의 구체적인 일례다.

다음에, 유저(106)이 "포커스를 3개만큼 아래로"라고 발화하면(S11514), 시스템은 LED를 점멸시키고(S11515), 포커스가 3개만큼 아래로 이동하도록 수정된 카피 톱 화면을 표시한다(S11516). 그리고, 시스템은 "포커스를 이동했습니다"라고 하는 응답용의 음성을 재생하고(S11517), LED를 점등한다(S11518). 이때, S11514은 도 9 중의 S926, S11515은 S927, S11516은 S915, S11517은 S929, S11518은 S930의 구체적인 일례다.

다음에, 유저(106)가 "포커스 버튼을 선택"이라고 발화하면(S11519), 시스템은 LED를 점멸시키고(S11520), 포커스되어 있는 버튼이 선택되도록 수정된 카피 톱 화면을 표시한다(S11521). 그리고, 시스템은 "포커스를 이동했습니다"라고 하는 응답용의 음성을 재생하고(S11522), LED를 점등한다(S11523). 포커스의 조작에 관한 상세는 도26을 참조하여 후술한다. 이때, S11519은 도 9 중의 S931, S11520은 S932, S11521은 S915, S11522은 S934, S11523은 S935의 구체적인 일례다.

다음에, 유저(106)이 "카피 개시"라고 발화하면(S11524), 시스템은 LED를 점멸시키고(S11525), 카피 잡을 실행한다. 카피 잡의 실행이 개시되면, 시스템은 카피 잡 실행중인 것을 나타내는 화면을 표시하는(S11527) 동시에, "카피를 개시합니다"라고 하는 응답용의 음성을 재생한다(S11526), 카피 잡의 실행이 완료하면, 시스템은 카피 잡 실행 종료 화면을 표시하는 동시에, "카피를 종료했습니다"라고 하는 최종 응답용의 음성을 재생한다(S11528). 더구나, 시스템은 음성 접수가 종료한 것을 나타내기 위해 LED를 소등한다(S11529). 이때, S11524, S11525, S11527, S11526, S11528, S11529은 도 9c 중의 S936, S937, S944, S949, S954, S955의 구체적인 일례다.

음성 제어 조작 판정부의 처리 플로우

도26은 화상 형성장치(101)의 음성 제어 조작 판정부(807)의 처리의 개요를 나타내는 흐름도다. 도26에 도시된 처리는, 도 10의 S1003, 및, 도 9a의 S914, 도 9c의 S943의 처리에 대응하고 있다. 도27a 내지 도 27e는, 도26의 음성 제어 조작 판정 처리에 의해 수행하도록 지시된 조작을 판정할 때의 화면예, 및, 종래의 조작방법(조작 패널에 설치된 버튼이나 하드웨어 키 누름에 의한 방법)과 음성 조작 제어에 의한 조작방법의 예다.

이하, 도26과 도27a 내지 도 27e을 참조해서 음성 제어 조작 판정부(807)의 처리 플로우에 대해 설명한다.

우선, 도27a 내지 도 27e에 대해 설명한다.

도27a는 화상 형성장치(101)의 채도를 조정하는 화면예(영어판)이고. 도27e는 화상 형성장치(101)의 채도를 조정하기 위한 화면예(도 27a에 도시된 영어판에 대응하는 일본어판)이다. 포커스 11401은 특정한 버튼에 중첩해서 표시되어 버튼의 선택 상태를 나타내는 프레임 형상을 갖는 강조 오브젝트다. 버튼 11402 내지 11406은 카피의 각 설정을 변경하기 위한 버튼이다. 도27a에 있어서, 포커스(11401)은 100% 버튼(11402)의 프레임 부분에 중첩 표시되어 있다. 본 실시예에서는, 화면의 천이가 음성 제어 조작에 따라 행해질 때, 천이후의 화면(카피 톱 화면)에 포커스가 표시된다. 이때, 화면의 천이가 음성 제어 조작에 의해 행해지는지 아닌지에 무관하게 항상 포커스를 표시하여도 된다. 이와 달리, 도 30a에 나타낸 것과 같이, 유저의 "포커스를 표시"라고 하는 발화에 응답하여 디폴트 위치에 포커스를 표시하고, 그후, 우측에 있는 디폴트 위치에 인접하여 배치되거나 디폴트 위치보다 2개 버튼 낮은 위치에 배치된 아이콘으로 표시된 다른 버튼(문자/사진 버튼 등)으로 포커스를 이동해도 된다. 도 30a1는, 디폴트 위치에 표시시킨 포커스를 이동하는 방식을 도시한 도면이다. 포커스의 표시 타이밍은 설정에 의해 전환가능하게 해도 된다. 포커스의 디폴트 위치는, 화면 상의 복수의 버튼(선택 오브젝트) 중 가장 좌측 위에 있는 버튼에 위치한다. 이때, 디폴트 포커스 위치는, 좌측 아래, 우측 위, 우측 아래, 또는 중앙 부근에 있는 버튼 중 한개어도 된다. 예를 들어, 디폴트 위치를 설정에 의해 전환가능하게 해도 된다. 이와 달리, 유저가 버튼 명칭으로 지정한 버튼에 포커스가 놓이고, 그 상태로부터 포커스 조작을 개시 가능하게 해도 된다. 예를 들면, 도 30b과 같이, 먼저 농도 버튼(11406) 위에 포커스가 놓인 후, 바로 아래에 있는 아이콘으로 표시된 버튼(문자/ 사진 버튼) 등의 다른 버튼으로 포커스를 이동해도 된다. 도 30b은, 유저에 의해 지정된 위치에 표시된 포커스가 이동하는 방식을 도시한 도면이다.

본 실시예에서는, 후술하는 설명을 위해, 먼저, 포커스가 100% 버튼(11402)으로 이미 이동된 후에 행해지는 동작에 대해 설명한다. 도27b는, 도27a의 포커스(11401)의 위치를 농도 버튼(11406)의 위치로 이동한 후에 얻어지는 화면예다. 도27a, 도27b에 도시된 화면은 버턴 11402 내지 11406 이외에도 카피에 대한 설정을 변경하기 위한 버튼을 포함하지만, 간략을 위해, 이후 버튼 11402 내지 11406에 초점을 맞추어 설명을 행한다. 도27c은, 도27a, 도27b에서 나타내는 화면에 있어서의 화면 제어 정보의 일례다. 도27d는, 도27a, 도27b에서 나타내는 화면에 있어서의 음성 제어 조작 판정 정보의 일례다. 도27d의 11407 내지 11416은, 음성 제어 조작 판정 정보의 각 행을 나타내고 있다.

이하, 도26의 처리에 대해서 도27a에서 나타내는 화면과, 도27b, 도27c의 화면 제어 정보와 음성 제어 조작 판정 정보의 예를 참조하여 설명한다.

S11301에서는, 도 10의 S1001에서 수신한 그룹 ID 판정 결과와, S1002에서 취득한 음성 제어 조작 판정 정보에 포함되는 버튼의 하드웨어 키(행 11415 및 11416)을 제외한 그룹 ID 정보 사이에서 매칭을 행한다. 예를 들면, 도27a의 화면을 표시하고 있을 때, 그룹 ID 판정 결과가 {ID:UIP00012, POS00016, FIN00011}인 경우, 도27d의 음성 제어 조작 판정 정보의 행 11407의 "표시 화면과 관련된 그룹 ID 정보" 열의 그룹 ID 정보와 그룹 ID 판정 결과 사이에서 매칭을 행한다. 이 경우,행 11407의 그룹 ID "UIP00012+POS00016+FIN00011"이 히트하여, 매칭 성공이 된다. 이때, UIP00012은 주목하는 포커스를 나타내는 정보이며, POS00016은 방향을 나타내는 정보이며, +FIN00011은 이동을 나타내는 정보다. 이때, POS00016은 방향을 나타내는 방향 정보다.

이때, 도 27d에 도시된 실시예는 도 27e에 도시된 일본어판 화면을 보는 유저에 의해 행해지는 음성 제어 조작에 적합하다.

S11302에서는, S11301에서 매칭이 성공하였는지 아닌지를 판정한다. 매칭 성공한 경우에는, S11306로 처리를 진행하고, 그렇지 않으면 S11303로 처리를 진행한다.

S11303에서는, 도 10의 S1001에서 수신한 그룹 ID 판정 결과와, S1002에서 취득한 음성 제어 조작 판정 정보에 포함되는 하드웨어 키에 관한 그룹 ID 정보 사이에서 매칭을 행한다. 예를 들면, 도27a의 화면에 있어서, 서버(102)에 의해 주어진 그룹 ID 판정 결과가 {ID:OPR00011}(이것은 유저(106)이 "스타트"라고 발화했을 때 얻어진다)인 경우, 그룹 ID 판정 결과와 음성 제어 조작 판정 정보의 하드웨어 키에 관한 그룹 ID 정보 사이에서 매칭을 행한다. 이 경우, 성 제어 조작 판정 정보에서 그룹 ID "OPR00011"이 히트하여, 매칭 성공이 된다.

S11304에서는, S11303에서 매칭이 성공하였는지 아닌지를 판정한다. 매칭 성공한 경우에는, S11305로 처리를 진행하고, 그렇지 않으면 음성 제어 조작 판정 처리를 종료한다.

S11305에서는, S11303에서 매칭한 하드웨어 키를 음성 제어 조작의 조작 대상이라고 판정하여, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID 정보가 "OPR00011"인 "스타트"이 히트한 경우, 음성 제어 조작이 스타트 키(207)을 조작하는 것으로 지정한 것으로 판정되고 음성 제어 조작 판정 처리를 종료한다.

S11306에서는, S11301에서의 매칭 결과의 조작 대상으로서 포커스(11401)가 지정되어 있는지 아닌지를 판정한다. 예를 들면, 도27d의 음성 제어 조작 판정 정보의 행 11407 내지 11409가 매칭한 경우(예를 들면, 유저(106)이 "포커스를 좌측으로"라고 발화했을 때에 행 11407이 매칭한다), 행 11401의 "번호" 열에 11401이 기재되어 있으므로, 도27a 또는 도27b의 화면 제어 정보로부터 포커스(11401)가 음성 제어 조작에 의해 지정된 것으로 판정된다. 이때, 포커스가 지정된 것으로 판정된 경우에는, 조작 대상으로 지정된 포커스의 현재 위치를 판독한다. 매칭한 조작 대상이 포커스(11401)인 경우에는, S11308로 처리를 진행하고, 그렇지 않으면 S11307로 처리를 진행한다.

S11307에서는, S11301에서 매칭한 결과가, 음성 제어 조작이 조작 화면 상의 버튼을 조작하도록 지정하는 것으로 표시하는 것으로 판정하여, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 그룹 ID가 "DGR0003"인 "축소"가 매칭한 경우, 도27d의 음성 제어 조작 판정 정보의 행 11408의 "번호" 열에 11404이 기재되므로, 도27d의 화면 제어 정보로부터, 음성 제어 조작이 "축소" 버튼을 조작하도록 지정하는 것으로 판정된다.

S11308에서는, 그룹 ID 판정 결과가 방향을 지정하는 그룹 ID를 포함하는지 아닌지를 판정한다. 예를 들면, 도 10의 S1001에서 수신한 그룹 ID 판정 결과에 "좌측"을 나타내는 {ID:POS00016}이 포함되어 있는 경우, 그룹 ID 판정 결과에 방향을 지정하는 그룹 ID가 포함되어 있다고 판정된다. 방향을 나타내는 그룹 ID는 도25에서 POS00010 내지 POS00017에 대응하지만, 간략을 위해, 우측 상부, 좌측 하부 등의 경사 방향은 제외한다. 방향을 지정하는 그룹 ID가 포함되어 있는 경우, S11310로 처리를 진행하고, 그렇지 않으면 S11309로 처리를 진행한다.

S11309에서는, 그룹 ID 판정 결과가 횟수를 지정하는 그룹 ID를 포함하고 있는지 아닌지를 판정한다. 예를 들면, 도 10의 S1001에서 수신한 그룹 ID 판정 결과에 "2개"을 나타내는 {ID:NUM00002}(수치 정보)이 포함되어 있는 경우, 그룹 ID 판정 결과에 횟수를 지정하는 그룹 ID가 포함되어 있다고 판정된다. 횟수를 나타내는 그룹 ID는 도 7에에 따른 NUM00001 내지 NUM99999이 대응한다. 그러나, 포커스의 이동은 최대 8개이므로, 횟수를 지정하는 그룹 ID는 포커스 이동의 최대 허욧??가능한 범위(NUM00001 내지 NUM00008) 내에 있다. 횟수를 지정하는 그룹 ID가 포함되어 있으면, S11311로 처리를 진행하고, 그렇지 않으면 S11310로 처리를 진행한다.

S11310에서는, S11301에서의 매칭 결과가 음성 제어 조작이 조작 화면 상의 다음 버튼으로 포커스(11401)을 이동하도록 지정하는 것을 나타내는지 판정하고, 음성 제어 조작 판정 처리를 종료한다. 구체적으로는, 그룹 ID 정보로서 도27d의 행 11407이 매칭한 경우, 음성 제어 조작이 포커스(11401)를 인접한 버튼으로 이동(즉, 포커스(11401)이 현재 위치에 대해 상하 좌우에 배치된 버튼들 중에서 한개로 이동)하도록 지정한다고 판정된다. 예를 들면, 도27a의 화면을 표시하고 있을 때, 그룹 ID 판정 결과가 {ID:UIP00012, POS00016, FIN00011}일 경우, "좌측"을 나타내는 {POS00016}로부터, 음성 제어 조작이 포커스(11401)을 좌측으로 1개의 버튼만큼 이동하도록 지정하는 것으로 판정한다. 전술한 판정 결과에 근거하여 도 10의 스텝 S1004에 있어서 화면 갱신 처리를 행하면, 포커스(11401)가 100% 버튼(11402)으로부터 농도 버튼(11406)으로 이동하고 농도 버튼(11406)에 중첩해서 표시되도록 화면이 갱신된다. 이렇게 하여, 유저(106)은 포커스(11401)의 표시 위치를 현재의 버튼의 상하 좌우 버턴 위치들 중에서 한개로 이동할 수 있다. 포커스(11401)가 이동하는 상하 좌우 버튼은 미리 설정된다. 즉, 본 실시예에서는, 마이너스 버튼(11403), 축소 버튼(11404), 농도 버튼(11406) 및 수동 공급 버튼(11405)의 소정의 허용가능한 이동처는 포커스 현재 놓이는 100% 버튼(11401)의 위치의 위, 아래, 좌측, 우측에 놓인다.

S11311에서는, S11301에서 매칭한 결과가 음성 제어 조작이 조작 화면 상의 2개 이상의 버튼만큼 포커스(11401)을 이동하도록 지정한다는 것을 나타내는 것으로 판정하여, 음성 제어 조작 판정 처리를 종료한다. 예를 들면, 도27a의 화면을 표시하고 있을 때, 그룹 ID 판정 결과가 {ID:UIP00012, NUM00002, POS00014}인 경우(이것은, 예를 들면, 유저(106)이 "포커스를 2개 아래로"라고 발화했을 때 얻어진다), {NUM0002}이 "2개"를 나타내고, {POS00014}가 "아래"을 나타내므로, 음성 제어 조작이 포커스(11401)을 2개의 버튼만큼 아래로 이동하도록 지정한다고 판정한다. 전술한 판정 결과에 따라 도 10의 스텝 S1004에 있어서 화면 갱신 처리를 행하면, 포커스(11401)가 100% 버튼(11402)으로부터 자동 변배 버튼으로 이동하여 자동 변배 버튼에 중첩해서 표시되도록 화면 갱신처리가 행해진다. 이렇게 하여, 유저(106)은 포커스(11401)의 표시 위치를 현재의 포커스 위치 상하 좌우에 놓인 버튼들 중 한 개의 위치로 2개 이상의 위치만큼 한번에 이동할 수 있다.

S11312에서는, 조작 화면 상의 포커스(11401)가 놓인 버튼을 음성 제어 조작이 조작하도록 지정한다고 판정하여, 음성 제어 조작 판정 처리를 종료한다. 구체적으로는, 그룹 ID 정보로서 도27d의 행 11409이 매칭한 경우, 포커스(11401)가 현재 놓인 위치의 버튼을 조작하도록 음성 제어 조작이 지정한다고 판정된다. 예를 들면, 도27a의 화면을 표시하고 있을 때, 그룹 ID 판정 결과가 {ID:UIP00012, OPR00040}일 경우, {OPR00040}이 "선택"을 나타내고고, 포커스(11401)이 현재 치하고 있는 버튼을 선택하도록 음성 제어 조작이 지정하고 있다고 판정한다. 그리고, 도 10의 S1004에 있어서, 100% 버튼(11402)을 눌렀을 때와 마찬가지로 화면이 표시되도록 화면이 갱신된다.

이상과 같이 하여, 유저(106)은 포커스(11401)의 위치를 음성으로 조작할 수 있다. 그 때문에, 이름이 할당되지 않은 버튼이 존재할 경우에도, 포커스(11401)의 위치를 그 버튼으로 이동함으로써(조작 패널을 손가락으로 누른 것과 동일하게), 이와 같은 버튼을 선택할 수 있다.

포커스 표시의 방법 예

화면 구성, 시인성 등에 따라 포커스 위치를 다양하게 표시할 수 있다. 도29a는, 포커스가 놓인 버튼을 짙은 프레임으로 둘러쌈으로써 포커스 위치를 유저(106)에게 명시적으로 표시하는 예다. 도29b은, 포커스된 버튼을 화살표(지시 아이콘)로 지시함으로써 포커스를 유저(106)에게 명시적으로 표시하는 예다. 도29c은, 전체의 포커스된 버튼을 진한 눈에 띄는 색으로 표시하고, 더구나 문자를 반전 표시함으로써 버턴이 포커스된 것을 유저(106)에게 명시적으로 표시하는 예다.

도29a 내지 도 29c에 나타낸 것과 같이, 포커스 위치를 표시하기 위해 다양한 방법을 사용할 수 있다. 그러나, 선택 상태의 버튼, 비선택 상태의 버튼과, 포커스 상태의 버튼을 구별 가능(식별 가능)하게 하는 것이 바람직하다. 포커스의 표시방법을 설정에 의해 전환 가능하게 해도 된다.

보충

이상에서 설명한 바와 같이, 본 실시예에 따르면, 유저(106)가, 발화에 의해, 화상 형성장치(101)의 조작 패널(509)을 조작할 수 있다. 특히, 본 실시예에 따르면, 화면의 포커스 위치를 조작할 수 있어, 유저가 행한 발화에 따라 현재 포커스 위치로부터 상하 좌우 중 한 개로 포커스를 이동할 수 있다. 또한, 음성 조작 제어에 의해 포커스를 선택함으로써, 포커스가 위치하고 있는 버튼을 조작 가능해 진다. 따라서, 명칭이 불명한 선택 오브젝트도 포커스를 제어해서 지정할 수 있다. 본 실시예에 따르면, 선택 오브젝트를 선택(하여 선택 오브젝트의 선택 상태를 변경)하는 조작과, 선택 오브젝트를 포커스(하여 포커스된 상태를 변경하는)하는 조작을 선택적으로 행할 수 있다. 본 실시예에 따르면, 포커스 표시의 개시 조건을 전환할 수 있다. 본 실시예에 따르면, 포커스의 표시방법을 전환할 수 있다.

기타 실시예

본 발명은 상기 실시예에 한정되는 것은 아니고, 본 발명의 취지에 근거하여 다양한 변형(각 실시예의 유기적인 조합을 포함한다)이 가능하다, 이와 같은 변형도 본 발명의 범위에 포함된다. 즉, 전술한 각 실시예 및 그것의 변형예를 조합한 구성도 모두 본 발명에 포함되는 것이다.

본 발명은, 복수의 기기로 구성되는 시스템, 또는 1개의 기기로 이루어진 장치에 적용해도 된다. 상기 실시예에서는, 음성 제어 프로그램(601), 디바이스 제어 프로그램(801) 및 음성 데이터 변환 제어 프로그램(701)이 각각 음성 제어장치(100), 화상 형성장치(101) 및 서버(102)에 의해 실행된다. 그렇지만, 마이크로폰을 구비한 화상 형성장치(101)에 의해 모든 프로그램이 실행되어도 된다. 서버(102)를 분리하고, 음성 제어 프로그램(601)과 디바이스 제어 프로그램(801)이 화상 형성장치(101)에 의해 실행되어도 된다.

상기 실시예에서는, 화상 형성장치(101)이 제공하는 다수의 조작 화면 중 일부에 대해서 조작 화면 상에서의 조작방법에 대해 설명하였다. 이때, 자연 언어에 의해 특정한 화면을 제어하는 방법이 다른 화면에 적용되어도 된다. 특히, 슬라이더 형상의 조작 오브젝트를 구비한 화면의 음성 제어 조작이나 포커스를 사용하는 음성 제어 조작을 다른 화면에 적용해도 된다.

도 19a 내지 도 19c, 도20a 내지 도 20c, 도21a 내지 도 21c은 화상 형성장치에 있어서의 설정의 항목 일람을 나타낸 것이다. 이들 도면에 나타낸 일람 표 중, 첫 번째 열, 즉 가장 좌측의 열에는 기능 분류가 기재되어 있다. MFP인 화상 형성장치(101)이 구비한 기능으로서는, 프린트 기능, 카피 기능, 송신 기능을 들 수 있다. 화상 형성장치(101) 상에서는, 이들 기능에 관한 설정 이외에, 장치가 동작하는데 필요한 본체 설정을 행할 수 있다. 도 19a 내지 도 19c, 도20a 내지 도 20c, 도21a 내지 도 21c에 나타낸 목록 중, 가장 좌측 열으로부터 2열째에는 항목군이 기재되어 있다. 항목군은, 기능을 이용하기 위해 조작되는 항목 중, 유사한 분류에 의해 모인 항목의 그룹이다. 항목군은 1개 이상의 화면으로서 출력된다. 도 19a 내지 도 19c, 도20a 내지 도 20c, 도21a 내지 도 21c에 나타낸 목록 표 중, 가장 좌측으로부터 3열째는 항목이 기재되어 있다. 이들 항목은, 항목군마다 표시되는 화면 상에서 조작가능한 조작 항목 또는 설정 항목이다. 기능 란 및 항목군 란이 공통인 항목은, 일부의 예외가 되는 화면을 제외하고, 거의 모든 화면에서 이용 가능한 조작 항목이다. 본 발명에서는, 전술한 레벨 조정 및 채도 조정에 대한 실시예를 참조하여 전술한 화면 상에서 설정을 변경할 수 있을 뿐만 아니라, 도 19a 내지 도 19c, 도20a 내지 도 20c, 도21a 내지 도 21c에서 설명한 설정 항목의 변경에도 본 발명을 적용할 수 있다. 또한, 전술한 설정 이외에, 본 발명은, "2개 우측의 페이지로 이동" "페이지를 1/2 정도 스크롤" 등과 같은 음성 제어 조작에 의해 페이지 상의 표시 영역에서의 슬라이딩에도 적용할 수 있다.

본 발명의 실시형태는, 본 발명의 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체('비일시적인 컴퓨터 판독가능한 기억매체'로서 더 상세히 언급해도 된다)에 기록된 컴퓨터 실행가능한 명령(예를 들어, 1개 이상의 프로그램)을 판독하여 실행하거나 및/또는 전술한 실시예(들)의 1개 이상의 기능을 수행하는 1개 이상의 회로(예를 들어, 주문형 반도체 회로(ASIC)를 포함하는 시스템 또는 장치의 컴퓨터나, 예를 들면, 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체로부터 컴퓨터 실행가능한 명령을 판독하여 실행함으로써, 시스템 또는 장치의 컴퓨터에 의해 수행되는 방법에 의해 구현될 수도 있다. 컴퓨터는, 1개 이상의 중앙처리장치(CPU), 마이크로 처리장치(MPU) 또는 기타 회로를 구비하고, 별개의 컴퓨터들의 네트워크 또는 별개의 컴퓨터 프로세서들을 구비해도 된다. 컴퓨터 실행가능한 명령은, 예를 들어, 기억매체의 네트워크로부터 컴퓨터로 주어져도 된다. 기록매체는, 예를 들면, 1개 이상의 하드디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 분산 컴퓨팅 시스템의 스토리지, 광 디스크(콤팩트 디스크(CD), 디지털 다기능 디스크(DVD), 또는 블루레이 디스크(BD)^TM 등), 플래시 메모리소자, 메모리 카드 등을 구비해도 된다.

본 발명은, 상기한 실시형태의 1개 이상의 기능을 실현하는 프로그램을, 네트워크 또는 기억매체를 개입하여 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터에 있어서 1개 이상의 프로세서가 프로그램을 읽어 실행하는 처리에서도 실행가능하다. 또한, 1개 이상의 기능을 실현하는 회로(예를 들어, ASIC)에 의해서도 실행가능하다.

예시적인 실시형태들을 참조하여 본 발명을 설명하였지만, 본 발명이 이러한 실시형태에 한정되지 않는다는 것은 자명하다. 이하의 청구범위의 보호범위는 가장 넓게 해석되어 모든 변형, 동등물 구조 및 기능을 포괄하여야 한다.

Claims

시트에 화상을 형성하도록 구성된 화상 형성 디바이스;
정보를 표시가능한 디스플레이;
소리를 취득가능한 마이크로폰; 및
화상 형성시의 설정에 관련되는 파라미터를 포인팅 위치에 의해 나타내는 조작 오브젝트를 구비한 화면을 상기 디스플레이에 표시하도록 제어를 행하도록 구성된 유닛과,
상기 마이크로폰을 거쳐 취득된 원 프레이즈(one-phrase)의 음성 표현을 나타내는 음성 정보에 근거하여, 상기 조작 오브젝트에 대응하는 제1 식별 정보와 상기 포인팅 위치에 대한 갱신 처리에 대응하는 제2 식별 정보를 취득하도록 구성된 유닛과,
상기 조작 오브젝트가 나타내는 현재의 포인팅 위치에 관한 정보, 상기 제1 식별 정보 및 상기 제2 식별 정보에 적어도 근거하여, 상기 포인팅 위치에 관해 갱신된 상기 조작 오브젝트를 구비하는 화면을 상기 디스플레이에 표시하도록 제어를 행하도록 구성된 유닛으로서 기능시키도록 구성된 한 개 이상의 콘트롤러를 구비한 화상 형성 시스템.
제 1항에 있어서,
텍스트 정보와 음성 정보의 쌍을 포함하는 교사 데이터를 사용하여 학습한 학습모델을 적어도 사용해서 상기 원 프레이즈의 음성 정보로부터 원 프레이즈의 텍스트 정보를 취득하고,
상기 원 프레이즈의 텍스트 정보로부터 상기 제1 식별 정보와 상기 제2 식별 정보가 취득되는 화상 형성 시스템.
제 1항에 있어서,
상기 한 개 이상의 콘트롤러는, 상기 화면에 설치된 오브젝트들 중 상기 제1 식별 정보에 대응하는 오브젝트를 특정하도록 구성된 유닛으로서 더 기능시키도록 구성된 화상 형성 시스템.
제 1항에 있어서,
상기 한 개 이상의 콘트롤러는, 상기 화면에 표시되지 않은 명칭에 의해 주어지는 상기 제1 식별 정보를 제공하도록 구성된 유닛으로서 더 기능시키도록 구성된 화상 형성 시스템.
제 1항에 있어서,
상기 원 프레이즈의 음성 정보로부터 취득되는 식별 정보는 상기 조작 오브젝트의 포인팅 위치를 갱신하기 위한 수치 정보가 포함되는 화상 형성 시스템.
제 1항에 있어서,
상기 원 프레이즈의 음성 정보로부터 취득되는 식별 정보는 상기 조작 오브젝트의 상기 포인팅 위치를 갱신하기 위한 수치 정보를 포함하는 화상 형성 시스템.
제 1항에 있어서,
상기 화면은, 화상 형성시의 추가적인 설정에 적용할 파라미터를 포인팅 위치에 의해 나타내는 추가적인 조작 오브젝트를 구비하고,
상기 제1 식별 정보는 상기 조작 오브젝트와 상기 추가적인 조작 오브젝트를 구비하고,
상기 추가적인 조작 오브젝트는 추가적인 식별 정보에 연결되는 화상 형성 시스템.
제 7항에 있어서,
원 프레이즈의 식별 정보는 상기 추가적인 식별 정보를 포함하는 화상 형성 시스템.
제 1항에 있어서,
상기 화면은 상기 조작 오브젝트를 적어도 포함하는 복수의 조작 오브젝트를 구비한 화면이고, 상기 복수의 조작 오브젝트는 각각 대응하는 소정의 식별 정보에 연결되는 화상 형성 시스템.
제 1항에 있어서,
상기 화면은 카피 기능을 설정하는 화면인 화상 형성 시스템.
제 1항에 있어서,
상기 화면은 송신 기능을 설정하는 화면인 화상 형성 시스템.
제 1항에 있어서,
상기 화면은 프린트 기능을 설정하는 화면인 화상 형성 시스템.
제 1항에 있어서,
상기 화면은 본체부를 설정하는 화면인 화상 형성 시스템.
제 1항에 있어서,
소리를 출력하도록 구성된 스피커와,
상기 갱신에 따라, 상기 스피커을 거쳐 통지를 제공하도록 구성된 유닛을 더 구비한 화상 형성 시스템.
제 1항에 있어서,
통지에 사용하는 합성 음성을 생성하도록 구성된 유닛을 더 구비한 화상 형성 시스템.
제 1항에 있어서,
상기 마이크로폰, 상기 디스플레이 및 상기 한 개 이상의 콘트롤러를 구비한 장치를 더 구비한 화상 형성 시스템.
제 1항에 있어서,
상기 마이크로폰 및 상기 디스플레이를 구비한 장치와,
상기 한 개 이상의 콘트롤러를 구비한 장치를 더 구비한 화상 형성 시스템.
제 1항에 있어서,
상기 마이크로폰을 구비한 장치와,
상기 디스플레이 및 상기 한 개 이상의 콘트롤러를 구비한 장치를 더 구비한 화상 형성 시스템.
제 1항에 있어서,
상기 마이크로폰을 구비한 장치와,
상기 디스플레이를 구비한 장치와,
상기 취득 유닛을 구비한 장치를 더 구비한 화상 형성 시스템.
정보를 표시가능한 디스플레이를 준비하는 단계와,
소리를 취득가능한 마이크로폰을 준비하는 단계와,
화상 형성에 관련되는 설정에 적용된 파라미터를 포인팅 위치에 의해 나타내는 조작 오브젝트를 구비한 화면을 상기 디스플레이에 표시하도록 제어를 행하는 단계와,
상기 마이크로폰을 거쳐 취득된 원 프레이즈의 음성 표현을 나타내는 음성 정보에 근거하여, 상기 조작 오브젝트에 대응하는 제1 식별 정보와 상기 포인팅 위치의 갱신 처리에 대응하는 제2 식별 정보를 취득하는 단계와,
상기 조작 오브젝트가 나타내는 현재의 포인팅 위치에 관한 정보, 상기 제1 식별 정보 및 상기 제2 식별 정보에 적어도 근거하여, 상기 포인팅 위치에 관해 갱신된 상기 조작 오브젝트를 구비하는 화면을 상기 디스플레이에 표시하도록 제어를 행하는 단계를 포함하는 정보 처리방법.
시트에 화상을 형성하도록 구성된 화상 형성 디바이스;
정보를 표시가능한 디스플레이;
소리를 취득가능한 마이크로폰; 및
화상 형성에 관련되는 설정을 행하는 화면으로서 복수의 선택 오브젝트 구비하고 상기 복수의 오브젝트 중 1개가 이것이 주목 오브젝트라는 것을 나타내기 위해 강조되는 상기 화면을 상기 디스플레이에 표시하도록 제어를 행하도록 구성된 유닛과,
상기 마이크로폰을 거쳐 취득된 원 프레이즈의 음성 정보에 근거하여, 주목하는 선택 오브젝트에 대응하는 제1 식별 정보와 상기 주목하는 선택 오브젝트에 대한 갱신 처리에 관련된 제2 식별 정보를 취득하도록 구성된 유닛과,
현재의 주목하는 선택 오브젝트에 관한 정보, 상기 제1 식별 정보 및 상기 제2 식별 정보에 적어도 근거하여, 상기 주목 오브젝트에 관해 갱신된 조작 오브젝트를 구비한 화면을 상기 디스플레이에 표시하도록 제어를 행하도록 구성된 유닛으로서 기능시키도록 구성된 한 개 이상의 콘트롤러를 구비한 화상 형성 시스템.