WO2017110645A1 - 作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体 - Google Patents

作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体 Download PDF

Info

Publication number
WO2017110645A1
WO2017110645A1 PCT/JP2016/087359 JP2016087359W WO2017110645A1 WO 2017110645 A1 WO2017110645 A1 WO 2017110645A1 JP 2016087359 W JP2016087359 W JP 2016087359W WO 2017110645 A1 WO2017110645 A1 WO 2017110645A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
unit
inclination
tilt
work
Prior art date
Application number
PCT/JP2016/087359
Other languages
English (en)
French (fr)
Inventor
大津 誠
拓人 市川
太一 三宅
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to JP2017558072A priority Critical patent/JP6640876B2/ja
Priority to US16/065,237 priority patent/US20210168292A1/en
Publication of WO2017110645A1 publication Critical patent/WO2017110645A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning

Definitions

  • One embodiment of the present invention relates to a work support device, a work support method, a work support program, and a recording medium.
  • video conferencing apparatuses that transmit video captured by a camera (hereinafter referred to as “captured video”) and sound collected by a microphone (hereinafter referred to as “collected audio”) to a remote place have been widely used. Yes.
  • a video conference apparatus in addition to the captured video and the collected sound, an application that operates simultaneously with the video conference apparatus on a terminal (hereinafter referred to as a user terminal) on which the video conference apparatus operates.
  • Additional screen information such as a software screen and instruction information such as pointer information input by a user of the video conference apparatus (hereinafter also referred to as a user) by moving the mouse is transmitted to the user terminal.
  • a user terminal a terminal
  • a work support device is an application of the video conference device. This is because, for example, a user who performs repair work (hereinafter also referred to as a worker) captures the state of the work with a camera, and the captured video is a user (hereinafter referred to as a work procedure).
  • the instructor transmits an instruction for a work procedure or the like (hereinafter also referred to as a work instruction) to the worker by looking at the received captured image.
  • the instructor attaches instruction information such as pointer information and a mark remaining for a certain period of time (hereinafter also referred to as marker information) to the captured image transmitted by the operator, and the operator
  • instruction information such as pointer information and a mark remaining for a certain period of time (hereinafter also referred to as marker information)
  • marker information a mark remaining for a certain period of time
  • Patent Document 1 discloses a method of superimposing and displaying instruction information on a work location in an actual optical image observed by an operator.
  • Patent Document 2 discloses a means for an instructor to visually recognize a video with instruction information displayed on a terminal on the operator side.
  • Japanese Patent Publication Japanese Patent Laid-Open No. 2008-12495 (published May 29, 2008)” Japanese Patent Publication “Japanese Unexamined Patent Application Publication No. 2015-135641 (Published July 27, 2015)”
  • Patent Document 1 considers the position of the index displayed on the target portion in the optical image of the work target observed by the worker, the worker captures the video.
  • the tilt angle of electronic cameras is not considered.
  • Patent Document 2 considers that the instruction image and the relative position are shared among a plurality of terminals on the instruction side. Is not considered. For this reason, when the worker tilts the camera to capture an image, the direction for the worker (image tilt) is different from the direction for the instructor (image tilt). For example, “upper” for the operator is “upper right” for the instructor. There is a problem that the work instruction is not properly transmitted to the worker due to a deviation between the direction for the worker (image inclination) and the direction for the instructor (image inclination).
  • One embodiment of the present invention has been made in view of the above-described problems, and the object thereof is to assist in appropriately transmitting a work instruction from an instructor to the operator and improve work efficiency. It is to provide a work support device and the like.
  • a work support device is acquired by a reception unit that receives a captured image, an inclination acquisition unit that acquires an imaging inclination of the captured image, and the inclination acquisition unit.
  • a corrected video generation unit that changes a display tilt angle of the received captured video according to the captured tilt, and an output unit that outputs the captured video with the changed display tilt angle to the outside.
  • the work support method includes a reception step of receiving a captured image, an inclination acquisition step of acquiring an imaging inclination of the captured image, and the imaging inclination acquired in the inclination acquisition step.
  • the display tilt angle of the captured image of the received object is changed according to the imaging tilt of the captured image, so that the worker working using the imaging terminal and the received imaging It is possible to improve the working efficiency of both the instructor who watches the video.
  • FIG. 3 is a functional block diagram illustrating a configuration example of a work terminal according to Embodiment 1.
  • FIG. 3 is a functional block diagram illustrating a configuration example of an instruction device according to Embodiment 1.
  • FIG. It is a figure which shows the marker information which concerns on this embodiment, and its attribute.
  • FIG. 3 is a functional block diagram illustrating a configuration example of a management server in Embodiment 1.
  • FIG. It is an image figure of the marker tracking process which concerns on this embodiment. It is a figure which shows the marker tracking by the template matching which concerns on this embodiment. It is a figure which shows the image correction process based on the inclination information concerning Embodiment 1.
  • FIG. It is a figure which shows the flowchart of the work terminal / instruction device in Embodiment 1.
  • FIG. 3 is a diagram illustrating a flowchart of the work terminal / instruction device according to the first embodiment, where (1) is a flowchart of a captured video transmission process, (2) is a flowchart of a composite display process, and (3) is a new marker transmission process. It is a flowchart of. It is a figure which shows the flowchart of the management server in Embodiment 1.
  • FIG. 2 is a flowchart of a management server in the first embodiment, where (1) is a flowchart of video reception processing, (2) is a flowchart of marker information reception processing, and (3) is a flowchart of marker information update processing. Yes, (4) is a flowchart of the corrected video transmission process.
  • FIG. 2 is a flowchart of a management server in the first embodiment, where (1) is a flowchart of video reception processing, (2) is a flowchart of marker information reception processing, and (3) is a flowchart of marker information update processing.
  • Yes (4) is a flowchart of the corrected video transmission process
  • FIG. 10 is a flowchart of a corrected video generation process according to the second embodiment. It is a figure which shows the projective transformation in the front correction process of Embodiment 2.
  • FIG. 10 is a flowchart of a front correction process according to the second embodiment. It is explanatory drawing of the method of acquiring the coordinate after the front correction concerning Embodiment 2.
  • FIG. It is a figure which shows the marker information which concerns on Embodiment 3, and its attribute.
  • It is a figure which shows the image correction process based on the inclination information concerning Embodiment 3.
  • FIG. 10 is a functional block diagram illustrating a configuration example of a work terminal according to a fourth embodiment. It is a figure which shows the calculation method of a worker's inclination in Embodiment 4.
  • FIG. 1 shows the remote support according to the first embodiment of the present invention, in which the worker on the worker side can match the inclination of the work terminal that captures the image with the inclination of the image displayed on the image display device on the instructor side. It is the figure which showed the mode of.
  • FIG. 1 The left side of FIG. 1 is the work site 100, and the right side of FIG. 1 shows the instruction room 106, which are located away from each other.
  • the worker 101 is performing work while receiving a work instruction regarding the work object 102 from the instructor 107 at the work terminal 103.
  • the whole A in FIG. 1 is referred to as a work support apparatus.
  • the back of the work terminal 103 is provided with an imaging camera 103a, which can image the work object 102 and transmit the captured video data to a remote place.
  • the camera 103 a is tilted, and the imaged work object 102 in the captured image is tilted with respect to the actual work object 102.
  • the tilt of the work terminal 103 at the time of capturing a captured image is also referred to as “imaging tilt”.
  • the instruction device 108 installed in the instruction room 106 can receive the transmitted video data and display it on the video display device 109 (as additional screen information).
  • the instructor 107 gives a work instruction to the worker 101 on the video display device 109 while viewing the video 110 of the work target 102.
  • a pointer or a marker 111 indicating the indicated position can be set on the display screen by an input using a touch panel function, a mouse function, or the like.
  • Pointer and marker setting information data is sent from the pointing device 108 to the work terminal 103, so that the pointer and marker setting information can be shared with each other through the display unit of the work terminal 103 and the screen of the video display device 109. it can.
  • information to be displayed on the display screen such as a pointer and a marker is collectively referred to as marker information.
  • the video displayed on the screen of the display unit 109 and the video display device 109 by the marker information can be called an instruction video.
  • the marker information can include text, handwritten characters, and patterns.
  • the video 104 of the projected work object 102, the marker 105 based on the marker information set on the video display device 109, and the like are displayed in a superimposed manner.
  • the work instruction from 106 can be visually grasped.
  • marker information can also be set based on the input of the worker 101, and the instructor 107 and the worker 101 can share each other information including the marker with each other.
  • FIG. 2 is a diagram showing an example of the configuration of the telecommunications system according to the present embodiment.
  • the work terminal 103 and the instruction device 108 are connected to each other via a public communication network (for example, the Internet) NT, and can communicate according to a protocol such as TCP / IP or UDP.
  • the above-described work support apparatus A is further provided with a management server 200 for collectively managing marker information and connected to the same public communication network NT.
  • the work terminal 103 can also be connected to the public communication network NT by wireless communication.
  • wireless communication can be realized by, for example, Wi-Fi (Wi-Fi) (registered trademark) connection of the international standard (IEEE 802.11) defined by Wi-Fi Alliance (US industry group). It is.
  • public communication networks such as the Internet have been shown.
  • LAN Local Area Network
  • FIG. 2 shows a configuration including the management server 200, the work terminal 103 and the instruction device 108 are connected by incorporating all the functions of the management server 200 into the work terminal 103 or the instruction device 108. There is no problem with direct communication.
  • FIG. 3 is a functional block diagram showing a configuration example of the work terminal 103 in the present embodiment.
  • the work terminal 103 includes a video acquisition unit 301 that acquires video data, an encoding unit 302 that encodes video data, a decoding unit 303 that decodes encoded video code data, encoded video code data, A communicator 304 that transmits / receives marker information data to the outside, a storage unit 305 that stores various data used for processing, a video synthesizer 306 that synthesizes video data and marker information data superimposed thereon, and a composition
  • a data bus 310 A data bus 310.
  • the video acquisition unit 301 is configured to include an optical component for capturing an imaging space as an image and an imaging element such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device), and is obtained by photoelectric conversion.
  • Video data generated based on the electrical signal is output.
  • the captured information data may be output as raw data, or output as video data that has been subjected to image processing (luminance imaging, noise removal, etc.) in advance so that it can be easily processed by a video processing unit (not shown). Alternatively, both may be output. Further, it may be configured to send camera parameters such as an aperture value and a focal length at the time of imaging to the storage unit 305.
  • the encoding unit 302 includes an FPGA, an ASIC, or a GPU (Graphics Processing Unit), and encodes the video data acquired by the video acquisition unit 301 to be smaller than the original data amount.
  • FPGA Field Programmable Gate array
  • ASIC Application Specific integrated circuit
  • GPU Graphics Processing Unit
  • the decoding unit 303 is configured by an FPGA, an ASIC, or a GPU, and performs a process reverse to the encoding of video data to decode the original video.
  • the original signal is generated by H.264 decoding.
  • the communication unit 304 is configured by, for example, a DSP (digital signal processor), processes the encoded video code data and marker information data, generates a communication packet, and transmits / receives it to the outside.
  • the communication unit 304 may be configured to perform processing using a function of the control unit 309 described later. The communication packet will be described later.
  • the storage unit 305 includes, for example, a storage device such as a RAM (Random Access Memory) and a hard disk, and stores marker information data, decoded video data, and the like.
  • a storage device such as a RAM (Random Access Memory) and a hard disk, and stores marker information data, decoded video data, and the like.
  • the video composition unit 306 is configured by an FPGA, an ASIC, or a GPU (Graphics-Processing Unit), and generates a video by combining the video data and the marker information data. The synthesis will be described later.
  • the video display unit 307 is a device that can display a video based on a video signal.
  • a liquid crystal display (LCD) can be used.
  • a liquid crystal display is a display device that uses liquid crystal, and changes the direction of liquid crystal molecules by applying a voltage to a thin film transistor that is configured in a grid between two glass plates to increase or decrease the light transmittance. This is a device for displaying an image.
  • a touch sensor is included in the liquid crystal display, it is possible to acquire the coordinates of touching the screen with a finger.
  • the inclination acquisition unit 308 includes a three-axis acceleration sensor and an arithmetic device (FPGA, ASIC, DSP).
  • the triaxial acceleration sensor is a type of MEMS (Micro Electro Mechanical Systems) sensor that can measure acceleration in three directions of the XYZ axes with one device.
  • MEMS Micro Electro Mechanical Systems
  • a piezoresistive triaxial acceleration sensor can be used. Equivalent to a general-purpose device on a smartphone or tablet. A method for calculating the inclination of the work terminal will be described later.
  • the control unit 309 is configured by a CPU (Central Processing Unit) or the like, and performs processing command / control and data input / output control in each processing block.
  • the control unit 309 has a marker information encoding function and a marker information code data decoding function.
  • the data bus 310 is a bus for exchanging data between each unit.
  • the work terminal 103 is preferably a portable terminal such as a portable smartphone, tablet, or glasses-type terminal.
  • FIG. 4 is a functional block diagram showing a configuration example of the instruction device 108 in the present embodiment.
  • the instruction device 108 excludes the function of acquiring video data, the function of encoding video data, the function of transmitting video code data, and the function of acquiring tilt information from the configuration of the work terminal 103 described above. Subset configuration.
  • FIG. 4 has a configuration in which the video display device 109 of FIG. 1 is incorporated. It is also possible to use a tablet-like device in which the instruction device 108 and the video display device 109 are housed in one housing.
  • the instruction device 108 stores a decoding unit 401 that decodes encoded video code data, a communication unit 402 that receives video code data or transmits / receives marker information data to the outside, and stores various data used for processing.
  • Storage unit 403 video synthesis unit 404 that synthesizes video data and marker information data, a control unit 405 for performing overall control, and a data bus 406 for exchanging data between the blocks. And have.
  • the decoding unit 401 of the instruction device 108 is the decoding unit 303 of the work terminal 103
  • the communication unit 402 is the communication unit 304
  • the storage unit 403 is the storage unit 305
  • the video composition unit 404 is the video composition unit 306, and the video display device 109.
  • the video display unit 307, the control unit 405 has the same configuration and the same function as the control unit 309, and the data bus 406 has the same function and description thereof is omitted.
  • the marker information 500 includes various attributes (ID, time stamp, coordinates, registration local peripheral image, marker type, color, size, thickness), and the position, shape, and the like. It is an information group for controlling the display state.
  • the attribute described in FIG. 5 is an example, and the marker information 500 may have a configuration having a part of the attribute described in FIG. 5, or a configuration having additional attribute information in addition to the attribute described in FIG. Also good.
  • any specified attribute that can be interpreted by the work terminal 103, the instruction device 108, and the management server 200 belonging to the work support apparatus A may be used.
  • the data communication packet is composed of “IP”, “UDP”, “RTP header”, and “transmission data”.
  • IP is an address number for identifying a device that transmits a packet
  • UDP User Datagram Protocol
  • RTP header Real-time Transport
  • Protocol Protocol
  • Transmission data indicates data to be actually transmitted.
  • All packets used for communication are based on this format.
  • Video encoded data corresponding to transmission data is data obtained by encoding one frame video, and is a combination of the “time stamp” and “video code”. Note that “tilt information” of the work terminal is added as part of the encoded video data as shown in (3) of FIG. The inclination information will be described later.
  • the marker information encoded data corresponding to the transmission data is data including a plurality of marker information, the “number of markers” indicating the number of markers included in the packet, and the code size of the nth marker from the 0th marker. And a “marker code” obtained by encoding each marker information.
  • a marker code since it is necessary to use a marker code as digital information (the decoded data needs to match completely with the data before encoding), it is necessary to encode by a reversible encoding process.
  • the ZIP method one of lossless encoding methods
  • the marker information has a smaller amount of information than that of the video
  • a communication method may be used in which the original signal is used as it is without being encoded.
  • the marker data size is constant, the marker size (number 0 to n) can be omitted, unlike (4) in FIG.
  • the video composition unit 306 or the video composition unit 404 synthesizes the input video 700 with the marker 701 generated according to the attributes (position and shape) included in the marker information 500 described above. Then, a composite image 702 is generated.
  • the marker to be generated may be a vector image based on a collection of straight lines and curves defined by a mathematical expression called a vector, or a bitmap image in which color information is added to position information of square pixels ( It may also be called a raster image).
  • the pixel value of the background video corresponding to the synthesis position may be simply replaced with the pixel value of the marker.
  • the specific color is used as the transmission color, and the transparent color portion is used using the pixel value of the background video.
  • alpha blending processing at a predetermined composition ratio may be performed. Both methods are very general methods.
  • ⁇ Tilt information acquisition method> A method for acquiring the tilt information of the work terminal in this embodiment will be described with reference to FIG.
  • the inclination acquisition unit 308 has an x axis 801 in which the right direction in the long side direction is the positive direction, and an upward direction in the short side direction perpendicular to the x axis is the positive direction.
  • An orthogonal coordinate system having such a y-axis 802 and a z-axis (not shown) perpendicular to both the x-axis and the y-axis and having a positive direction toward the screen is set.
  • this coordinate system is referred to as a work terminal coordinate system.
  • the work terminal 103 includes a triaxial acceleration sensor, and can measure accelerations directed to the respective axes of the work terminal coordinate system.
  • FIG. 8B shows a state in which the work terminal 103 is tilted (804), and the gravitational acceleration 805 is generated toward the ground, but the acceleration measured by the acceleration sensor of the work terminal 103 is , Acceleration 806 generated in the negative x-axis direction and acceleration 807 generated in the negative y-axis direction.
  • the inclination angle of the work terminal 103 is ⁇ (unit is radians) and the direction indicated by 808 in FIG.
  • the inclination acquisition unit 308 obtains the work terminal 103 according to the following (Equation 1). Can be calculated.
  • a x, out , A y, out are gravity acceleration generated on the x axis and gravity acceleration generated on the y axis, respectively, and tan ⁇ 1 is an inverse function of tan.
  • the inclination acquisition unit 308 can calculate the inclination of the work terminal 103 based on the distribution of the gravitational acceleration to the x-axis and the y-axis.
  • acceleration due to movement of the work terminal 103 other than gravitational acceleration is added.
  • Acceleration due to movement can be removed.
  • a general method can be used for the low-pass filter.
  • FIG. 9 is a functional block diagram showing a configuration example of the management server 200 in the present embodiment.
  • the management server 200 includes an encoding unit 900 that encodes video data, a decoding unit 901 that decodes encoded video code data, encoded video code data, and a work terminal acquired by the inclination acquisition unit 308.
  • a communication unit 902 that transmits / receives inclination information, marker information data, and the like, a storage unit 903 that stores various data used for processing, and a marker tracking unit that tracks and updates a marker position based on input video data 904, a corrected video generation unit 905 that corrects video data to change the display tilt angle of the video based on the tilt information of the work terminal 103, a control unit 906 that performs overall control, and between each block And a data bus 907 for exchanging data in the network.
  • the encoding unit 900, the decoding unit 901, the communication unit 902, the storage unit 903, the control unit 906, and the data bus 907 have the same configuration and the same as the blocks having the same names described above. Since it has a function, description is abbreviate
  • the marker tracking unit 904 is an FPGA, ASIC, or GPU (Graphics The position information of the managed marker is updated using the current frame video data and the previous frame video data. The marker tracking process will be described later.
  • the corrected video generation unit 905 is an FPGA, ASIC, or GPU (Graphics It is configured by Processing Unit) and performs processing for correcting the input video based on the tilt information of the work terminal 103. The contents of the video correction process will be described later.
  • the marker set by the operator or the instructor can be changed in position while tracking the place corresponding to the set original position in accordance with the movement of the captured image.
  • the work object 102 on which the marker is set is shown in the center of the screen (1000), it shows a state where it gradually moves to the right end of the screen (1001, 1002). Actually, at this time, the work terminal 103 is moving to the left.
  • the marker 1003 set by the operator or the instructor also gradually moves to the right end by the marker tracking process. This is an overview of marker tracking.
  • the marker tracking unit 904 sequentially calculates the position in this continuous frame. This process is a marker tracking process. That is, the marker tracking unit 904 can obtain the marker position in the current frame by updating the current frame from the time of setting.
  • the marker tracking unit 904 calculates this using template matching for image processing.
  • Template matching is a method of extracting a region similar to a local region image to be a teacher (hereinafter referred to as teacher data) from the image using local block matching.
  • the marker tracking unit 904 registers a peripheral area (for example, a 15 ⁇ 15 area) around the marker position set in the i frame 1100 as the teacher data T1103.
  • T is expressed by the following formula (Formula 2).
  • the teacher data T is one of the attributes of the marker information as a peripheral image at the time of registration included in the marker information.
  • I i (x, y) is a pixel value at the coordinates (x, y) of the i-frame image.
  • the marker tracking unit 904 When the marker tracking unit 904 acquires the teacher data as in (Formula 2) when setting the marker, the marker tracking unit 904 searches the subsequent frame for an image area similar to the teacher data.
  • the search range may be the entire image, but in a continuous video frame, the search range can be limited based on an empirical rule that the movement of the corresponding pixel is not so large. In this embodiment, for example, the search range is limited to a range of 51 ⁇ 51 pixels centering on the marker position of the previous frame 1104.
  • search range is P, it can be expressed as (Equation 3) below.
  • SAD Sud of Absolute Difference
  • the template matching formula using SAD is as follows (Formula 4).
  • argmin ( ⁇ ) is a function for calculating a parameter below argmin that minimizes the value in parentheses.
  • the pixel position most similar to the teacher data in the predetermined search range can be obtained, and this position is updated as the marker position in the i + 1 frame.
  • the marker tracking unit 904 continuously performs the above processing, whereby a new marker position can be calculated while tracking the originally set location.
  • the video before correction is a video as it is, and corresponds to 1201 in FIG.
  • the corrected video generation unit 905 applies a correction opposite to the tilt of the work terminal 103 described above to the video, so that the worker on the worker side captures the video and the instructor.
  • the inclination of the image displayed on the image display device 109 on the side can be matched (1202).
  • the vertical direction of the work terminal 103 and the vertical direction of the captured image of the object received by the pointing device 108 can be substantially matched.
  • the substantially coincident state indicates that the vertical direction of the work terminal 103 is along the vertical direction of the captured image of the object received by the pointing device 108.
  • I dst is the pixel value at the point (x, y) of the generated image (1203) after correction
  • I src is the pixel value at the point (x, y) of the image before correction
  • (cx, cy) is the center of the image
  • is the tilt information itself of the work terminal 103 described above.
  • the encoding unit 302 encodes the video data
  • the communication unit 304 transmits the video code data to the outside (step S100)
  • the decoding unit 303 decodes the video code data sent from the outside and performs control.
  • the unit 309 decodes the marker information code data sent from the outside
  • the video display unit 307 displays the synthesized video on the screen (step S110)
  • the control unit 309 newly generates the user by touching the screen.
  • the marker information to be encoded is encoded and transmitted to the outside (step S120), and the termination process is determined (step S130).
  • the processing procedure in the instruction device 108 is obtained by removing step S100 from the processing procedure of the work terminal 103. That is, in the pointing device 108, the decoding unit 401 decodes video code data sent from the outside, and the control unit 405 decodes marker information code data. Further, the video display device 109 displays the synthesized video on the screen (step S110), the control unit 405 encodes the marker information newly generated when the user touches the screen, and the communication unit 402 transmits the information to the outside. (Step S120), and the end process is determined (Step S130).
  • step S100 the video acquisition unit 301 acquires video data of the current frame from the imaging data captured by the imaging camera (step S101), and the encoding unit 302 encodes the video data (step S102). Subsequently, the communication unit 304 receives the encoded video code data, processes it into a communicable packet, and then outputs the packet to the outside (step S103).
  • the external device may be the management server 200, and the packet may be transmitted to the management server 200.
  • step S110 the communication unit 304 waits for reception of the marker information code packet (step S111).
  • the control unit 309 decodes the marker information data (step S112).
  • the decoding result is output to the video composition unit 306 and the storage unit 305.
  • the communication unit 304 outputs the video code to the decoding unit 303.
  • the decoding unit 303 decodes the video code data into the original signal (S114), and outputs the decoded video signal data to the video synthesis unit 306.
  • the video synthesis unit 306 Upon receiving the marker information data and the video signal data, the video synthesis unit 306 performs video synthesis processing (step S115), and the video display unit 307 displays the synthesized video on the screen (step S116).
  • step S120 the control unit 309 generates new marker information data by touching the screen connected to the video display unit 307 (step S121).
  • the control unit 309 encodes the generated marker information data and sends it to the communication unit 304 (step S122).
  • the communication unit 304 generates a marker information code packet and transmits it to the outside (step S123).
  • the outside may be the management server 200, and the packet may be transmitted to the management server 200.
  • the decoding unit 901 decodes the received video code data to generate original video data (step S200), and the storage unit 903 decodes the received marker information data and holds it as a management target (step S200).
  • the communication unit 902 transmits the marker information data updated based on the decoded video signal (step S220), and outputs the corrected video generated based on the tilt information of the work terminal 103 to the outside (step S230).
  • the control unit 906 determines the termination process (step S240).
  • step S200 the communication unit 902 receives the video code packet (step S201), outputs the video code data to the decoding unit 901, and outputs the tilt information of the work terminal 103 to the corrected video generation unit 905.
  • the decoding unit 901 decodes the received video code data into the original video signal data (step S202), and outputs it to the storage unit 903 and the corrected video generation unit 905.
  • step S210 when the communication unit 902 receives the marker information code packet (step S211), the control unit 906 decodes the marker information data and extracts the original marker information data (step S212). The control unit 906 stores the marker information in the storage unit 903 (step S213).
  • step S220 the control unit 906 performs the following process on all of the marker information data stored in the storage unit 903 (step S221).
  • the marker tracking unit 904 performs a marker tracking process for each marker information extracted from the storage unit 903 (step S222).
  • the marker tracking unit 904 replaces the updated marker information data with the marker information managed by the storage unit 903 (step S223), and outputs it to the control unit 906.
  • the control unit 906 encodes the received marker information data (step S224), and the communication unit 902 processes the encoded marker information data into a marker information code packet and outputs it to the outside (step S225).
  • the outside may be the work terminal 103 and the instruction device 108, and the packet may be transmitted to the work terminal 103 and the instruction device 108.
  • step S230 the corrected video generation unit 905 receives the video data of the current frame decoded by the decoding unit 901, the video data of the previous frame stored in the storage unit 903, and the tilt information of the work terminal 103.
  • the video correction process described above is performed (step S231), and the corrected video data generated as a result of the execution is output to the encoding unit 900.
  • the encoding unit 900 performs an encoding process (step S232), and outputs the video code data of the corrected video data generated as a result of the execution to the communication unit 902. .
  • the communication unit 902 Upon receiving the video code data of the corrected video data, the communication unit 902 processes the video code data so that it can be communicated, generates a video code packet, and transmits it to the outside (step S233).
  • the external device may be the instruction device 108, and the packet may be transmitted to the instruction device 108.
  • the communication unit 902 transmits the video code data before correction as it is to the outside, for example, the work terminal 103.
  • the captured video data is transmitted as it is to the work terminal 103, and the corrected video data is transmitted to the instruction device 108.
  • a method for supporting remote work in a state where the inclination of the work terminal on which the worker on the operator side captures the image and the inclination of the image displayed on the image display device 109 on the instructor side is combined is provided. can do.
  • the instruction device 108 may have all the functions of the management server 200.
  • the communication unit that receives the captured video and the tilt information of the work terminal 103 from the work terminal 103, and the correction that corrects the video data to change the display tilt angle of the video based on the tilt information of the work terminal 103.
  • An instruction device further including a video generation unit is also included in the present invention.
  • the worker on the worker side substantially matches the inclination of the work terminal 103 that captures the image with the inclination of the image displayed on the image display device 109 on the instructor side.
  • the tilt at the time of image capturing is further corrected according to the content captured in the imaged subject so that the image can be displayed.
  • a plane including information that can be read such as characters (hereinafter also referred to as a work plane)
  • the instructor obtains the work plane from the front.
  • the video is converted into a video that can be displayed and displayed on the instructor side.
  • the configurations of the present embodiment and the first embodiment may be the same, and the only difference is the difference in processing contents in the corrected video generation unit 905 of the management server 200.
  • the only difference is the difference in processing contents in the corrected video generation unit 905 of the management server 200.
  • a difference in processing of the corrected video generation unit 905 will be described.
  • FIG. 17 shows the procedure of the corrected video generation process in this embodiment.
  • the corrected video generation unit 905 of the management server 200 determines whether or not there is a character area in the video (steps S300 and S310). If there is a character area in the video, front correction processing is performed. (Step S320). Subsequently, the video correction process described in the first embodiment is performed (step S330). The video correction process may be the same as the video correction process based on the tilt information (step S231 in FIG. 16 (4)). Character detection and front correction will be described later. Note that the video correction process (step S330) may be canceled by an external setting.
  • ⁇ Character detection process> For character detection in this embodiment, it is sufficient to determine whether or not a character area exists in the video, and recognition of what the character is is unnecessary.
  • There are various APIs for determining the presence / absence of a character area For example, a character recognition module based on OCR (Optical Character Recognition / Reader) or a general-purpose API for computer vision, OpenCV (Open Source Computer Vision). Library Text Detection (http://docs.opencv.org/3.0-beta/modules/text/doc/erfilter.). It is also possible to use (html).
  • the front correction processing in the corrected video generation unit 905 is realized by projective transformation processing using a homography matrix.
  • the projective conversion process is a process of converting a plane into another plane, and is to perform conversion 1801 so that an image 1800 imaged from an angle as shown in FIG. 18 is viewed from the front.
  • argmin ( ⁇ ) is a function for calculating a parameter below argmin that minimizes the value in parentheses.
  • the corrected video generation unit 905 converts the video as if it was captured from the front, and corrects the straight lines that are longer than a predetermined length in the image so that the straight lines facing each other are parallel. Realized by. This is generally based on an empirical rule that readable characters are often described in a rectangular area, and as shown in FIG. 18, the corresponding side 1802 or side 1803 is respectively It transforms so as to be parallel like sides 1804 and 1805.
  • FIG. 19 shows the processing procedure for front correction.
  • the corrected video generation unit 905 detects a straight line existing in the image by Hough transform of image processing (step S321).
  • the Hough transform process is a general method for detecting a straight line from an image.
  • the straight line is defined by a distance r (r ⁇ 0) from the origin to the straight line and an inclination angle ⁇ (0 ⁇ ⁇ ⁇ 2 ⁇ ). This is a technique for obtaining them by plotting (voting) the edges in the image with the coordinate axes as coordinates.
  • the equation of the straight line in the Hough transform is as follows (Equation 9).
  • the corrected video generation unit 905 extracts up to four of the straight lines with a large number of votes obtained by the Hough transform (step S322). In the Hough transform, the longer the straight line, the greater the number of votes.
  • the corrected video generation unit 905 determines whether the extracted straight line can be a target of the front correction process (step S323).
  • front correction determination Judgment whether it can be the target of the front correction process (hereinafter referred to as front correction determination) is performed as follows.
  • the threshold is set to 20.
  • FIG. 20 is a diagram schematically showing a plot of the four straight lines extracted by the Hough transform process described above.
  • the second condition stipulates that the difference between the inclination angles of the straight lines included in group 1 and group 2 is greater than or equal to a predetermined value.
  • the threshold is set to ⁇ / 4.
  • the corrected video generation unit 905 performs the following correction processing.
  • the corrected video generation unit 905 converts the corrected coordinates within the coordinate axes of the Hough transform so that the inclination angles of the straight lines included in each group match as shown in FIG. To calculate.
  • the inclination angle after correction either the maximum or the minimum of the inclination angles of the straight lines included in the group may be selected, or an average value or a median value may be selected.
  • the corrected video generation unit 905 can perform conversion as shown in FIG. 20B, obtain a corrected straight line, and obtain corresponding coordinates before and after correction (step S324).
  • the corrected video generation unit 905 performs the above-described projective transformation process on the entire image, and corrects the video so that the work plane included in the object is in front as shown by 1801 in FIG. A front correction image is acquired (step S325).
  • the front correction method by image processing is shown, but any method may be used as long as it can obtain a video image taken from the front.
  • a distance measuring device capable of obtaining a depth map (map data indicating a distance value to a subject in a two-dimensional manner) is provided on the camera 103a side of the work terminal, and the surface of the subject and the inclination of the work terminal are determined.
  • the configuration may be such that the parameters are obtained directly, and the parameters for projective transformation are calculated from the acquired tilt information.
  • a method for remote work support in a state where the video is corrected and displayed on the screen of the instructor side so that the direction of the video imaging is in front based on the analysis result of the captured video. be able to.
  • the video composition unit 306 synthesizes the video data and the marker information data received from the instruction device 108.
  • the marker information data to be combined data generated using the corrected image 1203 displayed on the pointing device 108 is used as it is. For this reason, when the direction is instructed using the marker information data, the instruction direction displayed on the work terminal 103 is different from the instruction direction intended by the instructor, and the work instruction cannot be appropriately performed. Such a problem occurs.
  • a method of rotating and displaying the marker information using the tilt information acquired by the tilt acquisition unit 308 is used.
  • the marker information 2100 includes start point information and end point information in addition to the elements included in the marker information 400.
  • the start point information and the end point information are coordinates in the video on the pointing device 108.
  • the coordinates of the start point 2103 of the marker 2102 on the screen 2101 of the pointing device 108 are (xs, ys), and the coordinates of the end point 2104 are (xg, yg).
  • the marker 2202 set on the screen 2201 of the instruction device 108 is transmitted to the corrected video generation unit 905 of the management server.
  • the corrected video generation unit 905 updates the start point information and end point information of the marker 2202 using the tilt information ⁇ obtained by the tilt acquisition unit 308 (Formula 10 and Formula 11).
  • a marker 2204 with updated start and end points is displayed on the screen 2203 of the work terminal.
  • the posture of the worker is that the head is not tilted as shown in FIG. 23 (1), the case where the head is tilted as shown in FIG. There is.
  • the operator and the instructor when the head is not tilted, the operator and the instructor see the same tilted image, so that the instruction by the instructor can be appropriately transmitted. it can.
  • the tilt of the video displayed on the pointing device 108 is different from the tilt of the video viewed by the worker, so that there is a problem that it is not possible to properly perform work instructions.
  • the inclination of the operator's head is acquired, and the image processing method based on the inclination information is controlled using the acquired inclination of the head and the inclination information acquired by the inclination acquisition unit 308. Use the method.
  • the difference from the first embodiment, the second embodiment, and the third embodiment is that an operator inclination acquisition unit 2401 is provided.
  • the method employed by the worker inclination acquisition unit 2401 may be any method that can acquire the inclination of the worker's head, and can be realized using, for example, the video acquisition unit 301 of the work terminal 103. A method for calculating the inclination of the operator's head will be described later.
  • the worker inclination acquisition unit 2401 detects the right eye 2502 and the left eye 2503 from the worker's face image 2501 acquired by the video acquisition unit 301, and uses the straight line connecting the right eye 2502 and the left eye 2503 to determine the face inclination ⁇ w. Is calculated.
  • a Haar-like feature amount or the like can be used as the feature amount for detecting the right eye 2502 and the left eye 2503.
  • a video processing method based on tilt information in this embodiment will be described.
  • the video is processed using only the tilt information of the work terminal 103.
  • the difference between the tilt information of the work terminal 103 and the tilt information of the worker is used to calculate the tilt between the work terminal 103 and the worker, and the video is processed (Formula 12, Formula 13, Formula 14, Equation 15).
  • a method for controlling the processing method can be provided.
  • the worker on the worker side can match the inclination of the work terminal that captures the image with the inclination of the image displayed on the pointing device, and the entire screen is used as the display area of the image display device 109. can do. (A region in which an image generated in the case of image processing is not displayed (a black portion in FIG. 12 or the like) does not occur.)
  • the display rotation adjustment unit various existing rotation mechanisms such as a motor and a four-bar rotation mechanism can be used.
  • each component for realizing the function is described as being a different part, but it must actually have a part that can be clearly separated and recognized in this way. It doesn't have to be.
  • the remote operation support apparatus that implements the functions of each of the above embodiments may configure each component for realizing the function using, for example, different parts, or all configurations.
  • the elements may be mounted on one LSI. That is, what kind of mounting form should just have each component as a function.
  • each constituent element of one embodiment of the present invention can be arbitrarily selected, and an invention having a selected configuration is also included in one embodiment of the present invention.
  • Control blocks of the work support apparatus A (particularly, the video acquisition unit 301, the encoding unit 302, the decoding unit 303, the communication unit 304, the video synthesis unit 306, the inclination acquisition unit 308, the control unit 309, and the instruction device 108 of the work terminal 103)
  • Unit 401, communication unit 402, video composition unit 404, control unit 405, management server encoding unit 900, decoding unit 901, communication unit 902, marker tracking unit 904, corrected video generation unit 905, and control unit 906) may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or may be realized by software using a CPU (Central Processing Unit).
  • a program for realizing the functions described in the above embodiments is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed. Processing may be performed.
  • the “computer system” includes an OS and hardware such as peripheral devices.
  • the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
  • the “computer-readable recording medium” means a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included.
  • the program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
  • the work support apparatus (management server 200) includes a receiving unit (communication unit 902) that receives a captured image of an object (work object 102) imaged at the work terminal 103, and the work terminal.
  • the tilt acquisition unit (communication unit 902) that acquires the tilt at the time of imaging 103, and the received object (work target) according to the tilt of the work terminal 103 acquired by the tilt acquisition unit (communication unit 902)
  • a corrected video generation unit 905 that changes the display tilt angle of the captured image of the object 102
  • an output unit (communication unit 902) that outputs the captured video with the changed display tilt angle to the outside.
  • the display tilt angle of the captured image of the received object is changed according to the tilt of the work terminal 103.
  • the work efficiency of both the instructor who views the captured image of the received object (work object 102) can be improved.
  • the corrected video generation unit 905 includes the vertical direction of the work terminal 103 and the received object (work object 102).
  • the vertical direction of the captured image may be substantially coincided with each other.
  • remote work support is provided in a state in which the inclination of the work terminal 103 on which the worker on the operator side captures the image and the inclination of the image displayed on the image display device 109 on the instructor side are combined. be able to.
  • the corrected image generation unit 905 has a work plane included in the object (work object 102) as the front.
  • the video may be corrected as described above.
  • the instructor can grasp the work plane from the front.
  • the corrected video generation unit 905 captures the received object (work object 102). You may change the display inclination angle of an image
  • the instruction video given by the instruction device 108 can be rotated and displayed on the work terminal 103 in accordance with the inclination of the work terminal 103.
  • the corrected video generation unit 905 includes the inclination of the work terminal 103 and the work terminal 103. Based on the tilt of the head of the worker 101 to be held, the display tilt angle of the captured image of the received object (work object 102) may be changed.
  • the direction in which the worker 101 is viewing and the tilt of the image displayed on the instructor 107 side are matched according to the tilt of the head of the worker 101 and the tilt of the work terminal 103. It is possible to support remote work in the state.
  • the work support method includes a reception step of receiving a captured image of a target object (work target object 102) captured by the work terminal 103, and a tilt for acquiring the tilt at the time of shooting of the work terminal 103.
  • a correction video generation step of changing a display tilt angle of a captured image of the received object (work object 102) according to the tilt of the work terminal 103 acquired in the tilt acquisition step; And an output step of outputting the captured image with the changed display tilt angle to the outside.
  • the pointing device 108 includes a receiving unit (communication unit 902) that receives a captured image of an object (work object 102) imaged at the work terminal 103, and an image when the work terminal 103 is imaged.
  • a receiving unit communication unit 902 that receives a captured image of an object (work object 102) imaged at the work terminal 103, and an image when the work terminal 103 is imaged.
  • the received object (work object 102) is imaged.
  • a corrected video generation unit 905 that changes the display tilt angle of the video
  • a video display unit video display device 109) that displays a captured video of the received object (work object 102) whose display tilt angle has been changed,
  • the work support device (management server 200) may be realized by a computer.
  • the computer is operated as each unit (software element) included in the work support device A.
  • a work support control program for a work support apparatus that implements the work support apparatus (management server 200) on a computer and a computer-readable recording medium on which the work support control program is recorded also fall within the scope of one aspect of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Studio Devices (AREA)

Abstract

作業者が映像を撮像した作業端末の傾き角に応じて撮像映像の傾き角を変更した映像を作業者と指示者で共有する。撮像映像を受信する通信部(902)と、撮像映像の撮像傾きを取得する通信部(902)と、通信部(902)で取得された撮像傾きに応じて、受信した撮像映像の表示傾き角を変更する補正映像生成部(905)と、表示傾き角が変更された撮像映像を外部に出力する通信部(902)を有する。

Description

作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体
 本発明の一態様は、作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体に関する。
 従来から、カメラにより撮像した映像(以下、撮像映像とする)と、マイクにより収音した音声(以下、収音音声とする)と、を遠隔地に伝送する、テレビ会議装置が広く利用されている。このようなテレビ会議装置においては、撮像映像と、収音音声の他に、テレビ会議装置が動作している端末(以下、利用者端末とする)において、テレビ会議装置と同時に動作しているアプリケーションソフトウェアの画面等の付加画面情報と、利用者端末上に対してテレビ会議装置の利用者(以下、利用者とも称する)がたとえばマウスを動かして入力したポインタ情報等の指示情報と、を伝送するものがある。
 テレビ会議装置を応用したものとして、作業支援装置がある。これは、たとえば修理作業等を行う利用者(以下、作業者とも称する)が作業の様子をカメラで撮像し、撮像映像を、作業者に対して作業手順等の指示を行う利用者(以下、指示者とも称する)に向けて送信し、指示者は受信した撮像映像を見て作業手順等の指示(以下、作業指示とも称する)を作業者に伝達するものである。指示者から作業者への作業指示では、作業者が送信した撮像映像に対して、指示者がポインタ情報や、一定時間残存する印(以下、マーカー情報とも称する)といった指示情報をつけ、作業者が指示情報のついた映像を参照することで、口頭での作業指示よりも詳細な作業支援を行うことができる。このような遠隔作業支援を実現する方法として、特許文献1や特許文献2の手法が開示されている。
 特許文献1には、指示情報を作業者が観察する現実の光学像における作業箇所に重畳して表示する手法について開示されている。特許文献2では、作業者側の端末に表示されている指示情報付きの映像を、指示者が視認する手段について開示されている。
日本国公開特許公報「特開2008-124795号公報(2008年5月29日公開)」 日本国公開特許公報「特開2015-135641号公報(2015年7月27日公開)」
 しかし、特許文献1に記載の手法は、作業者が観察する作業対象物の光学像における対象部位に重ねて表示される指標の位置については考慮しているが、作業者が映像を撮像している電子カメラの傾き角については考慮していない。また、特許文献2に記載の手法は、指示側の複数の端末の間で、指示画像及び相対位置が共有されることを考慮しているが、作業者が撮像しているカメラの傾き角については考慮していない。このため、作業者がカメラを傾けて映像を撮像している場合に、作業者にとっての方向(映像の傾き)と、指示者にとっての方向(映像の傾き)は異なるものとなる。例えば作業者にとっての「上」は、指示者にとっては「右上」等となる。作業者にとっての方向(映像の傾き)と、指示者にとっての方向(映像の傾き)のずれにより、作業指示が作業者に適切に伝わらないという問題がある。
 本発明の一態様は、前記の問題点に鑑みてなされたものであり、その目的は、指示者からの作業指示を作業者に適切に伝えることを支援し、作業効率を向上させることができる作業支援装置等を提供することにある。
 上記の課題を解決するために、本発明の一態様に係る作業支援装置は、撮像映像を受信する受信部と、前記撮像映像の撮像傾きを取得する傾き取得部と、前記傾き取得部で取得された前記撮像傾きに応じて、受信した前記撮像映像の表示傾き角を変更する補正映像生成部と、前記表示傾き角が変更された撮像映像を外部に出力する出力部と、を有する。
 また、本発明の一態様に係る作業支援方法は、撮像映像を受信する受信ステップと、前記撮像映像の撮像傾きを取得する傾き取得ステップと、前記傾き取得ステップにおいて取得された前記撮像傾きに応じて、受信した前記撮像映像の表示傾き角を変更する補正映像生成ステップと、前記表示傾き角が変更された撮像映像を外部に出力する出力ステップと、を有する。
 本発明の一態様によれば、撮像映像の撮像傾きに応じて、受信した対象物の撮像映像の表示傾き角が変更されるので、撮像する端末を用いて作業する作業者と、受信した撮像映像を見る指示者との双方の作業効率を向上させることができる。
 そして、指示者からの作業指示を作業者に適切に伝えることが支援されることができる。
実施形態1における遠隔作業の様子を模式的に示した図である。 本実施形態に係る遠隔通信システムの構成の一例を示す図である。 実施形態1における作業端末の一構成例を示す機能ブロック図である。 実施形態1における指示装置の一構成例を示す機能ブロック図である。 本実施形態に係るマーカー情報とその属性を示す図である。 本実施形態に係る通信信号の構成例を示す図であり、(1)はデータ通信パケット基本形を示し、(2)は映像符号パケットを示し、(3)は映像符号パケット(傾き情報あり)を示し、(4)はマーカー符号パケットを示す。 本実施形態に係る撮像映像とマーカー情報の合成を示す図である。 実施形態1に係わる作業端末における傾き角の算出方法を示す図である。 実施形態1における管理サーバーの一構成例を示す機能ブロック図である。 本実施形態に係るマーカー追跡処理のイメージ図である。 本実施形態に係るテンプレートマッチングによるマーカー追跡を示す図である。 実施形態1に係わる傾き情報に基づく映像補正処理を示す図である。 実施形態1における作業端末/指示装置のフローチャートを示す図である。 実施形態1における作業端末/指示装置のフローチャートを示す図であり、(1)は撮像映像送信処理のフローチャートであり、(2)は合成表示処理のフローチャートであり、(3)は新規マーカー送信処理のフローチャートである。 実施形態1における管理サーバーのフローチャートを示す図である。 実施形態1における管理サーバーのフローチャートを示す図であり、(1)は映像受信処理のフローチャートであり、(2)はマーカー情報受信処理のフローチャートであり、(3)はマーカー情報更新処理のフローチャートであり、(4)は補正映像送信処理のフローチャートである。 実施形態2に係わる補正映像生成処理のフローチャートを示す図である。 実施形態2の正面補正処理における射影変換を示す図である。 実施形態2に係わる正面補正処理のフローチャートを示す図である。 実施形態2に係わる正面補正後の座標を取得する方法の説明図である。 実施形態3に係るマーカー情報とその属性を示す図である。 実施形態3に係わる傾き情報に基づく映像補正処理を示す図である。 実施形態4に係わる作業端末の傾きと作業者の傾きを示す図である。 実施形態4における作業端末の一構成例を示す機能ブロック図である。 実施形態4における作業者の傾きの算出方法を示す図である。
 以下、図面を参照しながら本発明の実施の形態について詳細に説明する。図面において同じ機能を有する部分については同じ符号を付し、繰り返しの説明は省略する。
 (実施形態1)
 本実施形態においては、本発明の一態様における基本的な構成について説明する。
 <装置の利用方法>
 図1は、作業者側の作業者が映像を撮像する作業端末の傾きと、指示者側の映像表示装置に表示される映像の傾きとを合わせることができる本発明の実施形態1の遠隔支援の様子を模式的に示した図である。
 図1の左側が作業現場100であり、図1の右側が指示室106を示しており、お互いに離れたところに位置している。
 このシーン例では、作業者101が、指示者107から、作業対象物102に関する作業指示を、作業端末103で受けながら、作業を行なっている。以下、図1の全体Aを作業支援装置と称す。
 作業端末103の背面には、撮像用のカメラ103aが備えられており、作業対象物102を撮像し、撮像された映像データを遠隔地に送信することができる。ここで、作業端末103を傾けるとカメラ103aが傾き、撮像映像中の撮像された作業対象物102は、現実の作業対象物102に対して傾く。以降、撮像映像の撮像時の作業端末103の傾きを、「撮像傾き」ともよぶ。指示室106に設置された指示装置108は、送られてきた映像データを受信し、(付加画面情報として)映像表示装置109に表示させることができる。
 指示者107は、作業対象物102の映像110を見ながら、映像表示装置109上で、作業者101に対して作業指示を行う。その際、タッチパネル機能やマウス機能等を利用した入力により、指示位置を示すポインタやマーカー111を表示画面上に設定できる。ポインタやマーカーの設定情報データが、指示装置108から作業端末103に送られることで、作業端末103の表示部と映像表示装置109の画面とを通してポインタやマーカーの設定情報をお互いに共有させることができる。以下、ポインタやマーカーのように表示画面上に表示させるための情報を総称して、マーカー情報と称する。マーカー情報により、作業端末103の表示部、及び映像表示装置109の画面に表示される映像は、指示映像と呼ぶことができる。マーカー情報には、テキストや手書きの文字や絵柄も含めることも可能である。
 作業端末103の表示部には、映し出された作業対象物102の映像104と、映像表示装置109上において設定されたマーカー情報に基づくマーカー105等とが、重ね合わされて表示されており、指示室106からの作業指示を視覚的に把握できる。
 尚、作業者101の入力に基づいて、マーカー情報を設定することもでき、指示者107と作業者101とが、マーカーを含めたそれぞれの情報をお互いに共有できるようになる。
 <遠隔通信>
 図2は、本実施形態に係る遠隔通信システムの構成の一例を示す図である。作業端末103と、指示装置108は、公衆通信網(例えば、インターネット)NTによって、お互いに接続されており、TCP/IPやUDP等のプロトコルに従い、通信することができる。
 前述の作業支援装置Aには、さらに、マーカー情報を一括して管理するための管理サーバー200が設けられ、同じ公衆通信網NTに接続されている。尚、作業端末103は、無線通信によって公衆通信網NTと接続することも可能である。この場合、無線通信は、例えばWi-Fi Alliance(米国業界団体)によって規定された国際標準規格(IEEE 802.11)のWi-Fi(ワイファイ、Wireless Fidelity:登録商標)接続によって実現することが可能である。
 通信網に関しては、インターネット等の公衆通信網について示してきたが、例えば、企業等で使用されている、LAN(Local Area Network)を用いることも可能であり、また、それらが混在した構成であっても良い。
 図2では、管理サーバー200を含んだ構成を示しているが、管理サーバー200の機能の全てを作業端末103、又は指示装置108の内部に取り込むことにより、作業端末103と、指示装置108とが直接やりとりする形態であっても問題はない。
 通常のテレビ会議システムで用いられる、一般的な音声通信処理や付加画面情報以外の映像通信処理に関しては、支障のない範囲で説明を省略する。
 <ブロック構成例(作業端末)>
 図3は、本実施形態における作業端末103の一構成例を示す機能ブロック図である。
 作業端末103は、映像データを取得する映像取得部301と、映像データを符号化するエンコード部302と、符号化された映像符号データを復号するデコード部303と、符号化された映像符号データやマーカー情報データを外部に送信・受信する通信部304と、処理に利用する種々のデータを保存する保存部305と、映像データとそれに重畳するマーカー情報データとを合成する映像合成部306と、合成された映像データを表示する映像表示部307と、作業端末の傾き情報を取得する傾き取得部308と、全体の制御を行うための制御部309と、各々のブロック間でのデータのやり取りを行うためのデータバス310と、を有している。
 映像取得部301は、撮像空間を画像として取り込むための光学部品及びCMOS(Complementary Metal Oxide Semiconductor)やCCD(Charge Coupled Device)等の撮像素子とを具備するように構成され、光電変換によって得られた電気信号に基づいて生成された映像データを出力する。撮像された情報データは生のデータのまま出力してもよいし、図示していない映像処理部において処理しやすいように事前に画像処理(輝度画像化、ノイズ除去等)された映像データとして出力してもよく、また、その両方を出力するような構成としてもよい。さらに、撮像時の絞り値や焦点距離等のカメラパラメータを保存部305に送るように構成することもできる。
 エンコード部302は、FPGAやASIC、あるいは、GPU(Graphics Processing Unit)によって構成され、映像取得部301によって取得された映像データを元のデータ量よりも小さくなるように符号化する。符号化の方法は種々存在するが、例えば、動画像符号化に適したH.264(国際標準動画圧縮規格)を利用することができる。
 デコード部303についても、エンコード部302と同様にFPGAやASIC、あるいは、GPUによって構成され、映像データの符号化とは逆の処理を行い、元の映像に復号する。復号の方法についても種々存在するが、符号化の方式に合わせる必要があり、ここではH.264復号によって元の信号を生成する。
 通信部304は、例えば、DSP(digital signal processor)によって構成され、符号化された映像符号データやマーカー情報データを加工して、通信パケットを生成し、外部に送信・受信する。あるいは、通信部304は、後述の制御部309の機能を用いて処理する構成であっても良い。通信パケットについては後述する。
 保存部305は、例えば、RAM(Ramdom Access Memory)や、ハードディスク等の記憶装置によって構成され、マーカー情報データや復号された映像データ等を保存する。
 映像合成部306は、FPGAやASIC、あるいは、GPU(Graphics Processing Unit)によって構成され、映像データとマーカー情報データを合成した映像を生成する。合成については後述する。
 映像表示部307は、映像信号に基づいた映像を表示することができる装置であって、例えば、液晶ディスプレイ(liquid crystal display(LCD))を用いることができる。液晶ディスプレイとは、液晶を利用した表示装置であって、2枚のガラス板の間にマス目状に構成された薄膜トランジスタに電圧をかけることによって液晶分子の向きを変え、光の透過率を増減させることで像を表示する装置である。また、液晶ディスプレイ内にタッチセンサーを含んだ構成にすることで、指で画面を接触した座標を取得することもできる。
 傾き取得部308は、3軸加速度センサと演算装置(FPGA、ASICやDSP)から構成される。3軸加速度センサは、XYZ軸の3方向の加速度を1つのデバイスで測定できるMEMS(Micro Electro Mechanical Systems)センサの一種であり、例えば、ピエゾ抵抗型3軸加速度センサを用いることができ、通常のスマートフォンやタブレットに備わっている汎用のデバイスと同等である。作業端末の傾きの算出方法については後述する。
 制御部309は、CPU(Central Processing Unit)等によって構成され、各処理ブロックにおける処理の命令・制御やデータの入・出力に関するコントロールを行う。また、制御部309は、マーカー情報の符号化機能、及びマーカー情報符号データの復号機能を有する。
 データバス310は、各々のユニット間でのデータのやり取りを行うためのバスである。
 なお、作業端末103は持ち運びのできるスマートフォン、タブレット、メガネ型端末等の携帯端末であることが好ましい。
 <ブロック構成例(指示装置)>
 引き続いて、図4は、本実施形態における指示装置108の一構成例を示す機能ブロック図である。
 指示装置108は、前述の作業端末103の構成から、映像データを取得する機能と、映像データを符号化する機能と、映像符号データを送信する機能と、傾き情報を取得する機能と、を除いたサブセット構成になっている。なお、作業端末103の構成に合わせるために、図4では、図1の映像表示装置109を組み込んだ構成にしている。指示装置108と映像表示装置109とを一つの筐体の中に収めた、タブレット状の装置を用いることも可能である。
 指示装置108は、符号化された映像符号データを復号するデコード部401と、映像符号データを受信又はマーカー情報データを外部に送信・受信する通信部402と、処理に利用する種々のデータを保存する保存部403と、映像データとマーカー情報データとを合成する映像合成部404と、全体の制御を行うための制御部405と、各々のブロック間でのデータのやり取りを行うためのデータバス406と、を有している。
 指示装置108のデコード部401は作業端末103のデコード部303と、通信部402は通信部304と、保存部403は保存部305と、映像合成部404は映像合成部306と、映像表示装置109は映像表示部307と、制御部405は制御部309と、データバス406はデータバス310と、同じ構成でかつ同じ機能を有しており、説明を省略する。
 <マーカー情報>
 本実施形態における、マーカー情報について、図5を用いて説明する。
 図5に示すように、マーカー情報500は、各種の属性(ID、タイムスタンプ、座標、登録時周辺局所画像、マーカー種類、色、大きさ、太さ)を含んでおり、位置や形状等の表示状態を制御するための情報群である。図5に記載の属性は一例であり、マーカー情報500は図5に記載の属性の一部を有する構成としてもよいし、図5に記載の属性に加えて、追加の属性情報を有する構成としてもよい。つまり、作業支援装置Aに属する作業端末103、指示装置108と管理サーバー200とが解釈することができる規定の属性であれば良い。
 <通信信号の生成方法>
 本実施形態における、通信に用いる各種信号の生成方法について、図6を用いて説明する。
 初めに、データ通信パケットの基本形について説明する(図6の(1))。
 データ通信パケットは、「IP」と、「UDP」と、「RTPヘッダ」と、「送信データ」と、から構成される。ここで、「IP」はパケットを送信する機器を識別するためのアドレス番号で、「UDP(User Datagram Protocol)」はコネクション確立不要なリアルタイム伝送向けのプロトコルであり、「RTPヘッダ(Real-time Transport Protocol)」はストリーミング伝送するためのプロトコルで、「送信データ」は実際に送信するデータを、それぞれ示している。以下、通信に使うパケットは、全てこのフォーマットを基本とする。
 次に、映像符号パケットの例を図6(2)と(3)とに示す。送信データに該当する、映像符号化データは、1枚のフレーム映像を符号化したデータであり、その「タイムスタンプ」と「映像符号」を組み合わせたデータになっている。なお、作業端末の「傾き情報」については、図6の(3)に示すように、映像符号化データの一部として付加するものとする。傾き情報については、後述する。
 続いて、マーカー情報符号パケットの例を図6(4)に示す。送信データに該当する、マーカー情報符号化データは、複数のマーカー情報を含んだデータで、パケットに含まれるマーカーの数を示す「マーカー数」と、0番目のマーカーからn番目のマーカーの符号サイズを示す「マーカーサイズ」と、各マーカー情報を符号化した「マーカー符号」から構成される。なお、マーカー符号は、デジタル情報として使用する必要があるため(復号されたデータが符号化前のデータと完全に一致することが必要)、可逆の符号化処理によって符号化する必要がある。可逆の符号化については、例えば、ZIP方式(可逆符号化方式の一つ)を用いることが可能である。但し、マーカー情報は、情報量が映像に比べて小さいため、符号化を行わずに、元の信号をそのまま使って、通信する方法でも良い。その場合は、マーカーのデータサイズが一定となるため、図6の(4)とは異なり、マーカーサイズ(0~n番)を省略することも可能である。
 なお、通信パケットに関して、映像符号とマーカー符号を別々のパケットにする例について説明したが、両方を結合して一体となったパケットを規定して、それを用いるような構成にすることも可能である。
 <映像合成の方法>
 本実施の形態における、映像合成の方法について、図7を用いて説明する。
 映像合成部306、又は映像合成部404は、図7に示したように、入力された映像700に対して、前述のマーカー情報500に含まれる属性(位置と形状)に従って生成したマーカー701を合成し、合成映像702を生成する。なお、生成するマーカーは、ベクトルと称される数式によって定義された直線と曲線の集まりに基づくベクトル画像であっても良いし、正方形のピクセルという位置情報に色情報を持たせたビットマップ画像(ラスタ画像とも呼ばれる)であっても良い。ビットマップ画像の合成は、合成位置にあたる背景映像の画素値を単純にマーカーの画素値で置き換えても良く、特定の色を透過色として、透過色の部分を背景の映像の画素値を用いても良く、又は、所定の合成比率によるアルファブレンディング処理を行っても良い。いずれの方法もごく一般的な手法である。
 <傾き情報の取得方法>
 本実施形態における、作業端末の傾き情報の取得方法について、図8を用いて説明する。
 初めに、傾き取得部308は、作業端末103の座標軸について、長辺方向の右向きが正の方向となるようなx軸801と、x軸と垂直な短辺方向の上向きが正の方向となるようなy軸802と、x軸とy軸の両方に垂直で画面に向かう向きが正の方向となるようなz軸(図示していない)と、を有する直交座標系を設定する。以下、本座標系を作業端末座標系と称す。
 前述の通り、作業端末103は3軸の加速度センサを備えており、作業端末座標系の各軸に向かった加速度を計測することができる。
 例えば、図8の(1)に示したように、地上面に対して垂直に作業端末103を静止させた場合(800)、y軸の負の方向に1重力加速度(1gと記載)が発生する(803)。一方、図8(2)の例では、作業端末103を傾けた状態を示しており(804)、重力加速度805は地面に向かって発生するが、作業端末103の加速度センサで計測される加速度は、x軸の負の向きに発生した加速度806と、y軸の負の向きに発生した加速度807と、に分配される。ここで、作業端末103の傾き角をθ(単位はラジアン)として、図8の808に示した向きを回転の正の向きとすると、傾き取得部308は、下記(式1)によって作業端末103の傾き角θを算出することができる。
Figure JPOXMLDOC01-appb-M000001
 ここで、Ax,out,Ay,outはそれぞれx軸に発生する重力加速度とy軸に発生する重力加速度を、tan-1はtanの逆関数を、示している。
 このように、傾き取得部308は、x軸とy軸への重力加速度の分配に基づいて、作業端末103の傾きを算出することができる。実際には、重力加速度以外の作業端末103の動きによる加速度が加わるが、例えば、加速度センサの観測値にローパスフィルタをかけて、瞬間の突発的な動きによる加速度成分をカットすれば作業端末103の動きによる加速度を除くことができる。ローパスフィルタについては一般的な手法を用いることができる。
 <ブロック構成例(管理サーバー)>
 図9は、本実施形態における管理サーバー200の一構成例を示す機能ブロック図である。
 管理サーバー200は、映像データを符号化するエンコード部900と、符号化された映像符号データを復号するデコード部901と、符号化された映像符号データ、傾き取得部308により取得された作業端末の傾き情報、マーカー情報データ等を送信・受信する通信部902と、処理に利用する種々のデータを保存する保存部903と、入力された映像データに基づきマーカー位置を追跡し、更新するマーカー追跡部904と、作業端末103の傾きの情報に基づいて映像の表示傾き角を変更すべく映像データを補正する補正映像生成部905と、全体の制御を行うための制御部906と、各々のブロック間でのデータのやり取りを行うためのデータバス907と、を有している。
 ここで、エンコード部900と、デコード部901と、通信部902と、保存部903と、制御部906と、データバス907と、は、前述した同じ名前を付したブロックと、同じ構成でかつ同じ機能を有しており、説明を省略する。
 マーカー追跡部904は、FPGAやASIC、あるいは、GPU(Graphics
 Processing Unit)によって構成され、現フレームの映像データと1フレーム前の映像データとを用いて、管理しているマーカーの位置情報の更新を行う。マーカーの追跡処理については、後述する。
 補正映像生成部905は、FPGAやASIC、あるいは、GPU(Graphics
 Processing Unit)によって構成され、作業端末103の傾き情報に基づいて、入力された映像を補正する処理を行う。映像補正処理の内容については後述する。
 <マーカー追跡処理>
 本実施形態における、マーカー追跡処理について、図10と図11とを用いて説明する。
 初めに、マーカー追跡のイメージについて図10を用いて説明する。前述のように、作業者あるいは指示者によって設定されたマーカーは、撮像映像の動きに合わせて、設定された元位置に対応する場所を追尾しながらその位置を変えていくことができる。
 例えば、図10では、マーカーを設定した作業対象物102が画面中央に写っているが(1000)、徐々に画面の右端に移動していく様子を示している(1001、1002)。実際には、このとき、作業端末103は左に向かって移動している状態である。作業者あるいは指示者によって設定されたマーカー1003についても、マーカー追跡処理によって、徐々に右端に移動していく。これがマーカー追跡の概要である。
 続いて、マーカー追跡処理の具体的な内容について、図11を用いて説明する。
 マーカー追跡部904は、作業者あるいは利用者によって設定された、iフレーム1100におけるマーカー1102の位置をP=(x,y)とし、i+1フレーム1101におけるマーカーの位置をPi+1=(xi+1,yi+1)とする。マーカー追跡部904は、この連続するフレームにおいて、逐次その位置を算出していく。この処理がマーカー追跡処理である。つまり、マーカー追跡部904は、設定時から、現フレームまで更新していくことで、現フレームにおけるマーカー位置を求めることができる。
 本実施形態では、マーカー追跡部904は、画像処理のテンプレートマッチングを用いてこれを算出する。テンプレートマッチングとは、教師となる局所領域画像(以下、教師データと称す)について、それに類似する領域を、局所ブロックマッチングを用いて、画像の中から抽出する方法である。
 ここでは、マーカー追跡部904は、iフレーム1100において設定されたマーカー位置の周辺領域(例えば、15×15の領域)を教師データT1103として登録する。Tについて、数式で表すと下記(式2)となる。なお、該教師データTは、前述のマーカー情報に含まれる登録時周辺局所画像として、マーカー情報の属性の1つになる。
Figure JPOXMLDOC01-appb-M000002
 ここで、I(x,y)は、iフレーム画像の座標(x、y)における画素値である。
 マーカー追跡部904は、マーカー設定時に、(式2)のように、教師データを取得すると、続くフレームに対して、教師データに類似する画像域の探索を行う。探索の範囲は、画像全体としても良いが、連続する映像フレームにおいては、対応する画素の動きはあまり大きくないという経験則に基づき、その探索範囲を限定することができる。本実施例では、例えば、その探索範囲を前フレームのマーカー位置を中心に、51×51画素の範囲に限定するものとする1104。
 ここで探索範囲をPとすると、下記(式3)のように表記することができる。
Figure JPOXMLDOC01-appb-M000003
 テンプレートマッチングで用いる類似の度合を示す指標には様々な方式があり、いずれの方式を用いることもできるが、ここではSAD(Sum of Absolute Difference)を用いることとする。SADを用いたテンプレートマッチングの式は下記(式4)の通りである。
Figure JPOXMLDOC01-appb-M000004
 ここで、argmin(・)は、括弧内を最小にするargminの下部にあるパラメータを算出する関数である。
 以上により、所定の探索範囲において、教師データに一番似通った画素位置を求めることができ、この位置をi+1フレームにおけるマーカーの位置として更新する。
 マーカー追跡部904が上記処理を連続して行うことで、元々設定した場所を追跡しながら新たなマーカー位置を算出することが可能になる。
 <傾き情報に基づく映像補正処理方法>
 本実施形態における、作業端末103の傾き情報に基づく映像補正処理方法について、図12を用いて説明する。
 補正前の映像は、撮像映像そのままの映像であり図12における1201に該当する。補正映像生成部905は、この映像に対して、前述の作業端末103の傾きとは逆の補正をかけることで、作業者側の作業者が映像を撮像する作業端末103の傾きと、指示者側の映像表示装置109に表示される映像の傾きとを合わせることができる(1202)。例えば、作業端末103の鉛直方向と、指示装置108が受信した対象物の撮像映像の鉛直方向とを略一致させることができる。略一致している状態とは、作業端末103の鉛直方向が、指示装置108が受信した対象物の撮像映像の鉛直方向に沿ったものとなっていることを指す。また、感覚的に上下左右の方向感が作業者と利用者とにおいて一致できる状態のことを指すと表現してもよい。略一致している状態とは、例えば、各々の鉛直方向の相対的なずれが±5°以内である状態であることが好ましい。具体的には以下の処理を映像に施すことで実現する。
Figure JPOXMLDOC01-appb-M000005
 ここで、Idstは補正後の生成画像(1203)の点(x、y)における画素値であり、Isrcは補正前の画像の点(x、y)における画素値になる。また、(cx,cy)は画像中心であり、θは前述の作業端末103の傾き情報そのものである。
 <フローチャート>
 続いて、本実施形態における処理の手順について、図13~図16を用いて説明する。
 初めに、作業端末103における大まかな処理の手順について、図13を用いて説明する。
 作業端末103において、エンコード部302は映像データを符号化して通信部304は外部に映像符号データを送信し(ステップS100)、デコード部303は外部から送られてきた映像符号データを復号し、制御部309は外部から送られてきたマーカー情報符号データを復号して、映像表示部307は合成映像を画面に表示し(ステップS110)、制御部309はユーザが画面をタッチすることで新規に生成されるマーカー情報を符号化して外部に送信し(ステップS120)、終了処理の判断を行う(ステップS130)。
 指示装置108における処理の手順は、上記作業端末103の処理の手順からステップS100を除いたものである。すなわち、指示装置108において、デコード部401は外部から送られてきた映像符号データを復号して、制御部405はマーカー情報符号データを復号する。さらに、映像表示装置109は合成映像を画面に表示し(ステップS110)、制御部405はユーザが画面をタッチすることで新規に生成されるマーカー情報を符号化して、通信部402は外部に送信し(ステップS120)、終了処理の判断を行う(ステップS130)。
 以下、作業端末103の処理ステップについて説明を行うものとする。
 次に、図14を用いて、図13に示される各処理ステップの詳細を説明する。
 ステップS100において、映像取得部301は、撮像カメラで撮像した撮像データのうち現フレームの映像データを取得し(ステップS101)、エンコード部302は、映像データの符号化を行う(ステップS102)。続いて、通信部304は、符号化された映像符号データを入力し、通信可能なパケットに加工した後に、パケットを外部に出力する(ステップS103)。なお、上記外部とは管理サーバー200であってよく、該パケットは、管理サーバー200に送信されてよい。
 ステップS110において、通信部304は、マーカー情報符号パケットの受信を待機しており(ステップS111)、通信部304がパケットを受信すると、制御部309は、マーカー情報データの復号を行い(ステップS112)、復号化の結果を映像合成部306と保存部305とに出力する。通信部304は、さらに、外部から映像符号パケットを受信すると(ステップS113)、映像符号をデコード部303に出力する。デコード部303は、映像符号データを元の信号に復号し(S114)、復号した映像信号データを映像合成部306に出力する。映像合成部306は、マーカー情報データと映像信号データを受け取ると、映像合成処理を行い(ステップS115)、映像表示部307は、合成された映像を画面に表示する(ステップS116)。
 ステップS120において、制御部309は、映像表示部307に接続された画面をタッチすることによって新規のマーカー情報データを生成する(ステップS121)。制御部309は、生成されたマーカー情報データを符号化し、通信部304に送る(ステップS122)。通信部304は、マーカー情報符号パケットを生成し、外部に送信する(ステップS123)。上記外部とは管理サーバー200であってよく、該パケットは、管理サーバー200に送信されてよい。
 続いて、管理サーバー200における作業支援方法の大まかな処理の手順について、図15を用いて説明する。
 管理サーバー200において、デコード部901は、受信した映像符号データを復号し元の映像データを生成し(ステップS200)、保存部903は、受信したマーカー情報データを復号し管理対象として保持し(ステップS210)、通信部902は、復号した映像信号に基づいて更新したマーカー情報データを送信し(ステップS220)、作業端末103の傾き情報に基づいて生成した補正映像を外部に出力し、(ステップS230)、制御部906は終了処理の判断を行う(ステップS240)。
 次に、図16を用いて、図15に示される各処理ステップの詳細を説明する。
 ステップS200において、通信部902は、映像符号パケットを受信し(ステップS201)、映像符号データをデコード部901に出力するとともに、作業端末103の傾き情報を補正映像生成部905に出力する。デコード部901は、受け取った映像符号データを元の映像信号データに復号して(ステップS202)、保存部903と補正映像生成部905とに出力する。
 ステップS210において、通信部902が、マーカー情報符号パケットを受信した場合(ステップS211)、制御部906は、マーカー情報データを復号し、元のマーカー情報データを取り出す(ステップS212)。制御部906は、マーカー情報を保存部903に保存する(ステップS213)。
 ステップS220において、制御部906は、保存部903に保存されているマーカー情報データの全てに対して以下の処理を実施する(ステップS221)。マーカー追跡部904は、保存部903から取り出された各マーカー情報に対して、マーカー追跡処理を実施する(ステップS222)。マーカー追跡部904は、更新されたマーカー情報データを保存部903に管理されているマーカー情報と置き換えするとともに(ステップS223)、制御部906に出力する。制御部906は、受け取ったマーカー情報データを符号化し(ステップS224)、通信部902は、符号化されたマーカー情報データをマーカー情報符号パケットに加工し、外部に出力する(ステップS225)。上記外部とは作業端末103と指示装置108であってよく、該パケットは、作業端末103と指示装置108に送信されてよい。
 ステップS230において、補正映像生成部905は、デコード部901で復号された現フレームの映像データ、保存部903に保存されている1フレーム前の映像データ、及び作業端末103の傾き情報を受け取ると、前述の映像補正処理を実施し(ステップS231)、実施の結果生成された補正映像データをエンコード部900に出力する。エンコード部900は、補正映像生成部905から補正映像データを受け取ると、符号化処理を実施して(ステップS232)、実施の結果生成された補正映像データの映像符号データを通信部902に出力する。通信部902は、補正映像データの映像符号データを受け取ると、通信できるように加工して、映像符号パケットを生成し、外部に送信する(ステップS233)。上記外部とは指示装置108であってよく、該パケットは、指示装置108に送信されてよい。同時に、通信部902は、補正前の映像符号データをそのまま、外部の、例えば作業端末103に送信する。これによって、作業端末103には、撮像映像データをそのまま送信することになり、指示装置108には補正後の映像データを送信することになる。
 以上の構成によって、作業者側の作業者が映像を撮像する作業端末の傾きと、指示者側の映像表示装置109に表示される映像の傾きとを合わせた状態で遠隔作業支援する方法を提供することができる。
 なお上述の如く、管理サーバー200の機能の全てを指示装置108が有していてもよい。換言すれば、作業端末103から撮像映像、及び作業端末103の傾き情報を受信する通信部、並びに作業端末103の傾きの情報に基づいて映像の表示傾き角を変更すべく映像データを補正する補正映像生成部を更に備える指示装置も本願発明に含まれる。
 (実施形態2)
 本発明の他の実施形態について、図17~図20に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 本実施形態においては、撮像された映像の解析結果に基づいて、映像の撮像向きを変えて指示者側の画面に表示する方法について説明する。
 前記実施形態1では、作業者側の作業者が映像を撮像する作業端末103の傾きと、指示者側の映像表示装置109に表示される映像の傾きとを略一致させることを行った。本実施形態では、撮像被写体に写っている内容に応じて、さらに撮像時の傾きを補正して表示できるようにする。具体的には、撮像映像内に文字等可読することができる情報を含む平面(以下、作業平面とも称する)が写っている場合に、表示される映像を、指示者が作業平面を正面から取得するような映像に変換して指示者側に表示する。
 本実施形態と実施形態1の構成は同じで良く、違いは、管理サーバー200の補正映像生成部905における処理内容の違いのみである。以下、補正映像生成部905の処理の違いについて説明する。
 <補正映像生成のフローチャート>
 図17は、本実施形態における補正映像生成処理の手順である。
 管理サーバー200の補正映像生成部905は、映像内に文字領域が存在するか否かの判定を行い(ステップS300、ステップS310)、映像内に文字領域が存在する場合、正面補正処理を実施する(ステップS320)。続いて、実施形態1に記載した映像補正処理を実施する(ステップS330)。なお、映像補正処理とは、傾き情報に基づく映像補正処理(図16(4)のステップS231)と同じで良い。文字検出および、正面補正については後述する。なお、映像補正処理(ステップS330)については、外部からの設定によってキャンセルしても良いものとする。
 <文字検出処理>
 本実施形態における、文字検出については、映像内に文字領域が存在するか否かの判定で十分であり、文字が何であるかの認識は不要である。このような、文字領域の存在の有無を判断するAPIは様々存在しており、例えば、OCR(Optical Character Recognition/Reader)による文字認識モジュールや、コンピュータビジョンの汎用APIであるOpenCV(Open Source Computer Vision Librar、オープンソースのコンピュータビジョン向けのライブラリ)の関数を用いて実現することができ、Scene Text Detection(http://docs.opencv.org/3.0-beta/modules/text/doc/erfilter.html)を使うことも可能である。
 <正面補正処理>
 本実施形態における、正面補正処理について、図18~図20を用いて説明する。
 補正映像生成部905における正面補正処理は、ホモグラフィ行列による射影変換処理によって実現する。射影変換処理とは、平面を別の平面に変換する処理であり、図18に示したような斜めから撮像された映像1800を正面から見ているように変換1801することである。
 初めに、補正映像生成部905におけるホモグラフィ行列Hによる射影変換処理の数式を下記(式6)に示す。
Figure JPOXMLDOC01-appb-M000006
 ここで、座標(m、n)と座標(m’、n’)はそれぞれ、変換前と変換後の座標を示しており、(式6)におけるHは、3×3の行列であり、各要素を下記(式7)のように示すことができる。
Figure JPOXMLDOC01-appb-M000007
 続いて、このホモグラフィ行列の算出方法を説明する。(式7)は、9つの要素を持っているが、h33を1となるように制御すると、実質の変数は8種類となる。変換前後の画素の対応によって、mとnに関する2つの式が得られるため、4点以上の対応関係が分かれば、最小2乗法によって求めることができる。最小2乗法に与える式は下記(式8)の通りである。
Figure JPOXMLDOC01-appb-M000008
 ここで、argmin(・)は、括弧内を最小にするargminの下部にあるパラメータを算出する関数である。
 以上、変換前と変換後の4組以上の座標の組合せがあれば、前述のホモグラフィ行列を算出することができ、かつ、(式6)を用いることで、画像全体の射影変換処理を実現することができる。
 続いて、補正前後の対応点を求める方法について説明する。
 その前に、補正映像生成部905は、映像を正面から撮像したように変換するということを、画像内に存在する所定以上の長さの直線において、向かい合う直線が平行になるように補正することによって実現する。これは、一般的に、可読文字が矩形状の領域内に記載されることが多いという経験則に基づいており、図18に示したように、対応する辺1802あるいは、辺1803を、それぞれ、辺1804と辺1805のように、平行になるように変換する。
 図19に、正面補正の処理手順について示す。
 初めに、補正映像生成部905は、画像処理のハフ変換によって、画像に存在する直線を検出する(ステップS321)。ハフ変換処理とは、画像の中から直線を検出するための一般的な手法で、原点から直線までの距離r(r≧0)と傾き角θ(0≦θ≦2Π)によって直線を規定し、それらを座標軸として、画像内のエッジを座標にプロット(投票)することで求める手法である。ハフ変換における、直線の式は下記(式9)のようになる。
Figure JPOXMLDOC01-appb-M000009
 次に、補正映像生成部905は、ハフ変換によって求められた投票数の多い直線の内、上位4つまでを抽出する(ステップS322)。ハフ変換では、長い直線ほど投票数が多くなる。抽出された直線は、(r,θ)=[i=0,…,3]で示す。
 続いて、補正映像生成部905は、抽出された直線が正面補正処理の対象となり得るかを判断する(ステップS323)。
 正面補正処理の対象となり得るかの判断(以下、正面補正判定と称す)は、以下のように実施する。
 補正映像生成部905における正面補正判定の第1の条件は、直線の長さが所定の長さ以上であることである。つまり、前述の投票数V(i)[i=0,…,3]が所定の数以上になっていることを判定する。ここでは、例えば、その閾値を20と設定する。
 補正映像生成部905における正面補正判定の第2の条件については、図20を用いて説明する。図20は、前述したハフ変換処理によって、抽出された4つの直線をプロットしたものを模式的に示した図である。
 補正映像生成部905は、抽出した4つの直線を表す(r,θ)=[i=0,…,3]から、似通った傾き角を持つ2つを選択して、図20の(1)に示したように2つのグループに分類する。このとき各グループに含まれる2つの直線は、向かい合う直線となっている。第2の条件は、グループ1とグループ2に含まれる直線の傾き角の差が所定の値以上であると規定する。ここでは、例えば、その閾値をΠ/4と設定する。
 上記2つの条件を満足した場合、補正映像生成部905は以下の補正処理を実施する。
 続いて、補正映像生成部905は、補正後の座標を、図20(2)に示したように、各グループに含まれる直線の傾き角が一致するように、ハフ変換の座標軸内で変換して算出する。補正後の傾き角は、グループに含まれる直線の傾き角の内、最大・最小のいずれかを選択しても良いし、平均値や中央値を選択しても良い。補正映像生成部905は、図20(2)になるように変換し、補正後の直線を求め、合わせて補正前と補正後の対応する座標を求めることができる(ステップS324)。
 最後に、補正映像生成部905は、前述した射影変換処理を画像全体に実施して、図18の1801に示したような、対象物に含まれる作業平面が正面となるように映像が補正された正面補正画像を取得する(ステップS325)。
 なお、本実施形態では、画像処理による正面補正の方法を示したが、正面から撮像したような映像を得られる手法であれば、どのような方法でも良い。例えば、作業端末のカメラ103aの側に、デプスマップ(2次元状に被写体までの距離値を示したマップデータ)の得られる測距デバイスを備えておき、被写体の面と作業端末の傾きとを直接求めるような構成にし、取得した傾きの情報から射影変換のパラメータを算出する構成であっても良い。
 以上の構成によって、撮像された映像の解析結果に基づいて、映像の撮像の向きが正面となるように映像を補正して指示者側の画面に表示した状態で遠隔作業支援する方法を提供することができる。
 (実施形態3)
 本発明の他の実施形態について、図21~図22に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 本実施形態においては、前述した傾き取得部308で取得した傾き情報を用いて、指示装置108で付与されたマーカー情報を回転し、作業端末103に表示する方法について説明する。
 上記、実施形態1、及び、実施形態2では、映像合成部306において、映像データと指示装置108から受信したマーカー情報データとを合成している。合成されるマーカー情報データは、指示装置108で表示されている補正後の映像1203を用いて生成されたものを、そのまま用いている。このため、マーカー情報データを用いて方向を指示する際には、作業端末103に表示されている指示方向と、指示者が意図する指示方向と、が異なり、適切に作業指示を行うことができないといった問題が発生する。
 そこで、本実施形態では、傾き取得部308で取得した傾き情報を用いて、マーカー情報を回転し、表示する方法を用いる。
 以下、実施形態1、及び実施形態2と異なる部分についてのみ記載する。
 <マーカー情報>
 本実施形態におけるマーカー情報について、図21を用いて説明する。
 マーカー情報2100は、マーカー情報400に含まれる要素に加え、始点情報と、終点情報と、を有する。
 始点情報と、終点情報と、は、指示装置108上の映像における座標である。ここで、指示装置108の画面2101上におけるマーカー2102の始点2103の座標を(xs,ys)とし、終点2104の座標を(xg,yg)とする。
 <マーカー情報の回転方法>
 続いて、傾き情報を用いて、マーカー情報を回転させる方法、言い換えると指示映像との表示傾き角の変更方法について、図22を用いて説明する。
 指示装置108の画面2201上で設定されたマーカー2202は、管理サーバーの補正映像生成部905に送信される。補正映像生成部905では、傾き取得部308で得た傾き情報θを用いて、マーカー2202の始点情報と、終点情報を更新する(式10、式11)。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
 始点と終点を更新したマーカー2204を作業端末の画面2203に表示する。
 以上、傾き取得部308で取得した傾き情報を用いて、指示装置108で付与されたマーカー情報を回転し、作業端末103に表示する方法を提供できる。
 (実施形態4)
 本発明の他の実施形態について、図23~図25に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 作業者が作業端末103を傾けて撮像するとき、作業者の姿勢は、図23(1)のように頭部を傾けない場合と、図23(2)のように頭部を傾ける場合と、がある。
 上記実施形態1、実施形態2、実施形態3では、頭部を傾けない場合は、作業者と、指示者と、が同じ傾きの映像を視るため、指示者による指示が適切に伝えることができる。
 しかし、頭部を傾ける場合は、指示装置108に表示される映像と、作業者が視ている映像の傾きが異なるため、適切に作業指示を行うことができないといった問題が発生する。
 そこで、本実施形態では、作業者の頭部の傾きを取得し、取得した頭部の傾きと、傾き取得部308で取得した傾き情報と、を用いて傾き情報に基づく映像処理方法を制御する方法を用いる。
 以下、実施形態1、実施形態2、実施形態3と異なる部分についてのみ記載する。
 <ブロック構成例(作業端末)>
 本実施形態における作業端末103のブロック構成について、図24を用いて説明する。
 実施形態1、実施形態2、実施形態3と異なる点は、作業者傾き取得部2401を有していることである。
 作業者傾き取得部2401が採用する方法は、作業者の頭部の傾きを取得できる方法であればよく、例えば、作業端末103の映像取得部301を用いて実現できる。作業者の頭部の傾きを算出する方法については後述する。
 <作業者頭部の傾きの取得方法>
 本実施形態における、作業端末103の傾き情報の取得方法について、図25を用いて説明する。作業者傾き取得部2401では、映像取得部301で取得した作業者の顔画像2501から、右目2502と、左目2503と、を検出し、右目2502から左目2503を結ぶ直線を用いて顔の傾きθwを算出する。
 右目2502と、左目2503と、を検出するための特徴量は、例えばHaar-like特徴量等を用いることができる。
 <傾き情報に基づく映像処理方法>
 本実施形態における、傾き情報に基づく映像処理方法について説明する。実施形態1、実施形態2、実施形態3では、作業端末103の傾き情報のみを用いて映像を処理していた。本実施形態では、作業端末103の傾き情報と、作業者の傾き情報と、の差分を用いて作業端末103と作業者の為す傾きを算出し、映像を処理する(式12、式13、式14、式15)。
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
Figure JPOXMLDOC01-appb-M000015
 以上、作業者の頭部の傾きを取得し、取得した頭部の傾きと、傾き取得部308で取得した傾き情報とを用いて、傾き情報に基づく、撮像映像の表示傾き角を変更する映像処理方法を制御する方法を提供できる。
 (実施形態5)
 上記実施形態では、指示装置108に表示される映像を傾けることを説明しているが、それに限定されず、映像表示部307の背面に表示部回転調整部(図示していない)を備え傾き取得部で取得した傾き情報に基づいて表示部を回転させる等、映像表示部307を物理的に傾ける構成としてもよい。
 これにより、作業者側の作業者が映像を撮像する作業端末の傾きと、指示装置に表示される映像の傾きとを合わせることができ、かつ、映像表示装置109の表示領域として画面全体を利用することができる。(画像処理の場合に発生する画像が表示されない領域(図12の黒色部分等)が発生しない。)
 表示部回転調整部としては、モーターや四節回転機構等種々の既存の回転機構を利用できる。
 <実施形態1~5について>
 上記の各実施形態において、添付図面に図示されている構成等については、あくまで一例であり、これらに限定されるものではなく、本発明の一態様の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の一態様の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。
 上記の各実施形態の説明では、機能を実現するための各構成要素をそれぞれ異なる部位であるとして説明を行っているが、実際にこのように明確に分離して認識できる部位を有していなければならないわけではない。上記の各実施形態の機能を実現する遠隔作業支援の装置が、機能を実現するための各構成要素を、例えば実際にそれぞれ異なる部位を用いて構成していてもかまわないし、あるいは、全ての構成要素を一つのLSIに実装していてもかまわない。すなわち、どういう実装形態であれ、機能として各構成要素を有していれば良い。また、本発明の一態様の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明の一態様に含まれるものである。
 作業支援装置Aの制御ブロック(特に作業端末103の映像取得部301、エンコード部302、デコード部303、通信部304、映像合成部306、傾き取得部308、及び制御部309、指示装置108のデコード部401、通信部402、映像合成部404、及び制御部405、並びに管理サーバーのエンコード部900、デコード部901、通信部902、マーカー追跡部904、補正映像生成部905、及び制御部906)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
 また、上記の各実施形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実施することにより各部の処理を行っても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
 〔まとめ〕
 本発明の態様1に係る作業支援装置(管理サーバー200)は、作業端末103において撮像された対象物(作業対象物102)の撮像映像を受信する受信部(通信部902)と、前記作業端末103の撮像時の傾きを取得する傾き取得部(通信部902)と、前記傾き取得部(通信部902)で取得された前記作業端末103の傾きに応じて、受信した前記対象物(作業対象物102)の撮像映像の表示傾き角を変更する補正映像生成部905と、前記表示傾き角が変更された撮像映像を外部に出力する出力部(通信部902)と、を有する。
 上記の構成によれば、作業端末103の傾きに応じて、受信した対象物(作業対象物102)の撮像映像の表示傾き角が変更されるので、作業端末103を用いて作業する作業者と、受信した対象物(作業対象物102)の撮像映像を見る指示者との双方の作業効率を向上させることができる。
 そして、指示者からの作業指示を作業者に適切に伝えることが支援されることができる。
 本発明の態様2に係る作業支援装置(管理サーバー200)は、前記態様1において、前記補正映像生成部905は、前記作業端末103の鉛直方向と、前記受信した対象物(作業対象物102)の撮像映像の鉛直方向と、を略一致させてもよい。
 上記の構成によれば、作業者側の作業者が映像を撮像する作業端末103の傾きと、指示者側の映像表示装置109に表示される映像の傾きとを合わせた状態で遠隔作業支援することができる。
 また、撮像された映像の解析結果に基づいて、映像の撮像の向きを変えて指示者側の画面に表示した状態で遠隔作業支援することができる。
 本発明の態様3に係る作業支援装置(管理サーバー200)は、前記態様1または2において、前記補正映像生成部905は、前記対象物(作業対象物102)に含まれる作業平面が正面となるように映像を補正してもよい。
 上記の構成によれば、指示者は、作業平面を正面から捉えることができる。
 本発明の態様4に係る作業支援装置(管理サーバー200)は、前記態様1~3の何れか1態様において、前記補正映像生成部905は、前記受信した対象物(作業対象物102)の撮像映像の表示傾き角と、前記受信した対象物(作業対象物102)の撮像映像に対して生成された指示映像との表示傾き角と、を変更してもよい。
 上記の構成によれば、作業端末103の傾きに応じて、指示装置108で付与された指示映像を回転し、作業端末103に表示させることができる。
 本発明の態様5に係る作業支援装置(管理サーバー200)は、前記態様1~4の何れか1態様において、前記補正映像生成部905は、前記作業端末103の傾きと、前記作業端末103を保持する作業者101の頭部の傾きと、に基づき、前記受信した対象物(作業対象物102)の撮像映像の表示傾き角を変更してもよい。
 上記の構成によれば、作業者101の頭部の傾きと、作業端末103の傾きと、に応じて、作業者101が視ている方向と指示者107側の表示される映像の傾きを合わせた状態で遠隔作業支援することができる。
 本発明の態様6に係る作業支援方法は、作業端末103において撮像された対象物(作業対象物102)の撮像映像を受信する受信ステップと、前記作業端末103の撮像時の傾きを取得する傾き取得ステップと、前記傾き取得ステップにおいて取得された前記作業端末103の傾きに応じて、受信した前記対象物(作業対象物102)の撮像映像の表示傾き角を変更する補正映像生成ステップと、前記表示傾き角が変更された撮像映像を外部に出力する出力ステップと、を有する。
 前記の構成によれば、態様1に係る作業支援装置(管理サーバー200)と同様の効果を奏することができる。
 本発明の態様7に係る指示装置108は、作業端末103において撮像された対象物(作業対象物102)の撮像映像を受信する受信部(通信部902)と、前記作業端末103の撮像時の傾きを取得する傾き取得部(通信部902)と、前記傾き取得部(通信部902)で取得された前記作業端末103の傾きに応じて、受信した前記対象物(作業対象物102)の撮像映像の表示傾き角を変更する補正映像生成部905と、表示傾き角が変更された前記受信した対象物(作業対象物102)の撮像映像を表示する映像表示部(映像表示装置109)と、を有する。
 前記の構成によれば、態様1に係る作業支援装置(管理サーバー200)と同様の効果を奏することができる。
 本発明の各態様に係る作業支援装置(管理サーバー200)は、コンピュータによって実現してもよく、この場合には、コンピュータを前記作業支援装置Aが備える各部(ソフトウェア要素)として動作させることにより前記作業支援装置(管理サーバー200)をコンピュータにて実現させる作業支援装置の作業支援制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の一態様の範疇に入る。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 (関連出願の相互参照)
 本出願は、2015年12月22日に出願された日本国特許出願:特願2015-250547に対して優先権の利益を主張するものであり、それを参照することにより、その内容の全てが本書に含まれる。
 102 作業対象物(対象物)
 103 作業端末(端末)
 108 指示装置
 109 映像表示装置(映像表示部)
 200 管理サーバー(作業支援装置)
 902 通信部(受信部、傾き取得部、出力部)
 905 補正映像生成部

Claims (10)

  1.  撮像映像を受信する受信部と、
     前記撮像映像の撮像傾きを取得する傾き取得部と、
     前記傾き取得部で取得された前記撮像傾きに応じて、受信した前記撮像映像の表示傾き角を変更する補正映像生成部と、
     前記表示傾き角が変更された撮像映像を外部に出力する出力部と、
     を有することを特徴とする作業支援装置。
  2.  前記撮像映像は、端末において撮像された対象物の撮像映像であり、
     前記撮像傾きは、前記端末の撮像時の傾きである
     ことを特徴とする請求項1に記載の作業支援装置。
  3.  前記補正映像生成部は、
     前記端末の鉛直方向と、前記受信した撮像映像の鉛直方向と、を略一致させる
     ことを特徴とする請求項2に記載の作業支援装置。
  4.  前記補正映像生成部は、
     前記撮像映像に含まれる作業平面が正面となるように映像を補正する
     ことを特徴とする請求項2又は3に記載の作業支援装置。
  5.  前記補正映像生成部は、
     前記受信した撮像映像の表示傾き角と、前記受信した撮像映像に対して生成された指示映像の表示傾き角と、を変更する
     ことを特徴とする請求項2~4の何れか1項に記載の作業支援装置。
  6.  前記補正映像生成部は、
     前記撮像映像を撮像した端末の撮像傾きと、前記端末を保持する作業者の頭部の傾きと、に基づき、前記受信した撮像映像の表示傾き角を変更する
     ことを特徴とする請求項2~5の何れか1項に記載の作業支援装置。
  7.  撮像映像を受信する受信ステップと、
     前記撮像映像の撮像傾きを取得する傾き取得ステップと、
     前記傾き取得ステップにおいて取得された前記撮像傾きに応じて、受信した前記撮像映像の表示傾き角を変更する補正映像生成ステップと、
     前記表示傾き角が変更された撮像映像を外部に出力する出力ステップと、
     を有することを特徴とする作業支援方法。
  8.  撮像映像を受信する受信部と、
     前記撮像映像の撮像傾きを取得する傾き取得部と、
     前記傾き取得部で取得された前記撮像傾きに応じて、受信した前記撮像映像の表示傾き角を変更する補正映像生成部と、
     表示傾き角が変更された前記受信した撮像映像を表示する映像表示部と、
     を有することを特徴とする指示装置。
  9.  請求項1~6の何れか1項に記載の作業支援装置としてコンピュータを機能させるための作業支援プログラムであって、前記受信部、前記傾き取得部、前記補正映像生成部、及び前記出力部としてコンピュータを機能させるための作業支援プログラム。
  10.  請求項9に記載の作業支援プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2016/087359 2015-12-22 2016-12-15 作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体 WO2017110645A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017558072A JP6640876B2 (ja) 2015-12-22 2016-12-15 作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体
US16/065,237 US20210168292A1 (en) 2015-12-22 2016-12-15 Operation assistance device, operation assistance method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-250547 2015-12-22
JP2015250547 2015-12-22

Publications (1)

Publication Number Publication Date
WO2017110645A1 true WO2017110645A1 (ja) 2017-06-29

Family

ID=59090233

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/087359 WO2017110645A1 (ja) 2015-12-22 2016-12-15 作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体

Country Status (3)

Country Link
US (1) US20210168292A1 (ja)
JP (1) JP6640876B2 (ja)
WO (1) WO2017110645A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000152069A (ja) * 1998-11-09 2000-05-30 Toshiba Corp 撮影装置、映像伝送システム、映像受信装置、映像送信装置、映像符号化装置および映像再生装置
JP2000307947A (ja) * 1999-04-16 2000-11-02 Ricoh Co Ltd 画像処理装置およびその方法
JP2007299326A (ja) * 2006-05-02 2007-11-15 Canon Inc 情報処理装置及びその制御方法、画像処理装置、プログラム、記憶媒体
WO2012105499A1 (ja) * 2011-01-31 2012-08-09 ブラザー工業株式会社 画像処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5093968B2 (ja) * 2003-10-15 2012-12-12 オリンパス株式会社 カメラ
JP2008177819A (ja) * 2007-01-18 2008-07-31 Mitsubishi Electric Corp 携帯端末装置
JP5797069B2 (ja) * 2011-09-16 2015-10-21 キヤノン株式会社 撮影装置、その制御方法、および制御プログラム
JP2015033056A (ja) * 2013-08-05 2015-02-16 三星電子株式会社Samsung Electronics Co.,Ltd. 撮像装置、表示装置、撮像方法及び撮像プログラム
JP6327832B2 (ja) * 2013-10-29 2018-05-23 キヤノン株式会社 撮影装置、撮影方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000152069A (ja) * 1998-11-09 2000-05-30 Toshiba Corp 撮影装置、映像伝送システム、映像受信装置、映像送信装置、映像符号化装置および映像再生装置
JP2000307947A (ja) * 1999-04-16 2000-11-02 Ricoh Co Ltd 画像処理装置およびその方法
JP2007299326A (ja) * 2006-05-02 2007-11-15 Canon Inc 情報処理装置及びその制御方法、画像処理装置、プログラム、記憶媒体
WO2012105499A1 (ja) * 2011-01-31 2012-08-09 ブラザー工業株式会社 画像処理装置

Also Published As

Publication number Publication date
US20210168292A1 (en) 2021-06-03
JPWO2017110645A1 (ja) 2018-11-08
JP6640876B2 (ja) 2020-02-05

Similar Documents

Publication Publication Date Title
CN108932051B (zh) 增强现实图像处理方法、装置及存储介质
CN106462937B (zh) 图像处理装置以及图像显示装置
JPWO2018235163A1 (ja) キャリブレーション装置、キャリブレーション用チャート、チャートパターン生成装置、およびキャリブレーション方法
JP7059054B2 (ja) 画像処理装置、画像処理方法およびプログラム
US20190289203A1 (en) Image processing apparatus, image capturing system, image processing method, and recording medium
JP2017017689A (ja) 全天球動画の撮影システム、及びプログラム
US20190289206A1 (en) Image processing apparatus, image capturing system, image processing method, and recording medium
CN111226255A (zh) 图像处理设备,图像捕获系统,图像处理方法和记录介质
JPWO2021076757A5 (ja)
TWI615808B (zh) 全景即時影像處理方法
US10750080B2 (en) Information processing device, information processing method, and program
JP2010217984A (ja) 像検出装置及び像検出方法
JP2018073366A (ja) 画像処理装置、画像処理方法、およびプログラム
KR20210132624A (ko) 도로측 카메라의 외부 파라미터에 기반한 3차원 감지 정보 획득 방법과 도로측 기기
WO2021253173A1 (zh) 图像处理方法、装置及巡检系统
WO2018167971A1 (ja) 画像処理装置、制御方法及び制御プログラム
WO2024055531A1 (zh) 照度计数值识别方法、电子设备及存储介质
JP6640876B2 (ja) 作業支援装置、作業支援方法、作業支援プログラム、及び記録媒体
JP2018014572A (ja) 情報処理装置、画像処理システム、プログラム
JP2012222664A (ja) 車載カメラシステム
WO2018195973A1 (zh) 利用手持终端进行光标定位的方法、手持终端和电子设备
US20180061135A1 (en) Image display apparatus and image display method
CN110786017B (zh) 分发图像生成方法
WO2017057426A1 (ja) 投影装置、コンテンツ決定装置、投影方法、および、プログラム
CN114567742A (zh) 全景视频的传输方法、装置及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16878536

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017558072

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16878536

Country of ref document: EP

Kind code of ref document: A1